Fugu-MT 論文翻訳(概要): Multi-Source Test-Time Adaptation as Dueling Bandits for Extractive Question Answering

論文の概要: Multi-Source Test-Time Adaptation as Dueling Bandits for Extractive Question Answering

arxiv url: http://arxiv.org/abs/2306.06779v1
Date: Sun, 11 Jun 2023 21:18:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-13 16:48:33.957099
Title: Multi-Source Test-Time Adaptation as Dueling Bandits for Extractive Question Answering
Title（参考訳）: 抽出質問応答のためのデュエルバンディットとしてのマルチソーステスト時間適応
Authors: Hai Ye, Qizhe Xie, Hwee Tou Ng
Abstract要約: ユーザフィードバックからのマルチソーステストタイムモデル適応について検討した。マルチアーム・バンディット学習とマルチアーム・デュエル・バンディットの2つの枠組みについて論じる。マルチアームバンディット学習と比較して、このデュエルフレームワークはKモデル間のペアワイズ協調を可能にし、この研究で提案されたCo-UCBという新しい手法によって解決される。
参考スコア（独自算出の注目度）: 25.44581667865143
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we study multi-source test-time model adaptation from user feedback, where K distinct models are established for adaptation. To allow efficient adaptation, we cast the problem as a stochastic decision-making process, aiming to determine the best adapted model after adaptation. We discuss two frameworks: multi-armed bandit learning and multi-armed dueling bandits. Compared to multi-armed bandit learning, the dueling framework allows pairwise collaboration among K models, which is solved by a novel method named Co-UCB proposed in this work. Experiments on six datasets of extractive question answering (QA) show that the dueling framework using Co-UCB is more effective than other strong baselines for our studied problem.
Abstract（参考訳）: 本研究では,ユーザフィードバックによるマルチソーステスト時モデル適応について検討する。効率的な適応を可能にするため,適応後の最適適応モデルを決定することを目的として,確率的決定過程として問題を提起した。マルチアーム・バンディット学習とマルチアーム・デュエル・バンディットの2つの枠組みについて論じる。マルチアームバンディット学習と比較して、このデュエルフレームワークはKモデル間のペアワイズ協調を可能にし、この研究で提案されたCo-UCBという新しい手法によって解決される。抽出質問応答(QA)の6つのデータセットを用いた実験により,Co-UCBを用いたデュエルフレームワークは,本研究における他の強力なベースラインよりも有効であることが示された。

関連論文リスト

Adaptive Combinatorial Experimental Design: Pareto Optimality for Decision-Making and Inference [2.9618272039677667]
われわれは,多武装バンディット(CMAB)における後悔と統計的パワーのトレードオフに着目した適応型実験設計に関する最初の研究を行った。情報構造が異なる2つのケースに対して,MixCombKLとMixCombUCBの2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2026-02-27T17:58:37Z)
Empirical Bayesian Multi-Bandit Learning [8.980876474818153]
文脈的包帯におけるマルチタスク学習は、大きな研究関心を集めている。本稿では,様々な帯域で学習する階層型ベイズフレームワークを提案する。提案アルゴリズムは既存の手法に比べて累積的後悔度が低いことを示す。
論文参考訳（メタデータ） (2025-10-30T09:08:07Z)
Decomposition-Enhanced Training for Post-Hoc Attributions In Language Models [64.49342399229529]
我々は、ポストホック帰属を推論問題として再編成し、回答を構成単位に分解し、それぞれ特定の文脈に結び付けることができると論じる。 DecompTuneは、モデルに中間的推論ステップとして解解分解を生成することを教えるポストトレーニング手法である。 DecompTuneは、広範な実験と改善を通じて、属性の品質を大幅に改善し、先行手法より優れ、最先端のフロンティアモデルに適合または超えている。
論文参考訳（メタデータ） (2025-10-29T17:58:59Z)
Learning from Peers: Collaborative Ensemble Adversarial Training [1.805627331168865]
本研究では, アンサンブルにおけるサブモデル間の協調学習を強調するための, 効率的で効率的なコラボレーション・アンサンブル・アドバイザリアル・トレーニング(CEAT)を提案する。 CEATはモデルに依存しないため、柔軟性のある様々なアンサンブル法にシームレスに適応することができる。
論文参考訳（メタデータ） (2025-08-27T13:10:40Z)
Online Clustering of Dueling Bandits [59.09590979404303]
本稿では、優先フィードバックに基づく協調的な意思決定を可能にするために、最初の「デュエルバンディットアルゴリズムのクラスタリング」を導入する。本稿では,(1)ユーザ報酬関数をコンテキストベクトルの線形関数としてモデル化する線形デューリング帯域のクラスタリング(COLDB)と,(2)ニューラルネットワークを用いて複雑な非線形ユーザ報酬関数をモデル化するニューラルデューリング帯域のクラスタリング(CONDB)の2つの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-04T07:55:41Z)
Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond [58.39457881271146]
CMAB(Multi-armed bandits)の多変量および確率的トリガーアーム(CMAB-MT)を用いた新しい枠組みを導入する。 CMAB-MTは既存のCMABと比べ、モデリング能力を高めるだけでなく、多変量確率変数の異なる統計特性を活用することで結果を改善することができる。本フレームワークは, エピソード強化学習(RL)や商品分布の確率的最大カバレッジなど, 応用として多くの重要な問題を含むことができる。
論文参考訳（メタデータ） (2024-06-03T14:48:53Z)
UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文参考訳（メタデータ） (2024-05-01T09:34:42Z)
A Bandit Approach with Evolutionary Operators for Model Selection [0.4604003661048266]
この研究は、モデル選択を無限武装のバンディット問題、すなわち意思決定者が無限数の固定された選択のうちの1つを反復的に選択する問題として定式化する。アームは、モデルの部分的なトレーニングに対応するアームをトレーニングし、選択するための機械学習モデルである(リソース割り当て)。本稿では,Audiber らによって導入された UCB-E bandit アルゴリズムに,進化的アルゴリズムからの演算子を組み込んだ Mutant-UCB アルゴリズムを提案する。 3つのオープンソース画像分類データセットで実施されたテストは、この新しい組み合わせ手法の妥当性を証明し、状態よりも優れている。
論文参考訳（メタデータ） (2024-02-07T08:01:45Z)
Master-slave Deep Architecture for Top-K Multi-armed Bandits with Non-linear Bandit Feedback and Diversity Constraints [21.109631268204215]
本稿では,トップ$Kのマルチアームバンディット問題を解決するために,新しいマスタースレーブアーキテクチャを提案する。我々の知る限りでは、バンドイットフィードバックの下で多様性の制約を考慮に入れた最初のバンドイットである。
論文参考訳（メタデータ） (2023-08-24T09:39:04Z)
On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。 TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文参考訳（メタデータ） (2023-06-06T09:35:29Z)
MetaQA: Combining Expert Agents for Multi-Skill Question Answering [49.35261724460689]
マルチデータセットモデルの有望な結果にもかかわらず、いくつかのドメインやQAフォーマットは特定のアーキテクチャを必要とするかもしれません。本稿では,専門家エージェントと,質問,回答予測,回答予測信頼度スコアを考慮した,新しい,柔軟な,学習効率の高いアーキテクチャを組み合わせることを提案する。
論文参考訳（メタデータ） (2021-12-03T14:05:52Z)
Statistical Consequences of Dueling Bandits [0.0]
マルチアーマッド・バンディットのフレームワークは、しばしば教育介入を評価するために使われてきた。近年の研究では、学生が嗜好の誘惑を通じて質的なフィードバックを提供する方が有益であることが示されている。我々は,従来の一様サンプリング法とデュエルバンディットアルゴリズムを比較し,デュエルバンディットアルゴリズムが累積後悔最小化時に良好に動作することを示すが,特定の状況下でのType-I誤差率の増大と消費電力の低減につながる。
論文参考訳（メタデータ） (2021-10-16T23:48:43Z)
Exploiting Transitivity for Top-k Selection with Score-Based Dueling Bandits [0.0]
スコア情報を用いたデュエル・バンディット問題における上位kサブセット選択の問題を検討する。本稿では,thurstonianスタイルモデルを提案し,部分集合選択(pocbam)サンプリング法にペアワイズ最適計算予算割り当てを適用する。
論文参考訳（メタデータ） (2020-12-31T14:54:25Z)
Learning to Recover Reasoning Chains for Multi-Hop Question Answering via Cooperative Games [66.98855910291292]
本稿では,弱い教師付き信号から推論連鎖を復元する学習法を提案する。証拠通路をどのように選択し、どのように選択された通路を接続するかを2つのモデルで処理する。評価のために、2つのマルチホップQAデータセットに基づいたベンチマークを作成しました。
論文参考訳（メタデータ） (2020-04-06T03:54:38Z)
DUMA: Reading Comprehension with Transposition Thinking [107.89721765056281]
MRC (Multi-choice Machine Reading) は、解答オプションのセットから正しい解答を決定するためのモデルを必要とする。新しい Dual Multi-head Co-Attention (DUMA) モデルは、多選択MRC問題を解決する人間の転置思考プロセスにインスパイアされている。
論文参考訳（メタデータ） (2020-01-26T07:35:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。