論文の概要: Multi-Source Test-Time Adaptation as Dueling Bandits for Extractive
Question Answering
- arxiv url: http://arxiv.org/abs/2306.06779v1
- Date: Sun, 11 Jun 2023 21:18:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 16:48:33.957099
- Title: Multi-Source Test-Time Adaptation as Dueling Bandits for Extractive
Question Answering
- Title(参考訳): 抽出質問応答のためのデュエルバンディットとしてのマルチソーステスト時間適応
- Authors: Hai Ye, Qizhe Xie, Hwee Tou Ng
- Abstract要約: ユーザフィードバックからのマルチソーステストタイムモデル適応について検討した。
マルチアーム・バンディット学習とマルチアーム・デュエル・バンディットの2つの枠組みについて論じる。
マルチアームバンディット学習と比較して、このデュエルフレームワークはKモデル間のペアワイズ協調を可能にし、この研究で提案されたCo-UCBという新しい手法によって解決される。
- 参考スコア(独自算出の注目度): 25.44581667865143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study multi-source test-time model adaptation from user
feedback, where K distinct models are established for adaptation. To allow
efficient adaptation, we cast the problem as a stochastic decision-making
process, aiming to determine the best adapted model after adaptation. We
discuss two frameworks: multi-armed bandit learning and multi-armed dueling
bandits. Compared to multi-armed bandit learning, the dueling framework allows
pairwise collaboration among K models, which is solved by a novel method named
Co-UCB proposed in this work. Experiments on six datasets of extractive
question answering (QA) show that the dueling framework using Co-UCB is more
effective than other strong baselines for our studied problem.
- Abstract(参考訳): 本研究では,ユーザフィードバックによるマルチソーステスト時モデル適応について検討する。
効率的な適応を可能にするため,適応後の最適適応モデルを決定することを目的として,確率的決定過程として問題を提起した。
マルチアーム・バンディット学習とマルチアーム・デュエル・バンディットの2つの枠組みについて論じる。
マルチアームバンディット学習と比較して、このデュエルフレームワークはKモデル間のペアワイズ協調を可能にし、この研究で提案されたCo-UCBという新しい手法によって解決される。
抽出質問応答(QA)の6つのデータセットを用いた実験により,Co-UCBを用いたデュエルフレームワークは,本研究における他の強力なベースラインよりも有効であることが示された。
関連論文リスト
- Master-slave Deep Architecture for Top-K Multi-armed Bandits with
Non-linear Bandit Feedback and Diversity Constraints [21.109631268204215]
本稿では,トップ$Kのマルチアームバンディット問題を解決するために,新しいマスタースレーブアーキテクチャを提案する。
我々の知る限りでは、バンドイットフィードバックの下で多様性の制約を考慮に入れた最初のバンドイットである。
論文 参考訳(メタデータ) (2023-08-24T09:39:04Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - Polarity and Subjectivity Detection with Multitask Learning and BERT
Embedding [12.7978001322121]
極性と主観的検出を共同で行う深層マルチタスク学習フレームワークを提案する。
極性と主観性を予測するために,注目に基づくマルチタスクモデルを提案する。
提案手法を,主観的・極性的に分類された単一タスクとマルチタスクの両フレームワークにおける最先端モデルと比較する。
論文 参考訳(メタデータ) (2022-01-14T09:52:15Z) - MetaQA: Combining Expert Agents for Multi-Skill Question Answering [49.35261724460689]
マルチデータセットモデルの有望な結果にもかかわらず、いくつかのドメインやQAフォーマットは特定のアーキテクチャを必要とするかもしれません。
本稿では,専門家エージェントと,質問,回答予測,回答予測信頼度スコアを考慮した,新しい,柔軟な,学習効率の高いアーキテクチャを組み合わせることを提案する。
論文 参考訳(メタデータ) (2021-12-03T14:05:52Z) - Statistical Consequences of Dueling Bandits [0.0]
マルチアーマッド・バンディットのフレームワークは、しばしば教育介入を評価するために使われてきた。
近年の研究では、学生が嗜好の誘惑を通じて質的なフィードバックを提供する方が有益であることが示されている。
我々は,従来の一様サンプリング法とデュエルバンディットアルゴリズムを比較し,デュエルバンディットアルゴリズムが累積後悔最小化時に良好に動作することを示すが,特定の状況下でのType-I誤差率の増大と消費電力の低減につながる。
論文 参考訳(メタデータ) (2021-10-16T23:48:43Z) - UnitedQA: A Hybrid Approach for Open Domain Question Answering [70.54286377610953]
最近の訓練済みのニューラル言語モデルに基づいて,抽出的および生成的読取能力を高めるために,新しい手法を適用した。
私たちのアプローチは、それぞれNaturalQuestionsとTriviaQAと正確な一致で、以前の最先端のモデルを3.3と2.7ポイント上回る。
論文 参考訳(メタデータ) (2021-01-01T06:36:16Z) - Exploiting Transitivity for Top-k Selection with Score-Based Dueling
Bandits [0.0]
スコア情報を用いたデュエル・バンディット問題における上位kサブセット選択の問題を検討する。
本稿では,thurstonianスタイルモデルを提案し,部分集合選択(pocbam)サンプリング法にペアワイズ最適計算予算割り当てを適用する。
論文 参考訳(メタデータ) (2020-12-31T14:54:25Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z) - Learning to Recover Reasoning Chains for Multi-Hop Question Answering
via Cooperative Games [66.98855910291292]
本稿では,弱い教師付き信号から推論連鎖を復元する学習法を提案する。
証拠通路をどのように選択し、どのように選択された通路を接続するかを2つのモデルで処理する。
評価のために、2つのマルチホップQAデータセットに基づいたベンチマークを作成しました。
論文 参考訳(メタデータ) (2020-04-06T03:54:38Z) - DUMA: Reading Comprehension with Transposition Thinking [107.89721765056281]
MRC (Multi-choice Machine Reading) は、解答オプションのセットから正しい解答を決定するためのモデルを必要とする。
新しい Dual Multi-head Co-Attention (DUMA) モデルは、多選択MRC問題を解決する人間の転置思考プロセスにインスパイアされている。
論文 参考訳(メタデータ) (2020-01-26T07:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。