Fugu-MT 論文翻訳(概要): Strengthened Symbol Binding Makes Large Language Models Reliable Multiple-Choice Selectors

論文の概要: Strengthened Symbol Binding Makes Large Language Models Reliable Multiple-Choice Selectors

arxiv url: http://arxiv.org/abs/2406.01026v2
Date: Thu, 6 Jun 2024 06:32:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 19:54:03.354544
Title: Strengthened Symbol Binding Makes Large Language Models Reliable Multiple-Choice Selectors
Title（参考訳）: 言語モデルの信頼性を向上したシンボル結合
Authors: Mengge Xue, Zhenyu Hu, Liqun Liu, Kuo Liao, Shuang Li, Honglin Han, Meng Zhao, Chengguo Yin,
Abstract要約: 大規模言語モデル(LLM)研究における重要な研究領域として,MCQ(Multiple-Choice Questions)があげられる。我々は、ポイントワイド・インテリジェント・フィードバック(PIF)と呼ばれるMCQのための効率的なスーパーバイザード・ファインチューニングアルゴリズムを導入する。
参考スコア（独自算出の注目度）: 11.470005425117371
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multiple-Choice Questions (MCQs) constitute a critical area of research in the study of Large Language Models (LLMs). Previous works have investigated the selection bias problem in MCQs within few-shot scenarios, in which the LLM's performance may be influenced by the presentation of answer choices, leaving the selection bias during Supervised Fine-Tuning (SFT) unexplored. In this paper, we reveal that selection bias persists in the SFT phase , primarily due to the LLM's inadequate Multiple Choice Symbol Binding (MCSB) ability. This limitation implies that the model struggles to associate the answer options with their corresponding symbols (e.g., A/B/C/D) effectively. To enhance the model's MCSB capability, we first incorporate option contents into the loss function and subsequently adjust the weights of the option symbols and contents, guiding the model to understand the option content of the current symbol. Based on this, we introduce an efficient SFT algorithm for MCQs, termed Point-wise Intelligent Feedback (PIF). PIF constructs negative instances by randomly combining the incorrect option contents with all candidate symbols, and proposes a point-wise loss to provide feedback on these negative samples into LLMs. Our experimental results demonstrate that PIF significantly reduces the model's selection bias by improving its MCSB capability. Remarkably, PIF exhibits a substantial enhancement in the accuracy for MCQs.
Abstract（参考訳）: 大規模言語モデル (LLMs) の研究において, MCQ (Multiple-Choice Questions) が重要な研究領域となっている。これまでの研究は、LCMのパフォーマンスが回答選択の提示に影響され、スーパービジョン・ファインチューニング(SFT)における選択バイアスが未探索のままである、というシナリオにおいて、MCQにおける選択バイアス問題を調査してきた。本稿では,LLMのMCSB能力が不十分なため,選択バイアスがSFT相に持続していることを明らかにする。この制限は、モデルが解の選択肢と対応する記号(例えば、A/B/C/D)を効果的に関連付けるのに苦労していることを意味する。モデルのMCSB能力を高めるために、まず損失関数にオプション内容を取り込んで、オプションシンボルとコンテンツの重みを調整し、現在のシンボルのオプション内容を理解するようモデルに指示する。そこで我々は,ポイントワイド・インテリジェント・フィードバック (PIF) と呼ばれるMCQに対する効率的なSFTアルゴリズムを提案する。 PIFは、不正なオプション内容とすべての候補シンボルをランダムに組み合わせて負のインスタンスを構築し、これらの負のサンプルをLLMにフィードバックするポイントワイズ損失を提案する。実験の結果, PIF は MCSB 能力を向上させることにより, モデル選択バイアスを著しく低減することが示された。興味深いことに、PIFはMCQの精度を大幅に向上させる。

関連論文リスト

Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。 MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文参考訳（メタデータ） (2025-05-20T18:33:03Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
Addressing Blind Guessing: Calibration of Selection Bias in Multiple-Choice Question Answering by Video Language Models [16.34646723046073]
ビデオ言語モデル(VLM)は、複雑なビデオ中心の質問に答えるように設計されている。現在のベンチマークでは、選択バイアスのため、VLMの完全な推論能力の取得に失敗している。本研究は,ビデオ-テキスト LLM モデルにおける選択バイアスについて,初めて焦点を絞った研究である。
論文参考訳（メタデータ） (2024-10-18T07:52:22Z)
Mitigating Selection Bias with Node Pruning and Auxiliary Options [11.835002896308545]
大規模言語モデル (LLM) は、複数の質問に応答するときに、特定の選択オプションに対して不当な好みを示すことが多い。以前のソリューションでは、モデルの入力と/または出力を調整するためにデバイアス法を使用していた。対照的に、我々の研究は選択バイアスのモデルの内部表現を調査している。
論文参考訳（メタデータ） (2024-09-27T15:53:54Z)
Differentiating Choices via Commonality for Multiple-Choice Question Answering [54.04315943420376]
複数選択の質問応答は、正しい答えを選択するための貴重な手がかりを提供することができる。既存のモデルでは、それぞれの選択を別々にランク付けし、他の選択によって提供されるコンテキストを見渡すことが多い。本稿では,DCQAと呼ばれる共通性を識別・排除することで,選択を識別する新しいモデルを提案する。
論文参考訳（メタデータ） (2024-08-21T12:05:21Z)
Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文参考訳（メタデータ） (2024-05-25T08:23:05Z)
Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文参考訳（メタデータ） (2024-03-01T09:01:53Z)
Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文参考訳（メタデータ） (2023-09-07T17:44:56Z)
Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions [5.187383020960245]
大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な機能を示した。これまでの研究では、これらのモデルが素早い言葉の表現に敏感であること、そして数発のデモとその順序が示されている。本稿では,複数質問における選択肢の順序に対するLLMの感度について検討する。
論文参考訳（メタデータ） (2023-08-22T14:54:59Z)
Leveraging Large Language Models for Multiple Choice Question Answering [6.198523595657983]
MCSB能力が高いモデルは、従来のアプローチよりも自然なアプローチの方がはるかに優れていることを示す。 MCSB能力が高いモデルは、従来のアプローチよりも自然なアプローチの方がはるかに優れていることを示す。
論文参考訳（メタデータ） (2022-10-22T05:04:54Z)
True Few-Shot Learning with Language Models [78.42578316883271]
ホールドアウト例が利用できない場合, LMの少数ショット能力を評価する。以上の結果から,先行研究はLMの真少ショット能力を大幅に過大評価していたことが示唆された。
論文参考訳（メタデータ） (2021-05-24T17:55:51Z)
Feature Quantization Improves GAN Training [126.02828112121874]
識別器の特徴量子化(FQ)は、真と偽のデータの両方を共有離散空間に埋め込む。本手法は,既存のGANモデルに容易に接続でき,訓練における計算オーバーヘッドがほとんどない。
論文参考訳（メタデータ） (2020-04-05T04:06:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。