論文の概要: SAIE Framework: Support Alone Isn't Enough -- Advancing LLM Training
with Adversarial Remarks
- arxiv url: http://arxiv.org/abs/2311.08107v2
- Date: Fri, 1 Mar 2024 00:42:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-04 14:12:34.243391
- Title: SAIE Framework: Support Alone Isn't Enough -- Advancing LLM Training
with Adversarial Remarks
- Title(参考訳): SAIE Framework: サポートは十分ではない -- 敵対的な発言によるLLMトレーニングの強化
- Authors: Mengsay Loem, Masahiro Kaneko, Naoaki Okazaki
- Abstract要約: この研究は、学習者とパートナーモデルの間の支援的および敵対的な議論を促進するSAIEフレームワークを紹介している。
実験により,SAIEフレームワークで微調整したモデルでは,従来の微調整手法で訓練したモデルよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 47.609417223514605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) can justify or critique their predictions
through discussions with other models or humans, thereby enriching their
intrinsic understanding of instances. While proactive discussions in the
inference phase have been shown to boost performance, such interactions have
not been extensively explored during the training phase. We hypothesize that
incorporating interactive discussions into the training process can enhance the
models' understanding and improve their reasoning and verbal expression
abilities during inference. This work introduces the SAIE framework, which
facilitates supportive and adversarial discussions between learner and partner
models. The learner model receives responses from the partner, and its
parameters are then updated based on this discussion. This dynamic adjustment
process continues throughout the training phase, responding to the evolving
outputs of the learner model. Our empirical evaluation across various tasks,
including math problems, commonsense reasoning, and multi-domain knowledge,
demonstrates that models fine-tuned with the SAIE framework outperform those
trained with conventional fine-tuning approaches. Furthermore, our method
enhances the models' reasoning capabilities, improving both individual and
multi-agent inference performance.
- Abstract(参考訳): 大規模言語モデル(llm)は、他のモデルや人間との議論を通じて、彼らの予測を正当化し、批判することができる。
推論フェーズにおける前向きな議論は、性能を高めることが示されているが、そのような相互作用は、トレーニングフェーズにおいて広く研究されていない。
我々は,対話的な議論をトレーニングプロセスに組み込むことで,モデルの理解を深め,推論中の推論や言語表現能力を向上させることができると仮定する。
この研究は、学習者とパートナーモデルの間の支援的および敵対的な議論を促進するSAIEフレームワークを紹介している。
学習者モデルは、パートナーから応答を受け取り、そのパラメータは、この議論に基づいて更新される。
この動的調整プロセスは、学習者モデルの進化するアウトプットに応答して、トレーニングフェーズを通して継続する。
数学問題,コモンセンス推論,マルチドメイン知識など,様々な課題における経験的評価は,SAIEフレームワークで微調整されたモデルが従来の微調整アプローチで訓練されたモデルよりも優れていることを示す。
さらに,提案手法はモデルの推論能力を高め,個人とマルチエージェントの推論性能を向上させる。
関連論文リスト
- A Tutorial on LLM Reasoning: Relevant Methods behind ChatGPT o1 [6.527607790666018]
OpenAI o1は、推論中に推論ステップを直接統合するために強化学習を適用することで、モデルの推論能力が大幅に向上することを示した。
本稿では、推論問題を包括的に定式化し、モデルベースとモデルフリーの両方のアプローチを用いて、この緩やかな思考フレームワークをより良くサポートする。
論文 参考訳(メタデータ) (2025-02-15T17:52:11Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - Explaining and Mitigating the Modality Gap in Contrastive Multimodal Learning [7.412307614007383]
マルチモーダル学習モデルは、共有表現空間を学習することにより、画像やテキストなどの様々なモダリティをブリッジするように設計されている。
これらのモデルはしばしばモダリティギャップを示し、異なるモダリティが共有表現空間内の異なる領域を占める。
トレーニング中にモダリティギャップを生じ、持続させる上で、不整合データペアと学習可能な温度パラメータの臨界的役割を同定する。
論文 参考訳(メタデータ) (2024-12-10T20:36:49Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Analyzing Persuasive Strategies in Meme Texts: A Fusion of Language Models with Paraphrase Enrichment [0.23020018305241333]
本稿では,ミームテキストにおける説得手法の階層的マルチラベル検出へのアプローチについて述べる。
本研究の範囲は、革新的なトレーニング技術とデータ強化戦略を通じて、モデルパフォーマンスの向上を含む。
論文 参考訳(メタデータ) (2024-07-01T20:25:20Z) - MultiAgent Collaboration Attack: Investigating Adversarial Attacks in Large Language Model Collaborations via Debate [24.92465108034783]
大規模言語モデル(LLM)は、個別に作業する場合に、現在のベンチマークで例外的な結果を示す。
パラメータサイズと推論時間の短縮とともに、それらの能力の進歩は、これらのモデルをエージェントとしての使用を促進する。
敵の影響下での議論を通じて協調するモデルのネットワークの挙動を評価する。
論文 参考訳(メタデータ) (2024-06-20T20:09:37Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - Hybrid Supervised Reinforced Model for Dialogue Systems [2.1485350418225244]
このモデルは,対話管理に必要なタスク – 状態追跡と意思決定 – に対処する。
このモデルは、非リカレントベースラインよりも高い性能、学習速度、堅牢性を達成する。
論文 参考訳(メタデータ) (2020-11-04T12:03:12Z) - Enhancing Dialogue Generation via Multi-Level Contrastive Learning [57.005432249952406]
質問に対する応答のきめ細かい品質をモデル化するマルチレベルコントラスト学習パラダイムを提案する。
Rank-aware (RC) ネットワークはマルチレベルコントラスト最適化の目的を構築するために設計されている。
本研究では,知識推論(KI)コンポーネントを構築し,学習中の参照からキーワードの知識を抽出し,そのような情報を活用して情報的単語の生成を促す。
論文 参考訳(メタデータ) (2020-09-19T02:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。