Fugu-MT 論文翻訳(概要): SAIE Framework: Support Alone Isn't Enough -- Advancing LLM Training with Adversarial Remarks

論文の概要: SAIE Framework: Support Alone Isn't Enough -- Advancing LLM Training with Adversarial Remarks

arxiv url: http://arxiv.org/abs/2311.08107v1
Date: Tue, 14 Nov 2023 12:12:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-15 14:30:02.810522
Title: SAIE Framework: Support Alone Isn't Enough -- Advancing LLM Training with Adversarial Remarks
Title（参考訳）: SAIE Framework: サポートは十分ではない -- 敵対的な発言によるLLMトレーニングの強化
Authors: Mengsay Loem, Masahiro Kaneko, Naoaki Okazaki
Abstract要約: 大きな言語モデル(LLM)は、他のモデルや人間との議論を通じて、予測を正当化または批判することができる。提案手法は,学習者とパートナーモデル間の支援的・敵対的な議論を伴う。 GSM8K、CommonsenseQA、MMLUといったデータセットをまたいだ実験では、インスタンスの議論や理解の能力を高めることで、標準の微調整技術でトレーニングされたモデルよりずっと優れていることが明らかになりました。
参考スコア（独自算出の注目度）: 47.609417223514605
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) can justify or criticize their predictions through discussion with other models or humans, thereby enhancing their intrinsic understanding of instances. While proactive discussions enhance performance, this approach is currently limited to the inference phase. In this context, we posit a hypothesis: learning interactive discussions during training can improve understanding for the instances in the training step and proficiency in logical/critical thinking ability and verbalized expression of the model in the inference step. Our proposed SAIE training method involves both supportive and adversarial discussions between the learner and partner models. The learner model receives a remark from the partner through the discussion, and the parameters of the learner model are then updated based on this remark. That is, the teacher signal dynamically adjusts in response to the evolving model output throughout the training step. By bolstering the capacity for discussion and comprehension of instances, our experiments across datasets, including GSM8K, CommonsenseQA, and MMLU, reveal that models fine-tuned with our method consistently surpass those trained with standard fine-tuning techniques. Moreover, our approach demonstrates superior performance in multi-agent inference scenarios, boosting the models' reasoning abilities at the inference step.
Abstract（参考訳）: 大規模言語モデル(LLM)は、他のモデルや人間との議論を通じて予測を正当化または批判することができる。積極的な議論はパフォーマンスを高めるが、現在このアプローチは推論フェーズに限定されている。トレーニング中に対話的な議論を学ぶことは、トレーニングステップのインスタンスの理解を改善し、論理的・批判的思考能力の熟達と推論ステップにおけるモデルの言語化表現を改善する。提案手法は,学習者とパートナーモデルによる支援的および敵対的議論の両方を含む。学習者モデルは、議論を通じてパートナーから意見を受け取り、学習者モデルのパラメータは、この意見に基づいて更新される。すなわち、教師信号は、トレーニングステップを通して進化するモデル出力に応じて動的に調整される。 gsm8k、commonsenseqa、mmluを含むデータセットをまたいだ実験により、我々の手法で微調整されたモデルが、標準の微調整技術でトレーニングされたモデルを一貫して超えていることが明らかとなった。さらに,提案手法はマルチエージェント推論のシナリオにおいて優れた性能を示し,推論ステップにおけるモデルの推論能力を高める。

関連論文リスト

The Pragmatic Mind of Machines: Tracing the Emergence of Pragmatic Competence in Large Language Models [6.187227278086245]
大規模言語モデル(LLM)は、不規則な解決や推論の理論を含む社会的知性に新たな能力を示す。本研究では,異なる学習段階におけるLLMが話者意図を正確に推測できるかどうかを評価する。プレトレーニング後, 教師付き微調整(SFT), 選好最適化の3段階にわたる22個のLDMを系統的に評価した。
論文参考訳（メタデータ） (2025-05-24T04:24:59Z)
Playpen: An Environment for Exploring Learning Through Conversational Interaction [81.67330926729015]
本研究は,対話ゲームが学習のフィードバック信号の源として機能するかどうかを考察する。本稿では,対話ゲームによるオフラインおよびオンライン学習環境であるPlaypenを紹介する。 SFTによる模倣学習は、目に見えないインスタンスのパフォーマンスを向上させるが、他のスキルに悪影響を及ぼす。
論文参考訳（メタデータ） (2025-04-11T14:49:33Z)
Knowledge-Decoupled Synergetic Learning: An MLLM based Collaborative Approach to Few-shot Multimodal Dialogue Intention Recognition [17.790383360652704]
数発のマルチモーダル対話意図認識のためのトレーニングには、2つの相互接続タスクが含まれる。この現象は、トレーニング過程における重み行列更新の重畳による知識干渉に起因する。本稿では,知識を解釈可能な規則に変換する知識分離型シナジー学習を提案する。
論文参考訳（メタデータ） (2025-03-06T08:28:44Z)
A Tutorial on LLM Reasoning: Relevant Methods behind ChatGPT o1 [6.527607790666018]
OpenAI o1は、推論中に推論ステップを直接統合するために強化学習を適用することで、モデルの推論能力が大幅に向上することを示した。本稿では、推論問題を包括的に定式化し、モデルベースとモデルフリーの両方のアプローチを用いて、この緩やかな思考フレームワークをより良くサポートする。
論文参考訳（メタデータ） (2025-02-15T17:52:11Z)
The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文参考訳（メタデータ） (2025-01-15T10:57:55Z)
Explaining and Mitigating the Modality Gap in Contrastive Multimodal Learning [7.412307614007383]
マルチモーダル学習モデルは、共有表現空間を学習することにより、画像やテキストなどの様々なモダリティをブリッジするように設計されている。これらのモデルはしばしばモダリティギャップを示し、異なるモダリティが共有表現空間内の異なる領域を占める。トレーニング中にモダリティギャップを生じ、持続させる上で、不整合データペアと学習可能な温度パラメータの臨界的役割を同定する。
論文参考訳（メタデータ） (2024-12-10T20:36:49Z)
Making Long-Context Language Models Better Multi-Hop Reasoners [42.09676404515287]
本稿では,各アサーションに対するアトリビューションの供給を促す新しいアプローチであるReasoning with Attributionsを紹介する。我々は,プロプライエタリモデルとオープンソースモデルの両方を用いて,3つのマルチホップデータセットの実験を通じてアプローチを検証する。本モデルでは,ChatGPT や Claude-Instant などの独自の LM を並列化して,マルチホップ推論ベンチマーク上での競合性能を実現する。
論文参考訳（メタデータ） (2024-08-06T15:06:40Z)
PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文参考訳（メタデータ） (2024-07-17T08:13:22Z)
Analyzing Persuasive Strategies in Meme Texts: A Fusion of Language Models with Paraphrase Enrichment [0.23020018305241333]
本稿では,ミームテキストにおける説得手法の階層的マルチラベル検出へのアプローチについて述べる。本研究の範囲は、革新的なトレーニング技術とデータ強化戦略を通じて、モデルパフォーマンスの向上を含む。
論文参考訳（メタデータ） (2024-07-01T20:25:20Z)
MultiAgent Collaboration Attack: Investigating Adversarial Attacks in Large Language Model Collaborations via Debate [24.92465108034783]
大規模言語モデル(LLM)は、個別に作業する場合に、現在のベンチマークで例外的な結果を示す。パラメータサイズと推論時間の短縮とともに、それらの能力の進歩は、これらのモデルをエージェントとしての使用を促進する。敵の影響下での議論を通じて協調するモデルのネットワークの挙動を評価する。
論文参考訳（メタデータ） (2024-06-20T20:09:37Z)
Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文参考訳（メタデータ） (2023-05-24T14:06:27Z)
Improving Factuality and Reasoning in Language Models through Multiagent Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文参考訳（メタデータ） (2023-05-23T17:55:11Z)
Competence-Based Analysis of Language Models [21.43498764977656]
CALM (Competence-based Analysis of Language Models) は、特定のタスクの文脈におけるLLM能力を調べるために設計された。我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。これらの介入を用いてCALMのケーススタディを行い、様々な語彙推論タスクにおけるLCM能力の分析と比較を行う。
論文参考訳（メタデータ） (2023-03-01T08:53:36Z)
Hybrid Supervised Reinforced Model for Dialogue Systems [2.1485350418225244]
このモデルは,対話管理に必要なタスク – 状態追跡と意思決定 – に対処する。このモデルは、非リカレントベースラインよりも高い性能、学習速度、堅牢性を達成する。
論文参考訳（メタデータ） (2020-11-04T12:03:12Z)
Enhancing Dialogue Generation via Multi-Level Contrastive Learning [57.005432249952406]
質問に対する応答のきめ細かい品質をモデル化するマルチレベルコントラスト学習パラダイムを提案する。 Rank-aware (RC) ネットワークはマルチレベルコントラスト最適化の目的を構築するために設計されている。本研究では,知識推論(KI)コンポーネントを構築し,学習中の参照からキーワードの知識を抽出し,そのような情報を活用して情報的単語の生成を促す。
論文参考訳（メタデータ） (2020-09-19T02:41:04Z)
Learning an Effective Context-Response Matching Model with Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文参考訳（メタデータ） (2020-09-14T08:44:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。