論文の概要: SAIE Framework: Support Alone Isn't Enough -- Advancing LLM Training
with Adversarial Remarks
- arxiv url: http://arxiv.org/abs/2311.08107v1
- Date: Tue, 14 Nov 2023 12:12:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 14:30:02.810522
- Title: SAIE Framework: Support Alone Isn't Enough -- Advancing LLM Training
with Adversarial Remarks
- Title(参考訳): SAIE Framework: サポートは十分ではない -- 敵対的な発言によるLLMトレーニングの強化
- Authors: Mengsay Loem, Masahiro Kaneko, Naoaki Okazaki
- Abstract要約: 大きな言語モデル(LLM)は、他のモデルや人間との議論を通じて、予測を正当化または批判することができる。
提案手法は,学習者とパートナーモデル間の支援的・敵対的な議論を伴う。
GSM8K、CommonsenseQA、MMLUといったデータセットをまたいだ実験では、インスタンスの議論や理解の能力を高めることで、標準の微調整技術でトレーニングされたモデルよりずっと優れていることが明らかになりました。
- 参考スコア(独自算出の注目度): 47.609417223514605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) can justify or criticize their predictions
through discussion with other models or humans, thereby enhancing their
intrinsic understanding of instances. While proactive discussions enhance
performance, this approach is currently limited to the inference phase. In this
context, we posit a hypothesis: learning interactive discussions during
training can improve understanding for the instances in the training step and
proficiency in logical/critical thinking ability and verbalized expression of
the model in the inference step. Our proposed SAIE training method involves
both supportive and adversarial discussions between the learner and partner
models. The learner model receives a remark from the partner through the
discussion, and the parameters of the learner model are then updated based on
this remark. That is, the teacher signal dynamically adjusts in response to the
evolving model output throughout the training step. By bolstering the capacity
for discussion and comprehension of instances, our experiments across datasets,
including GSM8K, CommonsenseQA, and MMLU, reveal that models fine-tuned with
our method consistently surpass those trained with standard fine-tuning
techniques. Moreover, our approach demonstrates superior performance in
multi-agent inference scenarios, boosting the models' reasoning abilities at
the inference step.
- Abstract(参考訳): 大規模言語モデル(LLM)は、他のモデルや人間との議論を通じて予測を正当化または批判することができる。
積極的な議論はパフォーマンスを高めるが、現在このアプローチは推論フェーズに限定されている。
トレーニング中に対話的な議論を学ぶことは、トレーニングステップのインスタンスの理解を改善し、論理的・批判的思考能力の熟達と推論ステップにおけるモデルの言語化表現を改善する。
提案手法は,学習者とパートナーモデルによる支援的および敵対的議論の両方を含む。
学習者モデルは、議論を通じてパートナーから意見を受け取り、学習者モデルのパラメータは、この意見に基づいて更新される。
すなわち、教師信号は、トレーニングステップを通して進化するモデル出力に応じて動的に調整される。
gsm8k、commonsenseqa、mmluを含むデータセットをまたいだ実験により、我々の手法で微調整されたモデルが、標準の微調整技術でトレーニングされたモデルを一貫して超えていることが明らかとなった。
さらに,提案手法はマルチエージェント推論のシナリオにおいて優れた性能を示し,推論ステップにおけるモデルの推論能力を高める。
関連論文リスト
- Efficient Multi-Model Fusion with Adversarial Complementary Representation Learning [26.393644289860084]
単一モデルシステムは、話者検証(SV)や画像分類といったタスクにおいて、しばしば欠陥に悩まされる。
本稿では、新たに訓練されたモデルが以前取得した知識を回避できる逆相補表現学習(ACoRL)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T07:47:55Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - DialAug: Mixing up Dialogue Contexts in Contrastive Learning for Robust
Conversational Modeling [3.3578533367912025]
本稿では,対話コンテキストの拡張バージョンを学習目的に組み込むフレームワークを提案する。
提案手法は,従来のデータ拡張手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-15T23:39:41Z) - Towards Robust Online Dialogue Response Generation [62.99904593650087]
これは、トレーニングと実世界のテストの相違によって引き起こされる可能性がある、と私たちは主張する。
本稿では, 発話レベルサンプリングと半発話レベルサンプリングの両方からなる階層的サンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T06:51:41Z) - Hybrid Supervised Reinforced Model for Dialogue Systems [2.1485350418225244]
このモデルは,対話管理に必要なタスク – 状態追跡と意思決定 – に対処する。
このモデルは、非リカレントベースラインよりも高い性能、学習速度、堅牢性を達成する。
論文 参考訳(メタデータ) (2020-11-04T12:03:12Z) - Enhancing Dialogue Generation via Multi-Level Contrastive Learning [57.005432249952406]
質問に対する応答のきめ細かい品質をモデル化するマルチレベルコントラスト学習パラダイムを提案する。
Rank-aware (RC) ネットワークはマルチレベルコントラスト最適化の目的を構築するために設計されている。
本研究では,知識推論(KI)コンポーネントを構築し,学習中の参照からキーワードの知識を抽出し,そのような情報を活用して情報的単語の生成を促す。
論文 参考訳(メタデータ) (2020-09-19T02:41:04Z) - Group-wise Contrastive Learning for Neural Dialogue Generation [29.749195182401344]
対話生成に比較学習を導入し、モデルが肯定的発話と否定的発話の差を明示的に知覚する。
ヒトの会話におけるマルチマッピング関係を管理するために,グループワイド二重サンプリングによる対照対話学習を強化した。
論文 参考訳(メタデータ) (2020-09-16T08:28:30Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。