論文の概要: MAIN: Mutual Alignment Is Necessary for instruction tuning
- arxiv url: http://arxiv.org/abs/2504.12913v1
- Date: Thu, 17 Apr 2025 13:02:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:37:14.781576
- Title: MAIN: Mutual Alignment Is Necessary for instruction tuning
- Title(参考訳): MAIN: インストラクションチューニングに必要な相互アライメント
- Authors: Fanyi Yang, Jianfeng Liu, Xin Zhang, Haoyu Liu, Xixin Cao, Yuefeng Zhan, Hao Sun, Weiwei Deng, Feng Sun, Qi Zhang,
- Abstract要約: 高品質な命令応答対は各コンポーネントの個々の品質によって定義されるのではなく、相互にアライメントする程度によって定義される。
本稿では,相互制約による命令と応答のコヒーレンスを保証する相互アライメントフレームワーク(MAIN)を提案する。
実験により、LLaMAやMistralのようなモデルは、このフレームワーク内で微調整され、複数のベンチマークで従来のメソッドよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 23.434475829156174
- License:
- Abstract: Instruction tuning has enabled large language models (LLMs) to achieve remarkable performance, but its success heavily depends on the availability of large-scale, high-quality instruction-response pairs. However, current methods for scaling up data generation often overlook a crucial aspect: the alignment between instructions and responses. We hypothesize that high-quality instruction-response pairs are not defined by the individual quality of each component, but by the extent of their alignment with each other. To address this, we propose a Mutual Alignment Framework (MAIN) that ensures coherence between the instruction and response through mutual constraints. Experiments demonstrate that models such as LLaMA and Mistral, fine-tuned within this framework, outperform traditional methods across multiple benchmarks. This approach underscores the critical role of instruction-response alignment in enabling scalable and high-quality instruction tuning for LLMs.
- Abstract(参考訳): インストラクションチューニングにより、大きな言語モデル(LLM)が優れたパフォーマンスを達成できたが、その成功は大規模で高品質な命令応答ペアの可用性に大きく依存している。
しかし、データ生成をスケールアップする現在の方法は、多くの場合、命令とレスポンスの整合性という重要な側面を見落としている。
高品質な命令応答対は各コンポーネントの個々の品質によって定義されるのではなく、相互にアライメントの程度によって定義される、という仮説を立てる。
そこで本稿では,相互制約による命令と応答のコヒーレンスを保証する相互アライメントフレームワーク(MAIN)を提案する。
実験により、LLaMAやMistralのようなモデルは、このフレームワーク内で微調整され、複数のベンチマークで従来のメソッドよりも優れていることが示された。
このアプローチは,LLMのスケーラブルで高品質な命令チューニングを実現する上で,命令応答アライメントが重要な役割を担っていることを示す。
関連論文リスト
- MuSC: Improving Complex Instruction Following with Multi-granularity Self-Contrastive Training [36.483136685734735]
より強力なモデルに頼ることなく、複雑な命令アライメントを改善するために、MuSC(Multi-granularity Self-Contrastive Training)フレームワークを提案する。
提案手法は,オープンソースモデルを用いて評価し,提案手法が複雑かつ一般的な命令追従ベンチマークにおいて有意な改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-02-17T08:12:49Z) - Aligning Instruction Tuning with Pre-training [81.4748965653345]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。
8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-01-16T08:27:40Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - Beyond IID: Optimizing Instruction Learning from the Perspective of Instruction Interaction and Dependency [12.145516262749643]
各種命令のカテゴリ間の相互作用と依存性パターンを, 微調整型大言語モデル (LLM) に適用する。
異なるLLMに対する実験結果から、広く採用されているベンチマークにおいて、強いベースラインよりも性能が向上したことが示された。
論文 参考訳(メタデータ) (2024-09-11T06:27:50Z) - Enhancing and Assessing Instruction-Following with Fine-Grained Instruction Variants [28.691691883519542]
複雑な命令を単純なサブコンポーネントに分解し、それらを修正し、それらを新しい変種に再構成する手法を導入する。
DeMoReconに基づくFGIVデータセットは,1,773個のシード命令の微粒化を含む。
以上の結果から,FGIVを微調整したLDMは,命令追従ベンチマークと一般的な命令追従ベンチマークの両方において,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T08:08:11Z) - SCAR: Efficient Instruction-Tuning for Large Language Models via Style Consistency-Aware Response Ranking [56.93151679231602]
本研究は, 応答における2つの重要なスタイル的要素, 言語形式と指導的前提を同定する。
そこで我々は,SCAR(Style Consistency-Aware Response Ranking)を導入する。
論文 参考訳(メタデータ) (2024-06-16T10:10:37Z) - Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。
PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文 参考訳(メタデータ) (2024-02-17T00:09:32Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z) - Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文 参考訳(メタデータ) (2023-10-20T09:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。