論文の概要: MAIN: Mutual Alignment Is Necessary for instruction tuning
- arxiv url: http://arxiv.org/abs/2504.12913v2
- Date: Mon, 07 Jul 2025 07:19:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.318879
- Title: MAIN: Mutual Alignment Is Necessary for instruction tuning
- Title(参考訳): MAIN: インストラクションチューニングに必要な相互アライメント
- Authors: Fanyi Yang, Jianfeng Liu, Xin Zhang, Haoyu Liu, Xixin Cao, Yuefeng Zhan, Hao Sun, Weiwei Deng, Feng Sun, Qi Zhang,
- Abstract要約: 命令応答対の品質は,各コンポーネントの個々の品質ではなく,相互整合度によって決定される。
本稿では,相互制約による命令と応答のコヒーレンスを強制する相互アライメントフレームワーク(MAIN)を提案する。
MAINはモデルアーキテクチャやサイズを多用し、LLaMA、Mistral、Qwenモデルで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 23.434475829156174
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Instruction tuning has empowered large language models (LLMs) to achieve remarkable performance, yet its success heavily depends on the availability of large-scale, high-quality instruction-response pairs. To meet this demand, various methods have been developed to synthesize data at scale. However, current methods for scaling up data generation often overlook a crucial aspect: the alignment between instructions and responses. We hypothesize that the quality of instruction-response pairs is determined not by the individual quality of each component, but by the degree of mutual alignment. To address this, we propose a Mutual Alignment Framework (MAIN) which enforces coherence between instructions and responses through mutual constraints. We demonstrate that MAIN generalizes well across model architectures and sizes, achieving state-of-the-art performance on LLaMA, Mistral, and Qwen models across diverse benchmarks. This work underscores the critical role of instruction-response alignment in enabling generalizable and high-quality instruction tuning for LLMs.
- Abstract(参考訳): インストラクションチューニングは、大きな言語モデル(LLM)に優れた性能を与える権限を与えてきたが、その成功は大規模で高品質な命令応答ペアの可用性に大きく依存している。
この要求に応えるために、大規模にデータを合成する様々な方法が開発されている。
しかし、データ生成をスケールアップする現在の方法は、多くの場合、命令とレスポンスの整合性という重要な側面を見落としている。
我々は、命令応答対の品質は各コンポーネントの個々の品質ではなく、相互アライメントの程度によって決定されると仮定する。
そこで本稿では,相互制約による命令と応答のコヒーレンスを強制する相互アライメントフレームワーク(MAIN)を提案する。
我々は、MAINがモデルアーキテクチャとサイズをまたいでうまく一般化し、LLaMA、Mistral、Qwenの各モデルにおける最先端のパフォーマンスを達成することを実証した。
本研究は,LLMの汎用的かつ高品質な命令チューニングを実現する上で,命令応答アライメントが重要な役割を担っていることを示す。
関連論文リスト
- Instruction-Oriented Preference Alignment for Enhancing Multi-Modal Comprehension Capability of MLLMs [29.07102440466282]
本稿では,命令実行の有効性を前提としたアライメント選択を自動的に構築するスケーラブルなフレームワークを提案する。
提案手法は,自動選好構築と専用の検証プロセスを含む。
Qwen2VL-7Bの実験では、複数のベンチマークでIPAの有効性が示されている。
論文 参考訳(メタデータ) (2025-03-26T08:19:02Z) - MuSC: Improving Complex Instruction Following with Multi-granularity Self-Contrastive Training [36.483136685734735]
より強力なモデルに頼ることなく、複雑な命令アライメントを改善するために、MuSC(Multi-granularity Self-Contrastive Training)フレームワークを提案する。
提案手法は,オープンソースモデルを用いて評価し,提案手法が複雑かつ一般的な命令追従ベンチマークにおいて有意な改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-02-17T08:12:49Z) - Aligning Instruction Tuning with Pre-training [81.4748965653345]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。
8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-01-16T08:27:40Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - Enhancing and Assessing Instruction-Following with Fine-Grained Instruction Variants [28.691691883519542]
複雑な命令を単純なサブコンポーネントに分解し、それらを修正し、それらを新しい変種に再構成する手法を導入する。
DeMoReconに基づくFGIVデータセットは,1,773個のシード命令の微粒化を含む。
以上の結果から,FGIVを微調整したLDMは,命令追従ベンチマークと一般的な命令追従ベンチマークの両方において,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T08:08:11Z) - SCAR: Efficient Instruction-Tuning for Large Language Models via Style Consistency-Aware Response Ranking [56.93151679231602]
本研究は, 応答における2つの重要なスタイル的要素, 言語形式と指導的前提を同定する。
そこで我々は,SCAR(Style Consistency-Aware Response Ranking)を導入する。
論文 参考訳(メタデータ) (2024-06-16T10:10:37Z) - Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。
PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文 参考訳(メタデータ) (2024-02-17T00:09:32Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z) - Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文 参考訳(メタデータ) (2023-10-20T09:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。