Fugu-MT 論文翻訳(概要): MAIN: Mutual Alignment Is Necessary for instruction tuning

論文の概要: MAIN: Mutual Alignment Is Necessary for instruction tuning

arxiv url: http://arxiv.org/abs/2504.12913v2
Date: Mon, 07 Jul 2025 07:19:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:34.318879
Title: MAIN: Mutual Alignment Is Necessary for instruction tuning
Title（参考訳）: MAIN: インストラクションチューニングに必要な相互アライメント
Authors: Fanyi Yang, Jianfeng Liu, Xin Zhang, Haoyu Liu, Xixin Cao, Yuefeng Zhan, Hao Sun, Weiwei Deng, Feng Sun, Qi Zhang,
Abstract要約: 命令応答対の品質は,各コンポーネントの個々の品質ではなく,相互整合度によって決定される。本稿では,相互制約による命令と応答のコヒーレンスを強制する相互アライメントフレームワーク(MAIN)を提案する。 MAINはモデルアーキテクチャやサイズを多用し、LLaMA、Mistral、Qwenモデルで最先端のパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 23.434475829156174
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Instruction tuning has empowered large language models (LLMs) to achieve remarkable performance, yet its success heavily depends on the availability of large-scale, high-quality instruction-response pairs. To meet this demand, various methods have been developed to synthesize data at scale. However, current methods for scaling up data generation often overlook a crucial aspect: the alignment between instructions and responses. We hypothesize that the quality of instruction-response pairs is determined not by the individual quality of each component, but by the degree of mutual alignment. To address this, we propose a Mutual Alignment Framework (MAIN) which enforces coherence between instructions and responses through mutual constraints. We demonstrate that MAIN generalizes well across model architectures and sizes, achieving state-of-the-art performance on LLaMA, Mistral, and Qwen models across diverse benchmarks. This work underscores the critical role of instruction-response alignment in enabling generalizable and high-quality instruction tuning for LLMs.
Abstract（参考訳）: インストラクションチューニングは、大きな言語モデル(LLM)に優れた性能を与える権限を与えてきたが、その成功は大規模で高品質な命令応答ペアの可用性に大きく依存している。この要求に応えるために、大規模にデータを合成する様々な方法が開発されている。しかし、データ生成をスケールアップする現在の方法は、多くの場合、命令とレスポンスの整合性という重要な側面を見落としている。我々は、命令応答対の品質は各コンポーネントの個々の品質ではなく、相互アライメントの程度によって決定されると仮定する。そこで本稿では,相互制約による命令と応答のコヒーレンスを強制する相互アライメントフレームワーク(MAIN)を提案する。我々は、MAINがモデルアーキテクチャとサイズをまたいでうまく一般化し、LLaMA、Mistral、Qwenの各モデルにおける最先端のパフォーマンスを達成することを実証した。本研究は,LLMの汎用的かつ高品質な命令チューニングを実現する上で,命令応答アライメントが重要な役割を担っていることを示す。

関連論文リスト

Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [50.19188692497892]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-05-26T08:53:02Z)
DecIF: Improving Instruction-Following through Meta-Decomposition [9.939860059820917]
DecIFは、多種多様な高品質の命令追従データを生成する、完全に自律的でメタ分解誘導フレームワークである。命令生成のために,LLMは様々なメタ情報を反復的に生成し,応答制約と組み合わせて意味的にリッチな命令を生成するように誘導する。応答生成のために、各命令を原子レベルの評価基準に分解し、厳密な検証と不正確な命令応答対の除去を可能にする。
論文参考訳（メタデータ） (2025-05-20T06:38:28Z)
Instruction-Oriented Preference Alignment for Enhancing Multi-Modal Comprehension Capability of MLLMs [29.07102440466282]
本稿では,命令実行の有効性を前提としたアライメント選択を自動的に構築するスケーラブルなフレームワークを提案する。提案手法は,自動選好構築と専用の検証プロセスを含む。 Qwen2VL-7Bの実験では、複数のベンチマークでIPAの有効性が示されている。
論文参考訳（メタデータ） (2025-03-26T08:19:02Z)
HiDe-LLaVA: Hierarchical Decoupling for Continual Instruction Tuning of Multimodal Large Language Model [37.85614317331844]
本稿では,タスク固有拡張とタスク一般融合フレームワークを提案する。既存のベンチマークに存在する情報漏洩を分析し、異なる手法の性能を合理的に評価する新しい、より困難なベンチマークを提案する。
論文参考訳（メタデータ） (2025-03-17T08:56:03Z)
MuSC: Improving Complex Instruction Following with Multi-granularity Self-Contrastive Training [36.483136685734735]
より強力なモデルに頼ることなく、複雑な命令アライメントを改善するために、MuSC(Multi-granularity Self-Contrastive Training)フレームワークを提案する。提案手法は,オープンソースモデルを用いて評価し,提案手法が複雑かつ一般的な命令追従ベンチマークにおいて有意な改善をもたらすことを示す実験結果を得た。
論文参考訳（メタデータ） (2025-02-17T08:12:49Z)
Aligning Instruction Tuning with Pre-training [81.4748965653345]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。 8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文参考訳（メタデータ） (2025-01-16T08:27:40Z)
The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文参考訳（メタデータ） (2025-01-15T10:57:55Z)
Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文参考訳（メタデータ） (2024-09-27T08:20:59Z)
Enhancing and Assessing Instruction-Following with Fine-Grained Instruction Variants [28.691691883519542]
複雑な命令を単純なサブコンポーネントに分解し、それらを修正し、それらを新しい変種に再構成する手法を導入する。 DeMoReconに基づくFGIVデータセットは,1,773個のシード命令の微粒化を含む。以上の結果から,FGIVを微調整したLDMは,命令追従ベンチマークと一般的な命令追従ベンチマークの両方において,大幅な性能向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-06-17T08:08:11Z)
SCAR: Efficient Instruction-Tuning for Large Language Models via Style Consistency-Aware Response Ranking [56.93151679231602]
本研究は, 応答における2つの重要なスタイル的要素, 言語形式と指導的前提を同定する。そこで我々は,SCAR(Style Consistency-Aware Response Ranking)を導入する。
論文参考訳（メタデータ） (2024-06-16T10:10:37Z)
Mosaic-IT: Cost-Free Compositional Data Synthesis for Instruction Tuning [30.82220015525281]
モザイクインストラクションチューニング(Mosaic Instruction Tuning、モザイクインストラクションチューニング)は、ヒト/モデルなし合成データ合成法である。評価の結果,モザイクITの性能と訓練効率が向上した。
論文参考訳（メタデータ） (2024-05-22T04:08:20Z)
Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。 PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文参考訳（メタデータ） (2024-02-17T00:09:32Z)
Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文参考訳（メタデータ） (2023-11-07T15:36:40Z)
What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction Tuning [111.01953096869947]
マルチモーダル大言語モデル(MLLM)のゼロショット一般化能力向上に視覚的指導チューニングが不可欠である我々は,高品質な視覚的推論命令を自動生成する体系的手法を開発した。実験結果から, MLLMの強化性能が一貫した結果を得た。
論文参考訳（メタデータ） (2023-11-02T15:36:12Z)
Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文参考訳（メタデータ） (2023-10-20T09:55:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。