論文の概要: Align Anything: Training All-Modality Models to Follow Instructions with Language Feedback
- arxiv url: http://arxiv.org/abs/2412.15838v1
- Date: Fri, 20 Dec 2024 12:27:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:22:08.342203
- Title: Align Anything: Training All-Modality Models to Follow Instructions with Language Feedback
- Title(参考訳): Align Anything: 言語フィードバックでインストラクションをフォローするオールモダリティモデルをトレーニングする
- Authors: Jiaming Ji, Jiayi Zhou, Hantao Lou, Boyuan Chen, Donghai Hong, Xuyao Wang, Wenqi Chen, Kaile Wang, Rui Pan, Jiahao Li, Mohan Wang, Josef Dai, Tianyi Qiu, Hua Xu, Dong Li, Weipeng Chen, Jun Song, Bo Zheng, Yaodong Yang,
- Abstract要約: 人間のフィードバックからの強化学習(RLHF)は,大規模言語モデルの指示追従能力の向上に有効であることが証明されている。
モダリティの数が増えるにつれて、すべてのモダリティモデルを人間の意図と整合させることが、迫りくる課題となる。
我々は,200kの全モダリティな人間の嗜好データを含むアライメント・アライメント・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 31.67575491923951
- License:
- Abstract: Reinforcement learning from human feedback (RLHF) has proven effective in enhancing the instruction-following capabilities of large language models; however, it remains underexplored in the cross-modality domain. As the number of modalities increases, aligning all-modality models with human intentions -- such as instruction following -- becomes a pressing challenge. In this work, we make the first attempt to fine-tune all-modality models (i.e. input and output with any modality, also named any-to-any models) using human preference data across all modalities (including text, image, audio, and video), ensuring its behavior aligns with human intentions. This endeavor presents several challenges. First, there is no large-scale all-modality human preference data in existing open-source resources, as most datasets are limited to specific modalities, predominantly text and image. Secondly, the effectiveness of binary preferences in RLHF for post-training alignment in complex all-modality scenarios remains an unexplored area. Finally, there is a lack of a systematic framework to evaluate the capabilities of all-modality models, particularly regarding modality selection and synergy. To address these challenges, we propose the align-anything framework, which includes meticulously annotated 200k all-modality human preference data. Then, we introduce an alignment method that learns from unified language feedback, effectively capturing complex modality-specific human preferences and enhancing the model's instruction-following capabilities. Furthermore, to assess performance improvements in all-modality models after post-training alignment, we construct a challenging all-modality capability evaluation framework -- eval-anything. All data, models, and code frameworks have been open-sourced for the community. For more details, please refer to https://github.com/PKU-Alignment/align-anything.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は、大規模言語モデルの指示追従能力を高めるのに有効であることが証明されている。
モダリティの数が増えるにつれて、すべてのモダリティモデルと人間の意図 ― 指示に従うなど ― を整合させることは、迫力のある課題となる。
本研究では,すべてのモダリティ(テキスト,画像,音声,ビデオを含む)にまたがる人間の嗜好データを用いて,すべてのモダリティモデル(すなわち任意のモダリティで入力と出力)を微調整し,その動作が人間の意図と整合することを初めて試みる。
この取り組みにはいくつかの課題がある。
まず、既存のオープンソースリソースには大規模な全モードの人間の嗜好データが存在しない。
第二に、RLHFにおける二項選好の有効性は、複雑な全モダリティシナリオにおける訓練後のアライメントにおける未探索領域である。
最後に、全モダリティモデルの能力、特にモダリティの選択とシナジーを評価するための体系的な枠組みが欠如している。
これらの課題に対処するために,200kの全モダリティ人間の嗜好データを含むアライメント・アライメント・フレームワークを提案する。
次に、統一言語フィードバックから学習し、複雑なモダリティ固有の人間の嗜好を効果的に捉え、モデルの指示追従能力を向上するアライメント手法を提案する。
さらに、トレーニング後のアライメント後のオールモダリティモデルの性能改善を評価するため、課題となるオールモダリティ能力評価フレームワーク、eval-anythingを構築した。
すべてのデータ、モデル、およびコードフレームワークがコミュニティのためにオープンソース化された。
詳細はhttps://github.com/PKU-Alignment/align-anything.comを参照のこと。
関連論文リスト
- Exploring Efficient Foundational Multi-modal Models for Video Summarization [15.418001616659808]
このようなビデオ基礎モデルは、各モダリティ固有モデルからの出力を同じ埋め込み空間にアライメントすることで事前学習を行う。
本稿では,各入力モダリティから生成したテキストを言語モデルに組み込んだプラグイン・アンド・プレイ型ビデオ言語モデルを提案する。
プラグアンドプレイ方式とベースラインチューニング方式のパフォーマンスと計算コストを比較した。
論文 参考訳(メタデータ) (2024-10-09T20:07:06Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。
本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。
このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - Leveraging Weak Cross-Modal Guidance for Coherence Modelling via Iterative Learning [66.28872204574648]
クロスモーダル・コヒーレンス・モデリングは、知的なシステムが情報を整理し構造化するのに不可欠である。
クロスモーダル・コヒーレンス・モデリングに関するこれまでの研究は、目標モーダルのコヒーレンス回復を支援するために、他のモーダルからの順序情報を活用することを試みた。
本報告では,コヒーレンシーに金のラベルを付けることなく,クロスモーダルガイダンスを活用する新しい手法について検討する。
論文 参考訳(メタデータ) (2024-08-01T06:04:44Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Dealing with All-stage Missing Modality: Towards A Universal Model with Robust Reconstruction and Personalization [14.606035444283984]
現在のアプローチでは、推論中にモダリティ不完全入力を処理するモデルの開発に重点を置いている。
本稿では、モダリティ再構成とモデルパーソナライゼーションを備えた頑健な普遍モデルを提案する。
本手法は2つの脳腫瘍セグメンテーションベンチマークで広範囲に検証されている。
論文 参考訳(メタデータ) (2024-06-04T06:07:24Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable
Diffusion Model [69.12623428463573]
AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。
ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。
選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-03T13:53:08Z) - INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large
Language Models [39.46610170563634]
INSTRUCTEVALは、命令調整された大規模言語モデルのために特別に設計された、より包括的な評価スイートである。
我々は,事前学習の基礎,指導指導データ,訓練方法など,モデル性能に影響を与える諸要因を総合的に分析する。
その結果, モデル性能のスケーリングにおいて, 命令データの品質が最も重要な要因であることが判明した。
論文 参考訳(メタデータ) (2023-06-07T20:12:29Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。