論文の概要: Video-Text Dataset Construction from Multi-AI Feedback: Promoting Weak-to-Strong Preference Learning for Video Large Language Models
- arxiv url: http://arxiv.org/abs/2411.16201v1
- Date: Mon, 25 Nov 2024 08:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:24:42.789819
- Title: Video-Text Dataset Construction from Multi-AI Feedback: Promoting Weak-to-Strong Preference Learning for Video Large Language Models
- Title(参考訳): マルチAIフィードバックによるビデオテキストデータセット構築:ビデオ大言語モデルにおける弱-強選好学習の促進
- Authors: Hao Yi, Qingyang Li, Yulan Hu, Fuzheng Zhang, Di Zhang, Yong Liu,
- Abstract要約: MLLM(Multimodal Large Language Models)アライメントには,ビデオテキストの嗜好データが不可欠である。
我々は、textittextbfMultiple textbfMultimodal textbfArtificial textbfIntelligence textbfPreferenceデータセットと呼ばれる高品質なVQA選好データセットを提案する。
- 参考スコア(独自算出の注目度): 16.346540681903804
- License:
- Abstract: High-quality video-text preference data is crucial for Multimodal Large Language Models (MLLMs) alignment. However, existing preference data is very scarce. Obtaining VQA preference data for preference training is costly, and manually annotating responses is highly unreliable, which could result in low-quality pairs. Meanwhile, AI-generated responses controlled by temperature adjustment lack diversity. To address these issues, we propose a high-quality VQA preference dataset, called \textit{\textbf{M}ultiple \textbf{M}ultimodal \textbf{A}rtificial \textbf{I}ntelligence \textbf{P}reference Datasets in \textbf{V}QA} (\textbf{MMAIP-V}), which is constructed by sampling from the response distribution set and using an external scoring function for response evaluation. Furthermore, to fully leverage the preference knowledge in MMAIP-V and ensure sufficient optimization, we propose \textit{\textbf{Iter}ative \textbf{W}eak-to-\textbf{S}trong \textbf{R}einforcement \textbf{L}earning from \textbf{AI} \textbf{F}eedback for video MLLMs} (\textbf{Iter-W2S-RLAIF}), a framework that gradually enhances MLLMs' alignment capabilities by iteratively updating the reference model and performing parameter extrapolation. Finally, we propose an unbiased and information-complete evaluation scheme in VQA evaluation. Experiments demonstrate that MMAIP-V is beneficial for MLLMs in preference learning and Iter-W2S-RLAIF fully exploits the alignment information in MMAIP-V. We believe that the proposed automatic VQA preference data generation pipeline based on AI feedback can greatly promote future work in the MLLMs alignment. \textbf{Code and dataset are available} \href{https://anonymous.4open.science/r/MMAIP-V_Iter-W2S-RLAIF-702F}{MMAIP-V\_Iter-W2S-RLAIF-702F}.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)アライメントには,高品質なビデオテキスト嗜好データが不可欠である。
しかし、既存の嗜好データは非常に少ない。
好みのトレーニングのためにVQAの嗜好データを取得するのはコストがかかり、手動でアノテートするレスポンスは非常に信頼できないため、結果として低品質のペアが生まれる可能性がある。
一方、温度調整によって制御されるAI生成応答は多様性を欠いている。
これらの問題に対処するため, 応答分布集合から抽出し, 応答評価のための外部スコアリング関数を用いて構築した, 高品質なVQA選好データセットである \textit{\textbf{M}ultiple \textbf{M}ultimodal \textbf{A}rtificial \textbf{I}ntelligence \textbf{P}reference Datasets in \textbf{V}QA} (\textbf{MMAIP-V})を提案する。
さらに、MMAIP-Vにおける選好知識を十分に活用し、十分な最適化を確保するために、参照モデルを反復的に更新し、パラメータ外挿を実行することでMLLMのアライメント能力を徐々に強化するフレームワークである、ビデオMLLMのMLLM(\textbf{Iter-W2S-RLAIF})に対して、MMAIP-Vにおける選好知識を十分に活用し、かつ、適切な最適化を実現するために、XMLbf{W}eak-to-\textbf{S}trong \textbf{R}einforcement \textbf{L}earning from \textbf{AI} \textbf{F}eedback from \textbf{F}eter-W2S-RLAIF})を提案する。
最後に,VQA評価における偏りのない情報完全評価手法を提案する。
MMAIP-Vは優先学習においてMLLMにとって有益であることが実証され、Iter-W2S-RLAIFはMMAIP-Vのアライメント情報を完全に活用する。
提案したAIフィードバックに基づくVQA選好データ生成パイプラインは,MLLMのアライメントにおける今後の作業を大幅に促進できると考えている。
href{https://anonymous.4open.science/r/MMAIP-V_Iter-W2S-RLAIF-702F}{MMAIP-V\_Iter-W2S-RLAIF-702F}。
関連論文リスト
- VERIFIED: A Video Corpus Moment Retrieval Benchmark for Fine-Grained Video Understanding [44.382937324454254]
既存のビデオコーパスモーメント検索(VCMR)は、粗大な理解に限られている。
本稿では,コーパスからベストマッチングモーメントをローカライズするために,より難易度の高いVCMRベンチマークを提案する。
VERIFIEDを用いて、Charades-FIG、DiDeMo-FIG、ActivityNet-FIGを含むより難易度の高いVCMRベンチマークを構築する。
論文 参考訳(メタデータ) (2024-10-11T07:42:36Z) - I-SHEEP: Self-Alignment of LLM from Scratch through an Iterative Self-Enhancement Paradigm [27.440693440296563]
大規模言語モデル(LLM)は大きな進歩を遂げているが、共通学習パラダイムはLLMを受動的情報リポジトリとして扱う。
textbfIterative textbfSelf-EntextbfHanctextbfEmtextbfEnt textbfParadigmを紹介する。
I-SHEEPはQwenモデルとLlamaモデルの両方の容量を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-08-15T10:44:38Z) - Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization [25.290462963681257]
MLLM(Multimodal Large Language Models)は、視覚的な入力に基づいて応答を生成する。
彼らはしばしば、事前学習したコーパスと同様の反応を生み出すバイアスに悩まされ、視覚情報の重要性を誇示する。
我々は、このバイアスを事前学習統計のための"推奨"として扱い、視覚入力におけるモデルの基盤を妨げます。
論文 参考訳(メタデータ) (2024-03-13T17:29:45Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z) - Mixed-modality Representation Learning and Pre-training for Joint
Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。
検索中心の混合モード合成事前学習を行う。
OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-10-11T07:04:39Z) - Intermediate Training on Question Answering Datasets Improves Generative
Data Augmentation [32.83012699501051]
我々は、コンテキスト生成タスクとしてデータ生成を定式化することにより、生成データ拡張を改善する。
ダウンストリームタスクを質問応答形式に投入し、微調整されたコンテキストジェネレータをターゲットタスク領域に適応させる。
少数ショット、ゼロショット設定で、パフォーマンスが大幅に改善されたことを実証します。
論文 参考訳(メタデータ) (2022-05-25T09:28:21Z) - Learning to Answer Visual Questions from Web Videos [89.71617065426146]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
詳細な評価のために、言語バイアスの低減と高品質なマニュアルアノテーションを備えた新しいビデオQAデータセットiVQAを紹介する。
論文 参考訳(メタデータ) (2022-05-10T16:34:26Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。