論文の概要: FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models
- arxiv url: http://arxiv.org/abs/2407.11522v1
- Date: Tue, 16 Jul 2024 09:00:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 15:52:20.921202
- Title: FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models
- Title(参考訳): FIRE:マルチモーダルモデルのフィードバック統合とリファインメント評価のためのデータセット
- Authors: Pengxiang Li, Zhi Gao, Bofei Zhang, Tao Yuan, Yuwei Wu, Mehrtash Harandi, Yunde Jia, Song-Chun Zhu, Qing Li,
- Abstract要約: 我々は27のソースデータセットから派生した1.10万のマルチターン会話からなるフィードバック・リファインメント・データセットを構築した。
データ収集のスケールアップには、FIRE-100KとFIRE-1Mの2つのコンポーネントが使用される:FIRE-100KはGPT-4Vで生成され、FIRE-1MはFIRE-100Kで訓練されたモデルを介して自由に生成される。
FIRE-100KおよびFIRE-1M上でのLLaVAの微調整によりFIRE-LLaVAモデルを構築し、FIRE-Bench上で顕著なフィードバック精錬能力を示し、未学習のVLMを50%上回る性能を示した。
- 参考スコア(独自算出の注目度): 81.0196402853692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision language models (VLMs) have achieved impressive progress in diverse applications, becoming a prevalent research direction. In this paper, we build FIRE, a feedback-refinement dataset, consisting of 1.1M multi-turn conversations that are derived from 27 source datasets, empowering VLMs to spontaneously refine their responses based on user feedback across diverse tasks. To scale up the data collection, FIRE is collected in two components: FIRE-100K and FIRE-1M, where FIRE-100K is generated by GPT-4V, and FIRE-1M is freely generated via models trained on FIRE-100K. Then, we build FIRE-Bench, a benchmark to comprehensively evaluate the feedback-refining capability of VLMs, which contains 11K feedback-refinement conversations as the test data, two evaluation settings, and a model to provide feedback for VLMs. We develop the FIRE-LLaVA model by fine-tuning LLaVA on FIRE-100K and FIRE-1M, which shows remarkable feedback-refining capability on FIRE-Bench and outperforms untrained VLMs by 50%, making more efficient user-agent interactions and underscoring the significance of the FIRE dataset.
- Abstract(参考訳): 視覚言語モデル (VLM) は様々な応用において顕著な進歩を遂げており、研究の方向性として広く利用されている。
本稿では、27のソースデータセットから得られた1.10万のマルチターン会話からなるフィードバックリファインメントデータセットであるFIREを構築し、多様なタスクにまたがるユーザフィードバックに基づいて、VLMが自発的に応答を洗練できるようにする。
データ収集のスケールアップには、FIRE-100KとFIRE-1Mの2つのコンポーネントが使用される:FIRE-100KはGPT-4Vで生成され、FIRE-1MはFIRE-100Kで訓練されたモデルを介して自由に生成される。
FIRE-Benchは、VLMのフィードバック修正能力を総合的に評価するベンチマークであり、テストデータとして11Kのフィードバック修正会話、2つの評価設定、VLMのフィードバックを提供するモデルを含む。
FIRE-100K と FIRE-1M 上で LLaVA を微調整し、FIRE-Bench 上で顕著なフィードバック精錬能力を示し、未学習の VLM を50% 上回る性能を示し、より効率的なユーザエージェントインタラクションを実現し、FIRE データセットの重要性を裏付ける FIRE-LLaVA モデルを開発した。
関連論文リスト
- DDFAV: Remote Sensing Large Vision Language Models Dataset and Evaluation Benchmark [11.633202976929873]
本稿では,データ拡張とデータ混合戦略を用いて,高品質なリモートセンシングLVLMデータセットDDFAVを提案する。
次に、提案したデータセットから選択した高品質なリモートセンシング画像に基づいて、トレーニング命令セットを生成する。
最後に、提案したデータセットに基づいて、リモートセンシングによるLVLMの幻覚評価手法RSPOPEを開発し、異なるLVLMのゼロショット機能を評価する。
論文 参考訳(メタデータ) (2024-11-05T02:03:12Z) - Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation [19.312330150540912]
新たなアプリケーションは、Large Language Models(LLMs)を使用して、検索強化世代(RAG)機能を強化している。
FRAMESは,LLMが現実的な応答を提供する能力をテストするために設計された高品質な評価データセットである。
本稿では,最先端のLLMでもこの課題に対処し,0.40の精度で検索を行なわないことを示す。
論文 参考訳(メタデータ) (2024-09-19T17:52:07Z) - MACAROON: Training Vision-Language Models To Be Your Engaged Partners [95.32771929749514]
大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。
本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。
我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
論文 参考訳(メタデータ) (2024-06-20T09:27:33Z) - MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs [88.28014831467503]
本稿では,包括的なベンチマークであるMMDUと,大規模命令チューニングデータセットであるMMDU-45kを紹介する。
MMDUは最大18k画像+テキストトークン、20イメージ、27ターンを備えており、これは以前のベンチマークの少なくとも5倍長くなる。
MMDU-45k上のフネ調整型オープンソースLVLMは、このギャップに適応し、より長く正確な会話を生成することを実証する。
論文 参考訳(メタデータ) (2024-06-17T17:59:47Z) - Ask-EDA: A Design Assistant Empowered by LLM, Hybrid RAG and Abbreviation De-hallucination [2.3785224421202034]
大規模言語モデル(LLM)は、主語の専門家として効果的に機能する会話エージェントとして機能することで生産性を向上させる可能性がある。
Ask-EDAは24x7のエキスパートとして設計エンジニアにガイダンスを提供するように設計されたチャットエージェントである。
論文 参考訳(メタデータ) (2024-06-03T19:40:28Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [75.9621305227523]
LMSYS-Chat-1M(LMSYS-Chat-1M)について紹介する。
このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成、という4つのユースケースを通じて、その汎用性を実証する。
論文 参考訳(メタデータ) (2023-09-21T12:13:55Z) - A Reinforcement Learning-based Volt-VAR Control Dataset and Testing
Environment [4.386026071380442]
本稿では,RLに基づくVVCアルゴリズム研究のための,サンプル効率,安全性,ロバストなオープンソースのデータセット群を紹介する。
データセットは、2つのコンポーネントで構成されている。1. IEEE-13、123、および8500バスのテストフィード用のGymライクなVVCテスト環境。
論文 参考訳(メタデータ) (2022-04-20T14:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。