Fugu-MT 論文翻訳(概要): InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback

論文の概要: InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback

arxiv url: http://arxiv.org/abs/2502.15027v1
Date: Thu, 20 Feb 2025 20:27:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-24 21:37:38.98365
Title: InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback
Title（参考訳）: InterFeedback:人間のフィードバックによる大規模マルチモーダルモデルの対話型インテリジェンスの実現
Authors: Henry Hengyuan Zhao, Wenqi Pei, Yifei Tao, Haiyang Mei, Mike Zheng Shou,
Abstract要約: 既存のベンチマークでは、人間ユーザとの対話的なインテリジェンスにおいて、LMM(Large Multimodal Model)をテストしていない。対話型フレームワークであるInterFeedbackを設計し、任意のLMMとデータセットに適用して、この機能を自律的に評価する。インタラクティブパフォーマンスを手動でテストするために設計された120のケースからなる,新たに収集されたデータセットであるInterFeedback-Humanを紹介する。
参考スコア（独自算出の注目度）: 16.031192986950465
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing benchmarks do not test Large Multimodal Models (LMMs) on their interactive intelligence with human users which is vital for developing general-purpose AI assistants. We design InterFeedback, an interactive framework, which can be applied to any LMM and dataset to assess this ability autonomously. On top of this, we introduce InterFeedback-Bench which evaluates interactive intelligence using two representative datasets, MMMU-Pro and MathVerse, to test 10 different open-source LMMs. Additionally, we present InterFeedback-Human, a newly collected dataset of 120 cases designed for manually testing interactive performance in leading models such as OpenAI-o1 and Claude-3.5-Sonnet. Our evaluation results show that even state-of-the-art LMM (like OpenAI-o1) can correct their results through human feedback less than 50%. Our findings point to the need for methods that can enhance the LMMs' capability to interpret and benefit from feedback.
Abstract（参考訳）: 既存のベンチマークでは、汎用AIアシスタントを開発する上で不可欠な人間のユーザとの対話的なインテリジェンスに対して、LMM(Large Multimodal Model)をテストしていない。対話型フレームワークであるInterFeedbackを設計し、任意のLMMとデータセットに適用して、この機能を自律的に評価する。さらに,2つの代表的データセットであるMMMU-ProとMathVerseを用いて,対話型インテリジェンスを評価するInterFeedback-Benchを導入し,10種類のオープンソースLMMをテストする。さらに、OpenAI-o1やClaude-3.5-Sonnetといった主要なモデルにおいて、対話的なパフォーマンスを手動でテストするために設計された120のケースからなる、新たに収集されたデータセットであるInterFeedback-Humanを紹介する。評価の結果,最先端のLMM(OpenAI-o1)でも50%未満のフィードバックで精度を向上できることがわかった。この結果から,LMMの理解能力を高め,フィードバックの恩恵を受ける手法の必要性が示唆された。

関連論文リスト

Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文参考訳（メタデータ） (2025-02-21T20:29:02Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
DAT: Dialogue-Aware Transformer with Modality-Group Fusion for Human Engagement Estimation [42.87704953679693]
エンゲージメント推定は、人間の社会的行動を理解する上で重要な役割を果たす。本稿では,音声視覚入力のみに依存し,言語に依存しない対話対応トランスフォーマフレームワークを提案する。提案手法では, NoXi ベーステストセットの平均 CCC は 0.76 であり, NoXi ベース, NoXi-Add および MPIIGI テストセットの平均 CCC は 0.64 である。
論文参考訳（メタデータ） (2024-10-11T02:43:45Z)
Model-in-the-Loop (MILO): Accelerating Multimodal AI Data Annotation with LLMs [19.331803578031188]
本稿では,AI/MLモデルをアノテーションプロセスに統合するMILOフレームワークを提案する。我々の研究は、専門家のアノテータと大規模言語モデル(LLM)の長所を生かした協調パラダイムを導入する。マルチモーダルデータアノテーションに関する実験的な3つの研究は、MILOが処理時間を短縮し、データ品質を改善し、アノテータエクスペリエンスを向上させることの有効性を示している。
論文参考訳（メタデータ） (2024-09-16T20:05:57Z)
IQA-EVAL: Automatic Evaluation of Human-Model Interactive Question Answering [10.338962367542331]
本稿では,対話型質問応答評価を実現するための自動評価フレームワークIQA-EVALを提案する。また, LLM を用いた評価エージェント (LEA) を導入し, 人の振る舞いをシミュレートし, IQA モデルとの相互作用を生成する。本稿では,GPT-4をバックボーンモデルとした評価フレームワークが,IQAタスクにおける人的評価と高い相関性を実現することを示す。
論文参考訳（メタデータ） (2024-08-24T10:34:20Z)
UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文参考訳（メタデータ） (2023-10-02T17:40:01Z)
Unlocking the Potential of User Feedback: Leveraging Large Language Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文参考訳（メタデータ） (2023-06-16T13:04:56Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)
Evaluating Human-Language Model Interaction [79.33022878034627]
我々は,対話型システムのコンポーネントを定義する,HALIE(Human-AI Language-based Interaction Evaluation)という新しいフレームワークを開発した。ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,対話のさまざまな形態をカバーする5つのタスクを設計する。より優れた非対話的性能は、必ずしもより良い人間とLMの相互作用に必ずしも変換されない。
論文参考訳（メタデータ） (2022-12-19T18:59:45Z)
DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文参考訳（メタデータ） (2022-03-03T20:52:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。