Fugu-MT 論文翻訳(概要): VCIFBench: Evaluating Complex Instruction Following for Video Understanding

論文の概要: VCIFBench: Evaluating Complex Instruction Following for Video Understanding

arxiv url: http://arxiv.org/abs/2606.04588v1
Date: Wed, 03 Jun 2026 08:27:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-05 07:07:40.474831
Title: VCIFBench: Evaluating Complex Instruction Following for Video Understanding
Title（参考訳）: VCIFBench: ビデオ理解のための複雑なインストラクションの評価
Authors: Huangchen Xu, Yuan Wu, Yi Chang,
Abstract要約: 本稿では,映像理解における複雑な指導方法を評価するためのベンチマークVCIFBenchを紹介する。 VCIFBenchは、ベンチマーク適応プロンプトとビデオ接地プロンプトの両方から制約に富んだ命令を構築する。本稿では,VCIFBenchデータに対するDPOトレーニングにより,命令追従性能が向上することを示す。
参考スコア（独自算出の注目度）: 16.995082216096787
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal large language models have made rapid progress in video understanding, yet existing benchmarks largely rely on simple prompts and provide limited evidence about whether models can satisfy explicit output constraints. We introduce VCIFBench, a benchmark for evaluating complex instruction following in video understanding. VCIFBench constructs constraint-rich instructions from both benchmark-adapted and directly video-grounded prompts, covering content, format, style, and structure requirements, and evaluates model outputs with a hybrid verification pipeline. The benchmark contains 306 satisfiable test instructions, a 540-pair DPO preference dataset, and a 30-item conflict diagnostic subset. Experiments on 10 MLLMs show that joint constraint satisfaction remains challenging. We further show that DPO training on VCIFBench data can improve instruction-following performance.
Abstract（参考訳）: マルチモーダルな大言語モデルはビデオ理解において急速に進歩しているが、既存のベンチマークは単純なプロンプトに大きく依存しており、モデルが明示的な出力制約を満たすことができるかどうかの限られた証拠を提供している。本稿では,映像理解における複雑な指導方法を評価するためのベンチマークVCIFBenchを紹介する。 VCIFBenchは、ベンチマーク適応プロンプトとビデオ接地プロンプトの両方から制約に富んだ命令を構築し、コンテンツ、フォーマット、スタイル、構造要件をカバーし、ハイブリッド検証パイプラインでモデル出力を評価する。ベンチマークには、306の満足できるテスト命令、540ペアのDPO選好データセット、30itemのコンフリクト診断サブセットが含まれている。 10個のMLLM実験により, 関節拘束満足度は依然として困難であることが確認された。さらに,VCIFBenchデータに対するDPOトレーニングにより,命令追従性能が向上することを示す。

関連論文リスト

MMCL-Bench: Multimodal Context Learning from Visual Rules, Procedures, and Evidence [66.12781312894647]
MMCL-Bench(MMCL-Bench)は、視覚的・混合モダリティ教育の文脈からタスクローカルルール、手順、経験的パターンを学ぶためのベンチマークである。この設定では、学習コンテキストを推論する前に、画像、スクリーンショット、マニュアル、ビデオ、フレームシーケンスから関連するエビデンスを復元し、ローカライズする必要がある。厳密なスコアリングによるフロンティアマルチモーダルモデルを評価した結果、現在のシステムは堅牢なマルチモーダルコンテキスト学習には程遠いことが判明した。
論文参考訳（メタデータ） (2026-05-12T19:57:37Z)
Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding [98.3098451637867]
Video-MME-v2は、ビデオ理解の堅牢性と忠実さを厳格に評価するために設計された総合的なベンチマークである。データ品質を保証するため、Video-MME-v2は厳格に制御された人間のアノテーションパイプラインを通して構築される。
論文参考訳（メタデータ） (2026-04-06T17:59:56Z)
IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。 IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文参考訳（メタデータ） (2026-03-05T02:21:17Z)
One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文参考訳（メタデータ） (2025-11-05T14:39:59Z)
IF-VidCap: Can Video Caption Models Follow Instructions? [44.2412700621584]
制御可能なビデオキャプションを評価するための新しいベンチマークであるIF-VidCapを紹介する。 IF-VidCapには、フォーマットの正しさとコンテンツの正しさの2つの側面でキャプションを評価する、体系的なフレームワークが組み込まれている。
論文参考訳（メタデータ） (2025-10-21T15:25:08Z)
IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment [108.8652018167452]
IVEBenchは、命令誘導ビデオ編集アセスメント用に特別に設計されたベンチマークスイートである。様々な600の高品質なソースビデオのデータベースからなり、7つのセマンティックディメンションにまたがり、32フレームから1,024フレームの動画をカバーしている。 IVEBenchは、映像品質、命令順守、映像忠実度を含む3次元評価プロトコルを確立する。
論文参考訳（メタデータ） (2025-10-13T17:27:08Z)
RECAST: Expanding the Boundaries of LLMs' Complex Instruction Following with Multi-Constraint Data [47.19854998380304]
RECASTは、既存のベンチマークよりもはるかに多くの制約のあるデータセットを合成するための効率的なフレームワークである。我々は、19の制約型にまたがる30kインスタンスからなる大規模で高品質なデータセットであるRECAST-30Kを構築した。実験の結果、RECAST-30Kで微調整されたモデルでは、複雑な命令に従うと大幅に改善することが示された。
論文参考訳（メタデータ） (2025-05-25T08:31:08Z)
A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models [48.361839372110246]
本研究では,制約拡張,競合検出,命令書き換えを行う自動命令生成パイプラインを開発する。我々は、19の大規模言語モデルを評価し、制約形式間の性能のかなりの変動を明らかにする。詳細な分析では、これらの利得は主にモデルのアテンションモジュールパラメータの変更に起因していることを示している。
論文参考訳（メタデータ） (2025-05-12T14:16:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。