論文の概要: Contra4: Evaluating Contrastive Cross-Modal Reasoning in Audio, Video, Image, and 3D
- arxiv url: http://arxiv.org/abs/2506.01275v1
- Date: Mon, 02 Jun 2025 03:12:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.018618
- Title: Contra4: Evaluating Contrastive Cross-Modal Reasoning in Audio, Video, Image, and 3D
- Title(参考訳): Contra4: オーディオ、ビデオ、画像、および3Dにおけるコントラスト的クロスモーダル推論の評価
- Authors: Artemis Panagopoulou, Le Xue, Honglu Zhou, silvio savarese, Ran Xu, Caiming Xiong, Chris Callison-Burch, Mark Yatskar, Juan Carlos Niebles,
- Abstract要約: Contra4は、画像、オーディオ、ビデオ、および3Dの4つのモードにまたがる、対照的な相互モーダル推論のためのデータセットである。
コントラ4は、人間の注釈付きキャプションとモデルの混合フィルタを組み合わせて高品質な監視を確実にし、174kのトレーニング例と2.3kの試験セットを手作業で検証する。
タスク固有の微調整はベースラインと比較してパフォーマンスを56%向上させるが、最先端のモデルでは全体の56%の精度と4つのモダリティ設定で42%の精度しか達成していない。
- 参考スコア(独自算出の注目度): 107.69104331520677
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Real-world decision-making often begins with identifying which modality contains the most relevant information for a given query. While recent multimodal models have made impressive progress in processing diverse inputs, it remains unclear whether they can reason contrastively across multiple modalities to select the one that best satisfies a natural language prompt. We argue this capability is foundational, especially in retrieval-augmented and decision-time contexts, where systems must evaluate multiple signals and identify which one conveys the relevant information. To evaluate this skill, we introduce Contra4, a dataset for contrastive cross-modal reasoning across four modalities: image, audio, video, and 3D. Each example presents a natural language question alongside multiple candidate modality instances, and the model must select the one that semantically aligns with the prompt. Contra4 combines human-annotated captions with a mixture-of-models round-trip-consistency filter to ensure high-quality supervision, resulting in 174k training examples and a manually verified test set of 2.3k samples. While task-specific fine-tuning improves performance by 56% relative to baseline, state-of-the-art models still achieve only 56% accuracy overall and 42% in four-modality settings, underscoring a significant limitation in current multimodal models.
- Abstract(参考訳): 実世界の意思決定は、与えられたクエリに対して最も関連性の高い情報を含むモダリティを特定することから始まることが多い。
近年のマルチモーダルモデルは多様な入力処理において顕著な進歩を遂げているが、自然言語のプロンプトを最も満足するものを選択するために、複数のモーダルにまたがって比較できるかどうかは不明だ。
この能力は、特に検索強化と意思決定のコンテキストにおいて基礎的であり、システムは複数の信号を評価し、どの情報を伝達するかを特定する必要がある。
このスキルを評価するために、画像、オーディオ、ビデオ、および3Dの4つのモードにまたがる対照的なクロスモーダル推論のためのデータセットであるContra4を紹介した。
それぞれの例は、複数の候補モダリティのインスタンスと並んで自然言語の質問を示し、モデルがプロンプトと意味的に一致するものを選択する必要がある。
コントラ4は、人間の注釈付きキャプションとモデルの混在するラウンドトリップ一貫性フィルタを組み合わせることで、高品質な監視を確実にし、174kのトレーニング例と2.3kのサンプルを手作業で検証する。
タスク固有の微調整はベースラインと比較してパフォーマンスを56%向上させるが、現在のマルチモーダルモデルでは4つのモード設定で56%の精度と42%の精度しか達成していない。
関連論文リスト
- RAVEN: Query-Guided Representation Alignment for Question Answering over Audio, Video, Embedded Sensors, and Natural Language [0.0]
RAVENは、クエリ条件のクロスモーダルゲーティングモジュールであるQuARTをコアとする統一QAアーキテクチャである。
RAVENは、単調な事前トレーニング、クエリ整合融合、不一致指向の微調整を含む3段階のパイプラインを通じてトレーニングされる。
実験の結果、RAVENは最先端のマルチモーダル言語モデルと比較して14.5%と8.0%の精度で向上した。
論文 参考訳(メタデータ) (2025-05-21T14:33:36Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - REBUS: A Robust Evaluation Benchmark of Understanding Symbols [1.90463290938268]
GPT-4oは他の全てのモデルよりも大幅に優れ、続いてプロプライエタリなモデルも他の評価モデルよりも優れていた。
最高のモデルでさえ、最終的な精度はわずか42%で、ハードパズルでは7%に低下する。
したがって、我々のベンチマークは、マルチモーダルな大言語モデルの知識と推論における大きな欠点を特定するのに利用できる。
論文 参考訳(メタデータ) (2024-01-11T00:30:28Z) - X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning [109.9413329636322]
本稿では,複数のモーダル性(画像,3D,オーディオ,ビデオ)を凍結した大規模言語モデル(LLM)に統合する効率的なフレームワークを提案する。
提案手法では, Q-Formers と Linear Projections (LP) の2つの異なるプロジェクション機構について検討する。
論文 参考訳(メタデータ) (2023-11-30T18:43:51Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。