論文の概要: How Can Objects Help Video-Language Understanding?
- arxiv url: http://arxiv.org/abs/2504.07454v2
- Date: Tue, 05 Aug 2025 06:48:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 15:23:33.981475
- Title: How Can Objects Help Video-Language Understanding?
- Title(参考訳): オブジェクトはビデオ言語を理解するのにどのように役立つのか?
- Authors: Zitian Tang, Shijie Wang, Junho Cho, Jaewook Yoo, Chen Sun,
- Abstract要約: 本稿では,任意のコンピュータビジョンアルゴリズムを利用して視覚表現を抽出・構造化するフレームワークであるObjectMLを紹介する。
6つのビデオ質問ベンチマークの広範な評価を通じて、対象中心表現の明示的な統合が依然として必要であることを確認した。
意外なことに、連続的、構造化されたオブジェクト情報を定量化し、それらをプレーンテキストとして表現する単純なアプローチが最善である。
- 参考スコア(独自算出の注目度): 16.63183488540909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Do we still need to represent objects explicitly in multimodal large language models (MLLMs)? To one extreme, pre-trained encoders convert images into visual tokens, with which objects and spatiotemporal relationships may be implicitly modeled. To the other extreme, image captions by themselves provide strong empirical performances for understanding tasks, despite missing fine-grained spatiotemporal information. To answer this question, we introduce ObjectMLLM, a framework capable of leveraging arbitrary computer vision algorithm to extract and integrate structured visual representation. Through extensive evaluations on six video question answering benchmarks, we confirm that explicit integration of object-centric representation remains necessary. Surprisingly, we observe that the simple approach of quantizing the continuous, structured object information and representing them as plain text performs the best, offering a data-efficient approach to integrate other visual perception modules into MLLM design. Our code and models are released at https://github.com/brown-palm/ObjectMLLM.
- Abstract(参考訳): マルチモーダルな大言語モデル(MLLM)でオブジェクトを明示的に表現する必要があるのでしょうか?
1つの極端な例として、事前訓練されたエンコーダは、イメージを視覚トークンに変換し、オブジェクトと時空間の関係を暗黙的にモデル化する。
一方、画像キャプション自体が、微細な時空間情報を欠いているにもかかわらず、タスクを理解するための強力な経験的なパフォーマンスを提供する。
本稿では,任意のコンピュータビジョンアルゴリズムを利用して構造化された視覚表現を抽出・統合するフレームワークであるObjectMLLMを紹介する。
6つのビデオ質問応答ベンチマークの広範な評価を通じて、対象中心表現の明示的な統合が依然として必要であることを確認した。
驚くべきことに、連続的かつ構造化されたオブジェクト情報を定量化し、それらをプレーンテキストとして表現するという単純なアプローチが、他の視覚認識モジュールをMLLM設計に統合するためのデータ効率のよいアプローチを提供する。
私たちのコードとモデルはhttps://github.com/brown-palm/ObjectMLLM.orgで公開されています。
関連論文リスト
- Re-Aligning Language to Visual Objects with an Agentic Workflow [73.73778652260911]
言語に基づくオブジェクト検出は、視覚オブジェクトを言語表現に合わせることを目的としている。
近年の研究では視覚言語モデル(VLM)を活用して視覚オブジェクトに対する人間的な表現を自動的に生成している。
画像やテキストのプロンプトを適応的に調整することで,視覚オブジェクトに言語を適応させるエージェントワークフローを提案する。
論文 参考訳(メタデータ) (2025-03-30T16:41:12Z) - EagleVision: Object-level Attribute Multimodal LLM for Remote Sensing [3.3072144045024396]
EagleVisionは、オブジェクトの検出と属性の理解に優れるリモートセンシング用に設計されたMLLMである。
EVAttrs-95Kは、命令チューニングのためのRSにおいて、最初の大規模オブジェクト属性理解データセットである。
EagleVisionは、細粒度オブジェクト検出とオブジェクト属性理解タスクの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-30T06:13:13Z) - Where do Large Vision-Language Models Look at when Answering Questions? [35.39354978511109]
LVLM(Large Vision-Language Models)は、視覚言語理解と推論タスクにおいて有望な性能を示す。
我々は既存のヒートマップ可視化手法を拡張し、オープンな視覚的質問応答のためのLVLMをサポートする。
我々は,視覚情報を必要とするベンチマークにおいて,最先端のLVLMを包括的に分析する。
論文 参考訳(メタデータ) (2025-03-18T04:34:43Z) - Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts? [62.984473889987605]
本稿では,大規模言語モデルとVQA(Visual Question Answering)システムを活用した,視覚概念学習のためのゼロショットフレームワークを提案する。
VQAシステムに問い合わせ画像とともにこれらの質問を行い、回答を集約し、テスト画像中のオブジェクトの有無を判定する。
実験では,既存のゼロショット視覚分類法や少数ショット概念学習手法と同等の性能を示した。
論文 参考訳(メタデータ) (2024-10-17T15:16:10Z) - Towards Interpreting Visual Information Processing in Vision-Language Models [24.51408101801313]
VLM(Vision-Language Models)は、テキストや画像の処理と理解のための強力なツールである。
著名なVLMであるLLaVAの言語モデルコンポーネントにおける視覚トークンの処理について検討する。
論文 参考訳(メタデータ) (2024-10-09T17:55:02Z) - VisMin: Visual Minimal-Change Understanding [7.226130826257802]
Visual Minimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。
VisMinは、2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。
我々は,大規模言語モデルと拡散モデルを用いた自動フレームワークを構築し,続いて人間のアノテーションによる厳密な4段階の検証プロセスを構築した。
論文 参考訳(メタデータ) (2024-07-23T18:10:43Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - ClawMachine: Learning to Fetch Visual Tokens for Referential Comprehension [71.03445074045092]
我々はClawMachineを提案し、視覚トークンのグループのトークン集合を用いて各エンティティに明示的に通知する新しい方法論を提案する。
追加構文を用いることなく視覚的参照タスクのプロンプトと応答を統一する手法を提案する。
ClawMachineは、高い効率でシーンレベルおよび参照理解タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - OLIVE: Object Level In-Context Visual Embeddings [8.168219870640318]
テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルを提案する。
これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。
実験の結果,提案手法は競合参照対象分類とキャプション性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T21:36:31Z) - Auto-Encoding Morph-Tokens for Multimodal LLM [151.2618346912529]
そこで本稿では,MLLMにテキスト生成を指示する視覚的プロンプトとして機能する。
実験により、モルヒネはマルチモーダル理解と生成を同時に行うための新しいSOTAを実現できることが示された。
論文 参考訳(メタデータ) (2024-05-03T08:43:06Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Leveraging VLM-Based Pipelines to Annotate 3D Objects [68.51034848207355]
本稿では,VLMの応答に影響を与える視点などの要因を疎外する代替アルゴリズムを提案する。
テキストのみの応答をマージする代わりに、VLMの合同画像テキストの可能性を利用する。
VLMベースのパイプラインを使って764Kデータセットから764Kオブジェクトの信頼性の高いアノテーションを生成する方法を示す。
論文 参考訳(メタデータ) (2023-11-29T17:54:22Z) - Towards reporting bias in visual-language datasets: bimodal augmentation
by decoupling object-attribute association [23.06058982328083]
視覚言語データセットにおけるレポートバイアスの存在に焦点をあてる。
このバイアスを軽減するために,バイモーダル拡張(BiAug)アプローチを提案する。
BiAugは、リッチなオブジェクト-属性のペアリングで視覚言語例を合成し、クロスモーダルなハードネガティブを構築する。
論文 参考訳(メタデータ) (2023-10-02T16:48:50Z) - Object-Centric Representation Learning for Video Question Answering [27.979053252431306]
ビデオ回答(Video QA)は、人間のようなインテリジェントな行動のための強力なテストベッドを提供します。
このタスクは、処理、言語理解、抽象概念を具体的なビジュアルアーティファクトに結合する新しい機能を必要とする。
本稿では,映像をオブジェクトのリレーショナルグラフに変換するための新しいクエリ誘導表現フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-12T02:37:20Z) - ClawCraneNet: Leveraging Object-level Relation for Text-based Video
Segmentation [47.7867284770227]
テキストベースのビデオセグメンテーションは、ビデオ内の自然言語参照オブジェクトをセグメンテーションする難しいタスクである。
言語指導でオブジェクトを人間に分割する方法を模倣することで、新しいトップダウンアプローチを導入する。
我々の手法は最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-03-19T09:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。