論文の概要: RVTBench: A Benchmark for Visual Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2505.11838v1
- Date: Sat, 17 May 2025 04:58:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.885658
- Title: RVTBench: A Benchmark for Visual Reasoning Tasks
- Title(参考訳): RVTBench:ビジュアル推論タスクのベンチマーク
- Authors: Yiqing Shen, Chenjia Li, Chenxiao Fan, Mathias Unberath,
- Abstract要約: 本稿では,従来のビデオ推論のセグメンテーションを超えて,多様な視覚言語推論問題に展開する統一的定式化である推論視覚タスク(RVT)を紹介する。
RVTBenchは,4種類のRVTにまたがる120万以上のトークンの3,896のクエリを含むRVTベンチマークである。
また,タスク固有の微調整を必要とせず,様々な種類のRVTに対してゼロショットの一般化を可能にするRVTのエージェントフレームワークであるRVTagentを提案する。
- 参考スコア(独自算出の注目度): 8.214041057237491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual reasoning, the capability to interpret visual input in response to implicit text query through multi-step reasoning, remains a challenge for deep learning models due to the lack of relevant benchmarks. Previous work in visual reasoning has primarily focused on reasoning segmentation, where models aim to segment objects based on implicit text queries. This paper introduces reasoning visual tasks (RVTs), a unified formulation that extends beyond traditional video reasoning segmentation to a diverse family of visual language reasoning problems, which can therefore accommodate multiple output formats including bounding boxes, natural language descriptions, and question-answer pairs. Correspondingly, we identify the limitations in current benchmark construction methods that rely solely on large language models (LLMs), which inadequately capture complex spatial-temporal relationships and multi-step reasoning chains in video due to their reliance on token representation, resulting in benchmarks with artificially limited reasoning complexity. To address this limitation, we propose a novel automated RVT benchmark construction pipeline that leverages digital twin (DT) representations as structured intermediaries between perception and the generation of implicit text queries. Based on this method, we construct RVTBench, a RVT benchmark containing 3,896 queries of over 1.2 million tokens across four types of RVT (segmentation, grounding, VQA and summary), three reasoning categories (semantic, spatial, and temporal), and four increasing difficulty levels, derived from 200 video sequences. Finally, we propose RVTagent, an agent framework for RVT that allows for zero-shot generalization across various types of RVT without task-specific fine-tuning.
- Abstract(参考訳): 多段階の推論を通じて暗黙のテキストクエリに応答して視覚的な入力を解釈する視覚推論は、関連するベンチマークが欠如しているため、ディープラーニングモデルの課題である。
視覚的推論におけるこれまでの作業は主に、暗黙のテキストクエリに基づいてオブジェクトをセグメント化することを目的としていたセグメンテーションの推論に焦点を当てていた。
本稿では,従来のビデオ推論セグメンテーションを超えて,多様な視覚言語推論問題に拡張する統一的な推論視覚タスク (RVT) について紹介する。
これに対応して,大規模言語モデル(LLM)にのみ依存する現在のベンチマーク構築手法では,トークン表現に依存するため,ビデオ中の複雑な空間的時間的関係や多段階推論連鎖を不適切にキャプチャすることができないため,人為的に限定された推論複雑性を持つベンチマークが生じる。
この制限に対処するために,デジタルツイン(DT)表現を認識と暗黙のテキストクエリ生成の間の構造化仲介として活用する,新しいRVTベンチマーク構築パイプラインを提案する。
本手法により,RVTBenchは,3,896種類のRVTトークン(セグメンテーション,グラウンド,VQA,要約)と3つの推論カテゴリ(セマンティック,空間,時間)と,200の動画シーケンスから抽出した4つの困難レベルを含むRVTベンチマークである。
最後に,RVT のエージェントフレームワークである RVTagent を提案する。
関連論文リスト
- Online Reasoning Video Segmentation with Just-in-Time Digital Twins [8.568569213914378]
推論セグメンテーション(RS)は、暗黙のテキストクエリに基づいて関心のあるオブジェクトを識別し、セグメンテーションすることを目的としている。
現在のRSアプローチは、マルチモーダルな大言語モデルの視覚知覚能力に大きく依存している。
LLMの微調整を伴わないオンラインビデオRSの認識と推論を阻害するエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-27T00:06:40Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z) - LaSagnA: Language-based Segmentation Assistant for Complex Queries [39.620806493454616]
視覚のための大規模言語モデル(vLLM)は、バウンディングボックスやマスクを含む知覚結果を生成する。
本研究では,これらの問題の主な原因が,学習クエリの複雑さの不足であることを認めた。
本稿では,提案フォーマットの直接統合による課題を効果的に解決するための3つの新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-04-12T14:40:45Z) - Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning [40.972648044298374]
MLLM(Multi-Modal Large Language Models)は様々なVQAタスクにおいて顕著な性能を示す。
解釈可能性に欠け、複雑な視覚的な入力に苦しむことが多い。
438k問合せ対からなる大規模Visual CoTデータセットを提案する。
視覚的な入力を動的に重視し,解釈可能な思考を提供するマルチターン処理パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-25T17:59:23Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - STREET: A Multi-Task Structured Reasoning and Explanation Benchmark [56.555662318619135]
マルチタスクとマルチドメインの自然言語推論と説明ベンチマークを統一的に導入する。
我々は、モデルが質問に答えるだけでなく、ある解の正しさを証明できる中間的な結論を生成するために、問題の前提がどのように使われているかを記述する、段階的に構造化された説明を生成することを期待している。
論文 参考訳(メタデータ) (2023-02-13T22:34:02Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Referring Expression Comprehension: A Survey of Methods and Datasets [20.42495629501261]
Referring Expression comprehension (REC) は、自然言語で表現された参照表現によって記述された画像中の対象物をローカライズすることを目的としている。
まず,問題に対する近代的アプローチを比較検討する。
構造化グラフ表現と相互作用するモジュラーアーキテクチャとグラフベースモデルについて論じる。
論文 参考訳(メタデータ) (2020-07-19T01:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。