論文の概要: Look, Remember and Reason: Visual Reasoning with Grounded Rationales
- arxiv url: http://arxiv.org/abs/2306.17778v1
- Date: Fri, 30 Jun 2023 16:31:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 11:47:24.337261
- Title: Look, Remember and Reason: Visual Reasoning with Grounded Rationales
- Title(参考訳): Look, remember and Reason: 根拠付き合理化による視覚的推論
- Authors: Apratim Bhattacharyya, Sunny Panchal, Mingu Lee, Reza Pourreza, Pulkit
Madan, Roland Memisevic
- Abstract要約: 多くの視覚的推論タスクにおいて重要な課題は、視覚情報を推論プロセスに密に統合する必要があることである。
低レベルの視覚能力に依存する人間の視覚的問題解決からインスピレーションを得て,この問題に対処することを提案する。
我々は、CLEVR、CATER、ACREデータセットからの多様な視覚的推論タスクにおける競合性能を示す。
- 参考スコア(独自算出の注目度): 7.059586008099364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have recently shown human level performance on a
variety of reasoning tasks. However, the ability of these models to perform
complex visual reasoning has not been studied in detail yet. A key challenge in
many visual reasoning tasks is that the visual information needs to be tightly
integrated in the reasoning process. We propose to address this challenge by
drawing inspiration from human visual problem solving which depends on a
variety of low-level visual capabilities. It can often be cast as the three
step-process of ``Look, Remember, Reason'': visual information is incrementally
extracted using low-level visual routines in a step-by-step fashion until a
final answer is reached. We follow the same paradigm to enable existing large
language models, with minimal changes to the architecture, to solve visual
reasoning problems. To this end, we introduce rationales over the visual input
that allow us to integrate low-level visual capabilities, such as object
recognition and tracking, as surrogate tasks. We show competitive performance
on diverse visual reasoning tasks from the CLEVR, CATER, and ACRE datasets over
state-of-the-art models designed specifically for these tasks.
- Abstract(参考訳): 大規模言語モデルは最近、さまざまな推論タスクで人間レベルのパフォーマンスを示している。
しかし、これらのモデルが複雑な視覚的推論を行う能力はまだ詳しく研究されていない。
多くの視覚的推論タスクにおいて重要な課題は、視覚情報を推論プロセスに密に統合する必要があることである。
我々は,様々な低レベルの視覚能力に依存する人間の視覚問題解決からインスピレーションを得て,この課題に取り組むことを提案する。
視覚情報は、最終回答に達するまでステップバイステップで、低レベルのビジュアルルーチンを使用して段階的に抽出されます。
私たちは同じパラダイムに従い、アーキテクチャの変更を最小限にして既存の大規模言語モデルを有効にし、視覚的な推論問題を解決します。
この目的のために,オブジェクト認識やトラッキングといった低レベルの視覚機能をサブゲートタスクとして統合可能な,視覚入力の合理性を導入する。
CLEVR、CATER、ACREのさまざまな視覚的推論タスクにおいて、これらのタスクに特化して設計された最先端モデルの競合性能を示す。
関連論文リスト
- VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。
ビデオタスクの文脈でLLMの実用性を拡張するための新しいアプローチである。
我々は,その文脈学習能力を利用して,映像理解のための実行可能な視覚プログラムを生成する。
論文 参考訳(メタデータ) (2024-03-21T18:00:00Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object
Detection [21.11998015053674]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - Momentor: Advancing Video Large Language Model with Fine-Grained
Temporal Reasoning [106.96340369164349]
本稿では,微細な時間的理解作業を実現するためのビデオLLMであるMomentorを提案する。
Moment-10MでMomentorをトレーニングし、セグメントレベルの推論とローカライゼーションを可能にします。
論文 参考訳(メタデータ) (2024-02-18T03:04:38Z) - LALM: Long-Term Action Anticipation with Language Models [74.10147822693791]
言語モデル(LALM)を用いた長期的行動予測のための新しいアプローチを提案する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果、LALMは長期的な行動予測のタスクにおいて最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。