Fugu-MT 論文翻訳(概要): Visual Reasoning: from State to Transformation

論文の概要: Visual Reasoning: from State to Transformation

arxiv url: http://arxiv.org/abs/2305.01668v1
Date: Tue, 2 May 2023 14:24:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-04 17:08:13.845453
Title: Visual Reasoning: from State to Transformation
Title（参考訳）: 視覚的推論: 状態からトランスフォーメーションへ
Authors: Xin Hong, Yanyan Lan, Liang Pang, Jiafeng Guo, Xueqi Cheng
Abstract要約: 既存の視覚的推論タスクは重要な要素、すなわち変換を無視している。本稿では,新しいテキスト変換駆動型視覚推論(TVR)タスクを提案する。現状のビジュアル推論モデルは,Basic上では良好に機能するが,イベント,ビュー,TRANCOにおける人間レベルのインテリジェンスには程遠いことを示す。
参考スコア（独自算出の注目度）: 80.32402545546209
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Most existing visual reasoning tasks, such as CLEVR in VQA, ignore an important factor, i.e.~transformation. They are solely defined to test how well machines understand concepts and relations within static settings, like one image. Such \textbf{state driven} visual reasoning has limitations in reflecting the ability to infer the dynamics between different states, which has shown to be equally important for human cognition in Piaget's theory. To tackle this problem, we propose a novel \textbf{transformation driven} visual reasoning (TVR) task. Given both the initial and final states, the target becomes to infer the corresponding intermediate transformation. Following this definition, a new synthetic dataset namely TRANCE is first constructed on the basis of CLEVR, including three levels of settings, i.e.~Basic (single-step transformation), Event (multi-step transformation), and View (multi-step transformation with variant views). Next, we build another real dataset called TRANCO based on COIN, to cover the loss of transformation diversity on TRANCE. Inspired by human reasoning, we propose a three-staged reasoning framework called TranNet, including observing, analyzing, and concluding, to test how recent advanced techniques perform on TVR. Experimental results show that the state-of-the-art visual reasoning models perform well on Basic, but are still far from human-level intelligence on Event, View, and TRANCO. We believe the proposed new paradigm will boost the development of machine visual reasoning. More advanced methods and new problems need to be investigated in this direction. The resource of TVR is available at \url{https://hongxin2019.github.io/TVR/}.
Abstract（参考訳）: 既存の視覚的推論タスク、例えばVQAのCLEVRは重要な要素を無視している。それらは、マシンが静的設定における概念や関係をいかによく理解しているかをテストするためにのみ定義される。このような \textbf{state driven} の視覚的推論は、異なる状態間のダイナミクスを推論する能力を反映しているため、ピアジェの理論における人間の認識に等しく重要であることが示されている。この問題に対処するために,新しい「textbf{transformation driven} visual reasoning (TVR)」タスクを提案する。初期状態と最終状態の両方が与えられた場合、ターゲットは対応する中間変換を推測する。この定義に従い、新たな合成データセットであるtransnceは、まずclevrに基づいて構築され、3つのレベルの設定、すなわち~basic(single-step transformation)、event(multi-step transformation)、view(multi-step transformation with variant views)が含まれる。次に、COINに基づくTRANCOと呼ばれる別の実際のデータセットを構築し、TRANCEにおける変換の多様性の損失をカバーする。人間の推論にインスパイアされたTranNetと呼ばれる3段階の推論フレームワークを提案し、TVRにおける最近の高度な技術がどのように機能するかを観察、分析、結論づける。実験の結果、最先端のビジュアル推論モデルは基本ではうまく機能するが、イベント、ビュー、トランコの人間レベルの知性には程遠いことがわかった。提案する新たなパラダイムは,機械視覚推論の開発を促進するものだと考えています。より先進的な手法や新しい問題をこの方向で調べる必要がある。 TVRのリソースは \url{https://hongxin2019.github.io/TVR/} で入手できる。

関連論文リスト

VisualTrans: A Benchmark for Real-World Visual Transformation Reasoning [10.497961559068493]
ビジュアルトランスフォーメーション推論(VTR)は、知的エージェントが動的シーンを理解するための重要な認知能力である。既存のベンチマークは、sim-to-realギャップ、タスクの複雑さの制限、不完全な推論カバレッジに悩まされている。 VisualTransは、現実世界の人間とオブジェクトのインタラクションシナリオにおいて、VTR用に特別に設計された最初の包括的なベンチマークである。
論文参考訳（メタデータ） (2025-08-06T03:07:05Z)
Test-Time Canonicalization by Foundation Models for Robust Perception [33.00574202314593]
FOCALは、堅牢な知覚のためのテストタイム、データ駆動フレームワークである。再トレーニングやアーキテクチャの変更なしに、堅牢性を高める。実験では,CLIPおよびSAMの難易度変換における堅牢性の向上を実証した。
論文参考訳（メタデータ） (2025-07-14T15:14:38Z)
ESTR-CoT: Towards Explainable and Accurate Event Stream based Scene Text Recognition with Chain-of-Thought Reasoning [57.767536707234036]
本稿では,イベントストリームシーンのテキスト認識フレームワークESTR-CoTを提案する。具体的には、まず視覚エンコーダEVA-CLIPを採用し、入力イベントストリームをトークンに変換し、Llamaトークン化器を使用して与えられた生成プロンプトをエンコードする。 Qフォーマーは、事前訓練された大言語モデルVicuna-7Bにビジョントークンを整列させ、応答とチェーン・オブ・シークレット(CoT)推論プロセスの両方を同時に出力する。
論文参考訳（メタデータ） (2025-07-02T23:41:31Z)
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。 TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文参考訳（メタデータ） (2025-03-17T16:45:12Z)
Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR [51.72751335574947]
Visual Commonsense Reasoning (VCR)は、視覚的なシーンに対する質問応答の背後にある説明的推論を要求する。ベンチマークデータセットの進歩は、Vision-Language Transformers(VL Transformers)の最近の進歩に大きく起因している。本稿では、VLトランスフォーマーは、VCRの鍵となる視覚的コモンセンスを示さないことを仮定する。
論文参考訳（メタデータ） (2024-05-27T08:26:58Z)
A Novel Bounding Box Regression Method for Single Object Tracking [0.0]
本稿では,2つの新しいバウンディングボックスレグレッションネットワーク(インセプションとデフォルマブル)を導入する。実験およびアブレーション実験により、ODTrackにインストールされた初期モジュールは、3つのベンチマークで後者を上回る性能を示した。
論文参考訳（メタデータ） (2024-05-16T21:09:45Z)
Visual Transformation Telling [81.99825888461544]
我々はtextbfVisual textbfTransformation textbfTelling (VTT) と呼ばれる新しい視覚的推論タスクを提案する。一連の状態(すなわち画像)が与えられた場合、VTTは隣接する2つの状態間の変換を記述する必要がある。既存の2つの指導ビデオデータセットからの変換推論研究を支援するために,新しいデータセットを収集する。
論文参考訳（メタデータ） (2023-05-03T07:02:57Z)
RelViT: Concept-guided Vision Transformer for Visual Relational Reasoning [139.0548263507796]
私たちは視覚推論のベースモデルとして視覚変換器(ViT)を使用します。我々は、ViTの推論能力を改善するために、オブジェクトエンティティとして定義された概念とその関係をよりよく活用する。 HICO と GQA のベンチマークでは,提案モデルである概念誘導型視覚変換器 (略して RelViT ) が従来の手法よりも大幅に優れていたことを示す。
論文参考訳（メタデータ） (2022-04-24T02:46:43Z)
GEB+: A Benchmark for Generic Event Boundary Captioning, Grounding and Retrieval [40.399017565653196]
Kinetic-GEB+と呼ばれる新しいデータセットを導入する。データセットは、12Kビデオのステータス変更を記述するキャプションに関連する170万以上のバウンダリで構成されている。現状の変化を通じて,よりきめ細かな,堅牢で,人間的な映像理解を支援する3つのタスクを提案する。
論文参考訳（メタデータ） (2022-04-01T14:45:30Z)
RelTransformer: Balancing the Visual Relationship Detection from Local Context, Scene and Memory [24.085223165006212]
複数の画像レベルからリッチなセマンティック特徴を用いた関係予測を行うRelTransformerと呼ばれる新しいフレームワークを提案する。 GQA-LTの精度は27.4%向上し,尾部関係予測における最良基準となる。
論文参考訳（メタデータ） (2021-04-24T12:04:04Z)
Transformation Driven Visual Reasoning [80.32402545546209]
本稿では,重要な要因,すなわちトランスフォーメーションを導入することで,新たな視覚的推論パラダイムを定義する。この種のテキスト状態駆動型視覚推論アプローチは、マシンが異なる状態間のダイナミクスを推論する能力を持っているかどうかを反映する限界がある、と我々は主張する。実験結果から,現在最先端の視覚推論モデルは,Basic上では良好に動作するが,イベントやビューにおける人間レベルのインテリジェンスには程遠いことが示唆された。
論文参考訳（メタデータ） (2020-11-26T07:11:31Z)
Dense Regression Network for Video Grounding [97.57178850020327]
地上の真理の中のフレームと開始(終了)フレームの間の距離を高密度の監督として利用し、映像のグラウンド化精度を向上させる。具体的には、各フレームからビデオセグメントの開始(終了)フレームまでの距離を抑えるために、新しい高密度回帰ネットワーク(DRN)を設計する。また,グラウンドリング結果の局所化品質を明示的に考慮するために,単純だが効果的なIoU回帰ヘッドモジュールを提案する。
論文参考訳（メタデータ） (2020-04-07T17:15:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。