論文の概要: Beyond Literal Descriptions: Understanding and Locating Open-World
Objects Aligned with Human Intentions
- arxiv url: http://arxiv.org/abs/2402.11265v1
- Date: Sat, 17 Feb 2024 12:42:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 22:09:23.372486
- Title: Beyond Literal Descriptions: Understanding and Locating Open-World
Objects Aligned with Human Intentions
- Title(参考訳): リテラル記述を超えて:人間の意図に相応しいオープンワールドオブジェクトの理解と配置
- Authors: Wenxuan Wang, Yisi Zhang, Xingjian He, Yichen Yan, Zijia Zhao, Xinlong
Wang, Jing Liu
- Abstract要約: 本稿では,意図駆動型視覚的グラウンドディング(IVG)タスクを提案し,インテンションVG(IntentionVG)と呼ばれる最大規模のIVGデータセットを自由形式の意図表現で構築する。
基礎課題を実現するために,現実的なエージェントが様々なシナリオの特定の目標を移動して見つけ出す必要があることを考えると,我々のIVGタスクと意図VGデータセットは,多シナリオ認識と自我中心の視点の両方において重要な特性を考慮に入れている。
- 参考スコア(独自算出の注目度): 38.6991454720376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual grounding (VG) aims at locating the foreground entities that match the
given natural language expression. Previous datasets and methods for classic VG
task mainly rely on the prior assumption that the given expression must
literally refer to the target object, which greatly impedes the practical
deployment of agents in real-world scenarios. Since users usually prefer to
provide the intention-based expressions for the desired object instead of
covering all the details, it is necessary for the agents to interpret the
intention-driven instructions. Thus, in this work, we take a step further to
the intention-driven visual-language (V-L) understanding. To promote classic VG
towards human intention interpretation, we propose a new intention-driven
visual grounding (IVG) task and build a largest-scale IVG dataset named
IntentionVG with free-form intention expressions. Considering that practical
agents need to move and find specific targets among various scenarios to
realize the grounding task, our IVG task and IntentionVG dataset have taken the
crucial properties of both multi-scenario perception and egocentric view into
consideration. Besides, various types of models are set up as the baselines to
realize our IVG task. Extensive experiments on our IntentionVG dataset and
baselines demonstrate the necessity and efficacy of our method for the V-L
field. To foster future research in this direction, our newly built dataset and
baselines will be publicly available.
- Abstract(参考訳): visual grounding (vg) は、与えられた自然言語表現にマッチする前景エンティティを見つけることを目的としている。
従来のVGタスクのデータセットやメソッドは、与えられた表現がターゲットオブジェクトを文字通り参照しなければならないという前提に大きく依存しており、現実のシナリオにおけるエージェントの実践的配置を著しく妨げている。
ユーザは通常、すべての詳細をカバーするのではなく、所望のオブジェクトに対して意図に基づく表現を提供することを好むため、エージェントは意図駆動的な指示を解釈する必要がある。
そこで本研究では,意図駆動型視覚言語(V-L)の理解をさらに進める。
人間の意図の解釈に向けて古典的なVGを促進するために,意図駆動型視覚グラウンドディング(IVG)タスクを提案し,インテンションVGと呼ばれる最大規模のIVGデータセットを自由形式の意図表現で構築する。
基礎課題を実現するために,現実的なエージェントが様々なシナリオの特定の目標を移動して見つけ出す必要があることを考えると,我々のIVGタスクと意図VGデータセットは,多シナリオ認識と自我中心的視点の両方の重要な特性を考慮に入れている。
また,IVGタスクを実現するためのベースラインとして,様々なモデルが設定されている。
IntentionVGデータセットとベースラインに関する大規模な実験により,V-Lフィールドにおける本手法の必要性と有効性を示した。
この方向の今後の研究を促進するために、新たに構築したデータセットとベースラインが一般公開される予定です。
関連論文リスト
- Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization [77.36122979882649]
コンピュータビジョン(CV)は自然言語処理(NLP)で観測されるゼロショットタスクの一般化をまだ完全に達成していない
本稿では,ゼロショットタスクの一般化において重要な障壁となる離散的・用語的タスク定義をCVが採用するという考えを考察する。
我々の仮説は、これらの用語的定義により、以前に見いだされたタスクを真に理解せずに、ディープモデルは新しいタスクに一般化するのに苦労する、というものである。
論文 参考訳(メタデータ) (2024-12-24T16:08:25Z) - VLM-HOI: Vision Language Models for Interpretable Human-Object Interaction Analysis [8.676256316312877]
対象物間相互作用(HOI)検出タスク(bfVLM-HOI)の目的関数形式としてVLMを明示的に活用する新しい手法を提案する。
VLMの言語理解を十分に活用するために言語的にHOI三重項を表現し、その局所化とオブジェクト中心の性質からCLIPモデルよりも適している。
提案手法の有効性を実証し,ベンチマーク上での最先端HOI検出精度を実現する。
論文 参考訳(メタデータ) (2024-11-27T04:13:23Z) - Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。
生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。
本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文 参考訳(メタデータ) (2024-07-18T20:29:49Z) - Enhancing Visual Grounding and Generalization: A Multi-Task Cycle Training Approach for Vision-Language Models [41.64717254672843]
視覚接地は多モード視覚言語モデルにおいて重要な位置を占める。
本稿では,VGのマルチタスクをサポートする大規模なマルチモーダリティモデルであるViLaMを提案する。
ViLaMは幅広い命令を拡張し、一般化と相互作用ポテンシャルを大幅に強化する。
論文 参考訳(メタデータ) (2023-11-21T03:40:09Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - The Unreasonable Effectiveness of Large Language-Vision Models for
Source-free Video Domain Adaptation [56.61543110071199]
Source-Free Video Unsupervised Domain Adaptation (SFVUDA)タスクは、ラベル付きソースデータセットでトレーニングされたアクション認識モデルを、ラベル付きターゲットデータセットに適応させることによって構成される。
従来のアプローチでは、ターゲットデータ自体から派生した自己スーパービジョンを活用してSFVUDAに対処しようと試みてきた。
我々は、LLVMがドメインシフトに対して驚くほど堅牢になる前に、リッチな世界を含むという理論によって、LLVM(Large Language-Vision Models)から"web-supervision"を利用するアプローチを取る。
論文 参考訳(メタデータ) (2023-08-17T18:12:05Z) - Iterative Robust Visual Grounding with Masked Reference based
Centerpoint Supervision [24.90534567531536]
本稿では,Masked Reference Based Centerpoint Supervision (MRCS) を用いたIR-VG (Iterative Robust Visual Grounding) フレームワークを提案する。
提案するフレームワークは,5つの通常のVGデータセットと2つの新たに構築された堅牢なVGデータセットで評価される。
論文 参考訳(メタデータ) (2023-07-23T17:55:24Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。