論文の概要: Beyond Literal Descriptions: Understanding and Locating Open-World
Objects Aligned with Human Intentions
- arxiv url: http://arxiv.org/abs/2402.11265v1
- Date: Sat, 17 Feb 2024 12:42:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 22:09:23.372486
- Title: Beyond Literal Descriptions: Understanding and Locating Open-World
Objects Aligned with Human Intentions
- Title(参考訳): リテラル記述を超えて:人間の意図に相応しいオープンワールドオブジェクトの理解と配置
- Authors: Wenxuan Wang, Yisi Zhang, Xingjian He, Yichen Yan, Zijia Zhao, Xinlong
Wang, Jing Liu
- Abstract要約: 本稿では,意図駆動型視覚的グラウンドディング(IVG)タスクを提案し,インテンションVG(IntentionVG)と呼ばれる最大規模のIVGデータセットを自由形式の意図表現で構築する。
基礎課題を実現するために,現実的なエージェントが様々なシナリオの特定の目標を移動して見つけ出す必要があることを考えると,我々のIVGタスクと意図VGデータセットは,多シナリオ認識と自我中心の視点の両方において重要な特性を考慮に入れている。
- 参考スコア(独自算出の注目度): 38.6991454720376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual grounding (VG) aims at locating the foreground entities that match the
given natural language expression. Previous datasets and methods for classic VG
task mainly rely on the prior assumption that the given expression must
literally refer to the target object, which greatly impedes the practical
deployment of agents in real-world scenarios. Since users usually prefer to
provide the intention-based expressions for the desired object instead of
covering all the details, it is necessary for the agents to interpret the
intention-driven instructions. Thus, in this work, we take a step further to
the intention-driven visual-language (V-L) understanding. To promote classic VG
towards human intention interpretation, we propose a new intention-driven
visual grounding (IVG) task and build a largest-scale IVG dataset named
IntentionVG with free-form intention expressions. Considering that practical
agents need to move and find specific targets among various scenarios to
realize the grounding task, our IVG task and IntentionVG dataset have taken the
crucial properties of both multi-scenario perception and egocentric view into
consideration. Besides, various types of models are set up as the baselines to
realize our IVG task. Extensive experiments on our IntentionVG dataset and
baselines demonstrate the necessity and efficacy of our method for the V-L
field. To foster future research in this direction, our newly built dataset and
baselines will be publicly available.
- Abstract(参考訳): visual grounding (vg) は、与えられた自然言語表現にマッチする前景エンティティを見つけることを目的としている。
従来のVGタスクのデータセットやメソッドは、与えられた表現がターゲットオブジェクトを文字通り参照しなければならないという前提に大きく依存しており、現実のシナリオにおけるエージェントの実践的配置を著しく妨げている。
ユーザは通常、すべての詳細をカバーするのではなく、所望のオブジェクトに対して意図に基づく表現を提供することを好むため、エージェントは意図駆動的な指示を解釈する必要がある。
そこで本研究では,意図駆動型視覚言語(V-L)の理解をさらに進める。
人間の意図の解釈に向けて古典的なVGを促進するために,意図駆動型視覚グラウンドディング(IVG)タスクを提案し,インテンションVGと呼ばれる最大規模のIVGデータセットを自由形式の意図表現で構築する。
基礎課題を実現するために,現実的なエージェントが様々なシナリオの特定の目標を移動して見つけ出す必要があることを考えると,我々のIVGタスクと意図VGデータセットは,多シナリオ認識と自我中心的視点の両方の重要な特性を考慮に入れている。
また,IVGタスクを実現するためのベースラインとして,様々なモデルが設定されている。
IntentionVGデータセットとベースラインに関する大規模な実験により,V-Lフィールドにおける本手法の必要性と有効性を示した。
この方向の今後の研究を促進するために、新たに構築したデータセットとベースラインが一般公開される予定です。
関連論文リスト
- Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。
生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。
本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文 参考訳(メタデータ) (2024-07-18T20:29:49Z) - Enhancing Visual Grounding and Generalization: A Multi-Task Cycle Training Approach for Vision-Language Models [41.64717254672843]
視覚接地は多モード視覚言語モデルにおいて重要な位置を占める。
本稿では,VGのマルチタスクをサポートする大規模なマルチモーダリティモデルであるViLaMを提案する。
ViLaMは幅広い命令を拡張し、一般化と相互作用ポテンシャルを大幅に強化する。
論文 参考訳(メタデータ) (2023-11-21T03:40:09Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - PROGrasp: Pragmatic Human-Robot Communication for Object Grasping [22.182690439449278]
対話型オブジェクトグラスピング(IOG)は、人間とロボットの自然言語による対話を通じて、望ましいオブジェクトを識別し、把握するタスクである。
Pragmatic-IOG タスクとそれに対応するデータセット Intention-oriented Multi-Modal Dialogue (IM-Dial) を導入する。
Prograspは、視覚的なグラウンドニング、質問、オブジェクトの把握、そして最も重要なのは、実用的推論の解答解釈のモジュールを組み込むことで、Pragmatic-IOGを実行する。
論文 参考訳(メタデータ) (2023-09-14T14:45:47Z) - The Unreasonable Effectiveness of Large Language-Vision Models for
Source-free Video Domain Adaptation [56.61543110071199]
Source-Free Video Unsupervised Domain Adaptation (SFVUDA)タスクは、ラベル付きソースデータセットでトレーニングされたアクション認識モデルを、ラベル付きターゲットデータセットに適応させることによって構成される。
従来のアプローチでは、ターゲットデータ自体から派生した自己スーパービジョンを活用してSFVUDAに対処しようと試みてきた。
我々は、LLVMがドメインシフトに対して驚くほど堅牢になる前に、リッチな世界を含むという理論によって、LLVM(Large Language-Vision Models)から"web-supervision"を利用するアプローチを取る。
論文 参考訳(メタデータ) (2023-08-17T18:12:05Z) - Iterative Robust Visual Grounding with Masked Reference based
Centerpoint Supervision [24.90534567531536]
本稿では,Masked Reference Based Centerpoint Supervision (MRCS) を用いたIR-VG (Iterative Robust Visual Grounding) フレームワークを提案する。
提案するフレームワークは,5つの通常のVGデータセットと2つの新たに構築された堅牢なVGデータセットで評価される。
論文 参考訳(メタデータ) (2023-07-23T17:55:24Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - GRILL: Grounded Vision-language Pre-training via Aligning Text and Image
Regions [92.96783800362886]
未知のタスクへの一般化は、少数の学習者が多様なタスクにおいてより優れたゼロ/フェーショットのパフォーマンスを達成できる重要な能力である。
GRILLは視覚的質問応答やキャプション,接地タスクなどの多様なタスクに,ほとんど,あるいはごく少数のトレーニングインスタンスで一般化可能な,新しいVLモデルである。
論文 参考訳(メタデータ) (2023-05-24T03:33:21Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。