論文の概要: Multi-Task Domain Adaptation for Language Grounding with 3D Objects
- arxiv url: http://arxiv.org/abs/2407.02846v1
- Date: Wed, 3 Jul 2024 06:47:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 15:25:09.606898
- Title: Multi-Task Domain Adaptation for Language Grounding with 3D Objects
- Title(参考訳): 3次元オブジェクトを用いた言語接地のためのマルチタスク領域適応
- Authors: Penglei Sun, Yaoxian Song, Xinglin Pan, Peijie Dong, Xiaofei Yang, Qiang Wang, Zhixu Li, Tiefeng Li, Xiaowen Chu,
- Abstract要約: 本稿では,3次元オブジェクトを用いたDA4LG(Domain Adaptation for Language Grounding)という新しい手法を提案する。
具体的には、DA4LGは、視覚言語アライメントを実現するために、マルチタスク学習を備えたビジュアルアダプタモジュールで構成されている。
実験の結果,DA4LGは視覚的および非視覚的言語記述間で競合的に機能することが示された。
- 参考スコア(独自算出の注目度): 25.975947369817487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The existing works on object-level language grounding with 3D objects mostly focus on improving performance by utilizing the off-the-shelf pre-trained models to capture features, such as viewpoint selection or geometric priors. However, they have failed to consider exploring the cross-modal representation of language-vision alignment in the cross-domain field. To answer this problem, we propose a novel method called Domain Adaptation for Language Grounding (DA4LG) with 3D objects. Specifically, the proposed DA4LG consists of a visual adapter module with multi-task learning to realize vision-language alignment by comprehensive multimodal feature representation. Experimental results demonstrate that DA4LG competitively performs across visual and non-visual language descriptions, independent of the completeness of observation. DA4LG achieves state-of-the-art performance in the single-view setting and multi-view setting with the accuracy of 83.8% and 86.8% respectively in the language grounding benchmark SNARE. The simulation experiments show the well-practical and generalized performance of DA4LG compared to the existing methods. Our project is available at https://sites.google.com/view/da4lg.
- Abstract(参考訳): 既存の3Dオブジェクトによるオブジェクトレベルの言語接地に関する研究は、主に、市販の事前学習モデルを利用して、視点選択や幾何学的先行といった特徴を捉えることで、パフォーマンス向上に重点を置いている。
しかし、クロスドメイン分野における言語ビジョンアライメントのクロスモーダル表現について検討することはできなかった。
そこで本研究では,3次元オブジェクトを用いたDA4LG(Domain Adaptation for Language Grounding)という新しい手法を提案する。
具体的には、DA4LGは、マルチタスク学習による視覚的適応モジュールからなり、包括的マルチモーダル特徴表現による視覚言語アライメントを実現する。
実験の結果,DA4LGは観察の完全性とは無関係に,視覚的および非視覚的言語記述を競合的に行うことが示された。
DA4LGは、言語基盤ベンチマークSNAREにおいて、それぞれ83.8%と86.8%の精度で、シングルビュー設定とマルチビュー設定で最先端のパフォーマンスを達成する。
シミュレーション実験により,従来の手法と比較して,DA4LGの実用的,汎用的な性能を示す。
私たちのプロジェクトはhttps://sites.google.com/view/da4lg.comで利用可能です。
関連論文リスト
- g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks [62.74304008688472]
Generalizable 3D-Language Feature Fields (g3D-LF)は、大規模な3D言語データセットで事前訓練された3D表現モデルである。
論文 参考訳(メタデータ) (2024-11-26T01:54:52Z) - GeoGround: A Unified Large Vision-Language Model. for Remote Sensing Visual Grounding [31.01378033872341]
GeoGroundは、HBB、OBB、マスクRSビジュアルグラウンドタスクのサポートを統合する新しいフレームワークである。
モデルトレーニングを支援するために,161kの画像テキストペアを含む大規模RS視覚指示追従データセットrefGeoを提案する。
論文 参考訳(メタデータ) (2024-11-16T05:12:11Z) - High-resolution open-vocabulary object 6D pose estimation [30.835921843505123]
Horyonはオープン語彙のVLMベースのアーキテクチャで、見えないオブジェクトの2つのシーン間の相対的なポーズ推定に対処する。
4つのデータセットにまたがるさまざまな未知のオブジェクトをベンチマークで評価する。
論文 参考訳(メタデータ) (2024-06-24T07:53:46Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - Self-supervised 3D Semantic Representation Learning for
Vision-and-Language Navigation [30.429893959096752]
ボクセルレベルの3Dセマンティック再構築を3Dセマンティック表現にエンコードする新しいトレーニングフレームワークを開発した。
LSTMに基づくナビゲーションモデルを構築し,提案した3Dセマンティック表現とBERT言語特徴を視覚言語ペア上で学習する。
実験の結果、提案手法は、R2Rデータセットの未確認分割とテスト未確認の検証において、成功率68%と66%を達成することがわかった。
論文 参考訳(メタデータ) (2022-01-26T07:43:47Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。