論文の概要: RelationField: Relate Anything in Radiance Fields
- arxiv url: http://arxiv.org/abs/2412.13652v1
- Date: Wed, 18 Dec 2024 09:31:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:48:12.868490
- Title: RelationField: Relate Anything in Radiance Fields
- Title(参考訳): RelationField: レイディアンス分野における関係性
- Authors: Sebastian Koch, Johanna Wald, Mirco Colosi, Narunas Vaskevicius, Pedro Hermosilla, Federico Tombari, Timo Ropinski,
- Abstract要約: 本稿では,ニューラルレイディアンス場から直接オブジェクト間関係を抽出する最初の方法であるRelationFieldを提案する。
RelationFieldは、物体間の関係を、神経放射場内の一対の光線として表現する。
RelationFieldの複雑でオープンな語彙関係を教えるために、関係知識はマルチモーダルLLMから蒸留される。
- 参考スコア(独自算出の注目度): 49.3271224106255
- License:
- Abstract: Neural radiance fields are an emerging 3D scene representation and recently even been extended to learn features for scene understanding by distilling open-vocabulary features from vision-language models. However, current method primarily focus on object-centric representations, supporting object segmentation or detection, while understanding semantic relationships between objects remains largely unexplored. To address this gap, we propose RelationField, the first method to extract inter-object relationships directly from neural radiance fields. RelationField represents relationships between objects as pairs of rays within a neural radiance field, effectively extending its formulation to include implicit relationship queries. To teach RelationField complex, open-vocabulary relationships, relationship knowledge is distilled from multi-modal LLMs. To evaluate RelationField, we solve open-vocabulary 3D scene graph generation tasks and relationship-guided instance segmentation, achieving state-of-the-art performance in both tasks. See the project website at https://relationfield.github.io.
- Abstract(参考訳): ニューラル・ラディアンス・フィールドは新たな3次元シーン表現であり、近年では視覚言語モデルからオープン語彙的特徴を抽出することにより、シーン理解のための特徴を学習するために拡張されている。
しかし、現在の手法は、主にオブジェクト中心の表現に焦点を当て、オブジェクトのセグメンテーションや検出をサポートし、一方、オブジェクト間の意味的関係を理解することは、ほとんど探索されていないままである。
このギャップに対処するため,ニューラル放射場から直接物体間関係を抽出するRelationFieldを提案する。
RelationFieldは、オブジェクト間の関係を神経放射場内の一対の光線として表現し、その定式化を暗黙の関係クエリを含むように効果的に拡張する。
RelationFieldの複雑でオープンな語彙関係を教えるために、関係知識はマルチモーダルLLMから蒸留される。
RelationFieldを評価するために、オープンな3次元シーングラフ生成タスクとリレーショナルガイダンスのインスタンスセグメンテーションを解き、両方のタスクで最先端のパフォーマンスを実現する。
プロジェクトのWebサイトはhttps://relationfield.github.ioにある。
関連論文リスト
- ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - Multimodal Relational Triple Extraction with Query-based Entity Object Transformer [20.97497765985682]
マルチモーダル関係抽出は、柔軟で現実的な知識の構築に不可欠である。
画像・テキスト・ペアから全三重項(エンタリティ,関係,オブジェクト領域)を抽出することを目的としたマルチモーダル・エンティティ・オブジェクト・トリプル抽出を提案する。
また,テキスト情報と視覚情報の相互作用と融合を動的に探索するクエリベースモデルQEOTを提案する。
論文 参考訳(メタデータ) (2024-08-16T12:43:38Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - ClawCraneNet: Leveraging Object-level Relation for Text-based Video
Segmentation [47.7867284770227]
テキストベースのビデオセグメンテーションは、ビデオ内の自然言語参照オブジェクトをセグメンテーションする難しいタスクである。
言語指導でオブジェクトを人間に分割する方法を模倣することで、新しいトップダウンアプローチを導入する。
我々の手法は最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-03-19T09:31:08Z) - Relationship-based Neural Baby Talk [10.342180619706724]
幾何学的相互作用を探索するtextitpatial relationship、意味的相互作用を抽出するtextitsemantic relationship、隠された情報をキャプチャするtextitimplicit relationshipの3つの主な関係を検討する。
提案したR-NBTモデルは,COCOデータセット上で訓練された最先端モデルよりも3つの画像キャプション生成タスクで優れる。
論文 参考訳(メタデータ) (2021-03-08T15:51:24Z) - Intrinsic Relationship Reasoning for Small Object Detection [44.68289739449486]
画像やビデオの小さなオブジェクトは通常、独立した個人ではない。その代わりに、意味的および空間的レイアウトの関係を多かれ少なかれ提示する。
本稿では,オブジェクト間の固有意味と空間的レイアウトの関係をモデル化し,推論する,小さなオブジェクト検出のための新しいコンテキスト推論手法を提案する。
論文 参考訳(メタデータ) (2020-09-02T06:03:05Z) - Visual Relation Grounding in Videos [86.06874453626347]
映像における視覚的リレーショナルグラウンドディング(RGV)という小説を探索する。
この課題は、他のビデオ言語タスク(例えば、ビデオグラウンドとビデオ質問応答)に対して支援的な視覚的事実を提供することを目的としている。
構築された階層時間領域上の2つの領域列を協調的に最適化することで、課題に対処する。
実験により,本モデルがベースラインアプローチを著しく上回るだけでなく,視覚的に意味のある事実を生成できることが示された。
論文 参考訳(メタデータ) (2020-07-17T08:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。