Fugu-MT 論文翻訳(概要): Explore and Tell: Embodied Visual Captioning in 3D Environments

論文の概要: Explore and Tell: Embodied Visual Captioning in 3D Environments

arxiv url: http://arxiv.org/abs/2308.10447v1
Date: Mon, 21 Aug 2023 03:46:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-22 15:07:46.867355
Title: Explore and Tell: Embodied Visual Captioning in 3D Environments
Title（参考訳）: Explore and Tell: 3D環境における身体的視覚的キャプション
Authors: Anwen Hu, Shizhe Chen, Liang Zhang, Qin Jin
Abstract要約: 現実のシナリオでは、ひとつのイメージは良い視点を与えず、きめ細かいシーン理解を妨げる可能性がある。本稿では,視覚的キャプションモデルにナビゲーション機能を持たせるEmbodied Captioningという新しいタスクを提案する。本稿では,この課題に対処するために,ナビゲータとキャプタを組み合わせたCascade Embodied Captioning Model (CaBOT)を提案する。
参考スコア（独自算出の注目度）: 83.00553567094998
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While current visual captioning models have achieved impressive performance, they often assume that the image is well-captured and provides a complete view of the scene. In real-world scenarios, however, a single image may not offer a good viewpoint, hindering fine-grained scene understanding. To overcome this limitation, we propose a novel task called Embodied Captioning, which equips visual captioning models with navigation capabilities, enabling them to actively explore the scene and reduce visual ambiguity from suboptimal viewpoints. Specifically, starting at a random viewpoint, an agent must navigate the environment to gather information from different viewpoints and generate a comprehensive paragraph describing all objects in the scene. To support this task, we build the ET-Cap dataset with Kubric simulator, consisting of 10K 3D scenes with cluttered objects and three annotated paragraphs per scene. We propose a Cascade Embodied Captioning model (CaBOT), which comprises of a navigator and a captioner, to tackle this task. The navigator predicts which actions to take in the environment, while the captioner generates a paragraph description based on the whole navigation trajectory. Extensive experiments demonstrate that our model outperforms other carefully designed baselines. Our dataset, codes and models are available at https://aim3-ruc.github.io/ExploreAndTell.
Abstract（参考訳）: 現在の視覚的なキャプションモデルは印象的なパフォーマンスを達成したが、画像はよく撮影され、シーンの完全なビューを提供すると仮定することが多い。しかし、現実世界のシナリオでは、単一の画像が良い視点を提供しず、きめ細かいシーン理解を妨げる可能性がある。この制限を克服するために,視覚的キャプションモデルにナビゲーション機能を持たせる新しいタスクであるEmbodied Captioningを提案する。具体的には、ランダムな視点から始めると、エージェントは環境をナビゲートし、異なる視点から情報を収集し、シーン内のすべてのオブジェクトを記述する包括的な段落を生成する必要がある。このタスクをサポートするために,我々はkubricシミュレータを用いてet-capデータセットを構築した。本稿では,この課題に対処するために,ナビゲータとキャプタを組み合わせたCascade Embodied Captioning Model (CaBOT)を提案する。ナビゲータは、どのアクションを環境に取り入れるかを予測し、キャプタは、ナビゲーション軌跡全体に基づいて段落記述を生成する。大規模な実験は、我々のモデルが他の慎重に設計されたベースラインより優れていることを示す。私たちのデータセット、コード、モデルはhttps://aim3-ruc.github.io/exploreandtellで利用可能です。

関連論文リスト

Functionality understanding and segmentation in 3D scenes [6.1744362771344]
Fun3DUは、3Dシーンで機能を理解するために設計された最初のアプローチである。 Fun3DUは言語モデルを使用して、Chain-of-Thought推論を通じてタスク記述を解析する。我々はFun3DUをSceneFun3D上で評価する。
論文参考訳（メタデータ） (2024-11-25T11:57:48Z)
View Selection for 3D Captioning via Diffusion Ranking [54.78058803763221]
Cap3D法は、3Dオブジェクトを2Dビューにレンダリングし、事前訓練されたモデルを用いてキャプションを行う。 3Dオブジェクトのレンダリングビューは、標準的な画像キャプションモデルのトレーニングデータから逸脱し、幻覚を引き起こす。 DiffuRankは、3Dオブジェクトとそれらの2Dレンダリングビューのアライメントを評価するために、事前訓練されたテキストから3Dモデルを利用する手法である。
論文参考訳（メタデータ） (2024-04-11T17:58:11Z)
Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文参考訳（メタデータ） (2023-12-13T14:27:45Z)
HL Dataset: Visually-grounded Description of Scenes, Actions and Rationales [5.010418546872244]
我々はCOCOデータセットから14997の画像を拡張し、新たに134,973の人称注釈(ハイレベル)キャプションをセットしたデータセットを提示する。さらに、このデータセットを、独立した読者の集合から収集した信頼度スコアと、合成的に生成されたナラティブキャプションのセットで拡張する。
論文参考訳（メタデータ） (2023-02-23T17:30:18Z)
DEVICE: DEpth and VIsual ConcEpts Aware Transformer for TextCaps [10.87327544629769]
テキストキャプチャのためのDEVICE(Depth and VIsual ConcEpts Aware Transformer)を提案する。我々の装置は、より包括的にシーンを一般化し、記述された視覚的実体の精度を高めることができる。
論文参考訳（メタデータ） (2023-02-03T04:31:13Z)
DisCoScene: Spatially Disentangled Generative Radiance Fields for Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2022-12-22T18:59:59Z)
OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文参考訳（メタデータ） (2022-11-28T18:58:36Z)
Spatiality-guided Transformer for 3D Dense Captioning on Point Clouds [20.172702468478057]
3Dポイントクラウドでのディエンスキャプションは、オブジェクトレベルの3Dシーン理解を含む、視覚と言語に関する新たなタスクである。本稿では,オブジェクトを記述に変換するトランスフォーマーベースのエンコーダデコーダアーキテクチャ,すなわちSpaCap3Dを提案する。提案手法は, CIDEr@0.5IoUのベースライン法であるScan2Capを4.94%, CIDEr@0.5IoUで9.61%向上させる。
論文参考訳（メタデータ） (2022-04-22T13:07:37Z)
Recognizing Scenes from Novel Viewpoints [99.90914180489456]
人間は、少数の2Dビューから3Dのシーンを知覚することができる。AIエージェントは、少数の画像しか持たない任意の視点からシーンを認識することで、シーンとそのオブジェクトと効率的に対話することができる。本稿では,新しいシーンのいくつかのRGB画像を入力として取り込んで,そのシーンを意味カテゴリーに分類することで,新たな視点から認識するモデルを提案する。
論文参考訳（メタデータ） (2021-12-02T18:59:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。