論文の概要: Fake or Real, Can Robots Tell? Evaluating Embodied Vision-Language Models on Real and 3D-Printed Objects
- arxiv url: http://arxiv.org/abs/2506.19579v1
- Date: Tue, 24 Jun 2025 12:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.627755
- Title: Fake or Real, Can Robots Tell? Evaluating Embodied Vision-Language Models on Real and 3D-Printed Objects
- Title(参考訳): フェイクかリアルか : 実物と3Dプリント物体の身体的視覚言語モデルの評価
- Authors: Federico Tavella, Kathryn Mearns, Angelo Cangelosi,
- Abstract要約: 本稿では,RGBカメラを搭載したロボットアームによるテーブルトップシーンのキャプション戦略の比較検討を行う。
ロボットは複数の視点から物体の画像を収集し,シーン記述を生成する複数のモデルを評価する。
実験では, 単一視点と多視点キャプションのトレードオフ, 実世界と3Dプリントオブジェクトの認識の相違について検討した。
- 参考スコア(独自算出の注目度): 3.9825600707172986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic scene understanding increasingly relies on vision-language models (VLMs) to generate natural language descriptions of the environment. In this work, we present a comparative study of captioning strategies for tabletop scenes captured by a robotic arm equipped with an RGB camera. The robot collects images of objects from multiple viewpoints, and we evaluate several models that generate scene descriptions. We compare the performance of various captioning models, like BLIP and VLMs. Our experiments examine the trade-offs between single-view and multi-view captioning, and difference between recognising real-world and 3D printed objects. We quantitatively evaluate object identification accuracy, completeness, and naturalness of the generated captions. Results show that VLMs can be used in robotic settings where common objects need to be recognised, but fail to generalise to novel representations. Our findings provide practical insights into deploying foundation models for embodied agents in real-world settings.
- Abstract(参考訳): ロボットシーンの理解は、環境の自然言語記述を生成するために視覚言語モデル(VLM)にますます依存している。
本稿では,RGBカメラを搭載したロボットアームが捉えたテーブルトップシーンのキャプション戦略について比較検討する。
ロボットは複数の視点から物体の画像を収集し,シーン記述を生成する複数のモデルを評価する。
我々はBLIPやVLMといった様々なキャプションモデルの性能を比較した。
実験では, 単一視点と多視点キャプションのトレードオフ, 実世界と3Dプリントオブジェクトの認識の相違について検討した。
生成したキャプションの物体識別精度,完全度,自然度を定量的に評価した。
その結果、VLMは、一般的な物体を認識する必要があるが、新しい表現への一般化に失敗するロボット環境で使用できることが示された。
本研究は,実環境におけるエンボディエージェントの基礎モデルの展開に関する実践的な知見を提供する。
関連論文リスト
- Follow-Your-Instruction: A Comprehensive MLLM Agent for World Data Synthesis [44.66179436245703]
Follow-Your-Instructionは、高品質な2D、3D、4Dデータを自動合成するフレームワークである。
3Dレイアウトを構築し、セマンティックリファインメントのためにビジョン・ランゲージ・モデル(VLM)を利用する。
本研究では,2D,3D,4D生成タスクに関する総合的な実験を通じて,生成データの品質を評価する。
論文 参考訳(メタデータ) (2025-08-07T17:12:54Z) - Video Perception Models for 3D Scene Synthesis [109.5543506037003]
VIPSceneは、ビデオ生成モデルにおける3D物理世界のエンコードされたコモンセンス知識を利用する新しいフレームワークである。
VIPSceneはビデオ生成、フィードフォワード3D再構成、オープン語彙認識モデルをシームレスに統合し、シーン内の各オブジェクトを意味的かつ幾何学的に分析する。
論文 参考訳(メタデータ) (2025-06-25T16:40:17Z) - OG-VLA: 3D-Aware Vision Language Action Model via Orthographic Image Generation [68.11862866566817]
3D対応のポリシーは、精密なロボット操作タスクにおいて最先端のパフォーマンスを実現するが、見えない指示、シーン、オブジェクトへの一般化に苦慮している。
我々は,視覚言語行動モデル(VLA)の一般化強度と3D対応ポリシーの堅牢性を組み合わせた,新しいアーキテクチャと学習フレームワークであるOG-VLAを紹介する。
論文 参考訳(メタデータ) (2025-06-01T22:15:45Z) - Vision language models are unreliable at trivial spatial cognition [0.2902243522110345]
視覚言語モデル(VLM)は、画像から関連する視覚空間情報を抽出するように設計されている。
そこで我々は,テーブル上に配置されたオブジェクトの3Dシーンを画像で表現したベンチマークデータセットであるTableTestを開発し,それを最先端のVLMの評価に使用した。
結果は、同等の記述を使用するプロンプトの小さなバリエーションによって、パフォーマンスが劣化する可能性があることを示している。
論文 参考訳(メタデータ) (2025-04-22T17:38:01Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - ZISVFM: Zero-Shot Object Instance Segmentation in Indoor Robotic Environments with Vision Foundation Models [10.858627659431928]
サービスロボットは、機能を強化するために、未知のオブジェクトを効果的に認識し、セグメント化する必要がある。
従来の教師付き学習ベースのセグメンテーション技術は、広範な注釈付きデータセットを必要とする。
本稿では,セグメンテーションアプライスモデル (SAM) の強力なゼロショット能力と,自己監督型視覚変換器 (ViT) からの明示的な視覚表現を活用することで,UOISを解く新しいアプローチ (ZISVFM) を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:22:20Z) - Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。
我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSはシーンレベルで多数の調整可能なパラメータをサポートする。
アプリケーションシナリオを3つ紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:57:56Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - LIV: Language-Image Representations and Rewards for Robotic Control [37.12560985663822]
テキストアノテーションを用いたアクションフリービデオから視覚言語表現と報酬学習の統一的な目的について述べる。
我々はLIVを用いて、EpicKitchenのような大規模な人間のビデオデータセットから制御中心の視覚言語表現を事前学習する。
本研究は,統合されたコンパクトなLIVフレームワークにおける共同視覚言語表現と報酬学習の利点を検証した。
論文 参考訳(メタデータ) (2023-06-01T17:52:23Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Paparazzi: A Deep Dive into the Capabilities of Language and Vision
Models for Grounding Viewpoint Descriptions [4.026600887656479]
現状の言語とビジョンモデルであるCLIPが、3Dオブジェクトの視点記述を基盤として利用できるかどうかを考察する。
本稿では,3次元物体の周囲に回転するカメラを用いて異なる視点から画像を生成する評価フレームワークを提案する。
事前訓練されたCLIPモデルは、ほとんどの標準ビューでは性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-02-13T15:18:27Z) - Learning Universal Policies via Text-Guided Video Generation [179.6347119101618]
人工知能の目標は、幅広いタスクを解決できるエージェントを構築することである。
テキスト誘導画像合成の最近の進歩は、複雑な新規画像を生成する印象的な能力を持つモデルを生み出している。
このようなツールがより汎用的なエージェントの構築に利用できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-01-31T21:28:13Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。