論文の概要: LLM-RG: Referential Grounding in Outdoor Scenarios using Large Language Models
- arxiv url: http://arxiv.org/abs/2509.25528v1
- Date: Mon, 29 Sep 2025 21:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.333226
- Title: LLM-RG: Referential Grounding in Outdoor Scenarios using Large Language Models
- Title(参考訳): LLM-RG:大規模言語モデルを用いた屋外シナリオの参照グラウンド化
- Authors: Pranav Saxena, Avigyan Bhattacharya, Ji Zhang, Wenshan Wang,
- Abstract要約: 屋外の運転シーンにおける参照グラウンドリングは、大きなシーンの変動、多くの視覚的に類似したオブジェクト、動的要素のために困難である。
LLM-RGは,既製の視覚言語モデルと,記号的推論のための大規模言語モデルを組み合わせたハイブリッドパイプラインである。
- 参考スコア(独自算出の注目度): 9.647551134303384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referential grounding in outdoor driving scenes is challenging due to large scene variability, many visually similar objects, and dynamic elements that complicate resolving natural-language references (e.g., "the black car on the right"). We propose LLM-RG, a hybrid pipeline that combines off-the-shelf vision-language models for fine-grained attribute extraction with large language models for symbolic reasoning. LLM-RG processes an image and a free-form referring expression by using an LLM to extract relevant object types and attributes, detecting candidate regions, generating rich visual descriptors with a VLM, and then combining these descriptors with spatial metadata into natural-language prompts that are input to an LLM for chain-of-thought reasoning to identify the referent's bounding box. Evaluated on the Talk2Car benchmark, LLM-RG yields substantial gains over both LLM and VLM-based baselines. Additionally, our ablations show that adding 3D spatial cues further improves grounding. Our results demonstrate the complementary strengths of VLMs and LLMs, applied in a zero-shot manner, for robust outdoor referential grounding.
- Abstract(参考訳): 屋外の運転シーンにおける参照グラウンドリングは、大きなシーンの変動、視覚的に類似した多くのオブジェクト、および自然言語参照の解決を複雑にする動的要素(例えば、右の黒い車)のために困難である。
LLM-RGは,既製の視覚言語モデルと,記号的推論のための大規模言語モデルを組み合わせたハイブリッドパイプラインである。
LLM-RGは、LLMを用いて画像および自由形参照表現を処理し、関連するオブジェクトタイプや属性を抽出し、候補領域を検出し、VLMでリッチな視覚ディスクリプタを生成し、これらの記述子を空間メタデータと組み合わせ、LLMに入力された自然言語プロンプトと組み合わせて、参照者のバウンディングボックスを識別する。
Talk2Carベンチマークで評価すると、LLM-RGはLLMとVLMベースのベースラインよりも大幅に向上する。
さらに,3次元空間的手がかりを付加することでグラウンド化がさらに改善されることが示唆された。
VLMとLLMの相補的強度をゼロショット方式で, 頑健な屋外基準接地に適用した。
関連論文リスト
- ByDeWay: Boost Your multimodal LLM with DEpth prompting in a Training-Free Way [8.242020781632801]
ByDeWayは、MLLM(Multimodal Large Language Models)のパフォーマンスを向上させるために設計された、トレーニング不要のフレームワークである。
ByDeWayはLayered-Depth-Based Prompting(LDP)と呼ばれる新しいプロンプト戦略を使っている
シーンを単眼深度推定を用いて最も近い中距離層と最も遠い層に分割し、接地された視覚言語モデルで領域固有のキャプションを生成する。
論文 参考訳(メタデータ) (2025-07-11T15:21:49Z) - SceneLLM: Implicit Language Reasoning in LLM for Dynamic Scene Graph Generation [8.768484848591168]
SceneLLMはビデオフレームを言語信号(シーントークン)に変換するフレームワークである
提案手法は,Action Genome (AG) ベンチマークの最先端結果を実現する。
大規模な実験は、正確な動的シーングラフの理解と生成におけるSceneLLMの有効性を示す。
論文 参考訳(メタデータ) (2024-12-15T02:41:31Z) - EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。
本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。
我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文 参考訳(メタデータ) (2024-09-25T08:22:00Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language
Model as an Agent [23.134180979449823]
3Dビジュアルグラウンドティングは、家庭用ロボットにとって重要なスキルであり、その環境に基づいて、オブジェクトをナビゲートし、操作し、質問に答えることを可能にする。
LLM-Grounderは,LLM(Large Language Model)をベースとした新しいゼロショット・オープンボキャブラリである。
以上の結果から,LLMは,特に複雑な言語クエリにおいて,グラウンド化能力を大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-21T17:59:45Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。