論文の概要: SceneLLM: Implicit Language Reasoning in LLM for Dynamic Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2412.11026v1
- Date: Sun, 15 Dec 2024 02:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 15:49:59.960417
- Title: SceneLLM: Implicit Language Reasoning in LLM for Dynamic Scene Graph Generation
- Title(参考訳): SceneLLM:動的シーングラフ生成のためのLLMにおける暗黙の言語推論
- Authors: Hang Zhang, Zhuoling Li, Jun Liu,
- Abstract要約: SceneLLMはビデオフレームを言語信号(シーントークン)に変換するフレームワークである
提案手法は,Action Genome (AG) ベンチマークの最先端結果を実現する。
大規模な実験は、正確な動的シーングラフの理解と生成におけるSceneLLMの有効性を示す。
- 参考スコア(独自算出の注目度): 8.768484848591168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic scenes contain intricate spatio-temporal information, crucial for mobile robots, UAVs, and autonomous driving systems to make informed decisions. Parsing these scenes into semantic triplets <Subject-Predicate-Object> for accurate Scene Graph Generation (SGG) is highly challenging due to the fluctuating spatio-temporal complexity. Inspired by the reasoning capabilities of Large Language Models (LLMs), we propose SceneLLM, a novel framework that leverages LLMs as powerful scene analyzers for dynamic SGG. Our framework introduces a Video-to-Language (V2L) mapping module that transforms video frames into linguistic signals (scene tokens), making the input more comprehensible for LLMs. To better encode spatial information, we devise a Spatial Information Aggregation (SIA) scheme, inspired by the structure of Chinese characters, which encodes spatial data into tokens. Using Optimal Transport (OT), we generate an implicit language signal from the frame-level token sequence that captures the video's spatio-temporal information. To further improve the LLM's ability to process this implicit linguistic input, we apply Low-Rank Adaptation (LoRA) to fine-tune the model. Finally, we use a transformer-based SGG predictor to decode the LLM's reasoning and predict semantic triplets. Our method achieves state-of-the-art results on the Action Genome (AG) benchmark, and extensive experiments show the effectiveness of SceneLLM in understanding and generating accurate dynamic scene graphs.
- Abstract(参考訳): ダイナミックなシーンには複雑な時空間情報が含まれており、移動ロボットやUAV、自律運転システムにとって重要な情報となっている。
これらのシーンをセマンティック・トリプレットにパースすること<subject-Predicate-Object>は,時空間の変動が複雑になるため,正確なシーングラフ生成(SGG)を実現するのに極めて困難である。
本研究では,Large Language Models (LLM) の推論能力に触発されて,動的SGGのための強力なシーンアナライザとして LLM を活用する新しいフレームワーク SceneLLM を提案する。
本フレームワークでは,ビデオフレームを言語信号(シーントークン)に変換するV2Lマッピングモジュールを導入し,LLMの入力をより分かりやすくする。
空間情報をよりよくエンコードするために,漢字の構造にインスパイアされた空間情報集約(SIA)方式を考案し,空間データをトークンにエンコードする。
フレームレベルのトークンシーケンスから暗黙的な言語信号を生成し、ビデオの時空間情報をキャプチャする。
この暗黙的な言語入力を処理するLLMの能力をさらに向上するため、モデルを微調整するためにLoRA(Lo-Rank Adaptation)を適用する。
最後に,変換器をベースとしたSGG予測器を用いてLLMの推論を復号し,意味三重項を予測する。
提案手法は,Action Genome(AG)ベンチマークの最先端結果を実現し,SceneLLMが正確な動的シーングラフの理解と生成に有効であることを示す。
関連論文リスト
- Re-Aligning Language to Visual Objects with an Agentic Workflow [73.73778652260911]
言語に基づくオブジェクト検出は、視覚オブジェクトを言語表現に合わせることを目的としている。
近年の研究では視覚言語モデル(VLM)を活用して視覚オブジェクトに対する人間的な表現を自動的に生成している。
画像やテキストのプロンプトを適応的に調整することで,視覚オブジェクトに言語を適応させるエージェントワークフローを提案する。
論文 参考訳(メタデータ) (2025-03-30T16:41:12Z) - SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - An Efficient Sign Language Translation Using Spatial Configuration and Motion Dynamics with LLMs [7.630967411418269]
グロスフリー手話翻訳(英: Gloss-free Sign Language Translation, SLT)は、手話の動画を直接言語文に変換する言語である。
本稿では手話に固有の空間的構成や動きのダイナミクスを捉えることの重要性を強調する。
本稿では,空間と運動に基づく手話翻訳(SpaMo)について紹介する。
論文 参考訳(メタデータ) (2024-08-20T07:10:40Z) - Dr.E Bridges Graphs with Large Language Models through Words [12.22063024099311]
本稿では,LLMグラフアライメントのためのエンドツーエンドのモダリティアライメントフレームワークについて紹介する。
提案手法は LLM とのトークンレベルアライメントを容易にするために設計されており,グラフの内在的な '' を理解可能な自然言語に効果的に翻訳することができる。
論文 参考訳(メタデータ) (2024-06-19T16:43:56Z) - Aligning Actions and Walking to LLM-Generated Textual Descriptions [3.1049440318608568]
大規模言語モデル(LLM)は、様々な領域で顕著な機能を示している。
本研究は, 動作パターンと歩行パターンの両方を包含して, 動作シーケンスのリッチなテキスト記述を生成するLLMの利用について検討する。
論文 参考訳(メタデータ) (2024-04-18T13:56:03Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - Large Language Model with Graph Convolution for Recommendation [21.145230388035277]
テキスト情報は、時々品質の低いものになり、現実世界のアプリケーションにとってその効果を阻害する。
大きな言語モデルにカプセル化された知識と推論機能によって、LCMを活用することが、記述改善の有望な方法として現れます。
本稿では,ユーザ・イテムグラフの高次関係を捉えるために,LLMを抽出するグラフ対応畳み込みLLM法を提案する。
論文 参考訳(メタデータ) (2024-02-14T00:04:33Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - CoVLM: Composing Visual Entities and Relationships in Large Language
Models Via Communicative Decoding [66.52659447360104]
CoVLM は LLM を誘導して、テキスト間の視覚的実体と関係を明示的に構成することができる。
テキスト間の視覚的実体と関係を明示的に構成するために,LLM をガイドする CoVLM を提案する。
論文 参考訳(メタデータ) (2023-11-06T18:59:44Z) - LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language
Model as an Agent [23.134180979449823]
3Dビジュアルグラウンドティングは、家庭用ロボットにとって重要なスキルであり、その環境に基づいて、オブジェクトをナビゲートし、操作し、質問に答えることを可能にする。
LLM-Grounderは,LLM(Large Language Model)をベースとした新しいゼロショット・オープンボキャブラリである。
以上の結果から,LLMは,特に複雑な言語クエリにおいて,グラウンド化能力を大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-21T17:59:45Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。