論文の概要: LILAC: Language-Conditioned Object-Centric Optical Flow for Open-Loop Trajectory Generation
- arxiv url: http://arxiv.org/abs/2603.25481v1
- Date: Thu, 26 Mar 2026 14:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.328672
- Title: LILAC: Language-Conditioned Object-Centric Optical Flow for Open-Loop Trajectory Generation
- Title(参考訳): LILAC:オープンループ軌道生成のための言語記述型オブジェクト中心光フロー
- Authors: Motonari Kambara, Koki Seno, Tomoya Kaichi, Yanan Wang, Komei Sugiura,
- Abstract要約: Flow-based Language Instruction-Guided Open-Loop ACtion Generator (LILAC)
Flow-based Vision-Language-Action model (VLA) はRGB画像と自然言語命令からオブジェクト中心の2次元光フローを生成する。
LILACにはセマンティックアライメント損失(Semantic Alignment Loss)という2つの重要なコンポーネントが含まれている。
- 参考スコア(独自算出の注目度): 3.950431230563781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address language-conditioned robotic manipulation using flow-based trajectory generation, which enables training on human and web videos of object manipulation and requires only minimal embodiment-specific data. This task is challenging, as object trajectory generation from pre-manipulation images and natural language instructions requires appropriate instruction-flow alignment. To tackle this challenge, we propose the flow-based Language Instruction-guided open-Loop ACtion generator (LILAC). This flow-based Vision-Language-Action model (VLA) generates object-centric 2D optical flow from an RGB image and a natural language instruction, and converts the flow into a 6-DoF manipulator trajectory. LILAC incorporates two key components: Semantic Alignment Loss, which strengthens language conditioning to generate instruction-aligned optical flow, and Prompt-Conditioned Cross-Modal Adapter, which aligns learned visual prompts with image and text features to provide rich cues for flow generation. Experimentally, our method outperformed existing approaches in generated flow quality across multiple benchmarks. Furthermore, in physical object manipulation experiments using free-form instructions, LILAC demonstrated a superior task success rate compared to existing methods. The project page is available at https://lilac-75srg.kinsta.page/.
- Abstract(参考訳): 本研究では,物体操作の人やWebビデオのトレーニングを可能にするフローベーストラジェクトリ生成を用いた言語調和型ロボット操作に対処し,最小限の具体化データのみを必要とする。
このタスクは、事前操作された画像と自然言語命令からオブジェクトの軌跡を生成するために、適切な命令-フローアライメントを必要とするため、難しい。
この課題に対処するため,フローベースのLanguage Instruction-guided Open-Loop ACtion Generator (LILAC)を提案する。
このフローベースビジョン・ランゲージ・アクションモデル(VLA)は、RGB画像と自然言語命令からオブジェクト中心の2次元光フローを生成し、フローを6-DoFマニピュレータ軌道に変換する。
LILACには2つの重要なコンポーネントが含まれている。セマンティックアライメントロス(Semantic Alignment Loss)は、命令に整合した光フローを生成するための言語条件付けを強化し、Prompt-Conditioned Cross-Modal Adapterは学習された視覚的プロンプトを画像とテキストの特徴に合わせることで、フロー生成のためのリッチな手がかりを提供する。
実験により, 提案手法は, 複数のベンチマークで生成したフロー品質において, 既存の手法よりも優れていた。
さらに,自由形式命令を用いた物理オブジェクト操作実験では,従来の手法よりも優れたタスク成功率を示した。
プロジェクトのページはhttps://lilac-75srg.kinsta.page/.comで公開されている。
関連論文リスト
- KineVLA: Towards Kinematics-Aware Vision-Language-Action Models with Bi-Level Action Decomposition [89.7916653471162]
本稿では,多様なキネマティック属性を密に符号化する,新しいキネマティックスリッチな視覚言語アクション(VLA)タスクを提案する。
この設定では、タスクゴールは不変のままであり、実行軌跡は命令レベルのキネマティック仕様に適応する必要がある。
我々は、KineVLAがキネマティクスに敏感なベンチマークで強いVLAベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-03-18T09:28:49Z) - EC-Flow: Enabling Versatile Robotic Manipulation from Action-Unlabeled Videos via Embodiment-Centric Flow [10.674192015199996]
Embodiment-Centric Flow (EC-Flow)は、アクション未ラベルのビデオから操作を学ぶフレームワークである。
我々の重要な洞察は、エンボディメント固有のキネマティクスを取り入れることで、汎用的な操作シナリオへの一般化が著しく向上するということである。
EC-Flowを実行可能なロボットアクションに翻訳するには、キネマティックな制約を指定するのに標準的なロボットURDFファイルが必要である。
論文 参考訳(メタデータ) (2025-07-08T17:57:03Z) - Towards a Generalizable Bimanual Foundation Policy via Flow-based Video Prediction [47.86532300894681]
既存のアプローチでは、バイマニュアルポリシーを取得するためにVision-Language-Action(VLA)モデルに依存している。
本稿では,ロボットの軌跡を予測するために,主要なテキスト・ビデオ・モデルを微調整することで,新たなバイマニュアル・ファンデーション・ポリシーを提案する。
本手法は,単一段階のテキスト・ビデオ予測における言語のあいまいさを軽減し,ロボット・データ要求を大幅に低減する。
論文 参考訳(メタデータ) (2025-05-30T03:01:21Z) - Re-Aligning Language to Visual Objects with an Agentic Workflow [73.73778652260911]
言語に基づくオブジェクト検出は、視覚オブジェクトを言語表現に合わせることを目的としている。
近年の研究では視覚言語モデル(VLM)を活用して視覚オブジェクトに対する人間的な表現を自動的に生成している。
画像やテキストのプロンプトを適応的に調整することで,視覚オブジェクトに言語を適応させるエージェントワークフローを提案する。
論文 参考訳(メタデータ) (2025-03-30T16:41:12Z) - OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。
既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。
本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:44:48Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Vision-and-Language Navigation Generative Pretrained Transformer [0.0]
VLN-GPT(Vision-and-Language Navigation Generative Pretrained Transformer)
トランスフォーマーデコーダモデル(GPT2)を採用してトラジェクトリシーケンスの依存関係をモデル化し、歴史的エンコーディングモジュールの必要性を回避している。
VLNデータセットのパフォーマンス評価は、VLN-GPTが複雑な最先端エンコーダベースモデルを上回ることを示している。
論文 参考訳(メタデータ) (2024-05-27T09:42:04Z) - Contrastive Vision-Language Alignment Makes Efficient Instruction
Learner [31.281236193979165]
本研究では,大規模言語モデル(LLM)を視覚言語命令追従モデルに拡張する作業について検討する。
既存の方法では、視覚アダプタを訓練して、前訓練された視覚変換器(ViT)とLLMの間の表現を、生成的な画像キャプション損失によって整列させるのが一般的である。
比較的および生成的アライメントの目的を適用し, ViT と LLM の表現を効果的に整合させる CG-VLM を提案する。
論文 参考訳(メタデータ) (2023-11-29T03:29:46Z) - Successor Features for Efficient Multisubject Controlled Text Generation [48.37713738712319]
本稿では,後継機能 (SF) と言語モデル修正の2つの基本概念を基礎とするSF-GENを紹介する。
SF-GENはこの2つをシームレスに統合し、LCMのパラメータを変更することなくテキスト生成の動的ステアリングを可能にする。
我々の知る限り、本研究はテキスト生成における後継機能の最初の応用である。
論文 参考訳(メタデータ) (2023-11-03T00:17:08Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。