論文の概要: Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes
- arxiv url: http://arxiv.org/abs/2601.02356v1
- Date: Mon, 05 Jan 2026 18:55:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.422244
- Title: Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes
- Title(参考訳): Talk2Move: シーンにおけるテキスト指示型オブジェクトレベル幾何変換のための強化学習
- Authors: Jing Tan, Zhaoyang Zhang, Yantao Shen, Jiarui Cai, Shuo Yang, Jiajun Wu, Wei Xia, Zhuowen Tu, Stefano Soatto,
- Abstract要約: 本研究では,シーン内のオブジェクトのテキストによる空間変換を行うフレームワークであるTalk2Moveを紹介する。
Talk2Moveでは,さまざまなロールアウトを通じて幾何学的アクションを探索するために,グループ相対ポリシー最適化を採用している。
キュレートされたベンチマークの実験では、Talk2Moveは正確で一貫性があり、セマンティックに忠実なオブジェクト変換を実現している。
- 参考スコア(独自算出の注目度): 69.4534914304302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Talk2Move, a reinforcement learning (RL) based diffusion framework for text-instructed spatial transformation of objects within scenes. Spatially manipulating objects in a scene through natural language poses a challenge for multimodal generation systems. While existing text-based manipulation methods can adjust appearance or style, they struggle to perform object-level geometric transformations-such as translating, rotating, or resizing objects-due to scarce paired supervision and pixel-level optimization limits. Talk2Move employs Group Relative Policy Optimization (GRPO) to explore geometric actions through diverse rollouts generated from input images and lightweight textual variations, removing the need for costly paired data. A spatial reward guided model aligns geometric transformations with linguistic description, while off-policy step evaluation and active step sampling improve learning efficiency by focusing on informative transformation stages. Furthermore, we design object-centric spatial rewards that evaluate displacement, rotation, and scaling behaviors directly, enabling interpretable and coherent transformations. Experiments on curated benchmarks demonstrate that Talk2Move achieves precise, consistent, and semantically faithful object transformations, outperforming existing text-guided editing approaches in both spatial accuracy and scene coherence.
- Abstract(参考訳): シーン内のオブジェクトのテキスト指示空間変換のための強化学習(RL)に基づく拡散フレームワークであるTalk2Moveを紹介する。
自然言語によるシーン内のオブジェクトの空間的操作は、マルチモーダル生成システムにとって課題となる。
既存のテキストベースの操作手法は外観やスタイルを調整できるが、ペアレベルの監督やピクセルレベルの最適化の限界が不足しているため、オブジェクトの変換、回転、サイズ変更といった、オブジェクトレベルの幾何学的変換を行うのに苦労する。
Talk2Moveは、GRPO(Group Relative Policy Optimization)を使用して、入力画像から生成される多様なロールアウトと軽量テキストのバリエーションを通じて幾何学的アクションを探索し、コストのかかるペアリングデータの必要性を取り除く。
空間報酬誘導モデルは幾何学的変換を言語的記述と整合させる一方、オフ政治的なステップ評価とアクティブなステップサンプリングは情報的変換段階に着目して学習効率を向上させる。
さらに、変位、回転、スケーリングの挙動を直接評価し、解釈可能かつコヒーレントな変換を可能にするオブジェクト中心空間報酬を設計する。
キュレートされたベンチマークの実験では、Talk2Moveは正確で一貫性があり、セマンティックに忠実なオブジェクト変換を実現し、空間的精度とシーンコヒーレンスの両方において既存のテキスト誘導編集アプローチより優れていることが示されている。
関連論文リスト
- Mash, Spread, Slice! Learning to Manipulate Object States via Visual Spatial Progress [53.723881111373736]
SPARTAは、オブジェクトの状態変化操作タスクのファミリーで最初に統合されたフレームワークである。
SPARTAは、空間的に進行するオブジェクト変化のセグメンテーションマップ、実行可能領域と変換可能領域を知覚する視覚的スキル、時間とともに漸進的な進歩を捉える高密度報酬を統合している。
SPARTAを現実のロボットで検証し、10種類の現実世界のオブジェクトにまたがる3つの課題について検討する。
論文 参考訳(メタデータ) (2025-09-28T23:56:07Z) - DanceText: A Training-Free Layered Framework for Controllable Multilingual Text Transformation in Images [28.48453375674059]
DanceTextは、画像の多言語テキスト編集のためのトレーニング不要のフレームワークである。
複雑な幾何学的変換をサポートし、シームレスに前景と背景の統合を実現する。
論文 参考訳(メタデータ) (2025-04-18T23:46:32Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - O2V-Mapping: Online Open-Vocabulary Mapping with Neural Implicit Representation [9.431926560072412]
ボクセルをベースとした言語と幾何学的特徴を利用してオープン語彙場を作成するO2Vマッピングを提案する。
オープン語彙オブジェクトのローカライゼーションとセマンティックセグメンテーションの実験は、O2Vマッピングが言語シーンのオンライン構築を実現することを示す。
論文 参考訳(メタデータ) (2024-04-10T08:54:43Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。