論文の概要: Text2Interact: High-Fidelity and Diverse Text-to-Two-Person Interaction Generation
- arxiv url: http://arxiv.org/abs/2510.06504v1
- Date: Tue, 07 Oct 2025 22:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.221817
- Title: Text2Interact: High-Fidelity and Diverse Text-to-Two-Person Interaction Generation
- Title(参考訳): Text2Interact:2対2対2対2対2対2対のインタラクション生成
- Authors: Qingxuan Wu, Zhiyang Dou, Chuan Guo, Yiming Huang, Qiao Feng, Bing Zhou, Jian Wang, Lingjie Liu,
- Abstract要約: 本研究では,現実的なテキスト・ヒューマンインタラクションを生成するためのText2フレームワークを提案する。
本稿では,対話記述と強いシングルパーソン動作を協調する合成合成パイプラインであるInterComposeを提案する。
また,トークンレベルの手がかりを保存した単語レベルの条件付きテキスト対話モデルであるInterActorを提案する。
- 参考スコア(独自算出の注目度): 39.67266918328847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling human-human interactions from text remains challenging because it requires not only realistic individual dynamics but also precise, text-consistent spatiotemporal coupling between agents. Currently, progress is hindered by 1) limited two-person training data, inadequate to capture the diverse intricacies of two-person interactions; and 2) insufficiently fine-grained text-to-interaction modeling, where language conditioning collapses rich, structured prompts into a single sentence embedding. To address these limitations, we propose our Text2Interact framework, designed to generate realistic, text-aligned human-human interactions through a scalable high-fidelity interaction data synthesizer and an effective spatiotemporal coordination pipeline. First, we present InterCompose, a scalable synthesis-by-composition pipeline that aligns LLM-generated interaction descriptions with strong single-person motion priors. Given a prompt and a motion for an agent, InterCompose retrieves candidate single-person motions, trains a conditional reaction generator for another agent, and uses a neural motion evaluator to filter weak or misaligned samples-expanding interaction coverage without extra capture. Second, we propose InterActor, a text-to-interaction model with word-level conditioning that preserves token-level cues (initiation, response, contact ordering) and an adaptive interaction loss that emphasizes contextually relevant inter-person joint pairs, improving coupling and physical plausibility for fine-grained interaction modeling. Extensive experiments show consistent gains in motion diversity, fidelity, and generalization, including out-of-distribution scenarios and user studies. We will release code and models to facilitate reproducibility.
- Abstract(参考訳): テキストからの人間と人間の相互作用のモデル化は、現実的な個人力学だけでなく、エージェント間の時間的結合も必要であるため、依然として困難なままである。
現在、進歩は妨げられている
1)2人の交流の多様な複雑さを捉えるのに不十分な2人の訓練データ
2) 言語条件がリッチに崩壊し, 構造化されたプロンプトが1つの文に埋め込まれるような, きめ細かなテキスト間相互作用モデリングは不十分である。
これらの制約に対処するために,スケーラブルな高忠実性インタラクションデータ合成器と効果的な時空間協調パイプラインを用いて,現実的なテキスト整列型ヒューマンインタラクションを生成するためのText2Interactフレームワークを提案する。
まず、LSM生成した相互作用記述と強力なシングルパーソンモーション前処理を協調するスケーラブルな合成合成合成パイプラインであるInterComposeを提案する。
エージェントに対するプロンプトと動作が与えられた後、InterComposeは候補のシングルパーソン動作を検索し、他のエージェントに対して条件付き反応生成器を訓練し、ニューラルネットワークによる動作評価器を使用して、弱いまたは不整合なサンプルの相互作用カバレッジを、余分なキャプチャーなしでフィルタリングする。
第2に、トークンレベルの手がかり(開始、応答、接触順序付け)を保存し、文脈的に関連する対の相互作用を強調させる適応的相互作用損失を抑える、単語レベルの条件付きテキスト・ツー・インタラクションモデルであるInterActorを提案する。
広範囲にわたる実験は、アウト・オブ・ディストリビューションのシナリオやユーザスタディを含む、動きの多様性、忠実さ、一般化が一貫して向上していることを示している。
再現性を促進するために、コードとモデルをリリースします。
関連論文リスト
- MoReact: Generating Reactive Motion from Textual Descriptions [57.642436102978245]
MoReactは拡散に基づく手法で、グローバルな軌跡と局所的な動きを連続的に引き離すように設計されている。
2人の動作データセットから適応したデータを用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-09-28T14:31:41Z) - PINO: Person-Interaction Noise Optimization for Long-Duration and Customizable Motion Generation of Arbitrary-Sized Groups [21.121275671034187]
Person-Interaction Noise Optimization (PINO) は任意のサイズのグループ間で現実的でカスタマイズ可能なインタラクションを生成するためのトレーニング不要のフレームワークである。
PINOは複雑なグループ相互作用を意味的に関連するペアワイズ相互作用に分解する。
追加のトレーニングなしで文字の向き、速度、空間的関係を正確に制御できる。
論文 参考訳(メタデータ) (2025-07-25T14:06:42Z) - A Unified Framework for Motion Reasoning and Generation in Human Interaction [28.736843383405603]
本稿では,言語と運動の両モードを統合したVersatile Interactive Motion-Languageモデルを提案する。
VIMは、動きとテキストのモダリティの両方を同時に理解し、生成することができる。
我々は,動画像のテキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト)、反応生成,動作編集,および動作系列の推論を含む複数の対話的動作関連タスク
論文 参考訳(メタデータ) (2024-10-08T02:23:53Z) - InterDreamer: Zero-Shot Text to 3D Dynamic Human-Object Interaction [27.10256777126629]
本稿では,テキスト・インタラクション・ペア・データを直接学習することなく,人間と物体の相互作用を生成できる可能性を示す。
人間の行動が物体の動きにどのように影響するかをモデル化し、単純な物理を理解するために設計された世界モデルを導入する。
これらのコンポーネントを統合することで、新しいフレームワークであるInterDreamerは、ゼロショット方式でテキスト整列した3D HOIシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-03-28T17:59:30Z) - THOR: Text to Human-Object Interaction Diffusion via Relation Intervention [51.02435289160616]
我々は、リレーショナルインターベンション(THOR)を用いたテキスト誘導型ヒューマンオブジェクト相互作用拡散モデルを提案する。
各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。
テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを,現在最大規模で公開されている3D HOIデータセットに構築する。
論文 参考訳(メタデータ) (2024-03-17T13:17:25Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。