Fugu-MT 論文翻訳(概要): TAAT: Think and Act from Arbitrary Texts in Text2Motion

論文の概要: TAAT: Think and Act from Arbitrary Texts in Text2Motion

arxiv url: http://arxiv.org/abs/2404.14745v2
Date: Thu, 6 Jun 2024 07:46:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 20:42:53.429729
Title: TAAT: Think and Act from Arbitrary Texts in Text2Motion
Title（参考訳）: TAAT: Text2Motionにおける任意テキストの考え方と行為
Authors: Runqi Wang, Caoyuan Ma, Guopeng Li, Zheng Wang,
Abstract要約: 既存のデータセットは、テキストがアクションラベルを含むという仮定に依存している。本稿では、テキストが任意のものであるというより現実的な仮定で、この問題を再定義する。我々は、HumanML3Dデータセット上のアクションテキストをより多くのシーンテキストに拡張し、任意のテキストを含む新しいHumanML3D++データセットを作成する。
参考スコア（独自算出の注目度）: 7.6907147656880115
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text2Motion aims to generate human motions from texts. Existing datasets rely on the assumption that texts include action labels (such as "walk, bend, and pick up"), which is not flexible for practical scenarios. This paper redefines this problem with a more realistic assumption that the texts are arbitrary. Specifically, arbitrary texts include existing action texts composed of action labels (e.g., A person walks and bends to pick up something), and introduce scene texts without explicit action labels (e.g., A person notices his wallet on the ground ahead). To bridge the gaps between this realistic setting and existing datasets, we expand the action texts on the HumanML3D dataset to more scene texts, thereby creating a new HumanML3D++ dataset including arbitrary texts. In this challenging dataset, we benchmark existing state-of-the-art methods and propose a novel two-stage framework to extract action labels from arbitrary texts by the Large Language Model (LLM) and then generate motions from action labels. Extensive experiments are conducted under different application scenarios to validate the effectiveness of the proposed framework on existing and proposed datasets. The results indicate that Text2Motion in this realistic setting is very challenging, fostering new research in this practical direction. Our dataset and code will be released.
Abstract（参考訳）: Text2Motionはテキストから人間の動きを生成することを目的としている。既存のデータセットは、テキストにアクションラベル(例えば「ウォーク、ベンド、ピックアップ」など)が含まれているという前提に依存しており、現実的なシナリオでは柔軟性がない。本稿では、テキストが任意のものであるというより現実的な仮定で、この問題を再定義する。具体的には、アクションラベルからなる既存のアクションテキスト(例えば、人が何かを拾うために歩いたり曲げたり)、明示的なアクションラベルのないシーンテキスト(例えば、前方で財布に気づきます)を含む。この現実的な設定と既存のデータセットのギャップを埋めるため、HumanML3Dデータセットのアクションテキストをより多くのシーンテキストに拡張し、任意のテキストを含む新しいHumanML3D++データセットを作成します。この挑戦的なデータセットでは、既存の最先端手法をベンチマークし、任意のテキストからLarge Language Model (LLM) を用いてアクションラベルを抽出し、アクションラベルから動作を生成する新しい2段階のフレームワークを提案する。既存のデータセットと提案されたデータセットに対するフレームワークの有効性を検証するため、さまざまなアプリケーションシナリオの下で大規模な実験が実施されている。その結果、この現実的な環境でのText2Motionは非常に難しいことが示され、この実践的な方向への新しい研究が育まれている。データセットとコードはリリースされます。

関連論文リスト

Fg-T2M++: LLMs-Augmented Fine-Grained Text Driven Human Motion Generation [19.094098673523263]
テキスト駆動型人体動作生成のための新しいフレームワークを提案する。 Fg-T2M++ は,(1) 身体部分の記述と意味をテキストから抽出する LLM 意味解析モジュール,(2) テキスト単位間の関係情報をエンコードする双曲的テキスト表現モジュール,(3) テキストと運動の特徴を階層的に融合するマルチモーダル融合モジュールからなる。
論文参考訳（メタデータ） (2025-02-08T11:38:12Z)
MoTe: Learning Motion-Text Diffusion Model for Multiple Generation Tasks [30.333659816277823]
動作とテキストの限界,条件,共同分布を同時に学習することで,多様なタスクを処理できる統合マルチモーダルモデルであるtextbfMoTe を提示する。 MoTeは3つのコンポーネントで構成されている: Motion-Decoder (MED)、Text-Decoder (TED)、Moti-on-Text Diffusion Model (MTDM)。
論文参考訳（メタデータ） (2024-11-29T15:48:24Z)
BiPO: Bidirectional Partial Occlusion Network for Text-to-Motion Synthesis [0.4893345190925178]
BiPOは、テキスト間合成を強化する新しいモデルである。パートベースの生成と双方向の自己回帰アーキテクチャを統合する。 BiPOはHumanML3Dデータセット上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-11-28T05:42:47Z)
AToM: Aligning Text-to-Motion Model at Event-Level with GPT-4Vision Reward [20.249532310376026]
AToMは、GPT-4Visionの報酬を利用して生成された動きとテキストプロンプトのアライメントを強化するフレームワークである。 AToMは、テキスト・ツー・モーション生成のイベントレベルのアライメント品質を著しく改善する。
論文参考訳（メタデータ） (2024-11-27T05:32:18Z)
Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文参考訳（メタデータ） (2024-07-11T12:33:56Z)
Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文参考訳（メタデータ） (2024-05-24T13:29:12Z)
Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。 PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文参考訳（メタデータ） (2024-05-21T11:22:27Z)
Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文参考訳（メタデータ） (2024-02-08T03:41:39Z)
Augmenting text for spoken language understanding with Large Language Models [13.240782495441275]
対応する音声を使わずに書き起こし構文解析データ(未ペアテキスト)の使い方を示す。実験の結果、既存のドメインと新しいドメインの未ペアテキストは、絶対的エクサクトマッチ(EM)において、それぞれ2%と30%の性能を向上させることがわかった。本稿では,既存のドメインや新しいドメインに対する未ペアテキストを生成するために,LLM(Large Language Models)を提案する。
論文参考訳（メタデータ） (2023-09-17T22:25:34Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion Data and Natural Language [4.86658723641864]
本研究では,特定の自然記述に基づいて関連動作を検索することを目的とした,新たなテキスト・ツー・モーション検索タスクを提案する。テキスト対画像/ビデオマッチングの最近の進歩に触発されて、広く採用されている2つのメトリック学習損失関数を実験した。
論文参考訳（メタデータ） (2023-05-25T08:32:41Z)
MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文参考訳（メタデータ） (2023-05-22T17:13:29Z)
Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文参考訳（メタデータ） (2022-10-06T12:43:07Z)
Composable Text Controls in Latent Space with ODEs [97.12426987887021]
本稿では,コンパクトテキスト空間における構成可能なテキスト操作のための,新しい効率的なアプローチを提案する。事前学習したLMを効率よく適応することで、サンプルベクトルを所望のテキストシーケンスにデコードする。実験により、我々のアプローチ内でこれらの演算子を構成すると、高品質なテキストの生成や編集が可能であることが示された。
論文参考訳（メタデータ） (2022-08-01T06:51:45Z)
TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of 3D Human Motions and Texts [20.336481832461168]
視覚と言語との強い結びつきから着想を得た本論文は,テキストから3次元人間のフルボディ運動の生成を探求することを目的とする。本稿では,離散的かつコンパクトな動き表現である動きトークンを提案する。私たちのアプローチは柔軟で、text2motionと Motion2textタスクの両方に使用できます。
論文参考訳（メタデータ） (2022-07-04T19:52:18Z)
TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。 TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文参考訳（メタデータ） (2022-04-25T14:53:06Z)
SwinTextSpotter: Scene Text Spotting via Better Synergy between Text Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文参考訳（メタデータ） (2022-03-19T01:14:42Z)
CORE-Text: Improving Scene Text Detection with Contrastive Relational Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文参考訳（メタデータ） (2021-12-14T16:22:25Z)
Rethinking Text Segmentation: A Novel Dataset and A Text-Specific Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。 TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文参考訳（メタデータ） (2020-11-27T22:50:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。