論文の概要: Motion2Language, Unsupervised learning of synchronized semantic motion
segmentation
- arxiv url: http://arxiv.org/abs/2310.10594v1
- Date: Mon, 16 Oct 2023 17:16:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 12:37:00.877526
- Title: Motion2Language, Unsupervised learning of synchronized semantic motion
segmentation
- Title(参考訳): Motion2Language, Unsupervised learning of synchronized semantic motion segmentation
- Authors: Karim Radouane, Andon Tchechmedjiev, Sylvie Ranwez, Julien Lagarde
- Abstract要約: 動作から言語への変換と同期のためのシーケンスアーキテクチャの構築について検討する。
目的は、モーションキャプチャ入力を英語の自然言語記述に変換し、その記述が実行された動作と同期して生成されるようにすることである。
本稿では、同期/ライブテキスト生成に適した局所的注意の新たな再帰的定式化と、改良されたモーションエンコーダアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate building a sequence to sequence architecture
for motion to language translation and synchronization. The aim is to translate
motion capture inputs into English natural-language descriptions, such that the
descriptions are generated synchronously with the actions performed, enabling
semantic segmentation as a byproduct, but without requiring synchronized
training data. We propose a new recurrent formulation of local attention that
is suited for synchronous/live text generation, as well as an improved motion
encoder architecture better suited to smaller data and for synchronous
generation. We evaluate both contributions in individual experiments, using the
standard BLEU4 metric, as well as a simple semantic equivalence measure, on the
KIT motion language dataset. In a follow-up experiment, we assess the quality
of the synchronization of generated text in our proposed approaches through
multiple evaluation metrics. We find that both contributions to the attention
mechanism and the encoder architecture additively improve the quality of
generated text (BLEU and semantic equivalence), but also of synchronization.
Our code will be made available at
\url{https://github.com/rd20karim/M2T-Segmentation/tree/main}
- Abstract(参考訳): 本稿では,動きから言語翻訳と同期のためのシーケンスアーキテクチャの構築について検討する。
この目的は、モーションキャプチャ入力を英語の自然言語記述に変換することで、記述が実行されたアクションと同期して生成され、副産物としてセマンティックセグメンテーションを可能にするが、同期されたトレーニングデータを必要としない。
本稿では,同期/ライブテキスト生成に適した局所注意の新しい定式化と,より小さなデータや同期生成に適した改良されたモーションエンコーダアーキテクチャを提案する。
標準のbleu4メトリックと単純な意味同値尺度を用いて,kitモーション言語データセット上で,個々の実験における貢献度を評価する。
フォローアップ実験では,複数の評価指標を用いて,提案手法における生成テキストの同期性を評価する。
また,アテンション機構とエンコーダアーキテクチャへのコントリビューションにより,生成したテキストの品質(BLEUとセマンティック等価性)が向上し,同期性も向上することがわかった。
私たちのコードは \url{https://github.com/rd20karim/M2T-Segmentation/tree/main} で利用可能になります。
関連論文リスト
- Transformer with Controlled Attention for Synchronous Motion Captioning [0.0]
本稿では,人間の動作シーケンスに同期した言語記述を生成することを目的とした,同期動作キャプションという課題に対処する。
本手法では,トランスフォーマーの自己および横断的な分布を制御する機構を導入し,解釈可能性と時刻整合テキスト生成を実現する。
我々は、KIT-MLとHumanML3Dという2つのベンチマークデータセットの評価を通じて、我々のアプローチの優れた性能を実証する。
論文 参考訳(メタデータ) (2024-09-13T20:30:29Z) - An Automatic Quality Metric for Evaluating Simultaneous Interpretation [13.009481258370702]
同時解釈(SI)は、元のスピーチが終わる前に翻訳を開始する。
本稿では,単語順序同期に着目したSIと同時機械翻訳(SiMT)の自動評価指標を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:21:40Z) - Sequence Shortening for Context-Aware Machine Translation [5.803309695504831]
マルチエンコーダアーキテクチャの特殊な場合において,コントラストデータセットの精度が向上することを示す。
遅延グループと遅延選択という2つの新しい手法を導入し、ネットワークはトークンをグループ化するか、コンテキストとしてキャッシュされるトークンを選択する。
論文 参考訳(メタデータ) (2024-02-02T13:55:37Z) - Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-23T11:00:27Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion
Data and Natural Language [4.86658723641864]
本研究では,特定の自然記述に基づいて関連動作を検索することを目的とした,新たなテキスト・ツー・モーション検索タスクを提案する。
テキスト対画像/ビデオマッチングの最近の進歩に触発されて、広く採用されている2つのメトリック学習損失関数を実験した。
論文 参考訳(メタデータ) (2023-05-25T08:32:41Z) - Neural Machine Translation with Contrastive Translation Memories [71.86990102704311]
Retrieval-augmented Neural Machine Translationモデルは、多くの翻訳シナリオで成功している。
そこで本論文では,新たに検索拡張NMTを提案し,ソース文と相似なコントラスト検索された翻訳記憶をモデル化する。
訓練段階では、目標文に対する各TMの健全な特徴を学習するために、マルチTMコントラスト学習目標を導入する。
論文 参考訳(メタデータ) (2022-12-06T17:10:17Z) - Bilingual Synchronization: Restoring Translational Relationships with
Editing Operations [2.0411082897313984]
我々は、最初のターゲットシーケンスを仮定するより一般的な設定を考え、ソースの有効な翻訳に変換する必要がある。
この結果から、一度微調整された1つの汎用的な編集ベースシステムは、これらのタスクに特化して訓練された専用システムと比較、あるいは性能に優れる可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-24T12:25:44Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。