論文の概要: Learning Joint Representation of Human Motion and Language
- arxiv url: http://arxiv.org/abs/2210.15187v1
- Date: Thu, 27 Oct 2022 05:32:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 14:31:45.068799
- Title: Learning Joint Representation of Human Motion and Language
- Title(参考訳): 人間の動きと言語を共同表現する学習
- Authors: Jihoon Kim, Youngjae Yu, Seungyoun Shin, Taehyun Byun, Sungjoon Choi
- Abstract要約: 人間の動作と言語を協調的に表現するためのMoLang(MoLang:Motion-Language Connecting Model)を提案する。
本研究では,人間の動作領域のより一般化可能な表現を学習するために,コントラスト学習を用いた動き言語モデルを提案する。
- 参考スコア(独自算出の注目度): 22.29342443400645
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work, we present MoLang (a Motion-Language connecting model) for
learning joint representation of human motion and language, leveraging both
unpaired and paired datasets of motion and language modalities. To this end, we
propose a motion-language model with contrastive learning, empowering our model
to learn better generalizable representations of the human motion domain.
Empirical results show that our model learns strong representations of human
motion data through navigating language modality. Our proposed method is able
to perform both action recognition and motion retrieval tasks with a single
model where it outperforms state-of-the-art approaches on a number of action
recognition benchmarks.
- Abstract(参考訳): 本稿では,人間の動作と言語の協調表現を学習するためのmolang(motion-language connecting model)を提案する。
そこで本研究では,人間の運動領域のより汎用的な表現を学ぶために,コントラスト学習を伴うモーション言語モデルを提案する。
実験結果から,我々のモデルは言語モダリティをナビゲートすることで,人間の動作データの強力な表現を学習することがわかった。
提案手法は,動作認識と動作検索の両方のタスクを単一モデルで実行し,多数の動作認識ベンチマークにおける最先端のアプローチより優れる。
関連論文リスト
- Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - A Grammatical Compositional Model for Video Action Detection [24.546886938243393]
典型的なAnd-Orグラフに基づく行動検出のための新しい文法合成モデル(GCM)を提案する。
本モデルは,文法モデルの構成性とDNNのリッチな特徴を表現する能力の両面を活用するために,階層的な動作の固有構造と潜時的関係を利用する。
論文 参考訳(メタデータ) (2023-10-04T15:24:00Z) - Fine-Tune Language Models as Multi-Modal Differential Equation Solvers [14.181842691371935]
本稿では,コンテキスト内演算子の学習をマルチモーダルパラダイムに変換する。
特に,近年の大規模言語モデルの成功からインスピレーションを得て,演算子に関する人間の知識を統合するために「カプセル」の使用を提案する。
論文 参考訳(メタデータ) (2023-08-09T16:44:25Z) - MotionGPT: Human Motion as a Foreign Language [47.21648303282788]
人間の動きは人間の言語に似た意味的な結合を示し、しばしば身体言語の一種として認識される。
大規模モーションモデルで言語データを融合することにより、動き言語事前学習は、動きに関連したタスクのパフォーマンスを向上させることができる。
我々は,複数の動作関連タスクを処理するために,統一的で汎用的でユーザフレンドリな動作言語モデルであるMotionGPTを提案する。
論文 参考訳(メタデータ) (2023-06-26T15:53:02Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - Context-Aware Language Modeling for Goal-Oriented Dialogue Systems [84.65707332816353]
我々は、部分的に観察されたマルコフ決定過程としてゴール指向対話を定式化する。
目的を意識して言語モデルを微調整する,シンプルで効果的な手法を考案する。
本研究では,AirDialogue を用いた実践的なフライト予約タスクについて評価する。
論文 参考訳(メタデータ) (2022-04-18T17:23:11Z) - Towards Interactive Language Modeling [18.925337115380703]
これらの考察に感銘を受け、対話型言語モデリングの分野を開拓した。
本稿では,対話型言語モデリングに向けたステップを詳述する。
この研究は、対話型言語モデリングに関するより大きな研究課題の始まりである。
論文 参考訳(メタデータ) (2021-12-14T18:35:02Z) - Multi-agent Communication meets Natural Language: Synergies between
Functional and Structural Language Learning [16.776753238108036]
本稿では,マルチエージェント通信と従来のデータ駆動型アプローチを組み合わせた自然言語学習手法を提案する。
私たちの出発点は、タスク固有の言語データではなく、ジェネリックに基づいて訓練された言語モデルです。
次に、このモデルをマルチエージェントのセルフプレイ環境に配置し、モデルへの適応や修正に使用するタスク固有の報酬を生成する。
論文 参考訳(メタデータ) (2020-05-14T15:32:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。