Fugu-MT 論文翻訳(概要): Language-free Compositional Action Generation via Decoupling Refinement

論文の概要: Language-free Compositional Action Generation via Decoupling Refinement

arxiv url: http://arxiv.org/abs/2307.03538v3
Date: Mon, 8 Jan 2024 14:54:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 11:33:58.614401
Title: Language-free Compositional Action Generation via Decoupling Refinement
Title（参考訳）: デカップリングによる言語フリー合成行動生成
Authors: Xiao Liu, Guangyi Chen, Yansong Tang, Guangrun Wang, Xiao-Ping Zhang, Ser-Nam Lim
Abstract要約: 本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
参考スコア（独自算出の注目度）: 67.50452446686725
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Composing simple elements into complex concepts is crucial yet challenging, especially for 3D action generation. Existing methods largely rely on extensive neural language annotations to discern composable latent semantics, a process that is often costly and labor-intensive. In this study, we introduce a novel framework to generate compositional actions without reliance on language auxiliaries. Our approach consists of three main components: Action Coupling, Conditional Action Generation, and Decoupling Refinement. Action Coupling utilizes an energy model to extract the attention masks of each sub-action, subsequently integrating two actions using these attentions to generate pseudo-training examples. Then, we employ a conditional generative model, CVAE, to learn a latent space, facilitating the diverse generation. Finally, we propose Decoupling Refinement, which leverages a self-supervised pre-trained model MAE to ensure semantic consistency between the sub-actions and compositional actions. This refinement process involves rendering generated 3D actions into 2D space, decoupling these images into two sub-segments, using the MAE model to restore the complete image from sub-segments, and constraining the recovered images to match images rendered from raw sub-actions. Due to the lack of existing datasets containing both sub-actions and compositional actions, we created two new datasets, named HumanAct-C and UESTC-C, and present a corresponding evaluation metric. Both qualitative and quantitative assessments are conducted to show our efficacy.
Abstract（参考訳）: 単純な要素を複雑な概念に組み込むことは、特に3Dアクション生成において非常に難しい。既存の手法は主に、構成可能な潜在意味論を識別するための広範囲なニューラルネットワークアノテーションに依存している。本研究では,言語助詞に頼らずに合成動作を生成する新しい枠組みを提案する。このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントの3つの主要コンポーネントから構成される。アクションカップリングは、各サブアクションのアテンションマスクを抽出するためにエネルギーモデルを使用し、これらのアテンションを使用して2つのアクションを統合して擬似トレーニング例を生成する。次に,条件付き生成モデルであるcvaeを用いて潜在空間を学習し,多様な世代を促進する。最後に,自己教師付き事前学習モデルMAEを利用して,サブアクションと構成動作のセマンティック一貫性を確保するデカップリングリファインメントを提案する。この改良プロセスでは、生成された3dアクションを2d空間にレンダリングし、これらのイメージを2つのサブセグメントに分離し、maeモデルを使用してサブセグメントから完全なイメージを復元する。サブアクションとコンポジションアクションの両方を含む既存のデータセットがないため、HumanAct-CとUESTC-Cという2つの新しいデータセットを作成し、対応する評価指標を提示した。質的・定量的評価はともに有効性を示すために行われる。

関連論文リスト

IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
Detection Based Part-level Articulated Object Reconstruction from Single RGBD Image [52.11275397911693]
本稿では,1枚のRGBD画像から複数の人工関節オブジェクトを再構成する,エンドツーエンドで訓練可能なクロスカテゴリ手法を提案する。私たちは、あらかじめ定義された部分数で人工的なオブジェクトに焦点をあて、インスタンスレベルの潜在空間を学習することに依存する以前の作業から離れています。提案手法は, 従来の作業では処理できない様々な構成された複数インスタンスの再構築に成功し, 形状再構成や運動学推定において, 先行の作業よりも優れていた。
論文参考訳（メタデータ） (2025-04-04T05:08:04Z)
SketchYourSeg: Mask-Free Subjective Image Segmentation via Freehand Sketches [116.1810651297801]
SketchYourSegは、主観的なイメージセグメンテーションのための強力なクエリモダリティとして、フリーハンドスケッチを確立している。我々の評価は、様々なベンチマークで既存のアプローチよりも優れた性能を示している。
論文参考訳（メタデータ） (2025-01-27T13:07:51Z)
Collaborative Learning for 3D Hand-Object Reconstruction and Compositional Action Recognition from Egocentric RGB Videos Using Superquadrics [31.819336585007104]
境界ボックスに対する3次元オブジェクト表現の代替としてスーパークワッドリックを活用することを提案する。テンプレートレスオブジェクト再構成とアクション認識の両タスクで有効性を示す。また,動詞と名詞の訓練組み合わせがテスト分割と重複しない,より困難な課題を考慮し,行動の構成性についても検討した。
論文参考訳（メタデータ） (2025-01-13T07:26:05Z)
Leveraging MLLM Embeddings and Attribute Smoothing for Compositional Zero-Shot Learning [21.488599805772054]
合成ゼロショット学習は、見かけの合成から学んだ属性やオブジェクトの新規な構成を認識することを目的としている。以前の作業では、同じ属性を共有するイメージペア間の共有部分と排他的部分を抽出することで、属性とオブジェクトをアンタングルにする。本稿では,MLLM (Multimodal Large Language Model) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-18T07:55:54Z)
BIFRÖST: 3D-Aware Image compositing with Language Instructions [27.484947109237964]
Bifr"ostは、命令ベースの画像合成を実行するために拡散モデルに基づいて構築された、新しい3D対応フレームワークである。 Bifr"ostは、MLLMを2.5D位置予測器として訓練し、デプスマップを生成プロセス中に余分な条件として統合することで問題に対処する。
論文参考訳（メタデータ） (2024-10-24T18:35:12Z)
Part123: Part-aware 3D Reconstruction from a Single-view Image [54.589723979757515]
Part123は、一視点画像から部分認識された3D再構成のための新しいフレームワークである。ニューラルレンダリングフレームワークにコントラスト学習を導入し、部分認識機能空間を学習する。クラスタリングに基づくアルゴリズムも開発され、再構成されたモデルから3次元部分分割結果を自動的に導出する。
論文参考訳（メタデータ） (2024-05-27T07:10:21Z)
Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文参考訳（メタデータ） (2023-08-07T12:26:34Z)
Zero-Shot Image Harmonization with Generative Model Prior [22.984119094424056]
画像調和のためのゼロショットアプローチを提案し, 大量の合成合成画像への依存を克服することを目的とした。人間の振る舞いにインスパイアされた、完全にモジュール化されたフレームワークを導入します。さまざまなシーンやオブジェクトにまたがる説得力のある視覚的結果と、アプローチを検証するユーザスタディを提示します。
論文参考訳（メタデータ） (2023-07-17T00:56:21Z)
Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文参考訳（メタデータ） (2023-03-31T10:53:24Z)
Part-aware Prototypical Graph Network for One-shot Skeleton-based Action Recognition [57.86960990337986]
ワンショットスケルトンに基づくアクション認識は、ベースクラスから新しいクラスへの変換可能な表現を学習する上で、ユニークな課題となる。単発骨格に基づく行動認識のためのパートアウェアなプロトタイプ表現を提案する。本手法の有効性を2つの公開骨格に基づく行動認識データセットに示す。
論文参考訳（メタデータ） (2022-08-19T04:54:56Z)
IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。 IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文参考訳（メタデータ） (2021-04-13T02:00:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。