Fugu-MT 論文翻訳(概要): FFHFlow: A Flow-based Variational Approach for Multi-fingered Grasp Synthesis in Real Time

論文の概要: FFHFlow: A Flow-based Variational Approach for Multi-fingered Grasp Synthesis in Real Time

arxiv url: http://arxiv.org/abs/2407.15161v1
Date: Sun, 21 Jul 2024 13:33:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-23 19:08:59.379871
Title: FFHFlow: A Flow-based Variational Approach for Multi-fingered Grasp Synthesis in Real Time
Title（参考訳）: FFHFlow:マルチフィンガーグラスのリアルタイム合成のためのフローベース変分手法
Authors: Qian Feng, Jianxiang Feng, Zhaopeng Chen, Rudolph Triebel, Alois Knoll,
Abstract要約: 正規化フロー(NF)に基づくDGM(Deep Generative Model)の利用を提案する。我々はまず,不完全点雲上に条件付きグリップ分布を学習するために,単一条件NF(cNFs)を直接適用することにより,多様性の向上を推し進めた。これにより、我々は新しいフローベースd Deep Latent Variable Model (DLVM)を開発する動機となった。変分オートエンコーダ(VAE)とは異なり、提案するDLVMは2つのcNFを事前分布と可能性分布に利用することにより、典型的な落とし穴に対処する。
参考スコア（独自算出の注目度）: 19.308304984645684
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Synthesizing diverse and accurate grasps with multi-fingered hands is an important yet challenging task in robotics. Previous efforts focusing on generative modeling have fallen short of precisely capturing the multi-modal, high-dimensional grasp distribution. To address this, we propose exploiting a special kind of Deep Generative Model (DGM) based on Normalizing Flows (NFs), an expressive model for learning complex probability distributions. Specifically, we first observed an encouraging improvement in diversity by directly applying a single conditional NFs (cNFs), dubbed FFHFlow-cnf, to learn a grasp distribution conditioned on the incomplete point cloud. However, we also recognized limited performance gains due to restricted expressivity in the latent space. This motivated us to develop a novel flow-based d Deep Latent Variable Model (DLVM), namely FFHFlow-lvm, which facilitates more reasonable latent features, leading to both diverse and accurate grasp synthesis for unseen objects. Unlike Variational Autoencoders (VAEs), the proposed DLVM counteracts typical pitfalls such as mode collapse and mis-specified priors by leveraging two cNFs for the prior and likelihood distributions, which are usually restricted to being isotropic Gaussian. Comprehensive experiments in simulation and real-robot scenarios demonstrate that our method generates more accurate and diverse grasps than the VAE baselines. Additionally, a run-time comparison is conducted to reveal its high potential for real-time applications.
Abstract（参考訳）: 多指ハンドによる多様な正確な把握を合成することは、ロボティクスにおいて重要な課題である。生成モデルに焦点をあてたこれまでの努力は、多次元・高次元のグリップ分布を正確に把握するに足りなかった。そこで本研究では,複雑な確率分布を学習するための表現モデルである正規化フロー(NF)に基づく,DGM(Deep Generative Model)の利用を提案する。具体的には, FFHFlow-cnfと呼ばれる単一条件NF(cNFs)を直接適用して, 不完全点雲上に条件付きグリップ分布を学習することにより, 多様性の向上を図った。しかし, 潜在空間における表現力の制限により, 限られた性能向上が認められた。そこで我々は,新しいフローベースD Deep Latent Variable Model (DLVM, FFHFlow-lvm) を開発する動機となった。変分オートエンコーダ(VAE)とは異なり、提案するDLVMは、通常等方ガウスに制限される2つのcNFを事前分布と可能性分布に利用することにより、モード崩壊や不特定前処理といった典型的な落とし穴を対処する。シミュレーションおよび実ロボットシナリオにおける包括的実験により,本手法はVAEベースラインよりも正確で多様な把握を実現できることが示された。さらに、リアルタイムアプリケーションに対する高い可能性を明らかにするために、実行時比較を行う。

関連論文リスト

SimDiff: Simpler Yet Better Diffusion Model for Time Series Point Forecasting [8.141505251306622]
拡散モデルは近年,時系列予測において有望であることが示されている。それらはしばしば最先端のポイント推定性能を達成するのに失敗する。ポイント推定のための一段階のエンドツーエンドフレームワークであるSimDiffを提案する。
論文参考訳（メタデータ） (2025-11-24T16:09:55Z)
OSCAR: Orthogonal Stochastic Control for Alignment-Respecting Diversity in Flow Matching [14.664226708184676]
フローベースのテキスト・ツー・イメージモデルは決定論的軌跡に従っており、ユーザーは様々なモードを見つけるために繰り返しサンプルを採取せざるを得ない。本稿では,フロー自体を多様性に配慮した,トレーニング不要な推論時間制御機構を提案する。
論文参考訳（メタデータ） (2025-10-10T07:07:19Z)
Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文参考訳（メタデータ） (2025-10-09T04:48:49Z)
Counterfactual Explanations in Medical Imaging: Exploring SPN-Guided Latent Space Manipulation [2.9810923705287524]
医用画像解析において、深層学習モデルは顕著な性能を示した。可変オートエンコーダ(VAE)のような深い生成モデルは、大きな生成能力を示す。和積ネットワーク(SPN)のような確率モデルは、複雑な結合確率分布を効率的に表す。
論文参考訳（メタデータ） (2025-07-25T15:19:32Z)
Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文参考訳（メタデータ） (2025-07-13T05:37:33Z)
Solving Inverse Problems with FLAIR [59.02385492199431]
フローベースの潜在生成モデルは、驚くべき品質の画像を生成でき、テキスト・ツー・イメージ生成も可能である。本稿では,フローベース生成モデルを逆問題の前兆として活用する新しい学習自由変分フレームワークFLAIRを提案する。標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文参考訳（メタデータ） (2025-06-03T09:29:47Z)
Enhancing Uncertainty Estimation and Interpretability via Bayesian Non-negative Decision Layer [55.66973223528494]
本研究では, ディープニューラルネットワークを条件付きベイズ非負因子分析として再構成したベイズ非負決定層(BNDL)を開発した。 BNDLは複雑な依存関係をモデル化し、堅牢な不確実性推定を提供する。また,BNDLが効果的に不整合学習を達成できるという理論的保証も提供する。
論文参考訳（メタデータ） (2025-05-28T10:23:34Z)
Generative Modeling of Random Fields from Limited Data via Constrained Latent Flow Matching [0.0]
深層生成モデルは、科学と工学のための有望なツールであるが、その豊富な高品質のデータへの依存は適用性を制限する。本稿では,限定的,スパース的,間接的データを補うために,ドメイン知識を取り入れたランダムフィールドの生成モデルを提案する。
論文参考訳（メタデータ） (2025-05-19T11:47:44Z)
A Unified Virtual Mixture-of-Experts Framework:Enhanced Inference and Hallucination Mitigation in Single-Model System [9.764336669208394]
GPTやBERTのような生成モデルは、テキスト生成や要約といったタスクのパフォーマンスを大幅に改善した。しかし、「モデルが非現実的または誤解を招くコンテンツを生成する場所」という幻覚は、特に小規模アーキテクチャでは問題となる。本稿では,単一のQwen 1.5 0.5Bモデルにおいて,推論性能を高め,幻覚を緩和する仮想ミックス・オブ・エクササイズ(MoE)融合戦略を提案する。
論文参考訳（メタデータ） (2025-04-01T11:38:01Z)
Preconditioned Inexact Stochastic ADMM for Deep Model [35.37705488695026]
本稿では,拡張性のある並列計算を可能にするアルゴリズム PISA を開発し,様々な第2モーメント方式をサポートする。厳密な理論的な保証の下で、アルゴリズムは勾配のリプシッツの唯一の仮定の下で収束する。視覚モデル、大規模言語モデル、強化学習モデル、生成的敵ネットワーク、繰り返しニューラルネットワークを含む様々なFMの総合的または微調整実験は、様々な最先端の方向と比較して優れた数値性能を示す。
論文参考訳（メタデータ） (2025-02-15T12:28:51Z)
ConsistentFeature: A Plug-and-Play Component for Neural Network Regularization [0.32885740436059047]
過パラメータ化されたニューラルネットワークモデルは、トレーニングとテストセットの間に大きなパフォーマンスの相違をもたらすことが多い。モデルは異なるデータセットで異なる表現を学習する。適応的手法であるConsistentFeatureを提案し、同じトレーニングセットのランダムなサブセット間で特徴差を制約することでモデルを正規化する。
論文参考訳（メタデータ） (2024-12-02T13:21:31Z)
Idempotent Unsupervised Representation Learning for Skeleton-Based Action Recognition [13.593511876719367]
教師なし表現学習のための新しい骨格ベース等等化生成モデル(IGM)を提案する。ベンチマークデータセットであるNTU RGB+DとPKUMMDに関する実験により,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-10-27T06:29:04Z)
Heavy-Tailed Diffusion Models [38.713884992630675]
従来の拡散・流れマッチングモデルでは, 重み付き挙動を捉えることができないことを示す。ヘビーテール推定のための拡散フレームワークを再利用することで、この問題に対処する。既存の拡散・流動モデルの拡張である t-EDM と t-Flow を導入する。
論文参考訳（メタデータ） (2024-10-18T04:29:46Z)
Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文参考訳（メタデータ） (2024-08-15T16:47:59Z)
Neural Flow Diffusion Models: Learnable Forward Process for Improved Diffusion Modelling [2.1779479916071067]
より広い範囲のプロセスをサポートすることで拡散モデルを強化する新しいフレームワークを提案する。また,前処理を学習するための新しいパラメータ化手法を提案する。結果はNFDMの汎用性と幅広い応用の可能性を評価する。
論文参考訳（メタデータ） (2024-04-19T15:10:54Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
Multiple-Source Localization from a Single-Snapshot Observation Using Graph Bayesian Optimization [10.011338977476804]
単一スナップショット観測によるマルチソースのローカライゼーションは、その頻度が原因で特に重要となる。現在の方法は典型的には欲求選択を利用しており、通常は1つの拡散モデルと結合する。そこで本研究では,BOSouLというシミュレーション手法を用いて,サンプル効率を近似する手法を提案する。
論文参考訳（メタデータ） (2024-03-25T14:46:24Z)
AdaFlow: Imitation Learning with Variance-Adaptive Flow-Based Policies [21.024480978703288]
本稿では,フローベース生成モデルに基づく模倣学習フレームワークであるAdaFlowを提案する。 AdaFlowは状態条件付き常微分方程式(ODE)によるポリシーを表す AdaFlowは高速な推論速度で高い性能を実現する。
論文参考訳（メタデータ） (2024-02-06T10:15:38Z)
Bridging Generative and Discriminative Models for Unified Visual Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文参考訳（メタデータ） (2024-01-29T10:36:57Z)
The Risk of Federated Learning to Skew Fine-Tuning Features and Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。 3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文参考訳（メタデータ） (2024-01-25T09:18:51Z)
Bayesian Conditional Diffusion Models for Versatile Spatiotemporal Turbulence Generation [13.278744447861289]
本稿では,乱流発生の確率的拡散モデルに基づく新しい生成フレームワークを提案する。提案手法の特長は, 自己回帰に基づく条件抽出に基づく長寿命流れ列生成法である。数値解析実験により, フレームワークの多目的乱流発生能力を実証した。
論文参考訳（メタデータ） (2023-11-14T04:08:14Z)
Diffusion models for probabilistic programming [56.47577824219207]
拡散モデル変分推論(DMVI)は確率型プログラミング言語(PPL)における自動近似推論手法である DMVIは実装が容易で、例えば正規化フローを用いた変分推論の欠点を伴わずに、PPLでヘイズルフリー推論が可能であり、基礎となるニューラルネットワークモデルに制約を課さない。
論文参考訳（メタデータ） (2023-11-01T12:17:05Z)
Neural Diffusion Models [2.1779479916071067]
本稿では,データの時間依存非線形変換の定義と学習を可能にする,従来の拡散モデルの一般化について述べる。 NDMは、可能性の観点から従来の拡散モデルより優れ、高品質なサンプルを生成する。
論文参考訳（メタデータ） (2023-10-12T13:54:55Z)
Benchmarking Autoregressive Conditional Diffusion Models for Turbulent Flow Simulation [26.520247496906492]
本研究では,条件付き拡散モデルに基づく自動回帰ロールアウトを利用した完全データ駆動型流体解法が,この問題に対処するための有効な選択肢であるかどうかを解析する。各種流速予測手法の性能を定量的に定性的に評価するために, 非圧縮性および超音速流を含む3つの難解な2次元シナリオと等方性乱流を用いる。単純な拡散に基づくアプローチであっても、トレーニング時のアンロールのような最先端の安定化技術と同等でありながら、精度と時間的安定性の観点から、複数の確立したフロー予測手法より優れていることが判明した。
論文参考訳（メタデータ） (2023-09-04T18:01:42Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文参考訳（メタデータ） (2023-04-07T15:17:48Z)
Source-free Domain Adaptation Requires Penalized Diversity [60.04618512479438]
ソースデータがない場合、異なるドメイン間の知識伝達に対処するために、ソースフリードメイン適応(SFDA)が導入された。教師なしのFDAでは、多様性はソース上の1つの仮説を学習するか、共有された特徴抽出器で複数の仮説を学習することに限定される。本稿では,異なる特徴抽出器を用いて表現多様性を促進する新しい無教師付きSFDAアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-06T00:20:19Z)
GFlowNet-EM for learning compositional latent variable models [115.96660869630227]
ラテントの後方のモデリングにおける重要なトレードオフは、表現性とトラクタブルな最適化の間にある。非正規化密度からサンプリングするアルゴリズムであるGFlowNetsを提案する。 GFlowNetsをトレーニングして、後部から潜伏者へのサンプルをトレーニングすることにより、それらの強度をアモータライズされた変分アルゴリズムとして活用する。
論文参考訳（メタデータ） (2023-02-13T18:24:21Z)
GFlowOut: Dropout with Generative Flow Networks [76.59535235717631]
モンテカルロ・ドロップアウトは近似推論の比較的安価な方法として広く利用されている。最近の研究は、ドロップアウトマスクを潜伏変数と見なすことができ、変動推論で推測できることを示している。 GFlowOutleveragesは、最近提案されたジェネレーティブフローネットワーク(GFlowNets)の確率的フレームワークを使用して、ドロップアウトマスク上の後部分布を学習する。
論文参考訳（メタデータ） (2022-10-24T03:00:01Z)
Multi-fidelity Hierarchical Neural Processes [79.0284780825048]
多要素代理モデリングは、異なるシミュレーション出力を融合させることで計算コストを削減する。本稿では,多階層型階層型ニューラルネットワーク(MF-HNP)を提案する。疫学および気候モデリングタスクにおけるMF-HNPの評価を行い、精度と不確実性評価の観点から競合性能を達成した。
論文参考訳（メタデータ） (2022-06-10T04:54:13Z)
MACE: An Efficient Model-Agnostic Framework for Counterfactual Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。 MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文参考訳（メタデータ） (2022-05-31T04:57:06Z)
Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文参考訳（メタデータ） (2021-06-25T22:08:51Z)
Flow-based Spatio-Temporal Structured Prediction of Motion Dynamics [21.24885597341643]
条件付き流れ (CNF) は、高次元と相互相関を持つ複雑な分布を表現できるフレキシブルな生成モデルである。本研究では,時間的入力特徴の出力を自己回帰的に正規化する新しい手法としてMotionFlowを提案する。本稿では,予測,動き予測時系列予測,二分節分割などのタスクに本手法を適用した。
論文参考訳（メタデータ） (2021-04-09T14:30:35Z)
Self-Regression Learning for Blind Hyperspectral Image Fusion Without Label [11.291055330647977]
ハイパースペクトル画像(HSI)を再構築した自己回帰学習法を提案し,観察モデルを推定する。特に,hsiを復元するinvertible neural network (inn) と,観測モデルを推定する2つの完全連結ネットワーク (fcn) を採用している。我々のモデルは、合成データと実世界のデータセットの両方で実験で最先端の手法を上回ることができる。
論文参考訳（メタデータ） (2021-03-31T04:48:21Z)
Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文参考訳（メタデータ） (2020-10-25T18:51:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。