論文の概要: Investigation of Factorized Optical Flows as Mid-Level Representations
- arxiv url: http://arxiv.org/abs/2203.04927v2
- Date: Thu, 10 Mar 2022 05:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 11:49:44.640996
- Title: Investigation of Factorized Optical Flows as Mid-Level Representations
- Title(参考訳): 中間レベル表現としての分解光学流れの検討
- Authors: Hsuan-Kung Yang, Tsu-Ching Hsiao, Ting-Hsuan Liao, Hsu-Shen Liu,
Li-Yuan Tsao, Tzu-Wen Wang, Shan-Ya Yang, Yu-Wen Chen, Huang-Ru Liao, and
Chun-Yi Lee
- Abstract要約: 中間レベル表現として係数化フローマップを取り入れた新しい概念を導入する。
深部強化学習エージェントの性能に及ぼす分解光学フローマップの影響を解析する。
- 参考スコア(独自算出の注目度): 9.606913258294695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a new concept of incorporating factorized flow
maps as mid-level representations, for bridging the perception and the control
modules in modular learning based robotic frameworks. To investigate the
advantages of factorized flow maps and examine their interplay with the other
types of mid-level representations, we further develop a configurable
framework, along with four different environments that contain both static and
dynamic objects, for analyzing the impacts of factorized optical flow maps on
the performance of deep reinforcement learning agents. Based on this framework,
we report our experimental results on various scenarios, and offer a set of
analyses to justify our hypothesis. Finally, we validate flow factorization in
real world scenarios.
- Abstract(参考訳): 本稿では,モジュール型学習ロボットフレームワークにおける知覚と制御モジュールを橋渡しするための中レベル表現として,因子化フローマップを組み込む新しい概念を提案する。
因子化フローマップの利点を検証し,他の中級表現との相互作用を検討するために,静的および動的オブジェクトの両方を含む4つの異なる環境とともに構成可能なフレームワークを開発し,分解された光フローマップが深い強化学習エージェントの性能に与える影響を解析する。
この枠組みに基づき,様々なシナリオに関する実験結果を報告し,仮説を正当化するための一連の分析を行う。
最後に,実世界のシナリオにおけるフローファクタライゼーションを検証する。
関連論文リスト
- Reward driven workflows for unsupervised explainable analysis of phases and ferroic variants from atomically resolved imaging data [14.907891992968361]
本研究では,教師なしML手法の鍵ハイパーパラメータを最適化するために,報酬駆動型アプローチが利用できることを示す。
このアプローチにより、特定の物理的な振る舞いに最も適したローカルな記述子を見つけることができる。
また、変分オートエンコーダ(VAE)を介して変動の構造因子を乱すよう誘導される報酬も拡張する。
論文 参考訳(メタデータ) (2024-11-19T16:18:20Z) - Towards Unifying Feature Interaction Models for Click-Through Rate Prediction [19.149554121852724]
我々は、既存のモデルを統一する、IPAと呼ばれる一般的なフレームワークを提案する。
これらの3つのコンポーネントに対して特定の選択を行うことで、既存のモデルの大部分をフレームワーク内で分類できることを実証します。
我々は,最先端のCTRモデルと比較して,競争力のある結果が得られる新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-11-19T12:04:02Z) - Interpreting token compositionality in LLMs: A robustness analysis [10.777646083061395]
Constituent-Aware Pooling (CAP)は、大規模言語モデルが言語構造をどのように処理するかを分析するために設計された方法論である。
CAPは様々なモデルレベルで構成型プールを通してモデル活性化に介入する。
論文 参考訳(メタデータ) (2024-10-16T18:10:50Z) - Sequential Representation Learning via Static-Dynamic Conditional Disentanglement [58.19137637859017]
本稿では,ビデオ中の時間非依存要因と時間変化要因を分離することに着目し,逐次的データ内での自己教師付き不整合表現学習について検討する。
本稿では,静的/動的変数間の因果関係を明示的に考慮し,それらの因子間の通常の独立性仮定を破る新しいモデルを提案する。
実験により、提案手法は、シーンのダイナミックスが内容に影響されるシナリオにおいて、従来の複雑な最先端技術よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-08-10T17:04:39Z) - Topological Perspectives on Optimal Multimodal Embedding Spaces [0.0]
本稿では,CLIPと最近のCLOOBの比較分析について述べる。
提案手法は,モダリティギャップドライバ,高次元と低次元の両方に存在するクラスタリング構造,および各埋め込み空間を形成する上で,次元崩壊が果たす重要な役割を包括的に検討することを含む。
論文 参考訳(メタデータ) (2024-05-29T08:28:23Z) - Flow Factorized Representation Learning [109.51947536586677]
本稿では、異なる入力変換を定義する潜在確率パスの別個のセットを規定する生成モデルを提案する。
本モデルは,ほぼ同変モデルに近づきながら,標準表現学習ベンチマークにおいて高い確率を達成することを示す。
論文 参考訳(メタデータ) (2023-09-22T20:15:37Z) - Diffusion-based Visual Counterfactual Explanations -- Towards Systematic
Quantitative Evaluation [64.0476282000118]
視覚的対物的説明法(VCE)の最新手法は、深い生成モデルの力を利用して、印象的な画質の高次元画像の新しい例を合成する。
評価手順が大きく異なり,個々の実例の視覚検査や小規模なユーザスタディなど,これらのVCE手法の性能を比較することは,現時点では困難である。
本稿では,VCE手法の体系的,定量的評価のためのフレームワークと,使用する指標の最小セットを提案する。
論文 参考訳(メタデータ) (2023-08-11T12:22:37Z) - Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。
次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文 参考訳(メタデータ) (2022-04-25T19:06:48Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Explaining Convolutional Neural Networks through Attribution-Based Input
Sampling and Block-Wise Feature Aggregation [22.688772441351308]
クラスアクティベーションマッピングとランダムな入力サンプリングに基づく手法が広く普及している。
しかし、帰属法は、その説明力を制限した解像度とぼやけた説明地図を提供する。
本研究では、帰属型入力サンプリング技術に基づいて、モデルの複数の層から可視化マップを収集する。
また,CNNモデル全体に適用可能な層選択戦略を提案する。
論文 参考訳(メタデータ) (2020-10-01T20:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。