Fugu-MT 論文翻訳(概要): Investigation of Factorized Optical Flows as Mid-Level Representations

論文の概要: Investigation of Factorized Optical Flows as Mid-Level Representations

arxiv url: http://arxiv.org/abs/2203.04927v2
Date: Thu, 10 Mar 2022 05:58:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-11 11:49:44.640996
Title: Investigation of Factorized Optical Flows as Mid-Level Representations
Title（参考訳）: 中間レベル表現としての分解光学流れの検討
Authors: Hsuan-Kung Yang, Tsu-Ching Hsiao, Ting-Hsuan Liao, Hsu-Shen Liu, Li-Yuan Tsao, Tzu-Wen Wang, Shan-Ya Yang, Yu-Wen Chen, Huang-Ru Liao, and Chun-Yi Lee
Abstract要約: 中間レベル表現として係数化フローマップを取り入れた新しい概念を導入する。深部強化学習エージェントの性能に及ぼす分解光学フローマップの影響を解析する。
参考スコア（独自算出の注目度）: 9.606913258294695
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we introduce a new concept of incorporating factorized flow maps as mid-level representations, for bridging the perception and the control modules in modular learning based robotic frameworks. To investigate the advantages of factorized flow maps and examine their interplay with the other types of mid-level representations, we further develop a configurable framework, along with four different environments that contain both static and dynamic objects, for analyzing the impacts of factorized optical flow maps on the performance of deep reinforcement learning agents. Based on this framework, we report our experimental results on various scenarios, and offer a set of analyses to justify our hypothesis. Finally, we validate flow factorization in real world scenarios.
Abstract（参考訳）: 本稿では,モジュール型学習ロボットフレームワークにおける知覚と制御モジュールを橋渡しするための中レベル表現として,因子化フローマップを組み込む新しい概念を提案する。因子化フローマップの利点を検証し,他の中級表現との相互作用を検討するために,静的および動的オブジェクトの両方を含む4つの異なる環境とともに構成可能なフレームワークを開発し,分解された光フローマップが深い強化学習エージェントの性能に与える影響を解析する。この枠組みに基づき,様々なシナリオに関する実験結果を報告し,仮説を正当化するための一連の分析を行う。最後に,実世界のシナリオにおけるフローファクタライゼーションを検証する。

関連論文リスト

Toward Formalizing LLM-Based Agent Designs through Structural Context Modeling and Semantic Dynamics Analysis [13.919694566467053]
この断片化は、LLMエージェントの特性と比較を可能にする分析可能な自己整合形式モデルが存在しないことに起因すると我々は主張する。このギャップに対処するために、文脈構造の観点からLLMエージェントを解析・比較するための形式モデルであるtexttt Structure Context Model を提案する。モンキー・バナナ問題の動的変種に対する完全な枠組みの有効性を実証し,本手法を用いて開発したエージェントが成功率を最大32ポイント向上することを示した。
論文参考訳（メタデータ） (2026-02-09T05:15:11Z)
Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models [77.98801218316505]
大型言語モデル(LLM)は、人間のような推論を示唆する創発的な行動を示す。テキスト内概念推論におけるLLMの内部処理について検討する。
論文参考訳（メタデータ） (2026-02-08T03:14:39Z)
Modeling Transformers as complex networks to analyze learning dynamics [0.2538209532048867]
本研究は,複雑なネットワーク理論のレンズを用いて,動的学習を特徴付けることができるかどうかを考察する。ノードがモデルの計算コンポーネントである有向重み付きグラフとして、トランスフォーマーベースのモデルを表現するための新しい手法を紹介します。グラフ理論の一連のメトリクスを分析して、ネットワークの構造が探索、統合、洗練の異なるフェーズを通して進化することを明らかにする。
論文参考訳（メタデータ） (2025-09-18T10:20:26Z)
A Large-scale Benchmark on Geological Fault Delineation Models: Domain Shift, Training Dynamics, Generalizability, Evaluation and Inferential Behavior [12.23379456993682]
本稿では,地震解析における領域シフト戦略の回答とガイドラインを提供するために設計された,最初の大規模ベンチマーク研究について述べる。我々のベンチマークは、3つの異種データセットでトレーニングされ評価された200ドル以上のモデルを含んでいる。我々の分析は、現在の微調整プラクティスの脆弱さ、破滅的な忘れの出現、そして、パフォーマンスを体系的に解釈することの難しさを強調している。
論文参考訳（メタデータ） (2025-05-13T13:56:43Z)
DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion [53.70278210626701]
マルチビュー画像から3次元シーン形状とカメラポーズを直接推定するデータ駆動型マルチビュー推論手法を提案する。我々のフレームワークであるDiffusionSfMは、シーン幾何学とカメラを、グローバルフレーム内のピクセルワイズ線源とエンドポイントとしてパラメータ化します。我々は、DiffusionSfMを合成データセットと実データセットの両方で実証的に検証し、古典的および学習ベースのアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2025-05-08T17:59:47Z)
Framing the Game: How Context Shapes LLM Decision-Making [6.844612005679165]
大規模言語モデル(LLM)は、意思決定をサポートするために、さまざまなコンテキストにまたがってデプロイされるようになっている。既存の評価は遅延モデル能力を効果的に調査するが、コンテキストフレーミングが合理的な意思決定に与える影響をしばしば見落としている。本稿では,重要な特徴にまたがって評価インスタンスを体系的に変化させる新しい評価フレームワークを導入し,非常に多様なシナリオを生成するためのウィグレットを手続き的に生成する。
論文参考訳（メタデータ） (2025-03-05T17:03:28Z)
Reward driven workflows for unsupervised explainable analysis of phases and ferroic variants from atomically resolved imaging data [14.907891992968361]
本研究では,教師なしML手法の鍵ハイパーパラメータを最適化するために,報酬駆動型アプローチが利用できることを示す。このアプローチにより、特定の物理的な振る舞いに最も適したローカルな記述子を見つけることができる。また、変分オートエンコーダ(VAE)を介して変動の構造因子を乱すよう誘導される報酬も拡張する。
論文参考訳（メタデータ） (2024-11-19T16:18:20Z)
Towards Unifying Feature Interaction Models for Click-Through Rate Prediction [19.149554121852724]
我々は、既存のモデルを統一する、IPAと呼ばれる一般的なフレームワークを提案する。これらの3つのコンポーネントに対して特定の選択を行うことで、既存のモデルの大部分をフレームワーク内で分類できることを実証します。我々は,最先端のCTRモデルと比較して,競争力のある結果が得られる新しいモデルを提案する。
論文参考訳（メタデータ） (2024-11-19T12:04:02Z)
Interpreting token compositionality in LLMs: A robustness analysis [10.777646083061395]
Constituent-Aware Pooling (CAP)は、大規模言語モデルが言語構造をどのように処理するかを分析するために設計された方法論である。 CAPは様々なモデルレベルで構成型プールを通してモデル活性化に介入する。
論文参考訳（メタデータ） (2024-10-16T18:10:50Z)
Sequential Representation Learning via Static-Dynamic Conditional Disentanglement [58.19137637859017]
本稿では,ビデオ中の時間非依存要因と時間変化要因を分離することに着目し,逐次的データ内での自己教師付き不整合表現学習について検討する。本稿では,静的/動的変数間の因果関係を明示的に考慮し,それらの因子間の通常の独立性仮定を破る新しいモデルを提案する。実験により、提案手法は、シーンのダイナミックスが内容に影響されるシナリオにおいて、従来の複雑な最先端技術よりも優れていることが示された。
論文参考訳（メタデータ） (2024-08-10T17:04:39Z)
Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models [24.579822095003685]
下流視覚質問応答(VQA)における表現学習に関する実証的研究を行った。我々はOCモデルと代替アプローチの利点とトレードオフを徹底的に検討する。両パラダイムの強みを活用するための,有望な道を見つける。
論文参考訳（メタデータ） (2024-07-22T12:26:08Z)
Topological Perspectives on Optimal Multimodal Embedding Spaces [0.0]
本稿では,CLIPと最近のCLOOBの比較分析について述べる。提案手法は,モダリティギャップドライバ,高次元と低次元の両方に存在するクラスタリング構造,および各埋め込み空間を形成する上で,次元崩壊が果たす重要な役割を包括的に検討することを含む。
論文参考訳（メタデータ） (2024-05-29T08:28:23Z)
On Understanding Attention-Based In-Context Learning for Categorical Data [49.40350941996942]
我々は,アテンションブロックで構成されるネットワークを開発し,各ブロックに自己注意層を付加し,その後にクロスアテンション層と関連するスキップ接続を付加する。このモデルは、カテゴリー的観察を伴う文脈内推論のための多段階機能的GD推論を正確に行うことができる。
論文参考訳（メタデータ） (2024-05-27T15:03:21Z)
Flow Factorized Representation Learning [109.51947536586677]
本稿では、異なる入力変換を定義する潜在確率パスの別個のセットを規定する生成モデルを提案する。本モデルは,ほぼ同変モデルに近づきながら,標準表現学習ベンチマークにおいて高い確率を達成することを示す。
論文参考訳（メタデータ） (2023-09-22T20:15:37Z)
Diffusion-based Visual Counterfactual Explanations -- Towards Systematic Quantitative Evaluation [64.0476282000118]
視覚的対物的説明法(VCE)の最新手法は、深い生成モデルの力を利用して、印象的な画質の高次元画像の新しい例を合成する。評価手順が大きく異なり,個々の実例の視覚検査や小規模なユーザスタディなど,これらのVCE手法の性能を比較することは,現時点では困難である。本稿では,VCE手法の体系的,定量的評価のためのフレームワークと,使用する指標の最小セットを提案する。
論文参考訳（メタデータ） (2023-08-11T12:22:37Z)
Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文参考訳（メタデータ） (2022-04-25T19:06:48Z)
Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文参考訳（メタデータ） (2021-03-04T12:45:18Z)
Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文参考訳（メタデータ） (2021-02-04T14:26:42Z)
Explaining Convolutional Neural Networks through Attribution-Based Input Sampling and Block-Wise Feature Aggregation [22.688772441351308]
クラスアクティベーションマッピングとランダムな入力サンプリングに基づく手法が広く普及している。しかし、帰属法は、その説明力を制限した解像度とぼやけた説明地図を提供する。本研究では、帰属型入力サンプリング技術に基づいて、モデルの複数の層から可視化マップを収集する。また,CNNモデル全体に適用可能な層選択戦略を提案する。
論文参考訳（メタデータ） (2020-10-01T20:27:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。