論文の概要: Depth-Recurrent Attention Mixtures: Giving Latent Reasoning the Attention it Deserves
- arxiv url: http://arxiv.org/abs/2601.21582v1
- Date: Thu, 29 Jan 2026 11:44:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.777942
- Title: Depth-Recurrent Attention Mixtures: Giving Latent Reasoning the Attention it Deserves
- Title(参考訳): 奥行き繰り返しの注意混合:保存した注意を遅延的に再現する
- Authors: Jonas Knupp, Jan Hendrik Metzen, Jeremias Bohn, Georg Groh, Kristian Kersting,
- Abstract要約: 深度再帰型注意混合(Dreamer)のモジュラーフレームワークについて紹介する。
ディープに沿って注意を払って隠れサイズのボトルネックを緩和し、スケール次元を分離し、ディープ・リカレント・モデルが効率的かつ効果的にスケールできるようにする。
言語推論のベンチマークでは、FLOP-、パラメータ-、メモリ整合SOTAと同じ精度で2~8倍のトレーニングトークンが必要で、同じトレーニングトークンを持つ2倍のSOTAモデルよりも優れています。
- 参考スコア(独自算出の注目度): 34.8462974218966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Depth-recurrence facilitates latent reasoning by sharing parameters across depths. However, prior work lacks combined FLOP-, parameter-, and memory-matched baselines, underutilizes depth-recurrence due to partially fixed layer stacks, and ignores the bottleneck of constant hidden-sizes that restricts many-step latent reasoning. To address this, we introduce a modular framework of depth-recurrent attention mixtures (Dreamer), combining sequence attention, depth attention, and sparse expert attention. It alleviates the hidden-size bottleneck through attention along depth, decouples scaling dimensions, and allows depth-recurrent models to scale efficiently and effectively. Across language reasoning benchmarks, our models require 2 to 8x fewer training tokens for the same accuracy as FLOP-, parameter-, and memory-matched SOTA, and outperform ca. 2x larger SOTA models with the same training tokens. We further present insights into knowledge usage across depths, e.g., showing 2 to 11x larger expert selection diversity than SOTA MoEs.
- Abstract(参考訳): 深さ再帰は、深さにまたがるパラメータを共有することによって潜伏推論を促進する。
しかし、以前の作業ではFLOP-、パラメータ-、メモリ整合のベースラインが組み込まれておらず、部分的な固定層スタックによる深度再帰を弱くし、多くのステップの遅延推論を制限する一定の隠れサイズのボトルネックを無視している。
この問題に対処するため,我々は,シーケンスアテンション,奥行きアテンション,スパースアテンションを組み合わせたDreamer(Dreamer)のモジュラーフレームワークを導入する。
ディープに沿って注意を払って隠れサイズのボトルネックを緩和し、スケール次元を分離し、ディープ・リカレント・モデルが効率的かつ効果的にスケールできるようにする。
言語推論のベンチマークでは、FLOP-、パラメータ-、メモリ整合SOTAと同等の精度でトレーニングトークンを2~8倍削減し、性能を上回ります。
2倍のSOTAモデルでトレーニングトークンが同じである。
さらに,SOTA MoEsの2倍から11倍の専門的選択多様性を示す,奥行きの知識利用に関する知見を提示する。
関連論文リスト
- UDPNet: Unleashing Depth-based Priors for Robust Image Dehazing [77.10640210751981]
UDPNetは、大規模で事前訓練された深度推定モデルDepthAnything V2から深度に基づく事前情報を活用する一般的なフレームワークである。
提案手法は,様々なシナリオにまたがる深度認識デハージングのための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2026-01-11T13:29:02Z) - TR2M: Transferring Monocular Relative Depth to Metric Depth with Language Descriptions and Scale-Oriented Contrast [7.127920563966129]
現在の単分子深度推定法は主にメートル法深度推定(MMDE)と相対深度推定(MRDE)に分けられる。
MMDEは、計量スケールの深さを推定するが、しばしば特定の領域に限られる。MRDEは、異なる領域にわたってよく一般化するが、下流のアプリケーションを妨げる不確実なスケールを持つ。
TR2Mはテキスト記述と画像の両方を入力として利用し、2つの再スケールマップを推定し、画素レベルで相対深度をメートル法深度に転送する。
論文 参考訳(メタデータ) (2025-06-16T11:50:00Z) - Occlusion Boundary and Depth: Mutual Enhancement via Multi-Task Learning [3.4174356345935393]
単一画像から深度とOBを共同で推定する手法であるMoDOTを提案する。
MoDOTにはCASMという新しいモジュールが組み込まれている。これは、クロスアテンションとマルチスケールストリップの畳み込みを組み合わせて、中レベルのOB機能を活用する。
実験では、深度とOBを相互に推定し、MoDOTの設計の有効性を検証する。
論文 参考訳(メタデータ) (2025-05-27T14:15:19Z) - Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。
具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。
提案手法は,KITTIデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:44:41Z) - MAMo: Leveraging Memory and Attention for Monocular Video Depth Estimation [50.86932607832793]
モノクロ映像深度推定のための新しいメモリとアテンションフレームであるMAMOを提案する。
また,MAMoでは,映像を流すときの深度予測を支援するメモリによるモデル拡張を行う。
我々はMAMoが一貫した単分子深度推定ネットワークを改善し,SOTA(State-of-the-art)の精度を新たに設定することを示した。
論文 参考訳(メタデータ) (2023-07-26T17:55:32Z) - Semantics-Depth-Symbiosis: Deeply Coupled Semi-Supervised Learning of
Semantics and Depth [83.94528876742096]
我々は,意味的セグメンテーションと深さ推定という2つの密なタスクのMTL問題に取り組み,クロスチャネル注意モジュール(CCAM)と呼ばれる新しいアテンションモジュールを提案する。
次に,AffineMixと呼ばれる予測深度を用いた意味分節タスクのための新しいデータ拡張と,ColorAugと呼ばれる予測セマンティクスを用いた単純な深度増分を定式化する。
最後に,提案手法の性能向上をCityscapesデータセットで検証し,深度と意味に基づく半教師付きジョイントモデルにおける最先端結果の実現を支援する。
論文 参考訳(メタデータ) (2022-06-21T17:40:55Z) - Boundary-induced and scene-aggregated network for monocular depth
prediction [20.358133522462513]
本稿では,1枚のRGB画像の深度を推定するための境界誘導・Scene-aggregated Network (BS-Net)を提案する。
NYUD v2データセットとxffthe iBims-1データセットに関するいくつかの実験結果は、提案手法の最先端性能を示している。
論文 参考訳(メタデータ) (2021-02-26T01:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。