論文の概要: Multidimensional Task Learning: A Unified Tensor Framework for Computer Vision Tasks
- arxiv url: http://arxiv.org/abs/2602.23217v1
- Date: Thu, 26 Feb 2026 17:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.797697
- Title: Multidimensional Task Learning: A Unified Tensor Framework for Computer Vision Tasks
- Title(参考訳): 多次元タスク学習:コンピュータビジョンタスクのための統合テンソルフレームワーク
- Authors: Alaa El Ichi, Khalide Jbilou,
- Abstract要約: 本稿では,一般化アインシュタイン(GE-MLP)に基づく統合数学フレームワークであるMultidimensional Task Learning(MTL)について紹介する。
我々は,現在のコンピュータビジョンタスクの定式化は,行列に基づく思考によって本質的に制約されていることを論じる。GE-MLPはテンソル値パラメータで操作することで,情報損失を伴わずにどの次元を保存するか,あるいは収縮するかを明確に制御できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Multidimensional Task Learning (MTL), a unified mathematical framework based on Generalized Einstein MLPs (GE-MLPs) that operate directly on tensors via the Einstein product. We argue that current computer vision task formulations are inherently constrained by matrix-based thinking: standard architectures rely on matrix-valued weights and vectorvalued biases, requiring structural flattening that restricts the space of naturally expressible tasks. GE-MLPs lift this constraint by operating with tensor-valued parameters, enabling explicit control over which dimensions are preserved or contracted without information loss. Through rigorous mathematical derivations, we demonstrate that classification, segmentation, and detection are special cases of MTL, differing only in their dimensional configuration within a formally defined task space. We further prove that this task space is strictly larger than what matrix-based formulations can natively express, enabling principled task configurations such as spatiotemporal or cross modal predictions that require destructive flattening under conventional approaches. This work provides a mathematical foundation for understanding, comparing, and designing computer vision tasks through the lens of tensor algebra.
- Abstract(参考訳): 本稿では,多次元タスク学習(MTL)について紹介する。これは一般化アインシュタイン MLP(GE-MLP)に基づく統一数学フレームワークで,アインシュタイン積を介してテンソルを直接操作する。
標準的なアーキテクチャは行列値の重みとベクトル値の偏りに依存し、自然に表現可能なタスクの空間を制限する構造的平坦化を必要とする。
GE-MLPはテンソル値パラメータで操作することでこの制約を解除し、情報損失なしにどの次元を保存または収縮するかを明確に制御できる。
厳密な数学的導出を通して、分類、分節、検出が MTL の特別な場合であり、定式化されたタスク空間内の次元構成においてのみ異なることを示す。
さらに、このタスク空間は、行列ベースの定式化がネイティブに表現できるものよりも厳密に大きいことを証明し、従来の手法では破壊的平坦化を必要とする時空間や横断的モーダル予測のような基本的タスク構成を可能にする。
この研究は、テンソル代数のレンズを通してコンピュータビジョンタスクを理解し、比較し、設計するための数学的基盤を提供する。
関連論文リスト
- Learning Fast Monomial Orders for Gröbner Basis Computations [0.0]
Grbner基底計算は方程式のシステムを解くための標準エンジンである。
単項順序のほぼ連続にもかかわらず、ほとんどの実装はGrevLexのような静的に依存している。
本稿では,単項順序の選択を許容順序空間上の強化学習問題とすることで,このギャップに対処する。
論文 参考訳(メタデータ) (2026-02-03T01:17:18Z) - An Algebraic Representation Theorem for Linear GENEOs in Geometric Machine Learning [1.3425748364842416]
群同変非拡張作用素 (genEOs) は対称性を符号化する強力な作用素のクラスとして登場した。
異なる知覚対の間に作用する線形なgenEOに対する新しい表現定理を導入する。
また、線型genEOsの空間のコンパクト性と凸性も証明する。
論文 参考訳(メタデータ) (2026-01-07T13:21:44Z) - ORIGAMISPACE: Benchmarking Multimodal LLMs in Multi-Step Spatial Reasoning with Mathematical Constraints [42.713620384054146]
本稿では,多段階空間推論能力の評価を目的とした新しいデータセットとベンチマークであるORIGAMISPACEを紹介する。
パターン予測,多段階空間推論,空間関係予測,終端CPコード生成という4つの評価課題を提案する。
論文 参考訳(メタデータ) (2025-11-23T13:42:22Z) - Training-free Uncertainty Guidance for Complex Visual Tasks with MLLMs [61.64185573373394]
本稿では,MLLMの本質的不確かさをプロアクティブ誘導信号として用いた学習自由フレームワークを提案する。
応答不確実性によって候補の視覚入力をスコアする統一的なメカニズムを導入し、モデルが最も健全なデータに自律的にフォーカスできるようにする。
本研究は,本質的な不確実性を活用することが,細粒度マルチモーダル性能を高めるための強力で汎用的な戦略であることを実証する。
論文 参考訳(メタデータ) (2025-10-01T09:20:51Z) - MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams [65.02628814094639]
ダイアグラムは視覚言語の基本形として機能し、複雑な概念と、構造化されたシンボル、形状、空間的配置を通してそれらの相互関係を表現する。
現在のベンチマークでは知覚と推論のタスクが明確化されており、マルチモーダルな大規模言語モデルが表面的なパターン認識以上の数学的図形を真に理解しているかどうかを評価することは困難である。
MLLMにおける数学的知覚の分離と評価を目的としたベンチマークであるMATHGLANCEを紹介する。
幾何学的プリミティブと正確な空間関係を付加した200K構造幾何画像テキストの知覚指向データセットであるGeoPePを構築した。
論文 参考訳(メタデータ) (2025-03-26T17:30:41Z) - Interpreting and Improving Large Language Models in Arithmetic Calculation [72.19753146621429]
大規模言語モデル(LLM)は、多くのアプリケーションにまたがる顕著な可能性を示している。
本研究では,LLMが計算を行う特定のメカニズムを明らかにする。
LLMの計算性能を高めるために、これらの必須ヘッド/MLPを選択的に微調整する潜在的な利点について検討する。
論文 参考訳(メタデータ) (2024-09-03T07:01:46Z) - Low-Rank Multitask Learning based on Tensorized SVMs and LSSVMs [65.42104819071444]
マルチタスク学習(MTL)はタスク関連性を活用して性能を向上させる。
タスクインデックスに対応する各モードを持つ高次テンソルを用いて、複数のインデックスが参照するタスクを自然に表現する。
テンソル化サポートベクターマシン(SVM)と最小2乗サポートベクターマシン(LSSVM)を併用した低ランクMTL手法の汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T14:28:26Z) - Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained
Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。
それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。
これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T08:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。