Fugu-MT 論文翻訳(概要): Where Not to Learn: Prior-Aligned Training with Subset-based Attribution Constraints for Reliable Decision-Making

論文の概要: Where Not to Learn: Prior-Aligned Training with Subset-based Attribution Constraints for Reliable Decision-Making

arxiv url: http://arxiv.org/abs/2602.07008v1
Date: Fri, 30 Jan 2026 10:29:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-15 14:54:53.695651
Title: Where Not to Learn: Prior-Aligned Training with Subset-based Attribution Constraints for Reliable Decision-Making
Title（参考訳）: 学習すべきでない場所:信頼度決定のためのサブセットに基づく属性制約を用いた事前調整トレーニング
Authors: Ruoyu Chen, Shangquan Sun, Xiaoqing Guo, Sanyi Zhang, Kangwei Liu, Shiming Liu, Zhangcheng Wang, Qunli Zhang, Hua Zhang, Xiaochun Cao,
Abstract要約: 本稿では,属性に基づく事前アライメント手法を提案する。 MLLMに基づくGUIエージェントモデルにおいて,画像分類とクリック決定タスクの両方において,本手法の有効性を検証する。
参考スコア（独自算出の注目度）: 47.85214982772646
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reliable models should not only predict correctly, but also justify decisions with acceptable evidence. Yet conventional supervised learning typically provides only class-level labels, allowing models to achieve high accuracy through shortcut correlations rather than the intended evidence. Human priors can help constrain such behavior, but aligning models to these priors remains challenging because learned representations often diverge from human perception. To address this challenge, we propose an attribution-based human prior alignment method. We encode human priors as input regions that the model is expected to rely on (e.g., bounding boxes), and leverage a highly faithful subset-selection-based attribution approach to expose the model's decision evidence during training. When the attribution region deviates substantially from the prior regions, we penalize reliance on off-prior evidence, encouraging the model to shift its attribution toward the intended regions. This is achieved through a training objective that imposes attribution constraints induced by the human prior. We validate our method on both image classification and click decision tasks in MLLM-based GUI agent models. Across conventional classification and autoregressive generation settings, human prior alignment consistently improves task accuracy while also enhancing the model's decision reasonability.
Abstract（参考訳）: 信頼性のあるモデルは、正しく予測するだけでなく、決定を許容できる証拠で正当化するべきです。しかし、従来の教師付き学習は一般的にクラスレベルのラベルのみを提供しており、モデルが意図された証拠ではなく、ショートカットの相関によって高い精度を達成できる。人間の先行性はそのような行動を制約するのに役立つが、学習された表現が人間の知覚からしばしば分岐するため、これらの先行性にモデルを合わせることは依然として困難である。この課題に対処するために、属性に基づく人間事前アライメント手法を提案する。我々は、モデルが依存するであろう入力領域として人間の事前情報をエンコードし(例えば、バウンディングボックス)、高度に忠実なサブセット選択に基づく属性アプローチを利用して、トレーニング中にモデルの判断証拠を公開します。帰属領域がそれ以前の地域から大きく逸脱した場合、オフ・プライア・エビデンスへの依存を罰し、その帰属領域を意図した地域へ移行するようモデルに促す。これは、人間によって引き起こされる帰属制約を課す訓練目的によって達成される。 MLLMに基づくGUIエージェントモデルにおいて,画像分類とクリック決定タスクの両方において,本手法の有効性を検証する。従来の分類や自己回帰生成設定とは違って、人間の事前調整はタスクの精度を常に向上し、モデルの決定的推論性も向上する。

関連論文リスト

Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA) 我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-11-15T08:39:22Z)
Pre-Trained AI Model Assisted Online Decision-Making under Missing Covariates: A Theoretical Perspective [12.160708336715489]
「モデル弾力性」は、モデル計算による後悔を特徴付ける統一的な方法である。ランダム(MAR)環境下では,事前学習したモデルの逐次校正が可能であることを示す。本分析では、逐次意思決定タスクにおいて、正確な事前学習モデルを持つことの実用的価値を強調した。
論文参考訳（メタデータ） (2025-07-10T15:33:27Z)
Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文参考訳（メタデータ） (2025-06-06T10:45:42Z)
Steady Progress Beats Stagnation: Mutual Aid of Foundation and Conventional Models in Mixed Domain Semi-Supervised Medical Image Segmentation [36.07607318734544]
ファンデーションモデルとコンベンショナルモデルのためのシナジスティックトレーニングフレームワーク(SynFoC)を紹介する。我々は,スクラッチから訓練された従来のモデルが,基礎モデルの信頼性の高い誤予測を補正する能力を持っていることを観察する。 4つのパブリックなマルチドメインデータセットにまたがって,本手法の優位性を実証する。
論文参考訳（メタデータ） (2025-03-21T10:03:32Z)
Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文参考訳（メタデータ） (2024-02-13T11:25:20Z)
Distributionally Robust Post-hoc Classifiers under Prior Shifts [31.237674771958165]
本研究では,クラスプライヤやグループプライヤの分布の変化による変化に頑健なトレーニングモデルの問題点について検討する。本稿では,事前学習モデルからの予測に対するスケーリング調整を行う,非常に軽量なポストホック手法を提案する。
論文参考訳（メタデータ） (2023-09-16T00:54:57Z)
Prior-guided Source-free Domain Adaptation for Human Pose Estimation [24.50953879583841]
2次元人間のポーズ推定のためのドメイン適応法は、典型的にはソースデータへの連続的なアクセスを必要とする。我々は、人気のある平均教師フレームワークを基盤とした擬似ラベル方式である、事前指導型自己学習(POST)を提案する。
論文参考訳（メタデータ） (2023-08-26T20:30:04Z)
RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文参考訳（メタデータ） (2023-07-05T12:49:02Z)
TWINS: A Fine-Tuning Framework for Improved Transferability of Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。 TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文参考訳（メタデータ） (2023-03-20T14:12:55Z)
Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文参考訳（メタデータ） (2022-09-30T02:25:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。