論文の概要: How does My Model Fail? Automatic Identification and Interpretation of Physical Plausibility Failure Modes with Matryoshka Transcoders
- arxiv url: http://arxiv.org/abs/2511.10094v2
- Date: Tue, 18 Nov 2025 07:49:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.583224
- Title: How does My Model Fail? Automatic Identification and Interpretation of Physical Plausibility Failure Modes with Matryoshka Transcoders
- Title(参考訳): 私のモデルはどのように失敗するのか? Matryoshkaトランスコーダを用いた物理プラウザビリティ障害モードの自動同定と解釈
- Authors: Yiming Tang, Abhijeet Sinha, Dianbo Liu,
- Abstract要約: 生成モデルにおける物理可視性の自動発見と解釈のための新しいフレームワークであるMatryoshka Transcodersを紹介する。
提案手法は,Matryoshka表現学習パラダイムをトランスコーダアーキテクチャに拡張し,階層的スパース特徴学習を複数のレベルで実現している。
得られた視覚パターンを用いて、生成モデルにおける物理的妥当性を評価するためのベンチマークを確立する。
- 参考スコア(独自算出の注目度): 4.707391886736485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although recent generative models are remarkably capable of producing instruction-following and realistic outputs, they remain prone to notable physical plausibility failures. Though critical in applications, these physical plausibility errors often escape detection by existing evaluation methods. Furthermore, no framework exists for automatically identifying and interpreting specific physical error patterns in natural language, preventing targeted model improvements. We introduce Matryoshka Transcoders, a novel framework for the automatic discovery and interpretation of physical plausibility features in generative models. Our approach extends the Matryoshka representation learning paradigm to transcoder architectures, enabling hierarchical sparse feature learning at multiple granularity levels. By training on intermediate representations from a physical plausibility classifier and leveraging large multimodal models for interpretation, our method identifies diverse physics-related failure modes without manual feature engineering, achieving superior feature relevance and feature accuracy compared to existing approaches. We utilize the discovered visual patterns to establish a benchmark for evaluating physical plausibility in generative models. Our analysis of eight state-of-the-art generative models provides valuable insights into how these models fail to follow physical constraints, paving the way for further model improvements.
- Abstract(参考訳): 最近の生成モデルは、命令追従および現実的な出力を著しく生成できるが、それらが顕著な物理的可視性障害を引き起こす傾向にある。
応用において重要なことではあるが、これらの物理的可否誤差は、しばしば既存の評価手法による検出から逃れる。
さらに、自然言語で特定の物理エラーパターンを自動的に識別し、解釈するためのフレームワークが存在しないため、ターゲットモデルの改善が防止されている。
生成モデルにおける物理可視性の自動発見と解釈のための新しいフレームワークであるMatryoshka Transcodersを紹介する。
提案手法は,Matryoshka表現学習パラダイムをトランスコーダアーキテクチャに拡張し,階層的スパース特徴学習を複数の粒度レベルで実現する。
物理可視性分類器から中間表現を訓練し、解釈に大規模なマルチモーダルモデルを活用することにより、手動の特徴工学を使わずに様々な物理関連障害モードを識別し、既存手法と比較して優れた特徴関連性と特徴精度を実現する。
得られた視覚パターンを用いて、生成モデルにおける物理的妥当性を評価するためのベンチマークを確立する。
最先端の8つの生成モデルの解析は、これらのモデルがどのように物理的制約に従わず、さらなるモデル改善の道を開くかについて、貴重な洞察を提供する。
関連論文リスト
- Are vision language models robust to uncertain inputs? [5.249651874118556]
より新しい視覚言語モデルでは、従来のモデルに比べて頑健性が向上したが、それでも厳密な指示に従う傾向にあることを示す。
ImageNetのような自然なイメージでは、パイプラインの変更なしにこの制限を克服することができる。
モデルの内部不確実性を明らかにするために,キャプションの多様性に基づく新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2025-05-17T03:16:49Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Exploring the Trade-off Between Model Performance and Explanation Plausibility of Text Classifiers Using Human Rationales [3.242050660144211]
ホック後説明可能性法は、ますます複雑なNLPモデルを理解するための重要なツールである。
本稿では,人間の判断を説明するテキストアノテーションをテキスト分類モデルに組み込む手法を提案する。
論文 参考訳(メタデータ) (2024-04-03T22:39:33Z) - Surrogate Modeling for Physical Systems with Preserved Properties and
Adjustable Tradeoffs [0.0]
代理モデルを生成するためのモデルベースおよびデータ駆動型戦略を提案する。
後者は、前提となる位相構造に人工的関係を組み込むことで解釈可能な代理モデルを生成する。
我々のフレームワークは、分散パラメータモデルのための様々な空間離散化スキームと互換性がある。
論文 参考訳(メタデータ) (2022-02-02T17:07:02Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Physics-Integrated Variational Autoencoders for Robust and Interpretable
Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。
本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。
合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文 参考訳(メタデータ) (2021-02-25T20:28:52Z) - DirectDebug: Automated Testing and Debugging of Feature Models [55.41644538483948]
変数モデル(例えば、特徴モデル)は、ソフトウェアアーティファクトの変数と共通性を表現する一般的な方法である。
複雑でしばしば大規模な機能モデルは欠陥になりうる、すなわち、ソフトウェアアーチファクトの期待される変動特性を表現しない。
論文 参考訳(メタデータ) (2021-02-11T11:22:20Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。