論文の概要: Not Too Generative, Not Too Discriminative: The Human Alignment Sweet Spot
- arxiv url: http://arxiv.org/abs/2605.23819v1
- Date: Fri, 22 May 2026 16:21:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.426381
- Title: Not Too Generative, Not Too Discriminative: The Human Alignment Sweet Spot
- Title(参考訳): 良さすぎず、差別的ではない:人間のアライメント・スイートスポット
- Authors: Jorge Chang Ortega, Bastien Le Lan, Thomas Serre, Victor Boutin,
- Abstract要約: コンピュータビジョンにおける中心的な問題は、人間のような視覚表現が差別的あるいは生成的学習によってよりよく説明されるかどうかである。
固定構造内の識別訓練と生成訓練を連続的に交互に行うJEM(Joint Energy-Based Models)を用いて,この課題に対処する。
- 参考スコア(独自算出の注目度): 18.610144165897264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A central question in computational vision is whether human-like visual representations are better explained by discriminative or generative learning. Existing comparisons, however, often confound the learning objective with architecture, scale, and training data, leaving open whether the objective itself drives alignment. We address this confound using Joint Energy-Based Models (JEMs), which interpolate continuously between discriminative and generative training within a fixed architecture. By varying a single mixing coefficient, we isolate the effect of the learning objective and evaluate the resulting models across six human-alignment benchmarks spanning perceptual similarity, gloss perception, human response uncertainty, robustness, shape-texture cue conflict, and diagnostic feature attribution. Across this diverse suite, human alignment is consistently maximized at intermediate points of the generative-discriminative continuum, rather than at either endpoint. Hybrid JEMs combine the categorical structure induced by discriminative learning with the sensitivity to input structure induced by generative learning, yielding more human-like behavior across multiple levels of vision. These results suggest that the generative-discriminative dichotomy is the wrong axis for understanding human-aligned vision: alignment emerges not from choosing one objective over the other, but from balancing both.
- Abstract(参考訳): コンピュータビジョンにおける中心的な問題は、人間のような視覚表現が差別的あるいは生成的学習によってよりよく説明されるかどうかである。
しかし、既存の比較では、学習対象をアーキテクチャ、スケール、トレーニングデータと区別し、目的自体がアライメントを駆動するかどうかをオープンにすることが多い。
固定構造内の識別訓練と生成訓練を連続的に交互に行うJEM(Joint Energy-Based Models)を用いて,この課題に対処する。
一つの混合係数を変化させることで、学習対象の効果を分離し、知覚的類似性、光沢知覚、人間の反応の不確実性、頑健性、形状とテクスチャの衝突、および診断特徴の属性にまたがる6つのヒトアライメント・ベンチマークのモデルを評価する。
この多様なスイート全体において、ヒトのアライメントは、それぞれのエンドポイントではなく、生成的・識別的連続体の中間点において一貫して最大化される。
ハイブリッドJEMは、識別学習によって引き起こされるカテゴリー構造と、生成学習によって引き起こされる入力構造に対する感受性を組み合わせることで、視覚の複数のレベルにわたってより人間的な振る舞いをもたらす。
これらの結果は、生成的識別的二分法が人間の視力を理解するための間違った軸であることを示唆している。
関連論文リスト
- Do Machines Fail Like Humans? A Human-Centred Out-of-Distribution Spectrum for Mapping Error Alignment [1.974820485832244]
我々は,人間の知覚障害のスペクトルとしてOODの度合いを再定義する,人間中心の枠組みを提案する。
我々はこの枠組みをオブジェクト認識に適用し、ディープラーニングアーキテクチャ全体にわたるユニークな、状況に依存したモデル-ヒューマンアライメントのランキングとプロファイルを明らかにする。
論文 参考訳(メタデータ) (2026-03-08T04:51:39Z) - Affinity Contrastive Learning for Skeleton-based Human Activity Understanding [36.788675803693486]
ACLNetはAffinity Contrastive Learning Networkであり、人間のアクティビティクラス間の複雑なクラスタリング関係を探索する。
そこで本研究では,類似度測定を洗練させる親和性測定法を提案する。
さらに、クラス内の強正サンプルと負サンプルの分離を改善するために、マージンベースのコントラスト戦略を採用する。
論文 参考訳(メタデータ) (2026-01-23T12:20:36Z) - Understanding and evaluating computer vision models through the lens of counterfactuals [2.2819712364325047]
この論文は、視覚分類器および生成モデルにおけるバイアスの説明、監査、緩和に反事実を使用するフレームワークを開発する。
体系的に意味のある属性を体系的に変更し、他の属性を固定することで、これらの手法は突発的な相関を明らかにする。
これらの貢献は、識別モデルと生成モデルの両方において、解釈可能性、公正性、因果性のための統一レンズとして反事実を示す。
論文 参考訳(メタデータ) (2025-08-28T15:11:49Z) - Unveiling the Human-like Similarities of Automatic Facial Expression Recognition: An Empirical Exploration through Explainable AI [0.562479170374811]
本研究は,12種類の異なるネットワークを比較し,ディープニューラルネットワークと人間の知覚の類似性を検討することを目的とする。
我々は、革新的なグローバルな説明可能なAI手法を用いて、熱マップを生成し、6つの表情で訓練された12のネットワークにとって重要な顔領域を明らかにする。
発見は、人間とAIの表情認識が限定的に一致していることを示し、ネットワークアーキテクチャが類似性に影響を与えることを示唆している。
論文 参考訳(メタデータ) (2024-01-22T10:52:02Z) - Picking on the Same Person: Does Algorithmic Monoculture lead to Outcome
Homogenization? [90.35044668396591]
機械学習における繰り返しのテーマはアルゴリズムによるモノカルチャーである。同じシステム、またはコンポーネントを共有するシステムは、複数の意思決定者によってデプロイされる。
意思決定者がトレーニングデータや特定のモデルなどのコンポーネントを共有すれば、より均一な結果が得られます。
我々はこの仮説をアルゴリズムフェアネスベンチマークで検証し、トレーニングデータの共有がホモジェナイゼーションを確実に悪化させることを示した。
結果の均質化に関する哲学的分析と社会的な課題を、デプロイされた機械学習システムに含めることに着目して結論付ける。
論文 参考訳(メタデータ) (2022-11-25T09:33:11Z) - Solving Inefficiency of Self-supervised Representation Learning [87.30876679780532]
既存のコントラスト学習法は、非常に低い学習効率に苦しむ。
アンダークラスタリングとオーバークラスタリングの問題は、学習効率の大きな障害である。
中央三重項損失を用いた新しい自己監督学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-18T07:47:10Z) - Deep Clustering by Semantic Contrastive Learning [67.28140787010447]
Semantic Contrastive Learning (SCL) と呼ばれる新しい変種を紹介します。
従来のコントラスト学習とディープクラスタリングの両方の特徴を探求する。
コントラスト学習と深層クラスタリングの強みを統一的なアプローチで増幅することができる。
論文 参考訳(メタデータ) (2021-03-03T20:20:48Z) - Contextual Heterogeneous Graph Network for Human-Object Interaction
Detection [63.37410475907447]
この研究は、人間と物体を異なる種類のノードとしてモデル化する異種グラフネットワークを提案する。
さらに、クラス内コンテキストとクラス間コンテキストに基づくグラフアテンション機構を利用して学習を改善する。
論文 参考訳(メタデータ) (2020-10-20T04:20:33Z) - Fully Unsupervised Person Re-identification viaSelective Contrastive
Learning [58.5284246878277]
人物再識別(ReID)は、様々なカメラが捉えた画像の中から同一人物を検索することを目的としている。
教師なし特徴学習のための新しい選択型コントラスト学習フレームワークを提案する。
その結果,教師なしのReIDにおける手法の優位性について,最先端技術と比較した。
論文 参考訳(メタデータ) (2020-10-15T09:09:23Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - Seeing eye-to-eye? A comparison of object recognition performance in
humans and deep convolutional neural networks under image manipulation [0.0]
本研究では,ヒトとフィードフォワードニューラルネットワークの視覚コア物体認識性能の行動比較を目的とした。
精度分析の結果、人間はDCNNを全ての条件で上回るだけでなく、形状や色の変化に対する強い堅牢性も示している。
論文 参考訳(メタデータ) (2020-07-13T10:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。