論文の概要: Investigating Concept Alignment Using Implausible Category Members
- arxiv url: http://arxiv.org/abs/2605.21683v1
- Date: Wed, 20 May 2026 19:41:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.482567
- Title: Investigating Concept Alignment Using Implausible Category Members
- Title(参考訳): 不可解なカテゴリーメンバーを用いた概念アライメントの検討
- Authors: Sunayana Rane, Brenden M. Lake, Thomas L. Griffiths,
- Abstract要約: 我々は、ロッシュとメルヴィスによる古典心理学的な研究から、AIシステムのオブジェクトの割り当てについて研究する。
我々の結果は、モデルが人間と有意義で驚くべき方法で異なる様々な概念を明らかにしている。
これらの概念のミスアライメントの例は、AIの安全性に影響を及ぼすような、ダウンストリームの動作の問題に変換される。
- 参考スコア(独自算出の注目度): 13.925666824898292
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Developing AI systems with a human-like understanding of everyday concepts is a key step towards developing safe, reliable systems whose behavior makes sense to humans. When probing concept understanding, asking questions about plausible category members (e.g., "Is a car a vehicle?") is likely to recall patterns in the model's vast training data. We pursue an alternative strategy, characterizing the boundaries of conceptual categories by asking about implausible category members (e.g., "Is an olive a vehicle?") to probe the kind of concept-level knowledge we take for granted in fellow humans. We characterize concept boundaries for a set of fundamental concepts by studying AI systems' assignments of objects to superordinate categories from a classic psychological study by Rosch and Mervis, as well as their assignments of the same objects to mismatched superordinate categories. We compare these assignments to those made by human participants on the full range of within-category and cross-category assignment tasks. Our results reveal a range of concepts for which which models differ in meaningful and surprising ways from humans, including treating "words" as belonging to categories like "vehicles" and "clothing," identifying several "vegetable" category members as "fruit," and assigning exemplars from non-weapon categories to the "weapons" category. We also demonstrate how these instances of concept misalignment translate into problematic downstream behavior with implications for AI safety.
- Abstract(参考訳): 人間のような日常概念を理解したAIシステムを開発することは、人間にとって理にかなっている安全で信頼性の高いシステムを開発するための重要なステップである。
概念を理解するとき、妥当なカテゴリメンバー(例えば「車は車なのか?」など)について質問すると、モデルの膨大なトレーニングデータのパターンを思い出す可能性がある。
我々は、人間同士が与える概念レベルの知識を探索するために、不可解なカテゴリメンバー(例えば、オリーブは車なのか?)について尋ねることで、概念カテゴリーの境界を特徴づける代替戦略を追求する。
我々は、ロッシュとメルヴィスによる古典心理学的な研究から、AIシステムのカテゴリーを上位に並べるためにオブジェクトの割り当てを研究することで、基本的な概念の集合に対する概念境界を特徴づけ、また、それらが一致しないスーパーオーディネートカテゴリに同じオブジェクトを割り当てることも特徴付ける。
本研究では,これらの課題を,カテゴリ内およびカテゴリ間タスクの全範囲において,人間による課題と比較する。
この結果から,「言葉」を「車両」や「衣服」といったカテゴリーに属するものとして扱うこと,「野菜」のカテゴリーメンバーを「フルート」として識別すること,非武器のカテゴリーから「武器」カテゴリーに例証を割り当てることなど,モデルが人間と有意義で驚くべき方法で異なる概念が示された。
また、これらの概念のミスアライメントの事例が、AIの安全性に影響を及ぼすような、ダウンストリームの動作の問題にどのように変換されるかを実証する。
関連論文リスト
- A Geometric Unification of Concept Learning with Concept Cones [58.70836885177496]
解釈可能性の2つの伝統は、並べて進化してきたが、互いに話すことはめったにない:概念ボトルネックモデル(CBM)とスパースオートエンコーダ(SAE)。
両パラダイムが同じ幾何学的構造をインスタンス化することを示す。
CBMは人間の定義した参照ジオメトリを提供するが、SAEは学習した円錐がCBMをどの程度よく近似するか、あるいは包含しているかによって評価することができる。
論文 参考訳(メタデータ) (2025-12-08T09:51:46Z) - When concept-based XAI is imprecise: Do people distinguish between generalisations and misrepresentations? [0.0]
概念に基づく説明可能な人工知能(C-XAI)は、AIモデルの内部表現を明らかにするのに役立つ。
C-XAIの概念は、いくつかの変数を示すのが望ましいかもしれない。
人々がそのような一般化を認識し、評価するかどうかは不明である。
論文 参考訳(メタデータ) (2025-06-22T08:07:02Z) - From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning [63.25540801694765]
大きな言語モデル (LLMs) は言語能力を示すが、同じバランスをとれるかどうかは不明だ。
本稿では,LLMと人間を定量的に比較するために,Information Bottleneckの原理を適用した。
論文 参考訳(メタデータ) (2025-05-21T16:29:00Z) - On the Role of Entity and Event Level Conceptualization in Generalizable Reasoning: A Survey of Tasks, Methods, Applications, and Future Directions [62.06913340614293]
本稿では,概念化されるインスタンスのタイプに基づいて,異なる概念化のタイプを4つのレベルに分類する。
本稿では,150以上の論文を包括的に調査し,概念化に関連するさまざまな定義,リソース,手法,下流アプリケーションについて調査する。
論文 参考訳(メタデータ) (2024-06-16T10:32:41Z) - Improving Concept Alignment in Vision-Language Concept Bottleneck Models [9.228586820098723]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、クラス予測を行う前に、イメージを人間の解釈可能な概念にマッピングする。
近年のアプローチでは、大規模言語モデル(LLM)にテキスト概念の生成を促すことでCBM構築を自動化する。
LLMによって生成されたものよりも、人間の専門家によって定義された概念でCBMを構築することが望まれる。
論文 参考訳(メタデータ) (2024-05-03T03:02:00Z) - A Categorical Framework of General Intelligence [12.134564449202708]
1950年にアラン・チューリングがこの質問をしたので、直接答えることはできない。
2つの主要な結果とともに、この目標に向けてカテゴリ的なフレームワークを導入します。
論文 参考訳(メタデータ) (2023-03-08T13:37:01Z) - Separating Skills and Concepts for Novel Visual Question Answering [66.46070380927372]
アウト・オブ・ディストリビューションデータへの一般化は、VQA(Visual Question Answering)モデルにおいて問題となっている。
「スキル」とは、数え方や属性認識などの視覚的なタスクであり、その疑問に言及された「概念」に適用される。
モデル内でこれらの2つの要因を暗黙的に分離するスキルと概念を学習するための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-07-19T18:55:10Z) - Towards Visual Semantics [17.1623244298824]
私たちは、人間の視覚的知覚の精神表現、すなわち概念の構築方法を研究します。
本稿では,分類概念と呼ばれる概念に対応する物質概念を学習する理論とアルゴリズムを提案する。
予備的な実験は、アルゴリズムが正しい精度で属と分化の概念を取得することを証明している。
論文 参考訳(メタデータ) (2021-04-26T07:28:02Z) - CURI: A Benchmark for Productive Concept Learning Under Uncertainty [33.83721664338612]
我々は、新しい数ショットメタラーニングベンチマーク、コンポジション推論を不確実性の下で導入する(CURI)。
CURIは、疎結合、生産的一般化、学習操作、変数バインディングなどの抽象的な理解を含む、生産的および体系的な一般化の異なる側面を評価します。
また、モデルに依存しない「構成性ギャップ」を定義し、それぞれの軸に沿って分布外分布を一般化することの難しさを評価する。
論文 参考訳(メタデータ) (2020-10-06T16:23:17Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。