Fugu-MT 論文翻訳(概要): Anthropocentric bias in language model evaluation

関連論文リスト

HUMANLLM: Benchmarking and Reinforcing LLM Anthropomorphism via Human Cognitive Patterns [59.17423586203706]
本稿では,心理的パターンを因果力の相互作用として扱うフレームワークであるHUMANLLMを提案する。 12,000の学術論文から244のパターンを構築し、2-5のパターンが相互に強化、衝突、変調されるシナリオ11,359を合成する。我々の二重レベルチェックリストは、個々のパターンの忠実度と創発的なマルチパターンのダイナミクスを評価し、強い人間のアライメントを達成する。
論文参考訳（メタデータ） (2026-01-15T08:56:53Z)
A Scoping Review of the Ethical Perspectives on Anthropomorphising Large Language Model-Based Conversational Agents [39.49473274097833]
人間以外の存在が人間に似た性質を持つ人類形態化は、大きな言語モデル(LLM)に基づく会話エージェント(CA)の台頭により、ますます健全になっている。このスコーピングレビューは、LLMベースのCAを5つのデータベースと3つのプレプリントリポジトリで人類学的に指向した研究をマッピングする。
論文参考訳（メタデータ） (2026-01-14T21:03:11Z)
Cognitive Foundations for Reasoning and Their Manifestation in LLMs [63.12951576410617]
大規模言語モデル(LLM)は複雑な問題を解くが、単純な変種では失敗し、人間の推論と根本的に異なるメカニズムによって正しい出力を達成することを示唆している。我々は認知科学研究を、推論不変量、メタ認知制御、推論と知識の組織化のための表現、変換操作にまたがる28の認知要素の分類学に合成する。複雑な問題に対して66.7%の性能向上を図り、成功構造を自動的に把握するテストタイム推論ガイダンスを開発した。
論文参考訳（メタデータ） (2025-11-20T18:59:00Z)
11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysis [54.24689751375923]
本研究では,最先端MLLMの空間的推論能力を評価するためのシステム評価フレームワークを提案する。 14個のMLLMの実験と人間の評価により、現在のMLLMは空間認知の早期の兆候を示すことが明らかとなった。これらの知見は,現在のMLLMの空間的推論能力の出現能力と限界の両方を浮き彫りにしている。
論文参考訳（メタデータ） (2025-08-27T17:22:34Z)
HumanPCR: Probing MLLM Capabilities in Diverse Human-Centric Scenes [72.26829188852139]
HumanPCRは、人間の視覚的コンテキストに関するMLLMの能力を調べるための評価スイートである。 Human-P、HumanThought-C、Human-Rは、6,000以上の人間認証された複数の選択質問を特徴としている。 Human-Rは、手動でキュレートされたビデオ推論テストを提供する。
論文参考訳（メタデータ） (2025-08-19T09:52:04Z)
Investigating VLM Hallucination from a Cognitive Psychology Perspective: A First Step Toward Interpretation with Intriguing Observations [60.63340688538124]
幻覚は、視覚言語モデル(VLM)で積極的に研究されている長年の問題である。既存の研究は、幻覚は技術的な制限や梅毒のバイアスによるもので、後者はモデルがユーザの期待に沿う誤った回答を生み出す傾向があることを意味している。本研究では, VLMの認知バイアスを分類し, サイコフィナンシー, 論理的不整合, 新たに同定された VLM の行動, 権威へのアピールなど, 幻覚へと導く。
論文参考訳（メタデータ） (2025-07-03T19:03:16Z)
Using Reinforcement Learning to Train Large Language Models to Explain Human Decisions [11.40240971657506]
本研究では,多目的認知モデルとして,事前訓練された大規模言語モデルの可能性について検討する。結果に基づく報酬を用いた強化学習を用いて、人間のリスク選択を説明するための明確な推論トレースを生成するためのLSMを誘導する。
論文参考訳（メタデータ） (2025-05-16T18:22:05Z)
Measurement of LLM's Philosophies of Human Nature [113.47929131143766]
大規模言語モデル(LLM)を対象とする標準化された心理尺度を設計する。現在のLSMは、人間に対する信頼の欠如を示す。本稿では,LLMが継続的に価値体系を最適化できるメンタルループ学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-03T06:22:19Z)
Giving AI Personalities Leads to More Human-Like Reasoning [7.124736158080938]
我々は,人間集団の多様な推論行動を模倣するAIの可能性について検討する。自然言語推論(NLI)フォーマットを新たに一般化した推論タスクを設計した。我々は、人格特性を反映したAI応答を誘発するために、ビッグファイブのパーソナリティモデルにインスパイアされたパーソナリティベースのプロンプトを用いた。
論文参考訳（メタデータ） (2025-02-19T23:51:23Z)
Thinking beyond the anthropomorphic paradigm benefits LLM research [1.7392902719515677]
私たちは過去10年で何十万ものコンピュータサイエンス研究論文を分析しました。大型言語モデル(LLM)研究における人類型用語の有病率と成長の実証的証拠を提示する。これらの概念化は制限されている可能性があり、人間の類推を超えてLLMの理解と改善のための新たな道を開くと我々は主張する。
論文参考訳（メタデータ） (2025-02-13T11:32:09Z)
Multi-turn Evaluation of Anthropomorphic Behaviours in Large Language Models [26.333097337393685]
ユーザーが大きな言語モデル(LLM)を人為的に形作る傾向は、AI開発者、研究者、政策立案者への関心が高まっている。本稿では,現実的かつ多様な環境下での人為的 LLM の挙動を実証的に評価する手法を提案する。まず,14の人為的行動のマルチターン評価を開発する。次に,ユーザインタラクションのシミュレーションを用いて,スケーラブルで自動化されたアプローチを提案する。第3に,対話型大規模人体調査(N=1101)を実施し,実際のユーザの人文的知覚を予測するモデル行動を検証する。
論文参考訳（メタデータ） (2025-02-10T22:09:57Z)
Emergence of human-like polarization among large language model agents [61.622596148368906]
我々は、何千もの大規模言語モデルエージェントを含むネットワーク化されたシステムをシミュレートし、それらの社会的相互作用を発見し、人間のような偏極をもたらす。人間とLLMエージェントの類似性は、社会的分極を増幅する能力に関する懸念を提起するだけでなく、それを緩和するための有効な戦略を特定するための貴重なテストベッドとして機能する可能性も持っている。
論文参考訳（メタデータ） (2025-01-09T11:45:05Z)
Humanlike Cognitive Patterns as Emergent Phenomena in Large Language Models [2.9312156642007294]
我々は、意思決定バイアス、推論、創造性の3つの重要な認知領域にわたって、大規模言語モデルの能力を体系的にレビューする。意思決定では、LSMはいくつかの人間のようなバイアスを示すが、人間の観察するバイアスは欠落している。 GPT-4のような先進的なLCMは、人間のシステム2思考に似た熟考的推論を示し、小さなモデルは人間レベルの性能に欠ける。 LLMはストーリーテリングのような言語ベースの創造的なタスクに優れているが、現実の文脈を必要とする散発的な思考タスクに苦労する。
論文参考訳（メタデータ） (2024-12-20T02:26:56Z)
CBEval: A framework for evaluating and interpreting cognitive biases in LLMs [1.4633779950109127]
大きな言語モデルは、認知過程において顕著なギャップを示す。人間の生成したデータのリフレクションとして、これらのモデルは認知バイアスを継承する可能性がある。
論文参考訳（メタデータ） (2024-12-04T05:53:28Z)
Large Language Models as Neurolinguistic Subjects: Discrepancy between Performance and Competence [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。その結果,(1)心理言語学的・神経言語学的手法では,言語能力と能力が異なっていること,(2)直接確率測定では言語能力が正確に評価されないこと,(3)指導のチューニングでは能力が大きく変化しないが,性能は向上しないことがわかった。
論文参考訳（メタデータ） (2024-11-12T04:16:44Z)
Can Language Models Learn to Skip Steps? [59.84848399905409]
我々は推論においてステップをスキップする能力について研究する。効率を高めたり認知負荷を減らすためのステップをスキップする人間とは異なり、モデルはそのようなモチベーションを持っていない。私たちの研究は、人間のようなステップスキッピング能力に関する最初の調査である。
論文参考訳（メタデータ） (2024-11-04T07:10:24Z)
Alleviating Hallucinations in Large Language Models with Scepticism Modeling [7.976667090775774]
幻覚は、大きな言語モデル(LLM)にとって大きな課題である。不確実性推定は幻覚の損傷を軽減するために用いられる。この観察により、我々は懐疑論モデリング(SM)と呼ばれる新しいアプローチを提案した。
論文参考訳（メタデータ） (2024-09-10T15:51:15Z)
Predicting and Understanding Human Action Decisions: Insights from Large Language Models and Cognitive Instance-Based Learning [0.0]
大きな言語モデル(LLM)は、様々なタスクにまたがってその能力を実証している。本稿では,LLMの推論と生成能力を利用して,2つの逐次意思決定タスクにおける人間の行動を予測する。我々は,LLMの性能を,人間の経験的意思決定を模倣した認知的インスタンスベース学習モデルと比較した。
論文参考訳（メタデータ） (2024-07-12T14:13:06Z)
Language Models Trained to do Arithmetic Predict Human Risky and Intertemporal Choice [4.029252551781513]
本稿では,認知モデルとしての大規模言語モデルの有用性を高める新しい手法を提案する。生態学的に有効な算術的データセットに基づいて事前訓練されたLLMは、従来の認知モデルよりも人間の行動を予測する。
論文参考訳（メタデータ） (2024-05-29T17:37:14Z)
Generative AI as a metacognitive agent: A comparative mixed-method study with human participants on ICF-mimicking exam performance [0.0]
本研究は,国際コーチング連盟 ICF 試験の文脈において,人間のメタ認知に対する大規模言語モデルのメタ認知能力について検討した。混合手法を用いて,ヒトと5種類の高度なLDMのメタ認知能力を評価した。以上の結果から,LLMはすべてのメタ認知的指標,特に過信率の低下において,人間よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-05-07T22:15:12Z)
CausalGym: Benchmarking causal interpretability methods on linguistic tasks [52.61917615039112]
CausalGymを使って、モデル動作に因果的に影響を及ぼす解釈可能性手法のベンチマークを行う。ピチアモデル (14M--6.9B) について検討し, 幅広い解釈可能性手法の因果効果について検討した。 DASは他の手法よりも優れており、2つの困難な言語現象の学習軌跡の研究に利用している。
論文参考訳（メタデータ） (2024-02-19T21:35:56Z)
Six Fallacies in Substituting Large Language Models for Human Participants [0.0]
大規模言語モデル(LLM)のようなAIシステムは、行動研究や心理学研究における人間の参加者を置き換えることができるのだろうか? ここでは「置き換え」の観点を批判的に評価し、その妥当性を損なう6つの解釈誤りを識別する。それぞれの誤りは、LSMとは何か、人間の認知について何を教えてくれるのかについて、潜在的な誤解を表している。
論文参考訳（メタデータ） (2024-02-06T23:28:23Z)
Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。既存の感受性研究は、自己報告された信念に大きく依存している。本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文参考訳（メタデータ） (2023-11-16T07:22:56Z)
Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-08T20:41:18Z)
Do LLMs exhibit human-like response biases? A case study in survey design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。 9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文参考訳（メタデータ） (2023-11-07T15:40:43Z)
Studying and improving reasoning in humans and machines [0.0]
大規模言語モデル(LLM)と人間における推論について検討し比較する。以上の結果から, 含んでいるモデルの多くは, しばしばエラーを起こし, インデューサに基づく人間の推論に類似した推論誤差を示していた。
論文参考訳（メタデータ） (2023-09-21T21:02:05Z)
Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文参考訳（メタデータ） (2023-05-24T06:14:31Z)
Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。 MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文参考訳（メタデータ） (2022-05-20T07:32:57Z)
Learning Theory of Mind via Dynamic Traits Attribution [59.9781556714202]
本稿では,過去のトラジェクトリからアクターの潜在特性ベクトルを生成するニューラルToMアーキテクチャを提案する。この特性ベクトルは、予測ニューラルネットワークの高速重み付けスキームを介して予測機構を乗法的に変調する。実験により,高速重量はエージェントの特性をモデル化し,マインドリーディング能力を向上させるために優れた誘導バイアスを与えることが示された。
論文参考訳（メタデータ） (2022-04-17T11:21:18Z)
ACRE: Abstract Causal REasoning Beyond Covariation [90.99059920286484]
因果誘導における現在の視覚システムの系統的評価のための抽象因果分析データセットについて紹介する。 Blicket実験における因果発見の研究の流れに触発され、独立シナリオと介入シナリオのいずれにおいても、以下の4種類の質問で視覚的推論システムに問い合わせる。純粋なニューラルモデルは確率レベルのパフォーマンスの下で連想戦略に向かう傾向があるのに対し、ニューロシンボリックな組み合わせは後方ブロッキングの推論に苦しむ。
論文参考訳（メタデータ） (2021-03-26T02:42:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: Anthropocentric bias in language model evaluation

関連論文リスト