論文の概要: Assesing LLMs in Art Contexts: Critique Generation and Theory of Mind Evaluation
- arxiv url: http://arxiv.org/abs/2504.12805v1
- Date: Thu, 17 Apr 2025 10:10:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:39:13.400457
- Title: Assesing LLMs in Art Contexts: Critique Generation and Theory of Mind Evaluation
- Title(参考訳): 美術的文脈におけるLCMの評価:批判生成と心的評価の理論
- Authors: Takaya Arita, Wenxian Zheng, Reiji Suzuki, Fuminori Akiba,
- Abstract要約: 本研究では,大きな言語モデル (LLM) が芸術に関連する2つの領域でどのように機能するかを考察する。
批判生成部分には,ノエル・キャロルの評価枠組みと幅広い美術批評理論を組み合わせるシステムを構築した。
これらの批判は、チューリングテストスタイルの評価において、人間の専門家によって書かれたものと比較された。
第2部では、解釈、感情、道徳的緊張を含む状況に基づいた、新しいシンプルなToMタスクを導入した。
- 参考スコア(独自算出の注目度): 0.9428222284377783
- License:
- Abstract: This study explored how large language models (LLMs) perform in two areas related to art: writing critiques of artworks and reasoning about mental states (Theory of Mind, or ToM) in art-related situations. For the critique generation part, we built a system that combines Noel Carroll's evaluative framework with a broad selection of art criticism theories. The model was prompted to first write a full-length critique and then shorter, more coherent versions using a step-by-step prompting process. These AI-generated critiques were then compared with those written by human experts in a Turing test-style evaluation. In many cases, human subjects had difficulty telling which was which, and the results suggest that LLMs can produce critiques that are not only plausible in style but also rich in interpretation, as long as they are carefully guided. In the second part, we introduced new simple ToM tasks based on situations involving interpretation, emotion, and moral tension, which can appear in the context of art. These go beyond standard false-belief tests and allow for more complex, socially embedded forms of reasoning. We tested 41 recent LLMs and found that their performance varied across tasks and models. In particular, tasks that involved affective or ambiguous situations tended to reveal clearer differences. Taken together, these results help clarify how LLMs respond to complex interpretative challenges, revealing both their cognitive limitations and potential. While our findings do not directly contradict the so-called Generative AI Paradox--the idea that LLMs can produce expert-like output without genuine understanding--they suggest that, depending on how LLMs are instructed, such as through carefully designed prompts, these models may begin to show behaviors that resemble understanding more closely than we might assume.
- Abstract(参考訳): 本研究では,大規模言語モデル (LLM) が美術関連領域においてどのように機能するかを考察した。
批判生成部分には,ノエル・キャロルの評価枠組みと幅広い美術批評理論を組み合わせるシステムを構築した。
モデルはまずフル長の批評を書き、その後ステップバイステップのプロンプトプロセスを使用してより短く、より一貫性のあるバージョンを書くように促された。
これらのAI生成批判は、チューリングテストスタイルの評価において、人間の専門家によって書かれた批判と比較された。
多くの場合、人間の被験者はどちらがどれであるかを判断することが困難であり、その結果は、LLMは、スタイルが妥当であるだけでなく、注意深くガイドされている限り、解釈に富む批評を作成できることを示している。
第2部では, 解釈, 感情, 道徳的緊張といった状況に基づいて, アートの文脈に現れる, シンプルなToMタスクを導入した。
これらは、標準的な偽確認テストを超えて、より複雑で社会的に組み込まれた推論を可能にする。
我々は最近41個のLCMを試験したところ、その性能はタスクやモデルによって異なっていた。
特に、感情的または曖昧な状況にかかわるタスクは、より明確な相違を明らかにする傾向にあった。
これらの結果は、LLMが複雑な解釈的課題にどのように反応するかを明らかにするのに役立ち、認知的限界とポテンシャルの両方を明らかにする。
我々の発見は、いわゆるジェネレーティブAIパラドックス(Generative AI Paradox)とは直接矛盾するものではない — LLMが真の理解なしに専門家のようなアウトプットを生成できるという考えは、慎重に設計されたプロンプトなど、LSMがどのように指導されるかによって、これらのモデルが、想像以上に理解に類似した行動を示すようになることを示唆している。
関連論文リスト
- The Essence of Contextual Understanding in Theory of Mind: A Study on Question Answering with Story Characters [67.61587661660852]
理論・オブ・ミンド(ToM)は、人間が他者の精神状態を理解し解釈することを可能にする。
本稿では,ToMにおける個人的背景に関する包括的文脈理解の重要性を検証する。
本稿では,古典小説の登場人物をベースとした1,035ToM質問からなるCharToMベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-01-03T09:04:45Z) - Understanding the Dark Side of LLMs' Intrinsic Self-Correction [55.51468462722138]
LLMの応答を改善するために,本質的な自己補正法が提案された。
近年の研究では、LLMの内在的な自己補正は、フィードバックのプロンプトとして、オラクルラベルなしで失敗することが示されている。
内在的な自己補正は、中途半端な回答と最終回答の両方を LLM が揺らぎ、単純な事実的質問に対する素早い偏見をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-12-19T15:39:31Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - Meaningful Learning: Enhancing Abstract Reasoning in Large Language Models via Generic Fact Guidance [38.49506722997423]
大規模言語モデル(LLM)は、様々な推論シナリオにまたがる優れたパフォーマンスと強力な説明可能性を開発した。
LLMは、一貫した正確な答えを提供するために、一般的な事実を抽象化し、適用するのに苦労することが多い。
このことが、LSMが真に推論しているのか、単に記憶しているだけなのか、という激しい議論を巻き起こした。
論文 参考訳(メタデータ) (2024-03-14T04:06:13Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - Can Large Language Models Explain Themselves? A Study of LLM-Generated
Self-Explanations [14.685170467182369]
ChatGPTのような大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れた性能を示している。
これらのモデルは、人間の会話に"ヘルプフル"な応答を生成するように調整されているため、応答とともに説明を生成できる。
論文 参考訳(メタデータ) (2023-10-17T12:34:32Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [31.238220405009617]
推論に取り組むために大規模な言語モデル(LLM)をエクスプロイトすることは、注目を集めている。
複雑な論理的問題において満足な結果を達成することは依然として非常に困難であり、コンテキスト内の多くの前提とマルチホップ推論が特徴である。
本研究は,まず情報フローの観点からそのメカニズムを考察し,不規則な内容や無関係な内容を扱う際に,人間のような認知バイアスに類似した困難に直面することを明らかにする。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters
for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。
2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。
これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文 参考訳(メタデータ) (2022-10-26T19:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。