論文の概要: Bridging the Creativity Understanding Gap: Small-Scale Human Alignment Enables Expert-Level Humor Ranking in LLMs
- arxiv url: http://arxiv.org/abs/2502.20356v1
- Date: Thu, 27 Feb 2025 18:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:59:36.277070
- Title: Bridging the Creativity Understanding Gap: Small-Scale Human Alignment Enables Expert-Level Humor Ranking in LLMs
- Title(参考訳): クリエイティビティ理解のギャップを埋める:小規模の人間アライメントにより、LLMのエキスパートレベルヒューマリングが可能に
- Authors: Kuan Lok Zhou, Jiayi Chen, Siddharth Suresh, Reuben Narad, Timothy T. Rogers, Lalit K Jain, Robert D Nowak, Bob Mankoff, Jifan Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、創造的コンテンツを理解する上で、重大な制限を示してきた。
ユーモア理解を3つの構成要素に分解し,それぞれを体系的に改善することで,この課題を再考する。
改良されたアプローチは、キャプションランキングにおいて82.4%の精度を実現し、前回の67%のベンチマークで顕著に改善した。
- 参考スコア(独自算出の注目度): 17.44511150123112
- License:
- Abstract: Large Language Models (LLMs) have shown significant limitations in understanding creative content, as demonstrated by Hessel et al. (2023)'s influential work on the New Yorker Cartoon Caption Contest (NYCCC). Their study exposed a substantial gap between LLMs and humans in humor comprehension, establishing that understanding and evaluating creative content is key challenge in AI development. We revisit this challenge by decomposing humor understanding into three components and systematically improve each: enhancing visual understanding through improved annotation, utilizing LLM-generated humor reasoning and explanations, and implementing targeted alignment with human preference data. Our refined approach achieves 82.4% accuracy in caption ranking, singificantly improving upon the previous 67% benchmark and matching the performance of world-renowned human experts in this domain. Notably, while attempts to mimic subgroup preferences through various persona prompts showed minimal impact, model finetuning with crowd preferences proved remarkably effective. These findings reveal that LLM limitations in creative judgment can be effectively addressed through focused alignment to specific subgroups and individuals. Lastly, we propose the position that achieving artificial general intelligence necessitates systematic collection of human preference data across creative domains. We advocate that just as human creativity is deeply influenced by individual and cultural preferences, training LLMs with diverse human preference data may be essential for developing true creative understanding.
- Abstract(参考訳): 大型言語モデル (LLM) は、ヘッセルらによるニューヨーク・カートゥーン・キャプション・コンテスト (NYCCC) における影響力ある研究が示すように、創造的コンテンツを理解する上で大きな限界を示している。
彼らの研究は、ユーモアの理解においてLLMと人間の間に大きなギャップを露呈し、創造的コンテンツを理解し評価することがAI開発における重要な課題であることを確認した。
我々は,3つの構成要素にユーモア理解を分解し,アノテーションの改善による視覚的理解の向上,LLM生成のユーモア推論と説明の活用,人間の嗜好データとターゲットアライメントを実装することで,これらの課題を再考する。
改良されたアプローチは、キャプションランキングにおいて82.4%の精度を達成し、以前の67%のベンチマークを独特に改善し、この領域で世界有数の人間専門家のパフォーマンスに匹敵する。
特に,様々なペルソナプロンプトを通じてサブグループ選好を模倣しようとする試みは最小限の影響を示したが,群衆選好を用いたモデル微調整は極めて効果的であった。
これらの結果から, 創造的判断におけるLCMの限界は, 特定のサブグループや個人に焦点を合わせることで効果的に対処できることが示唆された。
最後に,汎用知能の実現には,創造的領域にまたがる人間の嗜好データの体系的な収集が必要であるという立場を提案する。
人間の創造性は個人や文化の嗜好に深く影響されているのと同じように、人間の嗜好データを多種多様に学習することが、真の創造的理解の発達に不可欠である、と我々は主張する。
関連論文リスト
- A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。
LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。
その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文 参考訳(メタデータ) (2025-01-25T09:11:15Z) - Humanlike Cognitive Patterns as Emergent Phenomena in Large Language Models [2.9312156642007294]
我々は、意思決定バイアス、推論、創造性の3つの重要な認知領域にわたって、大規模言語モデルの能力を体系的にレビューする。
意思決定では、LSMはいくつかの人間のようなバイアスを示すが、人間の観察するバイアスは欠落している。
GPT-4のような先進的なLCMは、人間のシステム2思考に似た熟考的推論を示し、小さなモデルは人間レベルの性能に欠ける。
LLMはストーリーテリングのような言語ベースの創造的なタスクに優れているが、現実の文脈を必要とする散発的な思考タスクに苦労する。
論文 参考訳(メタデータ) (2024-12-20T02:26:56Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - Uncovering Factor Level Preferences to Improve Human-Model Alignment [58.50191593880829]
PROFILEは、好みを駆動する特定の要因の影響を明らかにし、定量化するフレームワークである。
ProFILE の因子レベル分析は、人間モデルのアライメントと不適応の背後にある 'なぜ' を説明している。
我々は、不整合要因に対処するなど、要因レベルの洞察の活用が、人間の嗜好との整合性をいかに改善するかを実証する。
論文 参考訳(メタデータ) (2024-10-09T15:02:34Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - Building Better AI Agents: A Provocation on the Utilisation of Persona in LLM-based Conversational Agents [4.8916211213796394]
本稿では,ユニークなペルソナを付与するCAの理屈と意味を考察することから始める。
ペルソナの実装が単に有益であるだけでなく、LCMベースのCAにとって重要なアプリケーションについても検討する。
この論文は、ペルソナ統合に対するニュアンスなアプローチの必要性を強調し、起こりうる潜在的な課題と倫理的ジレンマを強調している。
論文 参考訳(メタデータ) (2024-05-26T11:36:48Z) - Divergent Creativity in Humans and Large Language Models [37.67363469600804]
最近の大規模言語モデルの能力の急上昇は、人間の能力に似た創造性レベルに近づいている、という主張につながっている。
我々は、創造科学の最近の進歩を活用して、最先端のLLMと10万人の実質的なデータセットの両方において、多様な創造性を詳細に分析するためのフレームワークを構築します。
論文 参考訳(メタデータ) (2024-05-13T22:37:52Z) - CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。
我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。
CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文 参考訳(メタデータ) (2024-04-10T00:25:09Z) - Assessing and Understanding Creativity in Large Language Models [33.37237667182931]
本稿では,大規模言語モデル(LLM)における創造性レベルを評価するための効率的な枠組みを確立することを目的とする。
The Torrance Tests of Creative Thinking を用いて、7つのタスクにまたがる様々なLSMの創造的パフォーマンスを評価する。
LLMの創造性は、主に独創性に欠けるが、エラボレーションには優れていた。
論文 参考訳(メタデータ) (2024-01-23T05:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。