Fugu-MT 論文翻訳(概要): Advancements and limitations of LLMs in replicating human color-word associations

論文の概要: Advancements and limitations of LLMs in replicating human color-word associations

arxiv url: http://arxiv.org/abs/2411.02116v2
Date: Tue, 05 Nov 2024 08:35:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.092681
Title: Advancements and limitations of LLMs in replicating human color-word associations
Title（参考訳）: ヒト色覚関連因子の複製におけるLLMの進歩と限界
Authors: Makoto Fukushima, Shusuke Eshita, Hiroshige Fukuhara,
Abstract要約: 大規模言語モデル(LLM)が広く普及し、自然な会話スキルを持つ様々なベンチマークでインテリジェントな振る舞いを実証している。日本人1万人以上の参加者から収集したデータを用いて,複数世代にわたるLLMと人間の色覚関連性を比較検討した。本研究は,LLM能力の発達と持続的限界を両立させ,色覚関連性を表現する上での人間とLLMのセマンティックメモリ構造の違いを示唆する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Color-word associations play a fundamental role in human cognition and design applications. Large Language Models (LLMs) have become widely available and demonstrated intelligent behaviors in various benchmarks with natural conversation skills. However, their ability to replicate human color-word associations remains understudied. We compared multiple generations of LLMs (from GPT-3 to GPT-4o) against human color-word associations using data collected from over 10,000 Japanese participants, involving 17 colors and words from eight categories in Japanese. Our findings reveal a clear progression in LLM performance across generations, with GPT-4o achieving the highest accuracy in predicting the best voted word for each color and category. However, the highest median performance was approximately 50% even for GPT-4o with visual inputs (chance level is 10%), and the performance levels varied significantly across word categories and colors, indicating a failure to fully replicate human color-word associations. On the other hand, color discrimination ability estimated from our color-word association data showed that LLMs demonstrated high correlation with human color discrimination patterns, similarly to previous studies. Our study highlights both the advancements in LLM capabilities and their persistent limitations, suggesting differences in semantic memory structures between humans and LLMs in representing color-word associations.
Abstract（参考訳）: カラーワード・アソシエーションは、人間の認知とデザインの応用において基本的な役割を担っている。大規模言語モデル(LLM)が広く普及し、自然な会話スキルを持つ様々なベンチマークでインテリジェントな振る舞いを実証している。しかし、人間の色と単語の関連を再現する能力はまだ検討されていない。我々は,日本人1万人以上の参加者から収集したデータを用いて,複数世代にわたるLCM(GPT-3, GPT-4o)とヒトのカラーワード関連を比較検討した。 GPT-4oは,各色とカテゴリに最適な投票語を推定する上で,最も高い精度を達成している。しかし, GPT-4oでは, 視覚的入力が10%であった場合においても, 高い中央値が50%程度であり, 単語のカテゴリや色によって性能は有意に変化し, 人間の色覚関連性を完全に再現できなかったことが示唆された。一方, カラーワード関連データから推定した色識別能力は, 従来の研究と同様, LLMが人間の色識別パターンと高い相関を示した。本研究は,LLM能力の発達と持続的限界を両立させ,色覚関連性を表現する上での人間とLLMのセマンティックメモリ構造の違いを示唆する。

関連論文リスト

Psycholinguistic Word Features: a New Approach for the Evaluation of LLMs Alignment with Humans [2.7013338932521416]
我々は,LLMの代表群と人間の評価値とのアライメントを心理言語学的データセット上で評価した。その結果,グラスゴーのノルム評価において,アライメントはテキストカラーブラックの方が概ね良好であることが示唆された。これは、現在のLLMが単語に対する人間の感覚関連と一致している可能性を示唆している。
論文参考訳（メタデータ） (2025-05-29T20:56:48Z)
Beyond Keywords: Evaluating Large Language Model Classification of Nuanced Ableism [2.0435202333125977]
大規模言語モデル(LLM)は、r'esumのスクリーニングやコンテンツモデレーションといった意思決定タスクにますます使われています。自閉症者を対象としたニュアンス能力の同定のための4つのLSMの能力について検討した。以上の結果から, LLMは自閉症関連言語を識別できるが, 有害あるいは攻撃的な意味を欠くことが多いことが明らかとなった。
論文参考訳（メタデータ） (2025-05-26T20:01:44Z)
Diagnosing Vision Language Models' Perception by Leveraging Human Methods for Color Vision Deficiencies [23.761989930955522]
石原テストを用いて,視覚言語モデルによる個人レベルの知覚変動を推定する能力を評価する。以上の結果から,LVLMは自然言語で色覚障害を説明できるが,画像ベースタスクにおいてCVDが色知覚に与える影響をシミュレートすることはできない。
論文参考訳（メタデータ） (2025-05-23T04:43:55Z)
From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning [52.32745233116143]
人間は知識をセマンティック圧縮によってコンパクトなカテゴリに分類する。大規模言語モデル(LLM)は、顕著な言語能力を示す。しかし、その内部表現が、圧縮と意味的忠実性の間の人間のようなトレードオフにぶつかるかどうかは不明だ。
論文参考訳（メタデータ） (2025-05-21T16:29:00Z)
Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。 LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文参考訳（メタデータ） (2025-03-06T05:15:34Z)
Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。 GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文参考訳（メタデータ） (2025-02-23T04:21:32Z)
BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTER - 28の異なる言語のマルチラベルデータセットのコレクション。データ収集とアノテーションプロセスとこれらのデータセット構築の課題について説明する。 BRIGHTERデータセットは、テキストベースの感情認識のギャップを埋めるためのステップであることを示す。
論文参考訳（メタデータ） (2025-02-17T15:39:50Z)
Color in Visual-Language Models: CLIP deficiencies [1.0159205678719043]
この研究は、現在人工知能において最も影響力のあるVML(ビジュアル言語モデル)であるCLIP(Contrastive Language- Image Pre-training)において、色がどのようにコード化されているかを探る。 a)色の概念にあまり関係のない無彩色刺激に対する明確な偏見、(b)他の視覚情報よりもテキストを優先する傾向である。
論文参考訳（メタデータ） (2025-02-06T19:38:12Z)
Iconicity in Large Language Models [0.0]
大規模言語モデル(LLM)は、意味と音の両方へのアクセスのみを仲介する。本研究は,GPT-4が人工言語で高度に象徴的な擬似語を生成することによって,この仮説に対処する。その結果、人間が生成した象徴言語における擬似単語の意味を、遠い自然言語の単語よりも正確に推測できることが判明した。
論文参考訳（メタデータ） (2025-01-10T01:00:05Z)
Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文参考訳（メタデータ） (2024-12-05T17:54:27Z)
Large Language Models Reflect the Ideology of their Creators [73.25935570218375]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。異なるLLMや言語にまたがるイデオロギー的姿勢の顕著な多様性を明らかにする。
論文参考訳（メタデータ） (2024-10-24T04:02:30Z)
L-C4: Language-Based Video Colorization for Creative and Consistent Color [59.069498113050436]
創造的・一貫性のある色(L-C4)のための言語ベースビデオカラー化を提案する。我々のモデルは、事前訓練された相互モダリティ生成モデルに基づいて構築される。本研究では,フリックやカラーシフトを防止するために時間的に変形可能な注意点と,長期のカラー一貫性を維持するためにクロスクリップ融合を提案する。
論文参考訳（メタデータ） (2024-10-07T12:16:21Z)
Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文参考訳（メタデータ） (2024-10-03T16:43:17Z)
MirrorStories: Reflecting Diversity through Personalized Narrative Generation with Large Language Models [5.397565689903148]
本研究では,パーソナライズされた「ミラーストーリー」作成におけるLarge Language Models(LLM)の有効性について検討する。ミラーストリーズ(MirrorStories)は、名前、性別、年齢、民族性、読者の興味、ストーリーモラルといった要素を統合した1500のパーソナライズされた短編小説のコーパスである。
論文参考訳（メタデータ） (2024-09-20T22:43:13Z)
Are Social Sentiments Inherent in LLMs? An Empirical Study on Extraction of Inter-demographic Sentiments [14.143299702954023]
本研究は、国籍、宗教、人種・民族の観点で定義された社会集団に焦点を当てる。我々は、あるグループから別のグループへの感情に関する質問をLSMに入力し、反応に感情分析を適用し、その結果を社会調査と比較する。
論文参考訳（メタデータ） (2024-08-08T08:13:25Z)
Large Language Models estimate fine-grained human color-concept associations [8.075476126874252]
マルチモーダルな大言語モデルであるGPT-4は、追加のトレーニングを伴わずに、人間のような色覚関連を推定する能力について検討する。 GPT-4のレーティングは人間のレーティングと相関し、画像から色覚関連を自動的に推定する最先端の手法に匹敵する性能を示した。 GPT-4は、幅広い概念のカラーアソシエーションの分布を効率的に推定するために使用することができ、効果的で直感的な情報視覚化を設計するための重要なツールとして機能する可能性がある。
論文参考訳（メタデータ） (2024-05-04T04:19:15Z)
White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs [58.27353205269664]
社会的偏見は言語機関に現れることがある。本稿では,言語庁バイアス評価ベンチマークを紹介する。我々は,最近の3つのLarge Language Model(LLM)生成コンテンツにおいて,言語エージェンシーの社会的バイアスを明らかにした。
論文参考訳（メタデータ） (2024-04-16T12:27:54Z)
PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。 LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文参考訳（メタデータ） (2024-04-03T04:53:14Z)
Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文参考訳（メタデータ） (2024-03-17T07:08:55Z)
Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs [13.744746481528711]
大規模言語モデル(LLM)は、様々な文脈で人間の反応をシミュレートするために広く使われている。我々は,2つの主観的判断課題(丁寧さと攻撃性)において,人口差を理解する能力について,9つの人気のLCMを評価した。ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジアやブラックの参加者よりもホワイトの参加者のラベルとより密接に一致している。
論文参考訳（メタデータ） (2023-11-16T10:02:24Z)
Generation Of Colors using Bidirectional Long Short Term Memory Networks [0.0]
人間の視覚は、200万から700万の識別可能な色合いと推定される、幅広い色のスペクトルを区別することができる。この研究は、無数の陰影に対する視覚的認識と、それらを正確に表現し、命名する能力のギャップを埋めようとしている。
論文参考訳（メタデータ） (2023-11-11T11:35:37Z)
Human Behavioral Benchmarking: Numeric Magnitude Comparison Effects in Large Language Models [4.412336603162406]
大規模言語モデル(LLM)は、テキストで広まる数値を差分表現しない。本研究では,LLMが行動レンズからどれだけの数の数値を捉えているかを検討する。
論文参考訳（メタデータ） (2023-05-18T07:50:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。