論文の概要: Hues and Cues: Human vs. CLIP
- arxiv url: http://arxiv.org/abs/2509.02305v2
- Date: Wed, 03 Sep 2025 09:16:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.042125
- Title: Hues and Cues: Human vs. CLIP
- Title(参考訳): Hues and Cues: Human vs. CLIP
- Authors: Nuria Alabau-Bosque, Jorge Vila-Tomás, Paula Daudén-Oliver, Pablo Hernández-Cámara, Jose Manuel Jaén-Lorites, Valero Laparra, Jesús Malo,
- Abstract要約: 本研究は,ボードゲームによる人工モデル評価のための新しいアプローチを提案する。
ボードゲーム『Hues & Cues』をプレイすることで、CLIPの色知覚と色命名能力をテストする。
- 参考スコア(独自算出の注目度): 2.51105685855894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Playing games is inherently human, and a lot of games are created to challenge different human characteristics. However, these tasks are often left out when evaluating the human-like nature of artificial models. The objective of this work is proposing a new approach to evaluate artificial models via board games. To this effect, we test the color perception and color naming capabilities of CLIP by playing the board game Hues & Cues and assess its alignment with humans. Our experiments show that CLIP is generally well aligned with human observers, but our approach brings to light certain cultural biases and inconsistencies when dealing with different abstraction levels that are hard to identify with other testing strategies. Our findings indicate that assessing models with different tasks like board games can make certain deficiencies in the models stand out in ways that are difficult to test with the commonly used benchmarks.
- Abstract(参考訳): ゲームは本質的に人間であり、異なる人間の特性に挑戦するために多くのゲームが作成されます。
しかしながら、これらのタスクは、人工モデルの人間的な性質を評価する際に、しばしば無視される。
本研究の目的は,ボードゲームによる人工モデル評価の新しいアプローチを提案することである。
そこで本研究では,ボードゲーム『Hues & Cues』をプレイすることで,CLIPの色知覚と色命名能力を検証し,人間とのアライメントを評価する。
私たちの実験では、CLIPは一般的に人間のオブザーバとよく一致していますが、私たちのアプローチは、他のテスト戦略と区別するのが難しいさまざまな抽象化レベルを扱う際に、文化的なバイアスや矛盾を軽くします。
この結果から,ボードゲームのような異なるタスクでモデルを評価することで,一般的なベンチマークではテストが困難であるモデルにおいて,ある種の欠陥が顕著になる可能性が示唆された。
関連論文リスト
- CogniPlay: a work-in-progress Human-like model for General Game Playing [0.5524804393257919]
本稿では,認知心理学からの知見の概要と,人工エージェントの人間的行動のモデル化へのこれまでの取り組みについて述べる。
汎用ゲームプレイング(GGP)への適用性について論じ、これらの観察に基づいて、当社のワーク・イン・プログレス・モデルを紹介します。
論文 参考訳(メタデータ) (2025-07-08T10:48:29Z) - Triangulating LLM Progress through Benchmarks, Games, and Cognitive Tests [89.09172401497213]
評価パラダイムとして,標準ベンチマーク,インタラクティブゲーム,認知テストの3つを検討した。
分析の結果,対話型ゲームは判別モデルにおける標準ベンチマークよりも優れていることがわかった。
我々は,人間の能力評価に触発された新しい対話型ベンチマークと目標認知タスクの開発を提唱する。
論文 参考訳(メタデータ) (2025-02-20T08:36:58Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Generation of Games for Opponent Model Differentiation [2.164100958962259]
これまでの結果から,人間の振る舞いをモデル化することで,アルゴリズムの性能が大幅に向上することが示唆された。
本研究では、悪意ある行為を行う可能性を高める人格タイプを特定する心理学者によって収集されたデータを用いる。
私たちはそのパラメータと心理的特徴を結びつける新しいモデルを作成しました。
論文 参考訳(メタデータ) (2023-11-28T13:45:03Z) - GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。
GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。
我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文 参考訳(メタデータ) (2023-08-19T14:33:40Z) - Detecting Individual Decision-Making Style: Exploring Behavioral
Stylometry in Chess [4.793072503820555]
チェスの文脈における行動スタイメトリーに対するトランスフォーマーに基づくアプローチを提案する。
本手法は,数発の分類フレームワークで動作し,数千人の候補選手の中から選手を正確に識別することができる。
我々は、チェスにおける人間のスタイルと潜在的な倫理的意味について、結果の埋め込みが明らかにするものをより広く検討する。
論文 参考訳(メタデータ) (2022-08-02T11:18:16Z) - WinoGAViL: Gamified Association Benchmark to Challenge
Vision-and-Language Models [91.92346150646007]
本研究では,視覚・言語関係を収集するオンラインゲームであるWinoGAViLを紹介する。
私たちはこのゲームを使って3.5Kのインスタンスを収集し、それらが人間には直感的だが最先端のAIモデルには挑戦的であることを発見した。
我々の分析とプレイヤーからのフィードバックは、収集された協会が多様な推論スキルを必要とすることを示している。
論文 参考訳(メタデータ) (2022-07-25T23:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。