論文の概要: Shape vs. Context: Examining Human--AI Gaps in Ambiguous Japanese Character Recognition
- arxiv url: http://arxiv.org/abs/2602.23746v1
- Date: Fri, 27 Feb 2026 07:18:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.293819
- Title: Shape vs. Context: Examining Human--AI Gaps in Ambiguous Japanese Character Recognition
- Title(参考訳): 形状対文脈:曖昧な日本語文字認識におけるAIギャップの検討
- Authors: Daichi Haraguchi,
- Abstract要約: 高いテキスト認識性能は、曖昧さを解決する際に視覚言語モデル(VLM)が人間のような決定パターンを共有することを保証しない。
単一文字認識(形状のみのタスク)における決定境界を推定し、VLM応答がコンテキスト下での人間の判断と一致するかどうかを評価する。
ヒトとVLMの意思決定境界は形状のみのタスクで異なり、状況によっては人間のアライメントを改善することができる。
- 参考スコア(独自算出の注目度): 1.4552401317080168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High text recognition performance does not guarantee that Vision-Language Models (VLMs) share human-like decision patterns when resolving ambiguity. We investigate this behavioral gap by directly comparing humans and VLMs using continuously interpolated Japanese character shapes generated via a $β$-VAE. We estimate decision boundaries in a single-character recognition (shape-only task) and evaluate whether VLM responses align with human judgments under shape in context (i.e., embedding an ambiguous character near the human decision boundary in word-level context). We find that human and VLM decision boundaries differ in the shape-only task, and that shape in context can improve human alignment in some conditions. These results highlight qualitative behavioral differences, offering foundational insights toward human--VLM alignment benchmarking.
- Abstract(参考訳): 高いテキスト認識性能は、曖昧さを解決する際に視覚言語モデル(VLM)が人間のような決定パターンを共有することを保証しない。
本研究では,β$-VAEを用いて連続的補間した日本語字形を用いて,人間とVLMを直接比較することにより,この行動ギャップを解明する。
単一文字認識における決定境界(形状のみのタスク)を推定し、VLM応答が文脈における人間の判断と一致するかどうかを評価する(すなわち、人間の決定境界付近の曖昧な文字を単語レベルの文脈に埋め込む)。
ヒトとVLMの意思決定境界は形状のみのタスクで異なり、状況によっては人間のアライメントを改善することができる。
これらの結果は質的な行動の違いを強調し、人間-VLMアライメントベンチマークに対する基礎的な洞察を提供する。
関連論文リスト
- Computational Turing Test Reveals Systematic Differences Between Human and AI Language [0.0]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするために社会科学でますます使われている。
既存の検証努力は人的判断に基づく評価に大きく依存している。
本稿では,LLMが人間の言語にどの程度近いかを評価するために,計算チューリングテストを提案する。
論文 参考訳(メタデータ) (2025-11-06T08:56:37Z) - The Visual Iconicity Challenge: Evaluating Vision-Language Models on Sign Language Form-Meaning Mapping [1.5767445615203355]
ビジュアル・イコニシティ・チャレンジ(Visual Iconicity Challenge)は、視覚言語モデルを評価するための心理言語学的尺度である。
オランダの手話におけるゼロおよび少数ショット設定において,13の最先端のVLMを評価した。
より強い音韻形式予測モデルでは、人間の象徴性判断と相関する。
論文 参考訳(メタデータ) (2025-10-09T17:21:59Z) - Cross-modal Associations in Vision and Language Models: Revisiting the Bouba-Kiki Effect [0.8793721044482612]
我々は,「ブバ」のような擬似語を丸い形に,「キキ」をギザギザと確実に関連付ける「ブバキキ効果」を再評価する。
これらのモデル変種はブーバキキ効果を持続的に示さないことを示す。
その結果、ビジョン・アンド・ランゲージモデルがいかにしてクロスモーダルな概念を真に理解するかという議論が続いている。
論文 参考訳(メタデータ) (2025-07-14T07:48:54Z) - A Flexible Method for Behaviorally Measuring Alignment Between Human and Artificial Intelligence Using Representational Similarity Analysis [0.1957338076370071]
我々は、AIと人間間のアライメントを定量化するために、ペアワイズな類似度評価法であるRepresentational similarity Analysis (RSA)を適用した。
我々は,テキストと画像のモダリティ間のセマンティックアライメント(セマンティックアライメント)を検証し,Large Language and Vision Language Model(LLM, VLM)の類似性判断が,グループレベルでも個人レベルでも人間の反応とどのように一致しているかを測定した。
論文 参考訳(メタデータ) (2024-11-30T20:24:52Z) - Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Introspective Deep Metric Learning [91.47907685364036]
本稿では,不確実性を考慮した画像比較のためのイントロスペクティブな深度学習フレームワークを提案する。
提案するIDMLフレームワークは,不確実性モデリングによるディープメトリック学習の性能を向上させる。
論文 参考訳(メタデータ) (2023-09-11T16:21:13Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T18:52:22Z) - Towards the Human Global Context: Does the Vision-Language Model Really
Judge Like a Human Being? [0.8889304968879164]
ビジョンランゲージ(VL)は研究の重要領域になりつつある。
定量的な尺度「等価スコア」と評価データセット「Human Puzzle」を提案する。
文脈理解においてモデルの性能を定量的に測定することを目的としている。
論文 参考訳(メタデータ) (2022-07-18T01:01:43Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。