論文の概要: Understanding the Cognitive Complexity in Language Elicited by Product Images
- arxiv url: http://arxiv.org/abs/2409.16521v1
- Date: Wed, 25 Sep 2024 00:26:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 06:06:51.285982
- Title: Understanding the Cognitive Complexity in Language Elicited by Product Images
- Title(参考訳): 製品画像による言語における認知的複雑さの理解
- Authors: Yan-Ying Chen, Shabnam Hakimi, Monica Van, Francine Chen, Matthew Hong, Matt Klenk, Charlene Wu,
- Abstract要約: この研究は、製品イメージによって引き起こされる人間の言語の認知的複雑さを測定し、検証するためのアプローチを提供する。
製品イメージの多彩な記述ラベルを含む大規模なデータセットを導入します。
人間の評価された認知複雑性は、自然言語モデルを用いて近似できることを示した。
- 参考スコア(独自算出の注目度): 4.420255770397967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Product images (e.g., a phone) can be used to elicit a diverse set of consumer-reported features expressed through language, including surface-level perceptual attributes (e.g., "white") and more complex ones, like perceived utility (e.g., "battery"). The cognitive complexity of elicited language reveals the nature of cognitive processes and the context required to understand them; cognitive complexity also predicts consumers' subsequent choices. This work offers an approach for measuring and validating the cognitive complexity of human language elicited by product images, providing a tool for understanding the cognitive processes of human as well as virtual respondents simulated by Large Language Models (LLMs). We also introduce a large dataset that includes diverse descriptive labels for product images, including human-rated complexity. We demonstrate that human-rated cognitive complexity can be approximated using a set of natural language models that, combined, roughly capture the complexity construct. Moreover, this approach is minimally supervised and scalable, even in use cases with limited human assessment of complexity.
- Abstract(参考訳): 製品イメージ(例:携帯電話)は、表面レベルの知覚属性(例:白)や、知覚ユーティリティ(例:バッテリ)のようなより複雑な特徴(例:白)を含む、言語で表現されるさまざまなコンシューマーがレポートする特徴を引き出すために使用することができる。
発声された言語の認知的複雑さは、認知プロセスの性質とそれらを理解するために必要な文脈を明らかにし、認知的複雑性は消費者のその後の選択を予測する。
この研究は、製品イメージによって引き起こされる人間の言語認知の複雑さを計測し、検証するためのアプローチを提供し、大規模言語モデル(LLM)によってシミュレートされた仮想回答者と同様に、人間の認知プロセスを理解するためのツールを提供する。
また、製品イメージのさまざまな記述ラベルを含む大規模なデータセットも導入しています。
人間の評価認知複雑性を自然言語モデルを用いて近似し,その複雑性構造を大まかに捉えることを実証した。
さらに、このアプローチは、人間による複雑さの評価が限られているユースケースにおいても、最小限に教師付きでスケーラブルです。
関連論文リスト
- Multi-scale structural complexity as a quantitative measure of visual complexity [1.3499500088995464]
マルチスケール構造複雑性尺度(MSSC)は,物体の構造的複雑性を,その階層構造における異なるスケール間の相違点の量として定義する手法である。
我々は、MSSCが他の計算複雑性尺度と同等の主観的複雑性と相関し、より直感的であり、画像のカテゴリ間で一貫性があり、計算が容易であることを示した。
論文 参考訳(メタデータ) (2024-08-07T20:26:35Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - SNeL: A Structured Neuro-Symbolic Language for Entity-Based Multimodal
Scene Understanding [0.0]
SNeL(Structured Neuro-symbolic Language, 構造化ニューラルシンボリック言語)は,マルチモーダルデータを処理するニューラルネットワークとのニュアンスな相互作用を容易にする汎用的なクエリ言語である。
SNeLの表現的インターフェースは、複雑なクエリの構築、論理演算と算術演算子、コンパレータ、ネストなどをサポートする。
我々の評価は、SNeLが複雑なニューラルネットワークとの相互作用を形作る可能性を示している。
論文 参考訳(メタデータ) (2023-06-09T17:01:51Z) - Natural Language Decomposition and Interpretation of Complex Utterances [47.30126929007346]
本稿では,階層的な自然言語分解のプロセスを通じて,ユーザからの複雑な入出力発話を処理する手法を提案する。
我々のアプローチは、事前訓練された言語モデルを用いて、複雑な発話を単純な自然言語ステップのシーケンスに分解する。
実験の結果,提案手法は複雑な発話の解釈を可能にし,複雑な学習データはほとんどないことがわかった。
論文 参考訳(メタデータ) (2023-05-15T14:35:00Z) - Cross-Lingual Transfer of Cognitive Processing Complexity [11.939409227407769]
我々は,構造的複雑さの認知指標として,文レベルの視線追跡パターンを用いる。
マルチ言語モデル XLM-RoBERTa は,13言語に対して様々なパターンを予測できることを示す。
論文 参考訳(メタデータ) (2023-02-24T15:48:23Z) - LISA: Learning Interpretable Skill Abstractions from Language [85.20587800593293]
言語条件による実演から多種多様な解釈可能なスキルを学習できる階層型模倣学習フレームワークを提案する。
本手法は, 逐次的意思決定問題において, 言語に対するより自然な条件付け方法を示す。
論文 参考訳(メタデータ) (2022-02-28T19:43:24Z) - Neural Abstructions: Abstractions that Support Construction for Grounded
Language Learning [69.1137074774244]
言語の相互作用を効果的に活用するには、言語基底に対する2つの最も一般的なアプローチの制限に対処する必要がある。
本稿では,ラベル条件付き生成モデルの推論手順に対する制約のセットであるニューラル・アブストラクションの考え方を紹介する。
この手法により,マインクラフトにおけるオープンエンドハウスタスクのセマンティックな変更をユーザ人口が構築できることが示される。
論文 参考訳(メタデータ) (2021-07-20T07:01:15Z) - CogAlign: Learning to Align Textual Neural Representations to Cognitive
Language Processing Signals [60.921888445317705]
自然言語処理モデルに認知言語処理信号を統合するためのCogAlignアプローチを提案する。
我々は、CogAlignが、パブリックデータセット上の最先端モデルよりも、複数の認知機能で大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T07:10:25Z) - Natural Language Rationales with Full-Stack Visual Reasoning: From
Pixels to Semantic Frames to Commonsense Graphs [106.15931418425906]
本研究は,複数の複雑な視覚的推論課題にまたがる自然言語の有理性の生成に焦点を当てた最初の研究である。
RationaleVT Transformerは、事前学習された言語モデルとオブジェクト認識、接地された視覚的セマンティックフレーム、視覚的コモンセンスグラフを組み合わせることで、自由テキスト論理を生成することを学習する統合モデルである。
実験の結果, 基礎となる事前学習言語モデルは視覚適応の恩恵を受けており, 複雑な視覚的・テキスト的推論タスクに対するモデル解釈可能性の補完として, 自由文合理化が有望な研究方向であることを示唆した。
論文 参考訳(メタデータ) (2020-10-15T05:08:56Z) - Human-like general language processing [0.6510507449705342]
本稿では,センサモレータ,アソシエーション,認知システムを含む,人間のような汎用言語処理アーキテクチャを提案する。
HGLPネットワークは、子供のように簡単から難易度まで学習し、マルチモーダルニューロンを協調して単語の意味を理解し、仮想世界モデルを構築して文を生成し、生成する。
HGLPは、オブジェクト認識、文理解、想像力、注意制御、クエリ、推論、運動判断、混合算術演算、数字のトレースと書き込み、言語によって導かれる人間のような反復的思考プロセスを含む10以上のタスクを急速に学習した。
論文 参考訳(メタデータ) (2020-05-19T02:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。