論文の概要: Probing Language Models' Gesture Understanding for Enhanced Human-AI
Interaction
- arxiv url: http://arxiv.org/abs/2401.17858v1
- Date: Wed, 31 Jan 2024 14:19:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 14:29:24.690973
- Title: Probing Language Models' Gesture Understanding for Enhanced Human-AI
Interaction
- Title(参考訳): 言語モデルのジェスチャ理解による人間-AIインタラクションの強化
- Authors: Philipp Wicke
- Abstract要約: 本研究の目的は,大規模言語モデルと非言語コミュニケーションの相互作用について,特にジェスチャーに着目して検討することである。
本提案では,テキストプロンプト内での明示的および暗黙的な非言語的手がかりの解読におけるLLMの習熟度を検討する計画を立てている。
LLMのジェスチャー理解を評価するために、精神言語実験を再現するために人間の行動をシミュレートする能力を評価する実験が計画されている。
- 参考スコア(独自算出の注目度): 6.216023343793143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of Large Language Models (LLMs) has affected various disciplines
that got beyond mere text generation. Going beyond their textual nature, this
project proposal aims to investigate the interaction between LLMs and
non-verbal communication, specifically focusing on gestures. The proposal sets
out a plan to examine the proficiency of LLMs in deciphering both explicit and
implicit non-verbal cues within textual prompts and their ability to associate
these gestures with various contextual factors. The research proposes to test
established psycholinguistic study designs to construct a comprehensive dataset
that pairs textual prompts with detailed gesture descriptions, encompassing
diverse regional variations, and semantic labels. To assess LLMs' comprehension
of gestures, experiments are planned, evaluating their ability to simulate
human behaviour in order to replicate psycholinguistic experiments. These
experiments consider cultural dimensions and measure the agreement between
LLM-identified gestures and the dataset, shedding light on the models'
contextual interpretation of non-verbal cues (e.g. gestures).
- Abstract(参考訳): 大規模言語モデル(llm)の台頭は、単なるテキスト生成を超えた様々な分野に影響を与えてきた。
本提案は,LLMと非言語コミュニケーションの相互作用について,特にジェスチャーに着目して検討することを目的としている。
本提案では,テキストプロンプト内における明示的および暗黙的な非言語的手がかりの解読におけるLLMの習熟度と,これらのジェスチャーを様々な文脈要因に関連付ける能力について検討する。
本研究は,テキストプロンプトと詳細なジェスチャ記述を組み合わせ,多種多様な地域変動を包含する総合的なデータセットを構築するための,確立された心理言語学研究設計をテストすることを目的とする。
LLMのジェスチャー理解を評価するために、精神言語実験を再現するために人間の行動をシミュレートする能力を評価する実験が計画されている。
これらの実験は文化的次元を考慮し、llmで識別されたジェスチャーとデータセットの一致を計測し、モデルの非言語的な手がかり(例えばジェスチャー)の文脈解釈に光を当てる。
関連論文リスト
- From Word Vectors to Multimodal Embeddings: Techniques, Applications, and Future Directions For Large Language Models [17.04716417556556]
本稿では,分布仮説や文脈的類似性といった基礎概念を概観する。
本稿では, ELMo, BERT, GPTなどのモデルにおいて, 静的な埋め込みと文脈的埋め込みの両方について検討する。
議論は文章や文書の埋め込みにまで拡張され、集約メソッドや生成トピックモデルをカバーする。
モデル圧縮、解釈可能性、数値エンコーディング、バイアス緩和といった高度なトピックを分析し、技術的な課題と倫理的意味の両方に対処する。
論文 参考訳(メタデータ) (2024-11-06T15:40:02Z) - Investigating Expert-in-the-Loop LLM Discourse Patterns for Ancient Intertextual Analysis [0.0]
この研究は、大きな言語モデルがテキスト間の直接引用、暗示、エコーを検出することを実証している。
このモデルは、長いクエリパスと、偽のテキスト間の依存を含めることに苦労する。
提案するプリンシパル・イン・ザ・ループ手法は、テキスト間研究にスケーラブルなアプローチを提供する。
論文 参考訳(メタデータ) (2024-09-03T13:23:11Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Think from Words(TFW): Initiating Human-Like Cognition in Large Language
Models Through Think from Words for Japanese Text-level Classification [0.0]
TFW(Sink from Words)は、単語レベルで理解プロセスを開始し、テキスト全体を包含するように拡張する。
単語レベル情報付きTFW(TFW Extra)は、単語レベルデータを追加して理解を深める。
LLMのテキスト理解における単語レベルの情報型の影響について検討した。
論文 参考訳(メタデータ) (2023-12-06T12:34:46Z) - AI Text-to-Behavior: A Study In Steerability [0.0]
大規模言語モデル(LLM)の操舵性に関する研究
我々は,OCEANと呼ばれる行動心理学の枠組みを用いて,モデルが調整されたプロンプトに対する応答性を定量的に測定した。
以上の結果から,GPTの汎用性と,ニュアンス命令の識別と適応能力が評価された。
論文 参考訳(メタデータ) (2023-08-07T18:14:24Z) - BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。
テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文 参考訳(メタデータ) (2023-06-02T12:54:38Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Natural Language Decompositions of Implicit Content Enable Better Text
Representations [56.85319224208865]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - Shaking Syntactic Trees on the Sesame Street: Multilingual Probing with
Controllable Perturbations [2.041108289731398]
近年の研究では、テキスト摂動の概念を中心とした新しい実験分野が採用されている。
近年の研究では、シャッフル語順がトランスフォーマーベースの言語モデルの下流性能にほとんど影響しないことが明らかになっている。
論文 参考訳(メタデータ) (2021-09-28T20:15:29Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。