論文の概要: Animate, or Inanimate, That is the Question for Large Language Models
- arxiv url: http://arxiv.org/abs/2408.06332v1
- Date: Mon, 12 Aug 2024 17:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 12:53:36.183830
- Title: Animate, or Inanimate, That is the Question for Large Language Models
- Title(参考訳): Animate, or inanimate, That is the Question for Large Language Models
- Authors: Leonardo Ranaldi, Giulia Pucci, Fabio Massimo Zanzotto,
- Abstract要約: 人間の認知の本質は、アニマシーの概念と深く絡み合っている。
本稿では,デジタルモデルが人間と同じような方法でアニメーションを処理できるか,という問いに答える。
我々は、アニメーション、不一致、通常、見知らぬコンテキストを用いて、異なるLSMを探索する。
その結果, LLMはテキストデータに基づいて主に訓練されているものの, 典型的なアニメートや不アニメートな実体に直面すると, 人間のように振る舞うことが判明した。
- 参考スコア(独自算出の注目度): 1.4474137122906168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The cognitive essence of humans is deeply intertwined with the concept of animacy, which plays an essential role in shaping their memory, vision, and multi-layered language understanding. Although animacy appears in language via nuanced constraints on verbs and adjectives, it is also learned and refined through extralinguistic information. Similarly, we assume that the LLMs' limited abilities to understand natural language when processing animacy are motivated by the fact that these models are trained exclusively on text. Hence, the question this paper aims to answer arises: can LLMs, in their digital wisdom, process animacy in a similar way to what humans would do? We then propose a systematic analysis via prompting approaches. In particular, we probe different LLMs by prompting them using animate, inanimate, usual, and stranger contexts. Results reveal that, although LLMs have been trained predominantly on textual data, they exhibit human-like behavior when faced with typical animate and inanimate entities in alignment with earlier studies. Hence, LLMs can adapt to understand unconventional situations by recognizing oddities as animated without needing to interface with unspoken cognitive triggers humans rely on to break down animations.
- Abstract(参考訳): 人間の認知の本質は、記憶、視覚、多層言語理解の形成において重要な役割を果たすアニマシーの概念と深く絡み合っている。
アニマシーは動詞や形容詞のニュアンス制約によって言語に現れるが、言語外情報を通じて学習され、洗練される。
同様に、LLMが自然言語を処理する能力に制限があることは、これらのモデルがテキストでのみ訓練されているという事実によって動機づけられていると仮定する。
LLMは、デジタルの知恵において、人間がするのと同じような方法で、アニマシーを処理できるか?
次に,提案手法による系統解析を提案する。
特に、アニメーション、不生、通常、見知らぬ文脈を用いて、異なるLLMを探索する。
その結果, LLMはテキストデータに基づいて主に訓練されているものの, 従来の研究と一致して, 典型的なアニメートや不生長の実体に直面すると, 人間の様の行動を示すことが明らかとなった。
したがって、LLMは、人間がアニメーションを分解するために頼っている無意味な認知的トリガーとインタフェースを必要とせずに、奇異をアニメーションとして認識することで、伝統的な状況を理解するために適応することができる。
関連論文リスト
- ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。
この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。
ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。
本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。
VoTはLLMの空間的推論能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z) - Large Language Models: The Need for Nuance in Current Debates and a
Pragmatic Perspective on Understanding [1.3654846342364308]
LLM(Large Language Models)は、文法的に正しい、流動的なテキストを生成する能力において、非並列である。
本論文は,LLM能力の批判において再発する3点を批判的に評価する。
LLMにおける現実の理解と意図の問題に関する実践的な視点を概説する。
論文 参考訳(メタデータ) (2023-10-30T15:51:04Z) - Real-time Animation Generation and Control on Rigged Models via Large
Language Models [50.034712575541434]
本稿では,自然言語入力を用いたリップモデル上でのリアルタイムアニメーション制御と生成のための新しい手法を提案する。
大規模言語モデル(LLM)をUnityに組み込んで構造化テキストを出力し、多種多様なリアルなアニメーションに解析する。
論文 参考訳(メタデータ) (2023-10-27T01:36:35Z) - When Language Models Fall in Love: Animacy Processing in Transformer
Language Models [38.79717627047192]
我々は,トランスフォーマー言語モデル (LM) が,アニマシーが典型的である実体を提示するとき,人間のように振る舞うことを示す。
また、愛のピーナッツのような非典型的なアニメーターの物語を提示しても、LMは適応することを示した。
我々は、LMがアニマシーについて学べる限られた信号にもかかわらず、それらが実際に英語で利用可能な関連する語彙的意味ニュアンスに敏感である、と結論付けた。
論文 参考訳(メタデータ) (2023-10-23T14:57:52Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - Tackling Vision Language Tasks Through Learning Inner Monologues [10.795616787372625]
本稿では,複雑な視覚言語問題を解くために,内部モノローグ多モード最適化(IMMO)を提案する。
IMMOは内的モノローグ過程をシミュレートする。
その結果、IMMOは推論能力と説明能力を高め、視覚モデルと言語モデルのより効果的な融合に寄与することが示唆された。
論文 参考訳(メタデータ) (2023-08-19T10:10:49Z) - Learning Audio-Driven Viseme Dynamics for 3D Face Animation [17.626644507523963]
入力音声からリアルな唇同期3Dアニメーションを生成できる,新しい音声駆動型顔アニメーション手法を提案する。
提案手法は,音声ビデオからビセメダイナミクスを学習し,アニメーターフレンドリーなビセメ曲線を生成し,多言語音声入力をサポートする。
論文 参考訳(メタデータ) (2023-01-15T09:55:46Z) - Language-Guided Face Animation by Recurrent StyleGAN-based Generator [87.56260982475564]
本研究では,静的顔画像のアニメーション化を目的とした,言語指導型顔画像の新しいタスクについて検討する。
本稿では,言語から一連の意味情報と動作情報を抽出し,学習済みのStyleGANに視覚情報と共に供給し,高品質なフレームを生成するための繰り返し動作生成手法を提案する。
論文 参考訳(メタデータ) (2022-08-11T02:57:30Z) - Living Machines: A study of atypical animacy [6.4220844657257725]
我々は19世紀の英語文に基づく非定型アニマシー検出のための最初のデータセットを作成する。
本手法は,言語モデリングにおける最近の革新,特に BERT の文脈化された単語埋め込みを基盤としている。
提案手法は,非典型的アニマシーのより正確なキャラクタリゼーションを提供する。
論文 参考訳(メタデータ) (2020-05-22T12:35:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。