論文の概要: ExpressivityArena: Can LLMs Express Information Implicitly?
- arxiv url: http://arxiv.org/abs/2411.08010v1
- Date: Tue, 12 Nov 2024 18:35:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:18:52.999209
- Title: ExpressivityArena: Can LLMs Express Information Implicitly?
- Title(参考訳): ExpressivityArena: LLMs Express Information は有効か?
- Authors: Joshua Tint, Som Sagar, Aditya Taparia, Kelly Raines, Bimsara Pathiraja, Caleb Liu, Ransalu Senanayake,
- Abstract要約: 大規模言語モデル(LLM)は特定の次元において顕著な性能を示した。
人間の効果的なコミュニケーションに使用する暗黙の言語的手がかりを表現できる能力は、いまだに不明である。
本稿では,LLMの暗黙的通信能力を測定するPythonライブラリであるExpressivityArenaについて述べる。
- 参考スコア(独自算出の注目度): 5.93216512770653
- License:
- Abstract: While Large Language Models (LLMs) have demonstrated remarkable performance in certain dimensions, their ability to express implicit language cues that human use for effective communication remains unclear. This paper presents ExpressivityArena, a Python library for measuring the implicit communication abilities of LLMs. We provide a comprehensive framework to evaluate expressivity of arbitrary LLMs and explore its practical implications. To this end, we refine the definition and measurements of ``expressivity,'' and use our framework in a set of small experiments. These experiments test LLMs in creative and logical tasks such as poetry, coding, and emotion-based responses. They are then evaluated by an automated grader, through ExpressivityArena, which we verify to be the most pragmatic for testing expressivity. Building on these experiments, we deepen our understanding of the expressivity of LLMs by assessing their ability to remain expressive in conversations. Our findings indicate that LLMs are capable of generating and understanding expressive content, however, with some limitations. These insights will inform the future development and deployment of expressive LLMs. We provide the code for ExpressivityArena alongside our paper.
- Abstract(参考訳): LLM(Large Language Models)は特定の次元において顕著な性能を示してきたが、人間の効果的なコミュニケーションに使用する暗黙の言語キューを表現する能力はいまだに不明である。
本稿では,LLMの暗黙的通信能力を測定するPythonライブラリであるExpressivityArenaについて述べる。
任意のLLMの表現性を評価し,その実践的意義を探求する包括的枠組みを提供する。
この目的のために、我々は「表現率」の定義と測定を洗練し、我々のフレームワークを一連の小さな実験で活用する。
これらの実験は、詩、コーディング、感情に基づく応答などの創造的で論理的なタスクにおいてLLMをテストする。
次に、ExpressivityArenaを通じて、自動グレーダによって評価され、表現性をテストする上で最も実用的であることを確認します。
これらの実験に基づいて,会話における表現力を維持する能力を評価することにより,LLMの表現力の理解を深める。
以上の結果から, LLMは表現的コンテンツを生成, 理解する能力を有することが示唆された。
これらの知見は、表現力のあるLLMの開発と展開を後押しする。
論文とともにExpressivityArenaのコードを提供しています。
関連論文リスト
- Evaluating Creativity and Deception in Large Language Models: A Simulation Framework for Multi-Agent Balderdash [6.65572931991284]
大きな言語モデル(LLM)は複雑なタスクや対話的な環境において印象的な機能を示している。
本稿では, LLMの創造性と論理的推論の両面を評価するために, Balderdash を利用したシミュレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:42:48Z) - Frozen Large Language Models Can Perceive Paralinguistic Aspects of Speech [29.847183061204436]
大きな言語モデル(LLM)は、ユーザーの感情や会話スタイルを考慮に入れられる。
本研究では,音声エンコーダを用いたエンドツーエンドシステムを提案する。
このトレーニングフレームワークにより,音声中の意味的情報とパラ言語的情報の両方をキャプチャするトークンをエンコーダが生成できることがわかった。
論文 参考訳(メタデータ) (2024-10-02T01:32:47Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - The language of prompting: What linguistic properties make a prompt
successful? [13.034603322224548]
LLMは、多くのNLPタスクにおいて、印象的なゼロショットまたは少数ショットのパフォーマンスを達成するよう促すことができる。
しかし、プロンプトの言語的特性がタスクのパフォーマンスとどのように関連しているかについての体系的な理解はいまだに欠けている。
モーメント,テンション,アスペクト,モダリティなどの文法的性質と,同義語の使用による語彙・意味の変化について検討する。
論文 参考訳(メタデータ) (2023-11-03T15:03:36Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - Large Language Models: The Need for Nuance in Current Debates and a
Pragmatic Perspective on Understanding [1.3654846342364308]
LLM(Large Language Models)は、文法的に正しい、流動的なテキストを生成する能力において、非並列である。
本論文は,LLM能力の批判において再発する3点を批判的に評価する。
LLMにおける現実の理解と意図の問題に関する実践的な視点を概説する。
論文 参考訳(メタデータ) (2023-10-30T15:51:04Z) - Customising General Large Language Models for Specialised Emotion
Recognition Tasks [24.822342337306363]
言語感情認識において,大規模言語モデル (LLM) がどのように機能するかを検討する。
具体的には、公開され、広く使われているLLM -- Chat General Language Modelを例示します。
我々は2つの異なるモーダル適応手法、すなわちディープ・プロンプト・チューニングと低ランク適応を用いてターゲットにカスタマイズする。
実験結果から, 適応型LLMは, 他の最先端の深層モデルよりも容易に優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-10-22T08:09:13Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - ChatABL: Abductive Learning via Natural Language Interaction with
ChatGPT [72.83383437501577]
大規模言語モデル(LLM)は、最近数学的な能力において大きな可能性を証明している。
LLMは現在、認識、言語理解、推論能力のブリッジングに困難を抱えている。
本稿では, LLMを帰納学習フレームワークに統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-21T16:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。