Fugu-MT 論文翻訳(概要): The language of prompting: What linguistic properties make a prompt successful?

論文の概要: The language of prompting: What linguistic properties make a prompt successful?

arxiv url: http://arxiv.org/abs/2311.01967v1
Date: Fri, 3 Nov 2023 15:03:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-06 13:45:29.096063
Title: The language of prompting: What linguistic properties make a prompt successful?
Title（参考訳）: プロンプトの言語: どんな言語特性が早急に成功するのか?
Authors: Alina Leidinger, Robert van Rooij, Ekaterina Shutova
Abstract要約: LLMは、多くのNLPタスクにおいて、印象的なゼロショットまたは少数ショットのパフォーマンスを達成するよう促すことができる。しかし、プロンプトの言語的特性がタスクのパフォーマンスとどのように関連しているかについての体系的な理解はいまだに欠けている。モーメント,テンション,アスペクト,モダリティなどの文法的性質と,同義語の使用による語彙・意味の変化について検討する。
参考スコア（独自算出の注目度）: 13.034603322224548
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The latest generation of LLMs can be prompted to achieve impressive zero-shot or few-shot performance in many NLP tasks. However, since performance is highly sensitive to the choice of prompts, considerable effort has been devoted to crowd-sourcing prompts or designing methods for prompt optimisation. Yet, we still lack a systematic understanding of how linguistic properties of prompts correlate with task performance. In this work, we investigate how LLMs of different sizes, pre-trained and instruction-tuned, perform on prompts that are semantically equivalent, but vary in linguistic structure. We investigate both grammatical properties such as mood, tense, aspect and modality, as well as lexico-semantic variation through the use of synonyms. Our findings contradict the common assumption that LLMs achieve optimal performance on lower perplexity prompts that reflect language use in pretraining or instruction-tuning data. Prompts transfer poorly between datasets or models, and performance cannot generally be explained by perplexity, word frequency, ambiguity or prompt length. Based on our results, we put forward a proposal for a more robust and comprehensive evaluation standard for prompting research.
Abstract（参考訳）: 最新のLLMは、多くのNLPタスクにおいて、印象的なゼロショットまたは少数ショットのパフォーマンスを達成するよう促すことができる。しかし、性能はプロンプトの選択に非常に敏感であるため、迅速な最適化のためのクラウドソーシングプロンプトや設計手法に多大な努力が注がれている。しかし、プロンプトの言語的特性がタスクのパフォーマンスとどのように相関するかについては、まだ体系的な理解が欠けている。本研究では,異なる大きさのLLMが意味論的に等価だが言語構造によって異なるプロンプトでどのように機能するかを検討する。モーメント,テンション,アスペクト,モダリティなどの文法的性質と,同義語の使用による語彙・意味の変化について検討する。本研究は,LLMが低難易度における最適性能を達成するという一般的な仮定と矛盾し,事前学習や指導訓練における言語使用を反映する。プロンプトはデータセットやモデル間ではあまり転送されず、パフォーマンスは一般にパープレキシティ、単語の頻度、あいまいさ、プロンプトの長さで説明できない。本研究の結果をもとに,より堅牢で包括的な評価基準の提案を行った。

関連論文リスト

Do LLMs Need to Think in One Language? Correlation between Latent Language and Task Performance [38.785363522684385]
本稿では,潜在言語と入出力言語との相違が下流タスク性能に与える影響について検討する。我々の作業は、複数の下流タスクにまたがる入力プロンプト言語を変化させ、潜在言語における一貫性とタスクパフォーマンスの相関を分析する。実験結果から,下流タスク性能の最適化には潜時言語での一貫性維持が必ずしも必要ではないことが示唆された。
論文参考訳（メタデータ） (2025-05-27T17:30:57Z)
Linguistic Blind Spots of Large Language Models [14.755831733659699]
言語アノテーションタスクにおける最近の大規模言語モデル(LLM)の性能について検討する。近年の LLM は言語クエリに対処する上で有効性が限られており,言語学的に複雑な入力に苦しむことが多い。この結果から,LLMの設計・開発における今後の進歩を示唆する知見が得られた。
論文参考訳（メタデータ） (2025-03-25T01:47:13Z)
Rolling the DICE on Idiomaticity: How LLMs Fail to Grasp Context [12.781022584125925]
我々は、LLMが文脈を効果的に利用して慣用的意味を曖昧にすることができるかどうかをテストするために設計された、新しい対照データセットを構築した。以上の結果から, LLMは周囲の状況に適応する必要がある場合, 慣用性の解決に失敗することが多いことが判明した。コードとデータセットを公開しています。
論文参考訳（メタデータ） (2024-10-21T14:47:37Z)
Unveiling the Lexical Sensitivity of LLMs: Combinatorial Optimization for Prompt Enhancement [11.363521189714504]
大規模言語モデル(LLM)は,タスク命令の語彙変化に対して過敏であることを示す。プロンプト語彙強調(COPLE)のためのブラックボックス組合せ最適化フレームワークを提案する。
論文参考訳（メタデータ） (2024-05-31T08:53:59Z)
Helping Language Models Learn More: Multi-dimensional Task Prompt for Few-shot Tuning [36.14688633670085]
本稿では,タスク関連オブジェクト,要約,タスク記述情報に基づく多次元タスクプロンプト学習手法MTPromptを提案する。提案するMTPromptは,適切なプロンプトを自動構築し,検索することで,いくつかのサンプル設定と5つの異なるデータセットに対して最適な結果が得られる。
論文参考訳（メタデータ） (2023-12-13T10:00:44Z)
AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。数学的推論とコモンセンス推論の実験を行う。
論文参考訳（メタデータ） (2023-11-22T17:24:21Z)
Is Prompt-Based Finetuning Always Better than Vanilla Finetuning? Insights from Cross-Lingual Language Understanding [0.30586855806896046]
本稿では, Prompt-based Finetuning の言語間機能を調べるために, ProFiT パイプラインを提案する。本研究は,言語間言語理解におけるアクシデントベースファインタニングの有効性と汎用性を明らかにするものである。
論文参考訳（メタデータ） (2023-07-15T20:33:33Z)
Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文参考訳（メタデータ） (2023-05-29T16:24:01Z)
OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文参考訳（メタデータ） (2023-05-24T10:08:04Z)
Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文参考訳（メタデータ） (2023-05-24T06:41:09Z)
Explaining Patterns in Data with Language Models via Interpretable Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。 iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。 fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文参考訳（メタデータ） (2022-10-04T18:32:14Z)
RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。 RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-05-25T07:50:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。