論文の概要: TACOMORE: Leveraging the Potential of LLMs in Corpus-based Discourse Analysis with Prompt Engineering
- arxiv url: http://arxiv.org/abs/2412.10139v1
- Date: Fri, 13 Dec 2024 13:41:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:03:12.925009
- Title: TACOMORE: Leveraging the Potential of LLMs in Corpus-based Discourse Analysis with Prompt Engineering
- Title(参考訳): TACOMORE:Prompt Engineeringを用いたコーパスベース談話分析におけるLLMの可能性の活用
- Authors: Bingru Li, Han Wang,
- Abstract要約: LLMを取り入れたコーパスベースの談話分析は、不満足なパフォーマンス、幻覚、そして不成功の問題によって妨げられていると論じられている。
提案手法であるTACOMOREは,この領域において効果的なプロンプトフレームワークとして機能することを目的としている。
我々は, GPT-4o, Gemini-1.5-Pro, Gemini-1.5.Flashの3つのLLM実験を行い, TACOMOREが3つの代表的な談話解析タスクにおいて, LLMの性能向上に役立つことを発見した。
- 参考スコア(独自算出の注目度): 4.422315636150272
- License:
- Abstract: The capacity of LLMs to carry out automated qualitative analysis has been questioned by corpus linguists, and it has been argued that corpus-based discourse analysis incorporating LLMs is hindered by issues of unsatisfying performance, hallucination, and irreproducibility. Our proposed method, TACOMORE, aims to address these concerns by serving as an effective prompting framework in this domain. The framework consists of four principles, i.e., Task, Context, Model and Reproducibility, and specifies five fundamental elements of a good prompt, i.e., Role Description, Task Definition, Task Procedures, Contextual Information and Output Format. We conduct experiments on three LLMs, i.e., GPT-4o, Gemini-1.5-Pro and Gemini-1.5.Flash, and find that TACOMORE helps improve LLM performance in three representative discourse analysis tasks, i.e., the analysis of keywords, collocates and concordances, based on an open corpus of COVID-19 research articles. Our findings show the efficacy of the proposed prompting framework TACOMORE in corpus-based discourse analysis in terms of Accuracy, Ethicality, Reasoning, and Reproducibility, and provide novel insights into the application and evaluation of LLMs in automated qualitative studies.
- Abstract(参考訳): コーパス言語学者は,LLMの自動定性的分析を行う能力について疑問視しており,LLMを取り入れたコーパスベースの談話分析は,不満足な性能,幻覚,不再現性といった問題によって妨げられていると論じている。
提案手法であるTACOMOREは,この領域において効果的なプロンプトフレームワークとして機能することを目的としている。
このフレームワークは、タスク、コンテキスト、モデル、再現性の4つの原則から構成され、適切なプロンプトの5つの基本的な要素、すなわちロール記述、タスク定義、タスク手順、コンテキスト情報、出力フォーマットを指定する。
我々は, GPT-4o, Gemini-1.5-Pro, Gemini-1.5.Flashの3つのLLMに対して実験を行い, TACOMOREが3つの代表的な談話解析タスク,すなわちキーワードの分析, コーパス, コンコータンスの分析において, オープンコーパスに基づいて, TACOMOREがLLMのパフォーマンスを向上させることを発見した。
本研究は, コーパスに基づく談話分析において, 精度, 倫理性, 推論, 再現性の観点から, TACOMOREが有効であることを示し, 自動定性的研究におけるLCMの適用と評価に関する新たな知見を提供する。
関連論文リスト
- DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Can Large Language Models Identify Authorship? [16.35265384114857]
大規模言語モデル(LLM)は、推論と問題解決の特別な能力を示している。
1) LLM はゼロショット・エンド・ツー・エンドのオーサシップ検証を効果的に行うことができるか?
2) LLM は,複数の候補作家(例えば,10,20)の著者を正確に帰属させることができるか?
論文 参考訳(メタデータ) (2024-03-13T03:22:02Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Which is better? Exploring Prompting Strategy For LLM-based Metrics [6.681126871165601]
本稿では,DSBA が提案する Prompting Large Language Models を Explainable Metrics 共有タスクとして記述する。
BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。
論文 参考訳(メタデータ) (2023-11-07T06:36:39Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - LMs: Understanding Code Syntax and Semantics for Code Analysis [25.508254718438636]
我々は,大規模言語モデル(LLM)の機能と,ソフトウェア工学におけるコード解析の限界を評価する。
GPT4, GPT3.5, StarCoder, CodeLlama-13b-インストラクトという,最先端の4つの基礎モデルを採用している。
論文 参考訳(メタデータ) (2023-05-20T08:43:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。