論文の概要: Designing large language model prompts to extract scores from messy text: A shared dataset and challenge
- arxiv url: http://arxiv.org/abs/2601.18271v1
- Date: Mon, 26 Jan 2026 08:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.746741
- Title: Designing large language model prompts to extract scores from messy text: A shared dataset and challenge
- Title(参考訳): 乱雑なテキストからスコアを抽出する大規模言語モデルの設計:共有データセットと課題
- Authors: Mike Thelwall,
- Abstract要約: 本稿では、1446の短いテキストの共有データセットを紹介し、それぞれがイギリスの1*から4*までの研究品質スコアを記述している。
また、有効なスコアを構成するものや、これらのテキストの正しいスコアの「金の標準」も記述されている。
課題は、Large Language Modelsがこれらのテキストからできるだけ正確にスコアを抽出するプロンプトを設計することである。
- 参考スコア(独自算出の注目度): 4.090143360215888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In some areas of computing, natural language processing and information science, progress is made by sharing datasets and challenging the community to design the best algorithm for an associated task. This article introduces a shared dataset of 1446 short texts, each of which describes a research quality score on the UK scale of 1* to 4*. This is a messy collection, with some texts not containing scores and others including invalid scores or strange formats. With this dataset there is also a description of what constitutes a valid score and a "gold standard" of the correct scores for these texts (including missing values). The challenge is to design a prompt for Large Language Models (LLMs) to extract the scores from these texts as accurately as possible. The format for the response should be a number and no other text so there are two aspects to the challenge: ensuring that the LLM returns only a number, and instructing it to deduce the correct number for the text. As part of this, the LLM prompt needs to explain when to return the missing value code, -1, instead of a number when the text does not clearly contain one. The article also provides an example of a simple prompt. The purpose of the challenge is twofold: to get an effective solution to this problem, and to increase understanding of prompt design and LLM capabilities for complex numerical tasks. The initial solution suggested has an accuracy of 72.6%, so the challenge is to beat this.
- Abstract(参考訳): 計算、自然言語処理、情報科学のいくつかの分野では、データセットを共有し、関連するタスクに最適なアルゴリズムを設計するようコミュニティに挑戦することで進歩している。
本稿では、1446の短いテキストの共有データセットを紹介し、それぞれがイギリスの1*から4*までの研究品質スコアを記述している。
これは散らかったコレクションで、スコアを含まないテキストや、不正なスコアや奇妙なフォーマットを含むテキストもある。
このデータセットでは、有効なスコアを構成するものや、これらのテキスト(欠落した値を含む)の正しいスコアの"金の標準"も記述されている。
課題は、LLM(Large Language Models)がこれらのテキストからできるだけ正確にスコアを抽出するプロンプトを設計することである。
応答の形式は数でなければならないが、他のテキストは存在しないので、この課題には2つの側面がある: LLMが数値だけを返すことを保証することと、テキストの正しい番号を推論するように指示すること。
これの一部として、LLMプロンプトは、テキストが明確に1を含まない場合、番号の代わりに、欠落した値コード、-1をいつ返すべきかを説明する必要がある。
この記事は単純なプロンプトの例も提供している。
この課題の目的は、この問題に対して効果的な解決策を得ることと、複雑な数値問題に対する迅速な設計とLLM能力の理解を深めることである。
提案された最初の解は精度72.6%なので、この問題に勝つことが課題である。
関連論文リスト
- Large Language Models in Numberland: A Quick Test of Their Numerical Reasoning Abilities [0.0]
ナンバーランド(Numberland)は、LSMをベースとしたエージェントの数値推論能力を評価するための100プロブレム試験である。
OpenAIのo1とo1-mini, Google Gemini, Microsoft Copilot, Anthropic Claudeの5つのLDMエージェントを評価した。
私たちは25の難しい問題に対してトップ24ソルバ(o1と73%の精度)をテストし、そのスコアは27%に低下し、ボトルネックとして検索を確認しました。
論文 参考訳(メタデータ) (2025-03-31T21:06:39Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - SiTSE: Sinhala Text Simplification Dataset and Evaluation [1.7806363928929385]
本稿では,Sinhala言語に対する人文レベルのテキスト単純化データセットを提案する。
我々は,テキスト単純化タスクを多言語言語モデルmT5とmBARTのゼロショットおよびゼロリソースシーケンス・ツー・シーケンス(seq-seq)タスクとしてモデル化する。
分析の結果,ITTL は以前提案したゼロリソース法よりもテキストの単純化に優れていた。
論文 参考訳(メタデータ) (2024-12-02T09:08:06Z) - HOLMES: Hyper-Relational Knowledge Graphs for Multi-hop Question Answering using LLMs [9.559336828884808]
大規模言語モデル(LLM)は、単純な(シングルホップ)質問に答えるには適しています。
質問の複雑さが増すにつれて、LLMの性能は低下する。
最近の手法では、構造化知識三重項を原文に組み込むことで、この負担を軽減しようとしている。
本稿では,知識グラフ(KG)を用いてコンテキスト認識し,クエリ関連情報を含むように蒸留する手法を提案する。
論文 参考訳(メタデータ) (2024-06-10T05:22:49Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - Do LLMs Implicitly Determine the Suitable Text Difficulty for Users? [29.6000895693808]
大規模言語モデルでは,ユーザ入力と生成されたテキスト間のテキストの難易度を暗黙的に処理できることを示す。
一部のLLMは、テキストの難易度や命令調整の重要性に人間を超えることができる。
論文 参考訳(メタデータ) (2024-02-22T11:16:23Z) - InfoLossQA: Characterizing and Recovering Information Loss in Text Simplification [60.10193972862099]
本研究は, 簡易化による情報損失を問合せ・問合せ形式で特徴づけ, 回復する枠組みを提案する。
QAペアは、読者がテキストの知識を深めるのに役立つように設計されている。
論文 参考訳(メタデータ) (2024-01-29T19:00:01Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - Red Dragon AI at TextGraphs 2021 Shared Task: Multi-Hop Inference
Explanation Regeneration by Matching Expert Ratings [0.5156484100374059]
今年、関連するステートメントを収集する問題について、Textgraphs Shared Taskを再フォーカスするため、WorldTreeデータセットは、各説明全体に対して「関連性」のステートメントを専門的に評価して拡張された。
我々のシステムは、共有タスクのリーダーボードで2位を獲得し、最初のステートメントの検索、関連性のスコアを予測するために訓練された言語モデル、そしてその結果のランキングをまとめる。
論文 参考訳(メタデータ) (2021-07-27T18:29:51Z) - TextHide: Tackling Data Privacy in Language Understanding Tasks [54.11691303032022]
TextHideは、トレーニングを遅くしたり、精度を下げることなく、プライバシー上のリスクを軽減する。
すべての参加者は、盗聴攻撃者がプライベートテキストデータを復元するのを防ぐために、簡単な暗号化ステップを追加する必要がある。
我々は、GLUEベンチマーク上でTextHideを評価し、TextHideが共有勾配や表現に対する攻撃を効果的に防御できることを示す。
論文 参考訳(メタデータ) (2020-10-12T22:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。