論文の概要: Do LLMs Implicitly Determine the Suitable Text Difficulty for Users?
- arxiv url: http://arxiv.org/abs/2402.14453v1
- Date: Thu, 22 Feb 2024 11:16:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:34:31.620024
- Title: Do LLMs Implicitly Determine the Suitable Text Difficulty for Users?
- Title(参考訳): LLMはユーザにとって不適切なテキストを決定するのか?
- Authors: Seiji Gobara, Hidetaka Kamigaito and Taro Watanabe
- Abstract要約: 大規模言語モデルでは,ユーザ入力と生成されたテキスト間のテキストの難易度を暗黙的に処理できることを示す。
一部のLLMは、テキストの難易度や命令調整の重要性に人間を超えることができる。
- 参考スコア(独自算出の注目度): 29.6000895693808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Education that suits the individual learning level is necessary to improve
students' understanding. The first step in achieving this purpose by using
large language models (LLMs) is to adjust the textual difficulty of the
response to students. This work analyzes how LLMs can implicitly adjust text
difficulty between user input and its generated text. To conduct the
experiments, we created a new dataset from Stack-Overflow to explore the
performance of question-answering-based conversation. Experimental results on
the Stack-Overflow dataset and the TSCC dataset, including multi-turn
conversation show that LLMs can implicitly handle text difficulty between user
input and its generated response. We also observed that some LLMs can surpass
humans in handling text difficulty and the importance of instruction-tuning.
- Abstract(参考訳): 個々の学習レベルに適合する教育は、生徒の理解を改善するために必要である。
大規模言語モデル(llm)を用いてこの目的を達成する第一歩は、学生に対する反応のテキストの難易度を調整することである。
本研究は、ユーザ入力とその生成テキスト間のテキスト難易度を、llmが暗黙的に調整する方法について分析する。
実験を行うために、stack-overflowから新しいデータセットを作成し、質問応答ベースの会話のパフォーマンスを調べました。
マルチターン会話を含むStack-OverflowデータセットとTSCCデータセットの実験結果は、LLMがユーザ入力と生成されたレスポンスの間のテキストの難しさを暗黙的に処理可能であることを示している。
また,テキストの難易度や指導指導の重要性を人間が超えるものも見いだした。
関連論文リスト
- Which LLMs are Difficult to Detect? A Detailed Analysis of Potential Factors Contributing to Difficulties in LLM Text Detection [43.66875548677324]
我々は、不均衡なデータセットで分類器を訓練するためにLibAUCライブラリを使用してAIGテキスト分類器を訓練する。
We results in the Deepfake Text dataset shows that AIG-text detection are various across domain。
学生エッセイに焦点をあてたIvy Pandaデータセットでは, LLMのOpenAIファミリは, 分類者が人文と区別することが極めて困難であった。
論文 参考訳(メタデータ) (2024-10-18T21:42:37Z) - CUTE: Measuring LLMs' Understanding of Their Tokens [54.70665106141121]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示す。
LLMはどの程度の間、正書法情報を学ぶことができるのか?
LLMの正書法知識をテストするために設計されたタスクの集合を特徴とする新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-23T18:27:03Z) - Beyond Flesch-Kincaid: Prompt-based Metrics Improve Difficulty Classification of Educational Texts [20.933548500888595]
対話型教育のような教育アプリケーションに大規模言語モデル(LLM)を使用することは、ホットトピックである。
Flesch-Kincaid Reading Easeスコアのような、テキストの難易度に関する現在の静的指標は粗悪で不安定であることが知られている。
本稿では,テキストの難易度向上のための新しいPromptベースのメトリクスセットを紹介し,評価する。
論文 参考訳(メタデータ) (2024-05-15T16:22:16Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - Let the LLMs Talk: Simulating Human-to-Human Conversational QA via
Zero-Shot LLM-to-LLM Interactions [19.365615476223635]
対話型質問応答システムの目的は,ユーザとの対話によって情報を取得する対話型検索システムを作ることである。
既存の作業では、人間の注釈を使って質問者(学生)と回答者(教師)の役割を演じる。
教師と学生のインタラクションをシミュレーションするためにゼロショット学習者LLMを用いたシミュレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:38:02Z) - How You Prompt Matters! Even Task-Oriented Constraints in Instructions Affect LLM-Generated Text Detection [39.254432080406346]
タスク指向の制約 -- 命令に自然に含まれ、検出回避とは無関係な制約 -- でさえ、既存の強力な検出器は検出性能に大きなばらつきを持つ。
実験の結果,命令を複数回生成したり,命令を言い換えたりすることで,命令によって生成されたテキストの標準偏差(SD)が有意に大きい(SDは14.4F1スコアまで)ことがわかった。
論文 参考訳(メタデータ) (2023-11-14T18:32:52Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - Enhancing In-Context Learning with Answer Feedback for Multi-Span
Question Answering [9.158919909909146]
本稿では,LLMが望ましくない出力を通知するなど,ラベル付きデータを活用する新しい手法を提案する。
3つのマルチスパン質問応答データセットとキーフレーズ抽出データセットの実験により、我々の新しいプロンプト戦略はLLMの文脈内学習性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2023-06-07T15:20:24Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。