論文の概要: Vernacular? I Barely Know Her: Challenges with Style Control and Stereotyping
- arxiv url: http://arxiv.org/abs/2406.12679v1
- Date: Tue, 18 Jun 2024 14:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 18:28:51.129303
- Title: Vernacular? I Barely Know Her: Challenges with Style Control and Stereotyping
- Title(参考訳): めちゃめちゃ? スタイルコントロールとステレオタイピングの課題
- Authors: Ankit Aich, Tingting Liu, Salvatore Giorgi, Kelsey Isman, Lyle Ungar, Brenda Curtis,
- Abstract要約: 大規模言語モデル(LLM)は、教育や学習のアプリケーションでますます使われている。
GPT-3.5, GPT-4, GPT-4o, Llama-3, Mistral-instruct- 7Bの5種類の最先端モデルの評価を行った。
- 参考スコア(独自算出の注目度): 3.7159438811062966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly being used in educational and learning applications. Research has demonstrated that controlling for style, to fit the needs of the learner, fosters increased understanding, promotes inclusion, and helps with knowledge distillation. To understand the capabilities and limitations of contemporary LLMs in style control, we evaluated five state-of-the-art models: GPT-3.5, GPT-4, GPT-4o, Llama-3, and Mistral-instruct- 7B across two style control tasks. We observed significant inconsistencies in the first task, with model performances averaging between 5th and 8th grade reading levels for tasks intended for first-graders, and standard deviations up to 27.6. For our second task, we observed a statistically significant improvement in performance from 0.02 to 0.26. However, we find that even without stereotypes in reference texts, LLMs often generated culturally insensitive content during their tasks. We provide a thorough analysis and discussion of the results.
- Abstract(参考訳): 大規模言語モデル(LLM)は、教育や学習のアプリケーションでますます使われている。
研究は、学習者の要求に合ったスタイルの制御が、理解を高め、包摂性を高め、知識の蒸留を助けることを実証している。
GPT-3.5, GPT-4, GPT-4o, Llama-3, Mistral-instruct- 7Bの5種類の最先端モデルの評価を行った。
その結果,第1課題では,第5学年と第8学年の平均読解レベル,標準偏差が27.6。
第2の課題では,0.02から0.26までの統計的に有意な性能向上が見られた。
しかし、参照テキストにステレオタイプがなくても、LCMはタスク中に文化的に不感なコンテンツを生成することが多い。
結果の徹底的な分析と議論を行う。
関連論文リスト
- From Tarzan to Tolkien: Controlling the Language Proficiency Level of LLMs for Content Generation [10.009516150364371]
本稿では,この課題に対するいくつかの重要なアプローチの有効性を評価する。
この結果から,プロンプトベース戦略を用いた場合,GPT-4とオープンソースモデルの間に大きな性能差があることが判明した。
我々の最良のモデルであるCALM (CEFR-Aligned Language Model) は、GPT-4やその他の戦略の性能をほんの少しのコストで上回ります。
論文 参考訳(メタデータ) (2024-06-05T07:57:17Z) - Evaluating Students' Open-ended Written Responses with LLMs: Using the RAG Framework for GPT-3.5, GPT-4, Claude-3, and Mistral-Large [0.0]
学生からのオープンエンドの回答を評価することは、教育者にとって不可欠だが時間を要する課題である。
近年のLarge Language Models (LLMs) の発展は,教育者の時間的有効利用と徹底的な評価の必要性のバランスをとる上で有望な機会となる。
論文 参考訳(メタデータ) (2024-05-08T22:23:58Z) - How Can I Improve? Using GPT to Highlight the Desired and Undesired Parts of Open-ended Responses [11.809647985607935]
提案手法は,説明的フィードバックを提供する上で,望ましい,望ましくないコンポーネントを識別することに焦点を当てたシーケンスラベリング手法を提案する。
GPTモデルにより同定された強調された賞賛成分の品質を定量化するため,M-IoU(Modified Intersection over Union)スコアを導入した。
以上の結果から,(1)M-IoUスコアはシーケンス品質評価における人的判断と効果的に相関し,(2)GPT-3.5上での2ショットプロンプトは,努力に基づく評価と成果に基づく評価の認識において良好な性能を示し,(3)M-IoUスコアの0.6が最適微調整GPT-3.5モデルであった。
論文 参考訳(メタデータ) (2024-05-01T02:59:10Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - You Only Prompt Once: On the Capabilities of Prompt Learning on Large
Language Models to Tackle Toxic Content [13.600755614321493]
大規模言語モデル(LLM)を用いて,オンライン上での有害コンテンツ問題に対処する方法について検討する。
1)毒性分類,2)毒性スパン検出,3)非毒性化の3つの課題に焦点をあてる。
その結果, 素早い学習は, 毒性分類タスクにおいて, ベースラインに比べて約10%改善することがわかった。
論文 参考訳(メタデータ) (2023-08-10T14:14:13Z) - Metacognitive Prompting Improves Understanding in Large Language Models [12.112914393948415]
メタ認知プロンプト(MP)は,人間の内省的推論プロセスにインスパイアされた戦略である。
我々は10の自然言語理解(NLU)データセットにまたがる4つの先行するLarge Language Model(LLM)の実験を行った。
MPは、一般的なNLUタスクとドメイン固有のNLUタスクの両方において、既存のプロンプトメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2023-08-10T05:10:17Z) - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。
本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。
LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文 参考訳(メタデータ) (2023-06-26T10:26:33Z) - LIMA: Less Is More for Alignment [112.93890201395477]
65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。
LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。
制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
論文 参考訳(メタデータ) (2023-05-18T17:45:22Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Toward Efficient Language Model Pretraining and Downstream Adaptation
via Self-Evolution: A Case Study on SuperGLUE [203.65227947509933]
このレポートでは、スーパーGLUEのリーダーボードにJDExplore d-teamのVega v2を提出しました。
SuperGLUEは、広く使われている汎用言語理解評価(GLUE)ベンチマークよりも難易度が高く、8つの難しい言語理解タスクを含んでいる。
論文 参考訳(メタデータ) (2022-12-04T15:36:18Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。