論文の概要: AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output
- arxiv url: http://arxiv.org/abs/2506.02372v1
- Date: Tue, 03 Jun 2025 02:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.199061
- Title: AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output
- Title(参考訳): AnswerCarefully:日本のLLM出力の安全性向上のためのデータセット
- Authors: Hisami Suzuki, Satoru Katsumata, Takashi Kodama, Tetsuro Takahashi, Kouta Nakayama, Satoshi Sekine,
- Abstract要約: 本稿では,日本のLLM出力の安全性と適切性を促進するデータセットAnswerCarefullyを提案する。
データセットは1,800対の質問と参照された回答で構成されており、回答には特別な注意が必要である。
このデータセットを用いて日本語LLMを微調整することで,一般応答の有用性を損なうことなく,出力安全性が向上したことを示す。
- 参考スコア(独自算出の注目度): 5.89796352937863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we present AnswerCarefully, a dataset for promoting the safety and appropriateness of Japanese LLM outputs. The dataset consists of 1,800 pairs of questions and reference answers, where the questions require special attention in answering. It covers a wide range of risk categories established in prior English-language datasets, but the data samples are original in that they are manually created to reflect the socio-cultural context of LLM usage in Japan. We show that using this dataset for instruction to fine-tune a Japanese LLM led to improved output safety without compromising the utility of general responses. We also report the results of a safety evaluation of 12 Japanese LLMs using this dataset as a benchmark. Finally, we describe the latest update on the dataset which provides English translations and annotations of the questions, aimed at facilitating the derivation of similar datasets in different languages and regions.
- Abstract(参考訳): 本稿では,日本のLLM出力の安全性と適切性を促進するデータセットAnswerCarefullyを提案する。
データセットは1,800対の質問と参照された回答で構成されており、回答には特別な注意が必要である。
従来の英語データセットで確立された幅広いリスクカテゴリを網羅するが、これらのデータサンプルは日本のLCM利用の社会的・文化的文脈を反映して手作業で作成されるという点で独創的である。
このデータセットを用いて日本語LLMを微調整することで,一般応答の有用性を損なうことなく,出力安全性が向上したことを示す。
また,本データセットをベンチマークとして,12種類のLLMの安全性評価結果について報告する。
最後に、さまざまな言語や地域で類似したデータセットの導出を容易にすることを目的とした、質問の英語翻訳とアノテーションを提供するデータセットの最新アップデートについて説明する。
関連論文リスト
- TaP: A Taxonomy-Guided Framework for Automated and Scalable Preference Data Generation [50.319535974012]
大規模言語モデル(LLM)の教師付き微調整と選好微調整を行うには、高品質なデータセットが必要である。
教師付きおよび好みの微調整のためのほとんどのデータセットは英語で提供されている。
本稿では、アンダーラインtextbfTaxonomy-Guided underlinetextbfPreference Data Generationフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-30T15:45:28Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Text-to-TrajVis: Enabling Trajectory Data Visualizations from Natural Language Questions [7.042074641736026]
本稿では,自然言語質問をトラジェクティブなデータ視覚化に変換することを目的としたText-to-TrajVisタスクを提案する。
これは新しいタスクなので、現在、コミュニティで利用可能な関連するデータセットはありません。
論文 参考訳(メタデータ) (2025-04-23T02:15:52Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety [27.843894102000608]
我々は、大規模言語モデル(LLM)の安全性を評価し改善するためのオープンデータセットの最初の体系的なレビューを行う。
完全な合成データセットへのトレンドや、非英語および自然主義データセットの明確な欠如など、データセットカバレッジのギャップといったトレンドを強調します。
当社のコントリビューションは,LLM安全性のためのオープンデータセットのリビングカタログであるSafetyPrompts.comに基づいています。
論文 参考訳(メタデータ) (2024-04-08T10:57:25Z) - Large Language Models for Data Annotation and Synthesis: A Survey [49.8318827245266]
本調査は,データアノテーションと合成のための大規模言語モデルの有用性に焦点を当てる。
LLMがアノテートできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションと合成にLLMを使用する際の主な課題と制限に関する詳細な議論を含む。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - From Base to Conversational: Japanese Instruction Dataset and Tuning
Large Language Models [6.520584613661788]
既存のデータセットを拡張・フィルタリングすることで,日本語の命令データセットを構築する。
日本語と英語の両方の既存モデルでローランド適応(LoRA)チューニングを行う。
論文 参考訳(メタデータ) (2023-09-07T00:14:37Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - llm-japanese-dataset v0: Construction of Japanese Chat Dataset for Large
Language Models and its Methodology [4.396516562723691]
本研究では,約840万レコードからなる大規模言語モデル(LLM)をチューニングするための日本語チャットデータセットを構築した。
その結果,このデータセットはLLMにとって有益である可能性が示唆された。
しかし、英語以外の言語でLLMを構築することの難しさも明らかにした。
論文 参考訳(メタデータ) (2023-05-22T04:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。