論文の概要: SS-Bench: A Benchmark for Social Story Generation and Evaluation
- arxiv url: http://arxiv.org/abs/2406.15695v1
- Date: Sat, 22 Jun 2024 00:14:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 21:04:37.150207
- Title: SS-Bench: A Benchmark for Social Story Generation and Evaluation
- Title(参考訳): SS-Bench: ソーシャルストーリーの生成と評価のためのベンチマーク
- Authors: Yi Feng, Mingyang Song, Jiaqi Wang, Mao Zheng, Liping Jing, Jian Yu,
- Abstract要約: 自閉症スペクトラム障害(ASD)を持つ子供たちは、しばしば社会的状況を誤解し、日々のルーチンに参加するのに苦労する。
ソーシャルストーリーは創造に費やされ、しばしば多様性とタイムラインに制限される。
ソーシャルストーリーを生成し評価するためのtextbfSocial textbfStory textbfBenchmark である textbfSS-Bench を提案する。
- 参考スコア(独自算出の注目度): 53.39177041545863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Children with Autism Spectrum Disorder (ASD) often misunderstand social situations and struggle to participate in daily routines. Psychology experts write Social Stories under strict constraints of structural clarity, descriptive orientation, and situational safety to enhance their abilities in these regimes. However, Social Stories are costly in creation and often limited in diversity and timeliness. As Large Language Models (LLMs) become increasingly powerful, there is a growing need for more automated, affordable, and accessible methods to generate Social Stories in real-time with broad coverage. Adapting LLMs to meet the unique and strict constraints of Social Stories is a challenging issue. To this end, we propose \textbf{SS-Bench}, a \textbf{S}ocial \textbf{S}tory \textbf{Bench}mark for generating and evaluating Social Stories. Specifically, we develop a constraint-driven strategy named \textbf{\textsc{StarSow}} to hierarchically prompt LLMs to generate Social Stories and build a benchmark, which has been validated through experiments to fine-tune smaller models for generating qualified Social Stories. Additionally, we introduce \textbf{Quality Assessment Criteria}, employed in human and GPT evaluations, to verify the effectiveness of the generated stories. We hope this work benefits the autism community and catalyzes future research focusing on particular groups.
- Abstract(参考訳): 自閉症スペクトラム障害(ASD)を持つ子供たちは、しばしば社会的状況を誤解し、日々のルーチンに参加するのに苦労する。
心理学の専門家は、これらの体制における能力を高めるために、構造的明瞭さ、記述的指向、状況的安全性の厳格な制約の下で社会ストーリーを書く。
しかし、ソーシャルストーリーは作成に費用がかかり、しばしば多様性やタイムラインに制限される。
大規模言語モデル(LLMs)がますます強力になるにつれて、より自動化され、手頃な価格で、アクセスしやすい方法で、幅広い範囲でリアルタイムでソーシャルストーリーを生成する必要性が高まっています。
ソーシャルストーリーのユニークで厳格な制約を満たすためにLLMを適用することは、難しい問題です。
この目的のために,ソーシャルストーリーの生成と評価を行うために,textbf{SS-Bench}, a \textbf{S}ocial \textbf{S}tory \textbf{Bench}markを提案する。
具体的には,社会的ストーリの生成とベンチマーク作成をLLMに階層的に促すための制約駆動型戦略である‘textbf{\textsc{StarSow}} を開発した。
また、人間とGPTの評価に使用される「textbf{Quality Assessment Criteria」を導入し、生成したストーリーの有効性を検証する。
我々は、この研究が自閉症コミュニティに恩恵を与え、特定のグループに焦点を当てた将来の研究を促進することを願っている。
関連論文リスト
- Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - Agentic Society: Merging skeleton from real world and texture from Large Language Model [4.740886789811429]
本稿では,人口統計データと大規模言語モデルを利用して仮想人口を生成する新しい枠組みについて検討する。
本手法は,社会科学実験において,多様な人間の行動のシミュレーションに不可欠な多様性のあるペルソナを生産することを示す。
しかし, 評価結果から, 現在のLSMの能力に限界があるため, 統計的真理性の弱い兆候しか得られないことが示唆された。
論文 参考訳(メタデータ) (2024-09-02T08:28:19Z) - Open Artificial Knowledge [3.187724439601991]
我々は5億以上のトークンからなる大規模リソースであるOpen Artificial Knowledge (OAK)データセットを紹介した。
OAKデータセットは、より有能で整合した言語モデルの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-07-19T15:01:24Z) - Evaluating, Understanding, and Improving Constrained Text Generation for Large Language Models [49.74036826946397]
本研究では,大言語モデル(LLM)の制約付きテキスト生成について検討する。
本研究は主に,制約を語彙型,構造型,関係型に分類するオープンソース LLM に重点を置いている。
その結果、LLMの能力と不足を照らし、制約を取り入れ、制約付きテキスト生成における将来の発展に対する洞察を提供する。
論文 参考訳(メタデータ) (2023-10-25T03:58:49Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Question Answering as Programming for Solving Time-Sensitive Questions [84.07553016489769]
質問応答は、世界に関する知識の獲得に関わるため、人間の日常生活において重要な役割を担っている。
近年,Large Language Models (LLMs) は疑問に答える上で顕著な知性を示している。
これはLLMが表面レベルのテキストセマンティクスに基づいて厳密な推論を行うことができないためである。
我々は、$textbfQ$uestion $textbfA$rogrogeringタスクを再設定する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:35:16Z) - Tractable Control for Autoregressive Language Generation [82.79160918147852]
本稿では,自動回帰テキスト生成モデルに語彙制約を課すために,トラクタブル確率モデル(TPM)を提案する。
本稿では,GeLaToが制約付きテキスト生成のための挑戦的ベンチマークにおいて,最先端のパフォーマンスを実現することを示す。
我々の研究は、大きな言語モデルを制御するための新しい道を開き、さらに表現力のあるTPMの開発を動機付けます。
論文 参考訳(メタデータ) (2023-04-15T00:19:44Z) - SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement
Learning Agents [23.719833581321033]
人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。
人間レベルのAIを目指すためには、より広範な社会的スキルが必要である、と私たちは主張する。
DRLエージェントの社会的スキル獲得を評価するためのベンチマークであるSocialAIを提案する。
論文 参考訳(メタデータ) (2021-07-02T10:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。