論文の概要: Exploring Robustness of LLMs to Sociodemographically-Conditioned Paraphrasing
- arxiv url: http://arxiv.org/abs/2501.08276v1
- Date: Tue, 14 Jan 2025 17:50:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:25:34.345608
- Title: Exploring Robustness of LLMs to Sociodemographically-Conditioned Paraphrasing
- Title(参考訳): ソシオドモグラフィーによるパラフレージングにおけるLDMのロバスト性の検討
- Authors: Pulkit Arora, Akbar Karimi, Lucie Flek,
- Abstract要約: 我々は、社会デミノグラフィーの次元にまたがる幅広いバリエーションを探求するために、より広いアプローチを取る。
我々はSocialIQAデータセットを拡張し、ソシオデミノグラフィースタイルを条件とした多様なパラフレーズセットを作成する。
人口統計学的パラフレーズが言語モデルの性能に大きく影響していることが判明した。
- 参考スコア(独自算出の注目度): 7.312170216336085
- License:
- Abstract: Large Language Models (LLMs) have shown impressive performance in various NLP tasks. However, there are concerns about their reliability in different domains of linguistic variations. Many works have proposed robustness evaluation measures for local adversarial attacks, but we need globally robust models unbiased to different language styles. We take a broader approach to explore a wider range of variations across sociodemographic dimensions to perform structured reliability tests on the reasoning capacity of language models. We extend the SocialIQA dataset to create diverse paraphrased sets conditioned on sociodemographic styles. The assessment aims to provide a deeper understanding of LLMs in (a) their capability of generating demographic paraphrases with engineered prompts and (b) their reasoning capabilities in real-world, complex language scenarios. We also explore measures such as perplexity, explainability, and ATOMIC performance of paraphrases for fine-grained reliability analysis of LLMs on these sets. We find that demographic-specific paraphrasing significantly impacts the performance of language models, indicating that the subtleties of language variations remain a significant challenge. The code and dataset will be made available for reproducibility and future research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なNLPタスクで顕著なパフォーマンスを示している。
しかし、言語変化の異なる領域における信頼性に関する懸念がある。
多くの研究が、局所的攻撃に対する堅牢性評価尺度を提案しているが、異なる言語スタイルに従わないグローバルな堅牢性モデルが必要である。
我々は,言語モデルの推論能力に関する構造的信頼性試験を行うため,社会デミノグラフィーの次元にまたがる幅広いバリエーションを探索するために,より広いアプローチをとる。
我々はSocialIQAデータセットを拡張し、ソシオデミノグラフィースタイルを条件とした多様なパラフレーズセットを作成する。
評価は、LLMのより深い理解を提供することを目的としている。
(a)工学的な指示による人口動態のパラフレーズを生成する能力及び
b) 実世界の複雑な言語シナリオにおける推論能力。
また,これらの集合上でのLSMの微粒化信頼性解析のためのパラフレーズの難易度,説明可能性,ATOMIC性能などの指標についても検討する。
人口統計学的パラフレーズは言語モデルの性能に大きく影響し,言語変異の微妙さが依然として大きな課題であることを示す。
コードとデータセットは再現性と将来の研究のために利用可能になる。
関連論文リスト
- From Babbling to Fluency: Evaluating the Evolution of Language Models in Terms of Human Language Acquisition [6.617999710257379]
本稿では,LMの能力を評価するための3段階のフレームワークを提案する。
言語研究の手法を用いて, LMの生成能力を評価する。
論文 参考訳(メタデータ) (2024-10-17T06:31:49Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Evaluating Knowledge-based Cross-lingual Inconsistency in Large Language Models [16.942897938964638]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示している。
彼らの成功にもかかわらず、これらのモデルはしばしば異なる言語で同じ概念を処理する際に大きな矛盾を示す。
本研究は,LLMにおける言語間不整合の存在,これらの不整合が現れる特定の側面,LLMの言語間整合性と多言語機能との相関の3つの主要な疑問に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-01T15:11:37Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Emergent Linguistic Structures in Neural Networks are Fragile [20.692540987792732]
大規模言語モデル (LLM) は自然言語処理タスクにおいて高い性能を示すと報告されている。
言語表現の一貫性と堅牢性を評価するための枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-31T15:43:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。