Fugu-MT 論文翻訳(概要): Exploring Robustness of LLMs to Sociodemographically-Conditioned Paraphrasing

論文の概要: Exploring Robustness of LLMs to Sociodemographically-Conditioned Paraphrasing

arxiv url: http://arxiv.org/abs/2501.08276v1
Date: Tue, 14 Jan 2025 17:50:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-15 17:02:04.561799
Title: Exploring Robustness of LLMs to Sociodemographically-Conditioned Paraphrasing
Title（参考訳）: ソシオドモグラフィーによるパラフレージングにおけるLDMのロバスト性の検討
Authors: Pulkit Arora, Akbar Karimi, Lucie Flek,
Abstract要約: 我々は、社会デミノグラフィーの次元にまたがる幅広いバリエーションを探求するために、より広いアプローチを取る。我々はSocialIQAデータセットを拡張し、ソシオデミノグラフィースタイルを条件とした多様なパラフレーズセットを作成する。人口統計学的パラフレーズが言語モデルの性能に大きく影響していることが判明した。
参考スコア（独自算出の注目度）: 7.312170216336085
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have shown impressive performance in various NLP tasks. However, there are concerns about their reliability in different domains of linguistic variations. Many works have proposed robustness evaluation measures for local adversarial attacks, but we need globally robust models unbiased to different language styles. We take a broader approach to explore a wider range of variations across sociodemographic dimensions to perform structured reliability tests on the reasoning capacity of language models. We extend the SocialIQA dataset to create diverse paraphrased sets conditioned on sociodemographic styles. The assessment aims to provide a deeper understanding of LLMs in (a) their capability of generating demographic paraphrases with engineered prompts and (b) their reasoning capabilities in real-world, complex language scenarios. We also explore measures such as perplexity, explainability, and ATOMIC performance of paraphrases for fine-grained reliability analysis of LLMs on these sets. We find that demographic-specific paraphrasing significantly impacts the performance of language models, indicating that the subtleties of language variations remain a significant challenge. The code and dataset will be made available for reproducibility and future research.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々なNLPタスクで顕著なパフォーマンスを示している。しかし、言語変化の異なる領域における信頼性に関する懸念がある。多くの研究が、局所的攻撃に対する堅牢性評価尺度を提案しているが、異なる言語スタイルに従わないグローバルな堅牢性モデルが必要である。我々は,言語モデルの推論能力に関する構造的信頼性試験を行うため,社会デミノグラフィーの次元にまたがる幅広いバリエーションを探索するために,より広いアプローチをとる。我々はSocialIQAデータセットを拡張し、ソシオデミノグラフィースタイルを条件とした多様なパラフレーズセットを作成する。評価は、LLMのより深い理解を提供することを目的としている。 (a)工学的な指示による人口動態のパラフレーズを生成する能力及び b) 実世界の複雑な言語シナリオにおける推論能力。また,これらの集合上でのLSMの微粒化信頼性解析のためのパラフレーズの難易度,説明可能性,ATOMIC性能などの指標についても検討する。人口統計学的パラフレーズは言語モデルの性能に大きく影響し,言語変異の微妙さが依然として大きな課題であることを示す。コードとデータセットは再現性と将来の研究のために利用可能になる。

関連論文リスト

LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation [1.2576388595811496]
本稿では,モデル性能推定における暗記の影響を低減する言語推論問題を生成するための枠組みを提案する。このフレームワークを言語推論のための挑戦的なベンチマークであるlingOLY-TOOの開発に適用する。
論文参考訳（メタデータ） (2025-03-04T19:57:47Z)
Sparse Auto-Encoder Interprets Linguistic Features in Large Language Models [40.12943080113246]
スパースオートエンコーダ(SAE)を用いた系統的・包括的因果調査を提案する。 6次元から幅広い言語的特徴を抽出する。本稿では,FRC(Feature Representation Confidence)とFIC(Feature Intervention Confidence)の2つの指標を紹介する。
論文参考訳（メタデータ） (2025-02-27T18:16:47Z)
Benchmarking Linguistic Diversity of Large Language Models [14.824871604671467]
本稿では,言語モデルによる人間の言語的豊かさの保全を検討することの重要性を強調する。言語多様性の観点からLLMを評価するための包括的枠組みを提案する。
論文参考訳（メタデータ） (2024-12-13T16:46:03Z)
Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文参考訳（メタデータ） (2024-10-01T04:20:14Z)
LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文参考訳（メタデータ） (2024-06-24T03:36:29Z)
A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [51.8203871494146]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。 LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文参考訳（メタデータ） (2024-05-17T17:47:39Z)
The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文参考訳（メタデータ） (2024-05-02T14:49:50Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
Improving Factuality and Reasoning in Language Models through Multiagent Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文参考訳（メタデータ） (2023-05-23T17:55:11Z)
A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文参考訳（メタデータ） (2023-03-31T17:28:46Z)
Competence-Based Analysis of Language Models [21.43498764977656]
CALM (Competence-based Analysis of Language Models) は、特定のタスクの文脈におけるLLM能力を調べるために設計された。我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。これらの介入を用いてCALMのケーススタディを行い、様々な語彙推論タスクにおけるLCM能力の分析と比較を行う。
論文参考訳（メタデータ） (2023-03-01T08:53:36Z)
Emergent Linguistic Structures in Neural Networks are Fragile [20.692540987792732]
大規模言語モデル (LLM) は自然言語処理タスクにおいて高い性能を示すと報告されている。言語表現の一貫性と堅牢性を評価するための枠組みを提案する。
論文参考訳（メタデータ） (2022-10-31T15:43:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。