論文の概要: On Generalization across Measurement Systems: LLMs Entail More Test-Time Compute for Underrepresented Cultures
- arxiv url: http://arxiv.org/abs/2506.02591v1
- Date: Tue, 03 Jun 2025 08:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.473954
- Title: On Generalization across Measurement Systems: LLMs Entail More Test-Time Compute for Underrepresented Cultures
- Title(参考訳): 計測システム間の一般化について:LLMは、表現不足の文化により多くのテスト時間計算を必要とする
- Authors: Minh Duc Bui, Kyung Eun Park, Goran Glavaš, Fabian David Schmidt, Katharina von der Wense,
- Abstract要約: 大規模言語モデル(LLM)は,手元の計測システムによらず,正確な情報を提供する必要がある。
以上の結果から, LLMは測定システムに既定で, 主にデータに使用されることがわかった。
異なる測定系における性能の不安定さとばらつきを観察する。
- 参考スコア(独自算出の注目度): 2.365116842280503
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Measurement systems (e.g., currencies) differ across cultures, but the conversions between them are well defined so that humans can state facts using any measurement system of their choice. Being available to users from diverse cultural backgrounds, large language models (LLMs) should also be able to provide accurate information irrespective of the measurement system at hand. Using newly compiled datasets we test if this is the case for seven open-source LLMs, addressing three key research questions: (RQ1) What is the default system used by LLMs for each type of measurement? (RQ2) Do LLMs' answers and their accuracy vary across different measurement systems? (RQ3) Can LLMs mitigate potential challenges w.r.t. underrepresented systems via reasoning? Our findings show that LLMs default to the measurement system predominantly used in the data. Additionally, we observe considerable instability and variance in performance across different measurement systems. While this instability can in part be mitigated by employing reasoning methods such as chain-of-thought (CoT), this implies longer responses and thereby significantly increases test-time compute (and inference costs), marginalizing users from cultural backgrounds that use underrepresented measurement systems.
- Abstract(参考訳): 測定システム(例えば通貨)は文化によって異なるが、それらの間の変換はよく定義されており、人間が自分の選択した測定システムを使って事実を表現できる。
多様な文化的背景を持つユーザが利用できるため、大きな言語モデル(LLM)は、手元にある測定システムに関係なく正確な情報を提供することもできる。
新たにコンパイルされたデータセットを使用して、これが7つのオープンソースLCMのケースかどうかを検証し、3つの重要な研究課題に対処する。
(RQ2)
LLMの解答とその精度は、異なる測定システムによって異なるか?
(RQ3)
LLMは推論を通して、未表現のシステムにおいて潜在的な課題を軽減することができるか?
以上の結果から, LLMは測定システムに既定で, 主にデータに使用されることがわかった。
さらに,異なる測定系における性能の不安定さとばらつきを観察する。
この不安定性は、チェーン・オブ・シント(CoT)のような推論手法を用いることで緩和することができるが、これは長い応答を意味し、結果としてテスト時間計算(および推論コスト)を大幅に増加させ、過度に表現されていない測定システムを使用する文化的背景からユーザを疎外させる。
関連論文リスト
- Gaps Between Research and Practice When Measuring Representational Harms Caused by LLM-Based Systems [88.35461485731162]
本研究は,実践者が表現障害を測定するために,公開されている器具を効果的に使用するのを防ぐための4種類の課題を同定する。
我々のゴールは、実践者のニーズに適した表現的害を測定するための機器の開発を進めることである。
論文 参考訳(メタデータ) (2024-11-23T22:13:38Z) - Are Large Language Models Chameleons? An Attempt to Simulate Social Surveys [1.5727456947901746]
大規模言語モデル(LLM)が主観的な質問に答えるよう求められたシミュレーションを数百万回実施した。
欧州社会調査(ESS)データと異なるLDM応答の比較は、プロンプトがバイアスや変動性に与える影響が基本であることを示唆している。
論文 参考訳(メタデータ) (2024-05-29T17:54:22Z) - Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。
これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。
モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems [76.69936664916061]
LM呼び出し回数がVotteとFilter-Voteのパフォーマンスに与える影響について検討する。
意外なことに、複数の言語タスクにおいて、VoteとFilter-Voteの両方のパフォーマンスは、まず増大するが、LM呼び出しの回数の関数として減少する可能性がある。
論文 参考訳(メタデータ) (2024-03-04T19:12:48Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Large Language Model (LLM) Bias Index -- LLMBI [0.0]
LLMBI(Large Language Model Bias Index)は、大規模言語モデル(LLM)に固有のバイアスを定量化し、対処するための先駆的なアプローチである。
年齢,性別,人種的偏見に限らず,多次元の偏見を取り入れた複合スコアリングシステムを用いたLLMBIの定式化を行った。
OpenAIのAPIからの応答を用いた実証分析では,バイアス検出の代表的な方法として,高度な感情分析を採用している。
論文 参考訳(メタデータ) (2023-12-22T15:38:13Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。