このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240616となっている論文です。

PDF登録状況(公開日: 20240616)

TitleAuthorsAbstract論文公表日・翻訳日
# コンピュータ教育におけるデジタルアクセシビリティ教育 : インドにおける教育者の視点

Teaching Digital Accessibility in Computing Education: Views of Educators in India ( http://arxiv.org/abs/2407.15013v1 )

ライセンス: Link先を確認
Parthasarathy, Swaroop, (参考訳) 近年、障害のある人を含む、誰でもアクセスできるソフトウェアの開発において、政府と民間の双方から関心が高まっている。 しかし、コンピュータサイエンス(CS)のコースでは、将来のプロフェッショナルがそのようなアクセス性のあるソフトウェアを開発する準備をするべきであり、アクセシビリティに関連するトピックをほとんどカバーしていない。 欧米のコンピューティング教育にアクセシビリティーのトピックを取り入れることに関する文献が増えているが、特に多くのコンピューティングの学生とソフトウェア専門家を抱えるインドでは、この点についてはほとんど研究されていない。 本稿では, (A) アクセシビリティ教育におけるアクセシビリティと障壁を教える米国とスイスにおける調査の再現から得られた知見と, (B) インドにおけるCS学部におけるアクセシビリティとアクセシビリティ教育に関する質的分析について述べる。 CSの教員がアクセシビリティを教えることはごくわずかであり、彼らが知覚する最上位の障壁は同じである。 質的な分析により、インドの学部はアクセシビリティの概念と障害感作の訓練を必要とし、既存のCS教育研究や教育学への露出が必要であることが明らかにされた。 これらの知見を踏まえ、これらの課題に対処し、コンピュータ教育へのアクセシビリティーの統合を強化することを目的とした勧告を提示する。

In recent years, there has been rising interest from both governments and private industry in developing software that is accessible to all, including people with disabilities. However, the computer science (CS) courses that ought to prepare future professionals to develop such accessible software hardly cover topics related to accessibility. While there is growing literature on incorporating accessibility topics in computing education in the West, there is little work on this in the Global South, particularly in India, which has a large number of computing students and software professionals. In this replication report, we present (A) our findings from a replication of surveys used in the US and Switzerland on who teaches accessibility and barriers to teaching accessibility and (B) a qualitative analysis of perceptions of CS faculty in India about digital accessibility and teaching accessibility. Our study corroborates the findings of the earlier surveys: very few CS faculty teach accessibility, and the top barriers they perceive are the same. The qualitative analysis further reveals that the faculty in India need training on accessibility concepts and disabilities sensitization, and exposure to existing and ongoing CS education research and pedagogies. In light of these findings, we present recommendations aimed at addressing these challenges and enhancing the integration of accessibility into computing education.
翻訳日:2024-08-05 01:55:24 公開日:2024-06-16
# デジタル化と気候を再考する - 予測するな, 緩和する

Rethinking Digitalization and Climate: Don't Predict, Mitigate ( http://arxiv.org/abs/2407.15016v1 )

ライセンス: Link先を確認
Daria Gritsenko, Jon Aaen, Bent Flyvbjerg, (参考訳) デジタル化はグリーン・トランジションの中核的な要素である。 今日の焦点は、様々なライフサイクルアセスメントとベースライン・スケナリオ手法によるデジタル化の気候効果の定量化と予測である。 ここでは、これは間違いであると主張する。 予測のほとんどの試みは、3つの暗黙の仮定に基づいている。 a) デジタルカーボンフットプリントを定量化することができる。 (b)新時代の安定につながる根本的変化を伴う事業 (c) デジタル化への投資は、彼らのビジネスケースで説明されているコスト、時間枠、利益の中で提供されます。 デジタル化の文脈において各仮定を問題に分類し、デジタルカーボンフットプリントは本質的に予測不可能であると主張する。 予測できないとしても、それでも緩和できることを示すために、不確実性のある文献を構築します。 そこで我々は,予測から緩和まで,デジタルカーボンフットプリントの実践を再考する。

Digitalization is a core component of the green transition. Today's focus is on quantifying and pre-dicting the climate effects of digitalization through various life-cycle assessments and baseline sce-nario methodologies. Here we argue that this is a mistake. Most attempts at prediction are based on three implicit assumptions: (a) the digital carbon footprint can be quantified, (b) business-as-usual with episodic change leading to a new era of stability, and (c) investments in digitalization will be delivered within the cost, timeframe, and benefits described in their business cases. We problema-tize each assumption within the context of digitalization and argue that the digital carbon footprint is inherently unpredictable. We build on uncertainty literature to show that even if you cannot predict, you can still mitigate. On that basis, we propose to rethink practice on the digital carbon footprint from prediction to mitigation.
翻訳日:2024-08-05 01:55:24 公開日:2024-06-16
# LLMのFalse Consensus効果の調査

People will agree what I think: Investigating LLM's False Consensus Effect ( http://arxiv.org/abs/2407.12007v1 )

ライセンス: Link先を確認
Junhyuk Choi, Yeseon Hong, Bugeun Kim, (参考訳) 大規模言語モデル(LLM)は通信を必要とする対話型システムに広く採用されている。 モデルに対する誤った信念は、そのようなシステムのユーザビリティを損なう可能性があるため、LLMは人間が持っている認知バイアスを持ってはならない。 特に心理学者は、虚偽の信念を装い、円滑なコミュニケーションを阻害するFalse Consensus Effect(FCE)に焦点を当てた。 しかし、従来の研究では、LLMにおけるFCEの徹底的な検討が少なかったため、偏見、一般的な状況、変化の速さをより考慮する必要がある。 そこで本研究では,LLMにおけるFCE現象を深く研究する2つの研究を行った。 研究1では, LLM が FCE を持つかどうかを検討した。 研究2では、様々なプロンプトスタイルがFCEの実証にどのように影響するかを探る。 これらの結果,LLMにFCEがあることが判明した。 また、FCEの強度が通常の使用量よりも大きくなった場合の条件も規定する。

Large Language Models (LLMs) have recently been widely adopted on interactive systems requiring communications. As the false belief in a model can harm the usability of such systems, LLMs should not have cognitive biases that humans have. Especially psychologists focused on the False Consensus Effect (FCE), which can distract smooth communication by posing false beliefs. However, previous studies have less examined FCE in LLMs thoroughly, which needs more consideration of confounding biases, general situations, and prompt changes. Therefore, in this paper, we conduct two studies to deeply examine the FCE phenomenon in LLMs. In Study 1, we investigate whether LLMs have FCE. In Study 2, we explore how various prompting styles affect the demonstration of FCE. As a result of these studies, we identified that popular LLMs have FCE. Also, the result specifies the conditions when the strength of FCE becomes larger or smaller compared to normal usage.
翻訳日:2024-07-22 11:30:12 公開日:2024-06-16
# 多孔質媒質中の多相流のMgNO法

A MgNO Method for Multiphase Flow in Porous Media ( http://arxiv.org/abs/2407.02505v1 )

ライセンス: Link先を確認
Xinliang Liu, Xia Yang, Chen-Song Zhang, Lian Zhang, Li Zhao, (参考訳) 本研究では,多孔質媒質内の多相流シミュレーションにおけるマルチグリッド法に触発されたニューラルオペレーターアーキテクチャであるMgNOの応用について検討する。 アーキテクチャは、透過性や多孔質の不均一性など、さまざまな重要な要素を管理するために調整される。 本研究はMgNOを時間依存性の多孔質媒質流問題に拡張し, 多相流の本質的側面を予測するための精度を検証した。 さらに、この研究は、MgNOとFunier Neural Opeartor(FNO)の予測誤差の蓄積に関するパフォーマンスに関する詳細な比較を提供する。 この側面は、モデルの長期的な予測安定性と信頼性に関する貴重な洞察を提供する。 この研究はMgNOが多相流問題を効果的にシミュレートし、従来のシミュレーション手法と比較してかなりの時間を節約できることを示し、地球科学応用におけるデータ駆動手法の統合の進展を示している。

This research investigates the application of Multigrid Neural Operator (MgNO), a neural operator architecture inspired by multigrid methods, in the simulation for multiphase flow within porous media. The architecture is adjusted to manage a variety of crucial factors, such as permeability and porosity heterogeneity. The study extendes MgNO to time-dependent porous media flow problems and validate its accuracy in predicting essential aspects of multiphase flows. Furthermore, the research provides a detailed comparison between MgNO and Fourier Neural Opeartor (FNO), which is one of the most popular neural operator methods, on their performance regarding prediction error accumulation over time. This aspect provides valuable insights into the models' long-term predictive stability and reliability. The study demonstrates MgNO's capability to effectively simulate multiphase flow problems, offering considerable time savings compared to traditional simulation methods, marking an advancement in integrating data-driven methodologies in geoscience applications.
翻訳日:2024-07-07 13:24:39 公開日:2024-06-16
# WundtGPT:大きな言語モデルを作り、共感的で積極的な心理学者になる

WundtGPT: Shaping Large Language Models To Be An Empathetic, Proactive Psychologist ( http://arxiv.org/abs/2406.15474v1 )

ライセンス: Link先を確認
Chenyu Ren, Yazhou Zhang, Daihai He, Jing Qin, (参考訳) 大規模言語モデル (LLM) は医療領域で激化しており、その勢いはメンタルヘルス領域へと引き継がれ、メンタルヘルス LLM の出現はほとんどない。 このようなメンタルヘルスのLLMは、心理的カウンセリングのための合理的な提案を提供することができるが、LLMを通して、真正かつ効果的な医師と患者との関係(DPR)をいかに発展させるかは、依然として重要な問題である。 このギャップを埋めるために、我々はDPRを2つの重要な属性、すなわち心理学者の共感と積極的指導に分解する。 そこで我々は,心理学者と患者間の指導と実際の会話を微調整して得られた共感的・積極的精神保健大言語モデルであるWundtGPTを提案する。 精神科医の診断を支援し、対面コミュニケーションに消極的な患者が自分の心理状態を理解するのを助けるように設計されている。 その特徴は、患者に症状の詳細を案内する目的の質問を提示するだけでなく、温かい感情的安心を提供するという点にある。 特に、WundtGPTは、LLMの質問や診断を行う包括的なプロンプトに、質問の収集、精神診断の連鎖、共感の制約を組み込んでいる。 さらに、WundtGPTは、認知的共感と感情的共感という2つの主要な要因を含む共感的メンタルヘルス専門家との整合を促進する報酬モデルを提案する。 提案したモデルを総合的に評価する。 これらの結果に基づいて、我々はさらに、積極性、有効性、専門性、一貫性に基づく手作業による評価を行う。 WundtGPTは、専門的かつ効果的なコンサルテーションを提供することができる。 モデルはハグフェイスで利用可能です。

Large language models (LLMs) are raging over the medical domain, and their momentum has carried over into the mental health domain, leading to the emergence of few mental health LLMs. Although such mental health LLMs could provide reasonable suggestions for psychological counseling, how to develop an authentic and effective doctor-patient relationship (DPR) through LLMs is still an important problem. To fill this gap, we dissect DPR into two key attributes, i.e., the psychologist's empathy and proactive guidance. We thus present WundtGPT, an empathetic and proactive mental health large language model that is acquired by fine-tuning it with instruction and real conversation between psychologists and patients. It is designed to assist psychologists in diagnosis and help patients who are reluctant to communicate face-to-face understand their psychological conditions. Its uniqueness lies in that it could not only pose purposeful questions to guide patients in detailing their symptoms but also offer warm emotional reassurance. In particular, WundtGPT incorporates Collection of Questions, Chain of Psychodiagnosis, and Empathy Constraints into a comprehensive prompt for eliciting LLMs' questions and diagnoses. Additionally, WundtGPT proposes a reward model to promote alignment with empathetic mental health professionals, which encompasses two key factors: cognitive empathy and emotional empathy. We offer a comprehensive evaluation of our proposed model. Based on these outcomes, we further conduct the manual evaluation based on proactivity, effectiveness, professionalism and coherence. We notice that WundtGPT can offer professional and effective consultation. The model is available at huggingface.
翻訳日:2024-07-01 07:01:19 公開日:2024-06-16
# テキスト分類のための自己制御型データ自由知識アマルガメーション

Self-Regulated Data-Free Knowledge Amalgamation for Text Classification ( http://arxiv.org/abs/2406.15476v1 )

ライセンス: Link先を確認
Prashanth Vijayaraghavan, Hongzhi Wang, Luyao Shi, Tyler Baldwin, David Beymer, Ehsan Degan, (参考訳) 最近、様々なモデルリポジトリで事前訓練されたテキストモデルが利用可能になっている。 これらのモデルは、特定のタスクのために微調整したり、大規模なデータセットでトレーニングできるため、新しいモデルをスクラッチからトレーニングするコストを大幅に削減します。 しかし、これらのデータセットは、プライバシー、セキュリティ、知的財産権の問題のために、一般にはアクセスできないかもしれない。 本稿では,複数の教師モデルから学習できる軽量な学生ネットワークを開発することを目的としている。 そこで,本研究では,複数の教師モデルから得られた知見を組み合わせて,学生ネットワークに効果的に伝達する知識伝達タスクであるData-Free Knowledge Amalgamation(DFKA)について検討する。 そこで本研究では,以下のモデリングフレームワークであるSTRATANETを提案する。 (a)各教師がカスタマイズしたテキストデータを生成するステアブルデータ生成装置及び (b)教師の異なる階層からの信頼度推定を用いて自己統制戦略を実装し、知識を選択的に統合し、多目的学生を訓練するアマルガメーションモジュール。 本手法は,ラベルやドメインの異なる3つのベンチマークテキスト分類データセットを用いて評価する。 実験により、STRATANETを用いて学習した学生モデルは、データ駆動およびデータフリー制約下で、いくつかのベースラインを著しく上回ることを示した。

Recently, there has been a growing availability of pre-trained text models on various model repositories. These models greatly reduce the cost of training new models from scratch as they can be fine-tuned for specific tasks or trained on large datasets. However, these datasets may not be publicly accessible due to the privacy, security, or intellectual property issues. In this paper, we aim to develop a lightweight student network that can learn from multiple teacher models without accessing their original training data. Hence, we investigate Data-Free Knowledge Amalgamation (DFKA), a knowledge-transfer task that combines insights from multiple pre-trained teacher models and transfers them effectively to a compact student network. To accomplish this, we propose STRATANET, a modeling framework comprising: (a) a steerable data generator that produces text data tailored to each teacher and (b) an amalgamation module that implements a self-regulative strategy using confidence estimates from the teachers' different layers to selectively integrate their knowledge and train a versatile student. We evaluate our method on three benchmark text classification datasets with varying labels or domains. Empirically, we demonstrate that the student model learned using our STRATANET outperforms several baselines significantly under data-driven and data-free constraints.
翻訳日:2024-07-01 07:01:19 公開日:2024-06-16
# CrisisSense-LLM:災害情報学におけるマルチラベルソーシャルメディアテキスト分類のための命令微調整大言語モデル

CrisisSense-LLM: Instruction Fine-Tuned Large Language Model for Multi-label Social Media Text Classification in Disaster Informatics ( http://arxiv.org/abs/2406.15477v1 )

ライセンス: Link先を確認
Kai Yin, Chengkai Liu, Ali Mostafavi, Xia Hu, (参考訳) 危機・災害情報学の分野では、ソーシャルメディアは状況認識を改善し、対応や救援活動に役立っている。 効率的な正確なテキスト分類ツールが危機情報学の焦点となっている。 しかし、現在の手法は主にシングルラベルのテキスト分類モデルに依存しており、動的および多面的災害関連ソーシャルメディアデータに埋め込まれた異なる洞察を捉えることができない。 本研究では,災害関連ツイートのマルチラベル分類を目的とした指導微調整により,事前訓練済みの大規模言語モデル(LLM)を強化することで,災害テキスト分類への新たなアプローチを提案する。 本手法では,災害関連つぶやきから包括的指導データセットを作成し,それを用いてオープンソースのLLMを微調整し,災害固有の知識を組み込む。 この微調整モデルは,災害情報の種類,情報化,人的援助の関与など,災害関連情報の複数の側面を同時に分類することができ,災害の状況認識のためのソーシャルメディアデータの有用性を著しく向上させることができる。 その結果, ソーシャルメディア投稿から重要情報の分類が促進され, 緊急時の状況認識のより効果的な展開が促進されることが示唆された。 本研究は, LLMの能力を活用し, 災害シナリオにおけるリアルタイムの状況認識と対応戦略を改善することにより, より高度で適応性があり, 堅牢な災害管理ツールの道を開くものである。

In the field of crisis/disaster informatics, social media is increasingly being used for improving situational awareness to inform response and relief efforts. Efficient and accurate text classification tools have been a focal area of investigation in crisis informatics. However, current methods mostly rely on single-label text classification models, which fails to capture different insights embedded in dynamic and multifaceted disaster-related social media data. This study introduces a novel approach to disaster text classification by enhancing a pre-trained Large Language Model (LLM) through instruction fine-tuning targeted for multi-label classification of disaster-related tweets. Our methodology involves creating a comprehensive instruction dataset from disaster-related tweets, which is then used to fine-tune an open-source LLM, thereby embedding it with disaster-specific knowledge. This fine-tuned model can classify multiple aspects of disaster-related information simultaneously, such as the type of event, informativeness, and involvement of human aid, significantly improving the utility of social media data for situational awareness in disasters. The results demonstrate that this approach enhances the categorization of critical information from social media posts, thereby facilitating a more effective deployment for situational awareness during emergencies. This research paves the way for more advanced, adaptable, and robust disaster management tools, leveraging the capabilities of LLMs to improve real-time situational awareness and response strategies in disaster scenarios.
翻訳日:2024-07-01 07:01:19 公開日:2024-06-16
# DRLとPSOを用いたマルチUAVマルチRISQoS対応航空通信システム

Multi-UAV Multi-RIS QoS-Aware Aerial Communication Systems using DRL and PSO ( http://arxiv.org/abs/2406.16934v1 )

ライセンス: Link先を確認
Marwan Dhuheir, Aiman Erbad, Ala Al-Fuqaha, Mohsen Guizani, (参考訳) 近年、無人航空機(UAV)は、多目的性と機動性の観点から、祭り、大規模なスポーツイベント、自然災害、人工災害などの様々なシナリオにおいて、利用者に無線サービスを提供する学術・産業の研究者の注目を集めている。 しかし、UAVの限られたリソース(例えば、エネルギー予算と異なるサービス要件)は、そのようなアプリケーションにUAVを採用する上での課題を生じさせます。 システムモデルでは,地域をナビゲートするUAVスワムを考慮し,RISをサポートした地上ユーザへの無線通信により,UAVのカバレッジを向上させる。 本研究では,UAVとマルチRIS位相構成の最適経路計画により,スループットとUAVのカバレッジを最大化する最適化モデルを提案する。 定式化された最適化は、標準的な線形プログラミング手法を用いることで、リアルタイム意思決定における適用性を制限することが困難である。 そこで本研究では,深部強化学習と粒子群最適化を用いた2段階解を提案する。 我々は,近年の論文で提示された2つの競合解に対して,広範囲なシミュレーションを行い,そのアプローチを比較した。 シミュレーションの結果,本手法はブルートフォース法より20 %,ベースライン法より30 %,QoS法より30 %よいことがわかった。

Recently, Unmanned Aerial Vehicles (UAVs) have attracted the attention of researchers in academia and industry for providing wireless services to ground users in diverse scenarios like festivals, large sporting events, natural and man-made disasters due to their advantages in terms of versatility and maneuverability. However, the limited resources of UAVs (e.g., energy budget and different service requirements) can pose challenges for adopting UAVs for such applications. Our system model considers a UAV swarm that navigates an area, providing wireless communication to ground users with RIS support to improve the coverage of the UAVs. In this work, we introduce an optimization model with the aim of maximizing the throughput and UAVs coverage through optimal path planning of UAVs and multi-RIS phase configurations. The formulated optimization is challenging to solve using standard linear programming techniques, limiting its applicability in real-time decision-making. Therefore, we introduce a two-step solution using deep reinforcement learning and particle swarm optimization. We conduct extensive simulations and compare our approach to two competitive solutions presented in the recent literature. Our simulation results demonstrate that our adopted approach is 20 \% better than the brute-force approach and 30\% better than the baseline solution in terms of QoS.
翻訳日:2024-07-01 06:31:46 公開日:2024-06-16
# 腹側視覚皮質におけるDNNに基づく符号化モデルの分布外一般化能力のベンチマーク

Benchmarking Out-of-Distribution Generalization Capabilities of DNN-based Encoding Models for the Ventral Visual Cortex ( http://arxiv.org/abs/2406.16935v1 )

ライセンス: Link先を確認
Spandan Madan, Will Xiao, Mingran Cao, Hanspeter Pfister, Margaret Livingstone, Gabriel Kreiman, (参考訳) 視覚野からの神経応答を予測する際,DNNを用いた符号化モデルの一般化機能について検討した。 109ドルのセッションで7匹の猿に8,233ドルのユニークな自然画像が提示され、マカク下側頭葉(IT)大脳皮質から30,000ドル以上の画像に大規模な神経集団応答のデータセットである「textit{MacaqueITBench}」を収集した。 そこで, <textit{MacaqueITBench} を用いて, 画像からOF-Distribution(OOD)トレインとテストスプリットに分割することで, 神経活動を予測するモデルに対する分布シフトの影響を検討した。 OODスプリットには、画像コントラスト、色調、強度、温度、飽和など、いくつかの異なる画像計算可能なタイプが含まれていた。 分布内テスト画像のパフォーマンス(従来のモデルの評価方法)と比較して、分布外テスト画像に対するニューロンの反応を予測するモデルが悪化し、分布内テスト画像のパフォーマンスは20ドル%以下に抑えられた。 事前学習対象認識モデルから抽出された画像表現間の余弦距離は、異なる分布シフト下での神経予測の強い予測因子である。 画像、神経細胞の発射速度の記録、および計算ベンチマークのデータセットは、https://bit.ly/3zeutVd.comで公開されている。

We characterized the generalization capabilities of DNN-based encoding models when predicting neuronal responses from the visual cortex. We collected \textit{MacaqueITBench}, a large-scale dataset of neural population responses from the macaque inferior temporal (IT) cortex to over $300,000$ images, comprising $8,233$ unique natural images presented to seven monkeys over $109$ sessions. Using \textit{MacaqueITBench}, we investigated the impact of distribution shifts on models predicting neural activity by dividing the images into Out-Of-Distribution (OOD) train and test splits. The OOD splits included several different image-computable types including image contrast, hue, intensity, temperature, and saturation. Compared to the performance on in-distribution test images -- the conventional way these models have been evaluated -- models performed worse at predicting neuronal responses to out-of-distribution images, retaining as little as $20\%$ of the performance on in-distribution test images. The generalization performance under OOD shifts can be well accounted by a simple image similarity metric -- the cosine distance between image representations extracted from a pre-trained object recognition model is a strong predictor of neural predictivity under different distribution shifts. The dataset of images, neuronal firing rate recordings, and computational benchmarks are hosted publicly at: https://bit.ly/3zeutVd.
翻訳日:2024-07-01 06:31:46 公開日:2024-06-16
# Tender: Tensor DecompositionとRuntime Requantizationによる大規模言語モデルの高速化

Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization ( http://arxiv.org/abs/2406.12930v1 )

ライセンス: Link先を確認
Jungi Lee, Wonbeom Lee, Jaewoong Sim, (参考訳) 大規模言語モデル(LLM)は、機械学習のさまざまなタスクにおいて優れたパフォーマンスを示しており、今日のコンピューティング分野で最も重要なワークロードの1つになっている。 しかし、LLM推論のデプロイは、膨大なモデルサイズと整数パイプラインで実行することの難しさから生じる高い計算とメモリ要求のため、課題となる。 本稿では,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。 LLMにおける外れ値の解析に基づいて,分解行列のスケール係数が2つの分解能を持つ分解量子化手法を提案する。 提案手法により,分解された行列から部分和を加算する場合の明示的再量子化(dequantization/quantization)を,コモディティテンソル計算ハードウェアへの最小拡張で回避できる。 評価の結果,Tenderは最先端の手法に比べて精度と推論性能が向上し,既存のアクセラレーターに対する侵入性が著しく低いことがわかった。

Large language models (LLMs) demonstrate outstanding performance in various tasks in machine learning and have thus become one of the most important workloads in today's computing landscape. However, deploying LLM inference poses challenges due to the high compute and memory requirements stemming from the enormous model size and the difficulty of running it in the integer pipelines. In this paper, we present Tender, an algorithm-hardware co-design solution that enables efficient deployment of LLM inference at low precision. Based on our analysis of outlier values in LLMs, we propose a decomposed quantization technique in which the scale factors of decomposed matrices are powers of two apart. The proposed scheme allows us to avoid explicit requantization (i.e., dequantization/quantization) when accumulating the partial sums from the decomposed matrices, with a minimal extension to the commodity tensor compute hardware. Our evaluation shows that Tender achieves higher accuracy and inference performance compared to the state-of-the-art methods while also being significantly less intrusive to the existing accelerators.
翻訳日:2024-06-22 00:47:45 公開日:2024-06-16
# ベンガル語における生体データの自動音声認識

Automatic Speech Recognition for Biomedical Data in Bengali Language ( http://arxiv.org/abs/2406.12931v1 )

ライセンス: Link先を確認
Shariar Kabir, Nazmun Nahar, Shyamasree Saha, Mamunur Rashid, (参考訳) 本稿では,ベンガルのバイオメディカルデータに特化して設計されたASR(Automatic Speech Recognition)システムの開発について述べる。 ベンガルASRの最近の進歩は奨励されているが、ドメイン固有のデータがないため、実用的な医療ASRモデルの作成が制限されている。 このプロジェクトは、ベンガル語医学用語(症状、重症度、疾患など)に適したASRシステムを開発することでこのギャップを埋め、ベンガル語とシルヘティ語を含む2つの主要な方言を包含する。 46時間のベンガル医療コーパスを用いて,2つのASRフレームワークを訓練し,評価した。 私たちの中核的な目標は、デジタルヘルスアプリケーションのためのデプロイ可能なヘルスドメインASRシステムを作ることです。

This paper presents the development of a prototype Automatic Speech Recognition (ASR) system specifically designed for Bengali biomedical data. Recent advancements in Bengali ASR are encouraging, but a lack of domain-specific data limits the creation of practical healthcare ASR models. This project bridges this gap by developing an ASR system tailored for Bengali medical terms like symptoms, severity levels, and diseases, encompassing two major dialects: Bengali and Sylheti. We train and evaluate two popular ASR frameworks on a comprehensive 46-hour Bengali medical corpus. Our core objective is to create deployable health-domain ASR systems for digital health applications, ultimately increasing accessibility for non-technical users in the healthcare sector.
翻訳日:2024-06-22 00:37:55 公開日:2024-06-16
# LLMリスクとAIガードレールの現状

Current state of LLM Risks and AI Guardrails ( http://arxiv.org/abs/2406.12934v1 )

ライセンス: Link先を確認
Suriya Ganesh Ayyamperumal, Limin Ge, (参考訳) 大規模言語モデル(LLM)はますます洗練され、安全性と信頼性が最優先されるセンシティブなアプリケーションに広くデプロイされるようになる。 しかし、LSMには、バイアス、安全でない行動の可能性、データセット中毒、説明可能性の欠如、幻覚、再現不能など、それらに伴う固有のリスクがある。 これらのリスクは、LSMを望ましい行動と整合させ、潜在的な害を軽減するために、"ガードレール"の開発を必要とする。 本研究は,LLMの展開に伴うリスクを調査し,ガードレールの実装とモデルアライメント技術に対する現在のアプローチを評価する。 本稿では,本質的・外生的バイアス評価手法について検討し,AI開発における公正度指標の重要性について考察する。 エージェントLSMの安全性と信頼性について検討し、テスト容易性、フェールセーフ、状況認識の必要性を強調した。 外部, 二次, 内部レベルで動作する層状保護モデルを含む, LLMの保護のための技術戦略が提示される。 システムプロンプト、検索型拡張生成(RAG)アーキテクチャ、バイアスを最小限に抑え、プライバシを保護する技術が強調されている。 効果的なガードレールの設計には、LLMの意図したユースケース、関連する規制、倫理的考察を深く理解する必要がある。 正確性やプライバシといった競合する要件のバランスを取ることは、現在も進行中の課題です。 この研究は、現実世界のアプリケーションにおけるLLMの安全かつ責任ある使用を保証するために、継続的研究と開発の重要性を強調している。

Large language models (LLMs) have become increasingly sophisticated, leading to widespread deployment in sensitive applications where safety and reliability are paramount. However, LLMs have inherent risks accompanying them, including bias, potential for unsafe actions, dataset poisoning, lack of explainability, hallucinations, and non-reproducibility. These risks necessitate the development of "guardrails" to align LLMs with desired behaviors and mitigate potential harm. This work explores the risks associated with deploying LLMs and evaluates current approaches to implementing guardrails and model alignment techniques. We examine intrinsic and extrinsic bias evaluation methods and discuss the importance of fairness metrics for responsible AI development. The safety and reliability of agentic LLMs (those capable of real-world actions) are explored, emphasizing the need for testability, fail-safes, and situational awareness. Technical strategies for securing LLMs are presented, including a layered protection model operating at external, secondary, and internal levels. System prompts, Retrieval-Augmented Generation (RAG) architectures, and techniques to minimize bias and protect privacy are highlighted. Effective guardrail design requires a deep understanding of the LLM's intended use case, relevant regulations, and ethical considerations. Striking a balance between competing requirements, such as accuracy and privacy, remains an ongoing challenge. This work underscores the importance of continuous research and development to ensure the safe and responsible use of LLMs in real-world applications.
翻訳日:2024-06-22 00:37:55 公開日:2024-06-16
# 分割差分を用いたダイソン級数の積分自由表現

An integral-free representation of the Dyson series using divided differences ( http://arxiv.org/abs/2010.09888v2 )

ライセンス: Link先を確認
Amir Kalev, Itay Hen, (参考訳) ダイソン級数は多次元時間順序積分の無限の和であり、相互作用ピクチャーにおける量子時間進化作用素の形式的表現として機能する。 分割された微分の数学的ツールを用いて、時間順序と積分の両方から完全に自由な級数に対する代替表現を導入する。 この新たな定式化において、ダイソン展開は指数関数の効率よく計算可能な分割差の和として与えられ、ダイソン展開項の計算を著しく単純化すると同時に、時間依存の摂動計算をSchr{\「o}dinger-picture」で直接行うことができる。 我々は,この新しい表現の有用性を,多くのユースケースを研究して紹介する。 また、いくつかの即時的な応用についても論じる。

The Dyson series is an infinite sum of multi-dimensional time-ordered integrals, which serves as a formal representation of the quantum time-evolution operator in the interaction-picture. Using the mathematical tool of divided differences, we introduce an alternative representation for the series that is entirely free from both time ordering and integrals. In this new formalism, the Dyson expansion is given as a sum of efficiently-computable divided differences of the exponential function, considerably simplifying the calculation of the Dyson expansion terms, while also allowing for time-dependent perturbation calculations to be performed directly in the Schr{\"o}dinger-picture. We showcase the utility of this novel representation by studying a number of use cases. We also discuss several immediate applications.
翻訳日:2024-06-20 05:50:01 公開日:2024-06-16
# $\ell_1$DecNet+: $\ell_1$分解と反復展開によるスパース機能セグメンテーションのための新しいアーキテクチャフレームワーク

$\ell_1$DecNet+: A new architecture framework by $\ell_1$ decomposition and iteration unfolding for sparse feature segmentation ( http://arxiv.org/abs/2203.02690v2 )

ライセンス: Link先を確認
Yumeng Ren, Yiming Gao, Chunlin Wu, Xue-cheng Tai, (参考訳) $\ell_1$ベースのスパース正規化は圧縮センシングと画像処理において中心的な役割を果たす。 本稿では、$\ell_1$DecNetを、$\ell_1$関連スパース正規化を組み込んだ変分分解モデルから導出し、乗算器のスケール的交互方向法(ADMM)により解決した、展開されたネットワークとして提案する。 $\ell_1$DecNetは、入力画像をスパース機能と学習された高密度機能に効果的に分解し、その後のスパース機能関連の操作を支援する。 これに基づいて、$\ell_1$DecNet+という学習可能なアーキテクチャフレームワークを開発し、オリジナルの画像ではなく、抽出されたスパース機能を操作するセグメンテーションモジュールを構築した。 このアーキテクチャは、数学的モデリングとデータ駆動アプローチの利点をうまく組み合わせている。 我々の知る限り、セグメント化ネットワーク構造における特徴抽出に先立って数学的イメージを組み込んだ最初の研究である。 さらに、$\ell_1$DecNet+フレームワークは簡単に3Dケースに拡張できます。 医療用画像処理における網膜血管分割と,産業用異常識別における舗装き裂検出の2つの課題に対して,$\ell_1$DecNet+の有効性を評価した。 異なるデータセットに対する実験結果から、さまざまな軽量セグメンテーションモジュールを備えた $\ell_1$DecNet+ アーキテクチャは、拡張バージョンよりもそれぞれ等しく、より優れたパフォーマンスを達成できることが示された。 これはリソース制限されたデバイスにおいて特に実用上の優位性をもたらす。

$\ell_1$ based sparse regularization plays a central role in compressive sensing and image processing. In this paper, we propose $\ell_1$DecNet, as an unfolded network derived from a variational decomposition model incorporating $\ell_1$ related sparse regularization and solved by scaled alternating direction method of multipliers (ADMM). $\ell_1$DecNet effectively decomposes an input image into a sparse feature and a learned dense feature, and thus helps the subsequent sparse feature related operations. Based on this, we develop $\ell_1$DecNet+, a learnable architecture framework consisting of our $\ell_1$DecNet and a segmentation module which operates over extracted sparse features instead of original images. This architecture combines well the benefits of mathematical modeling and data-driven approaches. To our best knowledge, this is the first study to incorporate mathematical image prior into feature extraction in segmentation network structures. Moreover, our $\ell_1$DecNet+ framework can be easily extended to 3D case. We evaluate the effectiveness of $\ell_1$DecNet+ on two commonly encountered sparse segmentation tasks: retinal vessel segmentation in medical image processing and pavement crack detection in industrial abnormality identification. Experimental results on different datasets demonstrate that, our $\ell_1$DecNet+ architecture with various lightweight segmentation modules can achieve equal or better performance than their enlarged versions respectively. This leads to especially practical advantages on resource-limited devices.
翻訳日:2024-06-20 05:43:26 公開日:2024-06-16
# Tabula: セキュアニューラルネットワーク推論のための非線形活性化関数の効率的な計算

Tabula: Efficiently Computing Nonlinear Activation Functions for Secure Neural Network Inference ( http://arxiv.org/abs/2203.02833v2 )

ライセンス: Link先を確認
Maximilian Lam, Michael Mitzenmacher, Vijay Janapa Reddi, Gu-Yeon Wei, David Brooks, (参考訳) ニューラルネットワークの安全性を確保するためのマルチパーティの計算手法は、非線形アクティベーション関数を安全に実行するためのガーブラード回路に依存している。 しかし、ガーブロード回路はサーバとクライアント間の過剰な通信が必要であり、ストレージのオーバーヘッドが大きく、実行時のペナルティが大きい。 これらのコストを削減するため,セキュアなルックアップテーブルに基づくアルゴリズムであるTabulaを提案する。 本手法は, 非線形関数呼び出しの可能なすべての結果を含むオフラインフェーズにおいて, ルックアップテーブルをプリ計算する。 これらのテーブルは演算子数と入力値の精度で指数的ストレージコストを発生させるため、量子化を用いてこれらのストレージコストを削減し、このアプローチを実用的なものにする。 これにより、非線形関数の結果を安全に計算するオンラインフェーズにおいて、通信コストは非線形関数への入力のビット数の2倍になる。 実際には、オンラインフェーズにおける非線形関数呼び出しあたりの通信量は2バイトである。 8ビットの量子化入力を持つガーブラー回路と比較すると、オンラインフェーズ中に個々の非線形関数を計算する場合、実験では8ビットのアクティベーションを持つタブラが280ドルから560ドルの間、通信の少ないタブラは100ドル以上、ストレージ容量が2倍になる(他の最先端のプロトコルと比較すると40ドル以上の通信削減を実現している)。 Tabulaは、ニューラルネットワークのセキュアな推論のオンラインフェーズにおいて、量子化された入力を持つガーブラード回路よりも、大幅なパフォーマンス向上を実現している。

Multiparty computation approaches to secure neural network inference commonly rely on garbled circuits for securely executing nonlinear activation functions. However, garbled circuits require excessive communication between server and client, impose significant storage overheads, and incur large runtime penalties. To reduce these costs, we propose an alternative to garbled circuits: Tabula, an algorithm based on secure lookup tables. Our approach precomputes lookup tables during an offline phase that contains the result of all possible nonlinear function calls. Because these tables incur exponential storage costs in the number of operands and the precision of the input values, we use quantization to reduce these storage costs to make this approach practical. This enables an online phase where securely computing the result of a nonlinear function requires just a single round of communication, with communication cost equal to twice the number of bits of the input to the nonlinear function. In practice our approach costs 2 bytes of communication per nonlinear function call in the online phase. Compared to garbled circuits with 8-bit quantized inputs, when computing individual nonlinear functions during the online phase, experiments show Tabula with 8-bit activations uses between $280$-$560 \times$ less communication, is over $100\times$ faster, and uses a comparable (within a factor of 2) amount of storage; compared against other state-of-the-art protocols Tabula achieves greater than $40\times$ communication reduction. This leads to significant performance gains over garbled circuits with quantized inputs during the online phase of secure inference of neural networks: Tabula reduces end-to-end inference communication by up to $9 \times$ and achieves an end-to-end inference speedup of up to $50 \times$, while imposing comparable storage and offline preprocessing costs.
翻訳日:2024-06-20 05:43:26 公開日:2024-06-16
# 共変量と概念シフトによる物体検出のための領域一般化

Domain Generalisation for Object Detection under Covariate and Concept Shift ( http://arxiv.org/abs/2203.05294v5 )

ライセンス: Link先を確認
Karthik Seemakurthy, Erchan Aptoula, Charles Fox, Petra Bosilj, (参考訳) ドメイン一般化は、ドメイン固有の特徴を抑えながら、ドメイン不変機能の学習を促進することを目的としている。 オブジェクト検出のためのドメイン一般化手法を提案し, オブジェクト検出アーキテクチャに適用可能な最初のアプローチを提案する。 厳密な数学的解析に基づいて、画像レベルでの領域間の限界特徴分布の整合に加えて、インスタンスレベルでクラス条件アライメントを行うための新しいコンポーネントとの特徴アライメントに基づくアプローチを拡張する。 これにより、ドメインシフトのコンポーネント、すなわち共変量と概念シフトの両方に完全に対処し、ドメインに依存しない特徴表現を学ぶことができます。 我々は,一段式(FCOS,YOLO)と二段式(FRCNN)の両検出器を用いて,自律走行用(Cityscapes, BDD10K, ACDC, IDD)の異なるデータセットと,精密農業用GWHDデータセットからなる新しいベンチマークを行い,ベースラインと最先端技術による一般化とローカライゼーション性能の整合性向上を示す。

Domain generalisation aims to promote the learning of domain-invariant features while suppressing domain-specific features, so that a model can generalise better to previously unseen target domains. An approach to domain generalisation for object detection is proposed, the first such approach applicable to any object detection architecture. Based on a rigorous mathematical analysis, we extend approaches based on feature alignment with a novel component for performing class conditional alignment at the instance level, in addition to aligning the marginal feature distributions across domains at the image level. This allows us to fully address both components of domain shift, i.e. covariate and concept shift, and learn a domain agnostic feature representation. We perform extensive evaluation with both one-stage (FCOS, YOLO) and two-stage (FRCNN) detectors, on a newly proposed benchmark comprising several different datasets for autonomous driving applications (Cityscapes, BDD10K, ACDC, IDD) as well as the GWHD dataset for precision agriculture, and show consistent improvements to the generalisation and localisation performance over baselines and state-of-the-art.
翻訳日:2024-06-20 05:43:26 公開日:2024-06-16
# NovoBench: プロテオミクスにおけるDe Novo Peptideシークエンシング手法のベンチマーク

NovoBench: Benchmarking Deep Learning-based De Novo Peptide Sequencing Methods in Proteomics ( http://arxiv.org/abs/2406.11906v1 )

ライセンス: Link先を確認
Jingbo Zhou, Shaorong Chen, Jun Xia, Sizhe Liu, Tianze Ling, Wenjie Du, Yue Liu, Jianwei Yin, Stan Z. Li, (参考訳) タンデム質量分析法はプロテオミクスの進行において重要な役割を担い、生体組織におけるタンパク質組成の高スループット解析を可能にした。 多くのディープラーニング法が、観測された質量スペクトルのペプチド配列を予測するために、emph{de novo}ペプチドシークエンシングタスクのために開発された。 しかし、2つの重要な課題は、この重要なタスクのさらなる進歩を著しく妨げている。 第一に、評価データセットにはコンセンサスがないため、異なる研究論文における実証結果は、しばしば比較されないため、不公平な比較に繋がる。 第二に、現在の方法は通常アミノ酸レベルまたはペプチドレベルの精度とリコール基準に制限される。 本研究では,多種多様な質量スペクトルデータ,統合モデル,総合的評価指標を含む,最初の統一ベンチマークであるNovoBenchを,<emph{de novo}ペプチドシークエンシングのために提示する。 DeepNovo、PointNovo、Casanovo、InstaNovo、AdaNovo、および$\pi$-HelixNovoといった最近の素晴らしい方法が私たちのフレームワークに統合されています。 アミノ酸レベルおよびペプチドレベルの精度とリコールに加えて, 翻訳後修飾 (PTM) の同定, ペプチド長, ノイズピーク, フラグメントの欠落率などのモデルの性能評価を行った。 このベンチマークを利用して、我々は現在の手法を大規模に研究し、多くの洞察に富んだ発見を報告し、今後の発展への新たな可能性を開く。 このベンチマークは、将来の研究とアプリケーションを促進するためにオープンソース化される。

Tandem mass spectrometry has played a pivotal role in advancing proteomics, enabling the high-throughput analysis of protein composition in biological tissues. Many deep learning methods have been developed for \emph{de novo} peptide sequencing task, i.e., predicting the peptide sequence for the observed mass spectrum. However, two key challenges seriously hinder the further advancement of this important task. Firstly, since there is no consensus for the evaluation datasets, the empirical results in different research papers are often not comparable, leading to unfair comparison. Secondly, the current methods are usually limited to amino acid-level or peptide-level precision and recall metrics. In this work, we present the first unified benchmark NovoBench for \emph{de novo} peptide sequencing, which comprises diverse mass spectrum data, integrated models, and comprehensive evaluation metrics. Recent impressive methods, including DeepNovo, PointNovo, Casanovo, InstaNovo, AdaNovo and $\pi$-HelixNovo are integrated into our framework. In addition to amino acid-level and peptide-level precision and recall, we evaluate the models' performance in terms of identifying post-tranlational modifications (PTMs), efficiency and robustness to peptide length, noise peaks and missing fragment ratio, which are important influencing factors while seldom be considered. Leveraging this benchmark, we conduct a large-scale study of current methods, report many insightful findings that open up new possibilities for future development. The benchmark will be open-sourced to facilitate future research and application.
翻訳日:2024-06-20 00:46:12 公開日:2024-06-16
# 低ランク適応における部分空間の混合

Mixture-of-Subspaces in Low-Rank Adaptation ( http://arxiv.org/abs/2406.11909v1 )

ライセンス: Link先を確認
Taiqiang Wu, Jiahao Wang, Zhe Zhao, Ngai Wong, (参考訳) 本稿では、計算効率が高く、実装が容易で、大規模言語、マルチモーダル、拡散モデルにも容易に適用可能なサブスペースインスパイアされたローランド適応法(LoRA)を提案する。 最初は、LoRAの重みを2つの部分空間に等価に分解し、それらを単純に混ぜれば性能が向上することを示した。 このような現象を研究するため、細粒度のサブスペースレンズを用いて再検討し、そのような修正は固定ミキサーを用いてサブスペースを融合させることと等価であることを示した。 より柔軟にするために、元のLoRA重みとミキサーを共同で学習し、Mixture-of-Subspaces LoRA (MoSLoRA) と呼ぶ。 MoSLoRAは、コモンセンス推論、ビジュアルインストラクションチューニング、主観駆動のテキスト・ツー・イメージ生成など、さまざまなモードのタスクにおいてLoRAを一貫して上回り、その有効性と堅牢性を示している。 コードは \href{https://github.com/wutaiqiang/MoSLoRA}{github} で公開されている。

In this paper, we introduce a subspace-inspired Low-Rank Adaptation (LoRA) method, which is computationally efficient, easy to implement, and readily applicable to large language, multimodal, and diffusion models. Initially, we equivalently decompose the weights of LoRA into two subspaces, and find that simply mixing them can enhance performance. To study such a phenomenon, we revisit it through a fine-grained subspace lens, showing that such modification is equivalent to employing a fixed mixer to fuse the subspaces. To be more flexible, we jointly learn the mixer with the original LoRA weights, and term the method Mixture-of-Subspaces LoRA (MoSLoRA). MoSLoRA consistently outperforms LoRA on tasks in different modalities, including commonsense reasoning, visual instruction tuning, and subject-driven text-to-image generation, demonstrating its effectiveness and robustness. Codes are available at \href{https://github.com/wutaiqiang/MoSLoRA}{github}.
翻訳日:2024-06-20 00:46:12 公開日:2024-06-16
# 離散世界モデルによる心の理論の複雑さの記入

A Notion of Complexity for Theory of Mind via Discrete World Models ( http://arxiv.org/abs/2406.11911v1 )

ライセンス: Link先を確認
X. Angelo Huang, Emanuele La Malfa, Samuele Marro, Andrea Asperti, Anthony Cohn, Michael Wooldridge, (参考訳) ToM(Theory of Mind)は、社会的推論が必要な複雑なシナリオにおいて、LLM(Large Language Models)の機能を評価するために用いられる。 研究コミュニティは多くのToMベンチマークを提案しているが、その硬さは大きく異なり、その複雑さは明確に定義されていない。 本稿では,ToMタスクの複雑さを計測するフレームワークを提案する。 我々は問題の複雑性を、それを正しく解くために必要な状態の数として定量化する。 当社の複雑性測定基準は、ToM問題を明らかに困難にするために設計された突発的な状態も説明しています。 提案手法を用いて,広く採用されている5つのToMベンチマークの複雑さを評価する。 このフレームワークの上に、エージェントのインタラクションによって環境がどのように変化するかを記述することで、モデルに利用可能な情報を強化するプロンプト手法を設計する。 本稿では,この手法をDWM(Disdisrete World Models)と命名し,ToMタスクにおける優れたパフォーマンスを示す。

Theory of Mind (ToM) can be used to assess the capabilities of Large Language Models (LLMs) in complex scenarios where social reasoning is required. While the research community has proposed many ToM benchmarks, their hardness varies greatly, and their complexity is not well defined. This work proposes a framework to measure the complexity of ToM tasks. We quantify a problem's complexity as the number of states necessary to solve it correctly. Our complexity measure also accounts for spurious states of a ToM problem designed to make it apparently harder. We use our method to assess the complexity of five widely adopted ToM benchmarks. On top of this framework, we design a prompting technique that augments the information available to a model with a description of how the environment changes with the agents' interactions. We name this technique Discrete World Models (DWM) and show how it elicits superior performance on ToM tasks.
翻訳日:2024-06-20 00:46:12 公開日:2024-06-16
# AgileCoder: アジャイル方法論に基づいたソフトウェア開発のための動的協調エージェント

AgileCoder: Dynamic Collaborative Agents for Software Development based on Agile Methodology ( http://arxiv.org/abs/2406.11912v1 )

ライセンス: Link先を確認
Minh Huynh Nguyen, Thang Phan Chau, Phong X. Nguyen, Nghi D. Q. Bui, (参考訳) ソフトウェアエージェントは、複雑なソフトウェアエンジニアリングタスクに対処するための有望なツールとして登場した。 しかしながら、既存の作業はウォーターフォールモデルに従うことで、ソフトウェア開発のワークフローを単純化する。 そこで我々は、Agile Methodology(AM)をフレームワークに統合するマルチエージェントシステムであるAgileCoderを提案する。 このシステムは、Product Manager、Developer、Testerといった特定のAMロールを異なるエージェントに割り当て、ユーザ入力に基づいて協調してソフトウェアを開発する。 AgileCoderはスプリントに作業を整理することで開発効率を向上し、スプリントを通じてソフトウェアを漸進的に開発することに重点を置いている。 さらに、コードベースへの更新に伴って、動的にコード依存グラフを生成するモジュールであるDynamic Code Graph Generatorも導入しています。 これにより、エージェントはコードベースをより理解し、ソフトウェア開発プロセス全体を通してより正確なコード生成と修正を行うことができます。 AgileCoderは、ChatDevやMetaGPTといった既存のベンチマークを超え、新しい標準を確立し、高度なソフトウェアエンジニアリング環境におけるマルチエージェントシステムの能力を示す。 ソースコードはhttps://github.com/FSoft-AI4Code/AgileCoder.orgにある。

Software agents have emerged as promising tools for addressing complex software engineering tasks. However, existing works oversimplify software development workflows by following the waterfall model. Thus, we propose AgileCoder, a multi-agent system that integrates Agile Methodology (AM) into the framework. This system assigns specific AM roles such as Product Manager, Developer, and Tester to different agents, who then collaboratively develop software based on user inputs. AgileCoder enhances development efficiency by organizing work into sprints, focusing on incrementally developing software through sprints. Additionally, we introduce Dynamic Code Graph Generator, a module that creates a Code Dependency Graph dynamically as updates are made to the codebase. This allows agents to better comprehend the codebase, leading to more precise code generation and modifications throughout the software development process. AgileCoder surpasses existing benchmarks, like ChatDev and MetaGPT, establishing a new standard and showcasing the capabilities of multi-agent systems in advanced software engineering environments. Our source code can be found at https://github.com/FSoft-AI4Code/AgileCoder.
翻訳日:2024-06-20 00:46:12 公開日:2024-06-16
# カルモゴロフ・アルノルドネットワーク(KAN)の初期研究

Initial Investigation of Kolmogorov-Arnold Networks (KANs) as Feature Extractors for IMU Based Human Activity Recognition ( http://arxiv.org/abs/2406.11914v1 )

ライセンス: Link先を確認
Mengxi Liu, Daniel Geißler, Dominique Nshimyimana, Sizhen Bian, Bo Zhou, Paul Lukowicz, (参考訳) 本研究では,センサベース(特にIMU)ヒューマンアクティビティ認識(HAR)のための特徴抽出器として,新しいニューラルネットワークアーキテクチャであるKAN(Kolmogorov-Arnold Networks)の利用について検討する。 従来のネットワークが各ノードで入力のパラメータ化重み付け和を実行し、その結果を静的に定義された非線形性にフィードすると、Kansは各ノードに通じるエッジ上でB-SPLINESで表される非線形計算を行い、ノードで入力をまとめる。 重みを学習する代わりに、システムはスプラインパラメータを学習する。 もともとの研究では、そのようなネットワークは回帰やPDE解などの洗練された実値関数をより効率的に正確に学習できることが示されている。 このような能力は、IMUベースのHARの低レベル特徴の計算にも有効である、という仮説を立てる。 そこで本研究では,IMUに基づく人間活動認識タスクの特徴抽出アーキテクチャとして,4つのアーキテクチャのバリエーションを含む機能抽出アーキテクチャとして,kanを実装した。 本研究では,4つの公開HARデータセット上でのkan特徴抽出器の性能評価を行った。 Kanベースの特徴抽出器は、パラメータ効率を向上しつつ、すべてのデータセット上でCNNベースの抽出器より優れていることを示す。

In this work, we explore the use of a novel neural network architecture, the Kolmogorov-Arnold Networks (KANs) as feature extractors for sensor-based (specifically IMU) Human Activity Recognition (HAR). Where conventional networks perform a parameterized weighted sum of the inputs at each node and then feed the result into a statically defined nonlinearity, KANs perform non-linear computations represented by B-SPLINES on the edges leading to each node and then just sum up the inputs at the node. Instead of learning weights, the system learns the spline parameters. In the original work, such networks have been shown to be able to more efficiently and exactly learn sophisticated real valued functions e.g. in regression or PDE solution. We hypothesize that such an ability is also advantageous for computing low-level features for IMU-based HAR. To this end, we have implemented KAN as the feature extraction architecture for IMU-based human activity recognition tasks, including four architecture variations. We present an initial performance investigation of the KAN feature extractor on four public HAR datasets. It shows that the KAN-based feature extractor outperforms CNN-based extractors on all datasets while being more parameter efficient.
翻訳日:2024-06-20 00:46:12 公開日:2024-06-16
# miniCodeProps: コードプロパティを証明するための最小ベンチマーク

miniCodeProps: a Minimal Benchmark for Proving Code Properties ( http://arxiv.org/abs/2406.11915v1 )

ライセンス: Link先を確認
Evan Lohn, Sean Welleck, (参考訳) ニューラルネットワークは、Leanのような証明アシスタントで証明された数学的定理の自動化において、最初の約束を示している。 同じ証明アシスタントを使用して、仕様と仕様が保持する証明とをペアにすることで、コードの正しさを検証することができる。 コードや仕様、証明の記述を自動化することで、検証コストを削減したり、あるいは野心的に、機械学習システムが正当に正しいコードを出力できるようにする。 しかし、現在のニューラル定理の証明者が、たとえ比較的単純なプログラムでも自動的に検証できるかどうかは不明である。 本稿では,提供されるプログラムと仕様の証明を自動的に生成するサブプロブレムを目的とした,Lean証明アシスタントの177のプログラム仕様のベンチマークであるminiCodePropsを紹介する。 miniCodePropsには、単純で自己完結したプログラム(リスト、自然数、バイナリツリーなど)に関する仕様が含まれており、証明の難しさは様々である。 その単純さにもかかわらず、 miniCodeProps は現在の LLM ベースのプロデューサにとって困難であり、仕様の約25%を証明できた。 公式に検証されたコードのコンテキストで証明された自動定理のベンチマークとして、MiniCodePropsを公開しています。

Neural networks have shown initial promise in automating mathematical theorem proving in proof assistants such as Lean. The same proof assistants can be used to verify the correctness of code by pairing code with specifications and proofs that the specifications hold. Automating the writing of code, specifications, and proofs could lower the cost of verification, or, ambitiously, enable a machine learning system to output provably correct code. However, it remains unclear whether current neural theorem provers can automatically verify even relatively simple programs. We present miniCodeProps, a benchmark of 177 program specifications in the Lean proof assistant, aimed at the subproblem of automatically generating a proof for a provided program and specification. miniCodeProps contains specifications about simple, self-contained programs (e.g., lists, natural numbers, binary trees) with varied proof difficulty. Despite its simplicity, miniCodeProps is challenging for current LLM-based provers, which succeed in proving about 25 percent of the specifications. We publicly release miniCodeProps as a benchmark for furthering automated theorem proving in the context of formally verified code.
翻訳日:2024-06-20 00:46:12 公開日:2024-06-16
# ソーシャルメディアにおける大規模情報アクセスのためのエレファントヘルディング最適化

Enhanced Elephant Herding Optimization for Large Scale Information Access on Social Media ( http://arxiv.org/abs/2406.11916v1 )

ライセンス: Link先を確認
Yassine Drias, Habiba Drias, Ilyes Khennak, (参考訳) 本稿では,情報採集理論 (IFT) とゾウ群集最適化 (EHO) に触発された新しい情報アクセス手法を提案する。 まず,IFTに基づくソーシャルメディア情報アクセスモデルを提案する。 次に、元のEHOアルゴリズムを応用して情報アクセス問題に適用する。 IFTとEHOの組み合わせは、ソーシャルメディアで関連する情報を見つける良い機会となっている。 しかし、揮発性データを扱う場合、性能は急降下する。 この問題を克服するため,大規模情報アクセスのための拡張版EHOを開発した。 本稿では,クラスタリングを用いた領域分割と集団移動を含む,新しい演算子をアルゴリズムに導入する。 作業を検証するために、140万以上のツイートのデータセットを作成し、大規模な実験を行った。 これらの結果から,本手法が有効かつ効率的な方法で関連情報を見つける能力を明らかにした。 彼らはまた、異なる側面に関する元のアルゴリズムよりも改良されたEHOの利点を強調した。 さらに,他の2つのメタヒューリスティック情報利用手法,すなわちアリコロニーシステムと粒子群最適化との比較を行った。 全体として、結果は有望だ。

In this article, we present a novel information access approach inspired by the information foraging theory (IFT) and elephant herding optimization (EHO). First, we propose a model for information access on social media based on the IFT. We then elaborate an adaptation of the original EHO algorithm to apply it to the information access problem. The combination of the IFT and EHO constitutes a good opportunity to find relevant information on social media. However, when dealing with voluminous data, the performance undergoes a sharp drop. To overcome this issue, we developed an enhanced version of EHO for large scale information access. We introduce new operators to the algorithm, including territories delimitation and clan migration using clustering. To validate our work, we created a dataset of more than 1.4 million tweets, on which we carried out extensive experiments. The outcomes reveal the ability of our approach to find relevant information in an effective and efficient way. They also highlight the advantages of the improved version of EHO over the original algorithm regarding different aspects. Furthermore, we undertook a comparative study with two other metaheuristic-based information foraging approaches, namely ant colony system and particle swarm optimization. Overall, the results are very promising.
翻訳日:2024-06-20 00:46:12 公開日:2024-06-16
# 教師なし言語間学習におけるWasserstein-Procrustesの新しい応用について

On a Novel Application of Wasserstein-Procrustes for Unsupervised Cross-Lingual Learning ( http://arxiv.org/abs/2007.09456v2 )

ライセンス: Link先を確認
Guillem Ramírez, Rumen Dangovski, Preslav Nakov, Marin Soljačić, (参考訳) 非常に大きなモノリンガルテキストコーパスで事前訓練された、教師なしの単語埋め込みの出現は、自然言語処理(NLP)における現在進行中の神経革命の中核にある。 当初英語に導入され、そのような事前訓練された単語の埋め込みは、他の多くの言語ですぐに現れた。 その後、言語にまたがる埋め込み空間の整合化が試みられ、多くの言語間NLPアプリケーションを可能にした。 教師なし言語学習(UCL)を用いてアライメントを実行することは、ほとんどデータを必要としておらず、しばしば教師なしおよび半教師付きアプローチと競合するため、特に魅力的である。 ここでは、UCLの一般的な手法を分析し、それらの目的がワッサーシュタイン・プロクリストス問題の本質的なバージョンであることをしばしば見出す。 そこで,我々はWasserstein-Procrustesを直接的に解き,ICP法,MUSE法,Procrustes法などの一般的なUCL法を改良し,改良する手法を考案した。 標準データセットに対する評価実験では,これらの手法よりも大きな改善が見られた。 我々は、Wasserstein-Procrustes問題を再考することで、さらなる研究が可能になり、言語間の単語埋め込みを調整するためのより良いアルゴリズムの開発に役立つと考えている。 実験を再現するためのコードと指示はhttps://github.com/guillemram97/wp-hungarian.comで公開されています。

The emergence of unsupervised word embeddings, pre-trained on very large monolingual text corpora, is at the core of the ongoing neural revolution in Natural Language Processing (NLP). Initially introduced for English, such pre-trained word embeddings quickly emerged for a number of other languages. Subsequently, there have been a number of attempts to align the embedding spaces across languages, which could enable a number of cross-language NLP applications. Performing the alignment using unsupervised cross-lingual learning (UCL) is especially attractive as it requires little data and often rivals supervised and semi-supervised approaches. Here, we analyze popular methods for UCL and we find that often their objectives are, intrinsically, versions of the Wasserstein-Procrustes problem. Hence, we devise an approach to solve Wasserstein-Procrustes in a direct way, which can be used to refine and to improve popular UCL methods such as iterative closest point (ICP), multilingual unsupervised and supervised embeddings (MUSE) and supervised Procrustes methods. Our evaluation experiments on standard datasets show sizable improvements over these approaches. We believe that our rethinking of the Wasserstein-Procrustes problem could enable further research, thus helping to develop better algorithms for aligning word embeddings across languages. Our code and instructions to reproduce the experiments are available at https://github.com/guillemram97/wp-hungarian.
翻訳日:2024-06-19 13:36:52 公開日:2024-06-16
# Smooth Optimal Transport Maps のプラグイン推定

Plugin Estimation of Smooth Optimal Transport Maps ( http://arxiv.org/abs/2107.12364v3 )

ライセンス: Link先を確認
Tudor Manole, Sivaraman Balakrishnan, Jonathan Niles-Weed, Larry Wasserman, (参考訳) 2つの分布間の最適輸送マップに対する多くの自然推定器を解析し、それらが極小最適であることを示す。 プラグインアプローチを採用する:我々の推定子は、観測結果から導出された測度の間の最適結合であり、$\mathbb{R}^d$ 上の関数を定義するように適切に拡張される。 基礎となる写像がリプシッツであると仮定すると、経験的測度間の最適結合を計算し、それを線形滑らか化器を用いて拡張すると、既にミニマックス最適推定器が与えられる。 基底写像がより高い正則性を楽しむとき、適切な非パラメトリック密度推定の最適結合がより高速な速度をもたらすことを示す。 我々の研究は、二次ワッサーシュタイン距離に対する対応するプラグイン推定器の危険性に関する新たな限界を提供し、この問題は、滑らかで凸なブレニエポテンシャルに対する安定性の議論を用いて最適な輸送写像を推定することとどのように関係しているかを示す。 この結果の応用として、下層の分布が十分に滑らかな密度を持つときに、その集団が中心となる正方形ワッサーシュタイン距離のプラグイン推定器に対する中心極限定理を導出する。 経験的推定子に対する既知の中心極限定理とは対照的に、この結果は2次ワッサーシュタイン距離の統計的推測に容易に寄与する。

We analyze a number of natural estimators for the optimal transport map between two distributions and show that they are minimax optimal. We adopt the plugin approach: our estimators are simply optimal couplings between measures derived from our observations, appropriately extended so that they define functions on $\mathbb{R}^d$. When the underlying map is assumed to be Lipschitz, we show that computing the optimal coupling between the empirical measures, and extending it using linear smoothers, already gives a minimax optimal estimator. When the underlying map enjoys higher regularity, we show that the optimal coupling between appropriate nonparametric density estimates yields faster rates. Our work also provides new bounds on the risk of corresponding plugin estimators for the quadratic Wasserstein distance, and we show how this problem relates to that of estimating optimal transport maps using stability arguments for smooth and strongly convex Brenier potentials. As an application of our results, we derive central limit theorems for plugin estimators of the squared Wasserstein distance, which are centered at their population counterpart when the underlying distributions have sufficiently smooth densities. In contrast to known central limit theorems for empirical estimators, this result easily lends itself to statistical inference for the quadratic Wasserstein distance.
翻訳日:2024-06-19 13:36:52 公開日:2024-06-16
# テキスト可読性評価の推進:手書きの言語機能を備えたトランスフォーマー

Pushing on Text Readability Assessment: A Transformer Meets Handcrafted Linguistic Features ( http://arxiv.org/abs/2109.12258v2 )

ライセンス: Link先を確認
Bruce W. Lee, Yoo Sung Jang, Jason Hyung-Jong Lee, (参考訳) 可読性評価における2つの重要な改善点を報告する。 1.先進的意味論と三つの新しい特徴 2. 従来のMLモデル(例:ランダムフォレスト、手作り機能)がトランスフォーマー(例:RoBERTa)と組み合わせてモデル性能を向上できるというタイムリーな証拠。 まず、適切なトランスフォーマーと従来のMLモデルについて検討する。 次に,自家製抽出ソフトウェアを用いて手作り言語特徴255点を抽出する。 最後に、これらを組み立てて複数のハイブリッドモデルを作成し、可読性評価において一般的なデータセットの最先端(SOTA)精度を達成する。 手作りの機能は、小さなデータセット上でのパフォーマンスをモデル化するのに役立ちます。 特に,我々のRoBERTA-RF-T1ハイブリッドは,従来のSOTAに比べて20.3%増加し,ほぼ完全な分類精度が99%に達する。

We report two essential improvements in readability assessment: 1. three novel features in advanced semantics and 2. the timely evidence that traditional ML models (e.g. Random Forest, using handcrafted features) can combine with transformers (e.g. RoBERTa) to augment model performance. First, we explore suitable transformers and traditional ML models. Then, we extract 255 handcrafted linguistic features using self-developed extraction software. Finally, we assemble those to create several hybrid models, achieving state-of-the-art (SOTA) accuracy on popular datasets in readability assessment. The use of handcrafted features help model performance on smaller datasets. Notably, our RoBERTA-RF-T1 hybrid achieves the near-perfect classification accuracy of 99%, a 20.3% increase from the previous SOTA.
翻訳日:2024-06-19 13:36:52 公開日:2024-06-16
# ステレオ3次元物体検出と暗黙的表面再構成

Joint stereo 3D object detection and implicit surface reconstruction ( http://arxiv.org/abs/2111.12924v4 )

ライセンス: Link先を確認
Shichao Li, Xijie Huang, Zechun Liu, Kwang-Ting Cheng, (参考訳) 本稿では,SO(3)の正確なオブジェクト指向を復元し,ステレオRGB画像から暗黙的な剛性形状を同時に予測できる学習ベースのフレームワークS-3D-RCNNを提案する。 配向推定では、局所的な外観を観測角度にマッピングする従来の研究とは対照的に、意味のある幾何学的表現(IGR)を抽出してプログレッシブアプローチを提案する。 このアプローチは、知覚強度を1つか2つのビューからオブジェクト部分座標に変換するディープモデルにより、カメラ座標系において、直接自我中心のオブジェクト指向推定を実現する。 3次元境界ボックス内でのより詳細な記述を実現するため,ステレオ画像からの暗黙的な形状推定問題について検討する。 我々は、点ベース表現を設計し、目に見えない表面幻覚問題に明示的に対処するためにIGRを拡張することによって、可視物体表面をモデル化する。 広汎な実験により提案したIGRの有効性が検証され,S-3D-RCNNによる3次元シーン理解性能が向上した。 また、暗黙的形状推定の評価のために、KITTIベンチマークに新しい指標を設計した。

We present a new learning-based framework S-3D-RCNN that can recover accurate object orientation in SO(3) and simultaneously predict implicit rigid shapes from stereo RGB images. For orientation estimation, in contrast to previous studies that map local appearance to observation angles, we propose a progressive approach by extracting meaningful Intermediate Geometrical Representations (IGRs). This approach features a deep model that transforms perceived intensities from one or two views to object part coordinates to achieve direct egocentric object orientation estimation in the camera coordinate system. To further achieve finer description inside 3D bounding boxes, we investigate the implicit shape estimation problem from stereo images. We model visible object surfaces by designing a point-based representation, augmenting IGRs to explicitly address the unseen surface hallucination problem. Extensive experiments validate the effectiveness of the proposed IGRs, and S-3D-RCNN achieves superior 3D scene understanding performance. We also designed new metrics on the KITTI benchmark for our evaluation of implicit shape estimation.
翻訳日:2024-06-19 13:36:52 公開日:2024-06-16
# デイジーブルームフィルタ

Daisy Bloom Filters ( http://arxiv.org/abs/2205.14894v2 )

ライセンス: Link先を確認
Ioana O. Bercea, Jakob Bæk Tejs Houen, Rasmus Pagh, (参考訳) フィルター(英: filter)とは、ある宇宙から与えられた要素の集合S$(可算集合)の近似を保存するために広く用いられるデータ構造である。 スーパーセット $S'\supseteq S$ は ''close to $S$'' であり、$x\not\in S$ の場合、$x\in S'$ の確率は $\varepsilon > 0$ となる。 ブルームフィルタを使用する利点は、いくつかの偽陽性が許容されるとき、空間使用量が$S$を正確に保存するために必要なものよりも小さくなることである。 フィルタは最悪の場合の観点からよく理解されているが、最先端の構造が特定のデータやクエリの分布に最適に近づいていないことは明らかである。 例えば、ある元が 1 に近い確率を持つ$S$ であるとする。 すると、それを常に$S'$に含め、フィルタにこれらの要素を表現せずにスペースを節約することは理にかなっている。 このような問題は、重み付きブルームフィルタ(Bruck, Gao and Jiang, ISIT 2006)や、学習したコンポーネントへのアクセスを利用するブルームフィルタの実装(Vaidya, Knorr, Mitzenmacher, Krask, ICLR 2021)の文脈で提起されている。 本稿では,そのようなフィルタが要求する期待空間の低境界について述べる。 また、下界は、最悪のケースでクエリや挿入を行うフィルタ構造を示し、製品分布から引き出された入力集合よりも高い確率で最大$\varepsilon$の偽陽性率を示すことにより、漸近的に厳密であることを示す。 また、標準的なBloomフィルタよりもはるかに少ないスペースで操作を高速に実行する、$\textit{Daisy Bloom filter}$というBloomフィルタの代替案も提示します。

A filter is a widely used data structure for storing an approximation of a given set $S$ of elements from some universe $U$ (a countable set).It represents a superset $S'\supseteq S$ that is ''close to $S$'' in the sense that for $x\not\in S$, the probability that $x\in S'$ is bounded by some $\varepsilon > 0$. The advantage of using a Bloom filter, when some false positives are acceptable, is that the space usage becomes smaller than what is required to store $S$ exactly. Though filters are well-understood from a worst-case perspective, it is clear that state-of-the-art constructions may not be close to optimal for particular distributions of data and queries. Suppose, for instance, that some elements are in $S$ with probability close to 1. Then it would make sense to always include them in $S'$, saving space by not having to represent these elements in the filter. Questions like this have been raised in the context of Weighted Bloom filters (Bruck, Gao and Jiang, ISIT 2006) and Bloom filter implementations that make use of access to learned components (Vaidya, Knorr, Mitzenmacher, and Krask, ICLR 2021). In this paper, we present a lower bound for the expected space that such a filter requires. We also show that the lower bound is asymptotically tight by exhibiting a filter construction that executes queries and insertions in worst-case constant time, and has a false positive rate at most $\varepsilon $ with high probability over input sets drawn from a product distribution. We also present a Bloom filter alternative, which we call the $\textit{Daisy Bloom filter}$, that executes operations faster and uses significantly less space than the standard Bloom filter.
翻訳日:2024-06-19 13:29:49 公開日:2024-06-16
# 包括的評価とリーダーシップによる長期文書ランキングモデルの性能理解

Understanding Performance of Long-Document Ranking Models through Comprehensive Evaluation and Leaderboarding ( http://arxiv.org/abs/2207.01262v3 )

ライセンス: Link先を確認
Leonid Boytsov, David Akinpelu, Tianyi Lin, Fangwei Gao, Yutian Zhao, Jeffrey Huang, Nipun Katyal, Eric Nyberg, (参考訳) 我々は、長いドキュメント(FlashAttentionで訓練された最近のLongPモデルを含む)のランク付けのための20以上のトランスフォーマーモデルを評価し、それらを単純なFirstPベースラインと比較した。 我々は、MS MARCO Documents v1を初等訓練セットとして使用し、ゼロショット転送モデルと微調整モデルの両方を評価した。 MS MARCO, TREC DLs, Robust04 では FirstP は NDCG と MRR で 5% 以上の性能を示した。 これは、長いコンテキストを処理できないモデルによるものではなく、文書の始めに分布が歪んだ関連するパスの位置バイアスによるものであると推測した。 その結果,MS MARCO FarRelevant(MS MARCO PassagesをベースとしたMS MARCO FarRelevant)を作成した。 MS MARCO FarRelevantの実験では、より長いコンテキストとモデルパフォーマンスに限定的な変数を組み込むことのメリットはほとんどありませんでしたが、モデル間での劇的な違いが明らかになりました。 FirstPモデルは、ゼロショットと微調整の両方のシナリオにおいて、ほぼランダムベースラインレベルで実行された。 MaxPやPARADE Attentionといった単純なアグリゲーションモデルはゼロショット精度が良いが、微調整の利点はほとんどなかった。 他のほとんどのモデルではゼロショット性能が劣り(時々ランダムなベースラインレベルで)、微調整後に最大13-28%の速度でマックスPを上回った。 このように、位置バイアスは、より長い文書コンテキストを処理することの利点を減少させるだけでなく、関連するパスの分布が大幅に変化するとき、位置バイアスにモデル過度に適合し、ゼロショット環境では性能が低下する。 ソフトウェアとデータを利用可能にしています。

We evaluated 20+ Transformer models for ranking of long documents (including recent LongP models trained with FlashAttention) and compared them with a simple FirstP baseline, which applies the same model to the truncated input (at most 512 tokens). We used MS MARCO Documents v1 as a primary training set and evaluated both the zero-shot transferred and fine-tuned models. On MS MARCO, TREC DLs, and Robust04 no long-document model outperformed FirstP by more than 5% in NDCG and MRR (when averaged over all test sets). We conjectured this was not due to models' inability to process long context, but due to a positional bias of relevant passages, whose distribution was skewed towards the beginning of documents. We found direct evidence of this bias in some test sets, which motivated us to create MS MARCO FarRelevant (based on MS MARCO Passages) where the relevant passages were not present among the first 512 tokens. Unlike standard collections where we saw both little benefit from incorporating longer contexts and limited variability in model performance (within a few %), experiments on MS MARCO FarRelevant uncovered dramatic differences among models. The FirstP models performed roughly at the random-baseline level in both zero-shot and fine-tuning scenarios. Simple aggregation models including MaxP and PARADE Attention had good zero-shot accuracy, but benefited little from fine-tuning. Most other models had poor zero-shot performance (sometimes at a random baseline level), but outstripped MaxP by as much as 13-28% after fine-tuning. Thus, the positional bias not only diminishes benefits of processing longer document contexts, but also leads to model overfitting to positional bias and performing poorly in a zero-shot setting when the distribution of relevant passages changes substantially. We make our software and data available.
翻訳日:2024-06-19 13:29:49 公開日:2024-06-16
# 自動登録に基づく擬似訓練データ変換による胸部異常局所化のための生成ネットワークの強化

Enhancing Generative Networks for Chest Anomaly Localization through Automatic Registration-Based Unpaired-to-Pseudo-Paired Training Data Translation ( http://arxiv.org/abs/2207.10324v3 )

ライセンス: Link先を確認
Kyungsu Kim, Seong Je Oh, Chae Yeon Lim, Ju Hwan Lee, Tae Uk Kim, Myung Jin Chung, (参考訳) 生成逆数ネットワーク(GAN-IT)に基づく画像翻訳は, 画素レベルのアノテーションがなくても, 胸部X線画像(AL-CXR)における異常領域の正確な位置決めを行うための有望な手法である。 しかし、異種無ペアデータセットは、重要な特徴を抽出し、正常なケースと異常なケースを区別する既存の手法を損なうため、不正確で不安定なAL-CXRとなる。 この問題に対処するために,登録とデータ拡張を含む2段階のGAN-ITを提案する。 第1段階では,線形な大域的および一様座標変換とAIに基づく非線形座標微調整を逐次的に利用することにより,未ペアデータからペアデータに変換する,高度なディープラーニングベースの登録手法を導入する。 このアプローチにより,肺の全構造を認識しつつ,肺の詳細な位置を独立かつ複雑な座標変換が可能となり,未確認条件による本質的な遺物を解決することで,より高い登録性能が得られる。 第2段階では, 左肺病変と右肺病変とを交互に交換することにより, 異常部位の多様化にデータ拡張を適用し, さらに, 左肺病変と右肺病変を表わすデータ分布の不均衡を緩和することにより, 性能の向上を図る。 提案手法はモデル非依存であり,代表的AIモデルにおいて一貫したAL-CXR性能向上を示す。 したがって, AL-CXR 用 GAN-IT は, 学習データが乏しく, 難易度が高い場合でも, 基礎的枠組みを用いて臨床実装が可能であると考えられた。

Image translation based on a generative adversarial network (GAN-IT) is a promising method for the precise localization of abnormal regions in chest X-ray images (AL-CXR) even without the pixel-level annotation. However, heterogeneous unpaired datasets undermine existing methods to extract key features and distinguish normal from abnormal cases, resulting in inaccurate and unstable AL-CXR. To address this problem, we propose an improved two-stage GAN-IT involving registration and data augmentation. For the first stage, we introduce an advanced deep-learning-based registration technique that virtually and reasonably converts unpaired data into paired data for learning registration maps, by sequentially utilizing linear-based global and uniform coordinate transformation and AI-based non-linear coordinate fine-tuning. This approach enables independent and complex coordinate transformation of each detailed location of the lung while recognizing the entire lung structure, thereby achieving higher registration performance with resolving inherent artifacts caused by unpaired conditions. For the second stage, we apply data augmentation to diversify anomaly locations by swapping the left and right lung regions on the uniform registered frames, further improving the performance by alleviating imbalance in data distribution showing left and right lung lesions. The proposed method is model agnostic and shows consistent AL-CXR performance improvement in representative AI models. Therefore, we believe GAN-IT for AL-CXR can be clinically implemented by using our basis framework, even if learning data are scarce or difficult for the pixel-level disease annotation.
翻訳日:2024-06-19 13:29:49 公開日:2024-06-16
# 対称性保護トポロジカル鎖間の遷移における境界分解量子臨界性

Boundary deconfined quantum criticality at transitions between symmetry-protected topological chains ( http://arxiv.org/abs/2208.12258v2 )

ライセンス: Link先を確認
Saranesh Prembabu, Ryan Thorngren, Ruben Verresen, (参考訳) 長年の研究により、保護されたエッジモードを持つトポロジカル量子物質の深い理解が明らかになった。 それぞれのエッジモードが相容れない2つのトポロジカル位相間のチューニングにおいて、よりリッチな物理が現れることを報告する。 エッジでのフラストレーションは、端がゼロ次元である場合でも、エキゾチックな非ランダウ遷移を持つ対称性を破る位相のような新しい境界物理学をもたらす。 最小ケーススタディとして、$\mathbb{Z}_3 \times \mathbb{Z}_3$対称性を持つスピン鎖を考えると、2つの非自明な対称性保護位相(SPT)が現れる。 これらのSPT相の間のバルク 1+1D 臨界遷移では、2つの安定な 0+1D 境界位相が存在し、それぞれが$\mathbb{Z}_3$対称性の1つを自発的に破る。 さらに、1つの境界パラメータがこれらの2つの位相間の非ランダウ境界臨界遷移をチューニングしていることが分かる。 これは、非畳み込み量子臨界(deconfined quantum criticality)として知られる荷電渦凝縮によって引き起こされるエキゾチック現象の0+1Dバージョンを構成する。 この研究は、非自明な位相位相間の臨界性のリッチな未探索物理学を強調し、ギャップのない位相位相の急成長する分野に関する洞察を提供する。

Decades of research have revealed a deep understanding of topological quantum matter with protected edge modes. We report that even richer physics emerges when tuning between two topological phases of matter whose respective edge modes are incompatible. The frustration at the edge leads to novel boundary physics, such as symmetry-breaking phases with exotic non-Landau transitions -- even when the edge is zero-dimensional. As a minimal case study we consider spin chains with $\mathbb{Z}_3 \times \mathbb{Z}_3$ symmetry, exhibiting two nontrivial symmetry-protected topological (SPT) phases. At the bulk 1+1D critical transition between these SPT phases, we find two stable 0+1D boundary phases, each spontaneously breaking one of the $\mathbb{Z}_3$ symmetries. Furthermore, we find that a single boundary parameter tunes a non-Landau boundary critical transition between these two phases. This constitutes a 0+1D version of an exotic phenomenon driven by charged vortex condensation known as deconfined quantum criticality. This work highlights the rich unexplored physics of criticality between nontrivial topological phases and provides insights into the burgeoning field of gapless topological phases.
翻訳日:2024-06-19 13:29:49 公開日:2024-06-16
# 無線フェデレーション学習における収束促進 : Stackelberg ゲームアプローチ

Convergence Acceleration in Wireless Federated Learning: A Stackelberg Game Approach ( http://arxiv.org/abs/2209.06623v2 )

ライセンス: Link先を確認
Kaidi Wang, Yi Ma, Mahdi Boloursaz Mashhadi, Chuan Heng Foh, Rahim Tafazolli, Zhi Ding, (参考訳) 本稿では,FLOWN(Federated Learning over Wireless Network)における収束時間の共同最適化に関する問題点を考察する。 エネルギー制約下でのFLOWNの参加デバイス選択の基準とプロトコルを考察し,そのデバイス選択への影響を導出する。 トレーニング効率を向上させるため、FLOWNは参加者間の勾配更新の鮮度を評価することができる。 コンバージェンスを高速化するために,Stackelbergゲームベースフレームワークにおけるグローバル損失最小化と遅延最小化を共同で検討する。 具体的には,各ラウンドの時間消費を抑えるため,必要なラウンド数を削減するためのリーダレベルの問題としてグローバル損失最小化を定式化し,従量レベルの問題として遅延最小化を定式化する。 従者レベルの問題をリソース割り当てとサブチャネル割り当てを含む2つのサブプロブレムに分解することにより、単調な最適化とマッチング理論により従者による最適な戦略を実現する。 リーダレベルでは、収束率の上限を導出し、その後、グローバル損失最小化問題を修正し、新しいAoUベースのデバイス選択アルゴリズムを提案する。 シミュレーション結果から,AoUをベースとしたデバイス選択方式のコンバージェンス率や,利用可能なサブチャネルの効率的な利用性において,優れた性能を示す。

This paper studies issues that arise with respect to the joint optimization for convergence time in federated learning over wireless networks (FLOWN). We consider the criterion and protocol for selection of participating devices in FLOWN under the energy constraint and derive its impact on device selection. In order to improve the training efficiency, age-of-information (AoI) enables FLOWN to assess the freshness of gradient updates among participants. Aiming to speed up convergence, we jointly investigate global loss minimization and latency minimization in a Stackelberg game based framework. Specifically, we formulate global loss minimization as a leader-level problem for reducing the number of required rounds, and latency minimization as a follower-level problem to reduce time consumption of each round. By decoupling the follower-level problem into two sub-problems, including resource allocation and sub-channel assignment, we achieve an optimal strategy of the follower through monotonic optimization and matching theory. At the leader-level, we derive an upper bound of convergence rate and subsequently reformulate the global loss minimization problem and propose a new age-of-update (AoU) based device selection algorithm. Simulation results indicate the superior performance of the proposed AoU based device selection scheme in terms of the convergence rate, as well as efficient utilization of available sub-channels.
翻訳日:2024-06-19 13:29:49 公開日:2024-06-16
# 準等角写像を用いた位相保存セグメンテーションのための学習型フレームワーク

A Learning-based Framework for Topology-Preserving Segmentation using Quasiconformal Mappings ( http://arxiv.org/abs/2210.03299v3 )

ライセンス: Link先を確認
Han Zhang, Lok Ming Lui, (参考訳) 画像中の物体を位相特性を維持しながら抽出できる変形モデルであるトポロジー保存セグメンテーションネットワークを提案する。 このネットワークは、限られたデータでトレーニングされた場合でも、テンプレートマスクと同じトポロジを持つセグメンテーションマスクを生成する。 ネットワークは、関心領域を囲むようにテンプレートマスクを歪ませる変形マップを生成する変形推定ネットワークと、準同型理論に基づいて関連するベルトラミ係数をトラストすることで変形マップの単射性を保証するベルトラミ調整モジュールの2つのコンポーネントから構成される。 提案するネットワークは教師なしの方法でトレーニングすることもでき、ラベル付きトレーニングデータを必要としない。 これは、教師なしセグメンテーション損失を組み込むことによって達成される。 様々な画像データセットに対する実験結果から, TPSNは, 正確なトポロジを持つ最先端モデルよりも, セグメンテーションの精度がよいことが示された。 さらに,複数のオブジェクトセグメンテーションを扱うTPSNの能力を示す。

We propose the Topology-Preserving Segmentation Network, a deformation-based model that can extract objects in an image while maintaining their topological properties. This network generates segmentation masks that have the same topology as the template mask, even when trained with limited data. The network consists of two components: the Deformation Estimation Network, which produces a deformation map that warps the template mask to enclose the region of interest, and the Beltrami Adjustment Module, which ensures the bijectivity of the deformation map by truncating the associated Beltrami coefficient based on Quasiconformal theories. The proposed network can also be trained in an unsupervised manner, eliminating the need for labeled training data. This is achieved by incorporating an unsupervised segmentation loss. Our experimental results on various image datasets show that TPSN achieves better segmentation accuracy than state-of-the-art models with correct topology. Furthermore, we demonstrate TPSN's ability to handle multiple object segmentation.
翻訳日:2024-06-19 13:29:49 公開日:2024-06-16
# 連続可変量子状態設計:理論と応用

Continuous-variable quantum state designs: theory and applications ( http://arxiv.org/abs/2211.05127v3 )

ライセンス: Link先を確認
Joseph T. Iosue, Kunal Sharma, Michael J. Gullans, Victor V. Albert, (参考訳) 量子状態設計の概念を無限次元空間に一般化する。 最初に、continuous-variable (CV) 状態の定義の下で、Comm から $t$-designs を証明します。 数学。 Phys 326, 755 (2014), $t\geq2$の状態設計は存在しない。 同様に、CVユニタリ $t$-designs が $t\geq 2$ に対して存在しないことを証明する。 CV状態設計の代替的定義を提案し、これをrigged $t$-designsと呼び、$t=2$の明示的な構成を提供する。 剛体設計の応用として,CV状態のための設計ベースのシャドウトモグラフィープロトコルを開発した。 エネルギー制約されたリグデザインを用いて、CV量子チャネルの平均忠実度を定義し、この忠実度とCVエンタングルメント忠実度を関連付ける。 独立性による追加的な結果として、トーラスの2ドル設計と相互に偏りのない基底の完全集合との接続を確立する。

We generalize the notion of quantum state designs to infinite-dimensional spaces. We first prove that, under the definition of continuous-variable (CV) state $t$-designs from Comm. Math. Phys. 326, 755 (2014), no state designs exist for $t\geq2$. Similarly, we prove that no CV unitary $t$-designs exist for $t\geq 2$. We propose an alternative definition for CV state designs, which we call rigged $t$-designs, and provide explicit constructions for $t=2$. As an application of rigged designs, we develop a design-based shadow-tomography protocol for CV states. Using energy-constrained versions of rigged designs, we define an average fidelity for CV quantum channels and relate this fidelity to the CV entanglement fidelity. As an additional result of independent interest, we establish a connection between torus $2$-designs and complete sets of mutually unbiased bases.
翻訳日:2024-06-19 13:29:49 公開日:2024-06-16
# ユニバーサル量子回路へのマッチゲートシミュレーション手法の拡張

Extending Matchgate Simulation Methods to Universal Quantum Circuits ( http://arxiv.org/abs/2302.02654v2 )

ライセンス: Link先を確認
Avinash Mocherla, Lingling Lao, Dan E. Browne, (参考訳) マッチゲート(英: Matchgate)は、多項式時間で古典的にシミュレート可能であることが知られている、パリティ保存の2ビットゲートの族である。 本研究は, 1量子ビットパウリ測度と積状態入力の設定において, 共振ゲートを持つ$\boldsymbol{n}$-qubit回路, $\boldsymbol{N}$ gates, $\boldsymbol{m}$, $\boldsymbol{N-m}$を古典的にシミュレートするシミュレーション手法を提案する。 私たちが考慮している普遍性誘導ゲートには、SWAP、CZ、CPhaseゲートがある。 固定された$\boldsymbol{m}$ as $\boldsymbol{n} \rightarrow \boldsymbol{\infty}$, the resource cost, $\boldsymbol{T}$, as $\boldsymbol{\mathcal{O}\left(\left(\frac{en}{m+1}\right)^{2m+2}\right)}$。 for $\boldsymbol{m}$ scale as a linear function of $\boldsymbol{n}$, $\boldsymbol{T}$ scale as $\boldsymbol{\mathcal{O}\left(2^{2nH\left(\frac{m+1}{n}\right)}\right)}$, where $\boldsymbol{H}(\lambda)$ is the binary entropy function。

Matchgates are a family of parity-preserving two-qubit gates, nearest-neighbour circuits of which are known to be classically simulable in polynomial time. In this work, we present a simulation method to classically simulate an $\boldsymbol{n}$-qubit circuit containing $\boldsymbol{N}$ gates, $\boldsymbol{m}$ of which are universality-enabling gates and $\boldsymbol{N-m}$ of which are matchgates, in the setting of single-qubit Pauli measurements and product state inputs. The universality-enabling gates we consider include the SWAP, CZ, and CPhase gates. For fixed $\boldsymbol{m}$ as $\boldsymbol{n} \rightarrow \boldsymbol{\infty}$, the resource cost, $\boldsymbol{T}$, scales as $\boldsymbol{\mathcal{O}\left(\left(\frac{en}{m+1}\right)^{2m+2}\right)}$. For $\boldsymbol{m}$ scaling as a linear function of $\boldsymbol{n}$, however, $\boldsymbol{T}$ scale as $\boldsymbol{\mathcal{O}\left(2^{2nH\left(\frac{m+1}{n}\right)}\right)}$, where $\boldsymbol{H}(\lambda)$ is the binary entropy function.
翻訳日:2024-06-19 13:20:03 公開日:2024-06-16
# テキスト可読性評価のためのプロンプトに基づく学習

Prompt-based Learning for Text Readability Assessment ( http://arxiv.org/abs/2302.13139v2 )

ライセンス: Link先を確認
Bruce W. Lee, Jason Hyung-Jong Lee, (参考訳) 可読性評価のための事前学習されたSeq2seqモデルの新規適応を提案する。 セq2seqモデル – T5 あるいは BART – が、与えられた2つのテキスト (ペアワイズ) から、どのテキストが困難であるかを識別できるように適応できることを実証する。 テキスト読みやすさのためのニューラルネットワークをテキストからテキストに書き起こすための探索的研究として,Seq2seqトレーニングとランキングに基づく読みやすさ評価のアプローチにおいて,今後の研究に役立つヒントを報告する。 具体的には,9つの入力出力フォーマット/プレフィックスをテストし,最終的なモデル性能に大きな影響を与えることを示す。 また、テキスト・ツー・テキスト・トレーニングとペア・ランキング・セットアップの組み合わせについて論じる。 1) 可読性を教えるために複数の並列テキスト単純化データを活用すること。 2) 可読性(以前のクロスドメインの一般化)の一般的な概念のためにニューラルモデルを訓練する。 最終的に、Newselaの99.6%、OneStop Englishの98.7%のペアの分類精度を共同トレーニングアプローチで報告した。

We propose the novel adaptation of a pre-trained seq2seq model for readability assessment. We prove that a seq2seq model - T5 or BART - can be adapted to discern which text is more difficult from two given texts (pairwise). As an exploratory study to prompt-learn a neural network for text readability in a text-to-text manner, we report useful tips for future work in seq2seq training and ranking-based approach to readability assessment. Specifically, we test nine input-output formats/prefixes and show that they can significantly influence the final model performance. Also, we argue that the combination of text-to-text training and pairwise ranking setup 1) enables leveraging multiple parallel text simplification data for teaching readability and 2) trains a neural model for the general concept of readability (therefore, better cross-domain generalization). At last, we report a 99.6% pairwise classification accuracy on Newsela and a 98.7% for OneStopEnglish, through a joint training approach.
翻訳日:2024-06-19 13:20:03 公開日:2024-06-16
# Mpox-AISM: AIによるMpoxとLike-Mpoxのスーパーモニタリング

Mpox-AISM: AI-Mediated Super Monitoring for Mpox and Like-Mpox ( http://arxiv.org/abs/2303.09780v4 )

ライセンス: Link先を確認
Yubiao Yue, Minghua Jiang, Xinyue Zhang, Jialong Xu, Huacong Ye, Fan Zhang, Zhenzhang Li, Yang Li, (参考訳) 早期サルポックス(mpox)患者のスイフトと正確な診断は、その拡散を避けるために不可欠である。 しかし、一般的な皮膚疾患とmpoxとの類似性や専門的診断の必要性は、早期のmpox患者の診断を必然的に損なうことになり、mpoxの発生に寄与した。 この課題に対処するため,我々は,人工知能(AI)とインターネット技術を用いたリアルタイム可視化技術である"Super Monitoring"を提案した。 具体的には、AIによる"Super Monitoring"(mpox-AISM)は、ディープラーニングモデル、データ拡張、自己教師型学習、クラウドサービスを統合している。 一般にアクセス可能なデータセットによると、mpox-AISMの精密度、リコール、特異度、F1スコアは、それぞれ99.3%、94.1%、99.9%、96.6%に達し、mpoxの診断において94.51%の精度を達成している。 インターネットと通信端末により、mpox-AISMは、実際のシナリオにおいて、早期のmpoxのリアルタイムかつ正確な診断を行う可能性があり、mpoxの発生を防止できる。

Swift and accurate diagnosis for earlier-stage monkeypox (mpox) patients is crucial to avoiding its spread. However, the similarities between common skin disorders and mpox and the need for professional diagnosis unavoidably impaired the diagnosis of earlier-stage mpox patients and contributed to mpox outbreak. To address the challenge, we proposed "Super Monitoring", a real-time visualization technique employing artificial intelligence (AI) and Internet technology to diagnose earlier-stage mpox cheaply, conveniently, and quickly. Concretely, AI-mediated "Super Monitoring" (mpox-AISM) integrates deep learning models, data augmentation, self-supervised learning, and cloud services. According to publicly accessible datasets, mpox-AISM's Precision, Recall, Specificity, and F1-score in diagnosing mpox reach 99.3%, 94.1%, 99.9%, and 96.6%, respectively, and it achieves 94.51% accuracy in diagnosing mpox, six like-mpox skin disorders, and normal skin. With the Internet and communication terminal, mpox-AISM has the potential to perform real-time and accurate diagnosis for earlier-stage mpox in real-world scenarios, thereby preventing mpox outbreak.
翻訳日:2024-06-19 13:20:03 公開日:2024-06-16
# 任意基底状態波関数からの任意の量子次元

Anyon Quantum Dimensions from an Arbitrary Ground State Wave Function ( http://arxiv.org/abs/2304.13235v2 )

ライセンス: Link先を確認
Shang Liu, (参考訳) トポロジカル秩序とトポロジカル量子計算を実現することは、現代物理学の中心的な課題である。 この取り組みにおける重要な、しかし悪名高い難しい疑問は、従来の順序パラメータを欠いたトポロジカル順序の診断方法である。 この問題の突破口は、基底状態の波動関数から非自明な位相秩序を検出するのに使える位相絡みエントロピーの発見であるが、位相秩序を完全に決定するには十分ではない。 本研究では, 単一基底状態波動関数から2次元で全ての電子の量子次元を抽出する単純な絡み合いベースのプロトコルを提案する。 空間多様体と基底状態の選択は任意である。 このプロトコルは連続体で検証され、格子上で検証され、様々な量子シミュレーションプラットフォームで実現可能であることを期待する。

Realizing topological orders and topological quantum computation is a central task of modern physics. An important but notoriously hard question in this endeavor is how to diagnose topological orders that lack conventional order parameters. A breakthrough in this problem is the discovery of topological entanglement entropy, which can be used to detect nontrivial topological order from a ground state wave function, but is far from enough for fully determining the topological order. In this work, we take a key step further in this direction: We propose a simple entanglement-based protocol for extracting the quantum dimensions of all anyons from a single ground state wave function in two dimensions. The choice of the space manifold and the ground state is arbitrary. This protocol is both validated in the continuum and verified on lattices, and we anticipate it to be realizable in various quantum simulation platforms.
翻訳日:2024-06-19 13:10:19 公開日:2024-06-16
# ニューラルシャドウ量子状態トモグラフィー

Neural-Shadow Quantum State Tomography ( http://arxiv.org/abs/2305.01078v2 )

ライセンス: Link先を確認
Victor Wei, W. A. Coish, Pooya Ronagh, Christine A. Muschik, (参考訳) 量子状態トモグラフィ(Quantum state tomography、QST)は、未知の量子状態の再構成技術である。 これは量子技術を開発するための鍵となるプリミティブである。 ニューラルネットワークアンサッツによる量子状態再構築を目的としたNNQST(Neural Network Quantum State Tomography)は、ベース依存のクロスエントロピー損失関数によって実装されることが多い。 NNQSTの最先端実装は、要求される測定設定数の指数関数的な増加を避けるために、特定のサブクラスを特徴付けることに制限されることが多い。 より広範に適用可能な効率的な状態再構成法として、損失関数として不完全性を用いるニューラルネットワークベースのQSTプロトコルであるNSQST(Neural-Shadow quantum state tomography)を提案する。 対象状態の古典的影を用いて不忠実さを推定する。 不忠実さは訓練損失の自然な選択であり、古典的なシャドーフォーマリズムの実証されたサンプル効率の恩恵を受けている。 さらに、NSQSTは、誤差を緩和することなく、様々な種類のノイズに対して堅牢である。 NNQST に対する NSQST の利点を数値的に示すとともに,実効性のある3つの量子状態の相対位相を学習し,直接影推定よりも有利であることを示す。 NSQSTはNNQSTの実用的リーチを大きく拡張し、有効な量子状態トモグラフィーへの新たな経路を提供する。

Quantum state tomography (QST) is the art of reconstructing an unknown quantum state through measurements. It is a key primitive for developing quantum technologies. Neural network quantum state tomography (NNQST), which aims to reconstruct the quantum state via a neural network ansatz, is often implemented via a basis-dependent cross-entropy loss function. State-of-the-art implementations of NNQST are often restricted to characterizing a particular subclass of states, to avoid an exponential growth in the number of required measurement settings. To provide a more broadly applicable method for efficient state reconstruction, we present "neural-shadow quantum state tomography" (NSQST)-an alternative neural network-based QST protocol that uses infidelity as the loss function. The infidelity is estimated using the classical shadows of the target state. Infidelity is a natural choice for training loss, benefiting from the proven measurement sample efficiency of the classical shadow formalism. Furthermore, NSQST is robust against various types of noise without any error mitigation. We numerically demonstrate the advantage of NSQST over NNQST at learning the relative phases of three target quantum states of practical interest, as well as the advantage over direct shadow estimation. NSQST greatly extends the practical reach of NNQST and provides a novel route to effective quantum state tomography.
翻訳日:2024-06-19 13:10:19 公開日:2024-06-16
# 科学的意見要約:論文メタレビュー生成データセット,方法,評価

Scientific Opinion Summarization: Paper Meta-review Generation Dataset, Methods, and Evaluation ( http://arxiv.org/abs/2305.14647v3 )

ライセンス: Link先を確認
Qi Zeng, Mankeerat Sidhu, Ansel Blume, Hou Pong Chan, Lu Wang, Heng Ji, (参考訳) 科学的研究論文の意見は分かれており、レビュアーの間での議論に繋がる。 しかし、既存の意見要約のためのデータセットのほとんどは製品レビューを中心におり、分析された意見は非論争的であり、学術論文や政治討論、ソーシャルメディアの議論など他の文脈で見られる多様性を考慮していないと仮定している。 このギャップに対処するために,研究論文レビューをメタレビューに合成する,科学的意見要約の課題を提案する。 この作業を容易にするため,47件の会議から15,062件のメタレビューと57,536件の論文レビューを含むORSUMデータセットを紹介した。 さらに,チェックリスト誘導反復検査手法を提案し,科学的意見の要約をいくつかの段階に分割し,チェックリストからの質問の指導の下で要約を反復的に精査する。 実験の結果,(1)人間による要約は,議論の深さや特定の領域に対するコンセンサスや論争の特定など,必要な基準をすべて満たしていないこと,(2)タスクの分解と反復的自己表現の組み合わせは,意見の強化に強い可能性を示し,ブラックボックスLLMを用いた複雑なテキスト生成にも適用可能であることがわかった。

Opinions in scientific research papers can be divergent, leading to controversies among reviewers. However, most existing datasets for opinion summarization are centered around product reviews and assume that the analyzed opinions are non-controversial, failing to account for the variability seen in other contexts such as academic papers, political debates, or social media discussions. To address this gap, we propose the task of scientific opinion summarization, where research paper reviews are synthesized into meta-reviews. To facilitate this task, we introduce the ORSUM dataset covering 15,062 paper meta-reviews and 57,536 paper reviews from 47 conferences. Furthermore, we propose the Checklist-guided Iterative Introspection approach, which breaks down scientific opinion summarization into several stages, iteratively refining the summary under the guidance of questions from a checklist. Our experiments show that (1) human-written summaries do not always satisfy all necessary criteria such as depth of discussion, and identifying consensus and controversy for the specific domain, and (2) the combination of task decomposition and iterative self-refinement shows strong potential for enhancing the opinions and can be applied to other complex text generation using black-box LLMs.
翻訳日:2024-06-19 13:00:15 公開日:2024-06-16
# 時間ステップシフトサンプリングによる拡散モデルにおける露光バイアスの緩和

Alleviating Exposure Bias in Diffusion Models through Sampling with Shifted Time Steps ( http://arxiv.org/abs/2305.15583v8 )

ライセンス: Link先を確認
Mingxiao Li, Tingyu Qu, Ruicong Yao, Wei Sun, Marie-Francine Moens, (参考訳) 拡散確率モデル (DPM) は高品質な画像の合成において顕著な有効性を示した。 しかし、それらの推論プロセスには、訓練と推論の相違による露光バイアスの問題を誇張する反復的なステップが数百個必要である。 これまでの作業では、トレーニング中に入力を摂動させることでこの問題を緩和しようと試みており、結果としてDPMの再訓練が義務付けられている。 本研究では, DPMにおける露出バイアスの系統的研究を行い, 興味深いことに, モデルを再学習することなく, 提案する新しいサンプリング手法により, 露光バイアスを緩和できることを見出した。 我々は、推論において、各後方時間ステップ $t$ と対応する状態 $\hat{x}_t$ に対して、$\hat{x}_t$ との優れた結合を示す別の時間ステップ $t_s$ が存在することを実証的に理論的に示す。 そこで本研究では,Time-Shift Smplerというサンプリング手法を提案する。 我々のフレームワークはDDPMやDDIMなどの既存のサンプリングアルゴリズムとシームレスに統合でき、最小限の追加計算を誘導できる。 実験結果から,本手法は異なるデータセットおよびサンプリング手法におけるFIDスコアを大幅に改善し,一貫した改善をもたらすことが示された。 例えば、時間シフトサンプリングをF-PNDMに統合するとFID=3.88となり、F-PNDMと比較して44.49\%改善され、CIFAR-10では10個のサンプリングステップで、100個のサンプリングステップでバニラDDIMよりもパフォーマンスが高い。 私たちのコードはhttps://github.com/Mingxiao-Li/TS-DPMで公開しています。

Diffusion Probabilistic Models (DPM) have shown remarkable efficacy in the synthesis of high-quality images. However, their inference process characteristically requires numerous, potentially hundreds, of iterative steps, which could exaggerate the problem of exposure bias due to the training and inference discrepancy. Previous work has attempted to mitigate this issue by perturbing inputs during training, which consequently mandates the retraining of the DPM. In this work, we conduct a systematic study of exposure bias in DPM and, intriguingly, we find that the exposure bias could be alleviated with a novel sampling method that we propose, without retraining the model. We empirically and theoretically show that, during inference, for each backward time step $t$ and corresponding state $\hat{x}_t$, there might exist another time step $t_s$ which exhibits superior coupling with $\hat{x}_t$. Based on this finding, we introduce a sampling method named Time-Shift Sampler. Our framework can be seamlessly integrated to existing sampling algorithms, such as DDPM, DDIM and other high-order solvers, inducing merely minimal additional computations. Experimental results show our method brings significant and consistent improvements in FID scores on different datasets and sampling methods. For example, integrating Time-Shift Sampler to F-PNDM yields a FID=3.88, achieving 44.49\% improvements as compared to F-PNDM, on CIFAR-10 with 10 sampling steps, which is more performant than the vanilla DDIM with 100 sampling steps. Our code is available at https://github.com/Mingxiao-Li/TS-DPM.
翻訳日:2024-06-19 13:00:15 公開日:2024-06-16
# ビジュアライズされた視覚処理のための生物学的モチベーション学習モデル

Biologically-Motivated Learning Model for Instructed Visual Processing ( http://arxiv.org/abs/2306.02415v3 )

ライセンス: Link先を確認
Roy Abel, Shimon Ullman, (参考訳) 脳がどのように学習するかを理解するために、進行中の研究は、生物学的知識と現在の人工知能(AI)モデリングを組み合わせて、効果的な生物学的に妥当な学習方法を見つけることを目指している。 生物学的に妥当な学習の現在のモデルは、しばしばボトムアップ(BU)とトップダウン(TD)処理の皮質的な組み合わせを使用し、TD部は学習に使用されるフィードバック信号を運ぶ。 しかし、視覚野では、TD経路は視覚過程を興味のある場所やタスクに導くことによって、視覚的注意の第二の主要な役割を担っている。 したがって、生物学的モデルは2つのタスクを組み合わせて、視覚的なプロセスを導くことを学ばなければならない。 本稿では,TDストリームの2つの主要な機能を自然に統合する,BUとTD処理の皮質的な組み合わせを用いたモデルを提案する。 統合モデルは、BUストリームとTDストリーム間の適切な接続パターン、TD部分を2回使用する新しい処理サイクル、およびストリームをまたいで動作する'Counter-Hebb'学習を用いて得られる。 我々は,「Counter-Hebb」機構が正確なバックプロパゲーション・シナプスの修飾をもたらすことを示した。 さらに、標準的なマルチタスク学習ベンチマークにおけるAIモデルと比較して、視覚的ストリームを誘導して、関心のあるタスクを実行する能力を示す。 学習と視覚誘導の組み合わせが成功すれば、人間の視覚におけるBUとTDの処理の組み合わせに関する新たな見解が得られ、生物学的にもっとも有効なモデルと視覚言語モデル(VLM)のような人工的なモデルの両方の方向性が示唆される。

As part of understanding how the brain learns, ongoing work seeks to combine biological knowledge and current artificial intelligence (AI) modeling in an attempt to find an efficient biologically plausible learning scheme. Current models of biologically plausible learning often use a cortical-like combination of bottom-up (BU) and top-down (TD) processing, where the TD part carries feedback signals used for learning. However, in the visual cortex, the TD pathway plays a second major role of visual attention, by guiding the visual process to locations and tasks of interest. A biological model should therefore combine the two tasks, and learn to guide the visual process. We introduce a model that uses a cortical-like combination of BU and TD processing that naturally integrates the two major functions of the TD stream. The integrated model is obtained by an appropriate connectivity pattern between the BU and TD streams, a novel processing cycle that uses the TD part twice, and the use of 'Counter-Hebb' learning that operates across the streams. We show that the 'Counter-Hebb' mechanism can provide an exact backpropagation synaptic modification. We further demonstrate the model's ability to guide the visual stream to perform a task of interest, achieving competitive performance compared with AI models on standard multi-task learning benchmarks. The successful combination of learning and visual guidance could provide a new view on combining BU and TD processing in human vision, and suggests possible directions for both biologically plausible models and artificial instructed models, such as vision-language models (VLMs).
翻訳日:2024-06-19 13:00:14 公開日:2024-06-16
# インテリジェント分析を用いたスマートシティにおけるIoTフレームワークによるインテリジェントエネルギー管理:複雑なネットワークとシステムに対する機械学習手法の適用

Intelligent Energy Management with IoT Framework in Smart Cities Using Intelligent Analysis: An Application of Machine Learning Methods for Complex Networks and Systems ( http://arxiv.org/abs/2306.05567v2 )

ライセンス: Link先を確認
Maryam Nikpour, Parisa Behvand Yousefi, Hadi Jafarzadeh, Kasra Danesh, Roya Shomali, Mohsen Ahmadi, (参考訳) この研究は、エネルギー消費の増大とエネルギー資源の枯渇、特にスマートな建物における課題に直面している。 効率的な建築維持の必要性とともにエネルギー需要が増大するにつれて、革新的なエネルギー管理ソリューションを探求することが不可欠となる。 スマートシティのエネルギー管理を目的としたIoT(Internet of Things)ベースのフレームワークを包括的にレビューし、これらの問題に対処する上でのIoTデバイスの役割を強調した。 我々のレビュー方法論は、インテリジェントエネルギー管理アプリケーションのためのIoTアーキテクチャとフレームワークに関する既存の文献を徹底的に分析する。 データを収集、保存するだけでなく、監視、制御、システムの効率向上のためのインテリジェントな分析をサポートするシステムに注力する。 さらに、これらのフレームワークがサードパーティアプリケーションの開発プラットフォームとして機能し、実用性と適応性を高める可能性についても検討する。 レビューの結果は、IoTベースのフレームワークがスマートな建物におけるエネルギー消費と環境への影響を低減させる大きな可能性を示唆している。 インテリジェントなメカニズムとソリューションを採用することで、これらのフレームワークは効率的なエネルギー管理を促進し、システムの効率性と持続可能性を向上させる。 これらの知見を踏まえ、エネルギー管理への戦略的アプローチとして、スマートな建物におけるIoTベースの無線センシングシステムのさらなる探索と導入を推奨する。 我々のレビューは、インテリジェント分析を取り入れることの重要性を強調し、IoTフレームワーク内でのサードパーティアプリケーションの開発が、進化するエネルギー需要とメンテナンスの課題を効率的に満たすことを可能にしている。

This study confronts the growing challenges of energy consumption and the depletion of energy resources, particularly in the context of smart buildings. As the demand for energy increases alongside the necessity for efficient building maintenance, it becomes imperative to explore innovative energy management solutions. We present a comprehensive review of Internet of Things (IoT)-based frameworks aimed at smart city energy management, highlighting the pivotal role of IoT devices in addressing these issues due to their compactness, sensing, measurement, and computing capabilities. Our review methodology encompasses a thorough analysis of existing literature on IoT architectures and frameworks for intelligent energy management applications. We focus on systems that not only collect and store data but also support intelligent analysis for monitoring, controlling, and enhancing system efficiency. Additionally, we examine the potential for these frameworks to serve as platforms for the development of third-party applications, thereby extending their utility and adaptability. The findings from our review indicate that IoT-based frameworks offer significant potential to reduce energy consumption and environmental impact in smart buildings. Through the adoption of intelligent mechanisms and solutions, these frameworks facilitate effective energy management, leading to improved system efficiency and sustainability. Considering these findings, we recommend further exploration and adoption of IoT-based wireless sensing systems in smart buildings as a strategic approach to energy management. Our review underscores the importance of incorporating intelligent analysis and enabling the development of third-party applications within the IoT framework to efficiently meet the evolving energy demands and maintenance challenges
翻訳日:2024-06-19 13:00:14 公開日:2024-06-16
# SGDの厳密な正方形線形安定性解析

Exact Mean Square Linear Stability Analysis for SGD ( http://arxiv.org/abs/2306.07850v3 )

ライセンス: Link先を確認
Rotem Mulayoff, Tomer Michaeli, (参考訳) 損失最小値近傍の最適化手法の動的安定性は近年注目されている。 勾配降下 (GD) に対して、安定収束はステップサイズが十分に平坦なミニマに対してのみ可能であり、これらは訓練されたモデルの好ましい性質と結びついている。 しかしながら、GDの安定性閾値はよく知られているが、確率的GD(SGD)の正確なしきい値に対して明確な表現が導出されていない。 本稿では,そのような閉形式表現を導出する。 具体的には,SGDの平均二乗感覚における線形安定性に必要かつ十分なステップサイズを明示的条件として提示する。 私たちの分析では、バッチサイズが$B$の正確な役割について光を当てています。 特に, 安定閾値はバッチサイズが単調に低下せず, バッチサイズが小さくなると安定性が低下することが示唆された。 さらに、SGDの安定性閾値は、各イテレーションにおいて、完全なバッチ勾配ステップw.p.$-p$と、単一のサンプル勾配ステップw.p.$p$で、$p \approx 1/B$と等価であることを示す。 これは、中程度のバッチサイズであっても、SGDの安定性しきい値がGDのものと非常に近いことを示している。 また, バッチサイズに依存し, 精度の高いしきい値よりも計算が容易な線形安定性の必要条件を簡易に証明する。 最後に、最小限のダイナミクスの漸近的共分散を導出し、その学習速度への依存性について議論する。 MNISTデータセットを用いた実験により理論的知見を検証した。

The dynamical stability of optimization methods at the vicinity of minima of the loss has recently attracted significant attention. For gradient descent (GD), stable convergence is possible only to minima that are sufficiently flat w.r.t. the step size, and those have been linked with favorable properties of the trained model. However, while the stability threshold of GD is well-known, to date, no explicit expression has been derived for the exact threshold of stochastic GD (SGD). In this paper, we derive such a closed-form expression. Specifically, we provide an explicit condition on the step size that is both necessary and sufficient for the linear stability of SGD in the mean square sense. Our analysis sheds light on the precise role of the batch size $B$. In particular, we show that the stability threshold is monotonically non-decreasing in the batch size, which means that reducing the batch size can only decrease stability. Furthermore, we show that SGD's stability threshold is equivalent to that of a mixture process which takes in each iteration a full batch gradient step w.p. $1-p$, and a single sample gradient step w.p. $p$, where $p \approx 1/B $. This indicates that even with moderate batch sizes, SGD's stability threshold is very close to that of GD's. We also prove simple necessary conditions for linear stability, which depend on the batch size, and are easier to compute than the precise threshold. Finally, we derive the asymptotic covariance of the dynamics around the minimum, and discuss its dependence on the learning rate. We validate our theoretical findings through experiments on the MNIST dataset.
翻訳日:2024-06-19 13:00:14 公開日:2024-06-16
# インバータ系グリッドにおけるイベントトリガーアイランド

Event-Triggered Islanding in Inverter-Based Grids ( http://arxiv.org/abs/2306.15454v3 )

ライセンス: Link先を確認
Ioannis Zografopoulos, Charalambos Konstantinou, (参考訳) 現代の電力システムの分散化は、電力網の階層構造に挑戦し、悪条件を管理するために自動的なスキームを必要とする。 本研究は、意図的(サイバー攻撃など)や意図しない異常事象に対して、グリッドを自律島に分割し、安定した経済活動を確保する適応的な隔離手法を提案する。 適応的な分離ロジックは、偽陽性を防止し、検出精度を高め、計算オーバーヘッドを低減するためにイベントトリガーされる。 測定ベースの安定カーネル表現(SKR)トリガー機構は、まず分散生成コントローラを異常な振る舞いを検査する。 次に、SKRは機械学習(ML)アンサンブル分類器に警告し、システム動作が許容範囲内にあるかどうかを判断する。 イベントトリガー適応分離フレームワークはIEEE RTS-24と118バスシステムを用いて評価される。 シミュレーションの結果,22m秒以内で100%精度で異常な挙動を検知できることが示唆された。 運用コストを最小化しつつ、従来のアイランド検出および形成技術よりも優れた供給効率のパーティションを識別する。

The decentralization of modern power systems challenges the hierarchical structure of the electric grid and necessitates automated schemes to manage adverse conditions. This work proposes an adaptive isolation methodology that can divide a grid into autonomous islands, ensuring stable and economical operation amid deliberate (e.g., cyberattacks) or unintentional abnormal events. The adaptive isolation logic is event-triggered to prevent false positives, enhance detection accuracy, and reduce computational overhead. A measurement-based stable kernel representation (SKR) triggering mechanism initially inspects distributed generation controllers for abnormal behavior. The SKR then alerts a machine learning (ML) ensemble classifier to assess whether the system behavior remains within acceptable operational limits. The event-triggered adaptive isolation framework is evaluated using the IEEE RTS-24 and 118-bus systems. Simulation results demonstrate that the proposed framework detects anomalous behavior with 100% accuracy in real-time, i.e., within 22 msec. Supply-adequate partitions are identified outperforming traditional islanding detection and formation techniques while minimizing operating costs.
翻訳日:2024-06-19 12:50:30 公開日:2024-06-16
# バランスの取れた多教師交互蒸留による精度・ロバスト性トレードオフの緩和

Mitigating Accuracy-Robustness Trade-off via Balanced Multi-Teacher Adversarial Distillation ( http://arxiv.org/abs/2306.16170v3 )

ライセンス: Link先を確認
Shiji Zhao, Xizhe Wang, Xingxing Wei, (参考訳) 敵対的トレーニングは、敵対的攻撃に対するディープニューラルネットワークの堅牢性を改善するための実践的なアプローチである。 信頼性の高いロバスト性をもたらすが、クリーンな例に対するパフォーマンスは、正当性とロバスト性の間にトレードオフが存在するという意味のAdversarial Training(Adversarial Training)後に負の影響を受ける。 近年, 逆行訓練において知識蒸留法を応用し, 堅牢性向上に競争力を発揮する研究も行われているが, 清浄な試料の精度は依然として限られている。 本稿では, 高精度ロバスト性トレードオフを緩和するために, クリーンな教師と頑健な教師をそれぞれ適用して, クリーンな事例と逆向きな事例を扱うことによって, モデルの逆向き学習プロセスをガイドするバランスド・マルチテラー・アドバーサリ・ロバストネス蒸留(B-MTARD)を導入する。 最適化の過程では,異なる教師が同様の知識尺度を示すことを保証するために,教師の温度を調整し,教師の情報エントロピーを一定に保つために,エントロピーベースバランスアルゴリズムを設計する。 さらに,学生が複数の教師から比較的一貫した学習速度を持つことを保証するため,学習重み調整のための正規化損失バランスアルゴリズムを提案する。 3つの公開データセットで実施された一連の実験は、B-MTARDが様々な敵攻撃に対して最先端の手法より優れていることを示した。

Adversarial Training is a practical approach for improving the robustness of deep neural networks against adversarial attacks. Although bringing reliable robustness, the performance towards clean examples is negatively affected after Adversarial Training, which means a trade-off exists between accuracy and robustness. Recently, some studies have tried to use knowledge distillation methods in Adversarial Training, achieving competitive performance in improving the robustness but the accuracy for clean samples is still limited. In this paper, to mitigate the accuracy-robustness trade-off, we introduce the Balanced Multi-Teacher Adversarial Robustness Distillation (B-MTARD) to guide the model's Adversarial Training process by applying a strong clean teacher and a strong robust teacher to handle the clean examples and adversarial examples, respectively. During the optimization process, to ensure that different teachers show similar knowledge scales, we design the Entropy-Based Balance algorithm to adjust the teacher's temperature and keep the teachers' information entropy consistent. Besides, to ensure that the student has a relatively consistent learning speed from multiple teachers, we propose the Normalization Loss Balance algorithm to adjust the learning weights of different types of knowledge. A series of experiments conducted on three public datasets demonstrate that B-MTARD outperforms the state-of-the-art methods against various adversarial attacks.
翻訳日:2024-06-19 12:50:30 公開日:2024-06-16
# アプリのプライバシーポリシーと比較して、Appleのプライバシーラベルの正確性について

Honesty is the Best Policy: On the Accuracy of Apple Privacy Labels Compared to Apps' Privacy Policies ( http://arxiv.org/abs/2306.17063v2 )

ライセンス: Link先を確認
Mir Masood Ali, David G. Balash, Monica Kodwani, Chris Kanich, Adam J. Aviv, (参考訳) Appleは2020年12月に、アプリのプライバシー動作を報告するためのプライバシーラベルを導入した。 Appleはラベルを検証していないが、開発者は重要な比較ポイントを提供するプライバシーポリシーを提供する必要がある。 本稿では,BERTベースの言語モデルを微調整し,iOS App Storeの474,669のアプリのプライバシポリシ機能を抽出し,出力とプライバシラベルを比較した。 我々は、ポリシーとラベルの相違点を識別し、特にユーザによって収集されたデータに関連している。 228Kアプリのプライバシポリシは、プライバシラベルに報告されているものよりも、ユーザに関連するデータ収集を示す可能性がある。 さらに注意すべきは、Data Not Collectedのプライバシーラベルを持つアプリの多数の(97%)が、それ以外はプライバシーポリシーを持っていることだ。 テンプレートの使用や,Appleの定義や要件に関する混乱など,不一致の可能性のあるソースに関する洞察を提供する。 これらの結果は、デベロッパーがアプリをより正確にラベル付けするのに、依然として重要な作業が必要であることを示唆している。 当社のシステムは,プライバシラベルが誤適用される可能性があることを開発者に通知するための,ファーストオーダーチェックとして組み込むことができる。

Apple introduced privacy labels in Dec. 2020 as a way for developers to report the privacy behaviors of their apps. While Apple does not validate labels, they also require developers to provide a privacy policy, which offers an important comparison point. In this paper, we fine-tuned BERT-based language models to extract privacy policy features for 474,669 apps on the iOS App Store, comparing the output to the privacy labels. We identify discrepancies between the policies and the labels, particularly as they relate to data collected linked to users. We find that 228K apps' privacy policies may indicate data collection linked to users than what is reported in the privacy labels. More alarming, a large number (97%) of the apps with a Data Not Collected privacy label have a privacy policy indicating otherwise. We provide insights into potential sources for discrepancies, including the use of templates and confusion around Apple's definitions and requirements. These results suggest that significant work is still needed to help developers more accurately label their apps. Our system can be incorporated as a first-order check to inform developers when privacy labels are possibly misapplied.
翻訳日:2024-06-19 12:50:30 公開日:2024-06-16
# 決定焦点学習の適用性を高めるためのスコア関数勾配推定

Score Function Gradient Estimation to Widen the Applicability of Decision-Focused Learning ( http://arxiv.org/abs/2307.05213v2 )

ライセンス: Link先を確認
Mattia Silvestri, Senne Berden, Jayanta Mandi, Ali İrfan Mahmutoğulları, Brandon Amos, Tias Guns, Michele Lombardi, (参考訳) 多くの実世界の最適化問題は、確率性や情報不足(例えば、配送問題における要求時間や旅行時間)のために、デプロイメント時間前に未知のパラメータを含んでいる。 このような場合の一般的な戦略は、予測エラーを最小限に抑えるために訓練された機械学習(ML)モデルを介して、そのパラメータを推定することである。 意思決定中心の学習(DFL)パラダイムは、タスク損失を直接最小化するためのトレーニングによって、この制限を克服する。 後者は組合せ問題に対する非形式的勾配を持つため、最先端のDFL法は、訓練を可能にするサロゲートや近似を導入している。 しかし、これらの手法は問題構造に関する特定の仮定(例えば、凸や線形問題、目的関数でのみ未知のパラメータ)を利用する。 本稿では,このような仮定をせずに,確率的平滑化と任意のタスク損失に作用するスコア関数勾配推定を組み合わせる方法を提案する。 これにより、非線形目的に対するDFL法の使用、問題制約における不確実なパラメータ、さらには2段階確率最適化さえも開放される。 実験の結果、一般的に多くのエポックを必要とするが、専門的な手法と同等であり、特にソリューションの品質、スケーラビリティ、あるいはその両方の観点から、制約の不確実性に悩む問題に対して、特にうまく機能していることが示されている。

Many real-world optimization problems contain parameters that are unknown before deployment time, either due to stochasticity or to lack of information (e.g., demand or travel times in delivery problems). A common strategy in such cases is to estimate said parameters via machine learning (ML) models trained to minimize the prediction error, which however is not necessarily aligned with the downstream task-level error. The decision-focused learning (DFL) paradigm overcomes this limitation by training to directly minimize a task loss, e.g. regret. Since the latter has non-informative gradients for combinatorial problems, state-of-the-art DFL methods introduce surrogates and approximations that enable training. But these methods exploit specific assumptions about the problem structures (e.g., convex or linear problems, unknown parameters only in the objective function). We propose an alternative method that makes no such assumptions, it combines stochastic smoothing with score function gradient estimation which works on any task loss. This opens up the use of DFL methods to nonlinear objectives, uncertain parameters in the problem constraints, and even two-stage stochastic optimization. Experiments show that it typically requires more epochs, but that it is on par with specialized methods and performs especially well for the difficult case of problems with uncertainty in the constraints, in terms of solution quality, scalability, or both.
翻訳日:2024-06-19 12:50:30 公開日:2024-06-16
# PUMGPT:製品理解のための大規模ビジョンランゲージモデル

PUMGPT: A Large Vision-Language Model for Product Understanding ( http://arxiv.org/abs/2308.09568v2 )

ライセンス: Link先を確認
Wei Xue, Zongyi Guo, Baoliang Cui, Zheng Xing, Xiaoyi Zeng, Xiufei Wang, Shuhui Wu, Weiming Lu, (参考訳) Eコマースプラットフォームは、ユーザエクスペリエンスと運用効率を向上させるために、正確な製品理解の恩恵を受ける。 伝統的な手法は、しばしば属性抽出や分類のような孤立したタスクに焦点を合わせ、タスクの進化に適応性の問題を引き起こし、インターネットからノイズの多いデータを持つユーザビリティの問題を引き起こす。 現在のLVLM(Large Vision Language Models)は、ドメイン固有の微調整を欠いているため、正確さと指示が不足している。 これらの課題に対処するため,マルチモーダル製品理解タスク用に設計された電子商取引専用LVLMであるPumGPTを紹介した。 我々はAliExpressから100万以上の商品のデータセットを収集し、普遍的な幻覚検出フレームワークを用いて推論不能な属性をフィルタリングした。 PumGPTは、eコマースプラットフォームと小売業者のワークフローを強化するための5つの重要なタスクに焦点を当てている。 また,LVLM間の製品理解を評価するベンチマークであるPumBenchを紹介する。 実験の結果,PumGPTは製品理解タスクにおいて,他の5つのオープンソースLVLMおよびGPT-4Vより優れていることがわかった。 我々はまた、PumGPTの優位性を深く掘り下げる広範な分析実験を行い、eコマース分野における専門モデルの必要性を実証した。

E-commerce platforms benefit from accurate product understanding to enhance user experience and operational efficiency. Traditional methods often focus on isolated tasks such as attribute extraction or categorization, posing adaptability issues to evolving tasks and leading to usability challenges with noisy data from the internet. Current Large Vision Language Models (LVLMs) lack domain-specific fine-tuning, thus falling short in precision and instruction following. To address these issues, we introduce PumGPT, the first e-commerce specialized LVLM designed for multi-modal product understanding tasks. We collected and curated a dataset of over one million products from AliExpress, filtering out non-inferable attributes using a universal hallucination detection framework, resulting in 663k high-quality data samples. PumGPT focuses on five essential tasks aimed at enhancing workflows for e-commerce platforms and retailers. We also introduce PumBench, a benchmark to evaluate product understanding across LVLMs. Our experiments show that PumGPT outperforms five other open-source LVLMs and GPT-4V in product understanding tasks. We also conduct extensive analytical experiments to delve deeply into the superiority of PumGPT, demonstrating the necessity for a specialized model in the e-commerce domain.
翻訳日:2024-06-19 12:40:28 公開日:2024-06-16
# マルチモーダルエンベディングにおける逆イリュージョン

Adversarial Illusions in Multi-Modal Embeddings ( http://arxiv.org/abs/2308.11804v4 )

ライセンス: Link先を確認
Tingwei Zhang, Rishi Jha, Eugene Bagdasaryan, Vitaly Shmatikov, (参考訳) マルチモーダル埋め込みは、テキスト、画像、サーマルイメージ、サウンド、ビデオを単一の埋め込み空間にエンコードし、異なるモーダル(例えば、犬のイメージとバーキングサウンドを関連付ける)にわたって表現を整列させる。 本稿では,マルチモーダル埋め込みが「逆錯覚」と呼ばれる攻撃に対して脆弱であることを示す。 画像や音が与えられた場合、敵はそれを摂動させ、その埋め込みを別のモダリティで任意の逆長線入力に近づける。 これらの攻撃はクロスモーダルで標的であり、敵は任意の画像や音を自分の選択したターゲットに合わせることができる。 敵の錯覚は埋め込み空間の近さを悪用し、従って下流のタスクやモダリティに依存せず、現在のタスクと将来のタスクの全体的妥協と、敵に利用できないモダリティを可能にする。 ImageBindとAudioCLIPの埋め込みを用いて、特定の下流タスク、誤解を招く画像生成、テキスト生成、ゼロショット分類、オーディオ検索の知識のない逆アラインインプットがどのように生成されるかを示す。 我々は、異なる埋め込みをまたいだ錯覚の伝達可能性を調査し、Amazonの商用の独自のタイタン埋め込みに対する最初の対向アライメント攻撃を示すために、我々の方法のブラックボックス版を開発する。 最後に,対策と回避攻撃について分析する。

Multi-modal embeddings encode texts, images, thermal images, sounds, and videos into a single embedding space, aligning representations across different modalities (e.g., associate an image of a dog with a barking sound). In this paper, we show that multi-modal embeddings can be vulnerable to an attack we call "adversarial illusions." Given an image or a sound, an adversary can perturb it to make its embedding close to an arbitrary, adversary-chosen input in another modality. These attacks are cross-modal and targeted: the adversary can align any image or sound with any target of his choice. Adversarial illusions exploit proximity in the embedding space and are thus agnostic to downstream tasks and modalities, enabling a wholesale compromise of current and future tasks, as well as modalities not available to the adversary. Using ImageBind and AudioCLIP embeddings, we demonstrate how adversarially aligned inputs, generated without knowledge of specific downstream tasks, mislead image generation, text generation, zero-shot classification, and audio retrieval. We investigate transferability of illusions across different embeddings and develop a black-box version of our method that we use to demonstrate the first adversarial alignment attack on Amazon's commercial, proprietary Titan embedding. Finally, we analyze countermeasures and evasion attacks.
翻訳日:2024-06-19 12:40:28 公開日:2024-06-16
# ULDP-FL:サイロユーザレベル差分プライバシーに関するフェデレーション学習

ULDP-FL: Federated Learning with Across Silo User-Level Differential Privacy ( http://arxiv.org/abs/2308.12210v3 )

ライセンス: Link先を確認
Fumiyuki Kato, Li Xiong, Shun Takagi, Yang Cao, Masatoshi Yoshikawa, (参考訳) Differentially Private Federated Learning (DP-FL)は、正式なプライバシを保証するための協調的な機械学習アプローチとして注目を集めている。 ほとんどのDP-FLアプローチは、各サイロ内のレコードレベルにおいて、クロスサイロFLに対してDPを保証する。 しかし、単一のユーザのデータは複数のサイロにまたがって拡張される可能性があり、そのような設定に対するユーザレベルのDP保証は依然として不明である。 本研究では,単一ユーザのデータが複数のサイロに属する可能性があるクロスサイロFLにおいて,ユーザレベルのDPを保証するために設計された新しいFLフレームワークUldp-FLを提案する。 提案アルゴリズムは,グループプライバシアプローチから外れた,ユーザ単位のクリッピングによるユーザレベルDPを直接保証する。 アルゴリズムのプライバシとユーティリティに関する理論的分析を行う。 さらに,ユーザレコード分布に基づく重み付け戦略を改良し,サイロとサーバに付加的な情報が明らかにされないような新しいプライベートプロトコルを設計することで,提案アルゴリズムの有用性を向上する。 実世界のデータセットを用いた実験では,ユーザレベルのDPの下でのプライバシ・ユーティリティ・トレードオフにおいて,ベースライン方式に比べて大幅に改善されている。 我々の知る限り、私たちの研究は、一般のクロスサイロFL設定において、ユーザレベルのDPを効果的に提供する最初のFLフレームワークです。

Differentially Private Federated Learning (DP-FL) has garnered attention as a collaborative machine learning approach that ensures formal privacy. Most DP-FL approaches ensure DP at the record-level within each silo for cross-silo FL. However, a single user's data may extend across multiple silos, and the desired user-level DP guarantee for such a setting remains unknown. In this study, we present Uldp-FL, a novel FL framework designed to guarantee user-level DP in cross-silo FL where a single user's data may belong to multiple silos. Our proposed algorithm directly ensures user-level DP through per-user weighted clipping, departing from group-privacy approaches. We provide a theoretical analysis of the algorithm's privacy and utility. Additionally, we enhance the utility of the proposed algorithm with an enhanced weighting strategy based on user record distribution and design a novel private protocol that ensures no additional information is revealed to the silos and the server. Experiments on real-world datasets show substantial improvements in our methods in privacy-utility trade-offs under user-level DP compared to baseline methods. To the best of our knowledge, our work is the first FL framework that effectively provides user-level DP in the general cross-silo FL setting.
翻訳日:2024-06-19 12:40:28 公開日:2024-06-16
# 超高速Ultralight ConvNetを用いた早期Mpox診断のためのインテリジェントモニタリングシステム

Ultrafast-and-Ultralight ConvNet-Based Intelligent Monitoring System for Diagnosing Early-Stage Mpox Anytime and Anywhere ( http://arxiv.org/abs/2308.13492v3 )

ライセンス: Link先を確認
Yubiao Yue, Xiaoqiang Shi, Li Qin, Xinyue Zhang, Jialong Xu, Zipei Zheng, Zhenzhang Li, Yang Li, (参考訳) より効率的な診断ツールがないため、mpoxの拡散は未確認のままである。 関連する研究は、深層学習モデルのmpox診断における高効率性を実証しているが、モデル推論速度やパラメータサイズといった重要な側面は、常に見過ごされてきた。 本稿では,Fast-MpoxNetという超高速・超軽量ネットワークを提案する。 Fast-MpoxNetはわずか0.27Mパラメータで、CPU上の68フレーム毎秒(FPS)で入力画像を処理できる。 微妙な画像の違いを検出し、モデルパラメータを最適化するために、Fast-MpoxNetは注意に基づく特徴融合モジュールと、複数の補助的損失増強戦略を取り入れている。 実験結果から,転送学習とデータ拡張を利用したFast-MpoxNetでは,mpoxデータセット上の4つのクラスに対して98.40%の分類精度が得られた。 さらに、初期のmpoxのリコールは93.65%である。 最も重要なことは、パーソナルコンピュータとスマートフォンの両方に適したMpox-AISM V2というアプリケーションシステムを開発することである。 Mpox-AISM V2は、迅速に正確にmpoxを診断でき、公共のリアルタイムmpox診断サービスを提供するために、様々なシナリオに容易に展開できる。 この研究は、将来のmpoxの発生を緩和し、医療分野でリアルタイム診断ツールを開発するための道を開く可能性がある。

Due to the absence of more efficient diagnostic tools, the spread of mpox continues to be unchecked. Although related studies have demonstrated the high efficiency of deep learning models in diagnosing mpox, key aspects such as model inference speed and parameter size have always been overlooked. Herein, an ultrafast and ultralight network named Fast-MpoxNet is proposed. Fast-MpoxNet, with only 0.27M parameters, can process input images at 68 frames per second (FPS) on the CPU. To detect subtle image differences and optimize model parameters better, Fast-MpoxNet incorporates an attention-based feature fusion module and a multiple auxiliary losses enhancement strategy. Experimental results indicate that Fast-MpoxNet, utilizing transfer learning and data augmentation, produces 98.40% classification accuracy for four classes on the mpox dataset. Furthermore, its Recall for early-stage mpox is 93.65%. Most importantly, an application system named Mpox-AISM V2 is developed, suitable for both personal computers and smartphones. Mpox-AISM V2 can rapidly and accurately diagnose mpox and can be easily deployed in various scenarios to offer the public real-time mpox diagnosis services. This work has the potential to mitigate future mpox outbreaks and pave the way for developing real-time diagnostic tools in the healthcare field.
翻訳日:2024-06-19 12:40:28 公開日:2024-06-16
# アダムの暗黙のバイアスについて

On the Implicit Bias of Adam ( http://arxiv.org/abs/2309.00079v4 )

ライセンス: Link先を確認
Matias D. Cattaneo, Jason M. Klusowski, Boris Shigida, (参考訳) 従来の文献では、勾配降下軌道を近似する通常の微分方程式(ODE)を見つけるために後方誤差解析が用いられていた。 ODEに現れる項は損失勾配の2ノルムを罰するので、有限ステップサイズは解を暗黙的に正則化することがわかった。 RMSProp と Adam における同様の暗黙正則化の存在は、その過度パラメータと訓練段階に依存するが、異なる "ノルム" が関係していることを証明している。 また、数値実験を行い、証明された事実が一般化にどのように影響を与えるかについて議論する。

In previous literature, backward error analysis was used to find ordinary differential equations (ODEs) approximating the gradient descent trajectory. It was found that finite step sizes implicitly regularize solutions because terms appearing in the ODEs penalize the two-norm of the loss gradients. We prove that the existence of similar implicit regularization in RMSProp and Adam depends on their hyperparameters and the training stage, but with a different "norm" involved: the corresponding ODE terms either penalize the (perturbed) one-norm of the loss gradients or, conversely, impede its reduction (the latter case being typical). We also conduct numerical experiments and discuss how the proven facts can influence generalization.
翻訳日:2024-06-19 12:40:28 公開日:2024-06-16
# システム同定の非漸近理論に関する研究

A Tutorial on the Non-Asymptotic Theory of System Identification ( http://arxiv.org/abs/2309.03873v2 )

ライセンス: Link先を確認
Ingvar Ziemann, Anastasios Tsiamis, Bruce Lee, Yassir Jedra, Nikolai Matni, George J. Pappas, (参考訳) このチュートリアルは、-主に線形システム識別の理論において、最近開発された非漸近的手法の紹介となる。 我々は,この領域の様々な問題,例えば被覆技術,ハンソン・ライト不等式,および自己正規化マルティンガレの方法など,特に有用と考えられるツールを強調した。 次に、これらのツールを用いて、自己回帰モデルにおけるパラメータを識別する様々な最小二乗推定器の性能の合理化の証明を行う。 我々は、ここで提示されたアイデアがある種の非線形識別問題にどのように拡張できるかをスケッチして結論付ける。

This tutorial serves as an introduction to recently developed non-asymptotic methods in the theory of -- mainly linear -- system identification. We emphasize tools we deem particularly useful for a range of problems in this domain, such as the covering technique, the Hanson-Wright Inequality and the method of self-normalized martingales. We then employ these tools to give streamlined proofs of the performance of various least-squares based estimators for identifying the parameters in autoregressive models. We conclude by sketching out how the ideas presented herein can be extended to certain nonlinear identification problems.
翻訳日:2024-06-19 12:40:28 公開日:2024-06-16
# 不変確率予測

Invariant Probabilistic Prediction ( http://arxiv.org/abs/2309.10083v2 )

ライセンス: Link先を確認
Alexander Henzi, Xinwei Shen, Michael Law, Peter Bühlmann, (参考訳) 近年,トレーニングデータとテストデータ間の分布変化において,ロバストな性能を示す統計手法への関心が高まっている。 関連研究の多くは2乗誤差損失を伴う点予測に焦点をあてているが、この記事では、共変量による結果変数の不確かさを包括的に定量化することを目的とした確率的予測に焦点をあてる。 因果関係に着想を得た枠組みの中で、適切なスコアリングルールに関する確率的予測の不変性と堅牢性について検討する。 任意の分布シフトは、一般に、点予測の設定とは対照的に、不変かつ頑健な確率的予測を認めないことを示す。 原型的ガウス的ヘテロスセダスティック線形モデルにおいて、評価指標を選択し、分布シフトのクラスを制限し、識別可能性と不変性を許容する方法について述べる。 そこで本研究では,IPPと呼ばれる不変確率予測手法を提案し,その基礎となるパラメータの整合性について検討する。 最後に,提案手法のシミュレーションおよび単一セルデータ上での実証的な性能を示す。

In recent years, there has been a growing interest in statistical methods that exhibit robust performance under distribution changes between training and test data. While most of the related research focuses on point predictions with the squared error loss, this article turns the focus towards probabilistic predictions, which aim to comprehensively quantify the uncertainty of an outcome variable given covariates. Within a causality-inspired framework, we investigate the invariance and robustness of probabilistic predictions with respect to proper scoring rules. We show that arbitrary distribution shifts do not, in general, admit invariant and robust probabilistic predictions, in contrast to the setting of point prediction. We illustrate how to choose evaluation metrics and restrict the class of distribution shifts to allow for identifiability and invariance in the prototypical Gaussian heteroscedastic linear model. Motivated by these findings, we propose a method to yield invariant probabilistic predictions, called IPP, and study the consistency of the underlying parameters. Finally, we demonstrate the empirical performance of our proposed procedure on simulated as well as on single-cell data.
翻訳日:2024-06-19 12:40:28 公開日:2024-06-16
# 恥ずかしいほど単純な置換で(ビジョンと)言語モデルを偽造する

Fool Your (Vision and) Language Model With Embarrassingly Simple Permutations ( http://arxiv.org/abs/2310.01651v2 )

ライセンス: Link先を確認
Yongshuo Zong, Tingyang Yu, Ruchika Chavhan, Bingchen Zhao, Timothy Hospedales, (参考訳) 大規模言語と視覚言語モデルは、命令追従やコンテキスト内学習などにおける印象的な能力のおかげで、急速にデプロイされている。 このことは、ステークホルダーが特定のアプリケーションに頼るだけの信頼に値するモデルがあるかどうかを理解できるように、彼らの堅牢さを慎重に分析する緊急の要求を提起する。 本稿では,多選択質問応答(MCQA)における置換感度という,一般的なモデルにおける特定の脆弱性を強調した。 具体的には、一般のモデルが、複数の選択のプロンプトに対する応答セットにおいて、逆順順列に弱いことを実証的に示しており、モデルが理想的には、人間がそうであるように、不変であるべきであることは驚きである。 これらの脆弱性は、様々なモデルサイズにまたがって持続し、非常に最近の言語とビジョン言語モデルに存在する。 コードはhttps://github.com/ys-zong/FoolyourVLLMsで入手できる。

Large language and vision-language models are rapidly being deployed in practice thanks to their impressive capabilities in instruction following, in-context learning, and so on. This raises an urgent need to carefully analyse their robustness so that stakeholders can understand if and when such models are trustworthy enough to be relied upon in any given application. In this paper, we highlight a specific vulnerability in popular models, namely permutation sensitivity in multiple-choice question answering (MCQA). Specifically, we show empirically that popular models are vulnerable to adversarial permutation in answer sets for multiple-choice prompting, which is surprising as models should ideally be as invariant to prompt permutation as humans are. These vulnerabilities persist across various model sizes, and exist in very recent language and vision-language models. Code is available at https://github.com/ys-zong/FoolyourVLLMs.
翻訳日:2024-06-19 12:30:40 公開日:2024-06-16
# 2層ニューラルネットワークにおける1段階のステップによる非線形特徴学習の一理論

A Theory of Non-Linear Feature Learning with One Gradient Step in Two-Layer Neural Networks ( http://arxiv.org/abs/2310.07891v3 )

ライセンス: Link先を確認
Behrad Moniri, Donghwan Lee, Hamed Hassani, Edgar Dobriban, (参考訳) 機能学習は、ディープニューラルネットワークの成功の根本的な理由の1つであると考えられている。 特定の条件下での2層完全連結ニューラルネットワークでは、第1層の勾配勾配の1ステップが特徴学習につながることが知られている。 しかし、勾配降下段差が一定であれば、このスパイクは対象関数の線形成分からの情報のみを伝達するので、非線形成分の学習は不可能である。 サンプルサイズとともに成長する学習率により、実際に複数のランク1成分を導入し、それぞれが特定の多項式の特徴に対応することを示す。 さらに、更新されたニューラルネットワークの大規模かつ大規模なサンプルトレーニングとテストエラーの制限が、これらのスパイクによって完全に特徴づけられることを証明した。 トレーニングとテストの誤りの改善を正確に分析することにより、これらの非線形特徴が学習を向上させることを実証する。

Feature learning is thought to be one of the fundamental reasons for the success of deep neural networks. It is rigorously known that in two-layer fully-connected neural networks under certain conditions, one step of gradient descent on the first layer can lead to feature learning; characterized by the appearance of a separated rank-one component -- spike -- in the spectrum of the feature matrix. However, with a constant gradient descent step size, this spike only carries information from the linear component of the target function and therefore learning non-linear components is impossible. We show that with a learning rate that grows with the sample size, such training in fact introduces multiple rank-one components, each corresponding to a specific polynomial feature. We further prove that the limiting large-dimensional and large sample training and test errors of the updated neural networks are fully characterized by these spikes. By precisely analyzing the improvement in the training and test errors, we demonstrate that these non-linear features can enhance learning.
翻訳日:2024-06-19 12:30:40 公開日:2024-06-16
# 絡み合いによる集団多体干渉

Entanglement-induced collective many-body interference ( http://arxiv.org/abs/2310.08630v2 )

ライセンス: Link先を確認
Tommaso Faleo, Eric Brunner, Jonathan W. Webb, Alexander Pickston, Joseph Ho, Gregor Weihs, Andreas Buchleitner, Christoph Dittel, Gabriel Dufour, Alessandro Fedrizzi, Robert Keil, (参考訳) 絡み合いと干渉はどちらも量子物理学の目覚ましい効果である。 特にリッチな力学は、複数の(少なくとも部分的に)識別不能な粒子がこれらの現象のいずれかに従属する場合に生じる。 絡み合いと多粒子干渉を組み合わせることで、N粒子干渉を観測できる干渉計の設定を提案し、低次干渉を厳格に抑制する。 我々は、この効果を4光子干渉計で実験的に実証した。この干渉は、原理的には2つの独立したビームスプリッターで2対の光子しか干渉しないため、非局所的である。 4つの光子の共同検出により、その集合体4粒子相の関数として変化する高可視性干渉パターン、すなわち真の4体特性が特定される。

Entanglement and interference are both hallmark effects of quantum physics. Particularly rich dynamics arise when multiple (at least partially) indistinguishable particles are subjected to either of these phenomena. By combining both entanglement and many-particle interference, we propose an interferometric setting through which N-particle interference can be observed, while any interference of lower orders is strictly suppressed. We experimentally demonstrate this effect in a four-photon interferometer, where the interference is nonlocal, in principle, as only pairs of photons interfere at two separate and independent beam splitters. A joint detection of all four photons identifies a high-visibility interference pattern varying as a function of their collective four-particle phase, a genuine four-body property.
翻訳日:2024-06-19 12:30:40 公開日:2024-06-16
# 人間カリキュラムによる授業チューニング

Instruction Tuning with Human Curriculum ( http://arxiv.org/abs/2310.09518v4 )

ライセンス: Link先を確認
Bruce W. Lee, Hyunsoo Cho, Kang Min Yoo, (参考訳) 本研究は,(1)カリキュラム指導チューニングの導入,(2)多様なカリキュラム戦略を採用する可能性を探る,(3)我々の理論的アプローチを補完する合成命令応答生成フレームワークについて述べる。 既存のインストラクションチューニングデータセットとは違い,我々の生成パイプラインは,人間の学習の逐次的かつ秩序的な特徴をエミュレートするために,体系的に構成されている。 さらに,中学校から大学院まで,教育対象のカタログを利用して,幅広い教育段階にまたがる指導応答データセットを生成する手法について述べる。 トレーニングの前には,質問が(A)対象事項と(B)指示の複雑度に関して困難にエスカレートすることを保証するために,指示データを慎重に整理する。 本研究の結果から,授業データへのカリキュラム命令の適用(TruthfulQAでは+4.76,MMLUでは+2.98,OpenbookQAでは+2.8,ARC-hardでは+1.28)により,大幅な性能向上が達成できることがわかった。 この強化は、追加の計算費用を発生させることなく達成される。 総合的な実験により,提案手法の利点は9つのベンチマークにおいて一貫して明らかであることがわかった。

In this work, we (1) introduce Curriculum Instruction Tuning, (2) explore the potential advantages of employing diverse curriculum strategies, and (3) delineate a synthetic instruction-response generation framework that complements our theoretical approach. Distinct from the existing instruction tuning dataset, our generation pipeline is systematically structured to emulate the sequential and orderly characteristic of human learning. Additionally, we describe a methodology for generating instruction-response datasets that extensively span the various stages of human education, from middle school through the graduate level, utilizing educational subject catalogs. Before training, we meticulously organize the instruction data to ensure that questions escalate in difficulty regarding (A) the subject matter and (B) the intricacy of the instructions. The findings of our study reveal that substantial improvements in performance can be achieved through the mere application of curriculum ordering to instruction data (achieving gains of +4.76 on TruthfulQA, +2.98 on MMLU, +2.8 on OpenbookQA, and +1.28 on ARC-hard) compared to random shuffling. This enhancement is achieved without incurring additional computational expenses. Through comprehensive experimentation, we observe that the advantages of our proposed method are consistently evident across nine benchmarks.
翻訳日:2024-06-19 12:30:40 公開日:2024-06-16
# Exploitation Business: 情報の非対称性を活用する

Exploitation Business: Leveraging Information Asymmetry ( http://arxiv.org/abs/2310.09802v2 )

ライセンス: Link先を確認
Kwangseob Ahn, (参考訳) 本稿では,情報非対称性を利用して脆弱な人口を搾取するExploitation Businessモデルについて検討する。 非専門家や詐欺師をターゲットとするビジネスに重点を置いており、情報非対称性を利用して必死の個人に製品やサービスを販売している。 この現象は「情報利用に基づく営利活動」ともいわれ、個人の情報への限られたアクセス、専門知識の欠如、Fear of Missing Out (FOMO) が繁栄する。 近年のソーシャルメディアの進展とファンダムビジネスの高まりは、そのような搾取ビジネスモデルの普及を加速させている。 デジタルメディア時代におけるファンのエンパワーメントと搾取に関する議論は、ファンとメディアクリエーターの関係を再構築し、ファンの自由労働の搾取を見過ごさない必要性を強調している。 本稿では、暗号通貨やGenAIといった分野の実例に富んだ、搾取ビジネスモデルのさまざまな側面と影響を分析し、それらの社会的、経済的、倫理的意味について論じる。 さらに、理論的背景や研究を通じて、既存の搾取理論、商業搾取、金融搾取といった類似のテーマを探求し、「Exploitation Business」の主題をより深く理解する。

This paper investigates the "Exploitation Business" model, which capitalizes on information asymmetry to exploit vulnerable populations. It focuses on businesses targeting non-experts or fraudsters who capitalize on information asymmetry to sell their products or services to desperate individuals. This phenomenon, also described as "profit-making activities based on informational exploitation," thrives on individuals' limited access to information, lack of expertise, and Fear of Missing Out (FOMO). The recent advancement of social media and the rising trend of fandom business have accelerated the proliferation of such exploitation business models. Discussions on the empowerment and exploitation of fans in the digital media era present a restructuring of relationships between fans and media creators, highlighting the necessity of not overlooking the exploitation of fans' free labor. This paper analyzes the various facets and impacts of exploitation business models, enriched by real-world examples from sectors like cryptocurrency and GenAI, thereby discussing their social, economic, and ethical implications. Moreover, through theoretical backgrounds and research, it explores similar themes like existing exploitation theories, commercial exploitation, and financial exploitation to gain a deeper understanding of the "Exploitation Business" subject.
翻訳日:2024-06-19 12:30:40 公開日:2024-06-16
# テンパリングとエントロピックミラーの輝きの関連性

A connection between Tempering and Entropic Mirror Descent ( http://arxiv.org/abs/2310.11914v3 )

ライセンス: Link先を確認
Nicolas Chopin, Francesca R. Crucinio, Anna Korba, (参考訳) 本稿では,非正規化密度が知られている対象確率分布から試料へのテンパリング(Sequential Monte Carlo, SMC)とエントロピックミラー降下の関係について検討する。 テンパリングSMCは、逆クルバック・リーブラー(KL)の発散に適用されるエントロピックミラー降下に対応し、テンパリング繰り返しに対する収束率を得る。 我々の結果は最適化の観点からテンパリング反復を動機付けており、ワッサーシュタイン2幾何に関してKLの降下を行うランゲヴィン力学とは対照的に、フィッシャー・ラオ幾何に関してKLの発散の降下スキームと見なせることを示す。 我々は,SMCにおける一般的なプラクティスを正当化するために,テンパリングとミラー降下の関連性を活用し,文献における他の代替ベンチマークよりも優れた適応的テンパリング規則を導出する。

This paper explores the connections between tempering (for Sequential Monte Carlo; SMC) and entropic mirror descent to sample from a target probability distribution whose unnormalized density is known. We establish that tempering SMC corresponds to entropic mirror descent applied to the reverse Kullback-Leibler (KL) divergence and obtain convergence rates for the tempering iterates. Our result motivates the tempering iterates from an optimization point of view, showing that tempering can be seen as a descent scheme of the KL divergence with respect to the Fisher-Rao geometry, in contrast to Langevin dynamics that perform descent of the KL with respect to the Wasserstein-2 geometry. We exploit the connection between tempering and mirror descent iterates to justify common practices in SMC and derive adaptive tempering rules that improve over other alternative benchmarks in the literature.
翻訳日:2024-06-19 12:20:53 公開日:2024-06-16
# HDR画像レンダリングの知覚的評価と最適化

Perceptual Assessment and Optimization of HDR Image Rendering ( http://arxiv.org/abs/2310.12877v5 )

ライセンス: Link先を確認
Peibei Cao, Rafal K. Mantiuk, Kede Ma, (参考訳) 高ダイナミックレンジ(HDR)レンダリングは、自然界の広い輝度範囲を忠実に再現する能力を持つが、レンダリング品質を正確に評価する方法は、比較的過小評価されている。 既存の画質モデルは、主に低ダイナミックレンジ(LDR)画像用に設計されており、HDR画像の品質に対する人間の認識とよく一致しない。 このギャップを埋めるために、HDRの品質指標のファミリーを提案し、その重要なステップは、単純な逆表示モデルを用いて、HDR画像を様々な露出でLDR画像のスタックに分解することである。 その後、これらの分解された画像は、確立されたLDR品質指標によって評価される。 私たちのHDRの品質モデルには3つのメリットがあります。 まず、LDRの品質指標の最近の進歩を直接継承する。 第2に、HDR画像品質の人間の知覚データを再校正に頼らない。 第3に、より正確で詳細な品質評価のために、特定の輝度範囲のアライメントと優先順位付けを容易にする。 実験結果から,HDR画像品質データセットの4つの品質評価と,HDR新規ビュー合成の知覚的最適化の観点から,HDR品質指標が既存モデルより一貫して優れていることが示された。

High dynamic range (HDR) rendering has the ability to faithfully reproduce the wide luminance ranges in natural scenes, but how to accurately assess the rendering quality is relatively underexplored. Existing quality models are mostly designed for low dynamic range (LDR) images, and do not align well with human perception of HDR image quality. To fill this gap, we propose a family of HDR quality metrics, in which the key step is employing a simple inverse display model to decompose an HDR image into a stack of LDR images with varying exposures. Subsequently, these decomposed images are assessed through well-established LDR quality metrics. Our HDR quality models present three distinct benefits. First, they directly inherit the recent advancements of LDR quality metrics. Second, they do not rely on human perceptual data of HDR image quality for re-calibration. Third, they facilitate the alignment and prioritization of specific luminance ranges for more accurate and detailed quality assessment. Experimental results show that our HDR quality metrics consistently outperform existing models in terms of quality assessment on four HDR image quality datasets and perceptual optimization of HDR novel view synthesis.
翻訳日:2024-06-19 12:20:53 公開日:2024-06-16
# NOD-TAMP:ニューラルオブジェクト記述子による一般化可能な長距離計画

NOD-TAMP: Generalizable Long-Horizon Planning with Neural Object Descriptors ( http://arxiv.org/abs/2311.01530v2 )

ライセンス: Link先を確認
Shuo Cheng, Caelan Garrett, Ajay Mandlekar, Danfei Xu, (参考訳) 家庭や工場における複雑な操作作業の解決は, 長期的推論, きめ細かいインタラクション, 広範囲なオブジェクトとシーンの多様性など, 依然として困難な課題である。 実演からの学習スキルは効果的な戦略であるが、こうした手法は訓練データ以外の一般化性に制限があり、長期的タスクの解決に苦慮することが多い。 これを克服するために、一般化可能なオブジェクト中心機能を生成するニューラルオブジェクト記述子(NOD)と、多段階タスクを解決するために短軸スキルをチェーンするタスクと運動計画(TAMP)フレームワークの2つのパラダイムを相乗的に組み合わせることを提案する。 我々は,少数の人間によるデモンストレーションから短い操作軌跡を抽出し,NOD特徴を用いてこれらの軌跡を適応させる,TAMPベースのフレームワークであるNOD-TAMPを紹介した。 NOD-TAMPは、いくつかのデモで既存の操作ベンチマークを解決し、多様な一般化を必要とする新しいテーブルトップ操作タスクにおいて、NODベースのアプローチよりも大幅に優れている。 最後に,NOD-TAMPをツール使用や高精度挿入など,現実的なタスクにデプロイする。 詳しくはhttps://sites.google.com/view/nod-tamp/をご覧ください。

Solving complex manipulation tasks in household and factory settings remains challenging due to long-horizon reasoning, fine-grained interactions, and broad object and scene diversity. Learning skills from demonstrations can be an effective strategy, but such methods often have limited generalizability beyond training data and struggle to solve long-horizon tasks. To overcome this, we propose to synergistically combine two paradigms: Neural Object Descriptors (NODs) that produce generalizable object-centric features and Task and Motion Planning (TAMP) frameworks that chain short-horizon skills to solve multi-step tasks. We introduce NOD-TAMP, a TAMP-based framework that extracts short manipulation trajectories from a handful of human demonstrations, adapts these trajectories using NOD features, and composes them to solve broad long-horizon, contact-rich tasks. NOD-TAMP solves existing manipulation benchmarks with a handful of demonstrations and significantly outperforms prior NOD-based approaches on new tabletop manipulation tasks that require diverse generalization. Finally, we deploy NOD-TAMP on a number of real-world tasks, including tool-use and high-precision insertion. For more details, please visit https://sites.google.com/view/nod-tamp/.
翻訳日:2024-06-19 12:11:08 公開日:2024-06-16
# 言語モデルには重要な脳関連意味論が欠如している

Speech language models lack important brain-relevant semantics ( http://arxiv.org/abs/2311.04664v2 )

ライセンス: Link先を確認
Subba Reddy Oota, Emin Çelik, Fatma Deniz, Mariya Toneva, (参考訳) 脳内での読みと聞き取りの違いが知られているにもかかわらず、最近の研究はテキストベースの言語モデルが、テキスト誘発脳活動と音声誘発脳活動の両方を驚くほど予測していることを示している。 このことは、脳内でどのような情報言語モデルが本当に予測されるのかという疑問を引き起こします。 本研究では, 言語モデル表現から特定の低レベル刺激特徴(テキスト, 音声, 視覚)を体系的に除去し, 読聴時のfMRI脳波記録とのアライメントに与える影響を評価する。 これらの結果と音声に基づく言語モデルを比較すると、脳のアライメントに対する低レベル特徴の影響は大きく異なる。 テキストベースのモデルは、削除後の早期知覚領域におけるアライメントを減少させるが、後期言語領域では大きな予測力を保持する。 対照的に、音声に基づくモデルは、特徴除去後も初期の聴覚領域では強いアライメントを維持しているが、後期言語領域では全ての予測力を失う。 これらの結果は,音声モデルが早期聴覚領域で処理された付加情報に対する洞察を提供することを示しているが,後期言語領域での処理をモデル化するためには注意が必要であることを示唆している。 コードを公開しています。 [https://github.com/subbareddy248/speech-llm-brain]

Despite known differences between reading and listening in the brain, recent work has shown that text-based language models predict both text-evoked and speech-evoked brain activity to an impressive degree. This poses the question of what types of information language models truly predict in the brain. We investigate this question via a direct approach, in which we systematically remove specific low-level stimulus features (textual, speech, and visual) from language model representations to assess their impact on alignment with fMRI brain recordings during reading and listening. Comparing these findings with speech-based language models reveals starkly different effects of low-level features on brain alignment. While text-based models show reduced alignment in early sensory regions post-removal, they retain significant predictive power in late language regions. In contrast, speech-based models maintain strong alignment in early auditory regions even after feature removal but lose all predictive power in late language regions. These results suggest that speech-based models provide insights into additional information processed by early auditory regions, but caution is needed when using them to model processing in late language regions. We make our code publicly available. [https://github.com/subbareddy248/speech-llm-brain]
翻訳日:2024-06-19 11:31:28 公開日:2024-06-16
# テキスト分類のための言語モデルの概念レベルでのすっきりとした相関関係の探索

Explore Spurious Correlations at the Concept Level in Language Models for Text Classification ( http://arxiv.org/abs/2311.08648v4 )

ライセンス: Link先を確認
Yuhang Zhou, Paiheng Xu, Xiaoyu Liu, Bang An, Wei Ai, Furong Huang, (参考訳) 言語モデル(LM)は多くのNLPタスクで顕著な成功を収め、微調整と文脈内学習(ICL)の両方の手法を用いている。 言語モデルは例外的な性能を示すが、トレーニングデータやICLの実践者におけるラベルの不均衡分布から生じる急激な相関関係により、頑健さの課題に直面している。 これまでの研究は主に単語、フレーズ、構文の特徴に焦点を合わせてきたが、概念レベルを無視することはしばしば、概念ラベルの欠如や、入力テキストにおける概念内容の特定が困難であったためである。 本稿では2つの主な貢献を紹介する。 まず、ChatGPTを用いてテキストに概念ラベルを割り当て、テストデータ上での微調整やICL中のモデルにおける概念バイアスを評価する。 LMは、トレーニングやプロンプトにおいて概念とラベルの間に急激な相関に遭遇する場合、予測のショートカットを利用する。 第2に,ChatGPT生成した反ファクトデータを組み込んだデータ再バランス手法を導入し,ラベル分布のバランスを保ち,突発的相関を緩和する。 従来のトークン除去手法を超越した手法の有効性を広範囲な試験により検証した。

Language models (LMs) have achieved notable success in numerous NLP tasks, employing both fine-tuning and in-context learning (ICL) methods. While language models demonstrate exceptional performance, they face robustness challenges due to spurious correlations arising from imbalanced label distributions in training data or ICL exemplars. Previous research has primarily concentrated on word, phrase, and syntax features, neglecting the concept level, often due to the absence of concept labels and difficulty in identifying conceptual content in input texts. This paper introduces two main contributions. First, we employ ChatGPT to assign concept labels to texts, assessing concept bias in models during fine-tuning or ICL on test data. We find that LMs, when encountering spurious correlations between a concept and a label in training or prompts, resort to shortcuts for predictions. Second, we introduce a data rebalancing technique that incorporates ChatGPT-generated counterfactual data, thereby balancing label distribution and mitigating spurious correlations. Our method's efficacy, surpassing traditional token removal approaches, is validated through extensive testing.
翻訳日:2024-06-19 11:31:28 公開日:2024-06-16
# ConceptPsy:心理学における概念的包括性を備えたベンチマークスイート

ConceptPsy:A Benchmark Suite with Conceptual Comprehensiveness in Psychology ( http://arxiv.org/abs/2311.09861v4 )

ライセンス: Link先を確認
Junlei Zhang, Hongliang He, Nirui Song, Zhanchao Zhou, Shuyuan He, Shuai Zhang, Huachuan Qiu, Anqi Li, Yong Dai, Lizhi Ma, Zhenzhong Lan, (参考訳) 心理学の重要な分野は、ドメイン固有の大規模言語モデル(LLM)の評価と開発を強化するために包括的なベンチマークを必要とする。 C-EVAL や CMMLU のような既存の MMLU タイプのベンチマークには、心理学関連の主題が含まれているが、その限られた数の質問と体系的な概念サンプリング戦略の欠如は、心理学で必要とされる概念をカバーできないことを意味する。 その結果、対象範囲が広いにもかかわらず、これらのベンチマークは心理学領域に必要な深さを欠いており、心理学固有の評価スイートとして不十分である。 この問題に対処するために,中国における複雑な推論と心理学における知識能力の評価を目的としたConceptPsyを提案する。 ConceptPsyには12の主題と1383の手作業による概念が含まれている。 具体的には、慎重に設計された多様なプロンプトを用いて、GPT-4に各概念に対する質問を生成し、これらの質問をレビューするために専門家の心理学者を雇う。 きめ細かいパフォーマンスを理解し、弱点を強化するために、各質問を章ラベルで注釈付けし、章ごとの精度を提供する。 ConceptPsy をベースとして,幅広い LLM の評価を行った。 我々は,LLMが全体のパフォーマンスにおいて類似の精度を達成しているが,同一シリーズのモデルである場合でも,異なる心理学的概念の相違が顕著に現れることを観察した。 我々の研究が心理学の分野におけるLSMの発展を促進することを願っている。

The critical field of psychology necessitates a comprehensive benchmark to enhance the evaluation and development of domain-specific Large Language Models (LLMs). Existing MMLU-type benchmarks, such as C-EVAL and CMMLU, include psychology-related subjects, but their limited number of questions and lack of systematic concept sampling strategies mean they cannot cover the concepts required in psychology. Consequently, despite their broad subject coverage, these benchmarks lack the necessary depth in the psychology domain, making them inadequate as psychology-specific evaluation suite. To address this issue, this paper presents ConceptPsy, designed to evaluate Chinese complex reasoning and knowledge abilities in psychology. ConceptPsy includes 12 core subjects and 1383 manually collected concepts. Specifically, we prompt GPT-4 to generate questions for each concept using carefully designed diverse prompts and hire professional psychologists to review these questions. To help to understand the fine-grained performances and enhance the weaknesses, we annotate each question with a chapter label and provide chapter-wise accuracy. Based on ConceptPsy, we evaluate a broad range of LLMs. We observe that, although some LLMs achieve similar accuracies on overall performances, they exhibit significant performance variations across different psychology concepts, even when they are models from the same series. We hope our work can facilitate the development of LLMs in the field of psychology.
翻訳日:2024-06-19 11:31:28 公開日:2024-06-16
# バイアスAヘッド : トランスフォーマーに基づく言語モデルアテンションヘッドにおけるバイアスの分析

Bias A-head? Analyzing Bias in Transformer-Based Language Model Attention Heads ( http://arxiv.org/abs/2311.10395v2 )

ライセンス: Link先を確認
Yi Yang, Hanyu Duan, Ahmed Abbasi, John P. Lalor, Kar Yan Tam, (参考訳) BERTやGPTのようなトランスフォーマーベースで事前訓練された大規模言語モデル(PLM)は、NLPタスクにおいて顕著な成功を収めた。 しかし、PLMはステレオタイプバイアスを符号化する傾向がある。 ジェンダーの偏りや人種的ステレオティピングといった PLM の定型的偏見緩和に関する文献が出現しているが、そのような偏見が PLM の内部でどのように現れ、どのように振る舞うかは明らかになっていない。 内部ステレオタイピング機構を理解することで、モデルフェアネスのより良い評価が可能になり、効果的な緩和戦略の開発を導くことができる。 本研究では,トランスフォーマーアーキテクチャの主要なコンポーネントであるアテンションヘッドに着目し,PLMのステレオタイプバイアスに寄与する少数のバイアスヘッドを探索・同定するためのバイアス分析フレームワークを提案する。 偏りのある頭の存在を検証し、どのように振る舞うかをよりよく理解するために、広範な実験を行う。 本稿では,トランスフォーマーをベースとした2種類のPLM(エンコーダベースBERTモデル)とデコーダベース自己回帰GPTモデル(デコーダベースGPTモデル)において,英語の性差と人種バイアスについて検討する。 全体としては、事前訓練された言語モデルにおけるバイアスの振る舞いを理解することに光を当てている。

Transformer-based pretrained large language models (PLM) such as BERT and GPT have achieved remarkable success in NLP tasks. However, PLMs are prone to encoding stereotypical biases. Although a burgeoning literature has emerged on stereotypical bias mitigation in PLMs, such as work on debiasing gender and racial stereotyping, how such biases manifest and behave internally within PLMs remains largely unknown. Understanding the internal stereotyping mechanisms may allow better assessment of model fairness and guide the development of effective mitigation strategies. In this work, we focus on attention heads, a major component of the Transformer architecture, and propose a bias analysis framework to explore and identify a small set of biased heads that are found to contribute to a PLM's stereotypical bias. We conduct extensive experiments to validate the existence of these biased heads and to better understand how they behave. We investigate gender and racial bias in the English language in two types of Transformer-based PLMs: the encoder-based BERT model and the decoder-based autoregressive GPT model. Overall, the results shed light on understanding the bias behavior in pretrained language models.
翻訳日:2024-06-19 11:31:28 公開日:2024-06-16
# LABCAT:主成分整合信頼領域を用いた局所適応ベイズ最適化

LABCAT: Locally adaptive Bayesian optimization using principal-component-aligned trust regions ( http://arxiv.org/abs/2311.11328v2 )

ライセンス: Link先を確認
E. Visser, C. E. van Daalen, J. C. Schoeman, (参考訳) ベイズ最適化(BO)は高価なブラックボックス関数を最適化する一般的な方法である。 BOには、より長い最適化実行を伴う計算のスローダウン、非定常的あるいは不条件の目的関数に対する適合性の低下、収束特性の低下など、よく文書化された欠点がいくつかある。 信頼領域などのローカル戦略をBOに組み込んでこれらの制限を緩和するアルゴリズムがいくつか提案されているが、いずれのアルゴリズムも十分対応していない。 これらの欠点に対処するために、信頼領域を重み付けされた主成分と整列させることにより信頼領域ベースBOを拡張したABCATアルゴリズムと、自動関係決定を伴う局所ガウス過程サロゲートモデルの長さスケールに基づく適応的再スケーリング戦略を提案する。 一連の合成テスト関数とよく知られたCOCOベンチマークソフトウェアを用いて、広範囲にわたる数値実験を行い、LABCATアルゴリズムがいくつかの最先端BOや他のブラックボックス最適化アルゴリズムより優れていることを示す。

Bayesian optimization (BO) is a popular method for optimizing expensive black-box functions. BO has several well-documented shortcomings, including computational slowdown with longer optimization runs, poor suitability for non-stationary or ill-conditioned objective functions, and poor convergence characteristics. Several algorithms have been proposed that incorporate local strategies, such as trust regions, into BO to mitigate these limitations; however, none address all of them satisfactorily. To address these shortcomings, we propose the LABCAT algorithm, which extends trust-region-based BO by adding a rotation aligning the trust region with the weighted principal components and an adaptive rescaling strategy based on the length-scales of a local Gaussian process surrogate model with automatic relevance determination. Through extensive numerical experiments using a set of synthetic test functions and the well-known COCO benchmarking software, we show that the LABCAT algorithm outperforms several state-of-the-art BO and other black-box optimization algorithms.
翻訳日:2024-06-19 11:31:28 公開日:2024-06-16
# 意味コミュニケーションが可能な知識ベース:生成的視点

Knowledge Base Enabled Semantic Communication: A Generative Perspective ( http://arxiv.org/abs/2311.12443v2 )

ライセンス: Link先を確認
Jinke Ren, Zezhong Zhang, Jie Xu, Guanying Chen, Yaping Sun, Ping Zhang, Shuguang Cui, (参考訳) セマンティック通信は第6世代(6G)無線ネットワークを推進するための重要な技術として広く評価されている。 しかし、実際は効果的な意味表現を提供することは非常に難しい。 この問題に対処するために,本論文では,意味的知識ベース(KB)を活用することで,生成的セマンティックコミュニケーションの新しい時代を先導する。 セマンティックKBでは、ソースメッセージは所望の意味を損なうことなく低次元のサブスペースで特徴付けられるため、通信効率が大幅に向上する。 セマンティックKBの基本原理はまず導入され、生成セマンティック通信アーキテクチャは3つのサブKB(ソース、タスク、チャネルKB)を提示することによって開発される。 次に,各サブKBの詳細な構成手法について述べる。 また,従来の統語的コミュニケーションや古典的意味コミュニケーションよりも生成的意味コミュニケーションの方が優れていることを示すケーススタディも提供する。 簡単に言うと、本論文は、生成的セマンティックコミュニケーションのエキサイティングな未チャートフロンティアの科学的基盤を確立するものである。

Semantic communication is widely touted as a key technology for propelling the sixth-generation (6G) wireless networks. However, providing effective semantic representation is quite challenging in practice. To address this issue, this article takes a crack at exploiting semantic knowledge base (KB) to usher in a new era of generative semantic communication. Via semantic KB, source messages can be characterized in low-dimensional subspaces without compromising their desired meanings, thus significantly enhancing the communication efficiency. The fundamental principle of semantic KB is first introduced, and a generative semantic communication architecture is developed by presenting three sub-KBs, namely source, task, and channel KBs. Then, the detailed construction approaches for each sub-KB are described, followed by their utilization in terms of semantic coding and transmission. A case study is also provided to showcase the superiority of generative semantic communication over conventional syntactic communication and classical semantic communication. In a nutshell, this article establishes a scientific foundation for the exciting uncharted frontier of generative semantic communication.
翻訳日:2024-06-19 11:31:28 公開日:2024-06-16
# FSGS:ガウススプラッティングを用いた実時間Few-shotビュー合成

FSGS: Real-Time Few-shot View Synthesis using Gaussian Splatting ( http://arxiv.org/abs/2312.00451v2 )

ライセンス: Link先を確認
Zehao Zhu, Zhiwen Fan, Yifan Jiang, Zhangyang Wang, (参考訳) 限られた観測からの新しい視点合成は依然として重要かつ永続的な課題である。 しかし、既存のNeRFベースの小ショットビュー合成の高効率性は、正確な3D表現を得るためにしばしば妥協される。 この課題に対処するために,3次元ガウススプラッティングに基づく数ショットビュー合成フレームワークを提案する。 提案手法はFSGSと呼ばれ,極端に疎い初期化SfM点を思慮深く設計したガウスアンアンプールプロセスで処理する。 提案手法は,最も代表的な場所を中心に新しいガウシアンを反復的に配布し,その後,空き地に局所的な詳細を埋め込む。 我々はまた、ガウス最適化プロセスに大規模な事前学習された単眼深度推定器を統合し、オンライン拡張ビューを活用し、幾何最適化を最適解へ導く。 限られた入力視点から観察されるスパースポイントから始めると、FSGSは正確に見えない領域に成長し、シーンを包括的にカバーし、新しいビューのレンダリング品質を高めることができる。 全体として、FSGSはLLFF、Mip-NeRF360、Blenderなど、さまざまなデータセットの精度とレンダリング効率の両方で最先端のパフォーマンスを実現している。 プロジェクトサイト: https://zehaozhu.github.io/FSGS/。

Novel view synthesis from limited observations remains an important and persistent task. However, high efficiency in existing NeRF-based few-shot view synthesis is often compromised to obtain an accurate 3D representation. To address this challenge, we propose a few-shot view synthesis framework based on 3D Gaussian Splatting that enables real-time and photo-realistic view synthesis with as few as three training views. The proposed method, dubbed FSGS, handles the extremely sparse initialized SfM points with a thoughtfully designed Gaussian Unpooling process. Our method iteratively distributes new Gaussians around the most representative locations, subsequently infilling local details in vacant areas. We also integrate a large-scale pre-trained monocular depth estimator within the Gaussians optimization process, leveraging online augmented views to guide the geometric optimization towards an optimal solution. Starting from sparse points observed from limited input viewpoints, our FSGS can accurately grow into unseen regions, comprehensively covering the scene and boosting the rendering quality of novel views. Overall, FSGS achieves state-of-the-art performance in both accuracy and rendering efficiency across diverse datasets, including LLFF, Mip-NeRF360, and Blender. Project website: https://zehaozhu.github.io/FSGS/.
翻訳日:2024-06-19 09:12:15 公開日:2024-06-16
# EE-LLM:3次元並列処理を用いた大規模言語モデルの大規模学習と推定

EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language Models with 3D Parallelism ( http://arxiv.org/abs/2312.04916v3 )

ライセンス: Link先を確認
Yanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou, (参考訳) 本稿では,大規模学習のためのフレームワークであるEE-LLMについて述べる。 近年の研究では,LEM推論の早期終了の有効性を示す予備的な証拠が示されているが,EE-LLMは,大規模な3次元並列性によるトレーニングと推論を支援することにより,早期終了LSMのスケールアップに向けた基礎的な一歩を踏み出している。 Megatron-LMをベースとして、EE-LLMは早期終了に適したアルゴリズムの革新とパフォーマンス最適化を数多く実装しており、パイプライン並列化による早期終了トレーニング目標のバックプロパゲーションを容易にする軽量な方法、初期の外部レイヤに関連する計算のために元々のパイプラインスケジュールにアイドルリソースを活用する技術、自動回帰生成のためのKVキャッシュと互換性のある早期終了推論の2つのアプローチなどである。 解析的および実証的研究により,EE-LLM は通常の LLM トレーニングに比べ,計算オーバーヘッドの無視によるトレーニング効率の向上と,出力品質を損なうことなく優れた推論高速化を実現していることが示された。 さらなる研究と採用を容易にするため、EE-LLMはhttps://github.com/pan-x-c/EE-LLM.comでリリースします。

We present EE-LLM, a framework for large-scale training and inference of early-exit large language models (LLMs). While recent works have shown preliminary evidence for the efficacy of early exiting in accelerating LLM inference, EE-LLM makes a foundational step towards scaling up early-exit LLMs by supporting their training and inference with massive 3D parallelism. Built upon Megatron-LM, EE-LLM implements a variety of algorithmic innovations and performance optimizations tailored to early exiting, including a lightweight method that facilitates backpropagation for the early-exit training objective with pipeline parallelism, techniques of leveraging idle resources in the original pipeline schedule for computation related to early-exit layers, and two approaches of early-exit inference that are compatible with KV caching for autoregressive generation. Our analytical and empirical study shows that EE-LLM achieves great training efficiency with negligible computational overhead compared to standard LLM training, as well as outstanding inference speedup without compromising output quality. To facilitate further research and adoption, we release EE-LLM at https://github.com/pan-x-c/EE-LLM.
翻訳日:2024-06-19 09:12:15 公開日:2024-06-16
# QuaR-VLA:四足歩行ロボットの視覚言語行動モデル

QUAR-VLA: Vision-Language-Action Model for Quadruped Robots ( http://arxiv.org/abs/2312.14457v4 )

ライセンス: Link先を確認
Pengxiang Ding, Han Zhao, Wenjie Zhang, Wenxuan Song, Ningxi Yang, Donglin Wang, (参考訳) ロボットインテリジェンスの重要な発現は、自然と対話し、自律的に意思決定する能力である。 従来のロボット制御のアプローチは、知覚、計画、意思決定を分割し、システム設計を単純化するが、異なる情報ストリーム間のシナジーを制限する。 この区画化は、シームレスな自律的推論、意思決定、行動実行を達成する上での課題を提起する。 これらの制約に対処するため、Quadruped Robots (QUAR-VLA) のためのビジョン・ランゲージ・アクション・タスク(Vision-Language-Action task)という新しいパラダイムが論文で紹介されている。 このアプローチは、視覚情報と指示を密に統合し、実行可能なアクションを生成し、知覚、計画、意思決定を効果的にマージする。 中心となるアイデアは、ロボットの全体的な知性を高めることだ。 この枠組みの中で注目すべき課題は、きめ細かい指示を視覚的知覚情報と整合させることである。 これは、ロボットが視覚的な観察と調和して正確に解釈し、詳細な指示に従って行動することを保証する複雑さを強調している。 そこで本研究では,VLAモデルのファミリーである Quadruped Robotic Transformer (QUART) を提案し,実世界のロボットの入力として様々なモードから視覚情報と指示を統合し,実世界のロボットに対して実行可能なアクションを生成するとともに, quadruped Robot Dataset (QUARD) を提示する。 評価試験(4000回)により,本手法がロボットの能力向上に寄与し,QUIRTが創発的能力の獲得に有効であることが示唆された。

The important manifestation of robot intelligence is the ability to naturally interact and autonomously make decisions. Traditional approaches to robot control often compartmentalize perception, planning, and decision-making, simplifying system design but limiting the synergy between different information streams. This compartmentalization poses challenges in achieving seamless autonomous reasoning, decision-making, and action execution. To address these limitations, a novel paradigm, named Vision-Language-Action tasks for QUAdruped Robots (QUAR-VLA), has been introduced in this paper. This approach tightly integrates visual information and instructions to generate executable actions, effectively merging perception, planning, and decision-making. The central idea is to elevate the overall intelligence of the robot. Within this framework, a notable challenge lies in aligning fine-grained instructions with visual perception information. This emphasizes the complexity involved in ensuring that the robot accurately interprets and acts upon detailed instructions in harmony with its visual observations. Consequently, we propose QUAdruped Robotic Transformer (QUART), a family of VLA models to integrate visual information and instructions from diverse modalities as input and generates executable actions for real-world robots and present QUAdruped Robot Dataset (QUARD), a large-scale multi-task dataset including navigation, complex terrain locomotion, and whole-body manipulation tasks for training QUART models. Our extensive evaluation (4000 evaluation trials) shows that our approach leads to performant robotic policies and enables QUART to obtain a range of emergent capabilities.
翻訳日:2024-06-19 07:14:24 公開日:2024-06-16
# LLM-SAP:大規模言語モデルと状況認識に基づく計画

LLM-SAP: Large Language Models Situational Awareness Based Planning ( http://arxiv.org/abs/2312.16127v5 )

ライセンス: Link先を確認
Liman Wang, Hanyang Zhong, (参考訳) 本研究では、大規模言語モデル(LLM)と状況認識に基づく計画(SAP)を統合することにより、動的かつ不確実な環境におけるAIエージェントの意思決定能力を高めることを検討する。 我々は、反復的なフィードバックと評価プロセスを通じて潜在的なリスクを予測し、積極的に軽減する方法論を開発するために、マルチエージェント推論フレームワークを採用している。 提案手法は,人間中心のインタラクションの複雑さを計画プロセスに組み込むことで,従来のオートマトン理論から分岐し,LLMの計画範囲を構造化・予測可能なシナリオを超えて拡大する。 その結果、モデルがハザード相互作用の中で比較的安全なアクションを提供する能力を大幅に改善し、積極的かつリアクティブな計画戦略の視点を提供した。 この研究は、人間のような行動計画を実行するLLMの可能性を強調し、予測不可能な現実世界のアプリケーションにおいて、より洗練され、信頼性があり、安全なAIシステムを実現する。

This study explores integrating large language models (LLMs) with situational awareness-based planning (SAP) to enhance the decision-making capabilities of AI agents in dynamic and uncertain environments. We employ a multi-agent reasoning framework to develop a methodology that anticipates and actively mitigates potential risks through iterative feedback and evaluation processes. Our approach diverges from traditional automata theory by incorporating the complexity of human-centric interactions into the planning process, thereby expanding the planning scope of LLMs beyond structured and predictable scenarios. The results demonstrate significant improvements in the model's ability to provide comparative safe actions within hazard interactions, offering a perspective on proactive and reactive planning strategies. This research highlights the potential of LLMs to perform human-like action planning, thereby paving the way for more sophisticated, reliable, and safe AI systems in unpredictable real-world applications.
翻訳日:2024-06-19 07:14:24 公開日:2024-06-16
# 放射線画像による長期診断の大規模化

Large-scale Long-tailed Disease Diagnosis on Radiology Images ( http://arxiv.org/abs/2312.16151v3 )

ライセンス: Link先を確認
Qiaoyu Zheng, Weike Zhao, Chaoyi Wu, Xiaoman Zhang, Lisong Dai, Hengyu Guan, Yuehua Li, Ya Zhang, Yanfeng Wang, Weidi Xie, (参考訳) 一般放射線診断システムの開発は臨床診断を大幅に強化することができる。 本稿では, トランスフォーマーベースの融合モジュールを用いて, 様々なモダリティや解剖学にまたがる2Dおよび3D入力を支援する基礎モデルRadDiagを紹介する。 患者のプライバシ上の懸念と,大規模放射線診断データセットの欠如により,診断ラベルとともにオンラインで利用可能な高品質で臨床レビューされた放射線画像を利用する。 RP3D-DiagDSは5,568の障害(930のユニークなICD-10-CMコード)をカバーする195,010のスキャンで40,936の症例を含む。 実験により,RadDiagは95.14%のAUCを,知識向上戦略による内部評価で達成した。 さらにRadDiagは、さまざまな病院から得られた外部診断データセットにゼロショットを適用したり、微調整したりすることで、最先端の結果を示すことができる。 結論として、インターネット上で医療データを公開することは、医療のためのジェネラリストAIの構築を支援する可能性のある、非常に貴重なリソースであることを示す。

Developing a generalist radiology diagnosis system can greatly enhance clinical diagnostics. In this paper, we introduce RadDiag, a foundational model supporting 2D and 3D inputs across various modalities and anatomies, using a transformer-based fusion module for comprehensive disease diagnosis. Due to patient privacy concerns and the lack of large-scale radiology diagnosis datasets, we utilize high-quality, clinician-reviewed radiological images available online with diagnosis labels. Our dataset, RP3D-DiagDS, contains 40,936 cases with 195,010 scans covering 5,568 disorders (930 unique ICD-10-CM codes). Experimentally, our RadDiag achieves 95.14% AUC on internal evaluation with the knowledge-enhancement strategy. Additionally, RadDiag can be zero-shot applied or fine-tuned to external diagnosis datasets sourced from various hospitals, demonstrating state-of-the-art results. In conclusion, we show that publicly shared medical data on the Internet is a tremendous and valuable resource that can potentially support building a generalist AI for healthcare.
翻訳日:2024-06-19 07:04:39 公開日:2024-06-16
# GenAI Mirage:人工免疫時代におけるインポスタバイアスとディープフェイク検出チャレンジ

GenAI Mirage: The Impostor Bias and the Deepfake Detection Challenge in the Era of Artificial Illusions ( http://arxiv.org/abs/2312.16220v2 )

ライセンス: Link先を確認
Mirko Casu, Luca Guarnera, Pasquale Caponnetto, Sebastiano Battiato, (参考訳) 本稿では, 認知バイアスが鑑識およびデジタル鑑識における意思決定に与える影響について検討し, 確認バイアス, アンカーバイアス, 後視バイアスなどのバイアスについて検討する。 バイアスを緩和し、意思決定を改善するための既存の手法を評価し、AIツールによって生成されると仮定して、音声、画像、ビデオなどのマルチメディアコンテンツの信頼性を疑問視する体系的な傾向として、新しい"Impostor Bias"を導入する。 このバイアスは、誤った判断や誤った告発につながる可能性があるため、鑑識者の知識レベルを超えており、法医学的証拠の信頼性と信頼性を損なう。 インポスタバイアスは、客観的なコンテンツアセスメントというよりも、先験的な仮定に起因しており、AI生成マルチメディア製品の現実性の増加とともに、その影響が増大することが期待されている。 本稿では,インポスタバイアスの潜在的な原因と結果について論じ,予防と対策戦略を提案する。 本論文は,これらの課題に対処し,価値ある知見を提供し,法医学的調査の客観性と妥当性を高め,今後の研究・実践の提言を行い,法医学的実践の完全性と信頼性を確保することを目的とする。

This paper examines the impact of cognitive biases on decision-making in forensics and digital forensics, exploring biases such as confirmation bias, anchoring bias, and hindsight bias. It assesses existing methods to mitigate biases and improve decision-making, introducing the novel "Impostor Bias", which arises as a systematic tendency to question the authenticity of multimedia content, such as audio, images, and videos, often assuming they are generated by AI tools. This bias goes beyond evaluators' knowledge levels, as it can lead to erroneous judgments and false accusations, undermining the reliability and credibility of forensic evidence. Impostor Bias stems from an a priori assumption rather than an objective content assessment, and its impact is expected to grow with the increasing realism of AI-generated multimedia products. The paper discusses the potential causes and consequences of Impostor Bias, suggesting strategies for prevention and counteraction. By addressing these topics, this paper aims to provide valuable insights, enhance the objectivity and validity of forensic investigations, and offer recommendations for future research and practical applications to ensure the integrity and reliability of forensic practices.
翻訳日:2024-06-19 07:04:39 公開日:2024-06-16
# FENet: レーン検出のための拡張ネットワーク

FENet: Focusing Enhanced Network for Lane Detection ( http://arxiv.org/abs/2312.17163v6 )

ライセンス: Link先を確認
Liman Wang, Hanyang Zhong, (参考訳) 人間の運転に焦点を当てたこの研究は、Focusing Smpling、Partial Field of View Evaluation、Enhanced FPN Architecture、Directional IoU Lossなどのネットワークを進化させた。 実験では、均一なアプローチと異なり、重要な距離の細部を強調し、安全性に不可欠なベンチマークと実用的な曲線付き/距離付きレーン認識の精度を著しく向上する。 FENetV1は、ドライバービジョンを模倣する視点認識コンテキストを分離することで、最先端の従来のメトリック性能を達成するが、FENetV2は提案した部分フィールド解析において最も信頼性が高い。 したがって、標準的な全画像の計測値に差分劣化があるにもかかわらず、実用的な車線ナビゲーションにはV2を特に推奨する。 今後の方向性には、道路上のデータ収集や、補完的な2つのフレームワークの統合などが含まれる。 コードはhttps://github.com/HanyangZhong/FENet.comから入手できる。

Inspired by human driving focus, this research pioneers networks augmented with Focusing Sampling, Partial Field of View Evaluation, Enhanced FPN architecture and Directional IoU Loss - targeted innovations addressing obstacles to precise lane detection for autonomous driving. Experiments demonstrate our Focusing Sampling strategy, emphasizing vital distant details unlike uniform approaches, significantly boosts both benchmark and practical curved/distant lane recognition accuracy essential for safety. While FENetV1 achieves state-of-the-art conventional metric performance via enhancements isolating perspective-aware contexts mimicking driver vision, FENetV2 proves most reliable on the proposed Partial Field analysis. Hence we specifically recommend V2 for practical lane navigation despite fractional degradation on standard entire-image measures. Future directions include collecting on-road data and integrating complementary dual frameworks to further breakthroughs guided by human perception principles. The Code is available at https://github.com/HanyangZhong/FENet.
翻訳日:2024-06-19 07:04:39 公開日:2024-06-16
# SAFE-SIM:制御可能な広告主による安全臨界閉ループ交通シミュレーション

SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Controllable Adversaries ( http://arxiv.org/abs/2401.00391v2 )

ライセンス: Link先を確認
Wei-Jer Chang, Francesco Pittaluga, Masayoshi Tomizuka, Wei Zhan, Manmohan Chandraker, (参考訳) 自動運転車計画アルゴリズムの性能を評価するには、長距離安全クリティカルな交通シナリオをシミュレートする必要がある。 しかし、そのようなシナリオを生成する従来の手法は、制御可能性やリアリズムの観点からは不足することが多く、エージェント相互作用のダイナミクスを無視する。 これらの制限を緩和するために,新しい拡散制御可能なクローズループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを導入する。 私たちのアプローチには2つの異なる利点があります。 1)現実世界の状況を密にエミュレートする現実的なロングテール安全クリティカルシナリオの生成 2) コントロール性が向上し,より包括的でインタラクティブな評価が可能となった。 本研究では, 現場のすべてのエージェントが反応的かつ現実的な行動を示すのに対して, 敵エージェントはもっともらしい操作でプランナーに挑戦することができる。 さらに,利用者が行動の現実性を維持しつつ,相手ドライバーの衝突タイプや攻撃性などのシナリオの重要な側面を制御できる新たな誘導目標と部分拡散プロセスを提案する。 我々はNuScenesデータセットを実証的に検証し、リアリズムと制御性の両方の改善を実証した。 これらの結果は、拡散モデルが安全クリティカルでインタラクティブな交通シミュレーションのための堅牢で汎用的な基盤を提供し、自律運転の広い視野にその実用性を広げていることを裏付けている。 補足ビデオについては、https://safe-sim.github.io/.com/を参照してください。

Evaluating the performance of autonomous vehicle planning algorithms necessitates simulating long-tail safety-critical traffic scenarios. However, traditional methods for generating such scenarios often fall short in terms of controllability and realism and neglect the dynamics of agent interactions. To mitigate these limitations, we introduce SAFE-SIM, a novel diffusion-based controllable closed-loop safety-critical simulation framework. Our approach yields two distinct advantages: 1) the generation of realistic long-tail safety-critical scenarios that closely emulate real-world conditions, and 2) enhanced controllability, enabling more comprehensive and interactive evaluations. We develop a novel approach to simulate safety-critical scenarios through an adversarial term in the denoising process, which allows an adversarial agent to challenge a planner with plausible maneuvers while all agents in the scene exhibit reactive and realistic behaviors. Furthermore, we propose novel guidance objectives and a partial diffusion process that enables a user to control key aspects of the generated scenarios, such as the collision type and aggressiveness of the adversarial driver, while maintaining the realism of the behavior. We validate our framework empirically using the NuScenes dataset, demonstrating improvements in both realism and controllability. These findings affirm that diffusion models provide a robust and versatile foundation for safety-critical, interactive traffic simulation, extending their utility across the broader landscape of autonomous driving. For supplementary videos, visit our project at https://safe-sim.github.io/.
翻訳日:2024-06-19 07:04:39 公開日:2024-06-16
# 多体量子カオス検出の提案

Proposal for many-body quantum chaos detection ( http://arxiv.org/abs/2401.01401v3 )

ライセンス: Link先を確認
Adway Kumar Das, Cameron Cianci, Delmar G. A. Cabral, David A. Zarate-Herrada, Patrick Pinney, Saúl Pilatowsky-Cameo, Apollonas S. Matsoukas-Roubeas, Victor S. Batista, Adolfo del Campo, E. Jonathan Torres-Herrera, Lea F. Santos, (参考訳) この研究において、「量子カオス」という用語は、ランダム行列理論で見られるものと類似したスペクトル相関を指す。 量子カオスは、短距離と長距離の両方の相関を検出するスペクトル形状因子egを用いて、レベル統計の分析を通して診断することができる。 スペクトル形状因子は、2点スペクトル相関関数のフーリエ変換に対応し、システムがカオスであるときに典型的な傾斜-傾斜-ランプ-プラトー構造(いわゆる相関穴)を示す。 この構造は、実験的な多体量子システム(生存確率とスピン自己相関関数)にアクセスできる2つの物理量のクエンチダイナミクスによってどのように検出できるかについて議論する。 生存確率は、追加フィルタを備えたスペクトル形状係数と等価である。 系が小さい場合、相関穴の深さは、現在の実験プラットフォームで検出できるほど短い時間に十分に大きな値に達する。 システムがカオスから遠ざかるにつれて、相関穴は消え、可積分性や局所化のシグナルとなる。 また、市販の量子コンピュータで相関穴を検出できる比較的浅い回路も提供する。

In this work, the term ``quantum chaos'' refers to spectral correlations similar to those found in the random matrix theory. Quantum chaos can be diagnosed through the analysis of level statistics using e.g.~the spectral form factor, which detects both short- and long-range level correlations. The spectral form factor corresponds to the Fourier transform of the two-point spectral correlation function and exhibits a typical slope-dip-ramp-plateau structure (aka correlation hole) when the system is chaotic. We discuss how this structure could be detected through the quench dynamics of two physical quantities accessible to experimental many-body quantum systems: the survival probability and the spin autocorrelation function. The survival probability is equivalent to the spectral form factor with an additional filter. When the system is small, the dip of the correlation hole reaches sufficiently large values at times which are short enough to be detected with current experimental platforms. As the system is pushed away from chaos, the correlation hole disappears, signaling integrability or localization. We also provide a relatively shallow circuit with which the correlation hole could be detected with commercially available quantum computers.
翻訳日:2024-06-19 07:04:39 公開日:2024-06-16
# Fenna-Matthews-Olson複合体の絡み合いと励起子脱局在制御における散逸環境の役割に関する系統的研究

A systematic study of the role of dissipative environment in regulating entanglement and exciton delocalization in the Fenna-Matthews-Olson complex ( http://arxiv.org/abs/2401.01534v2 )

ライセンス: Link先を確認
Luis E. Herrera Rodríguez, Alexei A. Kananenka, (参考訳) 本稿では, 自然光ハーベストティングシステム Fenna-Matthews-Olson (FMO) における大域的絡み合いとエキシトンコヒーレンス長の動的コヒーレンスを, 低温から高温までの散逸環境, 強いシステム環境結合, 非マルコフ環境の様々なパラメータにわたって系統的に研究する。 運動の非摂動的数値的正確な階層方程式を用いてシステムの力学を伝播する。 エンタングルメントは主にシステムと環境間の相互作用の強さによって駆動され、温度と非マルコビアン性の間の相互作用によって変調される。 対照的に、コヒーレンス長は非マルコビアン性に敏感である。 さらに、FMO複合体における大域的絡み合いと励起エネルギー伝達効率の直接相関は示さない。

In this Article we perform a systematic study of the global entanglement and exciton coherence length dynamics coherence in natural light-harvesting system Fenna-Matthews-Olson (FMO) complex across various parameters of a dissipative environment from low to high temperatures, weak to strong system-environment coupling, and non-Markovian environments. A non-perturbative numerically exact hierarchical equations of motions method is employed to propagate the dynamics of the system. We found that entanglement is driven primarily by the strength of interaction between the system and environment, and it is modulated by the interplay between temperature and non-Markovianity. In contrast, coherence length is found to be insensitive to non-Markovianity. Furthermore, our results do not show the direct correlation between global entanglement and the efficiency of the excitation energy transfer in the FMO complex
翻訳日:2024-06-19 07:04:39 公開日:2024-06-16
# モデル編集による大規模言語モデルの一般的な能力:救助の正規化

Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue ( http://arxiv.org/abs/2401.04700v3 )

ライセンス: Link先を確認
Jia-Chen Gu, Hao-Xiang Xu, Jun-Yu Ma, Pan Lu, Zhen-Hua Ling, Kai-Wei Chang, Nanyun Peng, (参考訳) モデル編集は、大きな言語モデル(LLM)を編集し、リソース集約的な再学習なしに幻覚を緩和する技術である。 現在のモデル編集手法は、特定の分野におけるモデルの振る舞いを効果的に修正することができるが、推論、自然言語推論、質問応答といったLCMの一般的な能力に対する意図しない副作用を見逃すことがしばしばある。 本稿では,モデル編集における事実性の改善が,モデルの汎用能力を著しく低下させる原因となるのではないか,という懸念を提起する。 本研究では,8つのタスクにまたがる3つのLSMに対して,4つの一般的な編集方法を評価することで,副作用を系統的に解析する。 広範囲にわたる実証実験の結果,現在の編集手法では,LLMの現実性を同時に改善し,その汎用性を維持することが困難であることが示唆された。 分析の結果, モデルの重みを過度に修正したモデル編集が, 編集事実に過度に適合していることが判明した。 これを軽減するため、更新重みを正規化するためにRECT(Relative Change in weighT)と呼ばれる手法が提案されている。 評価の結果,RECTは編集性能を94%以上維持しながら編集の副作用を大幅に軽減できることがわかった。

Model editing is a technique that edits the large language models (LLMs) with updated knowledge to alleviate hallucinations without resource-intensive retraining. While current model editing methods can effectively modify a model's behavior within a specific area of interest, they often overlook the potential unintended side effects on the general abilities of LLMs such as reasoning, natural language inference, and question answering. In this paper, we raise concerns that model editing's improvements on factuality may come at the cost of a significant degradation of the model's general abilities. We systematically analyze the side effects by evaluating four popular editing methods on three LLMs across eight representative tasks. Our extensive empirical experiments show that it is challenging for current editing methods to simultaneously improve factuality of LLMs and maintain their general abilities. Our analysis reveals that the side effects are caused by model editing altering the original model weights excessively, leading to overfitting to the edited facts. To mitigate this, a method named RECT (RElative Change in weighT) is proposed to regularize the edit update weights. Evaluation results show that RECT can significantly mitigate the side effects of editing while still maintaining over 94% editing performance.
翻訳日:2024-06-19 07:04:39 公開日:2024-06-16
# シュロディンガー方程式の解法による可能な$K \bar{K}^*$および$D \bar{D}^*$束縛状態と共鳴状態

The possible $K \bar{K}^*$ and $D \bar{D}^*$ bound and resonance states by solving Schrodinger equation ( http://arxiv.org/abs/2401.10000v2 )

ライセンス: Link先を確認
Bao-Xi Sun, Qin-Qin Cao, Ying-Tai Sun, (参考訳) 湯川型ポテンシャルを持つシュロディンガー方程式を解析的に解く。 異なる境界条件を考慮すると、一連の解はベッセル関数、第一種ハンケル関数、第二種ハンケル関数として表される。 その後、$K \bar{K}^*$と$D \bar{D}^*$の散乱過程を検討した。 K \bar{K}^*$セクターでは、$f_1(1285)$粒子は$K \bar{K}^*$境界状態として扱われ、$K \bar{K}^*$湯川ポテンシャルの結合定数は$f_1(1285)$粒子の結合エネルギーに応じて固定される。 その結果、複素エネルギー平面上の1417-i18$MeVの波動条件でシュロディンガー方程式を解くことで、$K \bar{K}^*$共鳴状態が生成される。 1417-i18$MeVの$K \bar{K}^*$共鳴状態は、Particle Data Group(PDG)のレビューで$f_1(1420)$粒子に対応すると仮定することは妥当である。 $D \bar{D}^*$セクターでは、$X(3872)$粒子はほぼ$D \bar{D}^*$閾値にあるので、その結合エネルギーはほぼゼロである。 したがって、$D \bar{ D}^*$ Yukawa ポテンシャルのカップリング定数が決定され、これは零次ベッセル関数の第1零点に関係している。 同様に、$K \bar{K}^*$の場合と同様に、4つの共鳴状態は、発散する波動条件を持つシュロディンガー方程式の解として生成される。 共鳴状態が3885-i1$MeV、4029-i108$MeV、4328-i191$MeV、4772-i267$MeVは、それぞれ$Zc(3900)$、$X(3940)$、$\chi_{c1}(4274)$、$\chi_{c1}(4685)$パーティクルに関連していると仮定される。 すべての解はイソスピン退化である。

The Schrodinger equation with a Yukawa type of potential is solved analytically. When different boundary conditions are taken into account, a series of solutions are indicated as Bessel function, the first kind of Hankel function and the second kind of Hankel function, respectively. Subsequently, the scattering processes of $K \bar{K}^*$ and $D \bar{ D}^*$ are investigated. In the $K \bar{K}^*$ sector, the $f_1(1285)$ particle is treated as a $K \bar{K}^*$ bound state, therefore, the coupling constant in the $K \bar{K}^*$ Yukawa potential can be fixed according to the binding energy of the $f_1(1285)$ particle. Consequently, a $K \bar{K}^*$ resonance state is generated by solving the Schrodinger equation with the outgoing wave condition, which lie at $1417-i18$MeV on the complex energy plane. It is reasonable to assume that the $K \bar{K}^*$ resonance state at $1417-i18$MeV might correspond to the $f_1(1420)$ particle in the review of Particle Data Group(PDG).In the $D \bar{D}^*$ sector, since the $X(3872)$ particle is almost located at the $D \bar{ D}^*$ threshold, the binding energy of it equals to zero approximately. Therefore, the coupling constant in the $D \bar{ D}^*$ Yukawa potential is determined, which is related to the first zero point of the zero order Bessel function. Similarly to the $K \bar{K}^*$ case, four resonance states are produced as solutions of the Schrodinger equation with the outgoing wave condition. It is assumed that the resonance states at $3885-i1$MeV, $4029-i108$ MeV, $4328-i191$MeV and $4772-i267$MeV might be associated with the $Zc(3900)$, the $X(3940)$, the $\chi_{c1}(4274)$ and $\chi_{c1}(4685)$ particles, respectively. It is noted that all solutions are isospin degenerate.
翻訳日:2024-06-19 06:54:55 公開日:2024-06-16
# 潜伏型深層強化学習と実証による効率的・汎用的なエンドツーエンド自律運転システム

Efficient and Generalized end-to-end Autonomous Driving System with Latent Deep Reinforcement Learning and Demonstrations ( http://arxiv.org/abs/2401.11792v6 )

ライセンス: Link先を確認
Zuojin Tang, Xiaoyu Chen, YongQiang Li, Jianyu Chen, (参考訳) インテリジェントな運転システムは、システムのセキュリティと信頼性を確保しつつ、現在の環境と車両状態に基づいて適切な運転戦略を動的に定式化すべきである。 しかし、強化学習と模倣学習に基づく手法は、しばしば高いサンプリング複雑性、低い一般化、低い安全性に悩まされる。 これらの課題に対処するために,複雑かつ多様なシナリオを対象とした効率的なエンドツーエンド自動運転システム(EGADS)を提案する。 EGADSのRLエージェントは、分布仮定に依存しない正規化フローと変分推論を組み合わせる。 この組み合わせにより、エージェントは潜伏空間での運転に関連する履歴情報を効果的にキャプチャし、サンプルの複雑さを著しく低減することができる。 さらに、ロバストな安全制約を定式化して安全性を高め、RLと専門家のデモンストレーションを統合することにより、一般化と性能を向上させる。 実験により,EGADSは既存手法と比較して試料の複雑さを著しく低減し,安全性を著しく向上し,複雑な都市シナリオにおいて強力な一般化能力を示すことが示された。 特に,人間の操舵制御を通じて収集した専門家データセット,特にG29操舵ホイールを用いた。

An intelligent driving system should dynamically formulate appropriate driving strategies based on the current environment and vehicle status while ensuring system security and reliability. However, methods based on reinforcement learning and imitation learning often suffer from high sample complexity, poor generalization, and low safety. To address these challenges, this paper introduces an Efficient and Generalized end-to-end Autonomous Driving System (EGADS) for complex and varied scenarios. The RL agent in our EGADS combines variational inference with normalizing flows, which are independent of distribution assumptions. This combination allows the agent to capture historical information relevant to driving in latent space effectively, thereby significantly reducing sample complexity. Additionally, we enhance safety by formulating robust safety constraints and improve generalization and performance by integrating RL with expert demonstrations. Experimental results demonstrate that, compared to existing methods, EGADS significantly reduces sample complexity, greatly improves safety performance, and exhibits strong generalization capabilities in complex urban scenarios. Particularly, we contributed an expert dataset collected through human expert steering wheel control, specifically using the G29 steering wheel.
翻訳日:2024-06-19 06:54:55 公開日:2024-06-16
# Eloquent: LLMトークンストリーミングのためのロバストな送信方式

Eloquent: A More Robust Transmission Scheme for LLM Token Streaming ( http://arxiv.org/abs/2401.12961v2 )

ライセンス: Link先を確認
Hanchen Li, Yuhan Liu, Yihua Cheng, Siddhant Ray, Kuntai Du, Junchen Jiang, (参考訳) ユーザが生成したトークンをリアルタイムでレンダリングするために,Large Language Model (LLM) サーバはトークンをひとつずつ生成し,生成直後に各トークン(あるいはいくつかのトークンのグループ)をネットワーク経由でユーザへストリームする。 しかし、不安定なネットワーク条件下では、LCMトークンのストリーミング体験は、1つのパケットの損失によって、もしそれらを含むパケットが時間通りに到着しても、後続のトークンのレンダリングをブロックできるため、ストールに悩まされる可能性がある。 本研究では, 不安定ネットワーク下でのストールの増加に悩まされている現状のアプリケーションについて検討した。 従来のマルチメディアやテキストアプリケーションと異なるLCMチャットボットにおけるトークンストリーミング問題に対して,新たに生成されたトークンと,現在未承認のトークンを次のパケットに配置するEloquentと呼ばれる新しい送信方式を提案する。 これにより、各パケットがいくつかの新しいトークンを含むことが保証され、一方、受信時に独立してレンダリングされる。 各種ネットワーク下でのシミュレーションにより,実チャットボットアプリケーションで一般的に使用されている再送信方式と比較して,Eloquentはストール率(トークンレンダリング待ち時間の割合)を71.0%削減し,ベースラインパケット複製方式に比べて31.6%削減した。 トークン・バイ・トークン世代のLSMに適合するようにEloquentを調整することで、Chatbotsを雄弁なスピーカーのように反応させることで、ユーザーが広くAIを楽しむことができる。

To render each generated token in real-time for users, the Large Language Model (LLM) server generates tokens one by one and streams each token (or group of a few tokens) through the network to the user right after generation, which we refer to as LLM token streaming. However, under unstable network conditions, the LLM token streaming experience could suffer greatly from stalls since one packet loss could block the rendering of later tokens even if the packets containing them arrive on time. With a measurement study, we show that current applications suffer from increased stalls under unstable networks. For this emerging token streaming problem in LLM Chatbots that differs from previous multimedia and text applications, we propose a novel transmission scheme, called Eloquent, which puts newly generated tokens as well as currently unacknowledged tokens in the next outgoing packet. This ensures that each packet contains some new tokens and, in the meantime, is independently rendered when received, avoiding the aforementioned stalls caused by missing packets. Through simulation under various networks, we show Eloquent reduces stall ratio (proportion of token rendering wait time) by 71.0% compared to the retransmission method commonly used by real chatbot applications and by 31.6% compared to the baseline packet duplication scheme. By tailoring Eloquent to fit the token-by-token generation of LLM, we enable the Chatbots to respond like an eloquent speaker for users to better enjoy pervasive AI.
翻訳日:2024-06-19 06:54:55 公開日:2024-06-16
# 非エルミートフロケワニエスターク系のダイナミクス

Dynamics of non-Hermitian Floquet Wannier-Stark system ( http://arxiv.org/abs/2401.13286v2 )

ライセンス: Link先を確認
H. P. Zhang, K. L. Zhang, Z. Song, (参考訳) 強結合近似の枠組みにおける非エルミートフロケワニエ・スターク系の力学について検討し、フロケ周波数$\omega$でホッピング強度を周期関数とする。 即時ハミルトニアンのエネルギー準位は依然として等間隔であり、時間$t$とホッピング項のエルミティシティとは独立である。 オフ共鳴の場合、動力学はまだ周期的であり、占有エネルギーレベルは共鳴時に広がり、$t^z$の挙動を示す。 解析解析と数値シミュレーションにより,実ホッピング強度と複素ホッピング強度のレベルスレッディングダイナミクスは,それぞれ異なる挙動を示し,動的指数である$z=1$と$z=1/2$でよく説明されている。

We study the dynamics of the non-Hermitian Floquet Wannier-Stark system in the framework of the tight-binding approximation, where the hopping strength is a periodic function of time with Floquet frequency $\omega$. It is shown that the energy level of the instantaneous Hamiltonian is still equally spaced and independent of time $t$ and the Hermiticity of the hopping term. In the case of off resonance, the dynamics are still periodic, while the occupied energy levels spread out at the resonance, exhibiting $t^z$ behavior. Analytic analysis and numerical simulation show that the level-spreading dynamics for real and complex hopping strengths exhibit distinct behaviors and are well described by the dynamical exponents $z=1$ and $z=1/2$, respectively.
翻訳日:2024-06-19 06:45:07 公開日:2024-06-16
# ConTextual:大規模マルチモーダルモデルにおけるコンテキスト感性テキストリッチビジュアル推論の評価

ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models ( http://arxiv.org/abs/2401.13311v2 )

ライセンス: Link先を確認
Rohan Wadhawan, Hritik Bansal, Kai-Wei Chang, Nanyun Peng, (参考訳) 多くの実世界のタスクでは、エージェントがテキストとビジュアルオブジェクト(例えば、公共空間をナビゲートする)を共同で推論する必要がある。 具体的には、これらのタスクは、テキストが画像内の視覚的要素と相互作用するコンテキストを理解する必要がある。 しかし、文脈に敏感なテキストリッチな視覚的推論に対して、最先端のマルチモーダルモデルの能力をベンチマークする既存のデータセットが欠如している。 本稿では,テキストリッチな画像に対する文脈依存推論を必要とする人為的命令を特徴とする新しいデータセットであるConTextualを紹介する。 我々は,14の基礎モデル(GPT-4V,Gemini-Pro-Vision,LLaVA-Next)の性能評価実験を行い,人間のパフォーマンスベースラインを確立する。 さらに、モデル応答の人的評価を行い、GPT-4V(現在の最高性能の大規模マルチモーダルモデル)と人的性能の30.8%の顕著な性能ギャップを観察する。 GPT-4Vは時間関連データやインフォグラフィックの解釈が困難であることが明らかとなった。 しかし、ミームや引用文のような抽象的な視覚的文脈を解釈する能力を示す。 最後に、質的分析により、視覚の正確な知覚や幻覚の欠如など、パフォーマンスの低下に寄与する様々な要因が明らかになった。 私たちのデータセット、コード、リーダーボードはプロジェクトページ https://con-textual.github.io/ で確認できます。

Many real-world tasks require an agent to reason jointly over text and visual objects, (e.g., navigating in public spaces), which we refer to as context-sensitive text-rich visual reasoning. Specifically, these tasks require an understanding of the context in which the text interacts with visual elements within an image. However, there is a lack of existing datasets to benchmark the state-of-the-art multimodal models' capability on context-sensitive text-rich visual reasoning. In this paper, we introduce ConTextual, a novel dataset featuring human-crafted instructions that require context-sensitive reasoning for text-rich images. We conduct experiments to assess the performance of 14 foundation models (GPT-4V, Gemini-Pro-Vision, LLaVA-Next) and establish a human performance baseline. Further, we perform human evaluations of the model responses and observe a significant performance gap of 30.8% between GPT-4V (the current best-performing Large Multimodal Model) and human performance. Our fine-grained analysis reveals that GPT-4V encounters difficulties interpreting time-related data and infographics. However, it demonstrates proficiency in comprehending abstract visual contexts such as memes and quotes. Finally, our qualitative analysis uncovers various factors contributing to poor performance including lack of precise visual perception and hallucinations. Our dataset, code, and leaderboard can be found on the project page https://con-textual.github.io/
翻訳日:2024-06-19 06:45:07 公開日:2024-06-16
# ギャップ量子相のキブル・ズールク機構と誤差

Kibble-Zurek mechanism and errors of gapped quantum phases ( http://arxiv.org/abs/2401.13625v2 )

ライセンス: Link先を確認
Amit Jamadagni, Javad Kazemi, Arpan Bhattacharyya, (参考訳) キブル・ズレック機構は非平衡力学の領域と平衡における臨界特性を関連付ける。 連続相転移によって焼成される非平衡欠陥とスケーリング指数による焼成速度との間の電力則接続を確立する。 本稿では,様々な量子位相を定量化するために,欠陥の概念を誤りにマッピングするスケーリング指数を推定する新しい数値スキームを提案する。 本手法の汎用性を示すため,局所的および対称性に保護された位相秩序を包含するスピンハーフモデルの広帯域にわたる数値実験を行った。 さらに,デジタル量子コンピュータ上での位相相転移を特徴とするクエンチダイナミクスの実装を提案し,その臨界度を定量化する。

Kibble-Zurek mechanism relates the domain of non-equilibrium dynamics with the critical properties at equilibrium. It establishes a power law connection between non-equilibrium defects quenched through a continuous phase transition and the quench rate via the scaling exponent. We present a novel numerical scheme to estimate the scaling exponent wherein the notion of defects is mapped to errors, previously introduced to quantify a variety of gapped quantum phases. To demonstrate the versatility of our method we conduct numerical experiments across a broad spectrum of spin-half models hosting local and symmetry protected topological order. Furthermore, an implementation of the quench dynamics featuring a topological phase transition on a digital quantum computer is proposed to quantify the associated criticality.
翻訳日:2024-06-19 06:45:07 公開日:2024-06-16
# 単一接合型量子回路冷凍機と2トンマイクロ波駆動を用いたトランモン量子ビットの多励除去

Many-excitation removal of a transmon qubit using a single-junction quantum-circuit refrigerator and a two-tone microwave drive ( http://arxiv.org/abs/2401.14912v2 )

ライセンス: Link先を確認
Wallace Teixeira, Timm Mörstedt, Arto Viitanen, Heidi Kivijärvi, András Gunyhó, Maaria Tiiri, Suman Kundu, Aashish Sah, Vasilii Vadimov, Mikko Möttönen, (参考訳) 量子ビットの高速かつ正確な初期化を達成することは、量子コンピュータの動作を成功させる上で重要な要件である。 人工環境と全マイクロ波技術の組み合わせは、超伝導量子デバイスのリセットに期待できるアプローチとして最近登場した。 本研究では, 単一接合型量子回路冷凍機 (QCR) を用いて, トランスモン量子ビットからの複数の励起を高速に除去する実験を行った。 QCRは、分散状態の共振器を介してトランスモンと間接的に結合され、トランスモンの慎重に設計された環境スペクトルを構成する。 単発読み出しを用いて、約500ドルnsまでの励起安定化時間、QCRによる20ドル倍のスピードアップ、およびシステムの$e$-f$と$f0$-g1$トランジションに対応する2トーンドライブの同時実行を観察する。 以上の結果から, 短時間動特性のプロトコルと, 比較的高温の他のトランスモン浴の存在下での駆動誘起漸近挙動の利点をフルに把握した。 提案手法は, コールドトランスモンバスや微調整駆動周波数など, 最適化シナリオにおけるプロトコルの性能を推定し, 3つの励起部分空間に切り替わる詳細なLiouvillianモデルを用いて検証する。 これらの結果は、エンジニアリングされた環境を用いた量子電気デバイスの最適化されたリセットと、散逸した状態の準備のための道を開く。

Achieving fast and precise initialization of qubits is a critical requirement for the successful operation of quantum computers. The combination of engineered environments with all-microwave techniques has recently emerged as a promising approach for the reset of superconducting quantum devices. In this work, we experimentally demonstrate the utilization of a single-junction quantum-circuit refrigerator (QCR) for an expeditious removal of several excitations from a transmon qubit. The QCR is indirectly coupled to the transmon through a resonator in the dispersive regime, constituting a carefully engineered environmental spectrum for the transmon. Using single-shot readout, we observe excitation stabilization times down to roughly $500$ ns, a $20$-fold speedup with QCR and a simultaneous two-tone drive addressing the $e$-$f$ and $f0$-$g1$ transitions of the system. Our results are obtained at a $48$-mK fridge temperature and without postselection, fully capturing the advantage of the protocol for the short-time dynamics and the drive-induced detrimental asymptotic behavior in the presence of relatively hot other baths of the transmon. We validate our results with a detailed Liouvillian model truncated up to the three-excitation subspace, from which we estimate the performance of the protocol in optimized scenarios, such as cold transmon baths and fine-tuned driving frequencies. These results pave the way for optimized reset of quantum-electric devices using engineered environments and for dissipation-engineered state preparation.
翻訳日:2024-06-19 06:45:07 公開日:2024-06-16
# PICL:部分微分方程式に対する物理インフォームドコントラスト学習

PICL: Physics Informed Contrastive Learning for Partial Differential Equations ( http://arxiv.org/abs/2401.16327v3 )

ライセンス: Link先を確認
Cooper Lorsung, Amir Barati Farimani, (参考訳) ニューラル作用素は、最近、部分微分方程式(PDE)シュロゲートモデルとして人気が高まっている。 関数ではなく解関数を学習することは、複雑なPDEに対する高速で正確な解を計算するための強力なアプローチであることが証明されている。 様々な代理モデリングタスクにおけるニューラル演算子のパフォーマンスを評価する作業は数多く行われているが、これらの作業は通常、一度に1つの方程式上でのパフォーマンスを評価する。 本研究では,複数の支配方程式にまたがるニューラル演算子一般化を同時に改善する汎用コントラスト損失を利用した,新しいコントラスト事前学習フレームワークを開発する。 ゲバニング方程式係数は、システム間の接地-直交性を測定するために用いられる。 物理インフォームドシステムの進化と潜在空間モデル出力の組み合わせは、入力データに固定され、我々の距離関数で使用される。 物理インフォームドコントラストプレトレーニングにより,1次元および2次元熱,バーガーズ,線形対流方程式に対する固定フューチャーおよび自己回帰ロールアウトタスクにおけるフーリエニューラル演算子の精度が向上することがわかった。

Neural operators have recently grown in popularity as Partial Differential Equation (PDE) surrogate models. Learning solution functionals, rather than functions, has proven to be a powerful approach to calculate fast, accurate solutions to complex PDEs. While much work has been done evaluating neural operator performance on a wide variety of surrogate modeling tasks, these works normally evaluate performance on a single equation at a time. In this work, we develop a novel contrastive pretraining framework utilizing Generalized Contrastive Loss that improves neural operator generalization across multiple governing equations simultaneously. Governing equation coefficients are used to measure ground-truth similarity between systems. A combination of physics-informed system evolution and latent-space model output are anchored to input data and used in our distance function. We find that physics-informed contrastive pretraining improves accuracy for the Fourier Neural Operator in fixed-future and autoregressive rollout tasks for the 1D and 2D Heat, Burgers', and linear advection equations.
翻訳日:2024-06-19 06:45:07 公開日:2024-06-16
# OWSM v3.1:E-Branchformerに基づくより良く高速なオープンウィスパースタイル音声モデル

OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer ( http://arxiv.org/abs/2401.16658v2 )

ライセンス: Link先を確認
Yifan Peng, Jinchuan Tian, William Chen, Siddhant Arora, Brian Yan, Yui Sudo, Muhammad Shakeel, Kwanghee Choi, Jiatong Shi, Xuankai Chang, Jee-weon Jung, Shinji Watanabe, (参考訳) 最近の研究は、完全にオープンな基礎モデルの重要性を強調している。 Open Whisperスタイルの音声モデル(OWSM)は、公開データとオープンソースツールキットを使用してOpenAI Whisperを再現するための最初のステップである。 しかし、OWSM (v1 から v3) の以前のバージョンは依然として標準の Transformer をベースとしており、最先端の音声エンコーダアーキテクチャと比較して性能が劣る可能性がある。 この研究は、追加データなしでOWSMの性能と効率を改善することを目的としている。 OWSM v3.1 は100M から 1B のパラメータを含む一連の E-Branchformer ベースのモデルを示す。 OWSM v3.1は、ほとんどの評価ベンチマークにおいて、以前のOWSM v3よりも優れ、推論速度は25%向上した。 さらに、ゼロショット文脈バイアス音声認識におけるOWSM v3.1の創発的能力を明らかにする。 また、ライセンス制限の低いデータのサブセットでトレーニングされたモデルも提供します。 コード、事前トレーニングされたモデル、ログのトレーニングを公開します。

Recent studies have highlighted the importance of fully open foundation models. The Open Whisper-style Speech Model (OWSM) is an initial step towards reproducing OpenAI Whisper using public data and open-source toolkits. However, previous versions of OWSM (v1 to v3) are still based on standard Transformer, which might lead to inferior performance compared to state-of-the-art speech encoder architectures. This work aims to improve the performance and efficiency of OWSM without additional data. We present a series of E-Branchformer-based models named OWSM v3.1, ranging from 100M to 1B parameters. OWSM v3.1 outperforms its predecessor, OWSM v3, in most evaluation benchmarks, while showing an improved inference speed of up to 25%. We further reveal the emergent ability of OWSM v3.1 in zero-shot contextual biasing speech recognition. We also provide a model trained on a subset of data with low license restrictions. We will publicly release the code, pre-trained models, and training logs.
翻訳日:2024-06-19 06:45:07 公開日:2024-06-16
# 検証回路の再利用による言語モデルの信頼度向上

Increasing Trust in Language Models through the Reuse of Verified Circuits ( http://arxiv.org/abs/2402.02619v7 )

ライセンス: Link先を確認
Philip Quirke, Clement Neo, Fazl Barez, (参考訳) 言語モデル(LM)は、幅広い予測タスクにますます使われていますが、それらのトレーニングは稀なエッジケースを無視し、信頼性を低下させます。 ここでは、タスクアルゴリズムと回路実装を検証し、エッジケースを考慮し、既知の障害モードを含まない、厳格な信頼性基準を定義する。 数学的および論理的に定義されたフレームワークを使用して構築すれば、この標準を満たすようにモデルをトレーニングできることが示される。 本稿では,n桁整数加算のための自動回帰変換器モデルを完全に検証する。 検証されたモジュールの再利用性を示すため、トレーニングされた整数加算モデルをより大きな未学習モデルに挿入し、加算と減算の両方を行うように組み合わせたモデルを訓練する。 両タスクの加算回路を広範囲に再利用し,より複雑な減算器モデルの検証を容易にする。 本稿では,検証済みのタスクモジュールをLMに挿入することで,モデルの再利用を有効活用し,それらを用いた言語モデルの妥当性と信頼性を向上させる方法について論じる。 検証回路の再利用により、言語モデルの安全性に向けた重要なステップであると考えられる、より複雑な複合モデルを検証する労力が削減される。

Language Models (LMs) are increasingly used for a wide range of prediction tasks, but their training can often neglect rare edge cases, reducing their reliability. Here, we define a stringent standard of trustworthiness whereby the task algorithm and circuit implementation must be verified, accounting for edge cases, with no known failure modes. We show that a model can be trained to meet this standard if built using mathematically and logically specified frameworks. In this paper, we fully verify an auto-regressive transformer model for n-digit integer addition. To exhibit the reusability of verified modules, we insert the trained integer addition model into a larger untrained model and train the combined model to perform both addition and subtraction. We find extensive reuse of the addition circuits for both tasks, easing verification of the more complex subtractor model. We discuss how inserting verified task modules into LMs can leverage model reuse to improve verifiability and trustworthiness of language models built using them. The reuse of verified circuits reduces the effort to verify more complex composite models which we believe to be a significant step towards safety of language models.
翻訳日:2024-06-19 06:35:20 公開日:2024-06-16
# 動的ビザンチン・ロバスト学習 : ビザンチン労働者への適応

Dynamic Byzantine-Robust Learning: Adapting to Switching Byzantine Workers ( http://arxiv.org/abs/2402.02951v2 )

ライセンス: Link先を確認
Ron Dorfman, Naseem Yehya, Kfir Y. Levy, (参考訳) Byzantine-robust学習は、フォールトトレラントな分散機械学習フレームワークとして注目されている。 しかし、ほとんどの技術は静的な設定に焦点を当てており、ビザンツ人労働者のアイデンティティは学習過程を通して変化しない。 この仮定は、断続的障害や時間制限攻撃を含む実世界の動的ビザンチンの振る舞いを捉えることに失敗する。 この制限に対処するため,ダイナブロ (DynaBRO) を提案する。 具体的には、そのような変更の数が$\mathcal{O}(\sqrt{T})$($T$はトレーニングラウンドの総数)であれば、DynaBROは静的設定の最先端の漸近収束率とほぼ一致する。 本手法では,マルチレベルモンテカルロ(MLMC)勾配推定手法をサーバに適用し,ワーカー更新を頑健に集約する。 さらに適応的な学習率を活用することで、ビザンティン労働者の少人数の事前知識の必要性を回避することができる。

Byzantine-robust learning has emerged as a prominent fault-tolerant distributed machine learning framework. However, most techniques focus on the static setting, wherein the identity of Byzantine workers remains unchanged throughout the learning process. This assumption fails to capture real-world dynamic Byzantine behaviors, which may include intermittent malfunctions or targeted, time-limited attacks. Addressing this limitation, we propose DynaBRO -- a new method capable of withstanding any sub-linear number of identity changes across rounds. Specifically, when the number of such changes is $\mathcal{O}(\sqrt{T})$ (where $T$ is the total number of training rounds), DynaBRO nearly matches the state-of-the-art asymptotic convergence rate of the static setting. Our method utilizes a multi-level Monte Carlo (MLMC) gradient estimation technique applied at the server to robustly aggregated worker updates. By additionally leveraging an adaptive learning rate, we circumvent the need for prior knowledge of the fraction of Byzantine workers.
翻訳日:2024-06-19 06:35:20 公開日:2024-06-16
# 拡散世界モデル:オフライン強化学習のためのステップ・バイ・ステップ・ロールアウトを超えた将来のモデリング

Diffusion World Model: Future Modeling Beyond Step-by-Step Rollout for Offline Reinforcement Learning ( http://arxiv.org/abs/2402.03570v3 )

ライセンス: Link先を確認
Zihan Ding, Amy Zhang, Yuandong Tian, Qinqing Zheng, (参考訳) 我々は,多段階の将来の状態と報酬を同時に予測できる条件拡散モデルである拡散世界モデル(DWM)を紹介する。 従来のワンステップのダイナミックスモデルとは対照的に、DWMは1つのフォワードパスで長い水平予測を提供するため、再帰的なクエリは不要である。 我々はDWMをモデルベース値推定に統合し、DWMからサンプリングした将来の軌跡によって短期的回帰をシミュレートする。 オフライン強化学習の文脈では、DWMは生成的モデリングによる保守的な価値正規化と見なすことができる。 あるいは、合成データによるオフラインQ-ラーニングを可能にするデータソースとして見ることもできる。 D4RLデータセットに対する実験により,DWMの長軸シミュレーションに対するロバスト性が確認された。 絶対的なパフォーマンスという点では、DWMは1ステップのダイナミックスモデルを大幅に上回り、パフォーマンスは4,4\%で、モデルフリーモデルに匹敵するか、わずかに上回っている。

We introduce Diffusion World Model (DWM), a conditional diffusion model capable of predicting multistep future states and rewards concurrently. As opposed to traditional one-step dynamics models, DWM offers long-horizon predictions in a single forward pass, eliminating the need for recursive queries. We integrate DWM into model-based value estimation, where the short-term return is simulated by future trajectories sampled from DWM. In the context of offline reinforcement learning, DWM can be viewed as a conservative value regularization through generative modeling. Alternatively, it can be seen as a data source that enables offline Q-learning with synthetic data. Our experiments on the D4RL dataset confirm the robustness of DWM to long-horizon simulation. In terms of absolute performance, DWM significantly surpasses one-step dynamics models with a $44\%$ performance gain, and is comparable to or slightly surpassing their model-free counterparts.
翻訳日:2024-06-19 06:35:20 公開日:2024-06-16
# SUB-PLAY:部分観測型マルチエージェント強化学習システムに対する対抗策

SUB-PLAY: Adversarial Policies against Partially Observed Multi-Agent Reinforcement Learning Systems ( http://arxiv.org/abs/2402.03741v2 )

ライセンス: Link先を確認
Oubo Ma, Yuwen Pu, Linkang Du, Yang Dai, Ruo Wang, Xiaolei Liu, Yingcai Wu, Shouling Ji, (参考訳) マルチエージェント強化学習(MARL)の最近の進歩は、ドローンの群れ制御、ロボットアームによる協調操作、マルチターゲットの囲い込みなど、膨大な応用可能性を開く。 しかし、MARL配備時の潜在的なセキュリティ上の脅威には、より注意と徹底的な調査が必要である。 最近の研究によると、攻撃者は被害者の脆弱性を迅速に悪用し、特定のタスクの失敗につながる敵のポリシーを生成する。 例えば、スーパーヒューマンレベルの囲碁AIの勝利率を約20%に下げる。 既存の研究は、攻撃者が完全なグローバルな状態観察を持っていると仮定して、主に2人のプレイヤーの競争環境に焦点を当てている。 本研究では,マルチエージェント競争環境において,被害者の部分的観察に制限された場合においても,攻撃者が敵の政策を生成できることを初めて明らかにした。 具体的には、部分観測可能性の影響を軽減するために複数のサブゲームを構築するという概念を取り入れた新しいブラックボックス攻撃(Sub-PLAY)を提案する。 3つの典型的な部分的可観測限界下でのSUB-PLAYの有効性を広範囲に評価した。 可視化の結果,敵対的政策が被害者の政策ネットワークの活性化を著しく引き起こすことが示唆された。 さらに、敵対的政策によるセキュリティの脅威を軽減し、競争環境にMARLを配備するための建設的な勧告を提供することを目的とした3つの防衛策の評価を行った。

Recent advancements in multi-agent reinforcement learning (MARL) have opened up vast application prospects, such as swarm control of drones, collaborative manipulation by robotic arms, and multi-target encirclement. However, potential security threats during the MARL deployment need more attention and thorough investigation. Recent research reveals that attackers can rapidly exploit the victim's vulnerabilities, generating adversarial policies that result in the failure of specific tasks. For instance, reducing the winning rate of a superhuman-level Go AI to around 20%. Existing studies predominantly focus on two-player competitive environments, assuming attackers possess complete global state observation. In this study, we unveil, for the first time, the capability of attackers to generate adversarial policies even when restricted to partial observations of the victims in multi-agent competitive environments. Specifically, we propose a novel black-box attack (SUB-PLAY) that incorporates the concept of constructing multiple subgames to mitigate the impact of partial observability and suggests sharing transitions among subpolicies to improve attackers' exploitative ability. Extensive evaluations demonstrate the effectiveness of SUB-PLAY under three typical partial observability limitations. Visualization results indicate that adversarial policies induce significantly different activations of the victims' policy networks. Furthermore, we evaluate three potential defenses aimed at exploring ways to mitigate security threats posed by adversarial policies, providing constructive recommendations for deploying MARL in competitive environments.
翻訳日:2024-06-19 06:35:20 公開日:2024-06-16
# NLPにおけるTypological Diversityとは何か?

What is "Typological Diversity" in NLP? ( http://arxiv.org/abs/2402.04222v3 )

ライセンス: Link先を確認
Esther Ploeger, Wessel Poelman, Miryam de Lhoneux, Johannes Bjerva, (参考訳) NLP研究コミュニティは英語以外の言語に注目を集中させ、多言語NLPの大幅な改善をもたらした。 しかし、これらの改善は世界の言語の小さなサブセットにのみ適用される。 これを拡張するために、言語間の一般化可能な多言語パフォーマンス向上を目指す論文が増えている。 この目的のために、言語型学は、広範囲の言語にまたがる一般化を暗示する広範な類型学的なサンプルに基づいて、言語選択を動機付けるために一般的に用いられる。 これらの選択は、しばしば「分類学的に多様」と表現される。 本研究では,「ティポロジー多様性」に関する主張を含むNLP研究を体系的に研究する。 このような主張には明確な定義や基準は存在しない。 いくつかの軸に沿って言語選択の多様性を近似するためにメトリクスを導入し、その結果が論文によって大きく異なることを発見した。 重要なことは、歪んだ言語選択が過大評価された多言語のパフォーマンスをもたらす可能性があることを示している。 言語サンプルの多様性を実証的に正当化する「タイポロジー多様性」の運用を含めることを推奨する。

The NLP research community has devoted increased attention to languages beyond English, resulting in considerable improvements for multilingual NLP. However, these improvements only apply to a small subset of the world's languages. Aiming to extend this, an increasing number of papers aspires to enhance generalizable multilingual performance across languages. To this end, linguistic typology is commonly used to motivate language selection, on the basis that a broad typological sample ought to imply generalization across a broad range of languages. These selections are often described as being 'typologically diverse'. In this work, we systematically investigate NLP research that includes claims regarding 'typological diversity'. We find there are no set definitions or criteria for such claims. We introduce metrics to approximate the diversity of language selection along several axes and find that the results vary considerably across papers. Crucially, we show that skewed language selection can lead to overestimated multilingual performance. We recommend future work to include an operationalization of 'typological diversity' that empirically justifies the diversity of language samples.
翻訳日:2024-06-19 06:25:35 公開日:2024-06-16
# 変圧器のトレーニングにおける対称性の破れ

Breaking Symmetry When Training Transformers ( http://arxiv.org/abs/2402.05969v2 )

ライセンス: Link先を確認
Chunsheng Zuo, Michael Guerzhoy, (参考訳) 本稿では,入力トークン1, 2, ..., n-1$の置換に対して,位置エンコーディングと因果注意のメカニズムの1つを使わずに,出力トークン$n+1$のTransformerアーキテクチャの予測を行う。 通常、両方の機構が採用され、入力トークンに対する対称性が損なわれる。 近年,位置符号化なしでトランスフォーマーを訓練できることが示されている。 これは因果的注意機構によって実現されなければならない。 本稿では,変換器が順序が重要な入力シーケンスをモデル化できるという事実に対して,因果接続機構が責任を負うべきであるという議論を詳述する。 Transformerの垂直"スライス"はすべて、入力シーケンスで同じ$k$の場所を表すように推奨されている。 我々は、残余接続がこの現象に寄与し、この現象の証拠を実証する仮説を立てる。

As we show in this paper, the prediction for output token $n+1$ of Transformer architectures without one of the mechanisms of positional encodings and causal attention is invariant to permutations of input tokens $1, 2, ..., n-1$. Usually, both mechanisms are employed and the symmetry with respect to the input tokens is broken. Recently, it has been shown that one can train Transformers without positional encodings. This must be enabled by the causal attention mechanism. In this paper, we elaborate on the argument that the causal connection mechanism must be responsible for the fact that Transformers are able to model input sequences where the order is important. Vertical "slices" of Transformers are all encouraged to represent the same location $k$ in the input sequence. We hypothesize that residual connections contribute to this phenomenon, and demonstrate evidence for this.
翻訳日:2024-06-19 06:25:35 公開日:2024-06-16
# マルチステップタスク(PROMST):人間のフィードバックとヒューリスティックに基づくサンプリングの統合

PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Heuristic-based Sampling ( http://arxiv.org/abs/2402.08702v3 )

ライセンス: Link先を確認
Yongchao Chen, Jacob Arkin, Yilun Hao, Yang Zhang, Nicholas Roy, Chuchu Fan, (参考訳) Prompt最適化は、与えられたタスクに対して、大きな言語モデル(LLM)の最良のプロンプトを見つけることを目的としている。 LLMはシングルステップタスクのプロンプト候補の発見と改善に成功している。 しかし, エージェントの現実的なタスクは多段階であり, 1) プロンプト内容がより広範かつ複雑になり, LLM がエラー分析を困難にすること,(2) 個別のステップの影響を評価することが困難であること,(3) 異なる人がタスク実行に関して様々な好みを持っていること,など,新たな課題がもたらされる。 人間はプロンプトの最適化に苦労するが、LLM出力に関するフィードバックを提供するのに長けており、人間設計のフィードバックルールを組み込んだ新しいLCM駆動離散プロンプト最適化フレームワーク PROMSTを導入し、改善のための直接提案を自動で提供する。 また,プロンプト候補から効率的にサンプリングするために,プロンプト性能を予測できる学習ヒューリスティックモデルも使用しています。 このアプローチは、人間工学的なプロンプトと、11の代表的なマルチステップタスクにまたがるいくつかのプロンプト最適化手法(平均10.6\%-29.3\%が現在の5つのLLMのベストメソッドにそれぞれ改善されている)の両方を大きく上回っている。 LLM駆動型マルチステップタスクの自動プロンプト最適化のベンチマークとして機能すると考えています。 DatasetsとCodesはhttps://github.com/yongchao98/PROMSTで入手できる。 Project Pageはhttps://yongchao98.github.io/MIT-REALM-PROMST/で入手できる。

Prompt optimization aims to find the best prompt to a large language model (LLM) for a given task. LLMs have been successfully used to help find and improve prompt candidates for single-step tasks. However, realistic tasks for agents are multi-step and introduce new challenges: (1) Prompt content is likely to be more extensive and complex, making it more difficult for LLMs to analyze errors, (2) the impact of an individual step is difficult to evaluate, and (3) different people may have varied preferences about task execution. While humans struggle to optimize prompts, they are good at providing feedback about LLM outputs; we therefore introduce a new LLM-driven discrete prompt optimization framework PROMST that incorporates human-designed feedback rules to automatically offer direct suggestions for improvement. We also use an extra learned heuristic model that predicts prompt performance to efficiently sample from prompt candidates. This approach significantly outperforms both human-engineered prompts and several other prompt optimization methods across 11 representative multi-step tasks (an average 10.6\%-29.3\% improvement to current best methods on five LLMs respectively). We believe our work can serve as a benchmark for automatic prompt optimization for LLM-driven multi-step tasks. Datasets and Codes are available at https://github.com/yongchao98/PROMST. Project Page is available at https://yongchao98.github.io/MIT-REALM-PROMST/.
翻訳日:2024-06-19 06:25:35 公開日:2024-06-16
# RLHFにおける逆一般化 : トポロジカル視点

Reward Generalization in RLHF: A Topological Perspective ( http://arxiv.org/abs/2402.10184v5 )

ライセンス: Link先を確認
Tianyi Qiu, Fanzhi Zeng, Jiaming Ji, Dong Yan, Kaile Wang, Jiayi Zhou, Yang Han, Josef Dai, Xuehai Pan, Yaodong Yang, (参考訳) 既存のアライメント手法は情報フローの共通トポロジーを共有しており、報酬情報は人間から収集され、好みの学習でモデル化され、言語モデルをチューニングするために使用される。 しかし、この共有トポロジは体系的に特徴づけられておらず、またその代替案が徹底的に検討されることもなく、低データ効率と信頼性の低い一般化の問題が未解決のまま残されている。 そこで本研究では,人間からのフィードバック(RLHF)に基づく強化学習における報酬一般化の理論的枠組みを提案し,マクロレベルとマイクロレベルの情報フローのトポロジに着目した。 マクロレベルでは、RLHF情報フローを行動分布上の自己符号化プロセスとして表現し、人間の嗜好とモデル行動の間の分布整合性というRLHFの目的を定式化する。 マイクロレベルでは、RLHFにおける報酬一般化の理論としてベイズネットワークを誘導し、詳細なデータセットトポロジを一般化境界に導入する。 両レベルの分析を組み合わせることで,木構造的嗜好情報から報酬をモデル化する。 これは、$n$がデータセットサイズであるベースラインと比較して最大$\Theta(\log n/\log \log n)$倍の報酬の不確実性を減少させることが示されている。 3つのNLPタスクに対する検証の結果,木に基づく報酬モデルでは,ベースライン法に対して平均65%の勝利率が得られることが示され,トポロジー設計による報酬の一般化が向上した。

Existing alignment methods share a common topology of information flow, where reward information is collected from humans, modeled with preference learning, and used to tune language models. However, this shared topology has not been systematically characterized, nor have its alternatives been thoroughly explored, leaving the problems of low data efficiency and unreliable generalization unaddressed. As a solution, we introduce a theoretical framework for investigating reward generalization in reinforcement learning from human feedback (RLHF), focusing on the topology of information flow at both macro and micro levels. At the macro level, we portray the RLHF information flow as an autoencoding process over behavior distributions, formalizing the RLHF objective of distributional consistency between human preference and model behavior. At the micro level, we present induced Bayesian networks as a theory of reward generalization in RLHF, introducing fine-grained dataset topologies into generalization bounds. Combining analysis on both levels, we propose reward modeling from tree-structured preference information. It is shown to reduce reward uncertainty by up to $\Theta(\log n/\log\log n)$ times compared to baselines, where $n$ is the dataset size. Validation on three NLP tasks shows that our tree-based reward model achieves an average win rate of 65% against baseline methods, thus improving reward generalization for free via topology design.
翻訳日:2024-06-19 06:15:51 公開日:2024-06-16
# ロボットにおけるLLM/VLMの安全性向上

Highlighting the Safety Concerns of Deploying LLMs/VLMs in Robotics ( http://arxiv.org/abs/2402.10340v4 )

ライセンス: Link先を確認
Xiyang Wu, Souradip Chakraborty, Ruiqi Xian, Jing Liang, Tianrui Guan, Fuxiao Liu, Brian M. Sadler, Dinesh Manocha, Amrit Singh Bedi, (参考訳) 本稿では,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) をロボティクスアプリケーションに統合する際のロバスト性と安全性に関する重要な課題について述べる。 最近の研究は、操作やナビゲーションといったロボティクスタスクの性能向上にLLMとVLMを使うことに重点を置いている。 これらの改善にもかかわらず、そのようなシステムの安全性を解析するには過小評価されているが、非常に重要な課題である。 LLMとVLMは、敵対的な入力に非常に敏感であり、ロボットシステムの安全性に関する重要な調査を引き起こした。 この懸念は、誤ったアクションが深刻な結果をもたらす物理世界でロボットが機能するためである。 本稿では,LLM/VLMベースのロボットシステムに対する潜在的な攻撃を数学的に定式化し,安全性の課題を実験的に検証する。 私たちの経験的発見は重大な脆弱性を浮き彫りにしています。 具体的には,小入力の即時修正では平均19.4%,わずかに知覚的変化では29.1%であった。 これらの知見は、高度LLM/VLMベースのロボットシステムの安全で信頼性の高い展開を保証するための堅牢な対策の緊急の必要性を浮き彫りにした。

In this paper, we highlight the critical issues of robustness and safety associated with integrating large language models (LLMs) and vision-language models (VLMs) into robotics applications. Recent works focus on using LLMs and VLMs to improve the performance of robotics tasks, such as manipulation and navigation. Despite these improvements, analyzing the safety of such systems remains underexplored yet extremely critical. LLMs and VLMs are highly susceptible to adversarial inputs, prompting a significant inquiry into the safety of robotic systems. This concern is important because robotics operate in the physical world where erroneous actions can result in severe consequences. This paper explores this issue thoroughly, presenting a mathematical formulation of potential attacks on LLM/VLM-based robotic systems and offering experimental evidence of the safety challenges. Our empirical findings highlight a significant vulnerability: simple modifications to the input can drastically reduce system effectiveness. Specifically, our results demonstrate an average performance deterioration of 19.4% under minor input prompt modifications and a more alarming 29.1% under slight perceptual changes. These findings underscore the urgent need for robust countermeasures to ensure the safe and reliable deployment of advanced LLM/VLM-based robotic systems.
翻訳日:2024-06-19 06:15:51 公開日:2024-06-16
# 多言語生成のための幻覚検出指標の比較

Comparing Hallucination Detection Metrics for Multilingual Generation ( http://arxiv.org/abs/2402.10496v2 )

ライセンス: Link先を確認
Haoqiang Kang, Terra Blevins, Luke Zettlemoyer, (参考訳) 多くの幻覚検出技術が英語のテキストで評価されているが、多言語文脈におけるその効果は未だ不明である。 本稿では,各言語にまたがる実測値(ROUGE や Named Entity Overlap などの語彙指標,および自然言語推論(NLI)に基づくメトリクス)が,生成した実測的要約における幻覚をいかによく識別するかを評価する。 自動測度が相互にどのように相関するか, 事実判断に一致しているかを比較検討した。 我々の分析によると、語彙指標は非効率であるが、NLIベースのメトリクスはよく機能し、多くの設定における人間のアノテーションと相関し、しばしば教師付きモデルよりも優れている。 しかし、NLIメトリクスはシングルファクト幻覚を十分に検出せず、低リソース言語では失敗するため、まだ限られている。 そこで本研究では,非英語言語における幻覚検出手法の出現と,LLM幻覚検出のためのより堅牢な多言語検出手法の開発に向けた今後の研究のモチベーションのギャップを浮き彫りにした。

While many hallucination detection techniques have been evaluated on English text, their effectiveness in multilingual contexts remains unknown. This paper assesses how well various factual hallucination detection metrics (lexical metrics like ROUGE and Named Entity Overlap, and Natural Language Inference (NLI)-based metrics) identify hallucinations in generated biographical summaries across languages. We compare how well automatic metrics correlate to each other and whether they agree with human judgments of factuality. Our analysis reveals that while the lexical metrics are ineffective, NLI-based metrics perform well, correlating with human annotations in many settings and often outperforming supervised models. However, NLI metrics are still limited, as they do not detect single-fact hallucinations well and fail for lower-resource languages. Therefore, our findings highlight the gaps in exisiting hallucination detection methods for non-English languages and motivate future research to develop more robust multilingual detection methods for LLM hallucinations.
翻訳日:2024-06-19 06:15:51 公開日:2024-06-16
# Conversational SimulMT:大規模言語モデルを用いた効率的な同時翻訳

Conversational SimulMT: Efficient Simultaneous Translation with Large Language Models ( http://arxiv.org/abs/2402.10552v2 )

ライセンス: Link先を確認
Minghan Wang, Thuy-Trang Vu, Ehsan Shareghi, Gholamreza Haffari, (参考訳) 同時機械翻訳(SimulMT)は、翻訳品質とレイテンシのトレードオフを示す。 最近の研究で、LLMはSimulMTタスクにおいて優れた性能を発揮することが示されている。 しかし、これはしばしば高い推論コストと遅延を犠牲にします。 本稿では,マルチターン対話型デコーディングによるLLMベースのSimulMTの推論効率を向上させるための対話型SimulMTフレームワークを提案する。 2つのSimulMTベンチマークにおけるLlama2-7b-chatを用いた実験は、特殊なSimulMTモデルに匹敵する計算遅延を達成しつつ、翻訳品質におけるLLMの優位性を実証した。

Simultaneous machine translation (SimulMT) presents a challenging trade-off between translation quality and latency. Recent studies have shown that LLMs can achieve good performance in SimulMT tasks. However, this often comes at the expense of high inference cost and latency. In this paper, we propose a conversational SimulMT framework to enhance the inference efficiency of LLM-based SimulMT through multi-turn-dialogue-based decoding. Our experiments with Llama2-7b-chat on two SimulMT benchmarks demonstrate the superiority of LLM in translation quality while achieving comparable computational latency to specialized SimulMT models.
翻訳日:2024-06-19 06:15:51 公開日:2024-06-16
# Pythonは必ずしもベストチョイスではない:思考の多言語プログラムを受け入れる

Python is Not Always the Best Choice: Embracing Multilingual Program of Thoughts ( http://arxiv.org/abs/2402.10691v2 )

ライセンス: Link先を確認
Xianzhen Luo, Qingfu Zhu, Zhiming Zhang, Libo Qin, Xuanyu Zhang, Qing Yang, Dongliang Xu, Wanxiang Che, (参考訳) プログラム・オブ・ソート(Program of Thoughts、PoT)は、論理的計算の正確性を保証する、その実行可能な中間ステップを特徴とするアプローチである。 現在、PoTは主にPythonを使用している。 しかし、単一の言語にのみ依存すると、最適化されていないソリューションが生まれ、他のプログラミング言語の潜在的な利点を見落としてしまう可能性がある。 本稿では,PoTで使用されるプログラミング言語の総合的な実験を行い,全てのタスクやモデルに対して一貫した最適な性能を提供する言語は存在しないことを明らかにする。 それぞれの言語の有効性は、特定のシナリオによって異なる。 そこで本研究では,多言語からの強みと多様性を生かした,MultiPoTと呼ばれるタスクとモデル非依存のアプローチを提案する。 実験の結果、Python Self-Consistencyを著しく上回ることがわかった。 さらに、全てのモデルにわたるほぼ全てのタスクにおいて、最高のモノリンガルPoTと比較して、同等または優れたパフォーマンスを達成する。 特に、MultiPoTはChatGPT(gpt-3.5-turbo-0701)で平均4.6%以上の改善を実現している。

Program of Thoughts (PoT) is an approach characterized by its executable intermediate steps, which ensure the accuracy of the logical calculations in the reasoning process. Currently, PoT primarily uses Python. However, relying solely on a single language may result in suboptimal solutions and overlook the potential benefits of other programming languages. In this paper, we conduct comprehensive experiments on the programming languages used in PoT and find that no single language consistently delivers optimal performance across all tasks and models. The effectiveness of each language varies depending on the specific scenarios. Inspired by this, we propose a task and model agnostic approach called MultiPoT, which harnesses strength and diversity from various languages. Experimental results reveal that it significantly outperforms Python Self-Consistency. Furthermore, it achieves comparable or superior performance compared to the best monolingual PoT in almost all tasks across all models. In particular, MultiPoT achieves more than 4.6% improvement on average on ChatGPT (gpt-3.5-turbo-0701).
翻訳日:2024-06-19 06:15:51 公開日:2024-06-16
# ステップ・バイ・ステップ:カリキュラム学習による文脈学習能力の向上

Let's Learn Step by Step: Enhancing In-Context Learning Ability with Curriculum Learning ( http://arxiv.org/abs/2402.10738v2 )

ライセンス: Link先を確認
Yinpeng Liu, Jiawei Liu, Xiang Shi, Qikai Cheng, Yong Huang, Wei Lu, (参考訳) In-context Learning(ICL)の重要な戦略であるDemonstration Orderingは,大規模言語モデル(LLM)の性能に大きな影響を与える可能性がある。 しかし、現在の順序付けのアプローチのほとんどは、事前知識を導入するために高い計算コストを必要とする。 本稿では,人間の学習プロセスにヒントを得て,ICLの簡易かつ効果的な実演順序付け手法を提案する。 ICCLは、推論過程における即興デモの複雑さを徐々に増大させることを意味する。 難易度は、人間の専門家や、パープレキシティ(perplexity)などのLSM駆動のメトリクスによって評価することができる。 次に、ICCLの有効性をコーパスレベルとインスタンスレベルの両方で検討するために、広範な実験を設計する。 また,LLMのICCL機能の形成機構についても検討した。 インストラクションチューニング段階で開発されたICCLは,オープンソースLLMの代表的実装に有効であることを示す実験結果が得られた。 他の研究者によるさらなる研究や応用を促進するため、コードを公開している。

Demonstration ordering, which is an important strategy for in-context learning (ICL), can significantly affects the performance of large language models (LLMs). However, most of the current approaches of ordering require high computational costs to introduce the priori knowledge. In this paper, inspired by the human learning process, we propose a simple but effective demonstration ordering method for ICL, named the few-shot In-Context Curriculum Learning (ICCL). The ICCL implies gradually increasing the complexity of prompt demonstrations during the inference process. The difficulty can be assessed by human experts or LLMs-driven metrics, such as perplexity. Then we design extensive experiments to discuss the effectiveness of the ICCL at both corpus-level and instance-level. Moreover, we also investigate the formation mechanism of LLM's ICCL capability. Experimental results demonstrate that ICCL, developed during the instruction-tuning stage, is effective for representative open-source LLMs. To facilitate further research and applications by other scholars, we make the code publicly available.
翻訳日:2024-06-19 06:15:51 公開日:2024-06-16
# スポーツメトリクス:LLMにおける情報融合を理解するためのテキストと数値データ

SportsMetrics: Blending Text and Numerical Data to Understand Information Fusion in LLMs ( http://arxiv.org/abs/2402.10979v2 )

ライセンス: Link先を確認
Yebowen Hu, Kaiqiang Song, Sangwoo Cho, Xiaoyang Wang, Hassan Foroosh, Dong Yu, Fei Liu, (参考訳) 大規模言語モデルは、高度な分析のためにテキストドキュメントやデータベースレコードなど、さまざまなデータタイプを統合する大きな可能性を秘めている。 しかし,テキストと数値データを混在させることが大きな課題となっている。 LLMは、エンティティや数値を処理し、データ不整合や冗長性を処理し、複雑なデータクエリを管理するためのワーキングメモリを構築するような計画機能を開発する必要がある。 本稿では,LLMの数値推論と情報融合能力を評価するために,スポーツデータ分析を中心とした4つの新しいタスクを紹介する。 これらのタスクには、LEMに詳細なプレイバイプレイのスポーツゲーム記述を提供し、新しいゲームルール、長い期間、スクランブルされた物語、ゲーム要約における重要な統計分析といった敵のシナリオに挑戦することが含まれる。 NBAおよびNFLゲームにおいて、これらのタスクにおけるLLMの性能を評価するための広範な実験を行う。 我々のベンチマークであるSportsMetricsでは、LSMの数値推論と融合技術を評価するための新しいメカニズムを導入している。

Large language models hold significant potential for integrating various data types, such as text documents and database records, for advanced analytics. However, blending text and numerical data presents substantial challenges. LLMs need to process and cross-reference entities and numbers, handle data inconsistencies and redundancies, and develop planning capabilities such as building a working memory for managing complex data queries. In this paper, we introduce four novel tasks centered around sports data analytics to evaluate the numerical reasoning and information fusion capabilities of LLMs. These tasks involve providing LLMs with detailed, play-by-play sports game descriptions, then challenging them with adversarial scenarios such as new game rules, longer durations, scrambled narratives, and analyzing key statistics in game summaries. We conduct extensive experiments on NBA and NFL games to assess the performance of LLMs on these tasks. Our benchmark, SportsMetrics, introduces a new mechanism for assessing LLMs' numerical reasoning and fusion skills.
翻訳日:2024-06-19 06:06:06 公開日:2024-06-16
# 映画における社会的ノルム : シェーム、プライド、偏見のクロスカルカル分析

Social Norms in Cinema: A Cross-Cultural Analysis of Shame, Pride and Prejudice ( http://arxiv.org/abs/2402.11333v3 )

ライセンス: Link先を確認
Sunny Rai, Khushang Jilesh Zaveri, Shreya Havaldar, Soumna Nema, Lyle Ungar, Sharath Chandra Guntuku, (参考訳) 恥や誇りといった社会的感情は社会における社会制裁や承認を反映している。 本稿では, 恥と誇りの表現が文化によってどのように異なるかを検討した。 ボリウッドとハリウッドの映画から得られた、異文化間の恥とプライドの感情の映画対話データセットと、10K以上の暗黙の社会規範を紹介する。 私たちの研究は、アメリカやインドで見られる既知の文化的傾向に沿った社会的感情や社会的規範の表現のバリエーションを明らかにしています。 ハリウッドは説明責任の欠如を恥じ、倫理的行為を誇りにしている。 さらに重要なのは、女性は文化の中でより偏見に直面することであり、同様の社会的規範が認められていることだ。

Social emotions such as shame and pride reflect social sanctions or approvals in society. In this paper, we examine how expressions of shame and pride vary across cultures and harness them to extract unspoken normative expectations across cultures. We introduce the first cross-cultural shame/pride emotions movie dialogue dataset, obtained from ~5.4K Bollywood and Hollywood movies, along with over 10K implicit social norms. Our study reveals variations in expressions of social emotions and social norms that align with known cultural tendencies observed in the United States and India -- e.g., Hollywood movies express shame predominantly toward self whereas Bollywood movies express shame predominantly toward others. Similarly, Bollywood shames non-conformity in gender roles, and takes pride in collective identity, while Hollywood shames lack of accountability, and takes pride in ethical behavior. More importantly, women face more prejudice across cultures and are sanctioned for similar social norms.
翻訳日:2024-06-19 06:06:06 公開日:2024-06-16
# インドにおける異なるメンタルヘルス表現に関する研究

Studying Differential Mental Health Expressions in India ( http://arxiv.org/abs/2402.11477v2 )

ライセンス: Link先を確認
Khushi Shelat, Sunny Rai, Devansh R Jain, Kishen Sivabalan, Young Min Cho, Maitreyi Redkar, Samindara Sawant, Sharath Chandra Guntuku, (参考訳) 精神社会的ストレスや精神障害の症状は文化によって異なる。 しかし、現在のソーシャルメディアにおけるメンタルヘルス表現の理解は、主にWEIRD(Western, Educated, Industrialized, Rich, Democratic)の文脈での研究に由来する。 本稿では,インドにおける個人によるRedditのメンタルヘルス投稿を分析し,Ress of the World (ROW) のユーザと比較して,インドの文脈に特有のオンラインうつ病言語の変化を明らかにする。 西洋のサンプルと異なり、インドにおけるメンタルヘルスに関する議論は、悲しみを表現し、否定を使い、現在に焦点を当てており、仕事や達成に関連している。 病気はインドと一意に相関しており、インドの患者のうつ病と身体の健康との関連が示唆されている。 2人の臨床心理学者が、ソーシャルメディアの投稿から得られた知見を検証し、インド人が一般的であるメンタルヘルスの議論に関連するトップ20のトピックの95%を発見した。 インドにおけるオンラインメンタルヘルス関連言語における重要な言語的変化は、ROWと比較して、文化的に適切である精密な介入を開発することの重要性を強調している。

Psychosocial stressors and the symptomatology of mental disorders vary across cultures. However, current understandings of mental health expressions on social media are predominantly derived from studies in WEIRD (Western, Educated, Industrialized, Rich, and Democratic) contexts. In this paper, we analyze mental health posts on Reddit made by individuals in India, to identify variations in online depression language specific to the Indian context compared to users from the Rest of the World (ROW). Unlike in Western samples, we observe that mental health discussions in India additionally express sadness, use negation, are present-focused, and are related to work and achievement. Illness is uniquely correlated to India, indicating the association between depression and physical health in Indian patients. Two clinical psychologists validated the findings from social media posts and found 95% of the top 20 topics associated with mental health discussions as prevalent in Indians. Significant linguistic variations in online mental health-related language in India compared to ROW, emphasize the importance of developing precision-targeted interventions that are culturally appropriate.
翻訳日:2024-06-19 06:06:06 公開日:2024-06-16
# 大規模言語モデルは、思った以上に知識グラフを理解することができる

Large Language Models Can Better Understand Knowledge Graphs Than We Thought ( http://arxiv.org/abs/2402.11541v3 )

ライセンス: Link先を確認
Xinbang Dai, Yuncheng Hua, Tongtong Wu, Yang Sheng, Qiu Ji, Guilin Qi, (参考訳) 大規模言語モデル(LLM)のパラメータスケールが大きくなるにつれて、LLM能力を高めるためにモデルパラメータを組み込んだ知識グラフ(KG)を共同で訓練するコストが増大する。 その結果、コミュニティはKG情報をLLMに効果的に統合する迅速な戦略開発に関心を示してきた。 しかし、KGをLLMに組み込む形式は標準化に欠けており、例えば、KGは線形化された三重項や自然言語(NL)テキストに変換することができる。 現在のプロンプト法はしばしば試行錯誤法に依存しており、研究者はKG入力形式がどのKGコンテンツのLLM理解を最も促進するかを不完全な理解で残している。 そこで我々は,様々なKG入力形式に対するLCMの理解を,プロンプトエンジニアリングの文脈内で研究するための一連の実験を設計した。 本分析では,リテラル分布とアテンション分布の双方について検討する。 事実関連問題に対処する場合, 線形化されていない三重項は, 流動的なNLテキストに比べてLLMのKG理解に有効である。 さらに、ノイズ、不完全、あるいは辺縁関係のサブグラフはLLM性能を向上することができる。 最後に、異なるLLMは、順序のないトリプルを整理する異なるフォーマットをそれぞれ好んでいる。

As the parameter scale of large language models (LLMs) grows, jointly training knowledge graph (KG) embeddings with model parameters to enhance LLM capabilities becomes increasingly costly. Consequently, the community has shown interest in developing prompt strategies that effectively integrate KG information into LLMs. However, the format for incorporating KGs into LLMs lacks standardization; for instance, KGs can be transformed into linearized triples or natural language (NL) text. Current prompting methods often rely on a trial-and-error approach, leaving researchers with an incomplete understanding of which KG input format best facilitates LLM comprehension of KG content. To elucidate this, we design a series of experiments to explore LLMs' understanding of different KG input formats within the context of prompt engineering. Our analysis examines both literal and attention distribution levels. Through extensive experiments, we indicate a counter-intuitive phenomenon: when addressing fact-related questions, unordered linearized triples are more effective for LLMs' understanding of KGs compared to fluent NL text. Furthermore, noisy, incomplete, or marginally relevant subgraphs can still enhance LLM performance. Finally, different LLMs have distinct preferences for different formats of organizing unordered triples.
翻訳日:2024-06-19 06:06:06 公開日:2024-06-16
# FIPO: 優先度データセットとモジュールファインチューニングスキーマを用いた自由形式命令指向プロンプト最適化

FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema ( http://arxiv.org/abs/2402.11811v2 )

ライセンス: Link先を確認
Junru Lu, Siyu An, Min Zhang, Yulan He, Di Yin, Xing Sun, (参考訳) ナイーブプロンプトの品質が人間の専門家によって慎重に最適化されると、大規模言語モデル(LLM)のタスク性能が大幅に向上する。 しかし、エキスパートベースのプロンプト最適化は高価である。 ここでは、ある箱内試験モデルのタスク出力に応じて、アドホックな方法で高度なLCM(例えば、GPT-4)の助けを借りて、自然なプロンプトを最適化する自動プロンプト最適化(APO)を提案する研究がある。 効果はあるものの、既存のスキームは一般化能力の低下とプライバシーリスクに悩まされている。 この目的のために、我々は、POP(Prompt Optimization Preference dataset)の最初の大規模プロンプト最適化データセットを収集した。 提案手法では, モデルに依存しない方法で, コアタスク命令部分の正確な最適化が可能であり, 提案手法はFIPO (Free-from Instruction-oriented Prompt Optimization) と呼ばれる。 具体的には、FIPOはモジュール型APOテンプレートを使用して、単純タスク命令、任意命令応答、オプション基底真理を動的に統合し、微調整されたプロンプトを生成する。 POPデータセットは高度なLCMを用いて慎重に構築され、人間の専門家や分析モデルによる厳密なクロスバリデーションが実施されている。 Tulu2モデルとさまざまな微調整戦略によるデータからの洞察を活用して、5つの公開ベンチマークと3つのテストモデルでFIPOフレームワークの有効性を検証する。 https://github.com/LuJunru/FIPO_Project.com/FIPO_Project.com/FIPO_Project.com/FIPO_Project.com/FIPO_ Project.com/FIPO_Project

When the quality of naive prompts is carefully optimized by human experts, the task performance of large language models (LLMs) can be significantly improved. However, expert-based prompt optimizations are expensive. Herein, some works have proposed Automatic Prompt Optimization (APO), to optimize naive prompts according to task outputs of given in-box testing models, with the help of advanced LLMs (e.g., GPT-4) in an ad-hoc way. Although effective, existing schemes suffer from poor generalization ability and privacy risk. To this end, we collect the first large-scale Prompt Optimization Preference dataset (POP), fine-tune offline local LLM-based optimizers, then fairly test with various downstream models. Our method allows accurate optimization of the core task instruction part within the naive prompt in a model-agnostic manner, and thus is named Free-from Instruction-oriented Prompt Optimization (FIPO). In specific, FIPO uses a modular APO template that dynamically integrate the naive task instruction, optional instruction responses, and optional ground truth to produce finely optimized prompts. The POP dataset is meticulously constructed using advanced LLMs, undergoing rigorous cross-validation by human experts and analytical models. Leveraging insights from the data with Tulu2 models and diverse fine-tuning strategies, we validate the efficacy of FIPO framework across five public benchmarks and three testing models. Check codes and data here: https://github.com/LuJunru/FIPO_Project.
翻訳日:2024-06-19 06:06:06 公開日:2024-06-16
# OWSM-CTC: 音声認識・翻訳・言語識別のためのオープンエンコーダ専用音声基礎モデル

OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification ( http://arxiv.org/abs/2402.12654v2 )

ライセンス: Link先を確認
Yifan Peng, Yui Sudo, Muhammad Shakeel, Shinji Watanabe, (参考訳) 単一のモデルで複数のタスクを実行できる大規模音声モデルへの関心が高まっている。 このようなモデルは通常、エンコーダ・デコーダまたはデコーダ・オン・アーキテクチャを採用する。 しかし、自己回帰モデルは、非自己回帰モデルと比較して推論中に遅くなり、幻覚の危険性もある。 従来の研究では、特定のタスクに対して、小さなスケールで非自己回帰モデルの有望な結果が見られたが、様々な言語やタスクにおいて、音声からテキストへの生成にスケールできるかどうかは不明である。 The Open Whisper-style Speech Model (OWSM) project, we propose OWSM-CTC, a novel encoder-only speech foundation model based on Connectionist Temporal Classification (CTC)。 これは、多言語自動音声認識(ASR)、音声翻訳(ST)、言語識別(LID)のための180k時間の公開音声データに基づいて訓練される。 エンコーダデコーダOWSMと比較して、OWSM-CTCはASRとSTの24%の相対的改善を達成し、より堅牢で推論の3倍から4倍高速である。 OWSM-CTCは20倍のスピードアップで長めのASR結果も改善する。 音声基礎モデルにおけるオープンサイエンスを促進するために、コード、事前訓練されたモデル、およびログのトレーニングを公開します。

There has been an increasing interest in large speech models that can perform multiple tasks in a single model. Such models usually adopt an encoder-decoder or decoder-only architecture due to their popularity and good performance in many domains. However, autoregressive models can be slower during inference compared to non-autoregressive models and also have potential risks of hallucination. Though prior studies observed promising results of non-autoregressive models for certain tasks at small scales, it remains unclear if they can be scaled to speech-to-text generation in diverse languages and tasks. Inspired by the Open Whisper-style Speech Model (OWSM) project, we propose OWSM-CTC, a novel encoder-only speech foundation model based on Connectionist Temporal Classification (CTC). It is trained on 180k hours of public audio data for multilingual automatic speech recognition (ASR), speech translation (ST), and language identification (LID). Compared to encoder-decoder OWSM, our OWSM-CTC achieves competitive results on ASR and up to 24% relative improvement on ST, while it is more robust and 3 to 4 times faster for inference. OWSM-CTC also improves the long-form ASR result with 20x speed-up. We will publicly release our code, pre-trained model, and training logs to promote open science in speech foundation models.
翻訳日:2024-06-19 06:06:06 公開日:2024-06-16
# VideoPrism:ビデオ理解のための基礎的なビジュアルエンコーダ

VideoPrism: A Foundational Visual Encoder for Video Understanding ( http://arxiv.org/abs/2402.13217v2 )

ライセンス: Link先を確認
Long Zhao, Nitesh B. Gundavarapu, Liangzhe Yuan, Hao Zhou, Shen Yan, Jennifer J. Sun, Luke Friedman, Rui Qian, Tobias Weyand, Yue Zhao, Rachel Hornung, Florian Schroff, Ming-Hsuan Yang, David A. Ross, Huisheng Wang, Hartwig Adam, Mikhail Sirotenko, Ting Liu, Boqing Gong, (参考訳) 我々は,単一の凍結モデルを用いて多様な映像理解タスクに取り組む汎用ビデオエンコーダであるVideoPrismを紹介する。 我々は,36Mの高品質ビデオキャプションペアと582Mの動画クリップを含む異種コーパス(例えば,ASR transcripts)上で,VideoPrismを事前訓練した。 プリトレーニング手法は,セマンティックビデオ埋め込みのグローバルな蒸留とトークンシャッフル方式により,マスク付きオートエンコーディングを改善する。 我々は、Webビデオ質問応答から科学用CVまで、ビデオ理解タスクの4つのグループでビデオPrismを広範囲にテストし、33の動画理解ベンチマークのうち31で最先端のパフォーマンスを達成した。

We introduce VideoPrism, a general-purpose video encoder that tackles diverse video understanding tasks with a single frozen model. We pretrain VideoPrism on a heterogeneous corpus containing 36M high-quality video-caption pairs and 582M video clips with noisy parallel text (e.g., ASR transcripts). The pretraining approach improves upon masked autoencoding by global-local distillation of semantic video embeddings and a token shuffling scheme, enabling VideoPrism to focus primarily on the video modality while leveraging the invaluable text associated with videos. We extensively test VideoPrism on four broad groups of video understanding tasks, from web video question answering to CV for science, achieving state-of-the-art performance on 31 out of 33 video understanding benchmarks.
翻訳日:2024-06-19 05:56:22 公開日:2024-06-16
# 大規模言語モデルの多言語信頼度推定に関する総合的研究

A Comprehensive Study of Multilingual Confidence Estimation on Large Language Models ( http://arxiv.org/abs/2402.13606v2 )

ライセンス: Link先を確認
Boyang Xue, Hongru Wang, Rui Wang, Sheng Wang, Zezhong Wang, Yiming Du, Kam-Fai Wong, (参考訳) 大言語モデル(LLM)が幻覚を発生させ、予測に自信過剰を示す傾向は、その信頼性に関する懸念を提起する。 モデル応答の信頼性の程度を示す信頼性または不確実性の推定は、信頼できるAIシステムの開発に不可欠である。 現在の研究は、英語におけるLLMの信頼度の推定に重点を置いており、他の広く使われている言語では空白のままであり、信頼性の高いAIアプリケーションのグローバルな開発を妨げる。 本稿では, LLM における \textbf Multi\textbf{ling}ual \textbf{Conf}idence Estimation (\textsc{MlingConf}) の総合的研究を紹介する。 まず、詳細な専門家による多言語QAデータセットを紹介する。 その後,多言語間での信頼度推定手法の性能について検討し,これらの信頼度スコアが自己補充によるLCM性能を向上させる方法について検討する。 多言語QAデータセット上で行った実験により, 話者の信頼度は言語によって異なることが示され, 単語化数値信頼度推定法は他の手法よりも多くの言語で最高の性能を示した。 最後に、得られた信頼度スコアは、様々な言語にまたがる自己抑制フィードバックとして、一貫してパフォーマンスを向上させることができる。

The tendency of Large Language Models (LLMs) to generate hallucinations and exhibit overconfidence in predictions raises concerns regarding their reliability. Confidence or uncertainty estimations indicating the extent of trustworthiness of a model's response are essential to developing reliable AI systems. Current research primarily focuses on LLM confidence estimations in English, remaining a void for other widely used languages and impeding the global development of reliable AI applications. This paper introduces a comprehensive investigation of \textbf Multi\textbf{ling}ual \textbf{Conf}idence estimation (\textsc{MlingConf}) on LLMs. First, we introduce an elaborated and expert-checked multilingual QA dataset. Subsequently, we delve into the performance of several confidence estimation methods across diverse languages and examine how these confidence scores can enhance LLM performance through self-refinement. Extensive experiments conducted on the multilingual QA dataset demonstrate that confidence estimation results vary in different languages, and the verbalized numerical confidence estimation method exhibits the best performance among most languages over other methods. Finally, the obtained confidence scores can consistently improve performance as self-refinement feedback across various languages.
翻訳日:2024-06-19 05:56:21 公開日:2024-06-16
# 校正によるスタンス検出における大規模言語モデルの緩和バイアス

Mitigating Biases of Large Language Models in Stance Detection with Calibration ( http://arxiv.org/abs/2402.14296v2 )

ライセンス: Link先を確認
Ang Li, Jingqian Zhao, Bin Liang, Lin Gui, Hui Wang, Xi Zeng, Xingwei Liang, Kam-Fai Wong, Ruifeng Xu, (参考訳) 大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて顕著な進歩を遂げている。 しかし, 本研究では, 姿勢検出タスクにおいて, LLMが特定の個人やトピックに対する感情と刺激の相関や嗜好に起因して, 偏りのある姿勢を生じさせ, 性能を損なう可能性が示唆された。 そこで本稿では,キャリブレーション(MB-Cal)を用いた姿勢検出におけるLCMのバイアス軽減手法を提案する。 具体的には、LCMの姿勢予測における潜在的なバイアスをキャリブレーションするために、新しいキャリブレーションネットワークを考案した。 さらに,バイアス表現を効果的に学習する上での課題と,デバイアスの一般化性の難しさに対処するために,デバイアスデータを構築した。 このアプローチはキャリブレーションネットワークを強化し、デバイアス化とドメイン外一般化を容易にする。 ターゲット内およびゼロショット姿勢検出タスクの実験結果から,提案したMB-CalはLLMのバイアスを効果的に軽減し,最先端の結果が得られることが示された。

Large language models (LLMs) have achieved remarkable progress in many natural language processing tasks. However, our experiment reveals that, in stance detection tasks, LLMs may generate biased stances due to sentiment-stance spurious correlations and preference towards certain individuals and topics, thus harming their performance. Therefore, in this paper, we propose to Mitigate Biases of LLMs in stance detection with Calibration (MB-Cal). To be specific, a novel calibration network is devised to calibrate potential bias in the stance prediction of LLMs. Further, to address the challenge of effectively learning bias representations and the difficulty in the generalizability of debiasing, we construct counterfactual augmented data. This approach enhances the calibration network, facilitating the debiasing and out-of-domain generalization. Experimental results on in-target and zero-shot stance detection tasks show that the proposed MB-Cal can effectively mitigate biases of LLMs, achieving state-of-the-art results.
翻訳日:2024-06-19 05:56:21 公開日:2024-06-16
# マルチモーダル大言語モデルの視覚的幻覚

Visual Hallucinations of Multi-modal Large Language Models ( http://arxiv.org/abs/2402.14683v2 )

ライセンス: Link先を確認
Wen Huang, Hongbin Liu, Minxin Guo, Neil Zhenqiang Gong, (参考訳) 視覚幻覚(VH)とは、マルチモーダル LLM (MLLM) が視覚的質問応答における画像に関する誤った詳細を想像することを意味する。 既存の研究では、既存の画像データセットにのみVHインスタンスが見出され、その結果、そのようなVHインスタンスの多様性が限定されているため、VH下でのMLLMのパフォーマンスのバイアス付き理解が得られている。 本稿では,VHTestと呼ばれる,VHインスタンスの多種多様なセットを生成するツールを提案する。 具体的には、VHTestは既存の画像データセット(例えばCOCO)の初期VHインスタンスを見つけ、各VHモードのテキスト記述を生成し、テキストから画像への生成モデル(例えばDALL-E-3)を使用して、テキスト記述に基づいてVHイメージを生成する。 VHTestを使って、1200VHインスタンスを8VHモードで収集する。 GPT-4V, LLaVA-1.5, MiniGPT-v2などの既存のMLLMは, ベンチマーク結果のかなりの割合で幻覚することがわかった。 さらに,ベンチマークデータセットを用いてMLLMの微調整を行うことで,他のベンチマークのパフォーマンスを犠牲にすることなく幻覚の可能性が低下することがわかった。 私たちのベンチマークは、https://github.com/wenhuang2000/VHTest.comで公開されています。

Visual hallucination (VH) means that a multi-modal LLM (MLLM) imagines incorrect details about an image in visual question answering. Existing studies find VH instances only in existing image datasets, which results in biased understanding of MLLMs' performance under VH due to limited diversity of such VH instances. In this work, we propose a tool called VHTest to generate a diverse set of VH instances. Specifically, VHTest finds some initial VH instances in existing image datasets (e.g., COCO), generates a text description for each VH mode, and uses a text-to-image generative model (e.g., DALL-E-3) to generate VH images based on the text descriptions. We collect a benchmark dataset with 1,200 VH instances in 8 VH modes using VHTest. We find that existing MLLMs such as GPT-4V, LLaVA-1.5, and MiniGPT-v2 hallucinate for a large fraction of the instances in our benchmark. Moreover, we find that fine-tuning an MLLM using our benchmark dataset reduces its likelihood to hallucinate without sacrificing its performance on other benchmarks. Our benchmarks are publicly available: https://github.com/wenhuang2000/VHTest.
翻訳日:2024-06-19 05:56:21 公開日:2024-06-16
# 非線形変換器は文脈内学習においてどのように学習し、一般化するか?

How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? ( http://arxiv.org/abs/2402.15607v3 )

ライセンス: Link先を確認
Hongkang Li, Meng Wang, Songtao Lu, Xiaodong Cui, Pin-Yu Chen, (参考訳) トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルがそのタスクから入力出力の例でクエリを増大させるだけで、微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が目覚ましい。 実証的な成功にもかかわらず、トランスフォーマーをトレーニングしてICLとそれに対応するICL能力を達成するメカニズムは、トランスフォーマーの非線形自己注意と非線形活性化に起因する非凸トレーニング問題を解析する技術的な課題により、ほとんど解明されている。 本稿では,非線形自己アテンションと非線形MLPを用いたトランスフォーマーのトレーニング力学の理論的解析と,結果モデルのICL一般化能力について述べる。 バイナリ分類タスクのグループに着目し,これらのタスクのサブセットからのデータを用いてトランスフォーマーを訓練し,各要素のICL一般化性能への影響を,データ分散シフトの有無に関わらず,残りの未確認タスクに与える影響を定量化する。 また、学習したトランスフォーマーの異なるコンポーネントがICLのパフォーマンスにどのように貢献するかを分析する。 さらに、モデルプルーニングがICL性能にどのように影響するかを初めて理論的に分析し、適切な等級ベースのプルーニングが推論コストを低減しつつ、ICLに最小限の影響を与えることを証明した。 これらの理論的発見は数値実験によって正当化される。

Transformer-based large language models have displayed impressive in-context learning capabilities, where a pre-trained model can handle new tasks without fine-tuning by simply augmenting the query with some input-output examples from that task. Despite the empirical success, the mechanics of how to train a Transformer to achieve ICL and the corresponding ICL capacity is mostly elusive due to the technical challenges of analyzing the nonconvex training problems resulting from the nonlinear self-attention and nonlinear activation in Transformers. To the best of our knowledge, this paper provides the first theoretical analysis of the training dynamics of Transformers with nonlinear self-attention and nonlinear MLP, together with the ICL generalization capability of the resulting model. Focusing on a group of binary classification tasks, we train Transformers using data from a subset of these tasks and quantify the impact of various factors on the ICL generalization performance on the remaining unseen tasks with and without data distribution shifts. We also analyze how different components in the learned Transformers contribute to the ICL performance. Furthermore, we provide the first theoretical analysis of how model pruning affects ICL performance and prove that proper magnitude-based pruning can have a minimal impact on ICL while reducing inference costs. These theoretical findings are justified through numerical experiments.
翻訳日:2024-06-19 05:56:21 公開日:2024-06-16
# chainBoost: ブロックチェーンベースのリソース市場のためのセキュアなパフォーマンス向上ツール

chainBoost: A Secure Performance Booster for Blockchain-based Resource Markets ( http://arxiv.org/abs/2402.16095v3 )

ライセンス: Link先を確認
Zahra Motaqy, Mohamed E. Najd, Ghada Almashaqbeh, (参考訳) 暗号通貨とブロックチェーン技術は、デジタルサービスを再構築するための革新的なモデルを提供する。 Web 3.0への移行によって、最近のシステムは、通貨交換媒体の上に計算アウトソーシングやファイルストレージなどの分散サービスを提供し始めた。 誰でも参加して他のサービスへの支払いを収集できるようにすることで、これらのシステムはデジタルリソースを取引するための分散市場を創出する。 しかし、これらの市場の約束と実用性の間にはまだ大きなギャップがある。 既存のイニシアチブはまだ初期段階にあり、すでにセキュリティと効率の障害に直面している。 同時に、有望なアイデア、特にサイドチェーンに関する既存の作業は、これらの問題に対処する潜在能力の活用に不足しています。 このギャップを埋めるため、分散リソース市場のための安全なパフォーマンス向上剤である chainBoost を提案する。 サービス関連の操作を高速化し、ブロックチェーンのサイズを縮小し、低オーバーヘッドでフレキシブルなサービス支払い交換モダリティをサポートする。 chainBoostの中核はサイドチェーンで、メインチェーンとの(セキュリティとセマンティック)相互依存性を持ち、システムが重/頻繁な操作をオフロードする。 これを実現するために、一時的かつ永続的なブロックからなる新しいサイドチェーンアーキテクチャ、サイドチェーンをプルークするブロック抑制機構、両チェーン間の任意のデータ交換を許可する同期プロトコル、堅牢性とレジリエンスをサポートする自己回復プロトコルを開発する。 chainBoostのセキュリティを分析し、分散ファイルストレージ市場のための概念実証プロトタイプをユースケースとして実装する。 ラウンド当たり2000トランザクションの市場処理では,スループットが11倍,確認時間が94%向上した。 chainBoostがメインのブロックチェーンサイズを約90%削減できることも示している。

Cryptocurrencies and blockchain technology provide an innovative model for reshaping digital services. Driven by the movement toward Web 3.0, recent systems started to provide distributed services, such as computation outsourcing or file storage, on top of the currency exchange medium. By allowing anyone to join and collect payments for serving others, these systems create decentralized markets for trading digital resources. Yet, there is still a big gap between the promise of these markets and their practical viability. Existing initiatives are still early-stage and have already encountered security and efficiency obstacles. At the same time, existing work around promising ideas, specifically sidechains, fall short in exploiting their full potential in addressing these problems. To bridge this gap, we propose chainBoost, a secure performance booster for decentralized resource markets. It expedites service related operations, reduces the blockchain size, and supports flexible service-payment exchange modalities at low overhead. At its core, chainBoost employs a sidechain, that has a (security and semantic) mutual-dependence with the mainchain, to which the system offloads heavy/frequent operations. To enable it, we develop a novel sidechain architecture composed of temporary and permanent blocks, a block suppression mechanism to prune the sidechain, a syncing protocol to permit arbitrary data exchange between the two chains, and an autorecovery protocol to support robustness and resilience. We analyze the security of chainBoost, and implement a proof-of-concept prototype for a distributed file storage market as a use case. For a market handling around 2000 transactions per round, our experiments show up to 11x improvement in throughput and 94% reduction in confirmation time. They also show that chainBoost can reduce the main blockchain size by around 90%.
翻訳日:2024-06-19 05:46:37 公開日:2024-06-16
# 大規模合成シュミレーションによる言語横断的オープンドメイン質問応答の事前学習

Pre-training Cross-lingual Open Domain Question Answering with Large-scale Synthetic Supervision ( http://arxiv.org/abs/2402.16508v2 )

ライセンス: Link先を確認
Fan Jiang, Tom Drummond, Trevor Cohn, (参考訳) 言語間オープンドメイン質問応答(CLQA)は、多言語知識ベースからの言語間検索を含む複雑な問題である。 どちらのステップも通常は別々のモデルによって取り組まれ、実質的なアノテートデータセットと、言語間の橋渡しを行う機械翻訳システムのような補助的なリソースが必要になる。 本稿では,単一エンコーダデコーダモデルを用いてCLQAに対処可能であることを示す。 このモデルを効果的に学習するために,ウィキペディア内の言語間リンク構造を利用した自己教師型手法を提案する。 リンクされたウィキペディアページは、クローズクエリの形式で言語間検索のための監視信号を合成し、より自然な質問を生成して回答生成を監督する方法を実証する。 そこで本研究では,機械翻訳を含む教師付きおよびゼロショット言語適応設定において,同等の手法を性能的に向上させるアプローチである「texttt{CLASS}」について述べる。

Cross-lingual open domain question answering (CLQA) is a complex problem, comprising cross-lingual retrieval from a multilingual knowledge base, followed by answer generation in the query language. Both steps are usually tackled by separate models, requiring substantial annotated datasets, and typically auxiliary resources, like machine translation systems to bridge between languages. In this paper, we show that CLQA can be addressed using a single encoder-decoder model. To effectively train this model, we propose a self-supervised method based on exploiting the cross-lingual link structure within Wikipedia. We demonstrate how linked Wikipedia pages can be used to synthesise supervisory signals for cross-lingual retrieval, through a form of cloze query, and generate more natural questions to supervise answer generation. Together, we show our approach, \texttt{CLASS}, outperforms comparable methods on both supervised and zero-shot language adaptation settings, including those using machine translation.
翻訳日:2024-06-19 05:46:37 公開日:2024-06-16
# クラスコンディション型GANにおけるタイルのテーピング:低分解能における無条件訓練による知識共有

Taming the Tail in Class-Conditional GANs: Knowledge Sharing via Unconditional Training at Lower Resolutions ( http://arxiv.org/abs/2402.17065v2 )

ライセンス: Link先を確認
Saeed Khorram, Mingqi Jiang, Mohamad Shahbazi, Mohamad H. Danesh, Li Fuxin, (参考訳) 限られたトレーニングデータを持つGAN(Generative Adversarial Network)のトレーニングに関する広範な研究にもかかわらず、長い尾のトレーニング分布から画像を生成することを学ぶことは、まだ明らかになっていない。 不均衡なマルチクラスのトレーニングデータが存在する場合、GANはより多くのサンプルを持つクラスを好む傾向があり、尾クラスの低品質で多様性の低いサンプルが生成される。 本研究では,長期データを用いたクラス条件付きGANの訓練を改善することを目的としている。 そこで我々は,より豊富な学習データを持つクラスから,テールクラスが豊富な情報から借用できる,知識共有の単純かつ効果的な方法を提案する。 より具体的には,高分解能層に対するクラス条件生成を保ちながら,ジェネレータの低分解能層が完全に無条件で訓練されることを保証するため,既存のクラス条件GANアーキテクチャの変更を提案する。 いくつかのロングテールベンチマークとGANアーキテクチャの実験は、生成された画像の多様性と忠実さの両方において、既存の手法よりも大幅に改善されていることを示している。 コードはhttps://github.com/khorrams/utlo.comで公開されている。

Despite extensive research on training generative adversarial networks (GANs) with limited training data, learning to generate images from long-tailed training distributions remains fairly unexplored. In the presence of imbalanced multi-class training data, GANs tend to favor classes with more samples, leading to the generation of low-quality and less diverse samples in tail classes. In this study, we aim to improve the training of class-conditional GANs with long-tailed data. We propose a straightforward yet effective method for knowledge sharing, allowing tail classes to borrow from the rich information from classes with more abundant training data. More concretely, we propose modifications to existing class-conditional GAN architectures to ensure that the lower-resolution layers of the generator are trained entirely unconditionally while reserving class-conditional generation for the higher-resolution layers. Experiments on several long-tail benchmarks and GAN architectures demonstrate a significant improvement over existing methods in both the diversity and fidelity of the generated images. The code is available at https://github.com/khorrams/utlo.
翻訳日:2024-06-19 05:46:37 公開日:2024-06-16
# 都市コンピューティングにおけるクロスドメインデータ融合のための深層学習 : 分類学、進歩、展望

Deep Learning for Cross-Domain Data Fusion in Urban Computing: Taxonomy, Advances, and Outlook ( http://arxiv.org/abs/2402.19348v2 )

ライセンス: Link先を確認
Xingchen Zou, Yibo Yan, Xixuan Hao, Yuehong Hu, Haomin Wen, Erdong Liu, Junbo Zhang, Yong Li, Tianrui Li, Yu Zheng, Yuxuan Liang, (参考訳) 都市が成長を続けるにつれて、都市コンピューティングは、さまざまなソース(地理的、交通、ソーシャルメディア、環境データ)とモダリティ(時空間、視覚、テキストなど)からのクロスドメインデータ融合の力を活用することで、持続可能な開発のための重要な分野として現れます。 近年,スマートシティにおけるドメイン間データ融合を促進するために,様々な深層学習手法が利用されつつある傾向がみられている。 そこで本稿では,都市コンピューティングに適した深層学習に基づくデータ融合手法の最近の進歩を体系的にレビューする,最初の調査を提案する。 具体的には、まずデータパースペクティブを掘り下げて、各モーダリティとデータソースの役割を理解する。 次に,提案手法を特徴ベース,アライメントベース,コントラストベース,生成ベース融合の4つのカテゴリに分類する。 第3に, 都市計画, 交通, 経済, 公共安全, 社会, 環境, エネルギーの7つのタイプに分類される。 従来の調査と比較して,都市コンピューティングアプリケーションとディープラーニング手法の相乗効果に注目する。 さらに,Large Language Models (LLMs) と都市コンピューティングの相互作用に光を当て,この分野に革命をもたらす可能性のある今後の研究方向を示唆した。 我々は,我々の調査で明らかにされた分類,進歩,展望が,研究コミュニティを著しく豊かにする可能性があると強く信じている。 包括的で最新のペーパーリストの要約はhttps://github.com/yoshall/Awesome-Multimodal-Urban-Computingで見ることができる。

As cities continue to burgeon, Urban Computing emerges as a pivotal discipline for sustainable development by harnessing the power of cross-domain data fusion from diverse sources (e.g., geographical, traffic, social media, and environmental data) and modalities (e.g., spatio-temporal, visual, and textual modalities). Recently, we are witnessing a rising trend that utilizes various deep-learning methods to facilitate cross-domain data fusion in smart cities. To this end, we propose the first survey that systematically reviews the latest advancements in deep learning-based data fusion methods tailored for urban computing. Specifically, we first delve into data perspective to comprehend the role of each modality and data source. Secondly, we classify the methodology into four primary categories: feature-based, alignment-based, contrast-based, and generation-based fusion methods. Thirdly, we further categorize multi-modal urban applications into seven types: urban planning, transportation, economy, public safety, society, environment, and energy. Compared with previous surveys, we focus more on the synergy of deep learning methods with urban computing applications. Furthermore, we shed light on the interplay between Large Language Models (LLMs) and urban computing, postulating future research directions that could revolutionize the field. We firmly believe that the taxonomy, progress, and prospects delineated in our survey stand poised to significantly enrich the research community. The summary of the comprehensive and up-to-date paper list can be found at https://github.com/yoshall/Awesome-Multimodal-Urban-Computing.
翻訳日:2024-06-19 05:46:37 公開日:2024-06-16
# TELEClass:最小限のスーパービジョンによる分類学の充実とLLMによる階層的テキスト分類

TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text Classification with Minimal Supervision ( http://arxiv.org/abs/2403.00165v2 )

ライセンス: Link先を確認
Yunyi Zhang, Ruozhen Yang, Xueqiang Xu, Rui Li, Jinfeng Xiao, Jiaming Shen, Jiawei Han, (参考訳) 階層的なテキスト分類は、ラベル分類における各文書を一連のクラスに分類することを目的としている。 初期の研究は、大量の人間の注釈付きデータを必要とする完全あるいは半教師付き手法に重点を置いていた。 人間の努力を軽減するため、本論文では、最小限の監督量で階層的なテキスト分類に取り組む。 近年,大規模言語モデル (LLM) はゼロショットプロンプトによって様々なタスクの競合性能を示すが,この手法は大規模かつ構造化されたラベル空間をプロンプトに含めるのが効果的ではないため,階層的にはあまり機能しない。 一方、従来の弱教師付き階層型テキスト分類法では、生の分類学の骨格のみを使用し、追加のクラス表示機能として機能するテキストコーパスに隠された豊富な情報を無視する。 この課題に対処するため,TELEClass,Taxonomy Enrichment,LLM-Enhanced weak-Enhanced Hierarchical Text Classificationを提案する。 実験により、TELEClassは2つの公開データセット上で従来の弱い教師付き手法とLLMベースのゼロショットプロンプト手法より優れていることが示された。

Hierarchical text classification aims to categorize each document into a set of classes in a label taxonomy. Most earlier works focus on fully or semi-supervised methods that require a large amount of human annotated data which is costly and time-consuming to acquire. To alleviate human efforts, in this paper, we work on hierarchical text classification with the minimal amount of supervision: using the sole class name of each node as the only supervision. Recently, large language models (LLM) show competitive performance on various tasks through zero-shot prompting, but this method performs poorly in the hierarchical setting, because it is ineffective to include the large and structured label space in a prompt. On the other hand, previous weakly-supervised hierarchical text classification methods only utilize the raw taxonomy skeleton and ignore the rich information hidden in the text corpus that can serve as additional class-indicative features. To tackle the above challenges, we propose TELEClass, Taxonomy Enrichment and LLM-Enhanced weakly-supervised hierarchical text Classification, which (1) automatically enriches the label taxonomy with class-indicative terms to facilitate classifier training and (2) utilizes LLMs for both data annotation and creation tailored for the hierarchical label space. Experiments show that TELEClass can outperform previous weakly-supervised methods and LLM-based zero-shot prompting methods on two public datasets.
翻訳日:2024-06-19 05:46:37 公開日:2024-06-16
# "Flex Tape Can't Fix that": 編集言語モデルにおけるバイアスと誤報

"Flex Tape Can't Fix That": Bias and Misinformation in Edited Language Models ( http://arxiv.org/abs/2403.00180v2 )

ライセンス: Link先を確認
Karina Halevy, Anna Sotnikova, Badr AlKhamissi, Syrielle Montariol, Antoine Bosselut, (参考訳) モデル編集は、言語モデルに格納された知識を更新するためのコスト効率の良い戦略として登場した。 しかし、モデル編集は、編集に関係のない情報を変更したり、モデルの他の一般的な振る舞いを誤って変更したりすることで、意図しない結果をもたらす可能性がある。 本研究では,モデル編集手法が編集後のモデルバイアスを予期せず増幅する方法について検討する。 モデル編集におけるバイアス関連害を測定するための新しいベンチマークデータセットSeesaw-CFを導入し、異なる重み付け手法がモデルバイアスにどのように影響するかを詳細に調査する。 具体的には、人種、地理的起源、性別などの人口特性に関するバイアスと、編集された言語モデルによって生成される長文の質的欠陥に焦点を当てる。 編集されたモデルは、アジア、アフリカ、および南米の被験者の属性に対する信頼性が低下するにつれて、様々な程度にバイアスのかかる行動を示す。 さらに、編集されたモデルは、テキスト世代における性差別と異性愛を増幅する一方で、一貫性があり論理的なように見える。 最後に、出生地、市民権の国、性別に関する事実を編集することは、特に仕事の分野のような無関係な特徴に関するモデルの知識に悪影響を及ぼす。

Model editing has emerged as a cost-effective strategy to update knowledge stored in language models. However, model editing can have unintended consequences after edits are applied: information unrelated to the edits can also be changed, and other general behaviors of the model can be wrongly altered. In this work, we investigate how model editing methods unexpectedly amplify model biases post-edit. We introduce a novel benchmark dataset, Seesaw-CF, for measuring bias-related harms of model editing and conduct the first in-depth investigation of how different weight-editing methods impact model bias. Specifically, we focus on biases with respect to demographic attributes such as race, geographic origin, and gender, as well as qualitative flaws in long-form texts generated by edited language models. We find that edited models exhibit, to various degrees, more biased behavior as they become less confident in attributes for Asian, African, and South American subjects. Furthermore, edited models amplify sexism and xenophobia in text generations while remaining seemingly coherent and logical. Finally, editing facts about place of birth, country of citizenship, or gender have particularly negative effects on the model's knowledge about unrelated features like field of work.
翻訳日:2024-06-19 05:46:37 公開日:2024-06-16
# ROME: テキスト,ログ,表現からの覚書

ROME: Memorization Insights from Text, Logits and Representation ( http://arxiv.org/abs/2403.00510v3 )

ライセンス: Link先を確認
Bo Li, Qinghua Zhao, Lijie Wen, (参考訳) 過去の研究は、モデル出力とトレーニングコーパスを比較し、データ重複、モデルサイズ、即時長の記憶などの要因が記憶にどのように影響するかを調べた。 しかし、これらの広範なトレーニングコーパスを分析するのは非常に時間がかかる。 この課題に対処するため,本論文では,トレーニングデータの直接処理を回避したROMEという革新的な手法を提案する。 具体的には、文脈に依存しない、従来的、事実の3つの異なるタイプに分類されるデータセットを選択し、これらの条件下で正しい回答を生成する能力として記憶を再定義する。 そこで本研究では,生成したテキストのロジットと表現を調べることで,記憶されたサンプルと記憶されていないサンプルの相違に着目した。 実験結果から、長い単語は暗記される可能性が低く、高い信頼度はより大きい暗記と相関し、同じ概念の表現は異なる文脈でより類似していることが明らかとなった。 論文が受理されたら、私たちのコードとデータは公開されます。

Previous works have evaluated memorization by comparing model outputs with training corpora, examining how factors such as data duplication, model size, and prompt length influence memorization. However, analyzing these extensive training corpora is highly time-consuming. To address this challenge, this paper proposes an innovative approach named ROME that bypasses direct processing of the training data. Specifically, we select datasets categorized into three distinct types -- context-independent, conventional, and factual -- and redefine memorization as the ability to produce correct answers under these conditions. Our analysis then focuses on disparities between memorized and non-memorized samples by examining the logits and representations of generated texts. Experimental findings reveal that longer words are less likely to be memorized, higher confidence correlates with greater memorization, and representations of the same concepts are more similar across different contexts. Our code and data will be publicly available when the paper is accepted.
翻訳日:2024-06-19 05:46:37 公開日:2024-06-16
# InteraRec: マルチモーダル大言語モデルを用いたスクリーンショットベースのレコメンデーション

InteraRec: Screenshot Based Recommendations Using Multimodal Large Language Models ( http://arxiv.org/abs/2403.00822v2 )

ライセンス: Link先を確認
Saketh Reddy Karra, Theja Tulabandhula, (参考訳) Weblogsは、どのWebサイトでもユーザアクティビティを詳細に記述した記録で構成されており、ユーザの好み、行動、関心に関する貴重な洞察を提供する。 協調フィルタリング、コンテンツベースのフィルタリング、ハイブリッドメソッドといった戦略を駆使した多数のレコメンデーションアルゴリズムは、これらのWebログを通じて収集されたデータを活用して、ユーザにパーソナライズされたレコメンデーションを提供する。 これらのWebログで利用可能な情報が豊富にあるにもかかわらず、関連する情報や重要な特徴を特定し、抽出するには広範なエンジニアリング努力が必要である。 データの複雑な性質は、特に非専門家の解釈にも挑戦している。 本研究では,InteraRecと表記される高度でインタラクティブなレコメンデーションフレームワークを紹介し,レコメンデーション生成のためのWebログのみに依存する従来のアプローチから逸脱する。 InteraRecフレームワークは、ユーザがWebサイトをナビゲートするときに、Webページの高周波スクリーンショットをキャプチャする。 MLLM(State-of-the-the-the-art multimodal large language model)を利用して、事前に定義されたキーワードに基づいてテキスト要約を生成することにより、これらのスクリーンショットからユーザの好みに対する貴重な洞察を抽出する。 その後、LLM統合最適化設定では、この要約を利用してカスタマイズされたレコメンデーションを生成する。 実験を通じて、ユーザに対して価値あるパーソナライズされたオファリングを提供する上で、InteraRecの有効性を実証した。 さらに、セッションベースのレコメンデーションシステムをInteraRecフレームワークに統合し、全体的なパフォーマンス向上を目指す。 最後に、InteraRecフレームワークの検証のために、Amazon Webサイトにある製品Webページからのスクリーンショットからなる新しいデータセットをキュレートする。 詳細な実験は、個人の好みに合わせて価値あるパーソナライズされたレコメンデーションを提供するためのInteraRecフレームワークの有効性を実証している。

Weblogs, comprised of records detailing user activities on any website, offer valuable insights into user preferences, behavior, and interests. Numerous recommendation algorithms, employing strategies such as collaborative filtering, content-based filtering, and hybrid methods, leverage the data mined through these weblogs to provide personalized recommendations to users. Despite the abundance of information available in these weblogs, identifying and extracting pertinent information and key features from them necessitate extensive engineering endeavors. The intricate nature of the data also poses a challenge for interpretation, especially for non-experts. In this study, we introduce a sophisticated and interactive recommendation framework denoted as InteraRec, which diverges from conventional approaches that exclusively depend on weblogs for recommendation generation. InteraRec framework captures high-frequency screenshots of web pages as users navigate through a website. Leveraging state-of-the-art multimodal large language models (MLLMs), it extracts valuable insights into user preferences from these screenshots by generating a textual summary based on predefined keywords. Subsequently, an LLM-integrated optimization setup utilizes this summary to generate tailored recommendations. Through our experiments, we demonstrate the effectiveness of InteraRec in providing users with valuable and personalized offerings. Furthermore, we explore the integration of session-based recommendation systems into the InteraRec framework, aiming to enhance its overall performance. Finally, we curate a new dataset comprising of screenshots from product web pages on the Amazon website for the validation of the InteraRec framework. Detailed experiments demonstrate the efficacy of the InteraRec framework in delivering valuable and personalized recommendations tailored to individual user preferences.
翻訳日:2024-06-19 05:36:50 公開日:2024-06-16
# 物理科におけるデータサイエンス教育 : 実践コミュニティから学んだ教訓

Data Science Education in Undergraduate Physics: Lessons Learned from a Community of Practice ( http://arxiv.org/abs/2403.00961v2 )

ライセンス: Link先を確認
Karan Shah, Julie Butler, Alexis Knaub, Anıl Zenginoğlu, William Ratcliff, Mohammad Soltanieh-ha, (参考訳) 物理教育者が生徒にデータを扱う能力を持たせることがますます重要になっている。 しかし、多くの教育者は、これらのスキルを教えるためにデータサイエンスに必要な訓練や専門知識を欠いているかもしれない。 このギャップに対処するため、私たちはData Science Education Community of Practice (DSECOP)を設立しました。 本稿では、この実践のコミュニティからの洞察と経験を示し、データサイエンスを入門物理カリキュラムに組み込む上での重要な戦略と課題を強調します。 私たちのゴールは、データサイエンスを教育に統合し、次世代の物理学者をデータ駆動の世界に向けて準備する教育者へのガイダンスとインスピレーションを提供することです。

It is becoming increasingly important that physics educators equip their students with the skills to work with data effectively. However, many educators may lack the necessary training and expertise in data science to teach these skills. To address this gap, we created the Data Science Education Community of Practice (DSECOP), bringing together graduate students and physics educators from different institutions and backgrounds to share best practices and lessons learned from integrating data science into undergraduate physics education. In this article we present insights and experiences from this community of practice, highlighting key strategies and challenges in incorporating data science into the introductory physics curriculum. Our goal is to provide guidance and inspiration to educators who seek to integrate data science into their teaching, helping to prepare the next generation of physicists for a data-driven world.
翻訳日:2024-06-19 05:36:50 公開日:2024-06-16
# LLMを用いたデータ拡張:データパースペクティブ、学習パラダイム、課題

Data Augmentation using LLMs: Data Perspectives, Learning Paradigms and Challenges ( http://arxiv.org/abs/2403.02990v2 )

ライセンス: Link先を確認
Bosheng Ding, Chengwei Qin, Ruochen Zhao, Tianze Luo, Xinze Li, Guizhen Chen, Wenhan Xia, Junjie Hu, Anh Tuan Luu, Shafiq Joty, (参考訳) 大規模言語モデル(LLM)の急速に発展する分野では,データ収集を必要とせずにトレーニング例を多様化することにより,データ拡張(DA)がモデル性能を向上させる重要な手法として出現している。 本調査では,LLMがDAに与える影響,特に自然言語処理(NLP)などにおいて,それらがもたらす固有の課題と機会について考察する。 データと学習の両面から、LLMをデータ強化に活用する様々な戦略を検討する。 さらに、制御可能なデータ拡張からマルチモーダルデータ拡張まで、この領域で直面している主要なオープン課題を強調した。 本調査は,LLMがDAで導入したパラダイムシフトに注目し,研究者や実践者のための総合的なガイドとして機能することを目的としている。

In the rapidly evolving field of large language models (LLMs), data augmentation (DA) has emerged as a pivotal technique for enhancing model performance by diversifying training examples without the need for additional data collection. This survey explores the transformative impact of LLMs on DA, particularly addressing the unique challenges and opportunities they present in the context of natural language processing (NLP) and beyond. From both data and learning perspectives, we examine various strategies that utilize LLMs for data augmentation, including a novel exploration of learning paradigms where LLM-generated data is used for diverse forms of further training. Additionally, this paper highlights the primary open challenges faced in this domain, ranging from controllable data augmentation to multi-modal data augmentation. This survey highlights a paradigm shift introduced by LLMs in DA, and aims to serve as a comprehensive guide for researchers and practitioners.
翻訳日:2024-06-19 05:36:50 公開日:2024-06-16
# 複雑度問題:純粋相関の存在下での特徴学習のダイナミクス

Complexity Matters: Dynamics of Feature Learning in the Presence of Spurious Correlations ( http://arxiv.org/abs/2403.03375v2 )

ライセンス: Link先を確認
GuanWen Qiu, Da Kuang, Surbhi Goel, (参考訳) 既存の研究は、ニューラルネットワークの最適化におけるコア機能よりも、素早い特徴を学習しやすくすることが多いが、それらの相対的単純さの影響は、まだ解明されていない。 さらに、主に特徴学習の学習力学よりも、エンドパフォーマンスに焦点を当てている。 本稿では,ブール関数解析に基づく理論的枠組みと関連する合成データセットを提案する。 この設定により、(中核的な特徴と比較して)相対的な複雑性と(ラベルに関して)相関強度をきめ細かな制御が可能となり、刺激的な相関の下で特徴学習のダイナミクスを研究することができる。 その結果,(1) コア特徴の学習速度を低下させ,(2) コア特徴とスプリアス特徴を別々に学習するために,(2) コア特徴とコア特徴の学習フェーズは必ずしも分離可能ではなく,(4) コア特徴が完全に学習された後も,スプリアス特徴を忘れない,という2つの異なるサブネットが形成された。 以上の結果から,最終層の再トレーニングの成功を正当化して,突発的相関を除去し,突発的特徴の早期学習を生かした一般的なデバイアスアルゴリズムの限界を識別できることが示唆された。 単層ReLUネットワークを用いてXOR特徴を学習する場合の理論的解析により経験的発見を支援する。

Existing research often posits spurious features as easier to learn than core features in neural network optimization, but the impact of their relative simplicity remains under-explored. Moreover, studies mainly focus on end performance rather than the learning dynamics of feature learning. In this paper, we propose a theoretical framework and an associated synthetic dataset grounded in boolean function analysis. This setup allows for fine-grained control over the relative complexity (compared to core features) and correlation strength (with respect to the label) of spurious features to study the dynamics of feature learning under spurious correlations. Our findings uncover several interesting phenomena: (1) stronger spurious correlations or simpler spurious features slow down the learning rate of the core features, (2) two distinct subnetworks are formed to learn core and spurious features separately, (3) learning phases of spurious and core features are not always separable, (4) spurious features are not forgotten even after core features are fully learned. We demonstrate that our findings justify the success of retraining the last layer to remove spurious correlation and also identifies limitations of popular debiasing algorithms that exploit early learning of spurious features. We support our empirical findings with theoretical analyses for the case of learning XOR features with a one-hidden-layer ReLU network.
翻訳日:2024-06-19 05:36:50 公開日:2024-06-16
# インターフリート都市交通バスアイドリングの地球位置リアルタイムデータ

Global Geolocated Realtime Data of Interfleet Urban Transit Bus Idling ( http://arxiv.org/abs/2403.03489v4 )

ライセンス: Link先を確認
Nicholas Kunz, H. Oliver Gao, (参考訳) 都市交通バスのアイドリングは、エコロジー的なストレス、経済的非効率性、そして排出による医療上の有害な健康結果に寄与している。 この好ましくない運転行動の頻繁なパターンの世界的な蓄積は巨大である。 その規模を測定するため,都市交通バスの走行時間と位置を国際的に記録する拡張可能なリアルタイム検知システムとして,GRD-TRT-BUF-4I(Ground Truth Buffer for Idling)を提案する。 このシステムは、General Transit Feed Specification(GTFS)リアルタイムから、北米、ヨーロッパ、オセアニア、アジアの50都市から1日に約20万回のアイドリングイベントを検出する。 このリアルタイムデータは、運用上の意思決定と艦隊管理を動的に行うために作成され、アイドリングイベントの発生頻度と期間を減らし、その累積効果を捉えた。 市民・交通技術者、都市計画家、疫学者、政策立案者、その他の利害関係者は、様々な地理的・時間的スケールで、エミッションモデリング、交通管理、ルートプランニング、その他の都市サステナビリティの取り組みに役立つと考えている。

Urban transit bus idling is a contributor to ecological stress, economic inefficiency, and medically hazardous health outcomes due to emissions. The global accumulation of this frequent pattern of undesirable driving behavior is enormous. In order to measure its scale, we propose GRD-TRT- BUF-4I (Ground Truth Buffer for Idling) an extensible, realtime detection system that records the geolocation and idling duration of urban transit bus fleets internationally. Using live vehicle locations from General Transit Feed Specification (GTFS) Realtime, the system detects approximately 200,000 idling events per day from over 50 cities across North America, Europe, Oceania, and Asia. This realtime data was created to dynamically serve operational decision-making and fleet management to reduce the frequency and duration of idling events as they occur, as well as to capture its accumulative effects. Civil and Transportation Engineers, Urban Planners, Epidemiologists, Policymakers, and other stakeholders might find this useful for emissions modeling, traffic management, route planning, and other urban sustainability efforts at a variety of geographic and temporal scales.
翻訳日:2024-06-19 05:36:50 公開日:2024-06-16
# RATSF: Retrieval-Augmented Time-Series Forecastingによる顧客サービスボリューム管理の強化

RATSF: Empowering Customer Service Volume Management through Retrieval-Augmented Time-Series Forecasting ( http://arxiv.org/abs/2403.04180v2 )

ライセンス: Link先を確認
Tianfeng Wang, Gaojie Cui, (参考訳) 効率的な顧客サービス管理システムは、サービスボリュームの正確な予測に頼っている。 このシナリオでは、データ非定常性が発音されるが、予測の成功は、単に周期的なパターンを要約するのではなく、類似した履歴データの識別と活用に大きく依存する。 RNNやTransformerアーキテクチャに基づく既存のモデルは、この柔軟性と効果的な利用に苦労する可能性がある。 この課題に対処するため,我々は時系列知識ベース (TSKB) を開発した。 我々はまた,トランスフォーマーのデコーダ層内のクロスアテンション機構の変種であるRetrieval Augmented Cross-Attention (RACA)モジュールを開発した。 TSKBとRACAのシナジーは、Retrieval-Augmented Time Series Forecasting (RATSF)フレームワークのバックボーンを形成します。 上記の2つのコンポーネントに基づいて、RATSFは、Fliggyホテルのサービスボリューム予測の文脈でパフォーマンスを著しく向上するだけでなく、様々なシナリオに柔軟に対応し、時系列予測のために多くのTransformer変種と統合する。 大規模な実験により、このシステム設計の有効性と一般化性は、様々な異なる文脈で検証されている。

An efficient customer service management system hinges on precise forecasting of service volume. In this scenario, where data non-stationarity is pronounced, successful forecasting heavily relies on identifying and leveraging similar historical data rather than merely summarizing periodic patterns. Existing models based on RNN or Transformer architectures may struggle with this flexible and effective utilization. To tackle this challenge, we initially developed the Time Series Knowledge Base (TSKB) with an advanced indexing system for efficient historical data retrieval. We also developed the Retrieval Augmented Cross-Attention (RACA) module, a variant of the cross-attention mechanism within Transformer's decoder layers, designed to be seamlessly integrated into the vanilla Transformer architecture to assimilate key historical data segments. The synergy between TSKB and RACA forms the backbone of our Retrieval-Augmented Time Series Forecasting (RATSF) framework. Based on the above two components, RATSF not only significantly enhances performance in the context of Fliggy hotel service volume forecasting but also adapts flexibly to various scenarios and integrates with a multitude of Transformer variants for time-series forecasting. Extensive experimentation has validated the effectiveness and generalizability of this system design across multiple diverse contexts.
翻訳日:2024-06-19 05:27:06 公開日:2024-06-16
# Aligners: LLMとアライメントの分離

Aligners: Decoupling LLMs and Alignment ( http://arxiv.org/abs/2403.04224v3 )

ライセンス: Link先を確認
Lilian Ngweta, Mayank Agarwal, Subha Maity, Alex Gittens, Yuekai Sun, Mikhail Yurochkin, (参考訳) 大きな言語モデル(LLM)は、ほとんどのアプリケーションで安全性と実用性を確保するために、人間の期待に沿う必要がある。 アライメントは困難でコストがかかり、すべてのLCMとアライメント基準に対して繰り返される必要があります。 そこで本稿では,LLM とアライメントをトレーニングアライメントモデルによって分離し,任意の基準をアライメントすることで,アライメントがパフォーマンスに与える影響を低減することを提案する。 提案手法は,LLMで生成した合成データにのみ依存しており,様々なアライメント基準で容易に調整できる。 同じ合成データを使って、インスペクタをトレーニングし、バイナリミスアライメント分類モデルを使用して、複数のアライメントの"スクワッド"をガイドします。 実験結果から,複数の命令追従およびリピートデータセットに対して,チャット整列モデルを含む各種LLMに対して整列処理を適用した場合,一貫した改善が得られた。

Large Language Models (LLMs) need to be aligned with human expectations to ensure their safety and utility in most applications. Alignment is challenging, costly, and needs to be repeated for every LLM and alignment criterion. We propose to decouple LLMs and alignment by training aligner models that can be used to align any LLM for a given criteria on an as-needed basis, thus also reducing the potential negative impacts of alignment on performance. Our recipe for training the aligner models solely relies on synthetic data generated with a (prompted) LLM and can be easily adjusted for a variety of alignment criteria. We use the same synthetic data to train inspectors, binary miss-alignment classification models to guide a "squad" of multiple aligners. Our empirical results demonstrate consistent improvements when applying aligner squad to various LLMs, including chat-aligned models, across several instruction-following and red-teaming datasets.
翻訳日:2024-06-19 05:27:06 公開日:2024-06-16
# DEEP-ICL:言語モデルインコンテキスト学習のための定義豊富なエキスパート

DEEP-ICL: Definition-Enriched Experts for Language Model In-Context Learning ( http://arxiv.org/abs/2403.04233v2 )

ライセンス: Link先を確認
Xingwei Qu, Yiming Liang, Yucheng Wang, Tianyu Zheng, Tommy Yue, Lei Ma, Stephen W. Huang, Jiajun Zhang, Yinan Shi, Chenghua Lin, Jie Fu, Ge Zhang, (参考訳) 大規模言語モデル(LLM)のパラメータ数が多ければ多いほど、コンテキスト内学習(ICL)の能力が向上し、タスク固有のデモンストレーションを活用することで、大幅なパフォーマンス向上が期待できる。 ICLのための新しいタスク定義拡張ExPert Ensembling法であるDEEP-ICLを導入する。 DEEP-ICLは与えられたデモからタスク定義を明示的に抽出し、タスク固有の例を学習することで応答を生成する。 ICLの改善はモデルのサイズに直接依存するのではなく、基本的にはタスク定義やタスク誘導学習の理解に起因している、と我々は主張する。 これに触発されて、DEEP-ICLは2つの3Bモデルと異なる役割(ひとつはタスク定義をまとめ、もう一つはタスクのデモを学習する)を組み合わせ、LLaMA2-13Bに匹敵するパフォーマンスを達成する。 さらに,本フレームワークは,列長制限を克服し,無制限な実演をサポートすることにより,従来のICLよりも優れた性能を発揮する。 我々は,DEEP-ICLが従来のICLを超越した,効率的な数ショット学習を実現するための新しい代替手段であると主張している。

It has long been assumed that the sheer number of parameters in large language models (LLMs) drives in-context learning (ICL) capabilities, enabling remarkable performance improvements by leveraging task-specific demonstrations. Challenging this hypothesis, we introduce DEEP-ICL, a novel task Definition Enriched ExPert Ensembling methodology for ICL. DEEP-ICL explicitly extracts task definitions from given demonstrations and generates responses through learning task-specific examples. We argue that improvement from ICL does not directly rely on model size, but essentially stems from understanding task definitions and task-guided learning. Inspired by this, DEEP-ICL combines two 3B models with distinct roles (one for concluding task definitions and the other for learning task demonstrations) and achieves comparable performance to LLaMA2-13B. Furthermore, our framework outperforms conventional ICL by overcoming pretraining sequence length limitations, by supporting unlimited demonstrations. We contend that DEEP-ICL presents a novel alternative for achieving efficient few-shot learning, extending beyond the conventional ICL.
翻訳日:2024-06-19 05:27:06 公開日:2024-06-16
# SPA: 計算フレンドリーなクラウドベースとオンデバイスコラボレーションのSeq2seqパーソナライズジェネレーションを目指して

SPA: Towards A Computational Friendly Cloud-Base and On-Devices Collaboration Seq2seq Personalized Generation ( http://arxiv.org/abs/2403.07088v4 )

ライセンス: Link先を確認
Yanming Liu, Xinyue Peng, Jiannan Cao, Le Dai, Xingzu Liu, Weihao Liu, (参考訳) 大規模言語モデル(LLM)は、様々なタスクや質問応答において優れた性能を示している。 しかし、LLMは低リソースデバイスにかなりのメモリストレージを必要とする。 さらに重要なのは、これらのデバイスの計算速度も大幅に制限されていることだ。 本稿では、厳密なオンデバイス計算とメモリ制約の制約に対する高速なオンデバイス推論のための軽量アーキテクチャであるSPA(Side Plugin Adaption)を提案する。 デバイス上のSeq2seq生成と比較すると、SPAは低リソースの制約に対して高速で安定した推論を行い、コスト効率を得ることができた。 本手法は,クラウド上での事前学習LLMとデバイス上での付加的パラメータとの相互作用を確立し,事前学習LLMの知識と特徴的特徴を両立させることができる。 さらに、SPAは、高次計算装置の一般情報を含むパラメータを残しながら、低次計算装置に特徴ベースパラメータを保持するためのフレームワークを提供する。

Large language models(LLMs) have shown its outperforming ability on various tasks and question answering. However, LLMs require substantial memory storage on low-resource devices. More critically, the computational speed on these devices is also severely limited. In this paper, we propose SPA(Side Plugin Adaption), a lightweight architecture for fast on-devices inference on the constraints of strict on-devices computation and memory constraints. Compared with other on-devices seq2seq generation, SPA could make a fast and stable inference on low-resource constraints, allowing it to obtain cost effiency. Our method establish an interaction between a pretrained LLMs on-cloud and additive parameters on-devices, which could provide the knowledge on both pretrained LLMs and featured personal feature. Further more, SPA provides a framework to keep feature-base parameters on low computational devices while leave the parameters containing general information on the high computational devices.
翻訳日:2024-06-19 05:27:06 公開日:2024-06-16
# HateCOT:大規模言語モデルによる一般化可能な音声検出のための説明強化データセット

HateCOT: An Explanation-Enhanced Dataset for Generalizable Offensive Speech Detection via Large Language Models ( http://arxiv.org/abs/2403.11456v3 )

ライセンス: Link先を確認
Huy Nghiem, Hal Daumé III, (参考訳) ソーシャルメディアの普及は、有害な影響を軽減するために、攻撃的コンテンツの信頼性と効率的な検出を必要とする。 洗練されたモデルは個々のデータセットでよく機能するが、様々な定義や「悪質な内容」のラベル付けのために一般化に失敗することが多い。 本稿では,GPT-3.5Turboが生成し,ヒトがキュレートした説明を特徴とする52,000以上のサンプルを多種多様な情報源から収集した英語データセットであるHateCOTを紹介する。 HateCOTの事前トレーニングは、ドメインやタスクの違いにもかかわらず、ゼロショットと少数ショットの両方で攻撃的コンテンツ検出のための3つのベンチマークデータセット上で、オープンソースのLarge Language Modelsの性能を大幅に向上させることを示した。 さらに、HateCOTは、限られたデータによるLLMの効果的なKショット微調整を容易にし、人間の評価によって確認された説明の質を向上させる。

The widespread use of social media necessitates reliable and efficient detection of offensive content to mitigate harmful effects. Although sophisticated models perform well on individual datasets, they often fail to generalize due to varying definitions and labeling of "offensive content." In this paper, we introduce HateCOT, an English dataset with over 52,000 samples from diverse sources, featuring explanations generated by GPT-3.5Turbo and curated by humans. We demonstrate that pretraining on HateCOT significantly enhances the performance of open-source Large Language Models on three benchmark datasets for offensive content detection in both zero-shot and few-shot settings, despite differences in domain and task. Additionally, HateCOT facilitates effective K-shot fine-tuning of LLMs with limited data and improves the quality of their explanations, as confirmed by our human evaluation.
翻訳日:2024-06-19 05:17:19 公開日:2024-06-16
# 感情的ミミリー強度予測のための一元的マルチタスクフュージョン

Unimodal Multi-Task Fusion for Emotional Mimicry Intensity Prediction ( http://arxiv.org/abs/2403.11879v4 )

ライセンス: Link先を確認
Tobias Hallmen, Fabian Deuser, Norbert Oswald, Elisabeth André, (参考訳) 本研究では,第6回環境影響行動分析コンペティションの一環として,情緒的不安度(EMI)を評価する新しい手法を提案する。 我々の手法は、広範囲なポッドキャストデータセットで事前訓練されたWav2Vec 2.0アーキテクチャを利用して、言語的およびパラ言語的コンポーネントを含む幅広いオーディオ特徴をキャプチャする。 我々は,個々の特徴をグローバルな平均ベクトルと組み合わせた融合手法を用いて特徴抽出プロセスを洗練し,分析により広い文脈理解を組み込む。 このアプローチの重要な側面は、これらの特徴を利用するだけでなく、事前訓練されたValence-Arousal-Dominance(VAD)モデルも取り入れたマルチタスク融合戦略である。 この統合は、複数の感情次元を同時に処理することで感情強度予測を洗練し、より豊かな文脈理解を私たちのフレームワークに組み込むように設計されている。 音声データの時間的解析には,Long Short-Term Memory (LSTM) ネットワークを利用する。 このアプローチは提供された音声データにのみ依存しており、既存のベースラインに対する顕著な進歩を示し、自然主義的な設定における感情的模倣をより包括的に理解し、EMIチャレンジで2位を達成している。

In this research, we introduce a novel methodology for assessing Emotional Mimicry Intensity (EMI) as part of the 6th Workshop and Competition on Affective Behavior Analysis in-the-wild. Our methodology utilises the Wav2Vec 2.0 architecture, which has been pre-trained on an extensive podcast dataset, to capture a wide array of audio features that include both linguistic and paralinguistic components. We refine our feature extraction process by employing a fusion technique that combines individual features with a global mean vector, thereby embedding a broader contextual understanding into our analysis. A key aspect of our approach is the multi-task fusion strategy that not only leverages these features but also incorporates a pre-trained Valence-Arousal-Dominance (VAD) model. This integration is designed to refine emotion intensity prediction by concurrently processing multiple emotional dimensions, thereby embedding a richer contextual understanding into our framework. For the temporal analysis of audio data, our feature fusion process utilises a Long Short-Term Memory (LSTM) network. This approach, which relies solely on the provided audio data, shows marked advancements over the existing baseline, offering a more comprehensive understanding of emotional mimicry in naturalistic settings, achieving the second place in the EMI challenge.
翻訳日:2024-06-19 05:17:19 公開日:2024-06-16
# JailbreakBench: 大規模言語モデルのジェイルブレークのためのオープンなロバストネスベンチマーク

JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models ( http://arxiv.org/abs/2404.01318v3 )

ライセンス: Link先を確認
Patrick Chao, Edoardo Debenedetti, Alexander Robey, Maksym Andriushchenko, Francesco Croce, Vikash Sehwag, Edgar Dobriban, Nicolas Flammarion, George J. Pappas, Florian Tramer, Hamed Hassani, Eric Wong, (参考訳) ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。 これらの攻撃を評価することは、現在のベンチマークや評価技術が適切に対処していない多くの課題を示す。 第一に、脱獄評価に関する明確な基準はない。 第二に、既存の作業はコストと成功率を相容れない方法で計算します。 そして第3に、多くの著作物は再現不可能で、敵のプロンプトを無視したり、クローズドソースのコードに関わったり、プロプライエタリなAPIの進化に依存している。 これらの課題に対処するために、(1) 最先端の敵対的プロンプトの進化したリポジトリである JailbreakBench 、(2) ジェイルブレイクアーティファクト(jailbreak artifacts)と呼ぶjailbreakデータセット、(2) OpenAI の使用ポリシーに沿う100の動作 - オリジナルとソースの双方 - からなるjailbreakデータセット、(3) https://github.com/JailbreakBench/jailbreakbench で明確に定義された脅威モデル、システムプロンプト、チャットテンプレート、評価機能を含む標準化された評価フレームワーク、(4) https://jailbreakbench.github.io/ 我々は、このベンチマークのリリースによる倫理的影響を慎重に検討し、コミュニティにとってプラスになると考えている。

Jailbreak attacks cause large language models (LLMs) to generate harmful, unethical, or otherwise objectionable content. Evaluating these attacks presents a number of challenges, which the current collection of benchmarks and evaluation techniques do not adequately address. First, there is no clear standard of practice regarding jailbreaking evaluation. Second, existing works compute costs and success rates in incomparable ways. And third, numerous works are not reproducible, as they withhold adversarial prompts, involve closed-source code, or rely on evolving proprietary APIs. To address these challenges, we introduce JailbreakBench, an open-sourced benchmark with the following components: (1) an evolving repository of state-of-the-art adversarial prompts, which we refer to as jailbreak artifacts; (2) a jailbreaking dataset comprising 100 behaviors -- both original and sourced from prior work -- which align with OpenAI's usage policies; (3) a standardized evaluation framework at https://github.com/JailbreakBench/jailbreakbench that includes a clearly defined threat model, system prompts, chat templates, and scoring functions; and (4) a leaderboard at https://jailbreakbench.github.io/ that tracks the performance of attacks and defenses for various LLMs. We have carefully considered the potential ethical implications of releasing this benchmark, and believe that it will be a net positive for the community.
翻訳日:2024-06-19 05:07:34 公開日:2024-06-16
# 大規模言語モデルにおける知識蒸留におけるKulback-Leiblerの多様性の再考

Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models ( http://arxiv.org/abs/2404.02657v2 )

ライセンス: Link先を確認
Taiqiang Wu, Chaofan Tao, Jiahao Wang, Zhe Zhao, Ngai Wong, (参考訳) Kullback-Leiber の発散は、Large Language Models (LLM) の圧縮に知識蒸留 (KD) で広く使われている。 逆のクルバック・リーブラー(英語版)(RKL)の発散はモード探索であり、従って平均探索前方のクルバック・リーブラー(英語版)(FKL)の発散よりも好ましいという以前の主張とは対照的に、本研究では、モード探索および平均探索特性がLLMのKDに現れないことを実証的かつ理論的に示す。 代わりに、RKL と FKL は同じ最適化目標を共有し、どちらも十分な数のエポックの後に収束する。 しかし、実際的な制約のため、LLMはそのような多くのエポックのために訓練されることはめったにない。 一方、RKLは分布の尾部に焦点を当てているのに対し、FKLは最初期の部分に焦点を当てている。 そこで本研究では,FKLとRKLを組み合わせるために重みを適応的に割り当てる,単純で効果的な適応型Kulback-Leiber(AKL)分散法を提案する。 メトリックベースおよびGPT-4に基づく評価は、提案したAKLが様々なタスクにまたがってベースラインを上回り、生成した応答の多様性と品質を向上させることを示す。

Kullback-Leiber divergence has been widely used in Knowledge Distillation (KD) to compress Large Language Models (LLMs). Contrary to prior assertions that reverse Kullback-Leibler (RKL) divergence is mode-seeking and thus preferable over the mean-seeking forward Kullback-Leibler (FKL) divergence, this study empirically and theoretically demonstrates that neither mode-seeking nor mean-seeking properties manifest in KD for LLMs. Instead, RKL and FKL are found to share the same optimization objective and both converge after a sufficient number of epochs. However, due to practical constraints, LLMs are seldom trained for such an extensive number of epochs. Meanwhile, we further find that RKL focuses on the tail part of the distributions, while FKL focuses on the head part at the beginning epochs. Consequently, we propose a simple yet effective Adaptive Kullback-Leiber (AKL) divergence method, which adaptively allocates weights to combine FKL and RKL. Metric-based and GPT-4-based evaluations demonstrate that the proposed AKL outperforms the baselines across various tasks and improves the diversity and quality of generated responses.
翻訳日:2024-06-19 05:07:34 公開日:2024-06-16
# 冷却か冷却か? 温度ネットワークがDROによる大型ファンデーションモデルを発表

To Cool or not to Cool? Temperature Network Meets Large Foundation Models via DRO ( http://arxiv.org/abs/2404.04575v3 )

ライセンス: Link先を確認
Zi-Hao Qiu, Siqi Guo, Mao Xu, Tuo Zhao, Lijun Zhang, Tianbao Yang, (参考訳) 温度パラメータは、大きな言語モデル(LLM)やCLIPモデルのような大きな基礎モデル(LFM)によるトレーニングおよび/または推論において重要な役割を果たす。 特に、次のトークン生成に不可欠であるLSMのソフトマックス関数のロジットを調整し、CLIPモデルのトレーニングにおける対照的な損失の類似性を拡大する。 重要な疑問が残る: LFMを強化するために、入力データのパーソナライズされた温度を予測するためにニューラルネットワークを学ぶことは可能か? 本稿では,小型だが一般化可能な温度予測ネットワーク(TempNet)を学習し,LFMを改善するためのフレームワークを提案する。 提案手法は,制約付き分散ロバスト最適化(DRO)に基づくロバストな損失を持つ新しい学習フレームワークと,理論的なインスピレーションを備えたTempNetから構成される。 TempNetは、スクラッチから大きなファンデーションモデルと一緒にトレーニングするか、事前訓練されたファンデーションモデルから別々に学習することができる。 LFMのトレーニングを促進するためにパーソナライズされた温度を予測するだけでなく、新しいタスクへの一般化と転送も可能である。 LLMとCLIPモデルに関する我々の実験は、TempNetが既存のソリューションやモデルの性能を大幅に改善することを示した。 この論文で実験結果を再現するコードはhttps://github.com/zhqiu/TempNet.comにある。

The temperature parameter plays a profound role during training and/or inference with large foundation models (LFMs) such as large language models (LLMs) and CLIP models. Particularly, it adjusts the logits in the softmax function in LLMs, which is crucial for next token generation, and it scales the similarities in the contrastive loss for training CLIP models. A significant question remains: Is it viable to learn a neural network to predict a personalized temperature of any input data for enhancing LFMs"? In this paper, we present a principled framework for learning a small yet generalizable temperature prediction network (TempNet) to improve LFMs. Our solution is composed of a novel learning framework with a robust loss underpinned by constrained distributionally robust optimization (DRO), and a properly designed TempNet with theoretical inspiration. TempNet can be trained together with a large foundation model from scratch or learned separately given a pretrained foundation model. It is not only useful for predicting personalized temperature to promote the training of LFMs but also generalizable and transferable to new tasks. Our experiments on LLMs and CLIP models demonstrate that TempNet greatly improves the performance of existing solutions or models, e.g. Table 1. The code to reproduce the experimental results in this paper can be found at https://github.com/zhqiu/TempNet.
翻訳日:2024-06-19 05:07:34 公開日:2024-06-16
# 言語モデルにおける文脈と事前知識

Context versus Prior Knowledge in Language Models ( http://arxiv.org/abs/2404.04633v3 )

ライセンス: Link先を確認
Kevin Du, Vésteinn Snæbjarnarson, Niklas Stoehr, Jennifer C. White, Aaron Schein, Ryan Cotterell, (参考訳) 質問に答えるために、言語モデルはしばしば、事前学習中に学んだ事前知識と、文脈で提示された新しい情報を統合する必要がある。 モデルは、トレーニングコーパスの露出が大きいため、より親しみやすいエンティティ(例えば、人、場所など)に関する質問に対する事前の知識に頼り、いくつかのコンテキストによってより容易に説得される、という仮説を立てています。 この問題を定式化するために、あるコンテキストに対するモデルの依存性と、そのエンティティに関する先行性を測定するための2つの相互情報ベースのメトリクスを提案する。 メトリクスの妥当性と信頼性を実証的にテストします。 最後に、スコアとモデルが期待するエンティティとの親和性の関係を調べ、その利点を説明するための2つのユースケースを提供します。

To answer a question, language models often need to integrate prior knowledge learned during pretraining and new information presented in context. We hypothesize that models perform this integration in a predictable way across different questions and contexts: models will rely more on prior knowledge for questions about entities (e.g., persons, places, etc.) that they are more familiar with due to higher exposure in the training corpus, and be more easily persuaded by some contexts than others. To formalize this problem, we propose two mutual information-based metrics to measure a model's dependency on a context and on its prior about an entity: first, the persuasion score of a given context represents how much a model depends on the context in its decision, and second, the susceptibility score of a given entity represents how much the model can be swayed away from its original answer distribution about an entity. We empirically test our metrics for their validity and reliability. Finally, we explore and find a relationship between the scores and the model's expected familiarity with an entity, and provide two use cases to illustrate their benefits.
翻訳日:2024-06-19 05:07:34 公開日:2024-06-16
# PhyloLM : 大規模言語モデルの系統推定とベンチマークにおける性能予測

PhyloLM : Inferring the Phylogeny of Large Language Models and Predicting their Performances in Benchmarks ( http://arxiv.org/abs/2404.04671v3 )

ライセンス: Link先を確認
Nicolas Yax, Pierre-Yves Oudeyer, Stefano Palminteri, (参考訳) 本稿では,系統解析アルゴリズムをLarge Language Models (LLMs) に適用し,それらの相互関係や性能特性の予測方法であるPhyloLMを紹介した。 本手法は, LLMの出力の類似性に基づいて, 系統的距離の指標を算出する。 結果として得られる計量はデンドログラムの構築に使われ、111個のオープンソースと45個のクローズドモデルからなる既知の関係を十分に捉えることができる。 さらに,我々の系統的距離は標準ベンチマークの性能を予測し,その機能的妥当性を実証し,LLM能力の時間的,費用対効果的な評価を行う。 要約すると, 集団遺伝概念を機械学習に翻訳することにより, 透明な学習情報がない場合でも, LLMの発達, 関係, 能力を評価するためのツールを提案し, 検証する。

This paper introduces PhyloLM, a method adapting phylogenetic algorithms to Large Language Models (LLMs) to explore whether and how they relate to each other and to predict their performance characteristics. Our method calculates a phylogenetic distance metrics based on the similarity of LLMs' output. The resulting metric is then used to construct dendrograms, which satisfactorily capture known relationships across a set of 111 open-source and 45 closed models. Furthermore, our phylogenetic distance predicts performance in standard benchmarks, thus demonstrating its functional validity and paving the way for a time and cost-effective estimation of LLM capabilities. To sum up, by translating population genetic concepts to machine learning, we propose and validate a tool to evaluate LLM development, relationships and capabilities, even in the absence of transparent training information.
翻訳日:2024-06-19 05:07:34 公開日:2024-06-16
# インターベンション:非標準テキストへの言語モデルの適用における基礎的ハードルを探る

We're Calling an Intervention: Exploring the Fundamental Hurdles in Adapting Language Models to Nonstandard Text ( http://arxiv.org/abs/2404.07304v2 )

ライセンス: Link先を確認
Aarohi Srivastava, David Chiang, (参考訳) 非標準テキストへの言語モデル適応の根底にある課題を理解するための一連の実験を提示する。 我々は、言語モデルの既存バイアスとの相互作用と、いくつかの種類の言語的変動を近似する介入を設計する。 学習データのサイズや性質の異なる言語モデル適応における介入の適用により、知識伝達がいつ成功するか、そして言語モデルが特に扱うのが困難な言語的変化の側面について重要な洞察を得る。 例えば、文字レベルのバリエーションのあるテキストでは、いくつかのトレーニング例でもパフォーマンスが向上するが、プラトーに近づくと、より多くのデータがソリューションではないことが示唆される。 対照的に、新しい単語や意味を含むバリエーションのあるテキストでは、はるかに多くのデータが必要ですが、パフォーマンスに大きなブレークスルーをもたらします。 以上の結果から,既存のモデルは多種多様な非標準テキストや言語的変化を扱うために必要な基盤が欠如していることが判明した。 我々は、英語のテキストデータに適用可能な介入のためのコードを作成し、公開しています。

We present a suite of experiments that allow us to understand the underlying challenges of language model adaptation to nonstandard text. We do so by designing interventions that approximate several types of linguistic variation and their interactions with existing biases of language models. Applying our interventions during language model adaptation with varying size and nature of training data, we gain important insights into when knowledge transfer can be successful, as well as the aspects of linguistic variation that are particularly difficult for language models to deal with. For instance, on text with character-level variation, performance improves with even a few training examples but approaches a plateau, suggesting that more data is not the solution. In contrast, on text with variation involving new words or meanings, far more data is needed, but it leads to a massive breakthrough in performance. Our findings reveal that existing models lack the necessary infrastructure to handle diverse forms of nonstandard text and linguistic variation, guiding the development of more resilient language modeling techniques for the future. We make the code for our interventions, which can be applied to any English text data, publicly available.
翻訳日:2024-06-19 04:57:50 公開日:2024-06-16
# ChatShop: 言語エージェントによる対話型情報検索

ChatShop: Interactive Information Seeking with Language Agents ( http://arxiv.org/abs/2404.09911v2 )

ライセンス: Link先を確認
Sanxing Chen, Sam Wiseman, Bhuwan Dhingra, (参考訳) 新しい情報を戦略的に求める欲求と能力は、人間の学習の基本であるが、しばしば現在の言語エージェント評価では見落とされがちである。 我々は,言語エージェントが戦略的探索を行う能力をテストし,対話的な情報検索を必要とせず,一ターン検索タスクとして再構成・解決できることを確かめるために設計された,人気のあるWebショッピングタスクを分析した。 この発見は、戦略的情報欲求を必要とする情報アクセスに関する現実的な制約を再考することを促します。 そこで我々は,タスクのあいまいさと買い物客の役割の概念を導入し,エージェントがオープンエンドの会話で戦略的に対話し,情報的意思決定を行う動的パーティーとして機能するタスクを再設計する。 提案課題は,マルチターンインタラクションによってエージェントが情報を探索し,徐々に蓄積する能力を効果的に評価できることを実証した。 さらに、大規模言語モデルを用いた買い物客は、実際の買い物客にとって良い代理となり、エージェントに類似したエラーパターンを明らかにする。

The desire and ability to seek new information strategically are fundamental to human learning but often overlooked in current language agent evaluation. We analyze a popular web shopping task designed to test language agents' ability to perform strategic exploration and discover that it can be reformulated and solved as a single-turn retrieval task without the need for interactive information seeking. This finding encourages us to rethink realistic constraints on information access that would necessitate strategic information seeking. We then redesign the task to introduce a notion of task ambiguity and the role of a shopper, serving as a dynamic party with whom the agent strategically interacts in an open-ended conversation to make informed decisions. Our experiments demonstrate that the proposed task can effectively evaluate the agent's ability to explore and gradually accumulate information through multi-turn interactions. Additionally, we show that large language model-simulated shoppers serve as a good proxy for real human shoppers, revealing similar error patterns in agents.
翻訳日:2024-06-19 04:57:50 公開日:2024-06-16
# LLMにおけるバイアス軽減のフィードバックとしての多変数議論からの強化学習

Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs ( http://arxiv.org/abs/2404.10160v4 )

ライセンス: Link先を確認
Ruoxi Cheng, Haoxuan Ma, Shuirong Cao, Tianyu Shi, (参考訳) LLMのバイアスは、ユーザエクスペリエンスや社会的成果を損なう可能性がある。 RLHFのような現在のバイアス軽減手法は、通常、コストのかかる人間のフィードバックに頼り、他のトピックへの転送可能性に欠け、性能が劣っている。 LLMが生成したコンテンツが生成されていないことを通知し、潜在的なバイアスについて問い合わせると、その認識とバイアスを緩和する能力が大きく向上することがわかった。 そこで我々は,RLDF(Reinforcement Learning from Multi-role Debates as Feedback)を提案する。 RLDFは、複数ロールの議論にLLMを巻き込み、バイアスを露呈し、ランキングスコア機構を使用して各イテレーションにおけるバイアスを徐々に減少させる。 次にダイアログを使用して、高いバイアスと低いバイアスのインスタンスからなるデータセットを作成し、強化学習における報酬モデルをトレーニングする。 このデータセットは、自己回帰のための同一のLLMや、教師学生モードで前者をガイドするAPIのような優れたLLMによって生成される。 異なるLLMおよび種類のバイアスに対する実験結果から, バイアス緩和におけるアプローチの有効性が示唆された。

Biases in LLMs can harm user experience and societal outcomes. Current bias mitigation methods such as RLHF usually rely on costly human feedback, lack transferability to other topics, and show poor performance. We find that informing the LLMs that their generated content is not generated by them and querying about potential biases greatly boosts their awareness and ability to mitigate biases. Based on this, we propose RLDF (Reinforcement Learning from Multi-role Debates as Feedback), replacing human feedback with AI for bias mitigation. RLDF engages LLMs in multi-role debates to expose biases and gradually reduce biases in each iteration using a ranking scoring mechanism. The dialogue are then used to create a dataset composed of both high bias and low bias instances to train the reward model in reinforcement learning. This dataset can be generated by the same LLM for self-reflection or a superior LLM like an API which guides the former one in a teacher-student mode. Experimental results across different LLMs and types of bias show the effectiveness of our approach in bias mitigation.
翻訳日:2024-06-19 04:57:50 公開日:2024-06-16
# 言語全体にわたる大規模言語モデルの多言語性能の定量化

Quantifying Multilingual Performance of Large Language Models Across Languages ( http://arxiv.org/abs/2404.11553v2 )

ライセンス: Link先を確認
Zihao Li, Yucheng Shi, Zirui Liu, Fan Yang, Ali Payani, Ninghao Liu, Mengnan Du, (参考訳) LLM(Large Language Models)の開発は広範なテキストコーパスに依存しており、しばしば言語間で不均一に分散される。 この不均衡により、LLMは英語、ドイツ語、フランス語のような高リソース言語で大幅に性能が向上する一方、低リソース言語の能力は依然として不十分である。 現在、これらの低リソース言語におけるLCMの性能を評価するための定量的手法が欠如している。 このギャップに対処するために、内部表現を用いたLLM性能に基づいて言語をベンチマークしランク付けする固有指標であるLanguage Rankerを提案する。 LLMの内部表現を英語由来のベースラインと比較することにより、頑健で言語に依存しない方法でモデルの多言語能力を評価することができる。 分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低く,言語固有の能力を評価する上での指標の有効性が示唆された。 さらに, 実験の結果, 異なる言語におけるLLMの性能と, 事前学習コーパスにおけるそれらの言語の割合との間には強い相関関係があることが示唆された。 これらの知見は、様々な言語、特に限られたリソースを持つ言語におけるLLMパフォーマンスを評価するツールとして、Language Rankerの有効性を強調している。

The development of Large Language Models (LLMs) relies on extensive text corpora, which are often unevenly distributed across languages. This imbalance results in LLMs performing significantly better on high-resource languages like English, German, and French, while their capabilities in low-resource languages remain inadequate. Currently, there is a lack of quantitative methods to evaluate the performance of LLMs in these low-resource languages. To address this gap, we propose the Language Ranker, an intrinsic metric designed to benchmark and rank languages based on LLM performance using internal representations. By comparing the LLM's internal representation of various languages against a baseline derived from English, we can assess the model's multilingual capabilities in a robust and language-agnostic manner. Our analysis reveals that high-resource languages exhibit higher similarity scores with English, demonstrating superior performance, while low-resource languages show lower similarity scores, underscoring the effectiveness of our metric in assessing language-specific capabilities. Besides, the experiments show that there is a strong correlation between the LLM's performance in different languages and the proportion of those languages in its pre-training corpus. These insights underscore the efficacy of the Language Ranker as a tool for evaluating LLM performance across different languages, particularly those with limited resources.
翻訳日:2024-06-19 04:57:50 公開日:2024-06-16
# PIPER:Hindsight Relabelingによるプリミティブインフォームド推論に基づく階層的強化学習

PIPER: Primitive-Informed Preference-based Hierarchical Reinforcement Learning via Hindsight Relabeling ( http://arxiv.org/abs/2404.13423v2 )

ライセンス: Link先を確認
Utsav Singh, Wesley A. Suttle, Brian M. Sadler, Vinay P. Namboodiri, Amrit Singh Bedi, (参考訳) 本研究では,プライオリティベース学習を応用して報酬モデルを学習する手法であるHindsight Relabelingを用いたPrimitive-Informed Preference-based Hierarchical reinforcement Learning(PIPER)を紹介する。 この報酬は、プリミティブな振る舞いの影響を受けないため、既存の階層的アプローチに共通する非定常性を緩和し、様々な難解なスパース・リワードタスクにおける印象的なパフォーマンスを示すことができる。 人間のフィードバックを得るのは通常実用的ではないため、環境から得られる疎い報酬を用いてフィードバックを生成するプリミティブ・イン・ザ・ループ・アプローチに置き換えることを提案する。 さらに,実現不可能なサブゴール予測を防止し,解の退化を回避するために,より高レベルなポリシーを条件として,低レベルなポリシーのための実行可能なサブゴールを生成するプリミティブインフォームド正規化を提案する。 我々は、PIPERが階層的強化学習において非定常性を緩和し、困難でスパース・リワードなロボット環境において50$\%以上の成功率を達成することを示すための広範な実験を行った。

In this work, we introduce PIPER: Primitive-Informed Preference-based Hierarchical reinforcement learning via Hindsight Relabeling, a novel approach that leverages preference-based learning to learn a reward model, and subsequently uses this reward model to relabel higher-level replay buffers. Since this reward is unaffected by lower primitive behavior, our relabeling-based approach is able to mitigate non-stationarity, which is common in existing hierarchical approaches, and demonstrates impressive performance across a range of challenging sparse-reward tasks. Since obtaining human feedback is typically impractical, we propose to replace the human-in-the-loop approach with our primitive-in-the-loop approach, which generates feedback using sparse rewards provided by the environment. Moreover, in order to prevent infeasible subgoal prediction and avoid degenerate solutions, we propose primitive-informed regularization that conditions higher-level policies to generate feasible subgoals for lower-level policies. We perform extensive experiments to show that PIPER mitigates non-stationarity in hierarchical reinforcement learning and achieves greater than 50$\%$ success rates in challenging, sparse-reward robotic environments, where most other baselines fail to achieve any significant progress.
翻訳日:2024-06-19 04:48:05 公開日:2024-06-16
# 「良い言葉は自分自身の言葉である」:大言語モデルは修道女を理解できるか?

"A good pun is its own reword": Can Large Language Models Understand Puns? ( http://arxiv.org/abs/2404.13599v2 )

ライセンス: Link先を確認
Zhijun Xu, Siyu Yuan, Lingjie Chen, Deqing Yang, (参考訳) 修道女は、言語学のユーモアを包括的に分析する上で、その構造と明確な定義から、学術研究において重要な役割を担っている。 しかし、大きな言語モデル(LLM)における句の理解は、創造的な文章やユーモアの創造においての使用を制限する、徹底的に検討されていない。 本稿では,句認識,説明,生成という3つの一般的な課題を活用し,句理解におけるLLMの能力を体系的に評価する。 先行研究から自動評価指標を採用することに加えて,LLMの文脈内学習パラダイムに適合する新しい評価手法と評価指標を導入する。 これらの新しい指標は、従来の指標よりも人間の認知とより緊密に一致し、句を理解するLLMの能力をより厳密に評価する。 以上の結果から,LLMがパント理解に直面する主な課題は,「怠慢なパント生成」パターンであることが明らかとなった。

Puns play a vital role in academic research due to their distinct structure and clear definition, which aid in the comprehensive analysis of linguistic humor. However, the understanding of puns in large language models (LLMs) has not been thoroughly examined, limiting their use in creative writing and humor creation. In this paper, we leverage three popular tasks, i.e., pun recognition, explanation and generation to systematically evaluate the capabilities of LLMs in pun understanding. In addition to adopting the automated evaluation metrics from prior research, we introduce new evaluation methods and metrics that are better suited to the in-context learning paradigm of LLMs. These new metrics offer a more rigorous assessment of an LLM's ability to understand puns and align more closely with human cognition than previous metrics. Our findings reveal the "lazy pun generation" pattern and identify the primary challenges LLMs encounter in understanding puns.
翻訳日:2024-06-19 04:48:05 公開日:2024-06-16
# 知識選択と質問応答のための自己起動型ビジュアルランゲージモデル

Self-Bootstrapped Visual-Language Model for Knowledge Selection and Question Answering ( http://arxiv.org/abs/2404.13947v2 )

ライセンス: Link先を確認
Dongze Hao, Qunbo Wang, Longteng Guo, Jie Jiang, Jing Liu, (参考訳) 大規模な事前学習された視覚言語モデルは、従来の視覚的質問応答ベンチマークにおいて有望な結果を示しているが、多種多様な世界知識を必要とする複雑なVQA問題に答えることは依然として困難である。 自然言語処理の分野での検索強化生成の研究に動機付けられ,Dense Passage Retrieval (DPR) を用いて関連する知識を検索し,モデルが疑問に答える手助けをする。 しかし、DPRは自然言語空間における検索を行うため、画像情報の総合的な取得は保証されない可能性がある。 したがって、検索した知識は、システム全体の性能に影響を及ぼすことなく、その質問に答えるのに役立っているわけではない。 この問題に対処するために,視覚言語モデルを利用してDPRが検索した重要な知識を選択し,質問に答える新しいフレームワークを提案する。 Selector と Answerer は2つのモジュールから構成される: Selector と Answerer は、MLLM によって初期化され、自己ブートストラップによってパラメータ非効率に微調整される: Selector を使って検索した知識文書のキー知識を見つけ、Answerer を微調整して回答を予測する。 我々のフレームワークは、挑戦的なオープンドメイン知識ベースのVQAベンチマークであるOK-VQAのベースラインの性能を大幅に向上させ、62.83\%の最先端精度を実現する。

While large pre-trained visual-language models have shown promising results on traditional visual question answering benchmarks, it is still challenging for them to answer complex VQA problems which requires diverse world knowledge. Motivated by the research of retrieval-augmented generation in the field of natural language processing, we use Dense Passage Retrieval (DPR) to retrieve related knowledge to help the model answer questions. However, DPR conduct retrieving in natural language space, which may not ensure comprehensive acquisition of image information. Thus, the retrieved knowledge is not truly conducive to helping answer the question, affecting the performance of the overall system. To address this issue, we propose a novel framework that leverages the visual-language model to select the key knowledge retrieved by DPR and answer questions. The framework consists of two modules: Selector and Answerer, where both are initialized by the MLLM and parameter-efficiently finetuned by self-bootstrapping: find key knowledge in the retrieved knowledge documents using the Selector, and then use them to finetune the Answerer to predict answers; obtain the pseudo-labels of key knowledge documents based on the predictions of the Answerer and weak supervision labels, and then finetune the Selector to select key knowledge; repeat. Our framework significantly enhances the performance of the baseline on the challenging open-domain Knowledge-based VQA benchmark, OK-VQA, achieving a state-of-the-art accuracy of 62.83\%.
翻訳日:2024-06-19 04:48:05 公開日:2024-06-16
# Bayesian Example Selectionは、音声、テキスト、視覚のモーダリティに対する文脈学習を改善する

Bayesian Example Selection Improves In-Context Learning for Speech, Text, and Visual Modalities ( http://arxiv.org/abs/2404.14716v2 )

ライセンス: Link先を確認
Siyin Wang, Chao-Han Huck Yang, Ji Wu, Chao Zhang, (参考訳) 大規模言語モデル(LLM)は、モデルパラメータを更新せずに対話履歴に提示されたいくつかの例に基づいて、コンテキスト内学習(ICL)を通じて新しいタスクに適応することができる。 このような利便性にもかかわらず、ICLの性能は、提示されるコンテキスト内例の品質に大きく依存しているため、コンテキスト内例選択が重要な選択となる。 本稿では,ICLのための新しいベイジアン・イン・コンテクスト・サンプル・セレクション法(ByCS)を提案する。 ベイズの定理に基づいて、文脈内例に基づいて条件付き推論確率を拡張することで、ByCSはテスト入力に条件付き逆推論に焦点を当てる。 正確な逆推論確率 (likelihood) が正確な推論確率 (posterior) をもたらすという仮定の後、その逆推論結果に基づいて、文脈内例が選択される。 音声、テキスト、画像の例を用いて、多種多様なクロスタスキングおよびクロスモーダルな実験を行う。 実験により, 各種モデル, タスク, モダリティに対するBYCS法の有効性とロバスト性を示した。

Large language models (LLMs) can adapt to new tasks through in-context learning (ICL) based on a few examples presented in dialogue history without any model parameter update. Despite such convenience, the performance of ICL heavily depends on the quality of the in-context examples presented, which makes the in-context example selection approach a critical choice. This paper proposes a novel Bayesian in-Context example Selection method (ByCS) for ICL. Extending the inference probability conditioned on in-context examples based on Bayes' theorem, ByCS focuses on the inverse inference conditioned on test input. Following the assumption that accurate inverse inference probability (likelihood) will result in accurate inference probability (posterior), in-context examples are selected based on their inverse inference results. Diverse and extensive cross-tasking and cross-modality experiments are performed with speech, text, and image examples. Experimental results show the efficacy and robustness of our ByCS method on various models, tasks and modalities.
翻訳日:2024-06-19 04:48:05 公開日:2024-06-16
# 大規模言語モデルの時間スケーリング法則

Temporal Scaling Law for Large Language Models ( http://arxiv.org/abs/2404.17785v2 )

ライセンス: Link先を確認
Yizhe Xiong, Xiansheng Chen, Xin Ye, Hui Chen, Zijia Lin, Haoran Lian, Zhenpeng Su, Jianwei Niu, Guiguang Ding, (参考訳) 近年、LLM(Large Language Models)は幅広いタスクで広く採用されており、LLMのスケーリングがパフォーマンスに与える影響についての研究に注目が集まっている。 既存のScaling Lawsと呼ばれる研究は、LLMの最終的なテスト損失が、モデルサイズ、計算予算、データセットサイズを備えたパワーローとしてスケールすることを発見した。 しかしながら、LLMの事前学習過程におけるテスト損失の時間的変化は、まだ解明されていないが、ターゲットのLLM上でより良いハイパーパラメータを選択できるなど、多くの面で有用である。 本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,テンポラルスケーリング法の概念を提案する。 粗い粒度でテスト損失全体をモデル化するのとは対照的に、我々はそれを分解して各トークン位置のきめ細かいテスト損失に潜り込み、さらに動的な双曲型法則を発達させます。 その後、動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。 In-distriion (ID) と Out-of-distriion (OOD) の2つの検証データセットの結果は、我々の時間的スケーリング法則がトレーニングステップ間のLCMのテスト損失を正確に予測していることを示している。 我々の時間的スケーリング法は幅広い応用がある。 まず、データ混合比率などの目標LLMに対して、直接的かつ効率的なハイパーパラメータ選択を可能にする。 第二に、トークン位置の粒度からLLM事前学習のダイナミクスを見ることは、LLM事前学習の理解を深めるための洞察を与える。

Recently, Large Language Models (LLMs) have been widely adopted in a wide range of tasks, leading to increasing attention towards the research on how scaling LLMs affects their performance. Existing works, termed Scaling Laws, have discovered that the final test loss of LLMs scales as power-laws with model size, computational budget, and dataset size. However, the temporal change of the test loss of an LLM throughout its pre-training process remains unexplored, though it is valuable in many aspects, such as selecting better hyperparameters \textit{directly} on the target LLM. In this paper, we propose the novel concept of Temporal Scaling Law, studying how the test loss of an LLM evolves as the training steps scale up. In contrast to modeling the test loss as a whole in a coarse-grained manner, we break it down and dive into the fine-grained test loss of each token position, and further develop a dynamic hyperbolic-law. Afterwards, we derive the much more precise temporal scaling law by studying the temporal patterns of the parameters in the dynamic hyperbolic-law. Results on both in-distribution (ID) and out-of-distribution (OOD) validation datasets demonstrate that our temporal scaling law accurately predicts the test loss of LLMs across training steps. Our temporal scaling law has broad practical applications. First, it enables direct and efficient hyperparameter selection on the target LLM, such as data mixture proportions. Secondly, viewing the LLM pre-training dynamics from the token position granularity provides some insights to enhance the understanding of LLM pre-training.
翻訳日:2024-06-19 04:48:05 公開日:2024-06-16
# 量子ネットワークにおけるGHZ状態分布のための簡易損失耐性プロトコル

Simple loss-tolerant protocol for GHZ-state distribution in a quantum network ( http://arxiv.org/abs/2404.19458v3 )

ライセンス: Link先を確認
Hikaru Shimizu, Wojciech Roga, David Elkouss, Masahiro Takeoka, (参考訳) 分散量子絡み合いは、量子デバイスを接続するネットワークの実現において重要な役割を果たす。 しかし、光子による遠方のノード間の絡み合いの共有は、リンクチャネルの避けられない損失のため、第一に難しいプロセスである。 本稿ではGreenberger-Horne-Zeilinger状態分布に対する単純な損失耐性プロトコルを提案する。 本研究では, 実測可能な実験条件下での分布速度を解析し, 直接伝送に対する速度損失スケーリングの利点を実証する。 我々のプロトコルは量子リピータを使用しず、現在の量子光学技術で実現可能である。 その結果、カンファレンスキーの合意や分散センシングといったタスクに直接適用できます。 さらに、表面符号のような分散量子誤り訂正符号の実装の要件を小さくする。

Distributed quantum entanglement plays a crucial role in realizing networks that connect quantum devices. However, sharing entanglement between distant nodes by means of photons is a challenging process primary due to unavoidable losses in the linking channels. In this paper, we propose a simple loss-tolerant protocol for the Greenberger-Horne-Zeilinger state distribution. We analyze the distribution rate under feasible experimental conditions and demonstrate the advantages of rate-loss scaling with respect to direct transmission. Our protocol does not use quantum repeaters and is achievable with current quantum optics technology. The result has direct application to tasks such as conference key agreement or distributed sensing. Moreover, it reduces the requirements for implementing distributed quantum error correction codes such as the surface code.
翻訳日:2024-06-19 04:48:05 公開日:2024-06-16
# Kan: Kolmogorov-Arnold Networks

KAN: Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2404.19756v4 )

ライセンス: Link先を確認
Ziming Liu, Yixuan Wang, Sachin Vaidya, Fabian Ruehle, James Halverson, Marin Soljačić, Thomas Y. Hou, Max Tegmark, (参考訳) コルモゴロフ・アルノルド表現定理に着想を得て、多層受容器(MLP)の代替としてコルモゴロフ・アルノルドネットワーク(KAN)を提案する。 MLPはノード(ニューロン)上で一定の活性化関数を持つが、Kanはエッジ(重み)上で学習可能な活性化関数を持つ。 カンは線形重みを全く持たず、全ての重みパラメータはスプラインとしてパラメータ化された単変量関数に置き換えられる。 この一見単純な変化により、KANSA は精度と解釈可能性において MLP を上回ります。 正確性のために、より小さなkanは、データフィッティングやPDE解決において、はるかに大きなMLPよりも同等またはより良い精度を達成することができる。 理論上、実証上、カンはMLPよりも高速なニューラルスケーリング法則を持っている。 解釈可能性のために、KANSAは直感的に視覚化でき、人間のユーザと簡単に対話できる。 数学と物理学の2つの例を通して、カンは科学者が数学的および物理的法則を発見(再発見)するのに有用な協力者であることが示されている。 要約すると、KansはMLPの代替として有望であり、MDPに大きく依存する今日のディープラーニングモデルをさらに改善する機会を開く。

Inspired by the Kolmogorov-Arnold representation theorem, we propose Kolmogorov-Arnold Networks (KANs) as promising alternatives to Multi-Layer Perceptrons (MLPs). While MLPs have fixed activation functions on nodes ("neurons"), KANs have learnable activation functions on edges ("weights"). KANs have no linear weights at all -- every weight parameter is replaced by a univariate function parametrized as a spline. We show that this seemingly simple change makes KANs outperform MLPs in terms of accuracy and interpretability. For accuracy, much smaller KANs can achieve comparable or better accuracy than much larger MLPs in data fitting and PDE solving. Theoretically and empirically, KANs possess faster neural scaling laws than MLPs. For interpretability, KANs can be intuitively visualized and can easily interact with human users. Through two examples in mathematics and physics, KANs are shown to be useful collaborators helping scientists (re)discover mathematical and physical laws. In summary, KANs are promising alternatives for MLPs, opening opportunities for further improving today's deep learning models which rely heavily on MLPs.
翻訳日:2024-06-19 04:48:05 公開日:2024-06-16
# 単一イベント抽出を超えて: 効率的な文書レベルマルチイベント引数抽出を目指して

Beyond Single-Event Extraction: Towards Efficient Document-Level Multi-Event Argument Extraction ( http://arxiv.org/abs/2405.01884v2 )

ライセンス: Link先を確認
Wanlong Liu, Li Zhou, Dingyi Zeng, Yichen Xiao, Shaohuan Cheng, Chen Zhang, Grandee Lee, Malu Zhang, Wenyu Chen, (参考訳) 最近の主流のイベント引数抽出法は、各イベントを分離して処理し、非効率な推論を行い、複数のイベント間の相関を無視する。 これらの制約に対処するために,文書内のすべてのイベントから引数を抽出可能な多値引数抽出モデルDEEIA(Dependency-guided Encoding and Event-specific Information Aggregation)を提案する。 DEモジュールはプロンプトとそれに対応するイベントコンテキストの相関性を改善するために設計されており、EIAモジュールはコンテキスト理解を改善するためにイベント固有の情報を提供する。 実験の結果,提案手法は4つの公開データセット(RAMS, WikiEvents, MLEE, ACE05)に対して新たな最先端性能を実現するとともに,ベースラインと比較して推論時間を著しく短縮することがわかった。 さらに解析を行い,提案手法の有効性を示した。

Recent mainstream event argument extraction methods process each event in isolation, resulting in inefficient inference and ignoring the correlations among multiple events. To address these limitations, here we propose a multiple-event argument extraction model DEEIA (Dependency-guided Encoding and Event-specific Information Aggregation), capable of extracting arguments from all events within a document simultaneouslyThe proposed DEEIA model employs a multi-event prompt mechanism, comprising DE and EIA modules. The DE module is designed to improve the correlation between prompts and their corresponding event contexts, whereas the EIA module provides event-specific information to improve contextual understanding. Extensive experiments show that our method achieves new state-of-the-art performance on four public datasets (RAMS, WikiEvents, MLEE, and ACE05), while significantly saving the inference time compared to the baselines. Further analyses demonstrate the effectiveness of the proposed modules.
翻訳日:2024-06-19 04:38:09 公開日:2024-06-16
# GMP-TL: 音声感情認識のためのジェンダー強化マルチスケールPseudo-label拡張トランスファーラーニング

GMP-TL: Gender-augmented Multi-scale Pseudo-label Enhanced Transfer Learning for Speech Emotion Recognition ( http://arxiv.org/abs/2405.02151v2 )

ライセンス: Link先を確認
Yu Pan, Yuguang Yang, Heng Lu, Lei Ma, Jianjun Zhao, (参考訳) 事前訓練された音声モデルの継続的な進化は、非常に進んだ音声感情認識(SER)を持つ。 しかし、現在の研究は通常、発話レベルの感情ラベルに依存しており、単一の発話内での感情の複雑さを適切に捉えていない。 本稿では,ジェンダー強化型マルチスケール擬似ラベル(GMP)に基づくトランスファー学習を用いて,このギャップを緩和する新しいSERフレームワークであるGMP-TLを紹介する。 具体的には、GMP-TLは当初、訓練済みの HuBERT を使用しており、フレームレベルの GMP を取得するためにマルチタスク学習とマルチスケールk平均クラスタリングを実装している。 その後,フレームレベルのGMPと発話レベルの感情ラベルをフル活用するために,GMP-TLをさらに最適化するための2段階モデル微調整手法を提案する。 IEMOCAPの実験では、GMP-TLは80.0%、UARは82.0%に達し、最先端のユニモーダルSER法よりも優れた性能を示し、マルチモーダルSER法に匹敵する結果を得た。

The continuous evolution of pre-trained speech models has greatly advanced Speech Emotion Recognition (SER). However, current research typically relies on utterance-level emotion labels, inadequately capturing the complexity of emotions within a single utterance. In this paper, we introduce GMP-TL, a novel SER framework that employs gender-augmented multi-scale pseudo-label (GMP) based transfer learning to mitigate this gap. Specifically, GMP-TL initially uses the pre-trained HuBERT, implementing multi-task learning and multi-scale k-means clustering to acquire frame-level GMPs. Subsequently, to fully leverage frame-level GMPs and utterance-level emotion labels, a two-stage model fine-tuning approach is presented to further optimize GMP-TL. Experiments on IEMOCAP show that our GMP-TL attains a WAR of 80.0% and an UAR of 82.0%, achieving superior performance compared to state-of-the-art unimodal SER methods while also yielding comparable results to multimodal SER approaches.
翻訳日:2024-06-19 04:38:09 公開日:2024-06-16
# ロバストWebフィッシング検出のための注意型分類器を用いたフェデレーション連続学習ノードの有効性の探索:実証的研究

Exploring the Efficacy of Federated-Continual Learning Nodes with Attention-Based Classifier for Robust Web Phishing Detection: An Empirical Investigation ( http://arxiv.org/abs/2405.03537v2 )

ライセンス: Link先を確認
Jesher Joshua M, Adhithya R, Sree Dananjay S, M Revathi, (参考訳) Webフィッシングは動的脅威となり、検出システムが最新の戦術に迅速に適応する必要がある。 データを蓄積する従来のアプローチや、定期的にリトレーニングするモデルは、より多くなっています。 本研究では,フェデレーション学習と連続学習を組み合わせた新しいパラダイムを提案し,分散ノードが新たなフィッシングデータのストリーム上で,データを蓄積することなくモデルを継続的に更新することを可能にする。 これらのローカル適応モデルは、フェデレーション学習を通じて中央サーバに集約される。 検出性を高めるために,Webフィッシングに特化して,複雑なフィッシングパターンをキャプチャするための注意機構を活用する,残差接続を持つカスタムアテンションベース分類器モデルを導入する。 実験的な調査を通じて,連続学習戦略(累積学習,リプレイ学習,MIR学習,LwF学習)とモデルアーキテクチャのハイブリッド学習パラダイムを評価する。 本研究の主な貢献は,(1)ロバストなWebフィッシング検出のための新たなハイブリッド・フェデレーション・コンチネンタル学習パラダイム,(2)このタスクのために明示的に設計された新しい注意・残差接続ベースモデル,(2)精度0.93,精度0.90,リコール0.96,f1スコアのLwF戦略により達成され,過去の知識を維持しながらフィッシングの脅威を検出する従来のアプローチよりも優れていた。

Web phishing poses a dynamic threat, requiring detection systems to quickly adapt to the latest tactics. Traditional approaches of accumulating data and periodically retraining models are outpaced. We propose a novel paradigm combining federated learning and continual learning, enabling distributed nodes to continually update models on streams of new phishing data, without accumulating data. These locally adapted models are then aggregated at a central server via federated learning. To enhance detection, we introduce a custom attention-based classifier model with residual connections, tailored for web phishing, leveraging attention mechanisms to capture intricate phishing patterns. We evaluate our hybrid learning paradigm across continual learning strategies (cumulative, replay, MIR, LwF) and model architectures through an empirical investigation. Our main contributions are: (1) a new hybrid federated-continual learning paradigm for robust web phishing detection, and (2) a novel attention + residual connections based model explicitly designed for this task, attaining 0.93 accuracy, 0.90 precision, 0.96 recall and 0.93 f1-score with the LwF strategy, outperforming traditional approaches in detecting emerging phishing threats while retaining past knowledge.
翻訳日:2024-06-19 04:38:09 公開日:2024-06-16
# PPFlow:ねじり流マッチングによるターゲット認識ペプチド設計

PPFlow: Target-aware Peptide Design with Torsional Flow Matching ( http://arxiv.org/abs/2405.06642v3 )

ライセンス: Link先を確認
Haitao Lin, Odin Zhang, Huifeng Zhao, Dejun Jiang, Lirong Wu, Zicheng Liu, Yufei Huang, Stan Z. Li, (参考訳) 治療ペプチドは、ここ数十年で大きな医薬品的価値と可能性があることが証明されている。 しかし、AIによるペプチド薬の発見の方法は、完全には研究されていない。 このギャップを埋めるために, トーラス多様体上の条件流マッチングに基づくターゲット認識型ペプチド設計法である「textsc{PPFlow}」を提案し, ペプチド構造設計のためのねじれ角の内部ジオメトリをモデル化した。 さらに, PPBench2024というタンパク質-ペプチド結合データセットを構築し, 構造に基づくペプチド医薬品設計の課題において, 大量データの空白を充足し, 深層学習法の訓練を可能にする。 広汎な実験によりPPFlowは、ペプチド薬の生成および最適化のタスクにおいて、ベースラインモデルと比較して最先端のパフォーマンスに達し、ドッキングやサイドチェーンパッキングといった他のタスクに一般化できることが示された。

Therapeutic peptides have proven to have great pharmaceutical value and potential in recent decades. However, methods of AI-assisted peptide drug discovery are not fully explored. To fill the gap, we propose a target-aware peptide design method called \textsc{PPFlow}, based on conditional flow matching on torus manifolds, to model the internal geometries of torsion angles for the peptide structure design. Besides, we establish a protein-peptide binding dataset named PPBench2024 to fill the void of massive data for the task of structure-based peptide drug design and to allow the training of deep learning methods. Extensive experiments show that PPFlow reaches state-of-the-art performance in tasks of peptide drug generation and optimization in comparison with baseline models, and can be generalized to other tasks including docking and side-chain packing.
翻訳日:2024-06-19 04:38:09 公開日:2024-06-16
# 不確実性評価を用いたモデルフリー予測

Model Free Prediction with Uncertainty Assessment ( http://arxiv.org/abs/2405.12684v3 )

ライセンス: Link先を確認
Yuling Jiao, Lican Kang, Jin Liu, Heng Peng, Heng Zuo, (参考訳) 近年,目的関数を学習するためのディープニューラルネットワークの利用を特徴とするディープ非パラメトリック回帰が,研究の焦点となっている。 理解収束率のかなりの進歩にもかかわらず、漸近性の欠如は厳密な統計的推測を妨げる。 このギャップに対処するため, 条件付き平均推定を行うプラットフォームに, 条件付き拡散モデルを活用して, 深い推定パラダイムを変換する新しいフレームワークを提案する。 理論的には,条件付き拡散モデルのための終端収束率を開発し,生成したサンプルの漸近正規性を確立する。 その結果,信頼性領域の構築が可能となり,統計的に頑健な推測が可能となった。 さらに,数値実験により提案手法の有効性を実証的に検証した。

Deep nonparametric regression, characterized by the utilization of deep neural networks to learn target functions, has emerged as a focus of research attention in recent years. Despite considerable progress in understanding convergence rates, the absence of asymptotic properties hinders rigorous statistical inference. To address this gap, we propose a novel framework that transforms the deep estimation paradigm into a platform conducive to conditional mean estimation, leveraging the conditional diffusion model. Theoretically, we develop an end-to-end convergence rate for the conditional diffusion model and establish the asymptotic normality of the generated samples. Consequently, we are equipped to construct confidence regions, facilitating robust statistical inference. Furthermore, through numerical experiments, we empirically validate the efficacy of our proposed methodology.
翻訳日:2024-06-19 04:28:22 公開日:2024-06-16
# StarLKNet:パームベイン同定のための大型カーネルネットワークとスターミキシング

StarLKNet: Star Mixup with Large Kernel Networks for Palm Vein Identification ( http://arxiv.org/abs/2405.12721v2 )

ライセンス: Link先を確認
Xin Jin, Hongyu Zhu, Mounîm A. El Yacoubi, Hongchao Liao, Huafeng Qin, Yun Jiang, (参考訳) 新世代のバイオメトリックスの代表として、静脈識別技術は高いレベルのセキュリティと利便性を提供する。 深層学習アーキテクチャの著名なクラスである畳み込みニューラルネットワーク(CNN)は静脈の同定に広く利用されている。 その性能と堅牢性は、小さな有効受容場(例えば3$\times$3カーネル)と不十分なトレーニングサンプルによって制限されているため、静脈画像からグローバルな特徴表現を効果的に抽出することはできない。 これらの問題に対処するために,大規模なカーネル畳み込みに基づくパームベイン識別ネットワークであるStarLKNetを提案する。 我々のStarMixは、静脈の特徴の分布を効果的に学習し、サンプルを拡張する。 CNNがパームベイン画像から包括的特徴表現をキャプチャできるようにするため、パームベイン識別ネットワークの性能に及ぼす畳み込みカーネルサイズの影響を調査し、大規模なカーネル畳み込みとゲーティング機構を利用したネットワークであるLaKNetを設計した。 知識の現在の状況を踏まえると、これは静脈識別の領域で大きなカーネルを持つCNNをデプロイする最初の例である。 2つの公開パームベインデータセット上でのStarLKNetの性能を検証するために、大規模な実験を行った。 結果は、StarMixがより優れた拡張を提供し、LakNetは主流のアプローチよりも安定したパフォーマンス向上を示し、高い認識精度と最小の識別誤差をもたらすことを示した。

As a representative of a new generation of biometrics, vein identification technology offers a high level of security and convenience. Convolutional neural networks (CNNs), a prominent class of deep learning architectures, have been extensively utilized for vein identification. Since their performance and robustness are limited by small Effective Receptive Fields (e.g. 3$\times$3 kernels) and insufficient training samples, however, they are unable to extract global feature representations from vein images in an effective manner. To address these issues, we propose StarLKNet, a large kernel convolution-based palm-vein identification network, with the Mixup approach. Our StarMix learns effectively the distribution of vein features to expand samples. To enable CNNs to capture comprehensive feature representations from palm-vein images, we explored the effect of convolutional kernel size on the performance of palm-vein identification networks and designed LaKNet, a network leveraging large kernel convolution and gating mechanism. In light of the current state of knowledge, this represents an inaugural instance of the deployment of a CNN with large kernels in the domain of vein identification. Extensive experiments were conducted to validate the performance of StarLKNet on two public palm-vein datasets. The results demonstrated that StarMix provided superior augmentation, and LakNet exhibited more stable performance gains compared to mainstream approaches, resulting in the highest recognition accuracy and lowest identification error.
翻訳日:2024-06-19 04:28:22 公開日:2024-06-16
# 簡単に言い換えなさい!複数のリフレーズクエリによるクローズドソース言語モデルの不確かさ推定

Just rephrase it! Uncertainty estimation in closed-source language models via multiple rephrased queries ( http://arxiv.org/abs/2405.13907v2 )

ライセンス: Link先を確認
Adam Yang, Chen Chen, Konstantinos Pitas, (参考訳) 最先端の大規模言語モデルは、時にはオープンソースソフトウェアとして配布されるが、クローズド・ソース・サービスとして提供されることも多い。 これらのクローズドソースの大規模言語モデルは一般に最も広く使われているが、クエリに応答する際の不確かさを見積もらないことが多い。 最高のモデルでさえ、信頼度の高い偽情報を‘ハロシン化’する傾向にあるため、信頼性の高い不確実性評価の欠如は、これらのモデルの適用性をクリティカルな設定で制限する。 本稿では,元となるベースクエリの複数の言い換えにより,クローズドソース LLM の不確かさを推定する。 具体的には、モデルを複数の言い換えた質問に問うとともに、解の類似性を不確実性の推定として利用する。 私たちは以前の仕事から分岐する 一 暗記し、実際に使用するのが簡単である言い換えの規則 二 複数のリフレッシュクエリがキャリブレーションされた不確実性推定値を取得する理由に関する理論的枠組みを提案すること。 提案手法は, ベースラインと比較して不確実性推定のキャリブレーションを著しく改善し, 最適なテストキャリブレーションのためのクエリ戦略の設計方法に関する直観を提供する。

State-of-the-art large language models are sometimes distributed as open-source software but are also increasingly provided as a closed-source service. These closed-source large-language models typically see the widest usage by the public, however, they often do not provide an estimate of their uncertainty when responding to queries. As even the best models are prone to ``hallucinating" false information with high confidence, a lack of a reliable estimate of uncertainty limits the applicability of these models in critical settings. We explore estimating the uncertainty of closed-source LLMs via multiple rephrasings of an original base query. Specifically, we ask the model, multiple rephrased questions, and use the similarity of the answers as an estimate of uncertainty. We diverge from previous work in i) providing rules for rephrasing that are simple to memorize and use in practice ii) proposing a theoretical framework for why multiple rephrased queries obtain calibrated uncertainty estimates. Our method demonstrates significant improvements in the calibration of uncertainty estimates compared to the baseline and provides intuition as to how query strategies should be designed for optimal test calibration.
翻訳日:2024-06-19 04:28:22 公開日:2024-06-16
# エントロピーレギュレータを用いた拡散アクタ臨界

Diffusion Actor-Critic with Entropy Regulator ( http://arxiv.org/abs/2405.15177v3 )

ライセンス: Link先を確認
Yinuo Wang, Likun Wang, Yuxuan Jiang, Wenjun Zou, Tong Liu, Xujie Song, Wenxuan Wang, Liming Xiao, Jiang Wu, Jingliang Duan, Shengbo Eben Li, (参考訳) 強化学習(Reinforcement Learning, RL)は、複雑な意思決定や制御タスクに対処する上で非常に効果的であることが証明されている。 しかしながら、ほとんどの伝統的なRLアルゴリズムでは、このポリシーは一般的に、学習平均と分散を持つ対角的なガウス分布としてパラメータ化され、複雑なポリシーを取得する能力を制限する。 この問題に対して,エントロピー・レギュレータ(DACER)を用いた拡散アクタ・クリティックというオンラインRLアルゴリズムを提案する。 このアルゴリズムは、拡散モデルの逆過程を新しいポリシー関数として概念化し、拡散モデルの能力を多モード分布に適合させ、ポリシーの表現能力を高める。 拡散政策の分布は解析的な表現を欠いているため、そのエントロピーは解析的に決定できない。 これを軽減するために,ガウス混合モデルを用いて拡散政策のエントロピーを推定する手法を提案する。 推定エントロピーに基づいて、探索と搾取の程度を調節するパラメータ $\alpha$ を学ぶことができる。 パラメータ$\alpha$は、拡散モデルによって出力されるアクションに適用される付加ノイズの分散を適応的に調節するために使用される。 MuJoCo ベンチマークとマルチモーダルタスクの実験実験により,DACER アルゴリズムがほとんどの MuJoCo 制御タスクにおける最先端 (SOTA) 性能を実現し,拡散ポリシの表現能力が向上することを示した。

Reinforcement learning (RL) has proven highly effective in addressing complex decision-making and control tasks. However, in most traditional RL algorithms, the policy is typically parameterized as a diagonal Gaussian distribution with learned mean and variance, which constrains their capability to acquire complex policies. In response to this problem, we propose an online RL algorithm termed diffusion actor-critic with entropy regulator (DACER). This algorithm conceptualizes the reverse process of the diffusion model as a novel policy function and leverages the capability of the diffusion model to fit multimodal distributions, thereby enhancing the representational capacity of the policy. Since the distribution of the diffusion policy lacks an analytical expression, its entropy cannot be determined analytically. To mitigate this, we propose a method to estimate the entropy of the diffusion policy utilizing Gaussian mixture model. Building on the estimated entropy, we can learn a parameter $\alpha$ that modulates the degree of exploration and exploitation. Parameter $\alpha$ will be employed to adaptively regulate the variance of the added noise, which is applied to the action output by the diffusion model. Experimental trials on MuJoCo benchmarks and a multimodal task demonstrate that the DACER algorithm achieves state-of-the-art (SOTA) performance in most MuJoCo control tasks while exhibiting a stronger representational capacity of the diffusion policy.
翻訳日:2024-06-19 04:28:22 公開日:2024-06-16
# PoinTramba: ポイントクラウド分析のためのハイブリッドトランスフォーマー-マンバフレームワーク

PoinTramba: A Hybrid Transformer-Mamba Framework for Point Cloud Analysis ( http://arxiv.org/abs/2405.15463v2 )

ライセンス: Link先を確認
Zicheng Wang, Zhenghao Chen, Yiming Wu, Zhen Zhao, Luping Zhou, Dong Xu, (参考訳) ポイントクラウド分析では、ディープラーニングによる大幅な進歩が見られるが、従来のTransformerベースの手法では、このタスクに対する長距離依存のモデリングが優れているが、その計算要求は相当に大きい。 逆に、Mambaはより効率が良いが、Transformerベースの方法に比べてポテンシャルは限られている。 本研究では,PinTrambaについて紹介する。PoinTrambaはTransformerの分析能力とMambaの卓越した計算効率を相乗化して,点群解析を高速化するハイブリッドフレームワークである。 具体的には、まずクラウドをグループに分割し、そこでTransformerは複雑なグループ間の依存関係を正確にキャプチャし、グループ間関係を効率の良いMambaアーキテクチャによって同時に捕捉し、包括的な解析を保証する。 従来のMambaアプローチとは異なり、ランダムな順序付け効果の課題に取り組むために、双方向の重要度対応順序付け(BIO)戦略を導入する。 この革新的な戦略は、計算された重要度スコアに基づいてグループ埋め込みをインテリジェントに並べ替え、マンバのパフォーマンスを著しく向上させ、全体的な分析過程を最適化する。 この手法をシームレスに統合することにより,計算効率と解析性能のバランスを向上し,ポイントクラウド解析における飛躍的な進歩を図っている。 ScanObjectNN、ModelNet40、ShapeNetPartなどのデータセットに対する大規模な実験は、我々のアプローチの有効性を実証し、ポイントクラウド認識に関する新しい最先端分析ベンチマークを確立した。 このパラダイムは、TransformerアーキテクチャとMambaアーキテクチャの両方の長所を初めて活用し、この分野における新しい標準の推進に役立てている。 コードはhttps://github.com/xiaoyao3302/PoinTrambaで入手できる。

Point cloud analysis has seen substantial advancements due to deep learning, although previous Transformer-based methods excel at modeling long-range dependencies on this task, their computational demands are substantial. Conversely, the Mamba offers greater efficiency but shows limited potential compared with Transformer-based methods. In this study, we introduce PoinTramba, a pioneering hybrid framework that synergies the analytical power of Transformer with the remarkable computational efficiency of Mamba for enhanced point cloud analysis. Specifically, our approach first segments point clouds into groups, where the Transformer meticulously captures intricate intra-group dependencies and produces group embeddings, whose inter-group relationships will be simultaneously and adeptly captured by efficient Mamba architecture, ensuring comprehensive analysis. Unlike previous Mamba approaches, we introduce a bi-directional importance-aware ordering (BIO) strategy to tackle the challenges of random ordering effects. This innovative strategy intelligently reorders group embeddings based on their calculated importance scores, significantly enhancing Mamba's performance and optimizing the overall analytical process. Our framework achieves a superior balance between computational efficiency and analytical performance by seamlessly integrating these advanced techniques, marking a substantial leap forward in point cloud analysis. Extensive experiments on datasets such as ScanObjectNN, ModelNet40, and ShapeNetPart demonstrate the effectiveness of our approach, establishing a new state-of-the-art analysis benchmark on point cloud recognition. For the first time, this paradigm leverages the combined strengths of both Transformer and Mamba architectures, facilitating a new standard in the field. The code is available at https://github.com/xiaoyao3302/PoinTramba.
翻訳日:2024-06-19 04:28:22 公開日:2024-06-16
# 多言語対話エージェントの可読性を評価するベンチマーク

Benchmarks Underestimate the Readiness of Multi-lingual Dialogue Agents ( http://arxiv.org/abs/2405.17840v2 )

ライセンス: Link先を確認
Andrew H. Lee, Sina J. Semnani, Galo Castillo-López, Gäel de Chalendar, Monojit Choudhury, Ashna Dua, Kapil Rajesh Kavitha, Sungkyun Kim, Prashant Kodali, Ponnurangam Kumaraguru, Alexis Lombard, Mehrad Moradshahi, Gihyun Park, Nasredine Semmar, Jiwon Seo, Tianhao Shen, Manish Shrivastava, Deyi Xiong, Monica S. Lam, (参考訳) マルチリンガルタスク指向対話(TOD)エージェントの作成は、データ取得のトレーニングコストが高いため困難である。 トレーニングデータ効率を改善する研究動向に続き,マルチリンガルTODに対処するのにコンテキスト内学習が十分であることを示す。 難易度の高い対話状態追跡(DST)サブタスクを処理するために、少数のサンプルしか使用していないコンテキスト内学習とより互換性のある、より単純なステップに分解する。 我々は、中国語、英語、フランス語、韓国語、ヒンディー語、およびコードミキシングされたヒンディー語に12のドメインを持つ多言語TODデータセットX-RiSAWOZのアプローチを検証した。 6言語でのターン・バイ・ターンDSTの精度は55.6%から80.3%の範囲で、SOTAよりも明らかに悪く、60.7%から82.8%の微調整モデルによる結果である。 しかし, 検証セットを手作業で評価した結果, ゴールドラベルの誤りを訂正し, データセットのアノテーションスキーマを改善することで, 1) 89.6%-96.8%の精度でGPT-4を実現できることがわかった。 これにより、現在の自動メトリクスは、文脈内学習の有効性を非常に過小評価していると結論付ける。

Creating multilingual task-oriented dialogue (TOD) agents is challenging due to the high cost of training data acquisition. Following the research trend of improving training data efficiency, we show for the first time, that in-context learning is sufficient to tackle multilingual TOD. To handle the challenging dialogue state tracking (DST) subtask, we break it down to simpler steps that are more compatible with in-context learning where only a handful of few-shot examples are used. We test our approach on the multilingual TOD dataset X-RiSAWOZ, which has 12 domains in Chinese, English, French, Korean, Hindi, and code-mixed Hindi-English. Our turn-by-turn DST accuracy on the 6 languages range from 55.6% to 80.3%, seemingly worse than the SOTA results from fine-tuned models that achieve from 60.7% to 82.8%; our BLEU scores in the response generation (RG) subtask are also significantly lower than SOTA. However, after manual evaluation of the validation set, we find that by correcting gold label errors and improving dataset annotation schema, GPT-4 with our prompts can achieve (1) 89.6%-96.8% accuracy in DST, and (2) more than 99% correct response generation across different languages. This leads us to conclude that current automatic metrics heavily underestimate the effectiveness of in-context learning.
翻訳日:2024-06-19 04:18:36 公開日:2024-06-16
# ATM: 逆調整マルチエージェントシステムでロバストな検索用発電機を作る

ATM: Adversarial Tuning Multi-agent System Makes a Robust Retrieval-Augmented Generator ( http://arxiv.org/abs/2405.18111v2 )

ライセンス: Link先を確認
Junda Zhu, Lingyong Yan, Haibo Shi, Dawei Yin, Lei Sha, (参考訳) 大言語モデル(LLM)は、知識集約的な質問に直面する幻覚を緩和するために、検索増強世代(RAG)から多くの恩恵を受けることが証明されている。 RAGは情報検索技術を採用し、意味関連文書から外部知識を入力コンテキストとして注入する。 しかし、今日のインターネットには多くのノイズやコンテンツが溢れているため、RAGシステムがこれらのノイズに弱いため、誤った応答をしがちであることは避けられない。 そこで本稿では,ATM (Adversarial Tuning Multi-agent System) を用いた検索拡張ジェネレータを提案する。 ATMは、補助的なアタッカーエージェントの助けを借りて、質問に答えるための有用な文書の堅牢な視点を持つように、ジェネレータを操縦する。 ジェネレータとアタッカーは数回のイテレーションで逆向きに調整される。 マルチエージェント反復チューニングのラウンドの後、ジェネレータは最終的に製造において有用な文書をよりよく識別することができる。 また, ATMの有効性を検証し, 現状のベースラインと比較して, ジェネレータの性能が向上することを示した。

Large language models (LLMs) are proven to benefit a lot from retrieval-augmented generation (RAG) in alleviating hallucinations confronted with knowledge-intensive questions. RAG adopts information retrieval techniques to inject external knowledge from semantic-relevant documents as input contexts. However, due to today's Internet being flooded with numerous noisy and fabricating content, it is inevitable that RAG systems are vulnerable to these noises and prone to respond incorrectly. To this end, we propose to optimize the retrieval-augmented Generator with a Adversarial Tuning Multi-agent system (ATM). The ATM steers the Generator to have a robust perspective of useful documents for question answering with the help of an auxiliary Attacker agent. The Generator and the Attacker are tuned adversarially for several iterations. After rounds of multi-agent iterative tuning, the Generator can eventually better discriminate useful documents amongst fabrications. The experimental results verify the effectiveness of ATM and we also observe that the Generator can achieve better performance compared to state-of-the-art baselines.
翻訳日:2024-06-19 04:18:36 公開日:2024-06-16
# Video-MME:ビデオ分析におけるマルチモーダルLCMの総合評価ベンチマーク

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis ( http://arxiv.org/abs/2405.21075v2 )

ライセンス: Link先を確認
Chaoyou Fu, Yuhan Dai, Yongdong Luo, Lei Li, Shuhuai Ren, Renrui Zhang, Zihan Wang, Chenyu Zhou, Yunhang Shen, Mengdan Zhang, Peixian Chen, Yanwei Li, Shaohui Lin, Sirui Zhao, Ke Li, Tong Xu, Xiawu Zheng, Enhong Chen, Rongrong Ji, Xing Sun, (参考訳) 近年,多モード大規模言語モデル (MLLM) が注目されている。 しかし、静的なイメージ理解において、その能力の開発に焦点が当てられている。 シーケンシャルな視覚データ処理におけるMLLMのポテンシャルはいまだ不十分であり、その性能の包括的で高品質な評価が欠如していることが浮き彫りになっている。 本稿では,ビデオ解析におけるMLLMのマルチモード評価ベンチマークであるVideo-MMEを紹介する。 私たちの研究は、既存のベンチマークと4つの重要な特徴を区別しています。 1) 広範シナリオの一般化性を確保するため、6つの主要視覚領域と30のサブフィールドにまたがる映像タイプの多様性。 2) 時間的次元の持続時間,11秒から1時間以内の短・中・長期のビデオを含む。 3)データモダリティの進歩,サブタイトルや音声を含むビデオフレーム以外のマルチモーダル入力の統合により,MLLMの全機能を公開すること。 4) 注釈の質は、専門家アノテータによる厳密なマニュアルラベリングを利用して、正確かつ信頼性の高いモデルアセスメントを容易にする。 合計254時間の900本のビデオが手動で選択され、すべてのビデオコンテンツを繰り返し視聴することで注釈付けされ、2,700対の質問応答対が生成される。 ビデオMMEでは,GPT-4シリーズやGemini 1.5 Pro,InternVL-Chat-V1.5などのオープンソースイメージモデル,LLaVA-NeXT-Videoなどのビデオモデルなど,最先端のMLLMを幅広く評価する。 我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。 これらの結果とともに、我々のデータセットは、より長いシーケンスとマルチモーダルデータを扱うためのさらなる改善の必要性を浮き彫りにしている。 Project Page: https://video-mme.github.io

In the quest for artificial general intelligence, Multi-modal Large Language Models (MLLMs) have emerged as a focal point in recent advancements. However, the predominant focus remains on developing their capabilities in static image understanding. The potential of MLLMs in processing sequential visual data is still insufficiently explored, highlighting the absence of a comprehensive, high-quality assessment of their performance. In this paper, we introduce Video-MME, the first-ever full-spectrum, Multi-Modal Evaluation benchmark of MLLMs in Video analysis. Our work distinguishes from existing benchmarks through four key features: 1) Diversity in video types, spanning 6 primary visual domains with 30 subfields to ensure broad scenario generalizability; 2) Duration in temporal dimension, encompassing both short-, medium-, and long-term videos, ranging from 11 seconds to 1 hour, for robust contextual dynamics; 3) Breadth in data modalities, integrating multi-modal inputs besides video frames, including subtitles and audios, to unveil the all-round capabilities of MLLMs; 4) Quality in annotations, utilizing rigorous manual labeling by expert annotators to facilitate precise and reliable model assessment. 900 videos with a total of 254 hours are manually selected and annotated by repeatedly viewing all the video content, resulting in 2,700 question-answer pairs. With Video-MME, we extensively evaluate various state-of-the-art MLLMs, including GPT-4 series and Gemini 1.5 Pro, as well as open-source image models like InternVL-Chat-V1.5 and video models like LLaVA-NeXT-Video. Our experiments reveal that Gemini 1.5 Pro is the best-performing commercial model, significantly outperforming the open-source models. Our dataset along with these findings underscores the need for further improvements in handling longer sequences and multi-modal data. Project Page: https://video-mme.github.io
翻訳日:2024-06-19 04:08:51 公開日:2024-06-16
# ケース:補助心理学エキスパートモデル構築のための効率的なカリキュラムデータ事前学習

CASE: Efficient Curricular Data Pre-training for Building Assistive Psychology Expert Models ( http://arxiv.org/abs/2406.00314v2 )

ライセンス: Link先を確認
Sarthak Harne, Monjoy Narayan Choudhury, Madhav Rao, TK Srikanth, Seema Mehrotra, Apoorva Vashisht, Aarushi Basu, Manjit Sodhi, (参考訳) 心理学者の限られた可用性は、緊急の精神医療を必要とする個人を効果的に識別する必要がある。 本研究では、自然言語処理(NLP)パイプラインを用いて、コンサルティングに使用されるオンラインメンタルヘルスフォーラムのテキストデータを解析する。 フォーラムの投稿を分析することで、これらのパイプラインは、すぐに専門家の注意を必要とするかもしれないユーザーにフラグを付けることができる。 この領域における重要な課題は、データのプライバシと不足である。 そこで本研究では,NLPパイプラインの事前学習のために,メンタルヘルスを専門とする研究所で利用可能なカリキュラムテキストを活用することを提案する。 これは心理学者のトレーニングプロセスを模倣するのに役立ちます。 本研究は、フォーラムテキストに基づいて、潜在的な精神疾患を警告するCASE-BERTを提示する。 Case-BERTは既存の方法に比べて優れたパフォーマンスを示しており、うつ病では0.91点、不安では0.88点と報告されている精神疾患では最も多い。 私たちのコードは公開されています。

The limited availability of psychologists necessitates efficient identification of individuals requiring urgent mental healthcare. This study explores the use of Natural Language Processing (NLP) pipelines to analyze text data from online mental health forums used for consultations. By analyzing forum posts, these pipelines can flag users who may require immediate professional attention. A crucial challenge in this domain is data privacy and scarcity. To address this, we propose utilizing readily available curricular texts used in institutes specializing in mental health for pre-training the NLP pipelines. This helps us mimic the training process of a psychologist. Our work presents CASE-BERT that flags potential mental health disorders based on forum text. CASE-BERT demonstrates superior performance compared to existing methods, achieving an f1 score of 0.91 for Depression and 0.88 for Anxiety, two of the most commonly reported mental health disorders. Our code is publicly available.
翻訳日:2024-06-19 04:08:51 公開日:2024-06-16
# シュレーディンガー橋の高架化工法と高架化工法-高架化工法と高架化工法

Schrödinger Bridge with Quadratic State Cost is Exactly Solvable ( http://arxiv.org/abs/2406.00503v3 )

ライセンス: Link先を確認
Alexis M. H. Teter, Wenqing Wang, Abhishek Halder, (参考訳) Schr\"odinger Bridge"は、所定の時間内に所定の分布を他人に操り、それを行う労力を最小限に抑える拡散過程である。 最適物質輸送の確率的力学バージョンと見なすことができ、生成拡散モデルや確率的最適制御にも応用が拡大している。 本研究では,2次状態のコスト・ツー・ゴーを用いたSchr\"odinger Bridgeの正規化変種を提案する。 従来のシュリンガー橋とは異なり、正規化は確率質量の殺しと生成の状態依存率を誘導し、その解は反応拡散偏微分方程式のマルコフ核を決定する必要がある。 このマルコフ核を閉形式で導出する。 我々の溶液は、消滅する正則化(すなわち、反応のない拡散)の限界の中で熱核を回収し、その結果、従来のシュリンガー橋の解を回収する。 この結果から,シュリンガー橋の動的シンクホーン再帰を2次状態のコスト・ツー・ゴーで計算することが可能となり,この設定では利用が困難となる。 我々は、新しいカーネルの性質を推論し、量子力学において、特定の解可能なモデルとの接続を説明する。

Schr\"odinger bridge is a diffusion process that steers a given distribution to another in a prescribed time while minimizing the effort to do so. It can be seen as the stochastic dynamical version of the optimal mass transport, and has growing applications in generative diffusion models and stochastic optimal control. In this work, we propose a regularized variant of the Schr\"odinger bridge with a quadratic state cost-to-go that incentivizes the optimal sample paths to stay close to a nominal level. Unlike the conventional Schr\"odinger bridge, the regularization induces a state-dependent rate of killing and creation of probability mass, and its solution requires determining the Markov kernel of a reaction-diffusion partial differential equation. We derive this Markov kernel in closed form. Our solution recovers the heat kernel in the vanishing regularization (i.e., diffusion without reaction) limit, thereby recovering the solution of the conventional Schr\"odinger bridge. Our results enable the use of dynamic Sinkhorn recursion for computing the Schr\"odinger bridge with a quadratic state cost-to-go, which would otherwise be challenging to use in this setting. We deduce properties of the new kernel and explain its connections with certain exactly solvable models in quantum mechanics.
翻訳日:2024-06-19 04:08:51 公開日:2024-06-16
# テキスト・画像拡散アライメントのためのGFlowNetsの改良

Improving GFlowNets for Text-to-Image Diffusion Alignment ( http://arxiv.org/abs/2406.00633v2 )

ライセンス: Link先を確認
Dinghuai Zhang, Yizhe Zhang, Jiatao Gu, Ruixiang Zhang, Josh Susskind, Navdeep Jaitly, Shuangfei Zhai, (参考訳) 拡散モデルは、トレーニングデータセットの分布に合わせてトレーニングされた視覚データを生成するためのデファクトアプローチとなっている。 さらに、ブラックボックスの報酬関数で指定できるテキスト記述へのアライメントなど、所望のプロパティを満たすために生成を制御したいとも考えています。 前者は、強化学習に基づくアルゴリズムにより、この目標を達成するために、事前訓練された拡散モデルを微調整する。 それでも彼らは、クレジット割り当ての遅さや、生成されたサンプルの品質の低下といった問題に悩まされている。 本研究では,生成フローネットワーク(GFlowNets)のフレームワークにおいて,報酬を直接最大化するのではなく,比較的高い確率で高解像度画像を生成する手法を検討する。 そこで本稿では,GFlowNet (DAG) アルゴリズムを用いた拡散アライメントを提案する。 安定拡散および様々な報酬仕様に関する広範囲な実験は,提案手法が大規模テキスト・画像拡散モデルと与えられた報酬情報とを効果的に整合させることができることを裏付けるものである。

Diffusion models have become the de-facto approach for generating visual data, which are trained to match the distribution of the training dataset. In addition, we also want to control generation to fulfill desired properties such as alignment to a text description, which can be specified with a black-box reward function. Prior works fine-tune pretrained diffusion models to achieve this goal through reinforcement learning-based algorithms. Nonetheless, they suffer from issues including slow credit assignment as well as low quality in their generated samples. In this work, we explore techniques that do not directly maximize the reward but rather generate high-reward images with relatively high probability -- a natural scenario for the framework of generative flow networks (GFlowNets). To this end, we propose the Diffusion Alignment with GFlowNet (DAG) algorithm to post-train diffusion models with black-box property functions. Extensive experiments on Stable Diffusion and various reward specifications corroborate that our method could effectively align large-scale text-to-image diffusion models with given reward information.
翻訳日:2024-06-19 04:08:51 公開日:2024-06-16
# メル周波数ケプストラム係数を用いた心臓音の高次分類 : 単音・アンサンブル分類法の比較検討

Enhanced Classification of Heart Sounds Using Mel Frequency Cepstral Coefficients: A Comparative Study of Single and Ensemble Classifier Strategies ( http://arxiv.org/abs/2406.00702v3 )

ライセンス: Link先を確認
Amir Masoud Rahmani, Amir Haider, Mohammad Adeli, Olfa Mzoughi, Entesar Gemeay, Mokhtar Mohammadi, Hamid Alinejad-Rokny, Parisa Khoshvaght, Mehdi Hosseinzadeh, (参考訳) 本稿では,Mel Frequency Cepstral Coefficients (MFCCs) を用いた2つの分類法について検討した。 心臓の音はまずノイズを取り除くために前処理され、その後S1, systole, S2, diastoleの間隔に区切られ、各セグメントから13個のMFCCが推定され、1ビートあたり52個のMFCCが生成される。 最終的に、MFCCは心臓音の分類に使用された。 その目的のために、単一の分類器戦略において、9つの連続したビートからのMFCCを平均して、単一の分類器(SVM)、k近傍の隣人(kNN)、または決定木(DT)のいずれかで心臓音を分類した。 逆に、アンサンブル分類法では9つの分類器(9つのSVM、9つのkNN分類器、または9つのDT)を用いて、個々のビートを正常または異常として評価し、全体分類は多数決に基づいて行った。 どちらの方法も一般に公開されている心電図データベース上でテストされた。 心臓音の分類精度はSVMが91.95%、kNNが91.9%、DTが87.33%であった。 また、SVMでは93.59%、kNNでは91.84%、アンサンブル分類法では92.22%の精度であった。 その結果, アンサンブル分類法はDTとSVMの精度を4.89%, 1.64%改善し, MFCCを時間, 時間周波数, 統計的特徴など他の特徴よりも有効であることを確認した。

This paper explores the efficacy of Mel Frequency Cepstral Coefficients (MFCCs) in detecting abnormal heart sounds using two classification strategies: a single classifier and an ensemble classifier approach. Heart sounds were first pre-processed to remove noise and then segmented into S1, systole, S2, and diastole intervals, with thirteen MFCCs estimated from each segment, yielding 52 MFCCs per beat. Finally, MFCCs were used for heart sound classification. For that purpose, in the single classifier strategy, the MFCCs from nine consecutive beats were averaged to classify heart sounds by a single classifier (either a support vector machine (SVM), the k nearest neighbors (kNN), or a decision tree (DT)). Conversely, the ensemble classifier strategy employed nine classifiers (either nine SVMs, nine kNN classifiers, or nine DTs) to individually assess beats as normal or abnormal, with the overall classification based on the majority vote. Both methods were tested on a publicly available phonocardiogram database. The heart sound classification accuracy was 91.95% for the SVM, 91.9% for the kNN, and 87.33% for the DT in the single classifier strategy. Also, the accuracy was 93.59% for the SVM, 91.84% for the kNN, and 92.22% for the DT in the ensemble classifier strategy. Overall, the results demonstrated that the ensemble classifier strategy improved the accuracies of the DT and the SVM by 4.89% and 1.64%, establishing MFCCs as more effective than other features, including time, time-frequency, and statistical features, evaluated in similar studies.
翻訳日:2024-06-19 04:08:51 公開日:2024-06-16
# ロバストセグメンテーションのための感度インフォームメント

Sensitivity-Informed Augmentation for Robust Segmentation ( http://arxiv.org/abs/2406.01425v4 )

ライセンス: Link先を確認
Laura Zheng, Wenjie Wei, Tony Wu, Jacob Clements, Shreelekha Revankar, Andre Harrison, Yu Shen, Ming C. Lin, (参考訳) セグメンテーションは、仮想トライオン、医療画像、自律運転、農業自動化など、多くのビジュアルコンピューティングアプリケーションにおいて不可欠なモジュールである。 これらのアプリケーションは、一般的な携帯電話や高価な衛星画像カメラからでも、視覚センサーのデータの品質を劣化させることのできる、広範な消費者利用または高度に変動した環境を含むことが多い。 ユーザ差や天候条件などの外部ノイズに加えて、カメラ品質の変動やレンズ歪みなどの内部ノイズは、開発と展開の両方においてセグメンテーションモデルの性能に影響を与える可能性がある。 本研究では,学習ベースセグメンテーションモデルの堅牢性を高めるための,効率的で適応性が高く,勾配のない手法を提案する。 まず,Kernel Inception Distance (KID) を用いた新しい適応感度解析手法を提案する。 次に、適応SAとサンプル摂動ハイパーパラメータ値を用いて感度曲線をモデル化する。 最後に、選択した摂動値を用いて対人訓練を行い、オンライントレーニング中のロバスト性を動的に再評価する。 我々の手法は最小限の微調整でエンドツーエンドに実装され、セグメンテーションのための最先端データ拡張技術より一貫して優れている。 これは、ビジュアルコンピューティングやコンピュータグラフィックスアプリケーションで使用される様々なセグメンテーションデータセットに対して、クリーンなデータ評価と現実の悪質なシナリオ評価の両方において、大幅な改善を示す。

Segmentation is an integral module in many visual computing applications such as virtual try-on, medical imaging, autonomous driving, and agricultural automation. These applications often involve either widespread consumer use or highly variable environments, both of which can degrade the quality of visual sensor data, whether from a common mobile phone or an expensive satellite imaging camera. In addition to external noises like user difference or weather conditions, internal noises such as variations in camera quality or lens distortion can affect the performance of segmentation models during both development and deployment. In this work, we present an efficient, adaptable, and gradient-free method to enhance the robustness of learning-based segmentation models across training. First, we introduce a novel adaptive sensitivity analysis (ASA) using Kernel Inception Distance (KID) on basis perturbations to benchmark perturbation sensitivity of pre-trained segmentation models. Then, we model the sensitivity curve using the adaptive SA and sample perturbation hyperparameter values accordingly. Finally, we conduct adversarial training with the selected perturbation values and dynamically re-evaluate robustness during online training. Our method, implemented end-to-end with minimal fine-tuning required, consistently outperforms state-of-the-art data augmentation techniques for segmentation. It shows significant improvement in both clean data evaluation and real-world adverse scenario evaluation across various segmentation datasets used in visual computing and computer graphics applications.
翻訳日:2024-06-19 04:08:51 公開日:2024-06-16
# ピラミッドKV:ピラミッド情報ファネリングに基づく動的KVキャッシュ圧縮

PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling ( http://arxiv.org/abs/2406.02069v2 )

ライセンス: Link先を確認
Zefan Cai., Yichi Zhang, Bofei Gao, Yuliang Liu, Tianyu Liu, Keming Lu, Wayne Xiong, Yue Dong, Baobao Chang, Junjie Hu, Wen Xiao, (参考訳) 本研究では,大規模言語モデル(LLM)内の注意に基づく情報フローが,長期的文脈処理のための顕著なパターンによって集約されているかを検討する。 我々の観測では、LLMは、下層に注意が広く散らばっているピラミッド情報ファンリングを通じて情報を集約し、特定のコンテキスト内で徐々に統合し、最終的に、上層に重要なトークン(大規模なアクティベーションやアテンションシンク)に焦点を当てている。 これらの知見に触発され,新しいKVキャッシュ圧縮手法であるPraamidKVを開発した。 このアプローチは、異なる層にわたるKVキャッシュサイズを動的に調整し、下位層でより多くのキャッシュを割り当て、上位層では少ないキャッシュを割り当て、均一なKVキャッシュサイズを維持する従来の方法から切り離す。 実験では,LongBenchベンチマークを用いて,PraamidKVはKVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致し,メモリ使用量を大幅に削減した。 メモリ効率を強調するシナリオでは、KVキャッシュのわずか0.7%しか維持されていないが、PraamidKVは他のKVキャッシュ圧縮技術を超え、TRECでは最大で20.5の精度向上を実現している。

In this study, we investigate whether attention-based information flow inside large language models (LLMs) is aggregated through noticeable patterns for long context processing. Our observations reveal that LLMs aggregate information through Pyramidal Information Funneling where attention is scattering widely in lower layers, progressively consolidating within specific contexts, and ultimately focusin on critical tokens (a.k.a massive activation or attention sink) in higher layers. Motivated by these insights, we developed PyramidKV, a novel and effective KV cache compression method. This approach dynamically adjusts the KV cache size across different layers, allocating more cache in lower layers and less in higher ones, diverging from traditional methods that maintain a uniform KV cache size. Our experimental evaluations, utilizing the LongBench benchmark, show that PyramidKV matches the performance of models with a full KV cache while retaining only 12% of the KV cache, thus significantly reducing memory usage. In scenarios emphasizing memory efficiency, where only 0.7% of the KV cache is maintained, PyramidKV surpasses other KV cache compression techniques achieving up to a 20.5 absolute accuracy improvement on TREC.
翻訳日:2024-06-19 04:08:51 公開日:2024-06-16
# 編集知識に関する質問に応答する復号化を意識した古い問題

Outdated Issue Aware Decoding for Reasoning Questions on Edited Knowledge ( http://arxiv.org/abs/2406.02882v3 )

ライセンス: Link先を確認
Zengkui Sun, Yijin Liu, Jiaan Wang, Fandong Meng, Jinan Xu, Yufeng Chen, Jie Zhou, (参考訳) 近年、知識編集は、事前訓練されたモデルにおける時代遅れのものからの特定の知識を、再訓練せずに更新できるため、注目を集めている。 しかし、近年の研究で指摘されているように、既存の関連手法は、真の学習や吸収ではなく、単に編集された知識の表層的な単語構成を記憶するだけである。 その結果,既存の手法では,新たな解答を推論するために編集された知識を利用するのに苦労しており,本来の知識を生かしたオリジナルのモデルによって生成される時代遅れの応答を保ちがちであることがわかった。 それでも、古い回答は、我々が古い問題と名づけた推論問題に対する正しい答えとして予期せぬものである。 この問題を軽減するため,本論文では,編集モデルの性能向上を目的とした,簡易かつ効果的な復号化戦略であるDISCO(Outdated ISsue aware decodeding)を提案する。 具体的には、オリジナルのモデルと編集されたモデルとの確率分布の差を捉える。 さらに、編集されたモデルにおけるトークン予測の違いを増幅し、古い問題を緩和し、編集された知識でモデル性能を向上させる。 実験結果から,disCOを適用することで,従来のSOTA法を12.99F1スコアで上回り,古い問題の割合をzsREデータセットの5.78%に下げることが可能であることが示唆された。

Recently, Knowledge Editing has received increasing attention, since it could update the specific knowledge from outdated ones in pretrained models without re-training. However, as pointed out by recent studies, existing related methods tend to merely memorize the superficial word composition of the edited knowledge, rather than truly learning and absorbing it. Consequently, on the reasoning questions, we discover that existing methods struggle to utilize the edited knowledge to reason the new answer, and tend to retain outdated responses, which are generated by the original models utilizing original knowledge. Nevertheless, the outdated responses are unexpected for the correct answers to reasoning questions, which we named as the outdated issue. To alleviate this issue, in this paper, we propose a simple yet effective decoding strategy, i.e., outDated ISsue aware deCOding (DISCO), to enhance the performance of edited models on reasoning questions. Specifically, we capture the difference in the probability distribution between the original and edited models. Further, we amplify the difference of the token prediction in the edited model to alleviate the outdated issue, and thus enhance the model performance w.r.t the edited knowledge. Experimental results suggest that applying DISCO could enhance edited models to reason, e.g., on reasoning questions, DISCO outperforms the prior SOTA method by 12.99 F1 scores, and reduces the ratio of the outdated issue to 5.78% on the zsRE dataset.
翻訳日:2024-06-19 02:10:30 公開日:2024-06-16
# グローバル教育におけるジェネレーティブAIとデジタルネオコロニアリズム : 平等なフレームワークを目指して

Generative AI and Digital Neocolonialism in Global Education: Towards an Equitable Framework ( http://arxiv.org/abs/2406.02966v3 )

ライセンス: Link先を確認
Matthew Nyaaba, Alyson Wright, Gyu Lim Choi, (参考訳) 本稿では、創造的人工知能(GenAI)が西洋社会に西洋思想を課し、その固有のバイアスを通じて教育におけるデジタル新植民地主義を持続させる方法について批判的に論じる。 さらに、地域の利害関係者や世界的な利害関係者がこれらの効果を緩和するための戦略も提案している。 我々の議論は、玄AIが西洋の学生に関係のある文化資料や事例を主に取り入れたコンテンツを作成し、西洋以外の背景から学生を遠ざけることによって、文化帝国主義を育むことができることを示した。 また、GenAIによる西洋語の主な使用は、非支配的な言語を疎外し、教育コンテンツが先住民語話者に近づきにくくし、彼らの最初の言語で学ぶ能力に影響を及ぼす可能性がある。 また、GenAIは、技術的に支配的な国家観を反映した内容やカリキュラムを多く生み出し、極端に専門化された土着の知識や実践を誇張している。 さらに、GenAIへのアクセスコストは教育の不平等を増し、GenAIデータのコントロールは、地元の学生やコミュニティに利益をもたらすことなく商業的搾取につながる可能性がある。 我々は、GenAI開発における文化的多様性と平等を優先する人間中心の改革、GenAIアプリケーション内の抑圧的構造を特定し解体する教育者や学生に権限を与える自由デザイン、将来の教育ニーズを満たすための調整可能なGenAIシステムを構築するための設計の展望、そして最後に、ネオコロニアルアウトプットの検索を効果的に促す技術を提案する。

This paper critically discusses how generative artificial intelligence (GenAI) might impose Western ideologies on non-Western societies, perpetuating digital neocolonialism in education through its inherent biases. It further suggests strategies for local and global stakeholders to mitigate these effects. Our discussions demonstrated that GenAI can foster cultural imperialism by generating content that primarily incorporates cultural references and examples relevant to Western students, thereby alienating students from non-Western backgrounds. Also, the predominant use of Western languages by GenAI can marginalize non-dominant languages, making educational content less accessible to speakers of indigenous languages and potentially impacting their ability to learn in their first language. Additionally, GenAI often generates content and curricula that reflect the perspectives of technologically dominant countries, overshadowing marginalized indigenous knowledge and practices. Moreover, the cost of access to GenAI intensifies educational inequality and the control of GenAI data could lead to commercial exploitation without benefiting local students and their communities. We propose human-centric reforms to prioritize cultural diversity and equity in GenAI development; a liberatory design to empower educators and students to identify and dismantle the oppressive structures within GenAI applications; foresight by design to create an adjustable GenAI system to meet future educational needs; and finally, effective prompting skills to reduce the retrieval of neocolonial outputs.
翻訳日:2024-06-19 02:10:30 公開日:2024-06-16
# ベルの理論に反する

Against Bell's Theorem ( http://arxiv.org/abs/2406.03028v2 )

ライセンス: Link先を確認
Andrea Aiello, (参考訳) ベルの定理は、量子力学と局所的で現実的な隠れ変数理論の間の矛盾を証明していると考えられている。 本稿ではベルの定理を証明しようとするすべての実験がこの目標を達成できないことを示す。 我々の結論は、これらの実験の結果の直接的な統計的分析に基づいている。 この研究の鍵となるツールは確率論であり、特に、そのような実験の結果を定量化する二コトミックな確率変数に対するサンプル空間の概念である。 また、ベルの定理の実験的な証明は原理的には不可能ではないが、この目的を達成するために一般的に用いられるものとは全く異なる実験装置を必要とすることも示している。 我々の研究の主な成果は、現在利用可能な実験データに基づいて、局所的な現実的な隠れ変数理論を排除できないことである。

Bell's theorem supposedly demonstrates an irreconcilable conflict between quantum mechanics and local, realistic hidden variable theories. In this paper we show that all experiments that aim to prove Bell's theorem do not actually achieve this goal. Our conclusions are based on a straightforward statistical analysis of the outcomes of these experiments. The key tool in our study is probability theory and, in particular, the concept of sample space for the dichotomic random variables that quantifies the outcomes of such experiments. We also show that an experimental proof of Bell's theorem is not, in principle, impossible, but it would require a completely different experimental apparatus than those commonly used to allegedly achieve this objective. The main consequence of our work is that we cannot dismiss local realistic hidden variable theories on the basis of currently available experimental data.
翻訳日:2024-06-19 02:10:30 公開日:2024-06-16
# 語彙データ分類のためのファジィ畳み込みニューラルネットワーク

Fuzzy Convolution Neural Networks for Tabular Data Classification ( http://arxiv.org/abs/2406.03506v2 )

ライセンス: Link先を確認
Arun D. Kulkarni, (参考訳) 近年、畳み込みニューラルネットワーク(CNN)は、特に画像やテキストの分類タスクにおいて、様々な領域における顕著な性能のために、多くの注目を集めている。 しかし、表形式のデータ分類への応用はいまだ未定である。 バイオインフォマティクス、ファイナンス、非画像データが一般的である医療など、多くの分野がある。 非画像データの分類にCNNを適用することは、依然として非常に困難である。 本稿では,従来の機械学習手法と深層学習手法のギャップを埋めることを目的として,表層データ分類におけるCNNの有効性について検討する。 本稿では,特徴ベクトル内の局所パターンを捉えるための表データに適した,ファジィ畳み込みニューラルネットワーク(FCNN)を提案する。 提案手法では,特徴値をファジィメンバシップにマップする。 ファジィメンバシップベクトルは、CNNモデルのトレーニングに使用される画像に変換される。 訓練されたCNNモデルは未知の機能ベクトルを分類するために使用される。 提案手法を検証するために,6つの複雑なノイズデータセットを生成した。 各データセットからランダムに70パーセントのサンプルをトレーニングに使用し、30%をテストに使用しました。 データセットはまた、決定木(DT)、サポートベクターマシン(SVM)、ファジィニューラルネットワーク(FNN)、ベイズ分類器、ランダムフォレスト(RF)といった最先端の機械学習アルゴリズムを使用して分類された。 実験結果から,提案手法は従来の手法と比較して,有意な表現を表象データから効果的に学習し,競争力や優れた性能を達成できることが示唆された。 全体として、提案したFCNNモデルは、表型データ分類タスクの代替として有望であり、構造化データ分析におけるディープラーニングを活用する新たな機会を、新たな期待と潜在的に解放する可能性を示唆している。

Recently, convolution neural networks (CNNs) have attracted a great deal of attention due to their remarkable performance in various domains, particularly in image and text classification tasks. However, their application to tabular data classification remains underexplored. There are many fields such as bioinformatics, finance, medicine where nonimage data are prevalent. Adaption of CNNs to classify nonimage data remains highly challenging. This paper investigates the efficacy of CNNs for tabular data classification, aiming to bridge the gap between traditional machine learning approaches and deep learning techniques. We propose a novel framework fuzzy convolution neural network (FCNN) tailored specifically for tabular data to capture local patterns within feature vectors. In our approach, we map feature values to fuzzy memberships. The fuzzy membership vectors are converted into images that are used to train the CNN model. The trained CNN model is used to classify unknown feature vectors. To validate our approach, we generated six complex noisy data sets. We used randomly selected seventy percent samples from each data set for training and thirty percent for testing. The data sets were also classified using the state-of-the-art machine learning algorithms such as the decision tree (DT), support vector machine (SVM), fuzzy neural network (FNN), Bayes classifier, and Random Forest (RF). Experimental results demonstrate that our proposed model can effectively learn meaningful representations from tabular data, achieving competitive or superior performance compared to existing methods. Overall, our finding suggests that the proposed FCNN model holds promise as a viable alternative for tabular data classification tasks, offering a fresh prospective and potentially unlocking new opportunities for leveraging deep learning in structured data analysis.
翻訳日:2024-06-19 02:10:30 公開日:2024-06-16
# ミニ・オナー・オブ・キングス:マルチエージェント強化学習のための軽量環境

Mini Honor of Kings: A Lightweight Environment for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2406.03978v2 )

ライセンス: Link先を確認
Lin Liu, Jian Zhao, Cheng Hu, Zhengtao Cao, Youpeng Zhao, Zhenbin Ye, Meng Meng, Wenjun Wang, Zhaofeng He, Houqiang Li, Xia Lin, Lanxiao Huang, (参考訳) ゲームはマルチエージェント強化学習(MARL)の研究環境として広く利用されているが、それらは3つの大きな課題である: 限定的なカスタマイズ、高い計算要求、過剰な単純化である。 これらの問題に対処するため、我々は人気のあるモバイルゲーム『Honor of Kings』の地図エディタを初めて公開し、研究者が実験を行うための軽量環境『Mini HoK』を設計した。 Mini HoKは非常に効率的で、実験をパーソナルPCやラップトップ上で行うことができるが、既存のMARLアルゴリズムには十分な課題がある。 我々は、一般的なMARLアルゴリズムで環境を検証し、これらのアルゴリズムがまだこの環境内で最適な解を見つけていないことを実証した。 これにより、研究コミュニティ内でのMARL手法の普及と普及が促進される。 さらに、より多くの研究者がHonor of Kingsマップエディタを利用して、革新的で科学的に価値のある新しい地図を開発することを期待しています。 私たちのコードとユーザマニュアルは、https://github.com/tencent-ailab/mini-hok.comで公開されています。

Games are widely used as research environments for multi-agent reinforcement learning (MARL), but they pose three significant challenges: limited customization, high computational demands, and oversimplification. To address these issues, we introduce the first publicly available map editor for the popular mobile game Honor of Kings and design a lightweight environment, Mini Honor of Kings (Mini HoK), for researchers to conduct experiments. Mini HoK is highly efficient, allowing experiments to be run on personal PCs or laptops while still presenting sufficient challenges for existing MARL algorithms. We have tested our environment on common MARL algorithms and demonstrated that these algorithms have yet to find optimal solutions within this environment. This facilitates the dissemination and advancement of MARL methods within the research community. Additionally, we hope that more researchers will leverage the Honor of Kings map editor to develop innovative and scientifically valuable new maps. Our code and user manual are available at: https://github.com/tencent-ailab/mini-hok.
翻訳日:2024-06-19 02:10:30 公開日:2024-06-16
# 要素的乗法に基づく物理インフォームドニューラルネットワーク

Element-wise Multiplication Based Physics-informed Neural Networks ( http://arxiv.org/abs/2406.04170v2 )

ライセンス: Link先を確認
Feilong Jiang, Xiaonan Hou, Min Xia, (参考訳) 偏微分方程式(PDE)を解くための有望な枠組みとして、物理情報ニューラルネットワーク(PINN)は産業や科学分野から広く注目を集めている。 しかし、表現力の欠如や初期化病理の問題点は、複雑なPDEにPINNを適用するのを妨げている。 本研究では,これらの問題を解決するために,EM-PINN( Element-wise Multiplication Based Physics-informed Neural Networks)を提案する。 要素ワイド乗算演算は、特徴を高次元非線形空間に変換するために採用され、PINNの表現能力を効果的に向上する。 EM-PINNは、要素の乗算操作に適しており、PINNの初期化病理を除去することができる。 提案手法は様々なベンチマークで検証される。 その結果,EM-PINNの表現能力は高いことがわかった。

As a promising framework for resolving partial differential equations (PDEs), physics-informed neural networks (PINNs) have received widespread attention from industrial and scientific fields. However, lack of expressive ability and initialization pathology issues are found to prevent the application of PINNs in complex PDEs. In this work, we propose Element-wise Multiplication Based Physics-informed Neural Networks (EM-PINNs) to resolve these issues. The element-wise multiplication operation is adopted to transform features into high-dimensional, non-linear spaces, which effectively enhance the expressive capability of PINNs. Benefiting from element-wise multiplication operation, EM-PINNs can eliminate the initialization pathologies of PINNs. The proposed structure is verified on various benchmarks. The results show that EM-PINNs have strong expressive ability.
翻訳日:2024-06-19 02:10:30 公開日:2024-06-16
# 大規模言語モデルのためのフェーズドインストラクションファインタニング

Phased Instruction Fine-Tuning for Large Language Models ( http://arxiv.org/abs/2406.04371v2 )

ライセンス: Link先を確認
Wei Pang, Chuan Zhou, Xiao-Hua Zhou, Xiaojie Wang, (参考訳) Instruction Fine-Tuningは、基本的な次の単語予測から複雑な命令フォローまで、事前訓練された言語モデルを強化する。 しかし,既存のワンオフインストラクションファインタニング (One-off Instruction Fine-Tuning, IFT) 法は多種多様な命令に適用されている。 これを改善するために,段階的指導細調整(Phased IFT)を提案する。 GPT-4を用いて命令の難易度を評価し、命令データを難易度の高いサブセットに分割し、これらのサブセット上でモデルを逐次訓練する。 Alpacaデータを用いたLlama-2 7B/13B/70B、Llama3 8/70B、Mistral-7Bモデルによる実験では、フェーズドIFTはワンオフIFTよりも優れており、プログレッシブアライメント仮説をサポートし、大規模言語モデルを強化するシンプルで効率的な方法を提供する。 実験から得られたコードとデータセットはhttps://github.com/xubuvd/PhasedSFT.comで無償公開されている。

Instruction Fine-Tuning enhances pre-trained language models from basic next-word prediction to complex instruction-following. However, existing One-off Instruction Fine-Tuning (One-off IFT) method, applied on a diverse instruction, may not effectively boost models' adherence to instructions due to the simultaneous handling of varying instruction complexities. To improve this, Phased Instruction Fine-Tuning (Phased IFT) is proposed, based on the idea that learning to follow instructions is a gradual process. It assesses instruction difficulty using GPT-4, divides the instruction data into subsets of increasing difficulty, and uptrains the model sequentially on these subsets. Experiments with Llama-2 7B/13B/70B, Llama3 8/70B and Mistral-7B models using Alpaca data show that Phased IFT significantly outperforms One-off IFT, supporting the progressive alignment hypothesis and providing a simple and efficient way to enhance large language models. Codes and datasets from our experiments are freely available at https://github.com/xubuvd/PhasedSFT.
翻訳日:2024-06-19 02:10:30 公開日:2024-06-16
# 「身体の暴力」:AIによる非合意的(親密な)イメージの知覚

"Violation of my body:" Perceptions of AI-generated non-consensual (intimate) imagery ( http://arxiv.org/abs/2406.05520v2 )

ライセンス: Link先を確認
Natalie Grace Brigham, Miranda Wei, Tadayoshi Kohno, Elissa M. Redmiles, (参考訳) AI技術は、超現実的な合成メディアであるディープフェイクの作成を可能にした。 我々は,性行為を描写するディープフェイクを含む,ディープフェイクを描写する仮説的な非合意的なディープフェイクの作成について,米国の315人の個人を調査した。 レスポンデントは、特にその内容が性行為を描写している場合、非合意に作られた合成コンテンツを共有することに強く反対した。 しかし、そのようなコンテンツを探すことは、一部の回答者にとってより受け入れがたいように思われた。 受容性に関する態度は、仮説作成者と参加者との関係、応答者の性別、性的な同意に対する態度によってさらに変化した。 この研究は、増大する脅威に対する公衆の見解に関する最初の洞察を提供し、社会規範を伝えるためのさらなる研究の必要性と、現在進行中の政策会話や、生成的AIの技術的発展を強調している。

AI technology has enabled the creation of deepfakes: hyper-realistic synthetic media. We surveyed 315 individuals in the U.S. on their views regarding the hypothetical non-consensual creation of deepfakes depicting them, including deepfakes portraying sexual acts. Respondents indicated strong opposition to creating and, even more so, sharing non-consensually created synthetic content, especially if that content depicts a sexual act. However, seeking out such content appeared more acceptable to some respondents. Attitudes around acceptability varied further based on the hypothetical creator's relationship to the participant, the respondent's gender and their attitudes towards sexual consent. This study provides initial insight into public perspectives of a growing threat and highlights the need for further research to inform social norms as well as ongoing policy conversations and technical developments in generative AI.
翻訳日:2024-06-19 02:00:43 公開日:2024-06-16
# RE-RAG:Retrieval-Augmented Generationにおけるrelevance EstimatorによるオープンドメインQA性能と解釈性の向上

RE-RAG: Improving Open-Domain QA Performance and Interpretability with Relevance Estimator in Retrieval-Augmented Generation ( http://arxiv.org/abs/2406.05794v2 )

ライセンス: Link先を確認
Kiseung Kim, Jay-Yoon Lee, (参考訳) Retrieval Augmented Generation (RAG)フレームワークは、パラメトリック知識と外部知識を組み合わせて、オープンドメイン質問応答タスクにおける最先端のパフォーマンスを実証する。 しかしながら、RAGフレームワークは、クエリに無関係なコンテキストが伴っていれば、パフォーマンスの低下に悩まされる。 本稿では,RE-RAGフレームワークを提案する。Relevance estimator(RE)は,従来のリランカが行ったようなコンテキスト間の相対的関連性を提供するだけでなく,与えられたコンテキストが与えられた質問に応答するのに有用であるかどうかの分類に使用できる信頼性を提供する。 本稿では,質問応答データを利用したREの学習において,適切なコンテキストのラベルを使わずに,弱い教師付き手法を提案する。 我々は,小型発電機(sLM)で訓練したREが,REとともに微調整されたsLMを改良するだけでなく,従来は未参照の大規模言語モデル(LLM)も改善できることを示した。 さらに,REが測定した信頼度を生かした新たな復号手法について検討し,検索した文脈から質問に答えることが「答えられない」か,無関係な文脈よりもLLMのパラメトリック知識に頼ることを選択するかを選択する。

The Retrieval Augmented Generation (RAG) framework utilizes a combination of parametric knowledge and external knowledge to demonstrate state-of-the-art performance on open-domain question answering tasks. However, the RAG framework suffers from performance degradation when the query is accompanied by irrelevant contexts. In this work, we propose the RE-RAG framework, which introduces a relevance estimator (RE) that not only provides relative relevance between contexts as previous rerankers did, but also provides confidence, which can be used to classify whether given context is useful for answering the given question. We propose a weakly supervised method for training the RE simply utilizing question-answer data without any labels for correct contexts. We show that RE trained with a small generator (sLM) can not only improve the sLM fine-tuned together with RE but also improve previously unreferenced large language models (LLMs). Furthermore, we investigate new decoding strategies that utilize the proposed confidence measured by RE such as choosing to let the user know that it is "unanswerable" to answer the question given the retrieved contexts or choosing to rely on LLM's parametric knowledge rather than unrelated contexts.
翻訳日:2024-06-19 02:00:43 公開日:2024-06-16
# LLMベースのエージェントに関する調査: 共通ワークフローと再利用可能なLCMプロファイリングコンポーネント

A Survey on LLM-Based Agents: Common Workflows and Reusable LLM-Profiled Components ( http://arxiv.org/abs/2406.05804v2 )

ライセンス: Link先を確認
Xinzhe Li, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、LLMベースのエージェントを開発するための高度なフレームワークの開発を触媒にしている。 しかし、これらのフレームワーク r の複雑さは、粒度レベルでのニュアンスド・差別化のハードルとなり、異なるフレームワーク間の効率的な実装を可能にし、将来の研究を促進する上で重要な側面となる。 したがって,本調査の主な目的は,共通ワークフローと再利用可能なLLM-Profiled Components(LMPC)を識別することにより,近年提案されている多種多様なフレームワークの密集的な理解を促進することである。

Recent advancements in Large Language Models (LLMs) have catalyzed the development of sophisticated frameworks for developing LLM-based agents. However, the complexity of these frameworks r poses a hurdle for nuanced differentiation at a granular level, a critical aspect for enabling efficient implementations across different frameworks and fostering future research. Hence, the primary purpose of this survey is to facilitate a cohesive understanding of diverse recently proposed frameworks by identifying common workflows and reusable LLM-Profiled Components (LMPCs).
翻訳日:2024-06-19 02:00:43 公開日:2024-06-16
# LGR2:階層的強化学習を加速するための言語ガイド付きリワードリラボ

LGR2: Language Guided Reward Relabeling for Accelerating Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2406.05881v2 )

ライセンス: Link先を確認
Utsav Singh, Pramit Bhattacharyya, Vinay P. Namboodiri, (参考訳) 複雑なロボット制御タスクを解決するために自然言語命令を活用するインタラクティブシステムを開発することは、ロボットコミュニティで長年望まれてきた目標だった。 大規模言語モデル(LLM)は論理的推論、文脈内学習、コード生成といった複雑なタスクを扱う際、例外的な能力を示している。 しかし,LLMを用いた低レベルのロボット動作の予測には大きな課題がある。 さらに、そのようなタスクの複雑さは、通常、様々なサブタスクを実行し、それらを組み合わせて最終的な目的を達成するためにポリシーの取得を要求する。 階層強化学習(Hierarchical Reinforcement Learning, HRL)は、時間的抽象化の直感的なメリットと探索の改善を提供する、このような課題を解決するためのエレガントなアプローチである。 しかし、HRLは不安定な低い原始的振る舞いのため、非定常性の繰り返しの問題に直面している。 本研究では,言語命令を利用した高レベルポリシーのための静的報酬関数を生成する新しいHRLフレームワークであるLGR2を提案する。 言語誘導報酬は、より低い原始的な振る舞いの影響を受けないため、LGR2は非定常性を軽減し、ロボット制御タスクを解決するために言語命令を活用するエレガントな方法である。 提案手法の有効性を明らかにするため,実験解析を行い,LGR2がHRLの非定常性を効果的に緩和することを示した。 我々のアプローチは、ベースラインが大きな進歩を達成できない、困難でスパースなロボットナビゲーションと操作環境において、70$\%以上の成功率を達成する。 さらに,実世界のロボット操作実験を行い,実世界のシナリオにおいてCRISPが顕著な一般化を示した。

Developing interactive systems that leverage natural language instructions to solve complex robotic control tasks has been a long-desired goal in the robotics community. Large Language Models (LLMs) have demonstrated exceptional abilities in handling complex tasks, including logical reasoning, in-context learning, and code generation. However, predicting low-level robotic actions using LLMs poses significant challenges. Additionally, the complexity of such tasks usually demands the acquisition of policies to execute diverse subtasks and combine them to attain the ultimate objective. Hierarchical Reinforcement Learning (HRL) is an elegant approach for solving such tasks, which provides the intuitive benefits of temporal abstraction and improved exploration. However, HRL faces the recurring issue of non-stationarity due to unstable lower primitive behaviour. In this work, we propose LGR2, a novel HRL framework that leverages language instructions to generate a stationary reward function for the higher-level policy. Since the language-guided reward is unaffected by the lower primitive behaviour, LGR2 mitigates non-stationarity and is thus an elegant method for leveraging language instructions to solve robotic control tasks. To analyze the efficacy of our approach, we perform empirical analysis and demonstrate that LGR2 effectively alleviates non-stationarity in HRL. Our approach attains success rates exceeding 70$\%$ in challenging, sparse-reward robotic navigation and manipulation environments where the baselines fail to achieve any significant progress. Additionally, we conduct real-world robotic manipulation experiments and demonstrate that CRISP shows impressive generalization in real-world scenarios.
翻訳日:2024-06-19 02:00:43 公開日:2024-06-16
# LLM生成コードはどの程度効率的か?厳格で高水準なベンチマーク

How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark ( http://arxiv.org/abs/2406.06647v2 )

ライセンス: Link先を確認
Ruizhong Qiu, Weiliang Will Zeng, Hanghang Tong, James Ezick, Christopher Lott, (参考訳) 大規模言語モデル(LLM)の出現は、プログラム合成のフロンティアを著しく押し上げている。 LLMに基づくプログラム合成の進歩は、LLM生成コードの徹底的な評価を要求する。 ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。 本研究では,LLMの効率性を評価するための厳密で高水準なベンチマークであるENAMEL (EfficeNcy AutoMatic EvaLuator) を開発した。 まず、eff@kと呼ばれる新しい効率指標を提案する。これは、pass@kメトリックを正確性から効率性に一般化し、正しく検閲された実行時間を適切に処理する。 さらに,Rao-Blackwellization による eff@k の非バイアスおよび分散還元推定器を導出し,新しい推定器の数値的に安定な実装も提供する。 第2に、効率評価のための高標準を設定するために、人間の専門家を用いて、効率の基準解として最適なアルゴリズムと実装を設計し、その多くがHumanEvalやHumanEval+の既存の標準解よりもはるかに効率的である。 さらに、厳密な評価を確保するために、人間の専門家を用いて、強力なテストケースジェネレータをキュレートし、間違ったコードをフィルタリングし、準最適アルゴリズムを区別する。 我々のベンチマークENAMELを用いた30の人気のあるLLMの広範な研究は、LLMがまだ専門家レベルの効率的なコードを生成するに足りていないことを示している。 我々の問題集合の2つの部分集合を用いて、そのような不足は、現在のLLMが高度なアルゴリズムの設計に苦慮し、実装の最適化をほとんど意識していないためであることを示す。 私たちのベンチマークはhttps://github.com/q-rz/enamelで公開されています。

The emergence of large language models (LLMs) has significantly pushed the frontiers of program synthesis. Advancement of LLM-based program synthesis calls for a thorough evaluation of LLM-generated code. Most evaluation frameworks focus on the (functional) correctness of generated code; efficiency, as an important measure of code quality, has been overlooked in existing evaluations. In this work, we develop ENAMEL (EfficeNcy AutoMatic EvaLuator), a rigorous and high-standard benchmark for evaluating the capability of LLMs in generating efficient code. Firstly, we propose a new efficiency metric called eff@k, which generalizes the pass@k metric from correctness to efficiency and appropriately handles right-censored execution time. Furthermore, we derive an unbiased and variance-reduced estimator of eff@k via Rao--Blackwellization; we also provide a numerically stable implementation for the new estimator. Secondly, to set a high-standard for efficiency evaluation, we employ a human expert to design best algorithms and implementations as our reference solutions of efficiency, many of which are much more efficient than existing canonical solutions in HumanEval and HumanEval+. Moreover, to ensure a rigorous evaluation, we employ a human expert to curate strong test case generators to filter out wrong code and differentiate suboptimal algorithms. An extensive study across 30 popular LLMs using our benchmark ENAMEL shows that LLMs still fall short of generating expert-level efficient code. Using two subsets of our problem set, we demonstrate that such deficiency is because current LLMs struggle in designing advanced algorithms and are barely aware of implementation optimization. Our benchmark is publicly available at https://github.com/q-rz/enamel .
翻訳日:2024-06-19 02:00:43 公開日:2024-06-16
# HO-Cap:手-手-手のインタラクションの3次元再構成と姿勢追跡のためのキャプチャシステムとデータセット

HO-Cap: A Capture System and Dataset for 3D Reconstruction and Pose Tracking of Hand-Object Interaction ( http://arxiv.org/abs/2406.06843v2 )

ライセンス: Link先を確認
Jikai Wang, Qifan Zhang, Yu-Wei Chao, Bowen Wen, Xiaohu Guo, Yu Xiang, (参考訳) データキャプチャシステムとHO-Capと呼ばれる新しいデータセットを導入し、ビデオ内の手や物体の3D再構成やポーズの追跡に使用することができる。 キャプチャシステムは複数のRGB-DカメラとHoloLensヘッドセットをデータ収集に使用し、高価な3Dスキャナーやモキャップシステムの使用を避ける。 そこで本研究では,手や物体の形状やポーズのアノテーションを得るための半自動的手法を提案し,手動ラベリングと比較して,必要なアノテーション時間を著しく短縮する。 このシステムでは、物体を使って異なるタスクをこなすためのビデオデータセットと、物体を片手で簡単にピックアップ・アンド・プレース・アンド・ハンドオーバし、AIとロボット操作の研究のための人間のデモとして使用できる。 我々のデータキャプチャのセットアップとアノテーションフレームワークは、コミュニティがオブジェクトと人間の手の3D形状を再構築し、それらのポーズをビデオで追跡するために使用することができる。

We introduce a data capture system and a new dataset named HO-Cap that can be used to study 3D reconstruction and pose tracking of hands and objects in videos. The capture system uses multiple RGB-D cameras and a HoloLens headset for data collection, avoiding the use of expensive 3D scanners or mocap systems. We propose a semi-automatic method to obtain annotations of shape and pose of hands and objects in the collected videos, which significantly reduces the required annotation time compared to manual labeling. With this system, we captured a video dataset of humans using objects to perform different tasks, as well as simple pick-and-place and handover of an object from one hand to the other, which can be used as human demonstrations for embodied AI and robot manipulation research. Our data capture setup and annotation framework can be used by the community to reconstruct 3D shapes of objects and human hands and track their poses in videos.
翻訳日:2024-06-19 01:50:51 公開日:2024-06-16
# ロバストステレオマッチングのためのステップワイズ回帰と事前訓練エッジ

Stepwise Regression and Pre-trained Edge for Robust Stereo Matching ( http://arxiv.org/abs/2406.06953v3 )

ライセンス: Link先を確認
Weiqing Xiao, Wei Zhao, (参考訳) 実検体と地上の真理を得るのが難しいため、実世界のアプリケーションにおけるステレオマッチング手法の実現には、一般化性能と微調整性能が不可欠である。 しかし、異なるデータセット間での実質的な格差分布と密度の変動の存在は、モデルの一般化と微調整に重大な課題をもたらす。 本稿では, SR-Stereoと呼ばれる新しいステレオマッチング手法を提案する。この手法は, 差分クリップの予測により, 異なるデータセット間の分布差を緩和し, 差分クリップの精度を向上させるために, 回帰目標スケールに関連する損失重みを用いる。 さらに、この段階的な回帰アーキテクチャは、構造を変更することなく、既存のイテレーションベースのメソッドに容易に拡張でき、パフォーマンスを向上させることができる。 さらに, 未熟な土台真実に基づく微調整モデルのエッジぼかしを軽減するために, 事前学習エッジに基づくドメイン適応を提案する。 具体的には、予測不一致とRGB画像を用いて、対象領域画像のエッジマップを推定する。 エッジマップをフィルタリングしてエッジマップ背景の擬似ラベルを生成し、対象領域におけるスパース基底の真相の相違とともに、事前訓練されたステレオマッチングモデルを協調的に微調整する監督を行う。 これらの手法は,SceneFlow,KITTI,Middbury 2014,ETH3Dで広く評価されている。 SR-Stereoは、競争格差推定性能と最先端のクロスドメイン一般化性能を達成する。 一方,DAPEは,特にテクスチャレス領域とディテール領域において,微調整モデルの分散度推定性能を著しく向上させる。

Due to the difficulty in obtaining real samples and ground truth, the generalization performance and the fine-tuned performance are critical for the feasibility of stereo matching methods in real-world applications. However, the presence of substantial disparity distributions and density variations across different datasets presents significant challenges for the generalization and fine-tuning of the model. In this paper, we propose a novel stereo matching method, called SR-Stereo, which mitigates the distributional differences across different datasets by predicting the disparity clips and uses a loss weight related to the regression target scale to improve the accuracy of the disparity clips. Moreover, this stepwise regression architecture can be easily extended to existing iteration-based methods to improve the performance without changing the structure. In addition, to mitigate the edge blurring of the fine-tuned model on sparse ground truth, we propose Domain Adaptation Based on Pre-trained Edges (DAPE). Specifically, we use the predicted disparity and RGB image to estimate the edge map of the target domain image. The edge map is filtered to generate edge map background pseudo-labels, which together with the sparse ground truth disparity on the target domain are used as a supervision to jointly fine-tune the pre-trained stereo matching model. These proposed methods are extensively evaluated on SceneFlow, KITTI, Middbury 2014 and ETH3D. The SR-Stereo achieves competitive disparity estimation performance and state-of-the-art cross-domain generalisation performance. Meanwhile, the proposed DAPE significantly improves the disparity estimation performance of fine-tuned models, especially in the textureless and detail regions.
翻訳日:2024-06-19 01:50:51 公開日:2024-06-16
# Fetch-A-Set: 歴史的文書検索のための大規模OCRフリーベンチマーク

Fetch-A-Set: A Large-Scale OCR-Free Benchmark for Historical Document Retrieval ( http://arxiv.org/abs/2406.07315v2 )

ライセンス: Link先を確認
Adrià Molina, Oriol Ramos Terrades, Josep Lladós, (参考訳) 本稿では, 歴史的文書分析システムに適した総合ベンチマークであるFetch-A-Set(FAS)を紹介し, 歴史的文脈における大規模文書検索の課題に対処する。 このベンチマークは、XVII世紀までさかのぼる膨大な文書のリポジトリを含んでおり、トレーニングリソースと検索システムの評価ベンチマークとして機能している。 文化遺産の領域における複雑な抽出作業に焦点をあてることで、文学における重要なギャップを埋める。 提案するベンチマークでは,クエリのテキスト・ツー・イメージ検索や文書断片からの画像・ツー・テキストのトピック抽出など,文書の可読性のレベルを調整しながら,過去の文書分析の多面的問題に対処する。 本ベンチマークは, 強靭な歴史文書検索システムの開発・評価, 特に広範に歴史スペクトルを特徴とするシナリオのベースラインとデータを提供することにより, 分野の進歩を加速することを目的としている。

This paper introduces Fetch-A-Set (FAS), a comprehensive benchmark tailored for legislative historical document analysis systems, addressing the challenges of large-scale document retrieval in historical contexts. The benchmark comprises a vast repository of documents dating back to the XVII century, serving both as a training resource and an evaluation benchmark for retrieval systems. It fills a critical gap in the literature by focusing on complex extractive tasks within the domain of cultural heritage. The proposed benchmark tackles the multifaceted problem of historical document analysis, including text-to-image retrieval for queries and image-to-text topic extraction from document fragments, all while accommodating varying levels of document legibility. This benchmark aims to spur advancements in the field by providing baselines and data for the development and evaluation of robust historical document retrieval systems, particularly in scenarios characterized by wide historical spectrum.
翻訳日:2024-06-19 01:50:51 公開日:2024-06-16
# DR-RAG: 質問応答のための検索拡張生成への動的文書関連の適用

DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-Answering ( http://arxiv.org/abs/2406.07348v3 )

ライセンス: Link先を確認
Zijian Hei, Weiling Liu, Wenjie Ou, Juyi Qiao, Junming Jiao, Guowen Song, Ting Tian, Yi Lin, (参考訳) Retrieval-Augmented Generation (RAG)は、最近、質問応答(QA)のような知識集約的なタスクにおいて、LLM(Large Language Models)の性能を実証した。 RAGは、応答精度を高めるために外部知識ベースを組み込むことで、クエリコンテキストを拡張する。 しかし、クエリ毎に複数回LLMにアクセスするのは効率が悪いため、関連するすべてのドキュメントを単一のクエリで取得することは信頼できない。 重要な文書とクエリの間には関連性が低いものの,文書の一部とクエリを組み合わせることで,残りの文書を検索できることがわかった。 関連性を検討するため,文書検索のリコールと回答の精度を向上させるため,DR-RAG(Dynamic-Relevant Retrieval-Augmented Generation)と呼ばれる2段階検索フレームワークを提案する。 さらに、2つの異なる選択戦略にコンパクトな分類器を適用して、検索した文書のクエリへの寄与を判定し、相対的に関連する文書を検索する。 一方、DR-RAGはLSMを一度だけ呼び、実験の効率を大幅に向上させる。 マルチホップQAデータセットの実験結果から,DR-RAGは回答の精度を大幅に向上し,QAシステムの新たな進歩を達成できることが示された。

Retrieval-Augmented Generation (RAG) has recently demonstrated the performance of Large Language Models (LLMs) in the knowledge-intensive tasks such as Question-Answering (QA). RAG expands the query context by incorporating external knowledge bases to enhance the response accuracy. However, it would be inefficient to access LLMs multiple times for each query and unreliable to retrieve all the relevant documents by a single query. We have found that even though there is low relevance between some critical documents and query, it is possible to retrieve the remaining documents by combining parts of the documents with the query. To mine the relevance, a two-stage retrieval framework called Dynamic-Relevant Retrieval-Augmented Generation (DR-RAG) is proposed to improve document retrieval recall and the accuracy of answers while maintaining efficiency. Additionally, a compact classifier is applied to two different selection strategies to determine the contribution of the retrieved documents to answering the query and retrieve the relatively relevant documents. Meanwhile, DR-RAG call the LLMs only once, which significantly improves the efficiency of the experiment. The experimental results on multi-hop QA datasets show that DR-RAG can significantly improve the accuracy of the answers and achieve new progress in QA systems.
翻訳日:2024-06-19 01:50:51 公開日:2024-06-16
# YouTube、TikTok、その他2024年の麻疹のアウトブレイクに関する動画の感情分析のためのラベル付きデータセット

A Labelled Dataset for Sentiment Analysis of Videos on YouTube, TikTok, and Other Sources about the 2024 Outbreak of Measles ( http://arxiv.org/abs/2406.07693v2 )

ライセンス: Link先を確認
Nirmalya Thakur, Vanessa Su, Mingchen Shao, Kesha A. Patel, Hongseok Jeong, Victoria Knieling, Andrew Bian, (参考訳) 本稿では,2024年1月1日から5月31日までにインターネット上の264のウェブサイトで公表された麻疹の流行に関する4011件のビデオデータを含むデータセットを提案する。 データセットはhttps://dx.doi.org/10.21227/40s8-xf63で公開されている。 これらのウェブサイトにはYouTubeとTikTokが含まれるが、これはそれぞれ48.6%と15.2%である。 残りのWebサイトは、InstagramとFacebookだけでなく、さまざまなグローバルおよびローカルなニュース組織のWebサイトも含んでいる。 これらのビデオのそれぞれについて、ビデオのURL、投稿のタイトル、投稿の説明、およびビデオの公開日をデータセット内の別の属性として提示する。 このデータセットを開発した後、ビデオタイトルとビデオ記述の感情分析(VADERを用いた)、主観的分析(TextBlobを用いた)、微粒な感情分析(DistilRoBERTaベースを用いた)を行った。 これには、各ビデオタイトルとビデオ記述を分類することが含まれる。 (i)肯定的、否定的、中立的な感情階級の1つ (二)主観的階級の1つ、即ち、高い意見、中立的な意見、または、最小の意見 (三)恐怖、驚き、喜び、悲しみ、怒り、嫌悪、中立という微粒な感情のクラスの一つ。 これらの結果は、この分野での感情分析や主観分析を行う機械学習アルゴリズムのトレーニングとテストのためのデータセットと、他のアプリケーションのためのデータセットの別属性として提示される。 最後に,本データセットを用いて検討することのできるオープンリサーチ質問のリストも提示する。

The work of this paper presents a dataset that contains the data of 4011 videos about the ongoing outbreak of measles published on 264 websites on the internet between January 1, 2024, and May 31, 2024. The dataset is available at https://dx.doi.org/10.21227/40s8-xf63. These websites primarily include YouTube and TikTok, which account for 48.6% and 15.2% of the videos, respectively. The remainder of the websites include Instagram and Facebook as well as the websites of various global and local news organizations. For each of these videos, the URL of the video, title of the post, description of the post, and the date of publication of the video are presented as separate attributes in the dataset. After developing this dataset, sentiment analysis (using VADER), subjectivity analysis (using TextBlob), and fine-grain sentiment analysis (using DistilRoBERTa-base) of the video titles and video descriptions were performed. This included classifying each video title and video description into (i) one of the sentiment classes i.e. positive, negative, or neutral, (ii) one of the subjectivity classes i.e. highly opinionated, neutral opinionated, or least opinionated, and (iii) one of the fine-grain sentiment classes i.e. fear, surprise, joy, sadness, anger, disgust, or neutral. These results are presented as separate attributes in the dataset for the training and testing of machine learning algorithms for performing sentiment analysis or subjectivity analysis in this field as well as for other applications. Finally, this paper also presents a list of open research questions that may be investigated using this dataset.
翻訳日:2024-06-19 01:41:06 公開日:2024-06-16
# 間接ユーザ要求の合成によるタスク指向対話データセットのより自然な作成

Making Task-Oriented Dialogue Datasets More Natural by Synthetically Generating Indirect User Requests ( http://arxiv.org/abs/2406.07794v2 )

ライセンス: Link先を確認
Amogh Mannekote, Jinseok Nam, Ziming Li, Jian Gao, Kristy Elizabeth Boyer, Bonnie J. Dorr, (参考訳) ヒューマン・ヒューマン・タスク指向の対話では,「温度を上げるか?」の代わりに「ここで冷やす」などの間接的ユーザ・リクエスト(IUR)が一般的であり,聞き手からの世界的知識と実践的推論を必要とする。 大きな言語モデル(LLM)はこれらの要求を効果的に処理できるが、仮想アシスタントにデプロイされる小さなモデルはリソースの制約のためにしばしば苦労する。 さらに、既存のタスク指向の対話ベンチマークでは、間接性のような複雑な談話現象の十分な例が欠如している。 そこで本研究では,自然言語理解(NLU)と対話状態追跡(DST)モデルをテストするために,LLMベースのパイプラインとともに言語基準のセットを提案する。 IndirectRequestsは、Schema Guided Dialog(SGD)コーパスに基づくIURのデータセットであり、間接リクエストを処理する際のより小さなモデルの性能を評価するための比較テストベッドである。

Indirect User Requests (IURs), such as "It's cold in here" instead of "Could you please increase the temperature?" are common in human-human task-oriented dialogue and require world knowledge and pragmatic reasoning from the listener. While large language models (LLMs) can handle these requests effectively, smaller models deployed on virtual assistants often struggle due to resource constraints. Moreover, existing task-oriented dialogue benchmarks lack sufficient examples of complex discourse phenomena such as indirectness. To address this, we propose a set of linguistic criteria along with an LLM-based pipeline for generating realistic IURs to test natural language understanding (NLU) and dialogue state tracking (DST) models before deployment in a new domain. We also release IndirectRequests, a dataset of IURs based on the Schema Guided Dialog (SGD) corpus, as a comparative testbed for evaluating the performance of smaller models in handling indirect requests.
翻訳日:2024-06-19 01:41:06 公開日:2024-06-16
# デジタル双生児による強化強化学習型資源管理に向けて--機会・応用・課題

Toward Enhanced Reinforcement Learning-Based Resource Management via Digital Twin: Opportunities, Applications, and Challenges ( http://arxiv.org/abs/2406.07857v2 )

ライセンス: Link先を確認
Nan Cheng, Xiucheng Wang, Zan Li, Zhisheng Yin, Tom Luan, Xuemin Shen, (参考訳) 本稿では,ネットワーク資源管理における性能と信頼性の最適化を目的としたデジタルツイン(DT)強化強化学習(RL)フレームワークについて述べる。 以上の課題に対処するため,統合されたRLベースのリソース管理のための収束速度と性能を向上させるため,包括的なDTベースのフレームワークが提案されている。 提案するフレームワークは、安全な行動探索、長期的なリターンのより正確な推定、トレーニング収束の高速化、コンバージェンス性能の向上、様々なネットワーク条件へのリアルタイム適応を提供する。 次に,超信頼性・低遅延通信 (URLLC) サービスと複数の無人航空機 (UAV) ネットワークに関する2つの事例研究を行い,従来のRLとニューラルネットワークに基づくDeep RL (DRL) による性能,収束速度,トレーニングコスト削減の枠組みの改善を実証した。 最後に、この記事は、この急速に発展する分野における研究課題とオープンな問題を特定し、調査する。

This article presents a digital twin (DT)-enhanced reinforcement learning (RL) framework aimed at optimizing performance and reliability in network resource management, since the traditional RL methods face several unified challenges when applied to physical networks, including limited exploration efficiency, slow convergence, poor long-term performance, and safety concerns during the exploration phase. To deal with the above challenges, a comprehensive DT-based framework is proposed to enhance the convergence speed and performance for unified RL-based resource management. The proposed framework provides safe action exploration, more accurate estimates of long-term returns, faster training convergence, higher convergence performance, and real-time adaptation to varying network conditions. Then, two case studies on ultra-reliable and low-latency communication (URLLC) services and multiple unmanned aerial vehicles (UAV) network are presented, demonstrating improvements of the proposed framework in performance, convergence speed, and training cost reduction both on traditional RL and neural network based Deep RL (DRL). Finally, the article identifies and explores some of the research challenges and open issues in this rapidly evolving field.
翻訳日:2024-06-19 01:41:06 公開日:2024-06-16
# A$^{2}$-MAE:アンカー・アウェア・マスク付きオートエンコーダを用いた空間・時空間統合型リモートセンシング事前学習法

A$^{2}$-MAE: A spatial-temporal-spectral unified remote sensing pre-training method based on anchor-aware masked autoencoder ( http://arxiv.org/abs/2406.08079v3 )

ライセンス: Link先を確認
Lixian Zhang, Yi Zhao, Runmin Dong, Jinxiao Zhang, Shuai Yuan, Shilei Cao, Mengxuan Chen, Juepeng Zheng, Weijia Li, Wei Liu, Wayne Zhang, Litong Feng, Haohuan Fu, (参考訳) 大規模なリモートセンシング(RS)データは、土地利用監視、防災、環境変化の緩和といった世界規模の課題に対処するために欠かせない重要な空間、時間、スペクトル情報を含む、複数の次元にわたる地球観測を提供する。 RSデータの特徴に合わせた様々な事前学習手法にもかかわらず、重要な制限は持続する: 空間、時間、スペクトル情報を単一の統一モデルに効果的に統合できないことである。 RSデータの可能性を解き明かすため、複数のRSソースの組み込み、多様なカバレッジ、画像集合内の統一された位置、画像内の不均一性を特徴とする空間-時間-スペクトル構造データセット(STSSD)を構築した。 この構造的データセットに基づいて、異なる種類の画像と地理情報から固有の補完情報を活用するアンカー・アウェア・マスク付きオートエンコーダ法(A$^{2}$-MAE)を提案し、事前学習期間中にマスク付きパッチを再構築する。 A$^{2}$-MAEはアンカー対応マスキング戦略と地理符号化モジュールを統合し、RS画像の特性を包括的に活用する。 具体的には,事前に選択したアンカー画像のメタ情報に基づいて,アンカー認識マスキング戦略を動的に適応させることにより,モデル内の多様なRSソースから取得した画像のトレーニングを容易にする。 さらに,正確な空間パターンを活用するための地理符号化手法を提案し,一般的に位置関係の低い下流アプリケーションに対して,モデル一般化能力を向上する。 画像分類,セマンティックセグメンテーション,変化検出タスクなど,既存のRS事前学習手法と比較して,提案手法は様々なダウンストリームタスクを網羅的に改善することを示した。

Vast amounts of remote sensing (RS) data provide Earth observations across multiple dimensions, encompassing critical spatial, temporal, and spectral information which is essential for addressing global-scale challenges such as land use monitoring, disaster prevention, and environmental change mitigation. Despite various pre-training methods tailored to the characteristics of RS data, a key limitation persists: the inability to effectively integrate spatial, temporal, and spectral information within a single unified model. To unlock the potential of RS data, we construct a Spatial-Temporal-Spectral Structured Dataset (STSSD) characterized by the incorporation of multiple RS sources, diverse coverage, unified locations within image sets, and heterogeneity within images. Building upon this structured dataset, we propose an Anchor-Aware Masked AutoEncoder method (A$^{2}$-MAE), leveraging intrinsic complementary information from the different kinds of images and geo-information to reconstruct the masked patches during the pre-training phase. A$^{2}$-MAE integrates an anchor-aware masking strategy and a geographic encoding module to comprehensively exploit the properties of RS images. Specifically, the proposed anchor-aware masking strategy dynamically adapts the masking process based on the meta-information of a pre-selected anchor image, thereby facilitating the training on images captured by diverse types of RS sources within one model. Furthermore, we propose a geographic encoding method to leverage accurate spatial patterns, enhancing the model generalization capabilities for downstream applications that are generally location-related. Extensive experiments demonstrate our method achieves comprehensive improvements across various downstream tasks compared with existing RS pre-training methods, including image classification, semantic segmentation, and change detection tasks.
翻訳日:2024-06-19 01:41:06 公開日:2024-06-16
# 機械学習におけるクラスラベルとターゲット概念の分離

Decoupling the Class Label and the Target Concept in Machine Unlearning ( http://arxiv.org/abs/2406.08288v2 )

ライセンス: Link先を確認
Jianing Zhu, Bo Han, Jiangchao Yao, Jianliang Xu, Gang Niu, Masashi Sugiyama, (参考訳) データ規制の新たな研究トピックである機械学習は、トレーニングデータの一部を除外した再トレーニングされたモデルを近似するために、トレーニングされたモデルを調整することを目的としている。 過去の研究では、学習内容の未学習は、学習対象の授業の知識を忘れることに成功し、忘れるデータへの勾配の上昇や、残りのデータとの微調整を通じて成功した。 しかし、これらの手法は有用であるが、クラスラベルとターゲット概念が一致していると考えられるため不十分である。 本研究は,ラベル領域のミスマッチを考慮し,従来の一致した3つの問題,例えば,ターゲットミスマッチ,モデルミスマッチ,データミスマッチの3つを調査することによって,それらを分離する。 我々は,対象概念を限定的に忘れる新たな課題を体系的に分析し,これらの課題を実現するために,表現レベルにおける重要な忘れのダイナミクスを明らかにする。 そこで我々は,TARF(TARget-aware Forgetting)という一般的なフレームワークを提案する。 これにより、残部を維持しながら目標概念を積極的に忘れることができ、同時に、忘れデータおよび選択した残部データに熱処理された勾配上昇を同時に行うことができる。 実験により, TARFの有効性を実証するため, 新たに導入した環境下で種々の実験を行った。

Machine unlearning as an emerging research topic for data regulations, aims to adjust a trained model to approximate a retrained one that excludes a portion of training data. Previous studies showed that class-wise unlearning is successful in forgetting the knowledge of a target class, through gradient ascent on the forgetting data or fine-tuning with the remaining data. However, while these methods are useful, they are insufficient as the class label and the target concept are often considered to coincide. In this work, we decouple them by considering the label domain mismatch and investigate three problems beyond the conventional all matched forgetting, e.g., target mismatch, model mismatch, and data mismatch forgetting. We systematically analyze the new challenges in restrictively forgetting the target concept and also reveal crucial forgetting dynamics in the representation level to realize these tasks. Based on that, we propose a general framework, namely, TARget-aware Forgetting (TARF). It enables the additional tasks to actively forget the target concept while maintaining the rest part, by simultaneously conducting annealed gradient ascent on the forgetting data and selected gradient descent on the hard-to-affect remaining data. Empirically, various experiments under the newly introduced settings are conducted to demonstrate the effectiveness of our TARF.
翻訳日:2024-06-19 01:41:06 公開日:2024-06-16
# Jaynes-Cummingsモデルにおける放射スペクトルとトラップ状態について

A note on the emission spectrum and trapping states in the Jaynes-Cummings model ( http://arxiv.org/abs/2406.10763v1 )

ライセンス: Link先を確認
J. L. T. Bertassoli, A. Vidiella-Barranco, (参考訳) 原子からの光の放出は、原子と光の相互作用に関する貴重な洞察を提供する基本的な過程である。 ジャイネス・カミングスモデル(Jaynes-Cummings model)は、これらの相互作用を扱うための最も単純で完全に量子化されたモデルの一つであり、解析的な解が得られながら、顕著な非自明な効果を示す。 初期の「トッピング状態」に対する蛍光スペクトルの新たな特徴を探求し,原子集団の逆転を抑制する。 原子の休眠のように見える活動にもかかわらず、結果として生じる放出スペクトルは豊富な特徴を示し、着飾った状態座標を用いてスペクトルの異なるプロファイルを定量的に説明することができる。 我々は、非ゼロ原子場デチューニングのトラップ条件を一般化し、3つのピークを持つスペクトルにつながる2種類のトラップ状態を明らかにする。 これらは、ポアソニアン統計(ヤルケ・ストーラー状態)と異なるタイプの「完璧なトラップ状態」を持つシュリンガー猫状態によって形成されるトラップ状態である。

The emission of light from an atom represents a fundamental process that provides valuable insights into the atom-light interaction. The Jaynes-Cummings model is one of the simplest fully quantized models to deal with these interactions, allowing for an analytical solution, while exhibiting notable non-trivial effects. We explore new features in the fluorescence emission spectrum for initial "trapping states", which suppress the atomic population inversion. Despite the seemingly dormant activity of the atom, the resulting emission spectra exhibit rich features, and using a dressed-state coordinates formalism, we are able to quantitatively explain the different profiles in the spectrum. We generalize the trapping conditions for non-zero atom-field detuning and also unveil two types of trapping states that lead to spectra with three peaks, in contrast to previously known states: a center peak and one secondary peak on each side. These are a trapping state formed by a Schr\"odinger cat state with Poissonian statistics (Yurke-Stoler state) and also a different type of "perfect trapping state".
翻訳日:2024-06-18 21:01:13 公開日:2024-06-16
# GNOME: 取引所のオープンドメインマッピングによる交渉生成

GNOME: Generating Negotiations through Open-Domain Mapping of Exchanges ( http://arxiv.org/abs/2406.10764v1 )

ライセンス: Link先を確認
Darshan Deshpande, Shambhavi Sinha, Anirudh Ravi Kumar, Debaditya Pal, Jonathan May, (参考訳) 言語モデルは、交渉戦略予測範囲が特定の設定に制約されるクローズドドメインにおいて、強力な交渉能力を示してきた。 本稿では,これらのモデルが,大規模な事前学習にもかかわらず,元のトレーニング領域を超えて一般化できないことを示す。 次に,GNOMEというフレームワークを提案する。GNOMEは,大規模言語モデルを用いて既存の人間アノテーション付きクローズドドメインデータセットを処理し,交渉のための合成オープンドメイン対話を生成する。 GNOMEは、手作業によるデータキュレーションのコストと主観性を低減しつつ、交渉システムの一般化性を向上させる。 実験的なセットアップを通じて、既存のデータセットでトレーニングされたエンコーダとデコーダモデルと、GNOMEで生成されたデータセットを比較したベンチマークを作成しました。 以上の結果から,我々のデータセットでトレーニングしたモデルは,従来のドメイン固有の戦略予測の最先端モデルよりも優れた性能を示すだけでなく,これまでは見つからなかった領域よりも一般化されていることがわかった。

Language Models have previously shown strong negotiation capabilities in closed domains where the negotiation strategy prediction scope is constrained to a specific setup. In this paper, we first show that these models are not generalizable beyond their original training domain despite their wide-scale pretraining. Following this, we propose an automated framework called GNOME, which processes existing human-annotated, closed-domain datasets using Large Language Models and produces synthetic open-domain dialogues for negotiation. GNOME improves the generalizability of negotiation systems while reducing the expensive and subjective task of manual data curation. Through our experimental setup, we create a benchmark comparing encoder and decoder models trained on existing datasets against datasets created through GNOME. Our results show that models trained on our dataset not only perform better than previous state of the art models on domain specific strategy prediction, but also generalize better to previously unseen domains.
翻訳日:2024-06-18 21:01:13 公開日:2024-06-16
# Rideshare Transparency: AIプラットフォーム設計に関するGig Worker Insightsをポリシに翻訳する

Rideshare Transparency: Translating Gig Worker Insights on AI Platform Design to Policy ( http://arxiv.org/abs/2406.10768v1 )

ライセンス: Link先を確認
Varun Nagaraj Rao, Samantha Dalal, Eesha Agarwal, D Calacci, Andrés Monroy-Hernández, (参考訳) ライドシェアプラットフォームは、経済的、感情的、身体的損害をもたらすアルゴリズムシステムを通じて、労働者を著しく制御する。 プラットフォーム、デザイナ、実践者は、これらのネガティブな影響を緩和し、労働者のニーズを満たすために、どのようなステップをとれるだろうか? 本稿では,LLMによるオンライン・プラットフォーム・ワーカーコミュニティに投稿された100万件以上のコメントと,労働者の半構造化インタビューを併用した新たな混合手法について述べる。 本研究は,既存のプラットフォーム設計とドライバが必要とする情報,特にプロモーション,運賃,経路,タスク割り当ての透明性のギャップを明らかにするものである。 我々の分析は、ライドシェア労働者は、インフォメーションと呼ばれる重要な情報を必要とし、情報的な仕事の決定を行うことを示唆している。 これらの指標には、乗車、ドライバー統計、アルゴリズムの実装の詳細、プラットフォームポリシー情報などが含まれる。 我々は、そのような情報をデザインに含めるプラットフォームに頼る代わりに、公共の透明性レポートを公開することを要求する新しい規制が、労働者の幸福を改善するためのより効果的なソリューションになるかもしれないと論じている。 我々はそのような政策を実施するための勧告を提示する。

Rideshare platforms exert significant control over workers through algorithmic systems that can result in financial, emotional, and physical harm. What steps can platforms, designers, and practitioners take to mitigate these negative impacts and meet worker needs? In this paper, through a novel mixed methods study combining a LLM-based analysis of over 1 million comments posted to online platform worker communities with semi-structured interviews of workers, we thickly characterize transparency-related harms, mitigation strategies, and worker needs while validating and contextualizing our findings within the broader worker community. Our findings expose a transparency gap between existing platform designs and the information drivers need, particularly concerning promotions, fares, routes, and task allocation. Our analysis suggests that rideshare workers need key pieces of information, which we refer to as indicators, to make informed work decisions. These indicators include details about rides, driver statistics, algorithmic implementation details, and platform policy information. We argue that instead of relying on platforms to include such information in their designs, new regulations that require platforms to publish public transparency reports may be a more effective solution to improve worker well-being. We offer recommendations for implementing such a policy.
翻訳日:2024-06-18 21:01:13 公開日:2024-06-16
# 一様分布とガウス分布の残留モデルによる太陽系外惑星の特徴予測

Predicting Exoplanetary Features with a Residual Model for Uniform and Gaussian Distributions ( http://arxiv.org/abs/2406.10771v1 )

ライセンス: Link先を確認
Andrew Sweet, (参考訳) 技術の進歩により、天体物理学を含むほぼすべての分野におけるデータ収集が増加し、研究者はこのデータを処理し分析するために機械学習に移行した。 天体物理学におけるこのデータの顕著な例は、外惑星の大気観測である。 機械学習と天体物理学の分野の専門家のギャップを埋めるために、2023年のアリエルデータチャレンジは7つの太陽系外惑星の特徴の後方分布を予測するために開催された。 本稿では,この課題に対処するために,多変量ガウス分布の平均と共分散行列を生成する多変量ガウスモデルと,一様分布の上下境界として使用する量子を予測する一様量子化モデルという,2つのディープラーニングモデルの組み合わせを概説した。 多変量ガウスモデルの訓練は不安定であり、一様量子モデルの訓練は安定であった。 均一分布のアンサンブルは、試験中に競争結果(後続スコア696.43)が得られ、多変量ガウス分布と組み合わせると、2023年のアリエルデータチャレンジ(最終スコア681.57)で3位となった。

The advancement of technology has led to rampant growth in data collection across almost every field, including astrophysics, with researchers turning to machine learning to process and analyze this data. One prominent example of this data in astrophysics is the atmospheric retrievals of exoplanets. In order to help bridge the gap between machine learning and astrophysics domain experts, the 2023 Ariel Data Challenge was hosted to predict posterior distributions of 7 exoplanetary features. The procedure outlined in this paper leveraged a combination of two deep learning models to address this challenge: a Multivariate Gaussian model that generates the mean and covariance matrix of a multivariate Gaussian distribution, and a Uniform Quantile model that predicts quantiles for use as the upper and lower bounds of a uniform distribution. Training of the Multivariate Gaussian model was found to be unstable, while training of the Uniform Quantile model was stable. An ensemble of uniform distributions was found to have competitive results during testing (posterior score of 696.43), and when combined with a multivariate Gaussian distribution achieved a final rank of third in the 2023 Ariel Data Challenge (final score of 681.57).
翻訳日:2024-06-18 21:01:13 公開日:2024-06-16
# 実世界のニュース記事のコーパスによる生成メディアバイアスの定量化

Quantifying Generative Media Bias with a Corpus of Real-world and Generated News Articles ( http://arxiv.org/abs/2406.10773v1 )

ライセンス: Link先を確認
Filip Trhlik, Pontus Stenetorp, (参考訳) 大規模言語モデル(LLM)は、ジャーナリズムの分野における彼らの応用への関心が高まり、様々なタスクや領域でますます活用されている。 この傾向は、特に政治的偏見に関して、この領域におけるLLMの振る舞いを限定的に理解することによる懸念を提起する。 現存する研究は、主に政治調査を行うLCMに焦点をあてており、そのバイアスや運用上のニュアンスについての限られた洞察しか提供していない。 このギャップに対処するため,本研究では,2,100個の人文記事を含む新たなキュレートデータセットを構築し,その記述を利用して,9個のLSMを用いて56,700個の合成記事を生成する。 本研究は, 政治的偏見に着目し, 教師付きモデルとLLMの両方を用いて, その特性変化を解析する。 本研究は, 基礎学習モデルと指導学習モデルとの相違を顕著に示し, 政治的偏見が一貫した指導学習モデルについて検討した。 さらに、LLMが分類器としてどのように振る舞うかを研究でき、この役割においても政治的偏見の表示を観察することができる。 全体として、ジャーナリストの領域内ではじめて、この研究は、LLMの政治的偏見とその意味に関するさらなる研究の基盤となる、定量化実験のための構造化されたデータセットを概説した。

Large language models (LLMs) are increasingly being utilised across a range of tasks and domains, with a burgeoning interest in their application within the field of journalism. This trend raises concerns due to our limited understanding of LLM behaviour in this domain, especially with respect to political bias. Existing studies predominantly focus on LLMs undertaking political questionnaires, which offers only limited insights into their biases and operational nuances. To address this gap, our study establishes a new curated dataset that contains 2,100 human-written articles and utilises their descriptions to generate 56,700 synthetic articles using nine LLMs. This enables us to analyse shifts in properties between human-authored and machine-generated articles, with this study focusing on political bias, detecting it using both supervised models and LLMs. Our findings reveal significant disparities between base and instruction-tuned LLMs, with instruction-tuned models exhibiting consistent political bias. Furthermore, we are able to study how LLMs behave as classifiers, observing their display of political bias even in this role. Overall, for the first time within the journalistic domain, this study outlines a framework and provides a structured dataset for quantifiable experiments, serving as a foundation for further research into LLM political bias and its implications.
翻訳日:2024-06-18 20:51:13 公開日:2024-06-16
# Quest: 長期LLMの効率的な推論のためのクエリ対応スポーサリティ

Quest: Query-Aware Sparsity for Efficient Long-Context LLM Inference ( http://arxiv.org/abs/2406.10774v1 )

ライセンス: Link先を確認
Jiaming Tang, Yilong Zhao, Kan Zhu, Guangxuan Xiao, Baris Kasikci, Song Han, (参考訳) 長文大言語モデル(LLM)の需要が増大するにつれて、最大128Kまたは1Mトークンのコンテキストウィンドウを持つモデルはますます広まりつつある。 しかし、長文LLM推論は、シーケンス長が大きくなるにつれて推論速度が大幅に低下するため、困難である。 このスローダウンは、主に自己アテンション中に大きなKVキャッシュをロードすることに起因する。 以前の研究では、重要なトークンのごく一部が注意結果を支配していることが示されている。 しかし,トークンの臨界度はクエリに大きく依存している。 そこで本研究では,クエリ対応のKVキャッシュ選択アルゴリズムであるQuestを提案する。 Questは、KVキャッシュページ内の最小かつ最大キー値を追跡し、クエリベクタを使用して、所定のページの臨界度を推定する。 注意のためにTop-KクリティカルなKVキャッシュページだけをロードすることで、Questは正確さを犠牲にすることなく、自己アテンションを大幅に高速化する。 Questは最大2.23倍のセルフアテンションスピードアップを実現でき、推論の遅延を7.03倍削減できると同時に、無視できる精度の損失のある長いタスクでも良好に動作可能であることを示す。 コードはhttp://github.com/mit-han-lab/Questで入手できる。

As the demand for long-context large language models (LLMs) increases, models with context windows of up to 128K or 1M tokens are becoming increasingly prevalent. However, long-context LLM inference is challenging since the inference speed decreases significantly as the sequence length grows. This slowdown is primarily caused by loading a large KV cache during self-attention. Previous works have shown that a small portion of critical tokens will dominate the attention outcomes. However, we observe the criticality of a token highly depends on the query. To this end, we propose Quest, a query-aware KV cache selection algorithm. Quest keeps track of the minimal and maximal Key values in KV cache pages and estimates the criticality of a given page using Query vectors. By only loading the Top-K critical KV cache pages for attention, Quest significantly speeds up self-attention without sacrificing accuracy. We show that Quest can achieve up to 2.23x self-attention speedup, which reduces inference latency by 7.03x while performing well on tasks with long dependencies with negligible accuracy loss. Code is available at http://github.com/mit-han-lab/Quest .
翻訳日:2024-06-18 20:51:13 公開日:2024-06-16
# 不確実性量子化の速度歪み

A Rate-Distortion View of Uncertainty Quantification ( http://arxiv.org/abs/2406.10775v1 )

ライセンス: Link先を確認
Ifigeneia Apostolopoulou, Benjamin Eysenbach, Frank Nielsen, Artur Dubrawski, (参考訳) ガウス過程のような強力な確率論的モデルは自然にこの性質を持つが、ディープニューラルネットワークはそれを欠いていることが多い。 本稿では,この特性で深層ニューラルネットワークを拡張できる新しい手法であるDistance Aware Bottleneck(DAB)を紹介する。 本手法は,事前情報ボトルネックアプローチに基づいて,トレーニング中に見られるすべての入力の圧縮表現を格納するコードブックを学習する。 このコードブックからの新しい例までの距離は、その例にとって不確実な見積もりとして機能する。 結果として得られるモデルは訓練が簡単で、単一の前方通過による決定論的不確実性推定を提供する。 最後に,本手法は,高価なアンサンブル法,ディープカーネルガウス過程,標準情報ボトルネックに基づくアプローチなど,従来の手法よりも優れた分布外検出と誤分類予測を実現する。

While powerful probabilistic models such as Gaussian Processes naturally have this property, deep neural networks often lack it. In this paper, we introduce Distance Aware Bottleneck (DAB), i.e., a new method for enriching deep neural networks with this property. Building on prior information bottleneck approaches, our method learns a codebook that stores a compressed representation of all inputs seen during training. The distance of a new example from this codebook can serve as an uncertainty estimate for the example. The resulting model is simple to train and provides deterministic uncertainty estimates by a single forward pass. Finally, our method achieves better out-of-distribution (OOD) detection and misclassification prediction than prior methods, including expensive ensemble methods, deep kernel Gaussian Processes, and approaches based on the standard information bottleneck.
翻訳日:2024-06-18 20:51:13 公開日:2024-06-16
# RoseLoRA:知識編集と微調整のための事前学習言語モデルの低ランク適応

RoseLoRA: Row and Column-wise Sparse Low-rank Adaptation of Pre-trained Language Model for Knowledge Editing and Fine-tuning ( http://arxiv.org/abs/2406.10777v1 )

ライセンス: Link先を確認
Haoyu Wang, Tianci Liu, Tuo Zhao, Jing Gao, (参考訳) 大規模コーパスで訓練された事前学習言語モデルは、様々なNLPタスクに対して強力な一般化性を示す。 特定のタスクのためにこれらのモデルを微調整するには、通常、リソース集約的な全てのパラメータを更新する必要がある。 パラメータ効率のよい微調整法(PEFT)では、LoRAファミリのような低ランク行列を導入し、いくつかのパラメータを効率的に学習する。 しかし、推論の間、これらの行列の製品は、事前訓練されたパラメータをすべて更新し、選択的な更新を必要とする知識編集のようなタスクを複雑にする。 本稿では,この課題に対処するため,新しいPEFT法を提案する。 RoseLoRAは、特定のタスクにおいて最も重要なパラメータのみを特定し、更新し、他のモデルの知識を維持しながら効率を維持する。 低ランク行列の積にスパーシリティ制約を加え、行や列の幅に変換することで、効率的かつ正確なモデル更新を確実にする。 我々の理論的解析は、行列積のそれぞれに対する空間境界の低いことを保証している。 20のデータセットにまたがる5つのベンチマークの大規模な実験により、RoseLoRAは一般的な微調整タスクと知識編集タスクの両方においてベースラインを上回っていることが示された。

Pre-trained language models, trained on large-scale corpora, demonstrate strong generalizability across various NLP tasks. Fine-tuning these models for specific tasks typically involves updating all parameters, which is resource-intensive. Parameter-efficient fine-tuning (PEFT) methods, such as the popular LoRA family, introduce low-rank matrices to learn only a few parameters efficiently. However, during inference, the product of these matrices updates all pre-trained parameters, complicating tasks like knowledge editing that require selective updates. We propose a novel PEFT method, which conducts \textbf{r}ow and c\textbf{o}lumn-wise spar\textbf{se} \textbf{lo}w-\textbf{r}ank \textbf{a}daptation (RoseLoRA), to address this challenge. RoseLoRA identifies and updates only the most important parameters for a specific task, maintaining efficiency while preserving other model knowledge. By adding a sparsity constraint on the product of low-rank matrices and converting it to row and column-wise sparsity, we ensure efficient and precise model updates. Our theoretical analysis guarantees the lower bound of the sparsity with respective to the matrix product. Extensive experiments on five benchmarks across twenty datasets demonstrate that RoseLoRA outperforms baselines in both general fine-tuning and knowledge editing tasks.
翻訳日:2024-06-18 20:51:13 公開日:2024-06-16
# ShareLoRA:Shared Low-Rank Adaptationによるパラメータ効率とロバスト大言語モデルの微調整

ShareLoRA: Parameter Efficient and Robust Large Language Model Fine-tuning via Shared Low-Rank Adaptation ( http://arxiv.org/abs/2406.10785v1 )

ライセンス: Link先を確認
Yurun Song, Junchen Zhao, Ian G. Harris, Sangeetha Abdu Jyothi, (参考訳) 本研究は,共有低ランク適応(ShareLoRA)を実装することにより,事前学習言語モデル(PLM)に対するパラメータ効率のよい微調整(PEFT)を最適化する手法を提案する。 異なるレイヤにShareLoRAを戦略的にデプロイし、それを自己アテンションレイヤのクエリ、キー、バリューコンポーネントに適用することにより、トレーニングパラメータの数とメモリ使用量を大幅に削減します。 重要な点として、ShareLoRAはモデル性能を維持するだけでなく、RoBERTa、GPT-2、LLaMA、LLaMA2など、さまざまなモデルの分類および生成タスクにおいて堅牢性を示す。 標準的なLoRAアプリケーションと比較して優れた転送学習能力を示し、レイヤ間で重みを共有することで過度な適合を緩和する。 この結果から、ShareLoRAはパラメータ効率を効果的に向上し、異なる言語モデルアーキテクチャにおけるスケーラブルで高品質な性能を確保します。

This study introduces an approach to optimize Parameter Efficient Fine Tuning (PEFT) for Pretrained Language Models (PLMs) by implementing a Shared Low Rank Adaptation (ShareLoRA). By strategically deploying ShareLoRA across different layers and adapting it for the Query, Key, and Value components of self-attention layers, we achieve a substantial reduction in the number of training parameters and memory usage. Importantly, ShareLoRA not only maintains model performance but also exhibits robustness in both classification and generation tasks across a variety of models, including RoBERTa, GPT-2, LLaMA and LLaMA2. It demonstrates superior transfer learning capabilities compared to standard LoRA applications and mitigates overfitting by sharing weights across layers. Our findings affirm that ShareLoRA effectively boosts parameter efficiency while ensuring scalable and high-quality performance across different language model architectures.
翻訳日:2024-06-18 20:51:13 公開日:2024-06-16
# 一度に複数の問題を持つLLMの評価:LLM能力の探索のための新しいパラダイム

Evaluating LLMs with Multiple Problems at once: A New Paradigm for Probing LLM Capabilities ( http://arxiv.org/abs/2406.10786v1 )

ライセンス: Link先を確認
Zhengxiang Wang, Jordan Kodner, Owen Rambow, (参考訳) 現在のLCM評価は、主に単一問題からなるプロンプトを用いて評価を行う。 LLMの多重問題処理能力を研究するための追加手法として,マルチプロブレム評価を提案する。 本研究では,6つの分類ベンチマークから構築した4種類のタスクに対して,7つのLLMを包括的に検討する。 4つのタスクタイプには、従来のシングルプロブレムタスク、同質なマルチプロブレムタスク、マルチプロブレムタスクを組み込んだ2つのインデックス選択タスクが含まれる。 LLMは、一般に(ほぼ)シングルプロブレムタスクと同様に、マルチプロブレムタスクでも、有能なマルチプロブレム解決器であることがわかった。 さらに、一般的な期待に反して、長い入力を伴う位置バイアスに悩まされないことが多い。 これにより、マルチプロブレムは、実用的重要性の単純で費用効率のよいプロブレム法を推進できる。 しかし,本研究の結果から LLM は, 様々な評価条件下でのマルチプロブレムタスクよりも, 2 つの指標選択タスクにおいて有意に劣るが, 一般にはインデックス選択を行うことができる。

Current LLM evaluation predominantly performs evaluation with prompts comprising single problems. We propose multi-problem evaluation as an additional approach to study the multiple problem handling capabilities of LLMs. We present a systematic study in this regard by comprehensively examining 7 LLMs on 4 related types of tasks constructed from 6 classification benchmarks. The 4 task types include traditional single-problem tasks, homogeneous multi-problem tasks, and two index selection tasks that embed the multi-problem tasks. We find that LLMs are competent multi-problem solvers: they generally perform (nearly) as well on multi-problem tasks as on single-problem tasks. Furthermore, contrary to common expectation, they often do not suffer from a positional bias with long inputs. This makes multi-problem prompting a simple and cost-efficient prompting method of practical significance. However, our results also strongly indicate that LLMs lack true understanding: they perform significantly worse in the two index selection tasks than in the multi-problem task under various evaluation settings, although they can indeed do index selection in general.
翻訳日:2024-06-18 20:51:13 公開日:2024-06-16
# 等角予測を用いた深部分類器の証拠不確かさ集合

Evidential Uncertainty Sets in Deep Classifiers Using Conformal Prediction ( http://arxiv.org/abs/2406.10787v1 )

ライセンス: Link先を確認
Hamed Karimi, Reza Samavi, (参考訳) 本稿では,画像分類器に対して,共形予測セットを生成するためのEvidential Conformal Prediction (ECP)法を提案する。 本手法は,DNN分類器のモデル不確かさを定量化する手法として,Evidential Deep Learning (EDL) のルーツを持つ非整合スコア関数に基づいて設計されている。 対象ラベルのロジット値から導かれるエビデンスを用いて、非整合スコア関数の成分を計算する。 実験により,ECP は実ラベルのカバレッジを維持しつつ,CP のセットサイズと適応性の観点から,最先端の3 つの手法より優れていることが示された。

In this paper, we propose Evidential Conformal Prediction (ECP) method for image classifiers to generate the conformal prediction sets. Our method is designed based on a non-conformity score function that has its roots in Evidential Deep Learning (EDL) as a method of quantifying model (epistemic) uncertainty in DNN classifiers. We use evidence that are derived from the logit values of target labels to compute the components of our non-conformity score function: the heuristic notion of uncertainty in CP, uncertainty surprisal, and expected utility. Our extensive experimental evaluation demonstrates that ECP outperforms three state-of-the-art methods for generating CP sets, in terms of their set sizes and adaptivity while maintaining the coverage of true labels.
翻訳日:2024-06-18 20:51:13 公開日:2024-06-16
# 言語としての交通事故を学習する - データセット,ベンチマーク,そして因果解析

Learning Traffic Crashes as Language: Datasets, Benchmarks, and What-if Causal Analyses ( http://arxiv.org/abs/2406.10789v1 )

ライセンス: Link先を確認
Zhiwen Fan, Pu Wang, Yang Zhao, Yibo Zhao, Boris Ivanovic, Zhangyang Wang, Marco Pavone, Hao Frank Yang, (参考訳) 世界中の道路事故の増加は、大きな損失をもたらすだけでなく、社会に数十億ドルの財政負担を課すことになる。 交通事故頻度のモデリングと分析に関する最近の研究は、主に学習に基づく分類やアンサンブル学習手法を中心に、主に分類タスクとしてこの問題にアプローチしてきた。 これらのアプローチはしばしば、交通事故や危険状況に関連する複雑なインフラ、環境、人間、文脈の複雑な関係を見落としている。 対照的に、私たちは最初、19,340の現実世界のクラッシュレポートを要約し、ワシントン州におけるインフラデータ、環境および交通テキストおよび視覚情報を組み込んだ大規模トラフィッククラッシュ言語データセットCrashEventを提案しました。 このリッチデータセットを活用することで、クラッシュイベントの特徴学習を新たなテキスト推論問題として定式化し、さらに様々な大規模言語モデル(LLM)を微調整して、状況や環境要因に基づいて、クラッシュタイプ、重篤度、負傷数などの詳細な事故結果を予測する。 提案モデルであるCrashLLMは、LLMの本質的なテキスト推論機能を活用して、複雑な非構造化データから解析し、学習することにより、コントリビューション要因のより微妙な分析を可能にすることで、既存のソリューションと差別化を図っている。 実験の結果,LSMによるアプローチは事故の重大度を推定するだけでなく,事故の種類を分類し,負傷率を予測し,F1スコアの平均値が34.9%から53.8%に上昇した。 さらに、CrashLLMは、既存のモデルでは提供できない学習推論機能を備えた、多くのオープンワールドな状況認識トラフィック安全分析に対して、貴重な洞察を提供することができる。 ベンチマークやデータセット、モデルを公開して、さらなる調査を行っています。

The increasing rate of road accidents worldwide results not only in significant loss of life but also imposes billions financial burdens on societies. Current research in traffic crash frequency modeling and analysis has predominantly approached the problem as classification tasks, focusing mainly on learning-based classification or ensemble learning methods. These approaches often overlook the intricate relationships among the complex infrastructure, environmental, human and contextual factors related to traffic crashes and risky situations. In contrast, we initially propose a large-scale traffic crash language dataset, named CrashEvent, summarizing 19,340 real-world crash reports and incorporating infrastructure data, environmental and traffic textual and visual information in Washington State. Leveraging this rich dataset, we further formulate the crash event feature learning as a novel text reasoning problem and further fine-tune various large language models (LLMs) to predict detailed accident outcomes, such as crash types, severity and number of injuries, based on contextual and environmental factors. The proposed model, CrashLLM, distinguishes itself from existing solutions by leveraging the inherent text reasoning capabilities of LLMs to parse and learn from complex, unstructured data, thereby enabling a more nuanced analysis of contributing factors. Our experiments results shows that our LLM-based approach not only predicts the severity of accidents but also classifies different types of accidents and predicts injury outcomes, all with averaged F1 score boosted from 34.9% to 53.8%. Furthermore, CrashLLM can provide valuable insights for numerous open-world what-if situational-awareness traffic safety analyses with learned reasoning features, which existing models cannot offer. We make our benchmark, datasets, and model public available for further exploration.
翻訳日:2024-06-18 20:51:13 公開日:2024-06-16
# 2つの単純な古典的チャンネルのための量子アナログ

Quantum Analogues for Two Simple Classical Channels ( http://arxiv.org/abs/2406.10791v1 )

ライセンス: Link先を確認
Miles Miller-Dickson, Christopher Rose, (参考訳) 本稿では,2つの単純なサンタングルメント量子通信チャネルの特異なダイナミクスを消化可能な形で提示する。 具体的には、古典的なガウス加法的チャネルを量子アナログと対比し、量子バージョンが興味深い時間依存と量子化の直感的効果を持つキャパシティを特徴とすることを示した。 また、単純な2段階のシステムについても検討し、その能力の時間依存性についてコメントする。

We present some of the peculiar dynamics of two simple sans-entanglement quantum communication channels in a digestible form. Specifically, we contrast the classical gaussian additive channel to its quantum analogue and find that the quantum version features a capacity with interesting time dependence and counterintuitive effects of quantization. We also consider a simple two-level system and comment on the time dependence of its capacity.
翻訳日:2024-06-18 20:51:13 公開日:2024-06-16
# LLMにおける脱獄事件の理解に向けて--表現空間分析

Towards Understanding Jailbreak Attacks in LLMs: A Representation Space Analysis ( http://arxiv.org/abs/2406.10794v1 )

ライセンス: Link先を確認
Yuping Lin, Pengfei He, Han Xu, Yue Xing, Makoto Yamada, Hui Liu, Jiliang Tang, (参考訳) 大規模言語モデル(LLM)は、有害な内容を出力するためにLLMを誤解させるジェイルブレーキング(jailbreaking)と呼ばれるタイプの攻撃を受けやすい。 多様なジェイルブレイク攻撃戦略があるが、なぜある方法が成功し、他の方法が失敗するのかについての統一的な理解はない。 本稿では, LLMの表現空間における有害かつ無害なプロンプトの挙動を考察し, ジェイルブレイク攻撃の本質的特性について検討する。 彼らは有害なプロンプトの表現を有害なプロンプトから無害なプロンプトへと移動させるのに効果的である。 我々は、既存のジェイルブレイク攻撃の目的に隠された表現を活用して、受け入れ方向に沿って攻撃を移動させ、提案した目的を用いて上記の仮説を検証する実験を行う。 この研究は、LSMが有害情報をどのように理解するかを理解するための新たな洞察を与えてくれることを願っている。

Large language models (LLMs) are susceptible to a type of attack known as jailbreaking, which misleads LLMs to output harmful contents. Although there are diverse jailbreak attack strategies, there is no unified understanding on why some methods succeed and others fail. This paper explores the behavior of harmful and harmless prompts in the LLM's representation space to investigate the intrinsic properties of successful jailbreak attacks. We hypothesize that successful attacks share some similar properties: They are effective in moving the representation of the harmful prompt towards the direction to the harmless prompts. We leverage hidden representations into the objective of existing jailbreak attacks to move the attacks along the acceptance direction, and conduct experiments to validate the above hypothesis using the proposed objective. We hope this study provides new insights into understanding how LLMs understand harmfulness information.
翻訳日:2024-06-18 20:51:13 公開日:2024-06-16
# 正規化重み関数を用いたマルチアーマッドバンドの逆条件改善

Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions ( http://arxiv.org/abs/2406.10795v1 )

ライセンス: Link先を確認
Kai Xu, Farid Tajaddodianfar, Ben Allison, (参考訳) 最近提案された報酬条件付き政策(RCP)は、強化学習において魅力的な代替手段を提供する。 ポリシー勾配法と比較して、RCPのポリシー学習は教師付き学習に基づいているため簡単であり、価値に基づく手法とは異なり、アクション空間におけるアクションの最適化は不要である。 しかし,マルチアームバンディット(MAB)問題では,RCPは収束が遅く,収束時に期待される報酬が劣ることがわかった。 本研究では,関数値が負の値であっても,和や積分が1ドルと等しい正規化重み関数を用いて報酬の余剰化を通じてポリシーを構築することにより,RCPの性能を向上させることができることを示す。 我々は、この手法を一般化された余分化と呼び、その利点は、低い報酬に条件付けられた政策に対する負の重み付けが、結果の政策をそれらとより区別することができることである。 離散的な作用空間を持つMABにおける一般化された限界化を行うための戦略について検討した。 シミュレーションにより,提案手法はRCPを改良し,従来の手法と競合することを示した。

Recently proposed reward-conditioned policies (RCPs) offer an appealing alternative in reinforcement learning. Compared with policy gradient methods, policy learning in RCPs is simpler since it is based on supervised learning, and unlike value-based methods, it does not require optimization in the action space to take actions. However, for multi-armed bandit (MAB) problems, we find that RCPs are slower to converge and have inferior expected rewards at convergence, compared with classic methods such as the upper confidence bound and Thompson sampling. In this work, we show that the performance of RCPs can be enhanced by constructing policies through the marginalization of rewards using normalized weight functions, whose sum or integral equal $1$, although the function values may be negative. We refer to this technique as generalized marginalization, whose advantage is that negative weights for policies conditioned on low rewards can make the resulting policies more distinct from them. Strategies to perform generalized marginalization in MAB with discrete action spaces are studied. Through simulations, we demonstrate that the proposed technique improves RCPs and makes them competitive with classic methods, showing superior performance on challenging MABs with large action spaces and sparse reward signals.
翻訳日:2024-06-18 20:51:13 公開日:2024-06-16
# ナノ結晶粉末回折データによるアブ初期構造解の拡散モデル

Diffusion Models Are Promising for Ab Initio Structure Solutions from Nanocrystalline Powder Diffraction Data ( http://arxiv.org/abs/2406.10796v1 )

ライセンス: Link先を確認
Gabe Guo, Tristan Saidi, Maxwell Terban, Simon JL Billinge, Hod Lipson, (参考訳) 材料科学における大きな課題は、ナノメートルサイズの物体の構造を決定することである。 本稿では,45,229の既知の構造をトレーニングした拡散モデルに基づく生成機械学習モデルを用いた新しい手法を提案する。 このモデルでは、測定された回折パターンと、原子クラスター構造の単位セルに関する関連する統計的先行の両方を決定づける。 化学式と情報スカース有限サイズ拡大粉体回折パターンでのみ条件を定め, 我々のモデルであるPXRDnetは, 7つの結晶系の構造を含む,様々な対称性と複雑さを持つ200の材料にまたがる10アングストロームのシミュレーションナノ結晶を解くことに成功した。 構造相関から, 構造解を最大81.5\%の精度で決定できることを示す。 さらに、PXRDnetは実世界の実験で収集されたノイズの多い回折パターンから構造を解くことができる。 理論シミュレーションから切り離されたデータ駆動アプローチは、最終的に未解決のナノ材料の構造を決定するための道を開くことを示唆する。

A major challenge in materials science is the determination of the structure of nanometer sized objects. Here we present a novel approach that uses a generative machine learning model based on a Diffusion model that is trained on 45,229 known structures. The model factors both the measured diffraction pattern as well as relevant statistical priors on the unit cell of atomic cluster structures. Conditioned only on the chemical formula and the information-scarce finite-size broadened powder diffraction pattern, we find that our model, PXRDnet, can successfully solve simulated nanocrystals as small as 10 angstroms across 200 materials of varying symmetry and complexity, including structures from all seven crystal systems. We show that our model can determine structural solutions with up to $81.5\%$ accuracy, as measured by structural correlation. Furthermore, PXRDnet is capable of solving structures from noisy diffraction patterns gathered in real-world experiments. We suggest that data driven approaches, bootstrapped from theoretical simulation, will ultimately provide a path towards determining the structure of previously unsolved nano-materials.
翻訳日:2024-06-18 20:51:13 公開日:2024-06-16
# STAR: 自動回帰表現によるスケールワイズテキスト画像生成

STAR: Scale-wise Text-to-image generation via Auto-Regressive representations ( http://arxiv.org/abs/2406.10797v1 )

ライセンス: Link先を確認
Xiaoxiao Ma, Mohan Zhou, Tao Liang, Yalong Bai, Tiejun Zhao, Huaian Chen, Yi Jin, (参考訳) 本稿では,スケールワイズ自動回帰パラダイムを用いたテキスト・ツー・イメージ・モデルSTARを提案する。 固定されたカテゴリ内のクラス条件の合成に限られるVARとは異なり、我々のSTARは3つの鍵となる設計により、テキスト駆動のオープンセット生成を可能にする。 生成された画像と微粒なテキストガイダンスの相互作用を改善し、その結果をより制御しやすくするため、各スケールで追加のクロスアテンション層が組み込まれている。 異なるスケールでの自然構造相関を考慮し、2次元回転位置符号化(RoPE)を活用し、正規化バージョンに微調整する。 これにより、異なるスケールでのトークンマップ間の相対位置の一貫性のある解釈が保証され、トレーニングプロセスが安定化される。 大規模な実験により、STARは、忠実度、画像テキストの一貫性、美的品質の点で、既存のベンチマークを上回っていることが示された。 本研究は,高画質画像合成分野における自己回帰法の可能性を強調し,現在拡散法が支配しているT2I分野の新たな方向性を示すものである。

We present STAR, a text-to-image model that employs scale-wise auto-regressive paradigm. Unlike VAR, which is limited to class-conditioned synthesis within a fixed set of predetermined categories, our STAR enables text-driven open-set generation through three key designs: To boost diversity and generalizability with unseen combinations of objects and concepts, we introduce a pre-trained text encoder to extract representations for textual constraints, which we then use as guidance. To improve the interactions between generated images and fine-grained textual guidance, making results more controllable, additional cross-attention layers are incorporated at each scale. Given the natural structure correlation across different scales, we leverage 2D Rotary Positional Encoding (RoPE) and tweak it into a normalized version. This ensures consistent interpretation of relative positions across token maps at different scales and stabilizes the training process. Extensive experiments demonstrate that STAR surpasses existing benchmarks in terms of fidelity,image text consistency, and aesthetic quality. Our findings emphasize the potential of auto-regressive methods in the field of high-quality image synthesis, offering promising new directions for the T2I field currently dominated by diffusion methods.
翻訳日:2024-06-18 20:51:13 公開日:2024-06-16
# フェデレートラーニング最適化:動的ネットワークにおけるデータとモデル交換戦略の比較研究

Federated Learning Optimization: A Comparative Study of Data and Model Exchange Strategies in Dynamic Networks ( http://arxiv.org/abs/2406.10798v1 )

ライセンス: Link先を確認
Alka Luqman, Yeow Wei Liang Brandon, Anupam Chattopadhyay, (参考訳) 大規模な動的フェデレーション学習の約束と普及は、大きなオープンな疑問を引き起こします – 送信効率と高速な知識伝達が主目的ならば、ノード間でデータやモデルを共有するのが賢明なのでしょうか? この研究はそれを正確に調査する。 具体的には、デバイス間で生データ、合成データ、または(部分的な)モデル更新を交換する選択について検討する。 基礎モデルの文脈におけるこれらの戦略の影響についても詳細に検討する。 そこで我々は,データ分布の異なる様々な環境と動的デバイス,ネットワーク接続を考慮した最適データおよびモデル交換機構について重要な知見を得た。 私たちが考慮した様々なシナリオにおいて、時間限定の知識伝達効率は最大9.08 %まで異なる可能性があるため、この作業の重要性が強調される。

The promise and proliferation of large-scale dynamic federated learning gives rise to a prominent open question - is it prudent to share data or model across nodes, if efficiency of transmission and fast knowledge transfer are the prime objectives. This work investigates exactly that. Specifically, we study the choices of exchanging raw data, synthetic data, or (partial) model updates among devices. The implications of these strategies in the context of foundational models are also examined in detail. Accordingly, we obtain key insights about optimal data and model exchange mechanisms considering various environments with different data distributions and dynamic device and network connections. Across various scenarios that we considered, time-limited knowledge transfer efficiency can differ by up to 9.08\%, thus highlighting the importance of this work.
翻訳日:2024-06-18 20:51:13 公開日:2024-06-16
# 長期皮膚癌画像分類における唾液価誘導とパッチベース混合療法

Saliency-guided and Patch-based Mixup for Long-tailed Skin Cancer Image Classification ( http://arxiv.org/abs/2406.10801v1 )

ライセンス: Link先を確認
Tianyunxi Wei, Yijin Huang, Li Lin, Pujin Cheng, Sirui Li, Xiaoying Tang, (参考訳) 医用画像データセットは、医用データ収集とアノテーションに固有の課題のために、長い尾の分布を示すことが多い。 長い尾のコンテキストでは、いくつかの一般的な疾患カテゴリがデータの大半を占めており、希少な疾患カテゴリでは少数のサンプルしか利用できないため、ディープラーニング手法の性能は低下している。 この問題に対処するため、以前のアプローチでは、クラスの再サンプリングや再重み付け技術を採用しており、クラスをオーバーフィットしたり、トレーニング中に最適化が困難になるといった問題に直面していることが多い。 そこで本研究では,長期化皮膚がん画像分類のための新しいアプローチとして,textbf{S}aliency-guided と \textbf{P}atch-based \textbf{Mix}up (SPMix) を提案する。 具体的には, テールクラスの画像とヘッドクラスの画像が与えられた場合, ヘッドクラスの特徴を干渉することなく, テールクラスの識別的特徴を保存・増強することのできる, サリエンシマッピングの指導の下, 新しいテールクラスの画像を生成する。 ISIC2018データセットで大規模な実験を行い、既存の最先端手法よりもSPMixの方が優れていることを示した。

Medical image datasets often exhibit long-tailed distributions due to the inherent challenges in medical data collection and annotation. In long-tailed contexts, some common disease categories account for most of the data, while only a few samples are available in the rare disease categories, resulting in poor performance of deep learning methods. To address this issue, previous approaches have employed class re-sampling or re-weighting techniques, which often encounter challenges such as overfitting to tail classes or difficulties in optimization during training. In this work, we propose a novel approach, namely \textbf{S}aliency-guided and \textbf{P}atch-based \textbf{Mix}up (SPMix) for long-tailed skin cancer image classification. Specifically, given a tail-class image and a head-class image, we generate a new tail-class image by mixing them under the guidance of saliency mapping, which allows for preserving and augmenting the discriminative features of the tail classes without any interference of the head-class features. Extensive experiments are conducted on the ISIC2018 dataset, demonstrating the superiority of SPMix over existing state-of-the-art methods.
翻訳日:2024-06-18 20:51:13 公開日:2024-06-16
# KGPA: クロスドメイン知識グラフによる大規模言語モデルのロバストネス評価

KGPA: Robustness Evaluation for Large Language Models via Cross-Domain Knowledge Graphs ( http://arxiv.org/abs/2406.10802v1 )

ライセンス: Link先を確認
Aihua Pei, Zehua Yang, Shunan Zhu, Ruoxi Cheng, Ju Jia, Lina Wang, (参考訳) 大規模言語モデル(LLM)の堅牢性を評価するための既存のフレームワークは、特定のベンチマークに依存し、コストを増大させ、データセットの制限のためにプロのドメインでLLMのパフォーマンスを評価するのに失敗している。 本稿では,知識グラフ(KG)を活用することで,敵対的攻撃シナリオ下でのLLMの堅牢性を体系的に評価する枠組みを提案する。 本フレームワークは,ナレッジグラフのトリプレットから独自のプロンプトを生成し,これらの攻撃の結果からLSMのロバスト性を評価し,毒による敵のプロンプトを生成する。 このフレームワークとそのモジュールの有効性を体系的に評価する。 GPT-4-turbo > GPT-4o > GPT-3.5-turbo としてChatGPTファミリーの対角的ロバスト性が評価された。

Existing frameworks for assessing robustness of large language models (LLMs) overly depend on specific benchmarks, increasing costs and failing to evaluate performance of LLMs in professional domains due to dataset limitations. This paper proposes a framework that systematically evaluates the robustness of LLMs under adversarial attack scenarios by leveraging knowledge graphs (KGs). Our framework generates original prompts from the triplets of knowledge graphs and creates adversarial prompts by poisoning, assessing the robustness of LLMs through the results of these adversarial attacks. We systematically evaluate the effectiveness of this framework and its modules. Experiments show that adversarial robustness of the ChatGPT family ranks as GPT-4-turbo > GPT-4o > GPT-3.5-turbo, and the robustness of large language models is influenced by the professional domains in which they operate.
翻訳日:2024-06-18 20:41:29 公開日:2024-06-16
# HiddenTables & PyQTax:TableQAのための協調ゲームとデータセット

HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies ( http://arxiv.org/abs/2406.10803v1 )

ライセンス: Link先を確認
William Watson, Nicole Cho, Tucker Balch, Manuela Veloso, (参考訳) テーブル問合せタスクを文脈的に分析する際、LLM(Large Language Models)は多種多様である。 これらの課題は,(1) 大規模テーブル用の有限コンテキストウィンドウ,(2) セル境界に対するトークン化パターン間の多面的相違,(3) gpt-3.5-turbo などの外部モデルの使用プロセスにおけるデータの機密性に起因する様々な制限から生じる。 我々は,この課題に対する潜在的な解決法として,「HiddenTables」と呼ばれる協調ゲームを提案する。 本質的に、"HiddenTables" は、コード生成する LLM "Solver" と、テーブルQA タスクを解く LLM エージェントの能力を評価する "Oracle" の間で行われる。 このゲームは自然言語スキーマに基づいており、重要な点として、基盤となるデータのセキュリティを保証する。 本研究では,LLMが複雑なクエリを一般化・実行できないこと,コンポジション依存を扱えること,具体的なテーブルスキーマが提供される場合に自然言語をプログラムコマンドに調整できることを実証する,多種多様なテーブルの集合に関する明らかな実験を行う。 エンコーダベースのモデルとは異なり、"HiddenTables"の境界は行数によって制限されないよう押し付けました。 我々のインフラストラクチャーは、新しいデータセット"PyQTax"を作成した。これは、116,671の質問表回答三つ子にまたがり、様々な質問分類のための詳細な詳細とラベルを提供する。 したがって、テーブルQAタスクにおけるLLMの欠如に関する学術的貢献と合わせて、"HiddenTables"は、データセキュリティを確保し、生成コストを最小限に抑えながら、LLMが大規模データセットとどのように相互作用するかを示す、触覚的な表現である。

A myriad of different Large Language Models (LLMs) face a common challenge in contextually analyzing table question-answering tasks. These challenges are engendered from (1) finite context windows for large tables, (2) multi-faceted discrepancies amongst tokenization patterns against cell boundaries, and (3) various limitations stemming from data confidentiality in the process of using external models such as gpt-3.5-turbo. We propose a cooperative game dubbed "HiddenTables" as a potential resolution to this challenge. In essence, "HiddenTables" is played between the code-generating LLM "Solver" and the "Oracle" which evaluates the ability of the LLM agents to solve Table QA tasks. This game is based on natural language schemas and importantly, ensures the security of the underlying data. We provide evidential experiments on a diverse set of tables that demonstrate an LLM's collective inability to generalize and perform on complex queries, handle compositional dependencies, and align natural language to programmatic commands when concrete table schemas are provided. Unlike encoder-based models, we have pushed the boundaries of "HiddenTables" to not be limited by the number of rows - therefore we exhibit improved efficiency in prompt and completion tokens. Our infrastructure has spawned a new dataset "PyQTax" that spans across 116,671 question-table-answer triplets and provides additional fine-grained breakdowns & labels for varying question taxonomies. Therefore, in tandem with our academic contributions regarding LLMs' deficiency in TableQA tasks, "HiddenTables" is a tactile manifestation of how LLMs can interact with massive datasets while ensuring data security and minimizing generation costs.
翻訳日:2024-06-18 20:41:29 公開日:2024-06-16
# ptt5-v2: ポルトガル語のT5モデルの継続事前トレーニング

ptt5-v2: A Closer Look at Continued Pretraining of T5 Models for the Portuguese Language ( http://arxiv.org/abs/2406.10806v1 )

ライセンス: Link先を確認
Marcos Piau, Roberto Lotufo, Rodrigo Nogueira, (参考訳) 自然言語処理(NLP)の進歩と事前訓練されたモデルの増加にもかかわらず、英語はモデル開発の主要な焦点である。 言語固有のコーパスに対する事前トレーニングは、他の言語にモデルを適応するための実用的なソリューションを提供する。 しかし、異なる事前トレーニング設定が下流タスクに与える影響は未調査のままである。 この研究は$\texttt{ptt5-v2}$を導入し、ポルトガル向けのT5モデルの継続的な事前トレーニングを調査した。 まず、最大3Bパラメータを持つベースライン設定と事前訓練モデルを開発する。 ポルトガルの3つの下流タスク(assin2 STS、assin2 RTE、TweetSentBR)を微調整すると、後者の2つでSOTA結果が得られる。 次に、品質フィルタ、最適化戦略、マルチエポック事前学習など、様々な事前学習構成の効果について検討する。 おそらく意外なことに、その影響はベースラインと比べて微妙だ。 We release $\texttt{ptt5-v2}$ pretrained checkpoints and the finetuned MonoT5 rerankers on HuggingFace at https://huggingface.co/collections/unicamp-dl/ptt5-v2-666538a650188ba00a8d2d0 and https://huggingface.co/collections/unicamp-dl/monoptt5-66653981877df3ea727f720d。

Despite advancements in Natural Language Processing (NLP) and the growing availability of pretrained models, the English language remains the primary focus of model development. Continued pretraining on language-specific corpora provides a practical solution for adapting models to other languages. However, the impact of different pretraining settings on downstream tasks remains underexplored. This work introduces $\texttt{ptt5-v2}$, investigating the continued pretraining of T5 models for Portuguese. We first develop a baseline set of settings and pretrain models with sizes up to 3B parameters. Finetuning on three Portuguese downstream tasks (assin2 STS, assin2 RTE, and TweetSentBR) yields SOTA results on the latter two. We then explore the effects of different pretraining configurations, including quality filters, optimization strategies, and multi-epoch pretraining. Perhaps surprisingly, their impact remains subtle compared to our baseline. We release $\texttt{ptt5-v2}$ pretrained checkpoints and the finetuned MonoT5 rerankers on HuggingFace at https://huggingface.co/collections/unicamp-dl/ptt5-v2-666538a650188ba00aa8d2d0 and https://huggingface.co/collections/unicamp-dl/monoptt5-66653981877df3ea727f720d.
翻訳日:2024-06-18 20:41:29 公開日:2024-06-16
# 新型コロナウイルスの重症度説明と画像症状分類のためのベイズネットワークと機械学習

Bayesian Networks and Machine Learning for COVID-19 Severity Explanation and Demographic Symptom Classification ( http://arxiv.org/abs/2406.10807v1 )

ライセンス: Link先を確認
Oluwaseun T. Ajayi, Yu Cheng, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックと闘う取り組みが盛んに行われている中、その拡大、将来の影響、回復についてはまだ不明な点がまだ残っている。 本稿では、新型コロナウイルスの隠れた情報を蒸留する3段階のデータ駆動方式を提案する。 第1段階では、バイエルンネットワーク構造学習法を用いて、新型コロナウイルスの症状とその固有の人口統計学的変数の因果関係を同定する。 第2段階として、ベイジアンネットワーク構造学習からの出力は、クラスタリングによって患者の症状の類似性を明らかにする教師なし機械学習(ML)アルゴリズムを訓練するための有用なガイドとして機能する。 最終段階は、クラスタリングから得られたラベルを利用して、患者の症状クラスとそれに対応する人口統計確率分布を予測する人口統計学的症状識別(DSID)モデルを訓練する。 本手法を米国疾病予防管理センター(CDC)から得られたCOVID-19データセットに適用した。 実験の結果は、ヒューリスティックML法の41.15\%の精度に対して、99.99\%のテスト精度を示している。 このことは、ウイルス症状の関連を理解するためのベイズネットワークとMLアプローチの可能性を強く示し、ウイルスの重症度を減らすための患者の成層化に関する洞察を提供する。

With the prevailing efforts to combat the coronavirus disease 2019 (COVID-19) pandemic, there are still uncertainties that are yet to be discovered about its spread, future impact, and resurgence. In this paper, we present a three-stage data-driven approach to distill the hidden information about COVID-19. The first stage employs a Bayesian network structure learning method to identify the causal relationships among COVID-19 symptoms and their intrinsic demographic variables. As a second stage, the output from the Bayesian network structure learning, serves as a useful guide to train an unsupervised machine learning (ML) algorithm that uncovers the similarities in patients' symptoms through clustering. The final stage then leverages the labels obtained from clustering to train a demographic symptom identification (DSID) model which predicts a patient's symptom class and the corresponding demographic probability distribution. We applied our method on the COVID-19 dataset obtained from the Centers for Disease Control and Prevention (CDC) in the United States. Results from the experiments show a testing accuracy of 99.99\%, as against the 41.15\% accuracy of a heuristic ML method. This strongly reveals the viability of our Bayesian network and ML approach in understanding the relationship between the virus symptoms, and providing insights on patients' stratification towards reducing the severity of the virus.
翻訳日:2024-06-18 20:41:29 公開日:2024-06-16
# 最適共分散マッチングを用いた拡散モデル

Diffusion Model With Optimal Covariance Matching ( http://arxiv.org/abs/2406.10808v1 )

ライセンス: Link先を確認
Zijing Ou, Mingtian Zhang, Andi Zhang, Tim Z. Xiao, Yingzhen Li, David Barber, (参考訳) 確率拡散モデルは様々な領域にまたがって非常に効果的である。 通常、拡散モデルからのサンプリングは、学習平均を持つガウス平均と、固定されたあるいは学習された共分散によって特徴づけられる偏極分布を使用する。 本稿では,最近提案された完全共分散モーメントマッチング手法を活用し,共分散を学習するための新しい手法を提案する。 従来のデータ駆動型共分散近似法とは異なり、本手法では、最適共分散マッチング(OCM)と呼ばれる新しい非バイアス対象を用いて、最適解析共分散を直接回帰する。 このアプローチは共分散予測における近似誤差を著しく低減することができる。 本手法は,非マルコフ拡散モデルファミリと非マルコフ拡散モデルファミリのサンプリング効率を大幅に向上させることができることを示す。

The probabilistic diffusion model has become highly effective across various domains. Typically, sampling from a diffusion model involves using a denoising distribution characterized by a Gaussian with a learned mean and either fixed or learned covariances. In this paper, we leverage the recently proposed full covariance moment matching technique and introduce a novel method for learning covariances. Unlike traditional data-driven covariance approximation approaches, our method involves directly regressing the optimal analytic covariance using a new, unbiased objective named Optimal Covariance Matching (OCM). This approach can significantly reduce the approximation error in covariance prediction. We demonstrate how our method can substantially enhance the sampling efficiency of both Markovian (DDPM) and non-Markovian (DDIM) diffusion model families.
翻訳日:2024-06-18 20:41:29 公開日:2024-06-16
# 知に富んだ会話のためのエンティティマイニングによるポストホック発話精錬法

Post-hoc Utterance Refining Method by Entity Mining for Faithful Knowledge Grounded Conversations ( http://arxiv.org/abs/2406.10809v1 )

ライセンス: Link先を確認
Yoonna Jang, Suhyune Son, Jeongwoo Lee, Junyoung Son, Yuna Hur, Jungwoo Lim, Hyeonseok Moon, Kisu Yang, Heuiseok Lim, (参考訳) 近年の言語生成性能の顕著な進歩にもかかわらず、モデル生成応答は、与えられた情報源に非真実または不誠実である幻覚の慢性的な問題に悩まされている。 特に,知識に基づく会話のタスクでは,そのモデルが情報的応答を生成する必要があるが,幻覚的発話はコミュニケーションの誤りにつながる。 特に、重大な誤報や望ましくない会話を引き起こすエンティティレベルの幻覚は、主要な関心事の一つである。 この問題に対処するために,REMと呼ばれるポストホックリファインメント手法を提案する。 本研究の目的は、音源の知識に基づいて音質を改良することで、幻聴の質と忠実性を高めることである。 生成された発話が与えられた知識とソース信頼度スコアが低い場合、REMは知識のキーエンティティをマイニングし、発話の精製に暗黙的に使用する。 本手法が発話における実体の幻覚を低減することを検証する。 また,REMの適応性と有効性について検討した。 私たちのコードはhttps://github.com/YOONNAJANG/REM.comで公開されています。

Despite the striking advances in recent language generation performance, model-generated responses have suffered from the chronic problem of hallucinations that are either untrue or unfaithful to a given source. Especially in the task of knowledge grounded conversation, the models are required to generate informative responses, but hallucinated utterances lead to miscommunication. In particular, entity-level hallucination that causes critical misinformation and undesirable conversation is one of the major concerns. To address this issue, we propose a post-hoc refinement method called REM. It aims to enhance the quality and faithfulness of hallucinated utterances by refining them based on the source knowledge. If the generated utterance has a low source-faithfulness score with the given knowledge, REM mines the key entities in the knowledge and implicitly uses them for refining the utterances. We verify that our method reduces entity hallucination in the utterance. Also, we show the adaptability and efficacy of REM with extensive experiments and generative results. Our code is available at https://github.com/YOONNAJANG/REM.
翻訳日:2024-06-18 20:41:29 公開日:2024-06-16
# LLMFactor:説明可能な株価変動予測のためのプロンプトによる利益要因の抽出

LLMFactor: Extracting Profitable Factors through Prompts for Explainable Stock Movement Prediction ( http://arxiv.org/abs/2406.10811v1 )

ライセンス: Link先を確認
Meiyun Wang, Kiyoshi Izumi, Hiroki Sakaji, (参考訳) 近年,Large Language Models (LLMs) は,特にテキスト解析において,幅広いタスクにまたがる例外的な性能に注目が集まっている。 しかし、金融セクターは、複雑な予測タスクの時系列データに依存しているため、明確な課題を呈している。 本研究では,SKGP(Sequential Knowledge-Guided Prompting)を用いて,LLMを用いたストック運動に影響を与える要因を同定するLLMFactorという新しいフレームワークを提案する。 キーフレーズや感情分析に頼っていた従来の手法とは異なり、このアプローチは株式市場のダイナミクスと直接関係のある要素を抽出することに焦点を当て、複雑な時間的変化の明確な説明を提供する。 当社の枠組みは,LCMに対して,包括的戦略を通じて背景知識の創出を指示し,関連ニュースから株価に影響を及ぼす潜在的な要因を識別する。 背景知識や要因の特定によってガイドされ、過去の株価をテキスト形式で活用し、株価の動きを予測する。 LLMFactorフレームワークは、米国と中国の株式市場の4つのベンチマークデータセットで広く評価されており、既存の最先端手法よりも優れていること、そして金融時系列予測における有効性を示している。

Recently, Large Language Models (LLMs) have attracted significant attention for their exceptional performance across a broad range of tasks, particularly in text analysis. However, the finance sector presents a distinct challenge due to its dependence on time-series data for complex forecasting tasks. In this study, we introduce a novel framework called LLMFactor, which employs Sequential Knowledge-Guided Prompting (SKGP) to identify factors that influence stock movements using LLMs. Unlike previous methods that relied on keyphrases or sentiment analysis, this approach focuses on extracting factors more directly related to stock market dynamics, providing clear explanations for complex temporal changes. Our framework directs the LLMs to create background knowledge through a fill-in-the-blank strategy and then discerns potential factors affecting stock prices from related news. Guided by background knowledge and identified factors, we leverage historical stock prices in textual format to predict stock movement. An extensive evaluation of the LLMFactor framework across four benchmark datasets from both the U.S. and Chinese stock markets demonstrates its superiority over existing state-of-the-art methods and its effectiveness in financial time-series forecasting.
翻訳日:2024-06-18 20:41:29 公開日:2024-06-16
# 有限バイアス電圧下での点接触検出器によるMajorana量子ビットの読み出し

Majorana qubit readout by a point-contact detector under finite bias voltages ( http://arxiv.org/abs/2406.10812v1 )

ライセンス: Link先を確認
Huizi Xie, Sirui Yu, Hong Mao, Jinshuang Jin, (参考訳) 本研究では,4つのMajorana-zero-modes (4-MZMs) 量子ビットの読み出し問題について,点接触検出器(PC)を用いて再検討する。 4-MZMs量子ビットの論理状態は、近くのPC検出器によってさらに測定されるトンネル結合量子ドット(QD)の異なる電荷占有に変換される。 原理的には、PC検出器はQDレベルのエネルギースケールと量子ビットとの結合に匹敵する小さな電圧でバイアスを受ける必要がある。 この問題に関する既存の研究を超えて、定常電流と電流スペクトルの両方を統一的に処理し、QD占有または発振周波数における特性ピークからキュービット状態情報を推測する。 さらに、各特性ピークのピーク対ペデス比(キュービットの各論理状態と関連)と2つのピークの信号対雑音比を実行する。 これら2つの図から,PC検出器の最適バイアス電圧窓を低温限界で明らかにする。

In this work we revisit the problem of four Majorana-zero-modes (4-MZMs) qubit readout by a point-contact (PC) detector. The logic states of the 4-MZMs qubit are converted to different charge occupations of a tunnel-coupled quantum dot (QD), which is further measured by a nearby PC detector. This type of measurement in principle requires that the PC detector is to be biased at small voltages, which should be comparable to the energy scales of the QD level and its coupling to the qubit. Going beyond existing studies on this problem, we present a unified treatment for both the steady-state current and the current power spectrum, which allow us to infer the qubit state information from either the QD occupation or the characteristic peak at the oscillation frequency. Moreover, we carry out the peak-to-pedestal ratio of each single characteristic peak (associated with each logic state of the qubit) and the signal-to-noise ratio of the two peaks. From these two figures of merit, we reveal the optimal bias voltage window for the PC detector at low temperature limit.
翻訳日:2024-06-18 20:41:29 公開日:2024-06-16
# 政策最適化のための自己進化ファインチューニング

Self-Evolution Fine-Tuning for Policy Optimization ( http://arxiv.org/abs/2406.10813v1 )

ライセンス: Link先を確認
Ruijun Chen, Jiehao Liang, Shiping Gao, Fanqi Wan, Xiaojun Quan, (参考訳) 大規模言語モデル(LLM)のアライメントは、特定のタスクにおける潜在能力を解放するだけでなく、人間の期待に応え、安全性と倫理的原則に従うためにも不可欠である。 現在のアライメント手法は大きな課題に直面している。 例えば、教師付き微調整(SFT)は、広範囲で高品質な注釈付きサンプルを必要とするが、人間からのフィードバック(RLHF)からの強化学習は複雑で不安定であることが多い。 本稿では,SFTの安定性と効率を保ちつつ,注釈付きサンプルの必要性を解消することを目的として,政策最適化のための自己進化微調整(SEFT)を導入する。 SEFTは、まず適応的なリバイザを訓練し、高品質なレスポンスを維持しながら、低品質なレスポンスを高める。 その後、リバイザはポリシーの最適化を改良された応答で微調整することで徐々にガイドする。 この手法の特長の1つは、教師付き微調整により、ポリシー最適化のために無注釈データを無制限に活用できることである。 AlpacaEval 2.0とMT-Benchの実験はSEFTの有効性を実証した。 また、既存のアライメント技術に対する利点を包括的に分析する。

The alignment of large language models (LLMs) is crucial not only for unlocking their potential in specific tasks but also for ensuring that responses meet human expectations and adhere to safety and ethical principles. Current alignment methodologies face considerable challenges. For instance, supervised fine-tuning (SFT) requires extensive, high-quality annotated samples, while reinforcement learning from human feedback (RLHF) is complex and often unstable. In this paper, we introduce self-evolution fine-tuning (SEFT) for policy optimization, with the aim of eliminating the need for annotated samples while retaining the stability and efficiency of SFT. SEFT first trains an adaptive reviser to elevate low-quality responses while maintaining high-quality ones. The reviser then gradually guides the policy's optimization by fine-tuning it with enhanced responses. One of the prominent features of this method is its ability to leverage unlimited amounts of unannotated data for policy optimization through supervised fine-tuning. Our experiments on AlpacaEval 2.0 and MT-Bench demonstrate the effectiveness of SEFT. We also provide a comprehensive analysis of its advantages over existing alignment techniques.
翻訳日:2024-06-18 20:41:29 公開日:2024-06-16
# 非対称非競合学習におけるスーパービジョンの有効性について

On the Effectiveness of Supervision in Asymmetric Non-Contrastive Learning ( http://arxiv.org/abs/2406.10815v1 )

ライセンス: Link先を確認
Jeongheon Oh, Kibok Lee, (参考訳) 教師付きコントラスト表現学習は,様々な伝達学習シナリオにおいて有効であることが示されている。 しかしながら、非対称非競合学習(ANCL)は、自己教師付き表現学習において、対照的な学習よりも優れていることが多いが、教師付きシナリオへのANCLの拡張は、あまり検討されていない。 このギャップを埋めるために、教師付き表現学習のためのANCL(SupSiamとSupBYOL)を考案し、より優れた表現を実現するためにANCLのラベルを活用する。 提案するANCLフレームワークは,崩壊を回避しながら表現学習を改善する。 分析の結果,ANCLの監督はクラス内ばらつきを低減し,最高の性能を達成するために,監督の貢献を調整すべきであることが判明した。 実験では、さまざまなデータセットやタスクにまたがる教師付きANCLの優位性を示す。 コードは、https://github.com/JH-Oh-23/Sup-ANCLで入手できる。

Supervised contrastive representation learning has been shown to be effective in various transfer learning scenarios. However, while asymmetric non-contrastive learning (ANCL) often outperforms its contrastive learning counterpart in self-supervised representation learning, the extension of ANCL to supervised scenarios is less explored. To bridge the gap, we study ANCL for supervised representation learning, coined SupSiam and SupBYOL, leveraging labels in ANCL to achieve better representations. The proposed supervised ANCL framework improves representation learning while avoiding collapse. Our analysis reveals that providing supervision to ANCL reduces intra-class variance, and the contribution of supervision should be adjusted to achieve the best performance. Experiments demonstrate the superiority of supervised ANCL across various datasets and tasks. The code is available at: https://github.com/JH-Oh-23/Sup-ANCL.
翻訳日:2024-06-18 20:41:29 公開日:2024-06-16
# Llama.cppに基づくArmv9アーキテクチャの汎用大言語モデル推論性能の最適化

Optimization of Armv9 architecture general large language model inference performance based on Llama.cpp ( http://arxiv.org/abs/2406.10816v1 )

ライセンス: Link先を確認
Longhao Chen, Yina Zhao, Qiangjun Xie, Qinghua Sheng, (参考訳) 本稿では、Int8量子化を実行し、llama.cppで演算子をベクトル化し、コンパイラの最適化レベルを改善するためにコンパイルスクリプトを変更することにより、Qwen-1.8Bモデルの推論性能を最適化する。 Yitian 710実験プラットフォームでは、プリフィル性能が1.6倍に向上し、復号性能が24倍に向上し、メモリ使用量が元の1/5に減少し、精度損失はほぼ無視される。

This article optimizes the inference performance of the Qwen-1.8B model by performing Int8 quantization, vectorizing some operators in llama.cpp, and modifying the compilation script to improve the compiler optimization level. On the Yitian 710 experimental platform, the prefill performance is increased by 1.6 times, the decoding performance is increased by 24 times, the memory usage is reduced to 1/5 of the original, and the accuracy loss is almost negligible.
翻訳日:2024-06-18 20:41:29 公開日:2024-06-16
# GUI-WORLD:GUI指向マルチモーダルLCMエージェントのためのデータセット

GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents ( http://arxiv.org/abs/2406.10819v1 )

ライセンス: Link先を確認
Dongping Chen, Yue Huang, Siyuan Wu, Jingyu Tang, Liuyi Chen, Yilin Bai, Zhigang He, Chenlong Wang, Huichi Zhou, Yiqiang Li, Tianshuo Zhou, Yue Yu, Chujie Gao, Qihui Zhang, Yi Gui, Zhen Li, Yao Wan, Pan Zhou, Jianfeng Gao, Lichao Sun, (参考訳) 近年,グラフィカルユーザインタフェース(GUI)を直接認識し,対応するコードを生成することでキーボードやマウスの入力を制御するエージェントとして,MLLM(Multimodal Large Language Models)が使用されている。 しかし、現在のエージェントは、主に静的環境において優れた理解能力を示し、Webやモバイルインターフェースのような比較的単純なドメインで主に適用されます。 我々は、ロバストGUIエージェントは、動的Webコンテンツやマルチステップタスクを含むGUI上の時間情報を知覚できるべきであると論じる。 さらに、デスクトップソフトウェアやマルチウィンドウインタラクションなど、さまざまなGUIシナリオを包括的に理解する必要がある。 そこで本研究では,GUI指向の6つのシナリオと8種類のGUI指向の質問を3つのフォーマットで包括的に記述し,人間のMLLMアノテーションを巧みに構築したGUI-Worldという新しいデータセットを提案する。 各種GUIコンテンツ,特に動的および逐次的コンテンツの理解において,ImageLLMsやVideoLLMsなどの最先端MLLMの能力を評価する。 その結果,ImageLLMは手動で注釈付けされたキーフレームや操作履歴なしで動的GUIコンテンツに苦しむことがわかった。 一方、ビデオLLMは、疎いGUIビデオデータセットを考えると、すべてのGUI指向タスクでは不足している。 GUI-Worldをベースとして、細調整されたVideoLLMをGUIエージェントとして活用し、様々なGUIタスクの理解を深める最初の一歩を踏み出した。 しかし,基本LLMの性能に限界があるため,GUIエージェントとしてVideoLLMを使うことは依然として大きな課題である。 われわれの研究は、動的GUIコンテンツ理解における将来の研究に貴重な洞察をもたらすと信じている。 コードとデータセットはプロジェクトのホームページで公開されています。

Recently, Multimodal Large Language Models (MLLMs) have been used as agents to control keyboard and mouse inputs by directly perceiving the Graphical User Interface (GUI) and generating corresponding code. However, current agents primarily exhibit excellent understanding capabilities in static environments and are predominantly applied in relatively simple domains, such as Web or mobile interfaces. We argue that a robust GUI agent should be capable of perceiving temporal information on the GUI, including dynamic Web content and multi-step tasks. Additionally, it should possess a comprehensive understanding of various GUI scenarios, including desktop software and multi-window interactions. To this end, this paper introduces a new dataset, termed GUI-World, which features meticulously crafted Human-MLLM annotations, extensively covering six GUI scenarios and eight types of GUI-oriented questions in three formats. We evaluate the capabilities of current state-of-the-art MLLMs, including ImageLLMs and VideoLLMs, in understanding various types of GUI content, especially dynamic and sequential content. Our findings reveal that ImageLLMs struggle with dynamic GUI content without manually annotated keyframes or operation history. On the other hand, VideoLLMs fall short in all GUI-oriented tasks given the sparse GUI video dataset. Based on GUI-World, we take the initial step of leveraging a fine-tuned VideoLLM as a GUI agent, demonstrating an improved understanding of various GUI tasks. However, due to the limitations in the performance of base LLMs, we conclude that using VideoLLMs as GUI agents remains a significant challenge. We believe our work provides valuable insights for future research in dynamic GUI content understanding. The code and dataset are publicly available at our project homepage: https://gui-world.github.io/.
翻訳日:2024-06-18 20:41:29 公開日:2024-06-16
# ワッサーシュタイン勾配流れに対する反復シュレーディンガー橋近似

Iterated Schrödinger bridge approximation to Wasserstein Gradient Flows ( http://arxiv.org/abs/2406.10823v1 )

ライセンス: Link先を確認
Medha Agarwal, Zaid Harchaoui, Garrett Mulcahy, Soumik Pal, (参考訳) 我々は、同じ辺を持つSchr\"{o}dinger Bridgeを逐次計算するワッサーシュタイン勾配流の新しい離散化スキームを導入する。 これは前方/測地近似と後方/ジョルダン・キンデレラー・オットー(JKO)近似とが異なる。 提案手法には2つの利点がある: 1つはスコア関数の使用を回避し、もう1つはシンクホーンアルゴリズムを用いて粒子ベースの近似を行うことができる。 我々の証明は、温度$\epsilon$ で同じ限界を持つシュル「{o}dinger 橋と、0 で定常ランゲヴィン拡散の合同分布の相対エントロピーが、フィッシャー情報によって与えられる明示的な依存を持つ位数$o(\epsilon^2)$ であることを示すものである。 この不等式により、三角近似論を用いて、熱流を含む勾配流のクラスに対して、シュルンディンガー橋近似の補間された繰り返し適用がワッサーシュタイン勾配流に収束することを示すことができる。 この結果は、トランスフォーマーネットワークにおける自己保持機構を熱流の解に収束させるための確率的かつ厳密な枠組みを提供する。

We introduce a novel discretization scheme for Wasserstein gradient flows that involves successively computing Schr\"{o}dinger bridges with the same marginals. This is different from both the forward/geodesic approximation and the backward/Jordan-Kinderlehrer-Otto (JKO) approximations. The proposed scheme has two advantages: one, it avoids the use of the score function, and, two, it is amenable to particle-based approximations using the Sinkhorn algorithm. Our proof hinges upon showing that relative entropy between the Schr\"{o}dinger bridge with the same marginals at temperature $\epsilon$ and the joint distribution of a stationary Langevin diffusion at times zero and $\epsilon$ is of the order $o(\epsilon^2)$ with an explicit dependence given by Fisher information. Owing to this inequality, we can show, using a triangular approximation argument, that the interpolated iterated application of the Schr\"{o}dinger bridge approximation converge to the Wasserstein gradient flow, for a class of gradient flows, including the heat flow. The results also provide a probabilistic and rigorous framework for the convergence of the self-attention mechanisms in transformer networks to the solutions of heat flows, first observed in the inspiring work SABP22 in machine learning research.
翻訳日:2024-06-18 20:41:29 公開日:2024-06-16
# 鎮静法に基づくランドマーク判断の要約

Citation-Based Summarization of Landmark Judgments ( http://arxiv.org/abs/2406.10824v1 )

ライセンス: Link先を確認
Purnima Bindal, Vikas Kumar, Vasudha Bhatnagar, Parikshet Sirohi, Ashwini Siwal, (参考訳) ランドマークの判断は、その例外的な法体系と他の判断における頻繁な参照のため、コモン・ロー・システムにおいて最も重要なものである。 本研究は,対象判断の抽出的要約を作成するために,判断を引用する上で利用可能な文脈参照を活用する。 インド裁判所の判断から算出した2つのデータセットに対して提案アルゴリズムを評価し,その結果が有望であることを確認した。

Landmark judgments are of prime importance in the Common Law System because of their exceptional jurisprudence and frequent references in other judgments. In this work, we leverage contextual references available in citing judgments to create an extractive summary of the target judgment. We evaluate the proposed algorithm on two datasets curated from the judgments of Indian Courts and find the results promising.
翻訳日:2024-06-18 20:41:29 公開日:2024-06-16
# グラフ埋め込みによる最適マルチエージェントパス探索のためのアルゴリズム選択

Algorithm Selection for Optimal Multi-Agent Path Finding via Graph Embedding ( http://arxiv.org/abs/2406.10827v1 )

ライセンス: Link先を確認
Carmel Shabalin, Omri Kaduri, Roni Stern, (参考訳) 多エージェント経路探索(MAPF)は、衝突しない複数のエージェントの経路を見つける問題である。 この問題は、自動倉庫における輸送ロボットの制御、ビデオゲームにおけるキャラクターの移動、交差点での自動運転車の調整など、現実の多くの応用に現れている。 MAPFの最適解を見つけることはNP-Hardであるが、現代の最適解法は数百のエージェントにスケールでき、場合によっては数千までスケールできる。 異なる解法は異なるアプローチを採用しており、すべての問題に対して単一の最先端のアプローチは存在しない。 さらに、各MAPFソルバがいつ使用するかを選択するための明確な、証明可能なガイドラインは存在しない。 以前はアルゴリズム選択(AS)技術を使用して過去のデータからそのようなガイドラインを学習していた。 最適なMAPFアルゴリズムを選択するためにASを用いる場合の大きな課題は、与えられたMAPF問題をエンコードする方法である。 以前の作業では手作りの機能を使ったり、問題のイメージを表現したりしていた。 MAPF問題のグラフベースの符号化について検討し、FEATHERと呼ばれる最新のグラフ埋め込みアルゴリズムを用いて、どのようにそれをオンザフライで使用できるかを示す。 そして、このエンコーディングが既存のエンコーディングと効果的に結合できることを示し、その結果、グラフ埋め込み(MAG)によるMAPFアルゴリズム選択と呼ばれる新しいASメソッドが実現された。 いくつかのMAPFアルゴリズム選択タスクにおけるMAGの広範囲な実験的評価により、既存の手法よりもかなり優れていることが判明した。

Multi-agent path finding (MAPF) is the problem of finding paths for multiple agents such that they do not collide. This problem manifests in numerous real-world applications such as controlling transportation robots in automated warehouses, moving characters in video games, and coordinating self-driving cars in intersections. Finding optimal solutions to MAPF is NP-Hard, yet modern optimal solvers can scale to hundreds of agents and even thousands in some cases. Different solvers employ different approaches, and there is no single state-of-the-art approach for all problems. Furthermore, there are no clear, provable, guidelines for choosing when each optimal MAPF solver to use. Prior work employed Algorithm Selection (AS) techniques to learn such guidelines from past data. A major challenge when employing AS for choosing an optimal MAPF algorithm is how to encode the given MAPF problem. Prior work either used hand-crafted features or an image representation of the problem. We explore graph-based encodings of the MAPF problem and show how they can be used on-the-fly with a modern graph embedding algorithm called FEATHER. Then, we show how this encoding can be effectively joined with existing encodings, resulting in a novel AS method we call MAPF Algorithm selection via Graph embedding (MAG). An extensive experimental evaluation of MAG on several MAPF algorithm selection tasks reveals that it is either on-par or significantly better than existing methods.
翻訳日:2024-06-18 20:41:29 公開日:2024-06-16
# PyramidMamba:リモートセンシング画像のセマンティックセグメンテーションのための選択的空間状態モデルによるピラミッド特徴融合の再考

PyramidMamba: Rethinking Pyramid Feature Fusion with Selective Space State Model for Semantic Segmentation of Remote Sensing Imagery ( http://arxiv.org/abs/2406.10828v1 )

ライセンス: Link先を確認
Libo Wang, Dongxu Li, Sijun Dong, Xiaoliang Meng, Xiaokang Zhang, Danfeng Hong, (参考訳) リモートセンシング画像のインテリジェントな解釈のための基本的なツールであるセマンティックセグメンテーションは、多くの地球観測(EO)アプリケーションにおいて重要な役割を果たす。 リモートセンシング画像の正確なセマンティックセマンティックセグメンテーションは、複雑な空間的時間的シーンとマルチスケールなジオオブジェクトのため、現在でも課題である。 深層学習(DL)、CNN、トランスフォーマーに基づくセマンティックセマンティックセマンティクスの手法が広く研究されており、これら2つのアーキテクチャは、ジオオブジェクトのセマンティクス情報を強化するためのマルチスケール特徴表現の重要性を明らかにしている。 しかし、実際のマルチスケール特徴融合は、ピラミッドの特徴の均一な意味的内容のため、意味的冗長性の問題を伴うことが多い。 この問題に対処するために,我々は新しいMambaベースのセグメンテーションネットワーク,すなわちPraamidMambaを提案する。 具体的には,高密度空間ピラミッドプーリング(DSPP)を設計し,リッチなマルチスケールな意味的特徴を符号化するプラグアンドプレイデコーダと,マルチスケールな特徴的融合における意味的冗長性を低減するピラミッド融合Mamba(PFM)を設計する。 包括的アブレーション実験は,マルチスケール特徴表現の強化における提案手法の有効性と優位性,およびリアルタイムセマンティックセグメンテーションの可能性を示す。 さらに、PraamidMambaは、OpenEarthMap (70.8% mIoU)、ISPRS Vaihingen (84.8% mIoU)、Potsdam (88.0% mIoU)の3つの公開データセットに対して、最先端のパフォーマンスを提供する。 コードはhttps://github.com/WangLibo1995/GeoSeg.comで入手できる。

Semantic segmentation, as a basic tool for intelligent interpretation of remote sensing images, plays a vital role in many Earth Observation (EO) applications. Nowadays, accurate semantic segmentation of remote sensing images remains a challenge due to the complex spatial-temporal scenes and multi-scale geo-objects. Driven by the wave of deep learning (DL), CNN- and Transformer-based semantic segmentation methods have been explored widely, and these two architectures both revealed the importance of multi-scale feature representation for strengthening semantic information of geo-objects. However, the actual multi-scale feature fusion often comes with the semantic redundancy issue due to homogeneous semantic contents in pyramid features. To handle this issue, we propose a novel Mamba-based segmentation network, namely PyramidMamba. Specifically, we design a plug-and-play decoder, which develops a dense spatial pyramid pooling (DSPP) to encode rich multi-scale semantic features and a pyramid fusion Mamba (PFM) to reduce semantic redundancy in multi-scale feature fusion. Comprehensive ablation experiments illustrate the effectiveness and superiority of the proposed method in enhancing multi-scale feature representation as well as the great potential for real-time semantic segmentation. Moreover, our PyramidMamba yields state-of-the-art performance on three publicly available datasets, i.e. the OpenEarthMap (70.8% mIoU), ISPRS Vaihingen (84.8% mIoU) and Potsdam (88.0% mIoU) datasets. The code will be available at https://github.com/WangLibo1995/GeoSeg.
翻訳日:2024-06-18 20:31:44 公開日:2024-06-16
# 線形光学における重み付き量子GHZ状態の指数的に拡張されたスキーム

Exponentially Enhanced Scheme for the Heralded Qudit GHZ State in Linear Optics ( http://arxiv.org/abs/2406.10830v1 )

ライセンス: Link先を確認
Seungbeom Chin, Junghee Ryu, Yong-Su Kim, (参考訳) 高次元多部絡み合いは量子情報科学において重要な役割を担っている。 しかし、そのような絡み合いを生成するための既存のスキームは、量子単位の次元が増加するにつれて、ますます複雑でコストがかかる。 本研究では, 単一光子源を用いた$d$レベル$N$-partite GHZ状態とその線形演算を生成できる, 大幅に拡張された線形光符号化方式を提案することにより, 限界を克服する。 我々のスキームは、以前のスキームによる成功確率を大幅に改善したターゲット状態を生成するために$dN$光子を必要とする。 任意のquditエンコーディングシステムと互換性のある線形論理ゲートを使用し、ビームスプリッターを装着した一般化されたGHZ状態を生成することができる。 高次元の資源状態の効率的な生成により、我々の研究は高次元の量子情報処理におけるさらなる探索の道を開く。

High-dimensional multipartite entanglement plays a crucial role in quantum information science. However, existing schemes for generating such entanglement become increasingly complex and costly as the dimension of quantum units increases. In this work, we overcome the limitation by proposing a significantly enhanced linear optical heralded scheme that generates the $d$-level $N$-partite GHZ state with single-photon sources and their linear operations. Our scheme requires $dN$ photons to generate the target state with substantially improved success probability from previous schemes. It employs linear optical logic gates compatible with any qudit encoding system and can generate generalized GHZ states with installments of beamsplitters. With efficient generations of high-dimensional resource states, our work opens avenues for further exploration in high-dimensional quantum information processing.
翻訳日:2024-06-18 20:31:44 公開日:2024-06-16
# エッジデバイスにおける分散学習のための階層型勾配符号化の設計と最適化

Design and Optimization of Hierarchical Gradient Coding for Distributed Learning at Edge Devices ( http://arxiv.org/abs/2406.10831v1 )

ライセンス: Link先を確認
Weiheng Tang, Jingyi Li, Lin Chen, Xu Chen, (参考訳) エッジコンピューティングは、エッジノードの分散リソースを活用することにより、分散学習のパフォーマンスを高めるための有望なパラダイムとして最近登場した。 アーキテクチャ上、エッジノードの導入は、元の分散学習システムにおけるマスタとワーカの間に追加の中間層を追加し、より厳しいトラグラー効果をもたらす可能性がある。 近年,分散学習におけるストラグラー緩和のための符号化理論に基づく手法が提案されているが,その大半は従来のワーカマスターアーキテクチャに重点を置いている。 本稿では,エッジノードからなる付加層を用いた階層型分散学習システムにおいて,トラグル効果を緩和する問題について検討する。 技術的には、まず労働者の計算負荷とストラグラー耐性の基本的なトレードオフを導出する。 そこで本研究では,より優れたストラグラー緩和を実現する階層的勾配符号化フレームワークを提案する。 不均一なシナリオにおけるフレームワークの性能をさらに向上するため、学習過程における各イテレーションの実行時間を最小化する目的で最適化問題を定式化する。 最適戦略を出力することにより,問題を数学的に解く効率的なアルゴリズムを開発した。 シミュレーションの結果,従来の手法に比べ,提案手法の優位性を示した。

Edge computing has recently emerged as a promising paradigm to boost the performance of distributed learning by leveraging the distributed resources at edge nodes. Architecturally, the introduction of edge nodes adds an additional intermediate layer between the master and workers in the original distributed learning systems, potentially leading to more severe straggler effect. Recently, coding theory-based approaches have been proposed for stragglers mitigation in distributed learning, but the majority focus on the conventional workers-master architecture. In this paper, along a different line, we investigate the problem of mitigating the straggler effect in hierarchical distributed learning systems with an additional layer composed of edge nodes. Technically, we first derive the fundamental trade-off between the computational loads of workers and the stragglers tolerance. Then, we propose a hierarchical gradient coding framework, which provides better stragglers mitigation, to achieve the derived computational trade-off. To further improve the performance of our framework in heterogeneous scenarios, we formulate an optimization problem with the objective of minimizing the expected execution time for each iteration in the learning process. We develop an efficient algorithm to mathematically solve the problem by outputting the optimum strategy. Extensive simulation results demonstrate the superiority of our schemes compared with conventional solutions.
翻訳日:2024-06-18 20:31:44 公開日:2024-06-16
# 重力実験用スターン・ゲルラッハ干渉計における加速度騒音誘起デコヒーレンス

Acceleration Noise Induced Decoherence in Stern-Gerlach Interferometers for Gravity Experiments ( http://arxiv.org/abs/2406.10832v1 )

ライセンス: Link先を確認
Meng-Zhi Wu, (参考訳) SGI(Stern-Gerlach Interferometer)は、磁場によって駆動される物質波干渉計の一種であり、多くの重力実験のために提案されている。 振動や慣性力などの加速度ノイズは、重力勾配のゆらぎや磁場などの高次ノイズとともに、デフォーカス、コントラストの喪失、位置定位デコヒーレンスなどのSGIのデコヒーレンス問題を引き起こす。 本稿では、ガウス確率過程によって記述される加速度雑音下での調和振動子としてモデル化されたSGIの解析的時間進化演算子に基づいて、これらのデコヒーレンスのメカニズムを理論的に研究する。 証明されるように、SGIの単一アームでは、古典位相空間の位相と座標は雑音に対する線形応答として変動するが、ウィグナー関数の形状は加速度雑音の下で不変であり、その密度行列はアンサンブル平均による位置局在デコヒーレンスも経験する。 スピン空間に構築された目撃者にとって、古典位相空間における自由度は追跡されなければならない。 そして、加速度雑音は証人に対する嫌悪効果を生じさせ、位相空間における軌道の変動と2つの腕の位置定位デコヒーレンスをキャンセルする。 一方、高次雑音は先頭方向の非一様加速度雑音として扱うことができ、デフォーカス以外のコントラスト損失によるスピン空間のデコヒーレンスを引き起こす。 この2つのメカニズムは、実験中にノイズが決定論的プロセスとして監視される場合、純度損失やエントロピーの増加を引き起こすことはない。

Stern-Gerlach interferometer (SGI) is a kind of matter-wave interferometer driven by magnetic field and has been proposed for many gravity experiments. Acceleration noises such as vibration and inertial forces, together with higher-order noises like the fluctuation of the gravity gradient or the magnetic field, can cause decoherence problems of SGI, including dephasing, loss of contrast and position localization decoherence. In this paper, I will theoretically study these mechanisms of decoherence based on the analytical time-evolution operator of an SGI modeled as a harmonic oscillator under acceleration noises described by Gaussian stochastic processes. As will be proved, for a single arm of an SGI, the shape of the Wigner function keeps invariant under an acceleration noise, although the phase and the coordinate in the classical phase space fluctuate as linear responses to the noise, and its density matrix also experiences a position localization decoherence due to the ensemble average. For the witness constructed in the spin space, the degrees of freedom in the classical phase space have to be traced out. Then acceleration noises can lead to dephasing effects on the witness, while the fluctuation on the trajectories in the phase space and position localization decoherence of the two arms will be canceled with each other. On the other hand, higher-order noises can be treated as non-uniform acceleration noises in the leading order, and they will cause decoherence in the spin space due to the contrast loss besides the dephasing. Remarkably, the randomness of the noise is essential for dephasing and position-localization decoherence, and these two mechanisms don't cause purity loss or entropy increase if the noise is monitored as a deterministic process during the experiment.
翻訳日:2024-06-18 20:31:44 公開日:2024-06-16
# 科学的大規模言語モデルの包括的調査と科学的発見への応用

A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery ( http://arxiv.org/abs/2406.10833v1 )

ライセンス: Link先を確認
Yu Zhang, Xiusi Chen, Bowen Jin, Sheng Wang, Shuiwang Ji, Wei Wang, Jiawei Han, (参考訳) 多くの科学分野において、大きな言語モデル(LLM)は、テキストやその他のデータ(例えば分子やタンパク質)が処理される方法に革命をもたらし、様々な応用において優れた性能を達成し、科学的発見プロセスを強化する。 それにもかかわらず、科学 LLM に関する以前の調査は、しばしば 1 から 2 つの分野、または 1 つのモダリティに集中していた。 本稿では,学術的なLLMのアーキテクチャと事前学習技術との関係を明らかにすることで,研究の展望をより包括的に把握することを目的としている。 この目的のために,250以上の科学LLMを総合的に調査し,それらの共通点と相違点について考察するとともに,各分野とモダリティに関する事前学習データセットと評価タスクを要約した。 さらに,LLMが科学的発見のためにどのように展開されているかを検討する。 この調査に関するリソースは、https://github.com/yuzhimanhua/Awesome-Scientific-Language-Modelsで公開されている。

In many scientific fields, large language models (LLMs) have revolutionized the way with which text and other modalities of data (e.g., molecules and proteins) are dealt, achieving superior performance in various applications and augmenting the scientific discovery process. Nevertheless, previous surveys on scientific LLMs often concentrate on one to two fields or a single modality. In this paper, we aim to provide a more holistic view of the research landscape by unveiling cross-field and cross-modal connections between scientific LLMs regarding their architectures and pre-training techniques. To this end, we comprehensively survey over 250 scientific LLMs, discuss their commonalities and differences, as well as summarize pre-training datasets and evaluation tasks for each field and modality. Moreover, we investigate how LLMs have been deployed to benefit scientific discovery. Resources related to this survey are available at https://github.com/yuzhimanhua/Awesome-Scientific-Language-Models.
翻訳日:2024-06-18 20:31:44 公開日:2024-06-16
# アキレス腱の露出:数学的推論におけるLLMの誤り処理能力の評価

Exposing the Achilles' Heel: Evaluating LLMs Ability to Handle Mistakes in Mathematical Reasoning ( http://arxiv.org/abs/2406.10834v1 )

ライセンス: Link先を確認
Joykirat Singh, Akshay Nambi, Vibhav Vineet, (参考訳) 大規模言語モデル (LLMs) は数学語問題 (MWPs) に変換的影響で適用され、これらの複雑な問題がどのようにアプローチされ、教育的設定を含む様々な領域で解決されるかに革命をもたらした。 しかし、これらのモデルの評価は、しばしば推論能力の重要な側面を見越して最終的な精度を優先する。 この研究は、LCMが推論ミスを検出し、修正する能力に焦点をあてることで、このギャップに対処する。 本稿では,ルールベース手法とより小さな言語モデルにより生成される正しい推論ステップと誤推論ステップをMWPに組み込んだ,新しいデータセットMWP-MISTAKEを提案する。 GPT-4o, GPT-4, GPT-3.5Turboなどの最先端モデルの長所と短所について, 総合的なベンチマークを行った。 GPT-$oの誤り検出と修正における優れた性能と、より小さなモデルで直面する永続的な課題を強調した。 さらに,LLMの信頼性に影響を及ぼすとともに,データの汚染や記憶に関する問題も同定する。 本研究は, 推論過程の厳密な評価の重要性を強調し, 数学的問題解決における LLM の一般化とロバスト性を高めるための今後の方向性を提案する。

Large Language Models (LLMs) have been applied to Math Word Problems (MWPs) with transformative impacts, revolutionizing how these complex problems are approached and solved in various domains including educational settings. However, the evaluation of these models often prioritizes final accuracy, overlooking the crucial aspect of reasoning capabilities. This work addresses this gap by focusing on the ability of LLMs to detect and correct reasoning mistakes. We introduce a novel dataset MWP-MISTAKE, incorporating MWPs with both correct and incorrect reasoning steps generated through rule-based methods and smaller language models. Our comprehensive benchmarking reveals significant insights into the strengths and weaknesses of state-of-the-art models, such as GPT-4o, GPT-4, GPT-3.5Turbo, and others. We highlight GPT-$o's superior performance in mistake detection and rectification and the persistent challenges faced by smaller models. Additionally, we identify issues related to data contamination and memorization, impacting the reliability of LLMs in real-world applications. Our findings emphasize the importance of rigorous evaluation of reasoning processes and propose future directions to enhance the generalization and robustness of LLMs in mathematical problem-solving.
翻訳日:2024-06-18 20:31:44 公開日:2024-06-16
# 検索タグによるオブジェクト認識知識の多モーダル大言語モデルの再検討

Reminding Multimodal Large Language Models of Object-aware Knowledge with Retrieved Tags ( http://arxiv.org/abs/2406.10839v1 )

ライセンス: Link先を確認
Daiqing Qi, Handong Zhao, Zijun Wei, Sheng Li, (参考訳) MLLM(Multimodal Large Language Models)の一般的な視覚的命令追従能力は近年進歩しているが、視覚的命令に対する正確かつ詳細な応答が要求される場合、重要な問題に苦慮している。 直感的なソリューションには、データのサイズと品質の改善や、より大きな基礎モデルの使用が含まれる。 これらの問題を緩和する効果を示すが、大量の新しいデータを収集し、はるかに大きなモデルを導入するコストがかかる。 これらの手法の交差に立脚し,マルチモーダルコネクタによる画像とテキストのマッピングプロセスの観点から3つのオブジェクト指向問題を考察する。 本稿では,まず,不十分なトレーニングデータから生じるマルチモーダルコネクタの限界を同定する。 そこで本研究では、オブジェクト名や属性などのリッチなオブジェクト認識情報を含む検索拡張タグトークンによるマッピングを強化することを提案する。 Tag-grounded visual instruction tune with search Augmentation (TUNA)では、同じ言語モデルと12ベンチマークのトレーニングデータを共有するベースラインよりも優れています。 さらに,特定のデータストアが提供される場合,TUNAのゼロショット機能を示す。

Despite recent advances in the general visual instruction-following ability of Multimodal Large Language Models (MLLMs), they still struggle with critical problems when required to provide a precise and detailed response to a visual instruction: (1) failure to identify novel objects or entities, (2) mention of non-existent objects, and (3) neglect of object's attributed details. Intuitive solutions include improving the size and quality of data or using larger foundation models. They show effectiveness in mitigating these issues, but at an expensive cost of collecting a vast amount of new data and introducing a significantly larger model. Standing at the intersection of these approaches, we examine the three object-oriented problems from the perspective of the image-to-text mapping process by the multimodal connector. In this paper, we first identify the limitations of multimodal connectors stemming from insufficient training data. Driven by this, we propose to enhance the mapping with retrieval-augmented tag tokens, which contain rich object-aware information such as object names and attributes. With our Tag-grounded visual instruction tuning with retrieval Augmentation (TUNA), we outperform baselines that share the same language model and training data on 12 benchmarks. Furthermore, we show the zero-shot capability of TUNA when provided with specific datastores.
翻訳日:2024-06-18 20:31:44 公開日:2024-06-16
# CBGBench:タンパク質-分子複合体結合グラフのブランクを埋める

CBGBench: Fill in the Blank of Protein-Molecule Complex Binding Graph ( http://arxiv.org/abs/2406.10840v1 )

ライセンス: Link先を確認
Haitao Lin, Guojiang Zhao, Odin Zhang, Yufei Huang, Lirong Wu, Zicheng Liu, Siyuan Li, Cheng Tan, Zhifeng Gao, Stan Z. Li, (参考訳) 構造に基づく薬物設計(SBDD)は、標的タンパク質に結合し、生成モデルにおけるAI技術の支援によって大幅に高速化される潜在的な薬物を生成することを目的としている。 しかし、体系的な理解の欠如は、様々な設定、複雑な実装、難しい再現性、タスク特異性によって継続する。 第一に、標準化の欠如は不公平な比較と決定的な洞察につながる可能性がある。 このジレンマに対処するために,SBDDの包括的なベンチマークであるCBGBenchを提案する。 既存のメソッドを属性に基づいて分類することで、CBGBenchは様々な最先端メソッドを実装するモジュラーで拡張可能なフレームワークを促進する。 第二に、‘textit{de novo} 分子生成における単一のタスクは、その能力をほとんど反映できない。 この範囲を広げるために、我々はこれらのモデルを薬物設計に不可欠な様々なタスクに適応させた。 これらのタスクには、タンパク質ポケットの構造に条件づけられた、textit{de novo}分子、リンカー、断片、足場、および側鎖の生成的命名が含まれる。 本評価は, 相互作用, 化学特性, 幾何学的信頼性, サブ構造的妥当性に関する包括的視点を包括的に包括的に包含して行う。 さらに、最先端モデルの事前学習版と、実証研究の分析による深い洞察を提供する。 CBGBench のコードベースは \url{https://github.com/Edapinenut/CBGBench} で公開されている。

Structure-based drug design (SBDD) aims to generate potential drugs that can bind to a target protein and is greatly expedited by the aid of AI techniques in generative models. However, a lack of systematic understanding persists due to the diverse settings, complex implementation, difficult reproducibility, and task singularity. Firstly, the absence of standardization can lead to unfair comparisons and inconclusive insights. To address this dilemma, we propose CBGBench, a comprehensive benchmark for SBDD, that unifies the task as a generative heterogeneous graph completion, analogous to fill-in-the-blank of the 3D complex binding graph. By categorizing existing methods based on their attributes, CBGBench facilitates a modular and extensible framework that implements various cutting-edge methods. Secondly, a single task on \textit{de novo} molecule generation can hardly reflect their capabilities. To broaden the scope, we have adapted these models to a range of tasks essential in drug design, which are considered sub-tasks within the graph fill-in-the-blank tasks. These tasks include the generative designation of \textit{de novo} molecules, linkers, fragments, scaffolds, and sidechains, all conditioned on the structures of protein pockets. Our evaluations are conducted with fairness, encompassing comprehensive perspectives on interaction, chemical properties, geometry authenticity, and substructure validity. We further provide the pre-trained versions of the state-of-the-art models and deep insights with analysis from empirical studies. The codebase for CBGBench is publicly accessible at \url{https://github.com/Edapinenut/CBGBench}.
翻訳日:2024-06-18 20:31:44 公開日:2024-06-16
# グループディスカッションにおけるマイルストーンの自動検出のための大規模言語モデル

Large Language Models for Automatic Milestone Detection in Group Discussions ( http://arxiv.org/abs/2406.10842v1 )

ライセンス: Link先を確認
Zhuoxu Duan, Zhengye Yang, Samuel Westby, Christoph Riedl, Brooke Foucault Welles, Richard J. Radke, (参考訳) GPTのような大規模言語モデルは、テキスト文書に基づく自然言語理解タスクで広く成功している。 本稿では, 発話が不規則あるいは不適切であるグループオーラルコミュニケーションタスクの録音におけるLLMの性能について検討する。 任意の順序で達成可能ないくつかのマイルストーンを持つパズルを含むグループタスク実験を提案する。 本研究は,マイルストーンが完了したかどうか,いつ,いつ,誰が検出するかを,転写文の処理方法について検討する。 本稿では,テキスト埋め込みを用いた意味的類似性探索法において,書き起こしチャンクによるGPTの反復的促進が優れていることを示すとともに,異なるコンテキストウィンドウサイズ下でのGPT応答の品質とランダム性について考察する。

Large language models like GPT have proven widely successful on natural language understanding tasks based on written text documents. In this paper, we investigate an LLM's performance on recordings of a group oral communication task in which utterances are often truncated or not well-formed. We propose a new group task experiment involving a puzzle with several milestones that can be achieved in any order. We investigate methods for processing transcripts to detect if, when, and by whom a milestone has been completed. We demonstrate that iteratively prompting GPT with transcription chunks outperforms semantic similarity search methods using text embeddings, and further discuss the quality and randomness of GPT responses under different context window sizes.
翻訳日:2024-06-18 20:31:44 公開日:2024-06-16
# BigBenchにおける機械学習ワークロードの強化

Enriching the Machine Learning Workloads in BigBench ( http://arxiv.org/abs/2406.10843v1 )

ライセンス: Link先を確認
Matthias Polag, Todor Ivanov, Timo Eichhorn, (参考訳) ビッグデータの時代と、現在のソフトウェアシステムにおける機械学習、ディープラーニング、人工知能アルゴリズムのサポートの増大の中で、これらの新しいテクノロジをテストし評価する標準化されたアプリケーションベンチマークが緊急に必要である。 標準化されたBigBench(TPCx-BB)ベンチマークに基づいて、この作業は改善されたBigBench V2を3つの新しいワークロードで強化し、マシンラーニングアルゴリズムのカバレッジを拡大する。 我々のワークロードは、複数のアルゴリズムを利用し、MLlib、SystemML、Scikit-learn、Pandasといった一般的なライブラリで同じアルゴリズムの異なる実装を比較し、ベンチマーク拡張の妥当性と使用性を示しています。

In the era of Big Data and the growing support for Machine Learning, Deep Learning and Artificial Intelligence algorithms in the current software systems, there is an urgent need of standardized application benchmarks that stress test and evaluate these new technologies. Relying on the standardized BigBench (TPCx-BB) benchmark, this work enriches the improved BigBench V2 with three new workloads and expands the coverage of machine learning algorithms. Our workloads utilize multiple algorithms and compare different implementations for the same algorithm across several popular libraries like MLlib, SystemML, Scikit-learn and Pandas, demonstrating the relevance and usability of our benchmark extension.
翻訳日:2024-06-18 20:31:44 公開日:2024-06-16
# LAIP:テキストに基づく人物検索のための画像合成モデルから局所的アライメントを学習する

LAIP: Learning Local Alignment from Image-Phrase Modeling for Text-based Person Search ( http://arxiv.org/abs/2406.10845v1 )

ライセンス: Link先を確認
Yu Wu, Haiguang Wang, Mengxia Wu, Cao Min, Min Zhang, (参考訳) テキストベースの人物検索は、与えられたテキスト記述に基づいて、特定の人物の画像を取得することを目的としている。 このタスクの一般的な解決策は、画像とテキスト全体、すなわちグローバルアライメントを直接一致させることである。 結果として、一部の作品では注意を局所的なアライメントにシフトさせている。 1つのグループは、変圧器のフォワードアテンション重みを使ってきめ細かな部分とマッチングするが、情報は未利用である。 もうひとつは、マスクされた部分の非マスキングのコンテキストに基づいて、偏りのあるマスキング戦略を用いて、局所的なアライメントを暗黙的に実施する。 すべての性能改善を制限します。 本稿では,2方向アテンション重み付き局所アライメント (BidirAtt) と Mask Phrase Modeling (MPM) モジュールを用いたLAIP(Local Alignment from Image-Phrase Modeling) フレームワークを提案する。 MPMは、全文ではなく名詞句の中でマスクの再構築に焦点を当て、偏見のないマスキング戦略を確実にする。 CUHK-PEDES、ICFG-PEDES、RSTPReidデータセットで実施された大規模な実験は、既存の手法よりもLAIPフレームワークの方が優れていることを示している。

Text-based person search aims at retrieving images of a particular person based on a given textual description. A common solution for this task is to directly match the entire images and texts, i.e., global alignment, which fails to deal with discerning specific details that discriminate against appearance-similar people. As a result, some works shift their attention towards local alignment. One group matches fine-grained parts using forward attention weights of the transformer yet underutilizes information. Another implicitly conducts local alignment by reconstructing masked parts based on unmasked context yet with a biased masking strategy. All limit performance improvement. This paper proposes the Local Alignment from Image-Phrase modeling (LAIP) framework, with Bidirectional Attention-weighted local alignment (BidirAtt) and Mask Phrase Modeling (MPM) module.BidirAtt goes beyond the typical forward attention by considering the gradient of the transformer as backward attention, utilizing two-sided information for local alignment. MPM focuses on mask reconstruction within the noun phrase rather than the entire text, ensuring an unbiased masking strategy. Extensive experiments conducted on the CUHK-PEDES, ICFG-PEDES, and RSTPReid datasets demonstrate the superiority of the LAIP framework over existing methods.
翻訳日:2024-06-18 20:31:44 公開日:2024-06-16
# NBA:神経行動アライメントによるバックドア除去のための防衛蒸留

NBA: defensive distillation for backdoor removal via neural behavior alignment ( http://arxiv.org/abs/2406.10846v1 )

ライセンス: Link先を確認
Zonghao Ying, Bin Wu, (参考訳) 近年、ディープニューラルネットワークはバックドア攻撃に弱いことが示されている。 この攻撃パラダイムを通じて、バックドアをニューラルネットワークに挿入することで、ネットワークの整合性を損なう。 攻撃者がテストフェーズ中にトリガーを提示すると、モデル内のバックドアがアクティベートされ、ネットワークが特定の間違った予測をすることができる。 非常にステルスで危険であるため、バックドア攻撃から守ることは極めて重要である。 本稿では,バックドア除去のための新しい防御機構であるニューラル・ビヘイビア・アライメント(NBA)を提案する。 NBAは、バックドアディフェンスの特徴に応じて防衛性能を向上させるため、知識形式と蒸留サンプルの観点から蒸留プロセスを最適化する。 NBAは、知識の伝達を容易にするために、ネットワーク内での神経行動のハイレベルな表現を構築している。 さらに、NBAは学生モデルにバックドア神経の振る舞いを誘導するために擬似サンプルを作成する。 学生ネットワークからのバックドア神経行動と教師ネットワークからの良性神経行動とを合わせることで、NBAはバックドアの積極的な除去を可能にする。 大規模な実験によると、NBAは6つのバックドア攻撃に対して効果的に防御でき、最先端の5つの防御を上回ります。

Recently, deep neural networks have been shown to be vulnerable to backdoor attacks. A backdoor is inserted into neural networks via this attack paradigm, thus compromising the integrity of the network. As soon as an attacker presents a trigger during the testing phase, the backdoor in the model is activated, allowing the network to make specific wrong predictions. It is extremely important to defend against backdoor attacks since they are very stealthy and dangerous. In this paper, we propose a novel defense mechanism, Neural Behavioral Alignment (NBA), for backdoor removal. NBA optimizes the distillation process in terms of knowledge form and distillation samples to improve defense performance according to the characteristics of backdoor defense. NBA builds high-level representations of neural behavior within networks in order to facilitate the transfer of knowledge. Additionally, NBA crafts pseudo samples to induce student models exhibit backdoor neural behavior. By aligning the backdoor neural behavior from the student network with the benign neural behavior from the teacher network, NBA enables the proactive removal of backdoors. Extensive experiments show that NBA can effectively defend against six different backdoor attacks and outperform five state-of-the-art defenses.
翻訳日:2024-06-18 20:31:44 公開日:2024-06-16
# TorchOpera: LLM安全性のための複合AIシステム

TorchOpera: A Compound AI System for LLM Safety ( http://arxiv.org/abs/2406.10847v1 )

ライセンス: Link先を確認
Shanshan Han, Yuhang Yao, Zijian Hu, Dimitris Stripelis, Zhaozhuo Xu, Chaoyang He, (参考訳) 本稿では,大規模言語モデルにおけるプロンプトと応答の安全性と品質を向上させる複合AIシステムであるTorchOperaを紹介する。 TorchOperaは、すべてのユーザプロンプトが安全で、コンテキスト的にグラウンディングされ、効果的に処理されることを保証すると同時に、LLMレスポンスが適切で高品質であることを保証する。 TorchOperaは、コンテキストグラウンドにベクトルデータベース、フレキシブルな修正にルールベースのラッパー、安全でないコンテンツや不正コンテンツの検出と調整のための特別なメカニズムを利用する。 また,計算コストを削減するため,複合AIシステムの展望も提供する。 大規模な実験により、TorchOperaはLLM応答の効率を保ちながら、現実の環境でのLLMの安全性、信頼性、適用性を保証する。

We introduce TorchOpera, a compound AI system for enhancing the safety and quality of prompts and responses for Large Language Models. TorchOpera ensures that all user prompts are safe, contextually grounded, and effectively processed, while enhancing LLM responses to be relevant and high quality. TorchOpera utilizes the vector database for contextual grounding, rule-based wrappers for flexible modifications, and specialized mechanisms for detecting and adjusting unsafe or incorrect content. We also provide a view of the compound AI system to reduce the computational cost. Extensive experiments show that TorchOpera ensures the safety, reliability, and applicability of LLMs in real-world settings while maintaining the efficiency of LLM responses.
翻訳日:2024-06-18 20:31:44 公開日:2024-06-16
# 単語確率の計算における単語語彙の先行する空白空間

Leading Whitespaces of Language Models' Subword Vocabulary Poses a Confound for Calculating Word Probabilities ( http://arxiv.org/abs/2406.10851v1 )

ライセンス: Link先を確認
Byung-Doh Oh, William Schuler, (参考訳) トランスフォーマーに基づく言語モデルからの単語・バイ・ワードの条件付き確率は、最小ペア以上の予測評価や、人間読者の漸進的な処理困難をモデル化するために、ますます使われてきている。 本稿では,このような言語モデルのサブワードトークン化スキームには,これまで未解決であった欠点が存在することを論じる。 これは、ほとんどの言語モデルのサブワード語彙のトークンが主白空間を持ち、したがって自然に単語の確率を定義できないという事実による。 まず、このことが1つ以上の単語確率をもたらすことを証明し、従って$\mathsf{P}(\Omega) = 1$という公理に違反する。 この特性は、単語ごとの副詞の誤用を招き、現在の「語末」の誤認が次の単語に誤って受け継がれる。 さらに、言語モデルのそのような単語境界の暗黙的な予測は、人間の被験者が今後の単語境界を直接観察する精神言語実験と矛盾する。 本稿では,後続する白色空間の確率を現在の単語の確率に再計算する簡単な復号法を提案する。 ケーススタディでは,コンマが臨界語の前に強く期待される過渡的/非横断的文において,園芸パスの効果が著しく異なることが示唆された。

Word-by-word conditional probabilities from Transformer-based language models are increasingly being used to evaluate their predictions over minimal pairs or to model the incremental processing difficulty of human readers. In this paper, we argue that there is a confound posed by the subword tokenization scheme of such language models, which has gone unaddressed thus far. This is due to the fact that tokens in the subword vocabulary of most language models have leading whitespaces and therefore do not naturally define stop probabilities of words. We first prove that this can result in word probabilities that sum to more than one, thereby violating the axiom that $\mathsf{P}(\Omega) = 1$. This property results in a misallocation of word-by-word surprisal, where the unacceptability of the current 'end of word' is incorrectly carried over to the next word. Additionally, language models' such implicit prediction of word boundaries is incongruous with psycholinguistic experiments where human subjects directly observe upcoming word boundaries. We present a simple decoding technique to reaccount the probability of the trailing whitespace into that of the current word, which resolves this confound. As a case study, we show that this results in significantly different estimates of garden-path effects in transitive/intransitive sentences, where a comma is strongly expected before the critical word.
翻訳日:2024-06-18 20:31:44 公開日:2024-06-16
# IG2: 機能属性に対する反復的なグラディエントパスの総合的なグラディエント

IG2: Integrated Gradient on Iterative Gradient Path for Feature Attribution ( http://arxiv.org/abs/2406.10852v1 )

ライセンス: Link先を確認
Yue Zhuo, Zhiqiang Ge, (参考訳) 特徴属性(Feature Attribution)は、入力特徴のモデル予測へのコントリビューションの重要スコアを提供することによって、人工知能(AI)をインスタンスレベルで説明する。 統合グラディエント(IG)は、説明された入力(説明)から反実例(ベースライン)への経路に沿った勾配の統合を含む、ディープニューラルネットワークの顕著な経路帰属法である。 現在のIG変種は主にExplicandの出力の勾配に焦点を当てている。 しかし,本研究では,反事実出力の勾配が特徴属性にも大きく影響していることが示唆された。 これを実現するために,両勾配を考慮した反復勾配経路統合勾配 (IG2) を提案する。 IG2は、反ファクト的勾配を積分経路に反復的に組み込み、新しい経路(GradPath)と新しいベースライン(GradCF)を生成する。 これら2つの新しいIG成分は、初期のIG法における帰属雑音と任意のベースライン選択の問題に効果的に対処する。 IG2は経路法として、理論上正当化される多くの望ましい公理を満たす。 XAIベンチマーク、ImageNet、MNIST、TRECの質問に対する回答、ウエハマップの失敗パターン、CelebAの顔属性に関する実験結果は、IG2が最先端技術と比較して優れた属性を提供することを示す。 コードはhttps://github.com/JoeZhuo-ZY/IG2.comで公開されている。

Feature attribution explains Artificial Intelligence (AI) at the instance level by providing importance scores of input features' contributions to model prediction. Integrated Gradients (IG) is a prominent path attribution method for deep neural networks, involving the integration of gradients along a path from the explained input (explicand) to a counterfactual instance (baseline). Current IG variants primarily focus on the gradient of explicand's output. However, our research indicates that the gradient of the counterfactual output significantly affects feature attribution as well. To achieve this, we propose Iterative Gradient path Integrated Gradients (IG2), considering both gradients. IG2 incorporates the counterfactual gradient iteratively into the integration path, generating a novel path (GradPath) and a novel baseline (GradCF). These two novel IG components effectively address the issues of attribution noise and arbitrary baseline choice in earlier IG methods. IG2, as a path method, satisfies many desirable axioms, which are theoretically justified in the paper. Experimental results on XAI benchmark, ImageNet, MNIST, TREC questions answering, wafer-map failure patterns, and CelebA face attributes validate that IG2 delivers superior feature attributions compared to the state-of-the-art techniques. The code is released at: https://github.com/JoeZhuo-ZY/IG2.
翻訳日:2024-06-18 20:31:44 公開日:2024-06-16
# MV2Cyl:マルチビュー画像からの3次元押出しシリンダの再構成

MV2Cyl: Reconstructing 3D Extrusion Cylinders from Multi-View Images ( http://arxiv.org/abs/2406.10853v1 )

ライセンス: Link先を確認
Eunji Hong, Minh Hieu Nguyen, Mikaela Angelina Uy, Minhyuk Sung, (参考訳) 本稿では,2次元多視点画像から3次元を再構成する新しい手法MV2Cylについて述べる。 生の3D形状から押出シリンダーを抽出する手法はコンピュータビジョンにおいて広く研究されているが、ニューラルネットワークによる3Dデータの処理はいまだにボトルネックとなっている。 3Dスキャンは一般的にマルチビュー画像が伴うため、2D畳み込みニューラルネットワークを利用することで、これらの画像は押出シリンダー情報を抽出するためのリッチソースとして利用することができる。 しかし, 押出物の表面情報のみを抽出し, 利用することで, 閉塞や表面セグメンテーションの課題により, 最適以下の結果が得られることが観察された。 抽出した基本曲線情報と相乗化することにより,2次元スケッチにおいて最適な精度で最適な再構成結果とパラメータ推定を行う。 提案手法を生の3次元点雲を入力とする従来手法と比較し,マルチビュー画像の活用によるアプローチの有効性を実証した。

We present MV2Cyl, a novel method for reconstructing 3D from 2D multi-view images, not merely as a field or raw geometry but as a sketch-extrude CAD model. Extracting extrusion cylinders from raw 3D geometry has been extensively researched in computer vision, while the processing of 3D data through neural networks has remained a bottleneck. Since 3D scans are generally accompanied by multi-view images, leveraging 2D convolutional neural networks allows these images to be exploited as a rich source for extracting extrusion cylinder information. However, we observe that extracting only the surface information of the extrudes and utilizing it results in suboptimal outcomes due to the challenges in the occlusion and surface segmentation. By synergizing with the extracted base curve information, we achieve the optimal reconstruction result with the best accuracy in 2D sketch and extrude parameter estimation. Our experiments, comparing our method with previous work that takes a raw 3D point cloud as input, demonstrate the effectiveness of our approach by taking advantage of multi-view images.
翻訳日:2024-06-18 20:21:59 公開日:2024-06-16
# ALPS:セグメンテーションモデルを用いたリモートセンシングセグメンテーションのための自動ラベリングおよび事前学習方式

ALPS: An Auto-Labeling and Pre-training Scheme for Remote Sensing Segmentation With Segment Anything Model ( http://arxiv.org/abs/2406.10855v1 )

ライセンス: Link先を確認
Song Zhang, Qingzhong Wang, Junyi Liu, Haoyi Xiong, (参考訳) リモートセンシング(RS)画像分析の分野では、大量のラベルのないデータセットと、これらのデータセットを高度なRS分析に完全に活用する能力のギャップが大きな課題となっている。 このギャップを埋めるために、私たちはALPS(Automatic Labeling for Pre-training in Segmentation)という革新的な自動ラベルフレームワークを導入し、Segment Anything Model(SAM)を利用して、事前アノテーションや追加のプロンプトを必要とせずに、RS画像の正確な擬似ラベルを予測する。 提案したパイプラインは、従来のRSデータセットのアノテートに関連する労力とリソースの要求を大幅に削減する。 プリトレーニングのためにALPSを介して2つの総合的な擬似ラベルRSデータセットを構築することにより、iSAIDやISPRS Potsdamなど、様々なベンチマークで下流タスクの性能を向上させることができる。 実験はフレームワークの有効性を実証し、広範囲の注釈付きデータセットが不足している場合でも、複数のタスクにまたがって適切に一般化できることを示し、フィールドにおける自動セグメンテーションとアノテーションの課題に対するスケーラブルなソリューションを提供する。 さらに、提案したパイプラインは柔軟で、医用画像のセグメンテーションにも適用でき、性能が著しく向上する。 注意すべき点は、ALPSは事前訓練されたSAMを使用して、追加のマニュアルアノテーションなしでRSイメージを半自動アノテートすることである。 パイプライン内のすべてのコンポーネントはよく調査されているが、クラスタリングアルゴリズムをSAMと統合し、新しい擬似ラベルアライメントによってRSセグメンテーションが大幅に向上する。 私たちのソースコードは、https://github.com/StriveZs/ALPS.comで公開されています。

In the fast-growing field of Remote Sensing (RS) image analysis, the gap between massive unlabeled datasets and the ability to fully utilize these datasets for advanced RS analytics presents a significant challenge. To fill the gap, our work introduces an innovative auto-labeling framework named ALPS (Automatic Labeling for Pre-training in Segmentation), leveraging the Segment Anything Model (SAM) to predict precise pseudo-labels for RS images without necessitating prior annotations or additional prompts. The proposed pipeline significantly reduces the labor and resource demands traditionally associated with annotating RS datasets. By constructing two comprehensive pseudo-labeled RS datasets via ALPS for pre-training purposes, our approach enhances the performance of downstream tasks across various benchmarks, including iSAID and ISPRS Potsdam. Experiments demonstrate the effectiveness of our framework, showcasing its ability to generalize well across multiple tasks even under the scarcity of extensively annotated datasets, offering a scalable solution to automatic segmentation and annotation challenges in the field. In addition, the proposed a pipeline is flexible and can be applied to medical image segmentation, remarkably boosting the performance. Note that ALPS utilizes pre-trained SAM to semi-automatically annotate RS images without additional manual annotations. Though every component in the pipeline has bee well explored, integrating clustering algorithms with SAM and novel pseudo-label alignment significantly enhances RS segmentation, as an off-the-shelf tool for pre-training data preparation. Our source code is available at: https://github.com/StriveZs/ALPS.
翻訳日:2024-06-18 20:21:59 公開日:2024-06-16
# LLMによる自律走行テストシナリオ生成のための多目的進化探索

An LLM-enhanced Multi-objective Evolutionary Search for Autonomous Driving Test Scenario Generation ( http://arxiv.org/abs/2406.10857v1 )

ライセンス: Link先を確認
Haoxiang Tian, Xingshuo Han, Guoquan Wu, Yuan Zhou, Shuo Li, Jun Wei, Dan Ye, Wei Wang, Tianwei Zhang, (参考訳) 自律走行システム(ADS)の安全性は、自律走行車(AV)の実装において極めて重要である。 したがって、ADSはリリースと一般公開前に徹底的に評価されなければならない。 多様な安全クリティカルなテストシナリオを生成する方法は、ADSテストの重要なタスクである。 本稿では,ALS テストのための LLM 拡張シナリオ生成手法である LEADE を提案する。 LEADEはLCMのプログラム理解能力を活用してシナリオ生成タスクをよりよく理解し、第1世代の高品質なシナリオを生成する。 LEADEは、多様な安全クリティカルなシナリオを探索するために、適応的な多目的遺伝的アルゴリズムを採用している。 LEADEは局所最適解から探索を導出するために、進化的探索をQAタスクに公式化し、定量推論におけるLLMの能力を活用して、局所最適解を分解する微分シードシナリオを生成する。 産業レベルのフルスタックADSプラットフォームであるBaidu Apollo上でLEADEを実装し評価する。 実験の結果、LEADEは安全クリティカルなシナリオを効果的に効率よく生成し、アポロの10の多様な安全違反を露呈できることがわかった。 最先端の検索ベースのADSテストでは、同じ道路上で4つの新しいタイプの安全クリティカルシナリオを特定することで、2つのADSテスト手法を上回ります。

The safety of Autonomous Driving Systems (ADSs) is significantly important for the implementation of autonomous vehicles (AVs). Therefore, ADSs must be evaluated thoroughly before their release and deployment to the public. How to generate diverse safety-critical test scenarios is a key task for ADS testing. This paper proposes LEADE, an LLM-enhanced scenario generation approach for ADS testing, which adopts the LLM-enhanced adaptive evolutionary search to generate safety-critical and diverse test scenarios. LEADE leverages LLM's ability in program understanding to better comprehend the scenario generation task, which generates high-quality scenarios of the first generation. LEADE adopts an adaptive multi-objective genetic algorithm to search for diverse safety-critical scenarios. To guide the search away from the local optima, LEADE formulates the evolutionary search into a QA task, which leverages LLM's ability in quantitative reasoning to generate differential seed scenarios to break out of the local optimal solutions. We implement and evaluate LEADE on industrial-grade full-stack ADS platform, Baidu Apollo. Experimental results show that LEADE can effectively and efficiently generate safety-critical scenarios and expose 10 diverse safety violations of Apollo. It outperforms two state-of-the-art search-based ADS testing techniques by identifying 4 new types of safety-critical scenarios on the same roads.
翻訳日:2024-06-18 20:21:59 公開日:2024-06-16
# 数学的推論のためのステップレベル値設定最適化

Step-level Value Preference Optimization for Mathematical Reasoning ( http://arxiv.org/abs/2406.10858v1 )

ライセンス: Link先を確認
Guoxin Chen, Minpeng Liao, Chengxi Li, Kai Fan, (参考訳) 暗黙の報酬モデルを用いた直接選好最適化(DPO)は人間のフィードバック(RLHF)からの強化学習の代替として有効であることが証明されている。 しかし、応答の全体的な選好アノテーションは、数学的推論のような複雑な多段階推論タスクにおいて、モデル出力のきめ細かい品質を完全に捉えていない。 この制限に対処するために、ステップレベル値優先最適化(SVPO)と呼ばれる新しいアルゴリズムを導入する。 提案手法ではモンテカルロ木探索(MCTS)を用いて,マルチステップ推論のためのステップレベルの選好を自動的にアノテートする。 さらに、学習からランクまでの観点から、暗黙の報酬モデルの振る舞いを再現するために明示的な値モデルを訓練し、標準的な選好最適化を補完する。 この値モデルにより、LLMは推論時に最小のコストでより高い報酬応答を生成することができる。 実験により,本手法は,領域内および領域外両方の数学的推論ベンチマークにおいて,最先端の性能を実現することを示す。

Direct Preference Optimization (DPO) using an implicit reward model has proven to be an effective alternative to reinforcement learning from human feedback (RLHF) for fine-tuning preference aligned large language models (LLMs). However, the overall preference annotations of responses do not fully capture the fine-grained quality of model outputs in complex multi-step reasoning tasks, such as mathematical reasoning. To address this limitation, we introduce a novel algorithm called Step-level Value Preference Optimization (SVPO). Our approach employs Monte Carlo Tree Search (MCTS) to automatically annotate step-level preferences for multi-step reasoning. Furthermore, from the perspective of learning-to-rank, we train an explicit value model to replicate the behavior of the implicit reward model, complementing standard preference optimization. This value model enables the LLM to generate higher reward responses with minimal cost during inference. Experimental results demonstrate that our method achieves state-of-the-art performance on both in-domain and out-of-domain mathematical reasoning benchmarks.
翻訳日:2024-06-18 20:21:59 公開日:2024-06-16
# フェデレートラーニングにおける知識蒸留 : 長期的課題と新しい解決法に関する調査

Knowledge Distillation in Federated Learning: a Survey on Long Lasting Challenges and New Solutions ( http://arxiv.org/abs/2406.10861v1 )

ライセンス: Link先を確認
Laiqiao Qin, Tianqing Zhu, Wanlei Zhou, Philip S. Yu, (参考訳) Federated Learning(FL)は、複数のクライアントをコーディネートしてモデルをトレーニングし、生データをローカライズする分散プライバシ保護機械学習パラダイムである。 しかし、この従来のFLは、プライバシーリスク、データ不均一性、通信ボトルネック、システム不均一性の問題など、いくつかの課題を提起している。 これらの課題に対処するため、知識蒸留(KD)は2020年からFLで広く適用されている。 KDは有効なモデル圧縮および拡張アルゴリズムである。 KDの中核的な概念は、中間層や出力層でロジットを交換することで、モデル間の知識伝達を容易にすることである。 これらの性質により、KDはFLの長期的課題に対する優れた解となる。 これまでのところ、FLでKDを効率的に適用するための現在の傾向と手法を要約し分析するレビューはほとんどない。 この記事では、上記の課題に対処することに焦点を当てた、KDベースのFLに関する包括的な調査を提供する。 まず、KDに基づくFLの概要について、そのモチベーション、基礎、分類、従来のFLとの比較、KDが実行すべき場所などについて概説する。 また,教師,知識,データ,方法など,虫垂におけるKD-based FLの要因を分析した。 我々は、プライバシー保護、データ不均一性、通信効率、パーソナライゼーションなど、FLにおける課題に対してKDがどのように対処できるかについて議論する。 最後に,KDに基づくFLアルゴリズムの課題と今後の研究方向性について論じる。 この調査は、FLエリアの研究者や実践者に対して、洞察とガイダンスを提供できることを願っています。

Federated Learning (FL) is a distributed and privacy-preserving machine learning paradigm that coordinates multiple clients to train a model while keeping the raw data localized. However, this traditional FL poses some challenges, including privacy risks, data heterogeneity, communication bottlenecks, and system heterogeneity issues. To tackle these challenges, knowledge distillation (KD) has been widely applied in FL since 2020. KD is a validated and efficacious model compression and enhancement algorithm. The core concept of KD involves facilitating knowledge transfer between models by exchanging logits at intermediate or output layers. These properties make KD an excellent solution for the long-lasting challenges in FL. Up to now, there have been few reviews that summarize and analyze the current trend and methods for how KD can be applied in FL efficiently. This article aims to provide a comprehensive survey of KD-based FL, focusing on addressing the above challenges. First, we provide an overview of KD-based FL, including its motivation, basics, taxonomy, and a comparison with traditional FL and where KD should execute. We also analyze the critical factors in KD-based FL in the appendix, including teachers, knowledge, data, and methods. We discuss how KD can address the challenges in FL, including privacy protection, data heterogeneity, communication efficiency, and personalization. Finally, we discuss the challenges facing KD-based FL algorithms and future research directions. We hope this survey can provide insights and guidance for researchers and practitioners in the FL area.
翻訳日:2024-06-18 20:21:59 公開日:2024-06-16
# ノード分類のためのグローバルローカルグラフニューラルネットワーク

Global-Local Graph Neural Networks for Node-Classification ( http://arxiv.org/abs/2406.10863v1 )

ライセンス: Link先を確認
Moshe Eliasof, Eran Treister, (参考訳) グラフノード分類のタスクは、ノード入力機能とその隣接性からローカル情報のみを学習するローカルグラフニューラルネットワーク(GNN)を利用することで、しばしばアプローチされる。 本稿では,グローバルな情報とローカルな情報,特にラベルとノードの特徴を学習することで,ノード分類GNNの性能を向上させることを提案する。 そこで我々はGlobal-Local-GNN (GLGNN) と呼ぶ。 各ラベルに対して適切なラベル特徴を学習するために,ラベルに属するノードの特徴と類似度を最大化するとともに,ラベルに属さないノード間の距離を最大化する。 次に学習したラベル機能を用いてノード分類マップを予測する。 3つの異なるGNNバックボーンを用いてGLGNNを実演し,ノード分類におけるグローバル情報利用の重要性を明らかにした。

The task of graph node classification is often approached by utilizing a local Graph Neural Network (GNN), that learns only local information from the node input features and their adjacency. In this paper, we propose to improve the performance of node classification GNNs by utilizing both global and local information, specifically by learning label- and node- features. We therefore call our method Global-Local-GNN (GLGNN). To learn proper label features, for each label, we maximize the similarity between its features and nodes features that belong to the label, while maximizing the distance between nodes that do not belong to the considered label. We then use the learnt label features to predict the node classification map. We demonstrate our GLGNN using three different GNN backbones, and show that our approach improves baseline performance, revealing the importance of global information utilization for node classification.
翻訳日:2024-06-18 20:21:59 公開日:2024-06-16
# 構造に基づく医薬品設計のための幾何学的インフォームドGFlowNet

Geometric-informed GFlowNets for Structure-Based Drug Design ( http://arxiv.org/abs/2406.10867v1 )

ライセンス: Link先を確認
Grayson Lee, Tony Shen, Martin Ester, (参考訳) 医薬品発見に伴うコストの上昇と、発見される現在の速度は、より効率的な構造に基づく医薬品設計(SBDD)手法の必要性を浮き彫りにしている。 我々は生成フローネットワーク(GFlowNets)を用いて、従来の仮想スクリーニング手法ではカバーできない薬物のような分子の膨大な組み合わせ空間を効果的に探索する。 タンパク質のコンフォメーションやタンパク質-リガンド相互作用に関わるタスクで以前利用されていた三角的に一貫した埋め込みを組み込むことにより、GFlowNetフレームワークに新たな改良を加え、特定のタンパク質ポケットに適合した分子を生成する能力を高める。 我々は,GFlowNetsで使用されている既存のタンパク質条件を変更し,タンパク質とリガンドの埋め込みから得られる幾何情報をブレンドして,より幾何学的に一貫した埋め込みを実現した。 CrossDocked2020を用いて行った実験では、生成分子とタンパク質ポケットの結合親和性は、以前の研究と比較して、単目的と多目的の両方で改善された。 さらに,タンパク質-リガンド相互作用において得られる幾何学的情報をさらに高めることを目的とした今後の研究を提案する。

The rise of cost involved with drug discovery and current speed of which they are discover, underscore the need for more efficient structure-based drug design (SBDD) methods. We employ Generative Flow Networks (GFlowNets), to effectively explore the vast combinatorial space of drug-like molecules, which traditional virtual screening methods fail to cover. We introduce a novel modification to the GFlowNet framework by incorporating trigonometrically consistent embeddings, previously utilized in tasks involving protein conformation and protein-ligand interactions, to enhance the model's ability to generate molecules tailored to specific protein pockets. We have modified the existing protein conditioning used by GFlowNets, blending geometric information from both protein and ligand embeddings to achieve more geometrically consistent embeddings. Experiments conducted using CrossDocked2020 demonstrated an improvement in the binding affinity between generated molecules and protein pockets for both single and multi-objective tasks, compared to previous work. Additionally, we propose future work aimed at further increasing the geometric information captured in protein-ligand interactions.
翻訳日:2024-06-18 20:21:59 公開日:2024-06-16
# 大規模言語モデルにおけるキーニューロンの解析

Analyzing Key Neurons in Large Language Models ( http://arxiv.org/abs/2406.10868v1 )

ライセンス: Link先を確認
Lihu Chen, Adam Dejl, Francesca Toni, (参考訳) 大規模言語モデル (LLM) はそのパラメータ内で膨大な量の知識を保有しており、この知識を探索し、編集する手法の研究を促す。 これまでの調査は主に、比較的小規模の言語モデルにおいて、ブランクのタスクを埋めることと、エンティティ関連の通常単発の事実を特定することに焦点を当ててきた。 1)LLaMAやMistralのような現代自己回帰LDMにおいて、クエリ関連ニューロンを効果的に見つけるにはどうすればよいのか? (2)長文テキスト生成の課題にどう対処すればよいか? (3)LLMに局所的な知識領域はあるか? 本研究では,LLMにおいて重要なニューロンを識別できる新しいアーキテクチャに依存しないフレームワークであるNA-ICAを紹介する。 NA-ICAは、複数選択質問応答のプロキシタスクを利用することで、単一トークンを超える長文回答の検証を可能にする。 検出したキーニューロンの有効性を評価するため,多様なドメインや言語にまたがる2つの多点QAデータセットを構築した。 実験的な評価は、NA-ICAがベースライン法を著しく上回っていることを示している。 さらに、ニューロンの分布の解析により、特に異なる領域において、可視的な局在領域の存在が明らかになる。 最後に、検出されたキーニューロンの知識編集およびニューロンベースの予測への応用の可能性を示す。

Large Language Models (LLMs) possess vast amounts of knowledge within their parameters, prompting research into methods for locating and editing this knowledge. Previous investigations have primarily focused on fill-in-the-blank tasks and locating entity-related usually single-token facts) information in relatively small-scale language models. However, several key questions remain unanswered: (1) How can we effectively locate query-relevant neurons in contemporary autoregressive LLMs, such as LLaMA and Mistral? (2) How can we address the challenge of long-form text generation? (3) Are there localized knowledge regions in LLMs? In this study, we introduce Neuron Attribution-Inverse Cluster Attribution (NA-ICA), a novel architecture-agnostic framework capable of identifying key neurons in LLMs. NA-ICA allows for the examination of long-form answers beyond single tokens by employing the proxy task of multi-choice question answering. To evaluate the effectiveness of our detected key neurons, we construct two multi-choice QA datasets spanning diverse domains and languages. Empirical evaluations demonstrate that NA-ICA outperforms baseline methods significantly. Moreover, analysis of neuron distributions reveals the presence of visible localized regions, particularly within different domains. Finally, we demonstrate the potential applications of our detected key neurons in knowledge editing and neuron-based prediction.
翻訳日:2024-06-18 20:21:59 公開日:2024-06-16
# 全方位画像超解像のための幾何歪み誘導変換器

Geometric Distortion Guided Transformer for Omnidirectional Image Super-Resolution ( http://arxiv.org/abs/2406.10869v1 )

ライセンス: Link先を確認
Cuixin Yang, Rongkang Dong, Jun Xiao, Cong Zhang, Kin-Man Lam, Fei Zhou, Guoping Qiu, (参考訳) バーチャルおよび拡張現実アプリケーションが普及するにつれて、全方位画像(ODI)超高解像度化がますます重要になっている。 平面上に形成された2次元平面画像とは異なり、ODIは球面に投影される。 したがって、ODIに確立された超解像法を適用するには、ODIを平面にマッピングする等角射影(ERP)を実行する必要がある。 ODI超解像はERPによる幾何学的歪みを考慮する必要がある。 しかし、これらのERP画像の幾何学的歪みを考慮せずに、従来のディープラーニングベースの手法は限られた範囲のピクセルしか利用せず、自己相似テクスチャを見逃しがちである。 本稿では,GDGT-OSR(Geometric Distortion Guided Transformer for Omdirectional image Super-Resolution)を提案する。 具体的には、変形可能な自己アテンションと統合された歪変調矩形風の自己アテンション機構を提案し、歪みをよりよく知覚し、したがってより自己類似的なテクスチャを含む。 歪み変調は、緯度にまたがる歪みのばらつきを利用して誘導する、新たに考案された歪み誘導発電機によって達成される。 さらに,異なる自己注意モジュールから特徴を適応的に融合させる動的特徴集約手法を提案する。 我々は,公開データセットに関する広範な実験結果を示し,GDGT-OSRが既存文献の手法より優れていることを示す。

As virtual and augmented reality applications gain popularity, omnidirectional image (ODI) super-resolution has become increasingly important. Unlike 2D plain images that are formed on a plane, ODIs are projected onto spherical surfaces. Applying established image super-resolution methods to ODIs, therefore, requires performing equirectangular projection (ERP) to map the ODIs onto a plane. ODI super-resolution needs to take into account geometric distortion resulting from ERP. However, without considering such geometric distortion of ERP images, previous deep-learning-based methods only utilize a limited range of pixels and may easily miss self-similar textures for reconstruction. In this paper, we introduce a novel Geometric Distortion Guided Transformer for Omnidirectional image Super-Resolution (GDGT-OSR). Specifically, a distortion modulated rectangle-window self-attention mechanism, integrated with deformable self-attention, is proposed to better perceive the distortion and thus involve more self-similar textures. Distortion modulation is achieved through a newly devised distortion guidance generator that produces guidance by exploiting the variability of distortion across latitudes. Furthermore, we propose a dynamic feature aggregation scheme to adaptively fuse the features from different self-attention modules. We present extensive experimental results on public datasets and show that the new GDGT-OSR outperforms methods in existing literature.
翻訳日:2024-06-18 20:21:59 公開日:2024-06-16
# COOL:ドメイン適応型ファウショットフェイクニュース検出のための総合的知識強化型プロンプト学習

COOL: Comprehensive Knowledge Enhanced Prompt Learning for Domain Adaptive Few-shot Fake News Detection ( http://arxiv.org/abs/2406.10870v1 )

ライセンス: Link先を確認
Yi Ouyang, Peng Wu, Li Pan, (参考訳) 多くのフェイクニュース検出(FND)手法は、新しいニュースドメインでデータ不足に悩むことが多い。 近年,プレトレーニング言語モデル(PLM)に基づく即時学習は,事前学習と下流タスクのギャップを埋めることによってラベル付きデータの必要性を大幅に低減するため,ドメイン適応型少数ショット学習において有望なアプローチとして現れている。 さらに、新たなニュースは、PLMの時代遅れの以前の知識に含まれていないかもしれないタイムリーな知識を含むことが多いため、外部知識は、新興ニュースの検証にも有用である。 そこで本研究では,ドメイン適応型小ショットFNDのための包括的knOwledge拡張PrOmpt学習法であるCOOLを提案する。 具体的には、外部ソースからニュースと正あるいは負の相関関係を持つ構造化知識と非構造化知識の両方を抽出する包括的知識抽出モジュールを提案する。 実験結果から, 各種技術よりもCOOLが優れていることが示された。

Most Fake News Detection (FND) methods often struggle with data scarcity for emerging news domain. Recently, prompt learning based on Pre-trained Language Models (PLM) has emerged as a promising approach in domain adaptive few-shot learning, since it greatly reduces the need for labeled data by bridging the gap between pre-training and downstream task. Furthermore, external knowledge is also helpful in verifying emerging news, as emerging news often involves timely knowledge that may not be contained in the PLM's outdated prior knowledge. To this end, we propose COOL, a Comprehensive knOwledge enhanced prOmpt Learning method for domain adaptive few-shot FND. Specifically, we propose a comprehensive knowledge extraction module to extract both structured and unstructured knowledge that are positively or negatively correlated with news from external sources, and adopt an adversarial contrastive enhanced hybrid prompt learning strategy to model the domain-invariant news-knowledge interaction pattern for FND. Experimental results demonstrate the superiority of COOL over various state-of-the-arts.
翻訳日:2024-06-18 20:21:59 公開日:2024-06-16
# グラフニューラル反応拡散モデル

Graph Neural Reaction Diffusion Models ( http://arxiv.org/abs/2406.10871v1 )

ライセンス: Link先を確認
Moshe Eliasof, Eldad Haber, Eran Treister, (参考訳) グラフニューラルネットワーク(GNN)とニューラル正規式と部分微分方程式の統合は近年広く研究されている。 ニューラル微分方程式を応用したGNNアーキテクチャは、その挙動を推論し、制御された平滑化やエネルギー保存といった望ましい特性を持つGNNを開発する。 本稿では、偏微分方程式の反応拡散(RD)系におけるチューリング不安定性から着想を得て、ニューラルRD系に基づく新しいGNNファミリーを提案する。 RDGNNは、ホモフィリック、ヘテロフィリック、時空間データセットなど、さまざまなデータ型をモデリングするのに強力である。 本稿では,RDGNNの理論的特性とその実装について論じるとともに,最先端手法の競争性能を向上させるか,提供するかを示す。

The integration of Graph Neural Networks (GNNs) and Neural Ordinary and Partial Differential Equations has been extensively studied in recent years. GNN architectures powered by neural differential equations allow us to reason about their behavior, and develop GNNs with desired properties such as controlled smoothing or energy conservation. In this paper we take inspiration from Turing instabilities in a Reaction Diffusion (RD) system of partial differential equations, and propose a novel family of GNNs based on neural RD systems. We \textcolor{black}{demonstrate} that our RDGNN is powerful for the modeling of various data types, from homophilic, to heterophilic, and spatio-temporal datasets. We discuss the theoretical properties of our RDGNN, its implementation, and show that it improves or offers competitive performance to state-of-the-art methods.
翻訳日:2024-06-18 20:21:59 公開日:2024-06-16
# 音声自動評価の最適化:W-RankSim正規化とハイブリッド機能融合戦略

Optimizing Automatic Speech Assessment: W-RankSim Regularization and Hybrid Feature Fusion Strategies ( http://arxiv.org/abs/2406.10873v1 )

ライセンス: Link先を確認
Chung-Wen Wu, Berlin Chen, (参考訳) 自動音声アセスメント(ASA)は,近年,自己教師機能(SSL)の活用によって顕著な進歩を遂げている。 しかし、ASAの重要な課題はデータの不均衡な分散であり、特に英語のテストデータセットでは明らかである。 この課題に対処するため、我々はASAを規則的分類タスクとしてアプローチし、新しい正規化手法としてW-RankSim(Weighted Vectors Ranking similarity)を導入した。 W-RankSim は出力層における類似のクラスに対する重み付きベクトルの近さを奨励し、類似ラベルを持つ特徴ベクトルは対応する重み付きベクトルに収束するにつれて、徐々に互いに近付くことを示唆している。 広範囲な実験的評価により, ASAの経時的分類性能向上に対するアプローチの有効性が確認された。 さらに,SSLと手作り機能を組み合わせたハイブリッドモデルを提案し,手作り機能の導入によってASAシステムの性能が向上することを示す。

Automatic Speech Assessment (ASA) has seen notable advancements with the utilization of self-supervised features (SSL) in recent research. However, a key challenge in ASA lies in the imbalanced distribution of data, particularly evident in English test datasets. To address this challenge, we approach ASA as an ordinal classification task, introducing Weighted Vectors Ranking Similarity (W-RankSim) as a novel regularization technique. W-RankSim encourages closer proximity of weighted vectors in the output layer for similar classes, implying that feature vectors with similar labels would be gradually nudged closer to each other as they converge towards corresponding weighted vectors. Extensive experimental evaluations confirm the effectiveness of our approach in improving ordinal classification performance for ASA. Furthermore, we propose a hybrid model that combines SSL and handcrafted features, showcasing how the inclusion of handcrafted features enhances performance in an ASA system.
翻訳日:2024-06-18 20:21:59 公開日:2024-06-16
# 半線形偏微分方程式の時空解に対する次元性の呪いを、ReLU, リークReLU, ソフトプラスアクティベーションによるディープニューラルネットワークが確実に克服する

Deep neural networks with ReLU, leaky ReLU, and softplus activation provably overcome the curse of dimensionality for space-time solutions of semilinear partial differential equations ( http://arxiv.org/abs/2406.10876v1 )

ライセンス: Link先を確認
Julia Ackermann, Arnulf Jentzen, Benno Kuckuck, Joshua Lee Padgett, (参考訳) これは高次元非線形偏微分方程式(PDE)を解くための応用数学の難題である。 非線形PDEの標準的な近似法は、近似法の計算演算数がPDE次元において少なくとも指数関数的に増加するという意味で、次元性(COD)の呪いに苦しむ。 しかし、近年では、深層ニューラルネットワーク(DNN)を用いてPDEの解を近似する、適切な深層学習(DL)に基づくPDEの手法によって、この分野において大きな進展が見られた。 このようなDL法がシミュレーションで顕著に成功したにもかかわらず、これらの手法がPDEの近似においてCODを克服できることを証明(または証明)するための研究の根本的なオープンな問題である。 しかし、近年、DNNの近似DNNのパラメータの数が、所定近似精度$\varepsilon>0$とPDE次元$d\in\mathbb{N}$の相反性の両方で多項式的に増加するという意味で、DNNがCODを克服できることを示す文献における高次元非線形PDEに対するDL法に対する部分誤差解析結果がいくつか存在する。 この記事では、すべての$T,p\in(0,\infty)$に対して、リプシッツ連続非線形性を持つ半線型熱方程式の解 $u_d\colon[0,T]\times\mathbb{R}^d\to\mathbb{R}$, $d\in\mathbb{N}$ は、正則線型単位(ReLU)を持つDNNによるCODのない時空領域上の $L^p$-sense で近似することができることを証明している。 以前の論文では、同様の結果は時空領域ではなく、ソリューション $u_d(T,\cdot)$, $d\in\mathbb{N}$ に対して、終点時間 $T$ で確立されている。

It is a challenging topic in applied mathematics to solve high-dimensional nonlinear partial differential equations (PDEs). Standard approximation methods for nonlinear PDEs suffer under the curse of dimensionality (COD) in the sense that the number of computational operations of the approximation method grows at least exponentially in the PDE dimension and with such methods it is essentially impossible to approximately solve high-dimensional PDEs even when the fastest currently available computers are used. However, in the last years great progress has been made in this area of research through suitable deep learning (DL) based methods for PDEs in which deep neural networks (DNNs) are used to approximate solutions of PDEs. Despite the remarkable success of such DL methods in simulations, it remains a fundamental open problem of research to prove (or disprove) that such methods can overcome the COD in the approximation of PDEs. However, there are nowadays several partial error analysis results for DL methods for high-dimensional nonlinear PDEs in the literature which prove that DNNs can overcome the COD in the sense that the number of parameters of the approximating DNN grows at most polynomially in both the reciprocal of the prescribed approximation accuracy $\varepsilon>0$ and the PDE dimension $d\in\mathbb{N}$. In the main result of this article we prove that for all $T,p\in(0,\infty)$ it holds that solutions $u_d\colon[0,T]\times\mathbb{R}^d\to\mathbb{R}$, $d\in\mathbb{N}$, of semilinear heat equations with Lipschitz continuous nonlinearities can be approximated in the $L^p$-sense on space-time regions without the COD by DNNs with the rectified linear unit (ReLU), the leaky ReLU, or the softplus activation function. In previous articles similar results have been established not for space-time regions but for the solutions $u_d(T,\cdot)$, $d\in\mathbb{N}$, at the terminal time $T$.
翻訳日:2024-06-18 20:21:59 公開日:2024-06-16
# Demonstration Notebook:インタラクションから最もスイート化されたインコンテキスト学習例を見つける

Demonstration Notebook: Finding the Most Suited In-Context Learning Example from Interactions ( http://arxiv.org/abs/2406.10878v1 )

ライセンス: Link先を確認
Yiming Tang, Bin Dong, (参考訳) 大規模言語モデル (LLMs) は素早い工学の恩恵を受けている。 従来のアプローチでは、コンテキスト内学習に使用されるデモを構築するためのさまざまな方法が提供されていたが、データセット内の固有の不均一性を無視し、すべての推論問題に同じデモを適用することが多かった。 その結果,実演の有効性は特定の質問によって異なることがわかった。 これは、プロンプトエンジニアリングを使用して適切なデモを選択することの探索を動機付けます。 そこで本研究では,各質問に適合したデモの自動作成と選択の課題に対処するために,"デモノート"と呼ばれる新しいオブジェクトを中心に構築された,新しいプロンプトエンジニアリングワークフローを提案する。 このノートブックは、LLMの過去のインタラクションから情報を収集して再利用することで、質問に対して最も適したコンテキスト内学習例を特定するのに役立つ。 実験の結果,本手法は,サーバの推論ベンチマークにおいて,自動的な実演構築と選択(我々の知る限り)の手法よりも優れており,最先端の結果が得られていることがわかった。 この手法の汎用性は、テキスト要約と即時圧縮タスクの成功によってさらに証明される。 さらに、実験の「実証的体制」を明らかにするために厳密な分析手法を提供し、実験がデータセット内の様々な質問タイプとどのように関連しているかについての貴重な洞察を提供する。

Large language models (LLMs) benefit greatly from prompt engineering, with in-context learning standing as a pivital technique. While former approaches have provided various ways to construct the demonstrations used for in-context learning, they often ignore the inherent heterogeneity within datasets, applying the same demonstrations to all reasoning questions. We observed that the effectiveness of demonstrations varies depending on the specific question. This motivates our exploration of using prompt engineering to select appropriate demonstrations. To address the challenge of automatically creating and choosing demonstrations tailored to each question, we propose a novel prompt engineering workflow built around a novel object called the "demonstration notebook." This notebook helps identify the most suitable in-context learning example for a question by gathering and reusing information from the LLM's past interactions. Our experiments show that this approach outperforms all existing methods for automatic demonstration construction and selection (as far as we know), achieving state-of-the-art results on serveral reasoning benchmarks. The method's versatility is further demonstrated by its success in text summarization and prompt compression tasks. Additionally, we contribute a rigorous analysis method to reveal the "demonstrative regime" of a demonstration, providing valuable insights into how demonstrations relate to different question types within a dataset.
翻訳日:2024-06-18 20:21:59 公開日:2024-06-16
# 知識集約型マルチモーダルASRを用いたマルチモーダルLLMの可能性を探る

Exploring the Potential of Multimodal LLM with Knowledge-Intensive Multimodal ASR ( http://arxiv.org/abs/2406.10880v1 )

ライセンス: Link先を確認
Minghan Wang, Yuxia Wang, Thuy-Trang Vu, Ehsan Shareghi, Gholamreza Haffari, (参考訳) 近年のMLLM(Multimodal large language model)の進歩は、様々なモダリティにまたがる情報の統合において大きな進歩を遂げている。 本稿では,スライドからの視覚情報を活用し,技術用語の精度を高めることによる科学会議映像の翻訳に焦点を当てたマルチモーダル科学ASR(Multimodal Scientific ASR)タスクを紹介する。 WERのような従来のメトリクスは、パフォーマンスを正確に評価するに足りず、ASRエラーのコンテンツタイプと重大さを考慮に入れたSWER(Severity-aware WER)を提案する。 本稿では,SciVASR(SciVASR)フレームワークをベースラインとして提案する。 GPT-4oを含む最先端MLLMの評価は、音声のみのベースラインよりも45%改善し、マルチモーダル情報統合の重要性を強調している。

Recent advancements in multimodal large language models (MLLMs) have made significant progress in integrating information across various modalities, yet real-world applications in educational and scientific domains remain challenging. This paper introduces the Multimodal Scientific ASR (MS-ASR) task, which focuses on transcribing scientific conference videos by leveraging visual information from slides to enhance the accuracy of technical terminologies. Realized that traditional metrics like WER fall short in assessing performance accurately, prompting the proposal of severity-aware WER (SWER) that considers the content type and severity of ASR errors. We propose the Scientific Vision Augmented ASR (SciVASR) framework as a baseline method, enabling MLLMs to improve transcript quality through post-editing. Evaluations of state-of-the-art MLLMs, including GPT-4o, show a 45% improvement over speech-only baselines, highlighting the importance of multimodal information integration.
翻訳日:2024-06-18 20:21:59 公開日:2024-06-16
# 大規模言語モデルによる知識境界の表現

Teaching Large Language Models to Express Knowledge Boundary from Their Own Signals ( http://arxiv.org/abs/2406.10881v1 )

ライセンス: Link先を確認
Lida Chen, Zujie Liang, Xintao Wang, Jiaqing Liang, Yanghua Xiao, Feng Wei, Jinglei Chen, Zhenghong Hao, Bing Han, Wei Wang, (参考訳) 大規模言語モデル (LLM) は大きな成功を収めたが、時折そのコンテンツ作成(幻覚)は実用的応用を制限している。 幻覚は、LLMが知識境界の訓練が不十分なため、無知を認めるのに苦労しているため起こる。 知識境界を正確に表現することができず、知らない質問に無知を認めながら、知っている質問に答える。 本稿では,LLMに対して,知識境界を認識し,表現できるように教えることを目的としている。 本稿では,まず内部信頼度を用いてLLMの知識境界を探索し,探索結果を利用して知識境界の表現を抽出するCoKEを提案する。 大規模な実験は、LLMが知識境界を表現し、未知の質問に答えながら、未知の質問に答え、ドメイン内とドメイン外のパフォーマンスを大幅に改善するのに役立つことを示している。

Large language models (LLMs) have achieved great success, but their occasional content fabrication, or hallucination, limits their practical application. Hallucination arises because LLMs struggle to admit ignorance due to inadequate training on knowledge boundaries. We call it a limitation of LLMs that they can not accurately express their knowledge boundary, answering questions they know while admitting ignorance to questions they do not know. In this paper, we aim to teach LLMs to recognize and express their knowledge boundary, so they can reduce hallucinations caused by fabricating when they do not know. We propose CoKE, which first probes LLMs' knowledge boundary via internal confidence given a set of questions, and then leverages the probing results to elicit the expression of the knowledge boundary. Extensive experiments show CoKE helps LLMs express knowledge boundaries, answering known questions while declining unknown ones, significantly improving in-domain and out-of-domain performance.
翻訳日:2024-06-18 20:12:14 公開日:2024-06-16
# SCAR: スタイル一貫性を考慮した応答ランク付けによる大規模言語モデルの効率的なインストラクションチューニング

SCAR: Efficient Instruction-Tuning for Large Language Models via Style Consistency-Aware Response Ranking ( http://arxiv.org/abs/2406.10882v1 )

ライセンス: Link先を確認
Zhuang Li, Yuncheng Hua, Thuy-Trang Vu, Haolan Zhan, Lizhen Qu, Gholamreza Haffari, (参考訳) 近年の研究では、人間の専門家による一貫した応答スタイルを維持し、トレーニングセットにおけるデータ品質を向上させることで、微調整された大規模言語モデル(LLM)の性能を大幅に向上し、必要なトレーニング例の数を削減できることが示されている。 しかし、スタイルの正確な定義と、スタイル、データ品質、LLMパフォーマンスの関係は、まだ不明である。 本研究は、応答スタイルをプレゼンテーションスタイルとコンポジションスタイルに分解し、類似品質のトレーニングデータのうち、高いスタイル整合性を持つものがLLM性能の向上につながることを明らかにする。 そこで本研究では,SCAR(Style Consistency-Aware Response Ranking)を導入する。 完全なデータセットの上位25%から0.7%まで、最もスタイルに一貫性のある例を選択することで、微調整されたLLMは、コーディングとオープンエンドの質問回答ベンチマークにおいて、データセット全体でトレーニングされたモデルのパフォーマンスにマッチまたは超えることができる。 コードとデータはhttps://github.com/zhuang-li/SCAR で公開されている。

Recent studies have shown that maintaining a consistent response style by human experts and enhancing data quality in training sets can significantly improve the performance of fine-tuned Large Language Models (LLMs) while reducing the number of training examples needed. However, the precise definition of style and the relationship between style, data quality, and LLM performance remains unclear. This research decomposes response style into presentation and composition styles and finds that, among training data of similar quality, those with higher style consistency lead to better LLM performance. Inspired by this, we introduce Style Consistency-Aware Response Ranking (SCAR), which automatically prioritizes instruction-response pairs in the training set based on their response stylistic consistency. By selecting the most style-consistent examples, ranging from the top 25% to 0.7% of the full dataset, the fine-tuned LLMs can match or even surpass the performance of models trained on the entire dataset in coding and open-ended question-answering benchmarks. Code and data are available at https://github.com/zhuang-li/SCAR .
翻訳日:2024-06-18 20:12:14 公開日:2024-06-16
# フェデレーションラーニングにおけるセキュリティ、プライバシ、公正性に関するリンク:新たなバランスと新たな視点

Linkage on Security, Privacy and Fairness in Federated Learning: New Balances and New Perspectives ( http://arxiv.org/abs/2406.10884v1 )

ライセンス: Link先を確認
Linlin Wang, Tianqing Zhu, Wanlei Zhou, Philip S. Yu, (参考訳) フェデレーション学習は、モバイルデバイス、銀行システム、ヘルスケア、IoTシステムを含むアプリケーションにとって、急速にポピュラーなパラダイムになりつつある。 そのため、過去5年間で、研究者たちは、これらの新興モデルに関連するプライバシーの漏洩、セキュリティの脅威、公正性に関する広範な研究を調査してきた。 これら3つの重要な概念は独立して研究されてきたが、近年の研究により、両者の間には複雑な相互作用があることが判明している。 例えば、公正性追求がプライバシーを損なう可能性があることや、セキュリティを強化する努力が公正性に影響を与えることを発見した研究者もいる。 これらの新たな洞察は、フェデレートされた学習におけるプライバシ、セキュリティ、公平性の基本的なつながりに光を当て、これらの相互関係を深く掘り下げることで、この分野における研究と開発を著しく拡大することができるかもしれない。 本調査の目的は,フェデレートラーニングにおけるプライバシー,セキュリティ,公平性の問題を包括的に記述することである。 さらに,サイバー安全性の3次元間の複雑な関係を解析し,それらに影響を及ぼす基本的な要素を特定する。 プライバシーと公平性と、セキュリティとグラデーションの共有との間にはトレードオフがある、と我々は主張する。 このベースでフェアネスは、プライバシとセキュリティの間のブリッジとして機能し、よりセキュアまたはよりプライベートなモデルを構築することができる。 私たちの観察に基づいて、我々はプライバシと公正性と、フェデレーション学習の文脈におけるセキュリティと公正との間のトレードオフを特定します。 この調査は、この先駆的分野における将来の研究のための有望な方向性で締めくくられる。

Federated learning is fast becoming a popular paradigm for applications involving mobile devices, banking systems, healthcare, and IoT systems. Hence, over the past five years, researchers have undertaken extensive studies on the privacy leaks, security threats, and fairness associated with these emerging models. For the most part, these three critical concepts have been studied in isolation; however, recent research has revealed that there may be an intricate interplay between them. For instance, some researchers have discovered that pursuing fairness may compromise privacy, or that efforts to enhance security can impact fairness. These emerging insights shed light on the fundamental connections between privacy, security, and fairness within federated learning, and, by delving deeper into these interconnections, we may be able to significantly augment research and development across the field. Consequently, the aim of this survey is to offer comprehensive descriptions of the privacy, security, and fairness issues in federated learning. Moreover, we analyze the complex relationships between these three dimensions of cyber safety and pinpoint the fundamental elements that influence each of them. We contend that there exists a trade-off between privacy and fairness and between security and gradient sharing. On this basis, fairness can function as a bridge between privacy and security to build models that are either more secure or more private. Building upon our observations, we identify the trade-offs between privacy and fairness and between security and fairness within the context of federated learning. The survey then concludes with promising directions for future research in this vanguard field.
翻訳日:2024-06-18 20:12:13 公開日:2024-06-16
# 一般化可能な推論におけるエンティティとイベントレベルの概念化の役割:タスク,メソッド,応用,今後の方向性に関する調査

On the Role of Entity and Event Level Conceptualization in Generalizable Reasoning: A Survey of Tasks, Methods, Applications, and Future Directions ( http://arxiv.org/abs/2406.10885v1 )

ライセンス: Link先を確認
Weiqi Wang, Tianqing Fang, Haochen Shi, Baixuan Xu, Wenxuan Ding, Liyu Zhang, Wei Fan, Jiaxin Bai, Haoran Li, Xin Liu, Yangqiu Song, (参考訳) エンティティとイベントレベルの概念化は、人間の認知の基本要素として、一般化可能な推論において重要な役割を果たす。 このプロセスは、特定のインスタンスを高レベルな概念に抽象化し、馴染みのない、あるいは新しい状況に適用可能な抽象的な知識を形成することを含み、モデルの推論能力を高め、様々な領域にわたる知識の効果的な伝達を支援する。 その重要性にもかかわらず、現在、推論タスクを強化するための概念化の定義、実行、適用に関する既存の研究を包括的に検証する体系的な概要が欠如している。 本稿では,150以上の論文を包括的に調査し,概念化に関連するさまざまな定義,資源,手法,下流のアプリケーションを,エンティティとイベントレベルに着目した統一分類に分類することで,このギャップに対処する。 さらに、この分野の将来的な方向性についても光を当て、コミュニティからより多くの注目を集めたいと考えています。

Entity- and event-level conceptualization, as fundamental elements of human cognition, plays a pivotal role in generalizable reasoning. This process involves abstracting specific instances into higher-level concepts and forming abstract knowledge that can be applied in unfamiliar or novel situations, which can enhance models' inferential capabilities and support the effective transfer of knowledge across various domains. Despite its significance, there is currently a lack of a systematic overview that comprehensively examines existing works in the definition, execution, and application of conceptualization to enhance reasoning tasks. In this paper, we address this gap by presenting the first comprehensive survey of 150+ papers, categorizing various definitions, resources, methods, and downstream applications related to conceptualization into a unified taxonomy, with a focus on the entity and event levels. Furthermore, we shed light on potential future directions in this field and hope to garner more attention from the community.
翻訳日:2024-06-18 20:12:13 公開日:2024-06-16
# スケールでの蒸留オピニオン:XL-OPSUMMを用いたインクリメンタルオピニオン要約

Distilling Opinions at Scale: Incremental Opinion Summarization using XL-OPSUMM ( http://arxiv.org/abs/2406.10886v1 )

ライセンス: Link先を確認
Sri Raghava Muddu, Rupasai Rangaraju, Tejpalsingh Siledar, Swaroop Nath, Pushpak Bhattacharyya, Swaprava Nath, Suman Banerjee, Amey Patil, Muthusamy Chelliah, Sudhanshu Shekhar Singh, Nikesh Garera, (参考訳) eコマースにおける意見要約は、レビューに基づいて、製品に関する多数のユーザの集合的な見解をカプセル化する。 通常、eコマースプラットフォーム上の製品には数千のレビューがあり、各レビューは約10~15語である。 大言語モデル(LLM)は要約タスクの習熟度を示しているが、コンテキスト制限のため、このような大量のレビューを扱うのに苦労している。 本稿では,Xl-OpSummという拡張性のあるフレームワークを提案する。 しかし、既存のテストセットであるAMASUMは、1製品平均で560のレビューしか持たない。 何千ものレビューを伴うテストセットがないため、FlipkartのWebサイトからデータを集め、GPT-4を使って要約を生成することで、Xl-Flipkartと呼ばれる新しいテストセットを作成しました。 各種自動評価と広範囲な解析により,AMASUMとXl-Flipkartの2つのデータセット上でのフレームワークの効率を評価した。 実験の結果,Llama-3-8B-8kをベースとしたXl-OpSummでは,ROUGE-1 F1が4.38%,ROUGE-L F1が3.70%向上した。

Opinion summarization in e-commerce encapsulates the collective views of numerous users about a product based on their reviews. Typically, a product on an e-commerce platform has thousands of reviews, each review comprising around 10-15 words. While Large Language Models (LLMs) have shown proficiency in summarization tasks, they struggle to handle such a large volume of reviews due to context limitations. To mitigate, we propose a scalable framework called Xl-OpSumm that generates summaries incrementally. However, the existing test set, AMASUM has only 560 reviews per product on average. Due to the lack of a test set with thousands of reviews, we created a new test set called Xl-Flipkart by gathering data from the Flipkart website and generating summaries using GPT-4. Through various automatic evaluations and extensive analysis, we evaluated the framework's efficiency on two datasets, AMASUM and Xl-Flipkart. Experimental results show that our framework, Xl-OpSumm powered by Llama-3-8B-8k, achieves an average ROUGE-1 F1 gain of 4.38% and a ROUGE-L F1 gain of 3.70% over the next best-performing model.
翻訳日:2024-06-18 20:12:13 公開日:2024-06-16
# 対人意味マスクによる知覚不能な顔偽造攻撃

Imperceptible Face Forgery Attack via Adversarial Semantic Mask ( http://arxiv.org/abs/2406.10887v1 )

ライセンス: Link先を確認
Decheng Liu, Qixuan Su, Chunlei Peng, Nannan Wang, Xinbo Gao, (参考訳) 生成モデル技術の進歩により、顔偽造検出は関連分野においてますます注目を集めている。 研究者たちは、既存の顔偽造モデルは、大域的な画像に生成されたピクセル摂動を持つ敵の例にはまだ弱いことを発見している。 これらの生成した対向サンプルは、高い検出性のため、まだ満足のいく性能を達成できない。 これらの問題に対処するために,優れた伝達性と可視性を有する逆例を生成できるASMA(Adversarial Semantic Mask Attack framework)を提案する。 具体的には, 局所的なセマンティック領域の摂動を抑制し, 良好なステルス性を実現する, 対向型セマンティックマスク生成モデルを提案する。 設計された適応型セマンティックマスク選択戦略は、異なるセマンティック領域のクラスのアクティベーション値を効果的に活用し、さらに攻撃性やステルス性を向上する。 パブリックフェイスフォージェリーデータセットの大規模な実験により,提案手法はいくつかの代表的対向攻撃法と比較して優れた性能を示した。 コードはhttps://github.com/clawerO-O/ASMAで公開されている。

With the great development of generative model techniques, face forgery detection draws more and more attention in the related field. Researchers find that existing face forgery models are still vulnerable to adversarial examples with generated pixel perturbations in the global image. These generated adversarial samples still can't achieve satisfactory performance because of the high detectability. To address these problems, we propose an Adversarial Semantic Mask Attack framework (ASMA) which can generate adversarial examples with good transferability and invisibility. Specifically, we propose a novel adversarial semantic mask generative model, which can constrain generated perturbations in local semantic regions for good stealthiness. The designed adaptive semantic mask selection strategy can effectively leverage the class activation values of different semantic regions, and further ensure better attack transferability and stealthiness. Extensive experiments on the public face forgery dataset prove the proposed method achieves superior performance compared with several representative adversarial attack methods. The code is publicly available at https://github.com/clawerO-O/ASMA.
翻訳日:2024-06-18 20:12:13 公開日:2024-06-16
# VELOCITI:ビデオ言語モデルは時間を通して意味論的概念を結合できるか?

VELOCITI: Can Video-Language Models Bind Semantic Concepts through Time? ( http://arxiv.org/abs/2406.10889v1 )

ライセンス: Link先を確認
Darshana Saravanan, Darshan Singh, Varun Gupta, Zeeshan Khan, Vineet Gandhi, Makarand Tapaswi, (参考訳) 構成性は視覚言語理解の基本的な側面であり、ビデオには時間とともに動的に相互作用する複数の実体(例えば人、行動、シーン)を含むため、特に必要である。 既存のベンチマークは主に知覚能力に焦点を当てている。 しかし、彼らはモデルが適切な関係を通してエンティティを関連付ける能力であるバインディングを研究していない。 この目的のためにVELOCITIを提案する。VELOCITIは、複雑な映画クリップと、ビデオ言語モデル(コントラストとビデオLLM)の認識とバインディングをテストするための、密集したセマンティックロールラベルアノテーションの上に構築された新しいベンチマークである。 私たちの知覚に基づくテストでは、類似のエンティティを共有するビデオキャプチャペアの識別が必要であり、バインディングテストでは、同じビデオに現れる異なる、しかしもっともらしいエンティティを無視しながら、正しいエンティティを特定の状況に関連付けるモデルが必要です。 現在の最先端モデルは知覚テストでは適度に機能するが、両方の実体が同じビデオに存在している場合、精度はほぼランダムであり、それらが結合テストで失敗することを示している。 強力なGemini 1.5 Flashでさえ、そのようなバインディングテストにおける人間の正確性に関して、かなりのギャップ(16-28%)がある。

Compositionality is a fundamental aspect of vision-language understanding and is especially required for videos since they contain multiple entities (e.g. persons, actions, and scenes) interacting dynamically over time. Existing benchmarks focus primarily on perception capabilities. However, they do not study binding, the ability of a model to associate entities through appropriate relationships. To this end, we propose VELOCITI, a new benchmark building on complex movie clips and dense semantic role label annotations to test perception and binding in video language models (contrastive and Video-LLMs). Our perception-based tests require discriminating video-caption pairs that share similar entities, and the binding tests require models to associate the correct entity to a given situation while ignoring the different yet plausible entities that also appear in the same video. While current state-of-the-art models perform moderately well on perception tests, accuracy is near random when both entities are present in the same video, indicating that they fail at binding tests. Even the powerful Gemini 1.5 Flash has a substantial gap (16-28%) with respect to human accuracy in such binding tests.
翻訳日:2024-06-18 20:12:13 公開日:2024-06-16
# RWKU:大規模言語モデルのための実世界の知識学習のベンチマーク

RWKU: Benchmarking Real-World Knowledge Unlearning for Large Language Models ( http://arxiv.org/abs/2406.10890v1 )

ライセンス: Link先を確認
Zhuoran Jin, Pengfei Cao, Chenhao Wang, Zhitao He, Hongbang Yuan, Jiachun Li, Yubo Chen, Kang Liu, Jun Zhao, (参考訳) 大規模言語モデル(LLM)は、必然的にトレーニングコーパスから機密性、著作権、有害な知識を記憶する。 機械学習は、ポストホック修飾モデルによって特定の知識を効率的に除去するための有望なソリューションである。 本稿では,LLMアンラーニングのための実世界知識アンラーニングベンチマーク(RWKU)を提案する。 RWKUは,(1)タスク設定において,忘れたコーパスも保持コーパスもアクセスできない,より実践的で困難なアンラーニング環境を考える。 2) 知識源として,200人の現実の有名人を未学習の標的として選び,その知識が様々なLSMに広く存在していることを示す。 (3) 評価フレームワークでは,様々な実世界のアプリケーションにまたがるモデルの性能を評価するために,リザーブセットとリザーブセットを設計する。 本研究は,4種類のメンバーシップ推論攻撃法と9種類の逆アタックプローブを用いて,未学習の有効性を厳格に検証する。 留置地について, 近隣の摂動, 一般能力, 推論能力, 真実性, 事実性, 流布度の観点から, 地域性, 実用性を評価する。 2つの未学習シナリオ,2つのモデルと6つのベースラインメソッドにまたがる広範な実験を行い,いくつかの有意義な知見を得た。 将来の作業のために、ベンチマークとコードをhttp://rwku-bench.github.ioで公開しています。

Large language models (LLMs) inevitably memorize sensitive, copyrighted, and harmful knowledge from the training corpus; therefore, it is crucial to erase this knowledge from the models. Machine unlearning is a promising solution for efficiently removing specific knowledge by post hoc modifying models. In this paper, we propose a Real-World Knowledge Unlearning benchmark (RWKU) for LLM unlearning. RWKU is designed based on the following three key factors: (1) For the task setting, we consider a more practical and challenging unlearning setting, where neither the forget corpus nor the retain corpus is accessible. (2) For the knowledge source, we choose 200 real-world famous people as the unlearning targets and show that such popular knowledge is widely present in various LLMs. (3) For the evaluation framework, we design the forget set and the retain set to evaluate the model's capabilities across various real-world applications. Regarding the forget set, we provide four four membership inference attack (MIA) methods and nine kinds of adversarial attack probes to rigorously test unlearning efficacy. Regarding the retain set, we assess locality and utility in terms of neighbor perturbation, general ability, reasoning ability, truthfulness, factuality, and fluency. We conduct extensive experiments across two unlearning scenarios, two models and six baseline methods and obtain some meaningful findings. We release our benchmark and code publicly at http://rwku-bench.github.io for future work.
翻訳日:2024-06-18 20:12:13 公開日:2024-06-16
# ケースセグメンテーションにおけるラベルノイズのベンチマーク:空間騒音

Benchmarking Label Noise in Instance Segmentation: Spatial Noise Matters ( http://arxiv.org/abs/2406.10891v1 )

ライセンス: Link先を確認
Moshe Kimhi, Eden Grad, Lion Halika, Chaim Baskin, (参考訳) タスクの複雑な性質のため、インスタンスセグメンテーションの正確なラベルを取得することは特に困難である。 各画像は、オブジェクトのクラスだけでなく、その正確な空間境界を含む複数のアノテーションを必要とする。 これらの要件は、手動および自動化されたアノテーションプロセスのエラーや矛盾の可能性を高める。 異なるノイズ条件をシミュレートすることにより、異なるセグメンテーションタスクにおけるインスタンスセグメンテーションモデルの堅牢性と一般化能力を評価し、COCO-NとCityscapes-Nを導入するための現実的なシナリオを提供する。 また,半自動アノテーションツールとそのノイズラベルをシミュレートするために基礎モデルと弱いアノテーションを利用するCOCO-WANと呼ばれる弱いアノテーションノイズのベンチマークも提案する。 本研究は,様々なモデルにより生成されるセグメンテーションマスクの品質に光を当て,ラベルノイズによる学習に対処するために設計された一般的な手法の有効性に挑戦する。

Obtaining accurate labels for instance segmentation is particularly challenging due to the complex nature of the task. Each image necessitates multiple annotations, encompassing not only the object's class but also its precise spatial boundaries. These requirements elevate the likelihood of errors and inconsistencies in both manual and automated annotation processes. By simulating different noise conditions, we provide a realistic scenario for assessing the robustness and generalization capabilities of instance segmentation models in different segmentation tasks, introducing COCO-N and Cityscapes-N. We also propose a benchmark for weakly annotation noise, dubbed COCO-WAN, which utilizes foundation models and weak annotations to simulate semi-automated annotation tools and their noisy labels. This study sheds light on the quality of segmentation masks produced by various models and challenges the efficacy of popular methods designed to address learning with label noise.
翻訳日:2024-06-18 20:12:13 公開日:2024-06-16
# DIPPER: 原始型階層型強化学習の高速化のための直接選好最適化

DIPPER: Direct Preference Optimization to Accelerate Primitive-Enabled Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2406.10892v1 )

ライセンス: Link先を確認
Utsav Singh, Souradip Chakraborty, Wesley A. Suttle, Brian M. Sadler, Vinay P Namboodiri, Amrit Singh Bedi, (参考訳) 人間の嗜好データから複雑なロボティクスタスクを実行するための制御ポリシーを学ぶことは、重大な課題である。 一方、そのようなタスクの複雑さは、通常、様々なサブタスクを実行するために学習ポリシーを必要とし、それらを組み合わせて全体的な目標を達成する。 同時に、包括的でよく設計された報酬関数は、一般的にそのような問題では利用できないが、人間の嗜好データに制限がある場合が多い。 人間の嗜好データから複雑なロボティクスタスクを実行するための学習方法は、これら2つの課題を同時に克服する必要がある。 本研究は, DIPPER: Direct Preference Optimization to Accelerate Primitive-Enabled Hierarchical Reinforcement Learning, a efficient hierarchical approach that leverageed direct preference optimization to learn a High-level policy and reinforcement learning to learn a lower-level policy。 DIPPERは、人間のフィードバックからの強化学習のような標準的な嗜好に基づくアプローチではなく、直接選好最適化を用いることにより、計算効率の向上を享受し、また、階層的強化学習問題の新しい二段階最適化によるプリミティブインフォームド正規化の使用により、非定常性や非実用的なサブゴール生成に関するよく知られた階層的強化学習問題を緩和する。 提案手法の有効性を検証するため,DIPPERは階層的・非階層的ベースラインより優れ,非定常的・非実用的な階層的強化学習のサブゴール生成問題を改善した。

Learning control policies to perform complex robotics tasks from human preference data presents significant challenges. On the one hand, the complexity of such tasks typically requires learning policies to perform a variety of subtasks, then combining them to achieve the overall goal. At the same time, comprehensive, well-engineered reward functions are typically unavailable in such problems, while limited human preference data often is; making efficient use of such data to guide learning is therefore essential. Methods for learning to perform complex robotics tasks from human preference data must overcome both these challenges simultaneously. In this work, we introduce DIPPER: Direct Preference Optimization to Accelerate Primitive-Enabled Hierarchical Reinforcement Learning, an efficient hierarchical approach that leverages direct preference optimization to learn a higher-level policy and reinforcement learning to learn a lower-level policy. DIPPER enjoys improved computational efficiency due to its use of direct preference optimization instead of standard preference-based approaches such as reinforcement learning from human feedback, while it also mitigates the well-known hierarchical reinforcement learning issues of non-stationarity and infeasible subgoal generation due to our use of primitive-informed regularization inspired by a novel bi-level optimization formulation of the hierarchical reinforcement learning problem. To validate our approach, we perform extensive experimental analysis on a variety of challenging robotics tasks, demonstrating that DIPPER outperforms hierarchical and non-hierarchical baselines, while ameliorating the non-stationarity and infeasible subgoal generation issues of hierarchical reinforcement learning.
翻訳日:2024-06-18 20:12:13 公開日:2024-06-16
# 浸潤性乳管癌の免疫組織化学的診断のための完全自動深層学習アルゴリズムの開発と妥当性の検討

Development and Validation of Fully Automatic Deep Learning-Based Algorithms for Immunohistochemistry Reporting of Invasive Breast Ductal Carcinoma ( http://arxiv.org/abs/2406.10893v1 )

ライセンス: Link先を確認
Sumit Kumar Jha, Purnendu Mishra, Shubham Mathur, Gursewak Singh, Rajiv Kumar, Kiran Aatre, Suraj Rengarajan, (参考訳) 免疫組織化学(IHC)分析は、女性に影響を与える最も一般的なタイプの腫瘍である乳癌の予後と標的治療の方法である、分子サブタイピングのよく受け入れられ、広く用いられている方法である。 プロゲステロン受容体(PR)、エストロゲン受容体(ER)、抗原Ki67、ヒト上皮成長因子受容体2(HER2)の4つの分子バイオマーカーがあり、IHC法で予後を決定するのに必要である。 しかし、IHCスコアは、腫瘍形態の主観的顕微鏡検査に基づいており、低スコア症例では再現性、高い主観性、しばしば不正スコアに悩まされている。 本稿では,浸潤性胆管癌のIHC評価のための深層学習に基づく半教師付き完全自動意思決定支援システム(DSS)を提案する。 本システムでは,Allred 標準に基づいて,腫瘍領域を自動的に検出し,アーティファクトやスコアを除去する。 このシステムは300枚のスライドから300万枚の画像パッチ、5万個の社内細胞アノテーション、および4万画素のHER2膜をマーキングして開発されている。 我々は,医師との合意率の観点から,3種類のデジタルスキャナーを備えた4つのセンターで多心性試験を行った。 また, Ki67, HER2, ER, PR染色の95, 92, 88, 82%の合意を得た。 総合的精度の他に, 詳細なアルゴリズム分析を行った結果, 病理学者がアルゴリズムスコアに好意的にスコアを変更した症例は5%であった。 我々のアプローチは、特に専門知識が不十分なIHCスコアとその後の治療決定の精度を向上させることができる。 私たちのシステムは高度にモジュール化されている。 提案するアルゴリズムモジュールは、他のがんタイプ向けのDSSの開発に使用できる。

Immunohistochemistry (IHC) analysis is a well-accepted and widely used method for molecular subtyping, a procedure for prognosis and targeted therapy of breast carcinoma, the most common type of tumor affecting women. There are four molecular biomarkers namely progesterone receptor (PR), estrogen receptor (ER), antigen Ki67, and human epidermal growth factor receptor 2 (HER2) whose assessment is needed under IHC procedure to decide prognosis as well as predictors of response to therapy. However, IHC scoring is based on subjective microscopic examination of tumor morphology and suffers from poor reproducibility, high subjectivity, and often incorrect scoring in low-score cases. In this paper, we present, a deep learning-based semi-supervised trained, fully automatic, decision support system (DSS) for IHC scoring of invasive ductal carcinoma. Our system automatically detects the tumor region removing artifacts and scores based on Allred standard. The system is developed using 3 million pathologist-annotated image patches from 300 slides, fifty thousand in-house cell annotations, and forty thousand pixels marking of HER2 membrane. We have conducted multicentric trials at four centers with three different types of digital scanners in terms of percentage agreement with doctors. And achieved agreements of 95, 92, 88 and 82 percent for Ki67, HER2, ER, and PR stain categories, respectively. In addition to overall accuracy, we found that there is 5 percent of cases where pathologist have changed their score in favor of algorithm score while reviewing with detailed algorithmic analysis. Our approach could improve the accuracy of IHC scoring and subsequent therapy decisions, particularly where specialist expertise is unavailable. Our system is highly modular. The proposed algorithm modules can be used to develop DSS for other cancer types.
翻訳日:2024-06-18 20:12:13 公開日:2024-06-16
# 光学的着物における線形偏光選択吸収と非線形偏光選択吸収の選択規則

Selection rules of linear and nonlinear polarization-selective absorption in optically dressed matter ( http://arxiv.org/abs/2406.10894v1 )

ライセンス: Link先を確認
Michael Feldman, Matan Even Tzur, Oren Cohen, (参考訳) レーザー被覆物質の動的対称性は、その吸収スペクトルを決定する選択規則を決定する。 合成次元におけるフロケ群理論を用いて, フロケ物質の偏光感受性吸収の選択則について検討する。 偏光構造を持つ光がフロケットの暗黒状態やフロケットの暗黒帯に課す選択規則を包括的に表した。 特に、我々の表はすべての非線形順序に対する非線形吸収を包含しており、異なる非線形順序が異なる偏光選択規則に従っていることが明らかとなり、偏光可変光フィルタに繋がる可能性がある。

Dynamical symmetries of laser-dressed matter determine selection rules that determine its absorption spectrum. We explore selection rules for polarization-sensitive absorption in Floquet matter, using Floquet group theory in synthetic dimensions. We present comprehensive tables of selection rules that polarization-structured light impose on Floquet dark states and Floquet dark bands. Notably, our tables encompass nonlinear absorption, to all nonlinear orders, revealing that different nonlinear orders follow distinct polarization selection rules, potentially leading to polarization-tunable optical filters.
翻訳日:2024-06-18 20:12:13 公開日:2024-06-16
# TrafficBots V1.5: 条件付きVAEと相対的なポースエンコーディングを備えたトランスフォーマーによるトラフィックシミュレーション

TrafficBots V1.5: Traffic Simulation via Conditional VAEs and Transformers with Relative Pose Encoding ( http://arxiv.org/abs/2406.10898v1 )

ライセンス: Link先を確認
Zhejun Zhang, Christos Sakaridis, Luc Van Gool, (参考訳) 本稿では,交通エージェントのクローズドループシミュレーションのためのベースライン手法であるTrafficBots V1.5を提案する。 TrafficBots V1.5はベースラインレベルのパフォーマンスを達成し、Waymo Open Sim Agents Challenge (WOSAC) 2024で3位を獲得した。 CVAEベースのマルチエージェントポリシーであるTrafficBotsと、異種ポリリントランスフォーマーであるHPTRと、相対的なポーズエンコーディングを組み合わせたシンプルなベースラインである。 We improve the performance on the WOSAC leaderboard, we applied scheduled teacher-forcing at the training time and we filtered scenarios at the inference time。 コードはhttps://github.com/zhejz/TrafficBotsV1.5で公開されている。

In this technical report we present TrafficBots V1.5, a baseline method for the closed-loop simulation of traffic agents. TrafficBots V1.5 achieves baseline-level performance and a 3rd place ranking in the Waymo Open Sim Agents Challenge (WOSAC) 2024. It is a simple baseline that combines TrafficBots, a CVAE-based multi-agent policy conditioned on each agent's individual destination and personality, and HPTR, the heterogeneous polyline transformer with relative pose encoding. To improve the performance on the WOSAC leaderboard, we apply scheduled teacher-forcing at the training time and we filter the sampled scenarios at the inference time. The code is available at https://github.com/zhejz/TrafficBotsV1.5.
翻訳日:2024-06-18 20:12:13 公開日:2024-06-16
# AUTOHALLUSION:視覚言語モデルのための幻覚ベンチマークの自動生成

AUTOHALLUSION: Automatic Generation of Hallucination Benchmarks for Vision-Language Models ( http://arxiv.org/abs/2406.10900v1 )

ライセンス: Link先を確認
Xiyang Wu, Tianrui Guan, Dianqi Li, Shuaiyi Huang, Xiaoyu Liu, Xijun Wang, Ruiqi Xian, Abhinav Shrivastava, Furong Huang, Jordan Lee Boyd-Graber, Tianyi Zhou, Dinesh Manocha, (参考訳) 大型視覚言語モデル (LVLM) は幻覚を与える: 画像内の特定のコンテキストキューは、言語モジュールの過信と不正確な推論を異常または仮説的対象に対して引き起こす可能性がある。 LVLM幻覚を調べるためにいくつかのベンチマークが開発されているが、主に手作りのコーナーケースに頼っている。 これらのことは、様々な幻覚の例を作成するためにいくつかの主要な戦略を利用する最初の自動ベンチマーク生成アプローチであるAUTOHALLUSIONを開発する動機となっている。 1)コンテキストキューに異常なオブジェクトを追加すること、(2)2つの共起オブジェクトに対して、1つを保持し、もう1つを除外すること、(3)コンテキストキューに密接に結びついているオブジェクトを削除すること、である。 すると、言語モジュールの先行性に反する基礎的な答えを持つイメージベースの質問を生成する。 モデルは、正しい答えに到達するためには、文脈的偏見や気晴らしを克服しなければなりませんが、誤った、あるいは矛盾した回答は幻覚を示します。 AUTOHALLUSIONにより、最小限のコストで新しいベンチマークを作成できるため、手作りのベンチマークの脆弱さを克服できる。 また、共通の障害パターンや理由を明らかにし、幻覚を検出し、回避し、制御するための重要な洞察を提供する。 トップクラスのLVLM(eg , GPT-4V(ision), Gemini Pro Vision, Claude 3, LLaVA-1.5)の総合評価では、AUTOHALLUSIONの合成および実世界のデータセット上での幻覚誘導の97.7%と98.7%の成功率が示され、幻覚に対する長い戦いの道を歩む。

Large vision-language models (LVLMs) hallucinate: certain context cues in an image may trigger the language module's overconfident and incorrect reasoning on abnormal or hypothetical objects. Though a few benchmarks have been developed to investigate LVLM hallucinations, they mainly rely on hand-crafted corner cases whose fail patterns may hardly generalize, and finetuning on them could undermine their validity. These motivate us to develop the first automatic benchmark generation approach, AUTOHALLUSION, that harnesses a few principal strategies to create diverse hallucination examples. It probes the language modules in LVLMs for context cues and uses them to synthesize images by: (1) adding objects abnormal to the context cues; (2) for two co-occurring objects, keeping one and excluding the other; or (3) removing objects closely tied to the context cues. It then generates image-based questions whose ground-truth answers contradict the language module's prior. A model has to overcome contextual biases and distractions to reach correct answers, while incorrect or inconsistent answers indicate hallucinations. AUTOHALLUSION enables us to create new benchmarks at the minimum cost and thus overcomes the fragility of hand-crafted benchmarks. It also reveals common failure patterns and reasons, providing key insights to detect, avoid, or control hallucinations. Comprehensive evaluations of top-tier LVLMs, e.g., GPT-4V(ision), Gemini Pro Vision, Claude 3, and LLaVA-1.5, show a 97.7% and 98.7% success rate of hallucination induction on synthetic and real-world datasets of AUTOHALLUSION, paving the way for a long battle against hallucinations.
翻訳日:2024-06-18 20:12:13 公開日:2024-06-16
# Light Up the Shadows:コンセプトガイド型ビジョンランゲージモデルによる長めのエンティティグラウンドの強化

Light Up the Shadows: Enhance Long-Tailed Entity Grounding with Concept-Guided Vision-Language Models ( http://arxiv.org/abs/2406.10902v1 )

ライセンス: Link先を確認
Yikai Zhang, Qianyu He, Xintao Wang, Siyu Yuan, Jiaqing Liang, Yanghua Xiao, (参考訳) マルチモーダル知識グラフ(MMKG)は、様々な下流タスクに有用であることが証明されている。 しかし、大規模なMMKGの構築は、しばしばミスマッチした画像(すなわちノイズ)を導入するため、スケールアップは困難である。 KGのほとんどのエンティティは長い尾に属しているため、オンラインで利用できる画像はほとんどない。 この不足は、見つかった画像がエンティティと一致するかどうかを判断するのを難しくする。 これを解決するために、参照理論の三角法を取り上げ、概念指導による視覚言語モデルの拡張を提案する。 具体的には、Concept-Guided視覚言語モデルを用いた2段階フレームワークであるCOGを紹介する。 このフレームワークは、長い尾を持つエンティティのイメージテキスト対を効果的に識別するConcept Integrationモジュールと、説明可能性を提供し、人間の検証を可能にするEvidence Fusionモジュールとを備える。 COGの有効性を示すために、長い尾を持つエンティティの25k画像テキスト対のデータセットを作成する。 包括的実験により,COGはベースラインよりも長い尾を持つ画像とテキストのペアを認識する精度が向上するだけでなく,柔軟性や説明性も向上することが示された。

Multi-Modal Knowledge Graphs (MMKGs) have proven valuable for various downstream tasks. However, scaling them up is challenging because building large-scale MMKGs often introduces mismatched images (i.e., noise). Most entities in KGs belong to the long tail, meaning there are few images of them available online. This scarcity makes it difficult to determine whether a found image matches the entity. To address this, we draw on the Triangle of Reference Theory and suggest enhancing vision-language models with concept guidance. Specifically, we introduce COG, a two-stage framework with COncept-Guided vision-language models. The framework comprises a Concept Integration module, which effectively identifies image-text pairs of long-tailed entities, and an Evidence Fusion module, which offers explainability and enables human verification. To demonstrate the effectiveness of COG, we create a dataset of 25k image-text pairs of long-tailed entities. Our comprehensive experiments show that COG not only improves the accuracy of recognizing long-tailed image-text pairs compared to baselines but also offers flexibility and explainability.
翻訳日:2024-06-18 20:12:13 公開日:2024-06-16
# LLM加速・最適化・応用の新しい解法

New Solutions on LLM Acceleration, Optimization, and Application ( http://arxiv.org/abs/2406.10903v1 )

ライセンス: Link先を確認
Yingbing Huang, Lily Jiaxin Wan, Hanchen Ye, Manvi Jha, Jinghua Wang, Yuhong Li, Xiaofan Zhang, Deming Chen, (参考訳) 大規模言語モデル (LLM) は、広範囲の応用において、人間のような文章を解釈・生成するための特別な能力を持つ非常に強力な機器となっている。 しかし、LLMのサイズと複雑さの増大は、トレーニングと展開の両方において重大な課題をもたらし、計算と貯蔵のコストが大幅に増加し、エネルギー消費が増大する。 本稿では,これらの課題に対処し,LCMベースのシステムの効率を高めることを目的とした最近の進歩と研究の方向性を概観する。 まず,LLM推論速度と資源利用率の最適化に着目したアルゴリズムレベルの高速化手法について議論する。 ハードウェアアーキテクチャをLCMの要件に合わせることにより,システム効率を向上させることを目的としたLCM-ハードウェア共同設計戦略についても検討する。 さらに,効率的なLCMデプロイメントのためにハードウェアアクセラレータをカスタマイズするLLM-to-acceleratorコンパイル手法についても検討する。 最後に,LLMを回路設計支援に活用するためのケーススタディとして,高レベル合成(HLS)機能検証を行い,多数のバグやバグのないコードを含む新しいデータセットを作成し,HLSの検証とデバッグを専門とするLLMの訓練に不可欠であることを示す。 上記の各側面について、より詳細な背景研究から始め、続いて、特定の課題を克服するために提案されたいくつかの新しいソリューションについて紹介する。 その後、今後の研究の方向性を概説し、さらなる進歩を推進していく。 これらの取り組みを通じて、多様なアプリケーションにまたがるLLMのより効率的でスケーラブルなデプロイメントの道を開くことを目指している。

Large Language Models (LLMs) have become extremely potent instruments with exceptional capacities for comprehending and producing human-like text in a wide range of applications. However, the increasing size and complexity of LLMs present significant challenges in both training and deployment, leading to substantial computational and storage costs as well as heightened energy consumption. In this paper, we provide a review of recent advancements and research directions aimed at addressing these challenges and enhancing the efficiency of LLM-based systems. We begin by discussing algorithm-level acceleration techniques focused on optimizing LLM inference speed and resource utilization. We also explore LLM-hardware co-design strategies with a vision to improve system efficiency by tailoring hardware architectures to LLM requirements. Further, we delve into LLM-to-accelerator compilation approaches, which involve customizing hardware accelerators for efficient LLM deployment. Finally, as a case study to leverage LLMs for assisting circuit design, we examine LLM-aided design methodologies for an important task: High-Level Synthesis (HLS) functional verification, by creating a new dataset that contains a large number of buggy and bug-free codes, which can be essential for training LLMs to specialize on HLS verification and debugging. For each aspect mentioned above, we begin with a detailed background study, followed by the presentation of several novel solutions proposed to overcome specific challenges. We then outline future research directions to drive further advancements. Through these efforts, we aim to pave the way for more efficient and scalable deployment of LLMs across a diverse range of applications.
翻訳日:2024-06-18 20:02:29 公開日:2024-06-16
# Atention Bottleneckを破る

Breaking the Attention Bottleneck ( http://arxiv.org/abs/2406.10906v1 )

ライセンス: Link先を確認
Kalle Hilsenbek, (参考訳) 注意に基づくトランスフォーマーは、主に長距離依存をモデル化し、可変長の入力シーケンスを処理できるため、多くのディープラーニング分野において標準アーキテクチャとなっている。 しかし、その二次的な複雑さを伴う注意機構は、トランスフォーマーアーキテクチャにおいて重要なボトルネックとなっている。 このアルゴリズムはデコーダにおいて一方向のみであり、過度にパラメータ化されたデコーダのみのモデルで静的パターンに収束する。 私は、注意やアクティベーションの代替として、生成機能を開発することでこの問題に対処します。 それぞれのトークンと前のトークンを比較することで、自動回帰文字を持つ。 NanoGPTを使ったテスト環境では、より小さなモデルを持ちながら、損失は小さくなります。 平均コンテキストベクトルを組み込むことで損失はさらに減少する。 この注意の置き換えという概念は、https://gitlab.com/Bachstelze/causal_generationでGNU AGPL v3ライセンスの下で配布されている。

Attention-based transformers have become the standard architecture in many deep learning fields, primarily due to their ability to model long-range dependencies and handle variable-length input sequences. However, the attention mechanism with its quadratic complexity is a significant bottleneck in the transformer architecture. This algorithm is only uni-directional in the decoder and converges to a static pattern in over-parametrized decoder-only models. I address this issue by developing a generative function as attention or activation replacement. It still has the auto-regressive character by comparing each token with the previous one. In my test setting with nanoGPT this yields a smaller loss while having a smaller model. The loss further drops by incorporating an average context vector. This concept of attention replacement is distributed under the GNU AGPL v3 license at https://gitlab.com/Bachstelze/causal_generation.
翻訳日:2024-06-18 20:02:29 公開日:2024-06-16
# SparseDet: 完全スパースLiDARに基づく3Dオブジェクト検出のためのシンプルで効果的なフレームワーク

SparseDet: A Simple and Effective Framework for Fully Sparse LiDAR-based 3D Object Detection ( http://arxiv.org/abs/2406.10907v1 )

ライセンス: Link先を確認
Lin Liu, Ziying Song, Qiming Xia, Feiyang Jia, Caiyan Jia, Lei Yang, Hongyu Pan, (参考訳) LiDARベースのスパース3Dオブジェクト検出は、その計算効率の優位性から、自律運転アプリケーションにおいて重要な役割を果たす。 既存のメソッドでは、単一の中央のvoxelの機能をオブジェクトプロキシとして使用するか、フォアグラウンドポイントの集約されたクラスタをオブジェクトプロキシとして扱う。 しかし、前者は文脈情報を集約する能力に欠けており、結果としてオブジェクトプロキシでの情報表現が不十分になる。 後者はマルチステージパイプラインと補助的なタスクに依存しており、推論速度が低下する。 本研究では,スパースクエリをオブジェクトプロキシとして設計するSparseDetを提案する。 ローカル・マルチスケール・フィーチャー・アグリゲーション(LMFA)モジュールとグローバル・フィーチャー・アグリゲーション(GFA)モジュールという2つの重要なモジュールが導入されている。 LMFAサブモジュールは、コーディネート変換を経由し、隣接する関係を利用してオブジェクトレベルの詳細と局所的なコンテキスト情報をキャプチャする。GFAサブモジュールは、自己アテンションメカニズムを使用して、シーン全体のキーボクセルの特徴を選択的に集約し、シーンレベルのコンテキスト情報をキャプチャする。 nuScenes と KITTI の実験により,本手法の有効性が示された。 具体的には、nuSceneでは、SparseDetは以前の最高のスパース検出器であるVoxelNeXtを2.2\% mAPで13.5 FPSで上回り、KITTIではVoxelNeXtを1.12\%$\mathbf{AP_{3D}}$で上回り、17.9 FPSのハードレベルタスクで上回ります。

LiDAR-based sparse 3D object detection plays a crucial role in autonomous driving applications due to its computational efficiency advantages. Existing methods either use the features of a single central voxel as an object proxy, or treat an aggregated cluster of foreground points as an object proxy. However, the former lacks the ability to aggregate contextual information, resulting in insufficient information expression in object proxies. The latter relies on multi-stage pipelines and auxiliary tasks, which reduce the inference speed. To maintain the efficiency of the sparse framework while fully aggregating contextual information, in this work, we propose SparseDet which designs sparse queries as object proxies. It introduces two key modules, the Local Multi-scale Feature Aggregation (LMFA) module and the Global Feature Aggregation (GFA) module, aiming to fully capture the contextual information, thereby enhancing the ability of the proxies to represent objects. Where LMFA sub-module achieves feature fusion across different scales for sparse key voxels %which does this through via coordinate transformations and using nearest neighbor relationships to capture object-level details and local contextual information, GFA sub-module uses self-attention mechanisms to selectively aggregate the features of the key voxels across the entire scene for capturing scene-level contextual information. Experiments on nuScenes and KITTI demonstrate the effectiveness of our method. Specifically, on nuScene, SparseDet surpasses the previous best sparse detector VoxelNeXt by 2.2\% mAP with 13.5 FPS, and on KITTI, it surpasses VoxelNeXt by 1.12\% $\mathbf{AP_{3D}}$ on hard level tasks with 17.9 FPS.
翻訳日:2024-06-18 20:02:29 公開日:2024-06-16
# MICL:デモにおける複数ラベル語によるインテクスト学習の改善

MICL: Improving In-Context Learning through Multiple-Label Words in Demonstration ( http://arxiv.org/abs/2406.10908v1 )

ライセンス: Link先を確認
Zhu Zixiao, Feng Zijian, Zhou Hanzhang, Qian Junlang, Mao Kezhi, (参考訳) In-context Learning (ICL)では、サンプルラベルペアをデモとして使用することで、大規模な言語モデル(LLM)が新しいタスクを実行できる。 しかし、デモのバリエーションは、かなり異なるパフォーマンスをもたらす可能性がある。 現在の研究は、主にサンプルラベルペアを作成する際に、クラス名をラベル語と仮定して、サンプルサンプルを選択することに焦点を当てている。 しかし、ラベルワードの選択はICLのパフォーマンスに不可欠である。 さらに、実演で1つのクラス名を使用することで最適な結果が得られないことが観察された。 本稿では,ICL性能を向上させるために,複数のラベル語を1つのサンプルラベル対に使用することを提案する。 さらに, LLMの出力分布に基づいてサンプルラベルペアを選択し, 注文し, サンプルとラベルの両方の観点から実演例を最適化することを目的とした。 7つの分類データセットによる評価結果から,複数ラベル語の使用は,その選択,順序,量によって戦略的に整理され,多様なラベル情報を通じてICLの性能を向上させることが示唆された。

In-context learning (ICL) enables large language models (LLMs) to perform new tasks by using sample-label pairs as demonstrations. However, variations in demonstrations can lead to significantly different performances. Current research mainly focuses on selecting demonstration samples, preassuming the class name to be the label word when creating sample-label pairs. However, the choice of label words is crucial for ICL performance. In addition, we observe that using a single class name in demonstration may not yield optimal results. In this paper, we propose to use multiple label words in one sample-label pair to enhance ICL performance. Further, we select and order sample-label pairs based on LLM's output distribution, aiming to optimize the demonstration examples from both the samples' and labels' perspectives. Evaluation results on seven classification datasets show that the use of multiple label words, strategically organized by their selection, order and quantity, improves ICL performance through diverse label information.
翻訳日:2024-06-18 20:02:29 公開日:2024-06-16
# シリコンスピン量子ビットの高速パルス状態形成のための最小進化時間

Minimal evolution times for fast, pulse-based state preparation in silicon spin qubits ( http://arxiv.org/abs/2406.10913v1 )

ライセンス: Link先を確認
Christopher K. Long, Nicholas J. Mayhall, Sophia E. Economou, Edwin Barnes, Crispin H. W. Barnes, Frederico Martins, David R. M. Arvidsson-Shukur, Normann Mertig, (参考訳) 量子優位に達するための最も重要な障壁の1つとして、ノイズの多い中間スケールの量子プロセッサ上の状態準備フィデリティは、時間とともに蓄積される量子ゲートエラーに悩まされる。 潜在的な治療法はパルスベースの状態調製である。 シリコンハードウェア上での(マイクロ波と交換)パルスの最適化によって達成可能な最小進化時間(MET)を数値的に検討する。 2つの国家準備業務について検討する。 まず,H$_2$,HH$^+$,LiHのMETをそれぞれ2.4ns,4.4ns,27.2nsとする。 第二に、任意の状態間の遷移を考慮し、任意の4ビット状態間の遷移を50 ns以下とするMETを求める。 対照的に、同じシリコンプロセッサ上で1ビットと2ビットのゲートを介して任意の2ビットの状態を接続するには、およそ200 nsが必要である。 この比較は、パルスベースの状態準備は、ゲートベースの状態準備よりも効率的にシリコンハードウェアのコヒーレンス時間を利用する可能性が高いことを示唆している。 最後に,METに対するシリコンデバイスパラメータの影響を定量化する。 最大交換振幅を10MHzから1GHzにすると、H$2$のMETが84.3 nsから2.4 nsに加速することを示す。 これは高速交換の重要性を示している。 また、マイクロ波駆動の最大振幅を84kHzから56.6MHzに引き上げることで、1000nsから25nsの2量子状態の状態遷移を短縮することを示した。 本結果は,一般量子アルゴリズムにおける状態準備時間と,シリコンスピン量子ビットを用いた変分量子アルゴリズムの実行時間の両方に関係している。

Standing as one of the most significant barriers to reaching quantum advantage, state-preparation fidelities on noisy intermediate-scale quantum processors suffer from quantum-gate errors, which accumulate over time. A potential remedy is pulse-based state preparation. We numerically investigate the minimal evolution times (METs) attainable by optimizing (microwave and exchange) pulses on silicon hardware. We investigate two state preparation tasks. First, we consider the preparation of molecular ground states and find the METs for H$_2$, HeH$^+$, and LiH to be 2.4 ns, 4.4 ns, and 27.2 ns, respectively. Second, we consider transitions between arbitrary states and find the METs for transitions between arbitrary four-qubit states to be below 50 ns. For comparison, connecting arbitrary two-qubit states via one- and two-qubit gates on the same silicon processor requires approximately 200 ns. This comparison indicates that pulse-based state preparation is likely to utilize the coherence times of silicon hardware more efficiently than gate-based state preparation. Finally, we quantify the effect of silicon device parameters on the MET. We show that increasing the maximal exchange amplitude from 10 MHz to 1 GHz accelerates the METs, e.g., for H$_2$ from 84.3 ns to 2.4 ns. This demonstrates the importance of fast exchange. We also show that increasing the maximal amplitude of the microwave drive from 884 kHz to 56.6 MHz shortens state transitions, e.g., for two-qubit states from 1000 ns to 25 ns. Our results bound both the state-preparation times for general quantum algorithms and the execution times of variational quantum algorithms with silicon spin qubits.
翻訳日:2024-06-18 20:02:29 公開日:2024-06-16
# 回帰学習のための1次マニフォールドデータ拡張

First-Order Manifold Data Augmentation for Regression Learning ( http://arxiv.org/abs/2406.10914v1 )

ライセンス: Link先を確認
Ilya Kaufman, Omri Azencot, (参考訳) データ拡張(DA)法は、画像上の回転や時系列データ上の時間歪みなどの基礎となるデータ領域の特徴に適合する変換を適用することで、特定のドメインに適した合成サンプルを生成する。 対照的に、ドメインに依存しないアプローチ、例えば、混合は様々なデータモダリティに適用でき、汎用的で汎用的である。 DAによる分類タスクの正規化は、よく研究されているトピックであるが、回帰問題に対するDAの効果は、あまり注目されなかった。 このギャップを埋めるために、回帰のためにドメインに依存しない拡張の問題について検討し、新しいデータ駆動型ドメインに依存しないデータ拡張法であるFOMAを紹介した。 基本的に,本手法は列車分布の接面から新しい例をサンプリングする。 このようにデータを増やすことは、入力信号の優位な特徴を捉えるネットワークの傾向と一致している。 分布内一般化と分布外ロバスト性ベンチマークを用いてFOMAを評価し,いくつかのニューラルアーキテクチャの一般化を改善することを示す。 また、ミックスアップに基づく強いベースラインは、我々のアプローチと比べて効果が低いこともわかりました。 私たちのコードはhttps://github.com/azencot-group/FOMA.comで公開されています。

Data augmentation (DA) methods tailored to specific domains generate synthetic samples by applying transformations that are appropriate for the characteristics of the underlying data domain, such as rotations on images and time warping on time series data. In contrast, domain-independent approaches, e.g. mixup, are applicable to various data modalities, and as such they are general and versatile. While regularizing classification tasks via DA is a well-explored research topic, the effect of DA on regression problems received less attention. To bridge this gap, we study the problem of domain-independent augmentation for regression, and we introduce FOMA: a new data-driven domain-independent data augmentation method. Essentially, our approach samples new examples from the tangent planes of the train distribution. Augmenting data in this way aligns with the network tendency towards capturing the dominant features of its input signals. We evaluate FOMA on in-distribution generalization and out-of-distribution robustness benchmarks, and we show that it improves the generalization of several neural architectures. We also find that strong baselines based on mixup are less effective in comparison to our approach. Our code is publicly available athttps://github.com/azencot-group/FOMA.
翻訳日:2024-06-18 20:02:29 公開日:2024-06-16
# 因果発見のためのベイズ干渉最適化

Bayesian Intervention Optimization for Causal Discovery ( http://arxiv.org/abs/2406.10917v1 )

ライセンス: Link先を確認
Yuxuan Wang, Mingzhou Liu, Xinwei Sun, Wei Wang, Yizhou Wang, (参考訳) 因果発見は複雑なシステムを理解し、決定を下すのに不可欠である。 観測データは特定の仮定の下で因果関係を明らかにすることができるが、しばしば失敗し、積極的な介入が必要である。 ベイズ的手法やグラフ理論的手法のような現在の手法は意思決定を優先せず、しばしば仮説テストに直接関係しない理想的な条件や情報ゲインに依存している。 本稿では,ベイズ因子に着想を得たベイズ最適化手法を提案する。 提案手法は観測データを用いて,異なる仮説の下で因果モデルを推定し,事前実験により潜在的介入を評価する。 各種実験により本手法の有効性を実証した。 我々の貢献は、能動的介入による効果的な因果発見のための堅牢な枠組みを提供し、理論的な進歩の実践的応用を強化する。

Causal discovery is crucial for understanding complex systems and informing decisions. While observational data can uncover causal relationships under certain assumptions, it often falls short, making active interventions necessary. Current methods, such as Bayesian and graph-theoretical approaches, do not prioritize decision-making and often rely on ideal conditions or information gain, which is not directly related to hypothesis testing. We propose a novel Bayesian optimization-based method inspired by Bayes factors that aims to maximize the probability of obtaining decisive and correct evidence. Our approach uses observational data to estimate causal models under different hypotheses, evaluates potential interventions pre-experimentally, and iteratively updates priors to refine interventions. We demonstrate the effectiveness of our method through various experiments. Our contributions provide a robust framework for efficient causal discovery through active interventions, enhancing the practical application of theoretical advancements.
翻訳日:2024-06-18 20:02:29 公開日:2024-06-16
# マルチLLMシステムによる身体的質問応答

Embodied Question Answering via Multi-LLM Systems ( http://arxiv.org/abs/2406.10918v1 )

ライセンス: Link先を確認
Bhrij Patel, Vishnu Sashank Dorbala, Amrit Singh Bedi, (参考訳) EQA(Embodied Question Answering)は,ユーザの質問に答える環境を探索するエージェントが関与する重要な問題である。 既存の文献では、EQAは単一のエージェントのシナリオでのみ研究されており、探索には時間と費用がかかる。 本研究では,複数の大規模言語モデル(LLM)をベースとしたエージェントが家庭環境に関する質問に独立して答えるマルチエージェントフレームワークのEQAについて検討する。 各クエリに対して1つの回答を生成するために、個々のレスポンスを使用して、堅牢な回答のためにレスポンスを集約するCAM(Central Answer Model)をトレーニングする。 CAM を用いて,投票方式や討論会など LLM の集約手法と比較した場合,50 % の EQA 精度が得られた。 CAMはいかなる種類のエージェント通信も必要とせず、関連するコストから軽減する。 我々は,CAMを非線形(神経ネットワーク,ランダムフォレスト,決定木,XGBoost)および線形(論理回帰分類器,SVM)アルゴリズムで吸収する。 最後に、置換特徴重要度(PFI)によるCAMの特徴重要度分析を行い、各独立したエージェントとクエリコンテキストに依存するCAMの定量化を行う。

Embodied Question Answering (EQA) is an important problem, which involves an agent exploring the environment to answer user queries. In the existing literature, EQA has exclusively been studied in single-agent scenarios, where exploration can be time-consuming and costly. In this work, we consider EQA in a multi-agent framework involving multiple large language models (LLM) based agents independently answering queries about a household environment. To generate one answer for each query, we use the individual responses to train a Central Answer Model (CAM) that aggregates responses for a robust answer. Using CAM, we observe a $50\%$ higher EQA accuracy when compared against aggregation methods for ensemble LLM, such as voting schemes and debates. CAM does not require any form of agent communication, alleviating it from the associated costs. We ablate CAM with various nonlinear (neural network, random forest, decision tree, XGBoost) and linear (logistic regression classifier, SVM) algorithms. Finally, we present a feature importance analysis for CAM via permutation feature importance (PFI), quantifying CAMs reliance on each independent agent and query context.
翻訳日:2024-06-18 20:02:29 公開日:2024-06-16
# ハミルトン・ヤコビを基盤としたDeep Operator Learningによるポリシ・イテレーション

Hamilton-Jacobi Based Policy-Iteration via Deep Operator Learning ( http://arxiv.org/abs/2406.10920v1 )

ライセンス: Link先を確認
Jae Yong Lee, Yeoneung Kim, (参考訳) ディープ作用素ネットワーク(DeepONet)のフレームワークは、高次元偏微分方程式を解く能力によって広く利用されている。 本稿では、DeepONetを最近開発されたポリシー反復方式に組み込んで、最適制御問題と対応するハミルトン-ヤコビ-ベルマン方程式を数値的に解く。 ニューラルネットワークが学習されると、演算子学習のユニークな特徴により、最適制御問題と異なる終端関数を持つHJB方程式の解がすばやく推論できる。 さらに, 粘性解の比較原理を用いて, アルゴリズムの精度を定量的に解析する。 この手法の有効性は,10次元線形二次規制問題 (LQR) など,様々な例で検証されている。

The framework of deep operator network (DeepONet) has been widely exploited thanks to its capability of solving high dimensional partial differential equations. In this paper, we incorporate DeepONet with a recently developed policy iteration scheme to numerically solve optimal control problems and the corresponding Hamilton--Jacobi--Bellman (HJB) equations. A notable feature of our approach is that once the neural network is trained, the solution to the optimal control problem and HJB equations with different terminal functions can be inferred quickly thanks to the unique feature of operator learning. Furthermore, a quantitative analysis of the accuracy of the algorithm is carried out via comparison principles of viscosity solutions. The effectiveness of the method is verified with various examples, including 10-dimensional linear quadratic regulator problems (LQRs).
翻訳日:2024-06-18 20:02:29 公開日:2024-06-16
# パラメトリック言語モデルの知識から表を生成する

Generating Tables from the Parametric Knowledge of Language Models ( http://arxiv.org/abs/2406.10922v1 )

ライセンス: Link先を確認
Yevgeni Berkovitch, Oren Glickman, Amit Somech, Tomer Wolfson, (参考訳) 我々は,大規模言語モデル(LLM)のパラメトリック知識から,事実と正確な表を生成することを検討する。 LLMは、知識ベースを再現し、自由形式のテキストを生成するという印象的な能力を示してきましたが、金融や医療といった分野において重要な、構造化された表データの生成に重点を置いています。 GPT-3.5, GPT-4, Llama2-13B, Llama2-70Bの4つのテーブル生成能力について, 3つのテーブル生成手法を用いて検討した。 (a)フルテーブル (b)行ごと; (c)セル・バイ・セル。 評価のために、100のキュレートされたウィキペディアテーブルを含む新しいベンチマークWikiTabGenを導入する。 テーブルは、その事実の正確性を保証するためにさらに処理され、手作業で短い自然言語記述で注釈付けされる。 GPT-4の精度は19.6%に達し, テーブル生成は依然として課題であることがわかった。 詳細な分析では、サイズ、テーブルの人気度、数値コンテンツ、生成性能など、様々なテーブル特性がどのように影響するかを明らかにした。 この研究は、LLMベースのテーブル生成におけるユニークな課題を強調し、将来の研究に確かな評価フレームワークを提供する。 私たちのコード、プロンプト、データは、すべて公開されています。

We explore generating factual and accurate tables from the parametric knowledge of large language models (LLMs). While LLMs have demonstrated impressive capabilities in recreating knowledge bases and generating free-form text, we focus on generating structured tabular data, which is crucial in domains like finance and healthcare. We examine the table generation abilities of four state-of-the-art LLMs: GPT-3.5, GPT-4, Llama2-13B, and Llama2-70B, using three prompting methods for table generation: (a) full-table, (b) row-by-row; (c) cell-by-cell. For evaluation, we introduce a novel benchmark, WikiTabGen which contains 100 curated Wikipedia tables. Tables are further processed to ensure their factual correctness and manually annotated with short natural language descriptions. Our findings reveal that table generation remains a challenge, with GPT-4 reaching the highest accuracy at 19.6%. Our detailed analysis sheds light on how various table properties, such as size, table popularity, and numerical content, influence generation performance. This work highlights the unique challenges in LLM-based table generation and provides a solid evaluation framework for future research. Our code, prompts and data are all publicly available: https://github.com/analysis-bots/WikiTabGen
翻訳日:2024-06-18 20:02:29 公開日:2024-06-16
# 映画におけるトロープ付き大言語モデルの映像推論能力の検討

Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies ( http://arxiv.org/abs/2406.10923v1 )

ライセンス: Link先を確認
Hung-Ting Su, Chun-Tong Chao, Ya-Ching Hsu, Xudong Lin, Yulei Niu, Hung-Yi Lee, Winston H. Hsu, (参考訳) 大規模言語モデル(LLM)は、言語タスクだけでなく、ビデオ推論においても有効性を示している。 本稿では,(1)要約知覚:ビデオにおける抽象概念の理解とトークン化,(2)長距離合成推論:複数のフレームによる長距離ビデオ理解のための中間的推論ステップの計画と統合,という2つの批判的かつ見過ごされたビデオ推論スキルを探求するためのテストベッドとして設計された新しいデータセットTropes in Movies(TiM)を紹介する。 映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。 実験の結果,Captioner-Reasoner,Large Multimodal Model Instruction Fine-tuning,Visual Programmingといった現在の手法は,抽象知覚と長距離合成推論の課題に対処する場合に,ランダムなベースラインをわずかに上回っていることがわかった。 これらの欠陥に対処するため,FEVoRI (Face-Enhanced Viper of Role Interactions) とConQueR (Context Query Reduction) を提案する。 しかし、このパフォーマンスは人間レベル(40対65F1)よりは遅れている。 さらに,タスク解決のための抽象知覚と長距離構成推論の必要性を評価するための新しいプロトコルを提案する。 これは抽象構文木(AST)を用いてビジュアルプログラミングによって生成されたコードを分析し、TiMの複雑さの増加を確認することで実現される。 データセットとコードは、 https://ander1119.github.io/TiM.comで入手可能だ。

Large Language Models (LLMs) have demonstrated effectiveness not only in language tasks but also in video reasoning. This paper introduces a novel dataset, Tropes in Movies (TiM), designed as a testbed for exploring two critical yet previously overlooked video reasoning skills: (1) Abstract Perception: understanding and tokenizing abstract concepts in videos, and (2) Long-range Compositional Reasoning: planning and integrating intermediate reasoning steps for understanding long-range videos with numerous frames. Utilizing tropes from movie storytelling, TiM evaluates the reasoning capabilities of state-of-the-art LLM-based approaches. Our experiments show that current methods, including Captioner-Reasoner, Large Multimodal Model Instruction Fine-tuning, and Visual Programming, only marginally outperform a random baseline when tackling the challenges of Abstract Perception and Long-range Compositional Reasoning. To address these deficiencies, we propose Face-Enhanced Viper of Role Interactions (FEVoRI) and Context Query Reduction (ConQueR), which enhance Visual Programming by fostering role interaction awareness and progressively refining movie contexts and trope queries during reasoning processes, significantly improving performance by 15 F1 points. However, this performance still lags behind human levels (40 vs. 65 F1). Additionally, we introduce a new protocol to evaluate the necessity of Abstract Perception and Long-range Compositional Reasoning for task resolution. This is done by analyzing the code generated through Visual Programming using an Abstract Syntax Tree (AST), thereby confirming the increased complexity of TiM. The dataset and code are available at: https://ander1119.github.io/TiM
翻訳日:2024-06-18 20:02:29 公開日:2024-06-16
# ホームを安全にする: ロス誘導マスクによるスマートホームの非監視的ユーザー行動異常検出

Make Your Home Safe: Time-aware Unsupervised User Behavior Anomaly Detection in Smart Homes via Loss-guided Mask ( http://arxiv.org/abs/2406.10928v1 )

ライセンス: Link先を確認
Xiao Jingyu, Xu Zhiyao, Zou Qingsong, Li Qing, Zhao Dan, Fang Dong, Li Ruoyu, Tang Wenxin, Li Kang, Zuo Xudong, Hu Penghui, Jiang Yong, Weng Zixuan, Lyv. R Michael, (参考訳) スマートホームはモノのインターネット(Internet of Things)をベースとしており、非常に便利だが、ユーザーの不適切な操作や悪意のある攻撃者による攻撃などの異常な動作のためにセキュリティ上の懸念も生じている。 いくつかの行動モデリング手法が、異常な行動を特定し、潜在的なリスクを軽減するために提案されている。 しかし、そのパフォーマンスは、頻繁な振る舞いを効果的に学ばず、時間的文脈を考慮せず、あるいは人間の行動にノイズが及ぼす影響を考慮しないため、しばしば低下する。 本稿では,自動エンコーダに基づく教師なしユーザ動作異常検出フレームワークであるSmartGuardを提案する。 まず、Los-Guided Dynamic Mask Strategy (LDMS)を設計し、学習中に見落とされがちな頻繁な行動の学習を促す。 次に,3段階の時間認識位置埋め込み (TTPE) を提案する。 第3に,騒音を考慮した重み付き再構成損失(NWRL)を提案する。 10種類の異常な振る舞いを持つ3つのデータセットに関する総合的な実験は、SmartGuardが一貫して最先端のベースラインを上回り、高い解釈可能な結果を提供することを示している。

Smart homes, powered by the Internet of Things, offer great convenience but also pose security concerns due to abnormal behaviors, such as improper operations of users and potential attacks from malicious attackers. Several behavior modeling methods have been proposed to identify abnormal behaviors and mitigate potential risks. However, their performance often falls short because they do not effectively learn less frequent behaviors, consider temporal context, or account for the impact of noise in human behaviors. In this paper, we propose SmartGuard, an autoencoder-based unsupervised user behavior anomaly detection framework. First, we design a Loss-guided Dynamic Mask Strategy (LDMS) to encourage the model to learn less frequent behaviors, which are often overlooked during learning. Second, we propose a Three-level Time-aware Position Embedding (TTPE) to incorporate temporal information into positional embedding to detect temporal context anomaly. Third, we propose a Noise-aware Weighted Reconstruction Loss (NWRL) that assigns different weights for routine behaviors and noise behaviors to mitigate the interference of noise behaviors during inference. Comprehensive experiments on three datasets with ten types of anomaly behaviors demonstrates that SmartGuard consistently outperforms state-of-the-art baselines and also offers highly interpretable results.
翻訳日:2024-06-18 20:02:29 公開日:2024-06-16
# 知覚不能なリズムバックドアアタック: 音声認識に検出不能な脆弱性を埋め込むためのリズムトランスフォーメーションの探索

Imperceptible Rhythm Backdoor Attacks: Exploring Rhythm Transformation for Embedding Undetectable Vulnerabilities on Speech Recognition ( http://arxiv.org/abs/2406.10932v1 )

ライセンス: Link先を確認
Wenhan Yao, Jiangkun Yang, Yongqiang He, Jia Liu, Weiping Wen, (参考訳) 音声認識は人間とコンピュータの相互作用において重要なスタートリングであり、近年ではディープラーニングモデルがこのタスクにおいて優れた成功を収めている。 しかし、モデルトレーニングとプライベートデータプロバイダが常に分離されている場合、ディープニューラルネットワーク(DNN)を異常にするセキュリティ脅威は研究されるべきである。 近年,音声認識システムにおいて,典型的なバックドア攻撃が研究されている。 既存のバックドア法はデータ中毒に基づいている。 攻撃者は、良質な音声スペクトログラムにいくつかの組み込まれた変更を加えたり、ピッチや音色などの音声成分を変更したりする。 その結果、ヒトの聴力や自動深度アルゴリズムにより、有毒なデータを検出できる。 本稿では,データ中毒のステルス性を改善するために,ランダムスペクトログラムリズム変換(Random Spectrogram Rhythm Transformation, RRT)と呼ばれる非ニューラルかつ高速なアルゴリズムを提案する。 アルゴリズムは4つのステップを組み合わせて、ステルス性の有毒な発話を生成する。 リズム成分変換の観点から、提案するトリガーは、メルスペクトルを伸縮または圧縮し、信号に戻す。 操作は、良好なステルス性のために、音色と内容は変わらない。 本研究は,話者検証と自動音声認識による有毒試料の盗聴テストを含む,2種類の音声認識タスクについて行った。 その結果,本手法は有効性とステルス性に優れていた。 リズムトリガーは低中毒率を必要とし、非常に高い攻撃成功率を得る。

Speech recognition is an essential start ring of human-computer interaction, and recently, deep learning models have achieved excellent success in this task. However, when the model training and private data provider are always separated, some security threats that make deep neural networks (DNNs) abnormal deserve to be researched. In recent years, the typical backdoor attacks have been researched in speech recognition systems. The existing backdoor methods are based on data poisoning. The attacker adds some incorporated changes to benign speech spectrograms or changes the speech components, such as pitch and timbre. As a result, the poisoned data can be detected by human hearing or automatic deep algorithms. To improve the stealthiness of data poisoning, we propose a non-neural and fast algorithm called Random Spectrogram Rhythm Transformation (RSRT) in this paper. The algorithm combines four steps to generate stealthy poisoned utterances. From the perspective of rhythm component transformation, our proposed trigger stretches or squeezes the mel spectrograms and recovers them back to signals. The operation keeps timbre and content unchanged for good stealthiness. Our experiments are conducted on two kinds of speech recognition tasks, including testing the stealthiness of poisoned samples by speaker verification and automatic speech recognition. The results show that our method has excellent effectiveness and stealthiness. The rhythm trigger needs a low poisoning rate and gets a very high attack success rate.
翻訳日:2024-06-18 20:02:29 公開日:2024-06-16
# Decoupled Visual Representation Maskingによる対向ロバスト性の改善

Improving Adversarial Robustness via Decoupled Visual Representation Masking ( http://arxiv.org/abs/2406.10933v1 )

ライセンス: Link先を確認
Decheng Liu, Tao Chen, Chunlei Peng, Nannan Wang, Ruimin Hu, Xinbo Gao, (参考訳) ディープニューラルネットワークは、細かな設計された敵の例に弱いことが証明されており、敵防衛アルゴリズムが近年ますます注目を集めている。 事前処理に基づく防御は主要な戦略であり、ロバストな特徴表現の学習は一般化を促進する効果的な方法であることが証明されている。 しかし、既存の防御作業では、トレーニングプロセスで異なる深度レベルの視覚的特徴を考慮していない。 本稿では、特徴分布の観点から、ロバストな特徴の2つの新しい特性を最初に強調する。 1) \textbf{Diversity}。 クラス内サンプルのロバストな特徴は、適切な多様性を維持することができる。 2) \textbf{Discriminability} クラス間サンプルの堅牢な機能は、適切な分離を保証する必要がある。 現状の防衛手法は、上記の2つの問題にうまく対処することを目的としている。 対人訓練において,クラス内差を増大させ,クラス間差を同時に減少させる動機付けとなる。 具体的には、分離された視覚的表現マスキングに基づく、シンプルだが効果的な防御法を提案する。 設計されたDecoupled Visual Feature Masking (DFM)ブロックは、視覚的識別的特徴と非視覚的特徴を多様なマスク戦略で適応的に切り離すことができる。 我々の研究は、より優れた保護を達成するために、かつての敵の訓練アルゴリズムに対して、汎用的で容易にプラグイン可能なブロックユニットを提供する。 大規模実験により,提案手法は最先端の防御手法と比較して優れた性能が得られることを示した。 コードは \href{https://github.com/chenboluo/Adversarial-defense}{https://github.com/chenboluo/Adversarial-defense} で公開されている。

Deep neural networks are proven to be vulnerable to fine-designed adversarial examples, and adversarial defense algorithms draw more and more attention nowadays. Pre-processing based defense is a major strategy, as well as learning robust feature representation has been proven an effective way to boost generalization. However, existing defense works lack considering different depth-level visual features in the training process. In this paper, we first highlight two novel properties of robust features from the feature distribution perspective: 1) \textbf{Diversity}. The robust feature of intra-class samples can maintain appropriate diversity; 2) \textbf{Discriminability}. The robust feature of inter-class samples should ensure adequate separation. We find that state-of-the-art defense methods aim to address both of these mentioned issues well. It motivates us to increase intra-class variance and decrease inter-class discrepancy simultaneously in adversarial training. Specifically, we propose a simple but effective defense based on decoupled visual representation masking. The designed Decoupled Visual Feature Masking (DFM) block can adaptively disentangle visual discriminative features and non-visual features with diverse mask strategies, while the suitable discarding information can disrupt adversarial noise to improve robustness. Our work provides a generic and easy-to-plugin block unit for any former adversarial training algorithm to achieve better protection integrally. Extensive experimental results prove the proposed method can achieve superior performance compared with state-of-the-art defense approaches. The code is publicly available at \href{https://github.com/chenboluo/Adversarial-defense}{https://github.com/chenboluo/Adversarial-defense}.
翻訳日:2024-06-18 20:02:29 公開日:2024-06-16
# Pick-or-Mix: ConvNetの動的チャネルサンプリング

Pick-or-Mix: Dynamic Channel Sampling for ConvNets ( http://arxiv.org/abs/2406.10935v1 )

ライセンス: Link先を確認
Ashish Kumar, Daneul Kim, Jaesik Park, Laxmidhar Behera, (参考訳) 畳み込みニューラルネットワーク(ConvNet)のチャネルプルーニングアプローチは、静的または動的にチャネルを非活性化し、特別な実装を必要とする。 さらに,1x1畳み込みによる1x1畳み込みにより,ConvNetsのチャネルスキューイングが実施され,計算処理やネットワークパラメータの大部分が支配される。 これらの課題を踏まえ、動的チャネルサンプリングのための効果的な多目的モジュール、すなわちPick-or-Mix(PiX)を提案する。 PiXは一連のチャネルをサブセットに分割し、それらから選択し、入力アクティベーションに基づいて各ピクセルごとに選択決定を動的に行う。 PiXを有名なConvNetアーキテクチャにプラグインし、その多目的ユーティリティを検証する。 ResNetの1x1チャネルキューイングレイヤをPiXに置き換えると、ネットワークは精度を損なうことなく25%高速になる。 ネットワークの表現力(例えば、SE、CBAM、AFF、SKNet、DWP)を高めるために広く採用されているアプローチよりも優れたデータ表現を学習できることを示す。 また、ネットワークダウンスケーリングおよび動的チャネルプルーニングアプリケーションにおいて、PiXが最先端の性能を達成することを示す。

Channel pruning approaches for convolutional neural networks (ConvNets) deactivate the channels, statically or dynamically, and require special implementation. In addition, channel squeezing in representative ConvNets is carried out via 1x1 convolutions which dominates a large portion of computations and network parameters. Given these challenges, we propose an effective multi-purpose module for dynamic channel sampling, namely Pick-or-Mix (PiX), which does not require special implementation. PiX divides a set of channels into subsets and then picks from them, where the picking decision is dynamically made per each pixel based on the input activations. We plug PiX into prominent ConvNet architectures and verify its multi-purpose utilities. After replacing 1x1 channel squeezing layers in ResNet with PiX, the network becomes 25% faster without losing accuracy. We show that PiX allows ConvNets to learn better data representation than widely adopted approaches to enhance networks' representation power (e.g., SE, CBAM, AFF, SKNet, and DWP). We also show that PiX achieves state-of-the-art performance on network downscaling and dynamic channel pruning applications.
翻訳日:2024-06-18 20:02:29 公開日:2024-06-16
# 理解を理解する: 大規模言語モデルによって動機付けられた実践的なフレームワーク

Understanding Understanding: A Pragmatic Framework Motivated by Large Language Models ( http://arxiv.org/abs/2406.10937v1 )

ライセンス: Link先を確認
Kevin Leyton-Brown, Yoav Shoham, (参考訳) 大規模言語モデル(LLM)の急激な上昇と、それらが人間レベルの品質をどの程度持っているかについての議論により、エージェント(機械か人間か)が対象物を理解するかどうかをテストするための枠組みを提案する。 チューリングテストの手法では、このフレームワークはエージェントのパフォーマンスのみをベースとしており、特にその答えの正確さに基づいている。 フレームワークの要素には、一連の質問(「理解のスコープ」)を取り巻くこと、一般的な能力("passing grade")を必要とすること、"厳格な答え"を避けること、そしてまだ間違った答えを許すこと、いくつかの質問に対する"私は知らない"答えを許容することなどが含まれる。 これらの条件に対する確実性を確保するには、非自明なスコープでは不可能な質問を徹底的に検証する必要があるが、ランダムサンプリングと確率的信頼境界の適用により、いかに高い信頼が得られるかを示す。 また、説明を伴う回答が許容範囲を達成するのに必要なサンプルの複雑さを改善することも示している。 私たちのフレームワークによれば、現在のLLMは非自明なドメインを理解するとは言えませんが、このフレームワークは理解をテストするための実践的なレシピを提供するので、理解するAIエージェントを構築するためのツールを構成します。

Motivated by the rapid ascent of Large Language Models (LLMs) and debates about the extent to which they possess human-level qualities, we propose a framework for testing whether any agent (be it a machine or a human) understands a subject matter. In Turing-test fashion, the framework is based solely on the agent's performance, and specifically on how well it answers questions. Elements of the framework include circumscribing the set of questions (the "scope of understanding"), requiring general competence ("passing grade"), avoiding "ridiculous answers", but still allowing wrong and "I don't know" answers to some questions. Reaching certainty about these conditions requires exhaustive testing of the questions which is impossible for nontrivial scopes, but we show how high confidence can be achieved via random sampling and the application of probabilistic confidence bounds. We also show that accompanying answers with explanations can improve the sample complexity required to achieve acceptable bounds, because an explanation of an answer implies the ability to answer many similar questions. According to our framework, current LLMs cannot be said to understand nontrivial domains, but as the framework provides a practical recipe for testing understanding, it thus also constitutes a tool for building AI agents that do understand.
翻訳日:2024-06-18 19:52:39 公開日:2024-06-16
# データ品質管理の強化に向けて:データウェアハウスにおけるデータ品質ルール定義の自動化

Towards augmented data quality management: Automation of Data Quality Rule Definition in Data Warehouses ( http://arxiv.org/abs/2406.10940v1 )

ライセンス: Link先を確認
Heidi Carolina Tamm, Anastasija Nikiforova, (参考訳) 現代のデータ駆動の状況では、巨大なデータリポジトリから実行可能な洞察を得るためには、データ品質(DQ)を保証することが不可欠です。 本研究の目的は,大規模組織で一般的に使用されているデータリポジトリとして,データウェアハウス内のデータ品質管理を自動化する可能性を検討することである。 市場および学術文献で利用可能な既存のDQツールの体系的なレビューを行うことで、データ品質ルールを自動的に検出し、強制する能力を評価する。 レビューでは、さまざまなソースから151のツールが紹介され、現在のほとんどのツールは、データウェアハウスではなく、ドメイン固有のデータベースのクリーニングと修正に重点を置いていることが明らかになった。 データウェアハウスでこれを実装することは言うまでもなく、DQルールを検出する能力を示したのは、限られたツール、特に10ツールだけだった。 この調査結果は、データウェアハウスにおけるAI強化DQルール検出に関する市場と学術研究において、大きなギャップを浮き彫りにした。 本稿では, DQ 管理プロセスの効率化, 作業負荷削減, コスト削減のために, この分野のさらなる発展を提唱する。 この研究は、DQルールの自動検出のための高度なツールの必要性を強調し、データウェアハウス環境に適したデータ品質管理におけるプラクティス改善の道を開く。 この研究は、最も要求を満たすデータ品質ツールを選択する上で、組織を導くことができる。

In the contemporary data-driven landscape, ensuring data quality (DQ) is crucial for deriving actionable insights from vast data repositories. The objective of this study is to explore the potential for automating data quality management within data warehouses as data repository commonly used by large organizations. By conducting a systematic review of existing DQ tools available in the market and academic literature, the study assesses their capability to automatically detect and enforce data quality rules. The review encompassed 151 tools from various sources, revealing that most current tools focus on data cleansing and fixing in domain-specific databases rather than data warehouses. Only a limited number of tools, specifically ten, demonstrated the capability to detect DQ rules, not to mention implementing this in data warehouses. The findings underscore a significant gap in the market and academic research regarding AI-augmented DQ rule detection in data warehouses. This paper advocates for further development in this area to enhance the efficiency of DQ management processes, reduce human workload, and lower costs. The study highlights the necessity of advanced tools for automated DQ rule detection, paving the way for improved practices in data quality management tailored to data warehouse environments. The study can guide organizations in selecting data quality tool that would meet their requirements most.
翻訳日:2024-06-18 19:52:39 公開日:2024-06-16
# 効果的な生成AI:人間-アルゴリズムセンタ

Effective Generative AI: The Human-Algorithm Centaur ( http://arxiv.org/abs/2406.10942v1 )

ライセンス: Link先を確認
Soroush Saghafian, Lihi Idan, (参考訳) 高度な分析科学手法は、人工知能と人間の知能の力を組み合わせることを可能にし、優れた意思決定を可能にする「textit{centaurs}」を作り出した。 センタウラー(Centaurs)は、フォーマルな分析と人間の直感の両方を、学習と推論プロセスの中で共生的に組み合わせた、ハイブリッドな人間-アルゴリズムAIモデルである。 私たちは、多くの領域におけるAI開発と利用の未来は、従来のAIアプローチとは対照的に、センタウロスに焦点を当てる必要があると論じています。 このパラダイムは、従来のAIメソッドからCentaurベースのAIメソッドへのシフトは、いくつかの根本的な疑問を提起する。 センタウルを作る最も効果的な方法は何ですか。 センタウラーはいつ使うべきで、リードは従来のAIモデルにいつ与えるべきなのか? センタウアの意思決定プロセスにおいて、人間の直観(時には誤解を招くこともある)を組み込むことは、従来のAI手法と比べてパフォーマンスを低下させませんか? この研究は、先進的なAIの最近の進歩、特にLarge Language Models(LLM)に焦点をあてたこれらの基本的な問題に対処することを目的としている。

Advanced analytics science methods have enabled combining the power of artificial and human intelligence, creating \textit{centaurs} that allow superior decision-making. Centaurs are hybrid human-algorithm AI models that combine both formal analytics and human intuition in a symbiotic manner within their learning and reasoning process. We argue that the future of AI development and use in many domains needs to focus on centaurs as opposed to traditional AI approaches. This paradigm shift from traditional AI methods to centaur-based AI methods raises some fundamental questions: How are centaurs different from traditional human-in-the-loop methods? What are the most effective methods for creating centaurs? When should centaurs be used, and when should the lead be given to traditional AI models? Doesn't the incorporation of human intuition -- which at times can be misleading -- in centaurs' decision-making process degrade its performance compared to traditional AI methods? This work aims to address these fundamental questions, focusing on recent advancements in generative AI, and especially in Large Language Models (LLMs), as a main case study to illustrate centaurs' critical essentiality to future AI endeavors.
翻訳日:2024-06-18 19:52:39 公開日:2024-06-16
# ステレオマッチングにおける厳密な反復的相違

Rectified Iterative Disparity for Stereo Matching ( http://arxiv.org/abs/2406.10943v1 )

ライセンス: Link先を確認
Weiqing Xiao, (参考訳) 不確実性と反復に基づく手法はステレオマッチングにおいて大きな成功を収めた。 しかし、既存の不確実性推定手法では、単一の画像と対応する相違を入力とし、推定ネットワークにより高い要求を課す。 本稿では,コストボリュームに基づく不確実性推定(UEC)を提案する。 画像対から得られるコストボリュームの豊富な類似性情報に基づいて,提案したUCCは,計算コストの低い競合性能を実現することができる。 次に,不確実性に基づく不確実性評価,不確実性に基づく不確実性補正(UDR)と不確実性に基づく不確実性更新条件(UDC)の2つの手法を提案する。 これらの2つの方法は、余分なパラメータを加えることなく反復的アプローチの差分更新プロセスを最適化する。 さらに,小量の異方性更新の精度を著しく向上する異方性補正損失を提案する。 提案手法を組み合わせた高性能ステレオアーキテクチャDR Stereoを提案する。 SceneFlow、KITTI、Middlebury 2014、ETH3Dの実験結果は、DR-Stereoが非常に競争力のある異種推定性能を達成していることを示している。

Both uncertainty-assisted and iteration-based methods have achieved great success in stereo matching. However, existing uncertainty estimation methods take a single image and the corresponding disparity as input, which imposes higher demands on the estimation network. In this paper, we propose Cost volume-based disparity Uncertainty Estimation (UEC). Based on the rich similarity information in the cost volume coming from the image pairs, the proposed UEC can achieve competitive performance with low computational cost. Secondly, we propose two methods of uncertainty-assisted disparity estimation, Uncertainty-based Disparity Rectification (UDR) and Uncertainty-based Disparity update Conditioning (UDC). These two methods optimise the disparity update process of the iterative-based approach without adding extra parameters. In addition, we propose Disparity Rectification loss that significantly improves the accuracy of small amount of disparity updates. We present a high-performance stereo architecture, DR Stereo, which is a combination of the proposed methods. Experimental results from SceneFlow, KITTI, Middlebury 2014, and ETH3D show that DR-Stereo achieves very competitive disparity estimation performance.
翻訳日:2024-06-18 19:52:39 公開日:2024-06-16
# 旅行モード選択モデルへの不確実性定量化の導入:ベイズニューラルネットワーク(BNN)アプローチと不確実性誘導型アクティブサーベイフレームワーク

Incorporating uncertainty quantification into travel mode choice modeling: a Bayesian neural network (BNN) approach and an uncertainty-guided active survey framework ( http://arxiv.org/abs/2406.10948v1 )

ライセンス: Link先を確認
Shuwen Zheng, Zhou Fang, Liang Zhao, (参考訳) 旅行モード選択モデルのための既存のディープラーニングアプローチは、予測の不確実性についてモデリング者に知らせることができない。 高い予測の不確実性を意味するトレーニングデータの分布から外れたシナリオに直面しても、これらのアプローチは決定論的回答を提供し、誤認につながる可能性がある。 この制限に対処するために,説明可能な人工知能の分野から旅行モード選択モデルへの不確実性の概念を導入する。 本稿では,ベイズ型ニューラルネットワークを用いた旅行モード予測モデル(BTMP)を提案する。 BTMPでは,予測不確実性の高い旅行モード選択シナリオを表す質問を動的に定式化する,不確実性誘導型アクティブサーベイフレームワークも提案する。 これらの動的に調整された調査質問に対する反復的な回答収集を通じて、BTMPは、より少ない質問で所望の精度を迅速に達成し、調査コストを削減できるように反復的に訓練されている。 合成データセットを用いた実験的検証は,予測の不確実性の定量化におけるBTMPの有効性を確認する。 さらに、合成データと実世界データの両方を利用した実験により、BTMPモデルは不確実性誘導型アクティブサーベイフレームワークでトレーニングされ、ランダムに収集されたサーベイデータに基づいてトレーニングされたモデルの性能に適合するために、調査応答を20%から50%削減することを示した。 提案したBTMPモデルとアクティブサーベイフレームワークは,旅行モード選択モデルに不確かさの定量化を革新的に取り入れ,モデルユーザに対して予測信頼性に関する重要な洞察を提供するとともに,ディープラーニングモデルトレーニングのためのデータ収集をコスト効率よく最適化する。

Existing deep learning approaches for travel mode choice modeling fail to inform modelers about their prediction uncertainty. Even when facing scenarios that are out of the distribution of training data, which implies high prediction uncertainty, these approaches still provide deterministic answers, potentially leading to misguidance. To address this limitation, this study introduces the concept of uncertainty from the field of explainable artificial intelligence into travel mode choice modeling. We propose a Bayesian neural network-based travel mode prediction model (BTMP) that quantifies the uncertainty of travel mode predictions, enabling the model itself to "know" and "tell" what it doesn't know. With BTMP, we further propose an uncertainty-guided active survey framework, which dynamically formulates survey questions representing travel mode choice scenarios with high prediction uncertainty. Through iterative collection of responses to these dynamically tailored survey questions, BTMP is iteratively trained to achieve the desired accuracy faster with fewer questions, thereby reducing survey costs. Experimental validation using synthetic datasets confirms the effectiveness of BTMP in quantifying prediction uncertainty. Furthermore, experiments, utilizing both synthetic and real-world data, demonstrate that the BTMP model, trained with the uncertainty-guided active survey framework, requires 20% to 50% fewer survey responses to match the performance of the model trained on randomly collected survey data. Overall, the proposed BTMP model and active survey framework innovatively incorporate uncertainty quantification into travel mode choice modeling, providing model users with essential insights into prediction reliability while optimizing data collection for deep learning model training in a cost-efficient manner.
翻訳日:2024-06-18 19:52:39 公開日:2024-06-16
# E-Bench: 大規模言語モデルの使いやすさ評価に向けて

E-Bench: Towards Evaluating the Ease-of-Use of Large Language Models ( http://arxiv.org/abs/2406.10950v1 )

ライセンス: Link先を確認
Zhenyu Zhang, Bingguang Hao, Jinpeng Li, Zekai Zhang, Dongyan Zhao, (参考訳) ほとんどの大きな言語モデル(LLM)はプロンプトに敏感であり、別の同義語やタイプミスはモデルに対して予期せぬ結果をもたらす可能性がある。 特定の需要に対して最適なプロンプトを構成することは理論的支援に欠けており、人間の実験に完全に依存しているため、生成的人工知能の普及にかなりの障害が生じる。 しかし、現実のシナリオにおける急激な摂動に抵抗するLLMの安定性の体系的解析は存在しない。 本研究では, LLMの使いやすさを評価し, E-Benchを構築することを提案し, 同義語摂動(パラフレージング, 単純化, 口語主義など)とタイポグラフィ的摂動(タイピングなど)から人的使用の実態をシミュレーションした。 また, この2種類の摂動の組み合わせについて考察し, 性能劣化の主な原因を考察する。 実験の結果、モデルのサイズが大きくなるにつれて、使いやすさは大幅に改善されているものの、十分なユーザフレンドリーなモデルを構築するにはまだまだ長い道のりがあることがわかった。

Most large language models (LLMs) are sensitive to prompts, and another synonymous expression or a typo may lead to unexpected results for the model. Composing an optimal prompt for a specific demand lacks theoretical support and relies entirely on human experimentation, which poses a considerable obstacle to popularizing generative artificial intelligence. However, there is no systematic analysis of the stability of LLMs in resisting prompt perturbations in real-world scenarios. In this work, we propose to evaluate the ease-of-use of LLMs and construct E-Bench, simulating the actual situation of human use from synonymous perturbation (including paraphrasing, simplification, and colloquialism) and typographical perturbation (such as typing). On this basis, we also discuss the combination of these two types of perturbation and analyze the main reasons for performance degradation. Experimental results indicate that with the increase of model size, although the ease-of-use are significantly improved, there is still a long way to go to build a sufficiently user-friendly model.
翻訳日:2024-06-18 19:52:39 公開日:2024-06-16
# あまり忘れるな - 機能レベルでの機械学習を目指して

Don't Forget Too Much: Towards Machine Unlearning on Feature Level ( http://arxiv.org/abs/2406.10951v1 )

ライセンス: Link先を確認
Heng Xu, Tianqing Zhu, Wanlei Zhou, Wei Zhao, (参考訳) 機械学習により、事前訓練されたモデルは、トレーニングデータの特定の部分の影響を取り除くことができる。 以前の機械学習スキームは、主に特定のクラスに属するインスタンスやすべてのインスタンスのクラスタをアンラーニングすることに焦点を当てていた。 これらのタイプのアンラーニングは、モデルユーティリティに大きな影響を与える可能性がある。インスタンス全体ではなく、インスタンス内でのみ機能を引き出す必要がある状況では不十分である。 粒度の異なるため、現在のアンラーニング手法では特徴レベルのアンラーニングをほとんど達成できない。 実用性と粒度の課題に対処するため,我々は「機能的未学習」と呼ばれる洗練された粒度未学習スキームを提案する。 まず、その機能に関するアノテーション情報が与えられるかどうかに基づいて、2つの異なるシナリオを探索する。 既知のアノテーションを用いたアンラーニングでは,特徴に対する影響を自動的に除去する逆学習手法を提案する。 アノテーションなしでの学習では、まず1つのモデルのレイヤーの出力がモデル解釈可能性技術を使って異なるパターンの特徴を識別できるようにします。 私たちはこれらのアウトプットに基づいてインスタンスから機能をフィルタリングし、識別します。 そのため、フィルタリングされたインスタンスと微調整プロセスに基づいて、機能の影響を取り除くことができます。 提案手法の有効性は,様々なシナリオにおける多様なデータセット上での多様なモデルを含む実験によって実証される。

Machine unlearning enables pre-trained models to remove the effect of certain portions of training data. Previous machine unlearning schemes have mainly focused on unlearning a cluster of instances or all instances belonging to a specific class. These types of unlearning might have a significant impact on the model utility; and they may be inadequate for situations where we only need to unlearn features within instances, rather than the whole instances. Due to the different granularity, current unlearning methods can hardly achieve feature-level unlearning. To address the challenges of utility and granularity, we propose a refined granularity unlearning scheme referred to as ``feature unlearning". We first explore two distinct scenarios based on whether the annotation information about the features is given: feature unlearning with known annotations and feature unlearning without annotations. Regarding unlearning with known annotations, we propose an adversarial learning approach to automatically remove effects about features. For unlearning without annotations, we initially enable the output of one model's layer to identify different pattern features using model interpretability techniques. We proceed to filter features from instances based on these outputs with identifying ability. So that we can remove the feature impact based on filtered instances and the fine-tuning process. The effectiveness of our proposed approach is demonstrated through experiments involving diverse models on various datasets in different scenarios.
翻訳日:2024-06-18 19:52:39 公開日:2024-06-16
# 機械学習による著作権侵害の回避

Avoiding Copyright Infringement via Machine Unlearning ( http://arxiv.org/abs/2406.10952v1 )

ライセンス: Link先を確認
Guangyao Dou, Zheyuan Liu, Qing Lyu, Kaize Ding, Eric Wong, (参考訳) 事前訓練されたLarge Language Models (LLMs) は目覚ましい能力を示したが、著作権のある資料の学習と生成によるリスクも生じており、法的、倫理的懸念を招いている。 これらの問題に対処するためには、モデル所有者が様々な時間ステップで著作権付きコンテンツを公開できることが不可欠である。 著作権付きコンテンツを複数のステップで削除する、シーケンシャルなアンラーニングの設定について検討する。 この課題に対処するために,タスクベクトルを用いてLLMから著作権付きコンテンツを削除し,さらにランダムなラベリング損失を付加し,勾配に基づく重み度マッピングを適用して,より安定したプロセスを実現するための,新しいLLMの非学習フレームワークであるSSUを提案する。 実験により、SSUは、未学習の有効性と、既存のベースラインと比較してモデルの一般的な知識の維持との間に良いバランスがあることが示されている。

Pre-trained Large Language Models (LLMs) have demonstrated remarkable capabilities but also pose risks by learning and generating copyrighted material, leading to significant legal and ethical concerns. To address these issues, it is critical for model owners to be able to unlearn copyrighted content at various time steps. We explore the setting of sequential unlearning, where copyrighted content is removed over multiple time steps - a scenario that has not been rigorously addressed. To tackle this challenge, we propose Stable Sequential Unlearning (SSU), a novel unlearning framework for LLMs, designed to have a more stable process to remove copyrighted content from LLMs throughout different time steps using task vectors, by incorporating additional random labeling loss and applying gradient-based weight saliency mapping. Experiments demonstrate that SSU finds a good balance between unlearning efficacy and maintaining the model's general knowledge compared to existing baselines.
翻訳日:2024-06-18 19:52:39 公開日:2024-06-16
# 真に学べない? インフルエンシアル・サンプル・ペアによる機械学習の検証

Really Unlearned? Verifying Machine Unlearning via Influential Sample Pairs ( http://arxiv.org/abs/2406.10953v1 )

ライセンス: Link先を確認
Heng Xu, Tianqing Zhu, Lefeng Zhang, Wanlei Zhou, (参考訳) マシンアンラーニングにより、事前訓練されたモデルは、部分的なトレーニングサンプルの影響を排除することができる。 従来の研究は主に効率的なアンラーニング戦略の提案に重点を置いてきた。 しかし、機械学習の検証、あるいは言い換えれば、サンプルが未学習に成功していることをどうやって保証するかは、長い間見過ごされてきた。 既存の検証スキームは一般的に、バックドアやメンバーシップ推論攻撃のような機械学習攻撃技術に依存している。 これらのテクニックは、公式には検証のために設計されていないため、信頼できないMLaaSが、実際の未学習を実行するのではなく、単に検証条件を満たすために迅速に微調整を行う場合、容易にバイパスされる。 本稿では,非学習要求が実行されたかどうかを判定する形式的検証手法であるIndirectVerifyを提案する。 反応試料として, 反応試料として, 反応試料として, および反応試料として設計する。 ユーザは、トリガーサンプルに関する未学習リクエストを送信し、反応サンプルを使用して、未学習操作が成功したかどうかを確認する。 そこで我々は,これらの影響のあるサンプルペアを生成するための摂動に基づくスキームを提案する。 目的は、少量のトリガーサンプルだけを摂動させることであり、反応サンプルの再分類に繋がる。 この間接的な影響は、我々の検証目的に利用されます。 すべてのプロセスで同じサンプルを使用する既存のスキームとは対照的に、我々のスキームであるIndirectVerifyは、強化されたロバスト性を提供し、プロセスをバイパスする可能性を減らす。

Machine unlearning enables pre-trained models to eliminate the effects of partial training samples. Previous research has mainly focused on proposing efficient unlearning strategies. However, the verification of machine unlearning, or in other words, how to guarantee that a sample has been successfully unlearned, has been overlooked for a long time. Existing verification schemes typically rely on machine learning attack techniques, such as backdoor or membership inference attacks. As these techniques are not formally designed for verification, they are easily bypassed when an untrustworthy MLaaS undergoes rapid fine-tuning to merely meet the verification conditions, rather than executing real unlearning. In this paper, we propose a formal verification scheme, IndirectVerify, to determine whether unlearning requests have been successfully executed. We design influential sample pairs: one referred to as trigger samples and the other as reaction samples. Users send unlearning requests regarding trigger samples and use reaction samples to verify if the unlearning operation has been successfully carried out. We propose a perturbation-based scheme to generate those influential sample pairs. The objective is to perturb only a small fraction of trigger samples, leading to the reclassification of reaction samples. This indirect influence will be used for our verification purposes. In contrast to existing schemes that employ the same samples for all processes, our scheme, IndirectVerify, provides enhanced robustness, making it less susceptible to bypassing processes.
翻訳日:2024-06-18 19:52:39 公開日:2024-06-16
# 基本グラフに基づく効率的な目標レベル学習に向けて

Towards Efficient Target-Level Machine Unlearning Based on Essential Graph ( http://arxiv.org/abs/2406.10954v1 )

ライセンス: Link先を確認
Heng Xu, Tianqing Zhu, Lefeng Zhang, Wanlei Zhou, Wei Zhao, (参考訳) 機械学習は新興技術であり、広く注目を集めている。 規制や法律、プライバシ、ユーザビリティに関する懸念など、多くの要因が、トレーニングされたモデルがトレーニングデータのいくつかを忘れることを可能にしている。 機械学習の既存の研究は、主に1つのクラスからインスタンスのクラスタやすべてのインスタンスを忘れる未学習の要求に焦点を当てている。 これらのアプローチはインスタンスを削除するのに有効だが、インスタンス内の部分的なターゲットを忘れる必要のあるシナリオにスケールしない。 例えば、人と他のターゲットを同時に含むすべてのインスタンスから、人を解放したい場合があります。 インスタンスレベルのアンラーニングを直接ターゲットレベルのアンラーニングに移行することで、未学習プロセス後のモデルの性能が低下する。 これらの問題に対処するため、我々はモデルから部分的なターゲットを取り除くことに焦点を当てた、より効率的で効率的な未学習スキームを提案してきた。 具体的には,モデル説明法に基づいて選択された重要なパラメータ間の関係を記述するために,まず本質的なグラフデータ構造を構築する。 その後、残りのターゲットにも重要なパラメータを同時にフィルタリングし、プルーニングベースのアンラーニング手法を用いる。 様々なデータセット上で異なるトレーニングモデルを用いた実験は、提案手法の有効性を示す。

Machine unlearning is an emerging technology that has come to attract widespread attention. A number of factors, including regulations and laws, privacy, and usability concerns, have resulted in this need to allow a trained model to forget some of its training data. Existing studies of machine unlearning mainly focus on unlearning requests that forget a cluster of instances or all instances from one class. While these approaches are effective in removing instances, they do not scale to scenarios where partial targets within an instance need to be forgotten. For example, one would like to only unlearn a person from all instances that simultaneously contain the person and other targets. Directly migrating instance-level unlearning to target-level unlearning will reduce the performance of the model after the unlearning process, or fail to erase information completely. To address these concerns, we have proposed a more effective and efficient unlearning scheme that focuses on removing partial targets from the model, which we name "target unlearning". Specifically, we first construct an essential graph data structure to describe the relationships between all important parameters that are selected based on the model explanation method. After that, we simultaneously filter parameters that are also important for the remaining targets and use the pruning-based unlearning method, which is a simple but effective solution to remove information about the target that needs to be forgotten. Experiments with different training models on various datasets demonstrate the effectiveness of the proposed approach.
翻訳日:2024-06-18 19:52:39 公開日:2024-06-16
# 大規模無線スピーカ検証のためのロバストチャネル学習

Robust Channel Learning for Large-Scale Radio Speaker Verification ( http://arxiv.org/abs/2406.10956v1 )

ライセンス: Link先を確認
Wenhao Yang, Jianguo Wei, Wenhuan Lu, Lei Li, Xugang Lu, (参考訳) 話者検証の最近の研究は、難易度の高いチャネル条件と雑音環境下での堅牢で信頼性の高い認識の実現に重点を置いている。 無線通信における話者識別は、帯域制限や広帯域ノイズ干渉といった固有の制限のため、特に困難である。 この問題に対処するため,Channel Robust Speaker Learning (CRSL) フレームワークを提案する。このフレームワークは,データソース,データ拡張,モデル転送プロセスの効率を考慮した,現在の話者検証パイプラインの堅牢性を高める。 本フレームワークでは、トレーニング入力の帯域幅を操作することで、無線音声データセットの帯域幅変動を緩和する拡張モジュールを導入する。 また、多様体空間内にノイズを導入することで未知のノイズにも対処する。 さらに,大規模なトレーニング時間と大量のデータの必要性を低減し,効率的な微調整手法を提案する。 さらに,大規模無線音声コーパスを組み立てるツールキットを開発し,無線シナリオ話者検証研究に適したベンチマークを確立する。 実験により,提案手法は,話者検証作業における無線送信による劣化を効果的に改善し,軽減することを示す。 コードはGithubで入手できる。

Recent research in speaker verification has increasingly focused on achieving robust and reliable recognition under challenging channel conditions and noisy environments. Identifying speakers in radio communications is particularly difficult due to inherent limitations such as constrained bandwidth and pervasive noise interference. To address this issue, we present a Channel Robust Speaker Learning (CRSL) framework that enhances the robustness of the current speaker verification pipeline, considering data source, data augmentation, and the efficiency of model transfer processes. Our framework introduces an augmentation module that mitigates bandwidth variations in radio speech datasets by manipulating the bandwidth of training inputs. It also addresses unknown noise by introducing noise within the manifold space. Additionally, we propose an efficient fine-tuning method that reduces the need for extensive additional training time and large amounts of data. Moreover, we develop a toolkit for assembling a large-scale radio speech corpus and establish a benchmark specifically tailored for radio scenario speaker verification studies. Experimental results demonstrate that our proposed methodology effectively enhances performance and mitigates degradation caused by radio transmission in speaker verification tasks. The code will be available on Github.
翻訳日:2024-06-18 19:52:39 公開日:2024-06-16
# ダウンサンプリングKLダイバージェンスによる直接選好最適化のバイアス長依存性の除去

Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence ( http://arxiv.org/abs/2406.10957v1 )

ライセンス: Link先を確認
Junru Lu, Jiazheng Li, Siyu An, Meng Zhao, Yulan He, Di Yin, Xing Sun, (参考訳) 直接選好最適化(DPO)は、大規模言語モデル(LLM)と人間の嗜好を直接的かつ堅牢にアライメントするための顕著なアルゴリズムとして登場し、複雑な強化学習(RLHF)の代替となる。 有望な有効性にもかかわらず、DPOは顕著な欠点に直面している。 過去の研究は、主にデータ内のバイアス付きラベルによる冗長性に起因していたが、この問題はDPOに固有のアルゴリズム長依存にも起因していると提案する。 具体的には、DPOで使用される選択されたシーケンスと拒否されたシーケンス間のシーケンスレベルのKullback-Leibler(KL)の相違が、トークン長の変化による過大評価または過小評価の報奨をもたらすことを示唆する。 実験では,ラベルの長さの異なるデータセットを用いて,偏りのある報酬の存在を実証する。 次に、SamPOと呼ばれる効果的なダウンサンプリング手法を導入し、潜在的長さ依存を排除した。 評価実験では,DPOよりも5%から12%の改善が達成され,条件付きおよびオープンなベンチマークが多岐にわたって実施され,冗長性を緩和するSamPOの有効性が示された。 私たちのコードは、https://github.com/LuJunru/SamPO/.comでアクセスできます。

Direct Preference Optimization (DPO) has emerged as a prominent algorithm for the direct and robust alignment of Large Language Models (LLMs) with human preferences, offering a more straightforward alternative to the complex Reinforcement Learning from Human Feedback (RLHF). Despite its promising efficacy, DPO faces a notable drawback: "verbosity", a common over-optimization phenomenon also observed in RLHF. While previous studies mainly attributed verbosity to biased labels within the data, we propose that the issue also stems from an inherent algorithmic length reliance in DPO. Specifically, we suggest that the discrepancy between sequence-level Kullback-Leibler (KL) divergences between chosen and rejected sequences, used in DPO, results in overestimated or underestimated rewards due to varying token lengths. Empirically, we utilize datasets with different label lengths to demonstrate the presence of biased rewards. We then introduce an effective downsampling approach, named SamPO, to eliminate potential length reliance. Our experimental evaluations, conducted across three LLMs of varying scales and a diverse array of conditional and open-ended benchmarks, highlight the efficacy of SamPO in mitigating verbosity, achieving improvements of 5% to 12% over DPO through debaised rewards. Our codes can be accessed at: https://github.com/LuJunru/SamPO/.
翻訳日:2024-06-18 19:52:39 公開日:2024-06-16
# City-LEO: エンド・ツー・エンド最適化 LLM を用いた透明都市管理に向けて

City-LEO: Toward Transparent City Management Using LLM with End-to-End Optimization ( http://arxiv.org/abs/2406.10958v1 )

ライセンス: Link先を確認
Zihao Jiao, Mengyi Sha, Haoyu Zhang, Xinyu Jiang, (参考訳) 既存のオペレーション研究(OR)モデルとツールは、スマートシティオペレーションにおいて欠かせない役割を担っているが、その実践は、モデリングの複雑さと最適化能力の欠陥によって制限されている。 ユーザの要求に対するより関連性が高く正確なソリューションを生成するために,対話型対話による都市管理の効率化と透明性を高める大規模言語モデル(LLM)ベースのエージェント("City-LEO")を提案する。 具体的には、多様なユーザの要求を満たし、計算的トラクタビリティを向上させるために、City-LEOはLLMの論理的推論能力を活用し、大規模最適化問題を効率的に解決する。 ヒューマンライクな意思決定プロセスでは、City-LEOは予測と最適化を相乗化するためにエンド・ツー・エンド(E2E)モデルも組み込んでいる。 E2Eフレームワークは、環境の不確実性に対処し、よりクエリに関連する特徴に対処し、透過的で解釈可能な意思決定プロセスを促進する。 事例スタディでは,e-bike Share (EBS) システムの運用管理にCity-LEOを採用している。 計算結果から,City-LEOは実規模最適化問題に対するベンチマークにおいて優れた性能を示す。 計算時間が少なくなると、City-LEOはユーザの要求に対する満足度が高く、関連するソリューションを生成し、精度を著しく損なうことなく、世界全体の準最適度を低くする。 より広義に,我々の提案するエージェントは,スマートシティ運用管理のためのLDM組み込みORツールを開発することを約束する。

Existing operations research (OR) models and tools play indispensable roles in smart-city operations, yet their practical implementation is limited by the complexity of modeling and deficiencies in optimization proficiency. To generate more relevant and accurate solutions to users' requirements, we propose a large language model (LLM)-based agent ("City-LEO") that enhances the efficiency and transparency of city management through conversational interactions. Specifically, to accommodate diverse users' requirements and enhance computational tractability, City-LEO leverages LLM's logical reasoning capabilities on prior knowledge to scope down large-scale optimization problems efficiently. In the human-like decision process, City-LEO also incorporates End-to-end (E2E) model to synergize the prediction and optimization. The E2E framework be conducive to coping with environmental uncertainties and involving more query-relevant features, and then facilitates transparent and interpretable decision-making process. In case study, we employ City-LEO in the operations management of e-bike sharing (EBS) system. The numerical results demonstrate that City-LEO has superior performance when benchmarks against the full-scale optimization problem. With less computational time, City-LEO generates more satisfactory and relevant solutions to the users' requirements, and achieves lower global suboptimality without significantly compromising accuracy. In a broader sense, our proposed agent offers promise to develop LLM-embedded OR tools for smart-city operations management.
翻訳日:2024-06-18 19:52:39 公開日:2024-06-16
# 政策改善アルゴリズムの収束率と収束率について

On Convergence and Rate of Convergence of Policy Improvement Algorithms ( http://arxiv.org/abs/2406.10959v1 )

ライセンス: Link先を確認
Jin Ma, Gaozhan Wang, Jianfeng Zhang, (参考訳) 本稿では、連続時間エントロピー規則化確率制御問題に対するポリシー改善アルゴリズム(PIA)の収束をスクラッチから簡易に証明する。 そのような収束は、PIA に関わる反復 PDE に対する洗練された PDE 推定を用いて、Huang-Wang-Zhou (2023) によって確立されている。 提案手法はPDEとその微分の解に対するFeynman-Kac型確率表現式に基づいている。 さらに、大きな割引係数を持つ無限地平線モデルと有限地平線モデルでは、同様の議論を伴う収束の指数率を得る。

In this paper, we provide a simple proof from scratch for the convergence of the Policy Improvement Algorithm(PIA) for a continuous time entropy-regularized stochastic control problem. Such convergence has been established by Huang-Wang-Zhou(2023) by using sophisticated PDE estimates for the iterative PDEs involved in the PIA. Our approach builds on some Feynman-Kac type probabilistic representation formulae for solutions of PDEs and their derivatives. Moreover, in the infinite horizon model with a large discount factor and in the finite horizon model, we obtain the exponential rate of convergence with similar arguments.
翻訳日:2024-06-18 19:52:39 公開日:2024-06-16
# ESCoT:解釈可能な感情支援対話システムを目指して

ESCoT: Towards Interpretable Emotional Support Dialogue Systems ( http://arxiv.org/abs/2406.10960v1 )

ライセンス: Link先を確認
Tenggan Zhang, Xinjie Zhang, Jinming Zhao, Li Zhou, Qin Jin, (参考訳) 情緒的サポート応答の理由を理解することは,ユーザと感情的サポート対話システムとのつながりを確立する上で重要である。 これまでの研究は主に、より良い応答を生成することに重点を置いていたが、信頼性の高い対話システムを構築する上で非常に重要である解釈可能性を無視している。 より解釈しやすいシステムを実現するために、$\textbf{E}$motion-Focusedおよび$\textbf{S}$trategy-Driven $\textbf{C}$hain-$\textbf{o}$f-$\textbf{T}$hought ($\textbf{ESCoT}$, $\textit{identifying}$, $\textit{understanding}$, $\textit{regulating}$ emotionsという感情支援応答生成スキームを提案する。 具体的には,(1)$\textit{Dialogue Generation}$,(2)$\textit{Chain Supplement}$,(2)$\textit{Chain Supplement}$,(2)選択した対話を感情,刺激,評価,戦略的理由などの要素で補足することに集中し,手作業で整列された連鎖を形成する。 さらに,より優れた解釈性を持つ対話応答を生成するモデルも開発している。 また,提案したESCoTの有効性と,生成した対話応答を評価するために,広範囲な実験と人的評価を行った。 私たちのデータとコードは、$\href{https://github.com/TeigenZhang/ESCoT}{https://github.com/TeigenZhang/ESCoT}$で利用可能です。

Understanding the reason for emotional support response is crucial for establishing connections between users and emotional support dialogue systems. Previous works mostly focus on generating better responses but ignore interpretability, which is extremely important for constructing reliable dialogue systems. To empower the system with better interpretability, we propose an emotional support response generation scheme, named $\textbf{E}$motion-Focused and $\textbf{S}$trategy-Driven $\textbf{C}$hain-$\textbf{o}$f-$\textbf{T}$hought ($\textbf{ESCoT}$), mimicking the process of $\textit{identifying}$, $\textit{understanding}$, and $\textit{regulating}$ emotions. Specially, we construct a new dataset with ESCoT in two steps: (1) $\textit{Dialogue Generation}$ where we first generate diverse conversation situations, then enhance dialogue generation using richer emotional support strategies based on these situations; (2) $\textit{Chain Supplement}$ where we focus on supplementing selected dialogues with elements such as emotion, stimuli, appraisal, and strategy reason, forming the manually verified chains. Additionally, we further develop a model to generate dialogue responses with better interpretability. We also conduct extensive experiments and human evaluations to validate the effectiveness of the proposed ESCoT and generated dialogue responses. Our data and code are available at $\href{https://github.com/TeigenZhang/ESCoT}{https://github.com/TeigenZhang/ESCoT}$.
翻訳日:2024-06-18 19:52:39 公開日:2024-06-16
# 細調整CLIPによるオープンボキャブラリX線禁止項目検出

Open-Vocabulary X-ray Prohibited Item Detection via Fine-tuning CLIP ( http://arxiv.org/abs/2406.10961v1 )

ライセンス: Link先を確認
Shuyang Lin, Tong Jia, Hao Wang, Bowen Ma, Mingyuan Li, Dongyue Chen, (参考訳) X線禁止項目検出は、セキュリティチェックの不可欠な要素であり、最新の法律に従って、禁止項目のカテゴリが継続的に増加している。 トレーニングに使用される既知のカテゴリのみを認識でき、新しいカテゴリを学ぶ際に労働集約的なアノテーションを必要とせず、結果として現実世界のアプリケーションに限られる。 視覚言語モデル(例えばCLIP)の成功は、オープンセットのX線禁止アイテム検出のための新しい視点を提供するが、CLIPを直接X線領域に適用すると、X線データとCLIPの事前トレーニングに使用される一般的なデータとのドメインシフトによって、パフォーマンスが大幅に低下する。 上記の課題に対処するため、本論文では、CLIPを拡張して特定のX線領域における視覚的表現を学習することにより、蒸留に基づくオープンボキャブラリオブジェクト検出(OVOD)タスクをX線セキュリティ検査領域に導入する。 具体的には、OVXDモデルを開発するために、X線機能アダプタを提案し、OVODフレームワーク内のCLIPに適用する。 ボトルネックアーキテクチャの3つのアダプタサブモジュールを含むX線機能アダプタは、単純だが、X線領域の新しい知識を元の知識と効率的に統合し、さらに領域ギャップを橋渡しし、X線画像とテキスト概念のアライメントを促進することができる。 PIXray と PIDray のデータセットを用いた大規模な実験により,提案手法は,X線シナリオにおける新しいカテゴリの検出において,他のベースライン OVOD 法に対して良好に動作することを示した。 PIXrayでは15.2 AP50、PIDrayでは1.5 AP50、それぞれ21.0 AP50と27.8 AP50を上回っている。

X-ray prohibited item detection is an essential component of security check and categories of prohibited item are continuously increasing in accordance with the latest laws. Previous works all focus on close-set scenarios, which can only recognize known categories used for training and often require time-consuming as well as labor-intensive annotations when learning novel categories, resulting in limited real-world applications. Although the success of vision-language models (e.g. CLIP) provides a new perspectives for open-set X-ray prohibited item detection, directly applying CLIP to X-ray domain leads to a sharp performance drop due to domain shift between X-ray data and general data used for pre-training CLIP. To address aforementioned challenges, in this paper, we introduce distillation-based open-vocabulary object detection (OVOD) task into X-ray security inspection domain by extending CLIP to learn visual representations in our specific X-ray domain, aiming to detect novel prohibited item categories beyond base categories on which the detector is trained. Specifically, we propose X-ray feature adapter and apply it to CLIP within OVOD framework to develop OVXD model. X-ray feature adapter containing three adapter submodules of bottleneck architecture, which is simple but can efficiently integrate new knowledge of X-ray domain with original knowledge, further bridge domain gap and promote alignment between X-ray images and textual concepts. Extensive experiments conducted on PIXray and PIDray datasets demonstrate that proposed method performs favorably against other baseline OVOD methods in detecting novel categories in X-ray scenario. It outperforms previous best result by 15.2 AP50 and 1.5 AP50 on PIXray and PIDray with achieving 21.0 AP50 and 27.8 AP50 respectively.
翻訳日:2024-06-18 19:42:48 公開日:2024-06-16
# SynthTree: 説明可能な予測のための共監督型局所モデル合成

SynthTree: Co-supervised Local Model Synthesis for Explainable Prediction ( http://arxiv.org/abs/2406.10962v1 )

ライセンス: Link先を確認
Evgenii Kuriabov, Jia Li, (参考訳) 人工知能(AI)において、説明可能な機械学習(XML)が大きな課題となっている。 Deep Neural NetworksやGradient Boostingのようなブラックボックスモデルは、しばしば例外的な予測精度を示すが、その解釈可能性の欠如は、特に透明性と信頼を必要とする領域において顕著な欠点である。 本稿では,ブラックボックスモデルと組み合わせて推定した線形モデル混合モデル(MLM)を用いて,最小精度の損失で説明可能性を向上させる新しい手法を提案する。 我々は,AI技術を活用してMLMを推定する新しい手法を開発した。 具体的には,集合的クラスタリングと決定木という,入力空間を分割する2つのアプローチについて検討する。 集合的クラスタリングアプローチはモデル構築の柔軟性を高める一方、決定木アプローチはさらに説明可能性を高め、葉ノードに線形またはロジスティック回帰モデルを持つ決定木モデルを生成する。 提案手法の有効性を実証するために, 広く用いられている, 最先端の予測モデルとの比較分析を行った。 実験結果から、統計モデルはAIの説明可能性を大幅に向上させ、現実世界の応用の可能性を広げることができることが示された。 我々の研究は、統計的方法論が説明可能なAIを前進させる上で重要な役割を担っている。

Explainable machine learning (XML) has emerged as a major challenge in artificial intelligence (AI). Although black-box models such as Deep Neural Networks and Gradient Boosting often exhibit exceptional predictive accuracy, their lack of interpretability is a notable drawback, particularly in domains requiring transparency and trust. This paper tackles this core AI problem by proposing a novel method to enhance explainability with minimal accuracy loss, using a Mixture of Linear Models (MLM) estimated under the co-supervision of black-box models. We have developed novel methods for estimating MLM by leveraging AI techniques. Specifically, we explore two approaches for partitioning the input space: agglomerative clustering and decision trees. The agglomerative clustering approach provides greater flexibility in model construction, while the decision tree approach further enhances explainability, yielding a decision tree model with linear or logistic regression models at its leaf nodes. Comparative analyses with widely-used and state-of-the-art predictive models demonstrate the effectiveness of our proposed methods. Experimental results show that statistical models can significantly enhance the explainability of AI, thereby broadening their potential for real-world applications. Our findings highlight the critical role that statistical methodologies can play in advancing explainable AI.
翻訳日:2024-06-18 19:42:48 公開日:2024-06-16
# オントロジー埋め込み:方法論・応用・資源の調査

Ontology Embedding: A Survey of Methods, Applications and Resources ( http://arxiv.org/abs/2406.10964v1 )

ライセンス: Link先を確認
Jiaoyan Chen, Olga Mashkova, Fernando Zhapa-Camacho, Robert Hoehndorf, Yuan He, Ian Horrocks, (参考訳) オントロジはドメインの知識とメタデータを表現するために広く使われており、情報システム、セマンティックウェブ、バイオインフォマティクス、その他多くのドメインにおいてますます重要な役割を担っている。 しかし、オントロジが直接サポートできるという論理的推論は、学習、近似、予測において非常に限られている。 1つの簡単な解決策は、統計分析と機械学習を統合することである。 この目的のために、オントロジーの知識のためのベクトル表現を自動的に学習する、すなわち、オントロジーの埋め込みは近年広く研究されている。 オントロジーの埋め込みに関する多くの論文が出版されているが、体系的なレビューの欠如により、研究者はこの分野の包括的な理解を妨げている。 このギャップを埋めるために、我々はまず、オントロジーの異なる意味論を導入し、数学と機械学習の両方の観点から、オントロジーを正式に定義する。 これに基づいて、80以上の論文の比較的完全な集合を体系的に分類し分析し、それらが目指すオントロジーとセマンティクスと、幾何学的モデリング、シーケンスモデリング、グラフの伝播を含む彼らの技術的な解決策に従っている。 本調査では,オントロジーのオントロジー工学,機械学習,生命科学への組み込み,新たなライブラリmOWLの提示,課題と今後の方向性についても紹介する。

Ontologies are widely used for representing domain knowledge and meta data, playing an increasingly important role in Information Systems, the Semantic Web, Bioinformatics and many other domains. However, logical reasoning that ontologies can directly support are quite limited in learning, approximation and prediction. One straightforward solution is to integrate statistical analysis and machine learning. To this end, automatically learning vector representation for knowledge of an ontology i.e., ontology embedding has been widely investigated in recent years. Numerous papers have been published on ontology embedding, but a lack of systematic reviews hinders researchers from gaining a comprehensive understanding of this field. To bridge this gap, we write this survey paper, which first introduces different kinds of semantics of ontologies, and formally defines ontology embedding from the perspectives of both mathematics and machine learning, as well as its property of faithfulness. Based on this, it systematically categorises and analyses a relatively complete set of over 80 papers, according to the ontologies and semantics that they aim at, and their technical solutions including geometric modeling, sequence modeling and graph propagation. This survey also introduces the applications of ontology embedding in ontology engineering, machine learning augmentation and life sciences, presents a new library mOWL, and discusses the challenges and future directions.
翻訳日:2024-06-18 19:42:48 公開日:2024-06-16
# DocNet:誘導バイアス検出モデルにおける意味構造

DocNet: Semantic Structure in Inductive Bias Detection Models ( http://arxiv.org/abs/2406.10965v1 )

ライセンス: Link先を確認
Jessica Zhu, Iain Cruickshank, Michel Cukier, (参考訳) 人々が意見を持ってさえいれば、ニュースには偏見があるだろう。 しかし、ソーシャルメディアがニュースの第一の入り口となり、パルチザンのギャップが増大するにつれ、市民に偏見を識別できることがますます重要になっている。 消費しているニュースが偏っていることを知っていれば、エコーチャンバーの偏光を避けるために行動を起こすことができる。 本稿では,文書におけるバイアス検出の見過ごされがちな側面として,ニュース記事の意味的構造について考察する。 本稿では,大規模言語モデルより優れた文書埋め込みとバイアス検出モデルであるDocNetを提案する。 また、文書レベルのグラフ埋め込みに代表される、対立するパルチザン側からのニュース記事のセマンティック構造が顕著に類似していることも示している。 これらの結果は,低リソース環境におけるバイアス検出の進展に有効である。 私たちのコードとデータはhttps://github.com/nlpresearchanon.comで公開されています。

News will have biases so long as people have opinions. However, as social media becomes the primary entry point for news and partisan gaps increase, it is increasingly important for informed citizens to be able to identify bias. People will be able to take action to avoid polarizing echo chambers if they know how the news they are consuming is biased. In this paper, we explore an often overlooked aspect of bias detection in documents: the semantic structure of news articles. We present DocNet, a novel, inductive, and low-resource document embedding and bias detection model that outperforms large language models. We also demonstrate that the semantic structure of news articles from opposing partisan sides, as represented in document-level graph embeddings, have significant similarities. These results can be used to advance bias detection in low-resource environments. Our code and data are made available at https://github.com/nlpresearchanon.
翻訳日:2024-06-18 19:42:48 公開日:2024-06-16
# ExPLoRA: ドメインシフト下でのビジョン変換器適応のためのパラメータ効率の良い拡張事前学習

ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts ( http://arxiv.org/abs/2406.10973v1 )

ライセンス: Link先を確認
Samar Khanna, Medhanie Irgau, David B. Lobell, Stefano Ermon, (参考訳) 低ランク適応(LoRA)のようなパラメータ効率のよい微調整(PEFT)技術は、初期のトレーニング可能な重量のごく一部(0.1%-10%)しか使用せずに、大規模なトレーニング済み基礎モデルを下流タスクに効果的に適応させることができる。 PEFTの未調査の疑問は、事前学習段階を教師付きラベルなしで拡張することである。つまり、この新しいドメインの効率的な自己指導型事前学習を通じて、事前学習された基礎モデルを新しいドメインに適応できるのか? 本研究では,事前学習された視覚変換器(ViT)のドメインシフト下での伝達学習を改善するために,ExPLoRAを提案する。 DinoV2やMAEのような大きな自然画像データセット上で、トレーニング済みの重量でViTを初期化すると、ExPLoRAは新しいドメイン上で教師なしの事前トレーニングの目標を継続する。 この拡張事前トレーニングフェーズでは、ExPLoRAは1-2の事前トレーニングされたViTブロックとすべての正規化レイヤのみを凍結し、LoRAで他のすべてのレイヤをチューニングする。 最後に、教師あり学習のための新しいドメイン上でLoRAでのみ生成されたモデルを微調整する。 我々の実験は、衛星画像の最先端の成果を実証し、完全な事前学習や微調整のViTよりも優れています。 また、DinoV2トレーニング目標を用いて、従来完全に調整された最先端技術アプローチで使用されていたパラメータの10%を使用しながら、下流タスクにおける線形探索トップ1精度を最大7%向上することを示した。 我々のアブレーション研究は、PEFTを含む他のベースラインに対するアプローチの有効性を確認し、単にトランスフォーマーブロックを解凍するだけである。

Parameter-efficient fine-tuning (PEFT) techniques such as low-rank adaptation (LoRA) can effectively adapt large pre-trained foundation models to downstream tasks using only a small fraction (0.1%-10%) of the original trainable weights. An under-explored question of PEFT is in extending the pre-training phase without supervised labels; that is, can we adapt a pre-trained foundation model to a new domain via efficient self-supervised pre-training on this new domain? In this work, we introduce ExPLoRA, a highly effective technique to improve transfer learning of pre-trained vision transformers (ViTs) under domain shifts. Initializing a ViT with pre-trained weights on large, natural-image datasets such as from DinoV2 or MAE, ExPLoRA continues the unsupervised pre-training objective on a new domain. In this extended pre-training phase, ExPLoRA only unfreezes 1-2 pre-trained ViT blocks and all normalization layers, and then tunes all other layers with LoRA. Finally, we fine-tune the resulting model only with LoRA on this new domain for supervised learning. Our experiments demonstrate state-of-the-art results on satellite imagery, even outperforming fully pre-training and fine-tuning ViTs. Using the DinoV2 training objective, we demonstrate up to 7% improvement in linear probing top-1 accuracy on downstream tasks while using <10% of the number of parameters that are used in prior fully-tuned state-of-the art approaches. Our ablation studies confirm the efficacy of our approach over other baselines, including PEFT and simply unfreezing more transformer blocks.
翻訳日:2024-06-18 19:42:48 公開日:2024-06-16
# NLPによる法的調停支援に向けて: 必要なデータはすべて必要か?

Towards Supporting Legal Argumentation with NLP: Is More Data Really All You Need? ( http://arxiv.org/abs/2406.10974v1 )

ライセンス: Link先を確認
T. Y. S. S Santosh, Kevin D. Ashley, Katie Atkinson, Matthias Grabmair, (参考訳) 訴訟における法的推論と議論の正当化は、常にAIと法の中心であるが、法的なNLPにおける現代の発展は、テキストから法的結論を統計的に分類することに集中している。 概念的には単純であるが、これらのアプローチは適切な法的概念に結びつく有効な正当化を提供するには不十分であることが多い。 本稿では,AIと法学における従来の象徴的研究と,近年の法律的NLPの進歩の両面を概観し,専門家による知識統合の可能性について考察する。 我々はオープンな課題を特定し、統合された現代のNLPモデルと方法の可能性について議論する。

Modeling legal reasoning and argumentation justifying decisions in cases has always been central to AI & Law, yet contemporary developments in legal NLP have increasingly focused on statistically classifying legal conclusions from text. While conceptually simpler, these approaches often fall short in providing usable justifications connecting to appropriate legal concepts. This paper reviews both traditional symbolic works in AI & Law and recent advances in legal NLP, and distills possibilities of integrating expert-informed knowledge to strike a balance between scalability and explanation in symbolic vs. data-driven approaches. We identify open challenges and discuss the potential of modern NLP models and methods that integrate
翻訳日:2024-06-18 19:42:48 公開日:2024-06-16
# 量子化LoRAによるフェデレーション学習におけるデータとモデルプライバシの促進

Promoting Data and Model Privacy in Federated Learning through Quantized LoRA ( http://arxiv.org/abs/2406.10976v1 )

ライセンス: Link先を確認
JianHao Zhu, Changze Lv, Xiaohua Wang, Muling Wu, Wenhao Liu, Tianlong Li, Zixuan Ling, Cenyuan Zhang, Xiaoqing Zheng, Xuanjing Huang, (参考訳) 従来のフェデレーション学習は主に、複数のエッジデバイスに分散したデータのプライバシを確保することを目的としており、グローバルモデルは学習プロセス中にパラメータ更新のためにエッジデバイスに送信される。 しかし、大規模言語モデル(LLM)の開発には膨大なデータと計算資源が必要であるため、開発者や所有者にとって貴重な知的財産権が与えられる。 フェデレートされた学習コンテキストにおいて、データとモデルのプライバシの両方を保護するメカニズムを確立するために、トレーニング中にモデルのパラメータの量子化されたバージョンを配布するだけでよい方法を導入する。 この方法は、クライアントが中央にホストされたモデルに匹敵する性能を持つモデルにアクセスするのを防止しながら、パラメータ更新の正確な勾配推定を可能にする。 さらに、この量子化戦略を、人気かつパラメータ効率の良い微調整手法であるLoRAと組み合わせることで、フェデレート学習における通信コストを大幅に削減する。 このフレームワークは、フェデレートされた学習コンテキストにおけるデータとモデルのプライバシの両立を確実にする。 さらに、学習された中央モデルは優れた一般化を示し、資源効率の良い方法で訓練することができる。

Conventional federated learning primarily aims to secure the privacy of data distributed across multiple edge devices, with the global model dispatched to edge devices for parameter updates during the learning process. However, the development of large language models (LLMs) requires substantial data and computational resources, rendering them valuable intellectual properties for their developers and owners. To establish a mechanism that protects both data and model privacy in a federated learning context, we introduce a method that just needs to distribute a quantized version of the model's parameters during training. This method enables accurate gradient estimations for parameter updates while preventing clients from accessing a model whose performance is comparable to the centrally hosted one. Moreover, we combine this quantization strategy with LoRA, a popular and parameter-efficient fine-tuning method, to significantly reduce communication costs in federated learning. The proposed framework, named \textsc{FedLPP}, successfully ensures both data and model privacy in the federated learning context. Additionally, the learned central model exhibits good generalization and can be trained in a resource-efficient manner.
翻訳日:2024-06-18 19:42:48 公開日:2024-06-16
# ツープレイゲームを用いた最適LLMアライメントに向けて

Toward Optimal LLM Alignments Using Two-Player Games ( http://arxiv.org/abs/2406.10977v1 )

ライセンス: Link先を確認
Rui Zheng, Hongyi Guo, Zhihan Liu, Xiaoying Zhang, Yuanshun Yao, Xiaojun Xu, Zhaoran Wang, Zhiheng Xi, Tao Gui, Qi Zhang, Xuanjing Huang, Hang Li, Yang Liu, (参考訳) RLHF(Reinforcement Learning from Human Feedback)フレームワークは主に、事前コンパイルされたプロンプトを使用して、大規模言語モデルのパフォーマンスを最適化することに焦点を当てている。 しかし、包括的カバレッジを提供するプロンプトの収集は面倒で難しい。 本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。 各ステップにおける敵エージェントのタスクは、防御エージェントの弱点を明らかにするプロンプトを生成することである。 その見返りとして、防衛エージェントは報酬モデルからのフィードバックに基づいて、新たに特定されたこれらのプロンプトに対する応答を改善しようとしている。 この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。 安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。

The standard Reinforcement Learning from Human Feedback (RLHF) framework primarily focuses on optimizing the performance of large language models using pre-collected prompts. However, collecting prompts that provide comprehensive coverage is both tedious and challenging, and often fails to include scenarios that LLMs need to improve on the most. In this paper, we investigate alignment through the lens of two-agent games, involving iterative interactions between an adversarial and a defensive agent. The adversarial agent's task at each step is to generate prompts that expose the weakness of the defensive agent. In return, the defensive agent seeks to improve its responses to these newly identified prompts it struggled with, based on feedback from the reward model. We theoretically demonstrate that this iterative reinforcement learning optimization converges to a Nash Equilibrium for the game induced by the agents. Experimental results in safety scenarios demonstrate that learning in such a competitive environment not only fully trains agents but also leads to policies with enhanced generalization capabilities for both adversarial and defensive agents.
翻訳日:2024-06-18 19:42:48 公開日:2024-06-16
# ViD-GPT:ビデオ拡散モデルにおけるGPT型自己回帰生成の導入

ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models ( http://arxiv.org/abs/2406.10981v1 )

ライセンス: Link先を確認
Kaifeng Gao, Jiaxin Shi, Hanwang Zhang, Chunping Wang, Jun Xiao, (参考訳) 拡散モデルの進歩により、今日のビデオ生成は印象的な品質を達成した。 しかし、時間的に一貫した長いビデオを作ることはまだ難しい。 ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。 しかし、既存のアプローチはすべて双方向の計算を伴い、これは各自己回帰ステップの受容コンテキストを制限し、結果として長期依存が欠如する。 大規模言語モデル (LLM) と GPT (生成事前学習型トランスフォーマー) の大きな成功から着想を得て, 因果(一方向)生成をVDMに導入し, 過去のフレームを将来のフレーム生成のプロンプトとして利用する。 本稿では、因果的時間的注意をVDMに導入し、各フレームが以前のフレームに依存するように強制する。 Prompt として Frame は、時間軸に沿ってノイズフレーム(生成するフレーム)と結合することで条件フレームを注入する。 その結果,ビデオ拡散GPT(ViD-GPT)が得られた。 2つの鍵設計に基づいて、各自己回帰ステップにおいて、前述した全てのフレームで連結されたフレームのプロンプトから長期コンテキストを取得することができる。 さらに、kv-cache機構をVDMに持ち込み、重なり合うフレームから冗長な計算を排除し、推論速度を大幅に向上させる。 広汎な実験により,VD-GPTは長時間ビデオ生成において,定量的かつ質的に,最先端の性能を達成することが示された。 コードはhttps://github.com/Dawn-LX/Causal-VideoGen.comで入手できる。

With the advance of diffusion models, today's video generation has achieved impressive quality. But generating temporal consistent long videos is still challenging. A majority of video diffusion models (VDMs) generate long videos in an autoregressive manner, i.e., generating subsequent clips conditioned on last frames of previous clip. However, existing approaches all involve bidirectional computations, which restricts the receptive context of each autoregression step, and results in the model lacking long-term dependencies. Inspired from the huge success of large language models (LLMs) and following GPT (generative pre-trained transformer), we bring causal (i.e., unidirectional) generation into VDMs, and use past frames as prompt to generate future frames. For Causal Generation, we introduce causal temporal attention into VDM, which forces each generated frame to depend on its previous frames. For Frame as Prompt, we inject the conditional frames by concatenating them with noisy frames (frames to be generated) along the temporal axis. Consequently, we present Video Diffusion GPT (ViD-GPT). Based on the two key designs, in each autoregression step, it is able to acquire long-term context from prompting frames concatenated by all previously generated frames. Additionally, we bring the kv-cache mechanism to VDMs, which eliminates the redundant computation from overlapped frames, significantly boosting the inference speed. Extensive experiments demonstrate that our ViD-GPT achieves state-of-the-art performance both quantitatively and qualitatively on long video generation. Code will be available at https://github.com/Dawn-LX/Causal-VideoGen.
翻訳日:2024-06-18 19:42:48 公開日:2024-06-16
# エルゴードの繰り返し相互作用量子系:定常状態と再現性理論

Ergodic repeated interaction quantum systems: Steady states and reducibility theory ( http://arxiv.org/abs/2406.10982v1 )

ライセンス: Link先を確認
Owen Ekblad, Jeffrey Schenker, (参考訳) 定常分布を持つランダムな量子チャネルの列を対象とするオープン量子システムの時間進化を考察する。 これは、乱れをオープン量子力学を理解するための繰り返し相互作用(または量子衝突モデル)アプローチに組み込む。 文献では、繰り返し相互作用モデルにおける障害の様々な特定のモデルが検討されており、例えば、量子チャネルの列がi.d.またはマルコフ確率過程を形成する場合などである。 本稿では、定常性(時間変換不変性)を別にして、確率分布に関する具体的な仮定を持たず、そのようなモデルの一般的な構造について考察する。 特に、時間ステップ間の任意の強い相関が許される。 2021年、Movassagh と Schenker (MS) は、そのようなランダム化された量子力学を研究できる統一的な枠組みを導入し、鍵となる強いデコヒーレンス仮定の下で、多くの物理関連例に対してエルゴード定理を証明した。 ここでは、MSのデコヒーレンス仮定をある種の既約性として認識し、この条件を伴わない一般的な定常ランダムな相互作用モデルに対する再現可能性理論を開発する。 この枠組みの中では、MSによって得られた定理を一般定常状態に拡張するエルゴード定理を確立する。

We consider the time evolution of an open quantum system subject to a sequence of random quantum channels with a stationary distribution. This incorporates disorder into the repeated interactions (or, quantum collision models) approach to understanding open quantum dynamics. In the literature, various specific models of disorder in repeated interaction models have been considered, including the cases where the sequence of quantum channels form either i.i.d. or Markovian stochastic processes. In the present paper we consider the general structure of such models without any specific assumptions on the probability distribution, aside from stationarity (i.e., time-translation invariance). In particular, arbitrarily strong correlations between time steps are allowed. In 2021, Movassagh and Schenker (MS) introduced a unified framework in which one may study such randomized quantum dynamics, and, under a key strong decoherence assumption proved an ergodic theorem for a large class of physically relevant examples. Here, we recognize the decoherence assumption of MS as a kind of irreducibility and develop a reducibility theory for general stationary random repeated interaction models without this condition. Within this framework, we establish ergodic theorems extending of those obtained by MS to the general stationary setting.
翻訳日:2024-06-18 19:42:48 公開日:2024-06-16
# アンザッツ回路の線形結合の表現可能性

Expressibility of linear combination of ansatz circuits ( http://arxiv.org/abs/2406.10983v1 )

ライセンス: Link先を確認
Peng Wang, Ruyu Yang, (参考訳) 変分量子固有解法は中規模雑音量子コンピュータに有望であると考えられている。 表現性は変分量子アンザッツ回路の能力を測定するための重要な指標である。 表現性を高めるための一般的な方法は、回路の深さを増やすことである。 しかし、回路深度の増加はより多くのノイズを引き起こす。 本稿では,アンサーゼの線形結合を用いて変動回路の表現性を向上し,回路深さの増大を回避することを提案する。 同時に,アダマール試験の必要性を回避し,量子ノイズの寄与要因である2量子ゲートへの依存を著しく低減する新しい測定戦略を導入する。 また,パラメータの更新に便利な勾配計算法も提案する。 回路深度を増大させる手法と比較して,表現性を向上させる手法がより実践的である。 数値シミュレーションは,本手法の有効性を実証する。

Variational Quantum Eigensolver is considered promising for medium-scale noisy quantum computers. Expressibility is an important metric for measuring the capability of a variational quantum Ansatz circuit. A commonly used method to increase expressibility is to increase the circuit depth. However, increasing the circuit depth also introduces more noise. We propose to use a linear combination of ansatzes to improve the expressibility of variational circuits, thus avoiding the increase of circuit depth. Concurrently, we introduce a novel measurement strategy that circumvents the necessity for the Hadamard test, thereby significantly diminishing the reliance on two-qubit gates, which are presently the predominant contributors to quantum noise. We also provide a corresponding gradient calculation method, which makes it convenient to update the parameters. Compared with the method of increasing the circuit depth, our method of improving expressibility is more practical. Numerical simulations demonstrate the effectiveness of our method.
翻訳日:2024-06-18 19:42:48 公開日:2024-06-16
# 正常化ICA変換インプラントによるコサイン類似性の再検討

Revisiting Cosine Similarity via Normalized ICA-transformed Embeddings ( http://arxiv.org/abs/2406.10984v1 )

ライセンス: Link先を確認
Hiroaki Yamagiwa, Momose Oyama, Hidetoshi Shimodaira, (参考訳) コサイン類似度は2つの埋め込みの類似度を測定するために広く用いられ、角度と相関係数に基づく解釈は一般的である。 本研究では,独立成分分析(ICA)によって変換された埋め込みの解釈可能な軸に着目し,軸上の意味的類似性の和としてコサイン類似性の新たな解釈を提案する。 これを調べるために、まず非正規化埋め込みがノルム由来のアーティファクトを含んでいることを実験的に示す。 次に, 正規化ICA変換埋め込みは, 各軸に数個の大きな値を持ち, 埋め込みにまたがる疎結合を示し, 明瞭なセマンティックコントリビューションを導出することで解釈可能性を高めることを実証した。 最後に,その解釈を検証するために,特定の意味的要素を含まない理想的な埋め込みを用いた検索実験を行った。

Cosine similarity is widely used to measure the similarity between two embeddings, while interpretations based on angle and correlation coefficient are common. In this study, we focus on the interpretable axes of embeddings transformed by Independent Component Analysis (ICA), and propose a novel interpretation of cosine similarity as the sum of semantic similarities over axes. To investigate this, we first show experimentally that unnormalized embeddings contain norm-derived artifacts. We then demonstrate that normalized ICA-transformed embeddings exhibit sparsity, with a few large values in each axis and across embeddings, thereby enhancing interpretability by delineating clear semantic contributions. Finally, to validate our interpretation, we perform retrieval experiments using ideal embeddings with and without specific semantic components.
翻訳日:2024-06-18 19:42:48 公開日:2024-06-16
# ディープブレス:センチネルトークンを用いた大規模言語モデルの言語モデリングの強化

Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens ( http://arxiv.org/abs/2406.10985v1 )

ライセンス: Link先を確認
Weiyao Luo, Suncong Zheng, Heming Xia, Weikang Wang, Yan Lei, Tianyu Liu, Shuang Chen, Zhifang Sui, (参考訳) 大規模言語モデル(LLM)は様々なタスクにおいて有望な有効性を示しており、人間の生活の様々な側面において強力なツールとなっている。 しかし、Transformer ベースの LLM は、ある程度の情報を捨てて計算オーバーヘッドを減らすことで、長期のコンテキストをモデル化する際の性能劣化に悩まされる。 本研究では,LLMが深呼吸を可能とし,個別のテキストチャンクに含まれる情報を要約する簡単な方法を提案する。 具体的には、テキストを複数のチャンクに分割し、各チャンクの最後に特別なトークン<SR>を挿入する。 次に、アテンションマスクを変更して、チャンクの情報を対応する<SR>トークンに統合する。 これによりLLMは、過去の個々のトークンだけでなく、<SR>トークンからも情報を解釈し、チャンクの意味情報を集約することが可能になる。 言語モデリングとドメイン外のダウンストリームタスクの実験は、我々のアプローチの優位性を検証する。

Large language models (LLMs) have shown promising efficacy across various tasks, becoming powerful tools in numerous aspects of human life. However, Transformer-based LLMs suffer a performance degradation when modeling long-term contexts due to they discard some information to reduce computational overhead. In this work, we propose a simple yet effective method to enable LLMs to take a deep breath, encouraging them to summarize information contained within discrete text chunks. Specifically, we segment the text into multiple chunks and insert special token <SR> at the end of each chunk. We then modify the attention mask to integrate the chunk's information into the corresponding <SR> token. This facilitates LLMs to interpret information not only from historical individual tokens but also from the <SR> token, aggregating the chunk's semantic information. Experiments on language modeling and out-of-domain downstream tasks validate the superiority of our approach.
翻訳日:2024-06-18 19:42:48 公開日:2024-06-16
# 混合状態符号化を用いた量子クーポンコレクタ

Quantum coupon collector with mixed-state encoding ( http://arxiv.org/abs/2406.10988v1 )

ライセンス: Link先を確認
Jing-Peng Zhang, Min-Quan He, Dan-Bo Zhang, (参考訳) クーポンコレクタは、集合を特定するサンプルの数を評価するためのプロトタイプモデルである。 集合内の全ての要素を純粋な量子状態として重ね合わせることで、クーポンコレクターの量子バージョンは、サンプルの複雑さを減少させる状態を学ぶことを目的としている。 ここでは、集合を混合状態に符号化して量子クーポンコレクタを提案し、そこでは、欠落した要素の情報をパウリ文字列でラベル付けする。 興味深いことに、符号化された混合状態は量子交絡状態を持たず、準備が容易である。 このような混合状態符号化により、2つのコピーでベル測定を行い、その測定から得られた一連の方程式を解くことで欠落要素を抽出することにより、集合を効率よく学習することができる。 我々のプロトコルはさらにサンプルの複雑さを$O(n)$から$O(\log n)$に減らします。 混合状態符号化方式は、量子学習のための新しい道を提供し、量子優位性を探究するための領域を拡大する。

The coupon collector is a prototypical model for evaluating the number of samples for identifying a set. By superposing all elements in the set as a pure quantum state, a quantum version of the coupon collector aims to learn the state, which is shown to reduce the sample complexity. Here we propose a quantum coupon collector by encoding the set into a mixed state, where the information of missing elements are labelled with Pauli strings. Remarkably, the encoded mixed state has no quantum entangled state and is easy to prepare. With such mixed-state encoding, it can be efficient to learn the set by performing Bell measurements on two copies and then extracting the missing element by solving a series of equations obtained from the measurements. Our protocol further reduces the sample complexity from $O(n)$ in the case of pure-state encoding to $O(\log n)$ when the missing element is one, where $n$ is the number of elements in the set. The mixed-state encoding scheme provides a new avenue for quantum learning and enlarges the realm for exploring quantum advantages.
翻訳日:2024-06-18 19:42:48 公開日:2024-06-16
# コードメトリクス解析による計算ノートの理解可能性予測

Predicting the Understandability of Computational Notebooks through Code Metrics Analysis ( http://arxiv.org/abs/2406.10989v1 )

ライセンス: Link先を確認
Mojtaba Mostafavi Ghahfarokhi, Alireza Asadi, Arash Asgari, Bardia Mohammadi, Masih Beigi Rizi, Abbas Heydarnoori, (参考訳) 計算ノートは、データサイエンティストにとって主要なコーディング環境となっている。 しかし、コード品質の研究はまだ発展途上であり、共有されるコードの品質は低いことが多い。 メンテナンスと再利用性の重要性を考えると、ノートのコード理解に影響を及ぼすメトリクスを理解することが重要です。 コードの理解可能性、質的な変数は、ユーザの意見と密接に結びついています。 従来の方法では、限定的なアンケートを使っていくつかのコード片をレビューするか、ソフトウェアリポジトリのお気に入りや投票といったメタデータに依存している。 提案手法は,コード理解性に関連するユーザコメントを活用することにより,Jupyterノートブックの可読性の測定を強化する。 ケーススタディでは、以前の研究でDistilKaggleという542,051個のKaggle Jupyterノートを使用しました。 我々は、コード理解性に関連するユーザコメントを識別するために、微調整のDistilBERT変換器を使用した。 UOCU(User Opinion Code Understandability)と呼ばれる基準を確立しました。 UOCUは従来の方法よりも効果的であることが判明した。 さらに、私たちは機械学習モデルをトレーニングし、メトリクスのみに基づいてノートのコード理解性を予測しました。 私たちはUOCUをラベルとして、データセットの特徴として132,723の最終的なノートブックの34のメトリクスを収集しました。 我々の予測モデルはランダムフォレスト分類器を用いて,計算ノートの可読度を89%精度で予測した。

Computational notebooks have become the primary coding environment for data scientists. However, research on their code quality is still emerging, and the code shared is often of poor quality. Given the importance of maintenance and reusability, understanding the metrics that affect notebook code comprehensibility is crucial. Code understandability, a qualitative variable, is closely tied to user opinions. Traditional approaches to measuring it either use limited questionnaires to review a few code pieces or rely on metadata such as likes and votes in software repositories. Our approach enhances the measurement of Jupyter notebook understandability by leveraging user comments related to code understandability. As a case study, we used 542,051 Kaggle Jupyter notebooks from our previous research, named DistilKaggle. We employed a fine-tuned DistilBERT transformer to identify user comments associated with code understandability. We established a criterion called User Opinion Code Understandability (UOCU), which considers the number of relevant comments, upvotes on those comments, total notebook views, and total notebook upvotes. UOCU proved to be more effective than previous methods. Furthermore, we trained machine learning models to predict notebook code understandability based solely on their metrics. We collected 34 metrics for 132,723 final notebooks as features in our dataset, using UOCU as the label. Our predictive model, using the Random Forest classifier, achieved 89% accuracy in predicting the understandability levels of computational notebooks.
翻訳日:2024-06-18 19:42:48 公開日:2024-06-16
# Adaptive Query Rewriting: 会話回答のMarginal Probabilityによるリライタのアライメント

Adaptive Query Rewriting: Aligning Rewriters through Marginal Probability of Conversational Answers ( http://arxiv.org/abs/2406.10991v1 )

ライセンス: Link先を確認
Tianhua Zhang, Kun Li, Hongyin Luo, Xixin Wu, James Glass, Helen Meng, (参考訳) クエリ書き換えは、オープンドメイン会話型質問応答(CQA)における経路検索の重要な手法である。 会話クエリを棚から取り出すのに適した自己完結した質問に分解する。 既存の手法では、リライトモデルのトレーニング中にレトリバーの好みを取り入れようとする。 しかしながら、これらのアプローチは通常、ドメイン内書き直しや関連するパスラベルのような広範なアノテーションに依存し、モデルの一般化と適応能力を制限する。 本稿では,シードデータセットからの限定的な書き直しアノテーションを備えたクエリ書き換えモデルのトレーニングフレームワークであるAdaQR ($\textbf{Ada}$ptive $\textbf{Q}$uery $\textbf{R}$ewritingを紹介する。 私たちのアプローチは、シードデータセットのトレーニング分割から書き直しアノテーションを ~$10\% だけ使用して、コンパクトな大規模言語モデルを微調整することから始まります。 モデルを使用して各クエリインスタンスの書き直し候補を生成する。 そこで,提案手法は,Top-$K$節を疎外することで,会話クエリ上で条件付けられた回答の確率を用いて,検索者のこれらの候補に対する選好を評価するものである。 これは書き直しや検索のアノテーションのないプロセスであるDirect Preference Optimization (DPO)を使って書き直しを最適化する報酬として機能する。 4つのオープンドメインのCQAデータセットの実験結果によると、AdaQRはリライターのドメイン内機能を強化するだけでなく、ドメイン外のデータセットに効果的に適応する。

Query rewriting is a crucial technique for passage retrieval in open-domain conversational question answering (CQA). It decontexualizes conversational queries into self-contained questions suitable for off-the-shelf retrievers. Existing methods attempt to incorporate retriever's preference during the training of rewriting models. However, these approaches typically rely on extensive annotations such as in-domain rewrites and/or relevant passage labels, limiting the models' generalization and adaptation capabilities. In this paper, we introduce AdaQR ($\textbf{Ada}$ptive $\textbf{Q}$uery $\textbf{R}$ewriting), a framework for training query rewriting models with limited rewrite annotations from seed datasets and completely no passage label. Our approach begins by fine-tuning compact large language models using only ~$10\%$ of rewrite annotations from the seed dataset training split. The models are then utilized to generate rewrite candidates for each query instance. A novel approach is then proposed to assess retriever's preference for these candidates by the probability of answers conditioned on the conversational query by marginalizing the Top-$K$ passages. This serves as the reward for optimizing the rewriter further using Direct Preference Optimization (DPO), a process free of rewrite and retrieval annotations. Experimental results on four open-domain CQA datasets demonstrate that AdaQR not only enhances the in-domain capabilities of the rewriter with limited annotation requirement, but also adapts effectively to out-of-domain datasets.
翻訳日:2024-06-18 19:32:57 公開日:2024-06-16
# CoSTA:アライメントされた音声テキストインターリーブを用いたコード変換音声翻訳

CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving ( http://arxiv.org/abs/2406.10993v1 )

ライセンス: Link先を確認
Bhavani Shankar, Preethi Jyothi, Pushpak Bhattacharyya, (参考訳) コードスイッチングは、インドのような多言語社会で広く見られる言語現象である。 コードスイッチされた音声のための音声からテキストへのモデルの構築は、データセットの可用性が限られているため困難である。 本研究は,インド語から英語へのコードスイッチト音声の音声翻訳(ST)問題に着目した。 我々は、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュール(多くの言語でより広く利用できる)を足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。 音声とASRのテキスト表現は、アライメントされたインターリービング方式で融合され、事前訓練されたMTモジュールへの入力としてさらに供給される。 また、コードスイッチしたベンガル英語、ヒンディー英語、マラシ英語、テルグ英語の英語テキストに対する評価ベンチマークもリリースした。 COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。

Code-switching is a widely prevalent linguistic phenomenon in multilingual societies like India. Building speech-to-text models for code-switched speech is challenging due to limited availability of datasets. In this work, we focus on the problem of spoken translation (ST) of code-switched speech in Indian languages to English text. We present a new end-to-end model architecture COSTA that scaffolds on pretrained automatic speech recognition (ASR) and machine translation (MT) modules (that are more widely available for many languages). Speech and ASR text representations are fused using an aligned interleaving scheme and are fed further as input to a pretrained MT module; the whole pipeline is then trained end-to-end for spoken translation using synthetically created ST data. We also release a new evaluation benchmark for code-switched Bengali-English, Hindi-English, Marathi-English and Telugu- English speech to English text. COSTA significantly outperforms many competitive cascaded and end-to-end multimodal baselines by up to 3.5 BLEU points.
翻訳日:2024-06-18 19:32:56 公開日:2024-06-16
# 概念スキル伝達可能性に基づく大規模視覚言語モデルのためのデータ選択

Concept-skill Transferability-based Data Selection for Large Vision-Language Models ( http://arxiv.org/abs/2406.10995v1 )

ライセンス: Link先を確認
Jaewoo Lee, Boyang Li, Sung Ju Hwang, (参考訳) LVLM(Large Vision-Language Models)では、広範囲の視覚言語(VL)タスクをうまく一般化するために、広範囲なタスク固有データに対する教師付き微調整が必要である。 しかし、大規模なVLデータセットのトレーニングは違法に高価になる可能性がある。 本研究では,少人数のモデルを参照モデルとして用い,目的のLVLMを効率よく微調整するための視覚的インストラクション・チューニング・データを選択するための,効率よくスケーラブルなデータ選択手法であるCOINCIDEを紹介する。 具体的には、ターゲットLVLMに必要なVL概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて、トレーニングデータをクラスタ化する。 次に、これらの多様なクラスタからのデータを、その密度と転送可能性、あるいは他のコンセプトスキルの構成要素にうまく転送できる能力を考慮してサンプリングする。 このアプローチは、LVLMの一般化に不可欠であるこれらの組成の多様性を保証する。 大規模な実験により、COINCIDEは2つの異なるデータセット(LLaVA-1.5とVision-Flan)で8つの強いベースラインに対して、優れたパフォーマンスとデータ選択効率を達成することが示された。 LLaVA-1.5データセットの20%しか使用していないため、COINCIDEは、全データセット上で微調整されたLVLMに匹敵するパフォーマンスを実現している。 Vision-Flanデータセットでは,トレーニングデータの16.7%に過ぎず,優れた結果が得られる。

Instruction tuning, or supervised finetuning on extensive task-specific data, is necessary for Large Vision-Language Models (LVLMs) to generalize well across a broad range of vision-language (VL) tasks. However, training on large VL datasets can become prohibitively expensive. In this work, we introduce COINCIDE, an effective and scalable data selection technique that uses a small model as a reference model to select visual instruction tuning data for efficient finetuning of a target LVLM, focusing on diversity and transferability. Specifically, we cluster the training data using internal activations from a small model, which identifies VL concept-skill compositions needed by a target LVLM. We then sample data from these diverse clusters by considering their density and transferability, or the ability to transfer well to other concept-skill compositions. This approach ensures the diversity of these compositions, which is vital for LVLM generalization. Extensive experiments demonstrate that COINCIDE achieves superior performance and data selection efficiency against 8 strong baselines on two distinct datasets: LLaVA-1.5 and Vision-Flan. Using only 20% of the LLaVA-1.5 dataset, COINCIDE achieves performance comparable to the LVLM finetuned on the whole dataset, with 70% reduction of the wall-clock running time. On the Vision-Flan dataset, our method achieves superior results with only 16.7% of the training data.
翻訳日:2024-06-18 19:32:56 公開日:2024-06-16
# THEANINE: Timeline-augmented Response Generation による長期会話におけるメモリ管理の再検討

THEANINE: Revisiting Memory Management in Long-term Conversations with Timeline-augmented Response Generation ( http://arxiv.org/abs/2406.10996v1 )

ライセンス: Link先を確認
Seo Hyun Kim, Kai Tzu-iunn Ong, Taeyoon Kwon, Namyoung Kim, Keummin Ka, SeongHyeon Bae, Yohan Jo, Seung-won Hwang, Dongha Lee, Jinyoung Yeo, (参考訳) 大規模言語モデル(LLM)は、メモリモジュールを追加せずにユーザとの長時間の対話中に長い対話履歴を処理できるが、その応答は見過ごされるか、過去の情報を誤って呼び起こす傾向にある。 本稿では,LLMの時代におけるメモリ拡張応答生成を再考する。 過去の研究は時代遅れの記憶をなくすことに重点を置いているが、このような記憶は、対話システムが過去の出来事の発生を理解し、その結果、応答生成に利益をもたらすのに役立つ文脈的手がかりを提供することができると論じている。 我々は、LCMの応答生成をメモリタイムラインで強化するフレームワークであるTheanineを紹介します。 Theanineとともに、長期会話におけるG-Evalの制限に対処する対実的な質問応答パイプラインであるTeaFarmを紹介した。 私たちのメソッドとTeaFarm評価のためのTeaBagデータセットの補足ビデオはhttps://theanine-693b0.web.app/.comで公開されている。

Large language models (LLMs) are capable of processing lengthy dialogue histories during prolonged interaction with users without additional memory modules; however, their responses tend to overlook or incorrectly recall information from the past. In this paper, we revisit memory-augmented response generation in the era of LLMs. While prior work focuses on getting rid of outdated memories, we argue that such memories can provide contextual cues that help dialogue systems understand the development of past events and, therefore, benefit response generation. We present Theanine, a framework that augments LLMs' response generation with memory timelines -- series of memories that demonstrate the development and causality of relevant past events. Along with Theanine, we introduce TeaFarm, a counterfactual-driven question-answering pipeline addressing the limitation of G-Eval in long-term conversations. Supplementary videos of our methods and the TeaBag dataset for TeaFarm evaluation are in https://theanine-693b0.web.app/.
翻訳日:2024-06-18 19:32:56 公開日:2024-06-16
# 科学機械学習応用の訓練のための2レベル重畳付加型シュワルツプレコンディショナー

Two-level overlapping additive Schwarz preconditioner for training scientific machine learning applications ( http://arxiv.org/abs/2406.10997v1 )

ライセンス: Link先を確認
Youngkyu Lee, Alena Kopaničáková, George Em Karniadakis, (参考訳) 科学的な機械学習応用の訓練を加速するための2段階重畳付加型シュワルツプレコンディショナーを新たに導入する。 提案したプレコンディショナーの設計は、非線形二段重畳加法シュワルツプレコンディショナーによって動機付けられている。 ニューラルネットワークパラメータは、重複する領域を持つグループ(サブドメイン)に分解される。 さらに、ネットワークのフィードフォワード構造は、新しいサブドメインワイド同期戦略と粗いレベルのトレーニングステップによって間接的に強制される。 物理インフォームドニューラルネットワークと演算子学習のアプローチを検討する一連の数値実験を通じて、提案した2レベルプリコンディショナーが標準(LBFGS)オプティマイザの収束を著しく高速化し、より正確な機械学習モデルが得られることを示した。 さらに,設計したプレコンディショナーはモデル並列計算の利点を生かして設計されており,トレーニング時間を短縮することができる。

We introduce a novel two-level overlapping additive Schwarz preconditioner for accelerating the training of scientific machine learning applications. The design of the proposed preconditioner is motivated by the nonlinear two-level overlapping additive Schwarz preconditioner. The neural network parameters are decomposed into groups (subdomains) with overlapping regions. In addition, the network's feed-forward structure is indirectly imposed through a novel subdomain-wise synchronization strategy and a coarse-level training step. Through a series of numerical experiments, which consider physics-informed neural networks and operator learning approaches, we demonstrate that the proposed two-level preconditioner significantly speeds up the convergence of the standard (LBFGS) optimizer while also yielding more accurate machine learning models. Moreover, the devised preconditioner is designed to take advantage of model-parallel computations, which can further reduce the training time.
翻訳日:2024-06-18 19:32:56 公開日:2024-06-16
# 持続可能性教育のためのヒストリー強化ICT--ビジネス・コンピューティングの学生と一緒に学ぶ

History-enhanced ICT For Sustainability education: Learning together with Business Computing students ( http://arxiv.org/abs/2406.10998v1 )

ライセンス: Link先を確認
Ian Brooks, Laura Harrison, Mark Reeves, Martin Simpson, Rose Wallis, (参考訳) 本研究は,ICT4S 2023カンファレンスの課題に対して,ICT For Sustainability ICT4Sの分野における教育向上のためのヒストリーの利用について検討する。 ICT4Sには以前の研究はないが、持続可能な開発の歴史と教育に関する文献がレビューされている。 ICT4Sの講師はヒストリーの講師と共同で、大学院生のBSc Business Computingの学生のために、持続可能なビジネスとコンピューティングのユニットで教える週に1週間に1度、同じことをした。 トピックと合理性のリストが提供されている。 授業前後の学生の意識調査と半構造化面接を行った。 学生の大多数は、その学位とキャリアに関連性を見出した。 歴史に興味を持つ学生の割合が増加した。 本論文は、トピックの選択、形式、知覚価値など、学際的なコラボレーションから学んだ教訓について考察する。 このプロジェクトは、コンピュータと歴史教育者として、私たちの課題にアプローチする方法を強化しました。 我々は、ICT4S教育を強化するために歴史を利用した経験的調査に基づく最初の研究であると信じている。 チームはこの研究を、より広い範囲のコンピューティングの学位をカバーするより大きなユニットに拡張する。

This research explores the use of History to enhance education in the field of ICT For Sustainability ICT4S in response to a challenge from the ICT4S 2023 conference. No previous studies were found in ICT4S but the literature on History and Education for Sustainable Development is reviewed. An ICT4S lecturer collaborated with History lecturers to add an historic parallel to each weeks teaching on a Sustainable Business and Computing unit for final year undergraduate BSc Business Computing students. A list of the topics and rationale is provided. Student perceptions were surveyed before and after the teaching and semi-structured interviews carried out. A majority of students saw relevance to their degree and career. There was an increase in the proportion of students with interest in History. The paper explores the lessons learned from the interdisciplinary collaboration, including topic choice, format and perceived value. The project has enhanced the way we approach our subjects as computing and history educators. We believe this is the first empirical, survey-based study of the use of history to enhance ICT4S education. The team will extend the research to a larger unit covering a wider range of computing degrees.
翻訳日:2024-06-18 19:32:56 公開日:2024-06-16
# すべてのバイアスは悪いものではない - 大規模言語モデル推論における合理的偏差と認知バイアスのバランスをとる

Not All Bias is Bad: Balancing Rational Deviations and Cognitive Biases in Large Language Model Reasoning ( http://arxiv.org/abs/2406.10999v1 )

ライセンス: Link先を確認
Liman Wang, Hanyang Zhong, (参考訳) 本稿では,大規模言語モデル(LLM)の意思決定過程におけるバイアスの役割について検討する。 従来の研究では、すべてのバイアスを除去することを目的としていますが、私たちの研究はすべてのバイアスが有害であるわけではありません。 合理的な逸脱を検証し、意思決定効率を高めるヒューリスティックなショートカットを伴って、適切にバランスをとれば、その潜在的なメリットを強調します。 我々は、ヒューリスティックなモデレーションの概念と、停止オプションを導入し、不確実な場合のLLMの応答を阻止し、エラー率を低減し、意思決定精度を向上させる。 新たに開発したBRD(Balance Rational Deviations)データセットを用いて、適切なスケールのバイアス検査によってモデル性能が向上し、LLM決定が人間の推論とより密に一致していることを示す。 このバランスはLLMの信頼性と信頼性を改善し、今後の強化に向けた新たな戦略を提案する。 我々の研究は、会話エージェントから意思決定支援システムに至るまで、LLMの実践的応用を強化するために、構成的にバイアスを活用する新しい視点を提供する。

This paper investigates the nuanced role of biases in the decision-making processes of large language models (LLMs). While conventional research typically aims to eliminate all biases, our study reveals that not all biases are detrimental. By examining rational deviations, involving heuristic shortcuts that enhance decision-making efficiency, we highlight their potential benefits when properly balanced. We introduce the concepts of heuristic moderation and an abstention option, allowing LLMs to abstain from answering when uncertain, thereby reducing error rates and improving decision accuracy. Using our newly developed BRD (Balance Rational Deviations) dataset, our findings demonstrate that appropriately scaled bias inspection enhances model performance and aligns LLM decision-making more closely with human reasoning. This balance improves the reliability and trustworthiness of LLMs and suggests new strategies for future enhancements. Our work offers a fresh perspective on leveraging biases constructively to enhance the practical applications of LLMs, from conversational agents to decision support systems and beyond.
翻訳日:2024-06-18 19:32:56 公開日:2024-06-16
# クラスダイアグラムダイナミクスの強化:ChatGPTを用いた自然言語アプローチ

Enhancing Class Diagram Dynamics: A Natural Language Approach with ChatGPT ( http://arxiv.org/abs/2406.11002v1 )

ライセンス: Link先を確認
Djaber Rouabhia, Ismail Hadjadj, (参考訳) 人工知能(AI)をソフトウェア工学に統合することで、効率性、正確性、革新性を向上することで、従来のプラクティスを変革することができる。 本研究では、高度なAI言語モデルであるChatGPTを用いてUMLクラス図を動的に拡張する。 伝統的に、クラスダイアグラムの作成と維持は、手動、時間がかかり、エラーを起こしやすいプロセスである。 本研究では、自然言語処理(NLP)技術を利用して、詳細なユースケーステーブルからメソッドやインタラクションを抽出し、それらをクラス図に統合する。 本手法は,(1)修士課程の学生による「水資源リサイクルプラットフォーム」のための詳細な自然言語使用事例表の開発,(2)これらの表に基づく初期静的クラス図の作成,(3)ChatGPT統合によるクラス図の反復的強化,(4)これらのメソッドをクラス図に再検討・統合すること,(5) PlantUML \cite{plantuml} クラス図を動的に更新し,評価と改善を行った。 発見は、AI駆動のアプローチがクラスダイアグラムの正確性と完全性を大幅に改善することを示している。 さらに、ダイナミックエンハンスメントはアジャイル開発プラクティスとよく一致し、迅速なイテレーションと継続的改善を促進します。 主なコントリビューションには、AIをソフトウェアモデリングタスクに統合する可能性とメリットの実証、システムの振る舞いとインタラクションの包括的な表現の提供、既存のソフトウェアエンジニアリングプロセスの合理化と改善に関するAIの可能性の強調などが含まれる。 将来の研究は、特定された制限に対処し、他のソフトウェアモデルにおけるAIアプリケーションを探るべきである。

Integrating artificial intelligence (AI) into software engineering can transform traditional practices by enhancing efficiency, accuracy, and innovation. This study explores using ChatGPT, an advanced AI language model, to enhance UML class diagrams dynamically, an underexplored area. Traditionally, creating and maintaining class diagrams are manual, time-consuming, and error-prone processes. This research leverages natural language processing (NLP) techniques to automate the extraction of methods and interactions from detailed use case tables and integrate them into class diagrams. The methodology involves several steps: (1) developing detailed natural language use case tables by master's degree students for a "Waste Recycling Platform," (2) creating an initial static class diagram based on these tables, (3) iteratively enriching the class diagram through ChatGPT integration to analyze use cases and suggest methods, (4) reviewing and incorporating these methods into the class diagram, and (5) dynamically updating the PlantUML \cite{plantuml} class diagram, followed by evaluation and refinement. Findings indicate that the AI-driven approach significantly improves the accuracy and completeness of the class diagram. Additionally, dynamic enhancement aligns well with Agile development practices, facilitating rapid iterations and continuous improvement. Key contributions include demonstrating the feasibility and benefits of integrating AI into software modeling tasks, providing a comprehensive representation of system behaviors and interactions, and highlighting AI's potential to streamline and improve existing software engineering processes. Future research should address identified limitations and explore AI applications in other software models.
翻訳日:2024-06-18 19:32:56 公開日:2024-06-16
# 複合現実環境における協調的相互作用研究のための3次元視線追跡

3D Gaze Tracking for Studying Collaborative Interactions in Mixed-Reality Environments ( http://arxiv.org/abs/2406.11003v1 )

ライセンス: Link先を確認
Eduardo Davalos, Yike Zhang, Ashwin T. S., Joyce H. Fonteles, Umesh Timalsina, Guatam Biswas, (参考訳) 本研究では,チームベースシナリオにおける共同作業の促進を目的とした,複合現実感設定に適した3次元視線追跡のための新しいフレームワークを提案する。 従来の視線追跡は、単眼カメラや従来の視線追跡装置によって制限されることが多いが、複数の参加者からの同時データ同期と分析に苦慮している。 提案フレームワークは、最先端のコンピュータビジョンと機械学習技術を利用してこれらの障害を克服し、特殊なハードウェアや複雑なデータ融合に依存することなく正確な3D視線推定を可能にする。 顔認識とディープラーニングを利用して、このフレームワークはリアルタイムに達成し、複数の個人にわたる視線パターンを追跡し、一般的な深度推定エラーに対処し、データセット内の空間的およびアイデンティティの整合性を確保する。 実験の結果,グループ環境における手法の精度と信頼性が示された。 これは、動的および非構造環境における教育的および専門的なトレーニングアプリケーションにおける行動および相互作用分析の大幅な進歩のメカニズムを提供する。

This study presents a novel framework for 3D gaze tracking tailored for mixed-reality settings, aimed at enhancing joint attention and collaborative efforts in team-based scenarios. Conventional gaze tracking, often limited by monocular cameras and traditional eye-tracking apparatus, struggles with simultaneous data synchronization and analysis from multiple participants in group contexts. Our proposed framework leverages state-of-the-art computer vision and machine learning techniques to overcome these obstacles, enabling precise 3D gaze estimation without dependence on specialized hardware or complex data fusion. Utilizing facial recognition and deep learning, the framework achieves real-time, tracking of gaze patterns across several individuals, addressing common depth estimation errors, and ensuring spatial and identity consistency within the dataset. Empirical results demonstrate the accuracy and reliability of our method in group environments. This provides mechanisms for significant advances in behavior and interaction analysis in educational and professional training applications in dynamic and unstructured environments.
翻訳日:2024-06-18 19:32:56 公開日:2024-06-16
# シュレーディンガーの波動力学で量子ジャンプ

Back to Bohr: Quantum Jumps in Schroedinger's Wave Mechanics ( http://arxiv.org/abs/2406.11005v1 )

ライセンス: Link先を確認
Rainer Dick, (参考訳) 量子力学の計測問題は、固有状態の重ね合わせを進化させるのではなく、コヒーレント波の進化が観測可能な固有状態を生成するために破壊されるという問題に関係している。 低エネルギー相互作用は粒子保存ポテンシャル相互作用によって支配されるため、この問題は第2量子化の前に波動力学で既に解決する必要がある。 我々は、短距離ポテンシャルとの相互作用により、アレイを貫通する粒子を検出できる高調波発振器の散乱配列について論じる。 散乱粒子の波動関数の進化は、波動力学において量子ジャンプが持続するというハイゼンベルクの主張と相まって、散乱が非弾性である場合、波動関数は単一振動子部位で崩壊し、弾性散乱のために単一部位で崩壊しないことを示している。 位置観察のボルン規則は、非弾性散乱の波動関数が、異なる散乱中心から非弾性散乱の確率振幅の和を記述するという意味で、可能な散乱状態のエピステマティック重ね合わせに等しいという主張と等価であるが、少なくとも1つの非弾性散乱事象はいつでも起こる。 この波動関数のエピステマティック解釈では、実際の基礎となる非弾性散乱事象は量子ジャンプに対応するが、連続的に進化する波動関数は異なる部位から散乱する確率振幅の連続的な進化しか記述しない。 量子ジャンプにより、発振器アレイの空間分解能によって定義された定位置の観測が得られる。

The measurement problem of quantum mechanics concerns the question under which circumstances coherent wave evolution becomes disrupted to produce eigenstates of observables, instead of evolving superpositions of eigenstates. The problem needs to be addressed already within wave mechanics, before second quantization, because low-energy interactions can be dominated by particle-preserving potential interactions. We discuss a scattering array of harmonic oscillators which can detect particles penetrating the array through interaction with a short-range potential. Evolution of the wave function of scattered particles, combined with Heisenberg's assertion that quantum jumps persist in wave mechanics, indicates that the wave function will collapse around single oscillator sites if the scattering is inelastic, while it will not collapse around single sites for elastic scattering. The Born rule for position observation is then equivalent to the statement that the wave function for inelastic scattering amounts to an epistemic superposition of possible scattering states, in the sense that it describes a sum of probability amplitudes for inelastic scattering off different scattering centers, whereas at most one inelastic scattering event can happen at any moment in time. Within this epistemic interpretation of the wave function, the actual underlying inelastic scattering event corresponds to a quantum jump, whereas the continuously evolving wave function only describes the continuous evolution of probability amplitudes for scattering off different sites. Quantum jumps then yield definite position observations as defined by the spatial resolution of the oscillator array.
翻訳日:2024-06-18 19:32:56 公開日:2024-06-16
# SPEAR:受信者から受信者への音響ニューラルワープフィールド

SPEAR: Receiver-to-Receiver Acoustic Neural Warping Field ( http://arxiv.org/abs/2406.11006v1 )

ライセンス: Link先を確認
Yuhang He, Shitong Xu, Jia-Xing Zhong, Sangyun Shin, Niki Trigoni, Andrew Markham, (参考訳) 本研究では,1つの静止音源を持つ音響3次元空間における空間音響効果予測のための連続受信-受信型音響ニューラルワーピング場SPEARを提案する。 音源から受信者への音響伝搬を厳格にモデル化するために、従来の空間音響特性の知識を必要とするソース・ツー・レシーバ・モデリング法とは違って、1つの参照受信者位置から他のターゲット受信者位置への空間音響効果をワープし、そのターゲット位置に属する全ての空間音響効果を本質的に許容するように予測することを提案する。 SPEARは、より容易にアクセス可能なデータで訓練できるので、2つのロボットに異なる位置の空間音声を独立して記録するように頼みます。 さらに、1つの音源が存在する場合に限って、ワープフィールドの普遍的存在を理論的に証明する。 SPEARネットワーク設計をガイドするために3つの物理原理が組み込まれ、学習されたワープ分野が物理的に意味を持つようになる。 合成, フォトリアリスティック, 実世界の両方のデータセット上でSPEARの優位性を実証し, 様々な下流ロボットタスクに対するSPEARの潜在可能性を示した。

We present SPEAR, a continuous receiver-to-receiver acoustic neural warping field for spatial acoustic effects prediction in an acoustic 3D space with a single stationary audio source. Unlike traditional source-to-receiver modelling methods that require prior space acoustic properties knowledge to rigorously model audio propagation from source to receiver, we propose to predict by warping the spatial acoustic effects from one reference receiver position to another target receiver position, so that the warped audio essentially accommodates all spatial acoustic effects belonging to the target position. SPEAR can be trained in a data much more readily accessible manner, in which we simply ask two robots to independently record spatial audio at different positions. We further theoretically prove the universal existence of the warping field if and only if one audio source presents. Three physical principles are incorporated to guide SPEAR network design, leading to the learned warping field physically meaningful. We demonstrate SPEAR superiority on both synthetic, photo-realistic and real-world dataset, showing the huge potential of SPEAR to various down-stream robotic tasks.
翻訳日:2024-06-18 19:32:56 公開日:2024-06-16
# 大規模言語モデル(LLM)を用いた脅威モデリングとリスク分析

Threat Modelling and Risk Analysis for Large Language Model (LLM)-Powered Applications ( http://arxiv.org/abs/2406.11007v1 )

ライセンス: Link先を確認
Stephen Burabari Tete, (参考訳) 大規模言語モデル(LLM)の出現は、高度な自然言語処理機能を提供することによって、様々なアプリケーションに革命をもたらした。 しかし、このイノベーションは新たなサイバーセキュリティの課題をもたらす。 本稿では,LSMを利用したアプリケーションに適した脅威モデリングとリスク分析について検討する。 データ中毒、プロンプトインジェクション、SQLインジェクション、ジェイルブレイク、コンポジションインジェクションといった潜在的な攻撃に焦点を当てて、セキュリティへの影響を評価し、緩和戦略を提案する。 本稿では,プロアクティブな脅威識別とリスクアセスメントのためのSTRIDEとDREADを組み合わせたフレームワークを提案する。 さらに, エンド・ツー・エンドの脅威モデルの実現可能性について, カスタム・ビルディング LLM を応用したケーススタディにより検討した。 このモデルはShostack氏の4つの質問フレームワークに従っており、LLMが持つユニークな脅威に合わせて調整されている。 我々の目標は、これらの強力なAIツールのセキュリティを強化し、攻撃を阻止し、LLM統合システムの信頼性と整合性を確保する手段を提案することである。

The advent of Large Language Models (LLMs) has revolutionized various applications by providing advanced natural language processing capabilities. However, this innovation introduces new cybersecurity challenges. This paper explores the threat modeling and risk analysis specifically tailored for LLM-powered applications. Focusing on potential attacks like data poisoning, prompt injection, SQL injection, jailbreaking, and compositional injection, we assess their impact on security and propose mitigation strategies. We introduce a framework combining STRIDE and DREAD methodologies for proactive threat identification and risk assessment. Furthermore, we examine the feasibility of an end-to-end threat model through a case study of a custom-built LLM-powered application. This model follows Shostack's Four Question Framework, adjusted for the unique threats LLMs present. Our goal is to propose measures that enhance the security of these powerful AI tools, thwarting attacks, and ensuring the reliability and integrity of LLM-integrated systems.
翻訳日:2024-06-18 19:32:56 公開日:2024-06-16
# Unclonable Secret Sharing

Unclonable Secret Sharing ( http://arxiv.org/abs/2406.11008v1 )

ライセンス: Link先を確認
Prabhanjan Ananth, Vipul Goyal, Jiahui Liu, Qipeng Liu, (参考訳) 制限不能暗号は古典的に不可能な暗号処理に量子力学の原理を利用する。 シークレット・シェアリング(英: secret sharing)とは、シークレット・シェアリング(英: secret sharing)という用語である。 USSのスキームには$n$の株主が存在し、それぞれが量子状態を表す古典的な秘密のシェアを持っている。 すべての関係者(または少なくとも$t$のパーティー)が株式をまとめれば、秘密を回復できる。 重要なことは、自分の株をコピーし、2つの非コミュニケーション当事者にコピーを送ることは不可能であり、両者が秘密を回復することを可能にしている。 我々の研究は、封じ込められない秘密の共有の領域に関する公式な調査を開始し、その意味、構造、および固有の制限について光を当てる。 * 接続: 制限不能な暗号化や位置検証といった、他の量子暗号プリミティブとの接続を調査し、異なるシナリオでUSSを達成することの難しさを示しています。 ※制限された絡み:敵の株主が絡み合いや制限された絡み合いを共有しない場合には、USSの情報理論的な構成を示す。 *大まかな絡み合い:もし敵の株主が無拘束の絡み合い資源(および無拘束の計算)を持つことを許せば、不可避な秘密の共有は不可能であることを証明します。 一方,量子ランダムオラクルモデルでは,非有界な絡み合いを伴っても構成が安定であることを示す。 さらに、これらの敵が絡み合う資源の多項式量しか持たない場合でも、クリフォードスを用いて実装可能な再構成関数を持つ任意の拘束不能な秘密共有スキームが達成不可能であり、対数的に多くのTゲートも達成不可能であることを示す。

Unclonable cryptography utilizes the principles of quantum mechanics to addresses cryptographic tasks that are impossible classically. We introduce a novel unclonable primitive in the context of secret sharing, called unclonable secret sharing (USS). In a USS scheme, there are $n$ shareholders, each holding a share of a classical secret represented as a quantum state. They can recover the secret once all parties (or at least $t$ parties) come together with their shares. Importantly, it should be infeasible to copy their own shares and send the copies to two non-communicating parties, enabling both of them to recover the secret. Our work initiates a formal investigation into the realm of unclonable secret sharing, shedding light on its implications, constructions, and inherent limitations. ** Connections: We explore the connections between USS and other quantum cryptographic primitives such as unclonable encryption and position verification, showing the difficulties to achieve USS in different scenarios. **Limited Entanglement: In the case where the adversarial shareholders do not share any entanglement or limited entanglement, we demonstrate information-theoretic constructions for USS. **Large Entanglement: If we allow the adversarial shareholders to have unbounded entanglement resources (and unbounded computation), we prove that unclonable secret sharing is impossible. On the other hand, in the quantum random oracle model where the adversary can only make a bounded polynomial number of queries, we show a construction secure even with unbounded entanglement. Furthermore, even when these adversaries possess only a polynomial amount of entanglement resources, we establish that any unclonable secret sharing scheme with a reconstruction function implementable using Cliffords and logarithmically many T-gates is also unattainable.
翻訳日:2024-06-18 19:32:56 公開日:2024-06-16
# WeShap: シェープな価値を備えた弱スーパービジョンのソース評価

WeShap: Weak Supervision Source Evaluation with Shapley Values ( http://arxiv.org/abs/2406.11010v1 )

ライセンス: Link先を確認
Naiqing Guan, Nick Koudas, (参考訳) 効率的なデータアノテーションは、現代の機械学習モデルのトレーニングにおいて重要なボトルネックとなっている。 Programmatic Weak Supervision (PWS)パイプラインは、複数の弱い監督ソースを使用して自動的にデータをラベル付けすることで、アノテーションプロセスの迅速化によるソリューションを提供する。 これらの弱監督源のPWSの精度に対する様々な貢献を考えると、その評価に堅牢で効率的な計量を用いることが不可欠である。 これは、PWSパイプラインの動作とパフォーマンスを理解するだけでなく、修正措置の促進にも不可欠です。 本研究では,WeShap値を評価指標として導入し,シャプリー値の理論的基盤を生かして,プロキシPWSパイプライン内の弱監督源の寄与度を定量化する。 動的プログラミングを用いてWeShap値の効率的な計算を行い、弱監督源の数に対して2次計算複雑性を実現する。 本実験は,有益または有害なラベル付け関数の同定,PWSパイプラインの改良,誤ラベルデータの修正など,WeShap値の汎用性を示す。 さらに、WeShapの値は、PWSパイプラインの振る舞いを理解し、ラベルのずれたデータの特定の事例を精査するのに役立ちます。 当初は特定のプロキシPWSパイプラインから派生したものの,WeShap値の他のPWSパイプライン構成への一般化性を実証的に実証した。 機械学習モデルのトレーニングにおけるデータ品質向上におけるWeShap値の有効性について,従来の最先端手法と比較して,PWSパイプラインの改訂により,下流モデルの精度が4.8ポイント向上したことを示す。

Efficient data annotation stands as a significant bottleneck in training contemporary machine learning models. The Programmatic Weak Supervision (PWS) pipeline presents a solution by utilizing multiple weak supervision sources to automatically label data, thereby expediting the annotation process. Given the varied contributions of these weak supervision sources to the accuracy of PWS, it is imperative to employ a robust and efficient metric for their evaluation. This is crucial not only for understanding the behavior and performance of the PWS pipeline but also for facilitating corrective measures. In our study, we introduce WeShap values as an evaluation metric, which quantifies the average contribution of weak supervision sources within a proxy PWS pipeline, leveraging the theoretical underpinnings of Shapley values. We demonstrate efficient computation of WeShap values using dynamic programming, achieving quadratic computational complexity relative to the number of weak supervision sources. Our experiments demonstrate the versatility of WeShap values across various applications, including the identification of beneficial or detrimental labeling functions, refinement of the PWS pipeline, and rectification of mislabeled data. Furthermore, WeShap values aid in comprehending the behavior of the PWS pipeline and scrutinizing specific instances of mislabeled data. Although initially derived from a specific proxy PWS pipeline, we empirically demonstrate the generalizability of WeShap values to other PWS pipeline configurations. Our findings indicate a noteworthy average improvement of 4.8 points in downstream model accuracy through the revision of the PWS pipeline compared to previous state-of-the-art methods, underscoring the efficacy of WeShap values in enhancing data quality for training machine learning models.
翻訳日:2024-06-18 19:32:56 公開日:2024-06-16
# ワントレーニングランにおけるデータ共有

Data Shapley in One Training Run ( http://arxiv.org/abs/2406.11011v1 )

ライセンス: Link先を確認
Jiachen T. Wang, Prateek Mittal, Dawn Song, Ruoxi Jia, (参考訳) 生成人工知能(AI)システムは、テキスト、画像、ビデオ、その他のメディアを生成するために、大規模なデータコーパスで訓練されている。 このようなシステムは、データコントリビュータのトレーニングに関する著作権権に侵害されるのではないか、という懸念が高まっている。 生成AIの著作権問題に対処するため、我々は、AI生成コンテンツ作成への貢献に比例して著作権所有者を補償する枠組みを提案する。 コントリビューションの計量は、現代の生成AIモデルの確率的性質を活用し、経済学における協調ゲーム理論の技法を用いて定量的に決定される。 このフレームワークは、AI開発者が高品質なトレーニングデータにアクセスすることで、モデルパフォーマンスを向上させるプラットフォームを可能にする。 一方、著作権所有者は公正な補償を受け、生成モデルトレーニングのための関連データの継続的な提供を推進している。 実験により,本フレームワークは,著作権所有者間の収益の公平かつ解釈可能な分配を確保するため,美術作品生成において最も関連性の高いデータソースの同定に成功していることが示された。

Generative artificial intelligence (AI) systems are trained on large data corpora to generate new pieces of text, images, videos, and other media. There is growing concern that such systems may infringe on the copyright interests of training data contributors. To address the copyright challenges of generative AI, we propose a framework that compensates copyright owners proportionally to their contributions to the creation of AI-generated content. The metric for contributions is quantitatively determined by leveraging the probabilistic nature of modern generative AI models and using techniques from cooperative game theory in economics. This framework enables a platform where AI developers benefit from access to high-quality training data, thus improving model performance. Meanwhile, copyright owners receive fair compensation, driving the continued provision of relevant data for generative model training. Experiments demonstrate that our framework successfully identifies the most relevant data sources used in artwork generation, ensuring a fair and interpretable distribution of revenues among copyright owners.
翻訳日:2024-06-18 19:32:56 公開日:2024-06-16
# ドットの接続:New York Times Connections Word Gameを用いたLLMの抽象推論能力の評価

Connecting the Dots: Evaluating Abstract Reasoning Capabilities of LLMs Using the New York Times Connections Word Game ( http://arxiv.org/abs/2406.11012v1 )

ライセンス: Link先を確認
Prisha Samadarshi, Mariam Mustafa, Anushka Kulkarni, Raven Rothkopf, Tuhin Chakrabarty, Smaranda Muresan, (参考訳) New York Times Connectionsゲームは、ワードパズル愛好家のための人気で挑戦的な追跡ゲームとして登場した。 我々は200のConnectionsゲームを収集し、最先端の大規模言語モデル(LLM)の性能を専門家や初心者の人間プレイヤーに対して評価する。 以上の結果から,多種多様なベンチマークで顕著な推論能力を示した最高のLPMであるGPT-4oでも,ゲーム全体の8%しか解けないことがわかった。 GPT-4oと比較すると、初心者や専門家のプレイヤーはGPT-4oより優れており、専門家のプレイヤーはGPT-4oよりも優れていた。 我々の理解を深めるために、私たちはコネクティクスゲームにおける単語の分類に成功するために必要な知識タイプの分類を作成し、LLMが連想的、百科事典的、言語的知識に苦しむことを明らかにした。 我々の発見は、New York Times Connectionsゲームが、人間とAIシステムの抽象的推論能力を評価するための挑戦的なベンチマークとして確立されている。

The New York Times Connections game has emerged as a popular and challenging pursuit for word puzzle enthusiasts. We collect 200 Connections games to evaluate the performance of state-of-the-art large language models (LLMs) against expert and novice human players. Our results show that even the best-performing LLM, GPT-4o, which has otherwise shown impressive reasoning abilities on a wide variety of benchmarks, can only fully solve 8% of the games. Compared to GPT-4o, novice and expert players perform better, with expert human players significantly outperforming GPT-4o. To deepen our understanding we create a taxonomy of the knowledge types required to successfully categorize words in the Connections game, revealing that LLMs struggle with associative, encyclopedic, and linguistic knowledge. Our findings establish the New York Times Connections game as a challenging benchmark for evaluating abstract reasoning capabilities in humans and AI systems.
翻訳日:2024-06-18 19:23:12 公開日:2024-06-16
# ニューラルネットワークにおける潜時通信

Latent Communication in Artificial Neural Networks ( http://arxiv.org/abs/2406.11014v1 )

ライセンス: Link先を確認
Luca Moschella, (参考訳) NNが様々な科学分野や産業分野に浸透するにつれ、その表現の普遍性と再利用性を理解することが重要である。 コアでは、これらのネットワークは入力データの潜在空間として示される中間的なニューラル表現を生成し、その後、特定の下流タスクを実行するためにそれらを活用する。 この論文は神経表現の普遍性と再利用性に焦点を当てている。 NNが作成した潜在表現は、トレーニング中のランダム性、モデルアーキテクチャ、さらにはデータドメインといった要因に適応して、特定のトレーニングされたインスタンスに限定するのでしょうか? この適応的な品質は、Latent Communicationの概念を紹介します。これは、表現がニューラルスペース間で統一または再利用可能であることを記述した現象です。我々の研究から得られた顕著な観察は、Latent Expressionsの類似性の出現です。これは、区別されたあるいは一見無関係なNNから生まれたものであるとしても、遅延表現の出現です。セマンティックリンクを確立する2つのデータディストリビューション間の部分的な対応を利用して、これらの表現が、Relative Representationと呼ばれる普遍的な表現に投影されるか、別の空間に直接変換されるかのどちらかを見つけました。Latent Communicationは、トレーニング規則、アーキテクチャ、またはデータモダリティに関係なく、独立にトレーニングされたNN間の橋渡しを可能にします -- セマンティックコンテンツが同じままである限り(例、イメージ、そしてキャプション)、トレーニングされたデータモダリティです。 これは下流のタスクの生成、分類、検索の両方に当てはまり、教師付き、弱教師付き、教師なしの設定であり、画像、テキスト、オーディオ、グラフなど様々なデータモダリティにまたがる。 [...]

As NNs permeate various scientific and industrial domains, understanding the universality and reusability of their representations becomes crucial. At their core, these networks create intermediate neural representations, indicated as latent spaces, of the input data and subsequently leverage them to perform specific downstream tasks. This dissertation focuses on the universality and reusability of neural representations. Do the latent representations crafted by a NN remain exclusive to a particular trained instance, or can they generalize across models, adapting to factors such as randomness during training, model architecture, or even data domain? This adaptive quality introduces the notion of Latent Communication -- a phenomenon that describes when representations can be unified or reused across neural spaces. A salient observation from our research is the emergence of similarities in latent representations, even when these originate from distinct or seemingly unrelated NNs. By exploiting a partial correspondence between the two data distributions that establishes a semantic link, we found that these representations can either be projected into a universal representation, coined as Relative Representation, or be directly translated from one space to another. Latent Communication allows for a bridge between independently trained NN, irrespective of their training regimen, architecture, or the data modality they were trained on -- as long as the data semantic content stays the same (e.g., images and their captions). This holds true for both generation, classification and retrieval downstream tasks; in supervised, weakly supervised, and unsupervised settings; and spans various data modalities including images, text, audio, and graphs -- showcasing the universality of the Latent Communication phenomenon. [...]
翻訳日:2024-06-18 19:23:12 公開日:2024-06-16
# GPUハードウェアアクセラレータのための最適化投機サンプリング

Optimized Speculative Sampling for GPU Hardware Accelerators ( http://arxiv.org/abs/2406.11016v1 )

ライセンス: Link先を確認
Dominik Wagner, Seanie Lee, Ilja Baumann, Philipp Seeberger, Korbinian Riedhammer, Tobias Bocklet, (参考訳) 本研究では,並列ハードウェアアクセラレータの投機的サンプリングを最適化し,サンプリング速度を向上する。 投機的サンプリングに必要な中間行列のかなりの部分が同時に計算できることに気付いた。 これにより、ワークロードを複数のGPUスレッドに分散し、スレッドブロック内のマトリックスセグメントでの同時操作を可能にします。 さらに、高速なオンチップメモリを用いて中間結果を保存し、異なるタイプのメモリ間での読み込みと書き込みの遅い操作の頻度を最小化する。 その結果、プロファイリング時間の改善は、ベースライン実装と比較して6%から13%まで、精度を損なうことなく実現できた。 さらに投機サンプリングを加速するため、ソフトマックスでパラメータ化された確率分布をシグモイドで近似する。 この近似手法は、プロファイリング時間を37%から94%に改善し、精度はわずかに低下する。 最適化手法の有効性を検証するために,音声認識と要約タスクの両方について広範な実験を行った。

In this work, we optimize speculative sampling for parallel hardware accelerators to improve sampling speed. We notice that substantial portions of the intermediate matrices necessary for speculative sampling can be computed concurrently. This allows us to distribute the workload across multiple GPU threads, enabling simultaneous operations on matrix segments within thread blocks. Additionally, we use fast on-chip memory to store intermediate results, thereby minimizing the frequency of slow read and write operations across different types of memory. This results in profiling time improvements ranging from 6% to 13% relative to the baseline implementation, without compromising accuracy. To further accelerate speculative sampling, probability distributions parameterized by softmax are approximated by sigmoid. This approximation approach results in significantly greater relative improvements in profiling time, ranging from 37% to 94%, with a slight decline in accuracy. We conduct extensive experiments on both automatic speech recognition and summarization tasks to validate the effectiveness of our optimization methods.
翻訳日:2024-06-18 19:23:12 公開日:2024-06-16
# 単眼深度・視力計測のための自己教師付き事前トレーニングとファインタニング

Self-supervised Pretraining and Finetuning for Monocular Depth and Visual Odometry ( http://arxiv.org/abs/2406.11019v1 )

ライセンス: Link先を確認
Boris Chidlovskii, Leonid Antsfeld, (参考訳) 単眼深度と視力計測の同時推定を行うために,2つのステップで自己教師付きトランスフォーマーに基づく学習モデルを提案する。 最初のステップは、クロスビュー補完目標(CroCo)を用いて3次元幾何学を学ぶための一般的な事前学習と、アノテーションのないビデオの自己教師付き微調整である。 視覚変換器,高密度予測変換器,アダプタなどの標準コンポーネントを用いて,我々の自己教師型モデルが「ベルとホイッスルなしで」最先端の性能に達することを示す。 提案手法の有効性を,静的,動的,屋内,屋外の6つのベンチマークデータセット上で,合成画像と実画像を用いて評価することにより実証する。 全てのデータセットに対して,本手法は,特に深度予測タスクにおいて,最先端の手法よりも優れている。

For the task of simultaneous monocular depth and visual odometry estimation, we propose learning self-supervised transformer-based models in two steps. Our first step consists in a generic pretraining to learn 3D geometry, using cross-view completion objective (CroCo), followed by self-supervised finetuning on non-annotated videos. We show that our self-supervised models can reach state-of-the-art performance 'without bells and whistles' using standard components such as visual transformers, dense prediction transformers and adapters. We demonstrate the effectiveness of our proposed method by running evaluations on six benchmark datasets, both static and dynamic, indoor and outdoor, with synthetic and real images. For all datasets, our method outperforms state-of-the-art methods, in particular for depth prediction task.
翻訳日:2024-06-18 19:23:12 公開日:2024-06-16
# RUPBench:大規模言語モデルにおけるロバスト性評価のための摂動下でのベンチマーク

RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models ( http://arxiv.org/abs/2406.11020v1 )

ライセンス: Link先を確認
Yuqing Wang, Yun Zhao, (参考訳) 大規模言語モデル(LLM)の利用の増加に伴い、多様な実環境において信頼性の高い性能を確保することが不可欠である。 彼らの顕著な業績にもかかわらず、LLMは敵の入力に苦しむことが多く、実際的な応用においてその効果に大きな影響を及ぼした。 LLMのロバスト性を体系的に理解するために,多種多様な推論タスクにおけるLLMロバスト性を評価するための総合的なベンチマークRUPBenchを提案する。 本ベンチマークでは,コモンセンス,算術,論理,知識集約的推論に分類された15の推論データセットを取り入れ,語彙,構文,意味レベルにおいて9種類のテキスト摂動を導入する。 GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。 以上の結果から,大きなモデルでは摂動に対する堅牢性が高い傾向が示唆された。 加えて、一般的なエラータイプは手動検査によって特定され、異なる推論コンテキストにおいてLLMが直面している特定の課題を明らかにする。 この研究は、LLMが多様でノイズの多い入力を効果的に処理するためにさらなる改善を必要としている領域についての洞察を提供する。

With the increasing use of large language models (LLMs), ensuring reliable performance in diverse, real-world environments is essential. Despite their remarkable achievements, LLMs often struggle with adversarial inputs, significantly impacting their effectiveness in practical applications. To systematically understand the robustness of LLMs, we present RUPBench, a comprehensive benchmark designed to evaluate LLM robustness across diverse reasoning tasks. Our benchmark incorporates 15 reasoning datasets, categorized into commonsense, arithmetic, logical, and knowledge-intensive reasoning, and introduces nine types of textual perturbations at lexical, syntactic, and semantic levels. By examining the performance of state-of-the-art LLMs such as GPT-4o, Llama3, Phi-3, and Gemma on both original and perturbed datasets, we provide a detailed analysis of their robustness and error patterns. Our findings highlight that larger models tend to exhibit greater robustness to perturbations. Additionally, common error types are identified through manual inspection, revealing specific challenges faced by LLMs in different reasoning contexts. This work provides insights into areas where LLMs need further improvement to handle diverse and noisy inputs effectively.
翻訳日:2024-06-18 19:23:12 公開日:2024-06-16
# α$-SSC:不確かさを意識したカメラベースの3Dセマンティック・シーン・コンプリート

$α$-SSC: Uncertainty-Aware Camera-based 3D Semantic Scene Completion ( http://arxiv.org/abs/2406.11021v1 )

ライセンス: Link先を確認
Sanbao Su, Nuo Chen, Felix Juefei-Xu, Chen Feng, Fei Miao, (参考訳) 自動運転車(AV)の認識の領域では、計画やマッピングといったタスクにおいて、3Dシーンの理解が最重要である。 セマンティックシーン補完(SSC)は、限られた観測からシーンの幾何学と意味を推測することを目的としている。 カメラベースのSSCは、手頃な価格とリッチな視覚的手がかりによって人気を得ているが、既存の手法はモデルに固有の不確実性を無視していることが多い。 そこで我々は,不確実性を考慮したカメラによる3Dセマンティックシーン補完手法(\alpha$-SSC)を提案する。 提案手法では,深度モデル(Depth-UP)からの不確実な伝播フレームワークを組み,幾何学的完備化(最大11.58%改良)と意味的セグメンテーション(最大14.61%改良)を向上する。 さらに,SSCデータセットの高レベルクラス不均衡を効果的に解消し,SSCの不確かさを定量化する階層型共形予測手法を提案する。 幾何レベルでは、安全クリティカルクラス(45%改善)の占有リコールを大幅に改善し、性能オーバーヘッドを最小化(3.4%削減)するKL発散に基づくスコア関数を提案する。 不確実性定量化のために、定義されたカバレッジ保証を維持しつつ、より小さな予測セットサイズを達成する能力を示す。 ベースラインと比較すると、セットサイズを最大85%削減できる。 我々の貢献は、SSCの精度と堅牢性において大きな進歩を示すものであり、自律認識システムにおける注目すべき一歩である。

In the realm of autonomous vehicle (AV) perception, comprehending 3D scenes is paramount for tasks such as planning and mapping. Semantic scene completion (SSC) aims to infer scene geometry and semantics from limited observations. While camera-based SSC has gained popularity due to affordability and rich visual cues, existing methods often neglect the inherent uncertainty in models. To address this, we propose an uncertainty-aware camera-based 3D semantic scene completion method ($\alpha$-SSC). Our approach includes an uncertainty propagation framework from depth models (Depth-UP) to enhance geometry completion (up to 11.58% improvement) and semantic segmentation (up to 14.61% improvement). Additionally, we propose a hierarchical conformal prediction (HCP) method to quantify SSC uncertainty, effectively addressing high-level class imbalance in SSC datasets. On the geometry level, we present a novel KL divergence-based score function that significantly improves the occupied recall of safety-critical classes (45% improvement) with minimal performance overhead (3.4% reduction). For uncertainty quantification, we demonstrate the ability to achieve smaller prediction set sizes while maintaining a defined coverage guarantee. Compared with baselines, it achieves up to 85% reduction in set sizes. Our contributions collectively signify significant advancements in SSC accuracy and robustness, marking a noteworthy step forward in autonomous perception systems.
翻訳日:2024-06-18 19:23:12 公開日:2024-06-16
# 物理インフォームドディープラーニングと部分伝達学習による高損失データを用いた軸受故障診断

Physics-Informed Deep Learning and Partial Transfer Learning for Bearing Fault Diagnosis in the Presence of Highly Missing Data ( http://arxiv.org/abs/2406.11023v1 )

ライセンス: Link先を確認
Mohammadreza Kavianpour, Parisa Kavianpour, Amin Ramezani, (参考訳) 断層診断を行う上で最も重要な障害の1つは、様々な断層タイプに対するラベル付きデータの欠如である。 また、センサーが取得したデータはラベルを欠くことが多く、大量の欠落データを持っている。 本稿では、物理インフォームド深層学習技術を用いて合成ラベル付きデータを生成するPTPAI法を提案することにより、これらの課題に対処する。 ラベル付けされた合成データがソースドメインを構成するのに対して、ラベル付けされていないデータと欠落したデータがターゲットドメインに存在する。 その結果、不均衡なクラス問題と部分セットの故障診断ハードルが出現する。 これらの課題に対処するため、RF-Mixupアプローチは不均衡なクラスを扱うために使用される。 ドメイン適応戦略として、MK-MMSDとCDANを用いて、合成データと実際のデータの分散の格差を軽減する。 さらに、クラスとインスタンスレベルで重み付け手法を適用することで、部分集合の課題に取り組む。 CWRUとJNUデータセットの実験結果は、提案手法がこれらの問題に効果的に対処していることを示している。

One of the most significant obstacles in bearing fault diagnosis is a lack of labeled data for various fault types. Also, sensor-acquired data frequently lack labels and have a large amount of missing data. This paper tackles these issues by presenting the PTPAI method, which uses a physics-informed deep learning-based technique to generate synthetic labeled data. Labeled synthetic data makes up the source domain, whereas unlabeled data with missing data is present in the target domain. Consequently, imbalanced class problems and partial-set fault diagnosis hurdles emerge. To address these challenges, the RF-Mixup approach is used to handle imbalanced classes. As domain adaptation strategies, the MK-MMSD and CDAN are employed to mitigate the disparity in distribution between synthetic and actual data. Furthermore, the partial-set challenge is tackled by applying weighting methods at the class and instance levels. Experimental outcomes on the CWRU and JNU datasets indicate that the proposed approach effectively addresses these problems.
翻訳日:2024-06-18 19:23:12 公開日:2024-06-16
# 発声音声における高周波検出のための大規模言語モデル

Large Language Models for Dysfluency Detection in Stuttered Speech ( http://arxiv.org/abs/2406.11025v1 )

ライセンス: Link先を確認
Dominik Wagner, Sebastian P. Bayerl, Ilja Baumann, Korbinian Riedhammer, Elmar Nöth, Tobias Bocklet, (参考訳) 音声言語における障害の正確な検出は、自動音声処理と言語処理の部品の性能向上に役立ち、より包括的な音声および言語技術の開発を支援する。 音声やビデオなどの非語彙入力の普遍的な学習者やプロセッサとしての大規模言語モデル(LLM)の展開に対する近年の傾向に触発されて,言語モデリング問題としての多ラベルディフルエンシ検出の課題にアプローチする。 本稿では,音声エンコーダモデルから抽出した音響表現をLLMに自動音声認識システムと音響表現で生成し,英語とドイツ語を含む3つのデータセット上で,ディフルエンシラベルを予測するシステムを提案する。 実験の結果,本システムは音響情報と語彙情報を効果的に結合し,マルチラベルスタブリング検出タスクにおける競合的な結果が得られることがわかった。

Accurately detecting dysfluencies in spoken language can help to improve the performance of automatic speech and language processing components and support the development of more inclusive speech and language technologies. Inspired by the recent trend towards the deployment of large language models (LLMs) as universal learners and processors of non-lexical inputs, such as audio and video, we approach the task of multi-label dysfluency detection as a language modeling problem. We present hypotheses candidates generated with an automatic speech recognition system and acoustic representations extracted from an audio encoder model to an LLM, and finetune the system to predict dysfluency labels on three datasets containing English and German stuttered speech. The experimental results show that our system effectively combines acoustic and lexical information and achieves competitive results on the multi-label stuttering detection task.
翻訳日:2024-06-18 19:23:12 公開日:2024-06-16
# セグメンテーション基礎モデルによる医用画像分類の強化

Boosting Medical Image Classification with Segmentation Foundation Model ( http://arxiv.org/abs/2406.11026v1 )

ライセンス: Link先を確認
Pengfei Gu, Zihan Zhao, Hongxiao Wang, Yaopeng Peng, Yizhe Zhang, Nishchal Sapkota, Chaoli Wang, Danny Z. Chen, (参考訳) Segment Anything Model (SAM)は、自然画像のゼロショットセグメンテーションにおいて印象的な機能を示す。 近年,SAMは医用画像セグメンテーションの分野で大きな注目を集めている。 しかし,医用画像の分類にSAMのパワーを利用する方法を示す研究はない。 このギャップを埋め、SAMを医用画像解析の真の「基礎モデル」にするためには、SAMを特に医用画像分類のためにカスタマイズすることが望ましい。 本稿では,原画像の変種を生成して分類データセットを増強する,SAMに基づく革新的な拡張手法であるSAMAug-Cを紹介する。 強化データセットはディープラーニングの分類モデルをトレーニングするために使用することができ、それによって分類性能が向上する。 さらに,生画像とSAMAug-C強調画像の入力を同時に処理する新しいフレームワークを提案する。 3つの公開データセットの実験は、我々の新しいアプローチの有効性を検証する。

The Segment Anything Model (SAM) exhibits impressive capabilities in zero-shot segmentation for natural images. Recently, SAM has gained a great deal of attention for its applications in medical image segmentation. However, to our best knowledge, no studies have shown how to harness the power of SAM for medical image classification. To fill this gap and make SAM a true ``foundation model'' for medical image analysis, it is highly desirable to customize SAM specifically for medical image classification. In this paper, we introduce SAMAug-C, an innovative augmentation method based on SAM for augmenting classification datasets by generating variants of the original images. The augmented datasets can be used to train a deep learning classification model, thereby boosting the classification performance. Furthermore, we propose a novel framework that simultaneously processes raw and SAMAug-C augmented image input, capitalizing on the complementary information that is offered by both. Experiments on three public datasets validate the effectiveness of our new approach.
翻訳日:2024-06-18 19:23:12 公開日:2024-06-16
# ユニバーサル言語間テキスト分類

Universal Cross-Lingual Text Classification ( http://arxiv.org/abs/2406.11028v1 )

ライセンス: Link先を確認
Riya Savant, Anushka Shelke, Sakshi Todmal, Sanskruti Kanphade, Ananya Joshi, Raviraj Joshi, (参考訳) 自然言語処理における不可欠なタスクであるテキスト分類では、テキストを事前に定義されたクラスに自動分類する。 低リソース言語のための教師付きラベル付きデータセットの作成は、大きな課題となる。 低リソース言語の言語ポテンシャルをアンロックするには、教師付きラベルによる堅牢なデータセットが必要である。 しかし、そのようなデータセットは乏しく、ラベル空間は限られていることが多い。 このギャップに対処するために、私たちは様々な言語で既存のラベルやデータセットを最適化することを目指しています。 本研究では,言語間の統一モデルを活用したユニバーサル言語間テキスト分類の新たな視点を提案する。 我々のアプローチは、訓練中に異なる言語からの教師付きデータをブレンドして普遍的なモデルを作成することである。 対象分類タスクの教師付きデータは、異なるラベルをカバーする異なる言語に由来する可能性がある。 主な目標は、ラベルと言語カバレッジを強化することであり、様々な言語のラベルの結合を表すラベルセットを目指している。 我々は, 強力な多言語SBERTをベースモデルとして使用することを提案し, 新たなトレーニング戦略の実現を可能にした。 この戦略は、訓練中に遭遇しない言語でテキストを分類できる言語間言語移行シナリオにおけるモデルの適応性と有効性に寄与する。 そこで本論文は,言語間テキスト分類の難しさを掘り下げ,低リソース言語への応用に特に焦点を置き,堅牢で適応可能な普遍的言語間モデルを開発するための方法論と意味を探求する。

Text classification, an integral task in natural language processing, involves the automatic categorization of text into predefined classes. Creating supervised labeled datasets for low-resource languages poses a considerable challenge. Unlocking the language potential of low-resource languages requires robust datasets with supervised labels. However, such datasets are scarce, and the label space is often limited. In our pursuit to address this gap, we aim to optimize existing labels/datasets in different languages. This research proposes a novel perspective on Universal Cross-Lingual Text Classification, leveraging a unified model across languages. Our approach involves blending supervised data from different languages during training to create a universal model. The supervised data for a target classification task might come from different languages covering different labels. The primary goal is to enhance label and language coverage, aiming for a label set that represents a union of labels from various languages. We propose the usage of a strong multilingual SBERT as our base model, making our novel training strategy feasible. This strategy contributes to the adaptability and effectiveness of the model in cross-lingual language transfer scenarios, where it can categorize text in languages not encountered during training. Thus, the paper delves into the intricacies of cross-lingual text classification, with a particular focus on its application for low-resource languages, exploring methodologies and implications for the development of a robust and adaptable universal cross-lingual model.
翻訳日:2024-06-18 19:23:12 公開日:2024-06-16
# Marathiにおける単語の計算:テキスト分析と情報検索の改善のためのTF-IDFアプローチ

Curating Stopwords in Marathi: A TF-IDF Approach for Improved Text Analysis and Information Retrieval ( http://arxiv.org/abs/2406.11029v1 )

ライセンス: Link先を確認
Rohan Chavan, Gaurav Patil, Vishal Madle, Raviraj Joshi, (参考訳) ストップワードは、文書の意味や重要性を決定するのにはほとんど価値がないと考えられる言語で一般的に使われる単語である。 これらの単語は、ほとんどのテキストで頻繁に発生し、感情分析やテキスト分類といったタスクにはあまり有用な情報を提供していない。 一方、Marathiのような低リソースのインドの言語は非常に制限され、標準化されており、利用可能なパッケージで使用できるが、それらのパッケージで利用可能な単語の数は少ない。 我々の研究は、マハコルプス(MahaCorpus)を用いてマラティア語で2480万の文で停止語をキュレーションすることを目的としている。 TF-IDFアプローチと人間の評価を組み合わせることで,400単語の強い停止語リストをキュレートする。 テキスト分類タスクに停止語除去を適用し,その有効性を示す。 この作業は、低リソース言語でのストップワードキュレーションの簡単なレシピも提示している。 ストップワードはmahaNLPライブラリに統合され、https://github.com/l3cube-pune/MarathiNLPで公開されている。

Stopwords are commonly used words in a language that are often considered to be of little value in determining the meaning or significance of a document. These words occur frequently in most texts and don't provide much useful information for tasks like sentiment analysis and text classification. English, which is a high-resource language, takes advantage of the availability of stopwords, whereas low-resource Indian languages like Marathi are very limited, standardized, and can be used in available packages, but the number of available words in those packages is low. Our work targets the curation of stopwords in the Marathi language using the MahaCorpus, with 24.8 million sentences. We make use of the TF-IDF approach coupled with human evaluation to curate a strong stopword list of 400 words. We apply the stop word removal to the text classification task and show its efficacy. The work also presents a simple recipe for stopword curation in a low-resource language. The stopwords are integrated into the mahaNLP library and publicly available on https://github.com/l3cube-pune/MarathiNLP .
翻訳日:2024-06-18 19:23:12 公開日:2024-06-16
# FoodieQA:中国食文化の細粒度理解のためのマルチモーダルデータセット

FoodieQA: A Multimodal Dataset for Fine-Grained Understanding of Chinese Food Culture ( http://arxiv.org/abs/2406.11030v1 )

ライセンス: Link先を確認
Wenyan Li, Xinyu Zhang, Jiaang Li, Qiwei Peng, Raphael Tang, Li Zhou, Weijia Zhang, Guimin Hu, Yifei Yuan, Anders Søgaard, Daniel Hershcovich, Desmond Elliott, (参考訳) 食品は豊かな文化的遺産であり、個人と社会団体の両方にとって不可欠である。 そこで本研究では,中国各地の食文化の複雑な特徴を手作業で収集した,きめ細かな画像テキストデータセットであるFoodieQAを紹介した。 視覚言語モデル(VLM)と大規模言語モデル(LLM)を,新たに収集した未確認食品画像およびそれに対応する質問に対して評価する。 FoodieQAは、複数の画像と1つの画像とテキストのみの記述に基づいて、モデルがそれぞれ質問に答える必要がある3つの多重選択質問回答タスクで構成されている。 LLMはテキストベースの質問応答に優れ、人間の精度を上回るが、オープンソースのVLMはマルチイメージでは41倍、シングルイメージのVQAタスクでは21倍と依然として不足している。 以上の結果から,食品とその文化的意味の理解は依然として困難かつ未解明の方向にあることが示唆された。

Food is a rich and varied dimension of cultural heritage, crucial to both individuals and social groups. To bridge the gap in the literature on the often-overlooked regional diversity in this domain, we introduce FoodieQA, a manually curated, fine-grained image-text dataset capturing the intricate features of food cultures across various regions in China. We evaluate vision-language Models (VLMs) and large language models (LLMs) on newly collected, unseen food images and corresponding questions. FoodieQA comprises three multiple-choice question-answering tasks where models need to answer questions based on multiple images, a single image, and text-only descriptions, respectively. While LLMs excel at text-based question answering, surpassing human accuracy, the open-sourced VLMs still fall short by 41\% on multi-image and 21\% on single-image VQA tasks, although closed-weights models perform closer to human levels (within 10\%). Our findings highlight that understanding food and its cultural implications remains a challenging and under-explored direction.
翻訳日:2024-06-18 19:23:12 公開日:2024-06-16
# 1+1)$次元自由スカラー場の理論における絡み合い:連続体と離散体の間のTiptoeing

Entanglement in $(1+1)$-dimensional Free Scalar Field Theory: Tiptoeing between Continuum and Discrete ( http://arxiv.org/abs/2406.11031v1 )

ライセンス: Link先を確認
Dimitrios Katsinis, Georgios Pastras, (参考訳) 基底状態の絡み合いエントロピーに関する古典的な研究を、$(1+1)$-dimensional free scalar field theoryで概観する。 エンタングルメントエントロピーの計算法間の同定を指摘し, 離散化理論で発達した形式主義を用いて連続理論の結果を得る方法を示す。 エンタングルメントスペクトルを指定し、有限長さ$L$の区間で定義される理論のエンタングルメントエントロピーを計算する。 最後に、離散化理論で得られる表現の連続極限を通して、モジュラーフローを使わずに、モジュラーハミルトニアンを直接導出する。 特定の座標系において、モジュラーハミルトニアン (modular Hamiltonian) は、リンドラー・ウェッジ上の自由体ハミルトニアン (free field Hamiltonian) の形を仮定する。

We review some classic works on ground state entanglement entropy in $(1+1)$-dimensional free scalar field theory. We point out identifications between the methods for the calculation of entanglement entropy and we show how the formalism developed for the discretized theory can be utilized in order to obtain results in the continuous theory. We specify the entanglement spectrum and we calculate the entanglement entropy for the theory defined on an interval of finite length $L$. Finally, we derive the modular Hamiltonian directly, without using the modular flow, via the continuous limit of the expressions obtained in the discretized theory. In a specific coordinate system, the modular Hamiltonian assumes the form of a free field Hamiltonian on the Rindler wedge.
翻訳日:2024-06-18 19:23:12 公開日:2024-06-16
# HAIChart: 人間とAIがペアリングした可視化システム

HAIChart: Human and AI Paired Visualization System ( http://arxiv.org/abs/2406.11033v1 )

ライセンス: Link先を確認
Yupeng Xie, Yuyu Luo, Guoliang Li, Nan Tang, (参考訳) ビジネスインテリジェンスとデータサイエンスにおけるデータ視覚化の重要性の高まりは、大規模なデータセットから意味のある視覚化を効率的に生成できるツールの必要性を強調している。 既存のツールは、専門家の集中的な関与を必要とする人力ツール(TableauやPowerBIなど)と、AIによる自動化ツール(DracoやTable2Chartsなど)の2つのカテゴリに分類される。 本稿では,両世界を最大限に活用することを目的とする。 私たちのキーとなるアイデアは、最初は手作業を最小限に抑えるために高品質な視覚化セットを自動生成し、ユーザからのフィードバックでプロセスを反復的に洗練して、彼らのニーズをより緊密に整合させることです。 この目的のために,ユーザのフィードバックを取り入れることで,与えられたデータセットに対する優れた視覚化を反復的に推奨するように設計された強化学習ベースのフレームワークであるHAIChartを提案する。 具体的には,モンテカルログラフ検索に基づくビジュアライゼーション生成アルゴリズムを合成報酬関数と組み合わせて,ビジュアライゼーション空間を効率的に探索し,良質なビジュアライゼーションを自動的に生成する手法を提案する。 ユーザフィードバックを積極的に取り入れる可視化ヒント機構を考案し,可視化生成モジュールを段階的に改良する。 さらに、トップk可視化ヒント選択問題はNPハードであり、効率的なアルゴリズムを設計することを証明する。 我々は定量的評価とユーザスタディの両方を行い、HAIChartは最先端の人力ツール(リコールでは21%、CPUでは1.8倍)とAIによる自動ツール(Hit@3とR10@30では25.1%、それぞれ14.9%)を大きく上回っていることを示した。

The growing importance of data visualization in business intelligence and data science emphasizes the need for tools that can efficiently generate meaningful visualizations from large datasets. Existing tools fall into two main categories: human-powered tools (e.g., Tableau and PowerBI), which require intensive expert involvement, and AI-powered automated tools (e.g., Draco and Table2Charts), which often fall short of guessing specific user needs. In this paper, we aim to achieve the best of both worlds. Our key idea is to initially auto-generate a set of high-quality visualizations to minimize manual effort, then refine this process iteratively with user feedback to more closely align with their needs. To this end, we present HAIChart, a reinforcement learning-based framework designed to iteratively recommend good visualizations for a given dataset by incorporating user feedback. Specifically, we propose a Monte Carlo Graph Search-based visualization generation algorithm paired with a composite reward function to efficiently explore the visualization space and automatically generate good visualizations. We devise a visualization hints mechanism to actively incorporate user feedback, thus progressively refining the visualization generation module. We further prove that the top-k visualization hints selection problem is NP-hard and design an efficient algorithm. We conduct both quantitative evaluations and user studies, showing that HAIChart significantly outperforms state-of-the-art human-powered tools (21% better at Recall and 1.8 times faster) and AI-powered automatic tools (25.1% and 14.9% better in terms of Hit@3 and R10@30, respectively).
翻訳日:2024-06-18 19:23:12 公開日:2024-06-16
# 文脈感性宣言型文法を用いた合成論理推論データセットのスケーリング

Scaling Synthetic Logical Reasoning Datasets with Context-Sensitive Declarative Grammars ( http://arxiv.org/abs/2406.11035v1 )

ライセンス: Link先を確認
Damien Sileo, (参考訳) 論理的推論は依然として自然言語処理の課題であるが、手続き的に生成された問題に対する定理の証明を模倣する言語モデルを訓練することで改善することができる。 以前は、特定の証明トレースに対する推論をバイアスし、監査可能性と拡張性を制限する、ドメイン固有の証明生成アルゴリズムを使用していた。 複数の言語(特に単純化された英語とTPTP定理証明言語)を結合するフレキシブルな文脈依存型ルールを持つ、よりシンプルでより一般的な宣言型フレームワークを提案する。 最大32の前提と1つの仮説を選択して一階述語論理問題を構築する。 生成中の意味的制約と述語に対する注意深い英語の動詞化は、自然な英語のタスクを損なうことなく論理的推論を促進することを実証する。 我々は比較的小さなDeBERTa-v3モデルを用いて、FOLIOの人間による論理データセット上で最先端の精度を実現し、GPT-4の精度を12%上回っている。

Logical reasoning remains a challenge for natural language processing, but it can be improved by training language models to mimic theorem provers on procedurally generated problems. Previous work used domain-specific proof generation algorithms, which biases reasoning toward specific proof traces and limits auditability and extensibility. We present a simpler and more general declarative framework with flexible context-sensitive rules binding multiple languages (specifically, simplified English and the TPTP theorem-proving language). We construct first-order logic problems by selecting up to 32 premises and one hypothesis. We demonstrate that using semantic constraints during generation and careful English verbalization of predicates enhances logical reasoning without hurting natural English tasks. We use relatively small DeBERTa-v3 models to achieve state-of-the-art accuracy on the FOLIO human-authored logic dataset, surpassing GPT-4 in accuracy with or without an external solver by 12%.
翻訳日:2024-06-18 19:23:12 公開日:2024-06-16
# garak: 大規模言語モデルのセキュリティ調査のためのフレームワーク

garak: A Framework for Security Probing Large Language Models ( http://arxiv.org/abs/2406.11036v1 )

ライセンス: Link先を確認
Leon Derczynski, Erick Galinkin, Jeffrey Martin, Subho Majumdar, Nanna Inie, (参考訳) 大きな言語モデル(LLM)が数千のアプリケーションにデプロイされ、統合されるにつれて、モデルがどのように敵の攻撃に反応するかのスケーラブルな評価の必要性が急速に高まる。 モデルは予測不可能な出力を生成し、常に更新され、潜在的な敵は極めて多様である。 さらに、ある文脈におけるセキュリティの弱点を構成するものは、別の文脈では問題にならないかもしれない。 本稿では,「LLMセキュリティ」を構成するものを再考し,問題の探索と発見が中心となるLLMセキュリティ評価に対する総合的なアプローチを追求する。 そこで本稿では,対象のLDMやダイアログシステムにおける脆弱性の発見と識別に使用できるフレームワークであるgarak(Generative AI Red-teaming and Assessment Kit)を紹介する。 ガラックはLLMを構造化された方法でプローブし、潜在的な脆弱性を発見する。 フレームワークのアウトプットは、ターゲットモデルの弱点を記述し、ユニークなコンテキストにおける脆弱性を構成するものについての情報的な議論に寄与し、LCMデプロイメントのためのアライメントとポリシーに関する議論を通知する。

As Large Language Models (LLMs) are deployed and integrated into thousands of applications, the need for scalable evaluation of how models respond to adversarial attacks grows rapidly. However, LLM security is a moving target: models produce unpredictable output, are constantly updated, and the potential adversary is highly diverse: anyone with access to the internet and a decent command of natural language. Further, what constitutes a security weak in one context may not be an issue in a different context; one-fits-all guardrails remain theoretical. In this paper, we argue that it is time to rethink what constitutes ``LLM security'', and pursue a holistic approach to LLM security evaluation, where exploration and discovery of issues are central. To this end, this paper introduces garak (Generative AI Red-teaming and Assessment Kit), a framework which can be used to discover and identify vulnerabilities in a target LLM or dialog system. garak probes an LLM in a structured fashion to discover potential vulnerabilities. The outputs of the framework describe a target model's weaknesses, contribute to an informed discussion of what composes vulnerabilities in unique contexts, and can inform alignment and policy discussions for LLM deployment.
翻訳日:2024-06-18 19:13:27 公開日:2024-06-16
# 動的ノルマティビティ:価値アライメントに必要な必要十分条件

Dynamic Normativity: Necessary and Sufficient Conditions for Value Alignment ( http://arxiv.org/abs/2406.11039v1 )

ライセンス: Link先を確認
Nicholas Kluge Corrêa, (参考訳) 哲学の領域に及ぼし、おそらくすべてのヒューマニティの分野にその影響力を及ぼす批判的な調査は、道徳と規範の複雑さを中心に展開している。 驚くべきことに、近年では、このテーマの糸が予期せぬ領域へと織り込まれている。 道徳とAIの中心にあるのは、人間の目標と価値を表現するという課題に関連する問題である「アライメント(alignment)」です。 より明確に、そして現在のAI開発のパラダイムを念頭に置いて、アライメントは、不透明で勾配に基づく学習技術によって訓練された非人為的エンティティに人間の価値を教えるものだと考えることができます。 この研究は、AIシステム開発に規範的理論をもたらす、しっかりとした哲学的基礎と実践的な実装を必要とする技術的哲学的問題としてのアライメントに対処する。 これを実現するために、我々は、任意のアライメントプロセスにおいて考慮すべき必要かつ十分な条件を2つ提案する。 必要な条件は、アライメントの許容性に関連するメタ物理的およびメタ倫理的ルーツとして機能するが、十分な条件は、学習に基づくパラダイムの下でAIシステムを調整するための青写真を確立する。 このような基礎を築き上げた後、我々は、汎用言語システムの整合化のための最先端技術と手法を用いて、このアプローチの実装を提案する。 このフレームワークをDynamic Normativityと呼びます。 その中心的な主張は、必要な十分な条件を満たせない学習パラダイムの下でのアライメントプロセスは、アライメントシステムの生成に失敗する、というものである。

The critical inquiry pervading the realm of Philosophy, and perhaps extending its influence across all Humanities disciplines, revolves around the intricacies of morality and normativity. Surprisingly, in recent years, this thematic thread has woven its way into an unexpected domain, one not conventionally associated with pondering "what ought to be": the field of artificial intelligence (AI) research. Central to morality and AI, we find "alignment", a problem related to the challenges of expressing human goals and values in a manner that artificial systems can follow without leading to unwanted adversarial effects. More explicitly and with our current paradigm of AI development in mind, we can think of alignment as teaching human values to non-anthropomorphic entities trained through opaque, gradient-based learning techniques. This work addresses alignment as a technical-philosophical problem that requires solid philosophical foundations and practical implementations that bring normative theory to AI system development. To accomplish this, we propose two sets of necessary and sufficient conditions that, we argue, should be considered in any alignment process. While necessary conditions serve as metaphysical and metaethical roots that pertain to the permissibility of alignment, sufficient conditions establish a blueprint for aligning AI systems under a learning-based paradigm. After laying such foundations, we present implementations of this approach by using state-of-the-art techniques and methods for aligning general-purpose language systems. We call this framework Dynamic Normativity. Its central thesis is that any alignment process under a learning paradigm that cannot fulfill its necessary and sufficient conditions will fail in producing aligned systems.
翻訳日:2024-06-18 19:13:27 公開日:2024-06-16
# ディベートによる大規模言語モデルの性能評価

Evaluating the Performance of Large Language Models via Debates ( http://arxiv.org/abs/2406.11044v1 )

ライセンス: Link先を確認
Behrad Moniri, Hamed Hassani, Edgar Dobriban, (参考訳) 大規模言語モデル(LLM)は急速に進化し、様々な分野に影響を与える。 現在のパフォーマンス評価のためのほとんどのアプローチは、特定のドメイン固有の質問に基づいており、それは、タスクが常に単一のドメインからではなく、人間の入力に依存している多くの実世界のアプリケーションで必要とされる柔軟性に欠ける。 本稿では,LLM間の議論に基づく自動ベンチマークフレームワークを提案する。 この方法は、ドメイン知識だけでなく、問題定義や矛盾認識といったスキルも評価する。 議論フレームワークを用いて様々な最先端LCMの性能を評価し,人的インプットに基づく人気ランキングと密接に整合したランキングを達成し,コストのかかる人的クラウドソーシングの必要性を排除した。

Large Language Models (LLMs) are rapidly evolving and impacting various fields, necessitating the development of effective methods to evaluate and compare their performance. Most current approaches for performance evaluation are either based on fixed, domain-specific questions that lack the flexibility required in many real-world applications where tasks are not always from a single domain, or rely on human input, making them unscalable. We propose an automated benchmarking framework based on debates between LLMs, judged by another LLM. This method assesses not only domain knowledge, but also skills such as problem definition and inconsistency recognition. We evaluate the performance of various state-of-the-art LLMs using the debate framework and achieve rankings that align closely with popular rankings based on human input, eliminating the need for costly human crowdsourcing.
翻訳日:2024-06-18 19:13:27 公開日:2024-06-16
# Kolmogorov Arnold Informed Neural Network: Kolmogorov Arnold Networksに基づくPDE問題を解決する物理インフォームドディープラーニングフレームワーク

Kolmogorov Arnold Informed neural network: A physics-informed deep learning framework for solving PDEs based on Kolmogorov Arnold Networks ( http://arxiv.org/abs/2406.11045v1 )

ライセンス: Link先を確認
Yizheng Wang, Jia Sun, Jinshuai Bai, Cosmin Anitescu, Mohammad Sadegh Eshaghi, Xiaoying Zhuang, Timon Rabczuk, Yinghua Liu, (参考訳) 偏微分方程式(PDE)のためのAIは特に物理インフォームドニューラルネットワーク(PINN)の出現によって大きな注目を集めている。 最近のコルモゴロフ・アルノルドネットワーク(KAN)の出現は、以前のMPPベースのPINNを再検討し、拡張する可能性があることを示している。 MLPと比較して、kansは解釈可能性を提供し、パラメータを少なくする。 PDEは強形式、エネルギー形式、逆形式など様々な形で記述できる。 数学的に等価であるが、これらの形式は計算学的に等価ではないため、計算物理学において異なるPDE定式化の探索が重要である。 そこで我々は,MLPの代わりに Kan に基づく異なるPDE形式を提案し,これを Kolmogorov-Arnold-Informed Neural Network (KINN) と呼ぶ。 我々は,多スケール,特異点,応力集中,非線形超弾性,不均一,複素幾何問題など,PDEの様々な数値例において,MLPとKAを体系的に比較した。 計算ソリッド・メカニクスにおいて,KINNは複雑な幾何学的問題を除いて,多数のPDEの精度と収束速度でMLPを著しく上回っていることを示す。 これは、PDEのためのAIにおいて、より効率的で正確なPDEソリューションに対するKINNの可能性を強調している。

AI for partial differential equations (PDEs) has garnered significant attention, particularly with the emergence of Physics-informed neural networks (PINNs). The recent advent of Kolmogorov-Arnold Network (KAN) indicates that there is potential to revisit and enhance the previously MLP-based PINNs. Compared to MLPs, KANs offer interpretability and require fewer parameters. PDEs can be described in various forms, such as strong form, energy form, and inverse form. While mathematically equivalent, these forms are not computationally equivalent, making the exploration of different PDE formulations significant in computational physics. Thus, we propose different PDE forms based on KAN instead of MLP, termed Kolmogorov-Arnold-Informed Neural Network (KINN). We systematically compare MLP and KAN in various numerical examples of PDEs, including multi-scale, singularity, stress concentration, nonlinear hyperelasticity, heterogeneous, and complex geometry problems. Our results demonstrate that KINN significantly outperforms MLP in terms of accuracy and convergence speed for numerous PDEs in computational solid mechanics, except for the complex geometry problem. This highlights KINN's potential for more efficient and accurate PDE solutions in AI for PDEs.
翻訳日:2024-06-18 19:13:27 公開日:2024-06-16
# ChatGPTがソフトウェア開発に与える影響:GitHubデータを用いた差分推定の相違

Impact of the Availability of ChatGPT on Software Development: A Synthetic Difference in Differences Estimation using GitHub Data ( http://arxiv.org/abs/2406.11046v1 )

ライセンス: Link先を確認
Alexander Quispe, Rodrigo Grijalba, (参考訳) 人工知能の進歩、特にChatGPTは、ソフトウェア開発に大きな影響を与えている。 GitHub Innovation Graphの新たなデータを活用することで、ChatGPTがソフトウェア生産効率を向上させる、という仮説を立てています。 いくつかの政府がChatGPTを禁止した自然実験を利用して、差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分 我々の調査結果は、特に高レベル、汎用、シェルスクリプティング言語において、10万人あたりのgitプッシュ、リポジトリ、およびユニークな開発者数に大きな影響を与えることを示唆している。 これらの結果は、ChatGPTのようなAIツールが開発者の生産性を大幅に向上させる可能性があることを示唆している。

Advancements in Artificial Intelligence, particularly with ChatGPT, have significantly impacted software development. Utilizing novel data from GitHub Innovation Graph, we hypothesize that ChatGPT enhances software production efficiency. Utilizing natural experiments where some governments banned ChatGPT, we employ Difference-in-Differences (DID), Synthetic Control (SC), and Synthetic Difference-in-Differences (SDID) methods to estimate its effects. Our findings indicate a significant positive impact on the number of git pushes, repositories, and unique developers per 100,000 people, particularly for high-level, general purpose, and shell scripting languages. These results suggest that AI tools like ChatGPT can substantially boost developer productivity, though further analysis is needed to address potential downsides such as low quality code and privacy concerns.
翻訳日:2024-06-18 19:13:27 公開日:2024-06-16
# スーパーマーケットロボットインタラクションの強化:多層LLM対話インタフェースによる異種顧客インテントの処理

Enhancing Supermarket Robot Interaction: A Multi-Level LLM Conversational Interface for Handling Diverse Customer Intents ( http://arxiv.org/abs/2406.11047v1 )

ライセンス: Link先を確認
Chandran Nandkumar, Luka Peternel, (参考訳) 本稿では,スーパーマーケットロボットのためのマルチレベルLLMインタフェースの設計と評価について述べる。 提案されたインターフェースにより、顧客はジェネリッククエリと特定のクエリの両方を通じて、ニーズを伝達できる。 OpenAIのGPTのような最先端のシステムは、高度に適応可能で、ビルドとデプロイが容易だが、応答時間の増加や、適切なユースケースとコスト最適化のために基盤となるモデルの戦略的制御の制限といった課題に直面している。 本論文は,より高速で効率的な対話エージェントの開発を目標とし,その特異性やユーザ意図に基づいたユーザクエリの処理を行うために,複数の小型の特殊なLLMを使用することを提唱する。 本稿では,GPT-4 Turbo を用いた特殊な GPT モデルとの比較を行った。 我々のマルチLLMチャットボットアーキテクチャは、測定基準13項目すべてでベンチマークGPTモデルよりも優れており、パフォーマンス、ユーザ満足度、ユーザエージェントパートナーシップ、自己イメージ向上の4つの重要な領域において統計的に有意な改善が見られた。 また,最終チャットボット応答を正しい棚番号にマッピングすることで,ロボットが各商品に向かって順次ナビゲートし,低レベルのロボット認識,制御,計画が自動オブジェクト検索に使用できるスーパーロボットナビゲーション手法を提案する。 この作業は、単一の強力だがより高価で遅いモデルに頼るのではなく、複数の特別な小さなモデルを使用することにより多くの労力を注ぐことを願っています。

This paper presents the design and evaluation of a novel multi-level LLM interface for supermarket robots to assist customers. The proposed interface allows customers to convey their needs through both generic and specific queries. While state-of-the-art systems like OpenAI's GPTs are highly adaptable and easy to build and deploy, they still face challenges such as increased response times and limitations in strategic control of the underlying model for tailored use-case and cost optimization. Driven by the goal of developing faster and more efficient conversational agents, this paper advocates for using multiple smaller, specialized LLMs fine-tuned to handle different user queries based on their specificity and user intent. We compare this approach to a specialized GPT model powered by GPT-4 Turbo, using the Artificial Social Agent Questionnaire (ASAQ) and qualitative participant feedback in a counterbalanced within-subjects experiment. Our findings show that our multi-LLM chatbot architecture outperformed the benchmarked GPT model across all 13 measured criteria, with statistically significant improvements in four key areas: performance, user satisfaction, user-agent partnership, and self-image enhancement. The paper also presents a method for supermarket robot navigation by mapping the final chatbot response to correct shelf numbers, enabling the robot to sequentially navigate towards the respective products, after which lower-level robot perception, control, and planning can be used for automated object retrieval. We hope this work encourages more efforts into using multiple, specialized smaller models instead of relying on a single powerful, but more expensive and slower model.
翻訳日:2024-06-18 19:13:27 公開日:2024-06-16
# 不完全なモダリティをもつ多モーダル・フェデレーション学習のための基礎モデルの活用

Leveraging Foundation Models for Multi-modal Federated Learning with Incomplete Modality ( http://arxiv.org/abs/2406.11048v1 )

ライセンス: Link先を確認
Liwei Che, Jiaqi Wang, Xinyue Liu, Fenglong Ma, (参考訳) フェデレートラーニング(FL)は、分散データサイロとプライバシ保証の協調トレーニングソリューションを提供することで、大きな進歩を遂げました。 しかし、クライアントが複数のデータモダリティを保持するより現実的なシナリオを探求する既存の作業はほとんどありません。 本稿では,マルチモーダル・フェデレート・ラーニング(MFL)における新たな課題であるモダリティの欠如を解決すべく,クライアントがローカルデータセットのモダリティの一部を失う可能性がある。 そこで本研究では,FedMVP(FedMultimodal contrastiVe training with Pre-trained completion)を提案する。 提案したFedMVPフレームワークでは、各クライアントが、モダリティ補完と表現知識伝達のための凍結パラメータを備えた大規模な事前学習モデルをデプロイし、効率的でロバストなローカルトレーニングを可能にする。 サーバ側では、生成されたデータを用いて、アップロードされたクライアントモデル間の表現の類似性を均一に測定し、システムにおけるそれらの重要性に応じてグラフパースペクティブを構築します。 実世界の2つの画像テキスト分類データセットよりも優れた性能を示し、モダリティの欠如による性能劣化に対して頑健であることを示す。

Federated learning (FL) has obtained tremendous progress in providing collaborative training solutions for distributed data silos with privacy guarantees. However, few existing works explore a more realistic scenario where the clients hold multiple data modalities. In this paper, we aim to solve a novel challenge in multi-modal federated learning (MFL) -- modality missing -- the clients may lose part of the modalities in their local data sets. To tackle the problems, we propose a novel multi-modal federated learning method, Federated Multi-modal contrastiVe training with Pre-trained completion (FedMVP), which integrates the large-scale pre-trained models to enhance the federated training. In the proposed FedMVP framework, each client deploys a large-scale pre-trained model with frozen parameters for modality completion and representation knowledge transfer, enabling efficient and robust local training. On the server side, we utilize generated data to uniformly measure the representation similarity among the uploaded client models and construct a graph perspective to aggregate them according to their importance in the system. We demonstrate that the model achieves superior performance over two real-world image-text classification datasets and is robust to the performance degradation caused by missing modality.
翻訳日:2024-06-18 19:13:27 公開日:2024-06-16
# 文レベル手話翻訳の再検討

Reconsidering Sentence-Level Sign Language Translation ( http://arxiv.org/abs/2406.11049v1 )

ライセンス: Link先を確認
Garrett Tanzer, Maximus Shengelia, Ken Harrenstien, David Uthus, (参考訳) 歴史的に、手話機械翻訳は文レベルのタスクとして提示され、連続的な物語からなるデータセットが切り上げられ、孤立したクリップとしてモデルに提示される。 本研究では,この課題の限界について検討する。 まず、談話レベルの文脈に依存する手話言語における多くの言語現象を調査する。 そして、事例研究として、文書全体をコンテキストとして人間に提供するのではなく、実際に人間を機械学習タスクのフレーミングに置き換える手話翻訳のための最初の人間ベースラインを実行する。 この人間のベースライン – How2Signデータセット上のASLから英語への翻訳 – は、私たちのサンプルの33%の文に対して、流線型なDeafシグナアノテータは、追加の談話レベルのコンテキストを考慮して、クリップのキー部分のみを理解することができたことを示しています。 これらの結果は、機械学習を新しいドメインに適用する際の理解と健全性検査の重要性を浮き彫りにしている。

Historically, sign language machine translation has been posed as a sentence-level task: datasets consisting of continuous narratives are chopped up and presented to the model as isolated clips. In this work, we explore the limitations of this task framing. First, we survey a number of linguistic phenomena in sign languages that depend on discourse-level context. Then as a case study, we perform the first human baseline for sign language translation that actually substitutes a human into the machine learning task framing, rather than provide the human with the entire document as context. This human baseline -- for ASL to English translation on the How2Sign dataset -- shows that for 33% of sentences in our sample, our fluent Deaf signer annotators were only able to understand key parts of the clip in light of additional discourse-level context. These results underscore the importance of understanding and sanity checking examples when adapting machine learning to new domains.
翻訳日:2024-06-18 19:13:27 公開日:2024-06-16
# Token Bias:大型の言語モデルは、まだジェネリックな推論器ではない

A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners ( http://arxiv.org/abs/2406.11050v1 )

ライセンス: Link先を確認
Bowen Jiang, Yangxinyu Xie, Zhuoqun Hao, Xiaomeng Wang, Tanwi Mallick, Weijie J. Su, Camillo J. Taylor, Dan Roth, (参考訳) 本研究では,大規模言語モデル(LLM)が真の推論能力を持っているか,あるいは主にトークンバイアスに依存しているかを評価するための仮説検証フレームワークを提案する。 我々は、LLMを精度で評価するだけでなく、論理的推論タスクの解法におけるトークンバイアスの調査も目指している。 具体的には,相補的誤りとシロメトリクス的問題を特徴とする,注意深く制御された合成データセットを開発する。 我々のフレームワークは、トークンバイアスが容易に識別できる仮説のリストを概説しており、全てのヌル仮説はLLMの真の推論能力を想定している。 この研究の結果は、統計学的保証により、ほとんどのLLMが論理的推論に苦戦していることを示唆している。 古典的な問題ではうまく機能するかもしれないが、その成功は表面的なパターンを強いトークンバイアスで認識することに大きく依存しており、それによって実際の推論や一般化能力に対する懸念が高まる。

This study introduces a hypothesis-testing framework to assess whether large language models (LLMs) possess genuine reasoning abilities or primarily depend on token bias. We go beyond evaluating LLMs on accuracy; rather, we aim to investigate their token bias in solving logical reasoning tasks. Specifically, we develop carefully controlled synthetic datasets, featuring conjunction fallacy and syllogistic problems. Our framework outlines a list of hypotheses where token biases are readily identifiable, with all null hypotheses assuming genuine reasoning capabilities of LLMs. The findings in this study suggest, with statistical guarantee, that most LLMs still struggle with logical reasoning. While they may perform well on classic problems, their success largely depends on recognizing superficial patterns with strong token bias, thereby raising concerns about their actual reasoning and generalization abilities.
翻訳日:2024-06-18 19:13:27 公開日:2024-06-16
# アクティブ領域パッチを用いた深層学習による太陽フレア予測の促進

Advancing Solar Flare Prediction using Deep Learning with Active Region Patches ( http://arxiv.org/abs/2406.11054v1 )

ライセンス: Link先を確認
Chetraj Pandey, Temitope Adeyeha, Jinsu Hong, Rafal A. Angryk, Berkay Aydin, (参考訳) 本稿では, アクティブ領域 (AR) の磁気グラムの形状特性を活用するための新しい手法を提案するとともに, 太陽円盤全体をカバーする太陽フレア(-90$^{\circ}$から+90$^{\circ}$までのARパッチ)を予測できる新しい手法を提案する。 私たちは3つのディープラーニングモデルを作成します。 (i)ResNet34, (ii)MobileNet、および (iii)MobileViTは、$\geq$M級フレアを予測し、これらのモデルの有効性を様々な太陽経度で評価する。 我々のデータに固有の不均衡を考慮に入れれば、実際の評価のためにテストデータの不均衡なパーティションを維持しながら、モデルトレーニング期間中のアンダーサンプリングと並行して拡張技術を採用しています。 評価指標として複合スキルスコア(CSS)を用いて,True Skill Score (TSS) とHeidke Skill Score (HSS) の幾何学平均として計算し,モデルのランク付けと比較を行う。 この作品の主な貢献は次の通りである。 一 太陽フレア予測において、太陽円盤を通して各ARのフレアを予測し、その性能を評価し、比較することができる新しい機能を導入する。 (ii)我々の候補モデル(MobileNet)は、太陽経度でそれぞれ$\pm$30$^{\circ}$,$\pm$60$^{\circ}$,$\pm$90$^{\circ}$,$\pm$90$^{\circ}$のARパッチに対して、CSS=0.51(TSS=0.59とHSS=0.44)、CSS=0.48(TSS=0.56とHSS=0.40)を達成する。 さらに、太陽フレア予測のためのARベースのモデルの範囲を広げ、太陽フレア予測をCSS=0.39 (TSS=0.48 と HSS=0.32) で、ほぼ無限の領域($\pm$60$^{\circ}$から$\pm$90$^{\circ}$まで)でARのフレア予測を発行する機能を示した。 この進歩により、太陽フレアのより信頼性の高い予測のための新しい道が開かれ、予測能力の向上に寄与する。

In this paper, we introduce a novel methodology for leveraging shape-based characteristics of magnetograms of active region (AR) patches and provide a novel capability for predicting solar flares covering the entirety of the solar disk (AR patches spanning from -90$^{\circ}$ to +90$^{\circ}$ of solar longitude). We create three deep learning models: (i) ResNet34, (ii) MobileNet, and (iii) MobileViT to predict $\geq$M-class flares and assess the efficacy of these models across various ranges of solar longitude. Given the inherent imbalance in our data, we employ augmentation techniques alongside undersampling during the model training phase, while maintaining imbalanced partitions in the testing data for realistic evaluation. We use a composite skill score (CSS) as our evaluation metric, computed as the geometric mean of the True Skill Score (TSS) and the Heidke Skill Score (HSS) to rank and compare models. The primary contributions of this work are as follows: (i) We introduce a novel capability in solar flare prediction that allows predicting flares for each ARs throughout the solar disk and evaluate and compare the performance, (ii) Our candidate model (MobileNet) achieves a CSS=0.51 (TSS=0.60 and HSS=0.44), CSS=0.51 (TSS=0.59 and HSS=0.44), and CSS=0.48 (TSS=0.56 and HSS=0.40) for AR patches within $\pm$30$^{\circ}$, $\pm$60$^{\circ}$, $\pm$90$^{\circ}$ of solar longitude respectively. Additionally, we demonstrate the ability to issue flare forecasts for ARs in near-limb regions (regions between $\pm$60$^{\circ}$ to $\pm$90 $^{\circ}$) with a CSS=0.39 (TSS=0.48 and HSS=0.32), expanding the scope of AR-based models for solar flare prediction. This advancement opens new avenues for more reliable prediction of solar flares, thereby contributing to improved forecasting capabilities.
翻訳日:2024-06-18 19:13:27 公開日:2024-06-16
# 超広帯域、超狭帯域、超広帯域複合偏光半波板、超広帯域複合偏光パイ回転子および量子古典的アナログ

Ultrabroadband, ultranarrowband and ultrapassband composite polarisation half-wave plates, ultrabroadband composite polarisation pi-rotators and on the quantum-classical analogy ( http://arxiv.org/abs/2406.11055v1 )

ライセンス: Link先を確認
Hayk L. Gevorgyan, (参考訳) 超広帯域、超狭帯域、超広帯域の$x$-, $y$-)回転をBloch-Poincar\'e球面上の$\theta = \pi$で生成する複合パルスを提示する。 第1級は、第2級が彩色偏光フィルタに対応するとき、無彩色偏光リターダの設計に重要な役割を果たしている。 第3級は上記の2つのクラスの編成である。 さらに、同じ球面上で$\zeta = \pi$で超広帯域の$z$-)回転を生成する複合パルスを提示する。 これらのパルスは無色偏光$\pi$回転子と一致する。 量子古典的アナロジーでは、$X$ゲートのウルトラロバスト、ウルトラセンシティブ、ウルトラ2乗量子制御と$Z$ゲートのウルトラロバスト量子制御を得る。

Composite pulses, which produce ultrabroadband, ultranarrowband and ultrapassband $x$-, $y$-) rotations by $\theta = \pi$ on the Bloch-Poincar\'e sphere, are presented. The first class plays a role for design of achromatic polarisation retarders, when the second class corresponds to chromatic polarisation filters. The third class is an assortment of the above two classes. Besides, composite pulses, which produce ultrabroadband $z$-) rotations by $\zeta = \pi$ on the same sphere, are presented. These phasal pulses coincide with achromatic polarisation $\pi$ rotators. On the quantum-classical analogy, we obtain ultrarobust, ultrasensitive and ultrasquare quantum control of a $X$ gate and ultrarobust quantum control of a $Z$ gate.
翻訳日:2024-06-18 19:13:27 公開日:2024-06-16
# 抽象視覚推論モデルにおける一般化と知識伝達

Generalization and Knowledge Transfer in Abstract Visual Reasoning Models ( http://arxiv.org/abs/2406.11061v1 )

ライセンス: Link先を確認
Mikołaj Małkiński, Jacek Mańdziuk, (参考訳) 抽象的視覚推論(AVR)領域における深層ニューラルネットワークの一般化と知識再利用能力について,Raven's Progressive Matrices (RPMs)を用いて検討した。 I-RAVENデータセットに言及した2つの知識伝達シナリオについて検討した。 まず、PGMデータセットの一般化評価機能とI-RAVENの人気に触発されて、ホールドアウト属性に適用された抽象ルールの一般化をテストする4つの一般化規則を持つベンチマークであるAttributeless-I-RAVENを紹介する。 第二にI-RAVEN-Meshは、ラインベースパターンからなる新しいコンポーネント構造でRPMを豊かにするデータセットで、トランスファーラーニング環境でのプログレッシブ知識獲得の評価を容易にする。 開発したベンチマークでは、AVRタスクを解決する新しいニューラルネットワークであるPathways of Normalized Group Convolution(PoNG)モデルに部分的に対処する、現代のディープラーニングモデルの欠点が明らかになった。 PoNGは、標準のI-RAVENとPGMのセットアップと同様に、提示された課題の両方に優れています。

We study generalization and knowledge reuse capabilities of deep neural networks in the domain of abstract visual reasoning (AVR), employing Raven's Progressive Matrices (RPMs), a recognized benchmark task for assessing AVR abilities. Two knowledge transfer scenarios referring to the I-RAVEN dataset are investigated. Firstly, inspired by generalization assessment capabilities of the PGM dataset and popularity of I-RAVEN, we introduce Attributeless-I-RAVEN, a benchmark with four generalization regimes that allow to test generalization of abstract rules applied to held-out attributes. Secondly, we construct I-RAVEN-Mesh, a dataset that enriches RPMs with a novel component structure comprising line-based patterns, facilitating assessment of progressive knowledge acquisition in transfer learning setting. The developed benchmarks reveal shortcomings of the contemporary deep learning models, which we partly address with Pathways of Normalized Group Convolution (PoNG) model, a novel neural architecture for solving AVR tasks. PoNG excels in both presented challenges, as well as the standard I-RAVEN and PGM setups.
翻訳日:2024-06-18 19:13:27 公開日:2024-06-16
# 禁止すべきか否か:タウンシップ高校の学習者における携帯電話の使用状況とグラティフィケーション

To Ban or Not to Ban: Uses and Gratifications of Mobile Phones among Township High School Learners ( http://arxiv.org/abs/2406.11062v1 )

ライセンス: Link先を確認
Khaya Kunene, Pitso Tsibolane, (参考訳) 多様な社会経済的背景を持つ学習者の間で携帯電話の利用が急増し、学校当局はこれらのデバイスを教育機関内で禁止することを検討するようになった。 本研究は, 高校生のモチベーションと利用パターンを, 提案された禁止に応えて探求することを目的とする。 南アフリカの西ケープ州にある3つのタウンシップ校の生徒262名を対象に,混合メソッドを用いた調査およびインタビューを行った。 UGT(Uses and Gratification Theory)において,携帯電話の使用理由,使用パターン,購入の影響,行動要因の4つの主要なカテゴリについて検討した。 今回の調査では、近隣の盗難や強盗の懸念から、スマートフォンを自宅に置き去りにすることを選択した学生が圧倒的に多かったにもかかわらず、学生の間では大きな反対の声が上がっている。 金融上の制約、特にデータバンドルと空調の余裕がないことが、この行動に寄与する。 特に、参加者の40%が毎日5時間以上携帯電話を使っていると報告している。 これらの学習者の携帯電話利用の主な動機は、ソーシャル化、非教育目的のインターネットブラウジング、エンターテイメントとレクリエーションのためのデバイスの利用である。 本研究は,学校における携帯電話禁止の影響を考慮に入れた政策立案者や教育者にとって貴重な視点を提供するとともに,高校生と携帯電話利用の微妙な関係に対する批判的洞察を浮き彫りにするものである。

The proliferation of mobile phone usage among learners from diverse socio-economic backgrounds has prompted school authorities to contemplate banning these devices within educational institutions. This research seeks to explore the motivations and usage patterns of high school learners in response to the proposed ban. Employing a mixed-methods approach, we conducted surveys and interviews with 262 students from three township schools in the Western Cape province of South Africa. Grounded in the Uses and Gratification Theory (UGT), our study examined four key categories: reasons for mobile phone use, usage patterns, purchasing influences, and behavioral factors. Our findings reveal a predominant opposition among students to the ban, despite a significant number opting to leave their phones at home due to concerns about theft and robbery in their neighborhoods. Financial constraints, specifically the inability to afford data bundles and airtime, also contribute to this behavior. Notably, 40% of the participants reported using their phones for more than five hours daily, a duration classified as overuse in existing literature. The primary motivations for mobile phone use among these learners include socializing, internet browsing for non-educational purposes, and using the device for entertainment and recreation. This study highlights critical insights into the nuanced relationship between high school learners and mobile phone usage, offering valuable perspectives for policymakers and educators considering the implications of a mobile phone ban in schools.
翻訳日:2024-06-18 19:13:27 公開日:2024-06-16
# FastPoseCNN: リアルタイムな単分子カテゴリレベルポースとサイズ推定フレームワーク

FastPoseCNN: Real-Time Monocular Category-Level Pose and Size Estimation Framework ( http://arxiv.org/abs/2406.11063v1 )

ライセンス: Link先を確認
Eduardo Davalos, Mehran Aminian, (参考訳) 本稿の主な焦点は、単一のRGB画像が与えられたオブジェクトのポーズとサイズをリアルタイムで推定するフレームワークの開発である。 2019年、CAMERAとREALという2つの新しいデータセットと共に、最初のカテゴリレベルのポーズとサイズ推定フレームワークが提案された。 しかし、現在の手法は、推論時間(2-4 fps)が長いため、実用上は制限されている。 彼らの手法の推論には、計算に高価なMaskedRCNNフレームワークと梅山アルゴリズムを使用したため、かなりの遅延があった。 提案手法を最適化し,リアルタイムに結果を得るために,異なるデコーダを用いて翻訳,回転,サイズ回帰問題を分離すると共に,効率的なResNet-FPNフレームワークを使用する。 さらに、この手法は、グローバルな文脈におけるポーズとサイズの推定、すなわち、画像中のすべてのキャプチャーオブジェクトの関連するパラメータを一度に推定する。 提案手法の有効性を実証するために,精度と速度の観点から性能を十分に比較するための広範囲な試験を行った。

The primary focus of this paper is the development of a framework for pose and size estimation of unseen objects given a single RGB image - all in real-time. In 2019, the first category-level pose and size estimation framework was proposed alongside two novel datasets called CAMERA and REAL. However, current methodologies are restricted from practical use because of its long inference time (2-4 fps). Their approach's inference had significant delays because they used the computationally expensive MaskedRCNN framework and Umeyama algorithm. To optimize our method and yield real-time results, our framework uses the efficient ResNet-FPN framework alongside decoupling the translation, rotation, and size regression problem by using distinct decoders. Moreover, our methodology performs pose and size estimation in a global context - i.e., estimating the involved parameters of all captured objects in the image all at once. We perform extensive testing to fully compare the performance in terms of precision and speed to demonstrate the capability of our method.
翻訳日:2024-06-18 19:13:27 公開日:2024-06-16
# LLMは対話における強調文の意味を理解できるか?

Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? ( http://arxiv.org/abs/2406.11065v1 )

ライセンス: Link先を確認
Guan-Ting Lin, Hung-yi Lee, (参考訳) 強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、対話に重点を置く能力は未だ不明である。 本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。 オープンソースと商用の両方で様々なLCMを評価し,その性能を重要視して評価する。 また,GPT-4を用いた自動評価パイプラインを提案する。 商業用LLMは, 一般的には良好な性能を示すが, 強調文の理解が向上する余地は依然として大きいことが判明した。

Emphasis is a crucial component in human communication, which indicates the speaker's intention and implication beyond pure text in dialogue. While Large Language Models (LLMs) have revolutionized natural language processing, their ability to understand emphasis in dialogue remains unclear. This paper introduces Emphasized-Talk, a benchmark with emphasis-annotated dialogue samples capturing the implications of emphasis. We evaluate various LLMs, both open-source and commercial, to measure their performance in understanding emphasis. Additionally, we propose an automatic evaluation pipeline using GPT-4, which achieves a high correlation with human rating. Our findings reveal that although commercial LLMs generally perform better, there is still significant room for improvement in comprehending emphasized sentences.
翻訳日:2024-06-18 19:13:27 公開日:2024-06-16
# 自動車サラウンドビューシステムにおけるマルチカメラ高調波化のためのパラメータブレンディング

Parameter Blending for Multi-Camera Harmonization for Automotive Surround View Systems ( http://arxiv.org/abs/2406.11066v1 )

ライセンス: Link先を確認
Yuzhuo Ren, Yining Deng, David Pajak, Robin Jenkin, Niranjan Avadhanam, Varsha Hedau, (参考訳) サラウンドビューシステムでは、カメラ毎にオートホワイトバランス(AWB)、グローバルトーンマッピング(GTM)を適用するため、複数のカメラで捉えた画像色とトーンが異なる可能性がある。 縫い目の位置に沿った色と明るさは、縫い目視品質に影響を及ぼす複数のカメラの間で不連続に見えるかもしれない。 縫合アルゴリズムにおける隣接するカメラ間の色遷移を改善するために,複数のカメラの色とトーンを調整し,隣接するカメラ間の色やトーンの遷移をよりスムーズに調整するハーモニゼーションアルゴリズムを提案する。 提案手法は,画像信号処理器 (ISP) の AWB と GTM のメタデータ統計を利用した AWB の調和と GTM の調和からなる。 実験の結果,提案アルゴリズムは視覚的品質と計算コストの両方において,グローバルな色伝達法よりも優れていた。

In a surround view system, the image color and tone captured by multiple cameras can be different due to cameras applying auto white balance (AWB), global tone mapping (GTM) individually for each camera. The color and brightness along stitched seam location may look discontinuous among multiple cameras which impacts overall stitched image visual quality. To improve the color transition between adjacent cameras in stitching algorithm, we propose harmonization algorithm which applies before stitching to adjust multiple cameras' color and tone so that stitched image has smoother color and tone transition between adjacent cameras. Our proposed harmonization algorithm consists of AWB harmonization and GTM harmonization leveraging Image Signal Processor (ISP)'s AWB and GTM metadata statistics. Experiment result shows that our proposed algorithm outperforms global color transfer method in both visual quality and computational cost.
翻訳日:2024-06-18 19:03:42 公開日:2024-06-16
# 抽象的視覚推論問題の一考察

A Unified View of Abstract Visual Reasoning Problems ( http://arxiv.org/abs/2406.11068v1 )

ライセンス: Link先を確認
Mikołaj Małkiński, Jacek Mańdziuk, (参考訳) AVR(Abstract Visual Reasoning)の分野は幅広い問題を含み、その多くが人間のIQテストに触発されている。 様々なAVRタスクは、タスク固有のアプローチである最先端のAVRメソッドをもたらす。 さらに、現代の手法では、各AVR問題インスタンスを全体ではなく、特定の場所と役割(コンテキスト対回答パネル)を持つ個々のパネルのセットとして、タスク固有の配置に従って事前に割り当てられている。 これらの高度に専門化されたアプローチは、最近特定のAVRタスクの解決に大きな進歩をもたらしたが、個別のタスクを考えると、この領域における普遍的な学習システムの開発を妨げる。 本稿では,AVRタスクの統一的なビューを導入し,各問題インスタンスをひとつのイメージとして描画する。 統一された視点の主な利点は、様々なAVRタスクに適用可能な普遍的な学習モデルを開発する能力である。 さらに,提案手法はAVR領域における伝達学習を本質的に促進する。 RavenのProgressive MatricesとVisual Analogy Problemsの4つのAVRデータセットと、AVRタスクの統一された表現が、最先端のDeep Learning (DL) AVRモデルおよびより広範に、現代のDL画像認識方法に挑戦していることを示している。 この課題に対処するために、様々な種類のAVR問題を統一的に処理できるUMAVR(Unified Model for Abstract Visual Reasoning)を導入する。 UMAVRは、選択された単一タスク学習実験において既存のAVR手法よりも優れており、伝達学習やカリキュラム学習における効果的な知識再利用を実証している。

The field of Abstract Visual Reasoning (AVR) encompasses a wide range of problems, many of which are inspired by human IQ tests. The variety of AVR tasks has resulted in state-of-the-art AVR methods being task-specific approaches. Furthermore, contemporary methods consider each AVR problem instance not as a whole, but in the form of a set of individual panels with particular locations and roles (context vs. answer panels) pre-assigned according to the task-specific arrangements. While these highly specialized approaches have recently led to significant progress in solving particular AVR tasks, considering each task in isolation hinders the development of universal learning systems in this domain. In this paper, we introduce a unified view of AVR tasks, where each problem instance is rendered as a single image, with no a priori assumptions about the number of panels, their location, or role. The main advantage of the proposed unified view is the ability to develop universal learning models applicable to various AVR tasks. What is more, the proposed approach inherently facilitates transfer learning in the AVR domain, as various types of problems share a common representation. The experiments conducted on four AVR datasets with Raven's Progressive Matrices and Visual Analogy Problems, and one real-world visual analogy dataset show that the proposed unified representation of AVR tasks poses a challenge to state-of-the-art Deep Learning (DL) AVR models and, more broadly, contemporary DL image recognition methods. In order to address this challenge, we introduce the Unified Model for Abstract Visual Reasoning (UMAVR) capable of dealing with various types of AVR problems in a unified manner. UMAVR outperforms existing AVR methods in selected single-task learning experiments, and demonstrates effective knowledge reuse in transfer learning and curriculum learning setups.
翻訳日:2024-06-18 19:03:42 公開日:2024-06-16
# WildVision:人間の嗜好による野生の視覚・言語モデルの評価

WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences ( http://arxiv.org/abs/2406.11069v1 )

ライセンス: Link先を確認
Yujie Lu, Dongfu Jiang, Wenhu Chen, William Yang Wang, Yejin Choi, Bill Yuchen Lin, (参考訳) 近年の視覚言語モデル(VLM)のブレークスルーは、実世界のマルチモーダルインタラクションにおいて、人間の嗜好をベンチマークする必要性を強調している。 このギャップに対処するため、私たちはVLMを評価するために人間の好みを収集するオンラインプラットフォームWildVision-Arena(WV-Arena)を立ち上げました。 We cured WV-Bench by selecting 500 high-quality sample from 8,000 user submits in WV-Arena。 WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。 これは、MMVet、MMMU、MMStarといった他のベンチマークよりも大幅に優れています。 実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。 例えば、GPT-4Vは、単純な視覚認識や推論タスクにおいて、Reka-Flash、Opus、Yi-VL-Plusといった他のモデルよりも優れているが、微妙な文脈的手がかり、空間的推論、視覚的想像力、エキスパートドメイン知識といった課題に直面している。 さらに、現在のVLMは、意図的に誘発されたときの幻覚や安全性の問題も示している。 VLMの分野でさらに研究を進めるために、チャットとフィードバックデータをリリースしています。

Recent breakthroughs in vision-language models (VLMs) emphasize the necessity of benchmarking human preferences in real-world multimodal interactions. To address this gap, we launched WildVision-Arena (WV-Arena), an online platform that collects human preferences to evaluate VLMs. We curated WV-Bench by selecting 500 high-quality samples from 8,000 user submissions in WV-Arena. WV-Bench uses GPT-4 as the judge to compare each VLM with Claude-3-Sonnet, achieving a Spearman correlation of 0.94 with the WV-Arena Elo. This significantly outperforms other benchmarks like MMVet, MMMU, and MMStar. Our comprehensive analysis of 20K real-world interactions reveals important insights into the failure cases of top-performing VLMs. For example, we find that although GPT-4V surpasses many other models like Reka-Flash, Opus, and Yi-VL-Plus in simple visual recognition and reasoning tasks, it still faces challenges with subtle contextual cues, spatial reasoning, visual imagination, and expert domain knowledge. Additionally, current VLMs exhibit issues with hallucinations and safety when intentionally provoked. We are releasing our chat and feedback data to further advance research in the field of VLMs.
翻訳日:2024-06-18 19:03:42 公開日:2024-06-16
# きめ細かいクラスとその発見方法

Fine-grained Classes and How to Find Them ( http://arxiv.org/abs/2406.11070v1 )

ライセンス: Link先を確認
Matej Grcić, Artyom Gadetsky, Maria Brbić, (参考訳) 多くの実践的応用において、クラス間の微妙な違いを反映したきめ細かいラベルよりも粗いラベルが容易に利用できる。 しかし、既存の手法では、粗いラベルを利用して、きめ細かいラベルを教師なしで推測することはできない。 このギャップを埋めるため,細粒度レベルでの監督なしに粗いラベル付きデータから細粒度クラスを検出するFALCONを提案する。 FALCONは、未知のきめ細かいクラスと、粗いクラスときめ細かいクラスの間の基礎となる関係を同時に推論する。 さらに、FALCONは異なる戦略でラベル付けされた複数のデータセットから効果的に学習できるモジュール方式である。 8つの画像分類タスクと1つのセル分類タスクでFALCONを評価する。 FALCONはベースラインを大きなマージンで上回り、600以上のきめ細かいクラスで階層化されたImageNetデータセットの最高のベースラインよりも22%改善されている。

In many practical applications, coarse-grained labels are readily available compared to fine-grained labels that reflect subtle differences between classes. However, existing methods cannot leverage coarse labels to infer fine-grained labels in an unsupervised manner. To bridge this gap, we propose FALCON, a method that discovers fine-grained classes from coarsely labeled data without any supervision at the fine-grained level. FALCON simultaneously infers unknown fine-grained classes and underlying relationships between coarse and fine-grained classes. Moreover, FALCON is a modular method that can effectively learn from multiple datasets labeled with different strategies. We evaluate FALCON on eight image classification tasks and a single-cell classification task. FALCON outperforms baselines by a large margin, achieving 22% improvement over the best baseline on the tieredImageNet dataset with over 600 fine-grained classes.
翻訳日:2024-06-18 19:03:42 公開日:2024-06-16
# 機械生成テキストの検出限界の探索

Exploring the Limitations of Detecting Machine-Generated Text ( http://arxiv.org/abs/2406.11073v1 )

ライセンス: Link先を確認
Jad Doughman, Osama Mohammed Afzal, Hawau Olamide Toyin, Shady Shehata, Preslav Nakov, Zeerak Talat, (参考訳) 大規模言語モデルによる世代品質の最近の改善は、機械生成テキストの同定の研究を刺激している。 タスクのために提案されたシステムは、しばしば高いパフォーマンスを達成する。 しかし、人や機械は異なるスタイルや異なるドメインでテキストを生成することができ、マシン生成テキスト検出モデルが特定のスタイルやドメインを好むかどうかは不明である。 本稿では,異なる文体を用いて評価することで,機械が生成したテキストを検出するための分類性能について批判的に検討する。 分類器は文体的変化やテキストの複雑さの違いに非常に敏感であり、場合によっては無作為な分類器に分解される。 さらに,検出システムは,複雑なテキストに対して高い性能を保ちながら,読みやすいテキストを誤分類する可能性があることも確認した。

Recent improvements in the quality of the generations by large language models have spurred research into identifying machine-generated text. Systems proposed for the task often achieve high performance. However, humans and machines can produce text in different styles and in different domains, and it remains unclear whether machine generated-text detection models favour particular styles or domains. In this paper, we critically examine the classification performance for detecting machine-generated text by evaluating on texts with varying writing styles. We find that classifiers are highly sensitive to stylistic changes and differences in text complexity, and in some cases degrade entirely to random classifiers. We further find that detection systems are particularly susceptible to misclassify easy-to-read texts while they have high performance for complex texts.
翻訳日:2024-06-18 19:03:42 公開日:2024-06-16
# ニューラルラジアンス分野におけるリライティングと本質的分解の学習

Learning Relighting and Intrinsic Decomposition in Neural Radiance Fields ( http://arxiv.org/abs/2406.11077v1 )

ライセンス: Link先を確認
Yixiong Yang, Shilin Hu, Haoyu Wu, Ramon Baldrich, Dimitris Samaras, Maria Vanrell, (参考訳) 反射や陰影などの固有成分を神経放射場から抽出する作業は、関心が高まりつつある。 しかし、現在の手法は主に合成シーンと孤立した物体に焦点を合わせ、背景を持つ現実のシーンの複雑さを見下ろしている。 このギャップに対処するため,本研究では,リライティングと本質的な分解を組み合わせた手法を提案する。 シーン内の光の変動を利用して擬似ラベルを生成することにより,本手法は真理データを必要としない本質的な分解のガイダンスを提供する。 本手法は, 物理的制約を前提として, 多様なシーンタイプにまたがるロバスト性を確保し, 事前学習モデルや手作り先行モデルへの依存を低減させる。 提案手法は,実世界の合成データセットと実世界のデータセットの両方で検証し,有望な結果を得た。 さらに,画像編集タスクへの本手法の適用性は,有望な結果を示す。

The task of extracting intrinsic components, such as reflectance and shading, from neural radiance fields is of growing interest. However, current methods largely focus on synthetic scenes and isolated objects, overlooking the complexities of real scenes with backgrounds. To address this gap, our research introduces a method that combines relighting with intrinsic decomposition. By leveraging light variations in scenes to generate pseudo labels, our method provides guidance for intrinsic decomposition without requiring ground truth data. Our method, grounded in physical constraints, ensures robustness across diverse scene types and reduces the reliance on pre-trained models or hand-crafted priors. We validate our method on both synthetic and real-world datasets, achieving convincing results. Furthermore, the applicability of our method to image editing tasks demonstrates promising outcomes.
翻訳日:2024-06-18 19:03:42 公開日:2024-06-16
# GANmut: 表情の生成と修正

GANmut: Generating and Modifying Facial Expressions ( http://arxiv.org/abs/2406.11079v1 )

ライセンス: Link先を確認
Maria Surani, (参考訳) 感情合成の領域では、真正かつニュアンスのある表情を作り出す能力が重要視され続けている。 GANmut研究は、事前に定義されたラベルに頼るのではなく、動的で解釈可能な感情空間を学ぶ、最近導入された高度なGANフレームワークについて論じている。 この方法論は、各個々の感情を中立状態から始まるベクトルとしてマッピングし、その大きさは感情の強さを反映する。 現在のプロジェクトは、さまざまなデータセット、画像解像度、顔検出方法論をベンチマークすることで、このフレームワークの研究を拡張することを目指している。 これには、Aff-Wild2とAffNetという2つの感情的なデータセットを使用した一連の実験が含まれる。 Aff-Wild2には、さまざまなカメラアングル、ヘッド位置、照明条件など、コントロールされていない環境で撮影されたビデオが含まれている。 AffNetはラベル付き感情の画像を提供し、トレーニングで利用可能な感情表現の多様性を改善している。 最初の2つの実験は、高性能なディープラーニング顔検出器であるRetinaFaceまたはMCCNNで処理されたAff-Wild2データセットを使用して、GANmutのトレーニングに焦点を当てる。 この設定は、GANmutが困難な条件下で感情をいかにうまく合成するかを判断し、これらの顔検出技術の比較効果を評価するのに役立つ。 続く2つの実験では、Aff-Wild2データセットとAffNetデータセットが統合され、Aff-Wild2の現実の変動性とAffNetの多様な感情ラベルが組み合わされる。 同じ顔検出器であるRetinaFaceとMCCNNは、組み合わせたデータセットの多様性の向上がGANmutのパフォーマンスを改善し、このハイブリッドセットアップにおける各顔検出方法の影響を比較するために使用される。

In the realm of emotion synthesis, the ability to create authentic and nuanced facial expressions continues to gain importance. The GANmut study discusses a recently introduced advanced GAN framework that, instead of relying on predefined labels, learns a dynamic and interpretable emotion space. This methodology maps each discrete emotion as vectors starting from a neutral state, their magnitude reflecting the emotion's intensity. The current project aims to extend the study of this framework by benchmarking across various datasets, image resolutions, and facial detection methodologies. This will involve conducting a series of experiments using two emotional datasets: Aff-Wild2 and AffNet. Aff-Wild2 contains videos captured in uncontrolled environments, which include diverse camera angles, head positions, and lighting conditions, providing a real-world challenge. AffNet offers images with labelled emotions, improving the diversity of emotional expressions available for training. The first two experiments will focus on training GANmut using the Aff-Wild2 dataset, processed with either RetinaFace or MTCNN, both of which are high-performance deep learning face detectors. This setup will help determine how well GANmut can learn to synthesise emotions under challenging conditions and assess the comparative effectiveness of these face detection technologies. The subsequent two experiments will merge the Aff-Wild2 and AffNet datasets, combining the real world variability of Aff-Wild2 with the diverse emotional labels of AffNet. The same face detectors, RetinaFace and MTCNN, will be employed to evaluate whether the enhanced diversity of the combined datasets improves GANmut's performance and to compare the impact of each face detection method in this hybrid setup.
翻訳日:2024-06-18 19:03:42 公開日:2024-06-16
# 複数のソースがひとつより優れている:低リソースグロースに外部知識を取り入れる

Multiple Sources are Better Than One: Incorporating External Knowledge in Low-Resource Glossing ( http://arxiv.org/abs/2406.11085v1 )

ライセンス: Link先を確認
Changbing Yang, Garrett Nicolai, Miikka Silfverberg, (参考訳) 本稿では,複数の言語知識の源泉をコーディネートすることで,低リソース言語におけるデータ駆動グロスリングにおけるデータ不足問題に対処する。 トークンレベルと文レベルの両方の翻訳でモデルを補うとともに,現代のLLMの言語能力を活用している。 我々の拡張により、6つの低リソース言語にまたがるタイプ的多種多様なデータセットにおいて、過去の最先端技術と比較して、単語レベルの精度が平均で5%向上した。 この改善は、低リソースのGitksanでは特に顕著で、10%のポイント改善を実現しています。 さらに,同じ6言語を対象とした擬似超低リソース設定において,100文字未満の文を訓練することにより,従来の最先端システムよりも平均10%の精度向上を実現した。

In this paper, we address the data scarcity problem in automatic data-driven glossing for low-resource languages by coordinating multiple sources of linguistic expertise. We supplement models with translations at both the token and sentence level as well as leverage the extensive linguistic capability of modern LLMs. Our enhancements lead to an average absolute improvement of 5%-points in word-level accuracy over the previous state of the art on a typologically diverse dataset spanning six low-resource languages. The improvements are particularly noticeable for the lowest-resourced language Gitksan, where we achieve a 10%-point improvement. Furthermore, in a simulated ultra-low resource setting for the same six languages, training on fewer than 100 glossed sentences, we establish an average 10%-point improvement in word-level accuracy over the previous state-of-the-art system.
翻訳日:2024-06-18 19:03:42 公開日:2024-06-16
# MemDPT: メモリ効率の良い言語モデルのための微分プライバシー

MemDPT: Differential Privacy for Memory Efficient Language Models ( http://arxiv.org/abs/2406.11087v1 )

ライセンス: Link先を確認
Yanming Liu, Xinyue Peng, Jiannan Cao, Yuwei Zhang, Chen Ma, Songhang Deng, Mengchen Fu, Xuhong Zhang, Sheng Cheng, Xun Wang, Jianwei Yin, Tianyu Du, (参考訳) 大規模言語モデルは、広範囲のアプリケーションで一貫して顕著な性能を示してきた。 それでも、これらのモデルのデプロイは、ユーザプライバシを潜在的なリスクに対して不注意に公開する可能性がある。 トレーニング中のこれらのモデルのかなりのメモリ需要は、重要なリソース消費の課題である。 これらのモデルの大きさはメモリ資源にかなりの負担を与えるが、これは実際は重大な懸念事項である。 本稿では,大規模言語モデルのメモリコスト削減だけでなく,ユーザデータのプライバシ保護にも重点を置いている,革新的なトレーニングフレームワークであるMemDPTを提案する。 MemDPTは、様々な差分プライバシーメモリ効率の良い微調整スキームに対応するために、エッジネットワークとリバースネットワークの設計を提供する。 当社のアプローチは,2ドルの \sim 3 \times$メモリ最適化を実現するだけでなく,堅牢なプライバシ保護も実現しています。 大規模な実験により、MemDPTは様々なタスクシナリオに対して、効果的な差分プライバシー効率の微調整を効果的に提供できることが示されている。

Large language models have consistently demonstrated remarkable performance across a wide spectrum of applications. Nonetheless, the deployment of these models can inadvertently expose user privacy to potential risks. The substantial memory demands of these models during training represent a significant resource consumption challenge. The sheer size of these models imposes a considerable burden on memory resources, which is a matter of significant concern in practice. In this paper, we present an innovative training framework MemDPT that not only reduces the memory cost of large language models but also places a strong emphasis on safeguarding user data privacy. MemDPT provides edge network and reverse network designs to accommodate various differential privacy memory-efficient fine-tuning schemes. Our approach not only achieves $2 \sim 3 \times$ memory optimization but also provides robust privacy protection, ensuring that user data remains secure and confidential. Extensive experiments have demonstrated that MemDPT can effectively provide differential privacy efficient fine-tuning across various task scenarios.
翻訳日:2024-06-18 19:03:42 公開日:2024-06-16
# 量子ビットにおける赤外量子情報の寿命

Lifetime of Infrared Quantum Information in Qubits ( http://arxiv.org/abs/2406.11088v1 )

ライセンス: Link先を確認
Elyana Crowder, Jiahao Chen, Dragomir Davidović, (参考訳) 完全なデコヒーレンスにつながる原理を明らかにすることは、ブラックホール形成における情報損失を理解するために不可欠である。 我々は厳密な摂動的量子マスター方程式を用いて、赤外偏光量子ビット力学の長期デコヒーレンス率を計算する。 この速度がハッブル定数を超えることは、赤外線粒子が宇宙の現在の年齢で量子情報を完全に破壊するわけではないことを意味する。 深部偏光は、量子コヒーレンスの赤外偏光を回復させる。

Clarifying the principles leading to complete decoherence is essential for understanding information loss in black hole formation. We employ strictly perturbative quantum master equations to compute the long-term decoherence rate in infrared-divergent qubit dynamics. In moderately sub-Ohmic dissipation, we find that this rate exceeds the Hubble's constant, meaning that infrared particles do not completely destroy quantum information at the universe's current age. Deep sub-Ohmic dissipation leads to infrared-divergent recovery of quantum coherence.
翻訳日:2024-06-18 19:03:42 公開日:2024-06-16
# 低調波テンソル補修のための保証サンプリングフレキシビリティ

Guaranteed Sampling Flexibility for Low-tubal-rank Tensor Completion ( http://arxiv.org/abs/2406.11092v1 )

ライセンス: Link先を確認
Bowen Su, Juntao You, HanQin Cai, Longxiu Huang, (参考訳) ベルヌーイサンプリングはテンソル完備化において広く研究されているが、t-CURサンプリングは横方向および水平方向のテンソルを介して低ツバルランクテンソルを近似する。 しかし、どちらの手法も様々な応用に十分な柔軟性を欠いている。 これを解決するために、テンソルクロス集中サンプリング(t-CCS)を導入し、テンソルフレームワーク内で行列クロス集中サンプリングの概念を前進させる新しい単純なサンプリングモデルを提案する。 t-CCSは、Bernoulliとt-CURサンプリングのギャップを効果的に埋め、様々なコンテキストにおける計算の節約につながる、さらなる柔軟性を提供する。 私たちの研究の重要な側面は、提供される包括的な理論的分析です。 t-CCS試料から低ランクテンソルを回収するのに十分な条件を確立する。 これを支持するために、一様ランダムサンプリングによるt-CURの実現可能性を検証する理論フレームワークを開発し、一般的なベルヌーイサンプリングモデルを用いたテンソル完備化問題に対する詳細な理論的サンプリング複雑性解析を行う。 さらに,効率的な非凸アルゴリズムであるITCURTC(Iterative t-CUR Tensor Completion)アルゴリズムを導入する。 我々は、t-CCSモデルとITCURTCアルゴリズムの有効性を、合成と実世界の両方のデータセットで徹底的に検証し、検証した。

While Bernoulli sampling is extensively studied in tensor completion, t-CUR sampling approximates low-tubal-rank tensors via lateral and horizontal subtensors. However, both methods lack sufficient flexibility for diverse practical applications. To address this, we introduce Tensor Cross-Concentrated Sampling (t-CCS), a novel and straightforward sampling model that advances the matrix cross-concentrated sampling concept within a tensor framework. t-CCS effectively bridges the gap between Bernoulli and t-CUR sampling, offering additional flexibility that can lead to computational savings in various contexts. A key aspect of our work is the comprehensive theoretical analysis provided. We establish a sufficient condition for the successful recovery of a low-rank tensor from its t-CCS samples. In support of this, we also develop a theoretical framework validating the feasibility of t-CUR via uniform random sampling and conduct a detailed theoretical sampling complexity analysis for tensor completion problems utilizing the general Bernoulli sampling model. Moreover, we introduce an efficient non-convex algorithm, the Iterative t-CUR Tensor Completion (ITCURTC) algorithm, specifically designed to tackle the t-CCS-based tensor completion. We have intensively tested and validated the effectiveness of the t-CCS model and the ITCURTC algorithm across both synthetic and real-world datasets.
翻訳日:2024-06-18 19:03:42 公開日:2024-06-16
# RAEmoLLM:感情情報に基づくインコンテキスト学習を用いたドメイン間誤情報検出のための検索用LLM

RAEmoLLM: Retrieval Augmented LLMs for Cross-Domain Misinformation Detection Using In-Context Learning based on Emotional Information ( http://arxiv.org/abs/2406.11093v1 )

ライセンス: Link先を確認
Zhiwei Liu, Kailai Yang, Qianqian Xie, Christine de Kock, Sophia Ananiadou, Eduard Hovy, (参考訳) 誤報は教育、政治、健康など様々な分野で普及し、社会に大きな害を与えている。 しかし、ドメイン間の誤情報検出の現在の手法は、微調整と複雑なモデル構造を消費する時間と資源に依存している。 LLMの優れた性能により、誤情報検出に多くの研究が使われている。 残念なことに、彼らはドメイン内のタスクに重点を置いており、重要な感情や感情的特徴(私たちが共同で感情と呼ぶもの)を組み込んでいません。 本稿では、感情情報に基づくテキスト内学習を用いたクロスドメイン誤情報検出のための、最初の検索拡張(RAG)LLMフレームワークであるRAEmoLLMを提案する。 感情を意識したLLMを適用して、感情埋め込みの検索データベースを構築する。 このデータベースは、検索モジュールがソースドメインのサンプルを取得するために使用し、その後、ターゲットドメインの誤情報を検出するために、推論モジュールのテキスト内数ショット学習に使用される。 3つの誤情報ベンチマークでフレームワークを評価した。 その結果、RAEmoLLMは3つのデータセットのゼロショット法と比較して大幅に改善され、最高値は20.69%、23.94%、39.11%となった。 この作業はhttps://github.com/lzw108/RAEmoLLMで公開される。

Misinformation is prevalent in various fields such as education, politics, health, etc., causing significant harm to society. However, current methods for cross-domain misinformation detection rely on time and resources consuming fine-tuning and complex model structures. With the outstanding performance of LLMs, many studies have employed them for misinformation detection. Unfortunately, they focus on in-domain tasks and do not incorporate significant sentiment and emotion features (which we jointly call affect). In this paper, we propose RAEmoLLM, the first retrieval augmented (RAG) LLMs framework to address cross-domain misinformation detection using in-context learning based on affective information. It accomplishes this by applying an emotion-aware LLM to construct a retrieval database of affective embeddings. This database is used by our retrieval module to obtain source-domain samples, which are subsequently used for the inference module's in-context few-shot learning to detect target domain misinformation. We evaluate our framework on three misinformation benchmarks. Results show that RAEmoLLM achieves significant improvements compared to the zero-shot method on three datasets, with the highest increases of 20.69%, 23.94%, and 39.11% respectively. This work will be released on https://github.com/lzw108/RAEmoLLM.
翻訳日:2024-06-18 19:03:42 公開日:2024-06-16
# 大規模言語モデルにおける態度・意見・価値の評価の可能性と課題

The Potential and Challenges of Evaluating Attitudes, Opinions, and Values in Large Language Models ( http://arxiv.org/abs/2406.11096v1 )

ライセンス: Link先を確認
Bolei Ma, Xinpeng Wang, Tiancheng Hu, Anna-Carolina Haensch, Michael A. Hedderich, Barbara Plank, Frauke Kreuter, (参考訳) 近年のLarge Language Models (LLMs) の進歩は、LLMが持つかもしれない人間のような認知行動特性の検証と理解に幅広い関心を喚起している。 これらの認知行動特性には、通常、態度、意見、価値(AOV)が含まれる。 しかし、LLM内に埋め込まれたAOVの測定は不透明であり、異なる評価方法が異なる結果をもたらす可能性がある。 この結果、異なる研究が相互にどのように関連しているか、どのように解釈できるかが明確になっていない。 本稿では,LLMにおけるAOV評価に関する最近の研究の概要を提供することで,このギャップを埋めることを目的としている。 さらに,これらの研究における評価パイプラインの異なる段階における関連するアプローチを調査した。 これにより、社会科学におけるモデル、人間とAIの整合性、下流の応用を理解するための可能性と課題に対処する。 最後に, 評価手法, モデル強化, 学際的コラボレーションの実践的洞察を提供し, LLMにおけるAOV評価の進化に寄与する。

Recent advances in Large Language Models (LLMs) have sparked wide interest in validating and comprehending the human-like cognitive-behavioral traits LLMs may have. These cognitive-behavioral traits include typically Attitudes, Opinions, Values (AOV). However, measuring AOV embedded within LLMs remains opaque, and different evaluation methods may yield different results. This has led to a lack of clarity on how different studies are related to each other and how they can be interpreted. This paper aims to bridge this gap by providing an overview of recent works on the evaluation of AOV in LLMs. Moreover, we survey related approaches in different stages of the evaluation pipeline in these works. By doing so, we address the potential and challenges with respect to understanding the model, human-AI alignment, and downstream application in social sciences. Finally, we provide practical insights into evaluation methods, model enhancement, and interdisciplinary collaboration, thereby contributing to the evolving landscape of evaluating AOV in LLMs.
翻訳日:2024-06-18 19:03:42 公開日:2024-06-16
# インストラクションCMP:インストラクションに基づく大規模言語モデルによる文圧縮における長さ制御

InstructCMP: Length Control in Sentence Compression through Instruction-based Large Language Models ( http://arxiv.org/abs/2406.11097v1 )

ライセンス: Link先を確認
Juseon-Do, Jingun Kwon, Hidetaka Kamigaito, Manabu Okumura, (参考訳) 抽出的要約は忠実な要約を生成することができるが、しばしば所望の要約長さのような追加の制約を必要とする。 従来の文圧縮モデルは、制限されたモデル能力のために制約を考慮せず、それに対処するためにモデル修正を必要とする。 このギャップを埋めるために,大規模言語モデル(LLM)のゼロショットタスク解決能力を活用することで,命令による長さ制約を考慮可能な文圧縮タスクへのアプローチである命令ベース圧縮(Instruction-based Compression, Instruction-based Compression, InstructCMP)を提案する。 そこで我々は,従来の文圧縮データセットを命令形式に変換することによって,新しい評価データセットを作成した。 データセットを用いて、圧縮されたテキストの長さを正確に制御する上で、現在のLLMが依然として課題に直面していることを最初に明らかにする。 この問題に対処するために、外部リソースを使わずに命令に付加的な長さ情報を組み込む「長さプライミング」という手法を提案する。 長さプライミングはゼロショット設定で効果的に機能するが、命令によるトレーニングデータセットにより、長さ制御の能力はさらに向上する。 これにより、トレーニングデータセットを命令形式で作成し、その上でモデルを微調整する。 実験結果と解析結果から, モデル修正を必要とせず, ゼロショットと微調整の両方でインストラクトCMPの性能を著しく向上させることがわかった。

Extractive summarization can produce faithful summaries but often requires additional constraints such as a desired summary length. Traditional sentence compression models do not typically consider the constraints because of their restricted model abilities, which require model modifications for coping with them. To bridge this gap, we propose Instruction-based Compression (InstructCMP), an approach to the sentence compression task that can consider the length constraint through instructions by leveraging the zero-shot task-solving abilities of Large Language Models (LLMs). For this purpose, we created new evaluation datasets by transforming traditional sentence compression datasets into an instruction format. By using the datasets, we first reveal that the current LLMs still face challenges in accurately controlling the length for a compressed text. To address this issue, we propose an approach named "length priming," that incorporates additional length information into the instructions without external resources. While the length priming effectively works in a zero-shot setting, a training dataset with the instructions would further improve the ability of length control. Thus, we additionally created a training dataset in an instruction format to fine-tune the model on it. Experimental results and analysis show that applying the length priming significantly improves performances of InstructCMP in both zero-shot and fine-tuning settings without the need of any model modifications.
翻訳日:2024-06-18 19:03:42 公開日:2024-06-16
# 拡散変圧器の量子化に関する検討

An Analysis on Quantizing Diffusion Transformers ( http://arxiv.org/abs/2406.11100v1 )

ライセンス: Link先を確認
Yuewei Yang, Jialiang Wang, Xiaoliang Dai, Peizhao Zhang, Hongbo Zhang, (参考訳) 拡散モデル (DM) は、ランダムノイズを合成データに変換するために反復的復調法を用いる。 UNet構造で最初に提案されたDMは、条件付きテキストプロンプトとほぼ区別できない画像を生成するのに優れている。 後にトランスのみの構造がDMで構成され、性能が向上する。 遅延拡散モデル(LDMs)は、遅延空間でノイズを発生させることによって計算要求を低減させるが、パラメータのせん断量や特徴サイズのため、任意のオペレーティングシステムのイメージを推測することは極めて高価である。 ポストトレーニング量子化(PTQ)は、より小さなストレージサイズと推論時のメモリ効率の高い計算に対する即時対策を提供する。 UNet構造上のDMのPTQに対処する以前の研究は、適度な最適化によってアクティベーションとウェイトの両方のパラメータを校正する際の課題に対処してきた。 本研究では,変圧器のみの構造を最適化せずに効率的なPTQを考案する。 拡散変圧器のアクティベーションと重みの定量化の課題を分析することにより、活性化の単一ステップサンプリングキャリブレーションと、低ビット量子化のための重みのグループワイド量子化を提案する。 条件付き画像生成における予備実験による提案手法の有効性と有効性を示す。

Diffusion Models (DMs) utilize an iterative denoising process to transform random noise into synthetic data. Initally proposed with a UNet structure, DMs excel at producing images that are virtually indistinguishable with or without conditioned text prompts. Later transformer-only structure is composed with DMs to achieve better performance. Though Latent Diffusion Models (LDMs) reduce the computational requirement by denoising in a latent space, it is extremely expensive to inference images for any operating devices due to the shear volume of parameters and feature sizes. Post Training Quantization (PTQ) offers an immediate remedy for a smaller storage size and more memory-efficient computation during inferencing. Prior works address PTQ of DMs on UNet structures have addressed the challenges in calibrating parameters for both activations and weights via moderate optimization. In this work, we pioneer an efficient PTQ on transformer-only structure without any optimization. By analysing challenges in quantizing activations and weights for diffusion transformers, we propose a single-step sampling calibration on activations and adapt group-wise quantization on weights for low-bit quantization. We demonstrate the efficiency and effectiveness of proposed methods with preliminary experiments on conditional image generation.
翻訳日:2024-06-18 19:03:42 公開日:2024-06-16
# 大規模言語モデルを用いた大規模オープンオンラインコースのグラディング

Grading Massive Open Online Courses Using Large Language Models ( http://arxiv.org/abs/2406.11102v1 )

ライセンス: Link先を確認
Shahriar Golchin, Nikhil Garuda, Christopher Impey, Matthew Wenger, (参考訳) 大規模なオープンオンラインコース(MOOC)は、コンピュータとインターネットアクセスを持つ人なら誰でも無料で教育を受けられる。 このような学習の民主化にもかかわらず、これらの講座への大規模な入学は、一人の教官がすべての学生の筆記課題を評価するのを非現実的にする。 結果として、素直なルーリックによって導かれるピアグレーディングが、選択の方法である。 便利だが、ピアグレーディングは信頼性と妥当性の点で不足することが多い。 本研究では,MOOCにおけるピアグレーディングの代替として,大規模言語モデル(LLM)の利用の可能性を検討する。 具体的には、3つのMOOC(Introductory Astronomy, Astrobiology, and the History and Philosophy of Astronomy)にまたがる2つのLCM(GPT-4, GPT-3.5)を用いる。 LLMのインストラクションには,(1)インストラクタが提供する正解がZCoT,(2)インストラクタが提供する正解がZCoT,(3)インストラクタが提供する正解がZCoT,(3)インストラクタが生成した正解がZCoTである。 その結果,ZCoTはインストラクターが提案する正解とルーブリックを付加すると,ピアグレーティングよりもインストラクターが割り当てたものとより整合した成績が得られた。 最後に,MOOCにおける自動学習システム,特に明確に定義されたルーリックの被験者が,世界中の何百万人ものオンライン学習者の学習体験を改善する上で有望な可能性を示唆した。

Massive open online courses (MOOCs) offer free education globally to anyone with a computer and internet access. Despite this democratization of learning, the massive enrollment in these courses makes it impractical for one instructor to assess every student's writing assignment. As a result, peer grading, often guided by a straightforward rubric, is the method of choice. While convenient, peer grading often falls short in terms of reliability and validity. In this study, we explore the feasibility of using large language models (LLMs) to replace peer grading in MOOCs. Specifically, we use two LLMs, GPT-4 and GPT-3.5, across three MOOCs: Introductory Astronomy, Astrobiology, and the History and Philosophy of Astronomy. To instruct LLMs, we use three different prompts based on the zero-shot chain-of-thought (ZCoT) prompting technique: (1) ZCoT with instructor-provided correct answers, (2) ZCoT with both instructor-provided correct answers and rubrics, and (3) ZCoT with instructor-provided correct answers and LLM-generated rubrics. Tested on 18 settings, our results show that ZCoT, when augmented with instructor-provided correct answers and rubrics, produces grades that are more aligned with those assigned by instructors compared to peer grading. Finally, our findings indicate a promising potential for automated grading systems in MOOCs, especially in subjects with well-defined rubrics, to improve the learning experience for millions of online learners worldwide.
翻訳日:2024-06-18 18:53:41 公開日:2024-06-16
# Beyond the Hype: プログラミング教室におけるChatGPTの注意書き

Beyond the Hype: A Cautionary Tale of ChatGPT in the Programming Classroom ( http://arxiv.org/abs/2406.11104v1 )

ライセンス: Link先を確認
Grant Oosterwyk, Pitso Tsibolane, Popyeni Kautondokwa, Ammar Canani, (参考訳) 大規模言語モデル研究の普及と様々な人工知能(AI)ツールの使用により、情報システム(IS)とコンピュータ科学(CS)の分野が発展してきた。 ChatGPTのようなツールを使って、様々な学生プログラミング演習(例えばPython)を完了し、課題が様々な学術機関で注目を集めている。 しかし、近年の文献では、ChatGPTを学術に利用することは問題であり、教育と学習への影響をさらに精査すべきだと示唆されている。 より具体的には、ChatGPTが、ISやCSの大学生の間でプログラミング演習を完了させるために、コード(プログラミング)を書くことで実際にどのように使用できるかについては、ほとんど分かっていない。 さらに、より困難な演習を創出するためにプログラミングを教える学者や、ChatGPTを用いて教室の整合性を促進するための責任を負う方法についての知見を提供する。 本稿では,複雑な適応システム(CAS)理論を理論的ガイドとして利用し,様々なダイナミクスを教室でのコードデモを通じて理解した。 また,ChatGPT 3.5を用いて,過去のIS演習の実践的プログラミング事例を分析し,教員や講師が大学環境下で作成したメモと比較した。 本稿では,ChatGPTが生み出した共通的な評価方法,プログラミングの誤り,および学生間の重要なプログラミングスキルの発達を確実にするためのIS学者の潜在的配慮について述べる。

Due to the proliferation of Large Language Models research and the use of various Artificial Intelligence (AI) tools, the field of information systems (IS) and computer science (CS) has evolved. The use of tools such as ChatGPT to complete various student programming exercises (e.g., in Python) and assignments has gained prominence amongst various academic institutions. However, recent literature has suggested that the use of ChatGPT in academia is problematic and the impact on teaching and learning should be further scrutinized. More specifically, little is known about how ChatGPT can be practically used with code (programming) writing to complete programming exercises amongst IS and CS undergraduate university students. Furthermore, the paper provides insights for academics who teach programming to create more challenging exercises and how to engage responsibly in the use of ChatGPT to promote classroom integrity. In this paper, we used Complex Adaptive Systems (CAS) theory as a theoretical guide to understand the various dynamics through classroom code demonstrations. Using ChatGPT 3.5, we analyzed the various practical programming examples from past IS exercises and compared those with memos created by tutors and lecturers in a university setting. This paper highlights common ways of assessment, programming errors created by ChatGPT and the potential consideration for IS academics to ensure the development of critical programming skills among students.
翻訳日:2024-06-18 18:53:41 公開日:2024-06-16
# アウト・オブ・ディストリビューション検出に先立つ爆発的拡散

Exploiting Diffusion Prior for Out-of-Distribution Detection ( http://arxiv.org/abs/2406.11105v1 )

ライセンス: Link先を確認
Armando Zhu, Jiabei Liu, Keqin Li, Shuying Dai, Bo Hong, Peng Zhao, Changsong Wei, (参考訳) アウト・オブ・ディストリビューション(OOD)検出は、特にセキュリティが重要な分野において、堅牢な機械学習モデルをデプロイするために不可欠である。 しかし、従来のOOD検出手法は、大規模な日付から複雑なデータ分布を捉えるのに失敗することが多い。 本稿では,CLIP の拡散モデル生成能力と強力な特徴抽出能力を活用する OOD 検出手法を提案する。 これらの特徴を拡散モデルへの条件入力として利用することにより、CLIPでエンコードした画像を再構成することができる。 元の画像と再構成画像の違いは、OOD識別のための信号として使用される。 本手法の実用性と拡張性は,他の多くの手法と同様,クラス固有のラベル付きIDデータを必要としないという事実により増大する。 いくつかのベンチマークデータセットに対する大規模な実験は,本手法の堅牢性と有効性を示し,検出精度を大幅に向上させた。

Out-of-distribution (OOD) detection is crucial for deploying robust machine learning models, especially in areas where security is critical. However, traditional OOD detection methods often fail to capture complex data distributions from large scale date. In this paper, we present a novel approach for OOD detection that leverages the generative ability of diffusion models and the powerful feature extraction capabilities of CLIP. By using these features as conditional inputs to a diffusion model, we can reconstruct the images after encoding them with CLIP. The difference between the original and reconstructed images is used as a signal for OOD identification. The practicality and scalability of our method is increased by the fact that it does not require class-specific labeled ID data, as is the case with many other methods. Extensive experiments on several benchmark datasets demonstrates the robustness and effectiveness of our method, which have significantly improved the detection accuracy.
翻訳日:2024-06-18 18:53:41 公開日:2024-06-16
# Hallo: ポートレート画像アニメーションのための階層型オーディオ駆動型ビジュアル合成

Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation ( http://arxiv.org/abs/2406.08801v2 )

ライセンス: Link先を確認
Mingwang Xu, Hui Li, Qingkun Su, Hanlin Shang, Liwei Zhang, Ce Liu, Jingdong Wang, Yao Yao, Siyu Zhu, (参考訳) 音声入力によって駆動される肖像画アニメーションの分野は、現実的でダイナミックな肖像画の生成において大きな進歩を経験してきた。 この研究は、拡散に基づく手法の枠組みの中で、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さについて考察する。 中間顔表現のパラメトリックモデルに依存する従来のパラダイムから離れ、我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、音声入力と視覚出力のアライメントの精度を高め、唇、表情、ポーズ動作を包含する階層的な音声駆動視覚合成モジュールを導入している。 提案するネットワークアーキテクチャは,拡散に基づく生成モデル,UNetに基づくデノイザ,時間的アライメント手法,参照ネットワークをシームレスに統合する。 提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。 質的および定量的な分析の両方を取り入れた総合的な評価を通じて, 画像および映像品質, 唇同期精度, 動きの多様性の明らかな向上を示す。 ソースコードへのさらなる視覚化とアクセスは、https://fudan-generative-vision.github.io/hallo.comで見ることができる。

The field of portrait image animation, driven by speech audio input, has experienced significant advancements in the generation of realistic and dynamic portraits. This research delves into the complexities of synchronizing facial movements and creating visually appealing, temporally consistent animations within the framework of diffusion-based methodologies. Moving away from traditional paradigms that rely on parametric models for intermediate facial representations, our innovative approach embraces the end-to-end diffusion paradigm and introduces a hierarchical audio-driven visual synthesis module to enhance the precision of alignment between audio inputs and visual outputs, encompassing lip, expression, and pose motion. Our proposed network architecture seamlessly integrates diffusion-based generative models, a UNet-based denoiser, temporal alignment techniques, and a reference network. The proposed hierarchical audio-driven visual synthesis offers adaptive control over expression and pose diversity, enabling more effective personalization tailored to different identities. Through a comprehensive evaluation that incorporates both qualitative and quantitative analyses, our approach demonstrates obvious enhancements in image and video quality, lip synchronization precision, and motion diversity. Further visualization and access to the source code can be found at: https://fudan-generative-vision.github.io/hallo.
翻訳日:2024-06-18 12:44:32 公開日:2024-06-16
# 音声スポフィング検出のための解釈可能な時間的クラスアクティベーション表現

Interpretable Temporal Class Activation Representation for Audio Spoofing Detection ( http://arxiv.org/abs/2406.08825v2 )

ライセンス: Link先を確認
Menglu Li, Xiao-Ping Zhang, (参考訳) 音声スプーフィング検出モデルによる決定を説明することは、検出結果に対する信頼を高めるために重要である。 しかし,検出モデルの解釈可能性に関する現在の研究は,学習後のモデルにXAIツールを適用することに限定されている。 本稿では、wav2vec 2.0モデルと注意的発話レベルの特徴を利用して、解釈可能性を直接モデルのアーキテクチャに統合し、意思決定プロセスの透明性を高める。 具体的には,検出に寄与する識別フレームをローカライズするクラスアクティベーション表現を提案する。 さらに,2進ラベルではなく,スプーフィング型に基づくマルチラベルトレーニングにより,異なる攻撃特性を学習し,検出性能を著しく向上することを示す。 ASVspoof2019-LAセットのEERは0.51%、min t-DCFは0.0165である。

Explaining the decisions made by audio spoofing detection models is crucial for fostering trust in detection outcomes. However, current research on the interpretability of detection models is limited to applying XAI tools to post-trained models. In this paper, we utilize the wav2vec 2.0 model and attentive utterance-level features to integrate interpretability directly into the model's architecture, thereby enhancing transparency of the decision-making process. Specifically, we propose a class activation representation to localize the discriminative frames contributing to detection. Furthermore, we demonstrate that multi-label training based on spoofing types, rather than binary labels as bonafide and spoofed, enables the model to learn distinct characteristics of different attacks, significantly improving detection performance. Our model achieves state-of-the-art results, with an EER of 0.51% and a min t-DCF of 0.0165 on the ASVspoof2019-LA set.
翻訳日:2024-06-18 12:44:32 公開日:2024-06-16
# 総合的なグラフポーリングベンチマーク:有効性、ロバスト性、一般化可能性

A Comprehensive Graph Pooling Benchmark: Effectiveness, Robustness and Generalizability ( http://arxiv.org/abs/2406.09031v2 )

ライセンス: Link先を確認
Pengyun Wang, Junyu Luo, Yanxin Shen, Siyu Heng, Xiao Luo, (参考訳) グラフプーリングは、様々な下流タスクに有効なノードとグラフ表現を得る能力で注目を集めている。 最近のグラフプーリングアプローチの急増にもかかわらず、そのパフォーマンスを評価するための標準化された実験的設定と公正なベンチマークが欠如している。 この問題に対処するため、15のグラフプーリング方法と21のグラフデータセットを含む包括的なベンチマークを構築した。 このベンチマークは3次元のグラフプーリング法の性能を体系的に評価する。 まず,グラフ分類,グラフ回帰,ノード分類など,様々なタスクにまたがるグラフプーリング手法の性能評価を行った。 そこで本研究では,現実のシナリオにおいて,潜在的なノイズアタックとアウト・オブ・ディストリビューション・シフトの下での性能について検討する。 また、詳細な効率分析やパラメータ分析も行う。 広範囲にわたる実験により,様々なシナリオにおけるグラフプーリングアプローチの強い能力と適用性が検証され,深層幾何学的学習研究に有用な洞察とガイダンスが得られている。 ベンチマークのソースコードはhttps://github.com/goose315/Graph_Pooling_Benchmarkで公開されている。

Graph pooling has gained attention for its ability to obtain effective node and graph representations for various downstream tasks. Despite the recent surge in graph pooling approaches, there is a lack of standardized experimental settings and fair benchmarks to evaluate their performance. To address this issue, we have constructed a comprehensive benchmark that includes 15 graph pooling methods and 21 different graph datasets. This benchmark systematically assesses the performance of graph pooling methods in three dimensions, i.e., effectiveness, robustness, and generalizability. We first evaluate the performance of these graph pooling approaches across different tasks including graph classification, graph regression and node classification. Then, we investigate their performance under potential noise attacks and out-of-distribution shifts in real-world scenarios. We also involve detailed efficiency analysis and parameter analysis. Extensive experiments validate the strong capability and applicability of graph pooling approaches in various scenarios, which can provide valuable insights and guidance for deep geometric learning research. The source code of our benchmark is available at https://github.com/goose315/Graph_Pooling_Benchmark.
翻訳日:2024-06-18 12:44:32 公開日:2024-06-16
# Smooth Inductive Biasを用いた物理インフォームドラーニングによる固定次元の良性オーバーフィッティング

Benign overfitting in Fixed Dimension via Physics-Informed Learning with Smooth Inductive Bias ( http://arxiv.org/abs/2406.09194v2 )

ライセンス: Link先を確認
Honam Wong, Wendao Wu, Fanghui Liu, Yiping Lu, (参考訳) 機械学習の最近の進歩は、特定の物理法則に従う測定結果から、特定の量の興味を再構築する研究が急増している。 これらの取り組みは、偏微分方程式(PDE)によって支配される逆問題に焦点を当てている。 本研究では、線形逆問題に対処する際、カーネルリッジ(無)回帰のための漸近的ソボレフノルム学習曲線を開発する。 この結果から, 逆問題におけるPDE演算子は分散を安定化し, 固定次元問題に優越した過度に振る舞うことができ, 回帰問題と異なる挙動を示すことがわかった。 さらに,本研究では,異なるソボレフノルムを暗黙正則化の一形態として最小化することによって導入される様々な帰納バイアスの影響も示した。 正規化最小二乗推定器では、正規化パラメータが適切に選択された場合、帰納的バイアスが全て最適収束率を達成することができる。 収束速度は実際には、リッジとリッジレス回帰の両方に対して(十分に滑らかな)帰納バイアスの選択とは独立である。 驚くべきことに、我々の滑らかさ要件はベイズの設定で見つかった条件を回復し、結論を最小ノルム補間推定器にまで拡張した。

Recent advances in machine learning have inspired a surge of research into reconstructing specific quantities of interest from measurements that comply with certain physical laws. These efforts focus on inverse problems that are governed by partial differential equations (PDEs). In this work, we develop an asymptotic Sobolev norm learning curve for kernel ridge(less) regression when addressing (elliptical) linear inverse problems. Our results show that the PDE operators in the inverse problem can stabilize the variance and even behave benign overfitting for fixed-dimensional problems, exhibiting different behaviors from regression problems. Besides, our investigation also demonstrates the impact of various inductive biases introduced by minimizing different Sobolev norms as a form of implicit regularization. For the regularized least squares estimator, we find that all considered inductive biases can achieve the optimal convergence rate, provided the regularization parameter is appropriately chosen. The convergence rate is actually independent to the choice of (smooth enough) inductive bias for both ridge and ridgeless regression. Surprisingly, our smoothness requirement recovered the condition found in Bayesian setting and extend the conclusion to the minimum norm interpolation estimators.
翻訳日:2024-06-18 12:44:32 公開日:2024-06-16
# MLKV: メモリ効率の良いトランスフォーマーデコーディングのための多層キーバリューヘッド

MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding ( http://arxiv.org/abs/2406.09297v2 )

ライセンス: Link先を確認
Zayd Muhammad Kawakibi Zuhri, Muhammad Farid Adilazuarda, Ayu Purwarianti, Alham Fikri Aji, (参考訳) トランスフォーマーの自動回帰推論はキーバリュー(KV)キャッシングから大きく恩恵を受けるが、モデルサイズ、バッチサイズ、シーケンス長が大きくなるなど、大きなメモリボトルネックにつながる可能性がある。 我々は,Multi-Query Attention (MQA) と Grouped-Query Attention (GQA) で可能であった以上のメモリ使用量を削減するために,トランスフォーマー層をまたいだKV共有を拡張した新しいアプローチであるMulti-Layer Key-Value(MLKV)の共有を導入する。 アップトレーニングされたPythia-160Mを用いた様々なNLPベンチマークと推論メトリクスの評価から、MLKVはパフォーマンス損失を最小限に抑えてメモリ使用量を著しく削減し、KVキャッシュサイズをMQAに比べて6倍に削減することが示された。 これらの結果は、MLKVが大規模トランスフォーマーモデルを効率的に展開する可能性を強調している。 私たちはhttps://github.com/zaydzuhri/pythia-mlkvでコードを提供しています。

Auto-regressive inference of transformers benefit greatly from Key-Value (KV) caching, but can lead to major memory bottlenecks as model size, batch size, and sequence length grow at scale. We introduce Multi-Layer Key-Value (MLKV) sharing, a novel approach extending KV sharing across transformer layers to reduce memory usage beyond what was possible with Multi-Query Attention (MQA) and Grouped-Query Attention (GQA). Evaluations on various NLP benchmarks and inference metrics using uptrained Pythia-160M variants demonstrate that MLKV significantly reduces memory usage with minimal performance loss, reducing KV cache size down to a factor of 6x compared to MQA. These results highlight MLKV's potential for efficient deployment of transformer models at scale. We provide code at https://github.com/zaydzuhri/pythia-mlkv
翻訳日:2024-06-18 12:44:32 公開日:2024-06-16
# Khmer Semantic Search Engine (KSE):デジタル情報アクセスと文書検索

Khmer Semantic Search Engine (KSE): Digital Information Access and Document Retrieval ( http://arxiv.org/abs/2406.09320v2 )

ライセンス: Link先を確認
Nimol Thuon, (参考訳) 検索エンジンプロセスは文書コンテンツ検索に不可欠である。 Khmer文書には、重要なキーワードを抽出し、正確な検索を容易にする効果的なツールが必要である。 カンボジア人は、重要なクメールコンテンツを日々生成しているにもかかわらず、効果的なセマンティック検索ツールがないため、必要な文書を見つけるのに苦労している。 Googleでさえ、Khmerコンテンツに対して高い精度を提供していない。 セマンティック検索エンジンは、様々なコンテンツタイプを理解するために高度なアルゴリズムを用いて検索結果を改善する。 レポート、記事、ソーシャルメディアフィードバックなどのクメールのデジタルコンテンツの増加は、検索機能の向上に不可欠である。 本研究は,Khmer Semantic Search Engine (KSE) を提案する。 セマンティックマッチング技術と公式な注釈付きセマンティックコンテンツを利用して,ユーザクエリから意味のあるキーワードを抽出し,正確なマッチングを行い,最適なオフライン文書とオンラインURLを提供する。 本稿では,キーワード辞書に基づくセマンティック検索,オントロジーに基づくセマンティック検索,ランキングに基づくセマンティック検索という3つのセマンティック検索フレームワークを提案する。 さらに、文書の追加や手作業によるキーワード抽出など、データ準備のためのツールも開発した。 性能を評価するため,本研究では,基礎的真理データセットを作成し,検索と意味探索に関連する問題に対処した。 その結果,検索項のセマンティクスの理解は,より正確な結果をもたらす可能性が示唆された。

The search engine process is crucial for document content retrieval. For Khmer documents, an effective tool is needed to extract essential keywords and facilitate accurate searches. Despite the daily generation of significant Khmer content, Cambodians struggle to find necessary documents due to the lack of an effective semantic searching tool. Even Google does not deliver high accuracy for Khmer content. Semantic search engines improve search results by employing advanced algorithms to understand various content types. With the rise in Khmer digital content such as reports, articles, and social media feedback enhanced search capabilities are essential. This research proposes the first Khmer Semantic Search Engine (KSE), designed to enhance traditional Khmer search methods. Utilizing semantic matching techniques and formally annotated semantic content, our tool extracts meaningful keywords from user queries, performs precise matching, and provides the best matching offline documents and online URLs. We propose three semantic search frameworks: semantic search based on a keyword dictionary, semantic search based on ontology, and semantic search based on ranking. Additionally, we developed tools for data preparation, including document addition and manual keyword extraction. To evaluate performance, we created a ground truth dataset and addressed issues related to searching and semantic search. Our findings demonstrate that understanding search term semantics can lead to significantly more accurate results.
翻訳日:2024-06-18 12:44:32 公開日:2024-06-16