このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240624となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# ニュートンの第3法則による量子確率のボルン則
The Born rule for quantum probabilities from Newton's third law ( http://arxiv.org/abs/2408.03941v1 ) ライセンス: Link先を確認 | S. S. Afonin, | (参考訳) 本稿では、なぜ量子論における確率が波動関数あるいは振幅の正方形によって決定されるのかという古い疑問に対する単純な物理解を提案する。
I propose a simple physical answer to the old question of why probability in quantum theory is determined by the square of the wave function or amplitude. | 翻訳日:2024-08-19 04:39:15 公開日:2024-06-24 |
# コミュニケーション, 医療管理, 診断における臨床要約と患者表の見直しの役割の評価
Assessing the role of clinical summarization and patient chart review within communications, medical management, and diagnostics ( http://arxiv.org/abs/2407.16905v1 ) ライセンス: Link先を確認 | Chanseo Lee, Kimon-Aristotelis Vogt, Sonu Kumar, | (参考訳) 電子健康記録(EHR)における非構造化患者データの効果的な要約は、正確な診断と効率的な患者ケアに不可欠であるが、臨床医は情報過負荷と時間制約に苦慮することが多い。
本報告では,コミュニケーション,診断,管理における患者チャートレビューの意義と課題について,近年の文献および事例研究について概説する。
また、人工知能(AI)を臨床要約タスクに統合する最近の取り組みや、管理負担の削減や患者中心型ケアの改善など、臨床医の可能性への変革的影響についても論じている。
Effective summarization of unstructured patient data in electronic health records (EHRs) is crucial for accurate diagnosis and efficient patient care, yet clinicians often struggle with information overload and time constraints. This review dives into recent literature and case studies on both the significant impacts and outstanding issues of patient chart review on communications, diagnostics, and management. It also discusses recent efforts to integrate artificial intelligence (AI) into clinical summarization tasks, and its transformative impact on the clinician's potential, including but not limited to reductions of administrative burden and improved patient-centered care. | 翻訳日:2024-07-28 18:19:29 公開日:2024-06-24 |
# EUGAIN (European Network for Gender Balance in Informatics) の活動と成果
European Network For Gender Balance in Informatics (EUGAIN): Activities and Results ( http://arxiv.org/abs/2407.16906v1 ) ライセンス: Link先を確認 | Letizia Jaccheri, Barbora Buhnova, Birgit Penzenstadler, Karima Boudaoud, Valentina Lenarduzzi, | (参考訳) 本章では、EUGAIN(EU COST Action CA19122)の活動と成果についてまとめる。
ネットワークの主な目的と目的は、学部・大学院研究から学業・産業界の両方での参加とリーダーシップまで、あらゆるレベルの情報学者のジェンダーバランスを改善することである。
This chapter provides a summary of the activities and results of the European Network For Gender Balance in Informatics (EUGAIN, EU COST Action CA19122). The main aim and objective of the network is to improve gender balance in informatics at all levels, from undergraduate and graduate studies to participation and leadership both in academia and industry, through the creation of a European network of colleagues working at the forefront of the efforts for gender balance in informatics in their countries and research communities. | 翻訳日:2024-07-28 18:19:29 公開日:2024-06-24 |
# Gut-Brain軸シンプスにおける分子量子(MolQ)通信チャネルの理論解析
A Theoretical Analysis of Molecular Quantum (MolQ) Communication Channel in the Gut-Brain Axis Synapse ( http://arxiv.org/abs/2407.07106v1 ) ライセンス: Link先を確認 | Bitop Maitra, Ozgur B. Akan, | (参考訳) 腸-脳軸は、腸と脳の間のコミュニケーションリンクである。
腸脳軸がホメオスタシスにおいて重要な役割を担っていることは知られているが、その全体的なメカニズムはまだ分かっていない。
しかし、神経シナプスでは、古典的な分子間通信はリガンド-受容体複合体の形成によって説明され、イオンチャネルが開く。
さらに、イオンチャネルが開く前に満たさなければならない条件もいくつかある。
本研究では,神経伝達物質がシナプスの裂孔から拡散する内脳軸について,分子間通信を考慮した検討を行う。
シナプスのシナプス後膜である迷走神経(VN)膜では、イオンチャネルの開口を開始する量子通信(QC)を行い、腸から脳への通信信号を開始する。
分子量子(MolQ)通信という新しい通信パラダイムを進化させる。
QCモデルに基づいて出力状態を理論的に解析し、入力のエントロピーと相互情報、すなわちニューロトランスミッタの濃度、および出力、すなわちイオンチャネルの開口を分析して、入射ニューロトランスミッタの濃度を考慮してQCをシミュレートする。
The gut-brain axis is the communication link between the gut and the brain. Although it is known that the gut-brain axis plays a pivotal role in homeostasis, its overall mechanism is still not known. However, for neural synapses, classical molecular communication is described by the formation of ligand-receptor complexes, which leads to the opening of ion channels. Moreover, there are some conditions that need to be fulfilled before the opening of the ion channel. In this study, we will consider the gut-brain axis, where neurotransmitters diffuse through the synaptic cleft, considering molecular communication. On the vagus nerve (VN) membrane, i.e., the post-synaptic membrane of the synapse, it undergoes a quantum communication (QC), which initiates the opening of the ion channel, thus initiating the communication signal from the gut to the brain. It evolves a new paradigm of communication approach, Molecular Quantum (MolQ) communication. Based on the QC model, we theoretically analyzes the output states, and QC is simulated considering the incoming neurotransmitter's concentration and validated by analyzing the entropy and the mutual information of the input, i.e., neurotransmitter's concentration, and output, i.e., ion channel opening. | 翻訳日:2024-07-22 13:58:01 公開日:2024-06-24 |
# 理解は圧縮である
Understanding is Compression ( http://arxiv.org/abs/2407.07723v1 ) ライセンス: Link先を確認 | Ziguang Li, Chao Huang, Xuliang Wang, Haibo Hu, Cole Wyeth, Dongbo Bu, Quan Yu, Wen Gao, Xingwu Liu, Ming Li, | (参考訳) 我々は以前、合理的な仮定の下で、すべての理解または学習が圧縮であることを示した。
原則として、データに対するより良い理解はデータ圧縮を改善するべきである。
従来の圧縮手法は、周波数やその他の計算可能なデータの特性の符号化に重点を置いている。
大規模言語モデルは計算不能なソロモノフ分布を近似し、我々の理論を正当化するために全く新しい道を開く。
計算不能な新たなパラダイムとして,大規模モデルを用いたデータの理解に基づくLMCompressを提案する。
LMCompressは、他のすべてのロスレスデータ圧縮方法よりもロスレス圧縮比が大幅に向上し、画像のJPEG-XLの圧縮比が倍増し、オーディオのFLACとビデオのH264が倍増し、テキストのbz2の圧縮比が3倍または4倍になった。
大きなモデルがデータを理解するほど、LMCompressは圧縮する。
We have previously shown all understanding or learning are compression, under reasonable assumptions. In principle, better understanding of data should improve data compression. Traditional compression methodologies focus on encoding frequencies or some other computable properties of data. Large language models approximate the uncomputable Solomonoff distribution, opening up a whole new avenue to justify our theory. Under the new uncomputable paradigm, we present LMCompress based on the understanding of data using large models. LMCompress has significantly better lossless compression ratios than all other lossless data compression methods, doubling the compression ratios of JPEG-XL for images, FLAC for audios and H264 for videos, and tripling or quadrupling the compression ratio of bz2 for texts. The better a large model understands the data, the better LMCompress compresses. | 翻訳日:2024-07-22 13:58:01 公開日:2024-06-24 |
# 視覚領域適応のための識別性と伝達可能性の幾何学的理解
Geometric Understanding of Discriminability and Transferability for Visual Domain Adaptation ( http://arxiv.org/abs/2407.09524v1 ) ライセンス: Link先を確認 | You-Wei Luo, Chuan-Xian Ren, Xiao-Lin Xu, Qingshan Liu, | (参考訳) 同一分布仮定の制約を克服するために、教師なし領域適応(UDA)のための不変表現学習は、コンピュータビジョンとパターン認識コミュニティにおいて大きな進歩を遂げた。
UDAシナリオでは、トレーニングとテストデータは異なるドメインに属し、タスクモデルは不変であることが学習される。
近年, 伝達可能性と識別可能性との実証的な関係が注目され, 不変表現の理解の鍵となっている。
しかし、これらの能力に関する理論的研究や、学習された特徴構造の詳細な分析はまだ研究されていない。
本研究では,幾何学的観点から,伝達可能性と識別可能性の本質を体系的に分析する。
理論的結果から,共正則化関係の理解と,これらの能力の学習可能性の証明が得られた。
方法論的側面から、その能力は領域/クラスタ部分空間(すなわち直交性と同値性)の間の幾何学的性質として定式化され、複数の行列のノルム/ランクの関係として特徴づけられる。
2つの最適化フレンドリな学習原則が導出され、直感的な説明が保証される。
さらに, 幾何構造の学習のバランスをとるために, 共正則化パラメータの可能な範囲を導出する。
理論的な結果に基づき,核ノルム最適化による伝達性と識別性の向上を目的とした幾何指向モデルを提案する。
実験結果により,提案モデルの有効性を実証的に検証し, 導出可能な範囲で幾何的能力が十分に学習可能であることを検証した。
To overcome the restriction of identical distribution assumption, invariant representation learning for unsupervised domain adaptation (UDA) has made significant advances in computer vision and pattern recognition communities. In UDA scenario, the training and test data belong to different domains while the task model is learned to be invariant. Recently, empirical connections between transferability and discriminability have received increasing attention, which is the key to understanding the invariant representations. However, theoretical study of these abilities and in-depth analysis of the learned feature structures are unexplored yet. In this work, we systematically analyze the essentials of transferability and discriminability from the geometric perspective. Our theoretical results provide insights into understanding the co-regularization relation and prove the possibility of learning these abilities. From methodology aspect, the abilities are formulated as geometric properties between domain/cluster subspaces (i.e., orthogonality and equivalence) and characterized as the relation between the norms/ranks of multiple matrices. Two optimization-friendly learning principles are derived, which also ensure some intuitive explanations. Moreover, a feasible range for the co-regularization parameters is deduced to balance the learning of geometric structures. Based on the theoretical results, a geometry-oriented model is proposed for enhancing the transferability and discriminability via nuclear norm optimization. Extensive experiment results validate the effectiveness of the proposed model in empirical applications, and verify that the geometric abilities can be sufficiently learned in the derived feasible range. | 翻訳日:2024-07-22 13:28:38 公開日:2024-06-24 |
# 位相非干渉散乱遠距離データからの3次元形状再構成のためのディープラーニングフレームワーク
A Deep Learning Framework for Three Dimensional Shape Reconstruction from Phaseless Acoustic Scattering Far-field Data ( http://arxiv.org/abs/2407.09525v1 ) ライセンス: Link先を確認 | Doga Dikbayir, Abdel Alsnayyan, Vishnu Naresh Boddeti, Balasubramaniam Shanker, Hasan Metin Aktulga, | (参考訳) 逆散乱問題は、医療画像、ソナー、センシング、非破壊評価など、多くの分野において重要な問題である。
興味の問題は、形状の検出から障害物の構成的性質まで様々である。
両者の課題は、情報が限られている場合に、この問題が不適切であることだ。
とはいえ、この問題に対するソリューションの開発には、長年にわたって多大な努力が費やされてきた。
ここでは、データに基づいて構築された別のアプローチを使用します。
具体的には、単一入射波、単一周波数、位相なし遠距離データを含む限られた情報を用いた形状復元のためのディープラーニングフレームワークを開発する。
これは
(a)コンパクトな確率的形状潜伏空間を用いて、3次元変分オートエンコーダで学習し、
b) 音響散乱情報をこの形状表現にマッピングするよう訓練された畳み込みニューラルネットワーク。
提案するフレームワークは,一般的な3次元形状認識データセットであるShapeNetとともに,合成3次元粒子データセットを用いて評価される。
提案手法は, 航空機や自動車など, 複雑な散乱器形状の大規模なバッチに対して, データに有意な差異があるにもかかわらず, 正確な再構成を行うことができる。
The inverse scattering problem is of critical importance in a number of fields, including medical imaging, sonar, sensing, non-destructive evaluation, and several others. The problem of interest can vary from detecting the shape to the constitutive properties of the obstacle. The challenge in both is that this problem is ill-posed, more so when there is limited information. That said, significant effort has been expended over the years in developing solutions to this problem. Here, we use a different approach, one that is founded on data. Specifically, we develop a deep learning framework for shape reconstruction using limited information with single incident wave, single frequency, and phase-less far-field data. This is done by (a) using a compact probabilistic shape latent space, learned by a 3D variational auto-encoder, and (b) a convolutional neural network trained to map the acoustic scattering information to this shape representation. The proposed framework is evaluated on a synthetic 3D particle dataset, as well as ShapeNet, a popular 3D shape recognition dataset. As demonstrated via a number of results, the proposed method is able to produce accurate reconstructions for large batches of complex scatterer shapes (such as airplanes and automobiles), despite the significant variation present within the data. | 翻訳日:2024-07-22 13:18:53 公開日:2024-06-24 |
# BitNet b1.58のリロード: より小さなネットワーク上での最先端のパフォーマンス
BitNet b1.58 Reloaded: State-of-the-art Performance Also on Smaller Networks ( http://arxiv.org/abs/2407.09527v1 ) ライセンス: Link先を確認 | Jacob Nielsen, Peter Schneider-Kamp, | (参考訳) 近年,1ビットおよび1.58ビットの量子化学習法が提案され,これらの手法の性能と挙動を大規模言語モデルの文脈で検証し,3B以上のパラメータを持つモデルに対する最先端の性能を見出した。
本研究では,100Kから48Mパラメータの小さな言語と視覚モデルに対する1.58ビットの量子化について検討する。
我々は、量子化プロセスにおける平均よりも中央値に依存するビットネットb1.58の変種を導入する。
広範にわたる実験により,量子化学習により得られた1.58ビットモデルの性能について検討した。
さらに,1.58ビットの量子化学習による学習率の変化と重み減衰による正規化に対するロバスト性について検討した。
この結果から,1.58ビットの量子化学習は,隠蔽層の大きさを2倍にし,同じ大きさの小型ビジョンモデルに対して,最先端の性能を達成または超えた場合,小型言語モデルに対して,最先端のパフォーマンスを提供することを示した。
最終的に、1.58ビットの量子化対応トレーニングは、より小さなディープラーニングネットワークのトレーニングにも有効で有望なアプローチであり、低リソースのユースケースでのそのようなモデルのデプロイを容易にし、将来の研究を促進することを実証する。
Recently proposed methods for 1-bit and 1.58-bit quantization aware training investigate the performance and behavior of these methods in the context of large language models, finding state-of-the-art performance for models with more than 3B parameters. In this work, we investigate 1.58-bit quantization for small language and vision models ranging from 100K to 48M parameters. We introduce a variant of BitNet b1.58, which allows to rely on the median rather than the mean in the quantization process. Through extensive experiments we investigate the performance of 1.58-bit models obtained through quantization aware training. We further investigate the robustness of 1.58-bit quantization-aware training to changes in the learning rate and regularization through weight decay, finding different patterns for small language and vision models than previously reported for large language models. Our results showcase that 1.58-bit quantization-aware training provides state-of-the-art performance for small language models when doubling hidden layer sizes and reaches or even surpasses state-of-the-art performance for small vision models of identical size. Ultimately, we demonstrate that 1.58-bit quantization-aware training is a viable and promising approach also for training smaller deep learning networks, facilitating deployment of such models in low-resource use-cases and encouraging future research. | 翻訳日:2024-07-22 13:18:53 公開日:2024-06-24 |
# MedBench:中国医学大言語モデル評価のための総合的、標準化され、信頼性の高いベンチマークシステム
MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models ( http://arxiv.org/abs/2407.10990v1 ) ライセンス: Link先を確認 | Mianxin Liu, Jinru Ding, Jie Xu, Weiguo Hu, Xiaoyang Li, Lifeng Zhu, Zhian Bai, Xiaoming Shi, Benyou Wang, Haitao Song, Pengfei Liu, Xiaofan Zhang, Shanshan Wang, Kang Li, Haofen Wang, Tong Ruan, Xuanjing Huang, Xin Sun, Shaoting Zhang, | (参考訳) 医療用大規模言語モデル(LLM)による人体に対する汎用的有効性と善意の確保が不可欠である。
しかし、医学LLMの広く受け入れられ、アクセス可能な評価プロセス、特に中国の文脈では、確立されていない。
本研究では,中国医学LLMの総合的,標準化された,信頼性の高いベンチマークシステムであるMedBenchを紹介する。
まず、MedBenchは、43の臨床専門分野をカバーするために、現在最大の評価データセット(300,901の質問)を組み立て、医療用LLMで多面的評価を行う。
第二に、MedBenchは標準化され、完全に自動化されたクラウドベースの評価インフラを提供する。
第三に、MedBenchは動的評価機構を実装し、ショートカット学習や解答記憶を防ぐ。
MedBench を一般的な一般医療用 LLM に適用することにより,医療専門家の視点に合わせた,偏見のない再現可能な評価結果が得られた。
本研究は,中国の医療用LDMの実用化に向けた重要な基盤を確立するものである。
MedBenchはhttps://medbench.opencompass.org.cnで公開されている。
Ensuring the general efficacy and goodness for human beings from medical large language models (LLM) before real-world deployment is crucial. However, a widely accepted and accessible evaluation process for medical LLM, especially in the Chinese context, remains to be established. In this work, we introduce "MedBench", a comprehensive, standardized, and reliable benchmarking system for Chinese medical LLM. First, MedBench assembles the currently largest evaluation dataset (300,901 questions) to cover 43 clinical specialties and performs multi-facet evaluation on medical LLM. Second, MedBench provides a standardized and fully automatic cloud-based evaluation infrastructure, with physical separations for question and ground truth. Third, MedBench implements dynamic evaluation mechanisms to prevent shortcut learning and answer remembering. Applying MedBench to popular general and medical LLMs, we observe unbiased, reproducible evaluation results largely aligning with medical professionals' perspectives. This study establishes a significant foundation for preparing the practical applications of Chinese medical LLMs. MedBench is publicly accessible at https://medbench.opencompass.org.cn. | 翻訳日:2024-07-22 12:39:32 公開日:2024-06-24 |
# ドメイン適応大言語モデルを用いた地質ボアホール記述の分類
Classification of Geological Borehole Descriptions Using a Domain Adapted Large Language Model ( http://arxiv.org/abs/2407.10991v1 ) ライセンス: Link先を確認 | Hossein Ghorbanfekr, Pieter Jan Kerstens, Katrijn Dirix, | (参考訳) 地質学的ボアホールの記述には、地下の組成に関する詳細なテキスト情報が含まれている。
しかし、その非構造化形式は、関連する特徴を構造化形式に抽出する上で大きな課題となる。
本稿では,オランダ語でFlanders (Belgium) の地層ボアホール記述を学習した大規模言語モデルであるGEOBERTjeを紹介する。
このモデルはボアホール記述から関連情報を効果的に抽出し、数値ベクトル空間に表現する。
GEOBERTjeの潜在的な応用の1つを示すため、手動でラベル付けされた観測の限られた数に基づいて分類器モデルを微調整する。
この分類器はボアホールの記述を主、第二、第三のリソロジークラスに分類する。
分類器はOpenAIのルールベースアプローチとGPT-4の両方より優れていることを示す。
本研究では,ドメイン適応型大規模言語モデルを用いて,複雑で非構造的な地質学的記述から情報抽出の効率と精度を高める方法を示す。
これは、大量のデータを使った地質学的分析とモデリングの新しい機会を提供する。
Geological borehole descriptions contain detailed textual information about the composition of the subsurface. However, their unstructured format presents significant challenges for extracting relevant features into a structured format. This paper introduces GEOBERTje: a domain adapted large language model trained on geological borehole descriptions from Flanders (Belgium) in the Dutch language. This model effectively extracts relevant information from the borehole descriptions and represents it into a numeric vector space. Showcasing just one potential application of GEOBERTje, we finetune a classifier model on a limited number of manually labeled observations. This classifier categorizes borehole descriptions into a main, second and third lithology class. We show that our classifier outperforms both a rule-based approach and GPT-4 of OpenAI. This study exemplifies how domain adapted large language models enhance the efficiency and accuracy of extracting information from complex, unstructured geological descriptions. This offers new opportunities for geological analysis and modeling using vast amounts of data. | 翻訳日:2024-07-22 12:39:32 公開日:2024-06-24 |
# AlleNoise -- 実世界のラベルノイズを伴う大規模テキスト分類ベンチマークデータセット
AlleNoise -- large-scale text classification benchmark dataset with real-world label noise ( http://arxiv.org/abs/2407.10992v1 ) ライセンス: Link先を確認 | Alicja Rączkowska, Aleksandra Osowska-Kurczab, Jacek Szczerbiński, Kalina Jasinska-Kobus, Klaudia Nazarko, | (参考訳) ラベルノイズは、ロバストな分類モデルのトレーニングにおいて依然として課題である。
ラベルノイズを緩和するほとんどの方法は、主に合成ノイズを伴うデータセットを用いてベンチマークされている。
現実的なノイズ分布を持つデータセットの必要性は、WebVisionやChrothing1MといったWebスクラッドベンチマークによって部分的に解決されているが、これらのベンチマークはコンピュータビジョンドメインに限定されている。
Transformerベースのモデルの重要性が高まっているため、ノイズのあるラベルで学習するためのテキスト分類ベンチマークを確立することが不可欠である。
本稿では、約5600のクラスに50,000以上のサンプルを含む実世界のインスタンス依存ラベルノイズを持つ、新しいキュレートされたテキスト分類ベンチマークであるAlleNoiseについて、有意義で階層的な分類法を補完する。
ノイズの分布は、主要なeコマースマーケットプレースの実際のユーザから来ており、人間のミスの意味を現実的に反映している。
ノイズラベルに加えて、典型的にはフィールドで使用されるWebスクラッドデータセットとは異なり、ノイズ分布に関する深い洞察を得るのに役立つ、人間検証されたクリーンラベルも提供します。
このような実環境騒音に対処するには,雑音ラベルを用いた学習方法の代表的選択が不十分であることを示す。
さらに,これらのアルゴリズムが過剰な暗記を緩和しないことを示す。
そこで、AlleNoiseでは、テキスト分類タスクにおける実世界のラベルノイズを処理できるラベルノイズ法の開発のために、バーを高く設定する。
コードとデータセットはhttps://github.com/allegro/AlleNoise.comからダウンロードできる。
Label noise remains a challenge for training robust classification models. Most methods for mitigating label noise have been benchmarked using primarily datasets with synthetic noise. While the need for datasets with realistic noise distribution has partially been addressed by web-scraped benchmarks such as WebVision and Clothing1M, those benchmarks are restricted to the computer vision domain. With the growing importance of Transformer-based models, it is crucial to establish text classification benchmarks for learning with noisy labels. In this paper, we present AlleNoise, a new curated text classification benchmark dataset with real-world instance-dependent label noise, containing over 500,000 examples across approximately 5,600 classes, complemented with a meaningful, hierarchical taxonomy of categories. The noise distribution comes from actual users of a major e-commerce marketplace, so it realistically reflects the semantics of human mistakes. In addition to the noisy labels, we provide human-verified clean labels, which help to get a deeper insight into the noise distribution, unlike web-scraped datasets typically used in the field. We demonstrate that a representative selection of established methods for learning with noisy labels is inadequate to handle such real-world noise. In addition, we show evidence that these algorithms do not alleviate excessive memorization. As such, with AlleNoise, we set the bar high for the development of label noise methods that can handle real-world label noise in text classification tasks. The code and dataset are available for download at https://github.com/allegro/AlleNoise. | 翻訳日:2024-07-22 12:39:32 公開日:2024-06-24 |
# LLMによる教育エージェントの学習における体格と人格表現の効果
The Effects of Embodiment and Personality Expression on Learning in LLM-based Educational Agents ( http://arxiv.org/abs/2407.10993v1 ) ライセンス: Link先を確認 | Sinan Sonlu, Bennie Bendiksen, Funda Durupinar, Uğur Güdükbay, | (参考訳) 本研究は,人格表現と体格が,教育的会話エージェントにおける人格認識と学習にどのように影響するかを考察する。
教育アプリケーションに適したLLMベースの会話支援を統合することで、既存のパーソナリティ駆動型会話エージェントフレームワークを拡張した。
本稿では,このシステムを用いて,高い外向性,同意性,低い外向性,同意性という2つの異なる性格的スタイルを評価する。
1)対話を通して人格を伝達する対話のみのモデル,(2)対話のみで人格を表現するアニメーション人間モデル,(3)対話と身体と顔のアニメーションを通して人格を表現するアニメーション人間モデル,の3つのモデルを評価する。
その結果、全てのモデルが性格と学習結果の両方について肯定的に認識されていることが示唆された。
人格特性が高いモデルは、人格特性の低い人格特性よりも魅力的であると考えられている。
モデルタイプとパーソナリティスタイルの主観的評価に基づいて、知覚的性格特性、学習パラメータ、ユーザ体験の総合的定量的・質的な分析を行い、オープンな質問に対するユーザの反応について述べる。
This work investigates how personality expression and embodiment affect personality perception and learning in educational conversational agents. We extend an existing personality-driven conversational agent framework by integrating LLM-based conversation support tailored to an educational application. We describe a user study built on this system to evaluate two distinct personality styles: high extroversion and agreeableness and low extroversion and agreeableness. For each personality style, we assess three models: (1) a dialogue-only model that conveys personality through dialogue, (2) an animated human model that expresses personality solely through dialogue, and (3) an animated human model that expresses personality through both dialogue and body and facial animations. The results indicate that all models are positively perceived regarding both personality and learning outcomes. Models with high personality traits are perceived as more engaging than those with low personality traits. We provide a comprehensive quantitative and qualitative analysis of perceived personality traits, learning parameters, and user experiences based on participant ratings of the model types and personality styles, as well as users' responses to open-ended questions. | 翻訳日:2024-07-22 12:39:32 公開日:2024-06-24 |
# Panza: データ再生とローカルファインチューニングによるパーソナライズされたテキスト記述アシスタント
Panza: A Personalized Text Writing Assistant via Data Playback and Local Fine-Tuning ( http://arxiv.org/abs/2407.10994v1 ) ライセンス: Link先を確認 | Armand Nicolicioiu, Eugenia Iofinova, Eldar Kurtic, Mahdi Nikdan, Andrei Panferov, Ilia Markov, Nir Shavit, Dan Alistarh, | (参考訳) 強力なオープンソースの大規模言語モデル(LLM)が利用可能になったことで、ユーザのユニークなデータや要求に適応する自動パーソナルアシスタントなど、エキサイティングなユースケースが開かれる。
このようなアシスタントのための2つの重要なデシラタはパーソナライズ(パーソナライズ)である。アシスタントはユーザーのスタイルとプライバシ(プライバシ)を反映すべきである。
そこで我々は,Panzaと呼ばれるメール生成用パーソナルアシスタントの特定のユースケースに対して,そのような自動アシスタントの新しい設計を提案する。
具体的には、Panzaはコモディティハードウェア上でローカルにトレーニングと推論を行うことができ、ユーザの書き込みスタイルに合わせてパーソナライズされる。
Panzaのパーソナライズ機能は、データ再生と呼ばれる新しい技術に基づいており、LLMを微調整することで、限られたデータを使ってユーザの書き込みスタイルをより良く反映することができる。
効率的な微調整法と推論法を組み合わせることで、Panzaは限られたリソースで完全にローカルに実行でき、Google Colabの無料インスタンスと同じリソース内で実行可能であることを示す。
最後に、我々の主要な方法論的貢献は、評価指標、およびシステムコンポーネントの異なる選択(例えば、Retrieval-Augmented Generationの使用、または異なる微調整アプローチ)がシステムのパフォーマンスにどのように影響するかを慎重に研究することである。
The availability of powerful open-source large language models (LLMs) opens exciting use-cases, such as automated personal assistants that adapt to the user's unique data and demands. Two key desiderata for such assistants are personalization-in the sense that the assistant should reflect the user's own style-and privacy-in the sense that users may prefer to always store their personal data locally, on their own computing device. We present a new design for such an automated assistant, for the specific use case of personal assistant for email generation, which we call Panza. Specifically, Panza can be both trained and inferenced locally on commodity hardware, and is personalized to the user's writing style. Panza's personalization features are based on a new technique called data playback, which allows us to fine-tune an LLM to better reflect a user's writing style using limited data. We show that, by combining efficient fine-tuning and inference methods, Panza can be executed entirely locally using limited resources-specifically, it can be executed within the same resources as a free Google Colab instance. Finally, our key methodological contribution is a careful study of evaluation metrics, and of how different choices of system components (e.g. the use of Retrieval-Augmented Generation or different fine-tuning approaches) impact the system's performance. | 翻訳日:2024-07-22 12:39:32 公開日:2024-06-24 |
# マルチモーダル大言語モデルの可視化リテラシー : 比較検討
Visualization Literacy of Multimodal Large Language Models: A Comparative Study ( http://arxiv.org/abs/2407.10996v1 ) ライセンス: Link先を確認 | Zhimin Li, Haichao Miao, Valerio Pascucci, Shusen Liu, | (参考訳) 最近のMLLM(Multimodal large language model)の導入は、大規模言語モデル(LLM)固有のパワーと、マルチモーダルコンテキストを推論する新たな能力を組み合わせたものである。
MLLMの潜在的な使用シナリオは、テキストのみのシナリオよりも大幅に優れています。
ビジュアライゼーションにおける最近の多くの研究は、可視化結果を理解し、解釈し、自然言語のユーザに対して視覚化の内容を説明するMLLMの能力を実証している。
機械学習コミュニティでは、MLLMの一般的な視覚能力がさまざまな視覚的理解ベンチマークを通じて評価され、テストされている。
しかし、視覚的知覚に基づく特定の可視化タスクを達成するためのMLLMの能力は、特に可視化中心の観点から、適切に検討され、評価されていない。
本研究では,可視化リテラシーの概念を利用してMLLMを評価することにより,そのギャップを埋めることを目的とする。
2つの一般的な可視化リテラシー評価データセット(VLATとミニVLAT)でMLLMの性能を評価する。
可視化リテラシーの枠組みでは,様々なマルチモーダルな言語モデル(例えば,GPT4-o,Claude 3 Opus,Gemini 1.5 Pro)と,既存の人間のベースラインとの比較を行う。
本研究は,MLLMの可視化リテラシーにおける競争性能を実証し,相関関係やクラスタ,階層構造などのタスクにおいて人間より優れることを示した。
The recent introduction of multimodal large language models (MLLMs) combine the inherent power of large language models (LLMs) with the renewed capabilities to reason about the multimodal context. The potential usage scenarios for MLLMs significantly outpace their text-only counterparts. Many recent works in visualization have demonstrated MLLMs' capability to understand and interpret visualization results and explain the content of the visualization to users in natural language. In the machine learning community, the general vision capabilities of MLLMs have been evaluated and tested through various visual understanding benchmarks. However, the ability of MLLMs to accomplish specific visualization tasks based on visual perception has not been properly explored and evaluated, particularly, from a visualization-centric perspective. In this work, we aim to fill the gap by utilizing the concept of visualization literacy to evaluate MLLMs. We assess MLLMs' performance over two popular visualization literacy evaluation datasets (VLAT and mini-VLAT). Under the framework of visualization literacy, we develop a general setup to compare different multimodal large language models (e.g., GPT4-o, Claude 3 Opus, Gemini 1.5 Pro) as well as against existing human baselines. Our study demonstrates MLLMs' competitive performance in visualization literacy, where they outperform humans in certain tasks such as identifying correlations, clusters, and hierarchical structures. | 翻訳日:2024-07-22 12:39:32 公開日:2024-06-24 |
# 大学入学決定支援のためのアルゴリズム:政策変化と遺伝的多様性の影響
Algorithms for College Admissions Decision Support: Impacts of Policy Change and Inherent Variability ( http://arxiv.org/abs/2407.11199v1 ) ライセンス: Link先を確認 | Jinsook Lee, Emma Harvey, Joyce Zhou, Nikhil Garg, Thorsten Joachims, Rene F. Kizilcec, | (参考訳) 毎年、選択されたアメリカの大学は、学術的メリットと多様性の両方を示す1年生クラスを特定するために、数万の申請を分類している。
2023-2024年の入学サイクルでは、これらのカレッジは前例のない課題に直面した。
まず、アプリケーションの数は着実に増えている。
第二に、新型コロナウイルス(COVID-19)のパンデミック以降のテストオプション政策は、学術的成功を歴史的に予測する重要な情報へのアクセスを制限する。
最近では、肯定的な行動に関する長年にわたる議論が、人種意識の受け入れを禁じる最高裁判所で頂点に達した。
大学は、"トップ"の応募者に焦点を当てたランキングアルゴリズムを通じて、スケールとテストスコアの欠如の問題に対処するために、機械学習(ML)モデルを調査してきた。
しかし、裁判所の判決はこれらのモデルの変更を強制し、レースをランク付けの要因と見なすことができた。
現在、これらの強制的な変更がどのように応募者ランキングアルゴリズムを形成し、拡張によって認められたクラスを形成するかは理解されていない。
我々は、審査のために優先順位付けされたアプリケーションに対する異なる入場ポリシーの影響を定量化することで、この問題に対処しようとしている。
先進的な応募者ランキングアルゴリズムからレースデータを除去することで、そのプールの学力を高めることなく、トップランクのプールの多様性を低減できることを示す。
我々は、この影響を、応募者の人種に関するデータを除くことが、意図されたメジャーのような潜在的に有望な変数を除外するよりも大きな影響を与えることを示すことによって、文脈的に評価する。
最後に、個人に対する政策変更の影響を、政策変更に起因する応募者の仲裁と無作為性に起因する仲裁とを比較して測定する。
任意のポリシーが高い任意性を持ち、ランキングアルゴリズムからレースデータを除去することで、ほとんどの応募者にとって結果が任意性を向上させることが判明した。
Each year, selective American colleges sort through tens of thousands of applications to identify a first-year class that displays both academic merit and diversity. In the 2023-2024 admissions cycle, these colleges faced unprecedented challenges. First, the number of applications has been steadily growing. Second, test-optional policies that have remained in place since the COVID-19 pandemic limit access to key information historically predictive of academic success. Most recently, longstanding debates over affirmative action culminated in the Supreme Court banning race-conscious admissions. Colleges have explored machine learning (ML) models to address the issues of scale and missing test scores, often via ranking algorithms intended to focus on 'top' applicants. However, the Court's ruling will force changes to these models, which were able to consider race as a factor in ranking. There is currently a poor understanding of how these mandated changes will shape applicant ranking algorithms, and, by extension, admitted classes. We seek to address this by quantifying the impact of different admission policies on the applications prioritized for review. We show that removing race data from a developed applicant ranking algorithm reduces the diversity of the top-ranked pool without meaningfully increasing the academic merit of that pool. We contextualize this impact by showing that excluding data on applicant race has a greater impact than excluding other potentially informative variables like intended majors. Finally, we measure the impact of policy change on individuals by comparing the arbitrariness in applicant rank attributable to policy change to the arbitrariness attributable to randomness. We find that any given policy has a high degree of arbitrariness and that removing race data from the ranking algorithm increases arbitrariness in outcomes for most applicants. | 翻訳日:2024-07-22 12:00:08 公開日:2024-06-24 |
# インネットワークコンピューティングを用いたマルチアクセスエッジコンピューティングにおける加圧水炉起動動作と部分計算負荷のディジタル双極化
Digital Twinning of a Pressurized Water Reactor Startup Operation and Partial Computational Offloading in In-network Computing-Assisted Multiaccess Edge Computing ( http://arxiv.org/abs/2407.12011v1 ) ライセンス: Link先を確認 | Ibrahim Aliyu, Awwal M. Arigi, Tai-Won Um, Jinsul Kim, | (参考訳) 本稿では,原子力プラント(NPP)ディジタルツイン(DT)における複雑なヒューマンアクション(HA)の表現と,ネットワーク(COIN)を利用したマルチアクセスエッジコンピューティング(MEC)における部分計算オフロード(PCO)のレイテンシの最小化を課題とする。
DT-HAモデルにおける正確なHA表現は、NPPの安全かつ効率的な操作に不可欠な人間の介入をモデル化するために不可欠である。
この文脈では、DT対応のCOIN支援MECはDT(サイバートウィンとして知られる)機能を利用してリソース割り当てを最適化し、遅延を効果的に低減する。
システムの複雑さに対処するために、2段階のアプローチが採用されている。
まず、確率的グラフィカルモデル(PGM)を導入し、DT抽象化でHAをキャプチャする。
PGMでは、HAとNPPのアセット・ツインの抽象化が結合システムを形成し、可観測データと制御入力を介して進化し相互作用する。
次に、基礎となるPCO問題はマルチユーザゲームとして定式化され、NPPアセットはタスクの一部をCOINとMECにオフロードすることができる。
本稿では,オフロード決定,オフロード率,リソース割り当てを最適化する分散アルゴリズムを提案する。
シミュレーションの結果,DT対応NPPにおける複雑なHAを捕捉し,資源割り当てを最適化する手法の有効性が示された。
This paper addresses the challenge of representing complex human action (HA) in a nuclear power plant (NPP) digital twin (DT) and minimizing latency in partial computation offloading (PCO) in sixth-generation-enabled computing in the network (COIN) assisted multiaccess edge computing (MEC). Accurate HA representation in the DT-HA model is vital for modeling human interventions that are crucial for the safe and efficient operation of NPPs. In this context, DT-enabled COIN-assisted MEC harnesses DT (known as a cybertwin) capabilities to optimize resource allocation and reduce latency effectively. A two-stage approach is employed to address system complexity. First, a probabilistic graphical model (PGM) is introduced to capture HAs in the DT abstraction. In the PGM, HA and NPP asset-twin abstractions form coupled systems that evolve and interact through observable data and control input. Next, the underlying PCO problem is formulated as a multiuser game, where NPP assets can partially offload tasks to COIN and MEC. We propose a decentralized algorithm to optimize offloading decisions, offloading ratios, and resource allocation. The simulation results demonstrate the effectiveness of the proposed method in capturing complex HAs and optimal resource allocation in DT-enabled NPPs. | 翻訳日:2024-07-22 11:30:12 公開日:2024-06-24 |
# エリート大学へのLCMのバイアス評価--ペルソナによる探究
Evaluation of LLMs Biases Towards Elite Universities: A Persona-Based Exploration ( http://arxiv.org/abs/2407.12801v1 ) ライセンス: Link先を確認 | Shailja Gupta, Rajesh Ranjan, | (参考訳) エリート大学は、学生だけでなく、素晴らしい才能を身につけているトップ雇用主にとっても、夢の目的地だ。
トップクラスの大学について聞くと、まず最初に思い浮かぶのは、その学術的厳格さ、名声、そして非常に成功した卒業生だ。
しかし、社会全体は一部のエリート大学に代表されるだけでなく、いくつかの大学に代表される。
正式な教育を受けなくても、大企業を設立する例はいくつかあります。
有能な人でも、資源の制約がいくつかあるため、上位のエリート大学には行けない例は様々である。
候補者を募集するためには、トップテック企業でよく代表されるいくつかのエリート大学の候補者を見る。
しかし、我々の研究で、LSMはそれを表現するためにオーバーボードしていることがわかった。
なぜ問題なのか?
LLMは今や主流となり、業界全体の採用プロセスにおける候補者の関連性を評価する役割を担っている。
我々の研究は、LLMがスタンフォード大学、ハーバード大学、カリフォルニア大学、バークレー大学、MITなどのエリート系大学に偏っているかどうかを調査した。
本研究は、新しいペルソナベースのアプローチを採用することで、3つのポピュラーな大規模言語モデルの性能を比較し、テクノロジー業界のプロフェッショナルの予測的背景と、LinkedInから収集された実際のデータを比較した。
具体的には、GPT-3.5、Gemini、Claude 3 Sonnetの製品担当副社長、製品担当ディレクター、プロダクトマネージャ、エンジニアリング担当副社長、エンジニアリング担当ディレクター、Microsoft、Meta、Googleのソフトウェアエンジニアといった職種について、GPT-3.5、Claude 3 Sonnetの予測を調査した。
LLMの教育的背景の予測には偏りが認められた。
我々の研究はLLMバイアスの研究を促進すると確信しており、提案した戦略はLLMベースのユースケースや応用におけるバイアスを軽減することができる。
Elite universities are a dream destination for not just students but also top employers who get a supply of amazing talents. When we hear about top universities, the first thing that comes to mind is their academic rigor, prestigious reputation, and highly successful alumni. However, society at large is not just represented by a few elite universities, but several others. We have seen several examples where many, even without formal education, built big businesses. There are various instances in which several people, however talented, couldn't make it to top elite universities because of several resource constraints. For recruitment of candidates, we do see candidates from a few elite universities well represented in top technology companies. However, we found during our study that LLMs go overboard in representing that. Why is it a problem, though? LLMs are now becoming mainstream and may play a role in evaluating candidates' relevance in the recruitment process across industries. Our study investigates whether LLMs are biased toward Elite universities like Stanford University, Harvard University, University of California, Berkley, and MIT. Our research compares the performance of three popular large language models by adopting a novel persona-based approach and compares the predicted educational backgrounds of professionals in the technology industry with actual data collected from LinkedIn. Specifically, we examined GPT-3.5, Gemini, and Claude 3 Sonnet predictions for job positions such as VP Product, Director of Product, Product Manager, VP Engineering, Director of Engineering, and Software Engineer at Microsoft, Meta, and Google. We noticed biases in LLMs' prediction of educational backgrounds. We are confident that our research will propel the study of LLM biases and our suggested strategies could mitigate biases in LLM-based use cases and applications. | 翻訳日:2024-07-22 08:57:39 公開日:2024-06-24 |
# SimClone: 値類似性を用いたタブラルデータクローンの検出
SimClone: Detecting Tabular Data Clones using Value Similarity ( http://arxiv.org/abs/2407.12802v1 ) ライセンス: Link先を確認 | Xu Yang, Gopi Krishnan Rajbahadur, Dayi Lin, Shaowei Wang, Zhen Ming, Jiang, | (参考訳) データクローンは、データセット間で同じデータの複数のコピーとして定義される。
データセット間のデータクローンの存在は、データアセットの管理の困難や、クローンとデータセットを使用してAIソフトウェアを構築する際のデータライセンス違反などの問題を引き起こす可能性がある。
しかし、データクローンの検出は簡単ではない。
この領域における先行研究の大部分は、データクローン(例えば、フォントサイズ、カラムヘッダ)を検出する構造情報に依存している。
しかし、AIソフトウェアを構築するのに使用される表データセットは通常、構造的な情報なしで保存される。
本稿では,構造情報に頼らずに表層データセットにおけるデータクローン検出を行うSimCloneという手法を提案する。
SimClone法はデータクローン検出に値類似性を利用する。
また,SimClone法の一部として,データセット間のクローンデータの正確な位置を特定するための可視化手法を提案する。
以上の結果から,我々のSimCloneは,F1スコアとAUCの両方で,最先端の手法よりも少なくとも20倍高い性能を示した。
さらに、SimCloneの視覚化コンポーネントは、データセット内のデータクローンの正確な位置を特定するのに役立つ。
Data clones are defined as multiple copies of the same data among datasets. Presence of data clones between datasets can cause issues such as difficulties in managing data assets and data license violations when using datasets with clones to build AI software. However, detecting data clones is not trivial. Majority of the prior studies in this area rely on structural information to detect data clones (e.g., font size, column header). However, tabular datasets used to build AI software are typically stored without any structural information. In this paper, we propose a novel method called SimClone for data clone detection in tabular datasets without relying on structural information. SimClone method utilizes value similarities for data clone detection. We also propose a visualization approach as a part of our SimClone method to help locate the exact position of the cloned data between a dataset pair. Our results show that our SimClone outperforms the current state-of-the-art method by at least 20\% in terms of both F1-score and AUC. In addition, SimClone's visualization component helps identify the exact location of the data clone in a dataset with a Precision@10 value of 0.80 in the top 20 true positive predictions. | 翻訳日:2024-07-22 08:57:39 公開日:2024-06-24 |
# Bosch Street Dataset: 自動走行のためのイメージングレーダ付きマルチモーダルデータセット
Bosch Street Dataset: A Multi-Modal Dataset with Imaging Radar for Automated Driving ( http://arxiv.org/abs/2407.12803v1 ) ライセンス: Link先を確認 | Karim Armanious, Maurice Quach, Michael Ulrich, Timo Winterling, Johannes Friesen, Sascha Braun, Daniel Jenet, Yuri Feldman, Eitan Kosman, Philipp Rapp, Volker Fischer, Marc Sons, Lukas Kohns, Daniel Eckstein, Daniela Egbert, Simone Letsch, Corinna Voege, Felix Huttner, Alexander Bartler, Robert Maiwald, Yancong Lin, Ulf Rüegg, Claudius Gläser, Bastian Bischoff, Jascha Freess, Karsten Haug, Kathrin Klee, Holger Caesar, | (参考訳) 本稿では、高度自動運転(HAD)と高度運転支援システム(ADAS)の研究を促進することを目的とした、新しいマルチモーダル大規模データセットであるBosch Street Data(BSD)を紹介する。
既存のデータセットとは異なり、BSDは高解像度レーダ、ライダー、カメラセンサーのユニークな統合を提供し、高解像度レーダデータ可用性の現在のギャップを埋めるために、前例のない360度カバレッジを提供する。
BSDは都市、農村、高速道路の環境を拡大し、レーダーによる物体検出とセンサー融合技術の詳細探査を可能にした。
このデータセットは、Boschと現在のパートナーと将来のパートナーとの学術的および研究的なコラボレーションを促進することを目的としている。
これは最先端のHAD技術とADAS技術の開発における共同作業の促進を目的としている。
論文では、スケーラビリティ、レーダ解像度、ラベリング方法論など、データセットの重要な属性について説明する。
センサーのモダリティに関する初期ベンチマークや、広範なデータ分析とパフォーマンス評価に適した開発キットも提供されており、HADとADASの研究コミュニティに貴重なリソースを提供することへのコミットメントを裏付けています。
This paper introduces the Bosch street dataset (BSD), a novel multi-modal large-scale dataset aimed at promoting highly automated driving (HAD) and advanced driver-assistance systems (ADAS) research. Unlike existing datasets, BSD offers a unique integration of high-resolution imaging radar, lidar, and camera sensors, providing unprecedented 360-degree coverage to bridge the current gap in high-resolution radar data availability. Spanning urban, rural, and highway environments, BSD enables detailed exploration into radar-based object detection and sensor fusion techniques. The dataset is aimed at facilitating academic and research collaborations between Bosch and current and future partners. This aims to foster joint efforts in developing cutting-edge HAD and ADAS technologies. The paper describes the dataset's key attributes, including its scalability, radar resolution, and labeling methodology. Key offerings also include initial benchmarks for sensor modalities and a development kit tailored for extensive data analysis and performance evaluation, underscoring our commitment to contributing valuable resources to the HAD and ADAS research community. | 翻訳日:2024-07-22 08:57:39 公開日:2024-06-24 |
# 摩擦による言語モデル体験の制御
Modulating Language Model Experiences through Frictions ( http://arxiv.org/abs/2407.12804v1 ) ライセンス: Link先を確認 | Katherine M. Collins, Valerie Chen, Ilia Sucholutsky, Hannah Rose Kirk, Malak Sadek, Holli Sargeant, Ameet Talwalkar, Adrian Weller, Umang Bhatt, | (参考訳) 言語モデルは、ユーザーが世界と関わる方法を変えつつある。
印象的な能力にもかかわらず、言語モデルの過剰消費は、短期的には未確認のエラーを伝播し、特に知識に基づくタスクにおいて、批判的な思考のために人間の能力を損なうリスクを発生させる。
より適切な使用をキュレートするために、言語モデルを取り巻く足場をどのように開発すればよいか?
行動科学の介入にインスパイアされた言語モデル体験のための選択的摩擦を提案し,誤用を抑える。
摩擦は、例えば、モデルアクセスを妨げるボタンの追加や、モデルに関する専門知識をユーザに思い出させるなど、ユーザの経験に小さな変更を加えることを含む。
実際の人間とのユーザスタディを通じて、学習や情報検索において、LLMを代表的タスクとして、多目的質問応答タスクの文脈において、LLMに対する摩擦の付与からユーザ行動の変化を観察する。
ユーザのクリック率を低下させながら,それらのトピックの精度を最小限に抑えることで,摩擦が過度な信頼性を変調することがわかった。
しかし、摩擦は意図しない効果をもたらす可能性がある。
ユーザのクリック動作には,摩擦が設定されていないトピックにおいても,顕著な違いがみられた。
我々の貢献は、より効果的で適切なLCMの使用を知らせるために、人間とAIの行動相互作用のさらなる研究を動機付けている。
Language models are transforming the ways that their users engage with the world. Despite impressive capabilities, over-consumption of language model outputs risks propagating unchecked errors in the short-term and damaging human capabilities for critical thinking in the long-term, particularly in knowledge-based tasks. How can we develop scaffolding around language models to curate more appropriate use? We propose selective frictions for language model experiences, inspired by behavioral science interventions, to dampen misuse. Frictions involve small modifications to a user's experience, e.g., the addition of a button impeding model access and reminding a user of their expertise relative to the model. Through a user study with real humans, we observe shifts in user behavior from the imposition of a friction over LLMs in the context of a multi-topic question-answering task as a representative task that people may use LLMs for, e.g., in education and information retrieval. We find that frictions modulate over-reliance by driving down users' click rates while minimally affecting accuracy for those topics. Yet, frictions may have unintended effects. We find marked differences in users' click behaviors even on topics where frictions were not provisioned. Our contributions motivate further study of human-AI behavioral interaction to inform more effective and appropriate LLM use. | 翻訳日:2024-07-22 08:57:39 公開日:2024-06-24 |
# ディセンスネットワークにおけるモバイルエッジコンピューティングのための分散タスクオフロードとロードバランシング
Decentralized Task Offloading and Load-Balancing for Mobile Edge Computing in Dense Networks ( http://arxiv.org/abs/2407.00080v1 ) ライセンス: Link先を確認 | Mariam Yahya, Alexander Conzelmann, Setareh Maghsudi, | (参考訳) 本稿では,多数のデバイスとエッジサーバを備えた高密度ネットワークにおける分散タスクオフロードとロードバランシングの問題について検討する。
この問題を最適に解くことは、未知のネットワーク情報とランダムなタスクサイズのために複雑である。
共有ネットワークリソースは、ユーザの判断やリソースの分散にも影響を及ぼす。
提案手法は,分散ユーザ意思決定にも拘わらず,平均フィールドマルチエージェントマルチアームバンディット(MAB)ゲームとサーバの報酬を調整するロードバランシング技術を組み合わせる。
数値計算により,本手法の有効性と目標荷重分布への収束性を示した。
We study the problem of decentralized task offloading and load-balancing in a dense network with numerous devices and a set of edge servers. Solving this problem optimally is complicated due to the unknown network information and random task sizes. The shared network resources also influence the users' decisions and resource distribution. Our solution combines the mean field multi-agent multi-armed bandit (MAB) game with a load-balancing technique that adjusts the servers' rewards to achieve a target population profile despite the distributed user decision-making. Numerical results demonstrate the efficacy of our approach and the convergence to the target load distribution. | 翻訳日:2024-07-07 13:34:23 公開日:2024-06-24 |
# 6Gのためのコミュニケーションからオーケストレーションへのセマンティック革命:チャレンジ,エンバータ,研究の方向性
Semantic Revolution from Communications to Orchestration for 6G: Challenges, Enablers, and Research Directions ( http://arxiv.org/abs/2407.00081v1 ) ライセンス: Link先を確認 | Masoud Shokrnezhad, Hamidreza Mazandarani, Tarik Taleb, Jaeseung Song, Richard Li, | (参考訳) 新興の6Gサービスにおいて、物理とデジタルの無数のエンティティを含むあらゆるもの間インタラクションの実現は、重要な課題である。
この課題は、通信インフラにおけるリソース不足によって悪化し、効果的なサービス実装のための革新的なソリューションを必要とします。
ポイントツーポイント物理層効率を高めるためにセマンティックコミュニケーション(SemCom)の可能性を探求することは、この課題に対処する上で非常に有望である。
しかし、効率的なSemComを実現するには、セマンティックデコーダとエンコーダ間の知識共有の重要なハードルを克服する必要がある。
本稿では,既存の文献におけるこのギャップを埋めるために,KB-MANO(Knowledge Base Management and Orchestration)フレームワークを紹介する。
KB-MANOは、CNC(Computer-Network Convergence)と生涯学習の概念に根ざし、システム全体のKBの更新と再配布に特化したネットワークおよびコンピューティングリソースの割り当てを目的としている。
主な目的は、知識管理活動が実際のサービス提供に与える影響を最小限にすることである。
KB-MANOと無線アクセスネットワークのリソース割り当ての統合を実証するために概念実証法を提案する。
最後に,6G技術の領域における意味指向通信システムの変容の可能性を強調し,今後の研究の方向性について考察する。
In the context of emerging 6G services, the realization of everything-to-everything interactions involving a myriad of physical and digital entities presents a crucial challenge. This challenge is exacerbated by resource scarcity in communication infrastructures, necessitating innovative solutions for effective service implementation. Exploring the potential of Semantic Communications (SemCom) to enhance point-to-point physical layer efficiency shows great promise in addressing this challenge. However, achieving efficient SemCom requires overcoming the significant hurdle of knowledge sharing between semantic decoders and encoders, particularly in the dynamic and non-stationary environment with stringent end-to-end quality requirements. To bridge this gap in existing literature, this paper introduces the Knowledge Base Management And Orchestration (KB-MANO) framework. Rooted in the concepts of Computing-Network Convergence (CNC) and lifelong learning, KB-MANO is crafted for the allocation of network and computing resources dedicated to updating and redistributing KBs across the system. The primary objective is to minimize the impact of knowledge management activities on actual service provisioning. A proof-of-concept is proposed to showcase the integration of KB-MANO with resource allocation in radio access networks. Finally, the paper offers insights into future research directions, emphasizing the transformative potential of semantic-oriented communication systems in the realm of 6G technology. | 翻訳日:2024-07-07 13:34:23 公開日:2024-06-24 |
# 行動・セマンティック・フュージョン・ラーニングによる求人勧告のユーザ嗜好ドリフトへの適応
Adapting Job Recommendations to User Preference Drift with Behavioral-Semantic Fusion Learning ( http://arxiv.org/abs/2407.00082v1 ) ライセンス: Link先を確認 | Xiao Han, Chen Zhu, Xiao Hu, Chuan Qin, Xiangyu Zhao, Hengshu Zhu, | (参考訳) 求人推薦システムは、オンライン求職における求職者と求職者の機会の整合に不可欠である。
しかし、ユーザは雇用機会を継続的に確保するために仕事の選好を調整する傾向にあり、これは仕事の推薦のパフォーマンスを制限している。
好みのドリフトの固有の頻度は、ユーザの好みを迅速かつ正確に捉えることの難しさを生んでいる。
この問題に対処するために,セマンティック情報と行動情報の融合学習を通じてユーザの嗜好をタイムリーにモデル化する,セッションベースの新しいフレームワークBISTROを提案する。
具体的には、BISTROは3つのステージから構成される。
1)粗粒状セマンティッククラスタリング
2)きめ細かい仕事選好抽出、及び
3) パーソナライズされたトップ$$ジョブレコメンデーション。
当初、BISTROはセッションにユーザインタラクションシーケンスを分割し、セッションベースのセマンティッククラスタリングを活用して、パーソナ-ジョブマッチングの広範な識別を実現する。
そこで我々は,不規則な仕事優先のドリフトを捉えるために,ハイパーグラフウェーブレット学習法を設計した。
そこで本研究では,ノイズの除去を目的とした適応ウェーブレットフィルタリング手法を提案する。
最後に、リカレントニューラルネットワークを用いてセッションベースのインタラクションを分析し、パーソナライズされた好みを推測する。
3つの実世界のオフライン採用データセットに関する大規模な実験は、我々のフレームワークの重要なパフォーマンスを示しています。
重要な点として、BISTROはオンライン実験にも優れており、ライブのリクルート環境での有効性を確認している。
この2つの成功は、BISTROの堅牢性と適応性を強調している。
ソースコードはhttps://github.com/Applied-Machine-Learning-Lab/BISTROで公開されている。
Job recommender systems are crucial for aligning job opportunities with job-seekers in online job-seeking. However, users tend to adjust their job preferences to secure employment opportunities continually, which limits the performance of job recommendations. The inherent frequency of preference drift poses a challenge to promptly and precisely capture user preferences. To address this issue, we propose a novel session-based framework, BISTRO, to timely model user preference through fusion learning of semantic and behavioral information. Specifically, BISTRO is composed of three stages: 1) coarse-grained semantic clustering, 2) fine-grained job preference extraction, and 3) personalized top-$k$ job recommendation. Initially, BISTRO segments the user interaction sequence into sessions and leverages session-based semantic clustering to achieve broad identification of person-job matching. Subsequently, we design a hypergraph wavelet learning method to capture the nuanced job preference drift. To mitigate the effect of noise in interactions caused by frequent preference drift, we innovatively propose an adaptive wavelet filtering technique to remove noisy interaction. Finally, a recurrent neural network is utilized to analyze session-based interaction for inferring personalized preferences. Extensive experiments on three real-world offline recruitment datasets demonstrate the significant performances of our framework. Significantly, BISTRO also excels in online experiments, affirming its effectiveness in live recruitment settings. This dual success underscores the robustness and adaptability of BISTRO. The source code is available at https://github.com/Applied-Machine-Learning-Lab/BISTRO. | 翻訳日:2024-07-07 13:34:23 公開日:2024-06-24 |
# 言語モデルによる検索圧縮
Compressing Search with Language Models ( http://arxiv.org/abs/2407.00085v1 ) ライセンス: Link先を確認 | Thomas Mulc, Jennifer L. Steele, | (参考訳) 毎日何百万人もの人が、新しい車やインフルエンザの症状などさまざまな情報を求めてGoogle検索に目を向けている。
入力される用語には、日常の意図や活動に関する貴重な情報が含まれているが、これらの検索用語の情報は、完全に活用することは困難である。
ユーザ定義分類フィルタは,検索データの次元を,解析とモデリングのための抽出可能なサイズに縮小する最も一般的な方法である。
本稿では,ユーザ定義ルールを使わずに,個々の用語の情報を多く保持しながら,検索データの次元性を低下させる新しい手法を提案する。
私たちの貢献は2つあります。
1) SLaM Compressionは、事前訓練された言語モデルを用いて検索語を定量化し、低次元でメモリ効率が高く、検索の要約として効果的に機能する検索データの表現を作成する方法である。
2)CoSMoは,検索データのみを用いて実世界の事象を推定するための制約付き検索モデルである。
我々は、Google検索データのみを用いて、米国の自動車販売と米国のインフルエンザ率を高精度に推定することで、私たちの貢献の有効性を実証する。
Millions of people turn to Google Search each day for information on things as diverse as new cars or flu symptoms. The terms that they enter contain valuable information on their daily intent and activities, but the information in these search terms has been difficult to fully leverage. User-defined categorical filters have been the most common way to shrink the dimensionality of search data to a tractable size for analysis and modeling. In this paper we present a new approach to reducing the dimensionality of search data while retaining much of the information in the individual terms without user-defined rules. Our contributions are two-fold: 1) we introduce SLaM Compression, a way to quantify search terms using pre-trained language models and create a representation of search data that has low dimensionality, is memory efficient, and effectively acts as a summary of search, and 2) we present CoSMo, a Constrained Search Model for estimating real world events using only search data. We demonstrate the efficacy of our contributions by estimating with high accuracy U.S. automobile sales and U.S. flu rates using only Google Search data. | 翻訳日:2024-07-07 13:34:23 公開日:2024-06-24 |
# ニューロシム:ヒト運動予測のためのROSベースニューロシンボリックモデルの展開と評価
neuROSym: Deployment and Evaluation of a ROS-based Neuro-Symbolic Model for Human Motion Prediction ( http://arxiv.org/abs/2407.01593v1 ) ライセンス: Link先を確認 | Sariah Mghames, Luca Castri, Marc Hanheide, Nicola Bellotto, | (参考訳) 自律移動ロボットは、人間の環境における安全かつ効率的なナビゲーションのために、複数の人間の動き検出と予測システムを利用することができるが、下線モデルアーキテクチャは、現実世界におけるロボットの信頼性に異なる影響を与える可能性がある。
文脈認識型人間の動作予測のための既存のソリューションの中で、いくつかのアプローチは、記号的知識と最先端のニューラルネットワークを統合する利点を示している。
特に、最近のニューロシンボリックアーキテクチャ(NeuroSyM)は、空間的相互作用を表現するための定性軌道計算(QTC)にコンテキストを組み込むことに成功した。
この作業は、オフラインデータセット上のニューラルネットワークのみのベースラインアーキテクチャよりもパフォーマンスが向上した。
本稿では,実際のシナリオにおけるロボット展開のためのROSymパッケージであるneuROSymを提供するために,元のアーキテクチャを拡張し,従来のニューラルオンリーモデルとニューラルシンボリックモデルを実行,視覚化し,評価する。
我々は,これらのモデルであるNeuroSyMとベースラインSGANを,人間の動作パターンが異なる2つのシナリオで評価した。
予測モデルの精度と実行時性能を評価し,ニューロシンボリックアーキテクチャを用いた場合の一般的な改善点を示した。
ニューロシムパッケージ1をロボティクスコミュニティで公開しています。
Autonomous mobile robots can rely on several human motion detection and prediction systems for safe and efficient navigation in human environments, but the underline model architectures can have different impacts on the trustworthiness of the robot in the real world. Among existing solutions for context-aware human motion prediction, some approaches have shown the benefit of integrating symbolic knowledge with state-of-the-art neural networks. In particular, a recent neuro-symbolic architecture (NeuroSyM) has successfully embedded context with a Qualitative Trajectory Calculus (QTC) for spatial interactions representation. This work achieved better performance than neural-only baseline architectures on offline datasets. In this paper, we extend the original architecture to provide neuROSym, a ROS package for robot deployment in real-world scenarios, which can run, visualise, and evaluate previous neural-only and neuro-symbolic models for motion prediction online. We evaluated these models, NeuroSyM and a baseline SGAN, on a TIAGo robot in two scenarios with different human motion patterns. We assessed accuracy and runtime performance of the prediction models, showing a general improvement in case our neuro-symbolic architecture is used. We make the neuROSym package1 publicly available to the robotics community. | 翻訳日:2024-07-07 13:24:39 公開日:2024-06-24 |
# Anvil:人工知能、サンプリング技術、CAD-CFDツールの統合
Anvil: An integration of artificial intelligence, sampling techniques, and a combined CAD-CFD tool ( http://arxiv.org/abs/2407.02519v1 ) ライセンス: Link先を確認 | Harsh Vardhan, Umesh Timalsina, Michael Sandborn, David Hyde, Peter Volgyesi, Janos Sztipanovits, | (参考訳) 本研究では,オープンソース統合CAD-CFDツールAnvilを紹介し,CADモデリング用FreeCADとCFD解析用OpenFOAMと,AIに基づく最適化手法(ベイジアン最適化)およびその他のサンプリングアルゴリズムを組み合わせた。
Anvilは、データ生成、CFD評価、形状最適化の3つのモードで形状最適化のための科学的機械学習ツールとして機能する。
データ生成モードでは、自動的にCFD評価を実行し、代理モデルをトレーニングするためのデータを生成する。
最適化モードでは、与えられた要求と最適化メトリクスの下で最適な設計を探索する。
CFDモードでは、単一のCADファイルを単一のOpenFOAM実行で評価することができる。
Anvilを使用するには、JSON設定ファイルとパラメトリックCADシードデザインを提供する。
アンビルはどんな亜音速流条件でも固体流体力学の研究に利用することができ、様々なシミュレーションや最適化のユースケースで実証されてきた。
このツールのオープンソースコード、インストールプロセス、アーティファクト(CADシードデザインやSTLモデルの例など)、実験結果、詳細なドキュメントは \url{https://github.com/symbench/Anvil} で見ることができる。
In this work, we introduce an open-source integrated CAD-CFD tool, Anvil, which combines FreeCAD for CAD modeling and OpenFOAM for CFD analysis, along with an AI-based optimization method (Bayesian optimization) and other sampling algorithms. Anvil serves as a scientific machine learning tool for shape optimization in three modes: data generation, CFD evaluation, and shape optimization. In data generation mode, it automatically runs CFD evaluations and generates data for training a surrogate model. In optimization mode, it searches for the optimal design under given requirements and optimization metrics. In CFD mode, a single CAD file can be evaluated with a single OpenFOAM run. To use Anvil, experimenters provide a JSON configuration file and a parametric CAD seed design. Anvil can be used to study solid-fluid dynamics for any subsonic flow conditions and has been demonstrated in various simulation and optimization use cases. The open-source code for the tool, installation process, artifacts (such as CAD seed designs and example STL models), experimentation results, and detailed documentation can be found at \url{https://github.com/symbench/Anvil}. | 翻訳日:2024-07-07 13:14:55 公開日:2024-06-24 |
# RaCIL:複合模倣学習による複数UAV障害物回避
RaCIL: Ray Tracing based Multi-UAV Obstacle Avoidance through Composite Imitation Learning ( http://arxiv.org/abs/2407.02520v1 ) ライセンス: Link先を確認 | Harsh Bansal, Vyom Goyal, Bhaskar Joshi, Akhil Gupta, Harikumar Kandath, | (参考訳) 本研究では,PPO(Proximal Policy Optimization)とBC(Behaviment Cloning)とGAIL(Generative Adversarial Imitation Learning)を組み合わせた,光線トレーシング技術を統合した革新的な複合模倣学習手法により,無人航空機(UAV)の障害物回避の課題に対処する。
本研究は,障害物検出と回避能力向上におけるレイトレーシングの意義を明らかにするものである。
さらに,2機のUAVの飛行経路の調整におけるGAILの導入の有効性を実証し,衝突回避能力の向上を示す。
方法論を拡張して、4つのUAVを含むシナリオにPPO、BC、GAIL、およびレイトレーシングフレームワークを併用し、より複雑なシナリオへのスケーラビリティと適応性を示します。
以上の結果から,本手法はPPOによる障害物回避の信頼性を向上させるだけでなく,密集環境や動的環境下での高度自律型UAV操作の道を開くことが示唆された。
In this study, we address the challenge of obstacle avoidance for Unmanned Aerial Vehicles (UAVs) through an innovative composite imitation learning approach that combines Proximal Policy Optimization (PPO) with Behavior Cloning (BC) and Generative Adversarial Imitation Learning (GAIL), enriched by the integration of ray-tracing techniques. Our research underscores the significant role of ray-tracing in enhancing obstacle detection and avoidance capabilities. Moreover, we demonstrate the effectiveness of incorporating GAIL in coordinating the flight paths of two UAVs, showcasing improved collision avoidance capabilities. Extending our methodology, we apply our combined PPO, BC, GAIL, and ray-tracing framework to scenarios involving four UAVs, illustrating its scalability and adaptability to more complex scenarios. The findings indicate that our approach not only improves the reliability of basic PPO based obstacle avoidance but also paves the way for advanced autonomous UAV operations in crowded or dynamic environments. | 翻訳日:2024-07-07 13:14:55 公開日:2024-06-24 |
# 高次元データにおける自然グルーピングの新しいモデル
A new model for natural groupings in high-dimensional data ( http://arxiv.org/abs/1909.06511v2 ) ライセンス: Link先を確認 | Mireille Boutin, Evzenie Coupkova, | (参考訳) クラスタリングは、一連のポイントをグループに分割することを目的としています。
現在のパラダイムは、データを描画する確率モデルを考えると、グルーピングが適切に定義された(一意)ものであると仮定している。
しかし、最近の実験では、ランダムに選択された1次元部分空間にデータを投影した後、異なるバイナリグルーピングを形成する高次元データセットがいくつか発見されている。
本稿では,この現象を説明できる確率モデルについて述べる。
高次元データの幾何学を理解するための概念実証として機能する単純なモデルである。
まず、再スケールした多変数ベルヌーイモデル(拡張ハイパーキューブ)を構築し、データ内に複数の重なり合うグループ構造を生成する。
各スケーリングパラメータのサイズは、ランダムな1Dプロジェクションによって対応するグルーピングを明らかにする可能性に関連している。
元のスペースのクラスタは、このクラスタフリーモデルにノイズを加えることで生成される。
高次元では、これらのクラスターは次元性の呪いのために分布から標本をセットした状態ではほとんど観測できないが、二項群は明らかである。
我々の構成は、元の空間における「グループ」と「クラスタ」を区別する必要があることを明らかにしている。
また、プロジェクションされたデータにある任意のクラスタリングを、データセット内の他の多くのグループのうちの1つとして解釈する必要性を強調している。
Clustering aims to divide a set of points into groups. The current paradigm assumes that the grouping is well-defined (unique) given the probability model from which the data is drawn. Yet, recent experiments have uncovered several high-dimensional datasets that form different binary groupings after projecting the data to randomly chosen one-dimensional subspaces. This paper describes a probability model for the data that could explain this phenomenon. It is a simple model to serve as a proof of concept for understanding the geometry of high-dimensional data. We start by building a rescaled multivariate Bernouilli model (stretched hypercube) so to create several overlapping grouping structures in the data. The size of each scaling parameter is related to the likelihood of uncovering the corresponding grouping by random 1D projection. Clusters in the original space are then created by adding noise to this cluster-free model. In high dimension, these clusters would hardly be observable given a sample set from the distribution because of the curse of dimensionality, but the binary groupings are clear. Our construction makes it clear that one needs to make a distinction between "groupings" and "clusters" in the original space. It also highlights the need to interpret any clustering found in projected data as merely one among potentially many other groupings in a dataset. | 翻訳日:2024-06-28 20:41:09 公開日:2024-06-24 |
# 強凸集合によるプロジェクションフリーオンライン学習
Projection-free Online Learning over Strongly Convex Sets ( http://arxiv.org/abs/2010.08177v2 ) ライセンス: Link先を確認 | Yuanyu Wan, Lijun Zhang, | (参考訳) 複雑な制約で効率的にオンライン問題を解くために、オンライン・フランクウルフ(OFW)とその変種を含むプロジェクションフリーのアルゴリズムが近年大きな関心を集めている。
しかし、一般的な場合、既存の効率的なプロジェクションフリーアルゴリズムは、$O(T^{3/4})$の後悔境界を達成しただけで、これはプロジェクションベースアルゴリズムの後悔よりも悪い。
本稿では,強い凸集合上でのオンライン学習の特別な場合について検討し,OWが一般凸損失に対して$O(T^{2/3})$$の後悔を享受できることを最初に証明する。
鍵となる考え方は、単純な行探索規則によって元のOFWにおける崩壊するステップサイズを洗練させることである。
さらに、強い凸損失に対して、OFWにおける代理損失関数を再定義することにより、OFWの強い凸変種を提案する。
一般凸集合上では$O(T^{2/3})$の後悔境界、強凸集合上では$O(\sqrt{T})$の後悔境界が得られることを示す。
To efficiently solve online problems with complicated constraints, projection-free algorithms including online frank-wolfe (OFW) and its variants have received significant interest recently. However, in the general case, existing efficient projection-free algorithms only achieved the regret bound of $O(T^{3/4})$, which is worse than the regret of projection-based algorithms, where $T$ is the number of decision rounds. In this paper, we study the special case of online learning over strongly convex sets, for which we first prove that OFW can enjoy a better regret bound of $O(T^{2/3})$ for general convex losses. The key idea is to refine the decaying step-size in the original OFW by a simple line search rule. Furthermore, for strongly convex losses, we propose a strongly convex variant of OFW by redefining the surrogate loss function in OFW. We show that it achieves a regret bound of $O(T^{2/3})$ over general convex sets and a better regret bound of $O(\sqrt{T})$ over strongly convex sets. | 翻訳日:2024-06-27 20:13:23 公開日:2024-06-24 |
# カスケードKVキャッシュを用いたスライディングウィンドウコンテキストの学習自由指数拡張
Training-Free Exponential Extension of Sliding Window Context with Cascading KV Cache ( http://arxiv.org/abs/2406.17808v1 ) ライセンス: Link先を確認 | Jeffrey Willette, Heejun Lee, Youngwan Lee, Myeongjae Jeon, Sung Ju Hwang, | (参考訳) 変換器内のコンテキストウィンドウは、現在のタスクにアクティブメモリの形式を提供する。これは、以前のコンテキストトークンに大きく依存する、数ショットの学習と条件生成に有用である。
しかし、文脈の長さが長くなるにつれて、計算コストは2次的に増加する。
最近の研究は、いくつかの初期トークンを固定サイズのスライディングウィンドウと共に保存すると、変換器ベースのLarge Language Models (LLMs) において、線形複雑化を伴う安定したストリーミング生成につながることを示した。
しかし、ウィンドウの端に到達すると、すべてのトークンをキー値(KV)キャッシュから無条件に排除し、固定ウィンドウを最適に使用することで、トークンは忘れられ、その後の予測に影響を与えなくなる。
この制限を克服するために、カスケードサブキャッシュバッファを個別に保持することにより、より長いスライディングウィンドウコンテキストを同じキャッシュサイズで保存する機構を提案する。
提案手法は,固定された静的なスライディングウィンドウアプローチよりも遠い過去のトークンを格納可能な動的KVキャッシュを実現する。
実験の結果,LongBenchが5.6%,PG19が1.2%,MMLU STEMが0.6%,LLMが0.6%であった。
さらに、KVキャッシュのレイテンシをキャッシュ当たり1.33msから0.54msに改善する効率的な実装も提供します。
The context window within a transformer provides a form of active memory for the current task, which can be useful for few-shot learning and conditional generation, both which depend heavily on previous context tokens. However, as the context length grows, the computational cost increases quadratically. Recent works have shown that saving a few initial tokens along with a fixed-sized sliding window leads to stable streaming generation with linear complexity in transformer-based Large Language Models (LLMs). However, they make suboptimal use of the fixed window by naively evicting all tokens unconditionally from the key-value (KV) cache once they reach the end of the window, resulting in tokens being forgotten and no longer able to affect subsequent predictions. To overcome this limitation, we propose a novel mechanism for storing longer sliding window contexts with the same total cache size by keeping separate cascading sub-cache buffers whereby each subsequent buffer conditionally accepts a fraction of the relatively more important tokens evicted from the previous buffer. Our method results in a dynamic KV cache that can store tokens from the more distant past than a fixed, static sliding window approach. Our experiments show improvements of 5.6% on long context generation (LongBench), 1.2% in streaming perplexity (PG19), and 0.6% in language understanding (MMLU STEM) using LLMs given the same fixed cache size. Additionally, we provide an efficient implementation that improves the KV cache latency from 1.33ms per caching operation to 0.54ms, a 59% speedup over previous work. | 翻訳日:2024-06-27 17:46:26 公開日:2024-06-24 |
# 科学のエクソテックスを目指して
Towards a Science Exocortex ( http://arxiv.org/abs/2406.17809v1 ) ライセンス: Link先を確認 | Kevin G. Yager, | (参考訳) 人工知能(AI)メソッドは、テキスト分析、テキスト生成、簡単な意思決定や推論の自動化を可能にする生成AIによって、知的作業に革命をもたらす。
科学への影響は始まったばかりであるが、科学的研究は認知作業の連鎖の延長に基本的に依存しているため、この機会は重要である。
ここではエージェントAIシステムの現状を概観し、これらの手法が科学にさらに大きな影響を及ぼすようどのように拡張できるかについて議論する。
本研究では,人の認知を総合的に拡張したエキソクロテックスの開発を提案する。
科学の外食はAIエージェントの群れとして設計することができ、各エージェントは個々の研究者のタスクを個別に合理化し、そのコミュニケーションは研究者の認知と意志を著しく拡張する創発的な行動をもたらす。
Artificial intelligence (AI) methods are poised to revolutionize intellectual work, with generative AI enabling automation of text analysis, text generation, and simple decision making or reasoning. The impact to science is only just beginning, but the opportunity is significant since scientific research relies fundamentally on extended chains of cognitive work. Here, we review the state of the art in agentic AI systems, and discuss how these methods could be extended to have even greater impact on science. We propose the development of an exocortex, a synthetic extension of a person's cognition. A science exocortex could be designed as a swarm of AI agents, with each agent individually streamlining specific researcher tasks, and whose inter-communication leads to emergent behavior that greatly extend the researcher's cognition and volition. | 翻訳日:2024-06-27 17:46:26 公開日:2024-06-24 |
# PIC2O-Sim:超高速フォトニックデバイスFDTDシミュレーションのための物理誘起因果性を考慮した動的畳み込みニューラル演算子
PIC2O-Sim: A Physics-Inspired Causality-Aware Dynamic Convolutional Neural Operator for Ultra-Fast Photonic Device FDTD Simulation ( http://arxiv.org/abs/2406.17810v1 ) ライセンス: Link先を確認 | Pingchuan Ma, Haoyu Yang, Zhengqi Gao, Duane S. Boning, Jiaqi Gu, | (参考訳) 光ハードウェア設計フローにおいて重要な有限差分時間領域(FDTD)法は、時間領域マックスウェル方程式の解法として広く採用されている。
しかし、FDTDは、単一のデバイスをシミュレートするのに数分から数時間かかる、禁断のランタイムコストで知られている。
近年,偏微分方程式 (PDE) の解法における次数-次数-次数-次数-次数-次数-の高速化を実現するためにAIが応用されている。
しかし、フォトニックデバイスのためのAIベースのFDTDソルバは明確に定式化されていない。
光場力学の予測にオフザシェルフモデルを直接適用すると、モデルプリミティブはマクスウェル方程式の特異な物理的性質に非依存であり、アルゴリズム的なカスタマイズが欠如しているため、不満足な忠実さと効率が示される。
本研究では、ニューラル演算子設計とマクスウェル方程式の物理的性質の相乗効果を徹底的に検討し、物理に着想を得たAIベースのFDTD予測フレームワークであるPIC2O-Simを導入する。
一方, 自動回帰予測において, 多段階分割時間結合技術による予測スケーラビリティ, 忠実度, 効率性のトレードオフについて検討する。
自己回帰場予測において効率性を保ちながら反復的エラー蓄積を軽減するために,複数の鍵となる手法が導入された。
PIC2O-Sim法では51.2%のロールアウト予測誤差,23.5のパラメータが最先端のニューラル演算子よりも小さく,オープンソースのFDTD数値解法よりも300-600倍高速である。
The finite-difference time-domain (FDTD) method, which is important in photonic hardware design flow, is widely adopted to solve time-domain Maxwell equations. However, FDTD is known for its prohibitive runtime cost, taking minutes to hours to simulate a single device. Recently, AI has been applied to realize orders-of-magnitude speedup in partial differential equation (PDE) solving. However, AI-based FDTD solvers for photonic devices have not been clearly formulated. Directly applying off-the-shelf models to predict the optical field dynamics shows unsatisfying fidelity and efficiency since the model primitives are agnostic to the unique physical properties of Maxwell equations and lack algorithmic customization. In this work, we thoroughly investigate the synergy between neural operator designs and the physical property of Maxwell equations and introduce a physics-inspired AI-based FDTD prediction framework PIC2O-Sim which features a causality-aware dynamic convolutional neural operator as its backbone model that honors the space-time causality constraints via careful receptive field configuration and explicitly captures the permittivity-dependent light propagation behavior via an efficient dynamic convolution operator. Meanwhile, we explore the trade-offs among prediction scalability, fidelity, and efficiency via a multi-stage partitioned time-bundling technique in autoregressive prediction. Multiple key techniques have been introduced to mitigate iterative error accumulation while maintaining efficiency advantages during autoregressive field prediction. Extensive evaluations on three challenging photonic device simulation tasks have shown the superiority of our PIC2O-Sim method, showing 51.2% lower roll-out prediction error, 23.5 times fewer parameters than state-of-the-art neural operators, providing 300-600x higher simulation speed than an open-source FDTD numerical solver. | 翻訳日:2024-06-27 17:46:26 公開日:2024-06-24 |
# CATBench: ブラックボックス最適化のためのコンパイラ自動ベンチマークスイート
CATBench: A Compiler Autotuning Benchmarking Suite for Black-box Optimization ( http://arxiv.org/abs/2406.17811v1 ) ライセンス: Link先を確認 | Jacob O. Tørring, Carl Hvarfner, Luigi Nardi, Magnus Själander, | (参考訳) ベイズ最適化はコンパイラのチューニングを自動化する強力な方法である。
自動チューニングの複雑な状況は、ブラックボックスオプティマイザにとって稀に考慮される構造上の問題をもたらし、標準化されたベンチマークの欠如は、領域内のベイズ最適化の研究を制限している。
CATBenchは、離散、条件、置換パラメータの型から未知のバイナリ制約まで、多要素および多目的評価まで、コンパイラの自動チューニングの複雑さをキャプチャする総合的なベンチマークスイートである。
CATBenchのベンチマークは、テンソル代数から画像処理、クラスタリングまで幅広い機械学習指向の計算に及び、TACOやRISE/ELEVATEといった最先端のコンパイラを使用する。
CATBenchはベイズ最適化アルゴリズムを評価するための統一インターフェースを提供し、サロゲートと実世界のコンパイラ最適化タスクの両方の、使い易く完全にコンテナ化されたセットアップを通じて再現性と革新を促進する。
我々はCATBenchをいくつかの最先端アルゴリズムで検証し、その強みと弱点を明らかにし、ベイズ最適化とコンパイラオートチューニングの両方を前進させる可能性を示した。
Bayesian optimization is a powerful method for automating tuning of compilers. The complex landscape of autotuning provides a myriad of rarely considered structural challenges for black-box optimizers, and the lack of standardized benchmarks has limited the study of Bayesian optimization within the domain. To address this, we present CATBench, a comprehensive benchmarking suite that captures the complexities of compiler autotuning, ranging from discrete, conditional, and permutation parameter types to known and unknown binary constraints, as well as both multi-fidelity and multi-objective evaluations. The benchmarks in CATBench span a range of machine learning-oriented computations, from tensor algebra to image processing and clustering, and uses state-of-the-art compilers, such as TACO and RISE/ELEVATE. CATBench offers a unified interface for evaluating Bayesian optimization algorithms, promoting reproducibility and innovation through an easy-to-use, fully containerized setup of both surrogate and real-world compiler optimization tasks. We validate CATBench on several state-of-the-art algorithms, revealing their strengths and weaknesses and demonstrating the suite's potential for advancing both Bayesian optimization and compiler autotuning research. | 翻訳日:2024-06-27 17:46:26 公開日:2024-06-24 |
# 科学のためのスケーラブル人工知能: 展望, 方法, 経験
Scalable Artificial Intelligence for Science: Perspectives, Methods and Exemplars ( http://arxiv.org/abs/2406.17812v1 ) ライセンス: Link先を確認 | Wesley Brewer, Aditya Kashi, Sajal Dash, Aristeidis Tsaris, Junqi Yin, Mallikarjun Shankar, Feiyi Wang, | (参考訳) 本稿では、ChatGPT後の世界において、スケーラブルな人工知能を科学的発見に活用する可能性を探る。
このような複雑な問題に対処するためには,高性能コンピューティングプラットフォーム上での人工知能のスケールアップが不可欠である。
この視点は、認知シミュレーション、科学調査のための大規模言語モデル、医療画像分析、物理インフォームドアプローチといった科学的ユースケースに焦点を当てている。
この研究は、スーパーコンピュータやクラウド上の大規模な課題に対処するために必要な方法論を概説し、様々な科学的問題を解決するために応用されたアプローチの例を示している。
In a post-ChatGPT world, this paper explores the potential of leveraging scalable artificial intelligence for scientific discovery. We propose that scaling up artificial intelligence on high-performance computing platforms is essential to address such complex problems. This perspective focuses on scientific use cases like cognitive simulations, large language models for scientific inquiry, medical image analysis, and physics-informed approaches. The study outlines the methodologies needed to address such challenges at scale on supercomputers or the cloud and provides exemplars of such approaches applied to solve a variety of scientific problems. | 翻訳日:2024-06-27 17:46:26 公開日:2024-06-24 |
# リアルタイム深層学習表現からの教師なし概念ドリフト検出
Unsupervised Concept Drift Detection from Deep Learning Representations in Real-time ( http://arxiv.org/abs/2406.17813v1 ) ライセンス: Link先を確認 | Salvatore Greco, Bartolomeo Vacchetti, Daniele Apiletti, Tania Cerquitelli, | (参考訳) コンセプト・ドリフト(Concept Drift)は、対象領域の基本的なデータ分布と統計的性質が時間とともに変化し、モデルの性能が低下する現象である。
そのため、本番環境に配備されるモデルには、ドリフト検出技術による継続的な監視が必要である。
それまでのドリフト検出手法のほとんどは、例えば、地上構造ラベルに基づいて監督されている。
しかし、真のラベルは多くの現実世界のシナリオでは利用できない。
近年,教師なし手法の開発が試みられているが,要求される精度の欠如や,実運用環境におけるリアルタイム実装の困難化,あるいはドリフトを効果的に特徴付けることができない複雑さが指摘されている。
これらの課題に対処するために、教師なしリアルタイム概念ドリフト検出フレームワークDriftLensを提案する。
深層学習表現の分布距離を利用して非構造化データに作用する。
DriftLensは、各ラベルを別々に分析することで、ドリフト特性を提供することもできる。
テキスト,画像,音声の深層学習分類器を用いた総合的な実験評価を行った。
その結果は
(i)DriftLensは、11/13ドルのユースケースでのドリフトの検出において、従来の方法よりも優れています。
(二)少なくとも五倍の速さで走ること。
(iii)検出ドリフト値はドリフト量と非常に一致している(相関$\geq 0.85$)。
(iv)パラメータの変更に対して堅牢である。
Concept Drift is a phenomenon in which the underlying data distribution and statistical properties of a target domain change over time, leading to a degradation of the model's performance. Consequently, models deployed in production require continuous monitoring through drift detection techniques. Most drift detection methods to date are supervised, i.e., based on ground-truth labels. However, true labels are usually not available in many real-world scenarios. Although recent efforts have been made to develop unsupervised methods, they often lack the required accuracy, have a complexity that makes real-time implementation in production environments difficult, or are unable to effectively characterize drift. To address these challenges, we propose DriftLens, an unsupervised real-time concept drift detection framework. It works on unstructured data by exploiting the distribution distances of deep learning representations. DriftLens can also provide drift characterization by analyzing each label separately. A comprehensive experimental evaluation is presented with multiple deep learning classifiers for text, image, and speech. Results show that (i) DriftLens performs better than previous methods in detecting drift in $11/13$ use cases; (ii) it runs at least 5 times faster; (iii) its detected drift value is very coherent with the amount of drift (correlation $\geq 0.85$); (iv) it is robust to parameter changes. | 翻訳日:2024-06-27 17:46:26 公開日:2024-06-24 |
# ブロッホ状態のクエンチ力学におけるカスプ
Cusps in the quench dynamics of a Bloch state ( http://arxiv.org/abs/1601.03569v5 ) ライセンス: Link先を確認 | J. M. Zhang, Hua-Tong Yang, | (参考訳) 周期境界条件を持つ一次元強結合モデルにおけるブロッホ状態の非滑らかなダイナミクスについて報告する。
任意の部位のポテンシャルが突然変化した後、初期ブロッホ状態の粒子の生存確率のような量は周期的にカスプを示し、その周期はエネルギースペクトルに付随するハイゼンベルク時間である。
この現象は、周期的に駆動されたタイトな結合モデルにおいて以前に観測された非滑らかな力学(Zhang and Haque, arXiv:1404.4280)の「emph{nonperturbative}」に相当する。
カスプの下方には、$-\infty$ から $+\infty $ までの等間隔レベルからなる、正確に解けるモデルがあり、2つの任意のレベルは同じ強さで互いに結合する。
We report some nonsmooth dynamics of a Bloch state in a one-dimensional tight binding model with the periodic boundary condition. After a sudden change of the potential of an arbitrary site, quantities like the survival probability of the particle in the initial Bloch state show cusps periodically, with the period being the Heisenberg time associated with the energy spectrum. This phenomenon is a \emph{nonperturbative} counterpart of the nonsmooth dynamics observed previously (Zhang and Haque, arXiv:1404.4280) in a periodically driven tight binding model. Underlying the cusps is an exactly solvable model, which consists of equally spaced levels extending from $-\infty$ to $+\infty $, between which two arbitrary levels are coupled to each other by the same strength. | 翻訳日:2024-06-26 23:34:57 公開日:2024-06-24 |
# 量子チャネルの信頼性シミュレーション:誤差指数
Reliable Simulation of Quantum Channels: the Error Exponent ( http://arxiv.org/abs/2112.04475v4 ) ライセンス: Link先を確認 | Ke Li, Yongsheng Yao, | (参考訳) 量子逆シャノン理論(Quantum Reverse Shannon Theorem)は、量子情報理論におけるマイルストーンである。
量子チャネルの漸近的に信頼できるシミュレーションは、無限に共有される絡み合いに助けられ、チャネルの絡み合いを補助する古典的な容量に匹敵する古典的なコミュニケーションの速度を必要とする。
本稿では,ブロック長が増大するにつれて,性能の指数収束の最適速度を最適に特徴付ける量子チャネルシミュレーションの誤差指数について検討する。
チャネル浄化距離に基づいて,誤差指数の上下境界を導出する。
次に、古典的通信速度が臨界値以下である場合に、2つの境界が一致することを示し、従って、低レートの場合において誤差指数の正確な式を決定した。
これにより、この式はこの量の変換として表されるので、チャネルのサンドイッチ化されたR\enyi情報に対する1から2までの順序の操作的解釈を得ることができる。
導出法では、有限ブロック長設定における量子チャネルシミュレーションの達成可能性も得られたが、これは現実的な意義である。
The Quantum Reverse Shannon Theorem has been a milestone in quantum information theory. It states that asymptotically reliable simulation of a quantum channel, assisted by unlimited shared entanglement, requires a rate of classical communication equal to the channel's entanglement-assisted classical capacity. In this paper, we study the error exponent of quantum channel simulation, which characterizes the optimal speed of exponential convergence of the performance towards the perfect, as the blocklength increases. Based on channel purified distance, we derive lower and upper bounds for the error exponent. Then we show that the two bounds coincide when the classical communication rate is below a critical value, and hence, we have determined the exact formula of the error exponent in the low-rate case. This enables us to obtain an operational interpretation to the channel's sandwiched R\'enyi information of order from 1 to 2, since our formula is expressed as a transform of this quantity. In the derivation, we have also obtained an achievability bound for quantum channel simulation in the finite-blocklength setting, which is of realistic significance. | 翻訳日:2024-06-26 23:29:11 公開日:2024-06-24 |
# ロボットナビゲーションタスクのための量子深部強化学習
Quantum Deep Reinforcement Learning for Robot Navigation Tasks ( http://arxiv.org/abs/2202.12180v3 ) ライセンス: Link先を確認 | Hans Hohenfeld, Dirk Heimann, Felix Wiebe, Frank Kirchner, | (参考訳) 複雑度を増大させるシミュレーション環境において,ハイブリッド量子深部強化学習を用いて簡単な車輪付きロボットのナビゲーションタスクを学習する。
そこで本研究では,Double Deep Q Network(DDQN)強化学習アルゴリズムを用いた古典的ニューラルネットワークベースラインとともに,ハイブリッド量子古典的な構成で2つの異なる符号化戦略を持つパラメタライズド量子回路(PQC)を訓練する。
量子深部強化学習(QDRL)は以前,OpenAIのジムスイートを中心に,比較的単純なベンチマーク環境で研究されてきた。
しかし、QDRLのスケーリング行動と実際の問題に近い要求の高いタスクに適用可能である。
G
ロボット工学の分野ではこれまで研究されていない。
ここでは,ハイブリッド量子古典的強化学習システムにおける量子回路は,古典的ベースラインに比べてトレーニング可能なパラメータが著しく少ない複数のロボットナビゲーションシナリオにおいて,最適なポリシを学習可能であることを示す。
多くの実験的な構成において、量子回路はトレーニング可能なパラメータの数に等しくなると、古典的ニューラルネットワークのベースラインより優れていることが判明した。
しかし、古典的ニューラルネットワークは、トレーニング時間と安定性に関して、最高のパフォーマンスの量子回路よりも少なくとも1桁のトレーニング可能なパラメータで、常により良い結果を示した。
しかし,大規模かつダイナミックな環境下での学習手法の堅牢性を検証することで,古典的ベースラインの安定性が向上し,全体的な性能が向上することがわかった。
We utilize hybrid quantum deep reinforcement learning to learn navigation tasks for a simple, wheeled robot in simulated environments of increasing complexity. For this, we train parameterized quantum circuits (PQCs) with two different encoding strategies in a hybrid quantum-classical setup as well as a classical neural network baseline with the double deep Q network (DDQN) reinforcement learning algorithm. Quantum deep reinforcement learning (QDRL) has previously been studied in several relatively simple benchmark environments, mainly from the OpenAI gym suite. However, scaling behavior and applicability of QDRL to more demanding tasks closer to real-world problems e. g., from the robotics domain, have not been studied previously. Here, we show that quantum circuits in hybrid quantum-classic reinforcement learning setups are capable of learning optimal policies in multiple robotic navigation scenarios with notably fewer trainable parameters compared to a classical baseline. Across a large number of experimental configurations, we find that the employed quantum circuits outperform the classical neural network baselines when equating for the number of trainable parameters. Yet, the classical neural network consistently showed better results concerning training times and stability, with at least one order of magnitude of trainable parameters more than the best-performing quantum circuits. However, validating the robustness of the learning methods in a large and dynamic environment, we find that the classical baseline produces more stable and better performing policies overall. | 翻訳日:2024-06-26 23:29:11 公開日:2024-06-24 |
# ドイツ議会議員155年における女性・家族の連帯関係の微粒化
Fine-Grained Detection of Solidarity for Women and Migrants in 155 Years of German Parliamentary Debates ( http://arxiv.org/abs/2210.04359v2 ) ライセンス: Link先を確認 | Aida Kostikova, Benjamin Paassen, Dominik Beese, Ole Pütz, Gregor Wiedemann, Steffen Eger, | (参考訳) 連帯は社会における社会的関係を理解するための重要な概念である。
本稿では,1867年から2022年にかけてのドイツ議会の議論において,女性や移民に対する連帯性を研究するための微粒な連帯構造について検討する。
Llama 3, GPT-3.5, GPT-4などの大規模言語モデル (LLM) を手動で注釈付きテキストスニペットを用いて評価した。
GPT-4 は他の LLM よりも優れており、人間のアノテーションの品質に近づいている。
GPT-4を使用して155年間で18k以上のインスタンス(約500ユーロ)を自動的に注釈付けし、移民との連帯が反連帯性を上回るが、その頻度と連帯性は時間とともに変化することを発見した。
最も重要なことは、(反)連帯というグループベースの概念は、(経済的)貢献の欠如に焦点をあてて、移民集団の脆弱性に焦点を当て、(反)連帯性を支持する。
本研究は,移動談話や社会的結束を形成する上での歴史的出来事,社会経済的ニーズ,政治的イデオロギーの相互作用に注目した。
また、強力なLCMは、注意を喚起されたとしても、ハードな社会科学的タスクに対する人間のアノテーションに代わる費用対効果があることも示している。
Solidarity is a crucial concept to understand social relations in societies. In this paper, we explore fine-grained solidarity frames to study solidarity towards women and migrants in German parliamentary debates between 1867 and 2022. Using 2,864 manually annotated text snippets (with a cost exceeding 18k Euro), we evaluate large language models (LLMs) like Llama 3, GPT-3.5, and GPT-4. We find that GPT-4 outperforms other LLMs, approaching human annotation quality. Using GPT-4, we automatically annotate more than 18k further instances (with a cost of around 500 Euro) across 155 years and find that solidarity with migrants outweighs anti-solidarity but that frequencies and solidarity types shift over time. Most importantly, group-based notions of (anti-)solidarity fade in favor of compassionate solidarity, focusing on the vulnerability of migrant groups, and exchange-based anti-solidarity, focusing on the lack of (economic) contribution. Our study highlights the interplay of historical events, socio-economic needs, and political ideologies in shaping migration discourse and social cohesion. We also show that powerful LLMs, if carefully prompted, can be cost-effective alternatives to human annotation for hard social scientific tasks. | 翻訳日:2024-06-26 23:29:11 公開日:2024-06-24 |
# Laplacian Convolutional Representation for Traffic Time Series Imputation
Laplacian Convolutional Representation for Traffic Time Series Imputation ( http://arxiv.org/abs/2212.01529v3 ) ライセンス: Link先を確認 | Xinyu Chen, Zhanhong Cheng, HanQin Cai, Nicolas Saunier, Lijun Sun, | (参考訳) 時空間トラフィックデータ計算は、インテリジェントトランスポートシステムとデータ駆動意思決定プロセスにおいて非常に重要である。
部分的に観測された交通データから効率的に学習し、正確な再構築を行うため、時系列におけるグローバルトレンドとローカルトレンドの両方を特徴付けることの重要性を主張する。
文献では,行列/テンソル補完モデルを用いて,交通データの低ランク特性を活用することの有効性を実証している。
本研究では,まず,循環的畳み込みとして定式化できる交通時系列の局所的傾向を特徴付けるための時間正則化にラプラシアンカーネルを導入する。
次に、循環行列核ノルムとラプラシア核化時間正規化を併用することにより、低ランクなラプラシア畳み込み表現(LCR)モデルを構築し、ログ線形時間複雑性において高速フーリエ変換(FFT)解を持つ統一フレームワークを満たすことを証明した。
いくつかの交通データセットに関する広範な実験を通じて、様々な時系列行動(例えば、データノイズや強い/弱い周期性)の交通時系列を計算し、車両交通流のスパース速度場を再構築するためのベースラインモデルよりもLCRの方が優れていることを示す。
提案したLCRモデルは,既存計算モデルに対する大規模トラフィックデータ計算の効率的な解法でもある。
Spatiotemporal traffic data imputation is of great significance in intelligent transportation systems and data-driven decision-making processes. To perform efficient learning and accurate reconstruction from partially observed traffic data, we assert the importance of characterizing both global and local trends in time series. In the literature, substantial works have demonstrated the effectiveness of utilizing the low-rank property of traffic data by matrix/tensor completion models. In this study, we first introduce a Laplacian kernel to temporal regularization for characterizing local trends in traffic time series, which can be formulated as a circular convolution. Then, we develop a low-rank Laplacian convolutional representation (LCR) model by putting the circulant matrix nuclear norm and the Laplacian kernelized temporal regularization together, which is proved to meet a unified framework that has a fast Fourier transform (FFT) solution in log-linear time complexity. Through extensive experiments on several traffic datasets, we demonstrate the superiority of LCR over several baseline models for imputing traffic time series of various time series behaviors (e.g., data noises and strong/weak periodicity) and reconstructing sparse speed fields of vehicular traffic flow. The proposed LCR model is also an efficient solution to large-scale traffic data imputation over the existing imputation models. | 翻訳日:2024-06-26 23:19:26 公開日:2024-06-24 |
# COFFEE: イベント抽出のための対照的なOracleフリーフレームワーク
COFFEE: A Contrastive Oracle-Free Framework for Event Extraction ( http://arxiv.org/abs/2303.14452v2 ) ライセンス: Link先を確認 | Meiru Zhang, Yixuan Su, Zaiqiao Meng, Zihao Fu, Nigel Collier, | (参考訳) イベント抽出は、構造化されていないテキストからイベントを抽出する複雑な情報抽出タスクである。
従来の分類に基づく手法では、ジョイントトレーニングのための包括的なエンティティアノテーションが必要であるが、新しい世代ベースの手法は、実際のシナリオでは利用できないイベントタイプのようなオラクル情報を含むヒューリスティックなテンプレートに依存している。
本研究では,Oracle-Free Event extract (OFEE) タスクにおいて,イベントタイプやイベントオントロジー,トリガーワードなどのオラクル情報を持たない入力コンテキストのみを付与する,より現実的なタスク設定について考察する。
この課題を解決するために,文書コンテキストのみに基づくイベントをオラクル情報を参照せずに抽出するCOFFEEという新しいフレームワークを提案する。
特に、COFFEEでは、生成されたトリガを修正し、マルチイベントインスタンスを処理するために、コントラスト選択モデルが導入されている。
提案したCOFFEEは,イベント抽出タスクのオラクルフリー設定下での最先端のアプローチよりも優れており,ACE05で評価されている。
Event extraction is a complex information extraction task that involves extracting events from unstructured text. Prior classification-based methods require comprehensive entity annotations for joint training, while newer generation-based methods rely on heuristic templates containing oracle information such as event type, which is often unavailable in real-world scenarios. In this study, we consider a more realistic setting of this task, namely the Oracle-Free Event Extraction (OFEE) task, where only the input context is given without any oracle information, including event type, event ontology and trigger word. To solve this task, we propose a new framework, called COFFEE, which extracts the events solely based on the document context without referring to any oracle information. In particular, a contrastive selection model is introduced in COFFEE to rectify the generated triggers and handle multi-event instances. The proposed COFFEE outperforms state-of-the-art approaches under the oracle-free setting of the event extraction task, as evaluated on a public event extraction benchmark ACE05. | 翻訳日:2024-06-26 23:19:26 公開日:2024-06-24 |
# ノイズロス関数:大規模雑音データ学習における境界損失の軽減
Noise-Robust Loss Functions: Enhancing Bounded Losses for Large-Scale Noisy Data Learning ( http://arxiv.org/abs/2306.05497v2 ) ライセンス: Link先を確認 | Max Staats, Matthias Thamm, Bernd Rosenow, | (参考訳) 大きな注釈付きデータセットには、必然的にノイズのあるラベルが含まれており、ラベルを覚えやすいようにディープニューラルネットワークをトレーニングする上で大きな課題となる。
ノイズ・ロバスト損失関数はこの問題に対処するための重要な戦略として現れてきたが、過度に適合しないロバスト損失関数を作成することは依然として困難である。
本稿では,初期化時のネットワーク出力と,初期学習段階における有界損失関数の非消滅勾配の領域との重複を定量的に検討する。
これらの知見を用いて、ロジットバイアス(logit bias)と呼ばれる新しい手法によるMAE損失の不適合に対処し、正しいクラスの位置にあるロジットに実数$\epsilon$を付加する。
この方法では、1000以上のクラスの100万以上のイメージからなるWebVisionのようなデータセットでも、境界付き損失を学習することができる。
大規模な数値実験により、ロジットバイアスにより、MAEは最先端のノイズロバスト損失関数と競合できることが示された。
さらに,ネットワークをトレーニングすることなく,他の損失関数の最適パラメータを決定するために,本手法が有効であることを示す。
また,本手法は,クラス数に基づいてハイパーパラメータを決定するため,データセットやノイズ依存パラメータが不要な損失関数を導出する。
Large annotated datasets inevitably contain noisy labels, which poses a major challenge for training deep neural networks as they easily memorize the labels. Noise-robust loss functions have emerged as a notable strategy to counteract this issue, but it remains challenging to create a robust loss function which is not susceptible to underfitting. Through a quantitative approach, this paper explores the limited overlap between the network output at initialization and regions of non-vanishing gradients of bounded loss functions in the initial learning phase. Using these insights, we address underfitting of the MAE loss with a novel method denoted as logit bias, which adds a real number $\epsilon$ to the logit at the position of the correct class. This method enables bounded losses to learn, even on datasets like WebVision, consisting of over a million images from 1000 classes. Extensive numerical experiments show that the logit bias enables MAE to compete with state-of-the-art noise robust loss functions. In addition, we demonstrate that our method can be used to determine optimal parameters for other loss functions -- without having to train networks. Remarkably, our method determines the hyperparameters based on the number of classes, resulting in loss functions which require zero dataset or noise-dependent parameters. | 翻訳日:2024-06-26 21:19:43 公開日:2024-06-24 |
# 異なる決定木は人間のフィードバックから解釈可能なリワード学習を可能にするか?
Can Differentiable Decision Trees Enable Interpretable Reward Learning from Human Feedback? ( http://arxiv.org/abs/2306.13004v4 ) ライセンス: Link先を確認 | Akansha Kalra, Daniel S. Brown, | (参考訳) Reinforcement Learning from Human Feedback (RLHF)は、報酬価値を手作りすることの難しさを軽減するために、人間の意図を捉えるための一般的なパラダイムとして登場した。
RLHFへの関心が高まっているにもかかわらず、ほとんどの研究はブラックボックス報酬関数を学習し、表現力は解釈が困難であり、しばしばRLのコストのかかるプロセス全体を実行する必要があるが、これらのフレームワークが実際に人間の好みに適合しているかどうかを解読することさえできる。
本稿では,微分可能決定木(DDT)を用いた嗜好から表現的かつ解釈可能な報酬関数を学習するための新しいアプローチを提案し,評価する。
CartPole、Visual Gridworld環境、Atariゲームなど、いくつかの領域にわたる実験により、学習した報酬関数のツリー構造が人間の嗜好に合致する範囲を決定するのに有用であることを示す。
また,DDTが高容量のディープニューラルネットワーク報酬関数と比較して競争力のあるRL性能を達成できることを示すだけでなく,学習した報酬関数のアライメントをチェックする上で,我々のフレームワークの診断的有用性を実証する実験的な証拠も提示する。
また、DDTのソフトとハード(argmax)の出力の選択は、高い形状の報酬を欲しがる一方で、よりシンプルで解釈可能な報酬も欲しがる。
ビデオとコード、https://sites.google.com/view/ddt-rlhf
Reinforcement Learning from Human Feedback (RLHF) has emerged as a popular paradigm for capturing human intent to alleviate the challenges of hand-crafting the reward values. Despite the increasing interest in RLHF, most works learn black box reward functions that while expressive are difficult to interpret and often require running the whole costly process of RL before we can even decipher if these frameworks are actually aligned with human preferences. We propose and evaluate a novel approach for learning expressive and interpretable reward functions from preferences using Differentiable Decision Trees (DDTs). Our experiments across several domains, including CartPole, Visual Gridworld environments and Atari games, provide evidence that the tree structure of our learned reward function is useful in determining the extent to which the reward function is aligned with human preferences. We also provide experimental evidence that not only shows that reward DDTs can often achieve competitive RL performance when compared with larger capacity deep neural network reward functions but also demonstrates the diagnostic utility of our framework in checking alignment of learned reward functions. We also observe that the choice between soft and hard (argmax) output of reward DDT reveals a tension between wanting highly shaped rewards to ensure good RL performance, while also wanting simpler, more interpretable rewards. Videos and code, are available at: https://sites.google.com/view/ddt-rlhf | 翻訳日:2024-06-26 21:19:43 公開日:2024-06-24 |
# LM-infinite: 大規模言語モデルのためのゼロショット極長一般化
LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models ( http://arxiv.org/abs/2308.16137v7 ) ライセンス: Link先を確認 | Chi Han, Qifan Wang, Hao Peng, Wenhan Xiong, Yu Chen, Heng Ji, Sinong Wang, | (参考訳) 今日の大きな言語モデル(LLM)は、Transformerアーキテクチャの2次複雑さのため、通常、短いテキストセグメント(例: <4Kトークン)でトレーニングする。
結果として、彼らのパフォーマンスは、トレーニング中に遭遇したものよりもはるかに長いインプットに悩まされ、科学論文のエンコーディングやコードリポジトリ、ロングダイアログなどの長いコンテキストを含む現実世界のタスクへの応用を著しく制限する。
理論的解析と実証的研究を通じて、この長大一般化失敗に寄与する3つの主要な要因を同定する。
理論的解析により,注意窓の切り抜きや相対的な位置エンコーディングなどの手法が不十分であることが明らかになった。
これらの課題に答え、長いコンテキストを扱うLLMの能力をシンプルかつ効果的に向上するLM-Infiniteを提案する。
LM-Infiniteは非常に柔軟で、ほとんどの近代的なLCMで使用することができる。
パラメータの更新がないため、2Kまたは4Kのセグメントで事前訓練されたLCMは、パープレキシティを維持しながら最大2億の入力を一般化することができる。
ゼロショット設定では、Passkey RetrievalやQasperといった下流タスクのパフォーマンスも向上する。
LM-Infiniteは2.7倍のデコード速度と7.5倍のメモリ節約を実現している。
私たちのコードは \url{https://github.com/Glaciohound/LM-Infinite} でリリースされています。
Today's large language models (LLMs) typically train on short text segments (e.g., <4K tokens) due to the quadratic complexity of their Transformer architectures. As a result, their performance suffers drastically on inputs longer than those encountered during training, substantially limiting their applications in real-world tasks involving long contexts such as encoding scientific articles, code repositories, or long dialogues. Through theoretical analysis and empirical investigation, this work identifies three major factors contributing to this length generalization failure. Our theoretical analysis further reveals that commonly used techniques like truncating the attention window or relative positional encodings are inadequate to address them. Answering these challenges, we propose LM-Infinite, a simple and effective method for enhancing LLMs' capabilities of handling long contexts. LM-Infinite is highly flexible and can be used with most modern LLMs off-the-shelf. Without any parameter updates, it allows LLMs pre-trained with 2K or 4K-long segments to generalize to up to 200M length inputs while retaining perplexity. It also improves performance on downstream tasks such as Passkey Retrieval and Qasper in the zero-shot setting. LM-Infinite brings substantial efficiency improvements: it achieves 2.7x decoding speed up and 7.5x memory saving over the original model. Our codes are released at \url{https://github.com/Glaciohound/LM-Infinite}. | 翻訳日:2024-06-26 21:09:52 公開日:2024-06-24 |
# LinkTransformer: トランスフォーマー言語モデルによるレコードリンクのための統一パッケージ
LinkTransformer: A Unified Package for Record Linkage with Transformer Language Models ( http://arxiv.org/abs/2309.00789v2 ) ライセンス: Link先を確認 | Abhishek Arora, Melissa Dell, | (参考訳) 情報源間で情報をリンクすることは、社会科学、ビジネス、政府における様々な分析の基礎である。
大規模言語モデル(LLM)は、ノイズの多いデータセットにおけるレコードリンクを改善するための大きな保証を提供するが、RやStaのような一般的なソフトウェアにおける文字列マッチングパッケージに近い多くの領域では、依然として支配的である。
これらのパッケージはクリーンでシンプルなインタフェースを持ち、様々な言語に容易に拡張できる。
当社のオープンソースパッケージLinkTransformerは,一般的な文字列マッチング手法の親しみやすさと使いやすさを,ディープラーニングに拡張することを目的としています。
これは、レコードリンクをテキスト検索問題として扱うトランスフォーマーLLMとのレコードリンクのための汎用パッケージである。
コアとなるのは、4行のコードでリンクを記録するためにトランスフォーマーモデルを適用する、既製のツールキットである。
LinkTransformerには、複数の言語用に事前訓練されたトランスフォーマーセマンティック類似モデルの豊富なリポジトリが含まれており、Hugging FaceやOpenAIからのトランスフォーマー言語モデルの統合が容易である。
複数のノイズフィールドでのブロッキングやリンクといった標準的な機能をサポートしている。
LinkTransformer APIは、他の一般的なテキストデータ処理タスク、例えばアグリゲーション、ノイズ非重複、翻訳不要な言語間リンクも実行する。
重要なのは、LinkTransformerには、効率的なモデルチューニングのための包括的なツールも含まれていることだ。
最後に、再利用性、再現性、拡張性を促進するために、LinkTransformerはユーザーがカスタムトレーニングされたモデルをモデルハブに簡単にコントリビュートできるようにする。
LinkTransformerは、トランスフォーマー言語モデルと、人気のある文字列マッチングパッケージの多くのユーザになじみのある直感的なAPIを組み合わせることで、ディープラーニングフレームワークに馴染みのない人たちの間で、LLMのメリットを民主化することを目指している。
Linking information across sources is fundamental to a variety of analyses in social science, business, and government. While large language models (LLMs) offer enormous promise for improving record linkage in noisy datasets, in many domains approximate string matching packages in popular softwares such as R and Stata remain predominant. These packages have clean, simple interfaces and can be easily extended to a diversity of languages. Our open-source package LinkTransformer aims to extend the familiarity and ease-of-use of popular string matching methods to deep learning. It is a general purpose package for record linkage with transformer LLMs that treats record linkage as a text retrieval problem. At its core is an off-the-shelf toolkit for applying transformer models to record linkage with four lines of code. LinkTransformer contains a rich repository of pre-trained transformer semantic similarity models for multiple languages and supports easy integration of any transformer language model from Hugging Face or OpenAI. It supports standard functionality such as blocking and linking on multiple noisy fields. LinkTransformer APIs also perform other common text data processing tasks, e.g., aggregation, noisy de-duplication, and translation-free cross-lingual linkage. Importantly, LinkTransformer also contains comprehensive tools for efficient model tuning, to facilitate different levels of customization when off-the-shelf models do not provide the required accuracy. Finally, to promote reusability, reproducibility, and extensibility, LinkTransformer makes it easy for users to contribute their custom-trained models to its model hub. By combining transformer language models with intuitive APIs that will be familiar to many users of popular string matching packages, LinkTransformer aims to democratize the benefits of LLMs among those who may be less familiar with deep learning frameworks. | 翻訳日:2024-06-26 21:09:52 公開日:2024-06-24 |
# 時系列予測のための知覚型CDFモデリング
Perceiver-based CDF Modeling for Time Series Forecasting ( http://arxiv.org/abs/2310.01720v2 ) ライセンス: Link先を確認 | Cat P. Le, Chris Cannella, Ali Hasan, Yuting Ng, Vahid Tarokh, | (参考訳) 変換器は時系列データの予測に顕著な有効性を示した。
しかし、それらの自己注意機構への広範な依存は、重要な計算資源を必要とするため、特にマルチモーダル問題において、様々なタスクにまたがる実践的適用性が制限される。
本研究では,時系列データの累積分布関数(CDF)をモデル化するための新しいアーキテクチャであるPerceiver-CDFを提案する。
提案手法は,マルチモーダル時系列予測に適したコプラに基づくアテンション機構と,知覚アーキテクチャを組み合わせたものである。
知覚器を活用することで,高次元およびマルチモーダルデータをコンパクトな潜在空間に効率よく変換し,計算要求を大幅に低減する。
その後,コプラに基づくアテンション機構を実装し,欠落したデータの共同分布を構築し,予測を行う。
また,予測時の誤差伝搬を効果的に緩和する出力分散試験機構を提案する。
効率を高め,複雑さを低減するため,局所的な注意機構の中間点推論を導入する。
これにより、モデルは、すべての前のサンプルを考慮せずに、近くの汚染されたサンプル内の依存関係を効率的にキャプチャできる。
単モーダルおよびマルチモーダルベンチマークの実験は、半分未満の計算資源を生かしながら、最先端の手法よりも20%改善されたことを一貫して示している。
Transformers have demonstrated remarkable efficacy in forecasting time series data. However, their extensive dependence on self-attention mechanisms demands significant computational resources, thereby limiting their practical applicability across diverse tasks, especially in multimodal problems. In this work, we propose a new architecture, called perceiver-CDF, for modeling cumulative distribution functions (CDF) of time series data. Our approach combines the perceiver architecture with a copula-based attention mechanism tailored for multimodal time series prediction. By leveraging the perceiver, our model efficiently transforms high-dimensional and multimodal data into a compact latent space, thereby significantly reducing computational demands. Subsequently, we implement a copula-based attention mechanism to construct the joint distribution of missing data for prediction. Further, we propose an output variance testing mechanism to effectively mitigate error propagation during prediction. To enhance efficiency and reduce complexity, we introduce midpoint inference for the local attention mechanism. This enables the model to efficiently capture dependencies within nearby imputed samples without considering all previous samples. The experiments on the unimodal and multimodal benchmarks consistently demonstrate a 20% improvement over state-of-the-art methods while utilizing less than half of the computational resources. | 翻訳日:2024-06-26 21:09:52 公開日:2024-06-24 |
# UCM-Net:MLPとCNNを用いた皮膚病変分割のための軽量かつ効率的な解法
UCM-Net: A Lightweight and Efficient Solution for Skin Lesion Segmentation using MLP and CNN ( http://arxiv.org/abs/2310.09457v4 ) ライセンス: Link先を確認 | Chunyu Yuan, Dongfang Zhao, Sos S. Agaian, | (参考訳) 皮膚がんは公衆衛生上の重要な課題であり、効率的な診断ツールを必要とする。
本稿では,MLP(Multi-Layer Perceptrons)とCNN(Convolutional Neural Networks)を組み合わせた新しい皮膚病変セグメンテーションモデルであるUCM-Netを紹介する。
この軽量で効率的なアーキテクチャは、従来のUNet設計から逸脱し、計算要求を劇的に減らし、モバイル健康アプリケーションに最適である。
PH2、ISIC 2017、ISIC 2018データセットに基づいて評価され、UCM-Netは50KB未満のパラメータで堅牢なパフォーマンスを示し、GLOP(Giga Operations Per Second)は0.05以下である。
さらに、その最小メモリ要件はCPU環境における1.19MBである。
これは皮膚病変のセグメンテーションの効率性の潜在的なベンチマークであり、資源制約された設定での展開に適している。
UCM-Net のソースコードは https://github.com/chunyuyuan/UCM-Net である。
Skin cancer poses a significant public health challenge, necessitating efficient diagnostic tools. We introduce UCM-Net, a novel skin lesion segmentation model combining Multi-Layer Perceptrons (MLP) and Convolutional Neural Networks (CNN). This lightweight, efficient architecture, deviating from traditional UNet designs, dramatically reduces computational demands, making it ideal for mobile health applications. Evaluated on PH2, ISIC 2017, and ISIC 2018 datasets, UCM-Net demonstrates robust performance with fewer than 50KB parameters and requires less than 0.05 Giga Operations Per Second (GLOPs). Moreover, its minimal memory requirement is just 1.19MB in CPU environment positions. It is a potential benchmark for efficiency in skin lesion segmentation, suitable for deployment in resource-constrained settings. In order to facilitate accessibility and further research in the field, the UCM-Net source code is https://github.com/chunyuyuan/UCM-Net. | 翻訳日:2024-06-26 21:00:07 公開日:2024-06-24 |
# 非線形および多次元偏微分方程式の量子変分解法
Quantum Variational Solving of Nonlinear and Multi-Dimensional Partial Differential Equations ( http://arxiv.org/abs/2311.01531v2 ) ライセンス: Link先を確認 | Abhijat Sarma, Thomas W. Watts, Mudassir Moosa, Yilian Liu, Peter L. McMahon, | (参考訳) 量子コンピュータ上での偏微分方程式(PDE)を数値的に解く変分量子アルゴリズムをLubschらにより提案した。本論文では,Lubschらによって導入された手法を一般化し,より広範な非線形PDEと多次元PDEのクラスをカバーするとともに,いくつかの例式上での変分量子アルゴリズムの性能について検討する。
具体的には,非自明な非線形ボラティリティモデル,ダブル・アセット・ブラック・スコルズ方程式,バックマスター方程式,決定論的カルダー・パリ・張方程式の例を解くことができることを示す。
我々のシミュレーションでは、最大$n=12$のアンザッツ量子ビットを使用し、2^n$のグリッドポイントを持つPDEソリューションを計算した。
我々はまた、IonQのトラップイオン量子プロセッサを用いた概念実証実験を行い、非線形ブラック-スコイルズ方程式の1つの時間ステップの計算に必要な2つの代表的な期待値の正確な計算を行った。古典的なシミュレーションと量子ハードウェアの実験を通して、グリッドポイント数(\gg 2^{20}$)の状態でPDEを解くために量子変分法を用いるためのいくつかのオープンな課題を特定、議論した。
A variational quantum algorithm for numerically solving partial differential equations (PDEs) on a quantum computer was proposed by Lubasch et al. In this paper, we generalize the method introduced by Lubasch et al. to cover a broader class of nonlinear PDEs as well as multidimensional PDEs, and study the performance of the variational quantum algorithm on several example equations. Specifically, we show via numerical simulations that the algorithm can solve instances of the Single-Asset Black-Scholes equation with a nontrivial nonlinear volatility model, the Double-Asset Black-Scholes equation, the Buckmaster equation, and the deterministic Kardar-Parisi-Zhang equation. Our simulations used up to $n=12$ ansatz qubits, computing PDE solutions with $2^n$ grid points. We also performed proof-of-concept experiments with a trapped-ion quantum processor from IonQ, showing accurate computation of two representative expectation values needed for the calculation of a single timestep of the nonlinear Black--Scholes equation. Through our classical simulations and experiments on quantum hardware, we have identified -- and we discuss -- several open challenges for using quantum variational methods to solve PDEs in a regime with a large number ($\gg 2^{20}$) of grid points, but also a practical number of gates per circuit and circuit shots. | 翻訳日:2024-06-26 21:00:07 公開日:2024-06-24 |
# コンピュータトモグラフィと再生カーネル
Computerized Tomography and Reproducing Kernels ( http://arxiv.org/abs/2311.07465v2 ) ライセンス: Link先を確認 | Ho Yun, Victor M. Panaretos, | (参考訳) X線変換は画像処理と再構成において最も基本的な演算子の1つである。
本稿では、カーネルヒルベルト空間(RKHS)の再生作用素として考慮し、X線変換の形式性を再考する。
この枠組みの中で、X線変換はユークリッド射影の自然な類似と見なすことができる。
RKHSフレームワークはプロジェクション画像の補間をかなり単純化し、トモグラフィー再構成の問題に対する有名な代表者定理の類似をもたらす。
これは次元自由であり、フーリエ変換にヒンジしないため、従来のフィルターバックプロジェクション手法とは別物となる方法論につながる。
また、データを離散的でノイズの多い現実的な環境では、真に機能的なレベル(すなわち、離散化を伴わない)でシャープな安定性結果を確立することもできます。
RKHSフレームワークは汎用的で、任意の再生カーネルを単位球に収容し、高い一般性を与える。
カーネルが回転不変であるとき、明示的なスペクトル表現が得られ、関連するヒルベルト空間の正則構造が解明される。
さらに、再構成問題はフィルタバックプロジェクションと同じ計算コストで解決できる。
The X-ray transform is one of the most fundamental integral operators in image processing and reconstruction. In this article, we revisit the formalism of the X-ray transform by considering it as an operator between Reproducing Kernel Hilbert Spaces (RKHS). Within this framework, the X-ray transform can be viewed as a natural analogue of Euclidean projection. The RKHS framework considerably simplifies projection image interpolation, and leads to an analogue of the celebrated representer theorem for the problem of tomographic reconstruction. It leads to methodology that is dimension-free and stands apart from conventional filtered back-projection techniques, as it does not hinge on the Fourier transform. It also allows us to establish sharp stability results at a genuinely functional level (i.e. without recourse to discretization), but in the realistic setting where the data are discrete and noisy. The RKHS framework is versatile, accommodating any reproducing kernel on a unit ball, affording a high level of generality. When the kernel is chosen to be rotation-invariant, explicit spectral representations can be obtained, elucidating the regularity structure of the associated Hilbert spaces. Moreover, the reconstruction problem can be solved at the same computational cost as filtered back-projection. | 翻訳日:2024-06-26 21:00:07 公開日:2024-06-24 |
# Nova: 階層的注意とコントラスト学習を伴うアセンブリコードの生成言語モデル
Nova: Generative Language Models for Assembly Code with Hierarchical Attention and Contrastive Learning ( http://arxiv.org/abs/2311.13721v4 ) ライセンス: Link先を確認 | Nan Jiang, Chengxiao Wang, Kevin Liu, Xiangzhe Xu, Lin Tan, Xiangyu Zhang, | (参考訳) バイナリコード分析はセキュリティ領域における重要なタスクの基盤です。
大規模な言語モデル(LLM)は、ソースコードタスクに驚くべき改善をもたらしたが、アセンブリの独特な課題によりアセンブリコードに直接一般化するものではない。
これらの課題を克服するため、本研究では、より効果的にセマンティクスをキャプチャするための注意要約を構築する階層的な注意機構を提案し、LCMを学習するための対照的な学習目標を設計し、アセンブリ最適化を学ぶ。
これらの技法を取り入れたこの研究は、アセンブリコードのためのジェネレーティブLLMであるNovaを開発した。
Novaはバイナリコード逆コンパイルの既存のテクニックを最大146.54%上回り、最新のバイナリコード類似性検出テクニックを最大6.17%上回り、アセンブリ生成と理解タスクの両方において有望な能力を示している。
Binary code analysis is the foundation of crucial tasks in the security domain; thus building effective binary analysis techniques is more important than ever. Large language models (LLMs) although have brought impressive improvement to source code tasks, do not directly generalize to assembly code due to the unique challenges of assembly: (1) the low information density of assembly and (2) the diverse optimizations in assembly code. To overcome these challenges, this work proposes a hierarchical attention mechanism that builds attention summaries to capture the semantics more effectively, and designs contrastive learning objectives to train LLMs to learn assembly optimization. Equipped with these techniques, this work develops Nova, a generative LLM for assembly code. Nova outperforms existing techniques on binary code decompilation by up to 146.54%, and outperforms the latest binary code similarity detection techniques by up to 6.17%, showing promising abilities on both assembly generation and understanding tasks. | 翻訳日:2024-06-26 21:00:07 公開日:2024-06-24 |
# Hessian Aware Low-Rank Perturbation for Order-Robust Continual Learning
Hessian Aware Low-Rank Perturbation for Order-Robust Continual Learning ( http://arxiv.org/abs/2311.15161v3 ) ライセンス: Link先を確認 | Jiaqi Li, Yuanhao Lai, Rui Wang, Changjian Shui, Sabyasachi Sahoo, Charles X. Ling, Shichun Yang, Boyu Wang, Christian Gagné, Fan Zhou, | (参考訳) 連続学習は、前のタスクから得た知識を忘れずに、一連のタスクを逐次学習することを目的としている。
本研究では,Hessian Aware Low-Rank Perturbationアルゴリズムを提案する。
重み行列変換を用いて逐次タスクに沿ったパラメータ遷移をモデル化することにより、ニューラルネットワークの各層におけるタスク適応パラメータに低ランク近似を適用することを提案する。
具体的には,ヘッセン近似と提案した低ランク近似の量的関係を理論的に実証する。
近似ランクは、層比勾配と低ランク近似誤差によって推定される経験的損失の限界増加に従って、全世界的に決定される。
さらに,パラメータ成長を抑えるために,重要度を低くすることでモデル容量を制御する。
大規模タスクのデータセットを含む様々なベンチマークで広範な実験を行い、提案手法の有効性と拡張性を示す最新手法と比較する。
実験の結果,提案手法は様々なベンチマークにおいて,特にタスク順序の堅牢性を達成し,忘れる問題に対処する上で,優れた性能を示すことがわかった。
ソースコードはhttps://github.com/lijiaqi/HALRPにある。
Continual learning aims to learn a series of tasks sequentially without forgetting the knowledge acquired from the previous ones. In this work, we propose the Hessian Aware Low-Rank Perturbation algorithm for continual learning. By modeling the parameter transitions along the sequential tasks with the weight matrix transformation, we propose to apply the low-rank approximation on the task-adaptive parameters in each layer of the neural networks. Specifically, we theoretically demonstrate the quantitative relationship between the Hessian and the proposed low-rank approximation. The approximation ranks are then globally determined according to the marginal increment of the empirical loss estimated by the layer-specific gradient and low-rank approximation error. Furthermore, we control the model capacity by pruning less important parameters to diminish the parameter growth. We conduct extensive experiments on various benchmarks, including a dataset with large-scale tasks, and compare our method against some recent state-of-the-art methods to demonstrate the effectiveness and scalability of our proposed method. Empirical results show that our method performs better on different benchmarks, especially in achieving task order robustness and handling the forgetting issue. The source code is at https://github.com/lijiaqi/HALRP. | 翻訳日:2024-06-26 20:50:02 公開日:2024-06-24 |
# スパイキングニューラルネットワークを用いたSTDPとホメオスタシスを用いた空間的特徴の可視化学習
Supervised learning of spatial features with STDP and homeostasis using Spiking Neural Networks on SpiNNaker ( http://arxiv.org/abs/2312.02659v2 ) ライセンス: Link先を確認 | Sergio Davies, Andrew Gait, Andrew Rowley, Alessandro Di Nuovo, | (参考訳) ANN(Artificial Neural Networks)は、よく知られたバックプロパゲーションアルゴリズムを使って学習する能力によって、大きな人気を集めている。
逆に、スパイキングニューラルネットワーク(SNN)は、ANNよりも幅広い能力を持っているにもかかわらず、トレーニングフェーズにおいて常に課題を提起してきた。
本稿では,SNNにおける教師あり学習のための新しい手法として,スパイクタイミング依存塑性(STDP)とホメオスタシス(ホメオスタシス)を用いて,空間パターンの同定のためのネットワークのトレーニングを行う。
空間パターンは、すべてのスパイクイベントが同時に発生する時間成分のないスパイクパターンを指す。
この方法はSpiNNakerデジタルアーキテクチャを用いてテストされる。
SNNは1つまたは複数のパターンを認識するように訓練され、ネットワークのパフォーマンスを測定するためにパフォーマンスメトリクスが抽出される。
一つの訓練されたパターンの場合、ネットワークは訓練されたパターンを検出するのに100%の精度で理想的な検出器として振る舞うことを示す結果から、いくつかの考察が導かれる。
しかし、1つのネットワーク上で訓練されたパターンの数が増加するにつれて、識別の精度はこれらのパターンの類似性と関連している。
空間パターンを検出するためのSNNを訓練する方法は、静的画像におけるパターン認識や、各ネットワークパケットが空間パターンを表すコンピュータネットワークにおけるトラフィック解析に適用することができる。
本項で概説する原則は,入力信号の特定の特徴をスパイクに変換することによって空間的・時間的両方のパターンを利用する,より複雑なシステムの基本的構成要素として機能し,パケット内容の特徴に基づいてパケットストリームをリアルタイムに識別するコンピュータネットワークパケット分類器である。
Artificial Neural Networks (ANN) have gained significant popularity thanks to their ability to learn using the well-known backpropagation algorithm. Conversely, Spiking Neural Networks (SNNs), despite having broader capabilities than ANNs, have always posed challenges in the training phase. This paper shows a new method to perform supervised learning on SNNs, using Spike Timing Dependent Plasticity (STDP) and homeostasis, aiming at training the network to identify spatial patterns. Spatial patterns refer to spike patterns without a time component, where all spike events occur simultaneously. The method is tested using the SpiNNaker digital architecture. A SNN is trained to recognise one or multiple patterns and performance metrics are extracted to measure the performance of the network. Some considerations are drawn from the results showing that, in the case of a single trained pattern, the network behaves as the ideal detector, with 100% accuracy in detecting the trained pattern. However, as the number of trained patterns on a single network increases, the accuracy of identification is linked to the similarities between these patterns. This method of training an SNN to detect spatial patterns may be applied to pattern recognition in static images or traffic analysis in computer networks, where each network packet represents a spatial pattern. It will be stipulated that the homeostatic factor may enable the network to detect patterns with some degree of similarity, rather than only perfectly matching patterns.The principles outlined in this article serve as the fundamental building blocks for more complex systems that utilise both spatial and temporal patterns by converting specific features of input signals into spikes.One example of such a system is a computer network packet classifier, tasked with real-time identification of packet streams based on features within the packet content | 翻訳日:2024-06-26 20:50:02 公開日:2024-06-24 |
# グラフコンピューティングのための加速器の導入
Enabling Accelerators for Graph Computing ( http://arxiv.org/abs/2312.10561v3 ) ライセンス: Link先を確認 | Kaustubh Shivdikar, | (参考訳) グラフニューラルネットワーク(GNN)の出現は機械学習の分野に革命をもたらし、グラフ構造化データを学ぶための新しいパラダイムを提供する。
従来のニューラルネットワークとは異なり、GNNはグラフデータに固有の複雑な関係や依存関係をキャプチャすることができ、特にソーシャルネットワーク分析、分子化学、ネットワークセキュリティなど幅広いアプリケーションに適している。
GNNは独自の構造と操作を持ち、従来のニューラルネットワークと比較して新しい計算課題を提示している。
このためには、GNNの総合的なベンチマークと詳細な特徴付けが必要であり、その計算要求に関する洞察を得て、潜在的なパフォーマンスボトルネックを特定する必要がある。
この論文では、GNNが基盤となるハードウェアとどのように相互作用するかをよりよく理解し、特別なアクセラレータを設計し、新しい最適化を開発することで、より効率的で高速なGNN計算を実現することを目的としている。
GNNにおける重要なコンポーネントはスパース・ジェネラル・マトリックス・マルチプリケーション(SpGEMM)カーネルであり、計算強度と不規則なメモリアクセスパターンで知られている。
本稿では,SpGEMMがもたらす課題を,カスタムアクセラレータに適した高度に最適化されたハッシュベースのSpGEMMカーネルを実装することで解決する。
これらの洞察と最適化を合成し、さまざまなGNNワークロードを効率的に処理できる最先端のハードウェアアクセラレータを設計する。
我々のアクセラレーターアーキテクチャは、GNNの計算要求のキャラクタリゼーションに基づいて構築されており、我々のアプローチに明確な動機を与えています。
この新しいモデルに対する探索は、単にパフォーマンスだけでなく、汎用性も備え、グラフコンピューティングの進化する状況に適応できるアクセラレーターを可能にするために、我々の包括的なアプローチの基盤となる。
The advent of Graph Neural Networks (GNNs) has revolutionized the field of machine learning, offering a novel paradigm for learning on graph-structured data. Unlike traditional neural networks, GNNs are capable of capturing complex relationships and dependencies inherent in graph data, making them particularly suited for a wide range of applications including social network analysis, molecular chemistry, and network security. GNNs, with their unique structure and operation, present new computational challenges compared to conventional neural networks. This requires comprehensive benchmarking and a thorough characterization of GNNs to obtain insight into their computational requirements and to identify potential performance bottlenecks. In this thesis, we aim to develop a better understanding of how GNNs interact with the underlying hardware and will leverage this knowledge as we design specialized accelerators and develop new optimizations, leading to more efficient and faster GNN computations. A pivotal component within GNNs is the Sparse General Matrix-Matrix Multiplication (SpGEMM) kernel, known for its computational intensity and irregular memory access patterns. In this thesis, we address the challenges posed by SpGEMM by implementing a highly optimized hashing-based SpGEMM kernel tailored for a custom accelerator. Synthesizing these insights and optimizations, we design state-of-the-art hardware accelerators capable of efficiently handling various GNN workloads. Our accelerator architectures are built on our characterization of GNN computational demands, providing clear motivation for our approaches. This exploration into novel models underlines our comprehensive approach, as we strive to enable accelerators that are not just performant, but also versatile, able to adapt to the evolving landscape of graph computing. | 翻訳日:2024-06-26 20:50:02 公開日:2024-06-24 |
# MambaTab: タブラルデータ学習のためのプラグイン・アンド・プレイモデル
MambaTab: A Plug-and-Play Model for Learning Tabular Data ( http://arxiv.org/abs/2401.08867v2 ) ライセンス: Link先を確認 | Md Atik Ahamed, Qiang Cheng, | (参考訳) 機械学習における画像やテキストの普及にもかかわらず、表形式のデータは様々な領域で広く使われている。
畳み込みニューラルネットワークやトランスフォーマーといった既存のディープラーニングモデルは、十分に機能するが、広範な事前処理と、アクセシビリティとスケーラビリティの制限を調整する必要がある。
本研究は,表データに対する構造化状態空間モデル(SSM)であるMambaTabに基づく革新的なアプローチを導入する。
SSMは、長距離依存を持つデータから効率的な表現を効率的に抽出する能力を持つ。
MambaTabは、テーブル上のエンドツーエンドの教師あり学習に、新興のSSM亜種であるMambaを利用している。
最先端のベースラインと比較して、MambaTabは、さまざまなベンチマークデータセットで実証的に検証されるように、パラメータを著しく少なくしながら、優れたパフォーマンスを提供する。
MambaTabの効率性、スケーラビリティ、一般化可能性、予測的ゲインは、より広範な実用的なアプリケーションを実現することを約束する、多様な表形式のデータに対する軽量で「プラグ&プレイ」なソリューションであることを示している。
Despite the prevalence of images and texts in machine learning, tabular data remains widely used across various domains. Existing deep learning models, such as convolutional neural networks and transformers, perform well however demand extensive preprocessing and tuning limiting accessibility and scalability. This work introduces an innovative approach based on a structured state-space model (SSM), MambaTab, for tabular data. SSMs have strong capabilities for efficiently extracting effective representations from data with long-range dependencies. MambaTab leverages Mamba, an emerging SSM variant, for end-to-end supervised learning on tables. Compared to state-of-the-art baselines, MambaTab delivers superior performance while requiring significantly fewer parameters, as empirically validated on diverse benchmark datasets. MambaTab's efficiency, scalability, generalizability, and predictive gains signify it as a lightweight, "plug-and-play" solution for diverse tabular data with promise for enabling wider practical applications. | 翻訳日:2024-06-26 20:40:18 公開日:2024-06-24 |
# ArXiv と X による研究論文の推進効果
Effects of Research Paper Promotion via ArXiv and X ( http://arxiv.org/abs/2401.11116v2 ) ライセンス: Link先を確認 | Chhandak Bagchi, Eric Malmi, Przemyslaw Grabowicz, | (参考訳) 科学出版の進化の過程において、ハイインパクトな研究の原動力を理解すること、研究の到達度を高めるための実行可能な戦略を科学者に提供すること、そして、彼らのさらなる発展を知らせるために近代的な科学出版ツールの使用の傾向を理解することが重要である。
本稿では、アーリープレプリントの出版物の利用状況とArXivの改訂、コンピュータ科学・物理学におけるX(旧Twitter)の利用状況について検討する。
ArXiv への早期提出や X への昇格は近年急増している。
これらの近代的な手当の使用が科学出版物の引用数に与える影響を推定すると、アーキビに早期に提出されたコンピュータ科学における査読された会議論文が、平均21.1 \pm 17.4$以上の引用で、ArXivに改訂されて18.4 \pm 17.6$以上の引用を獲得し、Xに昇格すると、最初の出版から5年で44.4 \pm 8$以上の引用が得られる。
対照的に、物理学の論文では引用回数が比較的少なく、同じ介入に対してそれぞれ$3.9 \pm 1.1$、$4.3 \pm 0.9$、$6.9 \pm 3.5$ citationが増加する。
以上の結果から,ArXiv や X 上での作業の促進は,引用数,Semantic Scholar が計算した影響力のある引用数に大きく影響し,研究者のキャリアに与える影響が示唆された。
これらの効果は物理学の出版物にも見られるが、比較的小さい。
相対的な効果の大きさ、時間とともに蓄積される促進の効果、そして物理学よりもコンピュータ科学における引用数の増加は、物理学よりもコンピュータ科学において、マウスの世界的拡散の役割が大きいことを示唆している。
In the evolving landscape of scientific publishing, it is important to understand the drivers of high-impact research, to equip scientists with actionable strategies to enhance the reach of their work, and to understand trends in the use of modern scientific publishing tools to inform their further development. Here, we study trends in the use of early preprint publications and revisions on ArXiv and the use of X (formerly Twitter) for promotion of such papers in computer science and physics. We find that early submissions to ArXiv and promotion on X have soared in recent years. Estimating the effect that the use of each of these modern affordances has on the number of citations of scientific publications, we find that peer-reviewed conference papers in computer science that are submitted early to ArXiv gain on average $21.1 \pm 17.4$ more citations, revised on ArXiv gain $18.4 \pm 17.6$ more citations, and promoted on X gain $44.4 \pm 8$ more citations in the first 5 years from an initial publication. In contrast, journal articles in physics experience comparatively lower boosts in citation counts, with increases of $3.9 \pm 1.1$, $4.3 \pm 0.9$, and $6.9 \pm 3.5$ citations respectively for the same interventions. Our results show that promoting one's work on ArXiv or X has a large impact on the number of citations, as well as the number of influential citations computed by Semantic Scholar, and thereby on the career of researchers. These effects are present also for publications in physics, but they are relatively smaller. The larger relative effect sizes, effects of promotion accumulating over time, and elevated unpredictability of the number of citations in computer science than in physics suggest a greater role of world-of-mouth spreading in computer science than in physics. | 翻訳日:2024-06-26 20:40:18 公開日:2024-06-24 |
# ローンデフォルト予測のための注意に基づく動的多層グラフニューラルネットワーク
Attention-based Dynamic Multilayer Graph Neural Networks for Loan Default Prediction ( http://arxiv.org/abs/2402.00299v2 ) ライセンス: Link先を確認 | Sahab Zandi, Kamesh Korangi, María Óskarsdóttir, Christophe Mues, Cristián Bravo, | (参考訳) 従来のクレジットスコアリングは、個人ローンまたはローンレベルの予測器のみを採用する傾向にあるが、借り手間の接続がネットワーク上でデフォルトのリスク伝播をもたらす可能性があることは、しばらく前から認識されていた。
本稿では,グラフニューラルネットワークとリカレントニューラルネットワークから構築された動的多層ネットワークを利用した信用リスク評価モデルを提案する。
我々は、米国住宅ローン金融業者のFreddie Macが提供したデータセットを用いて、我々の方法論を行動信用評価コンテキストで検証し、借り手の地理的位置と住宅ローン業者の選択から様々な種類の接続が生じることを示した。
提案モデルでは,接続のタイプと時間経過に伴う接続の進化について考察する。
我々は、その重要性に応じて異なる時間スナップショットを重み付けするカスタムアテンションメカニズムを使用して、モデルを強化する。
複数の構成をテストした後、GAT、LSTM、アテンションメカニズムを備えたモデルが最も良い結果をもたらす。
実験結果から,借り手に対するデフォルト確率の予測には,従来の手法と比較して,コネクションやタイムスタンプの重要性を分析する上で,優れた結果と新たな知見が得られた。
Whereas traditional credit scoring tends to employ only individual borrower- or loan-level predictors, it has been acknowledged for some time that connections between borrowers may result in default risk propagating over a network. In this paper, we present a model for credit risk assessment leveraging a dynamic multilayer network built from a Graph Neural Network and a Recurrent Neural Network, each layer reflecting a different source of network connection. We test our methodology in a behavioural credit scoring context using a dataset provided by U.S. mortgage financier Freddie Mac, in which different types of connections arise from the geographical location of the borrower and their choice of mortgage provider. The proposed model considers both types of connections and the evolution of these connections over time. We enhance the model by using a custom attention mechanism that weights the different time snapshots according to their importance. After testing multiple configurations, a model with GAT, LSTM, and the attention mechanism provides the best results. Empirical results demonstrate that, when it comes to predicting probability of default for the borrowers, our proposed model brings both better results and novel insights for the analysis of the importance of connections and timestamps, compared to traditional methods. | 翻訳日:2024-06-26 20:40:18 公開日:2024-06-24 |
# Aligner: 修正の学習による効率的なアライメント
Aligner: Efficient Alignment by Learning to Correct ( http://arxiv.org/abs/2402.02416v4 ) ライセンス: Link先を確認 | Jiaming Ji, Boyuan Chen, Hantao Lou, Donghai Hong, Borong Zhang, Xuehai Pan, Juntao Dai, Tianyi Qiu, Yaodong Yang, | (参考訳) 大規模言語モデル(LLM)の急激な開発と、絶え間なく進化する実践的要件により、効率的かつ効果的なアライメント方法を見つけることは、これまで以上に重要とされてきた。
しかしながら、現在のアライメントメソッドの複雑さとデプロイメントシナリオにおける迅速なイテレーションの必要性の間の緊張は、これらの制約の下で動作可能なモデルに依存しないアライメントアプローチの開発を必要とします。
本稿では,好ましくない回答と好ましくない回答の補正残差を小さなモデルで学習する,新しくシンプルなアライメントパラダイムであるAlignerを紹介する。
モデルに依存しないプラグイン・アンド・プレイモジュールとして設計されたAlignerは、ワンオフトレーニングのみで、さまざまなオープンソースおよびAPIベースのモデルに直接適用することができるため、迅速なイテレーションに適している。
特に、Alignerは、強力で大規模な上流モデルに適用できる。
さらに、修正された応答を人工的な人間の嗜好データとして使用して、上流モデルのブートストラップを反復的に行うことで、モデルのパフォーマンス天井を破ることができる。
実験では,11種類のLDMに対して同一のAlignerモデルをデプロイし,3H次元(重大性,無害性,正直性)で評価した。
具体的には、アリグナー7Bは平均68.9%の無害化と23.8%の無害化を達成し、幻覚を効果的に減少させた。
Alpaca-Evalのリーダーボードでは、Aligner-2BをGPT-4 Turboに積み重ねてLCウィンレートを55.0%から58.3%に改善し、GPT-4 Omniの57.5%ウィンレートを上回った(コミュニティレポート)。
With the rapid development of large language models (LLMs) and ever-evolving practical requirements, finding an efficient and effective alignment method has never been more critical. However, the tension between the complexity of current alignment methods and the need for rapid iteration in deployment scenarios necessitates the development of a model-agnostic alignment approach that can operate under these constraints. In this paper, we introduce Aligner, a novel and simple alignment paradigm that learns the correctional residuals between preferred and dispreferred answers using a small model. Designed as a model-agnostic, plug-and-play module, Aligner can be directly applied to various open-source and API-based models with only one-off training, making it suitable for rapid iteration. Notably, Aligner can be applied to any powerful, large-scale upstream models. Moreover, it can even iteratively bootstrap the upstream models using corrected responses as synthetic human preference data, breaking through the model's performance ceiling. Our experiments demonstrate performance improvements by deploying the same Aligner model across 11 different LLMs, evaluated on the 3H dimensions (helpfulness, harmlessness, and honesty). Specifically, Aligner-7B has achieved an average improvement of 68.9% in helpfulness and 23.8% in harmlessness across the tested LLMs while also effectively reducing hallucination. In the Alpaca-Eval leaderboard, stacking Aligner-2B on GPT-4 Turbo improved its LC Win Rate from 55.0% to 58.3%, surpassing GPT-4 Omni's 57.5% Win Rate (community report). | 翻訳日:2024-06-26 20:40:18 公開日:2024-06-24 |
# チェーン・オブ・インストラクション:大規模言語モデルに基づく構成的インストラクションチューニング
Chain-of-Instructions: Compositional Instruction Tuning on Large Language Models ( http://arxiv.org/abs/2402.11532v2 ) ライセンス: Link先を確認 | Shirley Anugrah Hayati, Taehee Jung, Tristan Bodding-Long, Sudipta Kar, Abhinav Sethy, Joo-Kyung Kim, Dongyeop Kang, | (参考訳) 大規模かつ多様な命令の集合を持つ微調整された大型言語モデル(LLM)は、目に見えないタスクであっても、モデルの一般化を異なるタスクに改善した。
しかし、既存の命令データセットの多くは単一の命令のみを含み、複数のサブタスクからなる複雑な命令に従うのに苦労している。
そこで本研究では,チェーン・オブ・インストラクション(CoI)と呼ばれる合成命令の新たな概念を提案する。
従来の単一命令タスクの解法とは異なり,提案手法では各サブタスクを段階的に解き,最終的な解答に到達するまで解き明かす。
CoIチューニング(CoI命令による微調整)は、複数のサブタスクからなる命令を処理し、多言語要約のような目に見えない複合タスクを処理する能力を向上させる。
全体として、既存の命令データの単純なCoIチューニングは、より複雑で目に見えない、長い命令列を解くために一貫した一般化を提供することができる。
Fine-tuning large language models (LLMs) with a collection of large and diverse instructions has improved the model's generalization to different tasks, even for unseen tasks. However, most existing instruction datasets include only single instructions, and they struggle to follow complex instructions composed of multiple subtasks. In this work, we propose a novel concept of compositional instructions called chain-of-instructions (CoI), where the output of one instruction becomes an input for the next like a chain. Unlike the conventional practice of solving single instruction tasks, our proposed method encourages a model to solve each subtask step by step until the final answer is reached. CoI-tuning (i.e., fine-tuning with CoI instructions) improves the model's ability to handle instructions composed of multiple subtasks as well as unseen composite tasks such as multilingual summarization. Overall, our study find that simple CoI tuning of existing instruction data can provide consistent generalization to solve more complex, unseen, and longer chains of instructions. | 翻訳日:2024-06-26 20:28:47 公開日:2024-06-24 |
# 多体ガウス量子系における部分遷移誘導型絡み合いクラスと最小ノイズフィルタリング
Partial-transpose-guided entanglement classes and minimum noise filtering in many-body Gaussian quantum systems ( http://arxiv.org/abs/2402.13881v2 ) ライセンス: Link先を確認 | Boyu Gao, Natalie Klco, | (参考訳) 古典的ノイズの存在下での量子相関の減少と歪みは、量子情報処理プロトコルのリソースとしての絡み合いの可用性において、様々な非効率性をもたらす。
混合量子状態の必要な絡み合いを総じて最小化することは依然として困難であるが、多体ガウス量子状態(\mathcal{N}$IC)のクラスは、古典的相関と最適な絡み合い資源を包含した対数的負の絡み合い尺度が不変である純粋状態のものと類似した2モードのバイパルタイト絡み合い構造を示す。
このサブクラスは、検出プロセスのための2モードの絡み合い構造を保持する多体ガウス状態(\mathcal{N}$-SOL)のより広いクラスに埋め込まれている。
これらの2つの絡み合いクラスは、スカラー場真空から捕獲されたイオン鎖の局所軸運動モードへの理論的および実験的応用に関係している。
部分転位に応答して分離不能となる部分空間を利用することで、最小ノイズフィルタリングプロセスは、これらの絡み合い構造のクラスのメンバーシップを決定するために必要で十分で計算可能なように設計されている。
自由スカラー場真空の空間的領域へのこのプロセスの適用は、資源上界の改善に寄与し、局所検出器の配列で観測される量子場の量子シミュレーションに必要な絡み合いの新しい理解を提供する。
The reduction and distortion of quantum correlations in the presence of classical noise leads to varied levels of inefficiency in the availability of entanglement as a resource for quantum information processing protocols. While generically minimizing required entanglement for mixed quantum states remains challenging, a class of many-body Gaussian quantum states ($\mathcal{N}$IC) is here identified that exhibits two-mode bipartite entanglement structure, resembling that of pure states, for which the logarithmic negativity entanglement measure remains invariant upon inclusion of the classical correlations and optimal entanglement resources can be clearly quantified. This subclass is found to be embedded within a broader class of many-body Gaussian states ($\mathcal{N}$-SOL) that retain two-mode entanglement structure for detection processes. These two entanglement classes are relevant in theoretical and experimental applications from the scalar field vacuum to the local axial motional modes of trapped ion chains. Utilizing the subspace that heralds inseparability in response to partial transposition, a minimum noise filtering process is designed to be necessary, sufficient, and computable for determining membership in these classes of entanglement structure. Application of this process to spacelike regions of the free scalar field vacuum is found to improve resource upper bounds, providing new understanding of the entanglement required for the quantum simulation of quantum fields as observed by arrays of local detectors. | 翻訳日:2024-06-26 20:19:03 公開日:2024-06-24 |
# コンフォーマル予測を用いた言語指示型マルチロボットシステムの安全タスク計画
Safe Task Planning for Language-Instructed Multi-Robot Systems using Conformal Prediction ( http://arxiv.org/abs/2402.15368v2 ) ライセンス: Link先を確認 | Jun Wang, Guocheng He, Yiannis Kantaros, | (参考訳) 本稿では,言語指導型ロボットチームにおけるタスク計画問題について述べる。
タスクは自然言語(NL)で表現され、ロボットはさまざまな場所やセマンティックオブジェクトにその能力を適用する必要がある。
いくつかの最近の研究は、事前訓練されたLarge Language Models (LLMs)を活用して、効果的なマルチロボット計画を作成することで、同様の計画課題に対処している。
しかし、これらのアプローチはミッション完了保証を欠いている。
この課題に対処するために,我々は,S-ATLAS for Safe plAnning for Teams of Language-instructed Agentsという,ユーザ定義のミッション成功率を達成するための分散LDMベースの新しいプランナを導入する。
これは、分布のない不確実性定量化ツールである共形予測(CP)をブラックボックスモデルで活用することで達成される。
CPにより、提案されたマルチロボットプランナーは、その固有の不確実性を分散的に推論することができ、ロボットが十分な確証があれば個々の決定をし、それ以外は助けを求めることができる。
理論的にも経験的にも,提案したプランナは,ヘルプリクエストの総数を最小限に抑えながら,ユーザ特定タスクの成功率を達成可能であることを示す。
我々は,本手法が計算効率が高く,ヘルプレートが低いことを示す関連研究との比較実験を行った。
ロボットチームのサイズが大きくなるにつれて、ベースラインよりもアルゴリズムの利点がより顕著になる。
This paper addresses task planning problems for language-instructed robot teams. Tasks are expressed in natural language (NL), requiring the robots to apply their capabilities at various locations and semantic objects. Several recent works have addressed similar planning problems by leveraging pre-trained Large Language Models (LLMs) to design effective multi-robot plans. However, these approaches lack mission completion guarantees. To address this challenge, we introduce a new decentralized LLM-based planner, called S-ATLAS for Safe plAnning for Teams of Language-instructed AgentS, that is capable of achieving user-defined mission success rates. This is accomplished by leveraging conformal prediction (CP), a distribution-free uncertainty quantification tool in black-box models. CP allows the proposed multi-robot planner to reason about its inherent uncertainty in a decentralized fashion, enabling robots to make individual decisions when they are sufficiently certain and seek help otherwise. We show, both theoretically and empirically, that the proposed planner can achieve user-specified task success rates while minimizing the overall number of help requests. We provide comparative experiments against related works showing that our method is significantly more computational efficient and achieves lower help rates. The advantage of our algorithm over baselines becomes more pronounced with increasing robot team size. | 翻訳日:2024-06-26 20:19:03 公開日:2024-06-24 |
# 読解プロセスに基づくマルチホップ質問応答のための明示的・暗黙的知識の証明
Prompting Explicit and Implicit Knowledge for Multi-hop Question Answering Based on Human Reading Process ( http://arxiv.org/abs/2402.19350v4 ) ライセンス: Link先を確認 | Guangming Huang, Yunfei Long, Cunjin Luo, Jiaxing Shen, Xia Sun, | (参考訳) 事前学習された言語モデル(PLM)は、チェーン・オブ・シント(CoT)を利用して、人間の推論と推論プロセスをシミュレートし、マルチホップQAにおける熟練したパフォーマンスを達成する。
しかし、複雑な問題に取り組む際には、PLMの推論能力と人間の推論能力の間にギャップが持続する。
心理学的研究は、通過中の明示的な情報と読書中の人間の事前知識の間に重要なつながりがあることを示唆している。
しかしながら、現在の研究は、人間の認知研究の観点から、入力パスとPLMの事前学習に基づく知識のリンクに十分な注意を払っている。
本研究では,明示的かつ暗黙的な知識を結び付けるためにプロンプトを利用するPmpting Explicit and Implicit Knowledge (PEI)フレームワークを提案する。
我々は、入力文を明示的な知識とみなし、それらを統一的な素早い推論を通して暗黙的な知識を引き出す。
さらに,本モデルでは,暗黙的知識の形式であるプロンプトによる型固有の推論を取り入れている。
実験の結果,PEIはHotpotQAの最先端と同等に機能することがわかった。
アブレーション研究は、明示的で暗黙的な知識のブリッジングと統合における我々のモデルの有効性を確認した。
Pre-trained language models (PLMs) leverage chains-of-thought (CoT) to simulate human reasoning and inference processes, achieving proficient performance in multi-hop QA. However, a gap persists between PLMs' reasoning abilities and those of humans when tackling complex problems. Psychological studies suggest a vital connection between explicit information in passages and human prior knowledge during reading. Nevertheless, current research has given insufficient attention to linking input passages and PLMs' pre-training-based knowledge from the perspective of human cognition studies. In this study, we introduce a Prompting Explicit and Implicit knowledge (PEI) framework, which uses prompts to connect explicit and implicit knowledge, aligning with human reading process for multi-hop QA. We consider the input passages as explicit knowledge, employing them to elicit implicit knowledge through unified prompt reasoning. Furthermore, our model incorporates type-specific reasoning via prompts, a form of implicit knowledge. Experimental results show that PEI performs comparably to the state-of-the-art on HotpotQA. Ablation studies confirm the efficacy of our model in bridging and integrating explicit and implicit knowledge. | 翻訳日:2024-06-26 20:19:03 公開日:2024-06-24 |
# 合理的推論のための球ニューラルネット
Sphere Neural-Networks for Rational Reasoning ( http://arxiv.org/abs/2403.15297v3 ) ライセンス: Link先を確認 | Tiansi Dong, Mateja Jamnik, Pietro Liò, | (参考訳) LLM(Large Language Models)の成功、例えばChatGPTは、その惑星的な人気、人間のようなコミュニケーション能力、そして着実に改善された推論性能によって見られている。
しかし、LSMの理由は不明である。
従来のニューラルネットワークを定性的に拡張して、統計パラダイムを越えてハイレベルな認知を実現することは、オープンな問題である。
ここでは,ベクトルから球面への計算ビルディングブロックの一般化による,新しい定性拡張を提案する。
モデル構築と検査を通して人間のような推論のための球ニューラルネット(SphNN)を提案し,人間の合理性のマイクロスコープであるシロジック推論のためのSphNNを開発した。
SphNNは階層型ニューロシンボリック・コルモゴロフ・アルノルド幾何学的GNNであり、現在の球配置を目標に向けて変換するために、近傍空間関係の神経-シンボル遷移マップを使用する。
SphNNは、トレーニングデータなしで1つのエポックにおける長鎖シロメトリクス推論の有効性を決定できる最初のニューラルネットワークモデルであり、O(N)の最悪の計算複雑性を持つ。
SphNNは、時空間的推論、否定と解離を伴う論理的推論、事象推論、ニューロシンボリック統一、ユーモア理解(最高レベルの認知)など、様々なタイプの推論へと進化することができる。
これらはすべて、ハーバート・サイモンの2本の神経刃を持つ新しい種類のハサミを示唆している。
SphNNは、2つの神経刃を開発するための学際的コラボレーションを大幅に強化し、決定論的神経推論と人間に縛られた合理性を実現し、LLMを信頼できる心理学的AIに高める。
この研究は、球の非ゼロ半径は、従来のディープラーニングシステムが合理的な推論の領域に到達し、LLMを幻覚の湿地の中に閉じ込めるのを防ぐ欠落成分であることを示している。
The success of Large Language Models (LLMs), e.g., ChatGPT, is witnessed by their planetary popularity, their capability of human-like communication, and also by their steadily improved reasoning performance. However, it remains unclear whether LLMs reason. It is an open problem how traditional neural networks can be qualitatively extended to go beyond the statistic paradigm and achieve high-level cognition. Here, we present a novel qualitative extension by generalising computational building blocks from vectors to spheres. We propose Sphere Neural Networks (SphNNs) for human-like reasoning through model construction and inspection, and develop SphNN for syllogistic reasoning, a microcosm of human rationality. SphNN is a hierarchical neuro-symbolic Kolmogorov-Arnold geometric GNN, and uses a neuro-symbolic transition map of neighbourhood spatial relations to transform the current sphere configuration towards the target. SphNN is the first neural model that can determine the validity of long-chained syllogistic reasoning in one epoch without training data, with the worst computational complexity of O(N). SphNN can evolve into various types of reasoning, such as spatio-temporal reasoning, logical reasoning with negation and disjunction, event reasoning, neuro-symbolic unification, and humour understanding (the highest level of cognition). All these suggest a new kind of Herbert A. Simon's scissors with two neural blades. SphNNs will tremendously enhance interdisciplinary collaborations to develop the two neural blades and realise deterministic neural reasoning and human-bounded rationality and elevate LLMs to reliable psychological AI. This work suggests that the non-zero radii of spheres are the missing components that prevent traditional deep-learning systems from reaching the realm of rational reasoning and cause LLMs to be trapped in the swamp of hallucination. | 翻訳日:2024-06-26 20:09:17 公開日:2024-06-24 |
# 1電子還元密度行列の伝播にメモリを組み込む
Incorporating Memory into Propagation of 1-Electron Reduced Density Matrices ( http://arxiv.org/abs/2403.15596v3 ) ライセンス: Link先を確認 | Harish S. Bhat, Hardeep Bassi, Karnamohit Ranka, Christine M. Isborn, | (参考訳) 単体プロパゲータによって非帰納力学が支配される任意の線形系に対して、還元次元量に対する閉時間遅れ線形系を導出する。
本稿では,分子中の電子の相関ダイナミクスを解く手法である時間依存構成相互作用(TDCI)における1ドル電子還元密度行列のメモリ依存性を理解するために,本手法を適用した。
時間依存密度汎関数理論は、1ドル電子還元密度がメモリ依存を持つことを証明しているが、このメモリ依存の正確な性質は理解されていない。
我々はTDCI電子密度行列を伝播させる自己完結型対称性・制約保存法を導出した。
本手法は, エルミート対称性や定数トレースなどの密度行列の性質を保存している。
2つのモデルシステムの数値実験($\text{H}_2$と$\text{HeH}^+$)において、十分な時間遅延(またはメモリ依存性)があれば、精度の高いTDCI密度行列を伝搬することを示す。
結果の依存度を時間ステップとベースセットで調査する。
提案手法を実装するために,TDCI密度行列の縮小と完全化に関連する4ドルのインデックステンソルを導出する。
我々の導出は、基底集合、電子の数、波動関数におけるスレーター行列式の選択に関係なく、任意のTDCI系に適用される。
この導出により、還元されたTDCI密度行列の痕跡が定数であり、電子の数と等しいことを示すことができる。
For any linear system where the unreduced dynamics are governed by unitary propagators, we derive a closed, time-delayed, linear system for a reduced-dimensional quantity of interest. We apply this method to understand the memory-dependence of $1$-electron reduced density matrices in time-dependent configuration interaction (TDCI), a scheme to solve for the correlated dynamics of electrons in molecules. Though time-dependent density functional theory has established that the $1$-electron reduced density possesses memory-dependence, the precise nature of this memory-dependence has not been understood. We derive a self-contained, symmetry/constraint-preserving method to propagate reduced TDCI electron density matrices. Our method preserves properties of density matrices such as Hermitian symmetry and constant trace. In numerical tests on two model systems ($\text{H}_2$ and $\text{HeH}^+$), we show that with sufficiently large time-delay (or memory-dependence), our method propagates reduced TDCI density matrices with high quantitative accuracy. We study the dependence of our results on time step and basis set. To implement our method, we derive the $4$-index tensor that relates reduced and full TDCI density matrices. Our derivation applies to any TDCI system, regardless of basis set, number of electrons, or choice of Slater determinants in the wave function. This derivation enables a proof that the trace of the reduced TDCI density matrix is constant and equals the number of electrons. | 翻訳日:2024-06-26 20:09:17 公開日:2024-06-24 |
# MagicLens:オープンなインストラクションで自己監督されたイメージ検索
MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions ( http://arxiv.org/abs/2403.19651v2 ) ライセンス: Link先を確認 | Kai Zhang, Yi Luan, Hexiang Hu, Kenton Lee, Siyuan Qiao, Wenhu Chen, Yu Su, Ming-Wei Chang, | (参考訳) 画像検索、すなわち、参照画像が与えられた所望の画像を見つけることは、本質的に、画像ベースの測度だけでは捉えがたい、リッチで多面的な検索意図を包含する。
最近の研究は、ユーザーが検索意図をより自由に表現できるようにテキスト命令を活用している。
しかし、主に視覚的に類似しており、/または事前定義された小さな関係によって特徴づけられるイメージペアに焦点を当てている。
本論文の核となるテーマは、テキスト命令により、視覚的類似性を超えて、よりリッチな関係を持つ画像の検索を可能にすることである。
これを示すために、オープンエンド命令をサポートする自己教師付き画像検索モデルであるMagicLensを紹介する。
MagicLensは、重要な新しい洞察に基づいて構築されている: 同じWebページに自然に発生するイメージペアは、幅広い暗黙の関係(例えば、内部ビュー)を含み、基礎モデルを通じて命令を合成することで、これらの暗黙の関係を明示することができる。
36.7M(クエリー画像、命令、ターゲット画像)でトレーニングされたMagicLensは、様々な画像検索タスクの8つのベンチマークにおいて、従来と同等かそれ以上の結果を得ると同時に、かなり小さなモデルサイズで高いパラメータ効率を維持する。
1.4Mイメージの未確認コーパスに関する追加の人間分析は、MagicLensがサポートする検索意図の多様性をさらに証明している。
コードとモデルはhttps://open-vision-lang.github.io/MagicLens/.comで公開されている。
Image retrieval, i.e., finding desired images given a reference image, inherently encompasses rich, multi-faceted search intents that are difficult to capture solely using image-based measures. Recent works leverage text instructions to allow users to more freely express their search intents. However, they primarily focus on image pairs that are visually similar and/or can be characterized by a small set of pre-defined relations. The core thesis of this paper is that text instructions can enable retrieving images with richer relations beyond visual similarity. To show this, we introduce MagicLens, a series of self-supervised image retrieval models that support open-ended instructions. MagicLens is built on a key novel insight: image pairs that naturally occur on the same web pages contain a wide range of implicit relations (e.g., inside view of), and we can bring those implicit relations explicit by synthesizing instructions via foundation models. Trained on 36.7M (query image, instruction, target image) triplets with rich semantic relations mined from the web, MagicLens achieves results comparable with or better than prior best on eight benchmarks of various image retrieval tasks, while maintaining high parameter efficiency with a significantly smaller model size. Additional human analyses on a 1.4M-image unseen corpus further demonstrate the diversity of search intents supported by MagicLens. Code and models are publicly available at https://open-vision-language.github.io/MagicLens/. | 翻訳日:2024-06-26 20:09:17 公開日:2024-06-24 |
# ビジョンランゲージモデルにおけるプルーニングの再考:効果的なスパーシリティとパフォーマンス回復のための戦略
Rethinking Pruning for Vision-Language Models: Strategies for Effective Sparsity and Performance Restoration ( http://arxiv.org/abs/2404.02424v2 ) ライセンス: Link先を確認 | Shwai He, Ang Li, Tianlong Chen, | (参考訳) VLM(Vision-Language Models)は、複数のモードからの情報を統合し、様々なタスクで顕著な成功を収めている。
しかし、リソース制約のあるシナリオに大規模なVLMをデプロイすることは困難である。
プルーニングとファインタニングは潜在的な解決策を提供するが、VLMには未熟である。
本研究は,異なるモダリティ特化モデルに対して空間分布を分散する方法と,刈り取ったスパースVLMの性能を回復する方法という,2つの重要な疑問に対処する。
予備研究では、視覚モデルと言語モデルの両方に同じ疎度を適用し、言語モデルのみをプルーニングする2つの効果的なプルーニング設定を特定した。
LoRAファインタニングはスパースモデルを復元することを目的としているが、スパースモデルとの互換性の欠如によって困難に直面する。
これらの問題を克服するため、我々はSparseLoRAを提案し、これはLoRAの重みに空間性を直接適用する。
実験の結果,2:4間隔で11.3\%,非構造70\%間隔で47.6\%向上した。
コードは以下の通り。 \url{https://github.com/Shwai-He/VLM-Compression}。
Vision-Language Models (VLMs) integrate information from multiple modalities and have shown remarkable success across various tasks. However, deploying large-scale VLMs in resource-constrained scenarios is challenging. Pruning followed by finetuning offers a potential solution but remains underexplored for VLMs. This study addresses two key questions: how to distribute sparsity across different modality-specific models, and how to restore the performance of pruned sparse VLMs. Our preliminary studies identified two effective pruning settings: applying the same sparsity to both vision and language models, and pruning only the language models. While LoRA finetuning aims to restore sparse models, it faces challenges due to incompatibility with sparse models, disrupting the pruned sparsity. To overcome these issues, we propose SparseLoRA, which applies sparsity directly to LoRA weights. Our experimental results demonstrate significant improvements, including an 11.3\% boost under 2:4 sparsity and a 47.6\% enhancement under unstructured 70\% sparsity. Code is released at: \url{https://github.com/Shwai-He/VLM-Compression}. | 翻訳日:2024-06-26 20:09:17 公開日:2024-06-24 |
# LVLM-Interpret:大規模視覚言語モデルのための解釈可能性ツール
LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models ( http://arxiv.org/abs/2404.03118v3 ) ライセンス: Link先を確認 | Gabriela Ben Melech Stan, Estelle Aflalo, Raanan Yehezkel Rohekar, Anahita Bhiwandiwalla, Shao-Yen Tseng, Matthew Lyle Olson, Yaniv Gurwicz, Chenfei Wu, Nan Duan, Vasudev Lal, | (参考訳) 人工知能の急速な発展の中で、多モーダルな言語モデルは重要な関心領域として現れつつある。
様々な形式のデータ入力を組み合わせたこれらのモデルは、ますます人気が高まっている。
しかし、それらの内部メカニズムを理解することは依然として複雑な作業である。
説明可能性ツールやメカニズムの分野では、多くの進歩がなされているが、まだ多くの研究がある。
本研究では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは,回答を生成するのに有用な画像パッチの解釈可能性を高め,その出力を画像に基礎づける際の言語モデルの有効性を評価する。
我々のアプリケーションでは、ユーザーはシステム機能の強化のために、モデルとシステムの限界を体系的に調査し、発見することができる。
最後に、我々のアプリケーションは、人気のある大規模マルチモーダルモデルであるLLaVAにおいて、障害メカニズムを理解するのにどのように役立つか、ケーススタディを示す。
In the rapidly evolving landscape of artificial intelligence, multi-modal large language models are emerging as a significant area of interest. These models, which combine various forms of data input, are becoming increasingly popular. However, understanding their internal mechanisms remains a complex task. Numerous advancements have been made in the field of explainability tools and mechanisms, yet there is still much to explore. In this work, we present a novel interactive application aimed towards understanding the internal mechanisms of large vision-language models. Our interface is designed to enhance the interpretability of the image patches, which are instrumental in generating an answer, and assess the efficacy of the language model in grounding its output in the image. With our application, a user can systematically investigate the model and uncover system limitations, paving the way for enhancements in system capabilities. Finally, we present a case study of how our application can aid in understanding failure mechanisms in a popular large multi-modal model: LLaVA. | 翻訳日:2024-06-26 19:59:30 公開日:2024-06-24 |
# 量子符号の最小距離問題に対する量子アニール法
A quantum annealing approach to the minimum distance problem of quantum codes ( http://arxiv.org/abs/2404.17703v2 ) ライセンス: Link先を確認 | Refat Ismail, Ashish Kakkar, Anatoly Dymarsky, | (参考訳) 量子誤り訂正符号(QECC)は、フォールトトレラント量子コンピューティングの中心にある。
量子プラットフォームのサイズが大きくなると予想されているため、オープンな疑問の1つは、常に増加するサイズの新しい最適なコードの設計である。
関連する課題は、最小距離、量子情報を保存するためのコードの能力を特徴づける量を評価することで、与えられたコードの品質を '`certify'' することである。
この問題はNPハードであることが知られている。
ここでは、現代の量子プラットフォームのパワーを活用してこの問題に対処することを提案し、この方法では未来の量子プラットフォームの設計を支援する。
すなわち、量子安定化器符号の最小距離を計算するアプローチとして、量子非拘束バイナリ最適化(QUBO)問題として問題を修正し、確立されたQUBOアルゴリズムとヒューリスティックス、および量子アニール(QA)を活用して後者に対処する。
QUBOとしての再構成は、必要な変数数の対数乗算オーバーヘッドのみを導入する。
D-Wave Advantage 4.1 量子アニールとハイブリッド量子古典アルゴリズム Qbsolv の性能を比較することで,本手法の実用性を示す。
このハイブリッド手法はQUBOを解くのに最適な古典的アルゴリズムに匹敵する競争性能を示す。
現実的な意味では、QUBOベースのアプローチは現在、決定論的最小距離アルゴリズムに遅れを取っているが、プラットフォームのサイズが大きくなるにつれて、この優位性は消滅する可能性がある。
Quantum error-correcting codes (QECCs) is at the heart of fault-tolerant quantum computing. As the size of quantum platforms is expected to grow, one of the open questions is to design new optimal codes of ever-increasing size. A related challenge is to ``certify'' the quality of a given code by evaluating its minimum distance, a quantity characterizing code's capacity to preserve quantum information. This problem is known to be NP-hard. Here we propose to harness the power of contemporary quantum platforms to address this question, and in this way help design quantum platforms of the future. Namely, we introduce an approach to compute the minimum distance of quantum stabilizer codes by reformulating the problem as a Quadratic Unconstrained Binary Optimization (QUBO) problem and leveraging established QUBO algorithms and heuristics as well as quantum annealing (QA) to address the latter. The reformulation as a QUBO introduces only a logarithmic multiplicative overhead in the required number of variables. We demonstrate practical viability of our method by comparing the performance of purely classical algorithms with the D-Wave Advantage 4.1 quantum annealer as well as hybrid quantum-classical algorithm Qbsolv. We found that the hybrid approach demonstrates competitive performance, on par with the best available classical algorithms to solve QUBO. In a practical sense, the QUBO-based approach is currently lagging behind the best deterministic minimal distance algorithms, however this advantage may disappear as the size of the platforms grows. | 翻訳日:2024-06-26 19:59:30 公開日:2024-06-24 |
# SOUL:LLMアンラーニングのための2階最適化のパワーを解き放つ
SOUL: Unlocking the Power of Second-Order Optimization for LLM Unlearning ( http://arxiv.org/abs/2404.18239v4 ) ライセンス: Link先を確認 | Jinghan Jia, Yihua Zhang, Yimeng Zhang, Jiancheng Liu, Bharat Runwal, James Diffenderfer, Bhavya Kailkhura, Sijia Liu, | (参考訳) 大規模言語モデル(LLM)は、データ規則や倫理的AIプラクティスに従うための効果的な非学習メカニズムの必要性を強調している。
LLMアンラーニングは、望ましくないデータの影響と関連するモデル機能を取り除くことを目的としている。
LLMアンラーニングの研究への関心は高まりつつあるが、LLMアンラーニングにおけるオプティマイザ選択の影響は未解明のままである。
本研究では,LLMアンラーニングにおけるオプティマイザ選択の重要性を初めて明らかにし,第2次最適化と影響アンラーニング(データ影響除去のためのモデル更新にインフルエンス関数を用いた古典的アプローチ)の明確な関連性を確立した。
この知見は、2階最適化に基づくLLMアンラーニングフレームワークであるSOUL(Second-order UnLearning)の開発を促進する。
我々の広範な実験により、SOULは様々な未学習タスク、モデル、メトリクスにまたがる従来の一階法を一貫して上回り、二階最適化がLLMアンラーニングに効果的かつ広く適用可能なソリューションを提供することを示す。
コードはhttps://github.com/OPTML-Group/SOULで公開されている。
Large Language Models (LLMs) have highlighted the necessity of effective unlearning mechanisms to comply with data regulations and ethical AI practices. LLM unlearning aims at removing undesired data influences and associated model capabilities without compromising utility beyond the scope of unlearning. While interest in studying LLM unlearning is growing, the impact of the optimizer choice for LLM unlearning remains unexplored. In this work, we shed light on the significance of optimizer selection in LLM unlearning for the first time, establishing a clear connection between second-order optimization and influence unlearning (a classical approach using influence functions to update the model for data influence removal). This insight propels us to develop a second-order optimization-based LLM unlearning framework, termed Second-Order UnLearning (SOUL), which extends the static, one-shot model update using influence unlearning to a dynamic, iterative unlearning process. Our extensive experiments show that SOUL consistently outperforms conventional first-order methods across various unlearning tasks, models, and metrics, indicating that second-order optimization offers an effective and broadly applicable solution for LLM unlearning. Codes are available at https://github.com/OPTML-Group/SOUL. | 翻訳日:2024-06-26 19:59:30 公開日:2024-06-24 |
# クロスケア: 言語モデルバイアスの事前学習データによる健康影響の評価
Cross-Care: Assessing the Healthcare Implications of Pre-training Data on Language Model Bias ( http://arxiv.org/abs/2405.05506v2 ) ライセンス: Link先を確認 | Shan Chen, Jack Gallifant, Mingye Gao, Pedro Moreira, Nikolaj Munch, Ajay Muthukkumar, Arvind Rajan, Jaya Kolluri, Amelia Fiske, Janna Hastings, Hugo Aerts, Brian Anthony, Leo Anthony Celi, William G. La Cava, Danielle S. Bitterman, | (参考訳) 大規模言語モデル(LLM)は、自然言語処理においてますます不可欠になっているが、それらの応用は、トレーニングデータから生じるバイアスや不正確さによってしばしば損なわれる。
本研究では, LLMにおけるバイアスと実世界の知識を評価するための最初のベンチマークフレームワークであるCross-Careを紹介する。
ThePile$のような事前学習コーパスに埋め込まれた人口統計バイアスがLLMの出力にどのように影響するかを系統的に評価した。
我々は、アメリカの様々な人口集団における実際の病気の流行に対して、これらのバイアスを差し引いて、不一致を露呈し、定量化する。
以上の結果から, LLMの病的有病率と, 集団間での実際の有病率との相違が明らかとなり, 偏差伝播のリスクと, LLMの医学的応用のための現実的基盤の欠如が示唆された。
さらに、様々なアライメント手法が、異なる言語間での疾患の頻度のモデルによる表現の不整合を最小限に解決することを観察した。
さらなる調査と分析のために、すべてのデータとデータ可視化ツールをwww.crosscare.netで公開しています。
Large language models (LLMs) are increasingly essential in processing natural languages, yet their application is frequently compromised by biases and inaccuracies originating in their training data. In this study, we introduce Cross-Care, the first benchmark framework dedicated to assessing biases and real world knowledge in LLMs, specifically focusing on the representation of disease prevalence across diverse demographic groups. We systematically evaluate how demographic biases embedded in pre-training corpora like $ThePile$ influence the outputs of LLMs. We expose and quantify discrepancies by juxtaposing these biases against actual disease prevalences in various U.S. demographic groups. Our results highlight substantial misalignment between LLM representation of disease prevalence and real disease prevalence rates across demographic subgroups, indicating a pronounced risk of bias propagation and a lack of real-world grounding for medical applications of LLMs. Furthermore, we observe that various alignment methods minimally resolve inconsistencies in the models' representation of disease prevalence across different languages. For further exploration and analysis, we make all data and a data visualization tool available at: www.crosscare.net. | 翻訳日:2024-06-26 19:49:31 公開日:2024-06-24 |
# MRI-Segmentator-Abdomen : T1強調腹部MRIのための完全自動多臓器・構造分割ツール
MRISegmentator-Abdomen: A Fully Automated Multi-Organ and Structure Segmentation Tool for T1-weighted Abdominal MRI ( http://arxiv.org/abs/2405.05944v2 ) ライセンス: Link先を確認 | Yan Zhuang, Tejas Sudharshan Mathai, Pritam Mukherjee, Brandon Khoury, Boah Kim, Benjamin Hou, Nusrat Rabbee, Abhinav Suri, Ronald M. Summers, | (参考訳) 背景: 腹部MRIにおける臓器・構造物の分別は, 疾患診断や放射線治療など多くの臨床応用に有用である。
現在のアプローチでは、限られた腹部構造(13種類)を規定することに重点を置いている。
これまでに、複数の臓器や構造のボクセルレベルのアノテーションを備えた腹部MRIデータセットは公開されていない。
したがって、多構造セグメンテーションのためのセグメンテーションツールも利用できない。
方法: 国立衛生研究所(NIH)クリニカルセンターにて画像診断を行った195例からなるT1強調腹部MRIデータセットを施行した。
このデータセットは、各患者に対して軸方向のコントラストT1、動脈、静脈、遅延相からなるので、合計780シリーズ(69,2482Dスライス)となる。
各シリーズは、62の腹部臓器と構造のボクセルレベルのアノテーションを含んでいる。
MRISegmentator-Abdomen(略してMRISegmentator-Abdomen)と呼ばれる3D nnUNetモデルをこのデータセットでトレーニングし、内部テストセットと2つの大きな外部データセット(AMOS22とDuke Liver)で評価を行った。
Dice similarity Coefficient (DSC) と正規化表面距離 (NSD) を用いて, 地下構造と比較した。
MRISegmentator は内部テストセットで 0.861$\pm$0.170 の DSC と 0.924$\pm$0.163 の NSD を達成した。
AMOS22データセットでは、MRISegmentatorの平均DSCは0.829$\pm$0.133、NSDは0.908$\pm$0.067に達した。
デューク・リバのデータセットでは、平均DSCが0.933$\pm$0.015、NSDが0.929$\pm$0.021であった。
解釈:提案したMRISegmentatorは,T1強調腹部MRIにおける62の臓器と構造の自動的,正確な,堅牢なセグメンテーションを提供する。
このツールは、異常検出、放射線治療、疾患の分類など、様々な臨床分野の研究を加速する可能性がある。
Background: Segmentation of organs and structures in abdominal MRI is useful for many clinical applications, such as disease diagnosis and radiotherapy. Current approaches have focused on delineating a limited set of abdominal structures (13 types). To date, there is no publicly available abdominal MRI dataset with voxel-level annotations of multiple organs and structures. Consequently, a segmentation tool for multi-structure segmentation is also unavailable. Methods: We curated a T1-weighted abdominal MRI dataset consisting of 195 patients who underwent imaging at National Institutes of Health (NIH) Clinical Center. The dataset comprises of axial pre-contrast T1, arterial, venous, and delayed phases for each patient, thereby amounting to a total of 780 series (69,248 2D slices). Each series contains voxel-level annotations of 62 abdominal organs and structures. A 3D nnUNet model, dubbed as MRISegmentator-Abdomen (MRISegmentator in short), was trained on this dataset, and evaluation was conducted on an internal test set and two large external datasets: AMOS22 and Duke Liver. The predicted segmentations were compared against the ground-truth using the Dice Similarity Coefficient (DSC) and Normalized Surface Distance (NSD). Findings: MRISegmentator achieved an average DSC of 0.861$\pm$0.170 and a NSD of 0.924$\pm$0.163 in the internal test set. On the AMOS22 dataset, MRISegmentator attained an average DSC of 0.829$\pm$0.133 and a NSD of 0.908$\pm$0.067. For the Duke Liver dataset, an average DSC of 0.933$\pm$0.015 and a NSD of 0.929$\pm$0.021 was obtained. Interpretation: The proposed MRISegmentator provides automatic, accurate, and robust segmentations of 62 organs and structures in T1-weighted abdominal MRI sequences. The tool has the potential to accelerate research on various clinical topics, such as abnormality detection, radiotherapy, disease classification among others. | 翻訳日:2024-06-26 19:49:31 公開日:2024-06-24 |
# トレーニング可能なサロゲートモデルへの非線形性の導入による説明音声概念の改善
Improving the Explain-Any-Concept by Introducing Nonlinearity to the Trainable Surrogate Model ( http://arxiv.org/abs/2405.11837v2 ) ライセンス: Link先を確認 | Mounes Zaval, Sedat Ozer, | (参考訳) 説明可能なAI(XAI)の進化する分野では、コンピュータビジョンタスクにおけるディープニューラルネットワーク(DNN)の決定を解釈することが重要なプロセスである。
ピクセルベースのXAIメソッドは重要なピクセルの識別に重点を置いているが、既存のコンセプトベースのXAIメソッドでは事前に定義された概念や人間による注釈が付けられている。
最近提案されたSegment Anything Model (SAM)は、包括的なインスタンスセグメンテーションを通じて自動概念セットを作成するための大きな一歩を踏み出した。
これに基づいて、DNN決定を説明するフレキシブルな方法として、EAC(Explain Any Concept)モデルが登場した。
EACモデルは、ターゲットモデルをシミュレートする訓練可能な1つの線形層を持つ代理モデルを用いている。
本稿では,元のサロゲートモデルに新たな非線形層を導入することにより,ERCモデルの性能を向上させることができることを示す。
提案手法を元のERCモデルと比較し,ImageNetおよびMS COCOデータセットで得られた改善点を報告する。
In the evolving field of Explainable AI (XAI), interpreting the decisions of deep neural networks (DNNs) in computer vision tasks is an important process. While pixel-based XAI methods focus on identifying significant pixels, existing concept-based XAI methods use pre-defined or human-annotated concepts. The recently proposed Segment Anything Model (SAM) achieved a significant step forward to prepare automatic concept sets via comprehensive instance segmentation. Building upon this, the Explain Any Concept (EAC) model emerged as a flexible method for explaining DNN decisions. EAC model is based on using a surrogate model which has one trainable linear layer to simulate the target model. In this paper, by introducing an additional nonlinear layer to the original surrogate model, we show that we can improve the performance of the EAC model. We compare our proposed approach to the original EAC model and report improvements obtained on both ImageNet and MS COCO datasets. | 翻訳日:2024-06-26 19:49:31 公開日:2024-06-24 |
# 結合クラスタ精度に迫る分子電子構造に対するマルチタスク学習
Multi-task learning for molecular electronic structure approaching coupled-cluster accuracy ( http://arxiv.org/abs/2405.12229v2 ) ライセンス: Link先を確認 | Hao Tang, Brian Xiao, Wenhao He, Pero Subasic, Avetik R. Harutyunyan, Yao Wang, Fang Liu, Haowei Xu, Ju Li, | (参考訳) 機械学習(ML)は量子化学において重要な役割を担い、分子の様々な性質に対する高速かつ評価可能な予測モデルを提供する。
しかし、分子電子特性に関する既存のMLモデルは、トレーニングにおいて基底真理として密度汎関数理論(DFT)データベースを使用し、それらの予測精度はDFTのそれを超えることはできない。
本研究では, 金標準CCSD(T)計算をトレーニングデータとして, 有機分子の電子構造を統一したML法を開発した。
炭化水素分子を用いたモデルでは, 計算コストと様々な量子化学特性の予測精度において, 広範に使われているハイブリッド関数と二重ハイブリッド関数でDFTより優れていた。
そこで本研究では, CCSD(T) レベルの計算が困難である複雑なシステムに対して, その精度と一般化能力を実証し, 基底状態および励起状態特性の両面において芳香族化合物および半導電性ポリマーにモデルを適用した。
Machine learning (ML) plays an important role in quantum chemistry, providing fast-to-evaluate predictive models for various properties of molecules. However, most existing ML models for molecular electronic properties use density functional theory (DFT) databases as ground truth in training, and their prediction accuracy cannot surpass that of DFT. In this work, we developed a unified ML method for electronic structures of organic molecules using the gold-standard CCSD(T) calculations as training data. Tested on hydrocarbon molecules, our model outperforms DFT with the widely-used hybrid and double hybrid functionals in computational costs and prediction accuracy of various quantum chemical properties. As case studies, we apply the model to aromatic compounds and semiconducting polymers on both ground state and excited state properties, demonstrating its accuracy and generalization capability to complex systems that are hard to calculate using CCSD(T)-level methods. | 翻訳日:2024-06-26 19:49:31 公開日:2024-06-24 |
# RAG-RLRC-LaySum at BioLaySumm:Integrated Retrieval-Augmented Generation and Readability Control for Layman Summarization of Biomedical Texts
RAG-RLRC-LaySum at BioLaySumm: Integrating Retrieval-Augmented Generation and Readability Control for Layman Summarization of Biomedical Texts ( http://arxiv.org/abs/2405.13179v4 ) ライセンス: Link先を確認 | Yuelyu Ji, Zhuochun Li, Rui Meng, Sonish Sivarajkumar, Yanshan Wang, Zeshui Yu, Hui Ji, Yushui Han, Hanyu Zeng, Daqing He, | (参考訳) 本稿では,RAG-RLRC-LaySumフレームワークについて述べる。
我々の検索型拡張生成(RAG)ソリューションは,複数の知識源を用いて,複数の要約の精度と妥当性を保証している。
さらに、RLRC(Reinforcement Learning for Readability Control)戦略は、可読性を改善し、非専門家にとって科学的コンテンツを理解できるようにする。
PLOSおよびeLifeデータセットを用いて評価したところ,本手法はPlain Geminiモデルを超え,可読性スコアが20%向上し,ROUGE-2関連スコアが15%改善し,事実精度が10%向上した。
RAG-RLRC-LaySumフレームワークは、科学的知識を効果的に民主化し、生物医学的な発見への公的な関与を高める。
This paper introduces the RAG-RLRC-LaySum framework, designed to make complex biomedical research understandable to laymen through advanced Natural Language Processing (NLP) techniques. Our Retrieval Augmented Generation (RAG) solution, enhanced by a reranking method, utilizes multiple knowledge sources to ensure the precision and pertinence of lay summaries. Additionally, our Reinforcement Learning for Readability Control (RLRC) strategy improves readability, making scientific content comprehensible to non-specialists. Evaluations using the publicly accessible PLOS and eLife datasets show that our methods surpass Plain Gemini model, demonstrating a 20% increase in readability scores, a 15% improvement in ROUGE-2 relevance scores, and a 10% enhancement in factual accuracy. The RAG-RLRC-LaySum framework effectively democratizes scientific knowledge, enhancing public engagement with biomedical discoveries. | 翻訳日:2024-06-26 19:49:31 公開日:2024-06-24 |
# スパース伸展と神経遠絡
Sparse Expansion and Neuronal Disentanglement ( http://arxiv.org/abs/2405.15756v2 ) ライセンス: Link先を確認 | Shashata Sawmya, Linghao Kong, Ilia Markov, Dan Alistarh, Nir Shavit, | (参考訳) 本研究では, LLM をスパースの専門家の混合体に拡張することにより, LLM の推論効率を向上する方法を示す。
このアプローチを $\textit{Sparse Expansion}$ と呼ぶ。
Llama 2 70Bのようなモデルでは、スパース専門家の数が増加するにつれて、スパース拡張はトークン当たりのFLOP予算で他の全てのワンショットスペーシフィケーションアプローチよりも優れており、このギャップはスパシティの増加とともに増大し、推論速度が向上することを示している。
でも、なぜ?
これに対応するために、スパースの専門家の混合物が事実上$\textit{disentangling}$個々のニューロンの入力-出力関係であることを示す強力な証拠を提供する。
具体的には、スパースの専門家は、より単純なものの集合に分散を分解することで、より少ない重量で密度の高いニューロンの出力分布を近似した。
興味深いことに、ニューロンの出力分布とガウス分布の間のワッサーシュタイン距離は、その絡み合いの指標であり、モデルの精度に寄与する。
LLMのすべての層は、非常に絡み合ったワッサースタインニューロンのごく一部を持ち、モデル性能は、それらが他のものと対照的にスパース化されているときにより困難である。
Sparse Expansionのコードは、https://github.com/Shavit-Lab/Sparse-Expansion で公開されている。
We show how to improve the inference efficiency of an LLM by expanding it into a mixture of sparse experts, where each expert is a copy of the original weights, one-shot pruned for a specific cluster of input values. We call this approach $\textit{Sparse Expansion}$. We show that, for models such as Llama 2 70B, as we increase the number of sparse experts, Sparse Expansion outperforms all other one-shot sparsification approaches for the same inference FLOP budget per token, and that this gap grows as sparsity increases, leading to inference speedups. But why? To answer this, we provide strong evidence that the mixture of sparse experts is effectively $\textit{disentangling}$ the input-output relationship of every individual neuron across clusters of inputs. Specifically, sparse experts approximate the dense neuron output distribution with fewer weights by decomposing the distribution into a collection of simpler ones, each with a separate sparse dot product covering it. Interestingly, we show that the Wasserstein distance between a neuron's output distribution and a Gaussian distribution is an indicator of its entanglement level and contribution to the accuracy of the model. Every layer of an LLM has a fraction of highly entangled Wasserstein neurons, and model performance suffers more when these are sparsified as opposed to others. The code for Sparse Expansion is available at: https://github.com/Shavit-Lab/Sparse-Expansion . | 翻訳日:2024-06-26 19:49:31 公開日:2024-06-24 |
# ガイアXPスペクトルと教師なし機械学習を用いた汚染された白ドワーフその他の宝物の探索
Hunting for Polluted White Dwarfs and Other Treasures with Gaia XP Spectra and Unsupervised Machine Learning ( http://arxiv.org/abs/2405.17667v2 ) ライセンス: Link先を確認 | Malia L. Kao, Keith Hawkins, Laura K. Rogers, Amy Bonsor, Bart H. Dunlap, Jason L. Sanders, M. H. Montgomery, D. E. Winget, | (参考訳) 太陽系外惑星物質によって汚染された白色小星 (WD) は、太陽系外惑星の内部を直接観測する前例のない機会となる。
しかし、分光調査は明るさの制約によって制限されることが多く、WDは極めて暗くなり、汚染されたWDの大量検出が困難になる傾向にある。
本稿では, 大気中の複数の金属を含むWDの数を大幅に増やすことを目的としている。
ガイアDR3 BP/RP(XP)スペクトルを用いた96,134個のWDを用いて、一様マニフォールド近似・投影(UMAP)と呼ばれる教師なし機械学習技術を用いて、2次元マップを構築し、WDを識別可能なスペクトル領域に整理した。
汚染されたWDは、我々の地図で特定されたスペクトル群のうちの1つである。
この選択法により, 大気中の5種以上の金属種を含む既知のWDの数が, 桁違いに増加する可能性が示唆された。
このようなシステムは、外惑星の多様性と地質を特徴づけるのに不可欠である。
White dwarfs (WDs) polluted by exoplanetary material provide the unprecedented opportunity to directly observe the interiors of exoplanets. However, spectroscopic surveys are often limited by brightness constraints, and WDs tend to be very faint, making detections of large populations of polluted WDs difficult. In this paper, we aim to increase considerably the number of WDs with multiple metals in their atmospheres. Using 96,134 WDs with Gaia DR3 BP/RP (XP) spectra, we constructed a 2D map using an unsupervised machine learning technique called Uniform Manifold Approximation and Projection (UMAP) to organize the WDs into identifiable spectral regions. The polluted WDs are among the distinct spectral groups identified in our map. We have shown that this selection method could potentially increase the number of known WDs with 5 or more metal species in their atmospheres by an order of magnitude. Such systems are essential for characterizing exoplanet diversity and geology. | 翻訳日:2024-06-26 19:39:42 公開日:2024-06-24 |
# 有害微調整に対する大規模言語モデルの遅延安全アライメント
Lazy Safety Alignment for Large Language Models against Harmful Fine-tuning ( http://arxiv.org/abs/2405.18641v3 ) ライセンス: Link先を確認 | Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu, | (参考訳) 近年の研究では、有害データと混合したデータセットを微調整することで、安全アライメントを伴うLarge Language Models (LLM) を脱獄することができることが示されている。
文献ではじめて、調整段階の状態を分離し、アライメントとユーザデータセットを最適化することで、脱獄効果を緩和できることを示す。
残念なことに、その後の研究では、この単純な双状態最適化(BSO)ソリューションは、アライメント状態に投資するステップが小さすぎると収束不安定になり、アライメント性能が低下することを示した。
統計的解析により, コンセンサスに対するtextit{excess drift} が不安定性の原因となる可能性が示唆された。
この問題を治療するために、各状態のドリフトを制限するための近項を導入する、 \textbf{L}azy(\textbf{i}) \textbf{s}afety \textbf{a}lignment(\textbf{Lisa})を提案する。
理論的には、近位項の利点は収束解析によって支えられ、リサの収束を保証するのに十分な大きな近位因子が必要であることを示す。
その結果,LLMの精度をユーザタスクに保ちながら,近似項を持つLisaはアライメント性能を著しく向上させることができることがわかった。
コードは \url{https://github.com/git-disl/Lisa} で入手できる。
Recent studies show that Large Language Models (LLMs) with safety alignment can be jail-broken by fine-tuning on a dataset mixed with harmful data. First time in the literature, we show that the jail-broken effect can be mitigated by separating states in the finetuning stage to optimize the alignment and user datasets. Unfortunately, our subsequent study shows that this simple Bi-State Optimization (BSO) solution experiences convergence instability when steps invested in its alignment state is too small, leading to downgraded alignment performance. By statistical analysis, we show that the \textit{excess drift} towards consensus could be a probable reason for the instability. To remedy this issue, we propose \textbf{L}azy(\textbf{i}) \textbf{s}afety \textbf{a}lignment (\textbf{Lisa}), which introduces a proximal term to constraint the drift of each state. Theoretically, the benefit of the proximal term is supported by the convergence analysis, wherein we show that a sufficient large proximal factor is necessary to guarantee Lisa's convergence. Empirically, our results on four downstream finetuning tasks show that Lisa with a proximal term can significantly increase alignment performance while maintaining the LLM's accuracy on the user tasks. Code is available at \url{https://github.com/git-disl/Lisa}. | 翻訳日:2024-06-26 19:39:42 公開日:2024-06-24 |
# 統一フレームワークによるミックス・オブ・エクスプロイトの圧縮のデミステレーション
Demystifying the Compression of Mixture-of-Experts Through a Unified Framework ( http://arxiv.org/abs/2406.02500v2 ) ライセンス: Link先を確認 | Shwai He, Daize Dong, Liang Ding, Ang Li, | (参考訳) 大規模言語モデルのスケーリングは、さまざまなドメインにわたるパフォーマンスに革命をもたらしたが、モデルサイズの継続的な成長は、現実のデプロイメントに重大な課題をもたらしている。
専門家の混合(MoE)アプローチは、専門家のサブセットのみを動的に選択・活性化することでこの問題に対処し、高性能を維持しながら計算コストを大幅に削減する。
しかし、MoEは潜在的な冗長性(例:パラメータ)と余分なコスト(例:通信オーバーヘッド)を導入している。
密度モデルにおける冗長性を緩和するために多くの圧縮技術が開発されたが、MoEの圧縮は未探索のままである。
まずこのギャップを,主流圧縮メソッドをシームレスに統合するだけでなく,MoE圧縮を体系的に理解する上でも有効である,最先端の統一フレームワークで埋める。
このフレームワークは、個々の専門家を圧縮するExpert Slimmingと構造化モジュールを除去するExpert Trimmingという2つの視点から圧縮にアプローチする。
このフレームワーク内では、既存の手法で探索されていない最適化空間を探索し、さらに大規模な冗長性を排除するために、積極的なExpert Trimming技術、すなわちLayer DropとBlock Dropを導入する。
これらの知見に基づき,MoEを効果的に圧縮する実践者を指導するための包括的レシピを提案する。
その結果,Mixtral-8x7Bでは92%以上の性能を維持しながら,6.05倍の高速化と20.0GBのメモリ使用率を実現した。
コードは \url{https://github.com/DaizeDong/Unified-MoE-Compression} でリリースされる。
Scaling large language models has revolutionized the performance across diverse domains, yet the continual growth in model size poses significant challenges for real-world deployment. The Mixture of Experts (MoE) approach addresses this by dynamically selecting and activating only a subset of experts, significantly reducing computational costs while maintaining high performance. However, MoE introduces potential redundancy (e.g., parameters) and extra costs (e.g., communication overhead). Despite numerous compression techniques developed for mitigating the redundancy in dense models, the compression of MoE remains under-explored. We first bridge this gap with a cutting-edge unified framework that not only seamlessly integrates mainstream compression methods but also helps systematically understand MoE compression. This framework approaches compression from two perspectives: Expert Slimming which compresses individual experts and Expert Trimming which removes structured modules. Within this framework, we explore the optimization space unexplored by existing methods,and further introduce aggressive Expert Trimming techniques, i.e., Layer Drop and Block Drop, to eliminate redundancy at larger scales. Based on these insights,we present a comprehensive recipe to guide practitioners in compressing MoE effectively. Extensive experimental results demonstrate the effectiveness of the compression methods under our framework and the proposed recipe, achieving a 6.05x speedup and only 20.0GB memory usage while maintaining over 92% of performance on Mixtral-8x7B. Code is released at \url{https://github.com/DaizeDong/Unified-MoE-Compression}. | 翻訳日:2024-06-26 19:39:42 公開日:2024-06-24 |
# 医用画像セグメンテーションにおける故障検出手法の比較ベンチマーク:信頼集約の役割を解明する
Comparative Benchmarking of Failure Detection Methods in Medical Image Segmentation: Unveiling the Role of Confidence Aggregation ( http://arxiv.org/abs/2406.03323v2 ) ライセンス: Link先を確認 | Maximilian Zenk, David Zimmerer, Fabian Isensee, Jeremias Traub, Tobias Norajitra, Paul F. Jäger, Klaus Maier-Hein, | (参考訳) セマンティックセグメンテーション(Semantic segmentation)は、医療画像分析研究の重要なコンポーネントであり、最近のディープラーニングアルゴリズムは、多様なデータセットにまたがるアウト・オブ・ボックス適用性を提供する。
これらの進歩にもかかわらず、セグメンテーションの失敗は実際の臨床応用にとって重要な関心事であり、信頼できる検出機構を必要とする。
本稿では,医療画像セグメンテーションにおける故障検出手法の評価を目的とした総合的なベンチマークフレームワークを提案する。
分析を通じて,現在の障害検出指標の強度と限界を特定し,リスクカバレッジ分析を総合評価手法として推奨する。
5つの公開3次元医用画像コレクションからなる集合データセットを用いて、現実的なテスト時間分布シフト下での各種故障検出戦略の有効性を評価する。
本研究は, 画像分割における故障検出のための簡易かつ堅牢なベースラインとして, アンサンブル予測間のペアワイズDiceスコア(Roy et al , 2019)の優れた性能について検討した。
進行中の研究を促進するため、私たちはベンチマークフレームワークをコミュニティに提供しました。
Semantic segmentation is an essential component of medical image analysis research, with recent deep learning algorithms offering out-of-the-box applicability across diverse datasets. Despite these advancements, segmentation failures remain a significant concern for real-world clinical applications, necessitating reliable detection mechanisms. This paper introduces a comprehensive benchmarking framework aimed at evaluating failure detection methodologies within medical image segmentation. Through our analysis, we identify the strengths and limitations of current failure detection metrics, advocating for the risk-coverage analysis as a holistic evaluation approach. Utilizing a collective dataset comprising five public 3D medical image collections, we assess the efficacy of various failure detection strategies under realistic test-time distribution shifts. Our findings highlight the importance of pixel confidence aggregation and we observe superior performance of the pairwise Dice score (Roy et al., 2019) between ensemble predictions, positioning it as a simple and robust baseline for failure detection in medical image segmentation. To promote ongoing research, we make the benchmarking framework available to the community. | 翻訳日:2024-06-26 19:39:42 公開日:2024-06-24 |
# アノテーションアライメント:LLMと人間の会話安全アノテーションの比較
Annotation alignment: Comparing LLM and human annotations of conversational safety ( http://arxiv.org/abs/2406.06369v3 ) ライセンス: Link先を確認 | Rajiv Movva, Pang Wei Koh, Emma Pierson, | (参考訳) LLMは安全に対する人間の認識とどの程度一致しているか?
我々は,ユーザとチャットボットの会話の安全性に言及する際に,LLMと人間が同意する範囲について,*アノテーションアライメント*を用いて検討する。
私たちは最近のDICESデータセット(Aroyo et al , 2023)を活用し、350の会話が10のレースジェンダーグループにまたがる112のアノテータによって安全のために評価される。
GPT-4は、平均アノテータのレーティングと$r = 0.59$のピアソン相関を達成し、平均 (r=0.51$) との平均アノテータの相関よりも高い。
我々は、GPT-4が人口統計群とどのように相関するかの相違を示すためには、より大きなデータセットが必要であることを示した。
また、**グループとの相関にはかなりの慣用的変化があり、人種と性別がアライメントの差を完全に捉えていないことを示唆している。
最後に、GPT-4は、ある集団が他の集団よりも会話が安全でないと予測できないことを発見した。
To what extent do LLMs align with human perceptions of safety? We study this question via *annotation alignment*, the extent to which LLMs and humans agree when annotating the safety of user-chatbot conversations. We leverage the recent DICES dataset (Aroyo et al., 2023), in which 350 conversations are each rated for safety by 112 annotators spanning 10 race-gender groups. GPT-4 achieves a Pearson correlation of $r = 0.59$ with the average annotator rating, higher than the median annotator's correlation with the average ($r=0.51$). We show that larger datasets are needed to resolve whether GPT-4 exhibits disparities in how well it correlates with demographic groups. Also, there is substantial idiosyncratic variation in correlation *within* groups, suggesting that race & gender do not fully capture differences in alignment. Finally, we find that GPT-4 cannot predict when one demographic group finds a conversation more unsafe than another. | 翻訳日:2024-06-26 19:39:42 公開日:2024-06-24 |
# 局所的・大域的破壊によるロバスト分布学習
Robust Distribution Learning with Local and Global Adversarial Corruptions ( http://arxiv.org/abs/2406.06509v2 ) ライセンス: Link先を確認 | Sloan Nietert, Ziv Goldfeld, Soroosh Shafiee, | (参考訳) P$の分布からのサンプルの$\varepsilon$-fractionが任意に修正され(グローバルな汚職)、残りの摂動は$\rho$(ローカルな汚職)によって境界づけられる。
そのような破損したサンプルを$n$ にすると、ワッサーシュタイン距離 $\mathsf{W}_1(\hat{P}_n,P)$ を最小化する計算効率の良い推定器 $\hat{P}_n$ を求める。
実際、すべての直交射影に対して$\Pi_\# \hat{P}_1(\Pi_\# \hat{P}_n, \Pi_\# P)$を最小化するきめ細かいタスクを、$\Pi \in \mathbb{R}^{d \times d}$で、$\mathrm{rank}(\Pi) = k$でスケーリングする。
これにより、平均推定(k=1$)、分布推定(k=d$)、およびこれら2つの極端な間を補間する設定を同時に説明できます。
このタスクの最適人口制限リスクを特徴づけ、$P$が有界共分散を持つとき、$\sqrt{\varepsilon k} + \rho + \tilde{O}(d\sqrt{k}n^{-1/(k \lor 2)} で有界な誤差を持つ効率的な有限サンプルアルゴリズムを開発する。
この保証は$k$で一様であり、$\rho = \varepsilon = 0$ のとき、プラグイン推定器の準最適値まで極小である。
我々の効率的な手順は、理想的だが難解な2-ワッサーシュタイン射影推定器の新たなトレースノルム近似に依存する。
このアルゴリズムを頑健な確率的最適化に適用し、その過程で、ワッサーシュタインの分布的ロバストな最適化における次元性の呪いを克服する新しい方法を明らかにする。
We consider learning in an adversarial environment, where an $\varepsilon$-fraction of samples from a distribution $P$ are arbitrarily modified (global corruptions) and the remaining perturbations have average magnitude bounded by $\rho$ (local corruptions). Given access to $n$ such corrupted samples, we seek a computationally efficient estimator $\hat{P}_n$ that minimizes the Wasserstein distance $\mathsf{W}_1(\hat{P}_n,P)$. In fact, we attack the fine-grained task of minimizing $\mathsf{W}_1(\Pi_\# \hat{P}_n, \Pi_\# P)$ for all orthogonal projections $\Pi \in \mathbb{R}^{d \times d}$, with performance scaling with $\mathrm{rank}(\Pi) = k$. This allows us to account simultaneously for mean estimation ($k=1$), distribution estimation ($k=d$), as well as the settings interpolating between these two extremes. We characterize the optimal population-limit risk for this task and then develop an efficient finite-sample algorithm with error bounded by $\sqrt{\varepsilon k} + \rho + \tilde{O}(d\sqrt{k}n^{-1/(k \lor 2)})$ when $P$ has bounded covariance. This guarantee holds uniformly in $k$ and is minimax optimal up to the sub-optimality of the plug-in estimator when $\rho = \varepsilon = 0$. Our efficient procedure relies on a novel trace norm approximation of an ideal yet intractable 2-Wasserstein projection estimator. We apply this algorithm to robust stochastic optimization, and, in the process, uncover a new method for overcoming the curse of dimensionality in Wasserstein distributionally robust optimization. | 翻訳日:2024-06-26 19:39:42 公開日:2024-06-24 |
# 意味的曖昧さとチャネルノイズを考慮した潜時拡散モデルによるリアルタイム意味コミュニケーション
Latent Diffusion Model-Enabled Real-Time Semantic Communication Considering Semantic Ambiguities and Channel Noises ( http://arxiv.org/abs/2406.06644v2 ) ライセンス: Link先を確認 | Jianhua Pei, Cheng Feng, Ping Wang, Hina Tabassum, Dongyuan Shi, | (参考訳) セマンティックコミュニケーション(Semantic Communication, SemCom)は、6G通信の新しいパラダイムとして登場し、ディープラーニング(DL)モデルがビット/シンボルの精度からデータのセマンティクスや実用性へとシフトする鍵となる。
それでも、DLベースのSemComシステムは、過度な適合、一般化の貧弱、オフレイアに対する感受性のために、パフォーマンス上のボトルネックに直面していることが多い。
さらに、無線チャネルに一般的に存在する不確実な信号対雑音比(SNR)を持つ様々なフェーディング利得とノイズは、通常、意味情報伝達の精度を制限する。
そこで本研究では, 遅延拡散モデル対応SemComシステムを構築し, 既存システムと比較して3つの改良点を提案する。
一 ソースデータの潜在的な外れ値を処理するために、DLモデルの脆弱性に基づいて、投射された勾配降下によって得られた意味エラーを利用してパラメータを更新し、外乱エンコーダを得る。
二 軽量単層遅延空間変換アダプタは、送信機で一発学習を完了し、受信機でデコーダの前に配置し、配布外データへの適応と人間の知覚品質の向上を可能にする。
三 エンド・ツー・エンド整合蒸留(EECD)戦略を用いて、潜時空間で訓練した拡散モデルを蒸留し、高いセマンティック品質を維持しつつ、様々なノイズチャネルにおける決定論的一段階又は数段階のリアルタイムデノナイズを可能にする。
異なるデータセットにわたる大規模な数値実験は、提案したSemComシステムの優位性を証明し、一貫して外れ値へのロバスト性を証明し、未知の分布でデータを送信し、人間の知覚的品質を保ちながらタスクをリアルタイムにデノナイズする能力を示し、セマンティックメトリクスにおける既存のデノナイズアプローチよりも優れています。
Semantic communication (SemCom) has emerged as a new paradigm for 6G communication, with deep learning (DL) models being one of the key drives to shift from the accuracy of bit/symbol to the semantics and pragmatics of data. Nevertheless, DL-based SemCom systems often face performance bottlenecks due to overfitting, poor generalization, and sensitivity to outliers. Furthermore, the varying-fading gains and noises with uncertain signal-to-noise ratios (SNRs) commonly present in wireless channels usually restrict the accuracy of semantic information transmission. Consequently, this paper constructs a latent diffusion model-enabled SemCom system, and proposes three improvements compared to existing works: i) To handle potential outliers in the source data, semantic errors obtained by projected gradient descent based on the vulnerabilities of DL models, are utilized to update the parameters and obtain an outlier-robust encoder. ii) A lightweight single-layer latent space transformation adapter completes one-shot learning at the transmitter and is placed before the decoder at the receiver, enabling adaptation for out-of-distribution data and enhancing human-perceptual quality. iii) An end-to-end consistency distillation (EECD) strategy is used to distill the diffusion models trained in latent space, enabling deterministic single or few-step real-time denoising in various noisy channels while maintaining high semantic quality. Extensive numerical experiments across different datasets demonstrate the superiority of the proposed SemCom system, consistently proving its robustness to outliers, the capability to transmit data with unknown distributions, and the ability to perform real-time channel denoising tasks while preserving high human perceptual quality, outperforming the existing denoising approaches in semantic metrics. | 翻訳日:2024-06-26 19:29:42 公開日:2024-06-24 |
# VeraCT Scan: 適切な推論による検索機能強化された偽ニュースの検出
VeraCT Scan: Retrieval-Augmented Fake News Detection with Justifiable Reasoning ( http://arxiv.org/abs/2406.10289v2 ) ライセンス: Link先を確認 | Cheng Niu, Yang Guan, Yuanhao Wu, Juno Zhu, Juntong Song, Randy Zhong, Kaihua Zhu, Siliang Xu, Shizhe Diao, Tong Zhang, | (参考訳) フェイクニュースの拡散は、誤解を招く情報を広めるだけでなく、民主主義の基盤を損なうことによっても重大な脅威となる。
創造的人工知能の最近の進歩は、本物のニュースと作り話とを区別する難題をさらに悪化させた。
この課題に対して,偽ニュース検出のための新たな検索強化システムであるVeraCT Scanを導入する。
このシステムは、あるニュースから中核的な事実を抽出し、その後、相関や矛盾する報告を特定するために、インターネット全体の検索を行う。
そして、情報源の信頼性を利用して情報検証を行う。
ニュースの正確性を決定することに加えて、我々は、その結論を支持するための透明な証拠と推論を提供し、その結果の解釈可能性と信頼をもたらす。
GPT-4 Turboに加えて、Llama-2 13Bはニュースコンテンツ理解、情報検証、推論のために微調整されている。
どちらの実装も、偽ニュース検出の領域で最先端の精度を実証している。
The proliferation of fake news poses a significant threat not only by disseminating misleading information but also by undermining the very foundations of democracy. The recent advance of generative artificial intelligence has further exacerbated the challenge of distinguishing genuine news from fabricated stories. In response to this challenge, we introduce VeraCT Scan, a novel retrieval-augmented system for fake news detection. This system operates by extracting the core facts from a given piece of news and subsequently conducting an internet-wide search to identify corroborating or conflicting reports. Then sources' credibility is leveraged for information verification. Besides determining the veracity of news, we also provide transparent evidence and reasoning to support its conclusions, resulting in the interpretability and trust in the results. In addition to GPT-4 Turbo, Llama-2 13B is also fine-tuned for news content understanding, information verification, and reasoning. Both implementations have demonstrated state-of-the-art accuracy in the realm of fake news detection. | 翻訳日:2024-06-26 19:29:42 公開日:2024-06-24 |
# WATT:CLIPの平均テスト時間適応の軽量化
WATT: Weight Average Test-Time Adaptation of CLIP ( http://arxiv.org/abs/2406.13875v2 ) ライセンス: Link先を確認 | David Osowiechi, Mehrdad Noori, Gustavo Adolfo Vargas Hakim, Moslem Yazdanpanah, Ali Bahri, Milad Cheraghalikhani, Sahar Dastani, Farzad Beizaee, Ismail Ben Ayed, Christian Desrosiers, | (参考訳) CLIPのような視覚言語モデル(VLM)は、ゼロショット画像分類では前例のない性能を得たが、ドメインシフトに直面すると、その一般化能力は深刻な課題になる可能性がある。
これに対し、本VLMの完全なテスト時間適応(TTA)を促進する先駆的なアプローチであるCLIPのウェイト平均テスト時間適応(WATT)を提案する。
提案手法では,CLIPの既存のフレームワークを拡張し,テキストプロンプトに多種多様なテンプレートを用いる。
予測は、モデル更新のための擬似ラベルとして利用され、次いで、平均的な重み付けにより、世界中の学習情報を集約する。
さらに、テキストアンサンブル戦略を導入し、多様なテキストキューを集約することで、全体的なテスト性能を向上させる。
CIFAR-10-C, CIFAR-10.1, CIFAR-100-C, VisDA-C, その他の課題データセットなど,さまざまなデータセットのパフォーマンス向上にWATTが有効であることを示す。
特に、これらの拡張は、追加のモデル変換やトレーニング可能なモジュールを必要とせずに達成される。
さらに,他のテスト時間適応手法と比較して,本手法は単一の画像で効果的に動作することができる。
本研究は、革新的なテストタイム戦略の可能性を強調し、VLMの適応性を高める上での彼らの役割を強調する。
実装は以下の通りである。 \url{https://github.com/Mehrdad-Noori/WATT.git}。
Vision-Language Models (VLMs) such as CLIP have yielded unprecedented performance for zero-shot image classification, yet their generalization capability may still be seriously challenged when confronted to domain shifts. In response, we present Weight Average Test-Time Adaptation (WATT) of CLIP, a pioneering approach facilitating full test-time adaptation (TTA) of this VLM. Our method employs a diverse set of templates for text prompts, augmenting the existing framework of CLIP. Predictions are utilized as pseudo labels for model updates, followed by weight averaging to consolidate the learned information globally. Furthermore, we introduce a text ensemble strategy, enhancing overall test performance by aggregating diverse textual cues. Our findings underscore the efficacy of WATT in enhancing performance across diverse datasets, including CIFAR-10-C, CIFAR-10.1, CIFAR-100-C, VisDA-C, and several other challenging datasets, effectively covering a wide range of domain shifts. Notably, these enhancements are achieved without necessitating additional model transformations or trainable modules. Moreover, compared to other Test-Time Adaptation methods, our approach can operate effectively with just a single image. Highlighting the potential of innovative test-time strategies, this research emphasizes their role in fortifying the adaptability of VLMs. The implementation is available at: \url{https://github.com/Mehrdad-Noori/WATT.git}. | 翻訳日:2024-06-26 19:19:57 公開日:2024-06-24 |
# BESIIIにおける$e^{+}e^{-} \rightarrow Y\bar{Y}$のベル非局所性と絡み合い
Bell nonlocality and entanglement in $e^{+}e^{-} \rightarrow Y\bar{Y}$ at BESIII ( http://arxiv.org/abs/2406.16298v1 ) ライセンス: Link先を確認 | Sihao Wu, Chen Qian, Qun Wang, Xiao-Rong Zhou, | (参考訳) ベル非局所性と絡み合いは量子系における2種類の量子相関である。
北京分光器III(BESIII)実験の最近のアップグレードにより、高精度なデータによる電子-陽電子消滅によって生成されるハイパーオン-反ハイペロン系の非局所性と絡み合いを探索することが可能である。
非局所性と絡み合いの尺度を用いてスピン-1/2ハイパーオン-反ハイペロン系の量子相関を研究する体系的な方法を提案する。
ハイパロンとその反ハイパロンの非可逆偏極の場合、ハイパロン-反ハイパロン系の非局所性の運動領域は、$\tau^{+}\tau^{-}$系よりも制限され、$\tau$レプトンの偏極は消滅する。
また,BSEIIIにおける超音速-反ハイペロン系の非局所性と絡み合いを実験的に検討する。
The Bell nonlocality and entanglement are two kinds of quantum correlations in quantum systems. Due to the recent upgrade in Beijing Spectrometer III (BESIII) experiment, it is possible to explore the nonlocality and entanglement in hyperon-antihyperon systems produced in electron-positron annihilation with high precision data. We provide a systematic method for studying quantum correlations in spin-1/2 hyperon-antihyperon systems through the measures for the nonlocality and entanglement. We find that with nonvanishing polarizations of the hyperon and its antihyperon, the kinematic region of nonlocality in the hyperon-antihyperon system is more restricted than the $\tau^{+}\tau^{-}$ system in which polarizations of $\tau$ leptons are vanishing. We also present an experimental proposal to probe the nonlocality and entanglement in hyperon-antihyperon systems at BSEIII. | 翻訳日:2024-06-26 19:19:57 公開日:2024-06-24 |
# 高速非学習率に対する最小勾配依存を用いた機械学習
Machine Unlearning with Minimal Gradient Dependence for High Unlearning Ratios ( http://arxiv.org/abs/2406.16986v1 ) ライセンス: Link先を確認 | Tao Huang, Ziyang Chen, Jiayang Meng, Qingyu Huang, Xu Yang, Xun Yi, Ibrahim Khalil, | (参考訳) 機械学習の文脈では、最大の課題は、トレーニングされたモデルからプライベートデータのトレースを効果的に除去することであり、モデルのパフォーマンスとメンバーシップ推論攻撃のようなプライバシ攻撃に対するセキュリティを維持することである。
従来の勾配に基づくアンラーニング手法は、広範に歴史勾配に依存しており、アンラーニング比率が高く、アンラーニングの有効性を低下させる可能性がある。
これらの制約に対処するため、我々はミニ・アンラーニング(Mini-Unlearning)という、批判的な観察を活かした新しいアプローチを導入する。
我々の手法であるMini-Unlearningは、最小限の履歴勾配のサブセットを利用し、この縮退マッピングを利用して、スケーラブルで効率的なアンラーニングを容易にする。
この軽量でスケーラブルな方法は、モデルの精度を大幅に向上し、メンバシップ推論攻撃に対する耐性を高める。
我々の実験は、Mini-Unlearningがより高い未学習率で機能するだけでなく、精度とセキュリティの両方において既存の技術よりも優れており、堅牢な未学習機能を必要とするアプリケーションに対して有望なソリューションを提供することを示した。
In the context of machine unlearning, the primary challenge lies in effectively removing traces of private data from trained models while maintaining model performance and security against privacy attacks like membership inference attacks. Traditional gradient-based unlearning methods often rely on extensive historical gradients, which becomes impractical with high unlearning ratios and may reduce the effectiveness of unlearning. Addressing these limitations, we introduce Mini-Unlearning, a novel approach that capitalizes on a critical observation: unlearned parameters correlate with retrained parameters through contraction mapping. Our method, Mini-Unlearning, utilizes a minimal subset of historical gradients and leverages this contraction mapping to facilitate scalable, efficient unlearning. This lightweight, scalable method significantly enhances model accuracy and strengthens resistance to membership inference attacks. Our experiments demonstrate that Mini-Unlearning not only works under higher unlearning ratios but also outperforms existing techniques in both accuracy and security, offering a promising solution for applications requiring robust unlearning capabilities. | 翻訳日:2024-06-26 19:00:25 公開日:2024-06-24 |
# 平等テニストレーニングのためのAI: テニススキルレベルとトレーニングフェーズの公平かつ正確な分類のためのAIを活用する
AI for Equitable Tennis Training: Leveraging AI for Equitable and Accurate Classification of Tennis Skill Levels and Training Phases ( http://arxiv.org/abs/2406.16987v1 ) ライセンス: Link先を確認 | Gyanna Gao, Hao-Yu Liao, Zhenhong Hu, | (参考訳) 多くの研究がテニスの多様体的利点を示しており、例えば全体的な身体的・精神的な健康が向上している。
残念なことに、低所得家庭の子供や若者の多くは、私的な授業費や、こうした授業や診療所へのロジスティックな懸念など、金銭的制約のために、このスポーツに携わることができない。
テニスの自己訓練システムはいくつか存在するが、プロ向けに調整され、違法に高価であることが多い。
本研究は, テニス選手のスキルレベルを分類し, テニスストロークを動作特性を特徴とするフェーズに分類することを目的としている。
若手テニス選手が着用する慣性測定ユニット(IMU)からMotion Yaw, Roll, Pitchなどの動作データを収集した。
本研究では,SVM(Support Vector Machine)アルゴリズムを用いて,12人の被験者のデータを処理した。
SVMモデルは、初心者または中間者としてプレイヤーを分類する際の全体的な精度を77%とし、偽陽性率と偽陰性率を低くし、スキルレベルを効果的に区別した。
さらに, テニススイングは, 収集した動作データに基づいて5段階に分類した。
これらの結果から,SVMに基づく分類が,公平でアクセスしやすいAI駆動テニストレーニングシステムの開発の基盤となる可能性が示唆された。
Numerous studies have demonstrated the manifold benefits of tennis, such as increasing overall physical and mental health. Unfortunately, many children and youth from low-income families are unable to engage in this sport mainly due to financial constraints such as private lesson expenses as well as logistical concerns to and back from such lessons and clinics. While several tennis self-training systems exist, they are often tailored for professionals and are prohibitively expensive. The present study aims to classify tennis players' skill levels and classify tennis strokes into phases characterized by motion attributes for a future development of an AI-based tennis self-training model for affordable and convenient applications running on devices used in daily life such as an iPhone or an Apple Watch for tennis skill improvement. We collected motion data, including Motion Yaw, Roll and Pitch from inertial measurement units (IMUs) worn by participating junior tennis players. For this pilot study, data from twelve participants were processed using Support Vector Machine (SVM) algorithms. The SVM models demonstrated an overall accuracy of 77% in classifying players as beginners or intermediates, with low rates of false positives and false negatives, effectively distinguishing skill levels. Additionally, the tennis swings were successfully classified into five phases based on the collected motion data. These findings indicate that SVM-based classification can be a reliable foundation for developing an equitable and accessible AI-driven tennis training system. | 翻訳日:2024-06-26 19:00:25 公開日:2024-06-24 |
# MD木:失われた風景に生えるモデル診断木
MD tree: a model-diagnostic tree grown on loss landscape ( http://arxiv.org/abs/2406.16988v1 ) ライセンス: Link先を確認 | Yefan Zhou, Jianlong Chen, Qinxue Cao, Konstantin Schürholt, Yaoqing Yang, | (参考訳) 本稿では,分類問題として定式化する「モデル診断」について考察する。
トレーニング済みニューラルネットワーク(NN)が与えられた場合、トレーニング済みNNのトレーニング構成を知ることなく、障害モード(間違ったハイパーパラメータ、不十分なモデルサイズ、不十分なデータなど)のセットから障害の原因を予測することが目標だ。
従来の診断アプローチでは、トレーニングと検証エラーを使用して、モデルが過度に適合しているか、過度に適合しているかを判断する。
しかし、NN性能に関する豊富な情報が最適化損失ランドスケープにエンコードされていることを示し、検証に基づく測定よりも実用的な洞察を提供する。
そこで我々は,ロスランドスケープの指標に基づくMDツリーと呼ばれる診断手法を提案し,古典的検証に基づくアプローチに対するその利点を実験的に実証した。
1つのデータセットでトレーニングされた複数のモデルを使用して、他のデータセットでトレーニングされたモデル(基本的には数ショットのデータセット転送問題)を診断する; 2つの小さなモデル(または小さなデータでトレーニングされたモデル)を使用して、大きなモデル(あるいはビッグデータでトレーニングされたモデル)を診断する。
データセット転送タスクでは、MDツリーは87.7%の精度を達成し、検証ベースのアプローチを14.88%上回る。
私たちのコードはhttps://github.com/YefanZhou/ModelDiagnosis.comで公開されています。
This paper considers "model diagnosis", which we formulate as a classification problem. Given a pre-trained neural network (NN), the goal is to predict the source of failure from a set of failure modes (such as a wrong hyperparameter, inadequate model size, and insufficient data) without knowing the training configuration of the pre-trained NN. The conventional diagnosis approach uses training and validation errors to determine whether the model is underfitting or overfitting. However, we show that rich information about NN performance is encoded in the optimization loss landscape, which provides more actionable insights than validation-based measurements. Therefore, we propose a diagnosis method called MD tree based on loss landscape metrics and experimentally demonstrate its advantage over classical validation-based approaches. We verify the effectiveness of MD tree in multiple practical scenarios: (1) use several models trained on one dataset to diagnose a model trained on another dataset, essentially a few-shot dataset transfer problem; (2) use small models (or models trained with small data) to diagnose big models (or models trained with big data), essentially a scale transfer problem. In a dataset transfer task, MD tree achieves an accuracy of 87.7%, outperforming validation-based approaches by 14.88%. Our code is available at https://github.com/YefanZhou/ModelDiagnosis. | 翻訳日:2024-06-26 19:00:25 公開日:2024-06-24 |
# アップロード可能な機械学習のためのLoRAエキスパートの検索・拡張混合
Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning ( http://arxiv.org/abs/2406.16989v1 ) ライセンス: Link先を確認 | Ziyu Zhao, Leilei Gan, Guoyin Wang, Yuwei Hu, Tao Shen, Hongxia Yang, Kun Kuang, Fei Wu, | (参考訳) Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
モジュール性とプラグアンドプレイ性により、様々なドメイン固有のLoRAの統合が可能になり、LLMの能力が向上する。
HuggingfaceやModelscopeのようなオープンソースのプラットフォームは、新しい計算パラダイムであるUploadable Machine Learning (UML)を導入した。
UMLでは、コントリビュータは専用のアダプタをトレーニングするために分散データを使用し、LLMを改善するために中央プラットフォームにアップロードされる。
このプラットフォームでは、ドメイン固有のアダプタを使用して、パーソナライズされたサービスを必要とする混合タスク要求を処理する。
LoRAの以前の研究は、特定のタスクに焦点を当てたり、トレーニング中のLoRAの選択を修正したりしていた。
しかしUMLでは、LoRAのプールは動的に更新され、新しいアップロードが加えられる。
さらに、ダウンストリームリクエストの混在する性質は、パーソナライズされたサービスを必要とします。
これらの課題に対処するために、入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークであるLora Experts (RAMoLE)を提案する。
RAMoLEには、関連するLoRAを特定して検索するLoraRetriever、取得したLoRAをコーディネートするオンザフライのMoLEメカニズム、異種リクエストを処理するための効率的なバッチ推論の3つの主要コンポーネントがある。
実験の結果、RAMoLEはベースラインを一貫して上回り、その有効性とスケーラビリティを強調している。
Low-Rank Adaptation (LoRA) offers an efficient way to fine-tune large language models (LLMs). Its modular and plug-and-play nature allows the integration of various domain-specific LoRAs, enhancing LLM capabilities. Open-source platforms like Huggingface and Modelscope have introduced a new computational paradigm, Uploadable Machine Learning (UML). In UML, contributors use decentralized data to train specialized adapters, which are then uploaded to a central platform to improve LLMs. This platform uses these domain-specific adapters to handle mixed-task requests requiring personalized service. Previous research on LoRA composition either focuses on specific tasks or fixes the LoRA selection during training. However, in UML, the pool of LoRAs is dynamically updated with new uploads, requiring a generalizable selection mechanism for unseen LoRAs. Additionally, the mixed-task nature of downstream requests necessitates personalized services. To address these challenges, we propose Retrieval-Augmented Mixture of LoRA Experts (RAMoLE), a framework that adaptively retrieves and composes multiple LoRAs based on input prompts. RAMoLE has three main components: LoraRetriever for identifying and retrieving relevant LoRAs, an on-the-fly MoLE mechanism for coordinating the retrieved LoRAs, and efficient batch inference for handling heterogeneous requests. Experimental results show that RAMoLE consistently outperforms baselines, highlighting its effectiveness and scalability. | 翻訳日:2024-06-26 19:00:25 公開日:2024-06-24 |
# ディープ・アコースティックの解釈のためのオーディオ・ネットワーク・ディビジョン
AND: Audio Network Dissection for Interpreting Deep Acoustic ( http://arxiv.org/abs/2406.16990v1 ) ライセンス: Link先を確認 | Tung-Yu Wu, Yu-Xiang Lin, Tsui-Wei Weng, | (参考訳) ニューロンレベルの解釈は、特定の知覚または構造的な入力パターンに応答するニューロンを調査することによって、ネットワークの挙動と特性を説明することを目的としている。
視覚領域と言語領域には新たな研究があるが、音響モデルについての調査は行われていない。
このギャップを埋めるために,まず最初の$\textbf{A}$udio $\textbf{N}$etwork $\textbf{D}$issection frameworkを導入する。
$\textit{AND}$は、オーディオ間の相互音響的特徴とアイデンティティを要約するためにLLMを使用する。
大規模な実験を行い、$\textit{AND}$'sの正確な情報的記述を検証する。
さらに、生成した記述に基づいて概念固有のプルーニングを行うことにより、オーディオマシンのアンラーニングに$\textit{AND}$の潜在的使用を実証する。
最後に、$\textit{AND}$で解析した2つの音響モデル挙動について述べる。
(i)ハイレベルな抽象概念ではなく,基本的音響特徴を組み合わせた音響を識別するモデル。
(ii)訓練戦略はモデル行動やニューロンの解釈可能性に影響を及ぼし、教師付きトレーニングはニューロンに徐々に注意を絞るよう誘導する一方、自己教師型学習は、高レベルの特徴を探索するためにニューロンが多義的であることを奨励する。
Neuron-level interpretations aim to explain network behaviors and properties by investigating neurons responsive to specific perceptual or structural input patterns. Although there is emerging work in the vision and language domains, none is explored for acoustic models. To bridge the gap, we introduce $\textit{AND}$, the first $\textbf{A}$udio $\textbf{N}$etwork $\textbf{D}$issection framework that automatically establishes natural language explanations of acoustic neurons based on highly-responsive audio. $\textit{AND}$ features the use of LLMs to summarize mutual acoustic features and identities among audio. Extensive experiments are conducted to verify $\textit{AND}$'s precise and informative descriptions. In addition, we demonstrate a potential use of $\textit{AND}$ for audio machine unlearning by conducting concept-specific pruning based on the generated descriptions. Finally, we highlight two acoustic model behaviors with analysis by $\textit{AND}$: (i) models discriminate audio with a combination of basic acoustic features rather than high-level abstract concepts; (ii) training strategies affect model behaviors and neuron interpretability -- supervised training guides neurons to gradually narrow their attention, while self-supervised learning encourages neurons to be polysemantic for exploring high-level features. | 翻訳日:2024-06-26 18:50:40 公開日:2024-06-24 |
# なぜ量子ライクな認知モデルが機能するのか
Why Quantum-like Models of Cognition Work ( http://arxiv.org/abs/2406.16991v1 ) ライセンス: Link先を確認 | Partha Ghose, | (参考訳) 神経膜の状態点によって実行されるブラウン運動は、基板の拡散係数$\sigma$に代えて$\hbar/m$のシュル・"{o}dinger-like equationを生成する。
It is shown that Brownian motions executed by state points of neural membranes generate a Schr\"{o}dinger-like equation with $\hbar/m$ replaced by the coefficient of diffusion $\sigma$ of the substrates. | 翻訳日:2024-06-26 18:50:40 公開日:2024-06-24 |
# グラフニューラルネットワークを再び素晴らしいものにする - トラフィック速度予測のためのトポロジフリーパターンのジェネリック統合パラダイム
Make Graph Neural Networks Great Again: A Generic Integration Paradigm of Topology-Free Patterns for Traffic Speed Prediction ( http://arxiv.org/abs/2406.16992v1 ) ライセンス: Link先を確認 | Yicheng Zhou, Pengfei Wang, Hao Dong, Denghui Zhang, Dingqi Yang, Yanjie Fu, Pengyang Wang, | (参考訳) 都市交通速度予測は、都市交通サービスを改善するための将来の交通速度を推定することを目的としている。
グラフトポロジによって正規化された交通速度変化パターンの空間的相関や時間的依存性をモデル化するためにグラフニューラルネットワーク(GNN)を活用する努力が盛んに行われているが、現在の交通速度予測手法は依然として、GNNでは捉えられないトポロジのないパターンを無視している。
そこで本研究では,現在のGNNベースの手法でトポロジフリーパターンを保存できる汎用モデルを提案する。
具体的には,空間変換器とテンポラル変換器を含むDCST(Dual Cross-Scale Transformer)アーキテクチャを開発した。
そして, トポロジ規則化/自由化の両パターンを更に統合するために, 既存のGNNベースの手法を教師モデルとみなし, 提案したDCSTアーキテクチャを学生モデルとみなす蒸留スタイルの学習フレームワークを提案する。
教師モデルは、学習したトポロジに規則化されたパターンを学生モデルに注入し、トポロジのないパターンを統合する。
本手法の有効性を実験的に検証した。
Urban traffic speed prediction aims to estimate the future traffic speed for improving urban transportation services. Enormous efforts have been made to exploit Graph Neural Networks (GNNs) for modeling spatial correlations and temporal dependencies of traffic speed evolving patterns, regularized by graph topology.While achieving promising results, current traffic speed prediction methods still suffer from ignoring topology-free patterns, which cannot be captured by GNNs. To tackle this challenge, we propose a generic model for enabling the current GNN-based methods to preserve topology-free patterns. Specifically, we first develop a Dual Cross-Scale Transformer (DCST) architecture, including a Spatial Transformer and a Temporal Transformer, to preserve the cross-scale topology-free patterns and associated dynamics, respectively. Then, to further integrate both topology-regularized/-free patterns, we propose a distillation-style learning framework, in which the existing GNN-based methods are considered as the teacher model, and the proposed DCST architecture is considered as the student model. The teacher model would inject the learned topology-regularized patterns into the student model for integrating topology-free patterns. The extensive experimental results demonstrated the effectiveness of our methods. | 翻訳日:2024-06-26 18:50:40 公開日:2024-06-24 |
# Vision xLSTM Embedded UNetは医療用3次元画像のセグメンテーションで信頼性が高いか?
Are Vision xLSTM Embedded UNet More Reliable in Medical 3D Image Segmentation? ( http://arxiv.org/abs/2406.16993v1 ) ライセンス: Link先を確認 | Pallabi Dutta, Soham Bose, Swalpa Kumar Roy, Sushmita Mitra, | (参考訳) 効率的な医用画像セグメンテーションの開発は、畳み込みニューラルネットワーク(CNN)への初期依存から、CNNとビジョントランスフォーマーを組み合わせたハイブリッドモデルの研究へと発展してきた。
さらに、医療画像のセグメンテーションタスクの高性能化と、限られたリソースを持つシステムに展開する計算効率の両面において、アーキテクチャの作成に焦点が当てられている。
トランスフォーマーには、入力データのグローバルな依存関係をキャプチャするなど、いくつかの利点があるが、高い計算量やメモリ複雑性といった課題に直面している。
本稿では,CNNとVision-xLSTM(Vision-xLSTM)モデルの統合について,UVixLSTMと呼ばれる新しいアプローチを導入することにより検討する。
Vision-xLSTMブロックは、CNN特徴マップから抽出されたパッチ内の時間的およびグローバルな関係をキャプチャする。
畳み込み特徴再構成パスは、Vision-xLSTMブロックから出力ボリュームを増幅し、セグメンテーション出力を生成する。
我々の第一の目的は、Vision-xLSTMが医用画像分割タスクの信頼性の高いバックボーンを形成し、セグメンテーション性能と計算複雑性の低減を提供することである。
UVixLSTMは、公開されているSynapseデータセットの最先端ネットワークよりも優れたパフォーマンスを示している。
https://github.com/duttapallabi2907/UVixLSTM
The advancement of developing efficient medical image segmentation has evolved from initial dependence on Convolutional Neural Networks (CNNs) to the present investigation of hybrid models that combine CNNs with Vision Transformers. Furthermore, there is an increasing focus on creating architectures that are both high-performing in medical image segmentation tasks and computationally efficient to be deployed on systems with limited resources. Although transformers have several advantages like capturing global dependencies in the input data, they face challenges such as high computational and memory complexity. This paper investigates the integration of CNNs and Vision Extended Long Short-Term Memory (Vision-xLSTM) models by introducing a novel approach called UVixLSTM. The Vision-xLSTM blocks captures temporal and global relationships within the patches extracted from the CNN feature maps. The convolutional feature reconstruction path upsamples the output volume from the Vision-xLSTM blocks to produce the segmentation output. Our primary objective is to propose that Vision-xLSTM forms a reliable backbone for medical image segmentation tasks, offering excellent segmentation performance and reduced computational complexity. UVixLSTM exhibits superior performance compared to state-of-the-art networks on the publicly-available Synapse dataset. Code is available at: https://github.com/duttapallabi2907/UVixLSTM | 翻訳日:2024-06-26 18:50:40 公開日:2024-06-24 |
# 宇宙空間統合ネットワークにおける協調移動アクセスのための量子マルチエージェント強化学習
Quantum Multi-Agent Reinforcement Learning for Cooperative Mobile Access in Space-Air-Ground Integrated Networks ( http://arxiv.org/abs/2406.16994v1 ) ライセンス: Link先を確認 | Gyu Seon Kim, Yeryeong Cho, Jaehyun Chung, Soohyun Park, Soyi Jung, Zhu Han, Joongheon Kim, | (参考訳) 宇宙空間統合ネットワーク(SAGIN)へのアクセスをキューブサットでのみ達成することは、特定の領域(例えば極域)におけるアクセス持続可能性の制限や、キューブサットにおけるエネルギー効率の制限といった重要な課題を示す。
これらの問題を解決するために、高高度長距離無人航空機(HALE-UAV)は、協調的にグローバルなアクセスサステナビリティとエネルギー効率を提供するためにこれらのCubeSatの欠点を補うことができる。
しかし、キューブサットやHALE-UAVの数が増えるにつれて、各地上局(GS)のスケジューリング次元が増加する。
その結果、各GSは次元の呪いに陥り、この挑戦は効率的なグローバルアクセスのための大きなハードルとなる。
そこで本稿では,GSとCubeSats/HALE-UAV間のスケジューリングを量子マルチエージェント強化学習(QMARL)で行うことで,グローバルアクセスの可用性とエネルギー効率を向上させる。
QMARLベースのスケジューラが有益である主な理由は、このアルゴリズムが、キューブサットとHALE-UAVの数が拡大するにつれて重要な特徴であるスケジューリング動作次元の対数スケールの削減を促進することである。
さらに、個々のGSは、位置や特徴によってトラフィックの需要が異なるため、異なるアクセスサービスを提供することが不可欠である。
提案したスケジューラの優位性は,リアルなCubeSat/HALE-UAV設定におけるデータ集約実験によって検証される。
Achieving global space-air-ground integrated network (SAGIN) access only with CubeSats presents significant challenges such as the access sustainability limitations in specific regions (e.g., polar regions) and the energy efficiency limitations in CubeSats. To tackle these problems, high-altitude long-endurance unmanned aerial vehicles (HALE-UAVs) can complement these CubeSat shortcomings for providing cooperatively global access sustainability and energy efficiency. However, as the number of CubeSats and HALE-UAVs, increases, the scheduling dimension of each ground station (GS) increases. As a result, each GS can fall into the curse of dimensionality, and this challenge becomes one major hurdle for efficient global access. Therefore, this paper provides a quantum multi-agent reinforcement Learning (QMARL)-based method for scheduling between GSs and CubeSats/HALE-UAVs in order to improve global access availability and energy efficiency. The main reason why the QMARL-based scheduler can be beneficial is that the algorithm facilitates a logarithmic-scale reduction in scheduling action dimensions, which is one critical feature as the number of CubeSats and HALE-UAVs expands. Additionally, individual GSs have different traffic demands depending on their locations and characteristics, thus it is essential to provide differentiated access services. The superiority of the proposed scheduler is validated through data-intensive experiments in realistic CubeSat/HALE-UAV settings. | 翻訳日:2024-06-26 18:50:40 公開日:2024-06-24 |
# T細胞レセプター-抗原結合特異性予測のための大規模言語モデル
A large language model for predicting T cell receptor-antigen binding specificity ( http://arxiv.org/abs/2406.16995v1 ) ライセンス: Link先を確認 | Xing Fang, Chenpeng Yu, Shiye Tian, Hui Liu, | (参考訳) ヒトの免疫応答はT細胞受容体(TCR)と抗原(pTCR)との結合に依存し、ウイルス、腫瘍細胞、その他の病原体を除去するためにT細胞を誘導する。
未知のウイルスやバクテリアに応答するヒト免疫系の能力は、TCRの多様性に起因している。
しかし、この膨大な多様性はTCR-抗原結合予測法に課題をもたらす。
本研究では,モデル一般化の限界を克服するために, tcrLM と呼ばれるMasked Language Model (MLM) を提案する。
具体的には、ランダムにシーケンスセグメントをマスキングし、tcrLMをトレーニングしてマスクセグメントを推論し、TCRシーケンスから表現的特徴を抽出する。
一方,モデルのロバスト性を高めるために,仮想対角訓練手法を導入した。
現在までに最大のTCR CDR3シークエンスデータセット(2,277,773,840残量)を構築し、このデータセット上で事前訓練したtcrLMを作成しました。
実験の結果,tcrLM は独立テストセットと外部検証セットで 0.937 と 0.933 の AUC 値を達成した。
大規模なCOVID-19 pTCR結合テストセットにおいて,本手法は最先端手法を少なくとも8%上回る性能を示し,本手法の一般化性を強調した。
さらに,臨床コホートに対する免疫療法の効果と臨床効果を効果的に予測できることを検証した。
以上より,tcrLMは抗原性免疫原性予測に有意な可能性を示唆した。
The human immune response depends on the binding of T-cell receptors (TCRs) to antigens (pTCR), which elicits the T cells to eliminate viruses, tumor cells, and other pathogens. The ability of human immunity system responding to unknown viruses and bacteria stems from the TCR diversity. However, this vast diversity poses challenges on the TCR-antigen binding prediction methods. In this study, we propose a Masked Language Model (MLM), referred to as tcrLM, to overcome limitations in model generalization. Specifically, we randomly masked sequence segments and train tcrLM to infer the masked segment, thereby extract expressive feature from TCR sequences. Meanwhile, we introduced virtual adversarial training techniques to enhance the model's robustness. We built the largest TCR CDR3 sequence dataset to date (comprising 2,277,773,840 residuals), and pre-trained tcrLM on this dataset. Our extensive experimental results demonstrate that tcrLM achieved AUC values of 0.937 and 0.933 on independent test sets and external validation sets, respectively, which remarkably outperformed four previously published prediction methods. On a large-scale COVID-19 pTCR binding test set, our method outperforms the current state-of-the-art method by at least 8%, highlighting the generalizability of our method. Furthermore, we validated that our approach effectively predicts immunotherapy response and clinical outcomes on a clinical cohorts. These findings clearly indicate that tcrLM exhibits significant potential in predicting antigenic immunogenicity. | 翻訳日:2024-06-26 18:50:40 公開日:2024-06-24 |
# ウェーブレット注意GRUによる高効率産業ガス認識
Wavelet Attention GRU for Efficient Industrial Gas Recognition with Novel Metrics ( http://arxiv.org/abs/2406.16997v1 ) ライセンス: Link先を確認 | Ding Wang, | (参考訳) 近年、ガス認識技術は研究者からかなりの注目を集めている。
それにもかかわらず、ガス認識領域は、標準化されたプロトコルが存在しないため、ディープラーニングベースの認識ソリューションの実装において障害に直面している。
この問題に対処するために,ガス認識アルゴリズムの特殊評価手法を2セット使用することを提案する。
これらのメトリクスにより、さまざまなデータセット上でこれらのアルゴリズムのパフォーマンスを調べるのがより簡単になる。
さらに、ウェーブレットアテンション機構に基づいた、ウェーブレットアテンションGRU(WAG)と呼ばれる新しいモデルを提案する。
この方法はセンサ信号のより効率的な検索を容易にする。
他のモデルと比較して、WAGは、識別精度98.33%を取得しながら、75%に必要なセンサーの数を著しく減少させる。
これは、WAGがガス認識アルゴリズムの進歩の潜在的アプローチであることを示している。
Gas recognition technology has received considerable attention from researchers in recent years. Nevertheless, the gas recognition area has faced obstacles in implementing deep learning-based recognition solutions due to the absence of standardized protocols. To tackle this problem, we suggest using two sets of specialized evaluation measures for gas recognition algorithms. These metrics will make it easier to examine the performance of these algorithms on various datasets. In addition, we provide a new model called the Wavelet Attention GRU (WAG), which is based on the wavelet attention mechanism. This method facilitates the more efficient retrieval of sensor signals. Compared to other models, WAG significantly decreases the number of sensors needed by 75% while obtaining an identification accuracy of 98.33%. This suggests that WAG is a potential approach for advancing gas recognition algorithms. | 翻訳日:2024-06-26 18:50:40 公開日:2024-06-24 |
# アルゴリズム選択のためのMLパイプラインの効率向上のための簡易なインスタンスの同定
Identifying Easy Instances to Improve Efficiency of ML Pipelines for Algorithm-Selection ( http://arxiv.org/abs/2406.16999v1 ) ライセンス: Link先を確認 | Quentin Renau, Emma Hart, | (参考訳) アルゴリズム選択 (AS) 法は,大規模インスタンス群に対する解法ポートフォリオから最高の性能を得るために不可欠である。
しかし、多くのAS手法は分析フェーズに依存しており、例えば、特徴はサンプリングソリューションによって計算され、機械学習モデルの入力として使用される。
したがって、ASが効率的であるためには、この分析フェーズが計算コストが高くないことが重要である。
本稿では,アルゴリズムの選択を必要とせず,ジェネリストソルバを用いて簡単に解決できる簡単なインスタンスを同定する手法を提案する。
これにより、機能計算に関連する計算予算を削減し、ASパイプラインの他の場所で使用することができる。
BBOBデータセットを2つの設定(バッチとストリーミング)で実験した結果、簡単にインスタンスを識別することで、関数評価の大幅な削減が達成された。
保存した予算をハードな問題に再割り当てすることで、元の予算で計算された仮想ベストソルバ(VBS)、シングルベストソルバ(SBS)、訓練されたアルゴリズムセレクタと比較してパフォーマンスが向上する。
Algorithm-selection (AS) methods are essential in order to obtain the best performance from a portfolio of solvers over large sets of instances. However, many AS methods rely on an analysis phase, e.g. where features are computed by sampling solutions and used as input in a machine-learning model. For AS to be efficient, it is therefore important that this analysis phase is not computationally expensive. We propose a method for identifying easy instances which can be solved quickly using a generalist solver without any need for algorithm-selection. This saves computational budget associated with feature-computation which can then be used elsewhere in an AS pipeline, e.g., enabling additional function evaluations on hard problems. Experiments on the BBOB dataset in two settings (batch and streaming) show that identifying easy instances results in substantial savings in function evaluations. Re-allocating the saved budget to hard problems provides gains in performance compared to both the virtual best solver (VBS) computed with the original budget, the single best solver (SBS) and a trained algorithm-selector. | 翻訳日:2024-06-26 18:50:40 公開日:2024-06-24 |
# 平滑な地図の動的挙動の予測と分類のための深層学習
Deep Learning for Prediction and Classifying the Dynamical behaviour of Piecewise Smooth Maps ( http://arxiv.org/abs/2406.17001v1 ) ライセンス: Link先を確認 | Vismaya V S, Bharath V Nair, Sishu Shankar Muni, | (参考訳) 本稿では,様々な深層学習モデルを用いたスムーズな地図の動的特性の予測について検討する。
深層学習モデルを用いて断片的滑らかな地図の力学を予測するための様々な新しい方法を示した。
さらに,決定木分類,ロジスティック回帰,K-Nearest Neighbor,Random Forest,Support Vector Machineといった機械学習モデルを用いて,境界衝突分岐の予測を行った。
さらに,畳み込みニューラルネットワーク(CNN)やResNet50,ConvLSTMなどのディープラーニングモデルを用いて,1Dテントマップと2Dロジマップの規則的・カオス的動作をコブウェブ図や位相像を用いて分類した。
また、FNN(Feed Forward Neural Network)、LSTM(Long Short-Term Memory)、RNN(Recurrent Neural Network)といったディープラーニングモデルを用いて、3次元スムーズマップのカオス的・過カオス的挙動を分類した。
最後に、Long Short-Term Memory (LSTM) やRecurrent Neural Network (RNN) のようなディープラーニングモデルを用いて、2次元境界衝突分岐正規形マップの2つのパラメトリックチャートを再構成する。
This paper explores the prediction of the dynamics of piecewise smooth maps using various deep learning models. We have shown various novel ways of predicting the dynamics of piecewise smooth maps using deep learning models. Moreover, we have used machine learning models such as Decision Tree Classifier, Logistic Regression, K-Nearest Neighbor, Random Forest, and Support Vector Machine for predicting the border collision bifurcation in the 1D normal form map and the 1D tent map. Further, we classified the regular and chaotic behaviour of the 1D tent map and the 2D Lozi map using deep learning models like Convolutional Neural Network (CNN), ResNet50, and ConvLSTM via cobweb diagram and phase portraits. We also classified the chaotic and hyperchaotic behaviour of the 3D piecewise smooth map using deep learning models such as the Feed Forward Neural Network (FNN), Long Short-Term Memory (LSTM), and Recurrent Neural Network (RNN). Finally, deep learning models such as Long Short-Term Memory (LSTM) and Recurrent Neural Network (RNN) are used for reconstructing the two parametric charts of 2D border collision bifurcation normal form map. | 翻訳日:2024-06-26 18:50:40 公開日:2024-06-24 |
# 心電図による死亡リスク予測のベンチマーク
Benchmarking mortality risk prediction from electrocardiograms ( http://arxiv.org/abs/2406.17002v1 ) ライセンス: Link先を確認 | Platon Lukyanenko, Joshua Mayourian, Mingxuan Liua, John K. Triedman, Sunil J. Ghelani, William G. La Cava, | (参考訳) 近年の高インパクト研究は、大規模な病院所有の心電図データベースを利用して、患者の死亡をモデル化し予測している。
MIMIC-IV(英語: MIMIC-IV)は、2023年9月にリリースされた、アメリカ合衆国の病院システムから80,000のECGを含む、最初の同等のパブリックデータセットである。
これまでで最大のパブリックECGデータセットはCode-15で、ブラジルの定期治療中に収集された345,000のECGが含まれている。
これらのデータセットは、より広範な聴衆にECGサバイバルモデリングを探求するための優れたリソースを提供する。
ここでは,2つのニューラルネットワークアーキテクチャを用いて,Code-15とMIMIC-IVの生存率モデル性能をベンチマークし,分類器出力に基づいて訓練されたCox回帰に対する4つのディープサバイバルモデルアプローチを比較し,性能を1年から10年評価する。
以上の結果から,AUROCとAUPRCのスコアは過去の作業(0.8)と妥当なAUPRCスコア(MIMIC-IV: 0.4-0.5, Code-15: 0.05-0.13)に匹敵する結果を得た(MIMIC-IV: 27\%, Code-15: 4\%)。
反対のデータセット上でモデルを評価する場合、AUROCと一致値は0.1-0.15減少し、コホート差による可能性がある。
すべてのコードと結果が公開されています。
Several recent high-impact studies leverage large hospital-owned electrocardiographic (ECG) databases to model and predict patient mortality. MIMIC-IV, released September 2023, is the first comparable public dataset and includes 800,000 ECGs from a U.S. hospital system. Previously, the largest public ECG dataset was Code-15, containing 345,000 ECGs collected during routine care in Brazil. These datasets now provide an excellent resource for a broader audience to explore ECG survival modeling. Here, we benchmark survival model performance on Code-15 and MIMIC-IV with two neural network architectures, compare four deep survival modeling approaches to Cox regressions trained on classifier outputs, and evaluate performance at one to ten years. Our results yield AUROC and concordance scores comparable to past work (circa 0.8) and reasonable AUPRC scores (MIMIC-IV: 0.4-0.5, Code-15: 0.05-0.13) considering the fraction of ECG samples linked to a mortality (MIMIC-IV: 27\%, Code-15: 4\%). When evaluating models on the opposite dataset, AUROC and concordance values drop by 0.1-0.15, which may be due to cohort differences. All code and results are made public. | 翻訳日:2024-06-26 18:50:40 公開日:2024-06-24 |
# PVUW 2024 複雑ビデオ理解への挑戦:方法と結果
PVUW 2024 Challenge on Complex Video Understanding: Methods and Results ( http://arxiv.org/abs/2406.17005v1 ) ライセンス: Link先を確認 | Henghui Ding, Chang Liu, Yunchao Wei, Nikhila Ravi, Shuting He, Song Bai, Philip Torr, Deshui Miao, Xin Li, Zhenyu He, Yaowei Wang, Ming-Hsuan Yang, Zhensong Xu, Jiangtao Yao, Chengjing Wu, Ting Liu, Luoqi Liu, Xinyu Liu, Jing Zhang, Kexin Zhang, Yuting Yang, Licheng Jiao, Shuyuan Yang, Mingqi Gao, Jingnan Luo, Jinyu Yang, Jungong Han, Feng Zheng, Bin Cao, Yisi Zhang, Xuanxu Lin, Xingjian He, Bo Zhao, Jing Liu, Feiyu Pan, Hao Fang, Xiankai Lu, | (参考訳) PVUW ( Pixel-level Video Understanding in the Wild Challenge) は、複雑なビデオ理解に焦点を当てている。
このCVPR 2024ワークショップでは、MOSEデータセットに基づく複雑なビデオオブジェクトセグメンテーショントラックと、MeViSデータセットに基づくモーション表現ガイド付きビデオセグメンテーショントラックという、2つの新しいトラックを追加します。
2つの新しいトラックでは、オブジェクトの消失と再出現、目立たない小さなオブジェクト、重い閉塞、MOSEの混み合った環境など、困難な要素を特徴とする追加のビデオとアノテーションを提供する。
さらに,複雑な環境下での自然言語誘導映像理解の研究のために,動画セグメンテーションデータセットMeViSを提案する。
これらの新しいビデオ、文、アノテーションにより、複雑な環境や現実的なシナリオにおいて、より包括的で堅牢なビデオシーンの理解を促進することができる。
MOSEチャレンジには合計140の登録チームが参加し、65チームがバリデーションフェーズに参加し、12チームが最終チャレンジフェーズで有効な応募を行った。
MeViSチャレンジには合計225の登録チームが参加し、50チームが検証フェーズに参加し、5チームが最終チャレンジフェーズで有効な応募を行った。
Pixel-level Video Understanding in the Wild Challenge (PVUW) focus on complex video understanding. In this CVPR 2024 workshop, we add two new tracks, Complex Video Object Segmentation Track based on MOSE dataset and Motion Expression guided Video Segmentation track based on MeViS dataset. In the two new tracks, we provide additional videos and annotations that feature challenging elements, such as the disappearance and reappearance of objects, inconspicuous small objects, heavy occlusions, and crowded environments in MOSE. Moreover, we provide a new motion expression guided video segmentation dataset MeViS to study the natural language-guided video understanding in complex environments. These new videos, sentences, and annotations enable us to foster the development of a more comprehensive and robust pixel-level understanding of video scenes in complex environments and realistic scenarios. The MOSE challenge had 140 registered teams in total, 65 teams participated the validation phase and 12 teams made valid submissions in the final challenge phase. The MeViS challenge had 225 registered teams in total, 50 teams participated the validation phase and 5 teams made valid submissions in the final challenge phase. | 翻訳日:2024-06-26 18:50:40 公開日:2024-06-24 |
# ストレステスト予測モデルのためのメタラーニングとデータ強化
Meta-learning and Data Augmentation for Stress Testing Forecasting Models ( http://arxiv.org/abs/2406.17008v1 ) ライセンス: Link先を確認 | Ricardo Inácio, Vitor Cerqueira, Marília Barandas, Carlos Soares, | (参考訳) 単変量予測モデルの有効性は、しばしばストレスを引き起こす条件によって妨げられる。
モデルがストレスにさらされていると考えられるのは、高次のエラーや不確実性の増加など、ネガティブな振る舞いを示す場合である。
予測モデルにストレスを引き起こす要因を理解することは、信頼性、透明性、実用性を改善するために重要です。
本稿では,MAST(Meta-learning and data Augmentation for Stress Testing)と呼ばれる新しいフレームワークに貢献することで,この問題に対処する。
提案手法は, 単変量時系列予測モデルにおけるストレスをモデル化し, 特徴付けることを目的としている。
特に、MASTはメタラーニング手法であり、統計時系列の一連の特徴に基づいて、与えられたモデルが与えられた時系列で不十分に動作する確率を予測する。
MASTはまた、ストレスに関するメタデータを改善するために、オーバーサンプリングに基づく新しいデータ拡張技術を含んでいる。
MASTの性能を検証するために, 合計49.794時系列を含む3つのベンチマークデータセットを用いて実験を行った。
その結果,提案手法は大きな誤差につながる条件を特定可能であることが示唆された。
メソッドと実験はリポジトリで公開されています。
The effectiveness of univariate forecasting models is often hampered by conditions that cause them stress. A model is considered to be under stress if it shows a negative behaviour, such as higher-than-usual errors or increased uncertainty. Understanding the factors that cause stress to forecasting models is important to improve their reliability, transparency, and utility. This paper addresses this problem by contributing with a novel framework called MAST (Meta-learning and data Augmentation for Stress Testing). The proposed approach aims to model and characterize stress in univariate time series forecasting models, focusing on conditions where they exhibit large errors. In particular, MAST is a meta-learning approach that predicts the probability that a given model will perform poorly on a given time series based on a set of statistical time series features. MAST also encompasses a novel data augmentation technique based on oversampling to improve the metadata concerning stress. We conducted experiments using three benchmark datasets that contain a total of 49.794 time series to validate the performance of MAST. The results suggest that the proposed approach is able to identify conditions that lead to large errors. The method and experiments are publicly available in a repository. | 翻訳日:2024-06-26 18:50:40 公開日:2024-06-24 |
# 多パラメータ空間超解像における測定トレードオフの最適化
Optimizing measurement tradeoffs in multiparameter spatial superresolution ( http://arxiv.org/abs/2406.17009v1 ) ライセンス: Link先を確認 | J. Řeháček, J. L. Romero, A. Z. Goldberg, Z. Hradil, L. L. Sánchez-Soto, | (参考訳) セントロイドのジョイント推定と2つの非コヒーレントな点源の分離のための量子クラム・ラーオは飽和できない。
そのため、両者の最大情報を同時に抽出する最適な測定方法が分かっていない。
本研究では,任意の点展開関数に対するこれらの最適測定を,ソース間の小さな分離の最も関連する状態において確認する。
我々の測定は一連のトレードオフの範囲内で調整可能であり、分離やセンタロイドからより多くの情報を抽出できると同時に、合計情報が可能な限り最大であることを保証することができる。
The quantum Cram\'er-Rao bound for the joint estimation of the centroid and the separation between two incoherent point sources cannot be saturated. As such, the optimal measurements for extracting maximal information about both at the same time are not known. In this work, we ascertain these optimal measurements for an arbitrary point spread function, in the most relevant regime of a small separation between the sources. Our measurement can be adjusted within a set of tradeoffs, allowing more information to be extracted from the separation or the centroid while ensuring that the total information is the maximum possible. | 翻訳日:2024-06-26 18:50:40 公開日:2024-06-24 |
# 蒸発ブラックホールのためのCFT双対-境界連続行列生成状態
A CFT dual for evaporating black holes: boundary continuous matrix product states ( http://arxiv.org/abs/2406.17021v1 ) ライセンス: Link先を確認 | Niloofar Vardian, | (参考訳) テンソル・ネットワーク状態、特にマトリックス・プロダクツ・ステート(MPS)は、大規模量子系における粒子同士の絡み合いを研究するための重要なツールである。
MPSは1次元空間におけるモデリングシステムに特に有効である。
連続行列積状態 (continuous Matrix Product States, cMPS) と呼ばれるその連続バージョンは、無限個の相互作用粒子を持つ系を記述するより複雑な量子場理論にこのアプローチを拡張している。
本稿では、共形場理論(CFT)から境界状態を含む境界連続行列積状態(BCMPS)を新たに導入する。
我々は、BCMPSを構築し、それらのホログラフィック双対を探索し、それらをAdS/CFTの終末のブレーンとブラックホールマイクロステートにリンクする。
この接続はテンソルネットワークと時空幾何学の深い関係を示唆しており、量子情報と重力の間の相互作用に関する新たな洞察を提供する可能性がある。
Tensor network states, especially Matrix Product States (MPS), are crucial tools for studying how particles in large quantum systems are entangled with each other. MPS are particularly effective for modeling systems in one-dimensional space. Their continuous version, known as continuous Matrix Product States (cMPS), extends this approach to more complex quantum field theories that describe systems with an infinite number of interacting particles. This paper introduces a novel extension, boundary continuous Matrix Product States (BCMPS), which incorporate boundary states from conformal field theory (CFT). We construct BCMPS and explore their potential holographic duals, linking them to black hole microstates with end-of-the-world branes in AdS/CFT. This connection hints at a deeper relationship between tensor networks and spacetime geometry, potentially offering new insights into the interplay between quantum information and gravity. | 翻訳日:2024-06-26 18:50:40 公開日:2024-06-24 |
# 2次元絶縁体における量子幾何学と絡み合い:コーナー電荷ゆらぎから
Quantum Geometry and Entanglement in Two-dimensional Insulators: A View from the Corner Charge Fluctuation ( http://arxiv.org/abs/2406.17023v1 ) ライセンス: Link先を確認 | Pok Man Tam, Jonah Herzog-Arbeitman, Jiabin Yu, | (参考訳) 有限領域内の粒子数などの保存電荷の2部ゆらぎを測定することは、量子系を特徴づける強力なアプローチである。
測定された領域が鋭い角を持つとき、バイパルタイト変動は、2次元等方的および均一な系において普遍的な角度依存性を示すことが知られている追加の寄与を受ける。
ここで、コーナー電荷のゆらぎは、相互作用しない電子の一般的な$\textit{lattice}$系に対しても普遍的な情報を明らかにする。
まず、格子の適切な分割に対する$\textit{small-angle}$ limitにおいて普遍角依存性を復元できることを証明し、そこから統合されたフビニ・スタディ量子計量を抽出できる。
この効果を解析的に説明するために、コンパクトな閉塞原子絶縁体のモデルが導入された。
様々なチャーン絶縁体モデルに対して数値検証を行い、量子幾何学のプローブとして有限サイズの量子シミュレータにおけるコーナー電荷変動の実験的妥当性を示す。
最後に、角絡みエントロピーのレンズを通して量子幾何学と量子情報との間の顕著な関係を強調します。
Measuring bipartite fluctuations of a conserved charge, such as the particle number, within a finite region is a powerful approach to characterizing quantum systems. When the measured region has sharp corners, the bipartite fluctuation receives an additional contribution known to exhibit universal angle-dependence in 2D isotropic and uniform systems. Here we establish that the corner charge fluctuation reveals universal information even for generic $\textit{lattice}$ systems of non-interacting electrons. We first prove that universal angle-dependence can be recovered in the $\textit{small-angle}$ limit for proper partitions of the lattice, from which the integrated Fubini-Study quantum metric can be extracted. A model of a compact obstructed atomic insulator is introduced to illustrate this effect analytically. Numerical verification is presented for various Chern insulator models, demonstrating the experimental relevance of the corner charge fluctuation in a finite-size quantum simulator as a probe of quantum geometry. Last but not least, we highlight a remarkable connection between quantum geometry and quantum information through the lens of corner entanglement entropies. | 翻訳日:2024-06-26 18:50:40 公開日:2024-06-24 |
# Dwarf: 注意マップのリファインメントのための病気重み付きネットワーク
Dwarf: Disease-weighted network for attention map refinement ( http://arxiv.org/abs/2406.17032v1 ) ライセンス: Link先を確認 | Haozhe Luo, Aurélie Pahud de Mortanges, Oana Inel, Mauricio Reyes, | (参考訳) 深層学習の解釈可能性は、医療画像モデルの信頼性を評価し、不正確な患者推薦のリスクを低減するために重要である。
本研究は、医療専門家を解釈可能性のプロセスに統合することで、医療画像分析における「ループ外人間」と「信頼」の問題に対処する。
本稿では、専門家のフィードバックを活用して、モデル妥当性と精度を高める病弱注意マップ改善ネットワーク(Dwarf)を提案する。
本手法では, 繰り返し学習を用いて診断性能を反復的に向上し, 正確かつ解釈可能な特徴マップを生成する。
実験により,複数の医用画像データセットの解釈可能性および診断精度が有意に向上した。
このアプローチは、AIシステムと医療専門家の効果的なコラボレーションを促進する。
The interpretability of deep learning is crucial for evaluating the reliability of medical imaging models and reducing the risks of inaccurate patient recommendations. This study addresses the "human out of the loop" and "trustworthiness" issues in medical image analysis by integrating medical professionals into the interpretability process. We propose a disease-weighted attention map refinement network (Dwarf) that leverages expert feedback to enhance model relevance and accuracy. Our method employs cyclic training to iteratively improve diagnostic performance, generating precise and interpretable feature maps. Experimental results demonstrate significant improvements in interpretability and diagnostic accuracy across multiple medical imaging datasets. This approach fosters effective collaboration between AI systems and healthcare professionals, ultimately aiming to improve patient outcomes | 翻訳日:2024-06-26 18:40:56 公開日:2024-06-24 |
# 弱い相互作用を持つ散逸系とデジタル量子コンピュータにおける一般化ギブズアンサンブル
Generalized Gibbs ensembles in weakly interacting dissipative systems and digital quantum computers ( http://arxiv.org/abs/2406.17033v1 ) ライセンス: Link先を確認 | Iris Ulčakar, Zala Lenarčič, | (参考訳) デジタル量子コンピュータは、多体量子物理学において重要かつ困難な問題を解くことを約束する。
しかし、少なくとも超伝導プラットフォームでは、現在の制限はノイズレベルである。
したがって、プラットフォームのネイティブノイズがそれほど重要でない散逸システムをモデル化するのに、現在それを使う方が合理的であるように思える。
本稿では,デジタル量子コンピュータを用いて,分散化ギブズアンサンブルを弱散逸型可積分系で実現し,可積分性の活性化を示す。
散逸は、近年の散逸冷却を実現するプロトコルのように、周期的にアンシラをリセットする結合系の量子ビットによって実現される。
我々は、トロッタライズドダイナミクスとそのようなセットアップを通常のリンドブラッド連続進化と対比する効果的な運動方程式を導出する。
単純性については、ボゴリボフ準粒子間の一般化散乱理論により熱力学的結果が得られるような、非相互作用可積分系の定常状態をバスに弱い結合で計算するための異なるアプローチを検討し、比較する。
量子コンピュータの実装に対応することは、ほぼ可積分な量子材料において同様のエキゾチックな状態を実現する可能性を示す。
Digital quantum computers promise to solve important and challenging problems in many-body quantum physics. However, at least for the superconducting platforms, their current limitation is the noise level. It thus seems more reasonable to presently use them to model dissipative systems, where platforms' native noise is not that crucial. Here, we propose using a digital quantum computer to showcase the activation of integrability by realizing exotic generalized Gibbs ensembles in weakly dissipative integrable systems. Dissipation is realized by coupling system's qubits to periodically reset ancilla ones, like in the protocol recently used to realize dissipative cooling. We derive the effective equations of motion for trotterized dynamics and contrast such a setup to the usual Lindblad continuous evolution. For simplicity, we consider and compare different approaches to calculating steady-states of non-interacting integrable systems weakly coupled to baths, where thermodynamic results can be obtained via a generalized scattering theory between the Bogoliubov quasiparticles. Corresponding quantum computer implementation would illuminate the possibilities of realizing similar exotic states in nearly integrable quantum materials. | 翻訳日:2024-06-26 18:40:56 公開日:2024-06-24 |
# 1次元スピンレスおよびマヨラナフェルミオンの高次元スピン-1/2磁石への溶解性埋め込み機構
A solvable embedding mechanism for one-dimensional spinless and Majorana fermions in higher-dimensional spin-1/2 magnets ( http://arxiv.org/abs/2406.17034v1 ) ライセンス: Link先を確認 | Sumiran Pujari, | (参考訳) 固有スペクトルがジョルダン・ウィグナー変換によって正確に解ける2次元量子スピン-1/2ハミルトニアンのクラスを書き留める。
一般構造は、XY または XX-Ising スピン鎖と ZZ-Ising スピン鎖からなる適切な格子に対応し、より高次元に一般化できる。
彼らは一次元のスピンレスフェルミオン液体のスタックを、ギャップレス励起と順序付けられたスピンモーメント(局所化されたスピンレスフェルミオン)と共存するパワー-ロー相関でホストすることができる。
したがって、結合依存的なカップリングは、SU(2)対称カップリングの幾何学的フラストレーションとは別のメカニズムであり、スピンレスフェルミオン励起を得ることができる。
異なる方法では、結合依存結合は1次元のスピンレスフェルミオン(トモノガ・ラッティンガー)液体と固体の埋め込みを可能にする。
これらは、マヨラナ励起を伴う北エフのハニカムモデルにおいて、より複雑で密閉されたプラケット局所またはボンド局所保存量の集合とは別に、より単純な局所保存量の集合に対応することができる。
提案したグリッド構造は、制御可能な量子ビットを持つ量子工学のアーキテクチャを提供することができる。
We write down a class of two-dimensional quantum spin-1/2 Hamiltonians whose eigenspectra are exactly solvable via the Jordan-Wigner transformation. The general structure corresponds to a suitable grid composed of XY or XX-Ising spin chains and ZZ-Ising spin chains and is generalizable to higher dimensions. They can host stacks of one-dimensional spinless fermion liquids with gapless excitations and power-law correlations coexisting with ordered spin moments (localized spinless fermions). Bond-dependent couplings thus can be an alternate mechanism than geometric frustration of SU(2)-symmetric couplings to obtain spinless fermionic excitations. Put in a different way, bond-dependent couplings allow for an embedding of one-dimensional spinless fermion (Tomonoga-Luttinger) liquids and solids and also Majorana excitations in higher dimensions. They can accommodate a simpler set of site-local conserved quantities apart from the more intricate, interlocked set of plaquette-local or bond-local conserved quantities in Kitaev's honeycomb model with Majorana excitations. The proposed grid structure may provide an architecture for quantum engineering with controllable qubits. | 翻訳日:2024-06-26 18:40:56 公開日:2024-06-24 |
# 固有ベクトル継続を用いたチーパーおよびより耐雑音性量子状態の調製
Cheaper and more noise-resilient quantum state preparation using eigenvector continuation ( http://arxiv.org/abs/2406.17037v1 ) ライセンス: Link先を確認 | Anjali A. Agrawal, Akhil Francis, A. F. Kemper, | (参考訳) サブスペース法は、量子コンピュータ上の基底状態を効果的に作成できる強力で耐雑音性のある方法である。
課題は、最小の量子資源を用いて興味のある状態にまたがる小さな条件数を持つ部分空間を得ることである。
本研究では、固有ベクトル継続(EC)を用いて、ハミルトニアン集合の低次状態から部分空間を構築する。
基本ベクトルは、仮想時間進化(ITE)や断熱的状態形成(ASP)といった標準状態準備法の切り離されたバージョンを用いて作成される。
これらの切り抜き法と固有ベクトル継続法を組み合わせることで、より正確な基底エネルギーを低コストで得られるように、直接改善することができる。
ITE や ASP のような手法が失敗しても,エネルギーギャップが消滅した ASP や ITE など,いくつかのスピンシステムを用いて収束を示す。
また、より浅い量子回路によって既に得られる利得を超えて、このアプローチのノイズレジリエンスを示す。
この結果から, 固有ベクトル継続法は, 早期に既存の状態調整法を改善するのに有効であることが示唆された。
Subspace methods are powerful, noise-resilient methods that can effectively prepare ground states on quantum computers. The challenge is to get a subspace with a small condition number that spans the states of interest using minimal quantum resources. In this work, we will use eigenvector continuation (EC) to build a subspace from the low-lying states of a set of Hamiltonians. The basis vectors are prepared using truncated versions of standard state preparation methods such as imaginary time evolution (ITE) and adiabatic state preparation (ASP). By using these truncated methods combined with eigenvector continuation, we can directly improve upon them, obtaining more accurate ground state energies at a reduced cost. We use several spin systems to demonstrate convergence even when methods like ITE and ASP fail, such as ASP in the presence of level crossings and ITE with vanishing energy gaps. We also showcase the noise resilience of this approach beyond the gains already made by having a shallower quantum circuit. Our findings suggest that eigenvector continuation can be used to improve existing state preparation methods in the near term. | 翻訳日:2024-06-26 18:40:56 公開日:2024-06-24 |
# modeLing: 言語モデルにおける言語推論をテストするための新しいデータセット
modeLing: A Novel Dataset for Testing Linguistic Reasoning in Language Models ( http://arxiv.org/abs/2406.17038v1 ) ライセンス: Link先を確認 | Nathan A. Chi, Teodor Malchev, Riley Kong, Ryan A. Chi, Lucas Huang, Ethan A. Chi, R. Thomas McCoy, Dragomir Radev, | (参考訳) 我々は、AIシステムにおける少数ショット推論をテストするLinguistics Olympiadスタイルパズルの新しいベンチマークであるModeLingを紹介する。
これらのパズルを解くには、少数の例から言語の文法構造の側面を推測する必要がある。
このようなパズルは、合成一般化と少数ショット帰納的推論を必要とするため、言語モデルに対する自然なテストベッドを提供する。
この作業専用に書かれた新しいパズルのみで構成されているModeLingには、既存のAIシステムのトレーニングデータに現れるリスクはない。
提案するベンチマークでは,複数の大規模オープンソース言語モデルとGPTの評価を行い,浅暗記に起因しない創発的推論能力を示す。
しかし、不完全なモデル性能は、モデムLingが言語推論のさらなる進歩を測定するのに使えることを示唆している。
We introduce modeLing, a novel benchmark of Linguistics Olympiad-style puzzles which tests few-shot reasoning in AI systems. Solving these puzzles necessitates inferring aspects of a language's grammatical structure from a small number of examples. Such puzzles provide a natural testbed for language models, as they require compositional generalization and few-shot inductive reasoning. Consisting solely of new puzzles written specifically for this work, modeLing has no risk of appearing in the training data of existing AI systems: this ameliorates the risk of data leakage, a potential confounder for many prior evaluations of reasoning. Evaluating several large open source language models and GPT on our benchmark, we observe non-negligible accuracy, demonstrating few-shot emergent reasoning ability which cannot merely be attributed to shallow memorization. However, imperfect model performance suggests that modeLing can be used to measure further progress in linguistic reasoning. | 翻訳日:2024-06-26 18:40:56 公開日:2024-06-24 |
# スワップゲートによる量子回路のハードウェアアーキテクチャへのフォールトトレラント埋め込み
Fault-tolerant embedding of quantum circuits on hardware architectures via swap gates ( http://arxiv.org/abs/2406.17044v1 ) ライセンス: Link先を確認 | Shao-Hen Chiew, Ezequiel Ignacio Rodriguez Chiacchio, Vishal Sharma, Jing Hao Chai, Hui Khoon Ng, | (参考訳) 短期量子コンピューティングデバイスでは、量子ビット間の接続はアーキテクチャ上の制約によって制限される。
マルチキュービットゲートに必要な接続要求のある計算回路は、物理ハードウェアに固定接続を組み込まなければならない。
長距離ゲートは、まず関連するキュービットをまとめてルーティングする必要がある。
最も単純なルーティング戦略は、スワップゲートを使用して、2つの接続されていないキュービットが持つ情報を接続されたキュービットに置き換えることである。
しかし、理想的なスワップゲートはキュービットを透過するだけであり、実際のスワップゲートは、関連するキュービットに同時エラーを引き起こし、回路全体にエラーを拡散させる可能性がある。
一般的なスワップ方式は、回路のフォールトトレラント機能に必要なものを含む回路のエラー伝搬特性を変化させる。
本稿では,抽象回路のフォールトトレラント性を保ちながら,物理的ハードウェアに制約のある接続性を持たせるために必要なスワップスキームを設計するための簡単な方法を提案する。
埋め込み回路は、もちろん抽象回路のネイティブ実装と比較してノイズが大きいが、重六角形格子や六角形格子に埋め込まれた曲面符号の例として、劣化は深刻ではないことを示す。
これにより、現在のハードウェアにフォールトトレランス特性を持つ回路を実装するための簡単なソリューションが提供される。
In near-term quantum computing devices, connectivity between qubits remain limited by architectural constraints. A computational circuit with given connectivity requirements necessary for multi-qubit gates have to be embedded within physical hardware with fixed connectivity. Long-distance gates have to be done by first routing the relevant qubits together. The simplest routing strategy involves the use of swap gates to swap the information carried by two unconnected qubits to connected ones. Ideal swap gates just permute the qubits; real swap gates, however, have the added possibilities of causing simultaneous errors on the qubits involved and spreading errors across the circuit. A general swap scheme thus changes the error-propagation properties of a circuit, including those necessary for fault-tolerant functioning of a circuit. Here, we present a simple strategy to design the swap scheme needed to embed an abstract circuit onto a physical hardware with constrained connectivity, in a manner that preserves the fault-tolerant properties of the abstract circuit. The embedded circuit will, of course, be noisier, compared to a native implementation of the abstract circuit, but we show in the examples of embedding surface codes on heavy-hexagonal and hexagonal lattices that the deterioration is not severe. This then offers a straightforward solution to implementing circuits with fault-tolerance properties on current hardware. | 翻訳日:2024-06-26 18:40:56 公開日:2024-06-24 |
# クロスモーダル学習による科学的フィギュアキャプションの強化
Enhancing Scientific Figure Captioning Through Cross-modal Learning ( http://arxiv.org/abs/2406.17047v1 ) ライセンス: Link先を確認 | Mateo Alejandro Rojas, Rafael Carranza, | (参考訳) 科学的チャートは、研究成果を効果的に伝達し、情報を伝達し、データパターンを明らかにするための重要な媒体として機能するために必要なツールである。
科学と技術の急速な進歩とビッグデータ時代の到来により、科学研究データの量と多様性が急増し、チャートの数と多様性が増加した。
この傾向は、研究者、特にこれらのチャートの適切なタイトルを効率よく正確に生成し、情報や結果をより良く伝達する上で、新たな課題を提示している。
自動生成されたチャートタイトルは、詳細なチャート分類のための正確なデータを提供することで、情報検索システムを強化することができる。
画像キャプションとテキスト要約の研究が成熟するにつれて、科学チャートの自動作成が注目されている。
自然言語処理、機械学習、マルチモーダル技術を活用することで、チャートからキー情報を自動抽出し、研究者のニーズに合う正確で簡潔なタイトルを生成することができる。
本稿では,研究データの明瞭さとアクセシビリティ向上に有効であることを示すため,学術チャートのタイトル生成に対する新しいアプローチを提案する。
Scientific charts are essential tools for effectively communicating research findings, serving as a vital medium for conveying information and revealing data patterns. With the rapid advancement of science and technology, coupled with the advent of the big data era, the volume and diversity of scientific research data have surged, leading to an increase in the number and variety of charts. This trend presents new challenges for researchers, particularly in efficiently and accurately generating appropriate titles for these charts to better convey their information and results. Automatically generated chart titles can enhance information retrieval systems by providing precise data for detailed chart classification. As research in image captioning and text summarization matures, the automatic generation of scientific chart titles has gained significant attention. By leveraging natural language processing, machine learning, and multimodal techniques, it is possible to automatically extract key information from charts and generate accurate, concise titles that better serve the needs of researchers. This paper presents a novel approach to scientific chart title generation, demonstrating its effectiveness in improving the clarity and accessibility of research data. | 翻訳日:2024-06-26 18:40:56 公開日:2024-06-24 |
# 軽度皮膚癌分類における知識蒸留の活用 : 精度と計算効率のバランス
Leveraging Knowledge Distillation for Lightweight Skin Cancer Classification: Balancing Accuracy and Computational Efficiency ( http://arxiv.org/abs/2406.17051v1 ) ライセンス: Link先を確認 | Niful Islam, Khan Md Hasib, Fahmida Akter Joti, Asif Karim, Sami Azam, | (参考訳) 皮膚がんは公衆衛生にとって大きな関心事であり、報告されているがんの3分の1を占めている。
早期に発見されなければ、がんは重篤な結果をもたらす可能性がある。
有効な皮膚がん分類の必要性を認識し、計算資源が限られている領域に展開するには、しばしば大きすぎる既存のモデルの限界に対処する。
そこで本研究では,軽量だが高性能な分類器を作成するための知識蒸留に基づく手法を提案する。
提案されたソリューションは、3つのモデル、すなわちResNet152V2、ConvNeXtBase、ViT Baseを融合して効果的な教師モデルを作成する。
教師モデルは、2.03MBの軽量の学生モデルをガイドするために使用される。
この学生モデルは16ビット量子化を使用して469.77KBに圧縮され、エッジデバイスへのスムーズな取り込みを可能にする。
6段階の画像前処理、データ拡張、厳密なアブレーションの研究により、HAM10000データセットでは98.75%、Kaggleデータセットでは98.94%の精度で良性および悪性皮膚がんを分類している。
高精度でコンパクトなサイズを持つため、われわれのモデルは、特に資源制約のある環境では、正確な皮膚がん分類の候補となる可能性がある。
Skin cancer is a major concern to public health, accounting for one-third of the reported cancers. If not detected early, the cancer has the potential for severe consequences. Recognizing the critical need for effective skin cancer classification, we address the limitations of existing models, which are often too large to deploy in areas with limited computational resources. In response, we present a knowledge distillation based approach for creating a lightweight yet high-performing classifier. The proposed solution involves fusing three models, namely ResNet152V2, ConvNeXtBase, and ViT Base, to create an effective teacher model. The teacher model is then employed to guide a lightweight student model of size 2.03 MB. This student model is further compressed to 469.77 KB using 16-bit quantization, enabling smooth incorporation into edge devices. With six-stage image preprocessing, data augmentation, and a rigorous ablation study, the model achieves an impressive accuracy of 98.75% on the HAM10000 dataset and 98.94% on the Kaggle dataset in classifying benign and malignant skin cancers. With its high accuracy and compact size, our model appears to be a potential choice for accurate skin cancer classification, particularly in resource-constrained settings. | 翻訳日:2024-06-26 18:40:56 公開日:2024-06-24 |
# バイレベルアプローチによる符号付き測度に対する平均Langevinダイナミクス
Mean-Field Langevin Dynamics for Signed Measures via a Bilevel Approach ( http://arxiv.org/abs/2406.17054v1 ) ライセンス: Link先を確認 | Guillaume Wang, Alireza Moussavi-Hosseini, Lénaïc Chizat, | (参考訳) 平均場ランゲヴィン力学(英: Mean-field Langevin dynamics、MLFD)は、多様体上の確率測度に対する凸最適化に取り組む相互作用粒子法の一種。
しかし、無限幅の2層ニューラルネットワークのリスク最小化やスパースデコンボリューションといった重要な問題は、本来は確率よりもむしろ符号のセット上で定義されている。本稿では、符号のついた測度よりも最適化問題を凸させるためにMFLDフレームワークを拡張する方法について検討する。
特にMFLDの収束速度を低雑音状態の2レベル低減に適用し, 2つの結果を得た。
第一に、このダイナミクスは、スズキら(2023年)のアニーリングスケジュールに適応し、固定乗算精度の向上をもたらす。
第二に、二レベルアプローチで単一ニューロンを学習する問題を考察し、次元と雑音レベルに多項式的に依存する局所指数収束率を求める(先行解析の結果生じる指数依存と比較する)。
Mean-field Langevin dynamics (MLFD) is a class of interacting particle methods that tackle convex optimization over probability measures on a manifold, which are scalable, versatile, and enjoy computational guarantees. However, some important problems -- such as risk minimization for infinite width two-layer neural networks, or sparse deconvolution -- are originally defined over the set of signed, rather than probability, measures. In this paper, we investigate how to extend the MFLD framework to convex optimization problems over signed measures. Among two known reductions from signed to probability measures -- the lifting and the bilevel approaches -- we show that the bilevel reduction leads to stronger guarantees and faster rates (at the price of a higher per-iteration complexity). In particular, we investigate the convergence rate of MFLD applied to the bilevel reduction in the low-noise regime and obtain two results. First, this dynamics is amenable to an annealing schedule, adapted from Suzuki et al. (2023), that results in improved convergence rates to a fixed multiplicative accuracy. Second, we investigate the problem of learning a single neuron with the bilevel approach and obtain local exponential convergence rates that depend polynomially on the dimension and noise level (to compare with the exponential dependence that would result from prior analyses). | 翻訳日:2024-06-26 18:40:56 公開日:2024-06-24 |
# 大規模言語モデルは、人々が実際より合理的であると仮定する
Large Language Models Assume People are More Rational than We Really are ( http://arxiv.org/abs/2406.17055v1 ) ライセンス: Link先を確認 | Ryan Liu, Jiayi Geng, Joshua C. Peterson, Ilia Sucholutsky, Thomas L. Griffiths, | (参考訳) AIシステムが人々と効果的にコミュニケーションするためには、意思決定方法を理解する必要があります。
しかし、人々の決定は必ずしも合理的であるとは限らないので、Large Language Models (LLM)における人間の意思決定の暗黙の内的モデルが、これを考慮しなければならない。
これまでの実証的な証拠は、これらの暗黙のモデルが正確であることを示唆しているようだ。
しかし、LLMの振る舞いと予測を人間の意思決定の大きなデータセットと比較すると、実際にはそうではないことが分かる。人々の選択をシミュレートし、予測する場合、最先端のLCM(GPT-4o、4-Turbo、Llama-3-8B、70B、Claude 3 Opus)のスイートは、人々が実際よりも合理的であると仮定する。
具体的には、これらのモデルは人間の行動から逸脱し、合理的選択の古典的なモデルである期待値理論とより密接に一致します。
興味深いことに、他人の振る舞いを解釈するとき、他人が合理的であると仮定する傾向がある。
その結果、LLMと人々が他の心理的データセットを用いて他人の判断から引き出す推論を比較すると、これらの推論は高い相関関係があることが判明した。
したがって、LCMの暗黙的な意思決定モデルは、人々が実際にどのように行動するかではなく、他の人が合理的に行動するという人間の期待と一致しているように見える。
In order for AI systems to communicate effectively with people, they must understand how we make decisions. However, people's decisions are not always rational, so the implicit internal models of human decision-making in Large Language Models (LLMs) must account for this. Previous empirical evidence seems to suggest that these implicit models are accurate -- LLMs offer believable proxies of human behavior, acting how we expect humans would in everyday interactions. However, by comparing LLM behavior and predictions to a large dataset of human decisions, we find that this is actually not the case: when both simulating and predicting people's choices, a suite of cutting-edge LLMs (GPT-4o & 4-Turbo, Llama-3-8B & 70B, Claude 3 Opus) assume that people are more rational than we really are. Specifically, these models deviate from human behavior and align more closely with a classic model of rational choice -- expected value theory. Interestingly, people also tend to assume that other people are rational when interpreting their behavior. As a consequence, when we compare the inferences that LLMs and people draw from the decisions of others using another psychological dataset, we find that these inferences are highly correlated. Thus, the implicit decision-making models of LLMs appear to be aligned with the human expectation that other people will act rationally, rather than with how people actually act. | 翻訳日:2024-06-26 18:40:56 公開日:2024-06-24 |
# 第一の視点:大規模なマルチモーダルモデルによる天体画像のゼロショット分類
At First Sight: Zero-Shot Classification of Astronomical Images with Large Multimodal Models ( http://arxiv.org/abs/2406.17057v1 ) ライセンス: Link先を確認 | Dimitrios Tanoglidis, Bhuvnesh Jain, | (参考訳) VLM(Vision-Language multimodal Models)は、天文学におけるゼロショット分類の可能性を提供する。
GPT-4oとLLaVA-NeXTの2つのモデルについて検討し、低表面輝度銀河と人工物のゼロショット分類と銀河の形態分類について検討した。
自然言語により、これらのモデルがトレーニングや微調整を伴わずに、かなりの精度(典型的には80%以上)を達成したことが示される。
本稿では,特にオープンソースモデルであるLLaVA-NeXTについて,改善を必要とする領域について論じる。
我々の研究は、VLMを研究と教育の両方の強力なツールとみなすために、天文学的なコミュニティを動機づけることを目的としている。
Vision-Language multimodal Models (VLMs) offer the possibility for zero-shot classification in astronomy: i.e. classification via natural language prompts, with no training. We investigate two models, GPT-4o and LLaVA-NeXT, for zero-shot classification of low-surface brightness galaxies and artifacts, as well as morphological classification of galaxies. We show that with natural language prompts these models achieved significant accuracy (above 80 percent typically) without additional training/fine tuning. We discuss areas that require improvement, especially for LLaVA-NeXT, which is an open source model. Our findings aim to motivate the astronomical community to consider VLMs as a powerful tool for both research and pedagogy, with the prospect that future custom-built or fine-tuned models could perform better. | 翻訳日:2024-06-26 18:40:56 公開日:2024-06-24 |
# ベイジアンディープICE
Bayesian Deep ICE ( http://arxiv.org/abs/2406.17058v1 ) ライセンス: Link先を確認 | Jyotishka Datta, Nicholas G. Polson, | (参考訳) ディープインディペンデントコンポーネント推定(DICE)は、機能エンジニアリング抽出法として、現代の機械学習に多くの応用がある。
本稿では,予測最大化(EM)とマルコフ・チェイン・モンテカルロ(MCMC)アルゴリズムによる全後方サンプリングによる両点推定が可能な,独立成分分析の潜在変数表現を提案する。
また,非線形特徴抽出のためのフローベース手法にも適用した。
本稿では,条件付き後部法とエンベロープ法を用いて最適化を行う方法について論じる。
この表現階層を通じて、多くの非結合推定手順を統一する。
数値的な例で方法論とアルゴリズムを解説する。
最後に,今後の研究の方向性について述べる。
Deep Independent Component Estimation (DICE) has many applications in modern day machine learning as a feature engineering extraction method. We provide a novel latent variable representation of independent component analysis that enables both point estimates via expectation-maximization (EM) and full posterior sampling via Markov Chain Monte Carlo (MCMC) algorithms. Our methodology also applies to flow-based methods for nonlinear feature extraction. We discuss how to implement conditional posteriors and envelope-based methods for optimization. Through this representation hierarchy, we unify a number of hitherto disjoint estimation procedures. We illustrate our methodology and algorithms on a numerical example. Finally, we conclude with directions for future research. | 翻訳日:2024-06-26 18:40:56 公開日:2024-06-24 |
# 量子臨界系における厳密に解決可能な非単位時間進化 I:複雑な時空メトリクスの影響
Exactly solvable non-unitary time evolution in quantum critical systems I: Effect of complex spacetime metrics ( http://arxiv.org/abs/2406.17059v1 ) ライセンス: Link先を確認 | Xueda Wen, | (参考訳) この一連の研究において、量子クエンチから時間依存駆動までの1次元量子クリティカルシステムにおいて、正確に解ける非単位時間進化について研究する。
この部分 I では、量子場理論における許容可能な複素時空測度に関する、Kontsevich と Segal [1] と Witten [2] の最近の研究に動機付けられている。
一般に、そのような複雑な時空のメトリクスは、単位でない時間進化をもたらす。
本研究では,そのような単位時間進化の普遍的特徴を,正確に解ける設定に基づいて検討する。
エンタングルメント・ハミルトンおよびエンタングルメントスペクトル、エンタングルメント・エントロピー、任意の時間におけるエネルギー密度を含む様々な物理量を正確に解くことができる。
複素時間による減衰効果により、初期状態の励起は時間とともに徐々に減衰する。
非平衡力学は、リアルタイム進化の場合と定性的に異なる普遍的な特徴を示す。
例えば、大域的クエンチ後の無限系の場合、半無限部分系の絡み合いエントロピーは、リアルタイム進化における線形成長とは対照的に、時間的に対数的に増加する。
さらに,時依存型量子臨界系を複素時空メトリクスで数値的に検討する。
ドライビングとダンピングの競合は, 興味深い絡み合い構造を持つ定常状態に繋がることがわかった。
In this series of works, we study exactly solvable non-unitary time evolutions in one-dimensional quantum critical systems ranging from quantum quenches to time-dependent drivings. In this part I, we are motivated by the recent works of Kontsevich and Segal [1] and Witten [2] on allowable complex spacetime metrics in quantum field theories. In general, such complex spacetime metrics will lead to non-unitary time evolutions. In this work, we study the universal features of such non-unitary time evolutions based on exactly solvable setups. Various physical quantities including entanglement Hamiltonian and entanglement spectrum, entanglement entropy, and energy density at an arbitrary time can be exactly solved. Due to the damping effect introduced by the complex time, the excitations in the initial state are gradually damped out in time. The non-equilibrium dynamics exhibits universal features that are qualitatively different from the case of real-time evolutions. For instance, for an infinite system after a global quench, the entanglement entropy of the semi-infinite subsystem will grow logarithmically in time, in contrast to the linear growth in a real-time evolution. Moreover, we study numerically the time-dependent driven quantum critical systems with allowable complex spacetime metrics. It is found that the competition between driving and damping leads to a steady state with an interesting entanglement structure. | 翻訳日:2024-06-26 18:40:56 公開日:2024-06-24 |
# 内蔵本モデルに結合したスピン鎖における自己組織化の量子指紋
Quantum fingerprints of self-organization in spin chains coupled to a Kuramoto model ( http://arxiv.org/abs/2406.17062v1 ) ライセンス: Link先を確認 | V. M. Bastidas, | (参考訳) フロッケ理論は周期駆動量子系の力学を記述するために広く用いられるフレームワークである。
このようなシステムを記述するための一般的な設定は、国際的にも地域的にも、関心のあるシステム上でも、一定期間の外部制御の効果を考慮することである。
しかし、周期性以外に、ドライブに古典的な相関や他のよく定義された構造は存在しない。
本研究では,創発的な対称性を持つ周期的定常状態に達する自己組織化現象を示すドライブについて考察する。
本研究の結果を裏付けるために,古典的倉本モデルに結合した横場における1次元量子スピン鎖の2つの例を考察する。
全対多結合の場合、倉本モデルはイジング鎖を創発的な翻訳対称性を持つ周期定常状態に駆動する。
Zig-zag格子の倉本モデルでは、XXスピン鎖はトリマー化され、ダイナミクスはトポロジカルポンピングを行うために利用可能なトポロジカルな挙動を示す。
この結果は、デジタルおよびアナログプラットフォームにおける短期量子デバイスで実験的に実装することができる。
Floquet theory is a widely used framework to describe the dynamics of periodically-driven quantum systems. The usual set up to describe such kind of systems is to consider the effect of an external control with a definite period in time that can act either globally or locally on the system of interest. However, besides the periodicity, there is no classical correlation or other well defined structures in the drive. In this work, we consider drives that exhibit self-organization phenomena reaching periodic steady states with emergent symmetries. To substantiate our results, we consider two examples of a one-dimensional quantum spin chains in a transverse field coupled to a classical Kuramoto model. In the case of all-to-tall coupling, the Kuramoto model drives the Ising chain into a time-periodic steady state with an emergent translational symmetry. For a Kuramoto model in a Zig-zag lattice, the XX spin chain is trimerized and the dynamics exhibit topological behavior that can be exploited to perform topological pumping. Our results can be experimentally implemented in near-term quantum devices in digital and analog platforms. | 翻訳日:2024-06-26 18:40:56 公開日:2024-06-24 |
# サイバー物理システムの逸脱に対する強化学習制御器の耐用性
Tolerance of Reinforcement Learning Controllers against Deviations in Cyber Physical Systems ( http://arxiv.org/abs/2406.17066v1 ) ライセンス: Link先を確認 | Changjian Zhang, Parv Kapoor, Eunsuk Kang, Romulo Meira-Goes, David Garlan, Akila Ganlath, Shatadal Mishra, Nejib Ammar, | (参考訳) 強化学習(RL)ベースのコントローラを備えたサイバー物理システム(CPS)は、自動運転車やIoT(Internet-of-Things)、スマートシティといった複雑な物理的環境にますます展開されている。
CPSの重要な性質は耐久性、すなわち、実際の動作における障害や不確実性によって安全に機能する能力である。
本稿では,STL(Signal Temporal Logic)を用いて規定された,制御器が所望のシステム要件を満たすことができるかを示す,新しい表現力の概念を提案する。
この定義に基づき, 与えられた要件に違反する小さな偏差の発見を伴って, 耐久ファルシフィケーション問題と呼ばれる新たな解析問題を提案する。
本稿では,2層シミュレーションに基づく新しい解析フレームワークと,小さな耐障害性違反を見つけるための探索ヒューリスティックを提案する。
提案手法を評価するために,システム内の不確実性や乱れの異なるタイプを表現するために,システムパラメータを設定可能なベンチマーク問題を構築した。
本評価は,本法とヒューリスティック法を併用することにより,許容範囲が小さくなることを示す。
Cyber-physical systems (CPS) with reinforcement learning (RL)-based controllers are increasingly being deployed in complex physical environments such as autonomous vehicles, the Internet-of-Things(IoT), and smart cities. An important property of a CPS is tolerance; i.e., its ability to function safely under possible disturbances and uncertainties in the actual operation. In this paper, we introduce a new, expressive notion of tolerance that describes how well a controller is capable of satisfying a desired system requirement, specified using Signal Temporal Logic (STL), under possible deviations in the system. Based on this definition, we propose a novel analysis problem, called the tolerance falsification problem, which involves finding small deviations that result in a violation of the given requirement. We present a novel, two-layer simulation-based analysis framework and a novel search heuristic for finding small tolerance violations. To evaluate our approach, we construct a set of benchmark problems where system parameters can be configured to represent different types of uncertainties and disturbancesin the system. Our evaluation shows that our falsification approach and heuristic can effectively find small tolerance violations. | 翻訳日:2024-06-26 18:40:56 公開日:2024-06-24 |
# 量子LDPC符号の集合ビットフリップに基づく復号
Collective Bit Flipping-Based Decoding of Quantum LDPC Codes ( http://arxiv.org/abs/2406.17070v1 ) ライセンス: Link先を確認 | Dimitris Chytas, Nithin Raveendran, Bane Vasić, | (参考訳) 量子低密度パリティチェック(QLDPC)符号は、表面符号よりも高い符号速度で高い最小距離を達成することが証明されている。
しかし、このコード群は、特に変数次数が低い場合、繰り返し復号化の下で、厳しいレイテンシ要件と性能を課している。
本研究では,繰り返し復号化による可変次数-3(dv-3)QLDPC符号の誤り訂正性能と復号遅延の両方を改善する。
まず、よく知られたQLDPCコード群、すなわちハイパーグラフ製品ベースのコードの構造を詳細に分析する。
そこで本研究では,これらのコードに見られる有害な構成の知識から,復号化アプローチを提案する。
我々の復号方式は、ビットフリップ(BF)復号法、すなわち2ビットビットフリップ(TBF)復号法を適用し、BF復号法にさらなる自由度を与える。
TBFデコードによって提供される粒度は、並列に動作するデコーダのセットを設計するのに役立ち、コードの有害な構成に現れるエラーパターンを集合的にデコードするので、レイテンシとパフォーマンスの要件の両方に対処できます。
最後に,提案手法が,様々なdv-3 QLDPC符号に対して,他の反復復号法より優れていることを示す。
Quantum low-density parity-check (QLDPC) codes have been proven to achieve higher minimum distances at higher code rates than surface codes. However, this family of codes imposes stringent latency requirements and poor performance under iterative decoding, especially when the variable degree is low. In this work, we improve both the error correction performance and decoding latency of variable degree-3 (dv-3) QLDPC codes under iterative decoding. Firstly, we perform a detailed analysis of the structure of a well-known family of QLDPC codes, i.e., hypergraph product-based codes. Then, we propose a decoding approach that stems from the knowledge of harmful configurations apparent in these codes. Our decoding scheme is based on applying a modified version of bit flipping (BF) decoding, namely two-bit bit flipping (TBF) decoding, which adds more degrees of freedom to BF decoding. The granularity offered by TBF decoding helps us design sets of decoders that operate in parallel and can collectively decode error patterns appearing in harmful configurations of the code, thus addressing both the latency and performance requirements. Finally, simulation results demonstrate that the proposed decoding scheme surpasses other iterative decoding approaches for various dv-3 QLDPC codes. | 翻訳日:2024-06-26 18:31:07 公開日:2024-06-24 |
# Meta-GCN:グラフニューラルネットワークにおけるデータ不均衡処理のための動的軽量損失最小化手法
Meta-GCN: A Dynamically Weighted Loss Minimization Method for Dealing with the Data Imbalance in Graph Neural Networks ( http://arxiv.org/abs/2406.17073v1 ) ライセンス: Link先を確認 | Mahdi Mohammadizadeh, Arash Mozhdehi, Yani Ioannou, Xin Wang, | (参考訳) 病気の予測や障害検出といった現実世界の多くの応用はクラス不均衡に悩まされているが、既存のグラフベースの分類手法はクラス分布の歪さを無視しているため、大多数のクラス(es)に偏っている傾向にある。
通常、従来の手法では、損失関数に基づいて各クラスサンプルに重みを割り当てることでこの問題に対処する。
本稿では, メタデータ集合の損失を最小化し, モデル重みを最小化することにより, サンプル重みを適応的に学習するメタGCNというメタ学習アルゴリズムを提案する。
実験により,Meta-GCNは,最先端のフレームワークや他のベースライン,受信動作特性(AUC-ROC)曲線下の領域,および2つの異なるデータセットの分類タスクに対するマクロF1-Scoreよりも優れていることを示した。
Although many real-world applications, such as disease prediction, and fault detection suffer from class imbalance, most existing graph-based classification methods ignore the skewness of the distribution of classes; therefore, tend to be biased towards the majority class(es). Conventional methods typically tackle this problem through the assignment of weights to each one of the class samples based on a function of their loss, which can lead to over-fitting on outliers. In this paper, we propose a meta-learning algorithm, named Meta-GCN, for adaptively learning the example weights by simultaneously minimizing the unbiased meta-data set loss and optimizing the model weights through the use of a small unbiased meta-data set. Through experiments, we have shown that Meta-GCN outperforms state-of-the-art frameworks and other baselines in terms of accuracy, the area under the receiver operating characteristic (AUC-ROC) curve, and macro F1-Score for classification tasks on two different datasets. | 翻訳日:2024-06-26 18:31:07 公開日:2024-06-24 |
# 3次元ガウススプラッティングにおけるメモリフットプリントの低減
Reducing the Memory Footprint of 3D Gaussian Splatting ( http://arxiv.org/abs/2406.17074v1 ) ライセンス: Link先を確認 | Panagiotis Papantonakis, Georgios Kopanas, Bernhard Kerbl, Alexandre Lanvin, George Drettakis, | (参考訳) 3Dガウススプラッティングは、高速なトレーニングとリアルタイムレンダリングにより、新しいビュー合成に優れた視覚的品質を提供するが、残念ながら、この手法の記憶要求は不当に高い。
まず,3次元ガウス的プリミティブの数,方向放射率を表す球面調和関数の係数数,ガウス的プリミティブ属性を記憶するのに要する精度の3つを解析した。
これらの問題のそれぞれに解決策を提示します。
まず,高効率で高解像度なプリミティブ・プルーニング手法を提案し,プリミティブ・カウントを半分に減らした。
第2に,ガウスプリミティブ毎の指向性ラディアンスを表す係数数を選択する適応調整法を導入し,さらにメモリ削減のための半フロート表現とともに,コードブックに基づく量子化法を提案する。
まとめると、これらの3つのコンポーネントは、テストした標準データセット上のディスク全体のサイズを27削減し、レンダリング速度が1.7スピードアップする。
提案手法を標準データセット上で実証し,モバイルデバイス上で使用する場合のダウンロード時間が大幅に短縮されることを示す。
3D Gaussian splatting provides excellent visual quality for novel view synthesis, with fast training and real-time rendering; unfortunately, the memory requirements of this method for storing and transmission are unreasonably high. We first analyze the reasons for this, identifying three main areas where storage can be reduced: the number of 3D Gaussian primitives used to represent a scene, the number of coefficients for the spherical harmonics used to represent directional radiance, and the precision required to store Gaussian primitive attributes. We present a solution to each of these issues. First, we propose an efficient, resolution-aware primitive pruning approach, reducing the primitive count by half. Second, we introduce an adaptive adjustment method to choose the number of coefficients used to represent directional radiance for each Gaussian primitive, and finally a codebook-based quantization method, together with a half-float representation for further memory reduction. Taken together, these three components result in a 27 reduction in overall size on disk on the standard datasets we tested, along with a 1.7 speedup in rendering speed. We demonstrate our method on standard datasets and show how our solution results in significantly reduced download times when using the method on a mobile device. | 翻訳日:2024-06-26 18:31:07 公開日:2024-06-24 |
# 周期境界条件付き隣接QCD$_2$の小さな円展開
Small Circle Expansion for Adjoint QCD$_2$ with Periodic Boundary Conditions ( http://arxiv.org/abs/2406.17079v1 ) ライセンス: Link先を確認 | Ross Dempsey, Igor R. Klebanov, Silviu S. Pufu, Benjamin T. Søgaard, | (参考訳) 我々は1+1$-次元 $\text{SU}(N)$ゲージ理論をマヨラナフェルミオンの1つの随伴多重項に結合し、円周の小さな空間円上で研究する。
周期境界条件を用いて、次数$(gL)^3$までの摂動理論におけるホロノミーの量子力学とフェルミオン零モードに対する効果的な作用を導出する。
随伴フェルミオン質量二乗が$g^2 N/(2\pi)$に調整されると、有効作用は非自明な超ポテンシャルを持つ超対称量子力学の例である。
状態は、$p=0, \ldots, N-1$とラベルされた中心対称性セクター(ユニバース)に分離し、あるセクターでは超対称性が破壊されず、他のセクターでは自然に破壊されることを示す。
これらの結果は、以前光円錐量子化を用いて確立された随伴QCD$_2$の1,1)$超対称性に関する新たな洞察を与える。
随伴質量が 0 となるとき、実効ハミルトニアンは全くフェルミオンに依存しないので、ヒルベルト空間の退化セクターが 2^{N-1}$ となる。
この構成は、ハミルトニアンと可換である 2^{2N-2}$ 作用素が存在するマスレスモデルの拡張対称性を明示的に実現しているように見える。
我々はまた、我々の結果を他のゲージ群 $G$ に一般化し、超対称性は随伴質量 2 乗の $g^2 h^\vee/(2\pi)$ で、$h^\vee$ は$G$ の双対コクセター数である。
We study $1+1$-dimensional $\text{SU}(N)$ gauge theory coupled to one adjoint multiplet of Majorana fermions on a small spatial circle of circumference $L$. Using periodic boundary conditions, we derive the effective action for the quantum mechanics of the holonomy and the fermion zero modes in perturbation theory up to order $(gL)^3$. When the adjoint fermion mass-squared is tuned to $g^2 N/(2\pi)$, the effective action is found to be an example of supersymmetric quantum mechanics with a nontrivial superpotential. We separate the states into the $\mathbb{Z}_N$ center symmetry sectors (universes) labeled by $p=0, \ldots, N-1$ and show that in one of the sectors the supersymmetry is unbroken, while in the others it is broken spontaneously. These results give us new insights into the $(1,1)$ supersymmetry of adjoint QCD$_2$, which has previously been established using light-cone quantization. When the adjoint mass is set to zero, our effective Hamiltonian does not depend on the fermions at all, so that there are $2^{N-1}$ degenerate sectors of the Hilbert space. This construction appears to provide an explicit realization of the extended symmetry of the massless model, where there are $2^{2N-2}$ operators that commute with the Hamiltonian. We also generalize our results to other gauge groups $G$, for which supersymmetry is found at the adjoint mass-squared $g^2 h^\vee/(2\pi)$, where $h^\vee$ is the dual Coxeter number of $G$. | 翻訳日:2024-06-26 18:31:07 公開日:2024-06-24 |
# 3次元医用画像分割と可視化のためのトランスフォーマー・畳み込みネットワーク(MFTC-Net)のマルチアパーチャ融合
Multi-Aperture Fusion of Transformer-Convolutional Network (MFTC-Net) for 3D Medical Image Segmentation and Visualization ( http://arxiv.org/abs/2406.17080v1 ) ライセンス: Link先を確認 | Siyavash Shabani, Muhammad Sohaib, Sahar A. Mohammed, Bahram Parvin, | (参考訳) ビジョントランスフォーマーは、多くのビジョンアプリケーションにおいて従来の畳み込みベースのフレームワークよりも優れた性能を示しており、3D医療画像のセグメンテーションに限らない。
この領域をさらに進めるために,Swin Transformerとそれに対応する畳み込みブロックの出力を3次元融合ブロックを用いて統合するMFTC-Net(Multi-Aperture Fusion of Transformer-Convolutional Network)を導入する。
Multi-Apertureは、個々のイメージパッチを元の解像度に、ピラミッド表現を組み込んで、細部をよりよく保存する。
提案したアーキテクチャでは,Synapseマルチオーガナイズデータセットにおいて,DiceとHD95のスコアが89.73,HD95が7.31であった。
改善されたパフォーマンスには、約4000万のパラメータの複雑さを減らしたメリットもある。
私たちのコードはhttps://github.com/Siyavashshabani/MFTC-Netで利用可能です。
Vision Transformers have shown superior performance to the traditional convolutional-based frameworks in many vision applications, including but not limited to the segmentation of 3D medical images. To further advance this area, this study introduces the Multi-Aperture Fusion of Transformer-Convolutional Network (MFTC-Net), which integrates the output of Swin Transformers and their corresponding convolutional blocks using 3D fusion blocks. The Multi-Aperture incorporates each image patch at its original resolutions with its pyramid representation to better preserve minute details. The proposed architecture has demonstrated a score of 89.73 and 7.31 for Dice and HD95, respectively, on the Synapse multi-organs dataset an improvement over the published results. The improved performance also comes with the added benefits of the reduced complexity of approximately 40 million parameters. Our code is available at https://github.com/Siyavashshabani/MFTC-Net | 翻訳日:2024-06-26 18:31:07 公開日:2024-06-24 |
# BrainMAE:脳信号のための地域対応自己教師型学習フレームワーク
BrainMAE: A Region-aware Self-supervised Learning Framework for Brain Signals ( http://arxiv.org/abs/2406.17086v1 ) ライセンス: Link先を確認 | Yifan Yang, Yutong Mao, Xufu Liu, Xiao Liu, | (参考訳) ヒト脳は複雑な動的ネットワークであり、機能的磁気共鳴イメージング(fMRI)を用いて一般的に研究され、様々な脳機能を理解するための関心領域ネットワーク(ROI)としてモデル化されている。
近年の研究では、機能的接続(FC)プロファイルに基づいた脳ネットワーク表現の深層学習手法が広く2つのカテゴリに分類されている。
脳ネットワーク内の線形時間的関係を表すFCプロファイルを利用するFixed-FCアプローチは、情報的脳時間的ダイナミクスを捉えないことによって制限される。
一方、時間とともに進化するFCプロファイルをモデル化するDynamic-FCアプローチは、fMRIデータ固有のノイズの性質に対処する上での課題のため、しばしば満足度が低い。
これらの課題に対処するために、fMRI時系列データから直接表現を学習するためのBrain Masked Auto-Encoder (BrainMAE)を提案する。
提案手法は2つの重要な要素を包含する: 異なる脳ROI間の関係を捉えるために設計された領域対応グラフアテンション機構と、効果的なモデル事前学習のための新しい自己教師付きマスク自動符号化フレームワークである。
これらのコンポーネントにより、fMRIデータに固有のノイズに対する耐性を維持しながら、モデルが脳活動の豊富な時間的ダイナミクスを捉えることができる。
実験の結果、BrainMAEは4つの異なる下流タスクにおいて、確立された基準手法を著しく上回っていることがわかった。
最後に、モデル固有の解釈可能性を活用して、モデル生成表現の分析により、神経科学の分野で現在進行中の研究と調和する研究結果が明らかになった。
The human brain is a complex, dynamic network, which is commonly studied using functional magnetic resonance imaging (fMRI) and modeled as network of Regions of interest (ROIs) for understanding various brain functions. Recent studies utilize deep learning approaches to learn the brain network representation based on functional connectivity (FC) profile, broadly falling into two main categories. The Fixed-FC approaches, utilizing the FC profile which represents the linear temporal relation within the brain network, are limited by failing to capture informative brain temporal dynamics. On the other hand, the Dynamic-FC approaches, modeling the evolving FC profile over time, often exhibit less satisfactory performance due to challenges in handling the inherent noisy nature of fMRI data. To address these challenges, we propose Brain Masked Auto-Encoder (BrainMAE) for learning representations directly from fMRI time-series data. Our approach incorporates two essential components: a region-aware graph attention mechanism designed to capture the relationships between different brain ROIs, and a novel self-supervised masked autoencoding framework for effective model pre-training. These components enable the model to capture rich temporal dynamics of brain activity while maintaining resilience to inherent noise in fMRI data. Our experiments demonstrate that BrainMAE consistently outperforms established baseline methods by significant margins in four distinct downstream tasks. Finally, leveraging the model's inherent interpretability, our analysis of model-generated representations reveals findings that resonate with ongoing research in the field of neuroscience. | 翻訳日:2024-06-26 18:31:07 公開日:2024-06-24 |
# Lomas: プライベートデータの機密解析のためのプラットフォーム
Lomas: A Platform for Confidential Analysis of Private Data ( http://arxiv.org/abs/2406.17087v1 ) ライセンス: Link先を確認 | Damien Aymon, Dan-Thuy Lam, Lancelot Marti, Pauline Maury-Laribière, Christine Choirat, Raphaël de Fondeville, | (参考訳) 公共サービスは、ミッションを達成するために大量のデータを集めます。
これらのデータは、様々な分野にわたる地域、国家、国際統計の創出に寄与している。
しかし、厳格で合法的なプライバシー規制のために、その大きな可能性はほとんど失われていない。
この文脈において、Lomasは、行政が保持するデータの潜在能力をフルに実現するために設計された、新しいオープンソースプラットフォームである。
承認された研究者や政府アナリストなどの認可されたユーザは、データに直接アクセスすることなく、機密データセット上でアルゴリズムを実行することができる。
Lomasプラットフォームは、政府のITインフラストラクチャなど、信頼できるコンピューティング環境内で運用するために設計されている。
認証されたユーザは、リモートでプラットフォームにアクセスして、プライベートデータセット上で実行するためのアルゴリズムを送信します。
Lomasはデータをユーザに公開せずにこれらのアルゴリズムを実行し、制御されたノイズを結果に導入するフレームワークである差分プライバシーによって保護された結果を返す。
微分プライバシーは、データの保護と利用に関する完全な透明性を確保しながら、開示のリスクの数学的定量化と制御を可能にする。
このプロジェクトのコントリビューションは、公開サービスが保持するデータの使用方法を大きく変え、これまでアクセス不能だったデータから貴重な洞察を解放する。
Lomasは、研究、政策開発、例えば公衆衛生介入、セクター間のイノベーションの推進、そして、最高レベルのデータ機密基準の維持に力を入れている。
Public services collect massive volumes of data to fulfill their missions. These data fuel the generation of regional, national, and international statistics across various sectors. However, their immense potential remains largely untapped due to strict and legitimate privacy regulations. In this context, Lomas is a novel open-source platform designed to realize the full potential of the data held by public administrations. It enables authorized users, such as approved researchers and government analysts, to execute algorithms on confidential datasets without directly accessing the data. The Lomas platform is designed to operate within a trusted computing environment, such as governmental IT infrastructure. Authorized users access the platform remotely to submit their algorithms for execution on private datasets. Lomas executes these algorithms without revealing the data to the user and returns the results protected by Differential Privacy, a framework that introduces controlled noise to the results, rendering any attempt to extract identifiable information unreliable. Differential Privacy allows for the mathematical quantification and control of the risk of disclosure while allowing for a complete transparency regarding how data is protected and utilized. The contributions of this project will significantly transform how data held by public services are used, unlocking valuable insights from previously inaccessible data. Lomas empowers research, informing policy development, e.g., public health interventions, and driving innovation across sectors, all while upholding the highest data confidentiality standards. | 翻訳日:2024-06-26 18:31:07 公開日:2024-06-24 |
# ベイジアンネットワーク解析による1型糖尿病と2型糖尿病のバイオマーカー関係の探索
Exploring Biomarker Relationships in Both Type 1 and Type 2 Diabetes Mellitus Through a Bayesian Network Analysis Approach ( http://arxiv.org/abs/2406.17090v1 ) ライセンス: Link先を確認 | Yuyang Sun, Jingyu Lei, Panagiotis Kosmas, | (参考訳) 糖尿病研究におけるバイオマーカーの複雑な関係を理解することは、治療戦略を進める上で重要である。
本研究は,上海1型および2型糖尿病データセットの解析にベイズネットワーク構造学習を適用し,主要な糖尿病関連バイオマーカー間の複雑な関係を明らかにする。
構築されたベイジアンネットワークは、特に2型糖尿病に対する顕著な予測精度を示し、18.23 mg/dLのルート平均二乗誤差(RMSE)は、離脱1ドメイン実験とクラーク誤差グリッド分析によって検証された。
本研究は,バイオマーカーの相互作用を深く理解することで糖尿病の複雑なダイナミクスを解明するだけでなく,パーソナライズされた糖尿病管理の領域において,データ駆動型および知識駆動型方法論を統合することの意義を浮き彫りにしている。
このようなアプローチは、よりカスタムで効果的な治療戦略の道を開くもので、この分野における顕著な進歩を示している。
Understanding the complex relationships of biomarkers in diabetes is pivotal for advancing treatment strategies, a pressing need in diabetes research. This study applies Bayesian network structure learning to analyze the Shanghai Type 1 and Type 2 diabetes mellitus datasets, revealing complex relationships among key diabetes-related biomarkers. The constructed Bayesian network presented notable predictive accuracy, particularly for Type 2 diabetes mellitus, with root mean squared error (RMSE) of 18.23 mg/dL, as validated through leave-one-domain experiments and Clarke error grid analysis. This study not only elucidates the intricate dynamics of diabetes through a deeper understanding of biomarker interplay but also underscores the significant potential of integrating data-driven and knowledge-driven methodologies in the realm of personalized diabetes management. Such an approach paves the way for more custom and effective treatment strategies, marking a notable advancement in the field. | 翻訳日:2024-06-26 18:31:07 公開日:2024-06-24 |
# BEEAR:教育訓練言語モデルにおける組込み型安全バックドアの逆除去
BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models ( http://arxiv.org/abs/2406.17092v1 ) ライセンス: Link先を確認 | Yi Zeng, Weiyu Sun, Tran Ngoc Huynh, Dawn Song, Bo Li, Ruoxi Jia, | (参考訳) 大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
トークン空間における潜在的なトリガーの高次元性と様々な悪意ある振る舞いは、これを重大な課題にしている。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
実験によると、BEEARは、モデルユーティリティを損なうことなく、悪意のあるコード生成をターゲットとした命令チューニング時間バックドアにおいて、RLHF時間バックドア攻撃の成功率を95%から1%に、そして47%から0%に下げる。
BEEARは、防衛者が定義した安全で望まない行動のみを必要とするため、LLMの安全バックドアに対する実践的な防御に向けた一歩であり、AIの安全性とセキュリティのさらなる進歩の基盤となっている。
Safety backdoor attacks in large language models (LLMs) enable the stealthy triggering of unsafe behaviors while evading detection during normal interactions. The high dimensionality of potential triggers in the token space and the diverse range of malicious behaviors make this a critical challenge. We present BEEAR, a mitigation approach leveraging the insight that backdoor triggers induce relatively uniform drifts in the model's embedding space. Our bi-level optimization method identifies universal embedding perturbations that elicit unwanted behaviors and adjusts the model parameters to reinforce safe behaviors against these perturbations. Experiments show BEEAR reduces the success rate of RLHF time backdoor attacks from >95% to <1% and from 47% to 0% for instruction-tuning time backdoors targeting malicious code generation, without compromising model utility. Requiring only defender-defined safe and unwanted behaviors, BEEAR represents a step towards practical defenses against safety backdoors in LLMs, providing a foundation for further advancements in AI safety and security. | 翻訳日:2024-06-26 18:31:07 公開日:2024-06-24 |
# ammBoost: AMMのための状態成長制御
ammBoost: State Growth Control for AMMs ( http://arxiv.org/abs/2406.17094v1 ) ライセンス: Link先を確認 | Nicholas Michel, Mohamed E. Najd, Ghada Almashaqbeh, | (参考訳) AMM(Automated Marketmaker)は、分散型暗号通貨取引所の一種であり、分散金融(DeFi)アプリケーションの主要な例と考えられている。
その人気と高いトレーディング活動により、数百万のオンチェーントランザクションが深刻なスケーラビリティの問題を引き起こしました。
本稿では,新しいサイドチェーンアーキテクチャをレイヤ2ソリューションとして利用し,AmmBoostと呼ばれるシステムを構築することで,AMMのオンチェーンストレージオーバーヘッド問題に対処する。
私たちのシステムは、オンチェーントランザクションの量を削減し、スループットを向上し、ブロックチェーンプルーニングをサポートします。
我々は,基盤となるAMMの正当性とセキュリティを維持しつつ,AMMのレイヤ2処理を可能にするいくつかの手法を考案した。
また、Unixwapにインスパイアされたユースケースに対して、AmmBoostの概念実証を作成し、その性能を実証的に評価する。
実験の結果,AmmBoostはガスコストを94.53%削減し,少なくとも80%削減できることがわかった。
Automated market makers (AMMs) are a form of decentralized cryptocurrency exchanges and considered a prime example of Decentralized Finance (DeFi) applications. Their popularity and high trading activity have resulted in millions of on-chain transactions leading to serious scalability issues. In this paper, we address the on-chain storage overhead problem of AMMs by utilizing a new sidechain architecture as a layer 2 solution, building a system called ammBoost. Our system reduces the amount of on-chain transactions, boosts throughput, and supports blockchain pruning. We devise several techniques to enable layer 2 processing for AMMs while preserving correctness and security of the underlying AMM. We also build a proof-of-concept of ammBoost for a Uniswap-inspired use case to empirically evaluate its performance. Our experiments show that ammBoost decreases the gas cost by 94.53% and the chain growth by at least 80%, and that it can support up to 500x of the daily traffic volume observed for Uniswap in practice. | 翻訳日:2024-06-26 18:31:07 公開日:2024-06-24 |
# 注意指示: プロンプティングによる中産階級の注意力向上
Attention Instruction: Amplifying Attention in the Middle via Prompting ( http://arxiv.org/abs/2406.17095v1 ) ライセンス: Link先を確認 | Meiru Zhang, Zaiqiao Meng, Nigel Collier, | (参考訳) 大きな言語モデルのコンテキストウィンドウは128k以上のトークンに拡張されている。
しかし、言語モデルはいまだ位置バイアスに悩まされており、注意の欠如により、コンテキストの中央へのアクセスと使用が困難である。
本研究では,LSMの相対的位置認識と,プロンプトによる不均等注意の軽減の可能性について検討した。
元のタスク命令を$\texttt{attention instructions}$で拡張します。
我々は、位置ベースとインデックスベースの両方の指示を用いて、多文書質問応答タスクを包括的に調査する。
言語モデルには文脈に対する相対的な位置認識がないことがわかった。
それでも、マッチングインデックスを使用して特定のセグメントに注意を向ける能力を示す。
我々の分析は、LLMにおける位置バイアスのより深い理解に寄与し、このバイアスを命令によって緩和する経路を提供する。
The context window of large language models has been extended to 128k tokens or more. However, language models still suffer from position bias and have difficulty in accessing and using the middle part of the context due to the lack of attention. We examine the relative position awareness of LLMs and the feasibility of mitigating disproportional attention through prompting. We augment the original task instruction with $\texttt{attention instructions}$ that direct language models to allocate more attention towards a selected segment of the context. We conduct a comprehensive investigation on multi-document question answering task with both position-based and index-based instructions. We find that language models do not have relative position awareness of the context. Nevertheless, they demonstrate the capacity to adapt attention to a specific segment using matching indexes. Our analysis contributes to a deeper understanding of position bias in LLMs and provides a pathway to mitigate this bias by instruction, thus benefiting LLMs in locating and utilizing relevant information from retrieved documents in RAG applications. | 翻訳日:2024-06-26 18:31:07 公開日:2024-06-24 |
# サンプル複雑度解析を用いたモデル自由ロバスト強化学習
Model-Free Robust Reinforcement Learning with Sample Complexity Analysis ( http://arxiv.org/abs/2406.17096v1 ) ライセンス: Link先を確認 | Yudan Wang, Shaofeng Zou, Yue Wang, | (参考訳) 分散ロバスト強化学習(DR-RL)は、予め定義された不確実性セット内で最悪のパフォーマンスを最適化するポリシーを導出することを目的としている。
大規模な研究にもかかわらず、従来のDR-RLアルゴリズムは主にモデルベースのアプローチを好んでおり、収束保証やサンプル複雑度を提供するモデルフリーな手法は限られている。
本稿では,Multi-level Monte Carlo (MLMC) 技術を利用したモデルフリーDR-RLアルゴリズムを提案する。
我々の革新的なアプローチは、アルゴリズム実装の有限サンプル要求を保証するしきい値機構を統合しており、従来のモデルフリーアルゴリズムよりも大幅に改善されている。
我々は,全変分,チ二乗発散,KL発散によって定義される不確実性集合のアルゴリズムを開発し,全3症例で有限サンプル解析を行う。
また,本アルゴリズムは,KL分散モデルに対する既存のモデルフリーDR-RLアルゴリズムと比較して,サンプルの複雑さと適用性の向上を図りながら,全変量に対する有限サンプル複雑性とChi-square分散不確実性セットを特徴とする最初のモデルフリーDR-RL手法である。
本手法の複雑さは、モデルフリーDR-RLにおける3つの不確実性モデルすべてに対して最も厳密な結果を確立し、アルゴリズムの有効性と効率を実証し、実用的応用の可能性を強調している。
Distributionally Robust Reinforcement Learning (DR-RL) aims to derive a policy optimizing the worst-case performance within a predefined uncertainty set. Despite extensive research, previous DR-RL algorithms have predominantly favored model-based approaches, with limited availability of model-free methods offering convergence guarantees or sample complexities. This paper proposes a model-free DR-RL algorithm leveraging the Multi-level Monte Carlo (MLMC) technique to close such a gap. Our innovative approach integrates a threshold mechanism that ensures finite sample requirements for algorithmic implementation, a significant improvement than previous model-free algorithms. We develop algorithms for uncertainty sets defined by total variation, Chi-square divergence, and KL divergence, and provide finite sample analyses under all three cases. Remarkably, our algorithms represent the first model-free DR-RL approach featuring finite sample complexity for total variation and Chi-square divergence uncertainty sets, while also offering an improved sample complexity and broader applicability compared to existing model-free DR-RL algorithms for the KL divergence model. The complexities of our method establish the tightest results for all three uncertainty models in model-free DR-RL, underscoring the effectiveness and efficiency of our algorithm, and highlighting its potential for practical applications. | 翻訳日:2024-06-26 18:31:07 公開日:2024-06-24 |
# 時間的距離の学習: コントラスト的継承的特徴は意思決定のための計量構造を提供することができる
Learning Temporal Distances: Contrastive Successor Features Can Provide a Metric Structure for Decision-Making ( http://arxiv.org/abs/2406.17098v1 ) ライセンス: Link先を確認 | Vivek Myers, Chongyi Zheng, Anca Dragan, Sergey Levine, Benjamin Eysenbach, | (参考訳) 時間的距離は、目標を達成するための計画、制御、強化学習のための多くのアルゴリズムの中心にあり、2つの州間の移動時間を見積もることができる。
しかし、そのような時間的距離を確率的設定で定義する以前の試みは、重要な制限によって、その事前のアプローチは三角形の不等式を満足していない。
これは単に定義上の関心事ではなく、最も短い経路の一般化と発見ができないことを意味する。
本稿では, 比較学習と準計量学における先行研究に基づいて, 比較学習によって学習された後継特徴が, 確率的設定においても, 三角形の不等式を満たす時間的距離をいかに形成するかを示す。
重要なことは、この時間的距離は、高次元および確率的な設定であっても、推定に計算的に効率的である。
制御された設定とベンチマークスイートの実験では、これらの新しい時間距離に基づくRLアルゴリズムが組合せ一般化(すなわち「スティッチング」)を示し、準距離に基づくアルゴリズムを含む従来の手法よりも高速に学習できることが示されている。
Temporal distances lie at the heart of many algorithms for planning, control, and reinforcement learning that involve reaching goals, allowing one to estimate the transit time between two states. However, prior attempts to define such temporal distances in stochastic settings have been stymied by an important limitation: these prior approaches do not satisfy the triangle inequality. This is not merely a definitional concern, but translates to an inability to generalize and find shortest paths. In this paper, we build on prior work in contrastive learning and quasimetrics to show how successor features learned by contrastive learning (after a change of variables) form a temporal distance that does satisfy the triangle inequality, even in stochastic settings. Importantly, this temporal distance is computationally efficient to estimate, even in high-dimensional and stochastic settings. Experiments in controlled settings and benchmark suites demonstrate that an RL algorithm based on these new temporal distances exhibits combinatorial generalization (i.e., "stitching") and can sometimes learn more quickly than prior methods, including those based on quasimetrics. | 翻訳日:2024-06-26 18:31:07 公開日:2024-06-24 |
# テキスト・画像生成における顔品質向上のための微調整拡散モデル
Fine-tuning Diffusion Models for Enhancing Face Quality in Text-to-image Generation ( http://arxiv.org/abs/2406.17100v1 ) ライセンス: Link先を確認 | Zhenyi Liao, Qingsong Xie, Chen Chen, Hannan Lu, Zhijie Deng, | (参考訳) 拡散モデル(DM)は、テキスト記述が与えられた想像的画像の生成において大きな成功を収めた。
しかし、複雑な細部を持つ現実のシナリオでは不足する可能性があり、テキスト・ツー・画像生成における低品質で非現実的な人間の顔は最も顕著な問題の1つであり、実際にDMが広く適用されるのを妨げている。
このような問題に対処するために、まず、人間のアノテータの助けを借りて、一般的な訓練済みDMから世代ごとの顔の質を評価し、その後、人間の判断により、ImageReward、Human Preference Score、Aesthetic Score Predictor、Face Quality Assessmentなどの既存の指標の整合性を評価する。
既存のメトリクスが顔の質の定量化に不満足であることを確認するため、DMの塗装パイプラインによって安価に製作された(良い、悪い)顔ペアのデータセットに基づいて、ImageRewardを微調整することで、Face Score(FS)と呼ばれる新しいメトリクスを開発する。
大規模な研究により、FSは人間に優越していることが明らかとなった。
一方、FSはより優れた顔生成のためにDMを精製する扉を開く。
これを実現するために、上述した顔対の認知軌跡の誘導損失を、安定拡散V1.5やリアルビジョンV5.1のような微調整済みのDMに組み込む。
直感的には、そのような損失は悪い顔の軌道を良い顔の軌道に押し付ける。
総合的な実験により,顔の質を向上させるためのアプローチの有効性が検証された。
Diffusion models (DMs) have achieved significant success in generating imaginative images given textual descriptions. However, they are likely to fall short when it comes to real-life scenarios with intricate details.The low-quality, unrealistic human faces in text-to-image generation are one of the most prominent issues, hindering the wide application of DMs in practice. Targeting addressing such an issue, we first assess the face quality of generations from popular pre-trained DMs with the aid of human annotators and then evaluate the alignment between existing metrics such as ImageReward, Human Preference Score, Aesthetic Score Predictor, and Face Quality Assessment, with human judgments. Observing that existing metrics can be unsatisfactory for quantifying face quality, we develop a novel metric named Face Score (FS) by fine-tuning ImageReward on a dataset of (good, bad) face pairs cheaply crafted by an inpainting pipeline of DMs. Extensive studies reveal that FS enjoys a superior alignment with humans. On the other hand, FS opens up the door for refining DMs for better face generation. To achieve this, we incorporate a guidance loss on the denoising trajectories of the aforementioned face pairs for fine-tuning pre-trained DMs such as Stable Diffusion V1.5 and Realistic Vision V5.1. Intuitively, such a loss pushes the trajectory of bad faces toward that of good ones. Comprehensive experiments verify the efficacy of our approach for improving face quality while preserving general capability. | 翻訳日:2024-06-26 18:31:07 公開日:2024-06-24 |
# フェデレーションラーニングにおける地域・グローバルモデル間の公正性獲得
Achieving Fairness Across Local and Global Models in Federated Learning ( http://arxiv.org/abs/2406.17102v1 ) ライセンス: Link先を確認 | Disha Makhija, Xing Han, Joydeep Ghosh, Yejin Kim, | (参考訳) フェデレートラーニング(FL)における多様なクライアント間の公正性を達成することは、データの均一性と、クライアントのプライベートデータセットから機密属性がアクセスできないため、依然として大きな課題である。
本研究は,フェデレート学習環境における局所的・グローバル的公正性の向上を目的とした,新しいアプローチである「texttt{EquiFL}」を導入することでこの問題に対処する。
\texttt{EquiFL} は局所最適化目標にフェアネス項を組み込み、局所的な性能とフェアネスを効果的にバランスさせる。
提案した調整機構は、協調フェーズ中にクライアント間でバイアスが伝播するのを防ぐ。
複数のベンチマークにまたがる広範囲な実験を通して、 \texttt{EquiFL} は各クライアントの精度と公平性のバランスを良くするだけでなく、グローバル公正性も達成できることを示した。
その結果, クライアント間の均一な性能分布が保証され, 性能の公平性に寄与することが示唆された。
さらに,医療アプリケーションからリアルタイムに分散したデータセットに \texttt{EquiFL} の利点を示す。
Achieving fairness across diverse clients in Federated Learning (FL) remains a significant challenge due to the heterogeneity of the data and the inaccessibility of sensitive attributes from clients' private datasets. This study addresses this issue by introducing \texttt{EquiFL}, a novel approach designed to enhance both local and global fairness in federated learning environments. \texttt{EquiFL} incorporates a fairness term into the local optimization objective, effectively balancing local performance and fairness. The proposed coordination mechanism also prevents bias from propagating across clients during the collaboration phase. Through extensive experiments across multiple benchmarks, we demonstrate that \texttt{EquiFL} not only strikes a better balance between accuracy and fairness locally at each client but also achieves global fairness. The results also indicate that \texttt{EquiFL} ensures uniform performance distribution among clients, thus contributing to performance fairness. Furthermore, we showcase the benefits of \texttt{EquiFL} in a real-world distributed dataset from a healthcare application, specifically in predicting the effects of treatments on patients across various hospital locations. | 翻訳日:2024-06-26 18:31:07 公開日:2024-06-24 |
# 残響雑音環境における音方向の最大近似推定
Maximum Likelihood Estimation of the Direction of Sound In A Reverberant Noisy Environment ( http://arxiv.org/abs/2406.17103v1 ) ライセンス: Link先を確認 | Mohamed F. Mansour, | (参考訳) 残響環境における音の方向を音の伝搬の基本原理から推定する新しい手法について述べる。
本手法は,観測音場の音波分解後の方向成分の時間遅延とエネルギーからSNR適応特性を利用して,雑音および残響条件下での視線方向を推定する。
アプローチの有効性は、様々な使用シナリオ下で異なるマイクロホンアレイ構成の実データを用いて確立される。
We describe a new method for estimating the direction of sound in a reverberant environment from basic principles of sound propagation. The method utilizes SNR-adaptive features from time-delay and energy of the directional components after acoustic wave decomposition of the observed sound field to estimate the line-of-sight direction under noisy and reverberant conditions. The effectiveness of the approach is established with real-data of different microphone array configurations under various usage scenarios. | 翻訳日:2024-06-26 18:21:22 公開日:2024-06-24 |
# 安全分類器の自動対向探索
Automated Adversarial Discovery for Safety Classifiers ( http://arxiv.org/abs/2406.17104v1 ) ライセンス: Link先を確認 | Yash Kumar Lal, Preethi Lahoti, Aradhana Sinha, Yao Qin, Ananth Balashankar, | (参考訳) 安全分類器は、ソーシャルメディアやチャットボットなどのオンラインフォーラムにおける毒性の軽減に重要である。
それでも、彼らは創発的で、しばしば無数の敵攻撃に対して脆弱である。
しかし、従来の自動対向データ生成手法は、多様ではなく、以前に観察された害の種類の違いによる攻撃を引き起こす傾向にある。
我々は、安全分類器の自動敵発見のタスクを形式化し、分類器の新たな弱点を露呈する未確認の害次元に沿って新しい攻撃を見つける。
2つのキー軸に沿ってこのタスクの進捗を計測する(1) 敵的成功: 攻撃は分類器を騙しているのか?
そして (2) 次元の多様性: 攻撃は以前見えなかった害のタイプを表すか?
我々のCivilComments toxicityタスクにおける既存の攻撃生成手法の評価は,その限界を明らかにしている: 単語摂動攻撃は,誤分類に失敗する一方,プロンプトベースのLSM攻撃は,より敵意的な成功を収めるが,次元的多様性は欠如している。
我々の最も優れたプロンプトベースの手法でさえ、目に見えない攻撃の被害次元に対する新たな攻撃が成功するのは5倍である。
新しい有害な攻撃の次元を自動で見つけることは極めて重要であり、我々の新しい課題に関する今後の研究に十分な基礎がある。
Safety classifiers are critical in mitigating toxicity on online forums such as social media and in chatbots. Still, they continue to be vulnerable to emergent, and often innumerable, adversarial attacks. Traditional automated adversarial data generation methods, however, tend to produce attacks that are not diverse, but variations of previously observed harm types. We formalize the task of automated adversarial discovery for safety classifiers - to find new attacks along previously unseen harm dimensions that expose new weaknesses in the classifier. We measure progress on this task along two key axes (1) adversarial success: does the attack fool the classifier? and (2) dimensional diversity: does the attack represent a previously unseen harm type? Our evaluation of existing attack generation methods on the CivilComments toxicity task reveals their limitations: Word perturbation attacks fail to fool classifiers, while prompt-based LLM attacks have more adversarial success, but lack dimensional diversity. Even our best-performing prompt-based method finds new successful attacks on unseen harm dimensions of attacks only 5\% of the time. Automatically finding new harmful dimensions of attack is crucial and there is substantial headroom for future research on our new task. | 翻訳日:2024-06-26 18:21:22 公開日:2024-06-24 |
# GMT:リーフインスタンスセグメンテーション用ガイドマスクトランス
GMT: Guided Mask Transformer for Leaf Instance Segmentation ( http://arxiv.org/abs/2406.17109v1 ) ライセンス: Link先を確認 | Feng Chen, Sotirios A. Tsaftaris, Mario Valerio Giuffrida, | (参考訳) 葉のインスタンスのセグメンテーションは、植物のイメージの中で各葉を分離・デライン化することを目的とした、難易度の高いマルチインスタンスセグメンテーションタスクである。
植物生育のきめ細かいモニタリングや収量推定など、生物学関連のいくつかの応用において、葉のデライン化は必須の課題である。
この作業は、インスタンスの自己相似性が高い(類似した形状と色)ことと、重度咬合下でのインスタンスの大きさが大きく異なるため、困難である。
上記の課題を克服する鍵は、葉の分布の空間的パターンにあると我々は信じている。
例えば、葉は通常、植物の中心の周りに成長し、小さな葉が群がり、この中心付近で重なり合う。
本稿では,GPE,GEFM,GDPQの3つの主要コンポーネントを含むGMTと呼ばれる新しい手法を提案し,Mask2Formerのメタアーキテクチャを拡張し,調和ガイド関数を組み込む。
これらのガイド関数は、インスタンスのピクセル位置に合わせて調整され、埋め込み空間内の別々のインスタンスを分離するように訓練される。
提案されたGMTは、3つのパブリックプラントデータセット上で、常にState-of-the-Artモデルを上回っている。
Leaf instance segmentation is a challenging multi-instance segmentation task, aiming to separate and delineate each leaf in an image of a plant. The delineation of each leaf is a necessary prerequisite task for several biology-related applications such as the fine-grained monitoring of plant growth, and crop yield estimation. The task is challenging because self-similarity of instances is high (similar shape and colour) and instances vary greatly in size under heavy occulusion. We believe that the key to overcoming the aforementioned challenges lies in the specific spatial patterns of leaf distribution. For example, leaves typically grow around the plant's center, with smaller leaves clustering and overlapped near this central point. In this paper, we propose a novel approach named Guided Mask Transformer (GMT), which contains three key components, namely Guided Positional Encoding (GPE), Guided Embedding Fusion Module (GEFM) and Guided Dynamic Positional Queries (GDPQ), to extend the meta-architecture of Mask2Former and incorporate with a set of harmonic guide functions. These guide functions are tailored to the pixel positions of instances and trained to separate distinct instances in an embedding space. The proposed GMT consistently outperforms State-of-the-Art models on three public plant datasets. | 翻訳日:2024-06-26 18:21:22 公開日:2024-06-24 |
# ネットワーク操作強化のための生成AIとネットワークディジタルツインの統合
Integrating Generative AI with Network Digital Twins for Enhanced Network Operations ( http://arxiv.org/abs/2406.17112v1 ) ライセンス: Link先を確認 | Kassi Muhammad, Teef David, Giulia Nassisid, Tina Farus, | (参考訳) 通信ネットワークが複雑化するにつれ、ネットワークデジタルツインや生成人工知能(AI)といった先進技術の統合が、ネットワークの運用とレジリエンスを高めるための重要なソリューションとして現れます。
本稿では、物理ネットワークの動的仮想表現を提供するネットワークデジタルツインと、生成AIの相乗効果について考察する。
本稿では,これらの技術を組み込んで予測保守,ネットワークシナリオシミュレーション,リアルタイムデータ駆動意思決定などを大幅に改善する新しいアーキテクチャフレームワークを提案する。
予測不能なトラフィック負荷やネットワーク障害といった現実的な複雑さを効果的に処理することで,生成AIがネットワークディジタルツインの精度と運用効率を向上することを示す。
この統合は、シナリオ予測や異常検出におけるデジタルツインの能力を高めるだけでなく、より適応的でインテリジェントなネットワーク管理システムを促進することを示唆している。
As telecommunications networks become increasingly complex, the integration of advanced technologies such as network digital twins and generative artificial intelligence (AI) emerges as a pivotal solution to enhance network operations and resilience. This paper explores the synergy between network digital twins, which provide a dynamic virtual representation of physical networks, and generative AI, particularly focusing on Generative Adversarial Networks (GANs) and Variational Autoencoders (VAEs). We propose a novel architectural framework that incorporates these technologies to significantly improve predictive maintenance, network scenario simulation, and real-time data-driven decision-making. Through extensive simulations, we demonstrate how generative AI can enhance the accuracy and operational efficiency of network digital twins, effectively handling real-world complexities such as unpredictable traffic loads and network failures. The findings suggest that this integration not only boosts the capability of digital twins in scenario forecasting and anomaly detection but also facilitates a more adaptive and intelligent network management system. | 翻訳日:2024-06-26 18:21:22 公開日:2024-06-24 |
# インセプション:マルコフゲームにおける効果的に計算可能な誤情報攻撃
Inception: Efficiently Computable Misinformation Attacks on Markov Games ( http://arxiv.org/abs/2406.17114v1 ) ライセンス: Link先を確認 | Jeremy McMahan, Young Wu, Yudong Chen, Xiaojin Zhu, Qiaomin Xie, | (参考訳) 情報非対称性と誤情報によるマルコフゲームに対するセキュリティ脅威について検討する。
本研究では,その報酬関数に関する誤報を拡散し,被害者の行動に影響を及ぼす攻撃者について考察する。
固定された擬似報酬関数が与えられた場合、最悪のケース合理性の下で被害者のポリシーを導出し、線形プログラミングと後方帰納に基づく攻撃者の最適最悪のケースポリシーを計算するための多項式時間アルゴリズムを提示する。
そこで,本研究では,最優先戦略を持つ報酬関数の制限セット内で,最適な報酬関数を見つけるための効果的なインセプション(アイデアを心に植え付ける)アタックアルゴリズムを提案する。
重要なことは、攻撃を効率的に計算するために合理性という普遍的な仮定を利用する方法である。
そこで本研究は,誤った情報の下での標準的なゲーム仮定から生じるセキュリティ上の脆弱性を明らかにする。
We study security threats to Markov games due to information asymmetry and misinformation. We consider an attacker player who can spread misinformation about its reward function to influence the robust victim player's behavior. Given a fixed fake reward function, we derive the victim's policy under worst-case rationality and present polynomial-time algorithms to compute the attacker's optimal worst-case policy based on linear programming and backward induction. Then, we provide an efficient inception ("planting an idea in someone's mind") attack algorithm to find the optimal fake reward function within a restricted set of reward functions with dominant strategies. Importantly, our methods exploit the universal assumption of rationality to compute attacks efficiently. Thus, our work exposes a security vulnerability arising from standard game assumptions under misinformation. | 翻訳日:2024-06-26 18:21:22 公開日:2024-06-24 |
# 大規模視覚言語モデルのための幻覚ベンチマークの品質評価
Evaluating the Quality of Hallucination Benchmarks for Large Vision-Language Models ( http://arxiv.org/abs/2406.17115v1 ) ライセンス: Link先を確認 | Bei Yan, Jie Zhang, Zheng Yuan, Shiguang Shan, Xilin Chen, | (参考訳) 近年のLVLM(Large Vision-Language Models)の急速な進歩と卓越した性能にもかかわらず、LVLMは幻覚の問題に悩まされている。
LVLMにおける幻覚の程度を評価するため、以前の研究では様々な種類のタスクと評価指標を特徴とする一連のベンチマークが提案されている。
しかし,既存の幻覚ベンチマークの質は,例えば,繰り返しテストによる不整合評価結果,人的評価との相違といった問題に悩まされている。
この目的のために,既存の幻覚ベンチマークの信頼性と妥当性を個別に評価するために,様々な指標を活用する幻覚ベンチマーク品質測定フレームワーク(HQM)を提案する。
具体的には、信頼性について、テスト再テストの信頼性と並列形式の信頼性について検討し、妥当性については、幻覚型の基準妥当性とカバレッジについて検討する。
さらに, 品質測定の結果をもとに, LVLMのための高品質幻覚ベンチマーク(HQH)を構築した。
GPT-4oやGemini-Vision-Proを含む10以上の代表的なLVLMを広範囲に評価し、既存のモデルにおける幻覚の問題を詳細に分析する。
私たちのベンチマークはhttps://github.com/HQHBench/HQHBench.comで公開されています。
Despite the rapid progress and outstanding performance of Large Vision-Language Models (LVLMs) in recent years, LVLMs have been plagued by the issue of hallucination, i.e., LVLMs tend to generate responses that are inconsistent with the corresponding visual inputs. To evaluate the degree of hallucination in LVLMs, previous works have proposed a series of benchmarks featuring different types of tasks and evaluation metrics. However, we find that the quality of the existing hallucination benchmarks varies, with some suffering from problems, e.g., inconsistent evaluation results under repeated tests, and misalignment with human evaluation. To this end, we propose a Hallucination benchmark Quality Measurement framework (HQM), which leverages various indicators to assess the reliability and validity of existing hallucination benchmarks separately. Specifically, for reliability we explore test-retest reliability and parallel-forms reliability, while for validity we examine criterion validity and coverage of hallucination types. Furthermore, based on the results of our quality measurement, we construct a High-Quality Hallucination Benchmark (HQH) for LVLMs. We conduct an extensive evaluation of over 10 representative LVLMs, including GPT-4o and Gemini-Vision-Pro, to provide an in-depth analysis of the hallucination issues in existing models. Our benchmark is publicly available at https://github.com/HQHBench/HQHBench. | 翻訳日:2024-06-26 18:21:22 公開日:2024-06-24 |
# コンパニオンの少ない画像分類器の高速化
Speeding Up Image Classifiers with Little Companions ( http://arxiv.org/abs/2406.17117v1 ) ライセンス: Link先を確認 | Yang Liu, Kowshik Thopalli, Jayaraman Thiagarajan, | (参考訳) ニューラルネットワークのスケールアップは、大規模な言語とビジョンモデルの成功の鍵となるレシピである。
例えば、EfficientViT-L3-384は、ベースとなるL1-224モデルよりもImageNet-1Kの精度が2%向上し、14\times$1,4\times$ more multiply-accumulate operation (MACs) を必要とする。
本稿では、画像分類のためのニューラルネットワークの一般的なファミリーのスケーリング特性について検討し、スケールアップモデルが「難易度」サンプルに大きく寄与していることを見出した。
サンプルを難解に分解し、まず軽量の"リトル"モデルを用いて全てのサンプルを予測し、"ビッグ"モデルが解決する難しいモデルのみをパスする、単純なモデルに依存しない2パスのリトル・ビッグアルゴリズムを開発した。
良い小さな仲間は、様々なモデルファミリとスケールに対して劇的なMAC還元を達成する。
既存のモデルの精度や修正を欠くことなく、私たちのLittle-Bigモデルは、効率的なViT-L3-384で76%、効率的なNet-B7-600で81%、ImageNet-1KでDeiT3-L-384で71%のMAC削減を実現しています。
Little-BigはIntern Image-G-512モデルを62%高速化し、90%のImageNet-1Kトップ-1精度を実現した。
Scaling up neural networks has been a key recipe to the success of large language and vision models. However, in practice, up-scaled models can be disproportionately costly in terms of computations, providing only marginal improvements in performance; for example, EfficientViT-L3-384 achieves <2% improvement on ImageNet-1K accuracy over the base L1-224 model, while requiring $14\times$ more multiply-accumulate operations (MACs). In this paper, we investigate scaling properties of popular families of neural networks for image classification, and find that scaled-up models mostly help with "difficult" samples. Decomposing the samples by difficulty, we develop a simple model-agnostic two-pass Little-Big algorithm that first uses a light-weight "little" model to make predictions of all samples, and only passes the difficult ones for the "big" model to solve. Good little companion achieve drastic MACs reduction for a wide variety of model families and scales. Without loss of accuracy or modification of existing models, our Little-Big models achieve MACs reductions of 76% for EfficientViT-L3-384, 81% for EfficientNet-B7-600, 71% for DeiT3-L-384 on ImageNet-1K. Little-Big also speeds up the InternImage-G-512 model by 62% while achieving 90% ImageNet-1K top-1 accuracy, serving both as a strong baseline and as a simple practical method for large model compression. | 翻訳日:2024-06-26 18:21:22 公開日:2024-06-24 |
# U-Netバックボーンを用いたハイブリッド適応フーリエニューラル演算子による位相場シミュレーション
Accelerating Phase Field Simulations Through a Hybrid Adaptive Fourier Neural Operator with U-Net Backbone ( http://arxiv.org/abs/2406.17119v1 ) ライセンス: Link先を確認 | Christophe Bonneville, Nathan Bieberdorf, Arun Hegde, Mark Asta, Habib N. Najm, Laurent Capolungo, Cosmin Safta, | (参考訳) 腐食性液体と金属合金の接触が長引くと、進行性の縮退を引き起こすことがある。
このような液体金属処理(LMD)プロセスでは、相場モデルが開発されている。
しかしながら、支配方程式は、数値的に解くのが難しい結合非線形偏微分方程式(PDE)を含むことが多い。
特に、PDEの剛性は極端に小さな時間ステップを必要とする(例:10^{-12}$かそれ以下)。
この計算ボトルネックは、後期の地平線が必要とされるまでMDシミュレーションを実行する際に特に問題となる。
このことは、数回の連続的なタイムステップを1度にスキップすることで、時間内に前進可能なサロゲートモデルの開発を動機付けている。
本稿では,機械学習(ML)モデルであるU-AFNO(Adaptive Fourier Neural Operators)を提案する。
U-AFNOは物理領域内の局所的な特徴の抽出と再構成にU-Netを使用し、Fourier空間(AFNO)に実装された視覚変換器(ViT)を介して潜伏空間を通過させる。
U-AFNOを使って、現在の時間ステップでフィールドを後の時間ステップにマッピングするダイナミクスを学習します。
また, 腐食過程 (例えば液-金属界面の変形) を記述した大域的関心量 (QoI) を同定し, 提案したU-AFNOモデルにより, LMDのカオス特性を正確に予測できることを示す。
本モデルでは, 高忠実度数値解法と同等の精度で, 重要なミクロ構造統計とQoIを再現する。
また,U-AFNOと高忠実度時間ステップを用いたハイブリッドシミュレーションの機会についても検討した。
提案したU-AFNOモデルは完全に自己回帰的な設定で、ハイブリッドスキームを一貫して上回る性能を示した。
Prolonged contact between a corrosive liquid and metal alloys can cause progressive dealloying. For such liquid-metal dealloying (LMD) process, phase field models have been developed. However, the governing equations often involve coupled non-linear partial differential equations (PDE), which are challenging to solve numerically. In particular, stiffness in the PDEs requires an extremely small time steps (e.g. $10^{-12}$ or smaller). This computational bottleneck is especially problematic when running LMD simulation until a late time horizon is required. This motivates the development of surrogate models capable of leaping forward in time, by skipping several consecutive time steps at-once. In this paper, we propose U-Shaped Adaptive Fourier Neural Operators (U-AFNO), a machine learning (ML) model inspired by recent advances in neural operator learning. U-AFNO employs U-Nets for extracting and reconstructing local features within the physical fields, and passes the latent space through a vision transformer (ViT) implemented in the Fourier space (AFNO). We use U-AFNOs to learn the dynamics mapping the field at a current time step into a later time step. We also identify global quantities of interest (QoI) describing the corrosion process (e.g. the deformation of the liquid-metal interface) and show that our proposed U-AFNO model is able to accurately predict the field dynamics, in-spite of the chaotic nature of LMD. Our model reproduces the key micro-structure statistics and QoIs with a level of accuracy on-par with the high-fidelity numerical solver. We also investigate the opportunity of using hybrid simulations, in which we alternate forward leap in time using the U-AFNO with high-fidelity time stepping. We demonstrate that while advantageous for some surrogate model design choices, our proposed U-AFNO model in fully auto-regressive settings consistently outperforms hybrid schemes. | 翻訳日:2024-06-26 18:21:22 公開日:2024-06-24 |
# カスケード一般化に基づくソフトウェア欠陥予測のための分類法
Cascade Generalization-based Classifiers for Software Defect Prediction ( http://arxiv.org/abs/2406.17120v1 ) ライセンス: Link先を確認 | Aminat Bashir, Abdullateef Balogun, Matthew Adigun, Sunday Ajagbe, Luiz Fernando Capretz, Joseph Awotunde, Hammed Mojeed, | (参考訳) ソフトウェア欠陥予測(SDP)のプロセスでは、どのソフトウェアシステムモジュールやコンポーネントが欠陥のリスクが最も高いかを予測する。
SDPから派生したプロジェクションと識別は、ソフトウェア開発チームが潜在的な欠陥モジュールに対して、その有限リソースを効果的に割り当てるのを支援することができる。
このため、SDPモデルは継続的に改善され、改良される必要がある。
そこで本研究では,機械学習に基づくSDPモデルの予測性能を高めるために,カスケード一般化(CG)関数の展開を提案する。
CG関数は、基底分類アルゴリズムによって生成された分布関数の近傍に新しいサンプルを導入して初期サンプル空間を拡張し、その後バイアスを緩和する。
CGに基づくNa\"ive Bayes (NB), Decision Tree (DT), k-Nearest Neighbor (kNN)モデルの有効性をNASAのソフトウェア欠陥データセット上で検討した。
実験結果から, CGモデル(CG-NB, CG-DT, CG-kNN)は, ベースラインNB, DT, kNNモデルと比較して予測性能に優れていた。
これにより、CG-NB、CG-DT、CG-kNNの各モデルの平均精度は+11.06%、+3.91%、+5.14%向上した。
CG-NB, CG-DT, CG-kNNの平均AUC値が+7.98%, +26%, +24.9%向上した。
さらに、提案されたCGベースのモデルは、既存の計算学的に多様なSDPモデルと同様に、NB、DT、kNNモデルのバッギングとブースティングのアンサンブルのバリエーションよりも優れていた。
The process of software defect prediction (SDP) involves predicting which software system modules or components pose the highest risk of being defective. The projections and discernments derived from SDP can then assist the software development team in effectively allocating its finite resources toward potentially susceptible defective modules. Because of this, SDP models need to be improved and refined continuously. Hence, this research proposes the deployment of a cascade generalization (CG) function to enhance the predictive performances of machine learning (ML)-based SDP models. The CG function extends the initial sample space by introducing new samples into the neighbourhood of the distribution function generated by the base classification algorithm, subsequently mitigating its bias. Experiments were conducted to investigate the effectiveness of CG-based Na\"ive Bayes (NB), Decision Tree (DT), and k-Nearest Neighbor (kNN) models on NASA software defect datasets. Based on the experimental results, the CG-based models (CG-NB, CG-DT, CG-kNN) were superior in prediction performance when compared with the baseline NB, DT, and kNN models respectively. Accordingly, the average accuracy value of CG-NB, CG-DT, and CG-kNN models increased by +11.06%, +3.91%, and +5.14%, respectively, over baseline NB, DT, and kNN models. A similar performance was observed for the area under the curve (AUC) value with CG-NB, CG-DT, and CG-kNN recording an average AUC value of +7.98%, +26%, and +24.9% improvement over the baseline NB, DT, and kNN respectively. In addition, the suggested CG-based models outperformed the Bagging and Boosting ensemble variants of the NB, DT, and kNN models as well as existing computationally diverse SDP models. | 翻訳日:2024-06-26 18:21:22 公開日:2024-06-24 |
# 話者ダイアリゼーションのための信頼度推定手法の検討
Investigating Confidence Estimation Measures for Speaker Diarization ( http://arxiv.org/abs/2406.17124v1 ) ライセンス: Link先を確認 | Anurag Chowdhury, Abhinav Misra, Mark C. Fuhs, Monika Woszczyna, | (参考訳) 話者ダイアリゼーションシステムは、話者のアイデンティティに基づいた会話記録をセグメント化する。
このようなシステムは、音声パターンの変動、背景雑音、重複音声などの様々な要因により、音声の一部の話者を誤分類することができる。
これらの誤りは、話者適応音声認識のような話者のアイデンティティに依存する下流システムに伝播し、悪影響を及ぼす可能性がある。
これらのエラーを軽減する方法の1つは、下流システムにセグメントレベルのダイアリゼーション信頼スコアを提供することである。
本研究では,従来のダイアリゼーションシステムから派生したダイアリゼーション信頼度と,外部モデルから派生したダイアリゼーション信頼度スコアを生成する複数の手法について検討する。
複数のデータセットおよびダイアリゼーションシステムに対する実験により、最も競争力のある信頼スコア法は、最も低い信頼スコアの10%のセグメントでダイアリゼーション誤差の30%を分離できることを示した。
Speaker diarization systems segment a conversation recording based on the speakers' identity. Such systems can misclassify the speaker of a portion of audio due to a variety of factors, such as speech pattern variation, background noise, and overlapping speech. These errors propagate to, and can adversely affect, downstream systems that rely on the speaker's identity, such as speaker-adapted speech recognition. One of the ways to mitigate these errors is to provide segment-level diarization confidence scores to downstream systems. In this work, we investigate multiple methods for generating diarization confidence scores, including those derived from the original diarization system and those derived from an external model. Our experiments across multiple datasets and diarization systems demonstrate that the most competitive confidence score methods can isolate ~30% of the diarization errors within segments with the lowest ~10% of confidence scores. | 翻訳日:2024-06-26 18:21:22 公開日:2024-06-24 |
# 局所固有次元推定法におけるウィナー過程の視点
A Wiener process perspective on local intrinsic dimension estimation methods ( http://arxiv.org/abs/2406.17125v1 ) ライセンス: Link先を確認 | Piotr Tempczyk, Łukasz Garncarek, Dominik Filipiak, Adam Kurpisz, | (参考訳) 近年,深層ニューラルネットワークの進展と生成モデルにより,局所固有次元(LID)推定法が注目されている。
従来の非パラメトリック手法とは対照的に、新しい手法では生成モデルを用いて拡散データセット密度を近似し、画像のような高次元データセットに拡張する。
本稿では、Wiener プロセスの観点から、最近の最先端パラメトリック LID 推定手法について検討する。
仮定が満たされていない場合、これらのメソッドがどのように振る舞うかを考察する。
それらの手法の数学的記述とそれらの誤差を,データの確率密度関数として拡張した数学的記述を与える。
Local intrinsic dimension (LID) estimation methods have received a lot of attention in recent years thanks to the progress in deep neural networks and generative modeling. In opposition to old non-parametric methods, new methods use generative models to approximate diffused dataset density and scale the methods to high-dimensional datasets like images. In this paper, we investigate the recent state-of-the-art parametric LID estimation methods from the perspective of the Wiener process. We explore how these methods behave when their assumptions are not met. We give an extended mathematical description of those methods and their error as a function of the probability density of the data. | 翻訳日:2024-06-26 18:21:22 公開日:2024-06-24 |
# MM-SpuBench:マルチモーダルLLMにおけるスパーラスビアーゼのより良い理解を目指して
MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs ( http://arxiv.org/abs/2406.17126v1 ) ライセンス: Link先を確認 | Wenqian Ye, Guangtao Zheng, Yunsheng Ma, Xu Cao, Bolin Lai, James M. Rehg, Aidong Zhang, | (参考訳) 無意味な入力属性と予測対象変数の急激な相関を利用する傾向にあるスパースバイアスは、単一のモーダルデータに基づいて訓練されたディープラーニングモデルにおいて、深刻な堅牢性落とし穴を露呈している。
視覚モデルと言語モデルを統合したMLLM(Multimodal Large Language Models)は、共同視覚言語理解において強力な能力を示している。
しかし、MLLMにおいて急激な偏見が一般的かどうかはまだ未解明のままである。
視覚モデルカスケード内のバイアスがMLLM内の視覚トークンとテキストトークンのアライメントに反映される場合に、この問題を示すことのできる特定のテストデータパターンを明らかにすることで、このギャップを緩和する。
この問題をより深く理解するために,5つのオープンソース画像データセットから,9つの突発的相関のカテゴリに対するMLLMの信頼度を評価するために設計された,包括的視覚的質問答え(VQA)ベンチマークであるMM-SpuBenchを紹介する。
VQAデータセットは、人間の理解可能な概念情報(属性)から構築される。
このベンチマークを利用して、現状のMLLMを徹底的に評価する。
以上の結果から,これらのモデルからの素因相関への依存の持続性を明らかにし,素因バイアスを緩和する新たな手法の必要性を浮き彫りにした。
MLLMの堅牢性の研究をサポートするため、私たちはVQAベンチマークをhttps://huggingface.co/datasets/mmbench/MM-SpuBenchでリリースしています。
Spurious bias, a tendency to use spurious correlations between non-essential input attributes and target variables for predictions, has revealed a severe robustness pitfall in deep learning models trained on single modality data. Multimodal Large Language Models (MLLMs), which integrate both vision and language models, have demonstrated strong capability in joint vision-language understanding. However, whether spurious biases are prevalent in MLLMs remains under-explored. We mitigate this gap by analyzing the spurious biases in a multimodal setting, uncovering the specific test data patterns that can manifest this problem when biases in the vision model cascade into the alignment between visual and text tokens in MLLMs. To better understand this problem, we introduce MM-SpuBench, a comprehensive visual question-answering (VQA) benchmark designed to evaluate MLLMs' reliance on nine distinct categories of spurious correlations from five open-source image datasets. The VQA dataset is built from human-understandable concept information (attributes). Leveraging this benchmark, we conduct a thorough evaluation of current state-of-the-art MLLMs. Our findings illuminate the persistence of the reliance on spurious correlations from these models and underscore the urge for new methodologies to mitigate spurious biases. To support the MLLM robustness research, we release our VQA benchmark at https://huggingface.co/datasets/mmbench/MM-SpuBench. | 翻訳日:2024-06-26 18:21:22 公開日:2024-06-24 |
# ベイズ時間的双クラスター化と多目的神経科学研究への応用
Bayesian temporal biclustering with applications to multi-subject neuroscience studies ( http://arxiv.org/abs/2406.17131v1 ) ライセンス: Link先を確認 | Federica Zoe Ricci, Erik B. Sudderth, Jaylen Lee, Megan A. K. Peters, Marina Vannucci, Michele Guindani, | (参考訳) 複数の被験者で収集した多変量時系列を解析することの問題点を考察し、時間とともに記録された測定値に類似した傾向を示す被験者群と、関連する測定値の時間変化群とを同定することを目的とする。
そこで本研究では,時間不変な被検体の分割が時間変動的な測定の分割を誘導する,ネスト分割を特徴とする時間的双クラスタリングのためのベイズモデルを提案する。
提案手法は,データ駆動による被検体数および測定クラスター数の決定と,測定分割における変化点数および位置の推定を可能にする。
マルコフ・チェイン・モンテカルロによるモデルフィッティングと後続推定を効率的に行うため,クラスタ割り当てシーケンスのブロック更新を導出する。
機能的磁気共鳴画像データと脳波データセットに応用した2つのモデルの性能について述べる。
その結果,提案モデルでは,潜在的に多くの被験者からの情報を組み合わせて,解釈可能な動的パターンの集合を見つけることが可能であることが示唆された。
シミュレーションデータを用いた実験は,提案モデルと地中構造値およびその他の統計的手法との比較を行い,対象物や時間依存が存在しない場合でも,地中構造と測定クラスターの同定に有効であることを示した。
We consider the problem of analyzing multivariate time series collected on multiple subjects, with the goal of identifying groups of subjects exhibiting similar trends in their recorded measurements over time as well as time-varying groups of associated measurements. To this end, we propose a Bayesian model for temporal biclustering featuring nested partitions, where a time-invariant partition of subjects induces a time-varying partition of measurements. Our approach allows for data-driven determination of the number of subject and measurement clusters as well as estimation of the number and location of changepoints in measurement partitions. To efficiently perform model fitting and posterior estimation with Markov Chain Monte Carlo, we derive a blocked update of measurements' cluster-assignment sequences. We illustrate the performance of our model in two applications to functional magnetic resonance imaging data and to an electroencephalogram dataset. The results indicate that the proposed model can combine information from potentially many subjects to discover a set of interpretable, dynamic patterns. Experiments on simulated data compare the estimation performance of the proposed model against ground-truth values and other statistical methods, showing that it performs well at identifying ground-truth subject and measurement clusters even when no subject or time dependence is present. | 翻訳日:2024-06-26 18:21:22 公開日:2024-06-24 |
# 無限次元量子エントロピー:統一エントロピーの場合
The Infinite-Dimensional Quantum Entropy: the Unified Entropy Case ( http://arxiv.org/abs/2406.17133v1 ) ライセンス: Link先を確認 | Roman Gielerak, Joanna Wiśniewska, Marek Sawerwain, | (参考訳) フレドホルム行列式理論を用いて、統一量子エントロピーの概念は無限次元系の場合にまで拡張された。
導入された統一エントロピーの既知の(有限次元の場合)基本的性質の一部は、ケーススタディにまで拡張されている。
提案した有限次元および無限次元のエントロピーを計算するための数値的なアプローチも概説されている。
By a use of the Fredholm determinant theory, the unified quantum entropy notion has been extended to a case of infinite-dimensional systems. Some of the known (in the finite-dimensional case) basic properties of the introduced unified entropies have been extended to the case study. Certain numerical approaches for computing the proposed finite and infinite-dimensional entropies are being outlined as well. | 翻訳日:2024-06-26 18:21:22 公開日:2024-06-24 |
# 自然言語処理を用いたネットワーククラスタリングアルゴリズムのテスト
Testing network clustering algorithms with Natural Language Processing ( http://arxiv.org/abs/2406.17135v1 ) ライセンス: Link先を確認 | Ixandra Achitouv, David Chavalarias, Bruno Gaume, | (参考訳) オンライン・ソーシャル・ネットワークの出現は、オンライン・ソーシャル・グループの研究と個人の個性との関係に関する豊富な文献の発達につながった。
社会構造は幅広い社会的相互作用から推測される。
これらの相互作用は複雑な、時には多層ネットワークを形成し、コミュニティ検出アルゴリズムを適用して高次構造を抽出する。
しかし、コミュニティ検出アルゴリズムの選択は、彼らが分類した個人の文化的生産に関連して、厳しく疑問視されている。
本研究では,ソーシャル・ネットワークの絡み合った性質と,その文化的生産を前提として,オンライン・プロダクションをソーシャル・グループに分類可能な個人の集合として,文化に基づくオンライン・ソーシャル・グループの定義を提案する。
我々は、コミュニティ検出アルゴリズムと自然言語処理分類アルゴリズムを組み合わせたハイブリッド手法を用いて、オンラインソーシャルグループの自己参照的な説明を生かしている。
この分析の重要な結果は、自然言語処理分類との一致を利用して、コミュニティ検出アルゴリズムをスコアリングできることである。
2つ目の結果は、ランダムなユーザの意見を85%の精度で割り当てることである。
The advent of online social networks has led to the development of an abundant literature on the study of online social groups and their relationship to individuals' personalities as revealed by their textual productions. Social structures are inferred from a wide range of social interactions. Those interactions form complex -- sometimes multi-layered -- networks, on which community detection algorithms are applied to extract higher order structures. The choice of the community detection algorithm is however hardily questioned in relation with the cultural production of the individual they classify. In this work, we assume the entangled nature of social networks and their cultural production to propose a definition of cultural based online social groups as sets of individuals whose online production can be categorized as social group-related. We take advantage of this apparently self-referential description of online social groups with a hybrid methodology that combines a community detection algorithm and a natural language processing classification algorithm. A key result of this analysis is the possibility to score community detection algorithms using their agreement with the natural language processing classification. A second result is that we can assign the opinion of a random user at >85% accuracy. | 翻訳日:2024-06-26 18:21:22 公開日:2024-06-24 |
# パルスレーザーアブレーション法による$^{40}$Ca原子ビームの吸収分光:CaとCaTiO$_3$ターゲットの定量的比較
Absorption Spectroscopy of $^{40}$Ca Atomic Beams Produced via Pulsed Laser Ablation: A Quantitative Comparison of Ca and CaTiO$_3$ Targets ( http://arxiv.org/abs/2406.17140v1 ) ライセンス: Link先を確認 | Kevin D. Battles, Brian J. McMahon, Brian C. Sawyer, | (参考訳) パルスレーザーアブレーションは、様々な種のイオントラップを高速に装填する方法として急速に普及しているが、アブレーション対象物質の特徴はイオンローディング過程に影響を及ぼす可能性がある。
ターゲットから原子フラックスを減少させる要因の1つは、イオントラップ真空系を調製または変更する際に大気暴露中の酸化である。
近年の研究では、ペロブスカイトアブレーションターゲットは、元素源ターゲットと比較して大気に曝露しても一貫した原子密度を生み出すことが示されている。
本研究では,中性Ca中の423nm $^{1}S_0 \rightarrow$$^{1}P_1$遷移の共鳴時間分解吸収分光法を用いて中性原子ビーム束を特徴付けることにより,カルシウム(Ca)とチタン酸カルシウム(CaTiO$_3$)のアブレーションターゲットを直接比較する。
本研究では, 各ターゲットのアブレーション羽根長, 横温度, 数密度, イオン生成, スポット寿命を測定した。
さらに,大気中への21時間曝露前後のターゲットの原子線密度を比較し,CaTiO$_3$ソースの相対ロバスト性を実証した。
Pulsed laser ablation is an increasingly prevalent method for fast ion trap loading of various species, however characteristics of the ablation target source material can affect the ion-loading process. One factor which can reduce the atomic flux from a target is oxidation during atmospheric exposure when preparing or making changes to the ion trap vacuum system. Recent work has shown that perovskite ablation targets produce consistent atomic densities even after exposure to atmosphere when compared to elemental source targets. In this work, we directly compare calcium (Ca) and calcium-titanate (CaTiO$_3$) ablation targets, characterizing the neutral atomic beam flux using resonant, time-resolved absorption spectroscopy of the 423 nm $^{1}S_0 \rightarrow$ $^{1}P_1$ transition in neutral Ca. We measure the ablation plume longitudinal and transverse temperatures, number density, ion production, and spot lifetime for each target. In addition, we compare the ablated atomic beam density for both targets before and after 21 hours of exposure to atmosphere, demonstrating the relative robustness of the CaTiO$_3$ source. | 翻訳日:2024-06-26 18:11:29 公開日:2024-06-24 |
# 古典的および量子線型応答の多様性と運動定式化方程式
Divergences in classical and quantum linear response and equation of motion formulations ( http://arxiv.org/abs/2406.17141v1 ) ライセンス: Link先を確認 | Erik Rosendahl Kjellgren, Peter Reinholdt, Karl Michael Ziems, Stephan P. A. Sauer, Sonia Coriani, Jacob Kongsted, | (参考訳) 量子デバイスを用いた分子特性の計算は、量子線型応答(qLR)または等価に、運動の量子方程式(qEOM)によって行うことができる。
qLR と qEOM の異なるパラメータ化が利用可能である。
ナイーブなパラメータ化と投影されたパラメータ化では、計量は恒等式ではなく、冗長な軌道回転に依存することを示す。
この依存性は、理想化されたノイズレス設定における冗長軌道回転パラメータの特定の選択に対する励起エネルギーのばらつきにつながる可能性がある。
さらに、計算が有限量子サンプリングの統計ノイズを含む場合、これは大きなばらつきをもたらす。
Calculating molecular properties using quantum devices can be done through the quantum linear response (qLR) or, equivalently, the quantum equation of motion (qEOM) formulations. Different parameterizations of qLR and qEOM are available, namely naive, projected, self-consistent, and state-transfer. In the naive and projected parameterizations, the metric is not the identity, and we show that it depends on the redundant orbital rotations. This dependency may lead to divergences in the excitation energies for certain choices of the redundant orbital rotation parameters in an idealized noise-less setting. Further, this leads to significant variance when calculations include statistical noise from finite quantum sampling. | 翻訳日:2024-06-26 18:11:29 公開日:2024-06-24 |
# 六方晶窒化ホウ素のスピン量子ビットを用いた連続駆動ヘテロダインマイクロ波センシング
Continuous drive heterodyne microwave sensing with spin qubits in hexagonal boron nitride ( http://arxiv.org/abs/2406.17142v1 ) ライセンス: Link先を確認 | Charlie J. Patrickson, Valentin Haemmerli, Shi Guo, Andrew J. Ramsay, Isaac J. Luxmoore, | (参考訳) 固体スピン欠陥を用いた量子センサーは、弱い交互磁気信号の効果的なプローブとして出現している。
外部クロックに対する信号の位相を記録することにより、これらの装置はスピン状態寿命よりも精度の高いオーダーで信号周波数を解決できる。
しかしながら、これらの量子ヘテロダインプロトコルは、現在パルス制御技術に制限されており、累積パルス領域誤差やスピンコヒーレンスを保護しない単一連続ドライブに制限されているため、準最適感度に悩まされている。
ここでは, スピンコヒーレンスを有効な$T_2 \approx \frac{1}{2}T_1$限界まで拡張し, GHz磁界の周波数, 振幅, 位相を解く連続マイクロ波駆動に基づく制御方式を提案する。
このスキームは六方晶窒化ホウ素中のホウ素空孔のアンサンブルを用いて実証され、振幅感度は$\eta \approx 3-5 \:\mathrm {\mu T \sqrt{Hz}}$と位相感度は$\eta_{\phi} \approx 0.076 \:\mathrm{rads \sqrt{Hz}}$である。
量子ヘテロダインデモにおいて、コヒーレント連続マイクロ波駆動に対する共振信号の位相を繰り返し参照することにより、10秒以上の分解能$<$1 HzのGHz信号を測定する。
このレベルの性能を2次元の材料プラットフォームで達成することは、ナノスケール凝縮物質系の探索から、量子ネットワークのためのヘテロ構造への統合に至るまで、幅広い応用をもたらす可能性がある。
Quantum sensors that use solid state spin defects have emerged as effective probes of weak alternating magnetic signals. By recording the phase of a signal relative to an external clock, these devices can resolve signal frequencies to a precision orders of magnitude longer than the spin state lifetime. However, these quantum heterodyne protocols suffer from sub-optimal sensitivity, as they are currently limited to pulsed spin control techniques, which are susceptible to cumulative pulse-area errors, or single continuous drives which offer no protection of the spin coherence. Here, we present a control scheme based on a continuous microwave drive that extends spin coherence towards the effective $T_2 \approx \frac{1}{2}T_1$ limit and can resolve the frequency, amplitude and phase of GHz magnetic fields. The scheme is demonstrated using an ensemble of boron vacancies in hexagonal boron nitride, and achieves an amplitude sensitivity of $\eta \approx 3-5 \:\mathrm{\mu T \sqrt{Hz}}$ and phase sensitivity of $\eta_{\phi} \approx 0.076 \:\mathrm{rads \sqrt{Hz}}$. By repeatedly referencing the phase of a resonant signal against the coherent continuous microwave drive in a quantum heterodyne demonstration, we measure a GHz signal with a resolution $<$1 Hz over a 10 s measurement. Achieving this level of performance in a two-dimensional material platform could have broad applications, from probing nanoscale condensed matter systems to integration into heterostructures for quantum networking. | 翻訳日:2024-06-26 18:11:29 公開日:2024-06-24 |
# GraphPipe: グラフパイプライン並列処理によるDNNトレーニングのパフォーマンスとスケーラビリティ向上
GraphPipe: Improving Performance and Scalability of DNN Training with Graph Pipeline Parallelism ( http://arxiv.org/abs/2406.17145v1 ) ライセンス: Link先を確認 | Byungsoo Jeon, Mengdi Wu, Shiyi Cao, Sunghyun Kim, Sunghyun Park, Neeraj Aggarwal, Colin Unger, Daiyaan Arfeen, Peiyuan Liao, Xupeng Miao, Mohammad Alizadeh, Gregory R. Ganger, Tianqi Chen, Zhihao Jia, | (参考訳) ディープニューラルネットワーク(DNN)のサイズは急速に拡大し続けており、単一のデバイスでトレーニングすることは不可能である。
パイプライン並列性は、DNNを複数のステージに分割し、パイプライン方式で異なるマイクロバッチに対するDNNトレーニングを同時に実行することによって、大規模DNNトレーニングをサポートするために、既存のDNNシステムで一般的に使用されている。
しかしながら、既存のパイプライン並列アプローチでは、逐次パイプラインステージのみを考慮して、DNNのトポロジを無視しているため、モデル並列の機会が欠落している。
本稿では、DNNをパイプラインステージに分割し、依存を非巡回グラフで識別する新しいパイプライン並列方式であるグラフパイプライン並列化(GPP)を提案する。
GPPは、既存のシーケンシャルパイプライン並列性を一般化し、DNN固有のトポロジを保持して、計算に依存しない演算子の同時実行を可能にし、メモリ要求の低減とGPU性能の向上を実現している。
さらに,GPP戦略を利用して,高性能でスケーラブルなDNNトレーニングを実現する分散システムであるGraphPipeを開発した。
GraphPipeは、DNNをステージのグラフに分割し、これらのステージのマイクロバッチスケジュールを最適化し、発見されたGPP戦略を使用してDNNトレーニングを並列化する。
さまざまなDNNの評価によると、GraphPipeは、PipeDreamやPiperといった既存のパイプライン並列システムよりも1.6倍パフォーマンスが高い。
GraphPipeはまた、検索時間をPipeDreamやPiperと比べて9-21X削減する。
Deep neural networks (DNNs) continue to grow rapidly in size, making them infeasible to train on a single device. Pipeline parallelism is commonly used in existing DNN systems to support large-scale DNN training by partitioning a DNN into multiple stages, which concurrently perform DNN training for different micro-batches in a pipeline fashion. However, existing pipeline-parallel approaches only consider sequential pipeline stages and thus ignore the topology of a DNN, resulting in missed model-parallel opportunities. This paper presents graph pipeline parallelism (GPP), a new pipeline-parallel scheme that partitions a DNN into pipeline stages whose dependencies are identified by a directed acyclic graph. GPP generalizes existing sequential pipeline parallelism and preserves the inherent topology of a DNN to enable concurrent execution of computationally-independent operators, resulting in reduced memory requirement and improved GPU performance. In addition, we develop GraphPipe, a distributed system that exploits GPP strategies to enable performant and scalable DNN training. GraphPipe partitions a DNN into a graph of stages, optimizes micro-batch schedules for these stages, and parallelizes DNN training using the discovered GPP strategies. Evaluation on a variety of DNNs shows that GraphPipe outperforms existing pipeline-parallel systems such as PipeDream and Piper by up to 1.6X. GraphPipe also reduces the search time by 9-21X compared to PipeDream and Piper. | 翻訳日:2024-06-26 18:11:29 公開日:2024-06-24 |
# Vastextures: 教師なし手法を用いた実世界の画像から抽出したテクスチャとPBR材料のVastレポジトリ
Vastextures: Vast repository of textures and PBR materials extracted from real-world images using unsupervised methods ( http://arxiv.org/abs/2406.17146v1 ) ライセンス: Link先を確認 | Sagi Eppel, | (参考訳) Vastexturesは、50万のテクスチャとPBR素材からなる広大なリポジトリであり、教師なしのプロセスを用いて現実世界の画像から抽出されている。
抽出された材料やテクスチャは非常に多様で、さまざまな現実世界のパターンをカバーしているが、既存のリポジトリと比べて洗練されていない。
天然画像から採取した2次元テクスチャと、これらのテクスチャから生成されたSVBRDF/PBR材料からなる。
テクスチャとPBR材料はCGIに必須である。
既存の資料リポジトリは、限られた品質の資産を要求するゲーム、アニメーション、芸術に焦点を当てている。
しかし、仮想世界と合成データはコンピュータビジョンのためのA.Iシステムのトレーニングにおいてますます重要になっている。
このアプリケーションは膨大な量の多様な資産を必要とするが、同時にノイズや未精製の資産に影響を受けない。
Vastextureは、できるだけ多くの現実世界の資料をカバーする、無料で巨大で多様な資産リポジトリを作成することで、このニーズに対処することを目指している。
素材は自然画像から自動的に2段階に抽出される。
1)一様テクスチャを用いて大量の画像を自動的にスキャンし,作物の生育領域を同定する。
これは、画像を細胞グリッドに分割し、すべての細胞が同様の統計分布を持つ領域を特定することによって行われる。
2) 収穫した食感からPBR材の物性を抽出した。
これは、テクスチャ画像の特性とPBR材料の特性との相関関係をランダムに推測することによって行われる。
得られたPBR材料は、予期せぬ創発性だけでなく、膨大な量の現実世界のパターンを示す。
このレポジトリで訓練された中立ネットは、手工芸品を使って訓練されたネットよりも優れていた。
Vastextures is a vast repository of 500,000 textures and PBR materials extracted from real-world images using an unsupervised process. The extracted materials and textures are extremely diverse and cover a vast range of real-world patterns, but at the same time less refined compared to existing repositories. The repository is composed of 2D textures cropped from natural images and SVBRDF/PBR materials generated from these textures. Textures and PBR materials are essential for CGI. Existing materials repositories focus on games, animation, and arts, that demand a limited amount of high-quality assets. However, virtual worlds and synthetic data are becoming increasingly important for training A.I systems for computer vision. This application demands a huge amount of diverse assets but at the same time less affected by noisy and unrefined assets. Vastexture aims to address this need by creating a free, huge, and diverse assets repository that covers as many real-world materials as possible. The materials are automatically extracted from natural images in two steps: 1) Automatically scanning a giant amount of images to identify and crop regions with uniform textures. This is done by splitting the image into a grid of cells and identifying regions in which all of the cells share a similar statistical distribution. 2) Extracting the properties of the PBR material from the cropped texture. This is done by randomly guessing every correlation between the properties of the texture image and the properties of the PBR material. The resulting PBR materials exhibit a vast amount of real-world patterns as well as unexpected emergent properties. Neutral nets trained on this repository outperformed nets trained using handcrafted assets. | 翻訳日:2024-06-26 18:11:29 公開日:2024-06-24 |
# マルチラベルソフト分類による異種生態系サービスの定量化
Quantifying Heterogeneous Ecosystem Services With Multi-Label Soft Classification ( http://arxiv.org/abs/2406.17147v1 ) ライセンス: Link先を確認 | Zhihui Tian, John Upchurch, G. Austin Simon, José Dubeux, Alina Zare, Chang Zhao, Joel B. Harley, | (参考訳) 生態系サービスの理解と定量化は、持続可能な環境管理、保全、政策立案に不可欠である。
リモートセンシング技術と機械学習技術の進歩は、このプロセスを大幅に促進した。
しかし、生物多様性のような地上の真理ラベルは、測定が非常に困難で高価である。
さらに、土地利用のようなより容易に取得可能なプロキシラベルは、生態系の複雑な不均一性を捉えるのに失敗することが多い。
本稿では,土地利用のプロキシラベルをソフトなマルチラベル分類器で実装し,複雑な異質性を持つ生態系サービスを予測する方法について述べる。
Understanding and quantifying ecosystem services are crucial for sustainable environmental management, conservation efforts, and policy-making. The advancement of remote sensing technology and machine learning techniques has greatly facilitated this process. Yet, ground truth labels, such as biodiversity, are very difficult and expensive to measure. In addition, more easily obtainable proxy labels, such as land use, often fail to capture the complex heterogeneity of the ecosystem. In this paper, we demonstrate how land use proxy labels can be implemented with a soft, multi-label classifier to predict ecosystem services with complex heterogeneity. | 翻訳日:2024-06-26 18:11:29 公開日:2024-06-24 |
# 自然言語教育における不明瞭な認識
Unambiguous Recognition Should Not Rely Solely on Natural Language Training ( http://arxiv.org/abs/2406.17148v1 ) ライセンス: Link先を確認 | Renqing Luo, Yuhan Xu, | (参考訳) トランスフォーマーアーキテクチャを用いたLaTeXテキスト認識では,特定の「バイアス」問題を特定する。
例えば、$e-t$ はしばしば $e^{-t}$ と誤認識される。
このバイアスはデータセット固有の特性に由来する。
このバイアスを軽減するために,擬似形式と擬似テキストの混合データセットに基づいて学習したLaTeX印刷テキスト認識モデルを提案する。
このモデルはエンコーダとしてSwin Transformerを使用し、デコーダとしてRoBERTaモデルを使用する。
実験により,本手法は「バイアス」を低減し,テキスト認識の精度と堅牢性を向上することが示された。
鮮明な画像では、モデルは画像の内容に厳密に固執し、ぼやけた画像では、画像情報と文脈情報を統合して、合理的な認識結果を生成する。
In LaTeX text recognition using Transformer-based architectures, this paper identifies certain "bias" issues. For instance, $e-t$ is frequently misrecognized as $e^{-t}$. This bias stems from the inherent characteristics of the dataset. To mitigate this bias, we propose a LaTeX printed text recognition model trained on a mixed dataset of pseudo-formulas and pseudo-text. The model employs a Swin Transformer as the encoder and a RoBERTa model as the decoder. Experimental results demonstrate that this approach reduces "bias", enhancing the accuracy and robustness of text recognition. For clear images, the model strictly adheres to the image content; for blurred images, it integrates both image and contextual information to produce reasonable recognition results. | 翻訳日:2024-06-26 18:11:29 公開日:2024-06-24 |
# 機械のピアス:専門家モデルの混合が仮説構築に与える影響
Peirce in the Machine: How Mixture of Experts Models Perform Hypothesis Construction ( http://arxiv.org/abs/2406.17150v1 ) ライセンス: Link先を確認 | Bruce Rushing, | (参考訳) 専門家の混合は、専門専門家の予測を集約する機械学習における予測集約手法である。
この方法は、ベイジアンがより強い帰納的保証を持つにもかかわらず、しばしばベイジアン法より優れている。
これは専門家の混在による機能的能力の増大によるものであると我々は主張する。
専門家の混在が制限された場合、同等のベイズ法よりも高いキャパシティを持つことが証明され、非制限ケースの実験を通じて安全である。
最後に、専門家の混合は、パーシアンな仮説構成の感覚における誘惑的推論の一種であると結論づける。
Mixture of experts is a prediction aggregation method in machine learning that aggregates the predictions of specialized experts. This method often outperforms Bayesian methods despite the Bayesian having stronger inductive guarantees. We argue that this is due to the greater functional capacity of mixture of experts. We prove that in a limiting case of mixture of experts will have greater capacity than equivalent Bayesian methods, which we vouchsafe through experiments on non-limiting cases. Finally, we conclude that mixture of experts is a type of abductive reasoning in the Peircian sense of hypothesis construction. | 翻訳日:2024-06-26 18:11:29 公開日:2024-06-24 |
# DEXTER: LLMを用いたオープンドメイン複合質問回答ベンチマーク
DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs ( http://arxiv.org/abs/2406.17158v1 ) ライセンス: Link先を確認 | Venktesh V. Deepali Prabhu, Avishek Anand, | (参考訳) オープンドメイン複合質問回答 (QA) は証拠検索と推論において難しい課題である。
このような質問の複雑さは、構成的、ハイブリッドな証拠、あるいは質問の曖昧さに起因する可能性がある。
古典的QAタスクの検索性能はよく検討されているが、特にオープンドメイン環境では、不均一な複雑な検索タスクの能力と、下流QAパフォーマンスへの影響は、比較的調査されていない。
そこで本研究では,多種多様なQAタスクを構成するベンチマークを提案し,オープンドメイン環境下で,最先端の訓練済みの高密度・スパース検索モデルを評価するツールキットを提供する。
BM25のような遅延相互作用モデルや驚くほど語彙的モデルは、事前訓練された高密度検索モデルと比較してよく機能する。
さらに,複雑なQA課題の解決にコンテキストベースの推論が不可欠であるため,LLMの推論能力と検索性能が推論能力に与える影響も評価する。
実験を通して、下流QA性能を改善するために、複雑なQAの検索において、多くの進歩が達成されるのを観察する。
私たちのソフトウェアと関連するデータはhttps://github.com/VenkteshV/DEXTERでアクセスできます。
Open-domain complex Question Answering (QA) is a difficult task with challenges in evidence retrieval and reasoning. The complexity of such questions could stem from questions being compositional, hybrid evidence, or ambiguity in questions. While retrieval performance for classical QA tasks is well explored, their capabilities for heterogeneous complex retrieval tasks, especially in an open-domain setting, and the impact on downstream QA performance, are relatively unexplored. To address this, in this work, we propose a benchmark composing diverse complex QA tasks and provide a toolkit to evaluate state-of-the-art pre-trained dense and sparse retrieval models in an open-domain setting. We observe that late interaction models and surprisingly lexical models like BM25 perform well compared to other pre-trained dense retrieval models. In addition, since context-based reasoning is critical for solving complex QA tasks, we also evaluate the reasoning capabilities of LLMs and the impact of retrieval performance on their reasoning capabilities. Through experiments, we observe that much progress is to be made in retrieval for complex QA to improve downstream QA performance. Our software and related data can be accessed at https://github.com/VenkteshV/DEXTER | 翻訳日:2024-06-26 18:11:29 公開日:2024-06-24 |
# 深層学習を用いたプリント基板の成分レベルリサイクル
Virtual Mines -- Component-level recycling of printed circuit boards using deep learning ( http://arxiv.org/abs/2406.17162v1 ) ライセンス: Link先を確認 | Muhammad Mohsin, Stefano Rovetta, Francesco Masulli, Alberto Cabri, | (参考訳) このコントリビューションは, 電子廃棄物リサイクルプロセスを改善するために, 機械学習とコンピュータビジョンコンポーネントを用いた進行中のプロジェクトの概要を提供する。
循環経済において、「仮想鉱山」という概念は、生物の終末品から効率的で費用対効果の高い方法で、興味深い原料を回収する生産サイクルを指す。
特に、ハイテク商品のライフサイクルがますます短くなっているため、e-wasteの成長はグローバルな問題である。
本稿では,印刷回路基板を部品レベルでリサイクルする深層学習モデルに基づくパイプラインについて述べる。
ローカルに開発されたデータセットの結果を分析するために、事前トレーニングされたYOLOv5モデルが使用される。
クラスインスタンスの分散が異なるため、YOLOv5は大きなコンポーネントインスタンスで最適化できるため、満足のいく精度とリコールを実現した。
This contribution gives an overview of an ongoing project using machine learning and computer vision components for improving the electronic waste recycling process. In circular economy, the "virtual mines" concept refers to production cycles where interesting raw materials are reclaimed in an efficient and cost-effective manner from end-of-life items. In particular, the growth of e-waste, due to the increasingly shorter life cycle of hi-tech goods, is a global problem. In this paper, we describe a pipeline based on deep learning model to recycle printed circuit boards at the component level. A pre-trained YOLOv5 model is used to analyze the results of the locally developed dataset. With a different distribution of class instances, YOLOv5 managed to achieve satisfactory precision and recall, with the ability to optimize with large component instances. | 翻訳日:2024-06-26 18:11:29 公開日:2024-06-24 |
# 固有分類誤りの最小化のための大言語モデルによるパラフレーズと集約
Paraphrase and Aggregate with Large Language Models for Minimizing Intent Classification Errors ( http://arxiv.org/abs/2406.17163v1 ) ライセンス: Link先を確認 | Vikas Yadav, Zheng Tang, Vijay Srinivasan, | (参考訳) 大規模言語モデル(LLM)は、自然言語生成において顕著な成功を収めてきたが、分類などの意思決定タスクへの適用性にはあまり焦点が当てられていない。
LLaMa のような LLM は,大規模な多クラス分類タスクでは高い性能を達成できるが,いまだに分類エラーを発生させ,さらに悪化させ,語彙外なクラスラベルを生成することができることを示す。
これらの重要な問題に対処するために、LLMが入力クエリ(並列クエリ)の複数のパラフレーズを生成し、元のクエリと各パラフレーズのマルチクラス分類を実行し、最後に、その信頼性スコアに基づいて全ての分類ラベルを集約する、Paraphrase and AGgregate (PAG)-LLMアプローチを導入する。
PAG-LLMをCLINCとBandingの2つの大規模マルチクラス古典データセットで評価し,22.7%と15.1%のエラー削減を示した。
PAG-LLM は LLM が不確実なハードケースに対して特に有効であり, 致命的誤分類と幻覚的ラベル生成誤差を低減させることを示す。
Large language models (LLM) have achieved remarkable success in natural language generation but lesser focus has been given to their applicability in decision making tasks such as classification. We show that LLMs like LLaMa can achieve high performance on large multi-class classification tasks but still make classification errors and worse, generate out-of-vocabulary class labels. To address these critical issues, we introduce Paraphrase and AGgregate (PAG)-LLM approach wherein an LLM generates multiple paraphrases of the input query (parallel queries), performs multi-class classification for the original query and each paraphrase, and at the end aggregate all the classification labels based on their confidence scores. We evaluate PAG-LLM on two large multi-class classication datasets: CLINC, and Banking and show 22.7% and 15.1% error reduction. We show that PAG-LLM is especially effective for hard examples where LLM is uncertain, and reduces the critical misclassification and hallucinated label generation errors | 翻訳日:2024-06-26 18:11:29 公開日:2024-06-24 |
# 変圧器の学習は低ランクかつスパースである:一層解析
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis ( http://arxiv.org/abs/2406.17167v1 ) ライセンス: Link先を確認 | Hongkang Li, Meng Wang, Shuai Zhang, Sijia Liu, Pin-Yu Chen, | (参考訳) 低ランク適応やモデルプルーニングなどの効率的なトレーニングと推論アルゴリズムは、Transformerベースの大規模基盤モデルを学ぶ上で、優れたパフォーマンスを示している。
しかし、トランスフォーマーの複雑なアーキテクチャによる非凸最適化の技術的課題のため、トランスフォーマーの学習にこれらの手法が適用可能な理由に関する理論的研究は、大半が解明されている。
本稿では,1層変圧器の低ランク特性とスペーサ特性の理論的解析を,確率勾配勾配を用いた収束後のモデルの特徴付けにより行った。
ラベル関連パターンとラベル関連パターンに基づくデータモデルに注目することにより、トレーニング可能なパラメータの勾配更新が低ランクであることが定量化され、ラベル関連パターンの数に依存する。
また、モデルプルーニングが一般化にどう影響するかを解析し、計算効率を向上し、適切なマグニチュードベースのプルーニングがテスト性能にわずかに影響を及ぼすと結論づける。
本研究は, 数値実験により得られた知見を裏付けるものである。
Efficient training and inference algorithms, such as low-rank adaption and model pruning, have shown impressive performance for learning Transformer-based large foundation models. However, due to the technical challenges of the non-convex optimization caused by the complicated architecture of Transformers, the theoretical study of why these methods can be applied to learn Transformers is mostly elusive. To the best of our knowledge, this paper shows the first theoretical analysis of the property of low-rank and sparsity of one-layer Transformers by characterizing the trained model after convergence using stochastic gradient descent. By focusing on a data model based on label-relevant and label-irrelevant patterns, we quantify that the gradient updates of trainable parameters are low-rank, which depends on the number of label-relevant patterns. We also analyze how model pruning affects the generalization while improving computation efficiency and conclude that proper magnitude-based pruning has a slight effect on the testing performance. We implement numerical experiments to support our findings. | 翻訳日:2024-06-26 18:11:29 公開日:2024-06-24 |
# 補助的タスク蒸留による強化学習
Reinforcement Learning via Auxiliary Task Distillation ( http://arxiv.org/abs/2406.17168v1 ) ライセンス: Link先を確認 | Abhinav Narayan Harish, Larry Heck, Josiah P. Hanna, Zsolt Kira, Andrew Szot, | (参考訳) 本稿では,補助的なRLタスクから振舞いを蒸留することにより,強化学習(RL)による長期ロボット制御問題の実行を可能にする,補助的タスク蒸留(AuxDistill)による強化学習を提案する。
AuxDistillは、メインタスクを学習しやすく、関連性の高い補助タスクでマルチタスクRLを同時に実行することで、これを実現する。
加重蒸留損失は、これらの補助的なタスクからの挙動を伝達し、主タスクを解決する。
我々は、AuxDistillが、実演や学習カリキュラム、事前訓練されたスキルを使わずに、環境報酬から、挑戦的な多段階の具体的オブジェクト再構成タスクのためのピクセル対アクションポリシーを学習できることを実証した。
AuxDistillは、以前のHabitat Object Rearrangementベンチマークの最先端ベースラインよりも2.3 \times$高い成功を達成し、事前訓練されたスキルと専門家のデモンストレーションを使用するメソッドを上回ります。
We present Reinforcement Learning via Auxiliary Task Distillation (AuxDistill), a new method that enables reinforcement learning (RL) to perform long-horizon robot control problems by distilling behaviors from auxiliary RL tasks. AuxDistill achieves this by concurrently carrying out multi-task RL with auxiliary tasks, which are easier to learn and relevant to the main task. A weighted distillation loss transfers behaviors from these auxiliary tasks to solve the main task. We demonstrate that AuxDistill can learn a pixels-to-actions policy for a challenging multi-stage embodied object rearrangement task from the environment reward without demonstrations, a learning curriculum, or pre-trained skills. AuxDistill achieves $2.3 \times$ higher success than the previous state-of-the-art baseline in the Habitat Object Rearrangement benchmark and outperforms methods that use pre-trained skills and expert demonstrations. | 翻訳日:2024-06-26 18:11:29 公開日:2024-06-24 |
# Multi-LogiEval:大規模言語モデルのマルチステップ論理推論能力の評価に向けて
Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language Models ( http://arxiv.org/abs/2406.17169v1 ) ライセンス: Link先を確認 | Nisarg Patel, Mohith Kulkarni, Mihir Parmar, Aashna Budhiraja, Mutsumi Nakamura, Neeraj Varshney, Chitta Baral, | (参考訳) 大規模言語モデル(LLM)は、自然言語理解タスクにおいて顕著な性能を示し続けているため、人間のような多段階論理推論の能力を測定することが不可欠である。
既存の論理推論評価ベンチマークは、主に単純な単一ステップまたは複数ステップの推論に限定した推論規則に重点を置いていることが多い。
さらに、非単調推論を評価するためのデータセットの欠如は、人間のような推論とより緊密に一致するため、重要なギャップである。
これらの制約に対処するため,多段階論理推論を含む総合評価データセットであるMulti-LogiEvalを提案する。
Multi-LogiEvalは、30以上の推論規則と60以上の組み合わせを様々な深さで構成する、命題型、一階型、非単調型の3つの論理型をカバーしている。
GPT-4, ChatGPT, Gemini-Pro, Yi, Orca, Mistral など,さまざまな LLM の評価を行い,ゼロショット・チェーン・オブ・シークレットを用いた。
実験結果から, 推算ステップ/深度が増加するにつれてLLMの性能は著しく低下することがわかった(平均精度は深さ1で68%, 深さ5で43%)。
さらに LLM が生成する推論鎖の徹底的な検討を行い,いくつかの重要な知見が得られた。
我々は,LLMの論理的推論能力の評価と向上のために,Multi-LogiEvalが今後の研究を促進すると考えている。
データはhttps://github.com/Mihir3009/Multi-LogiEval.comで入手できる。
As Large Language Models (LLMs) continue to exhibit remarkable performance in natural language understanding tasks, there is a crucial need to measure their ability for human-like multi-step logical reasoning. Existing logical reasoning evaluation benchmarks often focus primarily on simplistic single-step or multi-step reasoning with a limited set of inference rules. Furthermore, the lack of datasets for evaluating non-monotonic reasoning represents a crucial gap since it aligns more closely with human-like reasoning. To address these limitations, we propose Multi-LogiEval, a comprehensive evaluation dataset encompassing multi-step logical reasoning with various inference rules and depths. Multi-LogiEval covers three logic types--propositional, first-order, and non-monotonic--consisting of more than 30 inference rules and more than 60 of their combinations with various depths. Leveraging this dataset, we conduct evaluations on a range of LLMs including GPT-4, ChatGPT, Gemini-Pro, Yi, Orca, and Mistral, employing a zero-shot chain-of-thought. Experimental results show that there is a significant drop in the performance of LLMs as the reasoning steps/depth increases (average accuracy of ~68% at depth-1 to ~43% at depth-5). We further conduct a thorough investigation of reasoning chains generated by LLMs which reveals several important findings. We believe that Multi-LogiEval facilitates future research for evaluating and enhancing the logical reasoning ability of LLMs. Data is available at https://github.com/Mihir3009/Multi-LogiEval. | 翻訳日:2024-06-26 18:11:29 公開日:2024-06-24 |
# イソバエ流
Iso-BAE Flows ( http://arxiv.org/abs/2406.17171v1 ) ライセンス: Link先を確認 | Yunfeng Jiang, Yuan Miao, | (参考訳) 我々は、強い相互作用と正確に解ける量子多体系のためにスペクトルの一部を無傷に残す局所的な変形の族を発見した。
変形はベーテ・アンザッツ方程式(BAE)を保存するため、アイソ-BAE流と呼ばれる。
流路上の全ての理論は同じBAEを共有しているが、スペクトルは異なる。
スペクトルの一部は、流路全体に沿って無傷で残っている。
このような状態は創発対称性によって保護される。
残りのスペクトルは流れに沿って連続的に変化し、スピン鎖の長さも2倍に縮退する。
奇長鎖に対しては、変形されたスペクトルは、スピン鎖の長さが$L$であるマグノン数$(L+1)/2$のセクターから2重縮退するペアも含む。
我々は、${\rm XXX}_{1/2}$モデルに対するイソ-BAEフローを詳細に議論し、$q$変形されたXXZや高スピンの${\rm XXX}_{s}$スピン鎖を含むより一般的なモデルに対してイソ-BAEフローが存在することを示す。
We discover a family of local deformations that leave part of the spectrum intact for strongly interacting and exactly solvable quantum many-body systems. Since the deformation preserves the Bethe Ansatz equations (BAE), it is dubbed as the iso-BAE flow. Although all theories on the flow share the same BAE, the spectra are different. Part of the spectrum remains intact along the whole flow. Such states are protected by an emergent symmetry. The rest of the spectrum change continuously along the flow and are doubly degenerate for even length spin chains. For odd length chains, the deformed spectrum also comprises doubly degenerate pairs apart from the sector with magnon number $(L+1)/2$, where $L$ is the length of the spin chain. We discuss the iso-BAE flow for ${\rm XXX}_{1/2}$ model in detail and show that the iso-BAE flows exist for more general models including $q$-deformed XXZ as well as higher spin ${\rm XXX}_{s}$ spin chains. | 翻訳日:2024-06-26 18:11:29 公開日:2024-06-24 |
# Robust Zero Trust Architecture: 統合ブロックチェーンベースのフェデレーションラーニングと異常検出ベースのフレームワーク
Robust Zero Trust Architecture: Joint Blockchain based Federated learning and Anomaly Detection based Framework ( http://arxiv.org/abs/2406.17172v1 ) ライセンス: Link先を確認 | Shiva Raj Pokhrel, Luxing Yang, Sutharshan Rajasegarar, Gang Li, | (参考訳) 本稿では,IoTネットワーク内の効率的なリモートワークとコラボレーションを支援する分散システムに適した,堅牢なゼロトラストアーキテクチャ(ZTA)を紹介する。
ブロックチェーンベースのフェデレーション学習の原則を使用して、当社のフレームワークは、漏洩したクライアントからの悪意のある更新を防止し、グローバルな学習プロセスのセキュリティを高めるために設計された、堅牢な集約メカニズムを含む。
さらに、リモートワークやコラボレーションには、セキュアで信頼性の高い信頼計算が不可欠です。
堅牢なZTAフレームワークは異常検出と信頼計算を統合し、セキュアで信頼性の高いデバイスコラボレーションを分散的に保証する。
教師なしクラスタリングを用いて、ゼロデイアタックのような新しい異常を検出する適応アルゴリズムを導入する。
信頼性が高くスケーラブルな信頼計算を実現するため,ノード間の局所的およびグローバルな異常を識別・共有するために,漸進的な異常検出とクラスタリング技術を用いて,様々なユーザコンテキストに動的に適応するアルゴリズムを開発した。
今後の方向性としては、スケーラビリティの改善、高度な異常検出のためのDirichletプロセス、プライバシ保護技術、新たな量子脅威から保護するためのポスト量子暗号メソッドの統合などがある。
This paper introduces a robust zero-trust architecture (ZTA) tailored for the decentralized system that empowers efficient remote work and collaboration within IoT networks. Using blockchain-based federated learning principles, our proposed framework includes a robust aggregation mechanism designed to counteract malicious updates from compromised clients, enhancing the security of the global learning process. Moreover, secure and reliable trust computation is essential for remote work and collaboration. The robust ZTA framework integrates anomaly detection and trust computation, ensuring secure and reliable device collaboration in a decentralized fashion. We introduce an adaptive algorithm that dynamically adjusts to varying user contexts, using unsupervised clustering to detect novel anomalies, like zero-day attacks. To ensure a reliable and scalable trust computation, we develop an algorithm that dynamically adapts to varying user contexts by employing incremental anomaly detection and clustering techniques to identify and share local and global anomalies between nodes. Future directions include scalability improvements, Dirichlet process for advanced anomaly detection, privacy-preserving techniques, and the integration of post-quantum cryptographic methods to safeguard against emerging quantum threats. | 翻訳日:2024-06-26 16:11:02 公開日:2024-06-24 |
# Diff3Dformer: Transformer Networksを用いた3次元CT分類におけるスライスシーケンス拡散の活用
Diff3Dformer: Leveraging Slice Sequence Diffusion for Enhanced 3D CT Classification with Transformer Networks ( http://arxiv.org/abs/2406.17173v1 ) ライセンス: Link先を確認 | Zihao Jin, Yingying Fang, Jiahao Huang, Caiwen Xu, Simon Walsh, Guang Yang, | (参考訳) 肺疾患に関連する症状の出現は、個々の患者に対して異なる深さで変化し、医療画像分類のためのCTスキャンにおける3D情報の重要性を強調している。
Vision Transformerは画像分類タスクにおいて畳み込みニューラルネットワークよりも優れた性能を示しているが、その効果は十分に大きな2Dデータセットでしばしば示され、小さな医療画像データセットで過度に適合する問題に容易に遭遇する。
この制限に対処するため,Diff3Dformer (Diff3Dformer) を提案する。Diff3Dformerは,Diffusionモデルの潜伏空間を利用して3次元解析のためのスライスシーケンスを形成し,クラスタリング注意をViTに組み込んで3次元CTスキャン内に繰り返し情報を集約することにより,小さなデータセット上での3次元分類タスクにおける高度な変換器のパワーを活用する。
本手法は, 新型コロナウイルスパンデミック時に出現した最先端の3D法および他のトランスフォーマーベースのアプローチを超越し, 異なる規模のデータに対して頑健で優れたパフォーマンスを示す。
実験の結果,提案手法の優位性を実証し,現実シナリオにおける医用画像分類タスクの強化の可能性を示した。
The manifestation of symptoms associated with lung diseases can vary in different depths for individual patients, highlighting the significance of 3D information in CT scans for medical image classification. While Vision Transformer has shown superior performance over convolutional neural networks in image classification tasks, their effectiveness is often demonstrated on sufficiently large 2D datasets and they easily encounter overfitting issues on small medical image datasets. To address this limitation, we propose a Diffusion-based 3D Vision Transformer (Diff3Dformer), which utilizes the latent space of the Diffusion model to form the slice sequence for 3D analysis and incorporates clustering attention into ViT to aggregate repetitive information within 3D CT scans, thereby harnessing the power of the advanced transformer in 3D classification tasks on small datasets. Our method exhibits improved performance on two different scales of small datasets of 3D lung CT scans, surpassing the state of the art 3D methods and other transformer-based approaches that emerged during the COVID-19 pandemic, demonstrating its robust and superior performance across different scales of data. Experimental results underscore the superiority of our proposed method, indicating its potential for enhancing medical image classification tasks in real-world scenarios. | 翻訳日:2024-06-26 16:11:02 公開日:2024-06-24 |
# ソフトウェア工学研究における理論教育
Teaching Theorizing in Software Engineering Research ( http://arxiv.org/abs/2406.17174v1 ) ライセンス: Link先を確認 | Klaas-Jan Stol, | (参考訳) この章は、ソフトウェア工学(SE)の研究者と教育者が理論の重要性と理論化のプロセスを教えることを支援することを目的としている。
他の分野からの洞察に基づいて、この章は、理論化の中間製品12と、SEコンテキストにおけるそれらの意味を提示する。
これらの中間積は異なる役割を担っている: いくつかは研究をフレーム化する理論積であり、いくつかは理論生成物であり、もう一つは理論の構成要素である。
SE領域は独自の理論を多く持っていないが、これらの中間積は広く見られる。
この章は、読者がこれらの中間製品、その役割、そしてSE研究における理論化プロセスにおいてどのように役立つかを理解するのを助けることを目的としている。
その有用性を説明するために、この章はソフトウェアアーキテクチャ研究分野に中間的理論製品群を適用している。
この章は、SEにおける理論化に関する12週間のコースのための提案された構造で終わる。
This chapter seeks to support software engineering (SE) researchers and educators in teaching the importance of theory as well as the theorizing process. Drawing on insights from other fields, the chapter presents 12 intermediate products of theorizing and what they mean in an SE context. These intermediate products serve different roles: some are theory products to frame research studies, some are theory generators, and others are components of theory. Whereas the SE domain doesn't have many theories of its own, these intermediate products of theorizing can be found widely. The chapter aims to help readers to recognize these intermediate products, their role, and how they can help in the theorizing process within SE research. To illustrate their utility, the chapter then applies the set of intermediate theorizing products to the software architecture research field. The chapter ends with a suggested structure for a 12-week course on theorizing in SE which can be readily adapted by educators. | 翻訳日:2024-06-26 16:11:02 公開日:2024-06-24 |
# モデル管理のためのREST APIの動的プロビジョニング
Dynamic Provisioning of REST APIs for Model Management ( http://arxiv.org/abs/2406.17176v1 ) ライセンス: Link先を確認 | Adiel Tuyishime, Francesco Basciani, Javier Luis Cánovas Izquierdo, Ludovico Iovino, | (参考訳) モデル駆動工学(MDE)は、主要な成果物としてモデルに焦点を当てたソフトウェア工学の方法論である。
ここ数年、Web技術が出現し、Webベースのモデリングツールとモデルベースのアプローチが開発され、モデルやモデルベースのローコードソリューションを作成・編集するWebベースの環境を提供してきた。
Webベースのモデリングツールを開発する際の一般的な要件は、モデル管理の迅速かつ効率的な方法を提供することである。
しかし、モデル管理にRESTfulサービスを提供するアプローチの数はまだ限られています。
分散サービスを開発するための代替案として、RESTfulサービスの利用に対する関心が高まっている。
本稿では、モデル管理のためのRESTfulなサービスを提供し、あらゆる種類のモデルと相互作用し、モデリング・アズ・ア・サービスを提供するモデリングプラットフォームを構築するために使用できるアプローチを提案する。
このアプローチは、ステートレスでスケーラブルなサービスを提供するというRESTの原則に従います。
Model-Driven Engineering (MDE) is a software engineering methodology focusing on models as primary artifacts. In the last years, the emergence of Web technologies has led to the development of Web-based modeling tools and model-based approaches for the Web that offer a web-based environment to create and edit models or model-based low-code solutions. A common requirement when developing Web-based modeling tools is to provide a fast and efficient way for model management, and this is particularly a hot topic in model-based system engineering. However, the number of approaches offering RESTful services for model management is still limited. Among the alternatives for developing distributed services, there is a growing interest in the use of RESTful services. In this paper, we present an approach to provide RESTful services for model management that can be used to interact with any kind of model and can be used to build a modeling platform providing modeling-as-a-service. The approach follows the REST principles to provide a stateless and scalable service. | 翻訳日:2024-06-26 16:11:02 公開日:2024-06-24 |
# 量子照明ネットワーク
Quantum illumination networks ( http://arxiv.org/abs/2406.17178v1 ) ライセンス: Link先を確認 | Xiaobin Zhao, Zheshen Zhang, Quntao Zhuang, | (参考訳) 量子照明は絡み合いに基づくターゲット検出プロトコルであり、絡み合いを破るノイズがあるにもかかわらず量子的優位性を提供する。
しかし、従来の量子照明プロトコルの利点は、低い送信電力と単純なターゲット構成を持つ非現実的なシナリオに限られる。
本研究では,送信機アレイと単一受信機アンテナを設計することで,限界を克服する量子照明ネットワークを提案する。
複数の送信機のおかげで、高い送信電力でも量子優位性が達成される。
さらに, 単一パラメータ推定では, 飽和前の送信機数の増加に伴い, 単一送信機に対するネットワークの優位性が増大する。
同時に、複数の未知の透過率や位相パラメータを持つ複雑なターゲット構成を解決できる。
単一アンテナにおける異なる戻り信号とマルチアクセスチャネルによる光子損失の干渉にもかかわらず、パラメトリック増幅と相関変位変換(CtoD)に基づく2種類の測定設計を行い、未知のパラメータを推定する量子的優位性を実現する。
また、パラメータ推定のシナリオを一般的な仮説テストのシナリオに一般化し、6デシベルの量子照明の利点をはるかに大きな全探索力で達成する。
Quantum illumination is an entanglement-based target detection protocol that provides quantum advantages despite the presence of entanglement-breaking noise. However, the advantage of traditional quantum illumination protocols is limited to impractical scenarios with low transmitted power and simple target configurations. In this work, we propose a quantum illumination network to overcome the limitations, via designing a transmitter array and a single receiver antenna. Thanks to multiple transmitters, quantum advantage is achieved even with a high total transmitted power. Moreover, for single-parameter estimation, the advantage of network over a single transmitter case increases with the number of transmitters before saturation. At the same time, complex target configurations with multiple unknown transmissivity or phase parameters can be resolved. Despite the interference of different returning signals at the single antenna and photon-loss due to multiple-access channel, we provide two types of measurement design, one based on parametric-amplification and one based on the correlation-to-displacement conversion (CtoD) to achieve a quantum advantage in estimating all unknown parameters. We also generalize the parameter estimation scenario to a general hypothesis testing scenario, where the six-decibel quantum illumination advantage is achieved at a much greater total probing power. | 翻訳日:2024-06-26 16:11:02 公開日:2024-06-24 |
# 雑音フィードバックによるデバイアスドレコメンデーション
Debiased Recommendation with Noisy Feedback ( http://arxiv.org/abs/2406.17182v1 ) ライセンス: Link先を確認 | Haoxuan Li, Chunyuan Zheng, Wenjie Wang, Hao Wang, Fuli Feng, Xiao-Hua Zhou, | (参考訳) 推薦システム内のほとんどの項目に対するユーザのレーティングは、通常ランダムではない(MNAR)。
MNARデータに基づく予測モデルの偏りのない学習を実現するため,誤差インプットベース(EIB),逆補正(IPS),二重ロバスト(DR)の3つの方法が提案されている。
しかし、これらの手法は、観察された評価とユーザの真の嗜好の不整合(ノイズフィードバックや結果測定誤差(OME)とも呼ばれる)に起因する別のバイアスを無視する。
本研究では,収集データ中のMNARとOMEから予測モデルの非バイアス学習に対する交差点脅威について検討する。
まず, OME-EIB, OME-IPS, OME-DR推定器を設計する。
次に、提案した推定器の不偏性および一般化境界を理論的に証明する。
さらに,MNARデータに基づく予測モデルの偏りのない学習を実現するために,OMEを用いた学習手法を提案する。
提案手法の有効性を示すために,3つの実世界のデータセットと1つの半合成データセットを用いて大規模な実験を行った。
コードはhttps://github.com/haoxuanli-pku/KDD24-OME-DRで公開されている。
Ratings of a user to most items in recommender systems are usually missing not at random (MNAR), largely because users are free to choose which items to rate. To achieve unbiased learning of the prediction model under MNAR data, three typical solutions have been proposed, including error-imputation-based (EIB), inverse-propensity-scoring (IPS), and doubly robust (DR) methods. However, these methods ignore an alternative form of bias caused by the inconsistency between the observed ratings and the users' true preferences, also known as noisy feedback or outcome measurement errors (OME), e.g., due to public opinion or low-quality data collection process. In this work, we study intersectional threats to the unbiased learning of the prediction model from data MNAR and OME in the collected data. First, we design OME-EIB, OME-IPS, and OME-DR estimators, which largely extend the existing estimators to combat OME in real-world recommendation scenarios. Next, we theoretically prove the unbiasedness and generalization bound of the proposed estimators. We further propose an alternate denoising training approach to achieve unbiased learning of the prediction model under MNAR data with OME. Extensive experiments are conducted on three real-world datasets and one semi-synthetic dataset to show the effectiveness of our proposed approaches. The code is available at https://github.com/haoxuanli-pku/KDD24-OME-DR. | 翻訳日:2024-06-26 16:11:02 公開日:2024-06-24 |
# POPCat:複雑なアノテーションタスクのための粒子の伝播
POPCat: Propagation of particles for complex annotation tasks ( http://arxiv.org/abs/2406.17183v1 ) ライセンス: Link先を確認 | Adam Srebrnjak Yang, Dheeraj Khanna, John S. Zelek, | (参考訳) マルチオブジェクト追跡、クラウドカウンティング、および産業ベースのビデオのための新しいデータセット作成は、ビデオシーケンスを密集するユニークなクラスに直面したとき、困難で時間を要する。
セグメント化やボックスベースのビデオアノテーションのための半教師付きパイプラインを生成するために,ビデオデータのマルチターゲットと時間的特徴を利用するPOPCatという時間効率の手法を提案する。
この方法は、より一般化するために、大量の半教師付きアノテーションを生成しながら、人間レベルのアノテーションに関連する精度レベルを保持する。
本手法は,人為的目標点の領域を拡大するために粒子追跡器を用いて時間的特徴に乗じる。
これは、ラベル付きフレームに従う画像のセットに初期点を関連付けるために、パーティクルトラッカーを使用することによって行われる。
YOLOモデルは生成されたデータでトレーニングされ、ターゲットのビデオ上で素早く推論される。
GMOT-40、AnimalTrack、Visdrone-2019ベンチマークで評価が行われた。
これらのマルチターゲットビデオ追跡・検出セットには、複数の類似したターゲット、カメラの動き、その他「ワイルド」な状況で一般的に見られるような特徴が含まれている。
具体的には、パイプラインの有効性と比較目的を実証するために、これらの難しいデータセットを選択します。
GMOT-40、AnimalTrack、Visdroneに適用された方法は、24.5%/9.6%/4.8%、-/43.1%/27.8%、そして7.5%/9.4%/7.5%の値で、最も良い結果よりもリコール/mAP50/mAPの改善率を示している。
Novel dataset creation for all multi-object tracking, crowd-counting, and industrial-based videos is arduous and time-consuming when faced with a unique class that densely populates a video sequence. We propose a time efficient method called POPCat that exploits the multi-target and temporal features of video data to produce a semi-supervised pipeline for segmentation or box-based video annotation. The method retains the accuracy level associated with human level annotation while generating a large volume of semi-supervised annotations for greater generalization. The method capitalizes on temporal features through the use of a particle tracker to expand the domain of human-provided target points. This is done through the use of a particle tracker to reassociate the initial points to a set of images that follow the labeled frame. A YOLO model is then trained with this generated data, and then rapidly infers on the target video. Evaluations are conducted on GMOT-40, AnimalTrack, and Visdrone-2019 benchmarks. These multi-target video tracking/detection sets contain multiple similar-looking targets, camera movements, and other features that would commonly be seen in "wild" situations. We specifically choose these difficult datasets to demonstrate the efficacy of the pipeline and for comparison purposes. The method applied on GMOT-40, AnimalTrack, and Visdrone shows a margin of improvement on recall/mAP50/mAP over the best results by a value of 24.5%/9.6%/4.8%, -/43.1%/27.8%, and 7.5%/9.4%/7.5% where metrics were collected. | 翻訳日:2024-06-26 16:11:02 公開日:2024-06-24 |
# 一般評価モデルを用いた文脈動的価格の最小値最適化
Minimax Optimality in Contextual Dynamic Pricing with General Valuation Models ( http://arxiv.org/abs/2406.17184v1 ) ライセンス: Link先を確認 | Xueping Gong, Jiheng Zhang, | (参考訳) 動的価格設定は、文脈的要因に基づく価格調整のプラクティスであり、収益の最大化に影響を及ぼすため、大きな注目を集めている。
本稿では,観測可能な製品特徴と顧客特性に基づいて価格決定を行うコンテキスト動的価格問題に対処する。
本稿では,問題に対する仮定を最小化しながら,改善された後悔境界を実現する新しいアルゴリズムを提案する。
提案アルゴリズムは,未知の雑音分布を識別し,各エピソードの後悔を効果的に抑えるために,上位の信頼度境界と階層化されたデータ分割手法を組み合わせる。
これらの技術は価格決定に伴う後悔を効果的に制御し、最小限の最適性をもたらす。
具体的には、我々のアルゴリズムは、$\tilde{\mathcal{O}}(\rho_{\mathcal{V}}^{\frac{1}{3}}(\delta) T^{\frac{2}{3}})$, ここで、$\rho_{\mathcal{V}}(\delta)$は評価関数の推定誤差を表す。
重要なことに、この境界は対数項までの下位境界と一致し、我々のアプローチの極小最適性を示す。
さらに,本手法は一般関数空間を考慮し,動的価格設定によく用いられる線形評価モデルを超えて拡張する。
我々は、一般的なオフライン回帰オラクルに還元することで、推定プロセスを単純化し、実装をより簡単にする。
Dynamic pricing, the practice of adjusting prices based on contextual factors, has gained significant attention due to its impact on revenue maximization. In this paper, we address the contextual dynamic pricing problem, which involves pricing decisions based on observable product features and customer characteristics. We propose a novel algorithm that achieves improved regret bounds while minimizing assumptions about the problem. Our algorithm discretizes the unknown noise distribution and combines the upper confidence bounds with a layered data partitioning technique to effectively regulate regret in each episode. These techniques effectively control the regret associated with pricing decisions, leading to the minimax optimality. Specifically, our algorithm achieves a regret upper bound of $\tilde{\mathcal{O}}(\rho_{\mathcal{V}}^{\frac{1}{3}}(\delta) T^{\frac{2}{3}})$, where $\rho_{\mathcal{V}}(\delta)$ represents the estimation error of the valuation function. Importantly, this bound matches the lower bound up to logarithmic terms, demonstrating the minimax optimality of our approach. Furthermore, our method extends beyond linear valuation models commonly used in dynamic pricing by considering general function spaces. We simplify the estimation process by reducing it to general offline regression oracles, making implementation more straightforward. | 翻訳日:2024-06-26 16:11:02 公開日:2024-06-24 |
# Vaporetto: 改良されたポイントワイド線形分類に基づく効率的な日本語トークン化
Vaporetto: Efficient Japanese Tokenization Based on Improved Pointwise Linear Classification ( http://arxiv.org/abs/2406.17185v1 ) ライセンス: Link先を確認 | Koichi Akabe, Shunsuke Kanda, Yusuke Oda, Shinsuke Mori, | (参考訳) 本稿では, トークン化過程全体を線形分類問題列として定式化するPLC(pointwise linear classification)フレームワークに基づく, 日本語のトークン化のランタイム効率向上手法を提案する。
提案手法は,PLCフレームワークの特性とタスク定義を活用することでトークン化を最適化する。
提案手法は,(1)複数の分類を配列ベース操作に構成すること,(2)メモリ最適化オートマトンによる効率的な特徴検索,(3)実際のスコア計算の削減のための3つの直交前処理手法を含む。
したがって,本手法はトークン化精度を低下させることなく,同じモデルに基づく現行手法の5.7倍の速度でトークン化を行う。
私たちの実装は、MITまたはApache-2.0ライセンスの下でhttps://github.com/daac-tools/vaporettoで利用可能です。
This paper proposes an approach to improve the runtime efficiency of Japanese tokenization based on the pointwise linear classification (PLC) framework, which formulates the whole tokenization process as a sequence of linear classification problems. Our approach optimizes tokenization by leveraging the characteristics of the PLC framework and the task definition. Our approach involves (1) composing multiple classifications into array-based operations, (2) efficient feature lookup with memory-optimized automata, and (3) three orthogonal pre-processing methods for reducing actual score calculation. Thus, our approach makes the tokenization speed 5.7 times faster than the current approach based on the same model without decreasing tokenization accuracy. Our implementation is available at https://github.com/daac-tools/vaporetto under the MIT or Apache-2.0 license. | 翻訳日:2024-06-26 16:11:02 公開日:2024-06-24 |
# CLERC: 判例検索と検索強化分析生成のためのデータセット
CLERC: A Dataset for Legal Case Retrieval and Retrieval-Augmented Analysis Generation ( http://arxiv.org/abs/2406.17186v1 ) ライセンス: Link先を確認 | Abe Bohan Hou, Orion Weller, Guanghui Qin, Eugene Yang, Dawn Lawrie, Nils Holzenberger, Andrew Blair-Stanek, Benjamin Van Durme, | (参考訳) 法律専門家は、関連する前例、すなわち以前の判例決定に引用に依存する分析を書く必要がある。
このような文書を書く際に法律専門家を支援するインテリジェントなシステムは大きな利益をもたらすが、設計は困難である。
このようなシステムは、有用であるためには、健全な前例の発見、要約、推論を支援する必要がある。
このようなタスクのシステムを実現するために、我々は法律専門家と協力して、大規模なオープンソース法定コーパスを、情報検索(IR)と検索強化生成(RAG)という2つの重要なバックボーンタスクをサポートするデータセットに変換する。
このデータセットCLERC(Case Law Evaluation Retrieval Corpus)は、(1)法的な分析の対応する引用を見つけ、(2)これらの引用のテキスト(および以前の文脈)を、推論目標をサポートするコジェント分析にコンパイルする能力に基づいて、モデルを訓練し、評価するために構築される。
GPT-4oは高いROUGE Fスコアを持つ分析結果を生成するが、最も幻覚的であり、ゼロショットIRモデルは48.3%のリコール@1000しか得られない。
Legal professionals need to write analyses that rely on citations to relevant precedents, i.e., previous case decisions. Intelligent systems assisting legal professionals in writing such documents provide great benefits but are challenging to design. Such systems need to help locate, summarize, and reason over salient precedents in order to be useful. To enable systems for such tasks, we work with legal professionals to transform a large open-source legal corpus into a dataset supporting two important backbone tasks: information retrieval (IR) and retrieval-augmented generation (RAG). This dataset CLERC (Case Law Evaluation Retrieval Corpus), is constructed for training and evaluating models on their ability to (1) find corresponding citations for a given piece of legal analysis and to (2) compile the text of these citations (as well as previous context) into a cogent analysis that supports a reasoning goal. We benchmark state-of-the-art models on CLERC, showing that current approaches still struggle: GPT-4o generates analyses with the highest ROUGE F-scores but hallucinates the most, while zero-shot IR models only achieve 48.3% recall@1000. | 翻訳日:2024-06-26 16:11:02 公開日:2024-06-24 |
# EMVDデータセット:重金属で用いられる極端声帯歪みのデータセット
EMVD dataset: a dataset of extreme vocal distortion techniques used in heavy metal ( http://arxiv.org/abs/2406.17732v1 ) ライセンス: Link先を確認 | Modan Tailleur, Julien Pinquier, Laurent Millot, Corsin Vogel, Mathieu Lagrange, | (参考訳) 本稿では,ヘビーメタル音楽の領域内で演奏される極端なボーカル技法の記録を収録したExtreme Metal Vocals Datasetを紹介する。
データセットは、長さ1秒から30秒の760のオーディオ抜粋で構成され、約100分間のオーディオ素材で構成され、ほぼ60分間の歪みのある音声と40分間のクリアな音声記録で構成されている。
これらのボーカル録音は27の異なる歌手からできており、楽器や後処理の影響を伴わずに提供される。
このデータセット内の歪み分類は、4つの異なる歪み技法と3つの発声効果を含み、それぞれ異なるピッチ範囲で実行される。
声楽技術に関連する2つの異なる分類タスクに対して,最先端のディープラーニングモデルの性能を評価し,このリソースが音声処理コミュニティにもたらす可能性を示す。
In this paper, we introduce the Extreme Metal Vocals Dataset, which comprises a collection of recordings of extreme vocal techniques performed within the realm of heavy metal music. The dataset consists of 760 audio excerpts of 1 second to 30 seconds long, totaling about 100 min of audio material, roughly composed of 60 minutes of distorted voices and 40 minutes of clear voice recordings. These vocal recordings are from 27 different singers and are provided without accompanying musical instruments or post-processing effects. The distortion taxonomy within this dataset encompasses four distinct distortion techniques and three vocal effects, all performed in different pitch ranges. Performance of a state-of-the-art deep learning model is evaluated for two different classification tasks related to vocal techniques, demonstrating the potential of this resource for the audio processing community. | 翻訳日:2024-06-26 13:31:24 公開日:2024-06-24 |
# 騒音による前処理によるブートストラップDQNの多様性向上
Improving the Diversity of Bootstrapped DQN by Replacing Priors With Noise ( http://arxiv.org/abs/2203.01004v3 ) ライセンス: Link先を確認 | Li Meng, Morten Goodwin, Anis Yazidi, Paal Engelstad, | (参考訳) Q-learningは、最もよく知られた強化学習アルゴリズムの1つである。
ニューラルネットワークを使ったこのアルゴリズムの開発には、多大な努力が払われている。
ブートストラップのDeep Q-Learning Networkもその一つだ。
複数のニューラルネットワークヘッドを使用して、Qラーニングに多様性を導入する。
多様性は、RLにおける探索比の定義に類似して、エージェントが与えられた状態に取ることができる合理的な動きの量と見なすことができる。
このように、Bootstrapped Deep Q-Learning Networkの性能はアルゴリズム内の多様性のレベルと深く関連している。
元の研究では、ランダムな事前処理によりモデルの性能が向上することが指摘された。
本稿では,従来のノイズに置き換える可能性をさらに検討し,ガウス分布からノイズをサンプリングし,このアルゴリズムにさらなる多様性を導入する。
我々はAtariベンチマークで実験を行い、元のアルゴリズムと関連するアルゴリズムを比較した。
その結果,Bootstrapped Deep Q-Learningアルゴリズムの修正により,異なる種類のAtariゲームに対する評価スコアが大幅に向上した。
そこで本研究では,雑音による事前の置き換えにより,多様性の整合性を確保することにより,ブートストラップ型深度Q-Learningの性能を向上させることができると結論付けた。
Q-learning is one of the most well-known Reinforcement Learning algorithms. There have been tremendous efforts to develop this algorithm using neural networks. Bootstrapped Deep Q-Learning Network is amongst them. It utilizes multiple neural network heads to introduce diversity into Q-learning. Diversity can sometimes be viewed as the amount of reasonable moves an agent can take at a given state, analogous to the definition of the exploration ratio in RL. Thus, the performance of Bootstrapped Deep Q-Learning Network is deeply connected with the level of diversity within the algorithm. In the original research, it was pointed out that a random prior could improve the performance of the model. In this article, we further explore the possibility of replacing priors with noise and sample the noise from a Gaussian distribution to introduce more diversity into this algorithm. We conduct our experiment on the Atari benchmark and compare our algorithm to both the original and other related algorithms. The results show that our modification of the Bootstrapped Deep Q-Learning algorithm achieves significantly higher evaluation scores across different types of Atari games. Thus, we conclude that replacing priors with noise can improve Bootstrapped Deep Q-Learning's performance by ensuring the integrity of diversities. | 翻訳日:2024-06-26 05:34:02 公開日:2024-06-24 |
# スイニングトランスを用いた深層強化学習
Deep Reinforcement Learning with Swin Transformers ( http://arxiv.org/abs/2206.15269v4 ) ライセンス: Link先を確認 | Li Meng, Morten Goodwin, Anis Yazidi, Paal Engelstad, | (参考訳) トランスフォーマー(Transformer)は,複数レイヤの自己認識ヘッドを利用するニューラルネットワークモデルであり,自然言語処理タスクにおいて大きな可能性を秘めている。
一方、Vision TransformersやSwin Transformersなど、機械学習の視覚タスクにトランスフォーマーを適用する取り組みも行われている。
一部の研究者は、強化学習タスクにVision Transformerを使用しているが、高い計算コストのために実験は小規模のままである。
本稿では,Swin Transformers: Swin DQNに基づくオンライン強化学習スキームについて紹介する。
既存の研究とは対照的に,アーケード学習環境における49のゲーム実験において,本手法は優れた性能を示す。
その結果,全49試合中45試合(92%)において,ベースライン法よりも最大評価スコアが有意に高く,全49試合中40試合(82%)においてベースライン法よりも平均評価スコアが高かった。
Transformers are neural network models that utilize multiple layers of self-attention heads and have exhibited enormous potential in natural language processing tasks. Meanwhile, there have been efforts to adapt transformers to visual tasks of machine learning, including Vision Transformers and Swin Transformers. Although some researchers use Vision Transformers for reinforcement learning tasks, their experiments remain at a small scale due to the high computational cost. This article presents the first online reinforcement learning scheme that is based on Swin Transformers: Swin DQN. In contrast to existing research, our novel approach demonstrate the superior performance with experiments on 49 games in the Arcade Learning Environment. The results show that our approach achieves significantly higher maximal evaluation scores than the baseline method in 45 of all the 49 games (92%), and higher mean evaluation scores than the baseline method in 40 of all the 49 games (82%). | 翻訳日:2024-06-26 05:34:02 公開日:2024-06-24 |
# クイディットシステムにおける離散時間量子ウォーク
Discrete-time Quantum Walks in Qudit Systems ( http://arxiv.org/abs/2207.04319v2 ) ライセンス: Link先を確認 | Amit Saha, Debasri Saha, Amlan Chakrabarti, | (参考訳) 量子ウォークは量子アルゴリズムや量子シミュレーションの開発に大きく貢献する。
ここでは,$d>2$の量子領域において,その1次元量子ウォークを初めて導入し,任意の有限次元量子論理における回路実現の等価性を示して,より大きな状態空間の利点を生かし,従来の二進量子システムと比較して量子ウォークの実行時間を短縮する。
任意の有限次元量子系における1次元位置空間における離散時間量子ウォーク(DTQW)の実装のための効率的な量子回路を提供する。
様々なキューディット状態空間の回路の例では、$n$-qudit $d$-ary量子系の拡張性についても検討する。
さらに、d$次元格子上の2d$次元コイン空間を用いた1次元DTQWから$d$次元DTQWへの拡張について研究し、$d>=2$とした。
その後、スケーラブルな$d$-dimensional DTQWを$d$-ary量子システムに実装するための回路設計が紹介された。
最後に,様々な検索空間に異なるコインを用いたDTQWの実装のための回路設計を示す。
Quantum walks contribute significantly to developing quantum algorithms and quantum simulations. Here, we introduce a first of its kind one-dimensional quantum walk in the $d$-dimensional quantum domain, where $d>2$, and show its equivalence for circuit realization in an arbitrary finite-dimensional quantum logic for utilizing the advantage of larger state space, which helps to reduce the run-time of the quantum walks as compared to the conventional binary quantum systems. We provide efficient quantum circuits for the implementation of discrete-time quantum walks (DTQW) in one-dimensional position space in any finite-dimensional quantum system when the dimension is odd using an appropriate logical mapping of the position space on which a walker evolves onto the multi-qudit states. With example circuits for various qudit state spaces, we also explore scalability in terms of $n$-qudit $d$-ary quantum systems. Further, the extension of one-dimensional DTQW to $d$-dimensional DTQW using $2d$-dimensional coin space on $d$-dimensional lattice has been studied, where $d>=2$. Thereafter, the circuit design for the implementation of scalable $d$-dimensional DTQW in $d$-ary quantum systems has been portrayed. Lastly, we exhibit the circuit design for the implementation of DTQW using different coins on various search spaces. | 翻訳日:2024-06-26 05:28:16 公開日:2024-06-24 |
# 非均一な滑らかさ下でのアダムの確率的適応性
Provable Adaptivity of Adam under Non-uniform Smoothness ( http://arxiv.org/abs/2208.09900v2 ) ライセンス: Link先を確認 | Bohan Wang, Yushun Zhang, Huishuai Zhang, Qi Meng, Ruoyu Sun, Zhi-Ming Ma, Tie-Yan Liu, Zhi-Quan Luo, Wei Chen, | (参考訳) アダムは急速に収束するため、実用的な用途で広く採用されている。
しかし、その理論的な分析は未だに満足には程遠い。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存しており、これは 'emph{L-smooth condition} と呼ばれる。
残念ながら、この仮定は多くのディープラーニングタスクには当てはまらない。
さらに、この仮定はアルゴリズムが局所的滑らか度に応じて更新の大きさを適応できるので、Adamの真の利益を曖昧にしていると信じている。
アダムのこの重要な特徴は、世界的有界な滑らかさを仮定するときに無関係になる。
本稿では,ランダムリシャッフルされたAdam (RR Adam) の学習率の低下による収束について検討する。
本稿では,境界の滑らかさを仮定しないRRアダムの収束解析について述べる。
我々は、RR Adamが、滑らかさが勾配ノルムによって線型に有界であるときに収束性を維持することを証明し、これを \emph{$(L_0, L_1)$-smooth 条件と呼ぶ。
さらに,AdamとSGDを比較した。
我々は既存のSGDの下限を洗練し、SGDがAdamよりも遅いことを示す。
私たちの知る限り、AdamとSGDが同じ環境で厳格に比較され、Adamの利点が明らかになるのは、これが初めてです。
Adam is widely adopted in practical applications due to its fast convergence. However, its theoretical analysis is still far from satisfactory. Existing convergence analyses for Adam rely on the bounded smoothness assumption, referred to as the \emph{L-smooth condition}. Unfortunately, this assumption does not hold for many deep learning tasks. Moreover, we believe that this assumption obscures the true benefit of Adam, as the algorithm can adapt its update magnitude according to local smoothness. This important feature of Adam becomes irrelevant when assuming globally bounded smoothness. This paper studies the convergence of randomly reshuffled Adam (RR Adam) with diminishing learning rate, which is the major version of Adam adopted in deep learning tasks. We present the first convergence analysis of RR Adam without the bounded smoothness assumption. We demonstrate that RR Adam can maintain its convergence properties when smoothness is linearly bounded by the gradient norm, referred to as the \emph{$(L_0, L_1)$-smooth condition. We further compare Adam to SGD when both methods use diminishing learning rate. We refine the existing lower bound of SGD and show that SGD can be slower than Adam. To our knowledge, this is the first time that Adam and SGD are rigorously compared in the same setting and the advantage of Adam is revealed. | 翻訳日:2024-06-26 05:28:15 公開日:2024-06-24 |
# 離散ハイゼンベルク群 $HW_{2^s}$ のユニタリイリプスの完全集合
Complete set of unitary irreps of Discrete Heisenberg Group $HW_{2^s}$ ( http://arxiv.org/abs/2210.04263v2 ) ライセンス: Link先を確認 | E. Floratos, I. Tsohantjis, | (参考訳) Wigner-Mackay の誘導群表現の方法に従うと、離散有限ハイゼンベルク・ワイル群 $HW_{2^s}$ のすべてのユニタリ既約表現を離散位相空間格子 $Z_{2^s}$ $\otimes$$Z_{2^s}$ 上で明示的に構成する。
我々はそれらの文字とその融合規則を明確に決定する。
有限量子力学と量子計算の物理応用について論じる。
Following the method of induced group representations of Wigner-Mackay, the explicit construction of all the unitary irreducible representations of the discrete finite Heisenberg-Weyl group $HW_{2^s}$ over the discrete phase space lattice $Z_{2^s}$ $\otimes$ $Z_{2^s}$ is presented. We explicitly determine their characters and their fusion rules. We discuss possible physical applications for finite quantum mechanics and quantum computation. | 翻訳日:2024-06-26 05:28:15 公開日:2024-06-24 |
# 説明法による変圧器とCNNによる意思決定メカニズムの比較
Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods ( http://arxiv.org/abs/2212.06872v5 ) ライセンス: Link先を確認 | Mingqi Jiang, Saeed Khorram, Li Fuxin, | (参考訳) 異なる視覚的認識バックボーンの意思決定に関する知見を得るために,データセット全体にわたって深い説明アルゴリズムを体系的に適用し,説明の量と性質から得られた統計を比較検討する,部分説明カウントとクロステストという2つの手法を提案する。
これらの手法は、構成性と可分性と呼ばれる2つの性質の観点から、ネットワーク間の差異を明らかにする。
トランスフォーマーとConvNeXtは、画像の複数の部分を共同で検討し、従来のCNNと蒸留トランスフォーマーはより構成的であり、より分離的であるため、複数の多様な、より小さな部品を用いて、自信ある予測を下すことができる。
さらなる実験を通じて、モデルの構成性において特に重要な正規化の選択は、バッチ正規化によって構成性が低下する一方、グループおよび層正規化はより重要となる。
最後に、異なるバックボーンで共有される機能を分析し、それらの機能利用の類似性に基づいて、異なるモデルのランドスケープをプロットする。
In order to gain insights about the decision-making of different visual recognition backbones, we propose two methodologies, sub-explanation counting and cross-testing, that systematically applies deep explanation algorithms on a dataset-wide basis, and compares the statistics generated from the amount and nature of the explanations. These methodologies reveal the difference among networks in terms of two properties called compositionality and disjunctivism. Transformers and ConvNeXt are found to be more compositional, in the sense that they jointly consider multiple parts of the image in building their decisions, whereas traditional CNNs and distilled transformers are less compositional and more disjunctive, which means that they use multiple diverse but smaller set of parts to achieve a confident prediction. Through further experiments, we pinpointed the choice of normalization to be especially important in the compositionality of a model, in that batch normalization leads to less compositionality while group and layer normalization lead to more. Finally, we also analyze the features shared by different backbones and plot a landscape of different models based on their feature-use similarity. | 翻訳日:2024-06-26 05:28:15 公開日:2024-06-24 |
# 画像テキスト生成のための隣接要素の適応クラスタリング
Adaptively Clustering Neighbor Elements for Image-Text Generation ( http://arxiv.org/abs/2301.01955v3 ) ライセンス: Link先を確認 | Zihua Wang, Xu Yang, Hanwang Zhang, Haiyang Xu, Ming Yan, Fei Huang, Yu Zhang, | (参考訳) 本稿では,オブジェクト領域と言語単語に視覚パッチを適応的にクラスタリングし,オブジェクト・フレーズのアライメントを暗黙的に学習し,より優れた視覚的テキスト・コヒーレンスを実現する,トランスフォーマーベースの画像・テキスト生成モデルを提案する。
そこで本研究では,局所クラスタウィンドウの要素に自己アテンションを適用した新たな自己アテンション層を設計する。
ウィンドウサイズは、現在の入力データによって計算されるクラスタリング行列によってソフトに決定されるので、この処理は適応的である。
これらの修正された自己アテンション層を積み重ねてACFを構築することで、下位層の小さなクラスタをより大きなクラスタである \eg Vision/Languageにグループ化することができる。
ACFは小さなオブジェクト/フレーズをより大きなオブジェクトにクラスタ化する。
この段階的なクラスタリングプロセスでは、入力シーケンスの階層的な知識を埋め込んだ解析木が生成される。
その結果、ACFを用いて視覚エンコーダと言語デコーダを構築することにより、階層的なオブジェクト-フレーズアライメントが組み込まれ、画像キャプションと視覚質問応答という2つの一般的な画像-テキストタスクで視覚から言語ドメインに転送される。
実験の結果,ほとんどのSOTAキャプションモデルとVQAモデルより優れ,大規模事前学習モデルと比較してスコアが同等であるACFの有効性が示された。
私たちのコードは \href{https://github.com/ZihuaEvan/ACFModel/}{[here]} で利用可能です。
We propose a novel Transformer-based image-to-text generation model termed as \textbf{ACF} that adaptively clusters vision patches into object regions and language words into phrases to implicitly learn object-phrase alignments for better visual-text coherence. To achieve this, we design a novel self-attention layer that applies self-attention over the elements in a local cluster window instead of the whole sequence. The window size is softly decided by a clustering matrix that is calculated by the current input data and thus this process is adaptive. By stacking these revised self-attention layers to construct ACF, the small clusters in the lower layers can be grouped into a bigger cluster, \eg vision/language. ACF clusters small objects/phrases into bigger ones. In this gradual clustering process, a parsing tree is generated which embeds the hierarchical knowledge of the input sequence. As a result, by using ACF to build the vision encoder and language decoder, the hierarchical object-phrase alignments are embedded and then transferred from vision to language domains in two popular image-to-text tasks: Image captioning and Visual Question Answering. The experiment results demonstrate the effectiveness of ACF, which outperforms most SOTA captioning and VQA models and achieves comparable scores compared with some large-scale pre-trained models. Our code is available \href{https://github.com/ZihuaEvan/ACFModel/}{[here]}. | 翻訳日:2024-06-26 05:28:15 公開日:2024-06-24 |
# オンラインFrank-Wolfeにおける動的レグレットの改善
Improved Dynamic Regret for Online Frank-Wolfe ( http://arxiv.org/abs/2302.05620v2 ) ライセンス: Link先を確認 | Yuanyu Wan, Lijun Zhang, Mingli Song, | (参考訳) 複雑な制約を伴う非定常オンライン問題に対処するため、オンライン凸最適化のための効率的なプロジェクションフリーアルゴリズムであるオンラインフランクウルフ(OFW)の動的後悔について検討する。
オフライン最適化の設定において、関数の滑らかさと制約セットの特定の性質に付随する関数の強い凸性を利用して、フランク・ウルフ(FW)アルゴリズムの高速収束率を達成することはよく知られている。
しかし、OW の場合、以前の研究は、問題の凸性を利用して、$O(\sqrt{T}(V_T+\sqrt{D_T}+1)$の動的後悔境界を定めているだけで、$T$ はラウンド数、$V_T$ は関数変分、$D_T$ は勾配変分である。
本稿では,FWの高速収束率をオフライン最適化からオンライン最適化に拡張することにより,OFWの動的後悔境界の改善を導出する。
この拡張の鍵となるテクニックは、行探索ルールでOwのステップサイズを設定することである。
このようにして、OW の動的後悔境界が滑らかな函数に対して$O(\sqrt{T(V_T+1)})$に改善できることを最初に示す。
第二に、函数が滑らかで強凸であり、制約集合が強凸であるとき、$O(T^{1/3}(V_T+1)^{2/3})$のより動的な後悔境界を達成する。
最後に、制約集合の内部に最小値を持つ滑らかで強い凸関数に対して、OWの動的後悔は$O(V_T+1)$に減少し、さらに$O(\min\{P_T^\ast,S_T^\ast,V_T\}+1)$に拡張できることを示す。
To deal with non-stationary online problems with complex constraints, we investigate the dynamic regret of online Frank-Wolfe (OFW), which is an efficient projection-free algorithm for online convex optimization. It is well-known that in the setting of offline optimization, the smoothness of functions and the strong convexity of functions accompanying specific properties of constraint sets can be utilized to achieve fast convergence rates for the Frank-Wolfe (FW) algorithm. However, for OFW, previous studies only establish a dynamic regret bound of $O(\sqrt{T}(V_T+\sqrt{D_T}+1))$ by utilizing the convexity of problems, where $T$ is the number of rounds, $V_T$ is the function variation, and $D_T$ is the gradient variation. In this paper, we derive improved dynamic regret bounds for OFW by extending the fast convergence rates of FW from offline optimization to online optimization. The key technique for this extension is to set the step size of OFW with a line search rule. In this way, we first show that the dynamic regret bound of OFW can be improved to $O(\sqrt{T(V_T+1)})$ for smooth functions. Second, we achieve a better dynamic regret bound of $O(T^{1/3}(V_T+1)^{2/3})$ when functions are smooth and strongly convex, and the constraint set is strongly convex. Finally, for smooth and strongly convex functions with minimizers in the interior of the constraint set, we demonstrate that the dynamic regret of OFW reduces to $O(V_T+1)$, and can be further strengthened to $O(\min\{P_T^\ast,S_T^\ast,V_T\}+1)$ by performing a constant number of FW iterations per round, where $P_T^\ast$ and $S_T^\ast$ denote the path length and squared path length of minimizers, respectively. | 翻訳日:2024-06-26 05:28:15 公開日:2024-06-24 |
# シュワルツシルトブラックホールの真空状態のフェルミオンエンタングルメントエントロピー
The Fermionic Entanglement Entropy of the Vacuum State of a Schwarzschild Black Hole Horizon ( http://arxiv.org/abs/2302.07212v4 ) ライセンス: Link先を確認 | Felix Finster, Magdalena Lottner, | (参考訳) シュワルツシルトブラックホール水平線のフェルミオンエンタングルメントエントロピーを、無限遠点における観測者の正規化真空状態に対して定義し、解析する。
変数の分離とディラックプロパゲータの積分表現を用いて、絡み合いエントロピーは事象の地平線上の占有角運動量モードの1倍の精度で計算される。
We define and analyze the fermionic entanglement entropy of a Schwarzschild black hole horizon for the regularized vacuum state of an observer at infinity. Using separation of variables and an integral representation of the Dirac propagator, the entanglement entropy is computed to be a prefactor times the number of occupied angular momentum modes on the event horizon. | 翻訳日:2024-06-26 05:28:15 公開日:2024-06-24 |
# ログベース故障予測のためのディープラーニングモデルの体系的評価
Systematic Evaluation of Deep Learning Models for Log-based Failure Prediction ( http://arxiv.org/abs/2303.07230v4 ) ライセンス: Link先を確認 | Fatemeh Hadadi, Joshua H. Dawes, Donghwan Shin, Domenico Bianculli, Lionel Briand, | (参考訳) ソフトウェアシステムの複雑さとスコープが増大するにつれて、その信頼性は不可欠である。
システム実行中に記録されたログデータの解析により、エンジニアは実行時に自動的に障害を予測できる。
このようなタスクを自動化するために、従来のMLやディープラーニング(DL)など、機械学習(ML)技術がいくつか提案されている。
しかしながら、現在の実証研究は、すべての主要なDLタイプ(リカレントニューラルネットワーク(RNN)、畳み込みニューラルネットワーク(CNN)、トランスフォーマー)をカバーし、幅広い多様なデータセットでそれらを調べるという観点で限定されている。
本稿では、障害予測のためのログデータ埋め込み戦略とDLタイプの組み合わせを体系的に検討し、これらの課題に対処することを目的とする。
そこで我々は,組込み戦略とDLベースのエンコーダの様々な構成に対応するモジュールアーキテクチャを提案する。
さらに,データセットサイズや故障率などのデータセット特性がモデル精度にどのように影響するかを検討するために,系統的および自動生成アプローチに基づく3つの異なるシステム行動モデルに対して,異なる特徴を持つ360データセットを合成した。
また,F1スコア測定値を用いて,Logkey2vecを用いたCNNベースのエンコーダが最適であることを示す。
さらに、データセットサイズ >350 または失敗率 >7.5% という特定のデータセット条件も提供します。
With the increasing complexity and scope of software systems, their dependability is crucial. The analysis of log data recorded during system execution can enable engineers to automatically predict failures at run time. Several Machine Learning (ML) techniques, including traditional ML and Deep Learning (DL), have been proposed to automate such tasks. However, current empirical studies are limited in terms of covering all main DL types -- Recurrent Neural Network (RNN), Convolutional Neural network (CNN), and transformer -- as well as examining them on a wide range of diverse datasets. In this paper, we aim to address these issues by systematically investigating the combination of log data embedding strategies and DL types for failure prediction. To that end, we propose a modular architecture to accommodate various configurations of embedding strategies and DL-based encoders. To further investigate how dataset characteristics such as dataset size and failure percentage affect model accuracy, we synthesised 360 datasets, with varying characteristics, for three distinct system behavioral models, based on a systematic and automated generation approach. Using the F1 score metric, our results show that the best overall performing configuration is a CNN-based encoder with Logkey2vec. Additionally, we provide specific dataset conditions, namely a dataset size >350 or a failure percentage >7.5%, under which this configuration demonstrates high accuracy for failure prediction. | 翻訳日:2024-06-26 05:28:15 公開日:2024-06-24 |
# 連続学習表現における知識蓄積と特徴提示の課題
Knowledge Accumulation in Continually Learned Representations and the Issue of Feature Forgetting ( http://arxiv.org/abs/2304.00933v4 ) ライセンス: Link先を確認 | Timm Hess, Eli Verwimp, Gido M. van de Ven, Tinne Tuytelaars, | (参考訳) 継続的な学習研究は、ニューラルネットワークが「出力レベルで」破滅的な忘れに苦しむことを示したが、このことが学習表現のレベルでも同様であるかどうかも議論されている。
複数の最近の研究は、ある特定のレベルの自然的堅牢さを、出力レベルでの忘れることと比較して、最小限にしか忘れないものとして記述している。
記憶の蓄積と特徴の忘れという2つの現象の共存が、継続的に学習された表現の質に影響を及ぼすことを示す実験を再考し、拡張した。
両側面を考慮に入れると、表現を忘れること(つまり、特徴を忘れること)が絶対的に小さいとしても、タスク中に学習した量に対して測定すると、表現を忘れることが出力レベルで忘れることと同じくらい破滅的になる傾向にあることを示す。
次に、優れた一般表現(すなわち知識蓄積)の漸進的な学習を著しく遅くするので、この機能を忘れることは問題であることを示す。
最後に,機能忘れと知識蓄積が,継続学習法の種類によってどのように影響されるかを検討する。
Continual learning research has shown that neural networks suffer from catastrophic forgetting "at the output level", but it is debated whether this is also the case at the level of learned representations. Multiple recent studies ascribe representations a certain level of innate robustness against forgetting -- that they only forget minimally in comparison with forgetting at the output level. We revisit and expand upon the experiments that revealed this difference in forgetting and illustrate the coexistence of two phenomena that affect the quality of continually learned representations: knowledge accumulation and feature forgetting. Taking both aspects into account, we show that, even though forgetting in the representation (i.e. feature forgetting) can be small in absolute terms, when measuring relative to how much was learned during a task, forgetting in the representation tends to be just as catastrophic as forgetting at the output level. Next we show that this feature forgetting is problematic as it substantially slows down the incremental learning of good general representations (i.e. knowledge accumulation). Finally, we study how feature forgetting and knowledge accumulation are affected by different types of continual learning methods. | 翻訳日:2024-06-26 05:18:24 公開日:2024-06-24 |
# 古典量子確率過程の客観性
Objectivity of classical quantum stochastic processes ( http://arxiv.org/abs/2304.07110v4 ) ライセンス: Link先を確認 | Piotr Szańkowski, Łukasz Cywiński, | (参考訳) 量子確率過程(いわゆる量子確率過程の顕著な例)の連続的な量子測定がコルモゴロフ整合性条件を満たすとき、量子系について何を結論付けることができるのかを考察し、古典的な軌道のサンプリングとして観察者に見せる。
システム力学に課される物理条件の集合を同定し、満足すると、上記の測定結果の軌道解釈につながる。
次に、別の量子系が可観測性に結合されると、それを表わす演算子を外部ノイズに置き換えることができることを示す。
重要なことに、このサロゲート(古典的)確率過程の実現は、観測者によって測定されたものと同じ軌道に従う。
したがって、コルモゴロフの一貫した測定によって示唆される軌道解釈は、逐次測定以外の文脈にも適用できると言える。
We investigate what can be concluded about a quantum system when sequential quantum measurements of its observable -- a prominent example of the so-called quantum stochastic process -- fulfill the Kolmogorov consistency condition and thus appear to an observer as a sampling of a classical trajectory. We identify a set of physical conditions imposed on the system dynamics, that when satisfied, lead to the aforementioned trajectory interpretation of the measurement results. We then show that when another quantum system is coupled to the observable, the operator representing it can be replaced by external noise. Crucially, the realizations of this surrogate (classical) stochastic process follow the same trajectories as those measured by the observer. Therefore, it can be said that the trajectory interpretation suggested by the Kolmogorov consistent measurements also applies in contexts other than sequential measurements. | 翻訳日:2024-06-26 05:18:24 公開日:2024-06-24 |
# DeepReShape: 効率的なプライベート推論のためのニューラルネットワークの再設計
DeepReShape: Redesigning Neural Networks for Efficient Private Inference ( http://arxiv.org/abs/2304.10593v4 ) ライセンス: Link先を確認 | Nandan Kumar Jha, Brandon Reagen, | (参考訳) 暗号化された入力で直接実行される推論であるPrivate Inference(PI)に関する以前の研究は、FLOPよりもPIレイテンシを支配していると推定されるネットワークのReLUの最小化に重点を置いていた。
近年の研究では、PIのFLOPは無視できず、高いレイテンシのペナルティを負うことが示されている。
本稿では、PIの制約下でニューラルネットワークアーキテクチャを最適化し、ReLUとFLOPの両方を初めて最適化するDeepReShapeを開発する。
重要な洞察は、ネットワークの正確性に対する臨界性のために、ネットワークのReLUを配置するチャネルを戦略的に割り当てることであり、同時にReLUとFLOPの効率を最適化する。
DeepReShapeは効率的なプロセスでネットワーク開発を自動化する。
我々は、標準PIベンチマークを用いてDeepReShapeを評価し、CIFAR-100のIso-ReLUでの5.2$\times$ランタイム改善とTinyImageNetのIso-ReLUの8.7$\times$ランタイム改善で2.1%の精度向上を示した。
さらに, 従来のReLU最適化におけるネットワーク選択の重要性について検討し, PI性能を向上させるために, キーネットワーク特性に光を当てる。
Prior work on Private Inference (PI) -- inferences performed directly on encrypted input -- has focused on minimizing a network's ReLUs, which have been assumed to dominate PI latency rather than FLOPs. Recent work has shown that FLOPs for PI can no longer be ignored and incur high latency penalties. In this paper, we develop DeepReShape, a technique that optimizes neural network architectures under PI's constraints, optimizing for both ReLUs and FLOPs for the first time. The key insight is strategically allocating channels to position the network's ReLUs in order of their criticality to network accuracy, simultaneously optimizes ReLU and FLOPs efficiency. DeepReShape automates network development with an efficient process, and we call generated networks HybReNets. We evaluate DeepReShape using standard PI benchmarks and demonstrate a 2.1% accuracy gain with a 5.2$\times$ runtime improvement at iso-ReLU on CIFAR-100 and an 8.7$\times$ runtime improvement at iso-accuracy on TinyImageNet. Furthermore, we investigate the significance of network selection in prior ReLU optimizations and shed light on the key network attributes for superior PI performance. | 翻訳日:2024-06-26 05:18:24 公開日:2024-06-24 |
# グレーコード表現を用いた非自己回帰型多方向飛行軌道予測フレームワーク
A Non-autoregressive Multi-Horizon Flight Trajectory Prediction Framework with Gray Code Representation ( http://arxiv.org/abs/2305.01658v4 ) ライセンス: Link先を確認 | Dongyue Guo, Zheng Zhang, Zhen Yan, Jianwei Zhang, Yi Lin, | (参考訳) フライトトラジェクトリ予測(Flight Trajectory Prediction, FTP)は、航空管制官がより安全かつ効率的に空域を管理するのを支援する航空交通管制(ATC)において重要な課題である。
既存のアプローチは、通常、自動回帰方式でマルチ水平FTPタスクを実行するため、エラーの蓄積や効率の低い問題に悩まされる。
本稿では,FlightBERT++と呼ばれる新しいフレームワークを提案する。
一 自己回帰的でない方法で直接マルチホライゾン飛行軌道を予知すること。
ii) FlightBERTフレームワークにおけるバイナリエンコーディング(BE)表現の制限を改善する。
具体的には,エンコーダが歴史的観測から時間空間パターンを学習し,デコーダが将来の地平線の飛行状況を予測する,一般化エンコーダデコーダアーキテクチャによって実装される。
従来のアーキテクチャと比較して、先進的な水平方向情報を考えるために革新的な水平方向対応コンテキスト生成器が設計されており、さらに非自己回帰的マルチ水平方向予測を可能にする。
さらに、グレイ符号表現と微分予測パラダイムは、BE表現の高ビットの誤分類に対処するように設計されており、予測における外れ値を大幅に減少させる。
さらに、差分列の定常性を利用して、差分予測の能力を高めるために、差分誘導復号器を提案する。
実世界の飛行軌跡データセット上で提案した枠組みを検証するため,大規模な実験を行った。
実験の結果,提案フレームワークはFTP性能と計算効率の両面において,競合する基本性能よりも優れていた。
Flight Trajectory Prediction (FTP) is an essential task in Air Traffic Control (ATC), which can assist air traffic controllers in managing airspace more safely and efficiently. Existing approaches generally perform multi-horizon FTP tasks in an autoregressive manner, thereby suffering from error accumulation and low-efficiency problems. In this paper, a novel framework, called FlightBERT++, is proposed to i) forecast multi-horizon flight trajectories directly in a non-autoregressive way, and ii) improve the limitation of the binary encoding (BE) representation in the FlightBERT framework. Specifically, the proposed framework is implemented by a generalized encoder-decoder architecture, in which the encoder learns the temporal-spatial patterns from historical observations and the decoder predicts the flight status for the future horizons. Compared to conventional architecture, an innovative horizon-aware contexts generator is dedicatedly designed to consider the prior horizon information, which further enables non-autoregressive multi-horizon prediction. Additionally, the Gray code representation and the differential prediction paradigm are designed to cope with the high-bit misclassifications of the BE representation, which significantly reduces the outliers in the predictions. Moreover, a differential prompted decoder is proposed to enhance the capability of the differential predictions by leveraging the stationarity of the differential sequence. Extensive experiments are conducted to validate the proposed framework on a real-world flight trajectory dataset. The experimental results demonstrated that the proposed framework outperformed the competitive baselines in both FTP performance and computational efficiency. | 翻訳日:2024-06-26 05:18:24 公開日:2024-06-24 |
# マルチプロンプト知識に基づく低リソースマルチグラニュラリティアカデミック関数認識
Low-Resource Multi-Granularity Academic Function Recognition Based on Multiple Prompt Knowledge ( http://arxiv.org/abs/2305.03287v2 ) ライセンス: Link先を確認 | Jiawei Liu, Zi Xiong, Yi Jiang, Yongqiang Ma, Wei Lu, Yong Huang, Qikai Cheng, | (参考訳) 微調整事前学習言語モデル(PLM)、例えばSciBERTは、科学領域における様々なNLPタスクにおける最先端のパフォーマンスを達成するために、多くの注釈付きデータを必要とする。
しかし、科学的NLPタスクのための微調整データを取得することは依然として困難でコストがかかる。
本稿では,近年の素早い学習の進歩に触発されて,注釈付きデータへの依存を緩和し,少数のラベル付き例で多粒度学術関数認識タスクの性能を向上させる半教師付き手法であるMix Prompt Tuning(MPT)を提案する。
具体的には,手動のプロンプトテンプレートと自動学習された連続的なプロンプトテンプレートを組み合わせることで,PLMの知識を十分に活用する。
これらのプロンプトテンプレートと微調整されたPLMに基づいて、ラベルのない例に多数の擬似ラベルが割り当てられる。
最後に、擬似トレーニングセットを用いてPLMを微調整する。
本手法は,計算機科学領域と生物医学領域のデータセットを用いて,引用関数,要約文関数,キーワード関数など,粒度の異なる3つの学術的機能認識タスクについて評価する。
大規模な実験により,本手法の有効性と,強いベースラインに対する統計的に有意な改善が示された。
特に、マクロF1のスコアは微調整に比べて平均5%増加し、マクロF1のスコアは6%アップする。
加えて、MPTは他の低リソースの科学的分類タスクにも容易に適用できる一般的な方法である。
Fine-tuning pre-trained language models (PLMs), e.g., SciBERT, generally requires large numbers of annotated data to achieve state-of-the-art performance on a range of NLP tasks in the scientific domain. However, obtaining the fine-tune data for scientific NLP task is still challenging and expensive. Inspired by recent advancement in prompt learning, in this paper, we propose the Mix Prompt Tuning (MPT), which is a semi-supervised method to alleviate the dependence on annotated data and improve the performance of multi-granularity academic function recognition tasks with a small number of labeled examples. Specifically, the proposed method provides multi-perspective representations by combining manual prompt templates with automatically learned continuous prompt templates to help the given academic function recognition task take full advantage of knowledge in PLMs. Based on these prompt templates and the fine-tuned PLM, a large number of pseudo labels are assigned to the unlabeled examples. Finally, we fine-tune the PLM using the pseudo training set. We evaluate our method on three academic function recognition tasks of different granularity including the citation function, the abstract sentence function, and the keyword function, with datasets from computer science domain and biomedical domain. Extensive experiments demonstrate the effectiveness of our method and statistically significant improvements against strong baselines. In particular, it achieves an average increase of 5% in Macro-F1 score compared with fine-tuning, and 6% in Macro-F1 score compared with other semi-supervised method under low-resource settings. In addition, MPT is a general method that can be easily applied to other low-resource scientific classification tasks. | 翻訳日:2024-06-26 05:18:24 公開日:2024-06-24 |
# 非平衡アトラスを用いた状態表現学習
State Representation Learning Using an Unbalanced Atlas ( http://arxiv.org/abs/2305.10267v3 ) ライセンス: Link先を確認 | Li Meng, Morten Goodwin, Anis Yazidi, Paal Engelstad, | (参考訳) 多様体仮説は、高次元データがしばしば下次元多様体の上にあり、この多様体を対象空間として利用するとより効率的な表現が得られることを仮定する。
多くの伝統的な多様体に基づく手法が次元の減少のために存在するが、自己教師あり学習におけるそれらの応用は緩やかな進歩を目撃している。
最近のMSimCLR法は、多様体エンコーディングとSimCLRを組み合わせるが、その適用性を制限するために非常に低い目標エンコーディング次元を必要とする。
本稿では,非平衡アトラス(UA)を用いた,最先端の自己教師型学習手法を超越した新しい学習パラダイムを提案する。
提案したUAパラダイムに適合する時空間DeepInfomax(ST-DIM)フレームワークを適用して,DeepInfomaxを非平衡アトラス(DIM-UA)方式で検討・設計した。
DIM-UAの有効性はAtari Annotated RAM Interface (AtariARI)ベンチマークのトレーニングと評価を通じて実証される。
UAパラダイムは、ターゲット符号化次元の増大に伴い、既存のアルゴリズムを大幅に改善する。
例えば、DIM-UAのカテゴリの平均F1スコアは16384の隠れユニットを使用すると、ST-DIMの70%に比べて75%程度である。
The manifold hypothesis posits that high-dimensional data often lies on a lower-dimensional manifold and that utilizing this manifold as the target space yields more efficient representations. While numerous traditional manifold-based techniques exist for dimensionality reduction, their application in self-supervised learning has witnessed slow progress. The recent MSimCLR method combines manifold encoding with SimCLR but requires extremely low target encoding dimensions to outperform SimCLR, limiting its applicability. This paper introduces a novel learning paradigm using an unbalanced atlas (UA), capable of surpassing state-of-the-art self-supervised learning approaches. We investigated and engineered the DeepInfomax with an unbalanced atlas (DIM-UA) method by adapting the Spatiotemporal DeepInfomax (ST-DIM) framework to align with our proposed UA paradigm. The efficacy of DIM-UA is demonstrated through training and evaluation on the Atari Annotated RAM Interface (AtariARI) benchmark, a modified version of the Atari 2600 framework that produces annotated image samples for representation learning. The UA paradigm improves existing algorithms significantly as the number of target encoding dimensions grows. For instance, the mean F1 score averaged over categories of DIM-UA is ~75% compared to ~70% of ST-DIM when using 16384 hidden units. | 翻訳日:2024-06-26 05:18:24 公開日:2024-06-24 |
# ゲームにおける学習のための適応的摂動ミラーダイス
Adaptively Perturbed Mirror Descent for Learning in Games ( http://arxiv.org/abs/2305.16610v5 ) ライセンス: Link先を確認 | Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Atsushi Iwasaki, | (参考訳) 本稿では,ゲームにおけるミラー・ディフレクション(MD)アルゴリズムに対するペイオフ摂動手法を提案する。
楽観的なMDによって実証された楽観的な学習アルゴリズムの族は、雑音のないシナリオにおける最終段階の収束を成功させ、力学をナッシュ均衡へと導く。
最近の再帰的傾向は、アンカーからの距離、すなわち {\it slingshot} の戦略に基づいて、ペイオフ関数が摂動される、摂動アプローチの可能性を浮き彫りにしている。
そこで本研究では,スリングショット戦略を予め定義された間隔で繰り返し更新することにより,摂動の大きさを調整できる適応的摂動MD(APMD)を提案する。
このイノベーションによって、保証されたレートで、基礎となるゲームのナッシュ均衡を見つけることができます。
実証実験により, アルゴリズムの収束が著しく加速していることが確認された。
This paper proposes a payoff perturbation technique for the Mirror Descent (MD) algorithm in games where the gradient of the payoff functions is monotone in the strategy profile space, potentially containing additive noise. The optimistic family of learning algorithms, exemplified by optimistic MD, successfully achieves {\it last-iterate} convergence in scenarios devoid of noise, leading the dynamics to a Nash equilibrium. A recent re-emerging trend underscores the promise of the perturbation approach, where payoff functions are perturbed based on the distance from an anchoring, or {\it slingshot}, strategy. In response, we propose {\it Adaptively Perturbed MD} (APMD), which adjusts the magnitude of the perturbation by repeatedly updating the slingshot strategy at a predefined interval. This innovation empowers us to find a Nash equilibrium of the underlying game with guaranteed rates. Empirical demonstrations affirm that our algorithm exhibits significantly accelerated convergence. | 翻訳日:2024-06-26 05:18:24 公開日:2024-06-24 |
# Visible, Semantic, Sample-Specific, Compatible Trigger によるめまい性バックドアアタック
Versatile Backdoor Attack with Visible, Semantic, Sample-Specific, and Compatible Triggers ( http://arxiv.org/abs/2306.00816v4 ) ライセンス: Link先を確認 | Ruotong Wang, Hongrui Chen, Zihao Zhu, Li Liu, Baoyuan Wu, | (参考訳) ディープニューラルネットワーク(DNN)は、特定のトリガーパターンに露出した際の特定の振る舞いを、‘textit{backdoor attack’と呼ばれる良質なサンプルのパフォーマンスに影響を与えることなく、操作することができる。
現在、物理的なシナリオでバックドア攻撃を実装することは、依然として重大な課題に直面している。
身体的攻撃は労働集約的で時間を要するもので、引き金は手動とヒューリスティックな方法で選択される。
さらに、デジタルアタックを物理的なシナリオに拡張することは、視覚的歪みに対する感受性と現実の世界における相手の欠如により、多くの課題に直面している。
これらの課題に対処するために、我々は、有効でステルス的でロバストな(VSSC)トリガを同時に達成するために、 \textbf{V}isible, \textbf{S}emantic, \textbf{S}ample-Specific, \textbf{C}ompatible(VSSC)トリガと呼ばれる新しいトリガを定義し、対応するオブジェクトを使用して物理シナリオに効果的にデプロイすることができる。
VSSCトリガを実装するために,大規模言語モデルを利用した適切なトリガを体系的に識別するトリガ選択モジュール,生成モデルを用いた画像へのトリガのシームレスな統合を行うトリガ挿入モジュール,視覚言語モデルによるトリガの自然かつ成功的な挿入を保証する品質評価モジュールの3つのモジュールからなる自動パイプラインを提案する。
広範囲な実験結果と分析により、VSSCトリガの有効性、ステルス性、堅牢性が検証された。
視覚的な歪みの下で頑健さを維持するだけでなく、物理的なシナリオにおいて強力な実用性を示す。
提案されたVSSCトリガと実装アプローチが,バックドアアタックにおけるより実用的なトリガの設計に関する今後の研究を刺激することを期待しています。
Deep neural networks (DNNs) can be manipulated to exhibit specific behaviors when exposed to specific trigger patterns, without affecting their performance on benign samples, dubbed \textit{backdoor attack}. Currently, implementing backdoor attacks in physical scenarios still faces significant challenges. Physical attacks are labor-intensive and time-consuming, and the triggers are selected in a manual and heuristic way. Moreover, expanding digital attacks to physical scenarios faces many challenges due to their sensitivity to visual distortions and the absence of counterparts in the real world. To address these challenges, we define a novel trigger called the \textbf{V}isible, \textbf{S}emantic, \textbf{S}ample-Specific, and \textbf{C}ompatible (VSSC) trigger, to achieve effective, stealthy and robust simultaneously, which can also be effectively deployed in the physical scenario using corresponding objects. To implement the VSSC trigger, we propose an automated pipeline comprising three modules: a trigger selection module that systematically identifies suitable triggers leveraging large language models, a trigger insertion module that employs generative models to seamlessly integrate triggers into images, and a quality assessment module that ensures the natural and successful insertion of triggers through vision-language models. Extensive experimental results and analysis validate the effectiveness, stealthiness, and robustness of the VSSC trigger. It can not only maintain robustness under visual distortions but also demonstrates strong practicality in the physical scenario. We hope that the proposed VSSC trigger and implementation approach could inspire future studies on designing more practical triggers in backdoor attacks. | 翻訳日:2024-06-26 05:08:33 公開日:2024-06-24 |
# 拡散モデルにおける未知例:無許可爆発からデータを保護する
Unlearnable Examples for Diffusion Models: Protect Data from Unauthorized Exploitation ( http://arxiv.org/abs/2306.01902v2 ) ライセンス: Link先を確認 | Zhengyue Zhao, Jinhao Duan, Xing Hu, Kaidi Xu, Chenan Wang, Rui Zhang, Zidong Du, Qi Guo, Yunji Chen, | (参考訳) 拡散モデルは画像生成タスクにおいて顕著な性能を示し、強力なAIGCアプリケーションへの道を開いた。
しかし、これらの広く使われている生成モデルは、著作権侵害や機密データ漏洩など、セキュリティやプライバシーの懸念を引き起こす可能性がある。
これらの問題に対処するため,不許可な拡散摂動(Unlearnable Diffusion Perturbation)を提案する。
提案手法では,保護すべき各画像に対して,サンプル回りの摂動雑音を生成するアルゴリズムを設計する。
この知覚不能な保護ノイズは、拡散モデル、すなわち、保護データ上で訓練または微調整された拡散モデルは、保護されたトレーニングデータに関連する高品質で多様な画像を生成することができない。
理論的には、これを最大限の最適化問題とみなし、保護雑音の有効性を高めるためのノイズスケジューラに基づくEUDPを導入する。
拡散確率モデルと潜時拡散モデルの両方について評価し、保護されたデータ上での拡散モデルのトレーニングが生成した画像の品質を著しく低下させることを示す。
特に, 安定拡散実験の結果から, 本手法は, 特定の物体やスタイルの訓練など, 様々なタスクにおいて, 拡散モデルの訓練に使用されるイメージを効果的に保護することを示した。
この成果は、AI生成コンテンツに対するプライバシーと著作権の保護に寄与するため、現実世界のシナリオにおいて重要な意味を持つ。
Diffusion models have demonstrated remarkable performance in image generation tasks, paving the way for powerful AIGC applications. However, these widely-used generative models can also raise security and privacy concerns, such as copyright infringement, and sensitive data leakage. To tackle these issues, we propose a method, Unlearnable Diffusion Perturbation, to safeguard images from unauthorized exploitation. Our approach involves designing an algorithm to generate sample-wise perturbation noise for each image to be protected. This imperceptible protective noise makes the data almost unlearnable for diffusion models, i.e., diffusion models trained or fine-tuned on the protected data cannot generate high-quality and diverse images related to the protected training data. Theoretically, we frame this as a max-min optimization problem and introduce EUDP, a noise scheduler-based method to enhance the effectiveness of the protective noise. We evaluate our methods on both Denoising Diffusion Probabilistic Model and Latent Diffusion Models, demonstrating that training diffusion models on the protected data lead to a significant reduction in the quality of the generated images. Especially, the experimental results on Stable Diffusion demonstrate that our method effectively safeguards images from being used to train Diffusion Models in various tasks, such as training specific objects and styles. This achievement holds significant importance in real-world scenarios, as it contributes to the protection of privacy and copyright against AI-generated content. | 翻訳日:2024-06-26 05:08:33 公開日:2024-06-24 |
# 関係抽出に関する総合的調査:最近の進歩と新たなフロンティア
A Comprehensive Survey on Relation Extraction: Recent Advances and New Frontiers ( http://arxiv.org/abs/2306.02051v3 ) ライセンス: Link先を確認 | Xiaoyan Zhao, Yang Deng, Min Yang, Lingzhi Wang, Rui Zhang, Hong Cheng, Wai Lam, Ying Shen, Ruifeng Xu, | (参考訳) 関係抽出(RE)は、基礎となるコンテンツからエンティティ間の関係を識別する。
REは多くの自然言語処理(NLP)と知識グラフ補完や質問応答などの情報検索アプリケーションの基礎として機能する。
近年、深層ニューラルネットワークはREの分野を支配しており、顕著な進歩を遂げている。
その後、大規模な事前訓練された言語モデルは、最先端のREを新しいレベルに引き上げた。
この調査は、REのための既存のディープラーニング技術に関する包括的なレビューを提供する。
まず、データセットや評価指標を含むREリソースを紹介します。
第2に,既存の著作をテキスト表現,文脈符号化,三重項予測という3つの視点から分類する新たな分類法を提案する。
第3に、REが直面しているいくつかの重要な課題について議論し、これらの課題に取り組むための潜在的なテクニックを要約する。
最後に、この分野における将来的な方向性と展望について概説する。
この調査は、現実世界のREシステムの課題に対処するための研究者の協力的な取り組みを促進することが期待されている。
Relation extraction (RE) involves identifying the relations between entities from underlying content. RE serves as the foundation for many natural language processing (NLP) and information retrieval applications, such as knowledge graph completion and question answering. In recent years, deep neural networks have dominated the field of RE and made noticeable progress. Subsequently, the large pre-trained language models have taken the state-of-the-art RE to a new level. This survey provides a comprehensive review of existing deep learning techniques for RE. First, we introduce RE resources, including datasets and evaluation metrics. Second, we propose a new taxonomy to categorize existing works from three perspectives, i.e., text representation, context encoding, and triplet prediction. Third, we discuss several important challenges faced by RE and summarize potential techniques to tackle these challenges. Finally, we outline some promising future directions and prospects in this field. This survey is expected to facilitate researchers' collaborative efforts to address the challenges of real-world RE systems. | 翻訳日:2024-06-26 05:08:33 公開日:2024-06-24 |
# 悪い習慣:RLにおける政策の相違と軌道外一般化
Bad Habits: Policy Confounding and Out-of-Trajectory Generalization in RL ( http://arxiv.org/abs/2306.02419v2 ) ライセンス: Link先を確認 | Miguel Suau, Matthijs T. J. Spaan, Frans A. Oliehoek, | (参考訳) 強化学習エージェントは、特定の政策の下でのみ有効となる習慣を発達させる傾向がある。
エージェントが異なるアクションを試す最初の探索フェーズの後、彼らは最終的に特定のポリシーに収束する。
これが起こると、状態-作用軌道上の分布は狭まり、エージェントは同じ遷移を繰り返し経験するようになる。
この反復露光は、特定の観察と報酬の間の急激な相関を促進する。
エージェントはこれらの相関関係を拾い上げ、それらのポリシーによって規定される特定の軌道に合わせた単純な習慣を発達させるかもしれない。
問題は、これらの習慣は、エージェントが環境の変化によって引き起こされる典型的な軌道から逸脱させられたときに、誤った結果をもたらす可能性があることである。
本稿では,この現象を数学的に解析し,一連の事例を通して,その発生状況を説明する。
Reinforcement learning agents tend to develop habits that are effective only under specific policies. Following an initial exploration phase where agents try out different actions, they eventually converge onto a particular policy. As this occurs, the distribution over state-action trajectories becomes narrower, leading agents to repeatedly experience the same transitions. This repetitive exposure fosters spurious correlations between certain observations and rewards. Agents may then pick up on these correlations and develop simplistic habits tailored to the specific set of trajectories dictated by their policy. The problem is that these habits may yield incorrect outcomes when agents are forced to deviate from their typical trajectories, prompted by changes in the environment. This paper presents a mathematical characterization of this phenomenon, termed policy confounding, and illustrates, through a series of examples, the circumstances under which it occurs. | 翻訳日:2024-06-26 05:08:33 公開日:2024-06-24 |
# マウスと哺乳動物:群におけるマウスの行動の分類とモデル化
Of Mice and Mates: Automated Classification and Modelling of Mouse Behaviour in Groups using a Single Model across Cages ( http://arxiv.org/abs/2306.03066v2 ) ライセンス: Link先を確認 | Michael P. J. Camilleri, Rasneer S. Bains, Christopher K. I. Williams, | (参考訳) 行動実験は、しばしば専門のアリーナで起こるが、これは解析を混乱させる可能性がある。
この問題に対処するため,我々は,ヒトの介入が最小限であるケージ・メイト間の相互作用と相互依存性をモデル化し,個人の行動の時間的側面を捉えた生物学者を対象に,ホームケージ環境でマウスを研究するためのツールを提供する。
我々の主な貢献は、各ケージ内のマウスの同一性とモデルに一致するように置換行列を用いて、ケージにまたがるマウスのグループの結合挙動を要約するグループ行動モデル(GBM)である。
以上を支持するため、我々はまた
(a)ビデオからマウスの行動を自動的に分類するアクティビティ・ラベリング・モジュール(ALM)を開発した。
b) トレーニング行動分類のためのABODeとモデリング行動のためのIMADGEの2つのデータセットをリリースした。
Behavioural experiments often happen in specialised arenas, but this may confound the analysis. To address this issue, we provide tools to study mice in the home-cage environment, equipping biologists with the possibility to capture the temporal aspect of the individual's behaviour and model the interaction and interdependence between cage-mates with minimal human intervention. Our main contribution is the novel Group Behaviour Model (GBM) which summarises the joint behaviour of groups of mice across cages, using a permutation matrix to match the mouse identities in each cage to the model. In support of the above, we also (a) developed the Activity Labelling Module (ALM) to automatically classify mouse behaviour from video, and (b) released two datasets, ABODe for training behaviour classifiers and IMADGE for modelling behaviour. | 翻訳日:2024-06-26 05:08:33 公開日:2024-06-24 |
# 非線形未知入力推定を最適化したシグマ点カルマンフィルタと動的システムへのデータ駆動アプローチ
Sigma-point Kalman Filter with Nonlinear Unknown Input Estimation via Optimization and Data-driven Approach for Dynamic Systems ( http://arxiv.org/abs/2306.12361v2 ) ライセンス: Link先を確認 | Junn Yong Loo, Ze Yang Ding, Vishnu Monn Baskaran, Surya Girinatha Nurzaman, Chee Pin Tan, | (参考訳) 統合状態と未知の入力(UI)推定に関する作業の多くは、UIが線形であるという仮定を必要とする。
この制限を克服し、システムを線形化する必要性を回避するために、SPKFを非線形最適化とデータ駆動アプローチにより実装可能な一般的な非線形UI推定器と相互接続する微分自由な入力シグマ点カルマンフィルタ(SPKF-nUI)を提案する。
非線形UI推定器は、状態予測誤差の影響を受けにくい後部状態推定を使用する。
さらに,SPKF-nUIの推定において,状態とUIの不確かさを両立させる共同シグマ点変換方式を提案する。
深部確率安定性解析により、提案したSPKF-nUIは、合理的な仮定の下で指数関数的に収束する推定誤差を持つことを示した。
最後に、シミュレーションに基づく剛性ロボットと物理ソフトロボット、すなわち、複雑な力学を持つ軟質材料からなるロボットを用いて、2つのケーススタディを行い、非線形力学系におけるフィルタの有効性を検証した。
提案したSPKF-nUIは, 既存の非線形状態-UIフィルタと比較して, 最低状態およびUI推定誤差を達成できることを示す。
Most works on joint state and unknown input (UI) estimation require the assumption that the UIs are linear; this is potentially restrictive as it does not hold in many intelligent autonomous systems. To overcome this restriction and circumvent the need to linearize the system, we propose a derivative-free Unknown Input Sigma-point Kalman Filter (SPKF-nUI) where the SPKF is interconnected with a general nonlinear UI estimator that can be implemented via nonlinear optimization and data-driven approaches. The nonlinear UI estimator uses the posterior state estimate which is less susceptible to state prediction error. In addition, we introduce a joint sigma-point transformation scheme to incorporate both the state and UI uncertainties in the estimation of SPKF-nUI. An in-depth stochastic stability analysis proves that the proposed SPKF-nUI yields exponentially converging estimation error bounds under reasonable assumptions. Finally, two case studies are carried out on a simulation-based rigid robot and a physical soft robot, i.e., robots made of soft materials with complex dynamics to validate effectiveness of the proposed filter on nonlinear dynamic systems. Our results demonstrate that the proposed SPKF-nUI achieves the lowest state and UI estimation errors when compared to the existing nonlinear state-UI filters. | 翻訳日:2024-06-26 05:08:33 公開日:2024-06-24 |
# 非局所量子計算と情報理論暗号
Relating non-local quantum computation to information theoretic cryptography ( http://arxiv.org/abs/2306.16462v6 ) ライセンス: Link先を確認 | Rene Allerstorfer, Harry Buhrman, Alex May, Florian Speelman, Philip Verduyn Lunel, | (参考訳) 非局所量子計算(NLQC)は位置検証スキームの不正な方法であり、AdS/CFT対応の文脈に現れている。
ここでは、NLQCを情報理論暗号のより広い文脈に接続し、他の多くのプリミティブに関連付ける。
我々は、NLQCの特別なケースである$f$-routingは、秘密の条件開示(CDS)プリミティブの量子アナログと等価であることを示す。
さらに,コヒーレント関数評価(CFE)と呼ばれる位置検証の特殊な事例についても検討し,CFEプロトコルがプライベート同時メッセージパッシング(PSM)シナリオに対して同様の効率的なプロトコルを誘導することを示す。
これらの暗号プリミティブに位置検証を関連付けることで、暗号文学における多くの結果はNLQCに新しい意味を与え、その逆も与える。
これには、最悪の場合のコストが$f$-routing of $2^{O(\sqrt{n\log n})}$ entanglement(英語版)の最初の部分指数上界、外部にあると思われる問題に対する効率的な$f$-routing(英語版)戦略の最初の例、量子設定におけるCDSの絡み合いの線形下界、CFEの通信コストの線形下界、低T$の量子回路で計算できる関数の量子設定におけるCDSの効率的なプロトコルが含まれる。
Non-local quantum computation (NLQC) is a cheating strategy for position-verification schemes, and has appeared in the context of the AdS/CFT correspondence. Here, we connect NLQC to the wider context of information theoretic cryptography by relating it to a number of other cryptographic primitives. We show one special case of NLQC, known as $f$-routing, is equivalent to the quantum analogue of the conditional disclosure of secrets (CDS) primitive, where by equivalent we mean that a protocol for one task gives a protocol for the other with only small overhead in resource costs. We further consider another special case of position verification, which we call coherent function evaluation (CFE), and show CFE protocols induce similarly efficient protocols for the private simultaneous message passing (PSM) scenario. By relating position-verification to these cryptographic primitives, a number of results in the cryptography literature give new implications for NLQC, and vice versa. These include the first sub-exponential upper bounds on the worst case cost of $f$-routing of $2^{O(\sqrt{n\log n})}$ entanglement, the first example of an efficient $f$-routing strategy for a problem believed to be outside $P/poly$, linear lower bounds on entanglement for CDS in the quantum setting, linear lower bounds on communication cost of CFE, and efficient protocols for CDS in the quantum setting for functions that can be computed with quantum circuits of low $T$ depth. | 翻訳日:2024-06-26 05:08:33 公開日:2024-06-24 |
# 光度DESI光赤銀河の大規模クラスタリングによる局所原始的非ガウス性
Local primordial non-Gaussianity from the large-scale clustering of photometric DESI luminous red galaxies ( http://arxiv.org/abs/2307.01753v2 ) ライセンス: Link先を確認 | Mehdi Rezaie, Ashley J. Ross, Hee-Jong Seo, Hui Kong, Anna Porredon, Lado Samushia, Edmond Chaussidon, Alex Krolewski, Arnaud de Mattia, Florian Beutler, Jessica Nicole Aguilar, Steven Ahlen, Shadab Alam, Santiago Avila, Benedict Bahr-Kalus, Jose Bermejo-Climent, David Brooks, Todd Claybaugh, Shaun Cole, Kyle Dawson, Axel de la Macorra, Peter Doel, Andreu Font-Ribera, Jaime E. Forero-Romero, Satya Gontcho A Gontcho, Julien Guy, Klaus Honscheid, Dragan Huterer, Theodore Kisner, Martin Landriau, Michael Levi, Marc Manera, Aaron Meisner, Ramon Miquel, Eva-Maria Mueller, Adam Myers, Jeffrey A. Newman, Jundan Nie, Nathalie Palanque-Delabrouille, Will Percival, Claire Poppett, Graziano Rossi, Eusebio Sanchez, Michael Schubnell, Gregory Tarlé, Benjamin Alan Weaver, Christophe Yèche, Zhimin Zhou, Hu Zou, | (参考訳) 我々は、Dark Energy Spectroscopic Instruments(DESI)による局所原始非ガウス性パラメータ$\fnl$を制約するために、光赤銀河の角度クラスタリングを用いる。
このサンプルは1200万以上の目標からなり、空の14,000平方度をカバーし、赤方偏移は0.2< z < 1.35$である。
我々は, 銀河の絶滅, 調査深度, 天体観測を系統的誤りの主な原因とみなし, 大規模での非宇宙的余剰クラスタリングを緩和するために線形回帰と人工ニューラルネットワークを用いる。
提案手法は,$\fnl$とシステマティックスを用いてシミュレーションを行い,ニューラルネットワーク処理の優れた性能を示す。
9つの画像特性マップからなるニューラルネットワークは、我々の系統的なヌルテスト基準をパスし、フィデューシャルな治療として選択される。
普遍性関係を仮定すると、$\fnl = 34^{+24(+50)}_{-44(-73)}$ 68\%(95\%) である。
得られた制約の整合性を示す一連のロバストネステスト(例えば、画像、デクリエーション、または使用するスケールのカット)を適用する。
回帰法は測定された角パワースペクトルを偏り、$\fnl$制約パワーを劣化させる。
9つの写像の使用は、回帰の3つの一次写像のみを使用するよりも不確実性を2倍にする。
以上の結果から,過度補正を回避し,大規模クラスタリング情報を保護し,制約力を抑える,より効率的な手法の開発を動機付けている。
さらに,DSI 分光試料を用いた $\fnl$ のさらなる研究を奨励し,3次元クラスタリングモードを組み込むことで,画像の系統的な分離や,$\fnl$ 不確実性の低下を抑えることができた。
We use angular clustering of luminous red galaxies from the Dark Energy Spectroscopic Instrument (DESI) imaging surveys to constrain the local primordial non-Gaussianity parameter $\fnl$. Our sample comprises over 12 million targets, covering 14,000 square degrees of the sky, with redshifts in the range $0.2< z < 1.35$. We identify Galactic extinction, survey depth, and astronomical seeing as the primary sources of systematic error, and employ linear regression and artificial neural networks to alleviate non-cosmological excess clustering on large scales. Our methods are tested against simulations with and without $\fnl$ and systematics, showing superior performance of the neural network treatment. The neural network with a set of nine imaging property maps passes our systematic null test criteria, and is chosen as the fiducial treatment. Assuming the universality relation, we find $\fnl = 34^{+24(+50)}_{-44(-73)}$ at 68\%(95\%) confidence. We apply a series of robustness tests (e.g., cuts on imaging, declination, or scales used) that show consistency in the obtained constraints. We study how the regression method biases the measured angular power-spectrum and degrades the $\fnl$ constraining power. The use of the nine maps more than doubles the uncertainty compared to using only the three primary maps in the regression. Our results thus motivate the development of more efficient methods that avoid over-correction, protect large-scale clustering information, and preserve constraining power. Additionally, our results encourage further studies of $\fnl$ with DESI spectroscopic samples, where the inclusion of 3D clustering modes should help separate imaging systematics and lessen the degradation in the $\fnl$ uncertainty. | 翻訳日:2024-06-26 05:08:33 公開日:2024-06-24 |
# ランク保存型干渉分布を用いた因果フェア機械学習
Causal Fair Machine Learning via Rank-Preserving Interventional Distributions ( http://arxiv.org/abs/2307.12797v2 ) ライセンス: Link先を確認 | Ludwig Bothmann, Susanne Dandl, Michael Schomaker, | (参考訳) 決定は、等しい個人が平等に扱われ、不平等に扱われる場合、公平に定義することができる。
この定義を採用すると、自動意思決定システムにおける不公平性を緩和する機械学習(ML)モデルを設計するタスクには、保護された属性を導入する際の因果的思考を含む必要がある。
本研究では,それが保持する特定のFiND世界と推定のためのワープ方法を定義するために,ランク保存型の介入分布を提案する。
本手法と結果のMLモデルの評価基準をシミュレーションにより提示し,検証した。
実証データを用いた実験では,本手法の実用化を実証し,定量的回帰林を用いた因果前処理データによる不公平を緩和するための異なるアプローチである"fairadapt"(Ple\v{c}ko, Meinshausen, 2020)と比較した。
これにより、我々のワープアプローチは、最も差別された個人を効果的に識別し、不公平を軽減できることが示される。
A decision can be defined as fair if equal individuals are treated equally and unequals unequally. Adopting this definition, the task of designing machine learning (ML) models that mitigate unfairness in automated decision-making systems must include causal thinking when introducing protected attributes: Following a recent proposal, we define individuals as being normatively equal if they are equal in a fictitious, normatively desired (FiND) world, where the protected attributes have no (direct or indirect) causal effect on the target. We propose rank-preserving interventional distributions to define a specific FiND world in which this holds and a warping method for estimation. Evaluation criteria for both the method and the resulting ML model are presented and validated through simulations. Experiments on empirical data showcase the practical application of our method and compare results with "fairadapt" (Ple\v{c}ko and Meinshausen, 2020), a different approach for mitigating unfairness by causally preprocessing data that uses quantile regression forests. With this, we show that our warping approach effectively identifies the most discriminated individuals and mitigates unfairness. | 翻訳日:2024-06-26 05:08:33 公開日:2024-06-24 |
# 特徴適応対称型マルチモーダルネットワークによる連続的道路シーンセマンティックセマンティックセマンティックセグメンテーション
Continual Road-Scene Semantic Segmentation via Feature-Aligned Symmetric Multi-Modal Network ( http://arxiv.org/abs/2308.04702v2 ) ライセンス: Link先を確認 | Francesco Barbato, Elena Camuffo, Simone Milani, Pietro Zanuttigh, | (参考訳) LiDARとカラーデータを組み合わせた最先端のマルチモーダルセマンティックセマンティックセマンティクス戦略は、通常、非対称な情報共有スキームの上に設計され、両方のモダリティが常に利用可能であると仮定される。
この強い仮定は、センサーが故障しがちな現実世界のシナリオに当てはまらないかもしれない。
この問題は、データ信頼性の厳しい制約があるため、連続的な学習シナリオを考慮するとさらに悪化する。
本研究では,複数モーダルなセマンティックセマンティックセマンティクスのタスクを,厳密に結合された特徴表現と対称的な情報共有スキームによって再編成する。
また,自律運転のような安全クリティカルな環境でも,アプローチの有効性と信頼性を実証する,アドホックなクラスインクリメンタルな学習手法も導入する。
我々はSemanticKITTIデータセットに対する我々のアプローチを評価し、優れたパフォーマンスを実現した。
State-of-the-art multimodal semantic segmentation strategies combining LiDAR and color data are usually designed on top of asymmetric information-sharing schemes and assume that both modalities are always available. This strong assumption may not hold in real-world scenarios, where sensors are prone to failure or can face adverse conditions that make the acquired information unreliable. This problem is exacerbated when continual learning scenarios are considered since they have stringent data reliability constraints. In this work, we re-frame the task of multimodal semantic segmentation by enforcing a tightly coupled feature representation and a symmetric information-sharing scheme, which allows our approach to work even when one of the input modalities is missing. We also introduce an ad-hoc class-incremental continual learning scheme, proving our approach's effectiveness and reliability even in safety-critical settings, such as autonomous driving. We evaluate our approach on the SemanticKITTI dataset, achieving impressive performances. | 翻訳日:2024-06-26 05:08:33 公開日:2024-06-24 |
# EasyEdit: 大規模言語モデルのための使いやすい知識編集フレームワーク
EasyEdit: An Easy-to-use Knowledge Editing Framework for Large Language Models ( http://arxiv.org/abs/2308.07269v3 ) ライセンス: Link先を確認 | Peng Wang, Ningyu Zhang, Bozhong Tian, Zekun Xi, Yunzhi Yao, Ziwen Xu, Mengru Wang, Shengyu Mao, Xiaohan Wang, Siyuan Cheng, Kangwei Liu, Yuansheng Ni, Guozhou Zheng, Huajun Chen, | (参考訳) 大きな言語モデル(LLM)は、通常、知識の切り離しや誤りの問題に悩まされる。
この目的のために、LLMの知識編集アプローチが数多く登場し、更新された知識を微妙に注入/編集したり、望ましくない振る舞いを調整したりしながら、無関係な入力への影響を最小限に抑えることを目的としている。
しかし,様々な知識編集手法とタスク設定の違いにより,実践者がアプリケーションに知識編集を適用することを妨げる標準実装フレームワークがコミュニティに存在しない。
これらの問題に対処するため,LLM のための知識編集フレームワーク EasyEdit を提案する。
様々な最先端の知識編集アプローチをサポートしており、T5、GPT-J、LlaMAなど、よく知られたLLMにも容易に適用できる。
実験的に,LlaMA-2の知識編集結果をEasyEditで報告し,信頼性と一般化の観点から,知識編集が従来の微調整を上回ることを示した。
Google Colabのチュートリアルと初心者が始めるための包括的なドキュメントとともに、ソースコードをGitHubでリリースしました。
また,リアルタイム知識編集のためのオンラインシステムとデモビデオも提示する。
Large Language Models (LLMs) usually suffer from knowledge cutoff or fallacy issues, which means they are unaware of unseen events or generate text with incorrect facts owing to outdated/noisy data. To this end, many knowledge editing approaches for LLMs have emerged -- aiming to subtly inject/edit updated knowledge or adjust undesired behavior while minimizing the impact on unrelated inputs. Nevertheless, due to significant differences among various knowledge editing methods and the variations in task setups, there is no standard implementation framework available for the community, which hinders practitioners from applying knowledge editing to applications. To address these issues, we propose EasyEdit, an easy-to-use knowledge editing framework for LLMs. It supports various cutting-edge knowledge editing approaches and can be readily applied to many well-known LLMs such as T5, GPT-J, LlaMA, etc. Empirically, we report the knowledge editing results on LlaMA-2 with EasyEdit, demonstrating that knowledge editing surpasses traditional fine-tuning in terms of reliability and generalization. We have released the source code on GitHub, along with Google Colab tutorials and comprehensive documentation for beginners to get started. Besides, we present an online system for real-time knowledge editing, and a demo video. | 翻訳日:2024-06-26 05:08:33 公開日:2024-06-24 |
# ReLLa:レコメンデーションにおける生涯連続行動理解のための検索強化大言語モデル
ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation ( http://arxiv.org/abs/2308.11131v5 ) ライセンス: Link先を確認 | Jianghao Lin, Rong Shan, Chenxu Zhu, Kounianhua Du, Bo Chen, Shigang Quan, Ruiming Tang, Yong Yu, Weinan Zhang, | (参考訳) 大規模言語モデル (LLM) が自然言語処理 (NLP) 領域で顕著なブレークスルーを達成しているため、LLM強化レコメンデータシステムは注目され、現在積極的に研究されている。
本稿では,ゼロショットと少数ショットのレコメンデーションタスクに対して,純粋に大きな言語モデルを適応し,強化することに焦点を当てる。
まず、LLMのコンテキスト制限に程遠いコンテキストであっても、LLMは長いユーザ動作シーケンスのテキストコンテキストから有用な情報を抽出することができず、リコメンデーションドメインにおけるLLMの生涯連続行動理解問題を特定し、定式化する。
このような問題に対処し、LLMのレコメンデーション性能を向上させるために、ゼロショットと少数ショットの両方の設定でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
ゼロショットレコメンデーションのために,テストサンプルのデータ品質を向上させるためにセマンティックユーザ行動検索(SUBR)を実施し,ユーザ行動シーケンスから本質的な知識を抽出することの難しさを大幅に軽減する。
本稿では,サンプルデータ拡張手法としてSUBRを採用することで,検索強化型インストラクションチューニング(ReiT)をさらに設計する。
具体的には、元のデータサンプルと検索強化データの両方からなる混合トレーニングデータセットを開発する。
本研究では,既存のベースラインモデルと比較してReLLaの優位性を示すために,実世界の3つの公開データセットに対する広範な実験を行った。
強調したいのは、トレーニングサンプルが10%未満であるReLLaは、トレーニングセット全体(例えば、DCNv2、DIN、SIM)でトレーニングされた従来のCTRモデルよりも優れています。
コードは \url{https://github.com/LaVieEnRose365/ReLLa} で入手できる。
With large language models (LLMs) achieving remarkable breakthroughs in natural language processing (NLP) domains, LLM-enhanced recommender systems have received much attention and have been actively explored currently. In this paper, we focus on adapting and empowering a pure large language model for zero-shot and few-shot recommendation tasks. First and foremost, we identify and formulate the lifelong sequential behavior incomprehension problem for LLMs in recommendation domains, i.e., LLMs fail to extract useful information from a textual context of long user behavior sequence, even if the length of context is far from reaching the context limitation of LLMs. To address such an issue and improve the recommendation performance of LLMs, we propose a novel framework, namely Retrieval-enhanced Large Language models (ReLLa) for recommendation tasks in both zero-shot and few-shot settings. For zero-shot recommendation, we perform semantic user behavior retrieval (SUBR) to improve the data quality of testing samples, which greatly reduces the difficulty for LLMs to extract the essential knowledge from user behavior sequences. As for few-shot recommendation, we further design retrieval-enhanced instruction tuning (ReiT) by adopting SUBR as a data augmentation technique for training samples. Specifically, we develop a mixed training dataset consisting of both the original data samples and their retrieval-enhanced counterparts. We conduct extensive experiments on three real-world public datasets to demonstrate the superiority of ReLLa compared with existing baseline models, as well as its capability for lifelong sequential behavior comprehension. To be highlighted, with only less than 10% training samples, few-shot ReLLa can outperform traditional CTR models that are trained on the entire training set (e.g., DCNv2, DIN, SIM). The code is available \url{https://github.com/LaVieEnRose365/ReLLa}. | 翻訳日:2024-06-26 05:08:33 公開日:2024-06-24 |
# 双生葉樹林
Hyperbolic Random Forests ( http://arxiv.org/abs/2308.13279v2 ) ライセンス: Link先を確認 | Lars Doorenbos, Pablo Márquez-Neila, Raphael Sznitman, Pascal Mettes, | (参考訳) ハイパーボリックスペースは、多くの現実世界のデータセットの階層構造(暗黙的か明示的かに関わらず)によって、データを表現するための一般的な選択肢になりつつある。
同時に、双曲空間における分類のような基本的なタスクを解くアルゴリズムも必要となる。
近年、ロジスティック回帰やSVMといった超平面型分類器の双曲的代替法について研究が進められている。
効果はあるものの、これらのアプローチはより複雑な階層的なデータと競合する。
そこで我々は、よく知られたランダムな森を双曲空間に一般化することを提案する。
ホロスフィアを用いて分割の概念を再定義することでこれを実現できる。
大域的な最適分割を見つけることは計算的に難解であるため、大マルジン分類器を通して候補ホロスフィアを求める。
マルチクラスデータと不均衡な実験で双曲的ランダム林を機能させるため、より低い共通祖先と大マルジン損失のクラスバランスバージョンに基づいてクラスを結合する新しい手法を概説する。
標準および新しいベンチマーク実験により、我々の手法は従来のランダムフォレストアルゴリズムと最近の双曲型分類器の両方より優れていることが示された。
Hyperbolic space is becoming a popular choice for representing data due to the hierarchical structure - whether implicit or explicit - of many real-world datasets. Along with it comes a need for algorithms capable of solving fundamental tasks, such as classification, in hyperbolic space. Recently, multiple papers have investigated hyperbolic alternatives to hyperplane-based classifiers, such as logistic regression and SVMs. While effective, these approaches struggle with more complex hierarchical data. We, therefore, propose to generalize the well-known random forests to hyperbolic space. We do this by redefining the notion of a split using horospheres. Since finding the globally optimal split is computationally intractable, we find candidate horospheres through a large-margin classifier. To make hyperbolic random forests work on multi-class data and imbalanced experiments, we furthermore outline a new method for combining classes based on their lowest common ancestor and a class-balanced version of the large-margin loss. Experiments on standard and new benchmarks show that our approach outperforms both conventional random forest algorithms and recent hyperbolic classifiers. | 翻訳日:2024-06-26 04:58:37 公開日:2024-06-24 |
# 量子力学の測定仮定は冗長ではない」に対する応答
Response to "The measurement postulates of quantum mechanics are not redundant" ( http://arxiv.org/abs/2309.01650v2 ) ライセンス: Link先を確認 | Lluís Masanes, Thomas D. Galley, Markus P. Müller, | (参考訳) エイドリアン・ケントは、最近論文[Nat. Comms. 10, 1361 (2019)]の批判(arXiv:2307.06191])を発表し、そこでは、量子力学の測定仮定は、有限次元ヒルベルト空間の混合状態の集合が有限次元であると仮定すれば、他の仮定から導かれる。
ケントは、量子力学を仮説的「ポスト量子」測定装置で補う理論を考察した。
これらの理論のそれぞれが、ヒルベルト空間の光線ではない純粋状態(すなわち極大知識の状態)を量子力学の「純状態仮定」と矛盾して含んでいることを証明している。
また、これらの選択肢が混合状態の有限次元性に反することを示す。
これら2つの事実はそれぞれ、難読化を別々に無効化する。
本稿では, [Nat. Comms. 10, 1361 (2019)] で用いられる仮定を明らかにし, 純状態, 物理系, 状態空間の構造に対する感度について, 測定や力学の修正による考察を行った。
Adrian Kent has recently presented a critique [arXiv:2307.06191] of our paper [Nat. Comms. 10, 1361 (2019)] in which he claims to refute our main result: the measurement postulates of quantum mechanics can be derived from the rest of postulates, once we assume that the set of mixed states of a finite-dimensional Hilbert space is finite-dimensional. To construct his argument, Kent considers theories resulting from supplementing quantum mechanics with hypothetical "post-quantum" measurement devices. We prove that each of these theories contains pure states (i.e. states of maximal knowledge) which are not rays of the Hilbert space, in contradiction with the "pure state postulate" of quantum mechanics. We also prove that these alternatives violate the finite-dimensionality of mixed states. Each of these two facts separately invalidates the refutation. In this note we also clarify the assumptions used in [Nat. Comms. 10, 1361 (2019)] and discuss the notions of pure state, physical system, and the sensitivity of the structure of the state space under modifications of the measurements or the dynamics. | 翻訳日:2024-06-26 04:58:37 公開日:2024-06-24 |
# SafetyBench: 大規模言語モデルの安全性を評価する
SafetyBench: Evaluating the Safety of Large Language Models ( http://arxiv.org/abs/2309.07045v2 ) ライセンス: Link先を確認 | Zhexin Zhang, Leqi Lei, Lindong Wu, Rui Sun, Yongkang Huang, Chong Long, Xiao Liu, Xuanyu Lei, Jie Tang, Minlie Huang, | (参考訳) LLM(Large Language Models)の急速な発展に伴い、その安全性への関心が高まっている。
したがって, LLMの安全性を評価することは, LLMの幅広い応用を促進する上で重要な課題となっている。
それでも、総合的な安全性評価ベンチマークが欠如していることは、LLMの安全性を効果的に評価し、強化する上で重要な障害となる。
本研究では,LLMの安全性を評価するための総合的なベンチマークであるSafetyBenchを紹介する。
とくにSafetyBenchは、中国語と英語のデータも含み、両方の言語での評価を容易にする。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回比較した大規模なテストでは、GPT-4に対するパフォーマンス上のアドバンテージが示され、現在のLLMの安全性を向上する余地は依然として大きい。
また,セーフティーベンチの安全理解能力が安全発生能力と相関していることが実証された。
データと評価ガイドラインは \url{https://github.com/thu-coai/SafetyBench}{https://github.com/thu-coai/SafetyBench} で公開されている。
入場口とリーダーボードは \url{https://llmbench.ai/safety}{https://llmbench.ai/safety} にある。
With the rapid development of Large Language Models (LLMs), increasing attention has been paid to their safety concerns. Consequently, evaluating the safety of LLMs has become an essential task for facilitating the broad applications of LLMs. Nevertheless, the absence of comprehensive safety evaluation benchmarks poses a significant impediment to effectively assess and enhance the safety of LLMs. In this work, we present SafetyBench, a comprehensive benchmark for evaluating the safety of LLMs, which comprises 11,435 diverse multiple choice questions spanning across 7 distinct categories of safety concerns. Notably, SafetyBench also incorporates both Chinese and English data, facilitating the evaluation in both languages. Our extensive tests over 25 popular Chinese and English LLMs in both zero-shot and few-shot settings reveal a substantial performance advantage for GPT-4 over its counterparts, and there is still significant room for improving the safety of current LLMs. We also demonstrate that the measured safety understanding abilities in SafetyBench are correlated with safety generation abilities. Data and evaluation guidelines are available at \url{https://github.com/thu-coai/SafetyBench}{https://github.com/thu-coai/SafetyBench}. Submission entrance and leaderboard are available at \url{https://llmbench.ai/safety}{https://llmbench.ai/safety}. | 翻訳日:2024-06-26 04:58:37 公開日:2024-06-24 |
# ハード制約による物理インフォームドDeepONetsの改良
Improving physics-informed DeepONets with hard constraints ( http://arxiv.org/abs/2309.07899v2 ) ライセンス: Link先を確認 | Rüdiger Brecht, Dmytro R. Popovych, Alex Bihlo, Roman O. Popovych, | (参考訳) 現在の物理学インフォームド(標準またはディープ演算子)ニューラルネットワークは、解いている微分方程式系の初期および/または境界条件を正確に学習することに依存している。
対照的に、標準的な数値法は、そのような条件を計算に含み、それを学習する必要がない。
本研究では、初期および/または境界条件を学習する必要がなく、予測された解で正確に表現されるような、現在の物理インフォームド深層学習戦略を改善することを提案する。
さらに、この方法は、初期値問題の解をタイムステップするために、ディープオペレータネットワークを複数回適用した場合、その関数が少なくとも連続であることを保証する。
Current physics-informed (standard or deep operator) neural networks still rely on accurately learning the initial and/or boundary conditions of the system of differential equations they are solving. In contrast, standard numerical methods involve such conditions in computations without needing to learn them. In this study, we propose to improve current physics-informed deep learning strategies such that initial and/or boundary conditions do not need to be learned and are represented exactly in the predicted solution. Moreover, this method guarantees that when a deep operator network is applied multiple times to time-step a solution of an initial value problem, the resulting function is at least continuous. | 翻訳日:2024-06-26 04:58:37 公開日:2024-06-24 |
# GPTFUZER: 自動生成のjailbreakプロンプトで大規模言語モデルをレッドチーム化
GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts ( http://arxiv.org/abs/2309.10253v3 ) ライセンス: Link先を確認 | Jiahao Yu, Xingwei Lin, Zheng Yu, Xinyu Xing, | (参考訳) 大規模言語モデル(LLM)は最近非常に人気があり、カジュアルな会話からAI駆動プログラミングまで広く使われている。
しかし、その大きな成功にもかかわらず、LSMは完全に信頼されておらず、有害または違法な活動の実施方法について詳細なガイダンスを与えることができる。
安全対策はそのようなアウトプットのリスクを減らすことができるが、敵のジェイルブレイク攻撃はLLMを利用して有害なコンテンツを生成することができる。
これらのジェイルブレイクテンプレートは通常手作業で作成され、大規模なテストが困難になる。
本稿では,AFLファジィフレームワークに触発された新しいブラックボックスジェイルブレイクファジィフレームワークであるGPTFuzzを紹介する。
手動のエンジニアリングの代わりに、GPTFuzzは、再チームのLDMのためのジェイルブレイクテンプレートを生成する。
GPTFuzzの中核となるのは、人書きテンプレートを初期シードとして開始し、その後変更して新しいテンプレートを生成することだ。
GPTFuzzの3つの重要な要素を詳述する。効率と可変性のバランスをとる種選択戦略、意味論的に等価な文や類似の文を生成する演算子の変更、ジェイルブレイク攻撃の成功を評価する判断モデルである。
GPTFuzzをChatGPT, LLaMa-2, Vicunaなど,様々な商用およびオープンソースLLMに対して,多様な攻撃シナリオ下で評価する。
以上の結果から,GPTFuzzは高い成功率のジェイルブレイクテンプレートを連続的に生成し,人造テンプレートを超越していることが示唆された。
注目すべきは、GPTFuzzがChatGPTおよびLlama-2モデルに対して90%以上の攻撃成功率を達成することだ。
我々は,GPTFuzzがLSMのロバスト性を調べる上で,研究者や実践者にとって有効であり,LSMの安全性を高めるためのさらなる探究を促進することを期待する。
Large language models (LLMs) have recently experienced tremendous popularity and are widely used from casual conversations to AI-driven programming. However, despite their considerable success, LLMs are not entirely reliable and can give detailed guidance on how to conduct harmful or illegal activities. While safety measures can reduce the risk of such outputs, adversarial jailbreak attacks can still exploit LLMs to produce harmful content. These jailbreak templates are typically manually crafted, making large-scale testing challenging. In this paper, we introduce GPTFuzz, a novel black-box jailbreak fuzzing framework inspired by the AFL fuzzing framework. Instead of manual engineering, GPTFuzz automates the generation of jailbreak templates for red-teaming LLMs. At its core, GPTFuzz starts with human-written templates as initial seeds, then mutates them to produce new templates. We detail three key components of GPTFuzz: a seed selection strategy for balancing efficiency and variability, mutate operators for creating semantically equivalent or similar sentences, and a judgment model to assess the success of a jailbreak attack. We evaluate GPTFuzz against various commercial and open-source LLMs, including ChatGPT, LLaMa-2, and Vicuna, under diverse attack scenarios. Our results indicate that GPTFuzz consistently produces jailbreak templates with a high success rate, surpassing human-crafted templates. Remarkably, GPTFuzz achieves over 90% attack success rates against ChatGPT and Llama-2 models, even with suboptimal initial seed templates. We anticipate that GPTFuzz will be instrumental for researchers and practitioners in examining LLM robustness and will encourage further exploration into enhancing LLM safety. | 翻訳日:2024-06-26 04:58:37 公開日:2024-06-24 |
# ConsistencyTTA: Consistency Distillationによる拡散型テキスト・ツー・オーディオ生成の高速化
ConsistencyTTA: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation ( http://arxiv.org/abs/2309.10740v3 ) ライセンス: Link先を確認 | Yatong Bai, Trung Dang, Dung Tran, Kazuhito Koishida, Somayeh Sojoudi, | (参考訳) 拡散モデルは、テキスト・トゥ・オーディオ(TTA)生成に有効である。
残念ながら、世代毎のデノイングネットワークに対するクエリ数が過度に多いため、推論が遅くなる。
このボトルネックに対処するために,1つの非自己回帰的ネットワーククエリのみを必要とするフレームワークであるConsistencyTTAを導入し,TTAを数百倍高速化する。
そこで我々は,整合性生成を潜在空間に適応させ,分類器フリーガイダンス(CFG)をモデルトレーニングに組み込む「CFG対応潜在整合性モデル」を提案する。
さらに、拡散モデルとは異なり、ConsistencyTTAはCLAPスコアのような音声空間のテキスト認識メトリクスでクローズループを微調整することで、世代をさらに拡大することができる。
本研究では,AudioCapsデータセットの目的的,主観的な評価から,拡散に基づくデータと比較すると,ConsistencyTTAは生成品質と多様性を保ちつつ,推論計算を400倍削減することを示す。
Diffusion models are instrumental in text-to-audio (TTA) generation. Unfortunately, they suffer from slow inference due to an excessive number of queries to the underlying denoising network per generation. To address this bottleneck, we introduce ConsistencyTTA, a framework requiring only a single non-autoregressive network query, thereby accelerating TTA by hundreds of times. We achieve so by proposing "CFG-aware latent consistency model," which adapts consistency generation into a latent space and incorporates classifier-free guidance (CFG) into model training. Moreover, unlike diffusion models, ConsistencyTTA can be finetuned closed-loop with audio-space text-aware metrics, such as CLAP score, to further enhance the generations. Our objective and subjective evaluation on the AudioCaps dataset shows that compared to diffusion-based counterparts, ConsistencyTTA reduces inference computation by 400x while retaining generation quality and diversity. | 翻訳日:2024-06-26 04:58:37 公開日:2024-06-24 |
# 医用画像におけるFew-Shot Learningの体系的検討
A Systematic Review of Few-Shot Learning in Medical Imaging ( http://arxiv.org/abs/2309.11433v2 ) ライセンス: Link先を確認 | Eva Pachetti, Sara Colantonio, | (参考訳) 注釈付き医療画像の欠如により、大規模なラベル付きデータセットを必要とするディープラーニングモデルのパフォーマンスが制限される。
データ不足の問題を減らし、特にメタラーニングで医療画像分析を強化することができる。
この体系的なレビューは、医療画像における数ショット学習の概要を包括的に示すものである。
文献を体系的に検索し,2018年から2023年までの80の関連論文を選定した。
対象は,腫瘍の分類,疾患分類,画像登録,解剖学的構造(心臓,肺など),メタラーニング法などである。
各クラスタについて,論文の分布と現状から得られた結果について検討した。
さらに、すべての研究で共有される汎用パイプラインを特定した。
レビューでは、ほとんどの結果において、少数ショットの学習はデータの不足を克服し、メタ学習は、少数のラベル付きサンプルで新しいタスクに適応できるため、数ショットの学習を行うための一般的な選択であることを示している。
さらに、メタラーニング、教師あり学習、半教師あり学習は、医用画像における数発の学習課題に取り組み、最高のパフォーマンスを発揮できる主要な技術である。
最後に, 主に心臓領域, 肺領域, 腹部領域を対象としていた。
この体系的なレビューは、医療画像分析と患者医療を改善するためにさらなる研究を促すことを目的としている。
The lack of annotated medical images limits the performance of deep learning models, which usually need large-scale labelled datasets. Few-shot learning techniques can reduce data scarcity issues and enhance medical image analysis, especially with meta-learning. This systematic review gives a comprehensive overview of few-shot learning in medical imaging. We searched the literature systematically and selected 80 relevant articles published from 2018 to 2023. We clustered the articles based on medical outcomes, such as tumour segmentation, disease classification, and image registration; anatomical structure investigated (i.e. heart, lung, etc.); and the meta-learning method used. For each cluster, we examined the papers' distributions and the results provided by the state-of-the-art. In addition, we identified a generic pipeline shared among all the studies. The review shows that few-shot learning can overcome data scarcity in most outcomes and that meta-learning is a popular choice to perform few-shot learning because it can adapt to new tasks with few labelled samples. In addition, following meta-learning, supervised learning and semi-supervised learning stand out as the predominant techniques employed to tackle few-shot learning challenges in medical imaging and also best performing. Lastly, we observed that the primary application areas predominantly encompass cardiac, pulmonary, and abdominal domains. This systematic review aims to inspire further research to improve medical image analysis and patient care. | 翻訳日:2024-06-26 04:58:37 公開日:2024-06-24 |
# Detach-ROCKET:ランダム畳み込みカーネルを用いた時系列分類のための逐次的特徴選択
Detach-ROCKET: Sequential feature selection for time series classification with random convolutional kernels ( http://arxiv.org/abs/2309.14518v3 ) ライセンス: Link先を確認 | Gonzalo Uribarri, Federico Barone, Alessio Ansuini, Erik Fransén, | (参考訳) 時系列分類(TSC)は、医学、環境科学、金融などの分野において必須であり、疾患診断、異常検出、株価分析などのタスクを可能にする。
Recurrent Neural NetworksやInceptionTimeのような機械学習モデルは、多くのアプリケーションで成功しているが、計算要求のためにスケーラビリティの問題に直面している。
近年、ROCKETは効率的な代替手段として登場し、時系列データから多数のランダムに生成された特徴を活用して、最先端の性能を実現し、訓練を簡素化している。
しかし、これらの特徴の多くは冗長あるいは非形式的であり、計算負荷を増大させ、一般化を促進する。
ここでは、ROCKET、MiniRocket、MultiRocketなどのROCKETベースのモデルにおいて、シークエンシャル・フィーチャー・デタックメント (Sequential Feature Detachment, SFD) を導入し、非シークエンシャルな特徴を識別する。
SFDはモデル係数を用いて特徴を推定し、複雑なハイパーパラメータチューニングなしで大きな特徴集合を処理できる。
UCRアーカイブでのテストでは、SFDはオリジナルの機能の10%しか使用せずに、より良いテスト精度でモデルを生成することができる。
Detach-ROCKETと命名した。
また,特徴量とモデル精度の最適バランスを決定するためのエンドツーエンドの手法を提案する。
最大のバイナリ UCR データセットでは、Detach-ROCKET はテストの精度を 0.6 % 改善し、フィーチャを 98.9 % 削減している。
精度を犠牲にすることなく、モデルサイズを大幅に削減することで、計算効率を向上し、モデル解釈可能性に寄与する。
Detach-ROCKETは、時系列データを扱う研究者や実践者にとって貴重なツールであり、このモデルのユーザフレンドリな実装は、 \url{https://github.com/gon-uri/detach_rocket} で見つけることができると思います。
Time Series Classification (TSC) is essential in fields like medicine, environmental science, and finance, enabling tasks such as disease diagnosis, anomaly detection, and stock price analysis. While machine learning models like Recurrent Neural Networks and InceptionTime are successful in numerous applications, they can face scalability issues due to computational requirements. Recently, ROCKET has emerged as an efficient alternative, achieving state-of-the-art performance and simplifying training by utilizing a large number of randomly generated features from the time series data. However, many of these features are redundant or non-informative, increasing computational load and compromising generalization. Here we introduce Sequential Feature Detachment (SFD) to identify and prune non-essential features in ROCKET-based models, such as ROCKET, MiniRocket, and MultiRocket. SFD estimates feature importance using model coefficients and can handle large feature sets without complex hyperparameter tuning. Testing on the UCR archive shows that SFD can produce models with better test accuracy using only 10\% of the original features. We named these pruned models Detach-ROCKET. We also present an end-to-end procedure for determining an optimal balance between the number of features and model accuracy. On the largest binary UCR dataset, Detach-ROCKET improves test accuracy by 0.6\% while reducing features by 98.9\%. By enabling a significant reduction in model size without sacrificing accuracy, our methodology improves computational efficiency and contributes to model interpretability. We believe that Detach-ROCKET will be a valuable tool for researchers and practitioners working with time series data, who can find a user-friendly implementation of the model at \url{https://github.com/gon-uri/detach_rocket}. | 翻訳日:2024-06-26 04:48:52 公開日:2024-06-24 |
# ClickPrompt: CTRモデルはCTR予測に言語モデルを適用するための強力なプロンプトジェネレータである
ClickPrompt: CTR Models are Strong Prompt Generators for Adapting Language Models to CTR Prediction ( http://arxiv.org/abs/2310.09234v4 ) ライセンス: Link先を確認 | Jianghao Lin, Bo Chen, Hangyu Wang, Yunjia Xi, Yanru Qu, Xinyi Dai, Kangning Zhang, Ruiming Tang, Yong Yu, Weinan Zhang, | (参考訳) クリックスルー率(CTR)の予測は、様々なインターネットアプリケーションにとってますます不可欠になっている。
従来のCTRモデルは、マルチフィールド分類データをワンホット符号化によりID特徴に変換し、特徴間の協調信号を抽出する。
このようなパラダイムは意味情報損失の問題に悩まされる。
もうひとつの研究は、入力データをハードプロンプトテンプレートを通じてテキスト文に変換することで、CTR予測のための事前学習言語モデル(PLM)の可能性を探ることである。
セマンティック信号は保存されているが、一般に、巨大なモデルサイズによってもたらされる受け入れがたい推論オーバーヘッドを言うまでもなく、コラボレーティブな情報(例えば、機能インタラクション、純粋なID機能)をキャプチャすることができない。
本稿では,CTR推定における意味的知識と協調的知識の両方をモデル化することを目的とした。
両世界から恩恵を受け,そのギャップを埋めるために,新たなモデルに依存しないフレームワーク(ClickPrompt)を提案する。
本研究では,PA-MLMプリトレーニングタスクを設計し,PLMは言語コンテキストに基づいてマスク付きトークンを復元し,CTRモデルによって生成されたソフトプロンプトを復元する。
IDとテキスト機能からの協調的および意味的な知識は、プロンプトインターフェースを介して明示的に整列され、相互作用される。
そして、優れた性能を得るためにCTRモデルをPLMで調整するか、あるいは推論効率のためにPLMなしでCTRモデルを調整できる。
4つの実世界のデータセットの実験は、既存のベースラインと比較してClickPromptの有効性を検証する。
Click-through rate (CTR) prediction has become increasingly indispensable for various Internet applications. Traditional CTR models convert the multi-field categorical data into ID features via one-hot encoding, and extract the collaborative signals among features. Such a paradigm suffers from the problem of semantic information loss. Another line of research explores the potential of pretrained language models (PLMs) for CTR prediction by converting input data into textual sentences through hard prompt templates. Although semantic signals are preserved, they generally fail to capture the collaborative information (e.g., feature interactions, pure ID features), not to mention the unacceptable inference overhead brought by the huge model size. In this paper, we aim to model both the semantic knowledge and collaborative knowledge for accurate CTR estimation, and meanwhile address the inference inefficiency issue. To benefit from both worlds and close their gaps, we propose a novel model-agnostic framework (i.e., ClickPrompt), where we incorporate CTR models to generate interaction-aware soft prompts for PLMs. We design a prompt-augmented masked language modeling (PA-MLM) pretraining task, where PLM has to recover the masked tokens based on the language context, as well as the soft prompts generated by CTR model. The collaborative and semantic knowledge from ID and textual features would be explicitly aligned and interacted via the prompt interface. Then, we can either tune the CTR model with PLM for superior performance, or solely tune the CTR model without PLM for inference efficiency. Experiments on four real-world datasets validate the effectiveness of ClickPrompt compared with existing baselines. | 翻訳日:2024-06-26 04:48:52 公開日:2024-06-24 |
# In-context Pretraining: ドキュメント境界を越えた言語モデリング
In-context Pretraining: Language Modeling Beyond Document Boundaries ( http://arxiv.org/abs/2310.10638v6 ) ライセンス: Link先を確認 | Weijia Shi, Sewon Min, Maria Lomeli, Chunting Zhou, Margaret Li, Gergely Szilvasy, Rich James, Xi Victoria Lin, Noah A. Smith, Luke Zettlemoyer, Scott Yih, Mike Lewis, | (参考訳) 大規模言語モデル(LM)は現在、与えられた文書プレフィックスのトークンを予測するために訓練されている。
既存の事前訓練パイプラインは、短い文書のランダムなセットを連結して入力コンテキストを作成することでLMを訓練するが、以前の文書は次の文書を予測するための信号を提供しない。
In-Context Pretrainingは、言語モデルが関連する文書のシーケンスで事前訓練される新しいアプローチであり、それによって文書境界を越えて読み書きを明示的に促す。
In-Context Pretrainingは、ドキュメントの順序を変更するだけで、それぞれのコンテキストに関連ドキュメントが含まれ、既存の事前トレーニングパイプラインを直接適用できる。
しかし、この文書のソート問題は難しい。
何十億ものドキュメントがあり、データを繰り返すことなく、すべてのドキュメントの文脈的類似性を最大化したいと考えています。
そこで本研究では, 近接探索を効率よく行う関連文書の探索と, グラフトラバーサルアルゴリズムを用いたコヒーレントな入力コンテキスト構築のための近似アルゴリズムを提案する。
インコンテキスト学習(+8%)、読み理解(+15%)、先行コンテキストへの忠実度(+16%)、長期コンテキスト推論(+5%)、検索強化(+9%)など、より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られた。
Large language models (LMs) are currently trained to predict tokens given document prefixes, enabling them to directly perform long-form generation and prompting-style tasks which can be reduced to document completion. Existing pretraining pipelines train LMs by concatenating random sets of short documents to create input contexts but the prior documents provide no signal for predicting the next document. We instead present In-Context Pretraining, a new approach where language models are pretrained on a sequence of related documents, thereby explicitly encouraging them to read and reason across document boundaries. We can do In-Context Pretraining by simply changing the document ordering so that each context contains related documents, and directly applying existing pretraining pipelines. However, this document sorting problem is challenging. There are billions of documents and we would like the sort to maximize contextual similarity for every document without repeating any data. To do this, we introduce approximate algorithms for finding related documents with efficient nearest neighbor search and constructing coherent input contexts with a graph traversal algorithm. Our experiments show In-Context Pretraining offers a simple and scalable approach to significantly enhance LMs'performance: we see notable improvements in tasks that require more complex contextual reasoning, including in-context learning (+8%), reading comprehension (+15%), faithfulness to previous contexts (+16%), long-context reasoning (+5%), and retrieval augmentation (+9%). | 翻訳日:2024-06-26 04:48:52 公開日:2024-06-24 |
# ソフトマックスゲーティングにおけるエキスパートの多項ロジスティックな混合の理論
A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts ( http://arxiv.org/abs/2310.14188v2 ) ライセンス: Link先を確認 | Huy Nguyen, Pedram Akbarian, TrungTin Nguyen, Nhat Ho, | (参考訳) Mixture-of-experts (MoE) モデルは、ゲーティング関数を介して複数のサブモデルのパワーを取り入れ、多くの回帰および分類アプリケーションにおいてより優れた性能を達成する。
理論的な観点からは、ガウスのMoEモデルにおける最大推定値の収束解析を通じて、回帰条件下でのモデルの挙動を解明する試みは過去にもあったが、分類問題の設定による解析は、文献に欠けているままである。
我々は、このギャップを、密度推定とパラメータ推定の収束率を確立することで、ソフトマックスゲーティングマルチノミアルロジスティックMoEモデルで埋める。
特に、エキスパートパラメータの一部が消えるとき、これらの速度は、偏微分方程式によるソフトマックスゲーティングとエキスパート関数の間の固有の相互作用のため、多項式速度よりも遅いことが示される。
そこで本研究では,入力をゲーティング関数に渡す前に変換する修正ソフトマックスゲーティング関数のクラスを提案する。
その結果, 従来の相互作用は消失し, パラメータ推定率が大幅に向上した。
Mixture-of-experts (MoE) model incorporates the power of multiple submodels via gating functions to achieve greater performance in numerous regression and classification applications. From a theoretical perspective, while there have been previous attempts to comprehend the behavior of that model under the regression settings through the convergence analysis of maximum likelihood estimation in the Gaussian MoE model, such analysis under the setting of a classification problem has remained missing in the literature. We close this gap by establishing the convergence rates of density estimation and parameter estimation in the softmax gating multinomial logistic MoE model. Notably, when part of the expert parameters vanish, these rates are shown to be slower than polynomial rates owing to an inherent interaction between the softmax gating and expert functions via partial differential equations. To address this issue, we propose using a novel class of modified softmax gating functions which transform the input before delivering them to the gating functions. As a result, the previous interaction disappears and the parameter estimation rates are significantly improved. | 翻訳日:2024-06-26 04:48:52 公開日:2024-06-24 |
# 生成的フラクタル拡散モデル
Generative Fractional Diffusion Models ( http://arxiv.org/abs/2310.17638v2 ) ライセンス: Link先を確認 | Gabriel Nobis, Maximilian Springenberg, Marco Aversa, Michael Detzel, Rembert Daems, Roderick Murray-Smith, Shinichi Nakajima, Sebastian Lapuschkin, Stefano Ermon, Tolga Birdal, Manfred Opper, Christoph Knochenhauer, Luis Oala, Wojciech Samek, | (参考訳) 我々は,その基礎となる力学に分数拡散過程を利用する,最初の連続時間スコアベース生成モデルを導入する。
拡散モデルはデータの分布を捉えるのに優れているが、低収束、不均衡なデータのモード崩壊、多様性の欠如といった様々な制限に悩まされている。
これらの問題は、独立インクリメントを持つ軽尾ブラウン運動(BM)の使用と部分的に関係している。
本稿では、BMを非マルコフ運動である分数的ブラウン運動(fBM)の近似に置き換え、相関的なインクリメントとHurst index $H \in (0,1)$を特徴とする。
抽出可能な推論と学習を保証するため,最近普及したfBM(MA-fBM)のマルコフ近似を用い,その逆時間モデルを導出し,生成的分数拡散モデル(GFDM)を導出する。
連続的再パラメータ化手法を用いてフォワードダイナミクスを特徴付けるとともに、拡張されたスコアマッチング損失を提案し、部分的に閉じた形で知られているスコア関数を最小のコストで効率よく学習する。
fBMを介して拡散モデルを駆動する能力は、柔軟性と制御を提供する。
一方、$H>1/2$は拡散経路を正規化し、長期記憶を呼び出し、重い尾の振舞い(スーパー拡散)を行う。
マルコフ近似は、近似fBMに線形に結合されたマルコフ過程の数を変化させることで、追加の制御を可能にする。
実画像データを用いた評価では,GFDMは従来の拡散モデルの代替として,画素幅の多様性の向上と画質の向上を実現している。
We introduce the first continuous-time score-based generative model that leverages fractional diffusion processes for its underlying dynamics. Although diffusion models have excelled at capturing data distributions, they still suffer from various limitations such as slow convergence, mode-collapse on imbalanced data, and lack of diversity. These issues are partially linked to the use of light-tailed Brownian motion (BM) with independent increments. In this paper, we replace BM with an approximation of its non-Markovian counterpart, fractional Brownian motion (fBM), characterized by correlated increments and Hurst index $H \in (0,1)$, where $H=1/2$ recovers the classical BM. To ensure tractable inference and learning, we employ a recently popularized Markov approximation of fBM (MA-fBM) and derive its reverse time model, resulting in generative fractional diffusion models (GFDMs). We characterize the forward dynamics using a continuous reparameterization trick and propose an augmented score matching loss to efficiently learn the score-function, which is partly known in closed form, at minimal added cost. The ability to drive our diffusion model via fBM provides flexibility and control. $H \leq 1/2$ enters the regime of rough paths whereas $H>1/2$ regularizes diffusion paths and invokes long-term memory as well as a heavy-tailed behaviour (super-diffusion). The Markov approximation allows added control by varying the number of Markov processes linearly combined to approximate fBM. Our evaluations on real image datasets demonstrate that GFDM achieves greater pixel-wise diversity and enhanced image quality, as indicated by a lower FID, offering a promising alternative to traditional diffusion models. | 翻訳日:2024-06-26 04:39:08 公開日:2024-06-24 |
# Sim2Real Bilevel Adaptation for Object Surface Classification using Vision-based Tactile Sensors (特集:情報ネットワーク)
Sim2Real Bilevel Adaptation for Object Surface Classification using Vision-Based Tactile Sensors ( http://arxiv.org/abs/2311.01380v2 ) ライセンス: Link先を確認 | Gabriele M. Caddeo, Andrea Maracani, Paolo D. Alfano, Nicola A. Piga, Lorenzo Rosasco, Lorenzo Natale, | (参考訳) 本稿では,物体表面の分類のための視覚ベース触覚センサの分野におけるSim2Realギャップについて述べる。
DIGITセンサを介して、ラベルのない日常オブジェクトからランダムに収集された実世界の画像の比較的小さなデータセットを使用して、このギャップを橋渡しするために拡散モデルを訓練する。
その後,YCBモデルセットから物体表面を均一にサンプリングして画像を生成するシミュレータを用いた。
これらのシミュレートされたイメージは、拡散モデルを使用して実際のドメインに変換され、自動的に分類器を訓練するためにラベル付けされる。
本訓練では, 両領域の特徴を, 逆行法を用いてさらに整列させる。
本研究では,10個の3DプリントYCBオブジェクトから得られた触覚画像のデータセットを用いて評価を行った。
結果は81.9%の精度を示し、シミュレーション画像のみに基づいて訓練された分類器によって達成された34.7%に比べて大幅に改善された。
これは我々のアプローチの有効性を示している。
さらに、触覚データから6次元オブジェクトのポーズ推定タスクの分類器を用いて、我々のアプローチを検証する。
In this paper, we address the Sim2Real gap in the field of vision-based tactile sensors for classifying object surfaces. We train a Diffusion Model to bridge this gap using a relatively small dataset of real-world images randomly collected from unlabeled everyday objects via the DIGIT sensor. Subsequently, we employ a simulator to generate images by uniformly sampling the surface of objects from the YCB Model Set. These simulated images are then translated into the real domain using the Diffusion Model and automatically labeled to train a classifier. During this training, we further align features of the two domains using an adversarial procedure. Our evaluation is conducted on a dataset of tactile images obtained from a set of ten 3D printed YCB objects. The results reveal a total accuracy of 81.9%, a significant improvement compared to the 34.7% achieved by the classifier trained solely on simulated images. This demonstrates the effectiveness of our approach. We further validate our approach using the classifier on a 6D object pose estimation task from tactile data. | 翻訳日:2024-06-26 04:39:08 公開日:2024-06-24 |
# HIV-1に対する抗レトロウイルス療法の結果の予測能力を高める変異の時間的ダイナミクスの導入
Incorporating temporal dynamics of mutations to enhance the prediction capability of antiretroviral therapy's outcome for HIV-1 ( http://arxiv.org/abs/2311.04846v2 ) ライセンス: Link先を確認 | Giulia Di Teodoro, Martin Pirkl, Francesca Incardona, Ilaria Vicenti, Anders Sönnerborg, Rolf Kaiser, Laura Palagi, Maurizio Zazzi, Thomas Lengauer, | (参考訳) 動機: HIV治療結果の予測において、歴史的情報を用いることで、現在または最新のデータ分析と比較して予測能力を高めることができるかどうかが重要な臨床問題である。
本研究は、治療前の全ての遺伝子型検査で検出されたウイルス変異、その時間的発生、および同伴するウイルス負荷測定を含む歴史的知識が改善をもたらすかどうかを考察する。
本稿では,予め列挙された因子と基準突然変異量を考慮した突然変異量測定法を提案する。
歴史を包含するモデル(H)とそれを使用しないモデル(NH)を比較した。
結果: H-モデルは、NH-モデル(74.98%)よりも高いROC-AUCスコア(76.34%)で優れた識別能力を示す。
重要なウィルコクソン試験の結果は、歴史的情報を組み込むことで、治療結果の予測精度が一貫して向上することを確認した。
H-モデルの性能は、おそらく歴史的な情報を活用する際に得られる、潜伏するHIV貯水池を考慮しているためかもしれない。
この発見は、変異における時間的ダイナミクスの重要性を強調し、HIV感染の複雑さに関する洞察を提供する。
しかし,過去の情報がない場合でも,予測精度は比較的高いままである。
補助情報:補助資料が利用可能。
Motivation: In predicting HIV therapy outcomes, a critical clinical question is whether using historical information can enhance predictive capabilities compared with current or latest available data analysis. This study analyses whether historical knowledge, which includes viral mutations detected in all genotypic tests before therapy, their temporal occurrence, and concomitant viral load measurements, can bring improvements. We introduce a method to weigh mutations, considering the previously enumerated factors and the reference mutation-drug Stanford resistance tables. We compare a model encompassing history (H) with one not using it (NH). Results: The H-model demonstrates superior discriminative ability, with a higher ROC-AUC score (76.34%) than the NH-model (74.98%). Significant Wilcoxon test results confirm that incorporating historical information improves consistently predictive accuracy for treatment outcomes. The better performance of the H-model might be attributed to its consideration of latent HIV reservoirs, probably obtained when leveraging historical information. The findings emphasize the importance of temporal dynamics in mutations, offering insights into HIV infection complexities. However, our result also shows that prediction accuracy remains relatively high even when no historical information is available. Supplementary information: Supplementary material is available. | 翻訳日:2024-06-26 04:39:08 公開日:2024-06-24 |
# 量子アニールにおける等化モデルの性能予測
Predicting Ising Model Performance on Quantum Annealers ( http://arxiv.org/abs/2311.07388v2 ) ライセンス: Link先を確認 | Salvatore Certo, Georgios Korpas, Andrew Vlasic, Philip Intallura, | (参考訳) ハードウェアネイティブIsing Modelの特性と,現行および次世代の量子アニーラーの性能を解析することにより,シミュレートされたアニーリングのような古典的ヒューリスティクスと比較して,断熱的進化を利用する可能性を決定するためのフレームワークを提供する。
我々は、様々な分布から引き出された係数を用いてIsing Model実験を行い、古典的ヒューリスティックスにおけるフラストレーションにつながる分布に必要なモーメントの範囲を提供する。
モデルの線形項と二次項の間の関係を識別することにより、アナラール上の問題インスタンス適合性を決定するために、分析を優先的に行うことができる。
次に、これらの実験をD-Waveの次世代デバイスのプロトタイプに拡張し、現在のアドバンテージアニーラーと比較してさらなる性能向上を示す。
By analyzing the characteristics of hardware-native Ising Models and their performance on current and next generation quantum annealers, we provide a framework for determining the prospect of advantage utilizing adiabatic evolution compared to classical heuristics like simulated annealing. We conduct Ising Model experiments with coefficients drawn from a variety of different distributions and provide a range for the necessary moments of the distributions that lead to frustration in classical heuristics. By identifying the relationships between the linear and quadratic terms of the models, analysis can be done a priori to determine problem instance suitability on annealers. We then extend these experiments to a prototype of D-Wave's next generation device, showing further performance improvements compared to the current Advantage annealers. | 翻訳日:2024-06-26 04:39:08 公開日:2024-06-24 |
# 属性多様性がVQAの体系性ギャップを決定する
Attribute Diversity Determines the Systematicity Gap in VQA ( http://arxiv.org/abs/2311.08695v2 ) ライセンス: Link先を確認 | Ian Berlot-Attwell, Kumar Krishna Agrawal, A. Michael Carrell, Yash Sharma, Naomi Saphra, | (参考訳) ニューラルネットワークが新しい概念の組み合わせに一般化できる程度と、それができる条件は、長い間、オープンな問題だった。
本研究は,視覚的質問応答における体系性差について考察する。
そこで本研究では,新しい診断データセットCLEVR-HOPEを提案する。
トレーニングデータの量の増加は、体系的なギャップを減らさないが、見当たらない組み合わせにおける属性のトレーニングデータの多様性が増すことが分かる。
全体として、我々の実験は、トレーニング中に異なる属性タイプの組み合わせが見られるほど、結果のモデルがより体系的であることを示唆しています。
The degree to which neural networks can generalize to new combinations of familiar concepts, and the conditions under which they are able to do so, has long been an open question. In this work, we study the systematicity gap in visual question answering: the performance difference between reasoning on previously seen and unseen combinations of object attributes. To test, we introduce a novel diagnostic dataset, CLEVR-HOPE. We find that while increased quantity of training data does not reduce the systematicity gap, increased training data diversity of the attributes in the unseen combination does. In all, our experiments suggest that the more distinct attribute type combinations are seen during training, the more systematic we can expect the resulting model to be. | 翻訳日:2024-06-26 04:39:08 公開日:2024-06-24 |
# Uli Dataset:oGBVの注釈付きエクスペリエンスのエクササイズ
The Uli Dataset: An Exercise in Experience Led Annotation of oGBV ( http://arxiv.org/abs/2311.09086v3 ) ライセンス: Link先を確認 | Arnav Arora, Maha Jinadoss, Cheshta Arora, Denny George, Brindaalakshmi, Haseena Dawood Khan, Kirti Rawat, Div, Ritash, Seema Mathur, Shivani Yadav, Shehla Rashid Shora, Rie Raut, Sumit Pawar, Apurva Paithane, Sonia, Vivek, Dharini Priscilla, Khairunnisha, Grace Banu, Ambika Tandon, Rishav Thakker, Rahul Dev Korra, Aatman Vaidya, Tarunima Prabhakar, | (参考訳) オンラインジェンダーベースの暴力は、インターネットやソーシャルメディアの採用と相まって成長している。
その影響は、多くのユーザーが英語以外の言語でソーシャルメディアを使っている世界の大多数で悪化している。
インターネット上での会話の規模と量によって、ヘイトスピーチの自動検出や、より具体的にはジェンダーによる虐待の必要性が高まっている。
しかし、そのような自動化ツールを構築するための言語固有のデータやコンテキストデータがない。
本稿では,ヒンディー語,タミル語,インド英語の3言語における性虐待に関するデータセットを提案する。
このデータセットは、女性や南アジアのLGBTQIAコミュニティのメンバーと同一視する専門家によって、性虐待の経験に関する3つの質問に沿って注釈付けされたツイートで構成されている。
このデータセットを通じて、AIシステムを駆動するデータセットを作成するための参加型アプローチを示します。
Online gender based violence has grown concomitantly with adoption of the internet and social media. Its effects are worse in the Global majority where many users use social media in languages other than English. The scale and volume of conversations on the internet has necessitated the need for automated detection of hate speech, and more specifically gendered abuse. There is, however, a lack of language specific and contextual data to build such automated tools. In this paper we present a dataset on gendered abuse in three languages- Hindi, Tamil and Indian English. The dataset comprises of tweets annotated along three questions pertaining to the experience of gender abuse, by experts who identify as women or a member of the LGBTQIA community in South Asia. Through this dataset we demonstrate a participatory approach to creating datasets that drive AI systems. | 翻訳日:2024-06-26 04:39:08 公開日:2024-06-24 |
# 言語モデルを用いたオンライン自己開示におけるプライバシーリスクの低減
Reducing Privacy Risks in Online Self-Disclosures with Language Models ( http://arxiv.org/abs/2311.09538v3 ) ライセンス: Link先を確認 | Yao Dou, Isadora Krsek, Tarek Naous, Anubha Kabra, Sauvik Das, Alan Ritter, Wei Xu, | (参考訳) 自己開示は一般的であり、ソーシャルメディアのやりとりに報いる一方で、プライバシーのリスクも生じている。
本稿では,オンラインの自己開示に関連するユーザ側のプライバシーを,検出と抽象化を通じて保護する取り組みを行う。
我々は19の自己開示カテゴリの分類を開発し,4.8Kの注釈付き開示スパンからなる大きなコーパスをキュレートした。
次に、検出のための言語モデルを微調整し、F$_1$で65%以上の部分的なスパンを達成する。
さらに、HCIユーザ調査を実施し、参加者の82%がモデルを肯定的に見ており、実際の適用性を強調しています。
ユーザからのフィードバックに触発された自己開示抽象化(自己開示抽象化)の課題は,「私は10代の少女」に対する「Im 16F」の効用を保ちながら,開示をあまり具体的でない用語に言い換えることである。
我々は、様々な微調整戦略を探求し、人間の評価に従って高いユーティリティを維持しながら、プライバシーリスクを適度に低減する多様な抽象化を生成することができる。
ユーザがどの公開情報を抽象化するかを決めるのを助けるために,コンテキスト理解において重要度を評価するタスクを提示する。
我々の微調整モデルでは、GPT-3.5と同等の精度で80%の精度が得られる。
安全とプライバシーを考慮に入れれば、倫理文書に概説された倫理ガイドラインに同意する研究者に対して、私たちのコーパスとモデルのみを公開します。
Self-disclosure, while being common and rewarding in social media interaction, also poses privacy risks. In this paper, we take the initiative to protect the user-side privacy associated with online self-disclosure through detection and abstraction. We develop a taxonomy of 19 self-disclosure categories and curate a large corpus consisting of 4.8K annotated disclosure spans. We then fine-tune a language model for detection, achieving over 65% partial span F$_1$. We further conduct an HCI user study, with 82% of participants viewing the model positively, highlighting its real-world applicability. Motivated by the user feedback, we introduce the task of self-disclosure abstraction, which is rephrasing disclosures into less specific terms while preserving their utility, e.g., "Im 16F" to "I'm a teenage girl". We explore various fine-tuning strategies, and our best model can generate diverse abstractions that moderately reduce privacy risks while maintaining high utility according to human evaluation. To help users in deciding which disclosures to abstract, we present a task of rating their importance for context understanding. Our fine-tuned model achieves 80% accuracy, on-par with GPT-3.5. Given safety and privacy considerations, we will only release our corpus and models to researcher who agree to the ethical guidelines outlined in Ethics Statement. | 翻訳日:2024-06-26 02:42:42 公開日:2024-06-24 |
# オンデバイスソフトセンサ:レベルセンサデータによるリアルタイム流体流量推定
On-Device Soft Sensors: Real-Time Fluid Flow Estimation from Level Sensor Data ( http://arxiv.org/abs/2311.15036v2 ) ライセンス: Link先を確認 | Tianheng Ling, Chao Qian, Gregor Schiele, | (参考訳) ソフトセンサーは、自律システムの物理的およびデジタル領域をブリッジし、センサーの融合と知覚を高めるために不可欠である。
この研究は、クラウド上にソフトセンサーを配置する代わりに、デバイス上でのソフトセンサーの採用にシフトし、効率の向上とデータセキュリティの強化を約束する。
本手法は,無線センサネットワーク内のデバイスに直接人工知能(AI)を配置することにより,エネルギー効率を大幅に向上させる。
さらに、Microcontroller UnitとField-Programmable Gate Array(FPGA)の相乗的な統合は、後者の高速AI推論機能を活用する。
私たちの実世界のユースケースによる実証的な証拠は、FPGAベースのソフトセンサーが1.04から12.04マイクロ秒までの推論時間を実現していることを示している。
これらの魅力的な結果は、リアルタイム推論タスクを効率的に実行するための革新的なアプローチのかなりの可能性を浮き彫りにして、クラウドベースのデプロイメントに固有のレイテンシの課題に効果的に対処する、実現可能な代替手段を提示します。
Soft sensors are crucial in bridging autonomous systems' physical and digital realms, enhancing sensor fusion and perception. Instead of deploying soft sensors on the Cloud, this study shift towards employing on-device soft sensors, promising heightened efficiency and bolstering data security. Our approach substantially improves energy efficiency by deploying Artificial Intelligence (AI) directly on devices within a wireless sensor network. Furthermore, the synergistic integration of the Microcontroller Unit and Field-Programmable Gate Array (FPGA) leverages the rapid AI inference capabilities of the latter. Empirical evidence from our real-world use case demonstrates that FPGA-based soft sensors achieve inference times ranging remarkably from 1.04 to 12.04 microseconds. These compelling results highlight the considerable potential of our innovative approach for executing real-time inference tasks efficiently, thereby presenting a feasible alternative that effectively addresses the latency challenges intrinsic to Cloud-based deployments. | 翻訳日:2024-06-26 02:42:42 公開日:2024-06-24 |
# Intrinsic LoRA:ジェネレーティブモデルにおける知識発見のための一般的アプローチ
Intrinsic LoRA: A Generalist Approach for Discovering Knowledge in Generative Models ( http://arxiv.org/abs/2311.17137v2 ) ライセンス: Link先を確認 | Xiaodan Du, Nicholas Kolkin, Greg Shakhnarovich, Anand Bhattad, | (参考訳) 生成モデルは、実際のシーンを忠実に模倣するイメージの作成に優れており、本質的にシーン表現をエンコードしていることを示唆している。
Intrinsic LoRA (I-LoRA) は,Low-Rank Adaptation (LoRA) を用いて,様々な生成モデルから,通常,深さ,アルベド,シェーディングなどのシーン内在性を発見する一般手法である。
I-LoRAは軽量で、モデルのパラメータに最小限を追加し、この知識発見には非常に小さなデータセットを必要とする。
我々のアプローチは拡散モデル、GAN、自動回帰モデルにも適用でき、原画像と同じ出力ヘッドを用いて内在性を生成する。
制御実験により,生成モデルの品質と抽出した内科的精度の相関関係を確立する。
最後に, 数百から数千のラベル付き画像を用いて, 数百万のラベル付きサンプルに基づいて学習した教師あり手法と同等のシーン内在性を示す。
Generative models excel at creating images that closely mimic real scenes, suggesting they inherently encode scene representations. We introduce Intrinsic LoRA (I-LoRA), a general approach that uses Low-Rank Adaptation (LoRA) to discover scene intrinsics such as normals, depth, albedo, and shading from a wide array of generative models. I-LoRA is lightweight, adding minimally to the model's parameters and requiring very small datasets for this knowledge discovery. Our approach, applicable to Diffusion models, GANs, and Autoregressive models alike, generates intrinsics using the same output head as the original images. Through control experiments, we establish a correlation between the generative model's quality and the extracted intrinsics' accuracy. Finally, scene intrinsics obtained by our method with just hundreds to thousands of labeled images, perform on par with those from supervised methods trained on millions of labeled examples. | 翻訳日:2024-06-26 02:42:42 公開日:2024-06-24 |
# 安定拡散による個人情報の爆発防止は可能か?
Can Protective Perturbation Safeguard Personal Data from Being Exploited by Stable Diffusion? ( http://arxiv.org/abs/2312.00084v2 ) ライセンス: Link先を確認 | Zhengyue Zhao, Jinhao Duan, Kaidi Xu, Chenan Wang, Rui Zhang, Zidong Du, Qi Guo, Xing Hu, | (参考訳) 安定拡散(Stable Diffusion)は、AI生成の芸術的応用の基礎モデルとして確立され、幅広い研究と応用を受けている。
最近の微調整手法により、個人が小さなデータセットの計算コストを最小限に抑えた、基本的な安定拡散モデルにパーソナライズされた概念を組み込むことが可能になった。
しかし、これらのイノベーションは、顔のプライバシー偽造や芸術的著作権侵害といった問題も引き起こしている。
近年の研究では、個人データが微調整の安定拡散に使用される場合、画像に知覚不能な逆境の摂動を加えることで、潜在的に無許可な搾取や侵害を防止することが研究されている。
これらの研究は、画像を保護する能力を実証してきたが、現実のシナリオでは、これらの手法が完全には適用できないと考えることが不可欠である。
本稿では,現実的な脅威モデルにおける画像保護のための摂動の利用を体系的に評価する。
その結果,これらの手法は画像のプライバシーと著作権を効果的に保護するには不十分である可能性が示唆された。
さらに,元の画像構造を最大限に保存しつつ,保護された摂動を除去できる浄化方法を提案する。
実験により、安定拡散はすべての保護方法を通じて、精製された画像から効果的に学習できることが判明した。
Stable Diffusion has established itself as a foundation model in generative AI artistic applications, receiving widespread research and application. Some recent fine-tuning methods have made it feasible for individuals to implant personalized concepts onto the basic Stable Diffusion model with minimal computational costs on small datasets. However, these innovations have also given rise to issues like facial privacy forgery and artistic copyright infringement. In recent studies, researchers have explored the addition of imperceptible adversarial perturbations to images to prevent potential unauthorized exploitation and infringements when personal data is used for fine-tuning Stable Diffusion. Although these studies have demonstrated the ability to protect images, it is essential to consider that these methods may not be entirely applicable in real-world scenarios. In this paper, we systematically evaluate the use of perturbations to protect images within a practical threat model. The results suggest that these approaches may not be sufficient to safeguard image privacy and copyright effectively. Furthermore, we introduce a purification method capable of removing protected perturbations while preserving the original image structure to the greatest extent possible. Experiments reveal that Stable Diffusion can effectively learn from purified images over all protective methods. | 翻訳日:2024-06-26 02:42:42 公開日:2024-06-24 |
# シーングラフ知識による手術用VQAの改善
Advancing Surgical VQA with Scene Graph Knowledge ( http://arxiv.org/abs/2312.10251v3 ) ライセンス: Link先を確認 | Kun Yuan, Manasi Kattel, Joel L. Lavanchy, Nassir Navab, Vinkle Srivastav, Nicolas Padoy, | (参考訳) 現代の手術室はますます複雑化しており、革新的な手術内支援システムを必要としている。
外科的データ科学の焦点は、主にビデオ分析に焦点が当てられているが、外科的コンピュータビジョンと言語能力の統合が不可欠である。
本研究の目的は,手術用VQAデータセットにおける質問条件バイアスの除去と,手術用VQAモデル設計におけるシーン認識推論の導入という,現在の手術用VQAシステムにおける2つの課題に対処することである。
まず,公開データセットにセグメンテーションと検出モデルを用いた手術シーングラフベースのデータセットSSG-QAを提案する。
我々は,楽器や解剖の空間的および行動的情報を用いた手術シーングラフを構築した。
これらのグラフは質問エンジンに入力され、多様なQAペアを生成する。
我々のSSG-QAデータセットは、既存の外科的VQAデータセットと比較して、より複雑で、多様で、幾何学的基盤があり、偏見がなく、外科的アクション指向のデータセットを提供する。
次に,Scene-embedded Interaction Module (SIM) を取り入れた新しい手術用VQAモデルであるSSG-QA-Netを提案する。
SSG-QAデータセットの包括的分析により、SSG-QA-Netは、様々な質問タイプや複雑さで既存のメソッドよりも優れていることが示された。
現在の外科的VQAシステムの主な限界は、複雑なクエリに答えるシーン知識の欠如である。
本稿では,新しい外科的VQAデータセットとモデルを提案し,VQAモデル設計に幾何学的シーン特徴を取り入れることで,結果を著しく改善できることを示す。
ソースコードとデータセットは、https://github.com/CAMMA-public/SSG-QAで公開されます。
Modern operating room is becoming increasingly complex, requiring innovative intra-operative support systems. While the focus of surgical data science has largely been on video analysis, integrating surgical computer vision with language capabilities is emerging as a necessity. Our work aims to advance Visual Question Answering (VQA) in the surgical context with scene graph knowledge, addressing two main challenges in the current surgical VQA systems: removing question-condition bias in the surgical VQA dataset and incorporating scene-aware reasoning in the surgical VQA model design. First, we propose a Surgical Scene Graph-based dataset, SSG-QA, generated by employing segmentation and detection models on publicly available datasets. We build surgical scene graphs using spatial and action information of instruments and anatomies. These graphs are fed into a question engine, generating diverse QA pairs. Our SSG-QA dataset provides a more complex, diverse, geometrically grounded, unbiased, and surgical action-oriented dataset compared to existing surgical VQA datasets. We then propose SSG-QA-Net, a novel surgical VQA model incorporating a lightweight Scene-embedded Interaction Module (SIM), which integrates geometric scene knowledge in the VQA model design by employing cross-attention between the textual and the scene features. Our comprehensive analysis of the SSG-QA dataset shows that SSG-QA-Net outperforms existing methods across different question types and complexities. We highlight that the primary limitation in the current surgical VQA systems is the lack of scene knowledge to answer complex queries. We present a novel surgical VQA dataset and model and show that results can be significantly improved by incorporating geometric scene features in the VQA model design. The source code and the dataset will be made publicly available at: https://github.com/CAMMA-public/SSG-QA | 翻訳日:2024-06-26 02:32:50 公開日:2024-06-24 |
# 正規および不規則な時系列インプットのための連続時間オートエンコーダ
Continuous-time Autoencoders for Regular and Irregular Time Series Imputation ( http://arxiv.org/abs/2312.16581v3 ) ライセンス: Link先を確認 | Hyowon Wi, Yehjin Shin, Noseong Park, | (参考訳) 時系列計算は、時系列の最も基本的なタスクの1つである。
実世界の時系列データセットは、しばしば不完全である(または観測が不完全である)。
多くの異なる時系列計算法が提案されている。
最近の自己注意に基づく手法は、最先端の計算性能を示している。
しかし、連続時間リカレントニューラルネットワーク(RNN)、すなわちニューラル制御微分方程式(NCDE)に基づく計算法の設計は長い間見過ごされてきた。
この目的のために、NCDEに基づいて時系列(変分)オートエンコーダを再設計する。
連続時間オートエンコーダ (Continuous-time Autoencoder, CTA) と呼ばれる手法では、入力時系列のサンプルを(隠れベクトルではなく)連続的に隠された経路にエンコードし、それを復号して入力を再構成し、インプットする。
4つのデータセットと19のベースラインを用いた実験では,ほぼすべてのケースで最高の計算性能を示した。
Time series imputation is one of the most fundamental tasks for time series. Real-world time series datasets are frequently incomplete (or irregular with missing observations), in which case imputation is strongly required. Many different time series imputation methods have been proposed. Recent self-attention-based methods show the state-of-the-art imputation performance. However, it has been overlooked for a long time to design an imputation method based on continuous-time recurrent neural networks (RNNs), i.e., neural controlled differential equations (NCDEs). To this end, we redesign time series (variational) autoencoders based on NCDEs. Our method, called continuous-time autoencoder (CTA), encodes an input time series sample into a continuous hidden path (rather than a hidden vector) and decodes it to reconstruct and impute the input. In our experiments with 4 datasets and 19 baselines, our method shows the best imputation performance in almost all cases. | 翻訳日:2024-06-26 02:32:50 公開日:2024-06-24 |
# 双方向アライメントによる文脈内学習の改善
Improving In-context Learning via Bidirectional Alignment ( http://arxiv.org/abs/2312.17055v2 ) ライセンス: Link先を確認 | Chengwei Qin, Wenhan Xia, Fangkai Jiao, Chen Chen, Yuchen Hu, Bosheng Ding, Shafiq Joty, | (参考訳) 大規模言語モデル (LLM) は、コンテキスト内学習 (ICL) を通じて、多くのタスクにおいて驚くべき数ショットの一般化を示している。
このような突発的な能力を示すことに成功しているにもかかわらず、より大きなモデルの規模と複雑さは、前例のないほど高い計算要求と展開課題をもたらす。
反応において、研究者はより大きな(教師)モデルの出力とより小さな(学生)モデルの出力を整列させることにより、より大きなモデルの強力な能力をより効率的でコンパクトなモデルに移行することを検討する。
既存の方法は、教師モデルの生成された出力で生徒モデルを訓練するか、トークンレベルの確率分布を模倣するかのいずれかである。
しかし、これらの蒸留法は入力にはほとんど注意を払わず、ICLにおいても重要な役割を担っている。
ICLの性能が実演例の選択に非常に敏感であることから、学生モデルのICL能力を向上させるために、ICLのモデルに対する好みを完全に活用するための双方向アライメント(Bidirectional Alignment, BiAlign)を提案する。
具体的には、トークンレベルの出力分布の整合性に加えて、新しいランキング損失を取り入れることで、学生と教師のモデルの入力嗜好の整合性を導入する。
広範な実験と分析により、BiAlignは、言語理解、推論、コーディングを含む様々なタスクにおいて、既存のベースラインを一貫して上回ります。
Large language models (LLMs) have shown impressive few-shot generalization on many tasks via in-context learning (ICL). Despite their success in showing such emergent abilities, the scale and complexity of larger models also lead to unprecedentedly high computational demands and deployment challenges. In reaction, researchers explore transferring the powerful capabilities of larger models to more efficient and compact models by typically aligning the output of smaller (student) models with that of larger (teacher) models. Existing methods either train student models on the generated outputs of teacher models or imitate their token-level probability distributions. However, these distillation methods pay little to no attention to the input, which also plays a crucial role in ICL. Based on the finding that the performance of ICL is highly sensitive to the selection of demonstration examples, we propose Bidirectional Alignment (BiAlign) to fully leverage the models' preferences for ICL examples to improve the ICL abilities of student models. Specifically, we introduce the alignment of input preferences between student and teacher models by incorporating a novel ranking loss, in addition to aligning the token-level output distribution. With extensive experiments and analysis, we demonstrate that BiAlign can consistently outperform existing baselines on a variety of tasks involving language understanding, reasoning, and coding. | 翻訳日:2024-06-26 02:32:50 公開日:2024-06-24 |
# LLMトレーニングにおける構造化パッケージングによる長期利用の改善
Structured Packing in LLM Training Improves Long Context Utilization ( http://arxiv.org/abs/2312.17296v7 ) ライセンス: Link先を確認 | Konrad Staniszewski, Szymon Tworkowski, Sebastian Jaszczur, Yu Zhao, Henryk Michalewski, Łukasz Kuciński, Piotr Miłoś, | (参考訳) 近年の長文大言語モデルの進歩は注目されているが、それらの実践的応用は、しばしば最適でない文脈利用に悩まされている。
本研究では,意味的相互依存を高めるための学習データの構造化について検討し,この手法が文脈利用を効果的に改善することを示す。
この目的のために,検索を利用して相互に関連のある文書を長く一貫性のあるトレーニング例に照合するSPLiCe(Structured Packing for Long Context)手法を提案する。
QasperやHotpotQAといった長文タスクにおいて,SPLiCeを3B,7B,13Bのモデルで実証的に検証し,性能改善を実現した。
注目すべきは、SPLiCeによる簡単な微調整でさえ、これらの利点を実現するのに十分です。
さらに、SPLiCeは大きなモデルでよく見られる中途半端現象を効果的に緩和する。
SPLiCeの包括的分析では、設計選択を探索し、例えば、プログラミングコードのトレーニングによって自然言語タスクのパフォーマンスが向上するなど、興味深いトランスファー効果を明らかにしている。
Recent advancements in long-context large language models have attracted significant attention, yet their practical applications often suffer from suboptimal context utilization. This study investigates structuring training data to enhance semantic interdependence, demonstrating that this approach effectively improves context utilization. To this end, we introduce the Structured Packing for Long Context (SPLiCe) method, which utilizes retrieval to collate mutually relevant documents into long and coherent training examples. We validate SPLiCe empirically across models of varying sizes -- 3B, 7B, and 13B -- achieving improved performance in long-context tasks, such as Qasper and HotpotQA. Remarkably, even brief fine-tuning with SPLiCe is sufficient to realize these benefits. Additionally, SPLiCe effectively mitigates the lost-in-middle phenomenon often observed in large models. Our comprehensive analysis of SPLiCe explores its design choices and reveals intriguing transfer effects; for instance, training on programming code enhances performance on natural language tasks. | 翻訳日:2024-06-26 02:32:50 公開日:2024-06-24 |
# PSAvatar:3次元ガウススプレイティングによるリアルタイム頭部アバターアニメーションのためのポイントベース形状モデル
PSAvatar: A Point-based Shape Model for Real-Time Head Avatar Animation with 3D Gaussian Splatting ( http://arxiv.org/abs/2401.12900v5 ) ライセンス: Link先を確認 | Zhongyuan Zhao, Zhenyu Bao, Qing Li, Guoping Qiu, Kanglin Liu, | (参考訳) 多くの進歩にもかかわらず、リアルタイムの高忠実度アバターアニメーションを実現することは依然として困難であり、既存の手法は速度と品質をトレードオフしなければならない。
3DMMに基づく手法は、眼鏡やヘアスタイルのような非界面構造をモデル化するのに失敗することが多い。
3Dガウスアンは、幾何学的表現や放射場再構成に有望な能力を持っていることが証明されているが、3Dガウスアンを頭部アバターに応用することは、ポーズや表現の変化による頭部形状の変化をモデル化することが困難であるため、大きな課題である。
本稿では、離散幾何的プリミティブを利用してパラメトリックな形状モデルを作成し、3Dガウスを細部表現と高忠実なレンダリングに利用する、アニマタブルな頭部アバター作成のための新しいフレームワークであるPSAvatarを紹介する。
パラメトリック形状モデル(Parametric morphable shape model)は、3次元表現のメッシュの代わりに点を用いて表現の柔軟性を向上するポイントベース形状モデル(PMSM)である。
PMSMは、最初にFLAMEメッシュを、表面のサンプリングとメッシュのオフによってポイントに変換し、表面のような構造だけでなく、眼鏡やヘアスタイルのような複雑な地形の再構築を可能にする。
PMSMはこれらの点を解析的に頭部形状に整合させることにより、3Dガウスを微細な表現と外観モデリングに利用し、高忠実度アバターの作成を可能にする。
PSAvatarは様々な被験者の高忠実度アバターを再構築でき、アバターはリアルタイムでアニメーションできる(512ドル\times$512 の解像度で25 fps)。
Despite much progress, achieving real-time high-fidelity head avatar animation is still difficult and existing methods have to trade-off between speed and quality. 3DMM based methods often fail to model non-facial structures such as eyeglasses and hairstyles, while neural implicit models suffer from deformation inflexibility and rendering inefficiency. Although 3D Gaussian has been demonstrated to possess promising capability for geometry representation and radiance field reconstruction, applying 3D Gaussian in head avatar creation remains a major challenge since it is difficult for 3D Gaussian to model the head shape variations caused by changing poses and expressions. In this paper, we introduce PSAvatar, a novel framework for animatable head avatar creation that utilizes discrete geometric primitive to create a parametric morphable shape model and employs 3D Gaussian for fine detail representation and high fidelity rendering. The parametric morphable shape model is a Point-based Morphable Shape Model (PMSM) which uses points instead of meshes for 3D representation to achieve enhanced representation flexibility. The PMSM first converts the FLAME mesh to points by sampling on the surfaces as well as off the meshes to enable the reconstruction of not only surface-like structures but also complex geometries such as eyeglasses and hairstyles. By aligning these points with the head shape in an analysis-by-synthesis manner, the PMSM makes it possible to utilize 3D Gaussian for fine detail representation and appearance modeling, thus enabling the creation of high-fidelity avatars. We show that PSAvatar can reconstruct high-fidelity head avatars of a variety of subjects and the avatars can be animated in real-time ($\ge$ 25 fps at a resolution of 512 $\times$ 512 ). | 翻訳日:2024-06-26 02:22:43 公開日:2024-06-24 |
# ソフトマックスガウスのエキスパートの温度サンプルは有効か?
Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts? ( http://arxiv.org/abs/2401.13875v2 ) ライセンス: Link先を確認 | Huy Nguyen, Pedram Akbarian, Nhat Ho, | (参考訳) デンス・トゥ・スパース・ギャティング(Dense-to-sparse Gating)の専門家(MoE)は、最近、よく知られたスパース・モーエ(MoE)の代替として有効なものとなった。
後者のモデルでは、潜在的な専門家の調査を制限することができるような活性化された専門家の数を修正するのではなく、前モデルでは、専門家の専門化を安定させるために、トレーニング中のMoEの柔らかい最大重量分布と空間性を制御するために温度を利用する。
しかしながら、かつてはスパースMoEを理論的に理解しようとする試みがあったが、密度とスパースを混合するMoEの包括的分析はいまだに解明されていない。
そこで本論文では,密度とスパースゲートがガウスMOEの下での最大推定に与える影響について検討する。
ある偏微分方程式による温度と他のモデルパラメータ間の相互作用により、パラメータ推定の収束速度は任意の多項式速度よりも遅く、$\mathcal{O}(1/\log(n))$と同じくらい遅くなり、$n$はサンプルサイズを表す。
この問題に対処するために,線形層の出力を活性化関数にルーティングし,ソフトマックス関数に配信する,新しいアクティベーション・トゥ・スパースゲートを提案する。
活性化関数とその導関数に線形独立条件を付与することにより、パラメータ推定率は多項式率に大きく改善されることを示す。
最後に,理論結果を実証的に検証するためのシミュレーション研究を行う。
Dense-to-sparse gating mixture of experts (MoE) has recently become an effective alternative to a well-known sparse MoE. Rather than fixing the number of activated experts as in the latter model, which could limit the investigation of potential experts, the former model utilizes the temperature to control the softmax weight distribution and the sparsity of the MoE during training in order to stabilize the expert specialization. Nevertheless, while there are previous attempts to theoretically comprehend the sparse MoE, a comprehensive analysis of the dense-to-sparse gating MoE has remained elusive. Therefore, we aim to explore the impacts of the dense-to-sparse gate on the maximum likelihood estimation under the Gaussian MoE in this paper. We demonstrate that due to interactions between the temperature and other model parameters via some partial differential equations, the convergence rates of parameter estimations are slower than any polynomial rates, and could be as slow as $\mathcal{O}(1/\log(n))$, where $n$ denotes the sample size. To address this issue, we propose using a novel activation dense-to-sparse gate, which routes the output of a linear layer to an activation function before delivering them to the softmax function. By imposing linearly independence conditions on the activation function and its derivatives, we show that the parameter estimation rates are significantly improved to polynomial rates. Finally, we conduct a simulation study to empirically validate our theoretical results. | 翻訳日:2024-06-26 02:22:43 公開日:2024-06-24 |
# 傾斜相互作用を持つスピン鎖における異常局在
Anomalous localization in spin chains with tilted interactions ( http://arxiv.org/abs/2401.14369v2 ) ライセンス: Link先を確認 | Arindam Mallick, Jakub Zakrzewski, | (参考訳) 格子ゲージ理論の量子シミュレータは、通常短距離相互作用粒子や力学場の力学を含む。
ガウス法則による後者の排除は、シュウィンガーモデルで示されるような無限の範囲の相互作用を、停滞した形式主義で導く。
これは長距離相互作用の研究を動機付け、必ずしも距離を減少させるわけではない。
ここでは、連鎖に沿って線形に成長する相互作用強度を持つスピン鎖の局在特性をシュウィンガーモデルとして考察する。
この問題を異なる相互作用範囲のモデルに一般化する。
正確な対角化を用いて、すべての固有状態の参加比を見つけ、ヒルベルト空間の局所化体積を定量化することができる。
驚くべきことに、局所化体積は相互作用範囲と非単調に変化する。
我々の研究は、最先端の冷間原子/イオンデバイスで実装された格子ゲージ理論の量子シミュレーターに関係しており、長距離相互作用系における乱れのない閉じ込め現象の隠れた特徴を明らかにするのに役立つ。
Quantum simulators of lattice gauge theories involve dynamics of typically short-ranged interacting particles and dynamical fields. Elimination of the latter via Gauss law leads to infinite range interactions as exemplified by the Schwinger model in a staggered formalism. This motivates the study of long-range interactions, not necessarily diminishing with the distance. Here we consider localization properties of a spin chain with interaction strength growing linearly along the chain as for the Schwinger model. We generalize the problem to models with different interaction ranges. Using exact diagonalization we find the participation ratio of all eigenstates, which allows us to quantify the localization volume in Hilbert space. Surprisingly, the localization volume changes nonmonotonically with the interaction range. Our study is relevant for quantum simulators of lattice gauge theories implemented in state-of-the-art cold atom/ion devices, and it could help to reveal hidden features in disorder-free confinement phenomena in long-range interacting systems. | 翻訳日:2024-06-26 02:22:43 公開日:2024-06-24 |
# クラスタリングの専門家:階層的なオンライン推論学習フレームワーク
Expert with Clustering: Hierarchical Online Preference Learning Framework ( http://arxiv.org/abs/2401.15062v2 ) ライセンス: Link先を確認 | Tianyue Zhou, Jung-Hoon Cho, Babak Rahimi Ardabili, Hamed Tabkhi, Cathy Wu, | (参考訳) 新たなモビリティシステムは、パーソナライズされた持続可能なシステム成果へのガイドとして、モビリティユーザに選択肢を推奨する能力がますます高まっている。
一般的なレコメンデーションシステムよりも、後悔を最小限に抑えることが重要です。
1)移動手段は利用者の生活に直接影響を与え、
2)システムサステナビリティは,十分なユーザ参加に依存している。
本研究では,ユーザのモビリティの嗜好を捉えた低次元潜在空間を活用することで,ユーザの嗜好学習の促進を検討する。
本稿では,クラスタリング技術と予測を専門家のアドバイスと統合した,クラスタリングによるエキスパート(Expert with Clustering, EWC)という階層的なコンテキスト的帯域幅フレームワークを紹介する。
EWCは階層的ユーザ情報を効率的に利用し、新しいロス誘導距離計を組み込む。
この計量は、より代表的なクラスターセントロイドを生成するのに役立っている。
ユーザ毎の$N$,ユーザ毎の$T$,オプション毎の$K$のレコメンデーションシナリオでは,我々のアルゴリズムは,O(N\sqrt{T\log K} + NT)$の後悔の限界を達成している。
この境界は2つの部分から構成される: 第一項はヘッジアルゴリズムの後悔であり、第二項はクラスタリングからの平均損失に依存する。
著者の知る限りでは、これはk-Meansクラスタリングによる統合専門家アルゴリズムの後悔を分析する最初の研究である。
この後悔は、特に急激な学習と適応を必要とするシナリオにおいて、EWCの理論的および実験的有効性を強調している。
実験の結果、EWCはLinUCBベースラインと比較して、後悔を27.57%減らすことができた。
我々の研究は、個人と集団の両方の振る舞いを捉えるためのデータ効率のよいアプローチを提供し、階層構造を持つコンテキストに適用できる。
このアルゴリズムは、ユーザの好みや情報の階層化されたニュアンスを持つ他の設定に適用できることを期待している。
Emerging mobility systems are increasingly capable of recommending options to mobility users, to guide them towards personalized yet sustainable system outcomes. Even more so than the typical recommendation system, it is crucial to minimize regret, because 1) the mobility options directly affect the lives of the users, and 2) the system sustainability relies on sufficient user participation. In this study, we consider accelerating user preference learning by exploiting a low-dimensional latent space that captures the mobility preferences of users. We introduce a hierarchical contextual bandit framework named Expert with Clustering (EWC), which integrates clustering techniques and prediction with expert advice. EWC efficiently utilizes hierarchical user information and incorporates a novel Loss-guided Distance metric. This metric is instrumental in generating more representative cluster centroids. In a recommendation scenario with $N$ users, $T$ rounds per user, and $K$ options, our algorithm achieves a regret bound of $O(N\sqrt{T\log K} + NT)$. This bound consists of two parts: the first term is the regret from the Hedge algorithm, and the second term depends on the average loss from clustering. To the best of the authors knowledge, this is the first work to analyze the regret of an integrated expert algorithm with k-Means clustering. This regret bound underscores the theoretical and experimental efficacy of EWC, particularly in scenarios that demand rapid learning and adaptation. Experimental results highlight that EWC can substantially reduce regret by 27.57% compared to the LinUCB baseline. Our work offers a data-efficient approach to capturing both individual and collective behaviors, making it highly applicable to contexts with hierarchical structures. We expect the algorithm to be applicable to other settings with layered nuances of user preferences and information. | 翻訳日:2024-06-26 02:22:43 公開日:2024-06-24 |
# ニューラルトピックモデルに関する調査:方法,応用,課題
A Survey on Neural Topic Models: Methods, Applications, and Challenges ( http://arxiv.org/abs/2401.15351v2 ) ライセンス: Link先を確認 | Xiaobao Wu, Thong Nguyen, Anh Tuan Luu, | (参考訳) トピックモデルは何十年にもわたって普及し、潜在トピックを発見し、教師なしの方法で文書のトピックの割合を推測している。
テキスト分析やコンテキストレコメンデーションといった様々なアプリケーションで広く使われている。
近年、ニューラルネットワークの台頭は、新しい研究分野であるニューラルトピックモデル(NTM)の出現を促している。
従来のトピックモデルとは異なり、NTMはモデル固有の導出を必要としないパラメータを直接最適化する。
これにより、NTMはスケーラビリティと柔軟性が向上し、研究の注目と多くの新しいメソッドやアプリケーションを生み出します。
本稿では,手法,応用,課題に関するニューラルトピックモデルに関する包括的調査を行う。
具体的には、現在のNTM手法をネットワーク構造に応じて体系的に整理し、短文やバイリンガル文書などの様々なシナリオにNTMを導入する。
また、NTM上に構築された幅広い人気アプリケーションについても論じる。
最後に、NTMが直面している課題に注目し、今後の研究を刺激する。
この調査には、前述の論文リソースへのアクセスを容易にするレポジトリが付属しています。
Topic models have been prevalent for decades to discover latent topics and infer topic proportions of documents in an unsupervised fashion. They have been widely used in various applications like text analysis and context recommendation. Recently, the rise of neural networks has facilitated the emergence of a new research field -- Neural Topic Models (NTMs). Different from conventional topic models, NTMs directly optimize parameters without requiring model-specific derivations. This endows NTMs with better scalability and flexibility, resulting in significant research attention and plentiful new methods and applications. In this paper, we present a comprehensive survey on neural topic models concerning methods, applications, and challenges. Specifically, we systematically organize current NTM methods according to their network structures and introduce the NTMs for various scenarios like short texts and bilingual documents. We also discuss a wide range of popular applications built on NTMs. Finally, we highlight the challenges confronted by NTMs to inspire future research. We accompany this survey with a repository for easier access to the mentioned paper resources: https://github.com/bobxwu/Paper-Neural-Topic-Models. | 翻訳日:2024-06-26 02:22:43 公開日:2024-06-24 |
# 絡み合った電子の可能な源としてのクーパー対ビームスプリッター
A Cooper-pair beam splitter as a feasible source of entangled electrons ( http://arxiv.org/abs/2401.16408v2 ) ライセンス: Link先を確認 | B. Sharmila, F. M. Souza, H. M. Vasconcelos, L. Sanz, | (参考訳) 超伝導体クーパー対ビームスプリッタに取り付けられた2つの量子ドットからなる系から生じる絡み合った電子対の生成について検討する。
Crossed Andreev Reflection、Cotuneling、Coulombの3つのプロセスを考慮しています。
これらの過程は、電子が空間的に分離された量子ドットの中で、絡み合った電子状態の形成において重要な役割を担っている。
摂動理論を用いることで、絡み合った状態の形成の背後にある複雑な過程の簡単な図形を可能にする解析的有効モデルが導出される。
量子相互情報, 負性, 共起性などの絡み合い定量化器を用いて, 実験結果を検証した。
最後に、2つの電子の検出に関連する共分散を定義し、それぞれ特定のスピン値を持つ量子ドットの1つから導かれる。
この観測可能な時間の進化は、全ての絡み合った量子化器の力学に追従し、量子情報プロトコルにおける将来の応用における絡み合った電子の生成をマッピングするための有用なツールとなることを示唆している。
We investigate the generation of an entangled electron pair emerging from a system composed of two quantum dots attached to a superconductor Cooper pair beam splitter. We take into account three processes: Crossed Andreev Reflection, cotuneling, and Coulomb interaction. Together, these processes play crucial roles in the formation of entangled electronic states, with electrons being in spatially separated quantum dots. By using perturbation theory, we derive an analytical effective model that allows a simple picture of the intricate process behind the formation of the entangled state. Several entanglement quantifiers, including quantum mutual information, negativity, and concurrence, are employed to validate our findings. Finally, we define and calculate the covariance associated with the detection of two electrons, each originating from one of the quantum dots with a specific spin value. The time evolution of this observable follows the dynamics of all entanglement quantifiers, thus suggesting that it can be a useful tool for mapping the creation of entangled electrons in future applications within quantum information protocols. | 翻訳日:2024-06-26 02:22:43 公開日:2024-06-24 |
# 畳み込み自己エンコーダに基づく縮小順序モデルの実用的存在定理
A practical existence theorem for reduced order models based on convolutional autoencoders ( http://arxiv.org/abs/2402.00435v2 ) ライセンス: Link先を確認 | Nicola Rares Franco, Simone Brugiapaglia, | (参考訳) 近年,PDE(Partial Differential Equations)やROM(Reduced Order Modeling)の分野でディープラーニングが普及し,物理情報ニューラルネットワーク(PINN)やニューラルネットワーク,Deep Operator Networks(DeepONets),Deep-Learning based ROMs(DL-ROM)といった,新たな強力なデータ駆動技術が提供されるようになった。
この文脈では、複雑な非線形問題を扱う際、畳み込みニューラルネットワーク(CNN)に基づくディープオートエンコーダは、基底法などの確立された手法よりも極めて効果的であることが証明されている。
しかし、CNNベースのオートエンコーダの実証的な成功にもかかわらず、これらのアーキテクチャを支持する理論的な結果はごくわずかしかなく、通常は普遍近似定理の形で述べられている。
特に、既存の文献では、畳み込みオートエンコーダを設計するためのガイドラインが提供されているが、その後、潜伏する特徴を学習するという課題はほとんど研究されていない。
さらに、収束に必要なスナップショットの数やニューラルネットワークのトレーニング戦略など、多くの実践的な疑問が未解決のままである。
本研究では,高次元関数近似による最近の手法を用いて,パラメータ対解写像が正則である場合に,CNNベースのオートエンコーダに新たな実用的存在定理を提供することにより,これらのギャップを埋める。
この正則性仮定は、パラメトリック拡散方程式のようなパラメトリックPDEの多くの関連クラスで生じ、一般理論の明示的な応用について議論する。
In recent years, deep learning has gained increasing popularity in the fields of Partial Differential Equations (PDEs) and Reduced Order Modeling (ROM), providing domain practitioners with new powerful data-driven techniques such as Physics-Informed Neural Networks (PINNs), Neural Operators, Deep Operator Networks (DeepONets) and Deep-Learning based ROMs (DL-ROMs). In this context, deep autoencoders based on Convolutional Neural Networks (CNNs) have proven extremely effective, outperforming established techniques, such as the reduced basis method, when dealing with complex nonlinear problems. However, despite the empirical success of CNN-based autoencoders, there are only a few theoretical results supporting these architectures, usually stated in the form of universal approximation theorems. In particular, although the existing literature provides users with guidelines for designing convolutional autoencoders, the subsequent challenge of learning the latent features has been barely investigated. Furthermore, many practical questions remain unanswered, e.g., the number of snapshots needed for convergence or the neural network training strategy. In this work, using recent techniques from sparse high-dimensional function approximation, we fill some of these gaps by providing a new practical existence theorem for CNN-based autoencoders when the parameter-to-solution map is holomorphic. This regularity assumption arises in many relevant classes of parametric PDEs, such as the parametric diffusion equation, for which we discuss an explicit application of our general theory. | 翻訳日:2024-06-26 02:11:02 公開日:2024-06-24 |
# LIR:画像復元のための軽量ベースライン
LIR: A Lightweight Baseline for Image Restoration ( http://arxiv.org/abs/2402.01368v3 ) ライセンス: Link先を確認 | Dongqi Fan, Ting Yue, Xin Zhao, Renjing Xu, Liang Chang, | (参考訳) 近年,CNNとトランスフォーマーをベースとした画像復元が大幅に進歩している。
しかし、画像復元作業の本質的な特徴は、多くの作品で見落とされがちである。
代わりに、基本的なブロック設計に集中し、そのようなブロックをモデルに積み重ねる傾向があり、パラメータが冗長になり、計算が不要になる。
これにより、画像復元の効率が損なわれる。
本稿では, 画像復元のための軽量ベースラインネットワーク LIR を提案し, 画像の効率よく復元し, 劣化を除去する。
まず、創発的な構造設計により、LIRは現代のネットワークで無視される局所的および大域的残差接続に存在する劣化を取り除く。
次に、主に提案する適応フィルタとアテンションブロックからなる軽量適応アテンションブロック(LAA)を導入する。
提案したアダプティブフィルタは、高周波情報を適応的に抽出し、様々なIRタスクにおけるオブジェクトの輪郭を拡大するために使用され、アテンションブロックは、トランスの自己保持部を近似する新しいパッチアテンションモジュールを含む。
評価課題において,我々のLIRは最先端構造類似度指標(SSIM)とPak Signal-to-Noise Ratio(PSNR)の最先端モデルに匹敵する性能を達成している。
タスクのデノイング、デハージング、デブロアリングでは、パラメータサイズが約30\%の最先端モデルに匹敵するパフォーマンスを実現している。
さらに、我々のLIRは、人間の美学とより一致したより良い視覚結果を生み出すことに注意する必要がある。
Recently, there have been significant advancements in Image Restoration based on CNN and transformer. However, the inherent characteristics of the Image Restoration task are often overlooked in many works. They, instead, tend to focus on the basic block design and stack numerous such blocks to the model, leading to parameters redundant and computations unnecessary. Thus, the efficiency of the image restoration is hindered. In this paper, we propose a Lightweight Baseline network for Image Restoration called LIR to efficiently restore the image and remove degradations. First of all, through an ingenious structural design, LIR removes the degradations existing in the local and global residual connections that are ignored by modern networks. Then, a Lightweight Adaptive Attention (LAA) Block is introduced which is mainly composed of proposed Adaptive Filters and Attention Blocks. The proposed Adaptive Filter is used to adaptively extract high-frequency information and enhance object contours in various IR tasks, and Attention Block involves a novel Patch Attention module to approximate the self-attention part of the transformer. On the deraining task, our LIR achieves the state-of-the-art Structure Similarity Index Measure (SSIM) and comparable performance to state-of-the-art models on Peak Signal-to-Noise Ratio (PSNR). For denoising, dehazing, and deblurring tasks, LIR also achieves a comparable performance to state-of-the-art models with a parameter size of about 30\%. In addition, it is worth noting that our LIR produces better visual results that are more in line with the human aesthetic. | 翻訳日:2024-06-26 02:11:02 公開日:2024-06-24 |
# ソフトマックスゲーティングミキサーにおける最小二乗推定について
On Least Square Estimation in Softmax Gating Mixture of Experts ( http://arxiv.org/abs/2402.02952v2 ) ライセンス: Link先を確認 | Huy Nguyen, Nhat Ho, Alessandro Rinaldo, | (参考訳) 混合専門家モデル (Mixture of Expert, MoE) は、より複雑で表現力のあるモデルを形成するために、ソフトマックスゲーティング関数を用いて複数の専門家ネットワークを集約する統計機械学習設計である。
スケーラビリティのため、いくつかのアプリケーションで一般的に使用されているにもかかわらず、MoEモデルの数学的および統計的性質は複雑で解析が難しい。
その結果、従来の理論的研究は主に確率的MoEモデルに焦点を当てており、ガウスのMoEモデルからデータが生成されるという非現実的な仮定を示唆している。
本研究では、回帰モデルに基づいてデータをサンプリングする決定論的MoEモデルの下で、最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
我々は,活性化関数を持つフィードフォワードネットワークである,強く同定可能な専門家を推定する速度を$\mathrm{sigmoid}(\cdot)$と$\tanh(\cdot)$が,多項式専門家のそれよりもかなり高速であることを示す。
本研究は,専門家の選択に重要な意味を持つ。
Mixture of experts (MoE) model is a statistical machine learning design that aggregates multiple expert networks using a softmax gating function in order to form a more intricate and expressive model. Despite being commonly used in several applications owing to their scalability, the mathematical and statistical properties of MoE models are complex and difficult to analyze. As a result, previous theoretical works have primarily focused on probabilistic MoE models by imposing the impractical assumption that the data are generated from a Gaussian MoE model. In this work, we investigate the performance of the least squares estimators (LSE) under a deterministic MoE model where the data are sampled according to a regression model, a setting that has remained largely unexplored. We establish a condition called strong identifiability to characterize the convergence behavior of various types of expert functions. We demonstrate that the rates for estimating strongly identifiable experts, namely the widely used feed-forward networks with activation functions $\mathrm{sigmoid}(\cdot)$ and $\tanh(\cdot)$, are substantially faster than those of polynomial experts, which we show to exhibit a surprising slow estimation rate. Our findings have important practical implications for expert selection. | 翻訳日:2024-06-26 02:11:02 公開日:2024-06-24 |
# AdaTreeFormer: 単一高分解能画像からの樹木数に対するショット領域適応
AdaTreeFormer: Few Shot Domain Adaptation for Tree Counting from a Single High-Resolution Image ( http://arxiv.org/abs/2402.02956v2 ) ライセンス: Link先を確認 | Hamed Amini Amirkolaee, Miaojing Shi, Lianghua He, Mark Mulligan, | (参考訳) 測光とリモートセンシングの分野では,1つの空中・衛星画像のみを用いて木密度を推定・計数する作業は難しい課題である。
しかし、森林管理において重要な役割を担っている。
様々な地形の多種多様な木は、木を数えてうまく機能させるのを著しく妨げている。
本研究の目的は,ソースドメインから十分なラベル付き木を用いて学習し,限られたラベル付き木数で対象ドメインに適応するフレームワークを提案することである。
我々の手法はAdaTreeFormerと呼ばれ、ソースとターゲットドメインからロバストな特徴を抽出する階層的特徴抽出方式を備えた1つの共有エンコーダを含んでいる。
また、ソースドメインとターゲットドメインから自己ドメインアテンションマップを抽出するサブネットと、クロスドメインアテンションマップを抽出するサブネットの3つで構成されている。
後者では,木密度マップの生成中に異なるドメインから関連情報を抽出するアテンション・ツー・アダプティブ・メカニズムを導入し,ソース・ターゲット領域の特徴を段階的に整列する階層的クロスドメイン特徴アライメントスキームを提案する。
我々はまた、ソースドメインとターゲットドメインのギャップをさらに減らすために、フレームワークに敵対的学習を取り入れています。
我々のAdaTreeFormerは,3つのツリーカウントデータセット,Shaie Jiangsu,Yosemite,Londonの6つの設計されたドメイン適応タスクで評価されている。
実験の結果、AdaTreeFormerはヨセミテから江蘇データセットのクロスドメインにおける最先端の \eg を著しく上回り、絶対的なカウント誤差と検出された木の位置の精度の10.8\%の増加から15.9ポイントの削減を実現していることがわかった。
コードとデータセットは \emph{\color{magenta}{https://github.com/HAAClassic/AdaTreeFormer}} で公開されている。
The process of estimating and counting tree density using only a single aerial or satellite image is a difficult task in the fields of photogrammetry and remote sensing. However, it plays a crucial role in the management of forests. The huge variety of trees in varied topography severely hinders tree counting models to perform well. The purpose of this paper is to propose a framework that is learnt from the source domain with sufficient labeled trees and is adapted to the target domain with only a limited number of labeled trees. Our method, termed as AdaTreeFormer, contains one shared encoder with a hierarchical feature extraction scheme to extract robust features from the source and target domains. It also consists of three subnets: two for extracting self-domain attention maps from source and target domains respectively and one for extracting cross-domain attention maps. For the latter, an attention-to-adapt mechanism is introduced to distill relevant information from different domains while generating tree density maps; a hierarchical cross-domain feature alignment scheme is proposed that progressively aligns the features from the source and target domains. We also adopt adversarial learning into the framework to further reduce the gap between source and target domains. Our AdaTreeFormer is evaluated on six designed domain adaptation tasks using three tree counting datasets, \ie Jiangsu, Yosemite, and London. Experimental results show that AdaTreeFormer significantly surpasses the state of the art, \eg in the cross domain from the Yosemite to Jiangsu dataset, it achieves a reduction of 15.9 points in terms of the absolute counting errors and an increase of 10.8\% in the accuracy of the detected trees' locations. The codes and datasets are available at \emph{\color{magenta}{https://github.com/HAAClassic/AdaTreeFormer}}. | 翻訳日:2024-06-26 02:11:02 公開日:2024-06-24 |
# Easy Instruct: 大規模言語モデルのための使いやすい命令処理フレームワーク
EasyInstruct: An Easy-to-use Instruction Processing Framework for Large Language Models ( http://arxiv.org/abs/2402.03049v4 ) ライセンス: Link先を確認 | Yixin Ou, Ningyu Zhang, Honghao Gui, Ziwen Xu, Shuofei Qiao, Yida Xue, Runnan Fang, Kangwei Liu, Lei Li, Zhen Bi, Guozhou Zheng, Huajun Chen, | (参考訳) 近年,大規模言語モデル(LLM)の能力向上のための重要な技術として,命令チューニングが注目されている。
高品質な命令データセットを構築するために,データ量とデータ品質の微妙なバランスを実現するために,多くの命令処理手法が提案されている。
しかし、様々な命令処理方法に矛盾があるため、コミュニティで利用可能な標準のオープンソース命令処理実装フレームワークが存在しないため、実践者がさらなる開発や進歩を妨げている。
命令処理の研究と開発を容易にするために,命令生成,選択,プロンプトをモジュール化し,それらの組み合わせや相互作用を考慮しつつ,LLMの使い易い命令処理フレームワークであるEasyInstructを提案する。
EasyInstructはhttps://github.com/zjunlp/EasyInstructで公開され、オンラインデモアプリとクイックスタート用のデモビデオとともに、インストラクションデータと合成データを中心とした広範な研究を求めている。
In recent years, instruction tuning has gained increasing attention and emerged as a crucial technique to enhance the capabilities of Large Language Models (LLMs). To construct high-quality instruction datasets, many instruction processing approaches have been proposed, aiming to achieve a delicate balance between data quantity and data quality. Nevertheless, due to inconsistencies that persist among various instruction processing methods, there is no standard open-source instruction processing implementation framework available for the community, which hinders practitioners from further developing and advancing. To facilitate instruction processing research and development, we present EasyInstruct, an easy-to-use instruction processing framework for LLMs, which modularizes instruction generation, selection, and prompting, while also considering their combination and interaction. EasyInstruct is publicly released and actively maintained at https://github.com/zjunlp/EasyInstruct, along with an online demo app and a demo video for quick-start, calling for broader research centered on instruction data and synthetic data. | 翻訳日:2024-06-26 02:11:02 公開日:2024-06-24 |
# 正凹深部平衡モデル
Positive concave deep equilibrium models ( http://arxiv.org/abs/2402.04029v2 ) ライセンス: Link先を確認 | Mateusz Gabor, Tomasz Piotrowski, Renato L. G. Cavalcante, | (参考訳) Deep equilibrium(DEQ)モデルは、標準ニューラルネットワークのメモリ効率の代替として広く認識されており、言語モデリングやコンピュータビジョンタスクにおける最先端のパフォーマンスを実現している。
これらのモデルは、出力を明示的に計算するのではなく、固定点方程式を解く。
しかし、既存のDECモデルは固定点の存在と特異性の正式な保証を欠いていることが多く、固定点の計算に使用される数値スキームの収束は正式には確立されていない。
結果として、DECモデルは実際には不安定である可能性がある。
これらの欠点に対処するために、正凹深度平衡モデル(pcDEQ)と呼ばれる新しいDEQモデルを導入する。
非線形ペロン・フロベニウス理論に基づく我々のアプローチは、正のオーサント上に凹む非負の重みと活性化関数を強制する。
これらの制約を課すことで、凸解析における単調作用素理論に基づくようなDEC文献でよく見られる追加の複雑な仮定に頼ることなく、固定点の存在と一意性を容易に確保できる。
さらに、定点を標準的な定点アルゴリズムで計算し、その幾何収束の理論的保証を与える。
実験は、他の暗黙のモデルに対するpcDEQモデルの競合性を実証する。
Deep equilibrium (DEQ) models are widely recognized as a memory efficient alternative to standard neural networks, achieving state-of-the-art performance in language modeling and computer vision tasks. These models solve a fixed point equation instead of explicitly computing the output, which sets them apart from standard neural networks. However, existing DEQ models often lack formal guarantees of the existence and uniqueness of the fixed point, and the convergence of the numerical scheme used for computing the fixed point is not formally established. As a result, DEQ models are potentially unstable in practice. To address these drawbacks, we introduce a novel class of DEQ models called positive concave deep equilibrium (pcDEQ) models. Our approach, which is based on nonlinear Perron-Frobenius theory, enforces nonnegative weights and activation functions that are concave on the positive orthant. By imposing these constraints, we can easily ensure the existence and uniqueness of the fixed point without relying on additional complex assumptions commonly found in the DEQ literature, such as those based on monotone operator theory in convex analysis. Furthermore, the fixed point can be computed with the standard fixed point algorithm, and we provide theoretical guarantees of its geometric convergence, which, in particular, simplifies the training process. Experiments demonstrate the competitiveness of our pcDEQ models against other implicit models. | 翻訳日:2024-06-26 02:11:02 公開日:2024-06-24 |
# 拡散誘導型音源データ生成による音源自由領域適応
Source-Free Domain Adaptation with Diffusion-Guided Source Data Generation ( http://arxiv.org/abs/2402.04929v2 ) ライセンス: Link先を確認 | Shivang Chopra, Suraj Kothawade, Houda Aynaou, Aman Chadha, | (参考訳) 本稿では、ソースフリードメイン適応(DM-SFDA)のための拡散モデルの一般化可能性を活用するための新しいアプローチを提案する。
提案したDMSFDA法では,予め訓練したテキスト・画像拡散モデルを微調整し,対象画像の特徴を用いてソース領域画像を生成し,拡散過程を導出する。
具体的には、事前学習した拡散モデルを微調整し、エントロピーを最小化し、事前学習したソースモデルの信頼性を最大化するソースサンプルを生成する。
次に、拡散モデルに基づく画像混合戦略を用いて、ソースとターゲットドメイン間の領域ギャップを埋める。
私たちは、Office-31[39]、Office-Home [48]、VisDA [35]など、さまざまなデータセットにわたる包括的な実験を通じて、このアプローチを検証する。
その結果、SFDAの性能は著しく改善され、コンテキストに関連のあるドメイン固有の画像を生成する際の拡散モデルの可能性が浮き彫りになった。
This paper introduces a novel approach to leverage the generalizability of Diffusion Models for Source-Free Domain Adaptation (DM-SFDA). Our proposed DMSFDA method involves fine-tuning a pre-trained text-to-image diffusion model to generate source domain images using features from the target images to guide the diffusion process. Specifically, the pre-trained diffusion model is fine-tuned to generate source samples that minimize entropy and maximize confidence for the pre-trained source model. We then use a diffusion model-based image mixup strategy to bridge the domain gap between the source and target domains. We validate our approach through comprehensive experiments across a range of datasets, including Office-31 [39], Office-Home [48], and VisDA [35]. The results demonstrate significant improvements in SFDA performance, highlighting the potential of diffusion models in generating contextually relevant, domain-specific images. | 翻訳日:2024-06-26 02:11:02 公開日:2024-06-24 |
# 脱落したガウス混合専門家のパラメータ推定について
On Parameter Estimation in Deviated Gaussian Mixture of Experts ( http://arxiv.org/abs/2402.05220v2 ) ライセンス: Link先を確認 | Huy Nguyen, Khai Nguyen, Nhat Ho, | (参考訳) 1 - \lambda^{\ast}) g_0(Y| X)+ \lambda^{\ast} \sum_{i = 1}^{k_{\ast}} p_{i}^{\ast} f(Y|(a_{i}^{\ast})^{\top}X+b_i^{\ast},\sigma_{i}^{\ast})$, $X, Y$はそれぞれ共変量ベクトルと応答変数である場合、$g_{0}(Y|X)$は既知の関数であり、$\lambda^{\ast} \in [0, 1]$は真だが未知の混合であり、$(p_{i}^{\ast}, a_{i}^{\ast}, b_{i}^{\ast})$は未知の混合である。
この問題は、データが$g_{0}(Y|X)$(null仮説)から生成されるか、あるいはそれらが混合全体(代替仮説)から生成されるかを検証したいときに、好適なテストから生じる。
エキスパート関数の代数的構造と$g_0$と混合部分との区別性に基づいて、我々はモデルに対する最大推定値(MLE)の収束率を取得するために、新しいボロノイ型損失関数を構築した。
さらに,提案した損失関数は,一般のワッサーシュタインよりも高精度にパラメータ推定の局所収束率を特徴付けることを示した。
We consider the parameter estimation problem in the deviated Gaussian mixture of experts in which the data are generated from $(1 - \lambda^{\ast}) g_0(Y| X)+ \lambda^{\ast} \sum_{i = 1}^{k_{\ast}} p_{i}^{\ast} f(Y|(a_{i}^{\ast})^{\top}X+b_i^{\ast},\sigma_{i}^{\ast})$, where $X, Y$ are respectively a covariate vector and a response variable, $g_{0}(Y|X)$ is a known function, $\lambda^{\ast} \in [0, 1]$ is true but unknown mixing proportion, and $(p_{i}^{\ast}, a_{i}^{\ast}, b_{i}^{\ast}, \sigma_{i}^{\ast})$ for $1 \leq i \leq k^{\ast}$ are unknown parameters of the Gaussian mixture of experts. This problem arises from the goodness-of-fit test when we would like to test whether the data are generated from $g_{0}(Y|X)$ (null hypothesis) or they are generated from the whole mixture (alternative hypothesis). Based on the algebraic structure of the expert functions and the distinguishability between $g_0$ and the mixture part, we construct novel Voronoi-based loss functions to capture the convergence rates of maximum likelihood estimation (MLE) for our models. We further demonstrate that our proposed loss functions characterize the local convergence rates of parameter estimation more accurately than the generalized Wasserstein, a loss function being commonly used for estimating parameters in the Gaussian mixture of experts. | 翻訳日:2024-06-26 02:01:18 公開日:2024-06-24 |
# アライメントとしての特徴学習--非線形ニューラルネットワークにおける勾配降下の構造特性
Feature learning as alignment: a structural property of gradient descent in non-linear neural networks ( http://arxiv.org/abs/2402.05271v3 ) ライセンス: Link先を確認 | Daniel Beaglehole, Ioannis Mitliagkas, Atish Agarwala, | (参考訳) ニューラルネットワークが特徴学習を通じて入力-ラベルペアから統計を抽出するメカニズムを理解することは、教師あり学習において最も重要な未解決問題の1つである。
以前の研究では、重みのグラム行列(神経特徴行列、NFM)と平均勾配外積(AGOP)がトレーニング中に相関することを示した。
NFAを通じて、著者らは神経機能学習の一般的なメカニズムとしてAGOPとのマッピングを紹介した。
しかし、これらの研究は、この相関関係やその起源に関する理論的説明を与えていない。
本研究では,この相関の性質をさらに明らかにし,その出現を説明する。
この相関関係は, 重み行列の左特異構造と各層における新たに定義された事前活性化接点特徴との整合性に等価であることを示す。
さらに,SGDにより誘導される重み変化と事前活性化特徴との相互作用によって,アライメントが駆動されることを確認し,入力やラベルの単純な統計量の観点から,早期に解析的に結果のダイナミクスを分析する。
最後に、NFAが中心となる相関によって駆動されるという観察に動機付けられ、任意の層におけるNFA相関を劇的に増加させ、学習した特徴の質を向上させるための単純な最適化ルールを導入する。
Understanding the mechanisms through which neural networks extract statistics from input-label pairs through feature learning is one of the most important unsolved problems in supervised learning. Prior works demonstrated that the gram matrices of the weights (the neural feature matrices, NFM) and the average gradient outer products (AGOP) become correlated during training, in a statement known as the neural feature ansatz (NFA). Through the NFA, the authors introduce mapping with the AGOP as a general mechanism for neural feature learning. However, these works do not provide a theoretical explanation for this correlation or its origins. In this work, we further clarify the nature of this correlation, and explain its emergence. We show that this correlation is equivalent to alignment between the left singular structure of the weight matrices and the newly defined pre-activation tangent features at each layer. We further establish that the alignment is driven by the interaction of weight changes induced by SGD with the pre-activation features, and analyze the resulting dynamics analytically at early times in terms of simple statistics of the inputs and labels. Finally, motivated by the observation that the NFA is driven by this centered correlation, we introduce a simple optimization rule that dramatically increases the NFA correlations at any given layer and improves the quality of features learned. | 翻訳日:2024-06-26 02:01:18 公開日:2024-06-24 |
# 大規模言語モデルで幻覚と誤認を識別する分別型プログラムによるプロンプト
Prompting with Divide-and-Conquer Program Makes Large Language Models Discerning to Hallucination and Deception ( http://arxiv.org/abs/2402.05359v5 ) ライセンス: Link先を確認 | Yizhou Zhang, Lun Du, Defu Cao, Qiang Fu, Yan Liu, | (参考訳) LLM(Large Language Models)のような基礎的なモデルは、多数のアプリケーションによって大きな関心を集めている。
しかし、算術計算や記事レベルの偽ニュース検出など、反復的なサブタスクや偽装コンテンツを含むタスクを扱う場合、単純な命令プロンプトは不正確な応答に悩まされる。
既存の研究は、Chain-of-ThoughtsやLeast-to-Mostのようなより複雑なプロンプト戦略が、様々な分野でLLMの強力な能力を解き放つことを示している。
近年の研究では、入力シーケンスを複数のサブインプットに分割するだけで、誤情報検出などの特定のタスクにおけるLCMの性能を大幅に向上させることができる。
本稿では,この戦略がどのようなタスクに有利になるのかを,分断・分断促進戦略の有用性を検証し,その課題に対処することを目的とする。
具体的には,DACプロンプトが性能向上に寄与する特定のタスクの特定を支援する。
次に、実験結果が理論解析と一致する2つのケース(大整数算術と実数検証)を提示する。
Foundation models, such as Large language Models (LLMs), have attracted significant amount of interest due to their large number of applications. However, when handling tasks involving repetitive sub-tasks and/or deceptive contents, such as arithmetic calculation and article-level fake news detection, simple instructional prompts suffer from inaccurate responses. Existing works show that more complicated prompting strategies, such as Chain-of-Thoughts and Least-to-Most, can unlock LLM's powerful capacity in diverse areas. Recent researches reveal that simple divide-and-conquer prompting strategy, i.e. simply dividing the input sequence to multiple sub-inputs, can also substantially improve LLM's performance in some specific tasks such as misinformation detection. In this paper, we aim at examining the utility of divide-and-conquer prompting strategy and answer on which kind of tasks this strategy gets advantages. Specifically, we provide a theoretic analysis to divide-and-conquer prompting strategy and help us identify the specific tasks where DaC prompting can bring performance boost with theoretic guarantee. We then present two cases (large integer arithmetic and fact verification) where experimental results aligns with our theoretic analysis. | 翻訳日:2024-06-26 02:01:18 公開日:2024-06-24 |
# P-Mamba : 心エコー心エコー法による心室分離術におけるP-MambaとP-Mambaの併用
P-Mamba: Marrying Perona Malik Diffusion with Mamba for Efficient Pediatric Echocardiographic Left Ventricular Segmentation ( http://arxiv.org/abs/2402.08506v3 ) ライセンス: Link先を確認 | Zi Ye, Tianxiang Chen, Fangyijie Wang, Hanwei Zhang, Lijun Zhang, | (参考訳) 小児心疾患では,緊急介入が必要かどうかを判断できるため,心エコー法による心機能の正確かつ即時評価が重要である。
しかし、心エコー検査は曖昧さと背景雑音の干渉が特徴であり、正確なセグメンテーションが困難である。
現在の手法では効率性が欠如しており、ノイズ障害により左室領域などの背景ノイズ領域を誤って分割する傾向にある。
これらの課題に対処するため,小児心エコー図左室分画の効率化を目的としたMixture of Experts(MoE)の概念を取り入れたP-Mambaを導入する。
具体的には、視覚マンバから最近提案されたViMレイヤを用いて、グローバル依存をモデル化しながらモデル計算とメモリ効率を向上させる。DWTベースのPerona-Malik Diffusion (PMD) Blockでは、左室の局所的な形状を保ちながらノイズ抑制のためのPMDブロックを考案する。
その結果,提案するP-Mambaは,PMDのノイズ抑圧と局所特徴抽出機能と,グローバル依存性モデリングのためのMambaの効率的な設計を革新的に組み合わせている。
本研究では,2つの小児超音波データセットと一般超音波データセット,すなわちEchonet-dynamicのセグメンテーション実験を行い,SOTA(State-of-the-art)の結果を得た。
P-Mambaブロックの強みを生かして、2次および線形計算複雑性を持つ視覚変換器を含む、確立されたモデルと比較して精度と効率が優れていることを示す。
In pediatric cardiology, the accurate and immediate assessment of cardiac function through echocardiography is crucial since it can determine whether urgent intervention is required in many emergencies. However, echocardiography is characterized by ambiguity and heavy background noise interference, causing more difficulty in accurate segmentation. Present methods lack efficiency and are prone to mistakenly segmenting some background noise areas, such as the left ventricular area, due to noise disturbance. To address these issues, we introduce P-Mamba, which integrates the Mixture of Experts (MoE) concept for efficient pediatric echocardiographic left ventricular segmentation. Specifically, we utilize the recently proposed ViM layers from the vision mamba to enhance our model's computational and memory efficiency while modeling global dependencies.In the DWT-based Perona-Malik Diffusion (PMD) Block, we devise a PMD Block for noise suppression while preserving the left ventricle's local shape cues. Consequently, our proposed P-Mamba innovatively combines the PMD's noise suppression and local feature extraction capabilities with Mamba's efficient design for global dependency modeling. We conducted segmentation experiments on two pediatric ultrasound datasets and a general ultrasound dataset, namely Echonet-dynamic, and achieved state-of-the-art (SOTA) results. Leveraging the strengths of the P-Mamba block, our model demonstrates superior accuracy and efficiency compared to established models, including vision transformers with quadratic and linear computational complexity. | 翻訳日:2024-06-26 02:01:18 公開日:2024-06-24 |
# 誰が最初にプレイするか? 多くのロボットによるStackelbergゲームにおけるプレイ順序の最適化
Who Plays First? Optimizing the Order of Play in Stackelberg Games with Many Robots ( http://arxiv.org/abs/2402.09246v3 ) ライセンス: Link先を確認 | Haimin Hu, Gabriele Dragotto, Zixu Zhang, Kaiqu Liang, Bartolomeo Stellato, Jaime F. Fisac, | (参考訳) 我々は, N-player Stackelberg 軌道ゲームにおいて, エージェントが決定にコミットする順序や, 関連する平衡といった, 社会的に最適なプレイ順序を演算する多エージェント空間ナビゲーション問題を考える。
我々は、この問題を、プレイの順列に付随する全ての可能なStackelbergゲーム空間上の混合整数最適化問題としてモデル化する。
この問題を解決するために、社会的に最適な遊び順序とスタックルバーグ均衡に確実に収束する効率的かつ正確なアルゴリズムであるブランチ・アンド・プレイ(B&P)を導入する。
B&Pのサブルーチンとして、我々はシーケンシャルな軌道計画、すなわち一般的なマルチエージェント制御アプローチを採用し、任意のプレイの順序に対して有効な局所スタックルバーグ平衡を計算する。
本稿では,B&Pによる航空交通管制,群れ形成,輸送車両の配車における実用性を実証する。
我々は、B&Pが様々なベースラインを一貫して上回り、社会的に最適な均衡を計算することを発見した。
We consider the multi-agent spatial navigation problem of computing the socially optimal order of play, i.e., the sequence in which the agents commit to their decisions, and its associated equilibrium in an N-player Stackelberg trajectory game. We model this problem as a mixed-integer optimization problem over the space of all possible Stackelberg games associated with the order of play's permutations. To solve the problem, we introduce Branch and Play (B&P), an efficient and exact algorithm that provably converges to a socially optimal order of play and its Stackelberg equilibrium. As a subroutine for B&P, we employ and extend sequential trajectory planning, i.e., a popular multi-agent control approach, to scalably compute valid local Stackelberg equilibria for any given order of play. We demonstrate the practical utility of B&P to coordinate air traffic control, swarm formation, and delivery vehicle fleets. We find that B&P consistently outperforms various baselines, and computes the socially optimal equilibrium. | 翻訳日:2024-06-26 02:01:18 公開日:2024-06-24 |
# EFUF:マルチモーダル大言語モデルにおける幻覚の軽減に有効なきめ細かい学習フレームワーク
EFUF: Efficient Fine-grained Unlearning Framework for Mitigating Hallucinations in Multimodal Large Language Models ( http://arxiv.org/abs/2402.09801v2 ) ライセンス: Link先を確認 | Shangyu Xing, Fei Zhao, Zhen Wu, Tuo An, Weihao Chen, Chunhui Li, Jianbing Zhang, Xinyu Dai, | (参考訳) MLLM(Multimodal large language model)は近年注目されているが、それに対応する画像に存在しないオブジェクトを含む記述を生成することもある。
幻覚をなくすために、既存の方法では幻覚のない対の応答を手動で注釈付けし、様々なアライメントアルゴリズムを用いて画像とテキストのアライメント機能を改善する。
しかし、それらは微調整の段階でかなりの計算資源を必要とするだけでなく、アライメントアルゴリズムが必要とするペアデータを構築するのに高価な人的アノテーションも必要である。
これらの問題に対処するため、我々はアンラーニングの概念を借用し、ペア化されたデータを必要としない幻覚を排除できる効率的な微細なアンラーニングフレームワーク(EFUF)を提案する。
大規模な実験により, 計算オーバーヘッドの少ない生成品質を維持しながら, 幻覚を連続的に低減できることがわかった。
コードとデータセットは公開されます。
Multimodal large language models (MLLMs) have attracted increasing attention in the past few years, but they may still generate descriptions that include objects not present in the corresponding images, a phenomenon known as object hallucination. To eliminate hallucinations, existing methods manually annotate paired responses with and without hallucinations, and then employ various alignment algorithms to improve the alignment capability between images and text. However, they not only demand considerable computation resources during the finetuning stage but also require expensive human annotation to construct paired data needed by the alignment algorithms. To address these issues, we borrow the idea of unlearning and propose an efficient fine-grained unlearning framework (EFUF), which can eliminate hallucinations without the need for paired data. Extensive experiments show that our method consistently reduces hallucinations while preserving the generation quality with modest computational overhead. Our code and datasets will be publicly available. | 翻訳日:2024-06-26 02:01:18 公開日:2024-06-24 |
# ZeroG: グラフにおけるデータセット間のゼロショット転送可能性の調査
ZeroG: Investigating Cross-dataset Zero-shot Transferability in Graphs ( http://arxiv.org/abs/2402.11235v2 ) ライセンス: Link先を確認 | Yuhan Li, Peisong Wang, Zhixun Li, Jeffrey Xu Yu, Jia Li, | (参考訳) 大規模言語モデルのような基礎モデルの開発に伴い、ゼロショット転送学習はますます重要になっている。
これは、GPT-4のようなNLPモデルの生成能力と、CLIPのようなCVモデルの検索ベースのアプローチによって強調される。
グラフ学習の領域では、新しいグラフの継続的な出現と人間のラベル付けの課題は、ゼロショット転送学習の必要性を増幅し、データセット固有の微調整やラベル固有の微調整を必要とせずに、多様なグラフデータにまたがる一般化可能なアプローチの探索を促進する。
本研究では,このようなパラダイムを,クロスデータセットの一般化を実現するための新たなフレームワークであるZeroGを導入することにより,グラフのゼロショット転送可能性に拡張する。
特徴のミスアライメント、ラベル空間のミスマッチ、負の移動といった固有の課題に対処するため、我々は言語モデルを利用してノード属性とクラスセマンティクスの両方を符号化し、データセット間で一貫した特徴次元を確保する。
また,プロンプトノードと近傍アグリゲーションを用いて抽出したサブグラフの意味情報と構造情報を強化するプロンプトベースのサブグラフサンプリングモジュールを提案する。
さらに、オーバーフィットのリスクを低減し、言語モデルのゼロショット学習効果を維持する軽量な微調整戦略を採用する。
この結果から,グラフ基盤モデル構築のためのオープニングパスとして,クロスデータセットのゼロショット転送可能性を実現する上で,我々のモデルの有効性を裏付けるものである。
コードとデータはhttps://github.com/NineAbyss/ZeroG.comで公開されている。
With the development of foundation models such as large language models, zero-shot transfer learning has become increasingly significant. This is highlighted by the generative capabilities of NLP models like GPT-4, and the retrieval-based approaches of CV models like CLIP, both of which effectively bridge the gap between seen and unseen data. In the realm of graph learning, the continuous emergence of new graphs and the challenges of human labeling also amplify the necessity for zero-shot transfer learning, driving the exploration of approaches that can generalize across diverse graph data without necessitating dataset-specific and label-specific fine-tuning. In this study, we extend such paradigms to zero-shot transferability in graphs by introducing ZeroG, a new framework tailored to enable cross-dataset generalization. Addressing the inherent challenges such as feature misalignment, mismatched label spaces, and negative transfer, we leverage a language model to encode both node attributes and class semantics, ensuring consistent feature dimensions across datasets. We also propose a prompt-based subgraph sampling module that enriches the semantic information and structure information of extracted subgraphs using prompting nodes and neighborhood aggregation, respectively. We further adopt a lightweight fine-tuning strategy that reduces the risk of overfitting and maintains the zero-shot learning efficacy of the language model. The results underscore the effectiveness of our model in achieving significant cross-dataset zero-shot transferability, opening pathways for the development of graph foundation models. Codes and data are available at https://github.com/NineAbyss/ZeroG. | 翻訳日:2024-06-26 02:01:18 公開日:2024-06-24 |
# C-ICL:情報抽出のためのコントラスト型インコンテキスト学習
C-ICL: Contrastive In-context Learning for Information Extraction ( http://arxiv.org/abs/2402.11254v2 ) ライセンス: Link先を確認 | Ying Mo, Jiahao Liu, Jian Yang, Qifan Wang, Shun Zhang, Jingang Wang, Zhoujun Li, | (参考訳) 情報抽出(IE)分野における先進的な大規模言語モデル(LLM)の能力、特に名前付きエンティティ認識(NER)と関係抽出(RE)に関連するタスクの探索への関心が高まっている。
研究者らは、LLMを用いた文脈内学習による少数ショット情報抽出の活用を検討中だが、学習プロセスに誤りや否定的な例を組み込むことの潜在的な価値を無視して、デモのために正しい例または肯定的な例を使用することにのみ焦点をあてる傾向にある。
本稿では, 正しいサンプル構成と不正確なサンプル構成を併用して, 文脈内学習のデモを作成する, 新規な複数ショット技術であるc-ICLを提案する。
このアプローチは、正のサンプルだけでなく、それらの背後にある理由も取り入れたプロンプトを利用することで、LCMが実体や関係を抽出する能力を高める。
この方法は、潜在的なインターフェースエラーの識別と修正を可能にする。
特に,本提案手法では,強陰性サンプルのコンテキスト情報と有意な情報と,テストに最も近い正の近傍をタップし,LLMに基づく文脈内学習デモを適用した。
各種データセットに対する実験により、c-ICLは従来の数発のコンテキスト内学習法より優れており、関連するタスクの幅広い範囲で性能が大幅に向上していることが示された。
これらの改善は注目に値するもので、さまざまなシナリオにおける我々のアプローチの汎用性を示している。
There has been increasing interest in exploring the capabilities of advanced large language models (LLMs) in the field of information extraction (IE), specifically focusing on tasks related to named entity recognition (NER) and relation extraction (RE). Although researchers are exploring the use of few-shot information extraction through in-context learning with LLMs, they tend to focus only on using correct or positive examples for demonstration, neglecting the potential value of incorporating incorrect or negative examples into the learning process. In this paper, we present c-ICL, a novel few-shot technique that leverages both correct and incorrect sample constructions to create in-context learning demonstrations. This approach enhances the ability of LLMs to extract entities and relations by utilizing prompts that incorporate not only the positive samples but also the reasoning behind them. This method allows for the identification and correction of potential interface errors. Specifically, our proposed method taps into the inherent contextual information and valuable information in hard negative samples and the nearest positive neighbors to the test and then applies the in-context learning demonstrations based on LLMs. Our experiments on various datasets indicate that c-ICL outperforms previous few-shot in-context learning methods, delivering substantial enhancements in performance across a broad spectrum of related tasks. These improvements are noteworthy, showcasing the versatility of our approach in miscellaneous scenarios. | 翻訳日:2024-06-26 01:51:30 公開日:2024-06-24 |
# 自己消費生成モデルの理論的理解に向けて
Towards Theoretical Understandings of Self-Consuming Generative Models ( http://arxiv.org/abs/2402.11778v2 ) ライセンス: Link先を確認 | Shi Fu, Sen Zhang, Yingjie Wang, Xinmei Tian, Dacheng Tao, | (参考訳) 本稿では, 自己消費ループ内で生成モデルを訓練することの課題に対処し, 過去の世代から得られた実データと合成データの混合に基づいて, 逐次的にモデルを訓練する手法を提案する。
本研究では,このトレーニング手法が,パラメトリックモデルや非パラメトリックモデルを含む将来のモデルで学習したデータ分布にどのように影響するかを厳格に評価するための理論的枠組みを構築した。
具体的には,1階層のニューラルネットワークスコア関数を持つ拡散モデルに対する様々な混合学習シナリオの下で,将来のモデルによって生成された合成データ分布と元の実データ分布との総変動(TV)距離を導出する。
分析の結果,混合学習データセットのサイズや実データの比率が十分に大きいという条件下で,この距離を効果的に制御できることが示唆された。
興味深いことに、我々は合成データ量の拡大によって誘導される相転移をさらに明らかにし、TV距離が初期上昇を示す一方で、しきい値を超えていることを理論的に証明した。
最後に、カーネル密度推定の結果を示し、混合データトレーニングがエラーの伝播に与える影響など、微妙な洞察を提供する。
This paper tackles the emerging challenge of training generative models within a self-consuming loop, wherein successive generations of models are recursively trained on mixtures of real and synthetic data from previous generations. We construct a theoretical framework to rigorously evaluate how this training procedure impacts the data distributions learned by future models, including parametric and non-parametric models. Specifically, we derive bounds on the total variation (TV) distance between the synthetic data distributions produced by future models and the original real data distribution under various mixed training scenarios for diffusion models with a one-hidden-layer neural network score function. Our analysis demonstrates that this distance can be effectively controlled under the condition that mixed training dataset sizes or proportions of real data are large enough. Interestingly, we further unveil a phase transition induced by expanding synthetic data amounts, proving theoretically that while the TV distance exhibits an initial ascent, it declines beyond a threshold point. Finally, we present results for kernel density estimation, delivering nuanced insights such as the impact of mixed data training on error propagation. | 翻訳日:2024-06-26 01:51:30 公開日:2024-06-24 |
# UniST: 都市時空間予測のためのプロンプト型ユニバーサルモデル
UniST: A Prompt-Empowered Universal Model for Urban Spatio-Temporal Prediction ( http://arxiv.org/abs/2402.11838v4 ) ライセンス: Link先を確認 | Yuan Yuan, Jingtao Ding, Jie Feng, Depeng Jin, Yong Li, | (参考訳) 都市空間の時空間予測は交通管理,資源最適化,出現応答といった情報的意思決定に不可欠である。
1つのモデルで多様なタスクを扱えるような事前訓練された自然言語モデルの驚くべきブレークスルーにもかかわらず、時空間予測のための普遍的なソリューションは依然として困難であり、既存の予測アプローチは、通常特定の時空間シナリオに合わせて調整され、タスク固有のモデル設計と広範囲なドメイン固有のトレーニングデータを必要とする。
本研究では,広範にわたる都市空間の時空間予測のためのユニバーサルモデルUniSTを紹介する。
大規模な言語モデルにインスパイアされたUniSTは、以下の通り成功している。
(i)異なるシナリオから多様な時空間データを利用する。
(II)複雑な時空間力学を捉えるための効果的な事前学習
(三)知識誘導プロンプトは、一般化能力を高める。
これらの設計は、様々なシナリオのための普遍的なモデルを構築する可能性を開放し、20以上の時空間シナリオに関する大規模な実験により、UniSTが最先端のパフォーマンス、特にショット数やゼロショットの予測に有効であることを証明している。
データセットとコードの実装はhttps://github.com/tsinghua-fib-lab/UniSTで公開されている。
Urban spatio-temporal prediction is crucial for informed decision-making, such as traffic management, resource optimization, and emergence response. Despite remarkable breakthroughs in pretrained natural language models that enable one model to handle diverse tasks, a universal solution for spatio-temporal prediction remains challenging Existing prediction approaches are typically tailored for specific spatio-temporal scenarios, requiring task-specific model designs and extensive domain-specific training data. In this study, we introduce UniST, a universal model designed for general urban spatio-temporal prediction across a wide range of scenarios. Inspired by large language models, UniST achieves success through: (i) utilizing diverse spatio-temporal data from different scenarios, (ii) effective pre-training to capture complex spatio-temporal dynamics, (iii) knowledge-guided prompts to enhance generalization capabilities. These designs together unlock the potential of building a universal model for various scenarios Extensive experiments on more than 20 spatio-temporal scenarios demonstrate UniST's efficacy in advancing state-of-the-art performance, especially in few-shot and zero-shot prediction. The datasets and code implementation are released on https://github.com/tsinghua-fib-lab/UniST. | 翻訳日:2024-06-26 01:51:30 公開日:2024-06-24 |
# PromptKD: Prompt Tuningによる生成言語モデルのための学生フレンドリーな知識の蒸留
PromptKD: Distilling Student-Friendly Knowledge for Generative Language Models via Prompt Tuning ( http://arxiv.org/abs/2402.12842v2 ) ライセンス: Link先を確認 | Gyeongman Kim, Doohyuk Jang, Eunho Yang, | (参考訳) 大規模言語モデル(LLM)の最近の進歩により、推論コストに対する懸念が高まり、モデル圧縮の研究の必要性が高まっている。
知識蒸留(KD)は重要な手法であるが、LLMのような生成言語モデルにおけるKDの研究は比較的疎いものであり、分類モデルにおけるKDの有望な性能を示す学生フレンドリな知識の蒸留のアプローチは、生成言語モデルでは未探索のままである。
提案手法は, 学生に親しみやすい知識を伝達するための生成言語モデルを実現するために, 即時チューニング(KD)を初めて利用する, シンプルで効果的な方法である。
学生に親しみやすい知識を抽出するために教師モデル全体を微調整する必要がある以前の分類法とは異なり、PromptKDは少数のプロンプトトークンを追加し、学生指導でプロンプトのみをチューニングすることで同様の効果を達成している。
PromptKDは、教師のパラメータの0.0007%をプロンプトとして追加しながら、最先端のパフォーマンスを達成する。
さらに分析したところ、学生に親しみやすい知識を蒸留することで、トレーニングプロセス全体を通して効果的に露光バイアスが軽減され、パフォーマンスが向上することが示唆された。
Recent advancements in large language models (LLMs) have raised concerns about inference costs, increasing the need for research into model compression. While knowledge distillation (KD) is a prominent method for this, research on KD for generative language models like LLMs is relatively sparse, and the approach of distilling student-friendly knowledge, which has shown promising performance in KD for classification models, remains unexplored in generative language models. To explore this approach, we propose PromptKD, a simple yet effective method that utilizes prompt tuning - for the first time in KD - to enable generative language models to transfer student-friendly knowledge. Unlike previous works in classification that require fine-tuning the entire teacher model for extracting student-friendly knowledge, PromptKD achieves similar effects by adding a small number of prompt tokens and tuning only the prompt with student guidance. Extensive experiments on instruction-following datasets show that PromptKD achieves state-of-the-art performance while adding only 0.0007% of the teacher's parameters as prompts. Further analysis suggests that distilling student-friendly knowledge alleviates exposure bias effectively throughout the entire training process, leading to performance enhancements. | 翻訳日:2024-06-26 01:51:30 公開日:2024-06-24 |
# 公正なテキスト埋め込みのためのLCM支援コンテンツ条件劣化
LLM-Assisted Content Conditional Debiasing for Fair Text Embedding ( http://arxiv.org/abs/2402.14208v3 ) ライセンス: Link先を確認 | Wenlong Deng, Blair Chen, Beidi Zhao, Chiyu Zhang, Xiaoxiao Li, Christos Thrampoulidis, | (参考訳) 機械学習モデルにおけるバイアスの緩和は、自然言語処理(NLP)において、特に公正なテキスト埋め込みの開発において懸念が高まっている。
そこで本研究では,公正なテキスト埋め込みを学習するための新しい手法を提案する。
まず,テキスト埋め込みにおけるコンテンツ条件等距離(CCED)フェアネスを定義し,センシティブ属性とテキスト埋め込みの間のコンテンツ条件独立性を保証する。
CCED上に構築したCCD(Content- Conditional Debiasing)損失は,異なる機密属性を持つテキストの埋め込みが,対応する中性テキストの埋め込みから同じ距離を保っていることを保証する。
さらに,Large Language Models (LLMs) を用いてテキストを多種多様なセンシティブなグループに拡張する手法により,不十分なトレーニングデータに対処する。
提案手法は, 組込み性を維持しつつ, 公平性を効果的に向上することを示す。
さらに、我々の拡張データセットはCCEDメトリックと組み合わせて、公正性を評価するための新しいベンチマークとして役立ちます。
Mitigating biases in machine learning models has become an increasing concern in Natural Language Processing (NLP), particularly in developing fair text embeddings, which are crucial yet challenging for real-world applications like search engines. In response, this paper proposes a novel method for learning fair text embeddings. First, we define a novel content-conditional equal distance (CCED) fairness for text embeddings, ensuring content-conditional independence between sensitive attributes and text embeddings. Building on CCED, we introduce a content-conditional debiasing (CCD) loss to ensure that embeddings of texts with different sensitive attributes but identical content maintain the same distance from the embedding of their corresponding neutral text. Additionally, we tackle the issue of insufficient training data by using Large Language Models (LLMs) with instructions to fairly augment texts into different sensitive groups. Our extensive evaluations show that our approach effectively enhances fairness while maintaining the utility of embeddings. Furthermore, our augmented dataset, combined with the CCED metric, serves as an new benchmark for evaluating fairness. | 翻訳日:2024-06-26 01:51:30 公開日:2024-06-24 |
# Mirror: 知識豊富な推論のための多視点自己回帰法
Mirror: A Multiple-perspective Self-Reflection Method for Knowledge-rich Reasoning ( http://arxiv.org/abs/2402.14963v2 ) ライセンス: Link先を確認 | Hanqi Yan, Qinglin Zhu, Xinyu Wang, Lin Gui, Yulan He, | (参考訳) 大規模言語モデル(LLM)は,自らの出力を反復的に反映する能力を持っているが,近年の研究では,外部リソースにアクセスすることなく,知識に富んだ問題との戦いが観察されている。
自己評価におけるLLMの非効率性に加えて,LLMは負のフィードバックを受けながら予測の再検討に苦慮していることも観察した。
そこで本稿では,知識豊富な推論のための多視点自己回帰手法であるMirrorを提案する。
Mirrorは、ナビゲータとReasonerの間のヒューリスティックな相互作用によって達成された、複数のパースペクティブな手がかりからLLMを反映することを可能にする。
エージェントは(1)ナビゲータが生み出す方向の多様性と(2)リーソナーが生み出す反応における戦略的に誘発される摂動の合意を奨励することにより、地上の真実にアクセスすることなく多様で信頼性の高い推論軌道へ誘導する。
5つの推論データセットに関する実験は、ミラーが複数の現代の自己回帰アプローチよりも優れていることを示した。
さらに、アブレーション研究は、我々の戦略が上記の課題を緩和することを明確に示している。
While Large language models (LLMs) have the capability to iteratively reflect on their own outputs, recent studies have observed their struggles with knowledge-rich problems without access to external resources. In addition to the inefficiency of LLMs in self-assessment, we also observe that LLMs struggle to revisit their predictions despite receiving explicit negative feedback. Therefore, We propose Mirror, a Multiple-perspective self-reflection method for knowledge-rich reasoning, to avoid getting stuck at a particular reflection iteration. Mirror enables LLMs to reflect from multiple-perspective clues, achieved through a heuristic interaction between a Navigator and a Reasoner. It guides agents toward diverse yet plausibly reliable reasoning trajectory without access to ground truth by encouraging (1) diversity of directions generated by Navigator and (2) agreement among strategically induced perturbations in responses generated by the Reasoner. The experiments on five reasoning datasets demonstrate that Mirror's superiority over several contemporary self-reflection approaches. Additionally, the ablation study studies clearly indicate that our strategies alleviate the aforementioned challenges. | 翻訳日:2024-06-26 01:51:30 公開日:2024-06-24 |
# トランスフォーマーがAdamを必要とする理由:ヘッセンの視点
Why Transformers Need Adam: A Hessian Perspective ( http://arxiv.org/abs/2402.16788v3 ) ライセンス: Link先を確認 | Yushun Zhang, Congliang Chen, Tian Ding, Ziniu Li, Ruoyu Sun, Zhi-Quan Luo, | (参考訳) SGDはトランスフォーマーのかなりの差でAdamよりもパフォーマンスが悪いが、その理由は不明だ。
本稿ではヘッセンのレンズを通して説明する。
(i)変圧器は「異質性」であり、パラメータブロックのヘッセンスペクトルは「異質性ブロック」と呼ばれる現象によって劇的に変化する。
(II)不均一ハマーSGD:SGDはブロック不均一性の問題でAdamよりも悪化する。
検証
(i)および
(i) 様々なトランスフォーマー, CNN, MLP, 二次問題を確認し, 異種性をブロックせずにSGDがAdamと同等に動作可能であるが, 異種性が存在する場合にはAdamよりも性能が劣ることがわかった。
我々の最初の理論的分析は、SGDはブロック間の不均一性を扱うことができない、すべてのブロックに1つの学習率を適用するため、より悪い性能を示すことを示している。
この制限は、Adam氏が設計したように、座標学習率を使用すると改善される可能性がある。
SGD performs worse than Adam by a significant margin on Transformers, but the reason remains unclear. In this work, we provide an explanation through the lens of Hessian: (i) Transformers are "heterogeneous": the Hessian spectrum across parameter blocks vary dramatically, a phenomenon we call "block heterogeneity"; (ii) Heterogeneity hampers SGD: SGD performs worse than Adam on problems with block heterogeneity. To validate (i) and (ii), we check various Transformers, CNNs, MLPs, and quadratic problems, and find that SGD can perform on par with Adam on problems without block heterogeneity, but performs worse than Adam when the heterogeneity exists. Our initial theoretical analysis indicates that SGD performs worse because it applies one single learning rate to all blocks, which cannot handle the heterogeneity among blocks. This limitation could be ameliorated if we use coordinate-wise learning rates, as designed in Adam. | 翻訳日:2024-06-26 01:51:30 公開日:2024-06-24 |
# PandoraのWhite-Box:大規模言語モデルにおける精密トレーニングデータの検出と抽出
Pandora's White-Box: Precise Training Data Detection and Extraction in Large Language Models ( http://arxiv.org/abs/2402.17012v3 ) ライセンス: Link先を確認 | Jeffrey G. Wang, Jason Wang, Marvin Li, Seth Neel, | (参考訳) 本稿では,Large Language Models (LLMs) に対する最先端のプライバシ攻撃について述べる。
我々の見出しは、ベースラインアタックの数百倍の精度を持つ事前訓練されたLLMに対する新たなメンバシップ推論アタック(MIA)と、自然条件下で微調整されたLLMから、細調整されたデータセットの50%以上(!)を抽出できることを示すパイプラインである。
基礎となるモデルへの様々なアクセス、事前学習および微調整データ、MIAとトレーニングデータ抽出の両方について検討する。
プレトレーニングデータには,モデル勾配に基づいてトレーニングデータメンバシップを予測する教師付きニューラルネットワーク分類器と,最近のLCMにおけるモデルスティーリング作業を活用することで,モデルへのロジットアクセスのみを必要とするこの攻撃のバリエーションという,2つの新しいMIAを提案する。
私たちの知る限り、これはモデルステアリング情報を明示的に組み込んだ最初のMIAです。
どちらの攻撃も既存のブラックボックスベースラインより優れており、我々の監視された攻撃は、LSMに対するMIA攻撃の成功と、他の機械学習モデルにとって最も強力な攻撃とのギャップを埋める。
微調整では, ベースモデルと微調整モデルとの損失率に基づく単純な攻撃により, ほぼ完全なMIA性能が得られることがわかった。
私たちのコードはgithub.com/safr-ai-lab/pandora-llmで利用可能です。
In this paper we develop state-of-the-art privacy attacks against Large Language Models (LLMs), where an adversary with some access to the model tries to learn something about the underlying training data. Our headline results are new membership inference attacks (MIAs) against pretrained LLMs that perform hundreds of times better than baseline attacks, and a pipeline showing that over 50% (!) of the fine-tuning dataset can be extracted from a fine-tuned LLM in natural settings. We consider varying degrees of access to the underlying model, pretraining and fine-tuning data, and both MIAs and training data extraction. For pretraining data, we propose two new MIAs: a supervised neural network classifier that predicts training data membership on the basis of (dimensionality-reduced) model gradients, as well as a variant of this attack that only requires logit access to the model by leveraging recent model-stealing work on LLMs. To our knowledge this is the first MIA that explicitly incorporates model-stealing information. Both attacks outperform existing black-box baselines, and our supervised attack closes the gap between MIA attack success against LLMs and the strongest known attacks for other machine learning models. In fine-tuning, we find that a simple attack based on the ratio of the loss between the base and fine-tuned models is able to achieve near-perfect MIA performance; we then leverage our MIA to extract a large fraction of the fine-tuning dataset from fine-tuned Pythia and Llama models. Our code is available at github.com/safr-ai-lab/pandora-llm. | 翻訳日:2024-06-26 01:51:30 公開日:2024-06-24 |
# MELoRA:パラメータ効率の良いファインチューニングのためのミニアンサンブル低ランクアダプタ
MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2402.17263v2 ) ライセンス: Link先を確認 | Pengjie Ren, Chengshun Shi, Shiguang Wu, Mengqi Zhang, Zhaochun Ren, Maarten de Rijke, Zhumin Chen, Jiahuan Pei, | (参考訳) パラメータ効率細調整(PEFT)は、特にモデルの規模やタスクの多様性が増大するにつれて、訓練済みの大規模言語モデル(LLM)を調整するための一般的な手法である。
低ランク適応(LoRA)は、適応過程が本質的に低次元である、すなわち重要なモデル変化を比較的少数のパラメータで表すことができるという考えに基づいている。
しかしながら、ランクの低下は、フルパラメータの微調整と比較して、特定のタスクの一般化誤差に直面する。
我々は,低ランクのミニアンサンブルアダプタであるMELoRAを提案し,より高いランクを維持しながらトレーニング可能なパラメータを少なくし,性能を向上する。
コアとなるアイデアは、オリジナルの事前訓練された重量を凍結し、少数のパラメータしか持たないミニLORAのグループを訓練することである。
これにより、ミニLORAの多様性が著しく向上し、より優れた一般化能力がもたらされる。
種々のNLPタスクに関する理論的解析と実証的研究を行う。
実験の結果, MELoRA は LoRA と比較して,自然言語理解タスクの8倍のトレーニングパラメータ,36倍のトレーニングパラメータで性能が向上し,MELoRA の有効性が示された。
Parameter-efficient fine-tuning (PEFT) is a popular method for tailoring pre-trained large language models (LLMs), especially as the models' scale and the diversity of tasks increase. Low-rank adaptation (LoRA) is based on the idea that the adaptation process is intrinsically low-dimensional, i.e., significant model changes can be represented with relatively few parameters. However, decreasing the rank encounters challenges with generalization errors for specific tasks when compared to full-parameter fine-tuning. We present MELoRA, a mini-ensemble low-rank adapters that uses fewer trainable parameters while maintaining a higher rank, thereby offering improved performance potential. The core idea is to freeze original pretrained weights and train a group of mini LoRAs with only a small number of parameters. This can capture a significant degree of diversity among mini LoRAs, thus promoting better generalization ability. We conduct a theoretical analysis and empirical studies on various NLP tasks. Our experimental results show that, compared to LoRA, MELoRA achieves better performance with 8 times fewer trainable parameters on natural language understanding tasks and 36 times fewer trainable parameters on instruction following tasks, which demonstrates the effectiveness of MELoRA. | 翻訳日:2024-06-26 01:41:44 公開日:2024-06-24 |
# 不均一処理効果推定のためのフェデレートラーニング
Federated Learning for Estimating Heterogeneous Treatment Effects ( http://arxiv.org/abs/2402.17705v2 ) ライセンス: Link先を確認 | Disha Makhija, Joydeep Ghosh, Yejin Kim, | (参考訳) ヘテロジニアス処理効果(HTE)を推定する機械学習手法は、医療、政策作成、教育など、さまざまな領域で大規模にパーソナライズされた意思決定を促進する。
HTEの現在の機械学習アプローチでは、処理毎にかなりの量のデータにアクセスする必要がある。
この障害を克服するため,本研究では,フェデレートラーニングを通じて,組織間でのHTE推定者の協調学習のための新しいフレームワークを提案する。
顧客間の介入や対象人口の多様性の下でも、共通の特徴表現を共同で学習すると同時に、機関間で異なる介入の下で結果の特定の予測関数を同時かつプライベートに学習できることが示される。
我々のフレームワークと関連するアルゴリズムは、この知見に基づいており、複数の入力データをマルチタスク学習による結果予測に使用する特徴表現にマッピングするために、表型トランスフォーマーを活用している。
また、不均一な入力特徴空間を扱えるパーソナライズされたトランスフォーマーのフェデレーショントレーニング手法を提案する。
実世界の臨床試験データを用いた実験結果から,本手法の有効性が示された。
Machine learning methods for estimating heterogeneous treatment effects (HTE) facilitate large-scale personalized decision-making across various domains such as healthcare, policy making, education, and more. Current machine learning approaches for HTE require access to substantial amounts of data per treatment, and the high costs associated with interventions makes centrally collecting so much data for each intervention a formidable challenge. To overcome this obstacle, in this work, we propose a novel framework for collaborative learning of HTE estimators across institutions via Federated Learning. We show that even under a diversity of interventions and subject populations across clients, one can jointly learn a common feature representation, while concurrently and privately learning the specific predictive functions for outcomes under distinct interventions across institutions. Our framework and the associated algorithm are based on this insight, and leverage tabular transformers to map multiple input data to feature representations which are then used for outcome prediction via multi-task learning. We also propose a novel way of federated training of personalised transformers that can work with heterogeneous input feature spaces. Experimental results on real-world clinical trial data demonstrate the effectiveness of our method. | 翻訳日:2024-06-26 01:41:44 公開日:2024-06-24 |
# スケーラブルサロゲートモデリングのための多面的残留ニューラルネットワークプロセス
Multi-Fidelity Residual Neural Processes for Scalable Surrogate Modeling ( http://arxiv.org/abs/2402.18846v2 ) ライセンス: Link先を確認 | Ruijia Niu, Dongxia Wu, Kai Kim, Yi-An Ma, Duncan Watson-Parris, Rose Yu, | (参考訳) マルチフィデリティ・サロゲートモデリングは,複数の情報源からのデータを組み合わせることで,最も高いフィデリティレベルで正確なサロゲートを学習することを目的としている。
ガウス過程に依存する従来の手法は、高次元のデータにはほとんどスケールできない。
ディープラーニングアプローチでは、ニューラルネットワークベースのエンコーダとデコーダを使用してスケーラビリティを向上させる。
これらのアプローチは、対応するデコーダパラメータを含めることなく、忠実度間で符号化された表現を共有する。
これにより、特に最も高い忠実度データがドメインカバレッジに制限がある場合、分散外のシナリオでは、推論のパフォーマンスが妨げられます。
これらの制約に対処するため、我々はMFRNP(Multi-fidelity Residual Neural Processs)を提案する。
MFRNPは、低い忠実度からの集約された出力と最も高い忠実度における基底真理の間の残差を明示的にモデル化する。
このアグリゲーションは、情報共有ステップにデコーダを導入し、低いフィデリティデコーダを最適化して、インフィデリティ情報とクロスフィデリティ情報の両方を正確にキャプチャする。
MFRNPは、偏微分方程式の学習や実世界の気候モデリングタスクにおいて、最先端の手法よりも優れていることを示す。
私たちのコードは、https://github.com/Rose-STL-Lab/MFRNPで公開されています。
Multi-fidelity surrogate modeling aims to learn an accurate surrogate at the highest fidelity level by combining data from multiple sources. Traditional methods relying on Gaussian processes can hardly scale to high-dimensional data. Deep learning approaches utilize neural network based encoders and decoders to improve scalability. These approaches share encoded representations across fidelities without including corresponding decoder parameters. This hinders inference performance, especially in out-of-distribution scenarios when the highest fidelity data has limited domain coverage. To address these limitations, we propose Multi-fidelity Residual Neural Processes (MFRNP), a novel multi-fidelity surrogate modeling framework. MFRNP explicitly models the residual between the aggregated output from lower fidelities and ground truth at the highest fidelity. The aggregation introduces decoders into the information sharing step and optimizes lower fidelity decoders to accurately capture both in-fidelity and cross-fidelity information. We show that MFRNP significantly outperforms state-of-the-art in learning partial differential equations and a real-world climate modeling task. Our code is published at: https://github.com/Rose-STL-Lab/MFRNP | 翻訳日:2024-06-26 01:41:44 公開日:2024-06-24 |
# 深層強化学習 : 凸最適化アプローチ
Deep Reinforcement Learning: A Convex Optimization Approach ( http://arxiv.org/abs/2402.19212v6 ) ライセンス: Link先を確認 | Ather Gattami, | (参考訳) 本稿では,連続状態と行動空間を有する非線形システムの強化学習について考察する。
本稿では,各エピソード毎に凸最適化を用いて,最適な$Q$関数の2層ニューラルネットワーク近似を求める。
凸最適化手法は、与えられたサンプル状態と現在のエピソードの動作に関して、各エピソードで計算された重みが最適であることを保証する。
安定な非線形系に対しては、アルゴリズムが収束し、トレーニングされたニューラルネットワークの収束パラメータを最適なニューラルネットワークパラメータに任意に近づけることができることを示す。
特に、トレーニングフェーズにおける正規化パラメータが$\rho$で与えられる場合、トレーニングされたニューラルネットワークのパラメータは$w$に収束し、$w$と最適パラメータ$w^\star$の間の距離は$\mathcal{O}(\rho)$で制限される。
すなわち、エピソードの数が無限に近づくと、[ \|w-w^\star\| \le C\rho となるような一定の$C$が存在する。
特に,正規化パラメータがゼロになるにつれて,アルゴリズムは最適なニューラルネットワークパラメータに任意に収束する。
その結果、凸最適化アルゴリズムの多項式時間収束により、アルゴリズムは高速に収束する。
In this paper, we consider reinforcement learning of nonlinear systems with continuous state and action spaces. We present an episodic learning algorithm, where we for each episode use convex optimization to find a two-layer neural network approximation of the optimal $Q$-function. The convex optimization approach guarantees that the weights calculated at each episode are optimal, with respect to the given sampled states and actions of the current episode. For stable nonlinear systems, we show that the algorithm converges and that the converging parameters of the trained neural network can be made arbitrarily close to the optimal neural network parameters. In particular, if the regularization parameter in the training phase is given by $\rho$, then the parameters of the trained neural network converge to $w$, where the distance between $w$ and the optimal parameters $w^\star$ is bounded by $\mathcal{O}(\rho)$. That is, when the number of episodes goes to infinity, there exists a constant $C$ such that \[ \|w-w^\star\| \le C\rho. \] In particular, our algorithm converges arbitrarily close to the optimal neural network parameters as the regularization parameter goes to zero. As a consequence, our algorithm converges fast due to the polynomial-time convergence of convex optimization algorithms. | 翻訳日:2024-06-26 01:41:44 公開日:2024-06-24 |
# 大規模言語モデルにおける透かしステアリング
Watermark Stealing in Large Language Models ( http://arxiv.org/abs/2402.19361v2 ) ライセンス: Link先を確認 | Nikola Jovanović, Robin Staab, Martin Vechev, | (参考訳) LLMウォーターマーキングは、AI生成コンテンツを検出するための有望な方法として注目されており、現在のスキームがデプロイメントにすでに適合している可能性を示唆する研究もある。
本稿では、これらのスキームの根本的な脆弱性として、透かし盗み(WS)を識別する、この主張に異議を唱える。
透かし付きLLMのAPIをほぼリバースエンジニアリングに問い合わせることで,従来想定されていたような実用的なスプーフィング攻撃が可能となるが,以前は気づかなかったスクラッピング攻撃を大幅に促進することを示す。
私たちは、自動化されたWSアルゴリズムを初めて提案し、それを、現実的な環境でのスプーフィングとスクラブの最初の包括的な研究で使用します。
50ドル未満では、攻撃者は以前安全と考えられていた最先端のスキームを、80%以上の成功率で盗み取ることができる。
LLM透かしに関する一般的な信念に挑戦し、より堅牢なスキームの必要性を強調した。
すべてのコードと追加の例をhttps://watermark-stealing.org.comで公開しています。
LLM watermarking has attracted attention as a promising way to detect AI-generated content, with some works suggesting that current schemes may already be fit for deployment. In this work we dispute this claim, identifying watermark stealing (WS) as a fundamental vulnerability of these schemes. We show that querying the API of the watermarked LLM to approximately reverse-engineer a watermark enables practical spoofing attacks, as hypothesized in prior work, but also greatly boosts scrubbing attacks, which was previously unnoticed. We are the first to propose an automated WS algorithm and use it in the first comprehensive study of spoofing and scrubbing in realistic settings. We show that for under $50 an attacker can both spoof and scrub state-of-the-art schemes previously considered safe, with average success rate of over 80%. Our findings challenge common beliefs about LLM watermarking, stressing the need for more robust schemes. We make all our code and additional examples available at https://watermark-stealing.org. | 翻訳日:2024-06-26 01:41:44 公開日:2024-06-24 |
# TRUCE: 汚染防止のためのプライベートベンチマークとLCMの比較評価の改善
TRUCE: Private Benchmarking to Prevent Contamination and Improve Comparative Evaluation of LLMs ( http://arxiv.org/abs/2403.00393v2 ) ライセンス: Link先を確認 | Tanmay Rajore, Nishanth Chandran, Sunayana Sitaram, Divya Gupta, Rahul Sharma, Kashish Mittal, Manohar Swaminathan, | (参考訳) ベンチマークは LLM を評価するためのデファクト標準であり、その速度、複製性、低コストのためである。
しかし、最近の研究は、現在利用可能なオープンソースベンチマークの大部分がLLMに汚染またはリークされていることを指摘している。
これにより、これまでのベンチマーク研究の有効性と、ベンチマークを用いた評価の将来について、深刻な懸念が持ち上がる。
この問題を解決するために、テストデータセットをプライベートに保持し、モデルにテストデータを公開することなくモデルを評価するソリューションであるPrivate Benchmarkingを提案する。
モデル所有者やデータセット所有者の信頼度に依存する)様々なシナリオを説明し、プライベートベンチマークによるデータの汚染を避けるためのソリューションを提案する。
モデルウェイトをプライベートにしておく必要があるシナリオでは、秘密コンピューティングとプライベートベンチマークに役立つ暗号のソリューションを説明します。
我々は、モデルとベンチマークを保護するために導入されたオーバーヘッドが(機密コンピューティングの場合)無視可能で(暗号セキュリティが必要な場合)トラクタブルであることを示すプライベートベンチマークを可能にする、エンドツーエンドシステムであるTRUCEを構築している。
最後に、ベンチマークデータセット監査の問題に対する解決策について議論し、プライベートベンチマークが十分に高品質であることを保証する。
Benchmarking is the de-facto standard for evaluating LLMs, due to its speed, replicability and low cost. However, recent work has pointed out that the majority of the open source benchmarks available today have been contaminated or leaked into LLMs, meaning that LLMs have access to test data during pretraining and/or fine-tuning. This raises serious concerns about the validity of benchmarking studies conducted so far and the future of evaluation using benchmarks. To solve this problem, we propose Private Benchmarking, a solution where test datasets are kept private and models are evaluated without revealing the test data to the model. We describe various scenarios (depending on the trust placed on model owners or dataset owners), and present solutions to avoid data contamination using private benchmarking. For scenarios where the model weights need to be kept private, we describe solutions from confidential computing and cryptography that can aid in private benchmarking. We build an end-to-end system, TRUCE, that enables such private benchmarking showing that the overheads introduced to protect models and benchmark are negligible (in the case of confidential computing) and tractable (when cryptographic security is required). Finally, we also discuss solutions to the problem of benchmark dataset auditing, to ensure that private benchmarks are of sufficiently high quality. | 翻訳日:2024-06-26 01:41:44 公開日:2024-06-24 |
# シミュレーション基準値を用いたML-UQ校正統計量の検証:感度解析
Validation of ML-UQ calibration statistics using simulated reference values: a sensitivity analysis ( http://arxiv.org/abs/2403.00423v2 ) ライセンス: Link先を確認 | Pascal Pernot, | (参考訳) いくつかの一般的な機械学習不確実量化(ML-UQ)キャリブレーション統計は、予め定義された基準値を持っておらず、主に比較研究で使われている。
その結果、校正はほとんど検証されず、診断は読者の認識に委ねられる。
実際の不確実性から導出される合成校正データセットに基づく模擬参照値は,この問題を緩和するために提案されている。
合成誤差のシミュレーションのための生成確率分布は、しばしば制約されないため、生成分布の選択に対する模擬基準値の感度は問題であり、キャリブレーション診断に疑問を呈する。
本研究は, この問題の諸側面を考察し, 生成分布が不明な場合の検証に使用する生成分布の選択に過度に敏感な統計結果を示す。
これは例えば、絶対誤差と不確実性(CC)の相関係数と、期待される正規化校正誤差(ENCE)の相関係数である。
シミュレーションされた参照値を扱う堅牢な検証ワークフローを提案する。
Some popular Machine Learning Uncertainty Quantification (ML-UQ) calibration statistics do not have predefined reference values and are mostly used in comparative studies. In consequence, calibration is almost never validated and the diagnostic is left to the appreciation of the reader. Simulated reference values, based on synthetic calibrated datasets derived from actual uncertainties, have been proposed to palliate this problem. As the generative probability distribution for the simulation of synthetic errors is often not constrained, the sensitivity of simulated reference values to the choice of generative distribution might be problematic, shedding a doubt on the calibration diagnostic. This study explores various facets of this problem, and shows that some statistics are excessively sensitive to the choice of generative distribution to be used for validation when the generative distribution is unknown. This is the case, for instance, of the correlation coefficient between absolute errors and uncertainties (CC) and of the expected normalized calibration error (ENCE). A robust validation workflow to deal with simulated reference values is proposed. | 翻訳日:2024-06-26 01:41:44 公開日:2024-06-24 |
# モデルフリー歪み補正を用いた単像カメラキャリブレーション
Single-image camera calibration with model-free distortion correction ( http://arxiv.org/abs/2403.01263v2 ) ライセンス: Link先を確認 | Katia Genovese, | (参考訳) カメラキャリブレーション(英: camera calibration)は、正確な量測定を必要とするコンピュータビジョンアプリケーションにおいて最も重要なプロセスである。
Zhangによって開発された一般的な手法は、複数のポーズでキャプチャされた有限点の平面格子の多数の画像を使用することに依存している。
柔軟で実装が容易だが、Zhangのメソッドにはいくつかの制限がある。
予め定義された歪みモデルの係数を含むパラメータ集合全体の同時最適化は、画像境界における歪み補正の低さや、合理的に小さな再射誤差であっても固有のパラメータの誤計算をもたらす可能性がある。
実際、画像ストレッチ(例えばマルチカメラシステム)を含むアプリケーションは、画像の最も外側の領域まで正確な歪みのマッピングを必要とする。
さらに、ロボットナビゲーションや自動組立における視覚サーボなどの応用において、本質的なパラメータがカメラポーズ推定の精度に影響を与える。
本稿では,センサ全体をカバーする平面スペックルパターンの単一画像から,キャリブレーションパラメータの完全なセットを推定する方法を提案する。
デジタル画像相関を用いて校正対象の画像点と物理点との対応を求める。
主点の事前評価後、有効焦点長と外部パラメータを別々に算出する。
プロシージャの最後には、画像全体にわたって、密度が高く均一なモデルフリーな歪みマップが得られる。
ノイズレベルの異なる合成データを用いて,提案手法の有効性を検証し,その有効性を張の手法と比較した。
実世界のテストでは、複数の画像に平均化することで隠蔽される画像形成の側面を明らかにするために開発された手法の可能性を実証している。
Camera calibration is a process of paramount importance in computer vision applications that require accurate quantitative measurements. The popular method developed by Zhang relies on the use of a large number of images of a planar grid of fiducial points captured in multiple poses. Although flexible and easy to implement, Zhang's method has some limitations. The simultaneous optimization of the entire parameter set, including the coefficients of a predefined distortion model, may result in poor distortion correction at the image boundaries or in miscalculation of the intrinsic parameters, even with a reasonably small reprojection error. Indeed, applications involving image stitching (e.g. multi-camera systems) require accurate mapping of distortion up to the outermost regions of the image. Moreover, intrinsic parameters affect the accuracy of camera pose estimation, which is fundamental for applications such as vision servoing in robot navigation and automated assembly. This paper proposes a method for estimating the complete set of calibration parameters from a single image of a planar speckle pattern covering the entire sensor. The correspondence between image points and physical points on the calibration target is obtained using Digital Image Correlation. The effective focal length and the extrinsic parameters are calculated separately after a prior evaluation of the principal point. At the end of the procedure, a dense and uniform model-free distortion map is obtained over the entire image. Synthetic data with different noise levels were used to test the feasibility of the proposed method and to compare its metrological performance with Zhang's method. Real-world tests demonstrate the potential of the developed method to reveal aspects of the image formation that are hidden by averaging over multiple images. | 翻訳日:2024-06-26 01:41:44 公開日:2024-06-24 |
# MovieLLM:AIで作られた映画で長いビデオの理解を強化
MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies ( http://arxiv.org/abs/2403.01422v2 ) ライセンス: Link先を確認 | Zhende Song, Chenchen Wang, Jiamu Sheng, Chi Zhang, Gang Yu, Jiayuan Fan, Tao Chen, | (参考訳) マルチモーダルモデルの開発は、機械がビデオを理解する方法において重要な一歩を踏み出した。
これらのモデルは短いビデオクリップの分析において有望であることを示している。
しかし、映画のような長いフォーマットに関しては、しばしば不足する。
主なハードルは、高品質で多様なビデオデータの欠如と、そのようなデータの収集や注釈付けに必要な集中的な作業である。
このような課題に直面して,教師調律のための一貫した高品質な映像データを合成する新しいフレームワークMovieLLMを提案する。
パイプラインは、GPT-4の強力なテキスト生成機能を備えたテキスト変換技術を改善することで、ビデオのスタイルを制御するために慎重に設計されている。
このようなことを行う最初のフレームワークとして、当社のアプローチは柔軟性とスケーラビリティに際し、ユーザが1つの説明だけでカスタマイズされた映画を作れるようにしています。
これにより、従来のデータ収集方法よりも優れている。
以上の結果から,MovieLLMが生成したデータにより,複雑な映像の物語を理解する上でのマルチモーダルモデルの性能が著しく向上し,難易度や偏見に関する既存のデータセットの限界を克服できることが検証された。
Development of multimodal models has marked a significant step forward in how machines understand videos. These models have shown promise in analyzing short video clips. However, when it comes to longer formats like movies, they often fall short. The main hurdles are the lack of high-quality, diverse video data and the intensive work required to collect or annotate such data. In face of these challenges, we propose MovieLLM, a novel framework designed to synthesize consistent and high-quality video data for instruction tuning. The pipeline is carefully designed to control the style of videos by improving textual inversion technique with powerful text generation capability of GPT-4. As the first framework to do such thing, our approach stands out for its flexibility and scalability, empowering users to create customized movies with only one description. This makes it a superior alternative to traditional data collection methods. Our extensive experiments validate that the data produced by MovieLLM significantly improves the performance of multimodal models in understanding complex video narratives, overcoming the limitations of existing datasets regarding scarcity and bias. | 翻訳日:2024-06-26 01:41:44 公開日:2024-06-24 |
# MiM-ISTD: 効率的な赤外小ターゲット検出のためのマンバインマンバ
MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection ( http://arxiv.org/abs/2403.02148v4 ) ライセンス: Link先を確認 | Tianxiang Chen, Zi Ye, Zhentao Tan, Tao Gong, Yue Wu, Qi Chu, Bin Liu, Nenghai Yu, Jieping Ye, | (参考訳) 近年,基本モデルの開発により,赤外線小目標検出 (ISTD) が大幅に進歩している。
具体的には、CNNとトランスフォーマーを組み合わせたモデルで、局所的特徴とグローバル的特徴の両方を抽出できる。
しかし、変換器の欠点、すなわち2次計算の複雑さからシーケンス長までも受け継がれている。
長距離モデリングのための線形複雑度を持つ最近の基本モデルであるMambaに触発され、本論文の有効性と効率性の観点から、ISTDタスクのための状態空間モデルの可能性を探る。
しかし,Mambaの直接適用は,小目標検出に必須である局所的特徴の活用が不十分なため,準最適性能を実現する。
代わりに、効率的なISTDのためにネスト構造であるMamba-in-Mamba(MiM-ISTD)を調整します。
外界と内界のマンバブロックからなり、グローバルとローカルの両方の特徴を巧みに捉えている。
具体的には、ローカルパッチを「視覚文」として扱い、アウトドア・マンバを用いてグローバルな情報を探索する。
次に、各視覚文を「視覚的単語」としてサブパッチに分解し、インナー・マンバを用いて視覚文中の単語間の局所情報を無視可能な計算コストで探索する。
視覚的単語と視覚的文の特徴を集約することにより、我々のMiM-ISTDはグローバル情報とローカル情報の両方を効果的に探索することができる。
NUAA-SIRSTとIRSTD-1kを用いた実験により,本手法の精度と効率が向上した。
具体的には、MiM-ISTD は SOTA 法よりも 8 \times$ 速く、2048$ 2048$ の画像でテストすると、GPU のメモリ使用量を 62.2$$$% 削減し、高解像度赤外線画像の計算とメモリ制約を克服する。
Recently, infrared small target detection (ISTD) has made significant progress, thanks to the development of basic models. Specifically, the models combining CNNs with transformers can successfully extract both local and global features. However, the disadvantage of the transformer is also inherited, i.e., the quadratic computational complexity to sequence length. Inspired by the recent basic model with linear complexity for long-distance modeling, Mamba, we explore the potential of this state space model for ISTD task in terms of effectiveness and efficiency in the paper. However, directly applying Mamba achieves suboptimal performances due to the insufficient harnessing of local features, which are imperative for detecting small targets. Instead, we tailor a nested structure, Mamba-in-Mamba (MiM-ISTD), for efficient ISTD. It consists of Outer and Inner Mamba blocks to adeptly capture both global and local features. Specifically, we treat the local patches as "visual sentences" and use the Outer Mamba to explore the global information. We then decompose each visual sentence into sub-patches as "visual words" and use the Inner Mamba to further explore the local information among words in the visual sentence with negligible computational costs. By aggregating the visual word and visual sentence features, our MiM-ISTD can effectively explore both global and local information. Experiments on NUAA-SIRST and IRSTD-1k show the superior accuracy and efficiency of our method. Specifically, MiM-ISTD is $8 \times$ faster than the SOTA method and reduces GPU memory usage by 62.2$\%$ when testing on $2048 \times 2048$ images, overcoming the computation and memory constraints on high-resolution infrared images. | 翻訳日:2024-06-26 01:41:44 公開日:2024-06-24 |
# SWAP-NAS:超高速NASのためのサンプルワイズ活性化パターン
SWAP-NAS: Sample-Wise Activation Patterns for Ultra-fast NAS ( http://arxiv.org/abs/2403.04161v5 ) ライセンス: Link先を確認 | Yameng Peng, Andy Song, Haytham M. Fayek, Vic Ciesielski, Xiaojun Chang, | (参考訳) トレーニングフリーなメトリクス(すなわちゼロコストプロキシ)は、特にニューラルアーキテクチャサーチ(NAS)において、リソース集約型ニューラルネットワークトレーニングを避けるために広く使用されている。
近年の研究では、既存のトレーニングフリーメトリクスには、相関の限定や、異なる検索空間やタスク間の一般化の欠如など、いくつかの制限があることが示された。
そこで本研究では,Sample-Wise Activation Patternsとその派生品であるSWAP-Scoreを提案する。
入力サンプルのバッチ上でのネットワークの表現性を測定する。
SWAPスコアは,NAS-Bench-101/201/301 と TransNAS-Bench-101 において,既存のトレーニング不要の指標を15 以上上回った。
SWAP-Scoreは正規化によってさらに強化され、セルベースの検索空間の相関がさらに高められ、検索中のモデルサイズ制御が可能となる。
例えば、NAS-Bench-201ネットワーク上の正規化SWAP-ScoreとCIFAR-100の検証精度のSpearmanのランク相関係数は0.90であり、第2の基準であるNWOTよりは0.80よりかなり高い。
NASの進化的アルゴリズムと統合すると、SWAP-NASは、約6分9分でCIFAR-10とImageNetの競合性能を達成する。
Training-free metrics (a.k.a. zero-cost proxies) are widely used to avoid resource-intensive neural network training, especially in Neural Architecture Search (NAS). Recent studies show that existing training-free metrics have several limitations, such as limited correlation and poor generalisation across different search spaces and tasks. Hence, we propose Sample-Wise Activation Patterns and its derivative, SWAP-Score, a novel high-performance training-free metric. It measures the expressivity of networks over a batch of input samples. The SWAP-Score is strongly correlated with ground-truth performance across various search spaces and tasks, outperforming 15 existing training-free metrics on NAS-Bench-101/201/301 and TransNAS-Bench-101. The SWAP-Score can be further enhanced by regularisation, which leads to even higher correlations in cell-based search space and enables model size control during the search. For example, Spearman's rank correlation coefficient between regularised SWAP-Score and CIFAR-100 validation accuracies on NAS-Bench-201 networks is 0.90, significantly higher than 0.80 from the second-best metric, NWOT. When integrated with an evolutionary algorithm for NAS, our SWAP-NAS achieves competitive performance on CIFAR-10 and ImageNet in approximately 6 minutes and 9 minutes of GPU time respectively. | 翻訳日:2024-06-26 01:31:59 公開日:2024-06-24 |
# 乱用言語検出のためのディープ・プロンプト・マルチタスク・ネットワーク
Deep Prompt Multi-task Network for Abuse Language Detection ( http://arxiv.org/abs/2403.05268v2 ) ライセンス: Link先を確認 | Jian Zhu, Yuping Ruan, Jingfei Chang, Wenhui Sun, Hui Wan, Jian Long, Cheng Luo, | (参考訳) 乱用言語の検出は、ソーシャルネットワークの広範な利用において、長年にわたる課題である。
乱用言語の検出タスクは、限られた精度に悩まされている。
既存の検出手法は、学習済み言語モデル(PLM)の微調整技術を用いて下流タスクを処理していると論じる。
したがって、これらの手法はPLMの一般的な知識を刺激することができない。
そこで本研究では,乱用言語検出のためのDPMN(Deep Prompt Multi-task Network)を提案する。
具体的には、DPMNはまず、PLMのための2種類のディーププロンプトチューニングとライトプロンプトチューニングを設計しようとした。
異なるプロンプト長,チューニング方略,およびプロンプト初期化法が乱用言語検出に与える影響について検討した。
さらに,Bi-LSTMとFFNに基づくタスクヘッドを提案する。
最終的に、DPMNはマルチタスク学習を使用して、検出メトリクスをさらに改善する。
マルチタスクネットワークは、効果的な知識を伝達する機能を持つ。
提案したDPMNは、OLID、SOLID、AbuseAnalyzerの3つの公開データセット上の8つの典型的な手法に対して評価される。
実験の結果,DPMNは最先端の手法よりも優れていた。
The detection of abusive language remains a long-standing challenge with the extensive use of social networks. The detection task of abusive language suffers from limited accuracy. We argue that the existing detection methods utilize the fine-tuning technique of the pre-trained language models (PLMs) to handle downstream tasks. Hence, these methods fail to stimulate the general knowledge of the PLMs. To address the problem, we propose a novel Deep Prompt Multi-task Network (DPMN) for abuse language detection. Specifically, DPMN first attempts to design two forms of deep prompt tuning and light prompt tuning for the PLMs. The effects of different prompt lengths, tuning strategies, and prompt initialization methods on detecting abusive language are studied. In addition, we propose a Task Head based on Bi-LSTM and FFN, which can be used as a short text classifier. Eventually, DPMN utilizes multi-task learning to improve detection metrics further. The multi-task network has the function of transferring effective knowledge. The proposed DPMN is evaluated against eight typical methods on three public datasets: OLID, SOLID, and AbuseAnalyzer. The experimental results show that our DPMN outperforms the state-of-the-art methods. | 翻訳日:2024-06-26 01:31:59 公開日:2024-06-24 |
# SmartML: スマートコントラクトのためのモデリング言語を目指す
SmartML: Towards a Modeling Language for Smart Contracts ( http://arxiv.org/abs/2403.06622v2 ) ライセンス: Link先を確認 | Adele Veschetti, Richard Bubel, Reiner Hähnle, | (参考訳) スマートコントラクトは現実世界のトランザクションをコーデレートし、事前定義された条件が満たされた場合、コントラクトの条件を自動的に実行します。
本稿では,プラットフォームに依存しない,理解しやすいスマートコントラクトのモデリング言語であるSmartMLを提案する。
セキュリティ脆弱性に対処する上での役割に焦点をあてて、その形式的意味論と型システムについて詳述する。
ケーススタディでは、分散システム内のスマートコントラクトの信頼性とセキュリティを強化する上で、SmartMLがレジリエンスアタックの防止にどのように貢献するかを示す。
Smart contracts codify real-world transactions and automatically execute the terms of the contract when predefined conditions are met. This paper proposes SmartML, a modeling language for smart contracts that is platform independent and easy to comprehend. We detail its formal semantics and type system with a focus on its role in addressing security vulnerabilities. We show along a case study, how SmartML contributes to the prevention of reentrancy attacks, illustrating its efficacy in reinforcing the reliability and security of smart contracts within decentralized systems. | 翻訳日:2024-06-26 01:31:59 公開日:2024-06-24 |
# ニューラルネットワークにおける最適化軌道の目印:方向探索と冗長性
Hallmarks of Optimization Trajectories in Neural Networks: Directional Exploration and Redundancy ( http://arxiv.org/abs/2403.07379v2 ) ライセンス: Link先を確認 | Sidak Pal Singh, Bobby He, Thomas Hofmann, Bernhard Schölkopf, | (参考訳) 本稿では,最適化軌道のリッチな方向構造を解析することにより,ニューラルネットワークのメカニズムを新たに理解する手法を提案する。
この目的に向けて、ニューラルネットワークにおける最適化の方向性を示す定性的かつ定量的な最適化軌跡の複雑さという自然な概念を紹介します。
運動量や重みの減衰など、様々な最適化選択の間の固有のニュアンスや相互作用を明らかにするためにそれらを使用します。
さらに、軌跡パースペクティブは、軌跡の方向特性の正則化におけるスケールの効果を確認するのに役立ち、副生成物として、LLMの中間注意層におけるQ,K,Vダイナミクスの興味深い不均一性を観察し、スケールによって均質化する。
重要なことは、トレーニング中にスカラーバッチノルムパラメータのみをトレーニングする場合、ネットワーク全体のトレーニング性能と一致させることで、テストで観察される重要な方向性の冗長性を証明し、効率性を重視したハイブリッド最適化スキームの可能性を示すことである。
We propose a fresh take on understanding the mechanisms of neural networks by analyzing the rich directional structure of optimization trajectories, represented by their pointwise parameters. Towards this end, we introduce some natural notions of the complexity of optimization trajectories, both qualitative and quantitative, which hallmark the directional nature of optimization in neural networks: when is there redundancy, and when exploration. We use them to reveal the inherent nuance and interplay involved between various optimization choices, such as momentum and weight decay. Further, the trajectory perspective helps us see the effect of scale on regularizing the directional nature of trajectories, and as a by-product, we also observe an intriguing heterogeneity of Q,K,V dynamics in the middle attention layers in LLMs and which is homogenized by scale. Importantly, we put the significant directional redundancy observed to the test by demonstrating that training only scalar batchnorm parameters some while into training matches the performance of training the entire network, which thus exhibits the potential of hybrid optimization schemes that are geared towards efficiency. | 翻訳日:2024-06-26 01:31:59 公開日:2024-06-24 |
# 時間依存積公式による効率的なハミルトンシミュレーション
Efficient and practical Hamiltonian simulation from time-dependent product formulas ( http://arxiv.org/abs/2403.08729v3 ) ライセンス: Link先を確認 | Jan Lukas Bosse, Andrew M. Childs, Charles Derby, Filippo Maria Gambetta, Ashley Montanaro, Raul A. Santos, | (参考訳) 本研究では,製品公式を用いた量子システムの時間進化手法を提案する。
私たちが開発している量子アルゴリズムは、エネルギースケールの異なるハミルトン式(すなわち、一方が「大きい」、もう一方が「小さい」)によって進化が決定されるシステムに対して、よく知られたトロッターの公式の単純適用よりも、(ゲートの複雑さと回路深さの点で)確実に優れたスケーリングを持つ。
我々のアルゴリズムは、進化演算子を量子コンピュータ上で直接実装可能な単純なユニタリの積に分解する。
理論的スケーリングは最先端のアルゴリズム(例えば量子信号処理)と比較すると最適ではないが、我々が提案するアルゴリズムの性能は実際に非常に競争力がある。
いくつかのモデルに対する広範な数値シミュレーションを通してこれを解説する。
例えば、1次元横フィールドイジングモデルの強磁場状態において、我々のアルゴリズムは、標準的なトロッター式と比較して1000の任意の2ビットゲートの固定予算でシミュレートできるシステムサイズと進化時間の両方において、一桁の精度向上を実現している。
In this work we propose an approach for implementing time-evolution of a quantum system using product formulas. The quantum algorithms we develop have provably better scaling (in terms of gate complexity and circuit depth) than a naive application of well-known Trotter formulas, for systems where the evolution is determined by a Hamiltonian with different energy scales (i.e., one part is "large" and another part is "small"). Our algorithms generate a decomposition of the evolution operator into a product of simple unitaries that are directly implementable on a quantum computer. Although the theoretical scaling is suboptimal compared with state-of-the-art algorithms (e.g., quantum signal processing), the performance of the algorithms we propose is highly competitive in practice. We illustrate this via extensive numerical simulations for several models. For instance, in the strong-field regime of the 1D transverse-field Ising model, our algorithms achieve an improvement of one order of magnitude in both the system size and evolution time that can be simulated with a fixed budget of 1000 arbitrary 2-qubit gates, compared with standard Trotter formulas. | 翻訳日:2024-06-26 01:31:59 公開日:2024-06-24 |
# ClaimVer: 説明可能なクレームレベル検証と知識グラフによるテキストのエビデンス属性
ClaimVer: Explainable Claim-Level Verification and Evidence Attribution of Text Through Knowledge Graphs ( http://arxiv.org/abs/2403.09724v2 ) ライセンス: Link先を確認 | Preetam Prabhu Srikar Dammu, Himanshu Naidu, Mouly Dewan, YoungMin Kim, Tanya Roosta, Aman Chadha, Chirag Shah, | (参考訳) ソーシャルメディアによる偽情報や偽情報の拡散やAI生成テキストの普及が進む中で、人々が遭遇した情報を検証し、信頼することはますます困難になっている。
多くのファクトチェック手法やツールが開発されているが、様々な文脈で役立つ適切な説明性や粒度の欠如がしばしばある。
使いやすく、アクセスしやすく、きめ細かいエビデンスを達成できるテキスト検証方法が重要になっている。
さらに重要なことは、このような方法でユーザ信頼を構築するには、自動システムに対する人々の信念に多大な影響を及ぼす研究結果として、各予測の背後にある根拠を提示する必要があることである。
ユーザの注意を特定の問題コンテンツにローカライズし、もたらすことも重要であり、単純なブランケットラベルを提供する。
本稿では,リッチアノテーションの生成と認知負荷の低減により,ユーザの情報・検証ニーズを満たすことに適した,人間中心のフレームワークであるClaymVerを提案する。
テキストの包括的な評価を提供するために設計され、各クレームをハイライトし、信頼された知識グラフ(KG)に対して検証し、証拠を提示し、各クレーム予測に対して簡潔で明確な説明を提供する。
最後に、我々のフレームワークは属性スコアを導入し、幅広い下流タスクに適用性を高めます。
In the midst of widespread misinformation and disinformation through social media and the proliferation of AI-generated texts, it has become increasingly difficult for people to validate and trust information they encounter. Many fact-checking approaches and tools have been developed, but they often lack appropriate explainability or granularity to be useful in various contexts. A text validation method that is easy to use, accessible, and can perform fine-grained evidence attribution has become crucial. More importantly, building user trust in such a method requires presenting the rationale behind each prediction, as research shows this significantly influences people's belief in automated systems. Localizing and bringing users' attention to the specific problematic content is also paramount, instead of providing simple blanket labels. In this paper, we present ClaimVer, a human-centric framework tailored to meet users' informational and verification needs by generating rich annotations and thereby reducing cognitive load. Designed to deliver comprehensive evaluations of texts, it highlights each claim, verifies it against a trusted knowledge graph (KG), presents the evidence, and provides succinct, clear explanations for each claim prediction. Finally, our framework introduces an attribution score, enhancing applicability across a wide range of downstream tasks. | 翻訳日:2024-06-26 01:31:59 公開日:2024-06-24 |
# CCC++:Segment Anything Model (SAM) を用いた最適色分類
CCC++: Optimized Color Classified Colorization with Segment Anything Model (SAM) Empowered Object Selective Color Harmonization ( http://arxiv.org/abs/2403.11494v2 ) ライセンス: Link先を確認 | Mrityunjoy Gain, Avi Deb Raha, Rameswar Debnath, | (参考訳) 本稿では,カラー化問題を多項分類問題に定式化し,重み付き関数をクラスに適用する。
カラー値をカラークラスに変換するための式セットを提案し,その逆も提案する。
クラスを最適化するために、カラークラス変換のために異なるビンサイズで実験する。
様々な大規模リアルタイム画像のクラス外観,標準偏差,モデルパラメータを観測し,実例では分類タスクに532種類のカラークラスを提案する。
トレーニング中,各バッチにおける真のクラス外観に基づくクラス重み付き関数を提案し,個々のオブジェクトの適切な飽和を保証する。
我々は、より頻繁に観測される主要なクラスの重みを調整し、それらを下げると同時に、あまり観測されないマイナークラスの重みをエスカレートする。
クラス再重み付け式では,メジャークラスとマイナークラスの最適トレードオフを求めるためのハイパーパラメータを提案する。
マイナークラスの安定性を高めるために正規化を適用すると、時々小さなノイズがオブジェクトの端に現れる。
我々は,これらのエッジを洗練・拡張するために,SAM(Segment Anything Model)によって強化された新しいオブジェクト選択色調和法を提案する。
そこで我々は,色彩成分のリッチさを定量化するために,カラークラスアクティベーション比 (CCAR) とTrue Activation Ratio (TAR) の2つの新しいカラー画像評価指標を提案する。
提案したモデルと,Place,ADE,Celeba,COCO,Oxford 102 Flower,ImageNetの6つの異なるデータセットを用いた最先端モデルとの比較を行った。
実験の結果,提案モデルは他のモデルよりも可視化, CNR, CCARおよびTAR測定基準を超越し, 回帰(MSE, PSNR), 類似性(SSIM, LPIPS, UIUI), 生成基準(FID)の順応性を維持した。
In this paper, we formulate the colorization problem into a multinomial classification problem and then apply a weighted function to classes. We propose a set of formulas to transform color values into color classes and vice versa. To optimize the classes, we experiment with different bin sizes for color class transformation. Observing class appearance, standard deviation, and model parameters on various extremely large-scale real-time images in practice we propose 532 color classes for our classification task. During training, we propose a class-weighted function based on true class appearance in each batch to ensure proper saturation of individual objects. We adjust the weights of the major classes, which are more frequently observed, by lowering them, while escalating the weights of the minor classes, which are less commonly observed. In our class re-weight formula, we propose a hyper-parameter for finding the optimal trade-off between the major and minor appeared classes. As we apply regularization to enhance the stability of the minor class, occasional minor noise may appear at the object's edges. We propose a novel object-selective color harmonization method empowered by the Segment Anything Model (SAM) to refine and enhance these edges. We propose two new color image evaluation metrics, the Color Class Activation Ratio (CCAR), and the True Activation Ratio (TAR), to quantify the richness of color components. We compare our proposed model with state-of-the-art models using six different dataset: Place, ADE, Celeba, COCO, Oxford 102 Flower, and ImageNet, in qualitative and quantitative approaches. The experimental results show that our proposed model outstrips other models in visualization, CNR and in our proposed CCAR and TAR measurement criteria while maintaining satisfactory performance in regression (MSE, PSNR), similarity (SSIM, LPIPS, UIUI), and generative criteria (FID). | 翻訳日:2024-06-26 01:22:15 公開日:2024-06-24 |
# LlamaFactory: 100以上の言語モデルの統一されたファインチューニング
LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models ( http://arxiv.org/abs/2403.13372v3 ) ライセンス: Link先を確認 | Yaowei Zheng, Richong Zhang, Junhao Zhang, Yanhan Ye, Zheyan Luo, Zhangchi Feng, Yongqiang Ma, | (参考訳) 下流タスクに大規模言語モデル(LLM)を適用するためには、効率的な微調整が不可欠である。
しかし、異なるモデルでこれらのメソッドを実装するには、自明な努力が必要である。
LlamaFactoryは、最先端の効率的なトレーニング方法を統合した統合フレームワークである。
組み込みのWeb UI LlamaBoardをコーディングすることなく、100以上のLLMの微調整を柔軟にカスタマイズできるソリューションを提供する。
言語モデリングとテキスト生成タスクにおけるフレームワークの有効性と有効性を実証的に検証する。
https://github.com/hiyouga/LLaMA-Factoryで公開され、24,000以上の星と3000のフォークを受け取った。
Efficient fine-tuning is vital for adapting large language models (LLMs) to downstream tasks. However, it requires non-trivial efforts to implement these methods on different models. We present LlamaFactory, a unified framework that integrates a suite of cutting-edge efficient training methods. It provides a solution for flexibly customizing the fine-tuning of 100+ LLMs without the need for coding through the built-in web UI LlamaBoard. We empirically validate the efficiency and effectiveness of our framework on language modeling and text generation tasks. It has been released at https://github.com/hiyouga/LLaMA-Factory and received over 24,000 stars and 3,000 forks. | 翻訳日:2024-06-26 01:22:15 公開日:2024-06-24 |
# 有限性における量子チャネルシミュレーションは状態分割よりも困難ではない
Quantum Channel Simulation in Fidelity is no more difficult than State Splitting ( http://arxiv.org/abs/2403.14416v2 ) ライセンス: Link先を確認 | Michael X. Cao, Rahul Jain, Marco Tomamichel, | (参考訳) 量子チャネルシミュレーションに必要な最小限の通信を特徴付けることは、量子情報理論の基本的な課題である。
本稿では,デ・フィネッティ還元法(de-Finetti reduction)と呼ばれる手法を用いることなく,量子チャネルシミュレーションを量子状態分割法(quantum state splitting)により直接行うことができることを示す。
境界を用いて、量子逆シャノン定理をはるかに単純な方法で復元する。
Characterizing the minimal communication needed for the quantum channel simulation is a fundamental task in the quantum information theory. In this paper, we show that, in fidelity, the quantum channel simulation can be directly achieved via quantum state splitting without using a technique known as the de~Finetti reduction, and thus provide a pair of tighter one-shot bounds. Using the bounds, we also recover the quantum reverse Shannon theorem in a much simpler way. | 翻訳日:2024-06-26 01:22:15 公開日:2024-06-24 |
# パープル問題による脱獄防御の限界試験
Testing the Limits of Jailbreaking Defenses with the Purple Problem ( http://arxiv.org/abs/2403.14725v2 ) ライセンス: Link先を確認 | Taeyoun Kim, Suhas Kotha, Aditi Raghunathan, | (参考訳) 言語モデルに対する「ジェイルブレイク」攻撃の台頭は、望ましくない反応を防ぐための防衛策の急増につながった。
防衛パイプラインの2つの段階について批判的に検討する。
(i)安全でない出力を構成するものを定義し、
(ii)入力処理や微調整などの手法による定義の強制。
既存の実施機構の有効性をテストするために,「紫」という単語を含む安全でない出力の単純かつ明確に定義された定義について検討する。
驚くべきことに、既存の微調整と入力の防御は、この単純な問題に失敗し、より複雑な定義のために強制アルゴリズムが堅牢であるかどうか疑問を呈している。
実際の安全ベンチマークも同様に、固定された定義の実施をテストする。
今後の研究は、効果的かつ迅速な実施と、実施と評価に使用される高品質な定義につながることを願っています。
The rise of "jailbreak" attacks on language models has led to a flurry of defenses aimed at preventing undesirable responses. We critically examine the two stages of the defense pipeline: (i) defining what constitutes unsafe outputs, and (ii) enforcing the definition via methods such as input processing or fine-tuning. To test the efficacy of existing enforcement mechanisms, we consider a simple and well-specified definition of unsafe outputs--outputs that contain the word "purple". Surprisingly, existing fine-tuning and input defenses fail on this simple problem, casting doubt on whether enforcement algorithms can be robust for more complicated definitions. We find that real safety benchmarks similarly test enforcement for a fixed definition. We hope that future research can lead to effective/fast enforcement as well as high quality definitions used for enforcement and evaluation. | 翻訳日:2024-06-26 01:22:15 公開日:2024-06-24 |
# LLMにおける大規模評価結果の総合的再評価:多面的統計的アプローチ
Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach ( http://arxiv.org/abs/2403.15250v2 ) ライセンス: Link先を確認 | Kun Sun, Rong Wang, Anders Søgaard, | (参考訳) LLMの急速な進化の中で、これらのモデルを前進させ、推進する際の評価の重要性はますます高まっている。
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
しかしながら、これらの影響の程度と性質は、ほとんどの評価が限られた数のモデルとデータポイントに限定されているため、議論の対象となっている。
これらの要因がパフォーマンススコアに与える影響を明らかにすることは、統計レンズによりより効果的に達成できる。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
本研究は,一様評価フレームワークの出現に伴い,広範な評価結果のデータセットを活用し,包括的統計手法を導入する。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術の適用が含まれており、LLMパフォーマンスデータを解読するための堅牢で透明なアプローチを提供する。
一方,本研究の結果は,LLMにおける創発的能力の仮定や,与えられたトレーニングタイプやアーキテクチャの影響に疑問を呈している。
これらの知見は, LLMの特性, 内在性, 発達軌跡に新たな視点をもたらした。
本研究は, LLMの性能データを精査・再評価するための簡便で信頼性の高い手法を提供することにより, LLMの効率とポテンシャルに関する微妙な視点に寄与する。
Amidst the rapid evolution of LLMs, the significance of evaluation in comprehending and propelling these models forward is increasingly paramount. Evaluations have revealed that factors such as scaling, training types, architectures and other factors profoundly impact the performance of LLMs. However, the extent and nature of these impacts continue to be subjects of debate because most assessments have been restricted to a limited number of models and data points. Clarifying the effects of these factors on performance scores can be more effectively achieved through a statistical lens. Our study embarks on a thorough re-examination of these LLMs, targeting the inadequacies in current evaluation methods. With the advent of a uniform evaluation framework, our research leverages an expansive dataset of evaluation results, introducing a comprehensive statistical methodology. This includes the application of ANOVA, Tukey HSD tests, GAMM, and clustering technique, offering a robust and transparent approach to deciphering LLM performance data. Contrary to prevailing findings, our results challenge assumptions about emergent abilities and the influence of given training types and architectures in LLMs. These findings furnish new perspectives on the characteristics, intrinsic nature, and developmental trajectories of LLMs. By providing straightforward and reliable methods to scrutinize and reassess LLM performance data, this study contributes a nuanced perspective on LLM efficiency and potentials. | 翻訳日:2024-06-26 01:22:15 公開日:2024-06-24 |
# Fundus: 高品質抽出に最適化されたシンプルで使いやすいニューススクラッパー
Fundus: A Simple-to-Use News Scraper Optimized for High Quality Extractions ( http://arxiv.org/abs/2403.15279v2 ) ライセンス: Link先を確認 | Max Dallabetta, Conrad Dobberstein, Adrian Breiding, Alan Akbik, | (参考訳) 本稿では,ユーザフレンドリーなニューススクレイパーであるFundusを紹介する。
既存のニューススクレイパーとは異なり、我々は、サポート対象のオンライン新聞のフォーマットガイドラインに合わせて特別に調整された手作りのコンテンツ抽出機を使用します。
これにより、検索したニュース記事がテキストで完結し、HTMLアーティファクトがないような品質のために、スクラップを最適化できます。
さらに,本フレームワークでは,クローリング(WebからHTMLを取り出す,あるいは大規模なWebアーカイブからHTMLを取り出す)とコンテンツ抽出をひとつのパイプラインにまとめる。
予め定義された新聞の集合体に統一されたインターフェースを提供することで、Fundusを非技術ユーザでも広く使えるようにすることを目指している。
本稿では,本フレームワークの概要と設計選択について考察し,他の人気ニューススクレイパーとの比較評価を行う。
評価の結果,Fundusは従来よりも品質の高い記事(完全かつアーティファクトフリーのニュース記事)を得られることがわかった。
このフレームワークはGitHubでhttps://github.com/flairNLP/fundusで入手できる。
This paper introduces Fundus, a user-friendly news scraper that enables users to obtain millions of high-quality news articles with just a few lines of code. Unlike existing news scrapers, we use manually crafted, bespoke content extractors that are specifically tailored to the formatting guidelines of each supported online newspaper. This allows us to optimize our scraping for quality such that retrieved news articles are textually complete and without HTML artifacts. Further, our framework combines both crawling (retrieving HTML from the web or large web archives) and content extraction into a single pipeline. By providing a unified interface for a predefined collection of newspapers, we aim to make Fundus broadly usable even for non-technical users. This paper gives an overview of the framework, discusses our design choices, and presents a comparative evaluation against other popular news scrapers. Our evaluation shows that Fundus yields significantly higher quality extractions (complete and artifact-free news articles) than prior work. The framework is available on GitHub under https://github.com/flairNLP/fundus and can be simply installed using pip. | 翻訳日:2024-06-26 01:22:15 公開日:2024-06-24 |
# 不変性を用いた行動に基づく表現の学習
Learning Action-based Representations Using Invariance ( http://arxiv.org/abs/2403.16369v3 ) ライセンス: Link先を確認 | Max Rudolph, Caleb Chuck, Kevin Black, Misha Lvovsky, Scott Niekum, Amy Zhang, | (参考訳) 高次元観測を用いた頑健な強化学習エージェントは、多くの異種性障害の中で、関連する状態の特徴を識別できなければならない。
制御可能性をキャプチャする表現は、エージェント制御に影響を与えるものを決定することによって、これらの状態要素を識別する。
逆ダイナミクスや相互情報キャプチャといった手法は、限られた時間ステップで制御可能であるが、長い水平要素をキャプチャすることは難しい問題である。
ミオピックコントロールは、エージェントが壁に入る直前の瞬間をキャプチャできるが、エージェントが遠くにいる間は、壁の制御関連性はない。
そこで本研究では,バイシミュレーション不変な擬似メトリックにインスパイアされた動作ビシミュレーション符号化を導入し,再帰的不変性制約を伴って単一ステップ制御性を拡張する。
これを行うことで、アクションビシミュレーションは、制御に関連する離れた状態の特徴を円滑に割引する、多段階の制御可能性指標を学ぶ。
本研究では、報酬のない一様ランダムなデータに基づく行動ビシミュレーション事前学習により、光現実性3DシミュレーションドメインHabitatを含む複数の環境におけるサンプル効率が向上することを示す。
さらに,動作ビシミュレーションによって得られた情報について,理論的解析と定性的な結果を提供する。
Robust reinforcement learning agents using high-dimensional observations must be able to identify relevant state features amidst many exogeneous distractors. A representation that captures controllability identifies these state elements by determining what affects agent control. While methods such as inverse dynamics and mutual information capture controllability for a limited number of timesteps, capturing long-horizon elements remains a challenging problem. Myopic controllability can capture the moment right before an agent crashes into a wall, but not the control-relevance of the wall while the agent is still some distance away. To address this we introduce action-bisimulation encoding, a method inspired by the bisimulation invariance pseudometric, that extends single-step controllability with a recursive invariance constraint. By doing this, action-bisimulation learns a multi-step controllability metric that smoothly discounts distant state features that are relevant for control. We demonstrate that action-bisimulation pretraining on reward-free, uniformly random data improves sample efficiency in several environments, including a photorealistic 3D simulation domain, Habitat. Additionally, we provide theoretical analysis and qualitative results demonstrating the information captured by action-bisimulation. | 翻訳日:2024-06-26 01:22:15 公開日:2024-06-24 |
# LLMは、インコンテクストの低リソース言語学習者がほとんどいない
LLMs Are Few-Shot In-Context Low-Resource Language Learners ( http://arxiv.org/abs/2403.16512v4 ) ライセンス: Link先を確認 | Samuel Cahyawijaya, Holy Lovenia, Pascale Fung, | (参考訳) In-context Learning (ICL) は、大規模な言語モデル(LLM)に対して、短いイン・コンテクスト情報のみを使用して、低リソース言語と低リソース言語のギャップを狭めるための重要な手段を提供する。
それにもかかわらず、低リソース言語のためのICLを探究する研究はごくわずかであり、そのほとんどはフランス語やスペイン語のような比較的高リソース言語に焦点を当てている。
本研究では,25の低リソース言語と7の比較的高リソース言語に対して,ICLとその言語間変動(X-ICL)を広範囲に研究する。
本研究は、低リソース言語におけるILCとLLMの有効性を評価するだけでなく、テキスト内ラベルアライメントの欠点を識別し、より効果的な代替手段であるクエリアライメントを導入する。
さらに、低リソース言語に対するICLの様々な側面に関する貴重な洞察を提供する。
本研究は,LLMの低リソース理解の質を高めるために,目的言語における言語ギャップを閉じ,目標とする低リソースと高リソース言語とのセマンティクスを整合させることにより,意味的関連情報を通じて,低リソース理解の質を高めることの重要性を結論づける。
我々の研究は、特に低リソース言語において、ICL研究を進めることの重要性を強調しています。
私たちのコードはhttps://github.com/SamuelCahyawijaya/in-context-alignmentで公開されています。
In-context learning (ICL) empowers large language models (LLMs) to perform diverse tasks in underrepresented languages using only short in-context information, offering a crucial avenue for narrowing the gap between high-resource and low-resource languages. Nonetheless, there is only a handful of works explored ICL for low-resource languages with most of them focusing on relatively high-resource languages, such as French and Spanish. In this work, we extensively study ICL and its cross-lingual variation (X-ICL) on 25 low-resource and 7 relatively higher-resource languages. Our study not only assesses the effectiveness of ICL with LLMs in low-resource languages but also identifies the shortcomings of in-context label alignment, and introduces a more effective alternative: query alignment. Moreover, we provide valuable insights into various facets of ICL for low-resource languages. Our study concludes the significance of few-shot in-context information on enhancing the low-resource understanding quality of LLMs through semantically relevant information by closing the language gap in the target language and aligning the semantics between the targeted low-resource and the high-resource language that the model is proficient in. Our work highlights the importance of advancing ICL research, particularly for low-resource languages. Our code is publicly released at https://github.com/SamuelCahyawijaya/in-context-alignment | 翻訳日:2024-06-26 01:12:30 公開日:2024-06-24 |
# 大規模言語モデルエージェントを用いたアセット管理シェルの生成:産業4.0におけるデジタル双生児のセマンティック相互運用に向けて
Generation of Asset Administration Shell with Large Language Model Agents: Toward Semantic Interoperability in Digital Twins in the Context of Industry 4.0 ( http://arxiv.org/abs/2403.17209v4 ) ライセンス: Link先を確認 | Yuchen Xia, Zhewen Xiao, Nasser Jazdi, Michael Weyrich, | (参考訳) 本研究では,デジタル双生児におけるセマンティック・インターオペラビリティの実現と,産業4.0におけるデジタル双生児モデルとしてのアセット・アドミニストレーション・シェル(AAS)の作成を支援する新しいアプローチを提案する。
本研究の基本的な考え方は,意味論に基づくコミュニケーションと有意義なテキストデータ生成が直接リンクされていることである。
そこで本研究では,テキストデータのセマンティックな意味を捉えた「意味ノード」データ構造を構築した。
次に,大規模言語モデルを用いたシステムの設計と実装を行い,技術資産を記述したデータシートから収集した原文データから「意味ノード」を処理し,標準化されたデジタルツインモデルを生成する。
評価の結果,62~79%の有効生成率を示し,大言語モデルの生成能力を有するディジタルツインインスタンスモデルに対して,ソーステキストからの情報のかなりの割合を誤りなく翻訳できることが示唆された。
この結果は、Industrial 4.0の文脈で直接適用され、AASモデルを作成する際の手作業を減らすためのデータモデル生成ツールとして実装される。
本評価では、異なるLLMの比較分析と、レトリーバル拡張生成(RAG)機構の詳細なアブレーション研究により、LLMシステムの技術的概念の解釈とデータ翻訳における有効性について考察する。
本研究は,ALSインスタンスの自動生成能力を強調し,産業アプリケーションにおけるデジタル双生児のセマンティック相互運用性の幅広い分野に寄与する。
プロトタイプの実装と評価結果はGitHub Repositoryで発表されています。
This research introduces a novel approach for achieving semantic interoperability in digital twins and assisting the creation of Asset Administration Shell (AAS) as digital twin model within the context of Industry 4.0. The foundational idea of our research is that the communication based on semantics and the generation of meaningful textual data are directly linked, and we posit that these processes are equivalent if the exchanged information can be serialized in text form. Based on this, we construct a "semantic node" data structure in our research to capture the semantic essence of textual data. Then, a system powered by large language models is designed and implemented to process the "semantic node" and generate standardized digital twin models from raw textual data collected from datasheets describing technical assets. Our evaluation demonstrates an effective generation rate of 62-79%, indicating a substantial proportion of the information from the source text can be translated error-free to the target digital twin instance model with the generative capability of large language models. This result has a direct application in the context of Industry 4.0, and the designed system is implemented as a data model generation tool for reducing the manual effort in creating AAS model. In our evaluation, a comparative analysis of different LLMs and an in-depth ablation study of Retrieval-Augmented Generation (RAG) mechanisms provide insights into the effectiveness of LLM systems for interpreting technical concepts and translating data. Our findings emphasize LLMs' capability to automate AAS instance creation and contribute to the broader field of semantic interoperability for digital twins in industrial applications. The prototype implementation and evaluation results are presented on our GitHub Repository: https://github.com/YuchenXia/AASbyLLM. | 翻訳日:2024-06-26 01:12:30 公開日:2024-06-24 |
# 大きな言語モデルをより良いランク付けに
Make Large Language Model a Better Ranker ( http://arxiv.org/abs/2403.19181v2 ) ライセンス: Link先を確認 | Wenshuo Chao, Zhi Zheng, Hengshu Zhu, Hao Liu, | (参考訳) 大規模言語モデル(LLM)は、様々な分野において堅牢な能力を示し、LLM強化レコメンダシステム(RS)のパラダイムシフトにつながっている。
現在までの研究は、高い計算コストのためにLLMベースのレコメンデータにとって非効率な、ポイントワイドとペアワイドのレコメンデーションパラダイムに焦点を当てている。
しかし、既存のリストワイドアプローチは、ランキング目標と次点予測のミスアライメントのため、ランキングタスクでは不足している。
さらに、これらのLCMに基づく手法は、特に評価の規模を考慮すると、候補間の順序関係を効果的に解決するのに苦労する。
これらの課題に対処するために,Aligned Listwise Ranking Objectives (ALRO) を用いた大規模言語モデルフレームワークを提案する。
ALROは、LLMの能力とランキングタスクの微妙な要求とのギャップを埋めるように設計されている。
具体的には、ALROは、順序関係を最適化するために設計されたラムダ損失をカスタマイズした適応である、ソフトなラムダ損失を導入することで、リストワイズに明示的なフィードバックを採用する。
このメカニズムにより、より正確な最適化目標が提供され、ランキングプロセスが強化される。
さらに、ALROには、位置バイアスに対処する置換感受性学習機構が組み込まれている。
評価研究により,ALROは既存の埋め込み型レコメンデーション法とLLMベースのレコメンデーションベースラインの両方より優れていることがわかった。
Large Language Models (LLMs) demonstrate robust capabilities across various fields, leading to a paradigm shift in LLM-enhanced Recommender System (RS). Research to date focuses on point-wise and pair-wise recommendation paradigms, which are inefficient for LLM-based recommenders due to high computational costs. However, existing list-wise approaches also fall short in ranking tasks due to misalignment between ranking objectives and next-token prediction. Moreover, these LLM-based methods struggle to effectively address the order relation among candidates, particularly given the scale of ratings. To address these challenges, this paper introduces the large language model framework with Aligned Listwise Ranking Objectives (ALRO). ALRO is designed to bridge the gap between the capabilities of LLMs and the nuanced requirements of ranking tasks. Specifically, ALRO employs explicit feedback in a listwise manner by introducing soft lambda loss, a customized adaptation of lambda loss designed for optimizing order relations. This mechanism provides more accurate optimization goals, enhancing the ranking process. Additionally, ALRO incorporates a permutation-sensitive learning mechanism that addresses position bias, a prevalent issue in generative models, without imposing additional computational burdens during inference. Our evaluative studies reveal that ALRO outperforms both existing embedding-based recommendation methods and LLM-based recommendation baselines. | 翻訳日:2024-06-26 01:12:30 公開日:2024-06-24 |
# NaijaHate: ナイジェリアのTwitter上でのヘイトスピーチ検出を代表データで評価
NaijaHate: Evaluating Hate Speech Detection on Nigerian Twitter Using Representative Data ( http://arxiv.org/abs/2403.19260v3 ) ライセンス: Link先を確認 | Manuel Tonneau, Pedro Vitor Quinta de Castro, Karim Lasri, Ibrahim Farouq, Lakshminarayanan Subramanian, Victor Orozco-Olvera, Samuel P. Fraiberger, | (参考訳) オンライン憎悪の世界的な問題に対処するために、ヘイトスピーチ検出(HSD)システムは一般的に米国のデータセット上で開発され、その結果、メジャー・ワールドの英語方言への一般化に失敗する。
さらに、HSDモデルは非表現的なサンプルでしばしば評価され、実環境におけるモデル性能の過大評価に関する懸念が提起される。
本研究では,ナイジェリアのつぶやきの代表的なサンプルを含むHSDにアノテートされた最初のデータセットであるNaijaHateを紹介する。
文献で伝統的に用いられてきたバイアス付きデータセットで評価されたHSDは、少なくとも2倍の実際の性能を常に過大評価している。
次に,ナイジェリアのTwitterコンテキストに合わせた事前学習モデルであるNaijaXLM-Tを提案し,HSD性能の最大化において,ドメイン適応型事前学習と微調整が果たす重要な役割を確立する。
最後に、現実の状況下でのHSDシステムの質素なパフォーマンスのため、コンテンツモデレーターは毎日1万件のナイジェリアのツイートをヘイトフルとマークし、すべてのヘイトフルコンテンツの60%を中程度に減らし、ソーシャルメディアの利用が世界中で拡大するにつれて、ヘイトスピーチを大規模にモデレートするという課題を強調する必要があることに気付きました。
これらの結果は、堅牢なHSDシステムへの道を歩み、低リソース環境でのヘイトフルコンテンツからソーシャルメディアユーザーを保護している。
To address the global issue of online hate, hate speech detection (HSD) systems are typically developed on datasets from the United States, thereby failing to generalize to English dialects from the Majority World. Furthermore, HSD models are often evaluated on non-representative samples, raising concerns about overestimating model performance in real-world settings. In this work, we introduce NaijaHate, the first dataset annotated for HSD which contains a representative sample of Nigerian tweets. We demonstrate that HSD evaluated on biased datasets traditionally used in the literature consistently overestimates real-world performance by at least two-fold. We then propose NaijaXLM-T, a pretrained model tailored to the Nigerian Twitter context, and establish the key role played by domain-adaptive pretraining and finetuning in maximizing HSD performance. Finally, owing to the modest performance of HSD systems in real-world conditions, we find that content moderators would need to review about ten thousand Nigerian tweets flagged as hateful daily to moderate 60% of all hateful content, highlighting the challenges of moderating hate speech at scale as social media usage continues to grow globally. Taken together, these results pave the way towards robust HSD systems and a better protection of social media users from hateful content in low-resource settings. | 翻訳日:2024-06-26 01:12:30 公開日:2024-06-24 |
# 言語モデルアライメントのためのリワードハックを緩和する正規化ベストオブNサンプリング
Regularized Best-of-N Sampling to Mitigate Reward Hacking for Language Model Alignment ( http://arxiv.org/abs/2404.01054v3 ) ライセンス: Link先を確認 | Yuu Jinnai, Tetsuro Morimura, Kaito Ariu, Kenshi Abe, | (参考訳) 報奨モデルを用いたBest-of-N(BoN)サンプリングは、復号時の人間の嗜好に合わせてLLM(Large Language Models)を調整するための効果的な戦略であることが示されている。
BoNサンプリングは、報酬ハッキングとして知られる問題の影響を受けやすい。
報酬モデルは真の目的に対する不完全なプロキシであるため、その価値を過度に最適化することは、真の目的に対するパフォーマンスを損なう可能性がある。
優先学習技術における報酬ハックを防ぐ一般的な解決策は、言語モデルが参照モデルに近く続けることを保証する近接正規化(例えば、KL正規化)を使用して報酬を最適化することである。
本研究では,プライオリティ学習手法と同様に,応答選択に近接項を組み込むことで報奨ハッキングを緩和することを目的とした,BoNの変種であるRegularized Best-of-N(RBoN)を提案する。
我々は、AlpacaFarm と Anthropic のhh-rlhf データセット上で RBoN を評価し、BoN よりも優れていることを発見した。
RBoNの適用例として、RBoNを用いて、ペアワイズな選好学習データセットを生成する。
実験の結果、RBoNで生成されたデータセットに基づいて訓練されたDPOモデルは、バニラBoNで生成されたDPOモデルより優れていた。
私たちのコードはhttps://github.com/CyberAgentAILab/regularized-bonで利用可能です。
Best-of-N (BoN) sampling with a reward model has been shown to be an effective strategy for aligning Large Language Models (LLMs) to human preferences at the time of decoding. BoN sampling is susceptible to a problem known as reward hacking. Because the reward model is an imperfect proxy for the true objective, over-optimizing its value can compromise its performance on the true objective. A common solution to prevent reward hacking in preference learning techniques is to optimize a reward using proximity regularization (e.g., KL regularization), which ensures that the language model remains close to the reference model. In this research, we propose Regularized Best-of-N (RBoN), a variant of BoN that aims to mitigate reward hacking by incorporating a proximity term in response selection, similar to preference learning techniques. We evaluate RBoN on the AlpacaFarm and Anthropic's hh-rlhf datasets and find that it outperforms BoN. As an application of RBoN, we use RBoN to generate a pairwise preference learning dataset. Experimental results show that a DPO model trained on a dataset generated with RBoN outperforms a DPO model generated with vanilla BoN. Our code is available at https://github.com/CyberAgentAILab/regularized-bon | 翻訳日:2024-06-26 01:12:30 公開日:2024-06-24 |
# MonoBox:Monotonicity Constraintを用いた軽量なボックス管理ポリープセグメンテーション
MonoBox: Tightness-free Box-supervised Polyp Segmentation using Monotonicity Constraint ( http://arxiv.org/abs/2404.01188v4 ) ライセンス: Link先を確認 | Qiang Hu, Zhenyu Yi, Ying Zhou, Ting Li, Fan Huang, Mei Liu, Qiang Li, Zhiwei Wang, | (参考訳) 単調性に制約された革新的なボックス教師付きセグメンテーション手法であるMonoBoxを提案し,そのトレーニングをユーザフレンドリーでないボックスタイトネスの仮定から解放する。
ボックスエッジが正確にターゲット境界に触れなければならない従来のボックス管理セグメンテーションとは対照的に、MonoBoxは不正確なアノテートボックスを活用して、堅牢なピクセルワイドセグメンテーションを実現する。
この'linchpin'は、ボックスエッジ周辺のノイズの多いゾーンにおいて、MonoBoxは従来のミスガイドによるマルチインスタンス学習損失を捨て、代わりに慎重に設計されたモノトニック性制約と呼ばれる目的を最適化する、というものだ。
前景から背景へと遷移する方向に沿って、この新しい制約は、単調に減少する値の傾向に固執するように応答する。
したがって、ノイズゾーン内の元の信頼性の低い学習は、正しい、効果的な単調性最適化に変換される。
さらに、適応ラベル補正を導入し、MonoBoxは、以前のエポックから予測されたマスクを使用してボックスアノテーションの厳密性を向上し、トレーニングが進むにつれてノイズゾーンを動的に縮小する。
本研究は, ポリープと正常組織の境界が曖昧であるため, ボックスの密閉度を満たすことが困難であるポリープのボックス管理セグメンテーションタスクにおけるMonoBoxの検証である。
公開合成および社内実雑音データセットの実験では、MonoBoxはDiceを少なくとも5.5%改善し、3.3%改善することで、他のアンチ・ノイズ・オブ・ザ・アーティファクトを上回っている。
コードはhttps://github.com/Huster-Hq/MonoBoxにある。
We propose MonoBox, an innovative box-supervised segmentation method constrained by monotonicity to liberate its training from the user-unfriendly box-tightness assumption. In contrast to conventional box-supervised segmentation, where the box edges must precisely touch the target boundaries, MonoBox leverages imprecisely-annotated boxes to achieve robust pixel-wise segmentation. The 'linchpin' is that, within the noisy zones around box edges, MonoBox discards the traditional misguiding multiple-instance learning loss, and instead optimizes a carefully-designed objective, termed monotonicity constraint. Along directions transitioning from the foreground to background, this new constraint steers responses to adhere to a trend of monotonically decreasing values. Consequently, the originally unreliable learning within the noisy zones is transformed into a correct and effective monotonicity optimization. Moreover, an adaptive label correction is introduced, enabling MonoBox to enhance the tightness of box annotations using predicted masks from the previous epoch and dynamically shrink the noisy zones as training progresses. We verify MonoBox in the box-supervised segmentation task of polyps, where satisfying box-tightness is challenging due to the vague boundaries between the polyp and normal tissues. Experiments on both public synthetic and in-house real noisy datasets demonstrate that MonoBox exceeds other anti-noise state-of-the-arts by improving Dice by at least 5.5% and 3.3%, respectively. Codes are at https://github.com/Huster-Hq/MonoBox. | 翻訳日:2024-06-26 01:12:30 公開日:2024-06-24 |
# EGTR:Scene Graph 生成のための Transformer からのグラフ抽出
EGTR: Extracting Graph from Transformer for Scene Graph Generation ( http://arxiv.org/abs/2404.02072v5 ) ライセンス: Link先を確認 | Jinbae Im, JeongYeon Nam, Nokyung Park, Hyungmin Lee, Seunghyun Park, | (参考訳) SGG(Scene Graph Generation)は、オブジェクトを検出し、オブジェクト間の関係を予測するための課題である。
DETRの開発後、一段物体検出器に基づく一段SGGモデルが活発に研究されている。
しかし、オブジェクト間の関係を予測するために複雑なモデリングが使用され、オブジェクト検出器のマルチヘッド自己アテンションで学習したオブジェクトクエリー間の固有の関係は無視されている。
本稿では,DETRデコーダのマルチヘッド自己アテンション層で学習した様々な関係から関係グラフを抽出する軽量一段SGGモデルを提案する。
自己注意副産物を十分に活用することにより、浅い関係抽出ヘッドで関係グラフを効果的に抽出することができる。
対象検出タスクにおける関係抽出タスクの依存性を考慮して,検出対象の品質に応じて関係ラベルを適応的に調整する新しい関係平滑化手法を提案する。
関係の平滑化により、モデルは訓練開始時の対象検出タスクに焦点を当てた連続カリキュラムに従って訓練され、対象検出性能が徐々に向上するにつれてマルチタスク学習を行う。
さらに,関係抽出の補助タスクとして,オブジェクトペア間に関係が存在するかどうかを予測する接続予測タスクを提案する。
本稿では,Visual Genome と Open Image V6 データセットに対する提案手法の有効性と有効性を示す。
私たちのコードはhttps://github.com/naver-ai/egtr.comで公開されています。
Scene Graph Generation (SGG) is a challenging task of detecting objects and predicting relationships between objects. After DETR was developed, one-stage SGG models based on a one-stage object detector have been actively studied. However, complex modeling is used to predict the relationship between objects, and the inherent relationship between object queries learned in the multi-head self-attention of the object detector has been neglected. We propose a lightweight one-stage SGG model that extracts the relation graph from the various relationships learned in the multi-head self-attention layers of the DETR decoder. By fully utilizing the self-attention by-products, the relation graph can be extracted effectively with a shallow relation extraction head. Considering the dependency of the relation extraction task on the object detection task, we propose a novel relation smoothing technique that adjusts the relation label adaptively according to the quality of the detected objects. By the relation smoothing, the model is trained according to the continuous curriculum that focuses on object detection task at the beginning of training and performs multi-task learning as the object detection performance gradually improves. Furthermore, we propose a connectivity prediction task that predicts whether a relation exists between object pairs as an auxiliary task of the relation extraction. We demonstrate the effectiveness and efficiency of our method for the Visual Genome and Open Image V6 datasets. Our code is publicly available at https://github.com/naver-ai/egtr. | 翻訳日:2024-06-26 01:12:30 公開日:2024-06-24 |
# キック後の1次元フェルミポーラロン:運動量分布の両側特異性、ブラッグ反射およびその他の正確な結果
One-dimensional Fermi polaron after a kick: two-sided singularity of the momentum distribution, Bragg reflection and other exact results ( http://arxiv.org/abs/2404.02099v2 ) ライセンス: Link先を確認 | Oleksandr Gamayun, Oleg Lychkovskiy, | (参考訳) 量子流体に浸漬された移動不純物粒子は、その周りの流体の局所的な乱れと不純物からなる準粒子であるポーラロンを形成する。
キック後に1次元のポラロンがどうなるか、即時に不純物に有限のインパルスを与える力の突然の応用について尋ねる。
フェルミオンまたはハードコアボソンの一次元気体中の不純物を記述する可積分モデルの枠組みにおいて、ポストキック緩和が終わったときに確立されたポーラロン運動量の分布を計算する。
この分布の顕著な特徴は、両側のパワーロー特異点である。
2つのプロセスのうちの1つに起因している。
最初のプロセスでは、全てのインパルスは、流体のフォノンのような励起を発生させることなく、ポーラロンに転送される。
第2のプロセスでは、インパルスは流体の中心運動とポラロンの間で共有されるが、流体の励起は生じない。
後者の過程は、実際にはブリュアンゾーンの端にあるブラッグ反射である。
それぞれのプロセスの条件を慎重に分析する。
特異点近傍における分布の漸近形式が導出される。
A mobile impurity particle immersed in a quantum fluid forms a polaron - a quasiparticle consisting of the impurity and a local disturbance of the fluid around it. We ask what happens to a one-dimensional polaron after a kick, i.e. an abrupt application of a force that instantly delivers a finite impulse to the impurity. In the framework of an integrable model describing an impurity in a one-dimensional gas of fermions or hard-core bosons, we calculate the distribution of the polaron momentum established when the post-kick relaxation is over. A remarkable feature of this distribution is a two-sided power-law singularity. It emerges due to one of two processes. In the first process, the whole impulse is transferred to the polaron, without creating phonon-like excitations of the fluid. In the second process, the impulse is shared between the polaron and the center-of-mass motion of the fluid, again without creating any fluid excitations. The latter process is, in fact, a Bragg reflection at the edge of the emergent Brillouin zone. We carefully analyze the conditions for each of the two processes. The asymptotic form of the distribution in the vicinity of the singularity is derived. | 翻訳日:2024-06-26 01:12:30 公開日:2024-06-24 |
# 顔認識における外部分布データの正確な分類
Accurately Classifying Out-Of-Distribution Data in Facial Recognition ( http://arxiv.org/abs/2404.03876v2 ) ライセンス: Link先を確認 | Gianluca Barone, Aashrit Cunchala, Rudy Nunez, | (参考訳) 標準分類理論は、テストセットとトレーニングセットにおける画像の分布が同一であると仮定する。
残念なことに、現実のシナリオは一般的に、トレーニングディストリビューション("in-distribution")のデータとは異なる、目に見えないデータ("out-of-distriion data")を特徴とします。
この問題は、未表現のグループからのデータが、トレーニングデータの均等な割合を表現せずにテストデータに現れるという社会正義の問題で最も多い。
この結果、モデルが確実に間違った決定と予測を返却する可能性がある。
ニューラルネットワークの性能は、分布外データの複数のデータセットで同時にトレーニングされたときに、分布外データの顔画像を改善することができるか?
本研究では,外周露光モデルを導入し,他の顔画像のデータセットが実装された際にモデルの性能がどう変化するかを検討する。
モデルの精度およびその他の指標は、アウトレイラ露光を適用し、トレーニング可能な重みパラメータを組み込んで、オフレイラ画像へのマシンの重み付けを強化し、異なるクラスラベルの重要性を再重み付けすることで向上することができる。
また,画像のソートや画像特徴による外れ値の決定が,平均画素値のソートよりも指標に影響を及ぼすかどうかについても検討した。
私たちの目標は、モデルをより正確にするだけでなく、より広い範囲の画像をスキャンすることで、より公平にすることでした。
また、バランスの取れた特徴を持つより公平なデータセットがモデルの精度に影響を及ぼすかどうかを確認するために、データセットを逆向きにテストしました。
Standard classification theory assumes that the distribution of images in the test and training sets are identical. Unfortunately, real-life scenarios typically feature unseen data ("out-of-distribution data") which is different from data in the training distribution("in-distribution"). This issue is most prevalent in social justice problems where data from under-represented groups may appear in the test data without representing an equal proportion of the training data. This may result in a model returning confidently wrong decisions and predictions. We are interested in the following question: Can the performance of a neural network improve on facial images of out-of-distribution data when it is trained simultaneously on multiple datasets of in-distribution data? We approach this problem by incorporating the Outlier Exposure model and investigate how the model's performance changes when other datasets of facial images were implemented. We observe that the accuracy and other metrics of the model can be increased by applying Outlier Exposure, incorporating a trainable weight parameter to increase the machine's emphasis on outlier images, and by re-weighting the importance of different class labels. We also experimented with whether sorting the images and determining outliers via image features would have more of an effect on the metrics than sorting by average pixel value. Our goal was to make models not only more accurate but also more fair by scanning a more expanded range of images. We also tested the datasets in reverse order to see whether a more fair dataset with balanced features has an effect on the model's accuracy. | 翻訳日:2024-06-26 01:12:30 公開日:2024-06-24 |
# CLUE:LLMの臨床言語理解評価
CLUE: A Clinical Language Understanding Evaluation for LLMs ( http://arxiv.org/abs/2404.04067v3 ) ライセンス: Link先を確認 | Amin Dada, Marie Bauer, Amanda Butler Contreras, Osman Alperen Koraş, Constantin Marc Seibold, Kaleb E Smith, Jens Kleesiek, | (参考訳) 大規模言語モデル(LLM)は、患者のケア、診断、管理プロセスに大きく貢献することが期待されている。
新たなバイオメディカルLLMは、プライバシ要求や計算上の制約を含む、医療特有の課題に対処することを目指している。
このセンシティブなアプリケーション領域に対するモデルの適合性を評価することが、最も重要である。
しかし、評価は主に臨床応用の複雑さを反映しない非臨床課題に限られている。
このギャップを埋めるために臨床言語理解評価(CLUE)を提案する。
CLUEには、複雑な医療環境におけるLCMの実用性をテストするための6つのタスクが含まれている。
私たちの評価には、合計25ドルのLLMが含まれています。
従来の評価とは対照的に、CLUEは12のバイオメディカルモデルのうち9つの性能の低下を示している。
我々のベンチマークは、医療におけるLCMの評価と開発のための標準化されたアプローチへの一歩であり、将来のモデル開発と臨床応用の現実的なニーズを一致させるものである。
我々は、将来の研究のためのすべての評価スクリプトとデータセットをhttps://github.com/TIO-IKIM/CLUEでオープンソース化します。
Large Language Models (LLMs) are expected to significantly contribute to patient care, diagnostics, and administrative processes. Emerging biomedical LLMs aim to address healthcare-specific challenges, including privacy demands and computational constraints. Assessing the models' suitability for this sensitive application area is of the utmost importance. However, evaluation has primarily been limited to non-clinical tasks, which do not reflect the complexity of practical clinical applications. To fill this gap, we present the Clinical Language Understanding Evaluation (CLUE), a benchmark tailored to evaluate LLMs on clinical tasks. CLUE includes six tasks to test the practical applicability of LLMs in complex healthcare settings. Our evaluation includes a total of $25$ LLMs. In contrast to previous evaluations, CLUE shows a decrease in performance for nine out of twelve biomedical models. Our benchmark represents a step towards a standardized approach to evaluating and developing LLMs in healthcare to align future model development with the real-world needs of clinical application. We open-source all evaluation scripts and datasets for future research at https://github.com/TIO-IKIM/CLUE. | 翻訳日:2024-06-26 01:12:30 公開日:2024-06-24 |
# ALERT: 大規模言語モデルの安全性を評価するための総合ベンチマーク
ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming ( http://arxiv.org/abs/2404.08676v3 ) ライセンス: Link先を確認 | Simone Tedeschi, Felix Friedrich, Patrick Schramowski, Kristian Kersting, Roberto Navigli, Huu Nguyen, Bo Li, | (参考訳) LLM(Large Language Models)を構築する場合、安全を念頭に置いてガードレールで保護することが最重要である。
実際、LLMは、個人や社会に害をもたらす可能性のある有害、違法、または非倫理的な行動を促進または正規化するコンテンツを生成するべきではない。
この原則は、通常の使用と敵対的な使用の両方に適用される。
そこで本研究では,新たなリスク分類法に基づく安全性評価のための大規模ベンチマークであるALERTを紹介する。
LLMの安全性をレッドチーム方式で評価するために設計され、新しい分類法を用いて分類された45k以上の命令から構成される。
敵対的なテストシナリオにLLMを適用することで、ALERTは脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目指している。
さらに、きめ細かい分類法により、研究者は、様々なポリシーとの整合性を評価するのに役立つ詳細な評価を行うことができる。
実験では,10のオープンソースおよびクローズドソース LLM を広範囲に評価し,その多くが依然として適切なレベルの安全性を達成するのに苦慮していることを示す。
When building Large Language Models (LLMs), it is paramount to bear safety in mind and protect them with guardrails. Indeed, LLMs should never generate content promoting or normalizing harmful, illegal, or unethical behavior that may contribute to harm to individuals or society. This principle applies to both normal and adversarial use. In response, we introduce ALERT, a large-scale benchmark to assess safety based on a novel fine-grained risk taxonomy. It is designed to evaluate the safety of LLMs through red teaming methodologies and consists of more than 45k instructions categorized using our novel taxonomy. By subjecting LLMs to adversarial testing scenarios, ALERT aims to identify vulnerabilities, inform improvements, and enhance the overall safety of the language models. Furthermore, the fine-grained taxonomy enables researchers to perform an in-depth evaluation that also helps one to assess the alignment with various policies. In our experiments, we extensively evaluate 10 popular open- and closed-source LLMs and demonstrate that many of them still struggle to attain reasonable levels of safety. | 翻訳日:2024-06-26 01:02:45 公開日:2024-06-24 |
# 全体としてのノード様:グラフ分類のための構造認識検索と粗化
Node-like as a Whole: Structure-aware Searching and Coarsening for Graph Classification ( http://arxiv.org/abs/2404.11869v2 ) ライセンス: Link先を確認 | Xiaorui Qi, Qijie Bai, Yanlong Wen, Haiwei Zhang, Xiaojie Yuan, | (参考訳) グラフトランスフォーマー(GT)は、グラフレベルのタスクにおいて顕著な成果を上げている。
しかし、既存のほとんどの研究はグラフ構造をノード表現の拡張のためのガイダンスやバイアスの一種と見なしており、これはノード中心の視点に焦点を当てており、エッジや構造の明示的な表現を欠いている。
1つの自然な疑問は、グラフ構造全体をノード的に扱うことで、高レベルの機能を学ぶことができるか、ということです。
実験分析を通じて,この仮定の実現可能性について検討する。
本稿では,グラフ分類のためのGTアーキテクチャに基づく構造認識探索と粗大化(GRLsc)による新しい多視点グラフ表現学習モデルを提案する。
具体的には、完全な構造表現を学ぶために、オリジナル、粗大化、変換の3つのユニークなビューを構築します。
階層的ヒューリスティックグラフを通じてループと斜めを圧縮し、適切に設計された制約でそれらを制限し、構造間の高レベルな相互作用を学習するための粗いビューを構築する。
また、エッジ埋め込みのための線グラフを導入し、変換ビューを構築するためにエッジ中央の視点に切り替える。
8つの実世界のデータセットの実験は、さまざまなアーキテクチャから28のベースラインでGRLscの改善を実証している。
Graph Transformers (GTs) have made remarkable achievements in graph-level tasks. However, most existing works regard graph structures as a form of guidance or bias for enhancing node representations, which focuses on node-central perspectives and lacks explicit representations of edges and structures. One natural question is, can we treat graph structures node-like as a whole to learn high-level features? Through experimental analysis, we explore the feasibility of this assumption. Based on our findings, we propose a novel multi-view graph representation learning model via structure-aware searching and coarsening (GRLsc) on GT architecture for graph classification. Specifically, we build three unique views, original, coarsening, and conversion, to learn a thorough structural representation. We compress loops and cliques via hierarchical heuristic graph coarsening and restrict them with well-designed constraints, which builds the coarsening view to learn high-level interactions between structures. We also introduce line graphs for edge embeddings and switch to edge-central perspective to construct the conversion view. Experiments on eight real-world datasets demonstrate the improvements of GRLsc over 28 baselines from various architectures. | 翻訳日:2024-06-26 01:02:45 公開日:2024-06-24 |
# ソフトウェアシステムからポスト量子クリプトグラフィへの移行 - 体系的文献レビュー
Migrating Software Systems towards Post-Quantum-Cryptography -- A Systematic Literature Review ( http://arxiv.org/abs/2404.12854v2 ) ライセンス: Link先を確認 | Christian Näther, Daniel Herzinger, Stefan-Lukas Gazdag, Jan-Philipp Steghöfer, Simon Daum, Daniel Loebenberger, | (参考訳) インターネットのようなネットワークは、私たちのコネクテッドワールドにとって不可欠です。
量子コンピューティングは、基本的なセキュリティメカニズムを脅かすため、この異種インフラに脅威をもたらす。
したがって、ネットワークとそのコンポーネントには、後量子暗号(PQC)への移行が必要である。
現時点では、そのような移行をどのように構成し、実際に実装すべきかについての知識はほとんどありません。
系統的な文献レビューでは,IPネットワークのPQCへのマイグレーションアプローチについて論じている。
移行プロセスと実世界のソフトウェアシステム移行に関する論文を調査する。
プロセス側では、用語、マイグレーションステップ、役割が文献全体で正確に、あるいは一貫して定義されていないことが分かりました。
それでも、我々は4つの主要なフェーズと適切なサブステップを特定し、それもまた新しい役割のアーチェタイプと一致した。
実世界のマイグレーションに関しては、さまざまなPQC実装とハイブリッドソリューションが、幅広いシステムタイプに属するシステムのマイグレーションに使われています。
すべての論文の中で、私たちは、PQCの経験の欠如と高い実現努力、今後のシステムのセキュリティに対する懸念、そして最後に、高い複雑性の3つの大きな課題に気付きました。
以上の結果から,近年の標準化努力が量子セーフネットワークを推し進めていることが示唆された。
しかし、この文献は定義やベストプラクティスについてまだ合意に達していない。
実装は概ね実験的であり、必ずしも実用的ではない。
この(適用された)研究の速い動きの領域をよりよく把握するために、系統的な文献レビューは、その現状を包括的に概観し、PQCマイグレーションの問題を掘り下げる出発点として役立ちます。
Networks such as the Internet are essential for our connected world. Quantum computing poses a threat to this heterogeneous infrastructure since it threatens fundamental security mechanisms. Therefore, a migration to post-quantum-cryptography (PQC) is necessary for networks and their components. At the moment, there is little knowledge on how such migrations should be structured and implemented in practice. Our systematic literature review addresses migration approaches for IP networks towards PQC. It surveys papers about the migration process and exemplary real-world software system migrations. On the process side, we found that terminology, migration steps, and roles are not defined precisely or consistently across the literature. Still, we identified four major phases and appropriate substeps which we matched with also emerging archetypes of roles. In terms of real-world migrations, we see that reports used several different PQC implementations and hybrid solutions for migrations of systems belonging to a wide range of system types. Across all papers we noticed three major challenges for adopters: missing experience of PQC and a high realization effort, concerns about the security of the upcoming system, and finally, high complexity. Our findings indicate that recent standardization efforts already push quantum-safe networking forward. However, the literature is still not in consensus about definitions and best practices. Implementations are mostly experimental and not necessarily practical, leading to an overall chaotic situation. To better grasp this fast moving field of (applied) research, our systematic literature review provides a comprehensive overview of its current state and serves as a starting point for delving into the matter of PQC migration. | 翻訳日:2024-06-26 01:02:45 公開日:2024-06-24 |
# EEGEncoder: Transformer-based Motor Imagery Classification によるBCIの改善
EEGEncoder: Advancing BCI with Transformer-Based Motor Imagery Classification ( http://arxiv.org/abs/2404.14869v2 ) ライセンス: Link先を確認 | Wangdan Liao, Weidong Wang, | (参考訳) 脳-コンピュータインタフェース(BCI)は、脳波信号を利用してデバイスを直接神経制御し、運動障害を持つ個人にとって大きな利益をもたらす。
脳波に基づく運動画像(MI)分類のための従来の機械学習手法では、手動の特徴抽出やノイズに対する感受性といった課題に直面しており、これらの制限を克服するために変形器とTCNを用いたディープラーニングフレームワークであるEEGEncoderを導入している。
本稿では,時間的特徴と空間的特徴を抽出し,モータ画像分類タスクの精度を向上させるために,DSTS(Dual-Stream Temporal-Spatial Block)という融合アーキテクチャを提案する。
さらに、複数の並列構造を用いてモデルの性能を向上させる。
BCIコンペティションIV-2aデータセットでテストすると、現在の最先端技術よりも優れた結果が得られる。
Brain-computer interfaces (BCIs) harness electroencephalographic signals for direct neural control of devices, offering a significant benefit for individuals with motor impairments. Traditional machine learning methods for EEG-based motor imagery (MI) classification encounter challenges such as manual feature extraction and susceptibility to noise.This paper introduces EEGEncoder, a deep learning framework that employs modified transformers and TCNs to surmount these limitations. We innovatively propose a fusion architecture, namely Dual-Stream Temporal-Spatial Block (DSTS), to capture temporal and spatial features, improving the accuracy of Motor Imagery classification task. Additionally, we use multiple parallel structures to enhance the performance of the model. When tested on the BCI Competition IV-2a dataset, our model results outperform current state-of-the-art techniques. | 翻訳日:2024-06-26 01:02:45 公開日:2024-06-24 |
# OpenDlign:depth-aligned Imagesによるオープンワールド3D学習の強化
OpenDlign: Enhancing Open-World 3D Learning with Depth-Aligned Images ( http://arxiv.org/abs/2404.16538v2 ) ライセンス: Link先を確認 | Ye Mao, Junpeng Jing, Krystian Mikolajczyk, | (参考訳) 視覚言語モデル(VLM)を用いた最近のオープンワールド3D表現学習手法は,画像テキスト情報と3Dデータを整合させる手法として,より優れた3Dゼロショット性能を示している。
しかし、このアライメントのためのCADレンダリング画像は、しばしばリアリズムやテクスチャの変化を欠き、アライメントの堅牢さを損なう。
さらに、3Dと2D事前学習データセットのボリューム差は、VLMの表現能力を3D学習に移行するための効果的な戦略の必要性を強調している。
本稿では,多モードアライメントのための拡散モデルから生成された奥行きアライメント画像を用いたオープンワールド3DモデルOpenDlignを提案する。
これらの画像は拡散モデルの確率的性質によりCADレンダリングよりも高いテクスチャ多様性を示す。
OpenDlignは、深度マッププロジェクションパイプラインを洗練し、深度固有のプロンプトを設計することで、3D表現学習のために訓練済みのVLMの豊富な知識を活用している。
実験の結果,OpenDlignは限られたShapeNetデータセット上で600万のパラメータのみを微調整したにもかかわらず,多様な3Dタスクにおいて高いゼロショットと少数ショットのパフォーマンスを実現していることがわかった。
ゼロショット分類では、OpenDlignはModelNet40で8.0%、OmniObject3Dで16.4%を上回っている。
さらに、マルチモーダルアライメントのための奥行きアライメント画像を使用することで、他の最先端モデルの性能が一貫して向上する。
Recent open-world 3D representation learning methods using Vision-Language Models (VLMs) to align 3D data with image-text information have shown superior 3D zero-shot performance. However, CAD-rendered images for this alignment often lack realism and texture variation, compromising alignment robustness. Moreover, the volume discrepancy between 3D and 2D pretraining datasets highlights the need for effective strategies to transfer the representational abilities of VLMs to 3D learning. In this paper, we present OpenDlign, a novel open-world 3D model using depth-aligned images generated from a diffusion model for robust multimodal alignment. These images exhibit greater texture diversity than CAD renderings due to the stochastic nature of the diffusion model. By refining the depth map projection pipeline and designing depth-specific prompts, OpenDlign leverages rich knowledge in pre-trained VLM for 3D representation learning with streamlined fine-tuning. Our experiments show that OpenDlign achieves high zero-shot and few-shot performance on diverse 3D tasks, despite only fine-tuning 6 million parameters on a limited ShapeNet dataset. In zero-shot classification, OpenDlign surpasses previous models by 8.0% on ModelNet40 and 16.4% on OmniObject3D. Additionally, using depth-aligned images for multimodal alignment consistently enhances the performance of other state-of-the-art models. | 翻訳日:2024-06-26 01:02:45 公開日:2024-06-24 |
# スマートコントラクトのための静的アプリケーションセキュリティテスト(SAST)ツール
Static Application Security Testing (SAST) Tools for Smart Contracts: How Far Are We? ( http://arxiv.org/abs/2404.18186v2 ) ライセンス: Link先を確認 | Kaixuan Li, Yue Xue, Sen Chen, Han Liu, Kairan Sun, Ming Hu, Haijun Wang, Yang Liu, Yixiang Chen, | (参考訳) 近年,スマートコントラクトセキュリティの重要性が高まっている。
この問題に対処するため、スマートコントラクトの脆弱性を検出するために、多数の静的アプリケーションセキュリティテスト(SAST)ツールが提案されている。
しかし、これらのツールを客観的に比較して有効性を決定することは依然として困難である。
既存の研究は、分類学とベンチマークが、粗大で時代遅れの可能性のある脆弱性タイプだけをカバーしているため、しばしば不足している。
本稿では、スマートコントラクトのための45のユニークな脆弱性タイプを含む最新のきめ細かい分類法を提案することにより、このギャップを埋める。
ベースラインとして、40の異なるタイプをカバーし、さまざまなコード特性、脆弱性パターン、アプリケーションシナリオを含む広範なベンチマークを開発しています。
このベンチマークでは,788のスマートコントラクトファイルと10,394の脆弱性を含む8つのSASTツールを評価した。
以上の結果から,既存のSASTツールはベンチマークで約50%の脆弱性の検出に失敗し,10%を超える精度で偽陽性に陥ることが判明した。
また,複数ツールの結果を組み合わせることで,36.77ポイントのフラグアップを犠牲にして,偽陰性率を効果的に低減できることがわかった。
それでも多くの脆弱性、特にAccess ControlとReentrancy以外の脆弱性は未検出のままである。
私たちはついに、ツール開発、強化、評価、開発者、研究者、実践者のための選択に関するガイダンスを提供したいと思っています。
In recent years, the importance of smart contract security has been heightened by the increasing number of attacks against them. To address this issue, a multitude of static application security testing (SAST) tools have been proposed for detecting vulnerabilities in smart contracts. However, objectively comparing these tools to determine their effectiveness remains challenging. Existing studies often fall short due to the taxonomies and benchmarks only covering a coarse and potentially outdated set of vulnerability types, which leads to evaluations that are not entirely comprehensive and may display bias. In this paper, we fill this gap by proposing an up-to-date and fine-grained taxonomy that includes 45 unique vulnerability types for smart contracts. Taking it as a baseline, we develop an extensive benchmark that covers 40 distinct types and includes a diverse range of code characteristics, vulnerability patterns, and application scenarios. Based on them, we evaluated 8 SAST tools using this benchmark, which comprises 788 smart contract files and 10,394 vulnerabilities. Our results reveal that the existing SAST tools fail to detect around 50% of vulnerabilities in our benchmark and suffer from high false positives, with precision not surpassing 10%. We also discover that by combining the results of multiple tools, the false negative rate can be reduced effectively, at the expense of flagging 36.77 percentage points more functions. Nevertheless, many vulnerabilities, especially those beyond Access Control and Reentrancy vulnerabilities, remain undetected. We finally highlight the valuable insights from our study, hoping to provide guidance on tool development, enhancement, evaluation, and selection for developers, researchers, and practitioners. | 翻訳日:2024-06-26 01:02:45 公開日:2024-06-24 |
# 高次元回帰におけるスケーリングと再正規化
Scaling and renormalization in high-dimensional regression ( http://arxiv.org/abs/2405.00592v2 ) ライセンス: Link先を確認 | Alexander Atanasov, Jacob A. Zavatone-Veth, Cengiz Pehlevan, | (参考訳) 本稿では、確率行列理論と自由確率の基本的なツールを用いて、多種多様な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
トレーニングおよび一般化誤差の解析公式は、数行の代数において、自由確率の$S$-変換の性質から直接得られる。
これにより、モデルパフォーマンスにおけるパワーロースケーリングのソースを、簡単に特定できる。
我々は、広範囲のランダムな特徴モデルの一般化誤差を計算する。
すべてのモデルにおいて、$S$-変換は列車-テストの一般化ギャップに対応し、一般化されたクロスバリデーション推定器の類似性が得られる。
これらの手法を用いて、構造的共変量を持つランダム特徴モデルの非常に一般的なクラスに対して、きめ細かい偏差分解を導出する。
これらの新たな結果から,特徴量による分散が過度なパラメータ設定における性能を制限するような,ランダムな特徴モデルのスケーリング機構を見出すことができる。
また、ランダムな特徴モデルにおける異方性重み構造が性能を制限し、過パラメータ設定における有限幅補正のための非自明な指数を導出することを示す。
我々の結果は、ニューラルスケーリング法則の以前のモデルについて拡張し、統一的な視点を提供する。
This paper presents a succinct derivation of the training and generalization performance of a variety of high-dimensional ridge regression models using the basic tools of random matrix theory and free probability. We provide an introduction and review of recent results on these topics, aimed at readers with backgrounds in physics and deep learning. Analytic formulas for the training and generalization errors are obtained in a few lines of algebra directly from the properties of the $S$-transform of free probability. This allows for a straightforward identification of the sources of power-law scaling in model performance. We compute the generalization error of a broad class of random feature models. We find that in all models, the $S$-transform corresponds to the train-test generalization gap, and yields an analogue of the generalized-cross-validation estimator. Using these techniques, we derive fine-grained bias-variance decompositions for a very general class of random feature models with structured covariates. These novel results allow us to discover a scaling regime for random feature models where the variance due to the features limits performance in the overparameterized setting. We also demonstrate how anisotropic weight structure in random feature models can limit performance and lead to nontrivial exponents for finite-width corrections in the overparameterized setting. Our results extend and provide a unifying perspective on earlier models of neural scaling laws. | 翻訳日:2024-06-26 01:02:45 公開日:2024-06-24 |
# 不均衡分類におけるバランシング手法の羅生門効果に関する実験的研究
An Experimental Study on the Rashomon Effect of Balancing Methods in Imbalanced Classification ( http://arxiv.org/abs/2405.01557v2 ) ライセンス: Link先を確認 | Mustafa Cavus, Przemysław Biecek, | (参考訳) 予測モデルは、不均衡なデータセットを分類する際にバイアス付き予測を生成する。
これは、モデルが多数派クラスを好むときに起こり、少数派クラスを正確に予測する性能が低下する。
この問題に対処するためには、モデリングプロセスにおいて、バランシングまたはリサンプリングメソッドが重要な前処理ステップである。
しかし,近年,これらの手法の機能に関する議論や疑問が持ち上がっている。
特に、多くの候補モデルはモデル選択においてラショーモン効果と呼ばれる非常に類似した予測性能を示す。
いずれのサンプルに対しても矛盾するモデルの予測が得られた場合、予測多重性を考慮せずにそれらのうちの1つを選択すると、別のモデルの使用が失われる可能性がある。
本研究では,既存の議論に加えて,ラッショモン効果による予測多重度に対するバランス手法の影響について検討した。
ブラインドモデルの選択は、ほぼ同じ精度のモデルの集合から危険であるからである。
これは、モデル選択、検証、説明において深刻な問題を引き起こす可能性がある。
この問題に対処するために,我々は,ラショモン効果による予測多重度に対するバランス手法の影響を観測するために,実際のデータセット実験を行った。
その結果, バランス法は予測乗数に影響を及ぼし, 様々な結果が得られた。
モデリングプロセスの実行における性能と予測的乗法の間のトレードオフを監視するため,ラショーモン効果に対する拡張性能ゲインプロットを用いた提案を行った。
Predictive models may generate biased predictions when classifying imbalanced datasets. This happens when the model favors the majority class, leading to low performance in accurately predicting the minority class. To address this issue, balancing or resampling methods are critical pre-processing steps in the modeling process. However, there have been debates and questioning of the functionality of these methods in recent years. In particular, many candidate models may exhibit very similar predictive performance, which is called the Rashomon effect, in model selection. Selecting one of them without considering predictive multiplicity which is the case of yielding conflicting models' predictions for any sample may lead to a loss of using another model. In this study, in addition to the existing debates, the impact of balancing methods on predictive multiplicity is examined through the Rashomon effect. It is important because the blind model selection is risky from a set of approximately equally accurate models. This may lead to serious problems in model selection, validation, and explanation. To tackle this matter, we conducted real dataset experiments to observe the impact of balancing methods on predictive multiplicity through the Rashomon effect. Our findings showed that balancing methods inflate the predictive multiplicity, and they yield varying results. To monitor the trade-off between performance and predictive multiplicity for conducting the modeling process responsibly, we proposed using the extended performance-gain plot for the Rashomon effect. | 翻訳日:2024-06-26 01:02:45 公開日:2024-06-24 |
# 大気乱流緩和のための拡散型テンプレートレジストレーション
Diffeomorphic Template Registration for Atmospheric Turbulence Mitigation ( http://arxiv.org/abs/2405.03662v2 ) ライセンス: Link先を確認 | Dong Lao, Congli Wang, Alex Wong, Stefano Soatto, | (参考訳) 本研究では, 大気乱流により劣化した画像の集合体に基づく放射能の回復手法について述べる。
教師付きデータは技術的には入手できないことが多いため、この逆問題を解決するためには仮定とバイアスを課し、それらを明示的にモデル化する。
変形を推定するためにヒューリスティックスによって潜時光を初期化する代わりに、画像の1つを基準として選択し、この画像の変形を、その画像から他の画像への光フローの集約によってモデル化し、中央極限定理によって課された先行値を利用する。
そして、新しいフロー反転モジュールで、モデルはテンプレートに対して各イメージを登録するが、テンプレートを外し、テンプレートの初期化の悪いアーティファクトを避ける。
この手法の堅牢性を説明するために、我々は単純に
(i)参照として第1フレームを選択して
二 最も簡単な光学的流れを用いてワーピングを推定するが、その単純さに拘わらず、最先端の性能を達成するため、最終的な復元において登録の改善は決定的である。
このメソッドは、より洗練されたパイプラインやドメイン固有のメソッドにシームレスに統合することで、さらに改善できる強力なベースラインを確立する。
We describe a method for recovering the irradiance underlying a collection of images corrupted by atmospheric turbulence. Since supervised data is often technically impossible to obtain, assumptions and biases have to be imposed to solve this inverse problem, and we choose to model them explicitly. Rather than initializing a latent irradiance ("template") by heuristics to estimate deformation, we select one of the images as a reference, and model the deformation in this image by the aggregation of the optical flow from it to other images, exploiting a prior imposed by Central Limit Theorem. Then with a novel flow inversion module, the model registers each image TO the template but WITHOUT the template, avoiding artifacts related to poor template initialization. To illustrate the robustness of the method, we simply (i) select the first frame as the reference and (ii) use the simplest optical flow to estimate the warpings, yet the improvement in registration is decisive in the final reconstruction, as we achieve state-of-the-art performance despite its simplicity. The method establishes a strong baseline that can be further improved by integrating it seamlessly into more sophisticated pipelines, or with domain-specific methods if so desired. | 翻訳日:2024-06-26 00:53:00 公開日:2024-06-24 |
# 運動からの非剛性構造:時空間平滑なプロクラステアライメントと空間変動変形モデリング
Non-rigid Structure-from-Motion: Temporally-smooth Procrustean Alignment and Spatially-variant Deformation Modeling ( http://arxiv.org/abs/2405.04309v2 ) ライセンス: Link先を確認 | Jiawei Shi, Hui Deng, Yuchao Dai, | (参考訳) 非厳密なStructure-from-Motion (NRSfM) は広く研究され、大きな進歩を遂げてきたが、しかしながら、彼らの幅広い現実世界の応用を妨げる重要な課題がある。
1) 運動・回転のあいまいさには,余分な制約を伴う明示的なカメラ運動回復又は複雑なプロクリストアライメントが必要である。
2) 既存の大域形状の低ランクモデリングは, 3次元形状列における劇的変形を過小評価することができる。
本稿では,空間時間モデルの観点から,上記の課題を解決することを提案する。
まず, 3次元形状を連続的に整列させて3次元変形形状を推定し, カメラの動きを調整する, 時間的に滑らかなプロクリストアライメントモジュールを提案する。
我々の新しいアライメントモジュールは、非等方的変形モデリングよりも導電性が高いアライメント中の複素参照3次元形状の要求を修復する。
第二に, 空間的変形変形の再現性を向上させるために, 低ランク制約を異なる場所で適応的に適用するための空間重み付け手法を提案する。
提案手法は,既存の低ランクな手法よりも優れており,異なるデータセットにわたる広範な実験により本手法の有効性が検証された。
Even though Non-rigid Structure-from-Motion (NRSfM) has been extensively studied and great progress has been made, there are still key challenges that hinder their broad real-world applications: 1) the inherent motion/rotation ambiguity requires either explicit camera motion recovery with extra constraint or complex Procrustean Alignment; 2) existing low-rank modeling of the global shape can over-penalize drastic deformations in the 3D shape sequence. This paper proposes to resolve the above issues from a spatial-temporal modeling perspective. First, we propose a novel Temporally-smooth Procrustean Alignment module that estimates 3D deforming shapes and adjusts the camera motion by aligning the 3D shape sequence consecutively. Our new alignment module remedies the requirement of complex reference 3D shape during alignment, which is more conductive to non-isotropic deformation modeling. Second, we propose a spatial-weighted approach to enforce the low-rank constraint adaptively at different locations to accommodate drastic spatially-variant deformation reconstruction better. Our modeling outperform existing low-rank based methods, and extensive experiments across different datasets validate the effectiveness of our method. | 翻訳日:2024-06-26 00:53:00 公開日:2024-06-24 |
# Smurfs: ツールプランニングにコンテキスト効率で複数の熟練エージェントを活用する
Smurfs: Leveraging Multiple Proficiency Agents with Context-Efficiency for Tool Planning ( http://arxiv.org/abs/2405.05955v3 ) ライセンス: Link先を確認 | Junzhi Chen, Juhao Liang, Benyou Wang, | (参考訳) 大規模言語モデル(LLM)の出現は、人間のパフォーマンスに匹敵する複雑なタスクを自動化するという前例のない可能性を開いた。
それらの能力にもかかわらず、LLMはシングルハンドで多面的問題を扱うのに固有の制限があるため、高いレベルの精度と複雑さを必要とするタスクを完了させるのに依然として困難に直面している。
本稿では,LDMの応用に革命をもたらすために設計された最先端のマルチエージェントフレームワークであるSmurfsを紹介する。
従来のLLMを相乗的なマルチエージェントアンサンブルにシームレスに変換することで、Smurfsは複雑なタスクを余分なコストで解く能力を高めることができる。
これは、モデル内の異なる役割を割り当て、特殊エージェント間のコラボレーションを促進し、インテリジェントなマルチエージェントシステムを形成する革新的なプロンプト戦略によって達成される。
StableToolBenchのオープンエンドタスクとHotpotQAのクローズドエンドタスクの両方に関する実証的研究は、複雑なツール利用シナリオにおけるSmurfsの優れた能力を示している。
特に、Smurfsは両方の実験ですべてのベースラインメソッドに匹敵し、新しい最先端のパフォーマンスを設定できる。
さらに、包括的アブレーション研究を通じて、マルチエージェントフレームワークのコアコンポーネントの全体的な有効性への貢献を識別する。
これは、フレームワークの有効性を検証するだけでなく、将来のマルチエージェントLLMシステムの探索ルートも設定する。
The emergence of large language models (LLMs) has opened up unprecedented possibilities for automating complex tasks that are often comparable to human performance. Despite their capabilities, LLMs still encounter difficulties in completing tasks that require high levels of accuracy and complexity due to their inherent limitations in handling multifaceted problems single-handedly. This paper introduces `Smurfs', a cutting-edge multi-agent framework designed to revolutionize the application of LLMs. By seamlessly transforming a conventional LLM into a synergistic multi-agent ensemble, Smurfs can enhance the model's ability to solve complex tasks at no additional cost. This is achieved through innovative prompting strategies that allocate distinct roles within the model, thereby facilitating collaboration among specialized agents and forming an intelligent multi-agent system. Our empirical investigation on both open-ended task of StableToolBench and closed-ended task on HotpotQA showcases Smurfs' superior capability in intricate tool utilization scenarios. Notably, Smurfs outmatches all the baseline methods in both experiments, setting new state-of-the-art performance. Furthermore, through comprehensive ablation studies, we dissect the contribution of the core components of the multi-agent framework to its overall efficacy. This not only verifies the effectiveness of the framework, but also sets a route for future exploration of multi-agent LLM systems. | 翻訳日:2024-06-26 00:53:00 公開日:2024-06-24 |
# グラフ用大規模言語モデルの検討
A Survey of Large Language Models for Graphs ( http://arxiv.org/abs/2405.08011v2 ) ライセンス: Link先を確認 | Xubin Ren, Jiabin Tang, Dawei Yin, Nitesh Chawla, Chao Huang, | (参考訳) グラフは、現実世界のシナリオにおける関係を表現するために使用される重要なデータ構造である。
従来の研究では、グラフニューラルネットワーク(GNN)が、リンク予測やノード分類といったグラフ中心のタスクにおいて、驚くべき結果をもたらすことが確認されている。
これらの進歩にもかかわらず、データスパシティや限定的な一般化能力といった課題は引き続き続く。
近年,Large Language Models (LLM) が自然言語処理に注目されている。
彼らは言語理解と要約に長けている。
グラフ学習タスクのパフォーマンス向上手段として,LLMとグラフ学習技術の統合が注目されている。
本稿では,グラフ学習に適用された最新のLLMの詳細なレビューを行い,そのフレームワーク設計に基づいて既存の手法を分類する新しい分類法を提案する。
我々は4つのユニークなデザインを詳述する。
一 プリフィックスとしてのGNN
二 プレフィックスとしてのLLM
三 LLMs-Graphs の統合及び
四 LLMs-第一に、各カテゴリの主要な方法論を強調すること。
各フレームワークの長所と短所について検討し、LLMとグラフ学習技術の現在の統合課題を克服し、新しいアプリケーション分野に進出するなど、将来の研究への潜在的な道のりを強調する。
本調査は,グラフ学習における大規模言語モデルの活用を熱望する研究者や実践者にとって貴重な資源であり,このダイナミックな分野の継続的な進歩を促すことを目的としている。
我々は,関連するオープンソース資料を<url{https://github.com/HKUDS/Awesome-LLM4Graph-Papers} で一貫して管理している。
Graphs are an essential data structure utilized to represent relationships in real-world scenarios. Prior research has established that Graph Neural Networks (GNNs) deliver impressive outcomes in graph-centric tasks, such as link prediction and node classification. Despite these advancements, challenges like data sparsity and limited generalization capabilities continue to persist. Recently, Large Language Models (LLMs) have gained attention in natural language processing. They excel in language comprehension and summarization. Integrating LLMs with graph learning techniques has attracted interest as a way to enhance performance in graph learning tasks. In this survey, we conduct an in-depth review of the latest state-of-the-art LLMs applied in graph learning and introduce a novel taxonomy to categorize existing methods based on their framework design. We detail four unique designs: i) GNNs as Prefix, ii) LLMs as Prefix, iii) LLMs-Graphs Integration, and iv) LLMs-Only, highlighting key methodologies within each category. We explore the strengths and limitations of each framework, and emphasize potential avenues for future research, including overcoming current integration challenges between LLMs and graph learning techniques, and venturing into new application areas. This survey aims to serve as a valuable resource for researchers and practitioners eager to leverage large language models in graph learning, and to inspire continued progress in this dynamic field. We consistently maintain the related open-source materials at \url{https://github.com/HKUDS/Awesome-LLM4Graph-Papers}. | 翻訳日:2024-06-26 00:53:00 公開日:2024-06-24 |
# 作物育種におけるゲノム選択におけるトランスフォーマー性能向上のための恥ずかしい簡単なアプローチ
An Embarrassingly Simple Approach to Enhance Transformer Performance in Genomic Selection for Crop Breeding ( http://arxiv.org/abs/2405.09585v3 ) ライセンス: Link先を確認 | Renqi Chen, Wenwei Han, Haohao Zhang, Haoyang Su, Zhefan Wang, Xiaolei Liu, Hao Jiang, Wanli Ouyang, Nanqing Dong, | (参考訳) 遺伝的選抜(GS)は、重要な作物育成戦略として、食糧生産の増強と世界の飢餓危機への対処に重要な役割を果たしている。
現在、GSの主要なアプローチは、予測に統計手法を採用することである。
しかし、統計手法には強い統計的前提と線形仮定の2つの主要な制限がある。
最近のトレンドは、ディープラーニングによってマーカー間の非線形関係を捉えることである。
しかし、作物のデータセットは通常、限られたサンプルを持つ長いシーケンスであるため、ディープラーニングモデル、特にトランスフォーマーの堅牢性は依然として課題である。
本研究では,興味ある課題に対する未探索の注意機構の可能性を解き放つために,シーケンス全体のエンドツーエンドトレーニングを可能にする,シンプルで効果的なトランスフォーマーベースのフレームワークを提案する。
水稲3kと小麦3kのデータセットを実験した結果,k-merのトークン化やランダムマスキングといった簡単な手法によって,TransformerはGSタスクのセミナルメソッドに対して,全体的な優れたパフォーマンスを達成できることが判明した。
Genomic selection (GS), as a critical crop breeding strategy, plays a key role in enhancing food production and addressing the global hunger crisis. The predominant approaches in GS currently revolve around employing statistical methods for prediction. However, statistical methods often come with two main limitations: strong statistical priors and linear assumptions. A recent trend is to capture the non-linear relationships between markers by deep learning. However, as crop datasets are commonly long sequences with limited samples, the robustness of deep learning models, especially Transformers, remains a challenge. In this work, to unleash the unexplored potential of attention mechanism for the task of interest, we propose a simple yet effective Transformer-based framework that enables end-to-end training of the whole sequence. Via experiments on rice3k and wheat3k datasets, we show that, with simple tricks such as k-mer tokenization and random masking, Transformer can achieve overall superior performance against seminal methods on GS tasks of interest. | 翻訳日:2024-06-26 00:53:00 公開日:2024-06-24 |
# エージェントデザインパターンカタログ:基礎モデルに基づくエージェントのためのアーキテクチャパターンのコレクション
Agent Design Pattern Catalogue: A Collection of Architectural Patterns for Foundation Model based Agents ( http://arxiv.org/abs/2405.10467v3 ) ライセンス: Link先を確認 | Yue Liu, Sin Kit Lo, Qinghua Lu, Liming Zhu, Dehai Zhao, Xiwei Xu, Stefan Harrer, Jon Whittle, | (参考訳) ファウンデーションモデルに対応した生成人工知能はエージェントの開発と実装を促進し、優れた推論能力と言語処理能力を活用して、ユーザの目標を追求するために積極的に自律的な役割を果たすことができる。
それでも、基礎モデルに固有の幻覚、推論プロセスの説明可能性、複雑な説明責任など、目標探究の課題(道具的目標や計画の作成を含む)を考えるエージェントを設計する上で、実践者を指導する体系的な知識が欠如している。
この問題に対処するため、我々は、最先端の基盤モデルに基づくエージェントとより広範なエコシステムを理解するために、系統的な文献レビューを行った。
本稿では,前回の文献レビューの結果として,文脈,力,トレードオフを分析した17のアーキテクチャパターンからなるパターンカタログを提案する。
提案するカタログは,パターンを効果的に活用するための総合的なガイダンスを提供するとともに,目標探索と計画生成を容易にし,基礎モデルに基づくエージェントのアーキテクチャ設計を支援する。
Foundation model-enabled generative artificial intelligence facilitates the development and implementation of agents, which can leverage distinguished reasoning and language processing capabilities to takes a proactive, autonomous role to pursue users' goals. Nevertheless, there is a lack of systematic knowledge to guide practitioners in designing the agents considering challenges of goal-seeking (including generating instrumental goals and plans), such as hallucinations inherent in foundation models, explainability of reasoning process, complex accountability, etc. To address this issue, we have performed a systematic literature review to understand the state-of-the-art foundation model-based agents and the broader ecosystem. In this paper, we present a pattern catalogue consisting of 17 architectural patterns with analyses of the context, forces, and trade-offs as the outcomes from the previous literature review. The proposed catalogue can provide holistic guidance for the effective use of patterns, and support the architecture design of foundation model-based agents by facilitating goal-seeking and plan generation. | 翻訳日:2024-06-26 00:53:00 公開日:2024-06-24 |
# プライバシーは消費者に何をもたらすのか?
What Do Privacy Advertisements Communicate to Consumers? ( http://arxiv.org/abs/2405.13857v2 ) ライセンス: Link先を確認 | Xiaoxin Shen, Eman Alashwali, Lorrie Faith Cranor, | (参考訳) 企業がプライバシプラクティスの促進や特定のプライバシ機能の強調を目的としたマーケティング資料をリリースするとき、消費者に実際に何を伝えるのか?
本稿では,(1)キャンペーン提供団体に対する消費者の態度,(2)全体的なプライバシ意識,(3)提案されたプライバシアドバイスの行動可能性に対するプライバシマーケティングの影響について検討する。
この目的のために,5つのテクノロジ企業が公開する4つのプライバシ広告ビデオと1つのプライバシゲームの影響を調査した。
ランダムに割り当てられた参加者と24回の半構造化インタビューを行い、ビデオの1つか2つを見たり、ゲームをプレイしたりした。
以上の結果から,プライバシ機能に対する意識は,企業や製品に対する肯定的な認識に寄与する可能性が示唆された。
テストした広告は、テストしたゲームよりも、広告されたプライバシー機能のコミュニケーションに成功しました。
短い広告で1つのメタファーを使って1つのプライバシー機能を広告することは、広告された機能に対する認識を増大させる。
このゲームは、プライバシー機能を伝えることや、参加者にこの機能の使用を動機づけることに失敗した。
われわれの結果は、プライバシーキャンペーンはプライバシー機能に対する意識を高め、ブランドイメージを改善するのにも役立つが、視聴者にプライバシー機能の使用方法を教える最も効果的な方法ではないことを示唆している。
When companies release marketing materials aimed at promoting their privacy practices or highlighting specific privacy features, what do they actually communicate to consumers? In this paper, we explore the impact of privacy marketing on: (1) consumers' attitudes toward the organizations providing the campaigns, (2) overall privacy awareness, and (3) the actionability of suggested privacy advice. To this end, we investigated the impact of four privacy advertising videos and one privacy game published by five different technology companies. We conducted 24 semi-structured interviews with participants randomly assigned to view one or two of the videos or play the game. Our findings suggest that awareness of privacy features can contribute to positive perceptions of a company or its products. The ads we tested were more successful in communicating the advertised privacy features than the game we tested. We observed that advertising a single privacy feature using a single metaphor in a short ad increased awareness of the advertised feature. The game failed to communicate privacy features or motivate study participants to use the features. Our results also suggest that privacy campaigns can be useful for raising awareness about privacy features and improving brand image, but may not be the most effective way to teach viewers how to use privacy features. | 翻訳日:2024-06-26 00:43:06 公開日:2024-06-24 |
# Pseudo-Hermitian Chebyshev差分行列と非Hermitian Liouville量子力学
Pseudo-hermitian Chebyshev differential matrix and non-Hermitian Liouville quantum mechanics ( http://arxiv.org/abs/2405.15326v2 ) ライセンス: Link先を確認 | Chen Lan, Wei Li, Huifang Geng, | (参考訳) スペクトルコロケーション法(SCM)は、有限差分法や有限要素法といった従来の手法と比較して、常微分方程式や偏微分方程式の解法において明らかな優位性を示す。
これにより、SCMは物理学における境界条件を持つシュリンガー型方程式に対処するための強力なツールとなる。
しかし、SCMでよく使われるチェビシェフ微分行列(CDM)は、エルミート的ではなく擬エルミート的である。
この非ハーモニティ性は疑似スペクトルに微妙に影響を与え、固有状態における完全性を失う。
その結果、これらの固有状態にいくつかの問題が生じる。
本稿では,非エルミート的リウヴィル量子力学を再考し,CDMの擬ハーモニティ性を強調し,その拡張モデルを探求する。
さらに,スペクトル不安定性はコンパクト化パラメータの影響を受けやすいことを示す。
The spectral collocation method (SCM) exhibits a clear superiority in solving ordinary and partial differential equations compared to conventional techniques, such as finite difference and finite element methods. This makes SCM a powerful tool for addressing the Schr\"odinger-like equations with boundary conditions in physics. However, the Chebyshev differential matrix (CDM), commonly used in SCM to replace the differential operator, is not Hermitian but pseudo-Hermitian. This non-Hermiticity subtly affects the pseudospectra and leads to a loss of completeness in the eigenstates. Consequently, several issues arise with these eigenstates. In this paper, we revisit the non-Hermitian Liouville quantum mechanics by emphasizing the pseudo-Hermiticity of the CDM and explore its expanded models. Furthermore, we demonstrate that the spectral instability can be influenced by the compactification parameter. | 翻訳日:2024-06-26 00:43:06 公開日:2024-06-24 |
# ゼロ次最適化によるフェデレーション学習における次元自由通信の実現
Achieving Dimension-Free Communication in Federated Learning via Zeroth-Order Optimization ( http://arxiv.org/abs/2405.15861v2 ) ライセンス: Link先を確認 | Zhe Li, Bicheng Ying, Zidong Liu, Haibo Yang, | (参考訳) Federated Learning (FL)は、分散データソース間の協調的およびプライバシ保護機械学習のための有望なフレームワークを提供する。
しかし、FLに関連するかなりの通信コストは、その効率に重大な課題をもたらす。
具体的には、各通信ラウンドにおいて、通信コストはモデルの次元と線形にスケールする。
様々な通信効率の戦略にもかかわらず、本質的な次元に依存した通信コストは、現在のFL実装において大きなボトルネックとなっている。
本稿では,ゼロオーダー最適化技術を活用したFLのための新しい次元自由通信方式を提案する。
本稿では,各通信ラウンドにおけるクライアントとサーバ間のスカラー値の一定数の送信を容易にし,通信コストを$\mathscr{O}(d)$から$\mathscr{O}(1)$に削減する新しいアルゴリズムであるFedDiscoを提案する。
理論的には、非凸関数では、我々のアルゴリズムが最先端の速度を達成することが証明され、これは標準的な仮定の下でのクライアント数とローカルステップの線形高速化と、低効率なランクシナリオに対する次元自由率を示す。
古典的深層学習訓練と大規模言語モデルによる経験的評価は,従来のFL手法と比較して,通信オーバーヘッドを大幅に削減する。
私たちのコードはhttps://github.com/ZidongLiu/FedDisco.comで入手可能です。
Federated Learning (FL) offers a promising framework for collaborative and privacy-preserving machine learning across distributed data sources. However, the substantial communication costs associated with FL pose a significant challenge to its efficiency. Specifically, in each communication round, the communication costs scale linearly with the model's dimension, which presents a formidable obstacle, especially in large model scenarios. Despite various communication efficient strategies, the intrinsic dimension-dependent communication cost remains a major bottleneck for current FL implementations. In this paper, we introduce a novel dimension-free communication strategy for FL, leveraging zero-order optimization techniques. We propose a new algorithm, FedDisco, which facilitates the transmission of only a constant number of scalar values between clients and the server in each communication round, thereby reducing the communication cost from $\mathscr{O}(d)$ to $\mathscr{O}(1)$, where $d$ is the dimension of the model parameters. Theoretically, in non-convex functions, we prove that our algorithm achieves state-of-the-art rates, which show a linear speedup of the number of clients and local steps under standard assumptions and dimension-free rate for low effective rank scenarios. Empirical evaluations through classic deep learning training and large language model fine-tuning substantiate significant reductions in communication overhead compared to traditional FL approaches. Our code is available at https://github.com/ZidongLiu/FedDisco. | 翻訳日:2024-06-26 00:43:06 公開日:2024-06-24 |
# 計算学習理論を用いたランダムテストセットサイズの境界
Bounding Random Test Set Size with Computational Learning Theory ( http://arxiv.org/abs/2405.17019v2 ) ライセンス: Link先を確認 | Neil Walkinshaw, Michael Foster, Jose Miguel Rojas, Robert M Hierons, | (参考訳) ランダムテストは、ランダムにインプットを生成したり、事前に定義された運用プロファイルからランダムにインプットを選択することで機能する。
この状況と他のテストコンテキストで長く続いた質問は、次のとおりである。
この方法でさらなるテストを実行すると、これまでテストされていない(そして潜在的にバグのある)ソフトウェア動作が調査されないことは、どの時点で確実なのだろうか?
これは、正確なモデルを推論するために、トレーニング例がいくつ必要かという機械学習の問題に類似している。
本稿では,機械学習におけるこの問題に対する確率論的アプローチ(計算学習理論に基づく)が,テストコンテキストにどのように適用できるかを示す。
これにより、与えられたレベルの妥当性を達成するのに必要なテストの数に上限を付けることができます。
私たちは、サンプルのテスト実行を観察することなく、ソースコードのカバレッジターゲット(例えばコード行数)の数だけを知ることで、これを最初に実現しました。
大規模なJavaユニットと自律運転システムで、この境界を検証します。
Random testing approaches work by generating inputs at random, or by selecting inputs randomly from some pre-defined operational profile. One long-standing question that arises in this and other testing contexts is as follows: When can we stop testing? At what point can we be certain that executing further tests in this manner will not explore previously untested (and potentially buggy) software behaviors? This is analogous to the question in Machine Learning, of how many training examples are required in order to infer an accurate model. In this paper we show how probabilistic approaches to answer this question in Machine Learning (arising from Computational Learning Theory) can be applied in our testing context. This enables us to produce an upper bound on the number of tests that are required to achieve a given level of adequacy. We are the first to enable this from only knowing the number of coverage targets (e.g. lines of code) in the source code, without needing to observe a sample test executions. We validate this bound on a large set of Java units, and an autonomous driving system. | 翻訳日:2024-06-26 00:33:22 公開日:2024-06-24 |
# QUBIQ: バイオメディカルイメージセグメンテーションチャレンジにおける不確かさの定量化
QUBIQ: Uncertainty Quantification for Biomedical Image Segmentation Challenge ( http://arxiv.org/abs/2405.18435v2 ) ライセンス: Link先を確認 | Hongwei Bran Li, Fernando Navarro, Ivan Ezhov, Amirhossein Bayat, Dhritiman Das, Florian Kofler, Suprosanna Shit, Diana Waldmannstetter, Johannes C. Paetzold, Xiaobin Hu, Benedikt Wiestler, Lucas Zimmer, Tamaz Amiranashvili, Chinmay Prabhakar, Christoph Berger, Jonas Weidner, Michelle Alonso-Basant, Arif Rashid, Ujjwal Baid, Wesam Adel, Deniz Ali, Bhakti Baheti, Yingbin Bai, Ishaan Bhatt, Sabri Can Cetindag, Wenting Chen, Li Cheng, Prasad Dutand, Lara Dular, Mustafa A. Elattar, Ming Feng, Shengbo Gao, Henkjan Huisman, Weifeng Hu, Shubham Innani, Wei Jiat, Davood Karimi, Hugo J. Kuijf, Jin Tae Kwak, Hoang Long Le, Xiang Lia, Huiyan Lin, Tongliang Liu, Jun Ma, Kai Ma, Ting Ma, Ilkay Oksuz, Robbie Holland, Arlindo L. Oliveira, Jimut Bahan Pal, Xuan Pei, Maoying Qiao, Anindo Saha, Raghavendra Selvan, Linlin Shen, Joao Lourenco Silva, Ziga Spiclin, Sanjay Talbar, Dadong Wang, Wei Wang, Xiong Wang, Yin Wang, Ruiling Xia, Kele Xu, Yanwu Yan, Mert Yergin, Shuang Yu, Lingxi Zeng, YingLin Zhang, Jiachen Zhao, Yefeng Zheng, Martin Zukovec, Richard Do, Anton Becker, Amber Simpson, Ender Konukoglu, Andras Jakab, Spyridon Bakas, Leo Joskowicz, Bjoern Menze, | (参考訳) 医用画像のセグメンテーションタスクの不確かさ、特に様々な専門家による解釈やアノテーションの違いから生じるラター間変動は、一貫性と信頼性のある画像セグメンテーションを実現する上で重要な課題である。
この可変性は、医用画像解釈の固有の複雑さと主観的性質を反映するだけでなく、自動セグメンテーションアルゴリズムの開発と評価に直接影響を及ぼす。
この変数の正確なモデリングと定量化は、これらのアルゴリズムの堅牢性と臨床応用性を高めるために不可欠である。
バイオメディカル画像量化チャレンジ(QUBIQ)は,医療画像コンピューティングとコンピュータ支援介入に関する国際会議(MICCAI)の2020年と2021年に開催された。
この課題は、画像データセットにおけるラター間変動の正当性を考慮した医用画像セグメンテーションの不確実性定量化に焦点を当てている。
MRIやCT、脳、前立腺、腎臓、膵臓などの様々な臓器、画像次元の異なる2D-vs-3Dが特徴である。
合計24のチームが、さまざまなベースラインモデル、ベイズニューラルネットワーク、アンサンブルモデル技術を組み合わせて、この問題に対するさまざまなソリューションを提出した。
得られた結果から,アンサンブルモデルの重要性が示唆され,さらに3次元セグメンテーションタスクにおける不確実性定量化のための効率的な3D手法を開発する必要性が示唆された。
Uncertainty in medical image segmentation tasks, especially inter-rater variability, arising from differences in interpretations and annotations by various experts, presents a significant challenge in achieving consistent and reliable image segmentation. This variability not only reflects the inherent complexity and subjective nature of medical image interpretation but also directly impacts the development and evaluation of automated segmentation algorithms. Accurately modeling and quantifying this variability is essential for enhancing the robustness and clinical applicability of these algorithms. We report the set-up and summarize the benchmark results of the Quantification of Uncertainties in Biomedical Image Quantification Challenge (QUBIQ), which was organized in conjunction with International Conferences on Medical Image Computing and Computer-Assisted Intervention (MICCAI) 2020 and 2021. The challenge focuses on the uncertainty quantification of medical image segmentation which considers the omnipresence of inter-rater variability in imaging datasets. The large collection of images with multi-rater annotations features various modalities such as MRI and CT; various organs such as the brain, prostate, kidney, and pancreas; and different image dimensions 2D-vs-3D. A total of 24 teams submitted different solutions to the problem, combining various baseline models, Bayesian neural networks, and ensemble model techniques. The obtained results indicate the importance of the ensemble models, as well as the need for further research to develop efficient 3D methods for uncertainty quantification methods in 3D segmentation tasks. | 翻訳日:2024-06-26 00:33:22 公開日:2024-06-24 |
# MANO: 分布シフトによる教師なし精度推定のためのマトリックスノルムの爆発
MANO: Exploiting Matrix Norm for Unsupervised Accuracy Estimation Under Distribution Shifts ( http://arxiv.org/abs/2405.18979v2 ) ライセンス: Link先を確認 | Renchunzi Xie, Ambroise Odonnat, Vasilii Feofanov, Weijian Deng, Jianfeng Zhang, Bo An, | (参考訳) モデル出力、特にロジットの活用は、対応する基底真理ラベルへのアクセスを必要とせずに、アウト・オブ・ディストリビューション(OOD)サンプル上でトレーニング済みのニューラルネットワークのテスト精度を推定する一般的なアプローチである。
実装の容易さと計算効率にもかかわらず、現在のロジットベースの手法は過信問題に対して脆弱であり、特に自然変化の下では予測バイアスにつながる。
本研究では,まず,ロジットと一般化性能の関係について,低密度分離仮定の観点から検討する。
提案手法は,(1)ロジットにデータ依存正規化を適用して予測バイアスを低減し,(2)正規化ロジットの行列の$L_p$ノルムを推定スコアとする手法である。
我々の理論的分析は、提供されたスコアとモデルの不確実性との関係を強調している。
我々は、一般的な教師なし精度推定ベンチマークに関する広範な実証的研究を行い、MaNoは、合成、自然、またはサブポピュレーションシフトの存在下で、様々なアーキテクチャで最先端のパフォーマンスを達成することを実証した。
Leveraging the models' outputs, specifically the logits, is a common approach to estimating the test accuracy of a pre-trained neural network on out-of-distribution (OOD) samples without requiring access to the corresponding ground truth labels. Despite their ease of implementation and computational efficiency, current logit-based methods are vulnerable to overconfidence issues, leading to prediction bias, especially under the natural shift. In this work, we first study the relationship between logits and generalization performance from the view of low-density separation assumption. Our findings motivate our proposed method MaNo which (1) applies a data-dependent normalization on the logits to reduce prediction bias, and (2) takes the $L_p$ norm of the matrix of normalized logits as the estimation score. Our theoretical analysis highlights the connection between the provided score and the model's uncertainty. We conduct an extensive empirical study on common unsupervised accuracy estimation benchmarks and demonstrate that MaNo achieves state-of-the-art performance across various architectures in the presence of synthetic, natural, or subpopulation shifts. | 翻訳日:2024-06-26 00:33:22 公開日:2024-06-24 |
# Wannier-Stark ladder を用いた非エルミート自由フェルミオンの研究
Fate of non-Hermitian free fermions with Wannier-Stark ladder ( http://arxiv.org/abs/2405.19155v2 ) ライセンス: Link先を確認 | Han-Ze Li, Jian-Xin Zhong, | (参考訳) ワニエ・スタークの局在は非エルミート自由フェルミオンの絡み合い挙動を動的に変化させる。
単一粒子相関行列法を用いて,これらのフェルミオンの有効ハミルトニアンをワニエ・スターク・はしごを用いて解析する。
開境界条件下では、定常状態半鎖絡みのエントロピーを観察し、2つの異なる領域法則領域と代数的スケーリング領域を同定する。
有限サイズスケーリング解析は、半鎖絡みエントロピーの臨界スケーリング挙動を明らかにする。
特に、このシステムは周期境界条件下での特異な絡み合い特性を示し、アンダーソン局所化のための (1+1)D 共形場理論の予測から分岐する。
本研究は,非エルミート皮膚効果と無障害局所化との相互作用から出現する新規な絡み合い相について考察した。
The Wannier-Stark localization dynamically alters the entanglement behavior of non-Hermitian free fermions. Utilizing the single-particle correlation matrix technique, we analyze the effective Hamiltonian of these fermions with a Wannier-Stark ladder. Under open boundary conditions, we observe the steady state half-chain entanglement entropy and identify two distinct area law regions and an algebraic scaling region. Finite-size scaling analysis reveals critical scaling behavior of the half-chain entanglement entropy. Notably, the system demonstrates unique entanglement characteristics under periodic boundary conditions, which diverge from the (1+1)D conformal field theory predictions for Anderson localization. Our findings highlight novel entanglement phases emerging from the interplay between the non-Hermitian skin effect and disorder-free localization. | 翻訳日:2024-06-26 00:33:22 公開日:2024-06-24 |
# 原子を介する決定論的フォトニックグラフ状態生成のための完全スキーム
A complete scheme for atom-mediated deterministic photonic graph state generation ( http://arxiv.org/abs/2406.00860v2 ) ライセンス: Link先を確認 | Ziv Aqua, Barak Dayan, | (参考訳) 高絡み合い多光子グラフ状態は、フォトニック量子計算と通信において重要な資源である。
しかし、光子-光子相互作用の欠如は、そのようなグラフ状態の構築を特に困難にしている。
通常、これらの状態は確率的な単一光子源と、区別不可能な光子を必要とする線形光学エンタングリング操作によって生成される。
これらの手法の非効率性は、光源と演算数の大きなオーバーヘッドを必要とし、フォトニックアプローチにおける大きなボトルネックを生み出します。
ここでは, 単一原子をベースとしたフォトニック操作を用いることで, フォトニックグラフ状態の決定論的生成が可能となるとともに, 光子不明瞭性の要求を軽減できることを示す。
この目的のために、光共振器に結合したW型レベルスキームにおいて、単一の原子からなるマルチゲート量子ノードを導入する。
この構成はグラフ状態を生成するための汎用的なツールボックスを提供し、2つの基本光子-原子ゲートの操作と1つの光子の決定論的生成を可能にする。
本稿では,この構成を$^{87}$Rb原子を用いて実装し,数値シミュレーションによる性能評価を行う。
Highly-entangled multi-photon graph states are a crucial resource in photonic quantum computation and communication. Yet, the lack of photon-photon interactions makes the construction of such graph states especially challenging. Typically, these states are produced through probabilistic single-photon sources and linear-optics entangling operations that require indistinguishable photons. The resulting inefficiency of these methods necessitates a large overhead in the number of sources and operations, creating a major bottleneck in the photonic approach. Here, we show how harnessing single-atom-based photonic operations can enable deterministic generation of photonic graph states, while also lifting the requirement for photon indistinguishability. To this end, we introduce a multi-gate quantum node comprised of a single atom in a W-type level scheme coupled to an optical resonator. This configuration provides a versatile toolbox for generating graph states, allowing the operation of two fundamental photon-atom gates, as well as the deterministic generation of single photons. We investigate the implementation of this setup with a $^{87}$Rb atom and evaluate its performance through numerical simulations. | 翻訳日:2024-06-26 00:33:22 公開日:2024-06-24 |
# RaDe-GS: ガウシアン・スティングの深さをラスタライズ
RaDe-GS: Rasterizing Depth in Gaussian Splatting ( http://arxiv.org/abs/2406.01467v2 ) ライセンス: Link先を確認 | Baowen Zhang, Chuan Fang, Rakesh Shrestha, Yixun Liang, Xiaoxiao Long, Ping Tan, | (参考訳) Gaussian Splatting (GS) は、高品質でリアルタイムなレンダリングを実現するために、新しいビュー合成に非常に効果的であることが証明されている。
しかし, 詳細な3次元形状を復元する可能性については, 十分に調査されていない。
既存の方法はしばしば、形状抽出を複雑にするガウススプレートの離散的かつ非構造的な性質のために、限られた形状精度に悩まされる。
2D GSのような最近の技術は形状再構成の改善を試みているが、レンダリング品質と計算効率の両方を下げる方法でガウス原始を再構成することが多い。
これらの問題に対処するため,本研究では,一般の3次元ガウススプラットの深度マップと表面正規写像をレンダリングするラスタ化手法を提案する。
提案手法は形状復元精度を大幅に向上させるだけでなく,ガウススプラッティングに固有の計算効率も維持する。
DTUデータセット上ではNeuraLangeloに匹敵するチャンファー距離誤差を達成し、元の3D GS法と同様の計算効率を維持する。
本手法はガウススプラッティングにおける重要な進歩であり,既存のガウススプラッティング法に直接組み込むことができる。
Gaussian Splatting (GS) has proven to be highly effective in novel view synthesis, achieving high-quality and real-time rendering. However, its potential for reconstructing detailed 3D shapes has not been fully explored. Existing methods often suffer from limited shape accuracy due to the discrete and unstructured nature of Gaussian splats, which complicates the shape extraction. While recent techniques like 2D GS have attempted to improve shape reconstruction, they often reformulate the Gaussian primitives in ways that reduce both rendering quality and computational efficiency. To address these problems, our work introduces a rasterized approach to render the depth maps and surface normal maps of general 3D Gaussian splats. Our method not only significantly enhances shape reconstruction accuracy but also maintains the computational efficiency intrinsic to Gaussian Splatting. It achieves a Chamfer distance error comparable to NeuraLangelo on the DTU dataset and maintains similar computational efficiency as the original 3D GS methods. Our method is a significant advancement in Gaussian Splatting and can be directly integrated into existing Gaussian Splatting-based methods. | 翻訳日:2024-06-26 00:33:22 公開日:2024-06-24 |
# FightLadder: 競争力のあるマルチエージェント強化学習のためのベンチマーク
FightLadder: A Benchmark for Competitive Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2406.02081v2 ) ライセンス: Link先を確認 | Wenzhe Li, Zihan Ding, Seth Karten, Chi Jin, | (参考訳) 近年の強化学習(RL)の進歩は、環境プラットフォームと、既存のアルゴリズムと新しいアルゴリズムを評価するための一貫した基準を提供する、よく設計された様々なベンチマークに大きく依存している。
具体的には、MARL(Multi-agent RL)において、協調ゲームに基づく多数のベンチマークが、協調型マルチエージェントシステムのスケーラビリティを向上させるアルゴリズムの開発に拍車をかけた。
しかし、競争の激しい環境では、挑戦的なゲームダイナミクスとビジュアルインプットを備えた軽量でオープンソースなベンチマークはまだ確立されていない。
本研究では,リアルタイム格闘ゲームプラットフォームであるFightLadderを紹介し,競争力のあるMARL研究を促進する。
このプラットフォームとともに、競争ゲームのための最先端のMARLアルゴリズムの実装と、エージェントの性能と利用性を特徴付ける評価指標のセットを提供する。
本研究では, シングルプレイヤーモードで12文字を連続的に打ち破る汎用エージェントを訓練することにより, このプラットフォームの有効性を実証する。
FightLadderは、競争力のあるMARL研究における重要な課題に対処するために、慎重に設計された環境を提供する。
Videos and code at https://sites.google.com/view/fightladder/home.com
Recent advances in reinforcement learning (RL) heavily rely on a variety of well-designed benchmarks, which provide environmental platforms and consistent criteria to evaluate existing and novel algorithms. Specifically, in multi-agent RL (MARL), a plethora of benchmarks based on cooperative games have spurred the development of algorithms that improve the scalability of cooperative multi-agent systems. However, for the competitive setting, a lightweight and open-sourced benchmark with challenging gaming dynamics and visual inputs has not yet been established. In this work, we present FightLadder, a real-time fighting game platform, to empower competitive MARL research. Along with the platform, we provide implementations of state-of-the-art MARL algorithms for competitive games, as well as a set of evaluation metrics to characterize the performance and exploitability of agents. We demonstrate the feasibility of this platform by training a general agent that consistently defeats 12 built-in characters in single-player mode, and expose the difficulty of training a non-exploitable agent without human knowledge and demonstrations in two-player mode. FightLadder provides meticulously designed environments to address critical challenges in competitive MARL research, aiming to catalyze a new era of discovery and advancement in the field. Videos and code at https://sites.google.com/view/fightladder/home. | 翻訳日:2024-06-26 00:23:38 公開日:2024-06-24 |
# FairytaleQA 翻訳:低リソース言語における教育的質問と回答の作成
FairytaleQA Translated: Enabling Educational Question and Answer Generation in Less-Resourced Languages ( http://arxiv.org/abs/2406.04233v2 ) ライセンス: Link先を確認 | Bernardo Leite, Tomás Freitas Osório, Henrique Lopes Cardoso, | (参考訳) 質問応答(QA)データセットは、機械と人の両方の読解スキルを評価するのに不可欠である。
この目的のために多くのデータセットが英語で開発されているが、少ないリソースの言語には顕著な空白が存在する。
このギャップを緩和するために,幼児の物語理解能力の評価と向上を目的とした有名なQAデータセットであるFairytaleQAの機械翻訳版を紹介した。
微調整された、控えめなスケールのモデルを用いることで、翻訳データセット内の質問生成(QG)タスクとQAタスクのベンチマークを確立する。
また,質問対生成モデルを提案するケーススタディとして,質問適合性,回答可能性,妥当性,子どもの適合性などの品質指標を取り入れた評価を行った。
我々の評価は、エラー事例の定量化と記述を優先し、今後の作業の方向性を提供する。
本稿では,低リソース言語におけるQA研究とQG研究の進展に寄与し,これらの学習モデルの開発におけるアクセシビリティとインクリシティの促進に寄与する。
コードとデータはgithub.com/bernardoleite/fairytaleqa-tranlateで公開されている。
Question Answering (QA) datasets are crucial in assessing reading comprehension skills for both machines and humans. While numerous datasets have been developed in English for this purpose, a noticeable void exists in less-resourced languages. To alleviate this gap, our paper introduces machine-translated versions of FairytaleQA, a renowned QA dataset designed to assess and enhance narrative comprehension skills in young children. By employing fine-tuned, modest-scale models, we establish benchmarks for both Question Generation (QG) and QA tasks within the translated datasets. In addition, we present a case study proposing a model for generating question-answer pairs, with an evaluation incorporating quality metrics such as question well-formedness, answerability, relevance, and children suitability. Our evaluation prioritizes quantifying and describing error cases, along with providing directions for future work. This paper contributes to the advancement of QA and QG research in less-resourced languages, promoting accessibility and inclusivity in the development of these models for reading comprehension. The code and data is publicly available at github.com/bernardoleite/fairytaleqa-translated. | 翻訳日:2024-06-26 00:23:38 公開日:2024-06-24 |
# CLIPにおけるニューロンの2次効果の解釈
Interpreting the Second-Order Effects of Neurons in CLIP ( http://arxiv.org/abs/2406.04341v2 ) ライセンス: Link先を確認 | Yossi Gandelsman, Alexei A. Efros, Jacob Steinhardt, | (参考訳) CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。
直接効果(ニューロンから残留する流れから出力への流れ)や間接効果(すべての寄与)を分析することは、CLIPのニューロンの機能を捉えるのに失敗する。
そこで我々は「第2次レンズ」を提案し、ニューロンから後続のアテンションヘッドに流れる影響を、出力に直接分析する。
それぞれのニューロンに対して、その効果は画像の2%に顕著である。
さらに、それぞれの効果はCLIPのテキストイメージ空間において単一の方向で近似することができる。
我々はこれらの方向をテキスト表現のスパース集合に分解することでニューロンを記述する。
各ニューロンは複数の、しばしば無関係な概念(例えば船や車)に対応する。
このニューロンポリセミーを駆使して、不正確なクラスと突発的に相関した概念を持つ画像を生成することにより、「意味的」対人的な例を大量生産する。
さらに、ゼロショットのセグメンテーションと属性発見に2階効果を用いる。
以上の結果から,ニューロンのスケーラブルな理解は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
We interpret the function of individual neurons in CLIP by automatically describing them using text. Analyzing the direct effects (i.e. the flow from a neuron through the residual stream to the output) or the indirect effects (overall contribution) fails to capture the neurons' function in CLIP. Therefore, we present the "second-order lens", analyzing the effect flowing from a neuron through the later attention heads, directly to the output. We find that these effects are highly selective: for each neuron, the effect is significant for <2% of the images. Moreover, each effect can be approximated by a single direction in the text-image space of CLIP. We describe neurons by decomposing these directions into sparse sets of text representations. The sets reveal polysemantic behavior - each neuron corresponds to multiple, often unrelated, concepts (e.g. ships and cars). Exploiting this neuron polysemy, we mass-produce "semantic" adversarial examples by generating images with concepts spuriously correlated to the incorrect class. Additionally, we use the second-order effects for zero-shot segmentation and attribute discovery in images. Our results indicate that a scalable understanding of neurons can be used for model deception and for introducing new model capabilities. | 翻訳日:2024-06-26 00:23:38 公開日:2024-06-24 |
# オーケストレーション時間と色:高次元の絡み合いのプログラム可能な源
Orchestrating time and color: a programmable source of high-dimensional entanglement ( http://arxiv.org/abs/2406.04909v2 ) ライセンス: Link先を確認 | Laura Serino, Werner Ridder, Abhinandan Bhattacharjee, Jano Gil-Lopez, Benjamin Brecht, Christine Silberhorn, | (参考訳) 光量子状態の時間モード(TM)に基づく高次元符号化は、高度に汎用的で効率的な量子情報科学(QIS)フレームワークの基礎を提供する。
本稿では,最大交絡高次元TM状態のプログラマブルソースであるTMに基づくQISアプリケーションに対して,重要なビルディングブロックを示す。
我々の情報源は、スペクトル形状のポンプパルスによって駆動されるパラメトリックダウンコンバージョンプロセスに基づいており、プログラム的に選択可能な、よく定義された次元を持つ最大絡み合ったTM状態の生成を容易にする。
本研究では, 2次相関関数と結合スペクトル強度の測定により生成した状態の有効次元を特徴付け, 最大20次元に制御された2光子TM状態の生成を実証する。
High-dimensional encodings based on temporal modes (TMs) of photonic quantum states provide the foundations for a highly versatile and efficient quantum information science (QIS) framework. Here, we demonstrate a crucial building block for any QIS applications based on TMs: a programmable source of maximally entangled high-dimensional TM states. Our source is based on a parametric down-conversion process driven by a spectrally shaped pump pulse, which facilitates the generation of maximally entangled TM states with a well-defined dimensionality that can be chosen programmatically. We characterize the effective dimensionality of the generated states via measurements of second-order correlation functions and joint spectral intensities, demonstrating the generation of bi-photon TM states with a controlled dimensionality in up to 20 dimensions. | 翻訳日:2024-06-26 00:23:38 公開日:2024-06-24 |
# CaLM: グランドジェネレーションを検証するために、大規模で小さな言語モデルと対比する
CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation ( http://arxiv.org/abs/2406.05365v2 ) ライセンス: Link先を確認 | I-Hung Hsu, Zifeng Wang, Long T. Le, Lesly Miculicich, Nanyun Peng, Chen-Yu Lee, Tomas Pfister, | (参考訳) グラウンドドジェネレーションは、検証可能な情報源を正確に引用することで、より信頼性が高く説明可能な応答を生成する能力を備えた言語モデル(LM)を装備することを目的としている。
しかし、既存の方法は、原材料または前処理材料でLMを供給することによって、エラーを起こしやすいままである。
そこで本研究では,新しい検証フレームワークであるCaLMを紹介する。
CaLMは、ロバストな接地応答は、引用されたソースからのみ引き出された情報と一致すべきであるという洞察を利用する。
提案フレームワークは,パラメータメモリに頼らず,クエリの関連情報処理に優れる小型のLMを有効活用し,より大きなLMの出力を検証する。
引用文書にのみ依存するより小さなLMの出力と密に一致したより大きなLM応答が検証される。
相違を示す応答はフィードバックループを通じて反復的に洗練される。
3つのオープンドメイン質問回答データセットの実験では、モデルの微調整を必要とせずに、絶対平均1.5%から7%の大幅なパフォーマンス向上が示されている。
Grounded generation aims to equip language models (LMs) with the ability to produce more credible and accountable responses by accurately citing verifiable sources. However, existing methods, by either feeding LMs with raw or preprocessed materials, remain prone to errors. To address this, we introduce CaLM, a novel verification framework. CaLM leverages the insight that a robust grounded response should be consistent with information derived solely from its cited sources. Our framework empowers smaller LMs, which rely less on parametric memory and excel at processing relevant information given a query, to validate the output of larger LMs. Larger LM responses that closely align with the smaller LMs' output, which relies exclusively on cited documents, are verified. Responses showing discrepancies are iteratively refined through a feedback loop. Experiments on three open-domain question-answering datasets demonstrate significant performance gains of 1.5% to 7% absolute average without any required model fine-tuning. | 翻訳日:2024-06-26 00:23:38 公開日:2024-06-24 |
# 推論の流れ:ダイバージェント思考によるLCM政策の効率的な学習
Flow of Reasoning: Efficient Training of LLM Policy with Divergent Thinking ( http://arxiv.org/abs/2406.05673v2 ) ライセンス: Link先を確認 | Fangxu Yu, Lai Jiang, Haoqiang Kang, Shibo Hao, Lianhui Qin, | (参考訳) 多様なソリューションを生み出す認知的プロセスであるダイバージェント思考は、人間の創造性と問題解決の目印である。
機械にとって、複雑な推論問題における多様な解軌跡のサンプリングは、堅牢な結果、データ拡張、モデル一般化の強化に不可欠である。
大きな言語モデル(LLM)は、しばしば高品質で多様な推論を生成するのに苦労する。
教師付き微調整は品質に役立つが、ソリューションの完全な多様性を捉えるためには広範な監視データが必要である。
あるいは、PPOのような強化学習手法は、収束思考と同様に、解の多様性を無視しながら、限られた高次解を見つけることを目的としている。
これらの制限に対処するために、我々は、最小限のデータで多様な推論を可能にする効率的なLLMトレーニングアプローチであるFlow of Reasoning (FoR)を提案する。
FoR は初期状態から終状態へのマルコフフローとして多段階 LLM 推論を定式化する。
この定式化により、原則化されたGFlowNetアプローチをポリシーとしてLLMを訓練し、非正規化された報酬に比例する確率を持つ複数の推論経路をサンプリングすることができる。
実験の結果、限られたトレーニングデータ(例:15例)を用いて、FoRは、具体的推論(BlocksWorld)、算術パズル解(Game24)、論理的推論(PrOntoQA)を含む3つのタスクにまたがる最先端の手法よりもはるかに優れた多様な高品質のソリューションを発見できることがわかった。
コードはhttps://github.com/Yu-Fangxu/FoR.comで入手できる。
Divergent thinking, the cognitive process of generating diverse solutions, is a hallmark of human creativity and problem-solving. For machines, sampling diverse solution trajectories in complex reasoning problems is crucial for robust outcomes, data augmentation, and enhanced model generalization. Large language models (LLMs) often struggle with generating high-quality, diverse reasoning. While supervised fine-tuning helps with quality, it requires extensive supervision data to capture the full diversity of solutions. Alternatively, reinforcement learning methods like PPO aim to find limited highest-reward solutions while neglecting the solution diversity, akin to convergent thinking. To address these limitations, we propose Flow of Reasoning (FoR) -- an efficient LLM training approach enabling diverse reasoning with minimal data. FoR formulates multi-step LLM reasoning as a Markovian flow from an initial state to terminal states. The formulation allows to adapt principled GFlowNet approaches to train the LLM as a policy, which is able to sample multiple reasoning paths with probabilities proportional to the unnormalized reward. Empirical results show that, with limited training data (e.g., 15 examples), FoR can discover diverse high-quality solutions that excel greatly beyond current state-of-the-art methods across three tasks, including embodied reasoning (BlocksWorld), math puzzle solving (Game24), and logical reasoning (PrOntoQA). Code is available at https://github.com/Yu-Fangxu/FoR. | 翻訳日:2024-06-26 00:23:38 公開日:2024-06-24 |
# 画像二階微分情報を用いたクロップエッジ検出の学習
Learning to utilize image second-order derivative information for crisp edge detection ( http://arxiv.org/abs/2406.05779v2 ) ライセンス: Link先を確認 | Changsong Liu, Wei Zhang, Yanyan Liu, Yuming Li, Mingyang Li, Wenlin Li, Yimeng Fan, Liang Zhang, | (参考訳) エッジ検出はコンピュータビジョンの基本課題である。
深層畳み込みニューラルネットワーク(DCNN)の開発において大きな進歩を遂げた。
しかし、近年の最先端エッジ検出手法は、厚くノイズの多いエッジ線を生成する傾向にある。
本研究では,(1)2階画像の正確なエッジ画素位置特性を活用すること,(2)不均衡な画素分布の問題を緩和すること,の2つの側面からこの問題を解決する。
本研究では,モデルが真のエッジ画素を正確に検出するのに役立つ2階微分型マルチスケールコンテキスト拡張モジュール (SDMC) を提案し,不均衡分布問題を緩和するハイブリッド焦点損失関数 (HFL) を構築した。
提案手法を3つの標準ベンチマークで検証した結果,提案手法はBSDS500データセット(標準評価では 0.829,基準評価では 0.720),NYUD-V2 データセット(標準評価では 0.768,基準評価では 0.546,標準評価では 0.903),BIPED データセット(標準評価では ODS F-スコア)において,出力エッジマップをクリップし,最高性能を達成することができることがわかった。
Edge detection is a fundamental task in computer vision. It has made great progress under the development of deep convolutional neural networks (DCNNs), some of which have achieved a beyond human-level performance. However, recent top-performing edge detection methods tend to generate thick and noisy edge lines. In this work, we solve this problem from two aspects: (1) leveraging the precise edge pixel location characteristics of second-order image derivatives, and (2) alleviating the issue of imbalanced pixel distribution. We propose a second-order derivative-based multi-scale contextual enhancement module (SDMC) to help the model locate true edge pixels accurately and construct a hybrid focal loss function (HFL) to alleviate the imbalanced distribution issue. We test our method on three standard benchmarks and the experiment results illustrate that our method can make the output edge maps crisp and achieves a top performance among several state-of-the-art methods on the BSDS500 dataset (ODS F-score in standard evaluation is 0.829, in crispness evaluation is 0.720), NYUD-V2 dataset (ODS F-score in standard evaluation is 0.768, in crispness evaluation is 0.546), and BIPED dataset (ODS F-score in standard evaluation is 0.903). | 翻訳日:2024-06-26 00:23:38 公開日:2024-06-24 |
# VCR: ビジュアルキャプション復元
VCR: Visual Caption Restoration ( http://arxiv.org/abs/2406.06462v2 ) ライセンス: Link先を確認 | Tianyu Zhang, Suyuchen Wang, Lu Li, Ge Zhang, Perouz Taslakian, Sai Rajeswar, Jie Fu, Bang Liu, Yoshua Bengio, | (参考訳) 画像内の画素レベルのヒントを用いて、部分的に隠されたテキストを正確に復元するモデルに挑戦する視覚言語タスクであるVisual Caption Restoration (VCR)を導入する。
この課題は、画像に埋め込まれたテキストは、視覚、テキスト、および画像に埋め込まれたテキストのモダリティを整合させる必要があるため、共通の視覚要素や自然言語とは本質的に異なるという観察に由来する。
多くの作品では画像に埋め込まれたテキストを視覚的質問応答タスクに統合しているが、これらのタスクへのアプローチは一般的に光学的文字認識やマスキング言語モデリングに頼っているため、主にテキストベースの処理に還元される。
しかし、正確なテキスト復元は、マスクされたテキストの小さな露出領域から提供される画像、コンテキスト、微妙な手がかりの複合情報に依存するため、VCRではテキストベースの処理は効果がない。
我々は,VCRタスクの合成画像を生成するパイプラインを開発し,タスクの難易度を制御するために,キャプションの可視性を調整する。
このパイプラインでは、ウィキペディアの字幕付き画像を用いたVCR-Wikiと呼ばれるVCRのデータセットを構築し、簡単な分割版と難しい分割版の両方で2.11万の英語と346万の中国語のエンティティからなる。
我々の結果は、現在のビジョン言語モデルがVCRタスクにおいて人間のパフォーマンスに著しく遅れていることを明らかにし、データセット上でモデルを微調整するだけでは、顕著な改善には至らない。
VCR-Wikiとデータ構築コードをリリースし、今後の研究を促進する。
We introduce Visual Caption Restoration (VCR), a novel vision-language task that challenges models to accurately restore partially obscured texts using pixel-level hints within images. This task stems from the observation that text embedded in images is intrinsically different from common visual elements and natural language due to the need to align the modalities of vision, text, and text embedded in images. While numerous works have integrated text embedded in images into visual question-answering tasks, approaches to these tasks generally rely on optical character recognition or masked language modeling, thus reducing the task to mainly text-based processing. However, text-based processing becomes ineffective in VCR as accurate text restoration depends on the combined information from provided images, context, and subtle cues from the tiny exposed areas of masked texts. We develop a pipeline to generate synthetic images for the VCR task using image-caption pairs, with adjustable caption visibility to control the task difficulty. With this pipeline, we construct a dataset for VCR called VCR-Wiki using images with captions from Wikipedia, comprising 2.11M English and 346K Chinese entities in both easy and hard split variants. Our results reveal that current vision language models significantly lag behind human performance in the VCR task, and merely fine-tuning the models on our dataset does not lead to notable improvements. We release VCR-Wiki and the data construction code to facilitate future research. | 翻訳日:2024-06-26 00:23:38 公開日:2024-06-24 |
# RGB-Sonar Tracking ベンチマークと空間的クロスアテンション・トランストラッカ
RGB-Sonar Tracking Benchmark and Spatial Cross-Attention Transformer Tracker ( http://arxiv.org/abs/2406.07189v2 ) ライセンス: Link先を確認 | Yunfeng Li, Bo Wang, Jiuran Sun, Xueyi Wu, Ye Li, | (参考訳) 視覚カメラとソナーは自然に水中環境において補完的である。
2つのモードからの情報を組み合わせることで、水中の目標をよりよく観測することができる。
しかし、この問題はこれまでの研究では十分に注目されていない。
そこで本研究では,RGB-Sonar (RGB-S) トラッキングタスクを新たに導入し,RGBとソナーの相互作用による水中目標の効率的な追跡を実現する方法について検討する。
具体的には,50のシーケンスと87000以上の高品質な注釈付きバウンディングボックスを含むRGBS50ベンチマークデータセットを提案する。
実験の結果、RGBS50ベンチマークが現在人気の高いSOTトラッカーに挑戦していることが示された。
第2に,新しい空間的クロスアテンション層と2つの独立したグローバル統合モジュールからなる空間的クロスアテンションモジュール(SCAM)を含む,SCANetと呼ばれるRGB-Sトラッカーを提案する。
空間的相互アテンションは、RGB画像とソナー画像の空間的ミスアライメントの問題を克服するために用いられる。
第3に、RGB-Sトレーニングデータセットの欠如を克服するために、SOTデータに基づくRGB-Sシミュレーショントレーニング手法(SRST)を提案する。
RGBイメージをソナーライクなサリエンシイメージに変換して擬似データペアを構築することで、モデルがRGB-Sライクなデータのセマンティック構造を学習できるようにする。
包括的実験により,提案手法はRGBとソナーモードの相互作用を効果的に達成し,SCANetは提案したベンチマークで最先端の性能を達成することが示された。
コードはhttps://github.com/LiYunfengLYF/RGBS50で入手できる。
Vision camera and sonar are naturally complementary in the underwater environment. Combining the information from two modalities will promote better observation of underwater targets. However, this problem has not received sufficient attention in previous research. Therefore, this paper introduces a new challenging RGB-Sonar (RGB-S) tracking task and investigates how to achieve efficient tracking of an underwater target through the interaction of RGB and sonar modalities. Specifically, we first propose an RGBS50 benchmark dataset containing 50 sequences and more than 87000 high-quality annotated bounding boxes. Experimental results show that the RGBS50 benchmark poses a challenge to currently popular SOT trackers. Second, we propose an RGB-S tracker called SCANet, which includes a spatial cross-attention module (SCAM) consisting of a novel spatial cross-attention layer and two independent global integration modules. The spatial cross-attention is used to overcome the problem of spatial misalignment of between RGB and sonar images. Third, we propose a SOT data-based RGB-S simulation training method (SRST) to overcome the lack of RGB-S training datasets. It converts RGB images into sonar-like saliency images to construct pseudo-data pairs, enabling the model to learn the semantic structure of RGB-S-like data. Comprehensive experiments show that the proposed spatial cross-attention effectively achieves the interaction between RGB and sonar modalities and SCANet achieves state-of-the-art performance on the proposed benchmark. The code is available at https://github.com/LiYunfengLYF/RGBS50. | 翻訳日:2024-06-26 00:13:51 公開日:2024-06-24 |
# 大規模言語モデルにおける文脈外知識推論の制限
Limited Out-of-Context Knowledge Reasoning in Large Language Models ( http://arxiv.org/abs/2406.07393v2 ) ライセンス: Link先を確認 | Peng Hu, Changjiang Gao, Ruiqi Gao, Jiajun Chen, Shujian Huang, | (参考訳) LLM(Large Language Models)は、知識ベースとしての強力な能力と、コンテキスト内推論能力を示す。
しかし、以前の作業は、文脈やプロンプトではなく、トレーニングデータから情報を推測する能力など、文脈外の推論能力に挑戦する。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)について論じる。
我々は,LLMのOCKR能力を体系的に評価する7つのOCKRタスクを用いた合成データセットを設計した。
このデータセットを用いて,LLaMA2-13B-chatモデルの評価を行い,知識が個別または隣接のトレーニング環境で訓練されているかどうかに関わらず,この点における習熟度に制限があることを発見した。
さらに、完全な推論データで推論するようにモデルをトレーニングしても、大幅な改善は得られなかった。
明示的な知識検索を行うためにモデルをトレーニングすることは、タスクの1つだけに役立つため、モデルのOCKR能力の制限は、関連する知識を取得するのが困難であることを示している。
さらに,言語間知識伝達をOCKRの別形態として扱い,その能力を評価する。
その結果,評価モデルは言語間で知識を伝達する能力に限界があることが示唆された。
この研究で使用されるデータセットはhttps://github.com/NJUNLP/ID-OCKRで公開されている。
Large Language Models (LLMs) have demonstrated strong capabilities as knowledge bases and significant in-context reasoning capabilities. However, previous work challenges their out-of-context reasoning ability, i.e., the ability to infer information from their training data, instead of from the context or prompt. This paper focuses on a significant facet of out-of-context reasoning: Out-of-Context Knowledge Reasoning (OCKR), which is to combine multiple knowledge to infer new knowledge. We designed a synthetic dataset with seven representative OCKR tasks to systematically assess the OCKR capabilities of LLMs. Using this dataset, we evaluated the LLaMA2-13B-chat model and discovered that its proficiency in this aspect is limited, regardless of whether the knowledge is trained in a separate or adjacent training settings. Moreover, training the model to reason with complete reasoning data did not result in significant improvement. Training the model to perform explicit knowledge retrieval helps in only one of the tasks, indicating that the model's limited OCKR capabilities are due to difficulties in retrieving relevant knowledge. Furthermore, we treat cross-lingual knowledge transfer as a distinct form of OCKR, and evaluate this ability. Our results show that the evaluated model also exhibits limited ability in transferring knowledge across languages. The dataset used in this study is available at https://github.com/NJUNLP/ID-OCKR. | 翻訳日:2024-06-26 00:13:51 公開日:2024-06-24 |
# VulDetectBench: 大規模言語モデルによる脆弱性検出の深い機能評価
VulDetectBench: Evaluating the Deep Capability of Vulnerability Detection with Large Language Models ( http://arxiv.org/abs/2406.07595v3 ) ライセンス: Link先を確認 | Yu Liu, Lang Gao, Mingxin Yang, Yu Xie, Ping Chen, Xiaojin Zhang, Wei Chen, | (参考訳) 大規模言語モデル(LLM)は、大量のプログラムコードを含むトレーニングコーパスを持ち、モデルのコード理解と生成能力を大幅に改善する。
しかし、プログラムの脆弱性の検出、コードに関するより具体的なタスク、そしてこのより専門的なシナリオにおけるLLMの性能評価に関する包括的な研究は、いまだに不足している。
脆弱性分析における一般的な課題に対処するため,本研究では,LSMの脆弱性検出機能を評価するために特別に設計された,新たなベンチマークであるVulDetectBenchを紹介した。
このベンチマークは、LLMの脆弱性を特定し、分類し、発見する能力を、難易度を高める5つのタスクを通じて総合的に評価している。
我々は17モデル(オープンソースとクローズドソースの両方)の性能を評価し、既存のモデルでは脆弱性の識別と分類に関連するタスクにおいて80%以上の精度を達成できるが、その一方で、特定のより詳細な脆弱性分析タスクでは、30%未満の精度で不足しており、プロの脆弱性マイニングに有用な補助情報を提供することは困難である。
本ベンチマークでは,脆弱性検出の特定のタスクにおいて,様々なLLMの能力評価を効果的に行うとともに,コードセキュリティの重要領域における今後の研究と改善の基盤となる。
VulDetectBenchはhttps://github.com/Sweetaroo/VulDetectBench.comで公開されている。
Large Language Models (LLMs) have training corpora containing large amounts of program code, greatly improving the model's code comprehension and generation capabilities. However, sound comprehensive research on detecting program vulnerabilities, a more specific task related to code, and evaluating the performance of LLMs in this more specialized scenario is still lacking. To address common challenges in vulnerability analysis, our study introduces a new benchmark, VulDetectBench, specifically designed to assess the vulnerability detection capabilities of LLMs. The benchmark comprehensively evaluates LLM's ability to identify, classify, and locate vulnerabilities through five tasks of increasing difficulty. We evaluate the performance of 17 models (both open- and closed-source) and find that while existing models can achieve over 80% accuracy on tasks related to vulnerability identification and classification, they still fall short on specific, more detailed vulnerability analysis tasks, with less than 30% accuracy, making it difficult to provide valuable auxiliary information for professional vulnerability mining. Our benchmark effectively evaluates the capabilities of various LLMs at different levels in the specific task of vulnerability detection, providing a foundation for future research and improvements in this critical area of code security. VulDetectBench is publicly available at https://github.com/Sweetaroo/VulDetectBench. | 翻訳日:2024-06-26 00:13:51 公開日:2024-06-24 |
# CTIBench:サイバー脅威インテリジェンスにおけるLCMの評価ベンチマーク
CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence ( http://arxiv.org/abs/2406.07599v2 ) ライセンス: Link先を確認 | Md Tanvirul Alam, Dipkamal Bhusal, Le Nguyen, Nidhi Rastogi, | (参考訳) サイバー脅威インテリジェンス(サイバー脅威インテリジェンス、サイバー脅威インテリジェンス、CTI)は、サイバーセキュリティの世界において重要な存在であり、進化を続けるサイバー脅威を理解し、緩和するための重要な洞察を提供する。
近年のLarge Language Models (LLM) の台頭は、この領域における潜在的な可能性を示しているが、信頼性、正確性、幻覚に関する懸念は続いている。
既存のベンチマークはLCMの一般的な評価を提供するが、CTI固有のタスクの実践的および応用的な側面に対処するベンチマークは存在しない。
このギャップを埋めるために、我々はCTIアプリケーションにおけるLCMの性能を評価するために設計されたベンチマークであるCTIBenchを紹介する。
CTIBenchには、サイバー脅威の状況においてLLMが取得した知識を評価することに焦点を当てた複数のデータセットが含まれている。
これらのタスクに対するいくつかの最先端モデルの評価は、CTIコンテキストにおけるその強みと弱みに関する洞察を与え、CTIにおけるLLM能力のより深い理解に寄与する。
Cyber threat intelligence (CTI) is crucial in today's cybersecurity landscape, providing essential insights to understand and mitigate the ever-evolving cyber threats. The recent rise of Large Language Models (LLMs) have shown potential in this domain, but concerns about their reliability, accuracy, and hallucinations persist. While existing benchmarks provide general evaluations of LLMs, there are no benchmarks that address the practical and applied aspects of CTI-specific tasks. To bridge this gap, we introduce CTIBench, a benchmark designed to assess LLMs' performance in CTI applications. CTIBench includes multiple datasets focused on evaluating knowledge acquired by LLMs in the cyber-threat landscape. Our evaluation of several state-of-the-art models on these tasks provides insights into their strengths and weaknesses in CTI contexts, contributing to a better understanding of LLM capabilities in CTI. | 翻訳日:2024-06-26 00:13:51 公開日:2024-06-24 |
# CoLM-DSR: マルチモーダルな変形性音声再構成のためのニューラルコーデック言語モデリング
CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction ( http://arxiv.org/abs/2406.08336v2 ) ライセンス: Link先を確認 | Xueyuan Chen, Dongchao Yang, Dingdong Wang, Xixin Wu, Zhiyong Wu, Helen Meng, | (参考訳) 変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では,ニューラルコーデック言語モデリングを応用したマルチモーダルDSRモデルを提案する。
提案したモデルは以下の通りである。
i) 複数のモーダルコンテンツエンコーダを用いて,変形性音声からの強靭な音素埋め込みを補助的な視覚入力で抽出すること。
2 変形性音声から話者認識コーデックを抽出し、正常化するスピーカコーデックエンコーダであって、本来の音色及び正常韻律を提供するもの
三 コーデック言語モデルに基づく音声デコーダで、抽出した音素埋め込みと正規化コーデックに基づいて音声を再構成する。
UASpeech corpus を用いた評価の結果,提案手法は話者の類似性や韻律の自然性において有意な改善が得られた。
Dysarthric speech reconstruction (DSR) aims to transform dysarthric speech into normal speech. It still suffers from low speaker similarity and poor prosody naturalness. In this paper, we propose a multi-modal DSR model by leveraging neural codec language modeling to improve the reconstruction results, especially for the speaker similarity and prosody naturalness. Our proposed model consists of: (i) a multi-modal content encoder to extract robust phoneme embeddings from dysarthric speech with auxiliary visual inputs; (ii) a speaker codec encoder to extract and normalize the speaker-aware codecs from the dysarthric speech, in order to provide original timbre and normal prosody; (iii) a codec language model based speech decoder to reconstruct the speech based on the extracted phoneme embeddings and normalized codecs. Evaluations on the commonly used UASpeech corpus show that our proposed model can achieve significant improvements in terms of speaker similarity and prosody naturalness. | 翻訳日:2024-06-26 00:13:51 公開日:2024-06-24 |
# 点雲正規推定のための非対称シームズネットワーク
Asymmetrical Siamese Network for Point Clouds Normal Estimation ( http://arxiv.org/abs/2406.09681v2 ) ライセンス: Link先を確認 | Wei Jin, Jun Zhou, Nannan Li, Haba Madeline, Xiuping Liu, | (参考訳) 近年,深層学習に基づくポイントクラウド正規化推定は大きな進歩を遂げている。
しかし、既存のメソッドは主にPCPNetデータセットに依存しており、オーバーフィッティングにつながっている。
さらに、異なるノイズスケールを持つ点雲間の相関は未解明のままであり、ドメイン横断のシナリオでは性能が低下する。
本稿では、非対称なシームズネットワークアーキテクチャを用いて、クリーンでノイズの多い点群から学習した本質的な特徴の一貫性について検討する。
異なる枝から抽出された特徴間の合理的な制約を適用することにより、正規推定の品質を高める。
さらに,ノイズレベルが異なる形状の多視点正規推定データセットについても紹介する。
この新たなデータセットにおける既存の手法の評価は、異なる種類の形状に適応できないことを示し、過剰適合の程度を示している。
大規模な実験により、提案データセットはポイントクラウドの正常な推定に重大な課題をもたらし、我々の特徴制約機構は既存の手法を効果的に改善し、現在のアーキテクチャにおける過度な適合を低減します。
In recent years, deep learning-based point cloud normal estimation has made great progress. However, existing methods mainly rely on the PCPNet dataset, leading to overfitting. In addition, the correlation between point clouds with different noise scales remains unexplored, resulting in poor performance in cross-domain scenarios. In this paper, we explore the consistency of intrinsic features learned from clean and noisy point clouds using an Asymmetric Siamese Network architecture. By applying reasonable constraints between features extracted from different branches, we enhance the quality of normal estimation. Moreover, we introduce a novel multi-view normal estimation dataset that includes a larger variety of shapes with different noise levels. Evaluation of existing methods on this new dataset reveals their inability to adapt to different types of shapes, indicating a degree of overfitting. Extensive experiments show that the proposed dataset poses significant challenges for point cloud normal estimation and that our feature constraint mechanism effectively improves upon existing methods and reduces overfitting in current architectures. | 翻訳日:2024-06-26 00:13:51 公開日:2024-06-24 |
# NeST:3次元光弾性を利用したニューラルストレステンソルトモグラフィ
NeST: Neural Stress Tensor Tomography by leveraging 3D Photoelasticity ( http://arxiv.org/abs/2406.10212v2 ) ライセンス: Link先を確認 | Akshat Dave, Tianyi Zhang, Aaron Young, Ramesh Raskar, Wolfgang Heidrich, Ashok Veeraraghavan, | (参考訳) 光弾性は、応力誘起複屈折による透明物体のフルフィールド応力解析を可能にする。
既存の技術は2Dスライスに限られており、オブジェクトを破壊的にスライスする必要がある。
物体の内部3次元応力分布の復元は、テンソルトモグラフィー問題の解決と位相ラップのあいまいさを扱うため困難である。
我々は,3次元応力テンソル場を偏光測定からニューラル暗黙表現として再構成するための解析バイシンセシス手法であるNeSTを紹介する。
我々の重要な洞察は、ジョーンズ計算に基づく微分可能フォワードモデルを用いて位相アンラッピングとテンソルトモグラフィを共同で扱うことである。
我々の非線形モデルは、以前の線形近似とは異なり、実捕獲と忠実に一致している。
我々は3次元光弾性を捉えるための多軸偏光顕微鏡を試作し、NeSTが形状や力条件の異なる物体の内部応力分布を再構成することを実験的に実証した。
さらに、物体を仮想的にスライスし、目に見えない視点から光弾性縁を見ることによって、光弾性縁を可視化するなど、応力解析における新しい応用を紹介した。
NeSTはスケーラブルで非破壊的な3次元光弾性解析の道を開く。
Photoelasticity enables full-field stress analysis in transparent objects through stress-induced birefringence. Existing techniques are limited to 2D slices and require destructively slicing the object. Recovering the internal 3D stress distribution of the entire object is challenging as it involves solving a tensor tomography problem and handling phase wrapping ambiguities. We introduce NeST, an analysis-by-synthesis approach for reconstructing 3D stress tensor fields as neural implicit representations from polarization measurements. Our key insight is to jointly handle phase unwrapping and tensor tomography using a differentiable forward model based on Jones calculus. Our non-linear model faithfully matches real captures, unlike prior linear approximations. We develop an experimental multi-axis polariscope setup to capture 3D photoelasticity and experimentally demonstrate that NeST reconstructs the internal stress distribution for objects with varying shape and force conditions. Additionally, we showcase novel applications in stress analysis, such as visualizing photoelastic fringes by virtually slicing the object and viewing photoelastic fringes from unseen viewpoints. NeST paves the way for scalable non-destructive 3D photoelastic analysis. | 翻訳日:2024-06-26 00:04:06 公開日:2024-06-24 |
# CoLoRフィルタ:目標言語モデル事前学習のための条件付き損失除去フィルタ
CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training ( http://arxiv.org/abs/2406.10670v2 ) ライセンス: Link先を確認 | David Brandfonbrener, Hanlin Zhang, Andreas Kirsch, Jonathan Richard Schwarz, Sham Kakade, | (参考訳) 事前学習のための高品質なデータの選択は、言語モデルの下流タスク性能を形成する上で不可欠である。
最大の課題は、この最適部分集合を同定することであり、これは一般に難解であると考えられており、スケーラブルで効果的なヒューリスティックスを必要とする。
本研究では,2つの補助モデルの相対損失値に基づいて,ベイズに着想を得たデータ選択手法であるCoLoR-Filter(Conditional Loss Reduction Filtering)を提案する。
モデリングの理論的根拠に加えて,1) 書籍の評価に対するドメイン適応のためのC4からのデータ選択,2) 下流の複数の質問応答タスクのためのC4からのデータ選択という2つの言語モデリングタスクに対して,CoLoR-Filterを実証的に評価する。
我々は、より積極的にサブセレクトし、小さな補助モデルを用いて大きなターゲットモデルのためのデータを選択することにより、より良好なスケーリングを示す。
1つの見出し結果として、1組の150mパラメータ補助モデルを用いて選択されたCoLoR-Filterデータが1.2bパラメータターゲットモデルにトレーニングされ、ランダムに選択された25bトークン上でトレーニングされた1.2bパラメータモデルに一致し、書籍のデータは25倍少なく、下流タスクのデータは11倍少ない。
コード: https://github.com/davidbrandfonbrener/color-filter-olmo Filtered data: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4
Selecting high-quality data for pre-training is crucial in shaping the downstream task performance of language models. A major challenge lies in identifying this optimal subset, a problem generally considered intractable, thus necessitating scalable and effective heuristics. In this work, we propose a data selection method, CoLoR-Filter (Conditional Loss Reduction Filtering), which leverages an empirical Bayes-inspired approach to derive a simple and computationally efficient selection criterion based on the relative loss values of two auxiliary models. In addition to the modeling rationale, we evaluate CoLoR-Filter empirically on two language modeling tasks: (1) selecting data from C4 for domain adaptation to evaluation on Books and (2) selecting data from C4 for a suite of downstream multiple-choice question answering tasks. We demonstrate favorable scaling both as we subselect more aggressively and using small auxiliary models to select data for large target models. As one headline result, CoLoR-Filter data selected using a pair of 150m parameter auxiliary models can train a 1.2b parameter target model to match a 1.2b parameter model trained on 25b randomly selected tokens with 25x less data for Books and 11x less data for the downstream tasks. Code: https://github.com/davidbrandfonbrener/color-filter-olmo Filtered data: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4 | 翻訳日:2024-06-26 00:04:06 公開日:2024-06-24 |
# 大規模言語モデルにおける失敗管理のためのAIOpsに関する調査
A Survey of AIOps for Failure Management in the Era of Large Language Models ( http://arxiv.org/abs/2406.11213v4 ) ライセンス: Link先を確認 | Lingzhe Zhang, Tong Jia, Mengxi Jia, Yifan Wu, Aiwei Liu, Yong Yang, Zhonghai Wu, Xuming Hu, Philip S. Yu, Ying Li, | (参考訳) ソフトウェアシステムが複雑化するにつれ、AIOps(Artificial Intelligence for IT Operations)メソッドは、大規模分散ソフトウェアシステムの高可用性と信頼性を確保するために、ソフトウェアシステムの障害管理に広く使用されている。
しかし、これらの手法はクロスプラットフォームの汎用性やタスク間の柔軟性の欠如など、いくつかの課題に直面している。
幸いなことに、近年の大規模言語モデル(LLM)の進歩はこれらの課題に大きく取り組むことができ、この分野を探求するための多くのアプローチがすでに提案されている。
しかしながら、LLMベースのAIOpsと従来のAIOpsメソッドの違いについて、包括的な調査は行われていない。
そこで本研究では,LLM時代の障害管理のためのAIOps技術に関する包括的調査を行う。
これには、障害管理のためのAIOpsタスクの詳細な定義、AIOpsのデータソース、AIOpsに採用されているLLMベースのアプローチが含まれている。
さらに、この調査では、AIOpsサブタスク、異なるAIOpsサブタスクに適した特定のLLMベースのアプローチ、ドメインの課題と今後の方向性などについて調査し、開発と応用をさらに進めることを目指している。
As software systems grow increasingly intricate, Artificial Intelligence for IT Operations (AIOps) methods have been widely used in software system failure management to ensure the high availability and reliability of large-scale distributed software systems. However, these methods still face several challenges, such as lack of cross-platform generality and cross-task flexibility. Fortunately, recent advancements in large language models (LLMs) can significantly address these challenges, and many approaches have already been proposed to explore this field. However, there is currently no comprehensive survey that discusses the differences between LLM-based AIOps and traditional AIOps methods. Therefore, this paper presents a comprehensive survey of AIOps technology for failure management in the LLM era. It includes a detailed definition of AIOps tasks for failure management, the data sources for AIOps, and the LLM-based approaches adopted for AIOps. Additionally, this survey explores the AIOps subtasks, the specific LLM-based approaches suitable for different AIOps subtasks, and the challenges and future directions of the domain, aiming to further its development and application. | 翻訳日:2024-06-26 00:04:06 公開日:2024-06-24 |
# 天気予報:多モーダル言語モデルは深刻な気象について推論できるか?
WeatherQA: Can Multimodal Language Models Reason about Severe Weather? ( http://arxiv.org/abs/2406.11217v2 ) ライセンス: Link先を確認 | Chengqian Ma, Zhanxiang Hua, Alexandra Anderson-Frey, Vikram Iyer, Xin Liu, Lianhui Qin, | (参考訳) 干し草、竜巻、雷雨などの激しい対流的な気象イベントは、しばしば急速に起こるが、大きな被害を招き、毎年数十億ドルの費用がかかる。
このことは、気象学者や住民のリスクの高い地域での適切な準備のために、前もって厳しい天候の脅威を予知することの重要性を強調している。
現代の大規模基盤モデルはそのような予測を実行できますか?
既存の気象ベンチマークは、テキストのみの特徴を持つ特定の気象パラメータ(例えば、温度、湿度)の時系列変化の予測のみに焦点を当てている。
本研究では、気象パラメータの複雑な組み合わせ(例えば成分)を推論し、現実世界のシナリオで厳しい天候を予測するために、機械用に設計された最初のマルチモーダルデータセットであるWeatherQAを紹介する。
データセットには、さまざまな厳しい天候イベントのための8000組(複数画像、テキスト)のペアが含まれている。
それぞれのペアには、環境の不安定さ、表面の観測、レーダーの反射率を捉えた成分を描写したリッチな情報が含まれており、テキストには、人間の専門家が作成した予測分析が含まれている。
そこで,WeatherQAを用いて,GPT4,Claude3.5,Gemini-1.5,微調整されたLlama3ベースのVLMを含む最先端の視覚言語モデルの評価を行った。
これらのタスクは、ドメイン知識(例えば、大気力学)の深い理解と、マルチモーダルデータ(例えば、気象パラメータ間の相互作用)に対する複雑な推論を必要とする。
最強のVLM, GPT4o, および人間の推論の間には, かなりのギャップがある。
気象学者との包括的なケーススタディは、モデルの弱点をさらに明らかにし、このギャップを埋めるためには、より良いトレーニングとデータ統合が必要であることを示唆している。
WeatherQA リンク:https://github.com/chengqianma/WeatherQA.com
Severe convective weather events, such as hail, tornadoes, and thunderstorms, often occur quickly yet cause significant damage, costing billions of dollars every year. This highlights the importance of forecasting severe weather threats hours in advance to better prepare meteorologists and residents in at-risk areas. Can modern large foundation models perform such forecasting? Existing weather benchmarks typically focus only on predicting time-series changes in certain weather parameters (e.g., temperature, moisture) with text-only features. In this work, we introduce WeatherQA, the first multimodal dataset designed for machines to reason about complex combinations of weather parameters (a.k.a., ingredients) and predict severe weather in real-world scenarios. The dataset includes over 8,000 (multi-images, text) pairs for diverse severe weather events. Each pair contains rich information crucial for forecasting -- the images describe the ingredients capturing environmental instability, surface observations, and radar reflectivity, and the text contains forecast analyses written by human experts. With WeatherQA, we evaluate state-of-the-art vision language models, including GPT4, Claude3.5, Gemini-1.5, and a fine-tuned Llama3-based VLM, by designing two challenging tasks: (1) multi-choice QA for predicting affected area and (2) classification of the development potential of severe convection. These tasks require deep understanding of domain knowledge (e.g., atmospheric dynamics) and complex reasoning over multimodal data (e.g., interactions between weather parameters). We show a substantial gap between the strongest VLM, GPT4o, and human reasoning. Our comprehensive case study with meteorologists further reveals the weaknesses of the models, suggesting that better training and data integration are necessary to bridge this gap. WeatherQA link: https://github.com/chengqianma/WeatherQA. | 翻訳日:2024-06-26 00:04:06 公開日:2024-06-24 |
# 長所のLLM審査員は、多所的なインテクスト学習が役に立つか?
Can Many-Shot In-Context Learning Help Long-Context LLM Judges? See More, Judge Better! ( http://arxiv.org/abs/2406.11629v2 ) ライセンス: Link先を確認 | Mingyang Song, Mao Zheng, Xuan Luo, | (参考訳) LLMのパフォーマンスを評価する審査員として,LLM(Large Language Models)を活用することが近年注目を集めている。
それにもかかわらず、この種のアプローチはLLMからの潜在的なバイアスを同時に導入し、評価結果の信頼性に関する懸念を提起する。
この問題を軽減するため,GPT-4o-as-a-Judgeを単一回答グレーディングで支援するために,マルチショットインコンテキストプロンプトであるReinforcedとUnsupervised ICLの2つのバージョンを提案し,検討する。
前者はモデル生成的理性を持つインコンテキストの例を使用し、後者は無意味である。
設計したプロンプトに基づいて,テキスト内サンプルのスケールアップが評価の一致と品質に与える影響について検討する。
さらに, GPT-4o-as-a-Judge のシンボルバイアスをペア比較で明らかにし, その軽減のための単純かつ効果的なアプローチを提案する。
GPT-4oのような長文LLMは、ゼロショット方式よりも多ショット方式の方が優れていることを示す実験結果が得られた。
一方,実験結果は,シンボルバイアス緩和手法の有効性をさらに検証した。
Leveraging Large Language Models (LLMs) as judges for evaluating the performance of LLMs has recently garnered attention. Nonetheless, this type of approach concurrently introduces potential biases from LLMs, raising concerns about the reliability of the evaluation results. To mitigate this issue, we propose and study two versions of many-shot in-context prompts, Reinforced and Unsupervised ICL, for helping GPT-4o-as-a-Judge in single answer grading. The former uses in-context examples with model-generated rationales, and the latter without. Based on the designed prompts, we investigate the impact of scaling the number of in-context examples on the agreement and quality of the evaluation. Furthermore, we first reveal the symbol bias in GPT-4o-as-a-Judge for pairwise comparison and then propose a simple yet effective approach to mitigate it. Experimental results show that advanced long-context LLMs, such as GPT-4o, perform better in the many-shot regime than in the zero-shot regime. Meanwhile, the experimental results further verify the effectiveness of the symbol bias mitigation approach. | 翻訳日:2024-06-26 00:04:06 公開日:2024-06-24 |
# 機械的解釈可能性によるモデル性能のコンパクト証明
Compact Proofs of Model Performance via Mechanistic Interpretability ( http://arxiv.org/abs/2406.11779v5 ) ライセンス: Link先を確認 | Jason Gross, Rajashree Agrawal, Thomas Kwa, Euan Ong, Chun Hei Yip, Alex Gibson, Soufiane Noubir, Lawrence Chan, | (参考訳) 本研究では,モデル性能の形式的保証を導出し,コンパクトに証明するために,機械的解釈可能性 (リバースエンジニアリングモデルウェイトを人間解釈可能なアルゴリズムに変換する技術) を用いることを提案する。
提案手法は, 最大K$タスクで訓練した151個の小型変圧器の精度について, 下限を正式に証明して試作する。
我々は,コンピュータ支援型証明戦略を102種類作成し,それぞれのモデルに対して,その長さと厳密さを評価する。
定量的な測定値を用いることで、より短い証明が必要になり、より機械的な理解が得られます。
さらに、より忠実なメカニスティックな理解が、パフォーマンス境界の厳密化につながることが分かっています。
これらの関係は、証明のサブセットを質的に検証することで確認する。
最後に, モデル性能に関するコンパクトな証明を生成するために, 機械的解釈可能性を利用する上で重要な課題として, 合成構造のないノイズを同定する。
In this work, we propose using mechanistic interpretability -- techniques for reverse engineering model weights into human-interpretable algorithms -- to derive and compactly prove formal guarantees on model performance. We prototype this approach by formally proving lower bounds on the accuracy of 151 small transformers trained on a Max-of-$K$ task. We create 102 different computer-assisted proof strategies and assess their length and tightness of bound on each of our models. Using quantitative metrics, we find that shorter proofs seem to require and provide more mechanistic understanding. Moreover, we find that more faithful mechanistic understanding leads to tighter performance bounds. We confirm these connections by qualitatively examining a subset of our proofs. Finally, we identify compounding structureless noise as a key challenge for using mechanistic interpretability to generate compact proofs on model performance. | 翻訳日:2024-06-25 23:54:21 公開日:2024-06-24 |
# インストラクションベクトルによる大規模言語モデルの微調整の解釈可能なカタストロフィック・フォーミング
Interpretable Catastrophic Forgetting of Large Language Model Fine-tuning via Instruction Vector ( http://arxiv.org/abs/2406.12227v2 ) ライセンス: Link先を確認 | Gangwei Jiang, Caigao Jiang, Zhaoyi Li, Siqiao Xue, Jun Zhou, Linqi Song, Defu Lian, Ying Wei, | (参考訳) 微調整された大きな言語モデル(LLM)は、それらの一般的な能力を失う可能性がある。
しかし、そのような忘れ物の背後にある本質的なメカニズムは未解明のままである。
本稿では,この現象を,知識の理解と指導に焦点をあてて検討することから始める。
そこで本研究では,特定の命令追従能力に高い関連性を持つモデル表現を抽出し,モデル固有の忘れの理解を可能にするインストラクションベクトル(IV)フレームワークを提案する。
予備学習と後学習のIVダイナミクスの分析を通じて, ファインタニングは, 忘れているように見える以前のスキルを消去する代わりに, 専門的な推論パターンを主に追加することを提案する。
この知見に基づいて、元の計算グラフの保存を目的としたIV誘導学習を開発し、破滅的な忘れを緩和する。
3つのベンチマークの実証テストにより、この新しいアプローチの有効性が確認され、IVと忘れることの関係が支持された。
私たちのコードはまもなく利用可能になります。
Fine-tuning large language models (LLMs) can cause them to lose their general capabilities. However, the intrinsic mechanisms behind such forgetting remain unexplored. In this paper, we begin by examining this phenomenon by focusing on knowledge understanding and instruction following, with the latter identified as the main contributor to forgetting during fine-tuning. Consequently, we propose the Instruction Vector (IV) framework to capture model representations highly related to specific instruction-following capabilities, thereby making it possible to understand model-intrinsic forgetting. Through the analysis of IV dynamics pre and post-training, we suggest that fine-tuning mostly adds specialized reasoning patterns instead of erasing previous skills, which may appear as forgetting. Building on this insight, we develop IV-guided training, which aims to preserve original computation graph, thereby mitigating catastrophic forgetting. Empirical tests on three benchmarks confirm the efficacy of this new approach, supporting the relationship between IVs and forgetting. Our code will be made available soon. | 翻訳日:2024-06-25 23:54:21 公開日:2024-06-24 |
# Never Gonna: 商用のVoWiFiデプロイメントで非推奨のNULL暗号を探索する
Never Gonna Give You Up: Exploring Deprecated NULL Ciphers in Commercial VoWiFi Deployments ( http://arxiv.org/abs/2406.12348v2 ) ライセンス: Link先を確認 | Gabriel Karl Gegenhuber, Philipp Frenzel, Edgar Weippl, | (参考訳) 4Gや5Gのような今日のセルラーネットワークの進化において、IMS(IP Multimedia Subsystem)は、音声通話の管理とショートメッセージの処理において重要なコンポーネントである。
従来の無線層を介してIMSにアクセスすることに加えて、多くのオペレーターはVoice over Wi-Fi(VoWiFi)を使用して、顧客が(安全でない)Wi-Fi接続を使用してパブリックインターネット上でコアネットワークにダイヤルできる。
WiFiやインターネットドメイン上の悪意あるアクターから保護するために、トラフィックは一連のIPsecトンネルを通じて送信され、機密性と整合性を確保する。
他の暗号化プロトコル(TLSなど)と同様に、クライアントとサーバはハンドシェイクプロトコル(IKEv2)を使用して、サポート対象のセキュリティ設定を通信し、セッションで使用されるパラメータ(例えばキーや暗号化アルゴリズム)に同意する。
しかし、これは設定ミスによって引き起こされるセキュリティ上の脆弱性の扉を開く。
クライアント側とサーバ側の両方で、VoWiFiの商用デプロイメントにおけるセキュリティ設定を分析し、通信セキュリティを損なう非推奨構成を見つけたいと思っています。
In today's cellular network evolutions, such as 4G and 5G, the IMS (IP Multimedia Subsystem) serves as a crucial component in managing voice calls and handling short messages. Besides accessing the IMS over the traditional radio layer, many operators use Voice over Wi-Fi (VoWiFi) allowing customers to dial into their core network over the public Internet using an (insecure) Wi-Fi connection. To protect against malicious actors on the WiFi or Internet domain, the traffic is sent over a series of IPsec tunnels, ensuring confidentiality and integrity. Similar to other encrypted protocols (e.g. TLS), the client and server use a handshake protocol (i.e., IKEv2) to communicate their supported security configurations and to agree upon the used parameters (e.g., keys or an encryption algorithm) for the ongoing session. This however opens the door for security vulnerabilities introduced by misconfiguration. We want to analyze security configurations within commercial VoWiFi deployments, both on the client and server side, spotting deprecated configurations that undermine communication security. | 翻訳日:2024-06-25 23:54:21 公開日:2024-06-24 |
# ベイジアンデータ選択に向けて
Towards Bayesian Data Selection ( http://arxiv.org/abs/2406.12560v2 ) ライセンス: Link先を確認 | Julian Rodemann, | (参考訳) 幅広い機械学習アルゴリズムがトレーニングサンプルに反復的にデータを追加する。
例えば、セミ教師付き学習、アクティブラーニング、マルチアームのバンディット、ベイズ最適化などがある。
意思決定問題としてデータ選択をフレーミングすることで、このようなデータ追加を意思決定理論に組み込む。
これにより、ベイズ最適データ選択の道が開ける。
半教師付き学習における自己学習の具体例について,各ベイズ基準を導出する。
さらに, この基準の展開は, 一般化線形モデル, 半パラメトリック一般化付加モデル, および実世界データ上でのベイズニューラルネットワークの手法を実証的に評価することにより, 検証バイアスの問題を緩和することを示した。
A wide range of machine learning algorithms iteratively add data to the training sample. Examples include semi-supervised learning, active learning, multi-armed bandits, and Bayesian optimization. We embed this kind of data addition into decision theory by framing data selection as a decision problem. This paves the way for finding Bayes-optimal selections of data. For the illustrative case of self-training in semi-supervised learning, we derive the respective Bayes criterion. We further show that deploying this criterion mitigates the issue of confirmation bias by empirically assessing our method for generalized linear models, semi-parametric generalized additive models, and Bayesian neural networks on simulated and real-world data. | 翻訳日:2024-06-25 23:54:21 公開日:2024-06-24 |
# 2つの言語モデルが似ている理由
What Makes Two Language Models Think Alike? ( http://arxiv.org/abs/2406.12620v2 ) ライセンス: Link先を確認 | Jeanne Salle, Louis Jalouzot, Nur Lan, Emmanuel Chemla, Yair Lakretz, | (参考訳) アーキテクチャの違いは、モデルの表現方法やプロセス言語に大きく影響しますか?
本稿では,メタラーニング符号化モデル(MLEM)に基づく新しい手法を提案する。
このアプローチは、どの2つのモデルの2つの層が言語情報をどのように表現するかを特徴ベースの比較を提供する。
本手法をBERT, GPT-2, Mambaに適用する。
従来の方法とは異なり、MLEMは類似性と相違の原因となる特定の言語的特徴を特定することによって、透過的な比較を提供する。
より一般的には、この手法はドメインの形式的で象徴的な記述を使用し、これらを用いて神経表現を比較する。
そのため、アプローチは音声や視覚などの他の領域や、人間の脳を含む他の神経系にも直接拡張できる。
Do architectural differences significantly affect the way models represent and process language? We propose a new approach, based on metric-learning encoding models (MLEMs), as a first step to answer this question. The approach provides a feature-based comparison of how any two layers of any two models represent linguistic information. We apply the method to BERT, GPT-2 and Mamba. Unlike previous methods, MLEMs offer a transparent comparison, by identifying the specific linguistic features responsible for similarities and differences. More generally, the method uses formal, symbolic descriptions of a domain, and use these to compare neural representations. As such, the approach can straightforwardly be extended to other domains, such as speech and vision, and to other neural systems, including human brains. | 翻訳日:2024-06-25 23:54:21 公開日:2024-06-24 |
# 部品が総和より大きい場合:個々のLCMコンポーネントは完全なモデルを上回ることができる
When Parts are Greater Than Sums: Individual LLM Components Can Outperform Full Models ( http://arxiv.org/abs/2406.13131v2 ) ライセンス: Link先を確認 | Ting-Yun Chang, Jesse Thomason, Robin Jia, | (参考訳) 本稿では,大規模言語モデルの出力を注目頭やMLP(コンポーネント)の個人的貢献に分解することで,文脈内学習(ICL)について検討する。
モデルが貧弱な場合であっても、分類タスクで個別にうまく機能する優れたパフォーマンスのコンポーネント、偶然よりもはるかに悪いパフォーマンスのコンポーネント、常に同じラベルを予測するラベルバイアスのコンポーネント。
完全モデルの精度が大きく変化しても, コンポーネントの精度は, 異なるデモセットやプロンプトテンプレートの摂動とよく相関していることがわかった。
そこで本研究では,いくつかのラベル付き例から,コンポーネントアクティベーションを線形に再スケールするコンポーネント再重み付けを提案する。
Llama-2-7Bの8つのタスクにまたがる24ショットICLよりも平均6.0%精度が向上した。
全体として、本論文はICLの理解を深め、モデル内部を調べることで改善のための実践的な方法を提供する。
This paper studies in-context learning (ICL) by decomposing the output of large language models into the individual contributions of attention heads and MLPs (components). We observe curious components: good-performing ones that individually do well on a classification task, even when the model performs poorly; bad-performing ones that do much worse than chance; and label-biased components that always predict the same label. We find that component accuracies are well-correlated across different demonstration sets and perturbations of prompt templates, even when the full-model accuracy varies greatly. Based on our findings, we propose component reweighting, which learns to linearly re-scale the component activations from a few labeled examples. Given 24 labeled examples, our method improves by an average of 6.0% accuracy points over 24-shot ICL across 8 tasks on Llama-2-7B. Overall, this paper both enriches our understanding of ICL and provides a practical method for improvement by examining model internals. | 翻訳日:2024-06-25 23:54:21 公開日:2024-06-24 |
# 拡散モデルによる手術用トリプルト認識
Surgical Triplet Recognition via Diffusion Model ( http://arxiv.org/abs/2406.13210v2 ) ライセンス: Link先を確認 | Daochang Liu, Axel Hu, Mubarak Shah, Chang Xu, | (参考訳) 外科的三重項認識は、次世代のコンテキスト対応手術室を実現するために必要不可欠なビルディングブロックである。
目的は、手術用ビデオフレームに表示される楽器、動詞、ターゲットの組み合わせを特定することである。
本稿では,拡散モデルを用いた手術三重項認識のための新しい生成フレームワークであるDiffTripletを提案する。
三重項結合の課題に対処するために, 拡散フレームワーク, すなわち, 関連学習と関連指導において, 2つのユニークな設計が提案されている。
トレーニング中、三重項と個々のコンポーネントの結合空間におけるモデルを最適化し、それらの間の依存関係をキャプチャする。
推論の際には,各成分の情報を用いて三重項予測を洗練させる反復的認知過程の更新に関連性制約を組み込む。
CholecT45とColecT50データセットの実験は、手術用三重項認識のための新しい最先端性能を達成する上で、提案手法の優位性を示している。
私たちのコードは解放されます。
Surgical triplet recognition is an essential building block to enable next-generation context-aware operating rooms. The goal is to identify the combinations of instruments, verbs, and targets presented in surgical video frames. In this paper, we propose DiffTriplet, a new generative framework for surgical triplet recognition employing the diffusion model, which predicts surgical triplets via iterative denoising. To handle the challenge of triplet association, two unique designs are proposed in our diffusion framework, i.e., association learning and association guidance. During training, we optimize the model in the joint space of triplets and individual components to capture the dependencies among them. At inference, we integrate association constraints into each update of the iterative denoising process, which refines the triplet prediction using the information of individual components. Experiments on the CholecT45 and CholecT50 datasets show the superiority of the proposed method in achieving a new state-of-the-art performance for surgical triplet recognition. Our codes will be released. | 翻訳日:2024-06-25 23:54:21 公開日:2024-06-24 |
# Er:YAGレーザーアブレーション時の音波を用いた組織分類の深層学習手法(続報)
Deep-Learning Approach for Tissue Classification using Acoustic Waves during Ablation with an Er:YAG Laser (Updated) ( http://arxiv.org/abs/2406.14570v2 ) ライセンス: Link先を確認 | Carlo Seppi, Philippe C. Cattin, | (参考訳) 今日の骨切り(骨切り)の機械的道具は、治癒過程を延長する機械的外傷を引き起こす。
医療機器メーカーは、このトラウマを最小限に抑えることを目指している。
機械工具の代わりにレーザー光を用いて組織を出血させ、外科治療後の治癒時間を短縮する。
レーザー手術において、周囲の組織への損傷を防ぐため、信頼性の高いフィードバックシステムが不可欠である。
レーザーアブレーション時に発生する音波の組織分類法を提案し,その適用性を示した。
マイクロ秒パルスEr:YAGレーザーによるアブレーションプロセスは、空気結合型トランスデューサで得られた音響波を生成する。
これらの波は、硬い骨、柔らかい骨、筋肉、脂肪、皮膚の5種類のブタ組織を分類するために用いられた。
組織の自動分類では,1次元畳み込みニューラルネットワーク(CNN)と時間依存入力,周波数スペクトルの周波数スペクトルまたは主成分を入力とするフル接続ニューラルネットワーク(FcNN)と,時間依存データと周波数スペクトルを入力とするCNNとFcNNの組合せの5つのアプローチを比較した。
分類精度を向上させるために, 連続音波を用いた。
Grad-Camは、周波数の活性化マップを特定し、このタスクで最も重要な周波数を示す。
その結果、時間依存データと周波数スペクトルを組み合わせることで、最高分類精度(65.5%-75.5%)が得られた。
また,周波数スペクトルだけでは十分であり,主成分分析(PCA)の適用によるメリットは得られなかった。
Today's mechanical tools for bone cutting (osteotomy) cause mechanical trauma that prolongs the healing process. Medical device manufacturers aim to minimize this trauma, with minimally invasive surgery using laser cutting as one innovation. This method ablates tissue using laser light instead of mechanical tools, reducing post-surgery healing time. A reliable feedback system is crucial during laser surgery to prevent damage to surrounding tissues. We propose a tissue classification method analyzing acoustic waves generated during laser ablation, demonstrating its applicability in an ex-vivo experiment. The ablation process with a microsecond pulsed Er:YAG laser produces acoustic waves, acquired with an air-coupled transducer. These waves were used to classify five porcine tissue types: hard bone, soft bone, muscle, fat, and skin. For automated tissue classification, we compared five Neural Network (NN) approaches: a one-dimensional Convolutional Neural Network (CNN) with time-dependent input, a Fully-connected Neural Network (FcNN) with either the frequency spectrum or principal components of the frequency spectrum as input, and a combination of a CNN and an FcNN with time-dependent data and its frequency spectrum as input. Consecutive acoustic waves were used to improve classification accuracy. Grad-Cam identified the activation map of the frequencies, showing low frequencies as the most important for this task. Our results indicated that combining time-dependent data with its frequency spectrum achieved the highest classification accuracy (65.5%-75.5%). We also found that using the frequency spectrum alone was sufficient, with no additional benefit from applying Principal Components Analysis (PCA). | 翻訳日:2024-06-25 23:44:36 公開日:2024-06-24 |
# Soley:大規模言語モデルを用いたEthereumスマートコントラクトにおける論理脆弱性の同定と自動検出
Soley: Identification and Automated Detection of Logic Vulnerabilities in Ethereum Smart Contracts Using Large Language Models ( http://arxiv.org/abs/2406.16244v1 ) ライセンス: Link先を確認 | Majd Soud, Waltteri Nuutinen, Grischa Liebel, | (参考訳) Ethereumのような現代のブロックチェーンは、いわゆるスマートコントラクト、暗号通貨のかなりの価値を持つ自律型デジタルプログラムのデプロイと実行をサポートする。
スマートコントラクトの実行には,ユーザが支払うガスコストが必要になります。
スマートコントラクトの論理的脆弱性は金銭的損失を招きかねず、しばしば高影響のサイバー攻撃の根本原因となる。
私たちの目標は3倍です。
(i)GitHub上のコード変更から抽出した実世界のスマートコントラクトのロジック脆弱性を実証的に調査する。
(二)Soleyは、スマートコントラクトにおける論理的脆弱性の自動検出、Large Language Models(LLM)の利用、そして、
3) スマートコントラクト開発者が現実のシナリオでこれらの脆弱性に対処するために使用する緩和戦略を検討する。
GitHubからスマートコントラクトと関連するコード変更を取得しました。
第1と第3の目的に対処するため,オープンコーディング手法を用いて,利用可能な論理の脆弱性を定性的に検討した。
これらの脆弱性とその緩和戦略を特定しました。
2つ目の目的として、我々は様々な論理的脆弱性を抽出し、プリプロセッシング手法を適用し、提案したSoleyモデルを実装し、訓練した。
そこで我々は,様々なLLMの性能とともにSoleyを評価し,論理的脆弱性検出のタスクにおける最先端のベースラインと比較した。
分析の結果,9つの新しい論理的脆弱性が同定された。
さらに、実世界のシナリオで観察された開発者の修正から抽出した緩和戦略をいくつか導入した。
我々のSoleyメソッドは、ロジックの脆弱性を自動的に識別する既存のメソッドよりも優れています。
興味深いことに、この作業におけるLLMの有効性は、広範な特徴工学を必要とせずに明らかであった。
Modern blockchain, such as Ethereum, supports the deployment and execution of so-called smart contracts, autonomous digital programs with significant value of cryptocurrency. Executing smart contracts requires gas costs paid by users, which define the limits of the contract's execution. Logic vulnerabilities in smart contracts can lead to financial losses, and are often the root cause of high-impact cyberattacks. Our objective is threefold: (i) empirically investigate logic vulnerabilities in real-world smart contracts extracted from code changes on GitHub, (ii) introduce Soley, an automated method for detecting logic vulnerabilities in smart contracts, leveraging Large Language Models (LLMs), and (iii) examine mitigation strategies employed by smart contract developers to address these vulnerabilities in real-world scenarios. We obtained smart contracts and related code changes from GitHub. To address the first and third objectives, we qualitatively investigated available logic vulnerabilities using an open coding method. We identified these vulnerabilities and their mitigation strategies. For the second objective, we extracted various logic vulnerabilities, applied preprocessing techniques, and implemented and trained the proposed Soley model. We evaluated Soley along with the performance of various LLMs and compared the results with the state-of-the-art baseline on the task of logic vulnerability detection. From our analysis, we identified nine novel logic vulnerabilities, extending existing taxonomies with these vulnerabilities. Furthermore, we introduced several mitigation strategies extracted from observed developer modifications in real-world scenarios. Our Soley method outperforms existing methods in automatically identifying logic vulnerabilities. Interestingly, the efficacy of LLMs in this task was evident without requiring extensive feature engineering. | 翻訳日:2024-06-25 16:22:56 公開日:2024-06-24 |
# シミュレーションによる量子同型暗号化の実証
Demonstrating Quantum Homomorphic Encryption Through Simulation ( http://arxiv.org/abs/2406.16247v1 ) ライセンス: Link先を確認 | Sohrab Ganjian, Connor Paddock, Anne Broadbent, | (参考訳) 量子ホモモルフィック暗号化(QHE)は、クライアントがアップロードしたプライベートデータに対する量子クラウドサーバの計算を可能にする。
普遍量子回路におけるBroadbent と Jeffery の "EPR" スキームに従って,QHE の概念実証ソフトウェアシミュレーションを行う。
本手法の短期可能性を示し、量子演算のシミュレーションコストと比較して、同型回路評価の付加コストが小さすぎることを検証した。
我々のシミュレーションツールキットはオープンソースのPython実装であり、ネットワーク化された量子デバイス間の量子準同型暗号化のさらなるハードウェア応用へのステップとなる。
Quantum homomorphic encryption (QHE), allows a quantum cloud server to compute on private data as uploaded by a client. We provide a proof-of-concept software simulation for QHE, according to the "EPR" scheme of Broadbent and Jeffery, for universal quantum circuits. We demonstrate the near-term viability of this scheme and provide verification that the additional cost of homomorphic circuit evaluation is minor when compared to the simulation cost of the quantum operations. Our simulation toolkit is an open-source Python implementation, that serves as a step towards further hardware applications of quantum homomorphic encryption between networked quantum devices. | 翻訳日:2024-06-25 16:22:56 公開日:2024-06-24 |
# シミュレーションレムマのための最適高さ境界
An Optimal Tightness Bound for the Simulation Lemma ( http://arxiv.org/abs/2406.16249v1 ) ライセンス: Link先を確認 | Sam Lobel, Ronald Parr, | (参考訳) 定数要素を含む厳密なモデル不特定性に対する値予測誤差の有界性を示す。
これは、強化学習の基本的な結果である「シミュレーション補題」の直接的な改善である。
既存の境界は非常に緩く、混合確率誤差の最適下処理のため、大きな割引係数に対して空白となることを示した。
この量自体を慎重に考慮し、値誤差のサブコンポーネントとしてではなく、遷移関数の不特定性に関してサブ線形な境界を導出する。
次に、この手法のより広範な適用性を示し、階層的抽象化の関連部分フィールドにおける類似のバウンダリを改善した。
We present a bound for value-prediction error with respect to model misspecification that is tight, including constant factors. This is a direct improvement of the "simulation lemma," a foundational result in reinforcement learning. We demonstrate that existing bounds are quite loose, becoming vacuous for large discount factors, due to the suboptimal treatment of compounding probability errors. By carefully considering this quantity on its own, instead of as a subcomponent of value error, we derive a bound that is sub-linear with respect to transition function misspecification. We then demonstrate broader applicability of this technique, improving a similar bound in the related subfield of hierarchical abstraction. | 翻訳日:2024-06-25 16:22:56 公開日:2024-06-24 |
# パーソナライズされたヘルスインサイトのためのグラフ強化LDM:睡眠分析の事例研究
Graph-Augmented LLMs for Personalized Health Insights: A Case Study in Sleep Analysis ( http://arxiv.org/abs/2406.16252v1 ) ライセンス: Link先を確認 | Ajan Subramanian, Zhongqi Yang, Iman Azimi, Amir M. Rahmani, | (参考訳) 健康モニタリングシステムは、予防措置や早期健康介入に不可欠な生理的・行動的データを継続的に収集することで、現代医療に革命をもたらした。
このデータをLLM(Large Language Models)と統合することは、インタラクティブなヘルスアドバイスを提供する上で有望であることを示しているが、Retrieval-Augmented Generation(RAG)やファインチューニングといった従来の手法では、ウェアラブルデバイスからの複雑で多次元で時間的に関連するデータを十分に活用できないことが多い。
これらの従来のアプローチは、多様な健康データストリームを動的に統合し解釈する能力が不十分なため、限られた行動可能でパーソナライズされた健康上の洞察を提供するのが一般的である。
そこで本研究では,健康意識のパーソナライズと明確さを著しく向上するグラフ拡張LDMフレームワークを提案する。
階層的なグラフ構造を用いることで、このフレームワークは患者間の関係を捕捉し、ランダムフォレストモデルから得られる動的な特徴重要度スコアをLLMプロンプトに富ませる。
このアプローチの有効性は、新型コロナウイルスロックダウン中の20人の大学生を対象にした睡眠分析ケーススタディを通じて実証され、効果的かつパーソナライズされた健康情報を生成するためのモデルの可能性を強調した。
関連性、包括性、行動可能性、パーソナライズに関する洞察を評価するために、我々は、複雑な健康データを効果的に処理し解釈するモデルに対する重要なニーズに対処するために、別のLCMを活用します。
以上の結果から,フレームワークの強化による4つの基準の大幅な改善が示唆された。
フレームワークを通じて、特定の患者に合わせて、より巧みに作り上げられた、より思慮深い反応を導き出すことができます。
Health monitoring systems have revolutionized modern healthcare by enabling the continuous capture of physiological and behavioral data, essential for preventive measures and early health intervention. While integrating this data with Large Language Models (LLMs) has shown promise in delivering interactive health advice, traditional methods like Retrieval-Augmented Generation (RAG) and fine-tuning often fail to fully utilize the complex, multi-dimensional, and temporally relevant data from wearable devices. These conventional approaches typically provide limited actionable and personalized health insights due to their inadequate capacity to dynamically integrate and interpret diverse health data streams. In response, this paper introduces a graph-augmented LLM framework designed to significantly enhance the personalization and clarity of health insights. Utilizing a hierarchical graph structure, the framework captures inter and intra-patient relationships, enriching LLM prompts with dynamic feature importance scores derived from a Random Forest Model. The effectiveness of this approach is demonstrated through a sleep analysis case study involving 20 college students during the COVID-19 lockdown, highlighting the potential of our model to generate actionable and personalized health insights efficiently. We leverage another LLM to evaluate the insights for relevance, comprehensiveness, actionability, and personalization, addressing the critical need for models that process and interpret complex health data effectively. Our findings show that augmenting prompts with our framework yields significant improvements in all 4 criteria. Through our framework, we can elicit well-crafted, more thoughtful responses tailored to a specific patient. | 翻訳日:2024-06-25 16:22:56 公開日:2024-06-24 |
# LLMs help NLP researchers: Critique Paper (Meta-) Reviewing
LLMs assist NLP Researchers: Critique Paper (Meta-)Reviewing ( http://arxiv.org/abs/2406.16253v1 ) ライセンス: Link先を確認 | Jiangshu Du, Yibo Wang, Wenting Zhao, Zhongfen Deng, Shuaiqi Liu, Renze Lou, Henry Peng Zou, Pranav Narayanan Venkit, Nan Zhang, Mukund Srinath, Haoran Ranran Zhang, Vipul Gupta, Yinghui Li, Tao Li, Fei Wang, Qin Liu, Tianlin Liu, Pengzhi Gao, Congying Xia, Chen Xing, Jiayang Cheng, Zhaowei Wang, Ying Su, Raj Sanjay Shah, Ruohao Guo, Jing Gu, Haoran Li, Kangda Wei, Zihao Wang, Lu Cheng, Surangika Ranathunga, Meng Fang, Jie Fu, Fei Liu, Ruihong Huang, Eduardo Blanco, Yixin Cao, Rui Zhang, Philip S. Yu, Wenpeng Yin, | (参考訳) この作品は2つの重要なトレンドによって動機付けられている。
一方、大規模言語モデル(LLM)は、書込み、描画、質問応答といった様々な生成タスクにおいて顕著な汎用性を示し、多くのルーチンタスクに要する時間を大幅に削減している。
一方で、研究に時間を要するだけでなく、高度な専門知識を必要とする研究者は、論文の読解、執筆、レビューにより多くの時間を費やす必要があるため、ますます課題に直面している。
LLMは、研究者が重い作業負荷を軽減するのにどのように役立つのか?
本研究は, LLMがNLP研究者を支援すること, 特に, LLMが紙(メタ)をレビューする際の有効性および認識可能性について考察する。
これを解決するために,2種類の情報を含むReviewCritiqueデータセットを構築した。
一 人書き書面及びLLM作成書面によるNLP書類(カメラ可読書面より初期提出書面)及び
(ii)各レビューには「欠陥」ラベルと、専門家が注釈を付けた個々のセグメントの対応説明が添付されている。
ReviewCritiqueを用いて、本研究では2つの研究課題を探求する。
(i)「レビュアーとしてのLLM」では、LLMが生成したレビューは、品質と差別性の観点から人間によって書かれたレビューとどのように比較されるか。
(二)「メタリビューアとしてのLLM」は、個々の論文レビューにおいて、欠陥や非専門レビューセグメントなどの潜在的な問題をLLMがいかに効果的に特定できるか。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
This work is motivated by two key trends. On one hand, large language models (LLMs) have shown remarkable versatility in various generative tasks such as writing, drawing, and question answering, significantly reducing the time required for many routine tasks. On the other hand, researchers, whose work is not only time-consuming but also highly expertise-demanding, face increasing challenges as they have to spend more time reading, writing, and reviewing papers. This raises the question: how can LLMs potentially assist researchers in alleviating their heavy workload? This study focuses on the topic of LLMs assist NLP Researchers, particularly examining the effectiveness of LLM in assisting paper (meta-)reviewing and its recognizability. To address this, we constructed the ReviewCritique dataset, which includes two types of information: (i) NLP papers (initial submissions rather than camera-ready) with both human-written and LLM-generated reviews, and (ii) each review comes with "deficiency" labels and corresponding explanations for individual segments, annotated by experts. Using ReviewCritique, this study explores two threads of research questions: (i) "LLMs as Reviewers", how do reviews generated by LLMs compare with those written by humans in terms of quality and distinguishability? (ii) "LLMs as Metareviewers", how effectively can LLMs identify potential issues, such as Deficient or unprofessional review segments, within individual paper reviews? To our knowledge, this is the first work to provide such a comprehensive analysis. | 翻訳日:2024-06-25 16:22:56 公開日:2024-06-24 |
# 言語モデルにおける信頼制御ニューロン
Confidence Regulation Neurons in Language Models ( http://arxiv.org/abs/2406.16254v1 ) ライセンス: Link先を確認 | Alessandro Stolfo, Ben Wu, Wes Gurnee, Yonatan Belinkov, Xingyi Song, Mrinmaya Sachan, Neel Nanda, | (参考訳) 広く使われているにもかかわらず、大規模言語モデル(LLM)が次世代の予測の不確実性を表現し、規制するメカニズムはほとんど未解明のままである。
本研究では、最近発見されたエントロピーニューロンと、トークン周波数ニューロンと呼ばれる新しい成分群という、この不確実性に影響を与えると考えられる2つの重要な成分について検討する。
エントロピーニューロンは異常に高い重量ノルムを特徴とし、最終層正規化(LayerNorm)スケールに影響を与え、ロジットを効果的にスケールダウンさせる。
我々の研究は、エントロピーニューロンが未埋め込みのヌル空間に書き込むことによって動作し、ロジット自体に最小限の直接効果で残留ストリームノルムに影響を与えることを示している。
エントロピーニューロンの存在を最大70億のパラメーターで観測する。
一方、ここで初めて発見し記述したトークン周波数ニューロンは、各トークンのログをそのログ周波数に比例して増加または抑制することにより、出力分布をユニグラム分布から遠方へシフトさせる。
最後に、エントロピーニューロンが誘導設定における信頼を積極的に管理する詳細な事例、すなわち、反復配列を検出して継続するケーススタディを示す。
Despite their widespread use, the mechanisms by which large language models (LLMs) represent and regulate uncertainty in next-token predictions remain largely unexplored. This study investigates two critical components believed to influence this uncertainty: the recently discovered entropy neurons and a new set of components that we term token frequency neurons. Entropy neurons are characterized by an unusually high weight norm and influence the final layer normalization (LayerNorm) scale to effectively scale down the logits. Our work shows that entropy neurons operate by writing onto an unembedding null space, allowing them to impact the residual stream norm with minimal direct effect on the logits themselves. We observe the presence of entropy neurons across a range of models, up to 7 billion parameters. On the other hand, token frequency neurons, which we discover and describe here for the first time, boost or suppress each token's logit proportionally to its log frequency, thereby shifting the output distribution towards or away from the unigram distribution. Finally, we present a detailed case study where entropy neurons actively manage confidence in the setting of induction, i.e. detecting and continuing repeated subsequences. | 翻訳日:2024-06-25 16:22:56 公開日:2024-06-24 |
# 一般関数近似を用いた不確かさを意識した再帰探索
Uncertainty-Aware Reward-Free Exploration with General Function Approximation ( http://arxiv.org/abs/2406.16255v1 ) ライセンス: Link先を確認 | Junkai Zhang, Weitong Zhang, Dongruo Zhou, Quanquan Gu, | (参考訳) 環境における探索と学習を通じて複数のタスクをマスターすることは、強化学習(RL)において大きな課題となる。
教師なしのRLは、本質的な報酬ではなく、本質的な報酬で政策を訓練することでこの問題に対処するために導入された。
しかしながら、現在の固有報酬設計と教師なしRLアルゴリズムは、しばしば収集されたサンプルの不均一性を見落とし、サンプル効率を低下させる。
この制限を克服するために,本稿では,報酬のないRLアルゴリズムである \alg を提案する。
我々のアルゴリズムの背後にある重要なアイデアは、環境を探索する上で不確実性を認識した本質的な報酬と、異なるサンプルで不均一性を扱うための不確実性重み付き学習プロセスである。
理論的には、$\epsilon$-optimal Policyを見つけるためには、GFA-RFEが$\tilde{O} (H^2 \log N_{\mathcal F} (\epsilon) \mathrm{dim} (\mathcal F) / \epsilon^2 )$のエピソード数を集める必要がある。
このような結果は、既存の報酬のないRLアルゴリズムよりも優れている。
我々はさらに、DeepMind Control SuiteのさまざまなドメインやタスクにまたがってGFA-RFEを実装し、評価する。
実験の結果、GFA-RFEは最先端の教師なしRLアルゴリズムよりも優れ、あるいは同等であることがわかった。
Mastering multiple tasks through exploration and learning in an environment poses a significant challenge in reinforcement learning (RL). Unsupervised RL has been introduced to address this challenge by training policies with intrinsic rewards rather than extrinsic rewards. However, current intrinsic reward designs and unsupervised RL algorithms often overlook the heterogeneous nature of collected samples, thereby diminishing their sample efficiency. To overcome this limitation, in this paper, we propose a reward-free RL algorithm called \alg. The key idea behind our algorithm is an uncertainty-aware intrinsic reward for exploring the environment and an uncertainty-weighted learning process to handle heterogeneous uncertainty in different samples. Theoretically, we show that in order to find an $\epsilon$-optimal policy, GFA-RFE needs to collect $\tilde{O} (H^2 \log N_{\mathcal F} (\epsilon) \mathrm{dim} (\mathcal F) / \epsilon^2 )$ number of episodes, where $\mathcal F$ is the value function class with covering number $N_{\mathcal F} (\epsilon)$ and generalized eluder dimension $\mathrm{dim} (\mathcal F)$. Such a result outperforms all existing reward-free RL algorithms. We further implement and evaluate GFA-RFE across various domains and tasks in the DeepMind Control Suite. Experiment results show that GFA-RFE outperforms or is comparable to the performance of state-of-the-art unsupervised RL algorithms. | 翻訳日:2024-06-25 16:22:56 公開日:2024-06-24 |
# パラメータ効率の良いファインチューニングを用いたスケーラブルなエクササイズマシンの学習に向けて
Towards Scalable Exact Machine Unlearning Using Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2406.16257v1 ) ライセンス: Link先を確認 | Somnath Basu Roy Chowdhury, Krzysztof Choromanski, Arijit Sehanobish, Avinava Dubey, Snigdha Chaturvedi, | (参考訳) 機械学習は、トレーニングされた機械学習モデルからトレーニングデータインスタンスの影響を、スクラッチから再トレーニングすることなく効率的に除去するプロセスである。
非学習アプローチの一般的なサブクラスは、正確な機械学習であり、モデルからデータインスタンスの影響を明示的に除去するテクニックに焦点を当てている。
特定の未学習アプローチでは、個々のコンポーネントがデータの非結合部分集合でトレーニングされるマシンラーニングモデルを使用する。
削除の間、正確な未学習のアプローチは、モデル全体ではなく、影響を受けるコンポーネントのみをトレーニングする。
既存のアプローチは再トレーニングコストを削減しますが、運用中のシステム停止を必要とするため、組織がモデルコンポーネントを再トレーニングするコストがかかります。
これらの課題に対処するため、モデルの性能への影響を最小限に抑えつつ、正確な学習システムの削除能力を高めるために設計された、シーケンス対応のS3T(Sharded Sliced Training)という、正確な未学習フレームワークを導入しました。
S3Tのコアでは,データスライスを切断した層を逐次訓練することでパラメータ分離を可能にする,軽量なパラメータ効率の微調整手法を採用している。
これにより、データ削除によって影響を受けるレイヤを単に非活性化することで、効率的なアンラーニングが可能になる。
さらに、再トレーニングコストを削減し、モデル性能を向上させるため、複数のデータシーケンスでモデルをトレーニングし、S3Tでは削除要求の増加を処理できるようにします。
理論的にも経験的にも、S3Tは幅広い設定のベースラインに比べて優れた削除能力と性能を発揮できることを示した。
Machine unlearning is the process of efficiently removing the influence of a training data instance from a trained machine learning model without retraining it from scratch. A popular subclass of unlearning approaches is exact machine unlearning, which focuses on techniques that explicitly guarantee the removal of the influence of a data instance from a model. Exact unlearning approaches use a machine learning model in which individual components are trained on disjoint subsets of the data. During deletion, exact unlearning approaches only retrain the affected components rather than the entire model. While existing approaches reduce retraining costs, it can still be expensive for an organization to retrain a model component as it requires halting a system in production, which leads to service failure and adversely impacts customers. To address these challenges, we introduce an exact unlearning framework -- Sequence-aware Sharded Sliced Training (S3T), designed to enhance the deletion capabilities of an exact unlearning system while minimizing the impact on model's performance. At the core of S3T, we utilize a lightweight parameter-efficient fine-tuning approach that enables parameter isolation by sequentially training layers with disjoint data slices. This enables efficient unlearning by simply deactivating the layers affected by data deletion. Furthermore, to reduce the retraining cost and improve model performance, we train the model on multiple data sequences, which allows S3T to handle an increased number of deletion requests. Both theoretically and empirically, we demonstrate that S3T attains superior deletion capabilities and enhanced performance compared to baselines across a wide range of settings. | 翻訳日:2024-06-25 16:22:56 公開日:2024-06-24 |
# MEReQ: インターベンションからのサンプル高能率アライメントのための最大値残差Q逆RL
MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention ( http://arxiv.org/abs/2406.16258v1 ) ライセンス: Link先を確認 | Yuxin Chen, Chen Tang, Chenran Li, Ran Tian, Peter Stone, Masayoshi Tomizuka, Wei Zhan, | (参考訳) 人間の好みでロボットの振る舞いを調整することは、人間中心の環境にエンボディされたAIエージェントを配置するために重要である。
有望な解決策は、人間の介入からインタラクティブな模倣学習であり、人間の専門家が政策の実行を観察し、フィードバックとして介入を提供する。
しかし、既存の手法では学習を容易にするために事前の方針を効果的に活用することができず、サンプルの効率を損なうことも多い。
本研究では,人間の介入によるサンプル効率向上を目的としたMEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を提案する。
完全な人間の行動特性を推測する代わりに、MEReQは、人間の専門家と以前の政策の根底にある報酬機能との相違を捉える残留報酬関数を推論する。
その後、Residual Q-Learning(RQL)を使用して、ポリシーをこの残留報酬関数を使用して人間の好みと整合させる。
シミュレーションおよび実世界のタスクに対する広範囲な評価は、MEReQが人間の介入からサンプル効率の高いポリシーアライメントを達成することを示す。
Aligning robot behavior with human preferences is crucial for deploying embodied AI agents in human-centered environments. A promising solution is interactive imitation learning from human intervention, where a human expert observes the policy's execution and provides interventions as feedback. However, existing methods often fail to utilize the prior policy efficiently to facilitate learning, thus hindering sample efficiency. In this work, we introduce MEReQ (Maximum-Entropy Residual-Q Inverse Reinforcement Learning), designed for sample-efficient alignment from human intervention. Instead of inferring the complete human behavior characteristics, MEReQ infers a residual reward function that captures the discrepancy between the human expert's and the prior policy's underlying reward functions. It then employs Residual Q-Learning (RQL) to align the policy with human preferences using this residual reward function. Extensive evaluations on simulated and real-world tasks demonstrate that MEReQ achieves sample-efficient policy alignment from human intervention. | 翻訳日:2024-06-25 16:22:56 公開日:2024-06-24 |
# アジャイルソフトウェア開発者を支援するユーザストーリーチューニング(UST)
User Story Tutor (UST) to Support Agile Software Developers ( http://arxiv.org/abs/2406.16259v1 ) ライセンス: Link先を確認 | Giseldo da Silva Neo, José Antão Beltrão Moura, Hyggo Oliveira de Almeida, Alana Viana Borges da Silva Neo, Olival de Gusmão Freitas Júnior, | (参考訳) ユーザストーリーは、アジャイルプラクティスを使用するプロジェクトで構築すべきことを記録します。
ユーザストーリーは、一般的にストーリーポイントで測定される労力を見積り、スプリントで何をすべきかを計画するのに役立ちます。
したがって、シンプルで読みやすく、包括的なユーザストーリーを作る方法をソフトウェアエンジニアに教えることが不可欠です。
そのため、我々はUser Story Tutor (UST)と呼ばれるWebアプリケーションを設計、実装、適用、評価しました。
USTは、可読性のために与えられたユーザストーリーの記述をチェックし、必要に応じて、改善のための適切なプラクティスを推奨します。
USTはまた、機械学習技術を使ってストーリーポイントにおけるユーザーストーリーの取り組みを見積もっている。
このようなUSTは、ユーザストーリーを書いたりレビューしたりする際に、アジャイル開発チームの継続的な教育をサポートするかもしれない。
USTの使いやすさは、Technology Acceptance Model (TAM)とAttrakDiffによって40人のアジャイル実践者によって評価された。
TAM評価平均は,ほぼすべての変数において良好であった。
AttrakDiff評価フレームワークの適用は、同様の良い結果をもたらした。
USTは高い信頼性で使用できるようだ。
ユーザストーリの構築を支援するためにUSTを適用することは、少なくともアジャイル開発によって現在のユーザストーリの生成を補完し、拡張するために使用できる、実行可能なテクニックです。
User Stories record what must be built in projects that use agile practices. User Stories serve both to estimate effort, generally measured in Story Points, and to plan what should be done in a Sprint. Therefore, it is essential to train software engineers on how to create simple, easily readable, and comprehensive User Stories. For that reason, we designed, implemented, applied, and evaluated a web application called User Story Tutor (UST). UST checks the description of a given User Story for readability, and if needed, recommends appropriate practices for improvement. UST also estimates a User Story effort in Story Points using Machine Learning techniques. As such UST may support the continuing education of agile development teams when writing and reviewing User Stories. UST's ease of use was evaluated by 40 agile practitioners according to the Technology Acceptance Model (TAM) and AttrakDiff. The TAM evaluation averages were good in almost all considered variables. Application of the AttrakDiff evaluation framework produced similar good results. Apparently, UST can be used with good reliability. Applying UST to assist in the construction of User Stories is a viable technique that, at the very least, can be used by agile developments to complement and enhance current User Story creation. | 翻訳日:2024-06-25 16:22:56 公開日:2024-06-24 |
# ビデオインフィニティ:分散長ビデオ生成
Video-Infinity: Distributed Long Video Generation ( http://arxiv.org/abs/2406.16260v1 ) ライセンス: Link先を確認 | Zhenxiong Tan, Xingyi Yang, Songhua Liu, Xinchao Wang, | (参考訳) 拡散モデルは近年,映像生成において顕著な成果を上げている。
素晴らしいパフォーマンスにもかかわらず、生成されたビデオは典型的には少数のフレームに制限されるため、クリップはわずか数秒で持続する。
より長いビデオを生成する上での最大の課題は、かなりのメモリ要件と、単一のGPUで必要な処理時間の拡張である。
簡単な解決策としては、ワークロードを複数のGPUに分割する、という2つの問題がある。(1) すべてのGPUが効果的に通信してタイミングとコンテキスト情報を共有すること、(2)通常、短いシーケンスでトレーニングされた既存のビデオ拡散モデルを変更することで、追加のトレーニングなしでより長いビデオを作成すること、である。
本稿では,複数のGPU間の並列処理が可能な分散推論パイプラインであるVideo-Infinityを紹介する。
具体的には,Clip並列性とデュアルスコープアテンションという2つのコヒーレント機構を提案する。
Clip並列処理は、通信オーバーヘッドを最小限に抑えるGPU間のコンテキスト情報の収集と共有を最適化する一方、デュアルスコープアテンションは、時間的自己アテンションを変調して、ローカルとグローバルのコンテキストをデバイス間で効率的にバランスさせる。
2つのメカニズムが組み合わさって、ワークロードを分散し、長いビデオの高速な生成を可能にする。
Nvidia 6000 Ada GPU (48G) の8倍のセットアップで, 約5分で2300フレームの動画を生成する。
Diffusion models have recently achieved remarkable results for video generation. Despite the encouraging performances, the generated videos are typically constrained to a small number of frames, resulting in clips lasting merely a few seconds. The primary challenges in producing longer videos include the substantial memory requirements and the extended processing time required on a single GPU. A straightforward solution would be to split the workload across multiple GPUs, which, however, leads to two issues: (1) ensuring all GPUs communicate effectively to share timing and context information, and (2) modifying existing video diffusion models, which are usually trained on short sequences, to create longer videos without additional training. To tackle these, in this paper we introduce Video-Infinity, a distributed inference pipeline that enables parallel processing across multiple GPUs for long-form video generation. Specifically, we propose two coherent mechanisms: Clip parallelism and Dual-scope attention. Clip parallelism optimizes the gathering and sharing of context information across GPUs which minimizes communication overhead, while Dual-scope attention modulates the temporal self-attention to balance local and global contexts efficiently across the devices. Together, the two mechanisms join forces to distribute the workload and enable the fast generation of long videos. Under an 8 x Nvidia 6000 Ada GPU (48G) setup, our method generates videos up to 2,300 frames in approximately 5 minutes, enabling long video generation at a speed 100 times faster than the prior methods. | 翻訳日:2024-06-25 16:22:56 公開日:2024-06-24 |
# One Thousand and One Pairs: 長文言語モデルにおける"ノーベル"な挑戦
One Thousand and One Pairs: A "novel" challenge for long-context language models ( http://arxiv.org/abs/2406.16264v1 ) ライセンス: Link先を確認 | Marzena Karpinska, Katherine Thai, Kyle Lo, Tanya Goyal, Mohit Iyyer, | (参考訳) 合成長文LLMベンチマーク(例えば、"needle-in-the-haystack")は、表面レベルの検索機能のみをテストするが、長文LLMは、ブック長入力を介して情報を検索、合成、理性的にどの程度の精度で取得できるのか?
我々は、最近出版された67冊の英小説に関する1,001組の真実と虚偽の主張のデータセットであるNoChaを作成することで、この問題に対処する。
既存の長期コンテキストベンチマークとは対照的に、私たちのアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
GPT-4oは55.8%と高い精度で達成されているのに対し、オープンウェイトモデルでは(合成ベンチマークでの強い性能にもかかわらず)ランダムな確率以上は実行されない。
さらに分析した結果,(1)文レベルの検索とグローバルな推論のみを必要とするペアにおいて,モデルがより優れていること,(2)正しいラベル付きクレームであっても,モデル生成による判断が不正確であること,(3)広範囲なワールドビルディングを含む推測的フィクションブックにおいて,モデルが著しく悪化すること,などが明らかになった。
NoChaで提案された方法論は、ベンチマークデータセットの進化と将来のモデルの容易な分析を可能にする。
Synthetic long-context LLM benchmarks (e.g., "needle-in-the-haystack") test only surface-level retrieval capabilities, but how well can long-context LLMs retrieve, synthesize, and reason over information across book-length inputs? We address this question by creating NoCha, a dataset of 1,001 minimally different pairs of true and false claims about 67 recently-published English fictional books, written by human readers of those books. In contrast to existing long-context benchmarks, our annotators confirm that the largest share of pairs in NoCha require global reasoning over the entire book to verify. Our experiments show that while human readers easily perform this task, it is enormously challenging for all ten long-context LLMs that we evaluate: no open-weight model performs above random chance (despite their strong performance on synthetic benchmarks), while GPT-4o achieves the highest accuracy at 55.8%. Further analysis reveals that (1) on average, models perform much better on pairs that require only sentence-level retrieval vs. global reasoning; (2) model-generated explanations for their decisions are often inaccurate even for correctly-labeled claims; and (3) models perform substantially worse on speculative fiction books that contain extensive world-building. The methodology proposed in NoCha allows for the evolution of the benchmark dataset and the easy analysis of future models. | 翻訳日:2024-06-25 16:22:56 公開日:2024-06-24 |
# 学習型重ヒッタと流路内流れの周波数推定
Learning-Based Heavy Hitters and Flow Frequency Estimation in Streams ( http://arxiv.org/abs/2406.16270v1 ) ライセンス: Link先を確認 | Rana Shahout, Michael Mitzenmacher, | (参考訳) 各種ネットワーク領域の基本課題は,重打点の同定と流れの周波数推定である。
この課題に対する既存のアプローチは、ハッシュベースと競合カウンタベースという2つのグループに大別できる。
Count-Minスケッチはハッシュベースのアルゴリズムの標準的な例であり、Space Savingアルゴリズムは競合するカウンタアルゴリズムの例である。
最近の研究は、予測フレームワークを用いたアルゴリズムの下で、周波数推定問題のアルゴリズムを強化する機械学習の利用について検討している。
しかし、これらの研究はハッシュベースのアプローチにのみ焦点を絞っている。
本稿では,よく知られたSpace Savingアルゴリズムを用いたヘビーヒットタ,トップk,フロー周波数推定のための,LSSと呼ばれる,初めて学習された競合カウンタベースのアルゴリズムを提案する。
合成と実世界の両方のデータセットに関する実験結果が背景にあるスペースセービングにおいて、我々のアプローチがどのようにして、どの程度改善できるかに関する理論的洞察を提供する。
以上の結果から, LSSは重打点, トップk, 流速推定において, スペースセービングの精度と効率を高めることができることが示された。
Identifying heavy hitters and estimating the frequencies of flows are fundamental tasks in various network domains. Existing approaches to this challenge can broadly be categorized into two groups, hashing-based and competing-counter-based. The Count-Min sketch is a standard example of a hashing-based algorithm, and the Space Saving algorithm is an example of a competing-counter algorithm. Recent works have explored the use of machine learning to enhance algorithms for frequency estimation problems, under the algorithms with prediction framework. However, these works have focused solely on the hashing-based approach, which may not be best for identifying heavy hitters. In this paper, we present the first learned competing-counter-based algorithm, called LSS, for identifying heavy hitters, top k, and flow frequency estimation that utilizes the well-known Space Saving algorithm. We provide theoretical insights into how and to what extent our approach can improve upon Space Saving, backed by experimental results on both synthetic and real-world datasets. Our evaluation demonstrates that LSS can enhance the accuracy and efficiency of Space Saving in identifying heavy hitters, top k, and estimating flow frequencies. | 翻訳日:2024-06-25 16:22:56 公開日:2024-06-24 |
# GBMSeg:糸状基底膜セグメンテーションのためのワンショット基準トレーニングフリープロンプトエンジニアリング
Feature-prompting GBMSeg: One-Shot Reference Guided Training-Free Prompt Engineering for Glomerular Basement Membrane Segmentation ( http://arxiv.org/abs/2406.16271v1 ) ライセンス: Link先を確認 | Xueyu Liu, Guangze Shi, Rui Wang, Yexin Lai, Jianan Zhang, Lele Sun, Quan Yang, Yongfei Wu, MIng Li, Weixia Han, Wen Zheng, | (参考訳) 透過電子顕微鏡(TEM)における糸球体基底膜(GBM)の評価は慢性腎疾患(CKD)の診断に重要である。
GBMにドメインに依存しない自動セグメンテーションツールがないため、プロセスを自動化するにはAIベースのソリューションが必要である。
本研究では,1ショットの注釈付き参照のみをガイドしたTEM画像にGBMを自動的に分割する訓練自由フレームワークであるGBMSegを紹介する。
具体的には、GBMSegは、まず、事前訓練された基礎モデルの堅牢な特徴マッチング機能を利用して初期プロンプトポイントを生成し、続いて、プロンプトスキームを最適化するために、特徴と物理空間をまたいだ一連の新しい自動プロンプトエンジニアリング技術を導入する。
最後に、GBMSegは、生成したプロンプトスキームとクラスに依存しない基礎セグメンテーションモデルを用いて、正確なセグメンテーション結果を得る。
収集した2538 TEM画像による実験結果から,GBMSeg は Dice similarity coefficient (DSC) 87.27% のセグメンテーション性能を,1つのラベル付き参照画像のみをトレーニング不要で達成し,最近提案された単発または少数発の手法よりも優れていたことが確認された。
要約すると、GBMSegは、トレーニングなしで堅牢なドメイン非依存セグメンテーション性能、特に医用画像のファンデーションセグメンテーションモデルの自動プロンプトを促進する、独特な自動プロンプトフレームワークを導入している。
今後の研究は、セグメント化されたGBMの厚さ測定を自動化し、病理指標を定量化し、臨床応用における病理学的評価を前進させる重要な可能性を秘めている。
ソースコードはhttps://github.com/SnowRain510/GBMSegで入手できる。
Assessment of the glomerular basement membrane (GBM) in transmission electron microscopy (TEM) is crucial for diagnosing chronic kidney disease (CKD). The lack of domain-independent automatic segmentation tools for the GBM necessitates an AI-based solution to automate the process. In this study, we introduce GBMSeg, a training-free framework designed to automatically segment the GBM in TEM images guided only by a one-shot annotated reference. Specifically, GBMSeg first exploits the robust feature matching capabilities of the pretrained foundation model to generate initial prompt points, then introduces a series of novel automatic prompt engineering techniques across the feature and physical space to optimize the prompt scheme. Finally, GBMSeg employs a class-agnostic foundation segmentation model with the generated prompt scheme to obtain accurate segmentation results. Experimental results on our collected 2538 TEM images confirm that GBMSeg achieves superior segmentation performance with a Dice similarity coefficient (DSC) of 87.27% using only one labeled reference image in a training-free manner, outperforming recently proposed one-shot or few-shot methods. In summary, GBMSeg introduces a distinctive automatic prompt framework that facilitates robust domain-independent segmentation performance without training, particularly advancing the automatic prompting of foundation segmentation models for medical images. Future work involves automating the thickness measurement of segmented GBM and quantifying pathological indicators, holding significant potential for advancing pathology assessments in clinical applications. The source code is available on https://github.com/SnowRain510/GBMSeg | 翻訳日:2024-06-25 16:22:56 公開日:2024-06-24 |
# 注意誘導特徴強調によるテキスト・画像拡散モデルにおける破滅的偏差の修復
Repairing Catastrophic-Neglect in Text-to-Image Diffusion Models via Attention-Guided Feature Enhancement ( http://arxiv.org/abs/2406.16272v1 ) ライセンス: Link先を確認 | Zhiyuan Chang, Mingyang Li, Junjie Wang, Yi Liu, Qing Wang, Yang Liu, | (参考訳) テキストから画像への拡散モデル(T2I DM)は、テキスト記述から高品質な画像を生成する能力において、大きな注目を集めている。
しかし、これらのモデルはしばしば入力プロンプトと完全に一致しないイメージを生成し、意味的な矛盾をもたらす。
これらの意味的不整合の中で最も顕著な問題は破滅的直視であり、そこではT2I DMによって生成された画像がプロンプトで言及されたキーオブジェクトを見逃す。
まず, この問題について実証的研究を行い, 破滅的ネグレクトの有病率, 機能強化を伴う潜在的な緩和戦略, 得られた知見について考察した。
本研究は,T2I DMにおける破滅性ネグレクトに対処するため,Pacher という自動修復法を提案する。
特に、パッチャーは最初に、そのプロンプトに無視された物体があるかどうかを判断し、その後、これら無視された物体に注意誘導された特徴強化を適用し、修正されたプロンプトを導いた。
3種類の安定拡散実験の結果、パッチャーは破滅性ネグレクトの問題を効果的に修復し、10.1%-16.3%の補正率を達成した。
Text-to-Image Diffusion Models (T2I DMs) have garnered significant attention for their ability to generate high-quality images from textual descriptions. However, these models often produce images that do not fully align with the input prompts, resulting in semantic inconsistencies. The most prominent issue among these semantic inconsistencies is catastrophic-neglect, where the images generated by T2I DMs miss key objects mentioned in the prompt. We first conduct an empirical study on this issue, exploring the prevalence of catastrophic-neglect, potential mitigation strategies with feature enhancement, and the insights gained. Guided by the empirical findings, we propose an automated repair approach named Patcher to address catastrophic-neglect in T2I DMs. Specifically, Patcher first determines whether there are any neglected objects in the prompt, and then applies attention-guided feature enhancement to these neglected objects, resulting in a repaired prompt. Experimental results on three versions of Stable Diffusion demonstrate that Patcher effectively repairs the issue of catastrophic-neglect, achieving 10.1%-16.3% higher Correct Rate in image generation compared to baselines. | 翻訳日:2024-06-25 16:22:56 公開日:2024-06-24 |
# YouDream: 解剖学的に制御可能なテキストから3D動物の生成
YouDream: Generating Anatomically Controllable Consistent Text-to-3D Animals ( http://arxiv.org/abs/2406.16273v1 ) ライセンス: Link先を確認 | Sandeep Mishra, Oindrila Saha, Alan C. Bovik, | (参考訳) テキストから画像への拡散モデルでガイドされた3D生成は、視覚的に魅力的な資産の作成を可能にする。
しかし、以前の手法は画像やテキストに基づいて生成を探索する。
創造性の境界は、表現できる言葉や、表現できる画像によって制限される。
高品質な解剖学的制御が可能な動物を生成する方法であるYouDreamを提案する。
YouDreamは3Dポーズの2Dビューによって制御されるテキストから画像への拡散モデルを用いてガイドされる。
本手法は,従来のテキスト・ツー・3D生成手法では生成できない3D動物を生成する。
さらに,本手法は,従来のテキストから3Dへのアプローチがしばしば苦労する領域である生成動物において,解剖学的整合性を維持することができる。
さらに、よく見られる動物を生成するための完全自動パイプラインを設計する。
人間の介入を回避して3Dポーズを作成するために,動物3Dポーズの限られたライブラリからのポーズを適応させるマルチエージェントLSMを提案する。
YouDreamの結果に関するユーザスタディでは,本手法が生み出す動物モデルの嗜好を他者に対して示す。
Turntableの結果とコードはhttps://youdream3d.github.io/で公開される。
3D generation guided by text-to-image diffusion models enables the creation of visually compelling assets. However previous methods explore generation based on image or text. The boundaries of creativity are limited by what can be expressed through words or the images that can be sourced. We present YouDream, a method to generate high-quality anatomically controllable animals. YouDream is guided using a text-to-image diffusion model controlled by 2D views of a 3D pose prior. Our method generates 3D animals that are not possible to create using previous text-to-3D generative methods. Additionally, our method is capable of preserving anatomic consistency in the generated animals, an area where prior text-to-3D approaches often struggle. Moreover, we design a fully automated pipeline for generating commonly found animals. To circumvent the need for human intervention to create a 3D pose, we propose a multi-agent LLM that adapts poses from a limited library of animal 3D poses to represent the desired animal. A user study conducted on the outcomes of YouDream demonstrates the preference of the animal models generated by our method over others. Turntable results and code are released at https://youdream3d.github.io/ | 翻訳日:2024-06-25 16:13:09 公開日:2024-06-24 |
# AI生成テキスト検出におけるプロンプト特化ショートカットの影響の検討
Investigating the Influence of Prompt-Specific Shortcuts in AI Generated Text Detection ( http://arxiv.org/abs/2406.16275v1 ) ライセンス: Link先を確認 | Choonghyun Park, Hyuhng Joon Kim, Junyeob Kim, Youna Kim, Taeuk Kim, Hyunsoo Cho, Hwiyeol Jo, Sang-goo Lee, Kang Min Yoo, | (参考訳) AI生成テキスト(AIGT)検出器は、人間のテキストと共通タスクのLLMを使って開発されている。
妥当なプロンプトの選択の多様性にもかかわらず、これらのデータセットは通常、限られた数のプロンプトで構築される。
プロンプト変動の欠如は、選択されたプロンプトで収集されたデータに存在するプロンプト固有のショートカット機能を導入することができるが、他のプロンプトに一般化しない。
本稿では,AIGT検出におけるこのようなショートカットの影響を解析する。
本稿では,AIGT検出器が検出する命令をプロンプト固有のショートカットを利用して検索する攻撃であるFAILOpt(Adversarial Instruction List Optimization)を提案する。
FAILOptは、敵対的なインコンテキストの例に基づく他の攻撃に匹敵するターゲット検出器の検出性能を効果的に低下させる。
また,ショートカットを緩和することで検出器の堅牢性を高めるために,本手法を利用した。
この結果に基づき、FAILOptプロンプトによって強化されたデータセットを用いて分類器をさらに訓練する。
拡張分類器は、世代モデル、タスク、アタックにまたがって改善されている。
私たちのコードはhttps://github.com/zxcvvxcz/FAILOpt.comで公開されます。
AI Generated Text (AIGT) detectors are developed with texts from humans and LLMs of common tasks. Despite the diversity of plausible prompt choices, these datasets are generally constructed with a limited number of prompts. The lack of prompt variation can introduce prompt-specific shortcut features that exist in data collected with the chosen prompt, but do not generalize to others. In this paper, we analyze the impact of such shortcuts in AIGT detection. We propose Feedback-based Adversarial Instruction List Optimization (FAILOpt), an attack that searches for instructions deceptive to AIGT detectors exploiting prompt-specific shortcuts. FAILOpt effectively drops the detection performance of the target detector, comparable to other attacks based on adversarial in-context examples. We also utilize our method to enhance the robustness of the detector by mitigating the shortcuts. Based on the findings, we further train the classifier with the dataset augmented by FAILOpt prompt. The augmented classifier exhibits improvements across generation models, tasks, and attacks. Our code will be available at https://github.com/zxcvvxcz/FAILOpt. | 翻訳日:2024-06-25 16:13:09 公開日:2024-06-24 |
# SegNet4D:自律走行環境における効率よく効率的な4次元LiDARセマンティックセグメンテーション
SegNet4D: Effective and Efficient 4D LiDAR Semantic Segmentation in Autonomous Driving Environments ( http://arxiv.org/abs/2406.16279v1 ) ライセンス: Link先を確認 | Neng Wang, Ruibin Guo, Chenghao Shi, Hui Zhang, Huimin Lu, Zhiqiang Zheng, Xieyuanli Chen, | (参考訳) マルチスキャンセマンティックセグメンテーションとも呼ばれる4D LiDARセマンティックセグメンテーションは、自動運転車の環境理解能力を高める上で重要な役割を担っている。
LiDARスキャンでは各ポイントのセマンティックなカテゴリを特定し、それが動的かどうかを識別する必要があり、パス計画や自律ナビゲーションといった下流タスクにおいて重要な側面である。
4Dセマンティックセグメンテーションの既存の方法は、しばしばマルチスキャン入力のための計算集約的な4D畳み込みに依存し、結果としてリアルタイムのパフォーマンスが低下する。
本稿では,高速な動作特徴符号化のためのプロジェクションベースアプローチを活用した,新しいリアルタイムマルチスキャンセマンティックセマンティックセマンティクス手法であるSegNet4Dを紹介する。
SegNet4Dは4Dセマンティックセグメンテーションを2つの異なるタスクとして扱う。
これらの結果は、より包括的なマルチスキャンセマンティックセマンティックセマンティックセマンティクスを実現するために、提案したモーション・セマンティクス・フュージョン・モジュールに融合される。
さらに、現在のスキャンからインスタンス情報を抽出し、インスタンス認識セグメンテーションのためにネットワークに組み込むことを提案する。
提案手法は,複数のデータセットにまたがる最先端性能を示し,リアルタイムなマルチスキャンセマンティックセマンティックセグメンテーション手法として注目されている。
SegNet4Dの実装は、 \url{https://github.com/nubot-nudt/SegNet4D}で利用可能になる。
4D LiDAR semantic segmentation, also referred to as multi-scan semantic segmentation, plays a crucial role in enhancing the environmental understanding capabilities of autonomous vehicles. It entails identifying the semantic category of each point in the LiDAR scan and distinguishing whether it is dynamic, a critical aspect in downstream tasks such as path planning and autonomous navigation. Existing methods for 4D semantic segmentation often rely on computationally intensive 4D convolutions for multi-scan input, resulting in poor real-time performance. In this article, we introduce SegNet4D, a novel real-time multi-scan semantic segmentation method leveraging a projection-based approach for fast motion feature encoding, showcasing outstanding performance. SegNet4D treats 4D semantic segmentation as two distinct tasks: single-scan semantic segmentation and moving object segmentation, each addressed by dedicated head. These results are then fused in the proposed motion-semantic fusion module to achieve comprehensive multi-scan semantic segmentation. Besides, we propose extracting instance information from the current scan and incorporating it into the network for instance-aware segmentation. Our approach exhibits state-of-the-art performance across multiple datasets and stands out as a real-time multi-scan semantic segmentation method. The implementation of SegNet4D will be made available at \url{https://github.com/nubot-nudt/SegNet4D}. | 翻訳日:2024-06-25 16:13:09 公開日:2024-06-24 |
# 近似とメモリ共有バックプロパゲーションによる微調整メモリオーバヘッドの削減
Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation ( http://arxiv.org/abs/2406.16282v1 ) ライセンス: Link先を確認 | Yuchen Yang, Yingdong Shi, Cheems Wang, Xiantong Zhen, Yuxuan Shi, Jun Xu, | (参考訳) ダウンストリームタスクに対する微調整済みの大規模モデルが重要な問題であるが、大規模なパラメーターによるメモリオーバーヘッドの増大に悩まされている。
この研究は、活性化関数と層正規化の観点から微調整におけるメモリオーバーヘッドを低減することを目的としている。
この目的のために、前方と後方のパスを分離する理論的可能性を提供する近似バックプロパゲーション(Approx-BP)理論を提案する。
提案手法は, GELU と SiLU のアクティベーション関数のバックプロパゲーショントレーニングに応用し, 後方パスにおける ReLU の微分関数を用いて, 前方パスを一定に保ちながら, GELU と SiLU のアクティベーション関数のメモリ効率の代替を導出する。
さらに、メモリ共有バックプロパゲーション戦略を導入し、アクティベーションメモリを2つの隣接層で共有し、アクティベーションメモリ使用の冗長性を除去する。
我々の手法は、余分な計算を誘導したり、訓練効率を下げたりしない。
我々は、事前訓練された視覚と言語モデルによる広範な実験を行い、その結果、ピークメモリ使用量の最大$$$$30\%まで削減できることを示した。
私たちのコードはhttps://github.com/yyyychen/LowMemoryBP.comでリリースされています。
Fine-tuning pretrained large models to downstream tasks is an important problem, which however suffers from huge memory overhead due to large-scale parameters. This work strives to reduce memory overhead in fine-tuning from perspectives of activation function and layer normalization. To this end, we propose the Approximate Backpropagation (Approx-BP) theory, which provides the theoretical feasibility of decoupling the forward and backward passes. We apply our Approx-BP theory to backpropagation training and derive memory-efficient alternatives of GELU and SiLU activation functions, which use derivative functions of ReLUs in the backward pass while keeping their forward pass unchanged. In addition, we introduce a Memory-Sharing Backpropagation strategy, which enables the activation memory to be shared by two adjacent layers, thereby removing activation memory usage redundancy. Our method neither induces extra computation nor reduces training efficiency. We conduct extensive experiments with pretrained vision and language models, and the results demonstrate that our proposal can reduce up to $\sim$$30\%$ of the peak memory usage. Our code is released at https://github.com/yyyyychen/LowMemoryBP. | 翻訳日:2024-06-25 16:13:09 公開日:2024-06-24 |
# PlagBench: プラジャリズムの生成と検出における大規模言語モデルの重複を探る
PlagBench: Exploring the Duality of Large Language Models in Plagiarism Generation and Detection ( http://arxiv.org/abs/2406.16288v1 ) ライセンス: Link先を確認 | Jooyoung Lee, Toshini Agrawal, Adaku Uchendu, Thai Le, Jinghui Chen, Dongwon Lee, | (参考訳) 近年の文献では、大規模言語モデル(LLM)に関連する学術的整合性への潜在的なリスクが強調されている。
さらに、高品質なテキストを生成する能力を考えると、プラジャリストはLLMを利用して現実的なパラフレーズや要約を生成できる。
プラギアリズムにおけるLSMの悪意的使用に対する対応として,PlagBenchを紹介した。これは3つの書き込み領域にわたる3つの命令チューニング LLM を用いて生成された46.5K の合成プラギアリズムケースからなる包括的データセットである。
PlagBenchの品質は、人間のアノテーションによって補完される、各種類のプラジャリズムに対するきめ細かい自動評価によって保証される。
次に,提案したデータを用いて,5つの近代LDMと3つの特殊プラジャリズムチェッカーのプラジャリズム検出性能を評価する。
以上の結果より, GPT-3.5はLlama2やGPT-4に比べ, 高い品質のパラフレーズや要約を生じる傾向が示唆された。
LLMのサマリプラジャリズム識別性能は弱いが、現在の商用プラジャリズム検出器を超越することができる。
以上の結果から,LSMが堅牢な盗作検出ツールとして機能する可能性が示唆された。
Recent literature has highlighted potential risks to academic integrity associated with large language models (LLMs), as they can memorize parts of training instances and reproduce them in the generated texts without proper attribution. In addition, given their capabilities in generating high-quality texts, plagiarists can exploit LLMs to generate realistic paraphrases or summaries indistinguishable from original work. In response to possible malicious use of LLMs in plagiarism, we introduce PlagBench, a comprehensive dataset consisting of 46.5K synthetic plagiarism cases generated using three instruction-tuned LLMs across three writing domains. The quality of PlagBench is ensured through fine-grained automatic evaluation for each type of plagiarism, complemented by human annotation. We then leverage our proposed dataset to evaluate the plagiarism detection performance of five modern LLMs and three specialized plagiarism checkers. Our findings reveal that GPT-3.5 tends to generates paraphrases and summaries of higher quality compared to Llama2 and GPT-4. Despite LLMs' weak performance in summary plagiarism identification, they can surpass current commercial plagiarism detectors. Overall, our results highlight the potential of LLMs to serve as robust plagiarism detection tools. | 翻訳日:2024-06-25 16:13:09 公開日:2024-06-24 |
# クラウドソース型NeRF:3次元ストリートビュー再構築のための生産車からのデータ収集
Crowd-Sourced NeRF: Collecting Data from Production Vehicles for 3D Street View Reconstruction ( http://arxiv.org/abs/2406.16289v1 ) ライセンス: Link先を確認 | Tong Qin, Changze Li, Haoyang Ye, Shaowei Wan, Minzhen Li, Hongwei Liu, Ming Yang, | (参考訳) 近年,ニューラル・レージアンス・フィールド (NeRF) は新規なビュー合成において顕著な成果を上げている。
Block-NeRFは、NeRFを利用して大規模な都市モデルを構築する能力を示した。
大規模モデリングには大量の画像データが必要である。
特別に設計されたデータ収集車から画像を集めることは、大規模アプリケーションをサポートしない。
大量の高品質なデータを取得する方法は、まだ未解決の問題だ。
自動車業界には大量の画像データがあるので、クラウドソーシングは大規模なデータ収集に便利な方法だ。
本稿では,実車から取得した大量のデータを利用して,NeRFモデルを用いてシーンを再構築するクラウドソースフレームワークを提案する。
このアプローチは、データがどこから来るのか、どのように使うのかという、大規模な再構築の鍵となる問題を解決する。
まず、クラウドソースされた大量のデータをフィルタリングして冗長性を取り除き、時間と空間のバランスの取れた分布を維持する。
そして、カメラポーズを洗練させるために、移動モジュールの構造を実行する。
最後に、画像とポーズは、特定のブロックでNeRFモデルをトレーニングするために使用される。
我々は,データ選択,スパース3D再構成,シーケンス表示の埋め込み,地上深度監視,閉塞完了など,複数のモジュールを統合した総合的なフレームワークを提案する。
クラウドソースデータから高品質な3Dシーンを効果的に処理および再構成することができる。
本システムの性能評価のために, 大規模定量的および定性的実験を行った。
さらに、NeRFモデルを利用して3Dストリートビューを生成し、合成ビデオでドライバーを誘導する、ファーストビューナビゲーションというアプリケーションを提案した。
Recently, Neural Radiance Fields (NeRF) achieved impressive results in novel view synthesis. Block-NeRF showed the capability of leveraging NeRF to build large city-scale models. For large-scale modeling, a mass of image data is necessary. Collecting images from specially designed data-collection vehicles can not support large-scale applications. How to acquire massive high-quality data remains an opening problem. Noting that the automotive industry has a huge amount of image data, crowd-sourcing is a convenient way for large-scale data collection. In this paper, we present a crowd-sourced framework, which utilizes substantial data captured by production vehicles to reconstruct the scene with the NeRF model. This approach solves the key problem of large-scale reconstruction, that is where the data comes from and how to use them. Firstly, the crowd-sourced massive data is filtered to remove redundancy and keep a balanced distribution in terms of time and space. Then a structure-from-motion module is performed to refine camera poses. Finally, images, as well as poses, are used to train the NeRF model in a certain block. We highlight that we present a comprehensive framework that integrates multiple modules, including data selection, sparse 3D reconstruction, sequence appearance embedding, depth supervision of ground surface, and occlusion completion. The complete system is capable of effectively processing and reconstructing high-quality 3D scenes from crowd-sourced data. Extensive quantitative and qualitative experiments were conducted to validate the performance of our system. Moreover, we proposed an application, named first-view navigation, which leveraged the NeRF model to generate 3D street view and guide the driver with a synthesized video. | 翻訳日:2024-06-25 16:13:09 公開日:2024-06-24 |
# 部分ラベル付き複数ラベル分類課題に対する教師付き学習と強化学習の併用
Combining Supervised Learning and Reinforcement Learning for Multi-Label Classification Tasks with Partial Labels ( http://arxiv.org/abs/2406.16293v1 ) ライセンス: Link先を確認 | Zixia Jia, Junpeng Li, Shichuan Zhang, Anji Liu, Zilong Zheng, | (参考訳) 従来の教師付き学習は、人間の注釈付きデータセット、特にデータハングリーニューラルアプローチに大きく依存している。
しかし、文書レベルの関係抽出のような様々なタスクは、特定のドメイン知識と大きなクラスセットのために、完全に手動のアノテーションで課題を提起する。
そこで我々は,正のクラスの一部にアノテートするマルチラベル正のアンラベルド学習(MLPUL)問題に対処する。
強化学習の探索能力と教師付き学習の活用能力を組み合わせたRLベースのフレームワークであるMLPAC(Mixture Learner for partially Annotated Classification)を提案する。
文書レベルの関係抽出,マルチラベル画像分類,バイナリPU学習など,さまざまなタスクを対象とした実験結果から,フレームワークの一般化と有効性を示す。
Traditional supervised learning heavily relies on human-annotated datasets, especially in data-hungry neural approaches. However, various tasks, especially multi-label tasks like document-level relation extraction, pose challenges in fully manual annotation due to the specific domain knowledge and large class sets. Therefore, we address the multi-label positive-unlabelled learning (MLPUL) problem, where only a subset of positive classes is annotated. We propose Mixture Learner for Partially Annotated Classification (MLPAC), an RL-based framework combining the exploration ability of reinforcement learning and the exploitation ability of supervised learning. Experimental results across various tasks, including document-level relation extraction, multi-label image classification, and binary PU learning, demonstrate the generalization and effectiveness of our framework. | 翻訳日:2024-06-25 16:13:09 公開日:2024-06-24 |
# LangSuitE: テキスト環境における大規模言語モデルによる計画・制御・相互作用
LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments ( http://arxiv.org/abs/2406.16294v1 ) ライセンス: Link先を確認 | Zixia Jia, Mengmeng Wang, Baichen Tong, Song-Chun Zhu, Zilong Zheng, | (参考訳) 近年のLarge Language Models (LLM) の進歩は、言語記述を入力として依存する自律エージェントの構築において、大きな成果をもたらしている。
しかし、LLMが動的インタラクティブ環境において、少数ショットまたはゼロショットのエンボダイドエージェントとして機能するかどうかは不明である。
このギャップに対処するために,テキストエンボディの世界における6つの代表的具体的タスクを特徴とする,汎用的でシミュレーション不要なテストベッドであるLangSuitEを紹介した。
従来のLCMベースのテストベッドであるLangSuitEとの比較
(i)複数のシミュレーションエンジンを使わずに多様な環境への適応性を提供する。
(二)実施観察により「内国知識」を発達させるエージェントの能力を評価し、
三 コミュニケーション及び行動戦略の簡易なカスタマイズを可能にする。
具体化課題に対処するため,我々は,具体化状態w.r.t.履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案した。
総合的なベンチマークの結果は、具体的計画の課題と洞察を示している。
LangSuitEは、言語モデルという文脈で具現化されたジェネラリストを構築するための重要なステップである。
Recent advances in Large Language Models (LLMs) have shown inspiring achievements in constructing autonomous agents that rely on language descriptions as inputs. However, it remains unclear how well LLMs can function as few-shot or zero-shot embodied agents in dynamic interactive environments. To address this gap, we introduce LangSuitE, a versatile and simulation-free testbed featuring 6 representative embodied tasks in textual embodied worlds. Compared with previous LLM-based testbeds, LangSuitE (i) offers adaptability to diverse environments without multiple simulation engines, (ii) evaluates agents' capacity to develop ``internalized world knowledge'' with embodied observations, and (iii) allows easy customization of communication and action strategies. To address the embodiment challenge, we devise a novel chain-of-thought (CoT) schema, EmMem, which summarizes embodied states w.r.t. history information. Comprehensive benchmark results illustrate challenges and insights of embodied planning. LangSuitE represents a significant step toward building embodied generalists in the context of language models. | 翻訳日:2024-06-25 16:13:09 公開日:2024-06-24 |
# 物理ダイナミクス学習のための等変グラフニューラルネットワークの連続制約緩和
Relaxing Continuous Constraints of Equivariant Graph Neural Networks for Physical Dynamics Learning ( http://arxiv.org/abs/2406.16295v1 ) ライセンス: Link先を確認 | Zinan Zheng, Yang Liu, Jia Li, Jianhua Yao, Yu Rong, | (参考訳) グラフニューラルネットワークにおける帰納バイアスとしてユークリッド対称性(例えば回転同値)を組み込むことにより、非有界物理力学モデリングにおける一般化能力とデータ効率が向上した。
しかし、様々な科学的・工学的な応用において、力学の対称性は境界条件のためにしばしば離散的である。
したがって、既存のGNNは必要対称性を見落とし、最適下表現能力をもたらすか、あるいは過剰な同値を課すかのいずれかであり、これは観測されない対称力学に一般化することができない。
本研究では,ある離散点群に同値であることを保証する一般離散同変グラフニューラルネットワーク(DEGNN)を提案する。
具体的には、幾何学的特徴を置換不変な埋め込みに変換することによって、このような離散同変メッセージパッシングを構築することができることを示す。
連続同変制約を緩和することにより、DGNNは、観測されていない物理的オブジェクトの相互作用関数を近似するために、より幾何学的な特徴結合を利用することができる。
DEGNNの2つの実装手法は、順列不変関数のランク付けやプーリングに基づいて提案される。
粒子,分子,群集,車体力学など,様々な物理力学にDECNNを適用した。
20のシナリオでは、DECNNは既存の最先端のアプローチを大きく上回っている。
さらに、DGNNはデータ効率が良く、少ないデータで学習でき、観測不能な向きなどのシナリオをまたいで一般化できることを示す。
Incorporating Euclidean symmetries (e.g. rotation equivariance) as inductive biases into graph neural networks has improved their generalization ability and data efficiency in unbounded physical dynamics modeling. However, in various scientific and engineering applications, the symmetries of dynamics are frequently discrete due to the boundary conditions. Thus, existing GNNs either overlook necessary symmetry, resulting in suboptimal representation ability, or impose excessive equivariance, which fails to generalize to unobserved symmetric dynamics. In this work, we propose a general Discrete Equivariant Graph Neural Network (DEGNN) that guarantees equivariance to a given discrete point group. Specifically, we show that such discrete equivariant message passing could be constructed by transforming geometric features into permutation-invariant embeddings. Through relaxing continuous equivariant constraints, DEGNN can employ more geometric feature combinations to approximate unobserved physical object interaction functions. Two implementation approaches of DEGNN are proposed based on ranking or pooling permutation-invariant functions. We apply DEGNN to various physical dynamics, ranging from particle, molecular, crowd to vehicle dynamics. In twenty scenarios, DEGNN significantly outperforms existing state-of-the-art approaches. Moreover, we show that DEGNN is data efficient, learning with less data, and can generalize across scenarios such as unobserved orientation. | 翻訳日:2024-06-25 16:13:09 公開日:2024-06-24 |
# Priorformer: コンテンツと歪みを先行するUGC-VQA法
Priorformer: A UGC-VQA Method with content and distortion priors ( http://arxiv.org/abs/2406.16297v1 ) ライセンス: Link先を確認 | Yajing Pei, Shiyu Huang, Yiting Lu, Xin Li, Zhibo Chen, | (参考訳) ユーザ生成コンテンツ(UGC)ビデオは、複雑で異質な劣化やコンテンツの影響を受けやすいため、既存のブラインドビデオ品質評価(BVQA)モデルは、歪みやコンテンツの適応性が欠如しているため、パフォーマンスが良くない。
そこで本研究では,UGC の BVQA に対する事前拡張型知覚視覚変換器 (PriorFormer) を提案する。
具体的には、2つの事前訓練された特徴抽出器からコンテンツと歪みの埋め込みを抽出することで、コンテンツと歪みの先行を2つ導入する。
次に、これらの2つの強力な埋め込みを適応型先行トークンとして採用し、視覚変換器のバックボーンに暗黙的な品質特徴とともに転送する。
上記の戦略に基づいて、提案されたPreferFormerは、KoNViD-1K、LIVE-VQC、YouTube-UGCを含む3つの公開UGC VQAデータセットで最先端のパフォーマンスを達成する。
User Generated Content (UGC) videos are susceptible to complicated and variant degradations and contents, which prevents the existing blind video quality assessment (BVQA) models from good performance since the lack of the adapability of distortions and contents. To mitigate this, we propose a novel prior-augmented perceptual vision transformer (PriorFormer) for the BVQA of UGC, which boots its adaptability and representation capability for divergent contents and distortions. Concretely, we introduce two powerful priors, i.e., the content and distortion priors, by extracting the content and distortion embeddings from two pre-trained feature extractors. Then we adopt these two powerful embeddings as the adaptive prior tokens, which are transferred to the vision transformer backbone jointly with implicit quality features. Based on the above strategy, the proposed PriorFormer achieves state-of-the-art performance on three public UGC VQA datasets including KoNViD-1K, LIVE-VQC and YouTube-UGC. | 翻訳日:2024-06-25 16:13:09 公開日:2024-06-24 |
# 量子化エラーを補償する - 重みを階層化し相互に補償する
Compensate Quantization Errors: Make Weights Hierarchical to Compensate Each Other ( http://arxiv.org/abs/2406.16299v1 ) ライセンス: Link先を確認 | Yifei Gao, Jie Ou, Lei Wang, Yuting Xiao, Zhiyuan Xiang, Ruiting Dai, Jun Cheng, | (参考訳) 創発的大規模言語モデル(LLM)は、従来の言語モデルと区別するために、その異常な性能と強力な推論能力を使用する。
しかし、これらのLLMの計算資源とストレージの費用は驚くべきものであり、量子化はトレンドとなる会話として現れる。
量子化による精度の低下に対処するため、後学習量子化法における2つの研究の流れが際立っている。
1つは既存の量子化誤差を補うために他の重みを使い、もう1つはモデルの他の部分へ量子化の難しさを伝達する。
いずれのメリットも組み合わせて,高度な解法としてLearnerable Singular Value Increment(LSI)を導入する。
LSIはSingular Value Decompositionを用いて重みの特異な値を抽出し、重みがアクティベーション時に互いに補償するのに役立つように学習する。
LSIを既存の技術と組み合わせることで、重量のみ、重量アクティベーション、超低ビットシナリオによらず、様々な量子化設定で最先端の性能を実現する。
LSIの可能性を解き放つことで、量子化モデルの効率的な微調整はもはや禁止問題ではない。
Emergent Large Language Models (LLMs) use their extraordinary performance and powerful deduction capacity to discern from traditional language models. However, the expenses of computational resources and storage for these LLMs are stunning, quantization then arises as a trending conversation. To address accuracy decay caused by quantization, two streams of works in post-training quantization methods stand out. One uses other weights to compensate existing quantization error, while the other transfers the quantization difficulty to other parts in the model. Combining both merits, we introduce Learnable Singular value Increment (LSI) as an advanced solution. LSI uses Singular Value Decomposition to extract singular values of the weights and make them learnable to help weights compensate each other conditioned on activation. Incorporating LSI with existing techniques, we achieve state-of-the-art performance in diverse quantization settings, no matter in weight-only, weight-activation or extremely low bit scenarios. By unleashing the potential of LSI, efficient finetuning on quantized model is no longer a prohibitive problem. | 翻訳日:2024-06-25 16:13:09 公開日:2024-06-24 |
# ランドスケープリニアモード接続性
Landscaping Linear Mode Connectivity ( http://arxiv.org/abs/2406.16300v1 ) ライセンス: Link先を確認 | Sidak Pal Singh, Linara Adilova, Michael Kamp, Asja Fischer, Bernhard Schölkopf, Thomas Hofmann, | (参考訳) 線形モード接続(LMC)と呼ばれる、ある場合における2つの異なるネットワークソリューション間のパラメータ空間における線形経路の存在は、理論的および実用的両方の面から関心を集めている。
ネットワーク接続のためのアルゴリズムを実際に設計し、置換対称性を調整し、ネットワークを接続できる経路を理論的に構築する研究も行われている。
しかし、LMCの発生の主な理由は、実際に発生するとき、ニューラルネットワークの非常に非凸なロスランドスケープにおいて、明らかになっていないことである。
本研究では,ロスランドスケープがLCC(あるいはその欠如)のために地形的にどのように振る舞う必要があるかのモデルを提供することにより,その理解に向けて一歩前進する。
具体的には、トレーニングラン沿いの失われた風景で見られる様々な幾何学的特徴をきちんと結び付けるのに役立つ「山と尾根」の視点を示す。
また,バリア高さの理論的解析を行い,実証的支援を行い,レイヤーワイドLCCの忠実な予測因子として拡張することで,この視点を補完する。
われわれは、まず最初に、どのように障壁が生じるのかを直感的に示すおもちゃの例に近づき、LMCの発生のためのランドスケープとそのトポグラフィーの作業モデルを提供する。
The presence of linear paths in parameter space between two different network solutions in certain cases, i.e., linear mode connectivity (LMC), has garnered interest from both theoretical and practical fronts. There has been significant research that either practically designs algorithms catered for connecting networks by adjusting for the permutation symmetries as well as some others that more theoretically construct paths through which networks can be connected. Yet, the core reasons for the occurrence of LMC, when in fact it does occur, in the highly non-convex loss landscapes of neural networks are far from clear. In this work, we take a step towards understanding it by providing a model of how the loss landscape needs to behave topographically for LMC (or the lack thereof) to manifest. Concretely, we present a `mountainside and ridge' perspective that helps to neatly tie together different geometric features that can be spotted in the loss landscape along the training runs. We also complement this perspective by providing a theoretical analysis of the barrier height, for which we provide empirical support, and which additionally extends as a faithful predictor of layer-wise LMC. We close with a toy example that provides further intuition on how barriers arise in the first place, all in all, showcasing the larger aim of the work -- to provide a working model of the landscape and its topography for the occurrence of LMC. | 翻訳日:2024-06-25 16:13:09 公開日:2024-06-24 |
# UBiSS: ビデオのバイモーダルセマンティック要約のための統一フレームワーク
UBiSS: A Unified Framework for Bimodal Semantic Summarization of Videos ( http://arxiv.org/abs/2406.16301v1 ) ライセンス: Link先を確認 | Yuting Mei, Linli Yao, Qin Jin, | (参考訳) 映像データの量が急増するにつれ、ビジュアルモーダル(VM)やテキストモーダル(TM)といった映像要約技術が注目されている。
しかし、一様要約は必然的にビデオの豊かな意味を失う。
本稿では,Bimodal Semantic Summarization of Videos (BiSSV) という,より包括的なビデオ要約タスクに焦点を当てる。
具体的には、まず、大規模なデータセットBIDSを(ビデオ、VM-Summary、TM-Summary)トリプルフォーマットで構築する。
従来の処理方法とは違って,提案手法には,長大なビデオ内で最も顕著なコンテンツを保存することを目的としたVM-Summary抽出アルゴリズムが組み込まれている。
BIDSに基づいて,ビデオ内のサリエンシ情報をモデル化し,TM-summaryとVM-summaryを同時に生成する,BiSSVタスク用統一フレームワークUBiSSを提案する。
ハイライトをキャプチャするためのキャパシティを改善するために、リストワイドのランキングベースでモデルをさらに最適化する。
最後に,バイモーダル要約を共同で評価するための計量である$NDCG_{MS}$を提案する。
実験により、我々の統合されたフレームワークは、多段階の要約パイプラインよりも優れたパフォーマンスを実現することが示された。
コードとデータはhttps://github.com/MeiYutingg/UBiSSで公開されている。
With the surge in the amount of video data, video summarization techniques, including visual-modal(VM) and textual-modal(TM) summarization, are attracting more and more attention. However, unimodal summarization inevitably loses the rich semantics of the video. In this paper, we focus on a more comprehensive video summarization task named Bimodal Semantic Summarization of Videos (BiSSV). Specifically, we first construct a large-scale dataset, BIDS, in (video, VM-Summary, TM-Summary) triplet format. Unlike traditional processing methods, our construction procedure contains a VM-Summary extraction algorithm aiming to preserve the most salient content within long videos. Based on BIDS, we propose a Unified framework UBiSS for the BiSSV task, which models the saliency information in the video and generates a TM-summary and VM-summary simultaneously. We further optimize our model with a list-wise ranking-based objective to improve its capacity to capture highlights. Lastly, we propose a metric, $NDCG_{MS}$, to provide a joint evaluation of the bimodal summary. Experiments show that our unified framework achieves better performance than multi-stage summarization pipelines. Code and data are available at https://github.com/MeiYutingg/UBiSS. | 翻訳日:2024-06-25 16:13:09 公開日:2024-06-24 |
# 局所微分プライバシーを用いたペアワイズ統計計算について
On Computing Pairwise Statistics with Local Differential Privacy ( http://arxiv.org/abs/2406.16305v1 ) ライセンス: Link先を確認 | Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Adam Sealfon, | (参考訳) 我々はペアワイズ統計の問題を、例えば$\binom{n}{2}^{-1} \sum_{i \ne j} f(x_i, x_j)$という形で研究する。
この定式化は、Kendallの$\tau$ coefficient、Area Under Curve、Giniの平均差、Giniのエントロピーなどの重要なメトリクスをキャプチャする。
本稿では,DPアルゴリズムの手法を線形クエリに応用した,新しいアルゴリズムと汎用アルゴリズムを提案する。
We study the problem of computing pairwise statistics, i.e., ones of the form $\binom{n}{2}^{-1} \sum_{i \ne j} f(x_i, x_j)$, where $x_i$ denotes the input to the $i$th user, with differential privacy (DP) in the local model. This formulation captures important metrics such as Kendall's $\tau$ coefficient, Area Under Curve, Gini's mean difference, Gini's entropy, etc. We give several novel and generic algorithms for the problem, leveraging techniques from DP algorithms for linear queries. | 翻訳日:2024-06-25 16:13:09 公開日:2024-06-24 |
# 効率的な復号時間アライメントのためのカスケードリワードサンプリング
Cascade Reward Sampling for Efficient Decoding-Time Alignment ( http://arxiv.org/abs/2406.16306v1 ) ライセンス: Link先を確認 | Bolian Li, Yifan Wang, Ananth Grama, Ruqi Zhang, | (参考訳) 大規模言語モデル(LLM)を人間の好みで調整することは、デプロイメントに不可欠である。
近年,モデルパラメータの微調整を必要としない効果的なプラグアンドプレイ技術として,復号時間アライメントが出現している。
しかし、高い報酬と高い可能性の両方を達成するテキストを生成することは大きな課題である。
既存の手法は高解像度のテキストを生成したり、かなりの計算コストを発生させるのに失敗することが多い。
本稿では,両問題に対処するカスケード・リワード・サンプリング(CARDS)を提案する。
不完全テキスト上での報酬モデル(RM)の分析と、高逆プレフィックスが高逆完全テキストを誘導する観察に基づいて、リジェクションサンプリングを用いて、小さなセマンティックセグメントを反復的に生成し、そのようなプレフィックスを形成する。
セグメント長はLLMの予測不確実性によって動的に決定される。
この戦略は、次の世代に望ましいプレフィックスを保証し、無駄なトークンの再生成と報酬モデルのスコアリング数を著しく削減する。
本実験は, GPT-4/Claude-3の有用性評価において, テキスト生成の5倍, 99%の勝利率を達成し, 生成効率とアライメント評価の両面で有意な向上を示した。
Aligning large language models (LLMs) with human preferences is critical for their deployment. Recently, decoding-time alignment has emerged as an effective plug-and-play technique that requires no fine-tuning of model parameters. However, generating text that achieves both high reward and high likelihood remains a significant challenge. Existing methods often fail to generate high-reward text or incur substantial computational costs. In this paper, we propose Cascade Reward Sampling (CARDS) to address both issues, guaranteeing the generation of high-reward and high-likelihood text with significantly low costs. Based on our analysis of reward models (RMs) on incomplete text and our observation that high-reward prefixes induce high-reward complete text, we use rejection sampling to iteratively generate small semantic segments to form such prefixes. The segment length is dynamically determined by the predictive uncertainty of LLMs. This strategy guarantees desirable prefixes for subsequent generations and significantly reduces wasteful token re-generations and the number of reward model scoring. Our experiments demonstrate substantial gains in both generation efficiency and alignment ratings compared to the baselines, achieving five times faster text generation and 99\% win-ties in GPT-4/Claude-3 helpfulness evaluation. | 翻訳日:2024-06-25 16:13:09 公開日:2024-06-24 |
# アートスタイルテキスト検出器と新しいMovie-Posterデータセット
Artistic-style text detector and a new Movie-Poster dataset ( http://arxiv.org/abs/2406.16307v1 ) ライセンス: Link先を確認 | Aoxiang Ning, Yiting Wei, Minglong Xue, Senming Zhong, | (参考訳) 現在のテキスト検出アルゴリズムは、一般的なシナリオでは有効性を示すが、複雑な構造を持つ芸術的スタイルのテキストに直面すると、その性能は低下する。
本稿では,Criss-Cross Attentionと高密度ブロックを用いて,現代アルゴリズムによるアートスタイルのテキスト検出の不完全・誤検出に対処する手法を提案する。
具体的には,主に特徴抽出バックボーン,機能拡張ネットワーク,マルチスケール機能融合モジュール,境界識別モジュールから構成される。
機能強化ネットワークは、水平および垂直の文脈情報を融合することにより、複雑な環境におけるモデルの知覚能力を著しく向上させ、芸術的なスタイルのテキストで見落とされた詳細な特徴を捉えることができる。
本研究では,高密度ブロックを特徴ピラミッドネットワークに組み込み,特徴融合時の背景雑音の影響を抑制する。
複雑な後処理を省略することを目的として,境界提案の正しい生成を導く境界識別モジュールを探索する。
さらに,ポスターのタイトルがスタイリングされたアートフォントを使用することが多いことを踏まえ,アートスタイルのテキストデータの不足に対処するため,映画ポスターデータセットを収集した。
大規模な実験により,提案手法はMovie-Posterデータセットよりも優れた性能を示し,複数のベンチマークデータセットに対して優れた結果が得られた。
https://github.com/biedaxiaohua/Artistic-style-text-detection
Although current text detection algorithms demonstrate effectiveness in general scenarios, their performance declines when confronted with artistic-style text featuring complex structures. This paper proposes a method that utilizes Criss-Cross Attention and residual dense block to address the incomplete and misdiagnosis of artistic-style text detection by current algorithms. Specifically, our method mainly consists of a feature extraction backbone, a feature enhancement network, a multi-scale feature fusion module, and a boundary discrimination module. The feature enhancement network significantly enhances the model's perceptual capabilities in complex environments by fusing horizontal and vertical contextual information, allowing it to capture detailed features overlooked in artistic-style text. We incorporate residual dense block into the Feature Pyramid Network to suppress the effect of background noise during feature fusion. Aiming to omit the complex post-processing, we explore a boundary discrimination module that guides the correct generation of boundary proposals. Furthermore, given that movie poster titles often use stylized art fonts, we collected a Movie-Poster dataset to address the scarcity of artistic-style text data. Extensive experiments demonstrate that our proposed method performs superiorly on the Movie-Poster dataset and produces excellent results on multiple benchmark datasets. The code and the Movie-Poster dataset will be available at: https://github.com/biedaxiaohua/Artistic-style-text-detection | 翻訳日:2024-06-25 16:03:25 公開日:2024-06-24 |
# LLMを用いた語彙データの異常検出
Anomaly Detection of Tabular Data Using LLMs ( http://arxiv.org/abs/2406.16308v1 ) ライセンス: Link先を確認 | Aodong Li, Yunhan Zhao, Chen Qiu, Marius Kloft, Padhraic Smyth, Maja Rudolph, Stephan Mandt, | (参考訳) 大規模言語モデル(LLM)は、長文理解や数学的推論においてその可能性を示している。
本稿では,LLMを用いて表層異常を検知し,事前学習したLCMがゼロショットバッチレベルの異常検出器であることを示す。
つまり、余分な分布固有のモデルフィッティングがなければ、複数のデータに隠された外れ値を発見し、低密度のデータ領域を識別する能力を示すことができる。
異常検出と頻繁な事実誤差に整合しないLCMに対しては,合成バッチレベルの異常検出データセットをシミュレートするために,単純かつ効果的なデータ生成プロセスを適用し,実異常検出におけるLCMのポテンシャルを生かしたエンドツーエンドの微調整戦略を提案する。
大規模異常検出ベンチマーク(ODDS)の展示実験
一)GPT-4は、最先端のトランスダクティブ学習に基づく異常検出方法及び異常検出方法と同等の性能を有する。
二 この課題にLLMを合わせるための合成データセットと微調整戦略の有効性。
Large language models (LLMs) have shown their potential in long-context understanding and mathematical reasoning. In this paper, we study the problem of using LLMs to detect tabular anomalies and show that pre-trained LLMs are zero-shot batch-level anomaly detectors. That is, without extra distribution-specific model fitting, they can discover hidden outliers in a batch of data, demonstrating their ability to identify low-density data regions. For LLMs that are not well aligned with anomaly detection and frequently output factual errors, we apply simple yet effective data-generating processes to simulate synthetic batch-level anomaly detection datasets and propose an end-to-end fine-tuning strategy to bring out the potential of LLMs in detecting real anomalies. Experiments on a large anomaly detection benchmark (ODDS) showcase i) GPT-4 has on-par performance with the state-of-the-art transductive learning-based anomaly detection methods and ii) the efficacy of our synthetic dataset and fine-tuning strategy in aligning LLMs to this task. | 翻訳日:2024-06-25 16:03:25 公開日:2024-06-24 |
# 箱の中で考える: 強力な広告主に対するプライバシー
Thinking Inside The Box: Privacy Against Stronger Adversaries ( http://arxiv.org/abs/2406.16313v1 ) ライセンス: Link先を確認 | Eldon Chung, | (参考訳) 本稿では,統計的暗号プリミティブの拡張について検討する。
特に, 漏れ耐性の秘密共有, 非悪性抽出器, 免疫理想的一方的機能について検討した。
論文は3つの主要な章に分けられる。
第1章では, 2-out-of-2 リークのレジリエンス(および非重複性)な秘密共有には,抽出可能なランダム性ソースが必要であることを示す。
これは、min-entropic sourceを使用する可能性を規定する。
第2に, 耐衝突性種子抽出機を導入し, 耐衝突性を有する種子抽出機を種長の小さなオーバーヘッドで得ることを示す。
次に, エントロピー率0.81の2ソース非有理抽出器と, 多対数抽出器を併用する。
無効な抽出器は、敵を妨害するメモリに対する最初の統計的プライバシー増幅プロトコルに繋がる。
最終章では、前処理相手に対してランダムなオラクルを免疫する最近の研究によって動機付けられた3SUM問題のデータ構造変異の硬さについて検討する。
適応的敵に対するデータ構造における既知の障壁と一致する3SUM問題に対して、最悪のデータ構造硬度を与える。
非適応性の場合も若干強い下界を与える。
最後に、ビットプローブ設定において新しい結果を与える。
In this thesis, we study extensions of statistical cryptographic primitives. In particular we study leakage-resilient secret sharing, non-malleable extractors, and immunized ideal one-way functions. The thesis is divided into three main chapters. In the first chapter, we show that 2-out-of-2 leakage resilient (and also non-malleable) secret sharing requires randomness sources that are also extractable. This rules out the possibility of using min-entropic sources. In the second, we introduce collision-resistant seeded extractors and show that any seeded extractor can be made collision resistant at a small overhead in seed length. We then use it to give a two-source non-malleable extractor with entropy rate 0.81 in one source and polylogarithmic in the other. The non-malleable extractor lead to the first statistical privacy amplification protocol against memory tampering adversaries. In the final chapter, we study the hardness of the data structure variant of the 3SUM problem which is motivated by a recent construction to immunise random oracles against pre-processing adversaries. We give worst-case data structure hardness for the 3SUM problem matching known barriers in data structures for adaptive adversaries. We also give a slightly stronger lower bound in the case of non-adaptivity. Lastly, we give a novel result in the bit-probe setting. | 翻訳日:2024-06-25 16:03:25 公開日:2024-06-24 |
# ニューラルネットワークと合成フレームワークを用いた終端から終端へのニューラルシンガーダイアリゼーションのための歌データクリーニング
Song Data Cleansing for End-to-End Neural Singer Diarization Using Neural Analysis and Synthesis Framework ( http://arxiv.org/abs/2406.16315v1 ) ライセンス: Link先を確認 | Hokuto Munakata, Ryo Terashima, Yusuke Fujita, | (参考訳) 本稿では、ニューラル分析合成(NANSY++)フレームワークを用いて、歌手ダイアリゼーションのためのエンドツーエンドニューラルダイアリゼーションモデル(EEND)を訓練するデータ浄化手法を提案する。
提案モデルでは,歌唱データと合唱歌唱データを変換し,歌唱データに模擬データセットを生成するのに適さない。
このクリーニングはNANSY++に基づいており、入力された非オーバーラップオーディオ信号を再構築するフレームワークである。
我々は、事前訓練されたNANSY++を利用して、コーランの歌唱をクリーンでオーバーラップされていないオーディオに変換する。
合唱と独唱との混同を軽減し、合唱部が多数含まれている場合でも、EENDモデルの効果的な訓練を支援する。
提案手法を用いてデータセットを用いて訓練したEDEモデルを,注釈付きポピュラーなデュエット曲を用いて実験的に評価した。
その結果,提案手法はダイアリゼーション誤差率を14.8ポイント改善した。
We propose a data cleansing method that utilizes a neural analysis and synthesis (NANSY++) framework to train an end-to-end neural diarization model (EEND) for singer diarization. Our proposed model converts song data with choral singing which is commonly contained in popular music and unsuitable for generating a simulated dataset to the solo singing data. This cleansing is based on NANSY++, which is a framework trained to reconstruct an input non-overlapped audio signal. We exploit the pre-trained NANSY++ to convert choral singing into clean, non-overlapped audio. This cleansing process mitigates the mislabeling of choral singing to solo singing and helps the effective training of EEND models even when the majority of available song data contains choral singing sections. We experimentally evaluated the EEND model trained with a dataset using our proposed method using annotated popular duet songs. As a result, our proposed method improved 14.8 points in diarization error rate. | 翻訳日:2024-06-25 16:03:25 公開日:2024-06-24 |
# 言語モデルにおける言語間のアライメントは常識的モラルを変えるか?
Does Cross-Cultural Alignment Change the Commonsense Morality of Language Models? ( http://arxiv.org/abs/2406.16316v1 ) ライセンス: Link先を確認 | Yuu Jinnai, | (参考訳) 言語モデルを人間の好みに合わせることは、エンドユーザーにとって有用な言語モデルを作るための一般的なアプローチである。
しかし、ほとんどのアライメント作業は英語で行われ、人間の嗜好データセットは英語によって支配されており、英語話者のアノテータの嗜好のみを反映している。
それでも、多言語言語モデルを整列させる際に、直接または対象言語に翻訳することで、英語の嗜好データを使用するのが一般的である。
問題は、このようなアライメント戦略が非英語話者の嗜好を損なうかどうかである。
そこで本研究では,日本語モデルと(主に)英語資源との整合性について検討する。
特に、JCommonsenseMorality(JCM)とETHICSデータセットを用いて、得られた微調整モデルの常識的モラルが日本の文化と一致しているかを評価することに重点を置いている。
実験の結果, 微調整モデルの方がSFTモデルより優れていた。
しかし、JCMを用いて微調整されたモデルと同じレベルの改善は示さず、コモンセンス道徳のいくつかの側面は移譲可能であるが、他の部分はそうでないかもしれないことを示唆している。
Alignment of the language model with human preferences is a common approach to making a language model useful to end users. However, most alignment work is done in English, and human preference datasets are dominated by English, reflecting only the preferences of English-speaking annotators. Nevertheless, it is common practice to use the English preference data, either directly or by translating it into the target language, when aligning a multilingual language model. The question is whether such an alignment strategy marginalizes the preference of non-English speaking users. To this end, we investigate the effect of aligning Japanese language models with (mostly) English resources. In particular, we focus on evaluating whether the commonsense morality of the resulting fine-tuned models is aligned with Japanese culture using the JCommonsenseMorality (JCM) and ETHICS datasets. The experimental results show that the fine-tuned model outperforms the SFT model. However, it does not demonstrate the same level of improvement as a model fine-tuned using the JCM, suggesting that while some aspects of commonsense morality are transferable, others may not be. | 翻訳日:2024-06-25 16:03:25 公開日:2024-06-24 |
# モデル付き多変量オーバラップ:母音合併の測定方法
Modelled Multivariate Overlap: A method for measuring vowel merger ( http://arxiv.org/abs/2406.16319v1 ) ライセンス: Link先を確認 | Irene Smith, Morgan Sonderegger, The Spade Consortium, | (参考訳) 本稿では,母音重複の定量化手法を提案する。
経験的分布から導出されるような多変量尺度の使用と、不均衡なデータや外部要因を制御できる能力との間には、以前の研究の緊張関係がある。
提案手法は, 興味のすべての音響次元を共同でモデル化し, モデルの分布をシミュレートし, 母音重複度を計算することによって, この緊張を解消する。
この方法のもう1つの利点は、不確実性の計算が簡単になることである。
本手法は、英語の4方言におけるPIN-PEN合併を対象とするコーパス音声データについて評価し、Bhattacharyya親和性を計算するためにモデル化された分布を用いることで、多変量と単変量との差が微妙であるのに対して、経験的分布よりも大幅に改善できることを見出した。
This paper introduces a novel method for quantifying vowel overlap. There is a tension in previous work between using multivariate measures, such as those derived from empirical distributions, and the ability to control for unbalanced data and extraneous factors, as is possible when using fitted model parameters. The method presented here resolves this tension by jointly modelling all acoustic dimensions of interest and by simulating distributions from the model to compute a measure of vowel overlap. An additional benefit of this method is that computation of uncertainty becomes straightforward. We evaluate this method on corpus speech data targeting the PIN-PEN merger in four dialects of English and find that using modelled distributions to calculate Bhattacharyya affinity substantially improves results compared to empirical distributions, while the difference between multivariate and univariate modelling is subtle. | 翻訳日:2024-06-25 16:03:25 公開日:2024-06-24 |
# VLMs NOTICEとは何か? ノイズのないテキスト画像の破壊と評価のための機械的解釈可能性パイプライン
What Do VLMs NOTICE? A Mechanistic Interpretability Pipeline for Noise-free Text-Image Corruption and Evaluation ( http://arxiv.org/abs/2406.16320v1 ) ライセンス: Link先を確認 | Michal Golovanevsky, William Rudman, Vedant Palit, Ritambhara Singh, Carsten Eickhoff, | (参考訳) VLM(Vision-Language Models)は、複雑なタスクを実行するために視覚とテキストの入力を統合する能力によって、コミュニティが普及している。
それらの成功にもかかわらず、これらのモデルの内部決定プロセスは不透明であり、ハイテイクなアプリケーションで課題を提起している。
そこで本研究では,VLMにおける機械的解釈性評価パイプラインであるNOTICEを紹介する。
NOTICEには、画像破損のためのSMP(Semantic Minimal Pairs)フレームワークとテキストのためのSymmetric Token Replacement(STR)が含まれている。
このアプローチは、両方のモダリティに対して意味論的に意味のある因果媒介分析を可能にし、BLIPのようなモデル内でのマルチモーダル統合を分析する堅牢な方法を提供する。
SVO-Probes、MIT-States、Facial Expression Recognitionデータセットに関する実験により、VLM意思決定における重要な洞察が示され、中層横断頭部の役割が特定される。
さらに,タスクやモダリティに一貫して寄与する‘ユニバーサル・クロスアテンション・ヘッド’の集合を明らかにする。
この作業は、より透明で解釈可能なマルチモーダルシステムへの道を開く。
Vision-Language Models (VLMs) have gained community-spanning prominence due to their ability to integrate visual and textual inputs to perform complex tasks. Despite their success, the internal decision-making processes of these models remain opaque, posing challenges in high-stakes applications. To address this, we introduce NOTICE, the first Noise-free Text-Image Corruption and Evaluation pipeline for mechanistic interpretability in VLMs. NOTICE incorporates a Semantic Minimal Pairs (SMP) framework for image corruption and Symmetric Token Replacement (STR) for text. This approach enables semantically meaningful causal mediation analysis for both modalities, providing a robust method for analyzing multimodal integration within models like BLIP. Our experiments on the SVO-Probes, MIT-States, and Facial Expression Recognition datasets reveal crucial insights into VLM decision-making, identifying the significant role of middle-layer cross-attention heads. Further, we uncover a set of ``universal cross-attention heads'' that consistently contribute across tasks and modalities, each performing distinct functions such as implicit image segmentation, object inhibition, and outlier inhibition. This work paves the way for more transparent and interpretable multimodal systems. | 翻訳日:2024-06-25 16:03:25 公開日:2024-06-24 |
# マルチモーダルグラフベンチマーク
Multimodal Graph Benchmark ( http://arxiv.org/abs/2406.16321v1 ) ライセンス: Link先を確認 | Jing Zhu, Yuhang Zhou, Shengyi Qian, Zhongmou He, Tong Zhao, Neil Shah, Danai Koutra, | (参考訳) 構造化された情報と非構造化されたデータを関連付けることは、関連検索を必要とする現実世界のタスクに不可欠である。
しかし、既存のグラフ学習ベンチマークは、各ノードに関連するリッチなセマンティック情報を見落としていることが多い。
このようなギャップを埋めるために、テキスト情報と視覚情報の両方を組み込んだ最初の総合的なマルチモーダルグラフベンチマークであるMultimodal Graph Benchmark(MM-GRAPH)を導入する。
MM-GRAPHは、主に様々な接続パターンを持つテキスト分散グラフに焦点を当てた、これまでの取り組みを超越している。
MM-GRAPHは5つのグラフ学習データセットから構成されており、異なる学習タスクに適している。
マルチモーダルノードは、実際のシナリオにおけるグラフ学習アルゴリズムのより包括的な評価を可能にする。
マルチモーダルグラフ学習の研究を容易にするため,様々なモーダル特徴が存在する場合に,様々なグラフニューラルネットワークの性能について広範な研究を行う。
MM-GRAPHは、マルチモーダルグラフ学習の研究を促進し、より高度で堅牢なグラフ学習アルゴリズムの開発を促進することを目的としている。
さまざまなデータセットとベンチマークを提供することで、MM-GRAPHは、研究者が現実的な設定でモデルを評価および比較することが可能となり、最終的にはマルチモーダルグラフデータに依存する実世界のアプリケーションのパフォーマンスが改善される。
Associating unstructured data with structured information is crucial for real-world tasks that require relevance search. However, existing graph learning benchmarks often overlook the rich semantic information associate with each node. To bridge such gap, we introduce the Multimodal Graph Benchmark (MM-GRAPH), the first comprehensive multi-modal graph benchmark that incorporates both textual and visual information. MM-GRAPH surpasses previous efforts, which have primarily focused on text-attributed graphs with various connectivity patterns. MM-GRAPH consists of five graph learning datasets of various scales that are appropriate for different learning tasks. Their multimodal node features, enabling a more comprehensive evaluation of graph learning algorithms in real-world scenarios. To facilitate research on multimodal graph learning, we further provide an extensive study on the performance of various graph neural networks in the presence of features from various modalities. MM-GRAPH aims to foster research on multimodal graph learning and drive the development of more advanced and robust graph learning algorithms. By providing a diverse set of datasets and benchmarks, MM-GRAPH enables researchers to evaluate and compare their models in realistic settings, ultimately leading to improved performance on real-world applications that rely on multimodal graph data. | 翻訳日:2024-06-25 16:03:25 公開日:2024-06-24 |
# 多相CTスキャンを用いた腎腫瘍サブタイプ分類のための病変認識型クロスパス注意ネットワーク
Lesion-Aware Cross-Phase Attention Network for Renal Tumor Subtype Classification on Multi-Phase CT Scans ( http://arxiv.org/abs/2406.16322v1 ) ライセンス: Link先を確認 | Kwang-Hyun Uhm, Seung-Won Jung, Sung-Hoo Hong, Sung-Jea Ko, | (参考訳) 多相CTは,非侵襲性および腎病変を特徴付ける能力から,腎癌の術前診断に広く用いられている。
しかし, 病変の種類が同じであっても, CT 相にわたる腎病変の増悪パターンが異なるため, 臨床検診医による視力評価は, サーバ間変動に悩まされる。
近年, 深層学習による腎癌の鑑別診断が検討されているが, ネットワーク設計におけるCT位相間の関係を明示的にモデル化することはなく, 診断性能が制限されている。
本稿では, 病変を時系列多相CT画像から5つの病型に正確に分類し, 腎病変の経時的依存関係をCTフェーズ間で効果的に把握できる新しい病変認識型クロスフェーズアテンションネットワーク (LACPANet) を提案する。
強調パターンの位相間関係を記述した注意重みを推定するために, 有効3次元病変の特徴を学習するために, 位相間病変認識機構を導入する。
また,異なる空間スケールで病変の特徴の時間的パターンを捕捉・集約し,さらなる改善を図るためのマルチスケールアテンション方式を提案する。
LACPANetは診断精度において最先端のアプローチよりも優れていることを示す。
Multi-phase computed tomography (CT) has been widely used for the preoperative diagnosis of kidney cancer due to its non-invasive nature and ability to characterize renal lesions. However, since enhancement patterns of renal lesions across CT phases are different even for the same lesion type, the visual assessment by radiologists suffers from inter-observer variability in clinical practice. Although deep learning-based approaches have been recently explored for differential diagnosis of kidney cancer, they do not explicitly model the relationships between CT phases in the network design, limiting the diagnostic performance. In this paper, we propose a novel lesion-aware cross-phase attention network (LACPANet) that can effectively capture temporal dependencies of renal lesions across CT phases to accurately classify the lesions into five major pathological subtypes from time-series multi-phase CT images. We introduce a 3D inter-phase lesion-aware attention mechanism to learn effective 3D lesion features that are used to estimate attention weights describing the inter-phase relations of the enhancement patterns. We also present a multi-scale attention scheme to capture and aggregate temporal patterns of lesion features at different spatial scales for further improvement. Extensive experiments on multi-phase CT scans of kidney cancer patients from the collected dataset demonstrate that our LACPANet outperforms state-of-the-art approaches in diagnostic accuracy. | 翻訳日:2024-06-25 16:03:25 公開日:2024-06-24 |
# マージングによるプルーニング:マニフォールドアライメントに基づくレイヤマージングによるLLM圧縮
Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging ( http://arxiv.org/abs/2406.16330v1 ) ライセンス: Link先を確認 | Deyuan Liu, Zhanyue Qin, Hairu Wang, Zhao Yang, Zecheng Wang, Fangying Rong, Qingbin Liu, Yanchao Hao, Xi Chen, Cunhang Fan, Zhao Lv, Zhiying Tu, Dianhui Chu, Bo Li, Dianbo Sui, | (参考訳) 大規模言語モデル(LLM)は多くのドメインで優れていますが、その複雑さとリソース制限された環境でのスケールアップに挑戦しています。
パラメータプルーニングのような現在の圧縮技術は、プルーニングされたパラメータからの知識を効果的に活用できないことが多い。
これらの課題に対処するために,多様体学習と正規化ペアワイズ・インフォメーション・ボトルネック(NPIB)を用いたモデルサイズを低減し,本質的な性能を維持しつつ,モデルサイズを低減させる新しい手法であるManifold-Based Knowledge Alignment and Layer Merging Compression (MKA)を提案する。
複数のベンチマークデータセットと様々なLLMを用いてMKAを評価する。
以上の結果から,MKAはモデル性能を保ちつつ,圧縮率も大幅に向上し,従来のプルーニング法よりも優れていた。
さらに、量子化と組み合わせることで、MKAはさらに大きな圧縮を提供する。
具体的には、Llama3-8Bモデルを用いたMMLUデータセットにおいて、MKAは43.75%の圧縮比を達成し、最小性能は2.82\%である。
提案手法は, LLMに対する資源効率, 性能保存モデル圧縮技術を提供する。
While large language models (LLMs) excel in many domains, their complexity and scale challenge deployment in resource-limited environments. Current compression techniques, such as parameter pruning, often fail to effectively utilize the knowledge from pruned parameters. To address these challenges, we propose Manifold-Based Knowledge Alignment and Layer Merging Compression (MKA), a novel approach that uses manifold learning and the Normalized Pairwise Information Bottleneck (NPIB) measure to merge similar layers, reducing model size while preserving essential performance. We evaluate MKA on multiple benchmark datasets and various LLMs. Our findings show that MKA not only preserves model performance but also achieves substantial compression ratios, outperforming traditional pruning methods. Moreover, when coupled with quantization, MKA delivers even greater compression. Specifically, on the MMLU dataset using the Llama3-8B model, MKA achieves a compression ratio of 43.75% with a minimal performance decrease of only 2.82\%. The proposed MKA method offers a resource-efficient and performance-preserving model compression technique for LLMs. | 翻訳日:2024-06-25 16:03:25 公開日:2024-06-24 |
# DemoRank: ランク付けタスクにおける大規模言語モデルの効果的なデモを選択する
DemoRank: Selecting Effective Demonstrations for Large Language Models in Ranking Task ( http://arxiv.org/abs/2406.16332v1 ) ライセンス: Link先を確認 | Wenhan Liu, Yutao Zhu, Zhicheng Dou, | (参考訳) 近年,大型言語モデル (LLM) をゼロショットパスローダとして採用することへの関心が高まっている。
しかし、この論文の焦点である通過ランキングタスクに対して、適切な文脈内デモンストレーションを選択する方法を検討する研究はほとんどない。
従来の研究では、主にデモレトリバーを使用してデモを検索し、インコンテキストラーニング(ICL)に100ドル以上のデモを使用する。
効果的ではあるが、このアプローチはデモ間の依存関係を見落とし、通過ランキングタスクにおける数発のICLのパフォーマンスが劣る。
本稿では、デモ選択を「textit{retrieve-then-rerank}」プロセスとして定式化し、DemoRankフレームワークを導入する。
本フレームワークでは、まずLLMフィードバックを用いてデモレトリバーをトレーニングし、新しい依存性を考慮したトレーニングサンプルを構築し、デモリランカをトレーニングし、数発のICLを改善する。
このようなトレーニングサンプルの構築は、デモの依存関係だけでなく、効率的な方法も考慮している。
大規模な実験では、ドメイン内シナリオにおけるDemoRankの有効性とドメイン外シナリオへの強力な一般化が実証されている。
私たちのコードは~\url{https://github.com/8421BCD/DemoRank}で利用可能です。
Recently, there has been increasing interest in applying large language models (LLMs) as zero-shot passage rankers. However, few studies have explored how to select appropriate in-context demonstrations for the passage ranking task, which is the focus of this paper. Previous studies mainly apply a demonstration retriever to retrieve demonstrations and use top-$k$ demonstrations for in-context learning (ICL). Although effective, this approach overlooks the dependencies between demonstrations, leading to inferior performance of few-shot ICL in the passage ranking task. In this paper, we formulate the demonstration selection as a \textit{retrieve-then-rerank} process and introduce the DemoRank framework. In this framework, we first use LLM feedback to train a demonstration retriever and construct a novel dependency-aware training samples to train a demonstration reranker to improve few-shot ICL. The construction of such training samples not only considers demonstration dependencies but also performs in an efficient way. Extensive experiments demonstrate DemoRank's effectiveness in in-domain scenarios and strong generalization to out-of-domain scenarios. Our codes are available at~\url{https://github.com/8421BCD/DemoRank}. | 翻訳日:2024-06-25 16:03:25 公開日:2024-06-24 |
# Prompt-Consistency Image Generation (PCIG):LLM、知識グラフ、制御可能な拡散モデルを統合する統一フレームワーク
Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models ( http://arxiv.org/abs/2406.16333v1 ) ライセンス: Link先を確認 | Yichen Sun, Zhixuan Chu, Zhan Qin, Kui Ren, | (参考訳) テキスト・トゥ・イメージ(T2I)生成モデルの急速な進歩により,テキスト記述による高品質な画像の合成が可能になった。
このような大きな進歩にもかかわらず、これらのモデルは入力テキストと矛盾する内容を生成することにしばしば影響を受け、信頼性と実践的な展開に挑戦する。
この問題に対処するために,視覚出力とテキスト入力の整合性に対処し,生成した画像と対応する記述との整合性を大幅に向上する,新しい拡散ベースのフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
最先端の大規模言語モジュールを活用することで、まずオブジェクトを抽出し、そのオブジェクトの位置を潜在的に生成された画像で予測する知識グラフを構築する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、予測対象位置によって誘導された元のプロンプトと整合した画像を生成する。
先進的マルチモーダル幻覚ベンチマークの広範な実験を通じて、元のプロンプトと矛盾なく画像を正確に生成する手法の有効性を実証した。
コードはhttps://github.com/TruthAI-Lab/PCIGからアクセスすることができる。
The rapid advancement of Text-to-Image(T2I) generative models has enabled the synthesis of high-quality images guided by textual descriptions. Despite this significant progress, these models are often susceptible in generating contents that contradict the input text, which poses a challenge to their reliability and practical deployment. To address this problem, we introduce a novel diffusion-based framework to significantly enhance the alignment of generated images with their corresponding descriptions, addressing the inconsistency between visual output and textual input. Our framework is built upon a comprehensive analysis of inconsistency phenomena, categorizing them based on their manifestation in the image. Leveraging a state-of-the-art large language module, we first extract objects and construct a knowledge graph to predict the locations of these objects in potentially generated images. We then integrate a state-of-the-art controllable image generation model with a visual text generation module to generate an image that is consistent with the original prompt, guided by the predicted object locations. Through extensive experiments on an advanced multimodal hallucination benchmark, we demonstrate the efficacy of our approach in accurately generating the images without the inconsistency with the original prompt. The code can be accessed via https://github.com/TruthAI-Lab/PCIG. | 翻訳日:2024-06-25 16:03:25 公開日:2024-06-24 |
# VideoHallucer:大規模ビデオ言語モデルにおける内因性および外因性幻覚の評価
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models ( http://arxiv.org/abs/2406.16338v1 ) ライセンス: Link先を確認 | Yuxuan Wang, Yueqian Wang, Dongyan Zhao, Cihang Xie, Zilong Zheng, | (参考訳) MLLM(Multimodal Large Language Models)の最近の進歩は、その能力をビデオ理解にまで拡張している。
しかし、これらのモデルはしばしば「幻覚」に悩まされ、無関係または非意味なコンテンツが生成され、実際のビデオコンテキストから逸脱する。
この研究は、大規模なビデオ言語モデル(LVLM)における幻覚検出のための最初の包括的なベンチマークであるVideoHallucerを紹介する。
VideoHallucerは、幻覚を2つの主なタイプに分類する: 内在的および外在的であり、オブジェクト関係、時間的、意味的詳細、外在的事実、外在的非内在的幻覚を含む詳細な分析のためのさらなるサブカテゴリを提供する。
我々は,基本的質問と幻覚的質問のペアを戦略的に作成する,包括的評価のための対角的バイナリTVQA手法を採用した。
VideoHallucerで11個のLVLMを評価することで、私たちはそれを明らかにした。
一 現在の模型の大多数は、幻覚に関する重大な問題を呈する。
二 データセット及びパラメータのスケーリングは、基本的な視覚的手がかり及び反事実を検出するモデルの能力を向上させる一方、外因的な事実の幻覚を検出するための限られた利益を提供する。
三 既存のモデルは、幻覚を識別するよりも事実を検出することに長けている。
副産物として、これらの分析は我々の自己PEPフレームワークの開発をさらに指導し、すべてのモデルアーキテクチャにおける幻覚耐性を平均5.38%向上させる。
Recent advancements in Multimodal Large Language Models (MLLMs) have extended their capabilities to video understanding. Yet, these models are often plagued by "hallucinations", where irrelevant or nonsensical content is generated, deviating from the actual video context. This work introduces VideoHallucer, the first comprehensive benchmark for hallucination detection in large video-language models (LVLMs). VideoHallucer categorizes hallucinations into two main types: intrinsic and extrinsic, offering further subcategories for detailed analysis, including object-relation, temporal, semantic detail, extrinsic factual, and extrinsic non-factual hallucinations. We adopt an adversarial binary VideoQA method for comprehensive evaluation, where pairs of basic and hallucinated questions are crafted strategically. By evaluating eleven LVLMs on VideoHallucer, we reveal that i) the majority of current models exhibit significant issues with hallucinations; ii) while scaling datasets and parameters improves models' ability to detect basic visual cues and counterfactuals, it provides limited benefit for detecting extrinsic factual hallucinations; iii) existing models are more adept at detecting facts than identifying hallucinations. As a byproduct, these analyses further instruct the development of our self-PEP framework, achieving an average of 5.38% improvement in hallucination resistance across all model architectures. | 翻訳日:2024-06-25 16:03:25 公開日:2024-06-24 |
# EHRCon:電子健康記録における非構造化ノートと構造化テーブルの整合性チェック用データセット
EHRCon: Dataset for Checking Consistency between Unstructured Notes and Structured Tables in Electronic Health Records ( http://arxiv.org/abs/2406.16341v1 ) ライセンス: Link先を確認 | Yeonsu Kwon, Jiho Kim, Gyubok Lee, Seongsu Bae, Daeun Kyung, Wonchul Cha, Tom Pollard, Alistair Johnson, Edward Choi, | (参考訳) EHR(Electronic Health Records)は、構造化されたデータ(例:医薬品)と詳細な臨床ノート(例:医師注記)を組み合わせることで、総合的な患者の医療記録を保存するのに不可欠である。
これらの要素は、簡単なデータ検索に不可欠であり、患者のケアに対する深い文脈的な洞察を提供する。
しかし、直感的EHRシステム設計とヒューマンエラーにより、しばしば不一致に悩まされ、患者の安全性に深刻なリスクが生じる。
この問題に対処するため,我々は,構造化テーブルと非構造化ノート間のデータの整合性を確保するために設計された,新しいデータセットとタスクであるEHRConを開発した。
EHRConはMIMIC-III EHRデータセットを使用して医療専門家と共同で開発され、一貫性のためにデータベースエントリに対してチェックされた105の臨床ノートに3,943のエンティティのマニュアルアノテーションが含まれている。
EHRConには2つのバージョンがあり、1つはMIMIC-IIIスキーマ、もう1つはOMOP CDMスキーマを使用しており、適用性と一般化性を高めている。
さらに、大規模言語モデルの能力を活用して、臨床ノートとデータベーステーブル間の一貫性を検証するための新しいフレームワークであるCheckEHRを導入する。
CheckEHRは8段階のプロセスを使用し、数ショットとゼロショットの両方の設定で有望な結果を示す。
コードはhttps://github.com/dustn1259/EHRConで公開されている。
Electronic Health Records (EHRs) are integral for storing comprehensive patient medical records, combining structured data (e.g., medications) with detailed clinical notes (e.g., physician notes). These elements are essential for straightforward data retrieval and provide deep, contextual insights into patient care. However, they often suffer from discrepancies due to unintuitive EHR system designs and human errors, posing serious risks to patient safety. To address this, we developed EHRCon, a new dataset and task specifically designed to ensure data consistency between structured tables and unstructured notes in EHRs. EHRCon was crafted in collaboration with healthcare professionals using the MIMIC-III EHR dataset, and includes manual annotations of 3,943 entities across 105 clinical notes checked against database entries for consistency. EHRCon has two versions, one using the original MIMIC-III schema, and another using the OMOP CDM schema, in order to increase its applicability and generalizability. Furthermore, leveraging the capabilities of large language models, we introduce CheckEHR, a novel framework for verifying the consistency between clinical notes and database tables. CheckEHR utilizes an eight-stage process and shows promising results in both few-shot and zero-shot settings. The code is available at https://github.com/dustn1259/EHRCon. | 翻訳日:2024-06-25 16:03:25 公開日:2024-06-24 |
# ADVSCORE: 逆ベンチマークの評価と作成のためのメトリクス
ADVSCORE: A Metric for the Evaluation and Creation of Adversarial Benchmarks ( http://arxiv.org/abs/2406.16342v1 ) ライセンス: Link先を確認 | Yoo Yeon Sung, Eve Fleisig, Ishani Mondal, Jordan Lee Boyd-Graber, | (参考訳) 逆ベンチマークは、人間ではなく、愚かなモデルを提供するサンプルを提供することで、モデルの能力を検証する。
しかし、敵対的であると主張するデータセットの急増にもかかわらず、これらのデータセットがどのように敵対的であるかを評価するための確立された指標は存在しない。
このラッカナに対処するために、ADVSCOREという、敵対的・差別的なデータセットがどうあるべきかを定量化し、データを敵対的にする特徴を公開するメトリクスを紹介します。
次に、ADVSCOREを使用して、高品質な逆数データセットを書くインセンティブを与えるデータセット生成パイプラインの基盤を作ります。
概念実証として、私たちはADVSCOREを使用して、パイプラインから敵対的質問応答(QA)データセットADVQAを収集します。
ADVQAの高品質な質問は、複数のモデルを騙すが人間ではないドメイン間での3つの対立ベンチマークを上回っている。
我々は,4つのデータセットに対する9,347人の応答と3つのモデルからの予測の難易度に基づいて,結果を検証する。
さらに、ADVSCOREは、人間の作家が使用する敵の戦術は、モデル(例えば、GPT-4)を騙すが、人間ではないものを明らかにする。
ADVSCOREとその分析を通じて、言語モデルの脆弱性を明らかにし、信頼できる敵の例を生成するためのガイダンスを提供する。
Adversarial benchmarks validate model abilities by providing samples that fool models but not humans. However, despite the proliferation of datasets that claim to be adversarial, there does not exist an established metric to evaluate how adversarial these datasets are. To address this lacuna, we introduce ADVSCORE, a metric which quantifies how adversarial and discriminative an adversarial dataset is and exposes the features that make data adversarial. We then use ADVSCORE to underpin a dataset creation pipeline that incentivizes writing a high-quality adversarial dataset. As a proof of concept, we use ADVSCORE to collect an adversarial question answering (QA) dataset, ADVQA, from our pipeline. The high-quality questions in ADVQA surpasses three adversarial benchmarks across domains at fooling several models but not humans. We validate our result based on difficulty estimates from 9,347 human responses on four datasets and predictions from three models. Moreover, ADVSCORE uncovers which adversarial tactics used by human writers fool models (e.g., GPT-4) but not humans. Through ADVSCORE and its analyses, we offer guidance on revealing language model vulnerabilities and producing reliable adversarial examples. | 翻訳日:2024-06-25 16:03:25 公開日:2024-06-24 |
# ドメインファインチューニングの指導:特定の訓練課題に対する個別のモダリティの調整
Directed Domain Fine-Tuning: Tailoring Separate Modalities for Specific Training Tasks ( http://arxiv.org/abs/2406.16346v1 ) ライセンス: Link先を確認 | Daniel Wen, Nafisa Hussain, | (参考訳) 大規模言語モデル(LLM)と大規模視覚言語モデル(LVLM)は、特にテキスト生成、ビデオキャプション、質問応答といったタスクにおいて、人工知能分野の最前線にある。
通常、これらのモデルをより広い知識ベースやデータセットでトレーニングすることで、一般化可能性を高め、トピック間の関係を学習し、パターンを認識することがより適している。
代わりに、異なるドメイン内の各モダリティのタスクに特有の命令データセットを提供し、LORAを用いてモデルのパラメータを微調整する。
提案手法により、与えられたタスクに関係のない全てのノイズを除去できると同時に、モデルが精度を高めて生成することを保証できる。
この研究のために、我々はVideo-LLaVAを使用して、書き起こしのない調理ビデオのレシピを生成する。
Video-LLaVAのマルチモーダルアーキテクチャにより、画像エンコーダに調理画像を提供し、ビデオエンコーダに調理映像を提供し、テキストエンコーダに一般的な調理質問を提供することができる。
そこで本研究では,調理に関係のないすべてのノイズを除去し,具体的成分リストと詳細な指示を生成するモデルの性能を向上させることを目的とする。
その結果,ビデオ-LLaVAを微調整するアプローチは,YouCook2データセットのベースラインであるVideo-LLaVAを2%向上させることができた。
これは限界的な増加のように見えるかも知れませんが、私たちのモデルは、Video-LLaVAの2.5%の大きさのイメージ命令データセットとVideo-LLaVAの23.76%のビデオ命令データセットをトレーニングしています。
Large language models (LLMs) and large visual language models (LVLMs) have been at the forefront of the artificial intelligence field, particularly for tasks like text generation, video captioning, and question-answering. Typically, it is more applicable to train these models on broader knowledge bases or datasets to increase generalizability, learn relationships between topics, and recognize patterns. Instead, we propose to provide instructional datasets specific to the task of each modality within a distinct domain and then fine-tune the parameters of the model using LORA. With our approach, we can eliminate all noise irrelevant to the given task while also ensuring that the model generates with enhanced precision. For this work, we use Video-LLaVA to generate recipes given cooking videos without transcripts. Video-LLaVA's multimodal architecture allows us to provide cooking images to its image encoder, cooking videos to its video encoder, and general cooking questions to its text encoder. Thus, we aim to remove all noise unrelated to cooking while improving our model's capabilities to generate specific ingredient lists and detailed instructions. As a result, our approach to fine-tuning Video-LLaVA leads to gains over the baseline Video-LLaVA by 2% on the YouCook2 dataset. While this may seem like a marginal increase, our model trains on an image instruction dataset 2.5% the size of Video-LLaVA's and a video instruction dataset 23.76% of Video-LLaVA's. | 翻訳日:2024-06-25 15:53:24 公開日:2024-06-24 |
# VulZoo: 総合的な脆弱性インテリジェンスデータセット
VulZoo: A Comprehensive Vulnerability Intelligence Dataset ( http://arxiv.org/abs/2406.16347v1 ) ライセンス: Link先を確認 | Bonan Ruan, Jiahao Liu, Weibo Zhao, Zhenkai Liang, | (参考訳) ソフトウェア脆弱性は多くのソフトウェアシステムに対して重大なセキュリティとリスクの懸念を引き起こす。
深刻な結果をもたらす前に、これらの脆弱性を効果的に評価し、優先順位付けするための多くの技術が提案されている。
それらの性能を評価するために、これらのソリューションはMITRE CVEやNVDのような限られた情報ソースから独自の実験データセットを作成する。
反復データ作成プロセスは、新たなソリューションの検証と比較をさらに複雑化する。
この問題を解決するために,本稿では,17の脆弱性情報ソースをカバーする包括的脆弱性インテリジェンスデータセットであるVulZooを提案する。
また、これらのソース間の接続を構築し、さまざまな脆弱性評価タスク(例えば、脆弱性タイプ予測)に対して、より簡単な設定と適応を可能にします。
さらに、VulZooは自動データ同期とクリーニング、関係マイニング、統計生成のためのユーティリティスクリプトを提供する。
VulZooを一般公開し、今後の研究を容易にするためにインクリメンタルアップデートでメンテナンスしています。
VulZooは脆弱性評価や優先順位付け研究に有用なインプットであると考えています。
ユーティリティスクリプト付きのデータセットはhttps://github.com/NUS-Curiosity/VulZoo.comで公開されている。
Software vulnerabilities pose critical security and risk concerns for many software systems. Many techniques have been proposed to effectively assess and prioritize these vulnerabilities before they cause serious consequences. To evaluate their performance, these solutions often craft their own experimental datasets from limited information sources, such as MITRE CVE and NVD, lacking a global overview of broad vulnerability intelligence. The repetitive data preparation process further complicates the verification and comparison of new solutions. To resolve this issue, in this paper, we propose VulZoo, a comprehensive vulnerability intelligence dataset that covers 17 popular vulnerability information sources. We also construct connections among these sources, enabling more straightforward configuration and adaptation for different vulnerability assessment tasks (e.g., vulnerability type prediction). Additionally, VulZoo provides utility scripts for automatic data synchronization and cleaning, relationship mining, and statistics generation. We make VulZoo publicly available and maintain it with incremental updates to facilitate future research. We believe that VulZoo serves as a valuable input to vulnerability assessment and prioritization studies. The dataset with utility scripts is available at https://github.com/NUS-Curiosity/VulZoo. | 翻訳日:2024-06-25 15:53:24 公開日:2024-06-24 |
# Code Perfumesで優れたJavaコードを認める
Acknowledging Good Java Code with Code Perfumes ( http://arxiv.org/abs/2406.16348v1 ) ライセンス: Link先を確認 | Philipp Straubinger, Florian Obermüller, Gordon Fraser, | (参考訳) Javaは現在も教育において最も人気のあるプログラミング言語の1つです。
Javaプログラミング教育は、教材によって十分にサポートされていますが、学習者は、自身のコードで直面する問題に対して、より直接的なサポートも必要です。
このサポートが個人的には提供されない場合、学習者はlinterのような自動プログラム分析ツールに頼り、潜在的なバグやコード問題に対するフィードバックを提供する。
これは建設的なフィードバックですが、それでも批判のように感じます。
本稿では,Lintingに類似した単純なプログラム解析手法であるJavaのコード香水について紹介する。
初心者から即時学習者への共通Java言語構造に関連する20のJavaコード香水カタログを提示する。
評価の結果,これらのプログラムは学習者のコードで頻繁に発生することを示し,より多くのコード香水インスタンスを持つプログラムは,より優れた機能と可読性を持つ傾向にある。
さらに、より多くのコード香水を取り入れた生徒は、より高い成績を得る傾向にある。
このように、コード香水は、学習者の成功を認識するための貴重なツールであり、学習者の進歩をインストラクターに知らせる手段として役立ちます。
Java remains one of the most popular programming languages in education. Although Java programming education is well supported by study materials, learners also need more immediate support on the problems they face in their own code. When this support cannot be offered by educators personally, learners can resort to automated program analysis tools such as linters, which provide feedback on potential bugs or code issues. This is constructive feedback, but it may nevertheless feel like criticism. This paper introduces code perfumes for Java, a simple program analysis technique similar to linting, but commending the correct application of good programming practices. We present a catalogue of 20 Java code perfumes related to common Java language constructs for beginner to immediate learners. Our evaluation shows that these code perfumes occur frequently in learners' code, and programs with more code perfume instances tend to have better functionality and readability. Moreover, students who incorporate more code perfumes tend to achieve higher grades. Thus, code perfumes serve as a valuable tool to acknowledge learners' successes, and as a means to inform instructors about their learners' progress. | 翻訳日:2024-06-25 15:53:24 公開日:2024-06-24 |
# AnnotatedTables: 言語モデルアノテーションを備えた大規模タブラルデータセット
AnnotatedTables: A Large Tabular Dataset with Language Model Annotations ( http://arxiv.org/abs/2406.16349v1 ) ライセンス: Link先を確認 | Yaojie Hu, Ilias Fountalis, Jin Tian, Nikolaos Vasiloglou, | (参考訳) タブラルデータは現実世界のアプリケーションに広く行き渡っており、Web上に豊富に存在するが、そのアノテーションは伝統的に人的労力を必要としており、表計算機械学習にとって大きなスケーラビリティのボトルネックとなっている。
本稿では,SQL アノテーションと入力ターゲットカラムアノテーションを例に示すように,本手法で大量の表型データに注釈を付けることができ,特定の研究目的に基づいて様々な種類のアノテーションを柔軟に生成することができる。
その結果、LLM生成アノテーションを備えた32,119のデータベースのコレクションであるAnnotatedTablesをリリースしました。
データセットには405,616の有効なSQLプログラムが含まれている。
方法論とデータセットの価値をさらに示すために,2つのフォローアップ研究を行った。
1) LLM が SQL プログラムを Rel プログラムに翻訳できるかどうかを検討する。
本稿では,実行フィードバックに基づくインクリメンタル・プロンプト・エンジニアリング手法を用いて,LLMが数発の学習で適切な翻訳を生成可能であることを示す。
2) 入力ターゲット列をLLMで同定しアノテートした2,720個のテーブル上で, ベイジアン事前訓練を行った最近のニューラルネットワーク表分類器TabPFNの性能評価を行った。
平均すると、TabPFNはベースラインのAutoMLメソッドと同等に動作しますが、相対的な性能は1つのデータテーブルから別のデータテーブルに大きく異なります。
本研究は,多種多様な表データのアノテーションを自動生成するLLMの可能性を明らかにするものである。
Tabular data is ubiquitous in real-world applications and abundant on the web, yet its annotation has traditionally required human labor, posing a significant scalability bottleneck for tabular machine learning. Our methodology can successfully annotate a large amount of tabular data and can be flexibly steered to generate various types of annotations based on specific research objectives, as we demonstrate with SQL annotation and input-target column annotation as examples. As a result, we release AnnotatedTables, a collection of 32,119 databases with LLM-generated annotations. The dataset includes 405,616 valid SQL programs, making it the largest SQL dataset with associated tabular data that supports query execution. To further demonstrate the value of our methodology and dataset, we perform two follow-up research studies. 1) We investigate whether LLMs can translate SQL programs to Rel programs, a database language previously unknown to LLMs, while obtaining the same execution results. Using our Incremental Prompt Engineering methods based on execution feedback, we show that LLMs can produce adequate translations with few-shot learning. 2) We evaluate the performance of TabPFN, a recent neural tabular classifier trained on Bayesian priors, on 2,720 tables with input-target columns identified and annotated by LLMs. On average, TabPFN performs on par with the baseline AutoML method, though the relative performance can vary significantly from one data table to another, making both models viable for practical applications depending on the situation. Our findings underscore the potential of LLMs in automating the annotation of large volumes of diverse tabular data. | 翻訳日:2024-06-25 15:53:24 公開日:2024-06-24 |
# MeTRIK:入力マスキングを用いた変圧器を用いたランダム化制御試験
METRIK: Measurement-Efficient Randomized Controlled Trials using Transformers with Input Masking ( http://arxiv.org/abs/2406.16351v1 ) ライセンス: Link先を確認 | Sayeri Lala, Niraj K. Jha, | (参考訳) 臨床ランダム化対照試験(RCTs)は、100~1000名の被験者を対象に、様々な計量タイプ(実験室試験、認知・運動士評価など)にまたがる何百もの測定値を収集し、治療の効果を評価するが、かなりの臨床試験費用を犠牲にしている。
測定回数を減らすために、試験プロトコルを改訂して、研究の目的に反するメトリクスを除去することができるが、それを行うには追加の人的労力が必要であり、収集されたデータで研究できる仮説のセットを制限する必要がある。
対照的に、計画的欠落設計(PMD)は、アンサンプされたデータを出力することによって、メトリクスを除去することなく収集されるデータ量を削減できる。
標準的なPMDは、計算アルゴリズムの統計特性を利用するためにランダムにサンプルデータをサンプリングするが、アドホックであり、したがって準最適である。
PMDを学習する手法はよりサンプル効率のよいMDDを生成するが、データ分布をモデル化するために十分な事前データ(150以上の被験者)を必要とするため、RDTには適さない。
そこで,入力マスキング(METRIK)を用いたトランスフォーマを用いた測定効率Tランダム化制御試験というフレームワークを導入する。
具体的には、METRIKはMDを学習可能な入力マスキング層としてモデル化し、トランスフォーマーアーキテクチャに基づいた最先端のインデューサで最適化する。
METRIKは、試験設計者の目的、すなわち所定のサンプリング予算に対するサンプリング効率や計算性能の最大化を満足するMDを生成するために、新しいサンプリングと選択アルゴリズムを実装している。
実世界の5つの臨床RTTデータセットで評価され、METRIKは、時間とメトリクス間の相関を利用して、生成されたMDDの下でのサンプリング効率と計算性能を高め、RCTから手動でメトリクスを除去する必要性を除去する。
Clinical randomized controlled trials (RCTs) collect hundreds of measurements spanning various metric types (e.g., laboratory tests, cognitive/motor assessments, etc.) across 100s-1000s of subjects to evaluate the effect of a treatment, but do so at the cost of significant trial expense. To reduce the number of measurements, trial protocols can be revised to remove metrics extraneous to the study's objective, but doing so requires additional human labor and limits the set of hypotheses that can be studied with the collected data. In contrast, a planned missing design (PMD) can reduce the amount of data collected without removing any metric by imputing the unsampled data. Standard PMDs randomly sample data to leverage statistical properties of imputation algorithms, but are ad hoc, hence suboptimal. Methods that learn PMDs produce more sample-efficient PMDs, but are not suitable for RCTs because they require ample prior data (150+ subjects) to model the data distribution. Therefore, we introduce a framework called Measurement EfficienT Randomized Controlled Trials using Transformers with Input MasKing (METRIK), which, for the first time, calculates a PMD specific to the RCT from a modest amount of prior data (e.g., 60 subjects). Specifically, METRIK models the PMD as a learnable input masking layer that is optimized with a state-of-the-art imputer based on the Transformer architecture. METRIK implements a novel sampling and selection algorithm to generate a PMD that satisfies the trial designer's objective, i.e., whether to maximize sampling efficiency or imputation performance for a given sampling budget. Evaluated across five real-world clinical RCT datasets, METRIK increases the sampling efficiency of and imputation performance under the generated PMD by leveraging correlations over time and across metrics, thereby removing the need to manually remove metrics from the RCT. | 翻訳日:2024-06-25 15:53:24 公開日:2024-06-24 |
# 微分自由最適化によるコンパクトモデルパラメータ抽出
Compact Model Parameter Extraction via Derivative-Free Optimization ( http://arxiv.org/abs/2406.16355v1 ) ライセンス: Link先を確認 | Rafael Perez Martinez, Masaya Iwamoto, Kelly Woo, Zhengliang Bian, Roberto Tinti, Stephen Boyd, Srabanti Chowdhury, | (参考訳) 本稿では,微分自由度最適化によるパラメータの抽出を同時に行うために,コンパクトモデルパラメータ抽出の問題に対処する。
従来、パラメータ抽出は、パラメータの完全なセットを小さなサブセットに分割することで手動で行われる。
提案手法は、微分自由最適化を用いて、完全数のシミュレーションを行わずに、コンパクトモデルに最もよく適合する優れたパラメータセットを特定することによって、このプロセスを合理化する。
さらに、相対誤差(絶対誤差とは対照的に)に着目してモデル性能を連続的に評価する損失関数を慎重に選択し、一定の閾値を超えるデバイスの重要動作領域における精度を優先順位付けし、外れ値に対する感度を低下させることにより、デバイスモデリングにおける重要な問題に対処する最適化プロセスをさらに強化する。
さらに,列車-テスト分割の概念を利用して,モデル適合性を評価し,過度な適合を避ける。
これは、80%のデータを適合させ、残りの20%でモデルの有効性をテストすることで実現される。
ASM-HEMT DCモデルを含むダイヤモンドショットキーダイオードとGaN-on-SiC HEMTの2つの半導体デバイスをモデル化し,本手法の有効性を実証した。
これらの例は,本手法の有効性を示すとともに,デバイスモデリングにおける微分自由最適化の実用的メリットを示すものである。
In this paper, we address the problem of compact model parameter extraction to simultaneously extract tens of parameters via derivative-free optimization. Traditionally, parameter extraction is performed manually by dividing the complete set of parameters into smaller subsets, each targeting different operational regions of the device, a process that can take several days or even weeks. Our approach streamlines this process by employing derivative-free optimization to identify a good parameter set that best fits the compact model without performing an exhaustive number of simulations. We further enhance the optimization process to address critical issues in device modeling by carefully choosing a loss function that evaluates model performance consistently across varying magnitudes by focusing on relative errors (as opposed to absolute errors), prioritizing accuracy in key operational regions of the device above a certain threshold, and reducing sensitivity to outliers. Furthermore, we utilize the concept of train-test split to assess the model fit and avoid overfitting. This is done by fitting 80% of the data and testing the model efficacy with the remaining 20%. We demonstrate the effectiveness of our methodology by successfully modeling two semiconductor devices: a diamond Schottky diode and a GaN-on-SiC HEMT, with the latter involving the ASM-HEMT DC model, which requires simultaneously extracting 35 model parameters to fit the model to the measured data. These examples demonstrate the effectiveness of our approach and showcase the practical benefits of derivative-free optimization in device modeling. | 翻訳日:2024-06-25 15:53:24 公開日:2024-06-24 |
# ストーリーエンディング生成における大規模言語モデルの指示追従能力の評価
Evaluation of Instruction-Following Ability for Large Language Models on Story-Ending Generation ( http://arxiv.org/abs/2406.16356v1 ) ライセンス: Link先を確認 | Rem Hida, Junki Ohmura, Toshiyuki Sekiya, | (参考訳) 命令調整型大規模言語モデル(LLM)は、様々なベンチマークタスクで顕著なパフォーマンスを実現している。
世代を導くためのLSMに命令を提供するのはユーザフレンドリだが、評価基準の欠如により、命令フォロー機能の評価はまだ明らかになっていない。
本稿では,多様かつ文脈依存的な指示を必要とする物語生成の文脈において,LLMの指示追従能力を評価することに焦点を当てる。
本稿では,機械読影理解モデル(MRC)を用いた自動評価パイプラインを提案する。
その結果,提案手法は人間の評価と一致していることがわかった。
さらに,最近のオープンソースのLCMでは,GPT-3.5に近い命令追従性能を自動評価により達成できることを確認した。
Instruction-tuned Large Language Models (LLMs) have achieved remarkable performance across various benchmark tasks. While providing instructions to LLMs for guiding their generations is user-friendly, assessing their instruction-following capabilities is still unclarified due to a lack of evaluation metrics. In this paper, we focus on evaluating the instruction-following ability of LLMs in the context of story-ending generation, which requires diverse and context-specific instructions. We propose an automatic evaluation pipeline that utilizes a machine reading comprehension (MRC) model to determine whether the generated story-ending reflects instruction. Our findings demonstrate that our proposed metric aligns with human evaluation. Furthermore, our experiments confirm that recent open-source LLMs can achieve instruction-following performance close to GPT-3.5, as assessed through automatic evaluation. | 翻訳日:2024-06-25 15:53:24 公開日:2024-06-24 |
# グラフスカラー化による軽量グラフニューラルネットワーク探索に向けて
Towards Lightweight Graph Neural Network Search with Curriculum Graph Sparsification ( http://arxiv.org/abs/2406.16357v1 ) ライセンス: Link先を確認 | Beini Xie, Heng Chang, Ziwei Zhang, Zeyang Zhang, Simin Wu, Xin Wang, Yuan Meng, Wenwu Zhu, | (参考訳) グラフニューラルアーキテクチャサーチ(GNAS)は、様々なグラフ構造化タスクにおいて優れたパフォーマンスを実現している。
しかし、既存のGNAS研究は資源制約シナリオにおけるGNASの応用を見落としている。
本稿では,有意義なグラフデータを通じて重要なサブアーキテクチャを識別する結合グラフデータとアーキテクチャ機構を設計することを提案する。
最適軽量グラフニューラルネット(GNN)を探索するために,グラフスペーシングとネットワーク・プルーニング(GASSIP)法を用いた軽量グラフニューラル・アーキテクチャ・サーチを提案する。
特に,GASSIPは,効率的な軽量GNN検索を実現するために,操作実行型アーキテクチャ検索モジュールを備える。
一方,アーキテクチャを意識したエッジ除去困難度測定機能を備えた新しいカリキュラムグラフデータスカラー化モジュールを設計し,最適サブアーキテクチャの選択を支援する。
2つの異なるマスクの助けを借りて、2つのモジュールを反復的に最適化し、最適な軽量アーキテクチャを効率的に探索する。
5つのベンチマークの大規模な実験は、GASSIPの有効性を示している。
特に,探索したGNNとスペーサーグラフのモデルパラメータを半分以下にすることで,オンパーあるいはそれ以上高いノード分類性能を実現する。
Graph Neural Architecture Search (GNAS) has achieved superior performance on various graph-structured tasks. However, existing GNAS studies overlook the applications of GNAS in resource-constraint scenarios. This paper proposes to design a joint graph data and architecture mechanism, which identifies important sub-architectures via the valuable graph data. To search for optimal lightweight Graph Neural Networks (GNNs), we propose a Lightweight Graph Neural Architecture Search with Graph SparsIfication and Network Pruning (GASSIP) method. In particular, GASSIP comprises an operation-pruned architecture search module to enable efficient lightweight GNN search. Meanwhile, we design a novel curriculum graph data sparsification module with an architecture-aware edge-removing difficulty measurement to help select optimal sub-architectures. With the aid of two differentiable masks, we iteratively optimize these two modules to efficiently search for the optimal lightweight architecture. Extensive experiments on five benchmarks demonstrate the effectiveness of GASSIP. Particularly, our method achieves on-par or even higher node classification performance with half or fewer model parameters of searched GNNs and a sparser graph. | 翻訳日:2024-06-25 15:53:24 公開日:2024-06-24 |
# ビデオスーパーリゾリューションのためのジェネレーティブ・アドバイサル・ネットワークの改善
Improving Generative Adversarial Networks for Video Super-Resolution ( http://arxiv.org/abs/2406.16359v1 ) ライセンス: Link先を確認 | Daniel Wen, | (参考訳) 本研究では,映像超解像GANモデルを用いて,映像超解像タスクにおける生成的敵ネットワークの改善方法について検討する。
我々の主な目的は、これらのモデルを強化する潜在的な技術を特定し、どの技術が最も重要な改善をもたらすかを解析することである。
我々はPak Signal-to-Noise Ratio (PSNR) とStructure similarity Index (SSIM) を用いて評価を行った。
以上の結果から, 時間的スムージング, 長期記憶層, 時間的ロス関数が有効であることが示唆された。
これらの手法の統合により、PSNRが11.97%改善し、SSIMが8%改善した。
この大幅な改善は、現在の最先端モデルを強化するためのさらなる応用の可能性を示している。
In this research, we explore different ways to improve generative adversarial networks for video super-resolution tasks from a base single image super-resolution GAN model. Our primary objective is to identify potential techniques that enhance these models and to analyze which of these techniques yield the most significant improvements. We evaluate our results using Peak Signal-to-Noise Ratio (PSNR) and Structural Similarity Index (SSIM). Our findings indicate that the most effective techniques include temporal smoothing, long short-term memory (LSTM) layers, and a temporal loss function. The integration of these methods results in an 11.97% improvement in PSNR and an 8% improvement in SSIM compared to the baseline video super-resolution generative adversarial network (GAN) model. This substantial improvement suggests potential further applications to enhance current state-of-the-art models. | 翻訳日:2024-06-25 15:53:24 公開日:2024-06-24 |
# MIRReS: 貯留層サンプリングを用いたマルチバウンス逆レンダリング
MIRReS: Multi-bounce Inverse Rendering using Reservoir Sampling ( http://arxiv.org/abs/2406.16360v1 ) ライセンス: Link先を確認 | Yuxin Dai, Qi Wang, Jingsen Zhu, Dianbing Xi, Yuchi Huo, Chen Qian, Ying He, | (参考訳) MIRReSは、2段階の逆レンダリングフレームワークであり、多視点画像から明示的な幾何学、材料、照明を共同で再構築し、最適化する。
暗黙的な照度場や簡易な経路追跡アルゴリズムに依存する従来の手法とは異なり,本手法はステージ1で明示的な幾何(三角形メッシュ)を抽出し,マルチバウンスパストレースとモンテカルロ積分を利用したより現実的な逆レンダリングモデルを導入する。
マルチバウンス・パス・トレースを利用して, 自己整形や内部反射を含む間接照明を効果的に推定し, 形状, 材料, 照明の内在的な分解を改善する。
さらに,モンテカルロ積分のノイズに対処するため,貯留層サンプリングを我々のフレームワークに組み込み,収束性を高め,低いサンプル数で勾配に基づく最適化を容易にする。
複雑な影を持つ難解なシナリオの質的,定量的な評価を通じて,本手法が解析結果の最先端性を実現することを実証する。
さらに、最適化された明示的幾何により、シーン編集、リライティング、モダングラフィックスエンジンやCADソフトウェアによるマテリアル編集などの応用が可能になる。
ソースコードはhttps://brabbitdousha.github.io/MIRReS/で入手できる。
We present MIRReS, a novel two-stage inverse rendering framework that jointly reconstructs and optimizes the explicit geometry, material, and lighting from multi-view images. Unlike previous methods that rely on implicit irradiance fields or simplified path tracing algorithms, our method extracts an explicit geometry (triangular mesh) in stage one, and introduces a more realistic physically-based inverse rendering model that utilizes multi-bounce path tracing and Monte Carlo integration. By leveraging multi-bounce path tracing, our method effectively estimates indirect illumination, including self-shadowing and internal reflections, which improves the intrinsic decomposition of shape, material, and lighting. Moreover, we incorporate reservoir sampling into our framework to address the noise in Monte Carlo integration, enhancing convergence and facilitating gradient-based optimization with low sample counts. Through qualitative and quantitative evaluation of several scenarios, especially in challenging scenarios with complex shadows, we demonstrate that our method achieves state-of-the-art performance on decomposition results. Additionally, our optimized explicit geometry enables applications such as scene editing, relighting, and material editing with modern graphics engines or CAD software. The source code is available at https://brabbitdousha.github.io/MIRReS/ | 翻訳日:2024-06-25 15:53:24 公開日:2024-06-24 |
# エキソニック・ポラリトニック・アグリゲートの線形スペクトルに及ぼす損失機構の影響
Impact of Loss Mechanisms on Linear Spectra of Excitonic and Polaritonic Aggregates ( http://arxiv.org/abs/2406.16366v1 ) ライセンス: Link先を確認 | Devansh Sharma, Amartya Bose, | (参考訳) 経験的時間スケールによって支配される損失機構の存在は、システムの力学とスペクトルに深い影響を与える。
しかし、これらの効果の取り込みと、システムと相互作用する熱散逸性環境との相互作用は困難であることが判明した。
我々は最近、数値的に厳密な経路積分シミュレーションとリンドブラッド力学を組み合わせて、このような経験的損失機構を考慮に入れた経路積分力学(PILD)法を開発した。
本研究では、PILD法を用いて、キラル分子集合体と励起極性粒子の吸収と円二色性スペクトルを研究する。
両システムの特定の状態に対する損失の影響は、状態の対称性だけでなく、システムの複雑な「相互作用」と消散性環境による損失機構に基づいても異なることが示される。
空洞内に閉じ込められたキラル分子集合体のCDスペクトルに関する最初の数値探査を行った。
励起子集合体そのもののCDスペクトルは、エクシトンキラリティ(EC)則のような単純な理解には適さないが、偏光子分子のCDスペクトルはさらに複雑である。
さらに, 極性CDスペクトルに対する経験的損失の影響は, 部位依存性が高いと考えられる。
損失の大きい空洞の衝撃は、励起を漏れる分子の衝撃と質的に異なる。
経路積分リンドブラッド力学の枠組みを深く活用する上でのこれらの効果について検討する。
The presence of loss mechanisms governed by empirical time-scales affect the dynamics and spectra of systems in profound ways. However, incorporation of these effects and their interaction with the thermal dissipative environments interacting with the system prove to be challenging. We have recently developed the path integral Lindblad dynamics (PILD) method to combine numerically rigorous path integral simulations with Lindblad dynamics to account for such empirical loss mechanisms. In this work, we utilize the PILD method to study the absorption and circular dichroism spectra of chiral molecular aggregates and excitonic polaritons. We demonstrate that the effect of loss on particular states in both systems can differ not just on the basis of the symmetries of the state but also on the basis of complicated "interactions" of the system and the loss mechanism with the dissipative environments. We present probably the first numerical exploration of the CD spectrum of chiral molecular aggregates confined in a cavity. While the CD spectrum of just the excitonic aggregates itself is not amenable to simplistic understanding like the exciton chirality (EC) rule, the CD spectrum of polaritonic molecules is even more complex. Additionally, the impact of empirical loss on the polaritonic CD spectrum seems to be highly site-dependent. The impact of a lossy cavity is qualitatively different from the impact of a molecule that leaks the excitation. We explore some of those effects in depth leveraging the framework of path integral Lindblad dynamics. | 翻訳日:2024-06-25 15:53:24 公開日:2024-06-24 |
# 車載ゲートウェイ用リアルタイム・小型足跡異常検出システムを用いた機械学習
Machine Learning with Real-time and Small Footprint Anomaly Detection System for In-Vehicle Gateway ( http://arxiv.org/abs/2406.16369v1 ) ライセンス: Link先を確認 | Yi Wang, Yuanjin Zheng, Yajun Ha, | (参考訳) 異常検知システム(ADS)は、車両の異常な挙動や攻撃を検出するため、現代的なゲートウェイ電子制御ユニット(ECU)の不可欠な部分である。
既存の攻撃の中で、 ``one-time``攻撃は、マイクロ秒またはナノ秒レベルのリアルタイム予算とコードフットプリントの制限による厳格なゲートウェイECU制約とともに、検出するのが最も難しい。
これらの課題に対処するために,我々は,過去に研究されていない「ワンタイム」攻撃に対するリアルタイム検出性能の実現を目指して,自己情報理論を用いて,トレーニングとテストモデルの値を生成することを提案する。
第二に、自己情報の生成は対数計算に基づいており、ゲートウェイのコストを削減するために最小のフットプリントにつながる。
最後に,本提案手法では,異常や攻撃のトレーニングデータを必要としない教師なしモデルを用いている。
一般的な機械学習モデルからディープラーニングモデル、例えばHMM(Hidden Markov Model)、SVDD(Support Vector Data Description)、LSTM(Long Short Term Memory)など、さまざまな機械学習手法を比較した。
実験の結果,提案手法は偽陽性率(FPR)の8.7倍,テスト時間が1.77倍,フットプリントが4.88倍であることがわかった。
Anomaly Detection System (ADS) is an essential part of a modern gateway Electronic Control Unit (ECU) to detect abnormal behaviors and attacks in vehicles. Among the existing attacks, ``one-time`` attack is the most challenging to be detected, together with the strict gateway ECU constraints of both microsecond or even nanosecond level real-time budget and limited footprint of code. To address the challenges, we propose to use the self-information theory to generate values for training and testing models, aiming to achieve real-time detection performance for the ``one-time`` attack that has not been well studied in the past. Second, the generation of self-information is based on logarithm calculation, which leads to the smallest footprint to reduce the cost in Gateway. Finally, our proposed method uses an unsupervised model without the need of training data for anomalies or attacks. We have compared different machine learning methods ranging from typical machine learning models to deep learning models, e.g., Hidden Markov Model (HMM), Support Vector Data Description (SVDD), and Long Short Term Memory (LSTM). Experimental results show that our proposed method achieves 8.7 times lower False Positive Rate (FPR), 1.77 times faster testing time, and 4.88 times smaller footprint. | 翻訳日:2024-06-25 15:53:24 公開日:2024-06-24 |
# UniPSDA: ゼロショット言語間自然言語理解のための教師なし擬似意味データ拡張
UniPSDA: Unsupervised Pseudo Semantic Data Augmentation for Zero-Shot Cross-Lingual Natural Language Understanding ( http://arxiv.org/abs/2406.16372v1 ) ライセンス: Link先を確認 | Dongyang Li, Taolin Zhang, Jiali Deng, Longtao Huang, Chengyu Wang, Xiaofeng He, Hui Xue, | (参考訳) 言語間の表現学習は、リソースに富んだデータからリソースに密着したデータへ知識を伝達し、異なる言語の意味理解能力を改善する。
しかし、以前の研究は、周囲のテキストトークンのグローバルな文脈認識セマンティクスに関係なく、トークン表面マッチングによって生成される浅い教師なしデータに依存していた。
本稿では,言語間自然言語理解のためのunsupervised Pseudo Semantic Data Augmentation (UniPSDA) 機構を提案する。
具体的には、異なる言語にまたがる意味データ拡張に類似した意味を持つトークンを検索するために、単一の言語内、言語ファミリーの複数の言語間、および複数の言語ファミリーの言語間の3段階のシーケンシャルクラスタリングプロセスを提案する。
一方、文脈認識のセマンティクスによる多言語知識の注入を考慮し、計算負担を軽減しつつ、文のキー構成要素を直接擬似意味論的とみなす多言語家族知識に置き換える。
注入プロセスは、神経パラメータを導入することなく、3つの脱バイアス技術によってさらに最適化される。
広範囲な実験により,我々のモデルは,シーケンス分類,情報抽出,質問応答など,一般のゼロショット言語間自然言語理解タスクの性能を一貫して向上することが示された。
Cross-lingual representation learning transfers knowledge from resource-rich data to resource-scarce ones to improve the semantic understanding abilities of different languages. However, previous works rely on shallow unsupervised data generated by token surface matching, regardless of the global context-aware semantics of the surrounding text tokens. In this paper, we propose an Unsupervised Pseudo Semantic Data Augmentation (UniPSDA) mechanism for cross-lingual natural language understanding to enrich the training data without human interventions. Specifically, to retrieve the tokens with similar meanings for the semantic data augmentation across different languages, we propose a sequential clustering process in 3 stages: within a single language, across multiple languages of a language family, and across languages from multiple language families. Meanwhile, considering the multi-lingual knowledge infusion with context-aware semantics while alleviating computation burden, we directly replace the key constituents of the sentences with the above-learned multi-lingual family knowledge, viewed as pseudo-semantic. The infusion process is further optimized via three de-biasing techniques without introducing any neural parameters. Extensive experiments demonstrate that our model consistently improves the performance on general zero-shot cross-lingual natural language understanding tasks, including sequence classification, information extraction, and question answering. | 翻訳日:2024-06-25 15:53:24 公開日:2024-06-24 |
# KEHRL:階層的強化学習による知識強化言語表現の学習
KEHRL: Learning Knowledge-Enhanced Language Representations with Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2406.16374v1 ) ライセンス: Link先を確認 | Dongyang Li, Taolin Zhang, Longtao Huang, Chengyu Wang, Xiaofeng He, Hui Xue, | (参考訳) 知識強化事前学習言語モデル(KEPLM)は知識グラフ(KG)からの3重関係を利用して、これらの外部データソースを自己教師付き学習を通じて言語モデルに統合する。
従来の研究は、知識の強化を2つの独立した操作、すなわち知識注入と知識統合として扱う。
本稿では,不正確な知識や無関係な知識の注入を避けるために,知識注入のための位置の検出と外部知識のモデルへの統合という課題を共同で解決する,階層強化学習(KEHRL)による知識強化言語表現の学習を提案する。
具体的には、高レベル強化学習(RL)エージェントは、内部知識と事前知識の両方を利用して、知識注入のためのテキストの本質的な位置を反復的に検出し、知識学習方向のばらつきを避けるために、あまり意味のないエンティティをフィルタリングする。
エンティティの位置が選択されると、関連するトリプルフィルタモジュールがトリプルフィルタをトリプルして低レベルRLを実行し、バイナリ値のアクションによってポリセミックエンティティに関連するトリプルを動的に洗練する。
KEHRLが事実知識を探索し、様々な自然言語理解タスクにおけるモデルの性能を向上させるための実験を行った。
Knowledge-enhanced pre-trained language models (KEPLMs) leverage relation triples from knowledge graphs (KGs) and integrate these external data sources into language models via self-supervised learning. Previous works treat knowledge enhancement as two independent operations, i.e., knowledge injection and knowledge integration. In this paper, we propose to learn Knowledge-Enhanced language representations with Hierarchical Reinforcement Learning (KEHRL), which jointly addresses the problems of detecting positions for knowledge injection and integrating external knowledge into the model in order to avoid injecting inaccurate or irrelevant knowledge. Specifically, a high-level reinforcement learning (RL) agent utilizes both internal and prior knowledge to iteratively detect essential positions in texts for knowledge injection, which filters out less meaningful entities to avoid diverting the knowledge learning direction. Once the entity positions are selected, a relevant triple filtration module is triggered to perform low-level RL to dynamically refine the triples associated with polysemic entities through binary-valued actions. Experiments validate KEHRL's effectiveness in probing factual knowledge and enhancing the model's performance on various natural language understanding tasks. | 翻訳日:2024-06-25 15:53:24 公開日:2024-06-24 |
# 逆モデル、パラメータ更新、文脈内プロンプト間の変換について
On the Transformations across Reward Model, Parameter Update, and In-Context Prompt ( http://arxiv.org/abs/2406.16377v1 ) ライセンス: Link先を確認 | Deng Cai, Huayang Li, Tingchen Fu, Siheng Li, Weiwen Xu, Shuaiyi Li, Bowen Cao, Zhisong Zhang, Xinting Huang, Leyang Cui, Yan Wang, Lemao Liu, Taro Watanabe, Shuming Shi, | (参考訳) 事前訓練された大規模言語モデル(LLM)の一般的な機能にもかかわらず、実用的アプリケーションに役立てるためには、さらなる適応が必要である。
本稿では,パラメータ更新,報酬モデリング,コンテキスト内プロンプトという,一般的な3つの適応ツールの互換性を示す。
この交換性は、6つの変換方向を持つ三角形のフレームワークを確立し、それぞれが様々なアプリケーションを促進する。
我々の研究は、既存の多くの研究を統一し、潜在的研究の方向性を示唆する総合的な見解を提供する。
LLMの今後の研究に有用なロードマップとして,我々の研究を想定する。
Despite the general capabilities of pre-trained large language models (LLMs), they still need further adaptation to better serve practical applications. In this paper, we demonstrate the interchangeability of three popular and distinct adaptation tools: parameter updating, reward modeling, and in-context prompting. This interchangeability establishes a triangular framework with six transformation directions, each of which facilitates a variety of applications. Our work offers a holistic view that unifies numerous existing studies and suggests potential research directions. We envision our work as a useful roadmap for future research on LLMs. | 翻訳日:2024-06-25 15:53:24 公開日:2024-06-24 |
# UNOアリーナによる大規模言語モデルの逐次決定-生成能力の評価
UNO Arena for Evaluating Sequential Decision-Making Capability of Large Language Models ( http://arxiv.org/abs/2406.16382v1 ) ライセンス: Link先を確認 | Zhanyue Qin, Haochuan Wang, Deyuan Liu, Ziyang Song, Cunhang Fan, Zhao Lv, Jinlin Wu, Zhen Lei, Zhiying Tu, Dianhui Chu, Xiaoyan Yu, Dianbo Sui, | (参考訳) 逐次意思決定とは、初期決定がその後の決定に影響を及ぼす環境のダイナミクスを考慮に入れたアルゴリズムを指す。
タスク間の強力な機能を示す大きな言語モデル(LLM)によって、私たちは次のように問うざるを得ない。
この疑問に答えるために,カードゲームUNOに基づくUNOアリーナを提案し,LCMの逐次意思決定能力を評価し,なぜUNOを選択するのかを詳細に説明する。
UNOアリーナでは,モンテカルロ法を用いてLCMの逐次意思決定能力を動的に評価する。
ランダムプレイヤー,DQNに基づく強化学習者,およびLLMプレイヤー(例えばGPT-4, Gemini-pro)を比較試験のために設定した。
さらに, LLMの逐次意思決定能力を向上させるために, ゲーム履歴とゲーム戦略を要約して, LLMの動作を反映させるTUTRIプレイヤーを提案する。
多くの実験により、TUTRIプレイヤーは、バニラLSMプレイヤーと比較して、シーケンシャルな意思決定のパフォーマンスにおいて顕著なブレークスルーを達成することが示されている。
Sequential decision-making refers to algorithms that take into account the dynamics of the environment, where early decisions affect subsequent decisions. With large language models (LLMs) demonstrating powerful capabilities between tasks, we can't help but ask: Can Current LLMs Effectively Make Sequential Decisions? In order to answer this question, we propose the UNO Arena based on the card game UNO to evaluate the sequential decision-making capability of LLMs and explain in detail why we choose UNO. In UNO Arena, We evaluate the sequential decision-making capability of LLMs dynamically with novel metrics based Monte Carlo methods. We set up random players, DQN-based reinforcement learning players, and LLM players (e.g. GPT-4, Gemini-pro) for comparison testing. Furthermore, in order to improve the sequential decision-making capability of LLMs, we propose the TUTRI player, which can involves having LLMs reflect their own actions wtih the summary of game history and the game strategy. Numerous experiments demonstrate that the TUTRI player achieves a notable breakthrough in the performance of sequential decision-making compared to the vanilla LLM player. | 翻訳日:2024-06-25 15:43:33 公開日:2024-06-24 |
# 高分解能開語彙オブジェクト6Dポーズ推定
High-resolution open-vocabulary object 6D pose estimation ( http://arxiv.org/abs/2406.16384v1 ) ライセンス: Link先を確認 | Jaime Corsetti, Davide Boscaini, Francesco Giuliari, Changjae Oh, Andrea Cavallaro, Fabio Poiesi, | (参考訳) 6次元ポーズ推定タスクにおける未確認オブジェクトの一般化は非常に困難である。
Vision-Language Models (VLM) は、自然言語による未確認オブジェクトの6次元ポーズ推定をサポートするが、これらのソリューションはモデルベースの手法に比べて性能が劣る。
本稿では,テキストプロンプトのみによって記述された,未確認物体の2つのシーン間の相対的なポーズ推定に対処する,オープンボキャブラリVLMベースのアーキテクチャであるHoryonを紹介する。
テキストプロンプトを用いて、シーン内の見えない物体を識別し、高解像度のマルチスケール特徴を得る。
これらの特徴は、登録のためのクロスシーンマッチを抽出するために使用される。
我々は,REAL275,Toyota-Light,Linemod,YCB-Videoの4つのデータセットにまたがるさまざまな未確認オブジェクトを用いたベンチマークで,我々のモデルを評価した。
提案手法は,全データセットの最先端性能を達成し,前回のベストパフォーマンスアプローチであるAverage Recallの12.6倍に向上する。
The generalisation to unseen objects in the 6D pose estimation task is very challenging. While Vision-Language Models (VLMs) enable using natural language descriptions to support 6D pose estimation of unseen objects, these solutions underperform compared to model-based methods. In this work we present Horyon, an open-vocabulary VLM-based architecture that addresses relative pose estimation between two scenes of an unseen object, described by a textual prompt only. We use the textual prompt to identify the unseen object in the scenes and then obtain high-resolution multi-scale features. These features are used to extract cross-scene matches for registration. We evaluate our model on a benchmark with a large variety of unseen objects across four datasets, namely REAL275, Toyota-Light, Linemod, and YCB-Video. Our method achieves state-of-the-art performance on all datasets, outperforming by 12.6 in Average Recall the previous best-performing approach. | 翻訳日:2024-06-25 15:43:33 公開日:2024-06-24 |
# 高忠実化量子アニーリングにおける正当性条件
Validity condition for high-fidelity Digitized Quantum Annealing ( http://arxiv.org/abs/2406.16385v1 ) ライセンス: Link先を確認 | Alan C. Santos, | (参考訳) アディアバティック進化のデジタル化は、ゲートベースの量子プロセッサの優れた性能とアディアバティックアルゴリズムの利点を組み合わせ、効率的な量子情報処理のためのハイブリッドモデルを提供する戦略である。
本研究では,高忠実度ディジタルアディバティックタスクの妥当性について検討する。
これにより$Digitized$$Adiabatic$$Theorem$を導入することができる。
この定理の結果として、そのようなハイブリッドモデルの性能は、理想的な量子プロセッサにおいても、断熱定理の妥当性に関する基本的な制約によって制限されることを示す。
我々は、R. Barends $et$$al$で報告された本質的な非断熱誤差の存在を予測する方法について議論する。
Nature 534, 222 (2016) by a empirical study of digital annealing。
また,本手法により,最適なデジタル回路におけるスズキ・トロッターブロック数のスケーリングの存在を,G.B.Mbeng $et$$al$, Physにより報告された最適断熱総進化時間に関して説明することができる。
B100, 224201 (2019) のディジタルアニールの頑健な数値解析
本稿では,2-qubitsの完全被覆問題と21の3-qubitsの断熱分解という,デジタル化された断熱アルゴリズムの2つの例を例に紹介する。
Digitizing an adiabatic evolution is a strategy able to combine the good performance of gate-based quantum processors with the advantages of adiabatic algorithms, providing then a hybrid model for efficient quantum information processing. In this work we develop validity conditions for high fidelity digital adiabatic tasks. To this end, we assume a digitizing process based on the Suzuki-Trotter decomposition, which allows us to introduce a $Digitized$ $Adiabatic$ $Theorem$. As consequence of this theorem, we show that the performance of such a hybrid model is limited by the fundamental constraints on the adiabatic theorem validity, even in ideal quantum processors. We argue how our approach predicts the existence of intrinsic non-adiabatic errors reported by R. Barends $et$ $al$., Nature 534, 222 (2016) through an empirical study of digital annealing. In addition, our approach allows us to explain the existence of a scaling of the number of Suzuki-Trotter blocks for the optimal digital circuit with respect to the optimal adiabatic total evolution time, as reported by G. B. Mbeng $et$ $al$, Phys. Rev. B 100, 224201 (2019) through robust numerical analysis of digital annealing. We illustrate our results through two examples of digitized adiabatic algorithms, namely, the two-qubits exact-cover problem and the three-qubits adiabatic factorization of the number 21. | 翻訳日:2024-06-25 15:43:33 公開日:2024-06-24 |
# スクリーンショットからUIコードを自動的に生成する: 分割とコンカレントに基づくアプローチ
Automatically Generating UI Code from Screenshot: A Divide-and-Conquer-Based Approach ( http://arxiv.org/abs/2406.16386v1 ) ライセンス: Link先を確認 | Yuxuan Wan, Chaozheng Wang, Yi Dong, Wenxuan Wang, Shuqing Li, Yintong Huo, Michael R. Lyu, | (参考訳) 現在のデジタル世界ではウェブサイトが重要であり、現在11億人以上がアクティブであり、毎日約25万2000の新規サイトが開設されている。
Webサイトレイアウト設計を機能的なUIコードに変換することは、Webサイト開発の時間を要するが必須のステップである。
ビジュアルデザインを機能コードに変換する手作業の手法は、特に非専門家にとって重要な課題である。
まず GPT-4o のモチベーション調査を行い,UI コード生成における 3 種類の問題,すなわち要素の欠落,要素の歪み,要素の誤配置を同定する。
さらに、より小さな視覚セグメントに焦点を当てることで、生成プロセスにおけるこれらの障害を軽減するマルチモーダルな大規模言語モデル(MLLM)が実現可能であることも明らかにした。
本稿では,WebページデザインのUIコードへの変換を自動化する分割・コンカレントベースのアプローチであるDCGenを提案する。
DCGenはまず、スクリーンショットを管理可能なセグメントに分割し、各セグメントについて記述を生成し、その後、スクリーンショット全体のUIコードに再組み立てする。
実世界のWebサイトとさまざまなMLLMで構成されたデータセットを用いて広範囲なテストを行い、DCGenが競合するメソッドに比べて最大14%の視覚的類似性を実現していることを示す。
私たちの知る限りでは、DCGenは、スクリーンショットから直接UIコードを生成するための、最初のセグメント対応プロンプトベースのアプローチです。
Websites are critical in today's digital world, with over 1.11 billion currently active and approximately 252,000 new sites launched daily. Converting website layout design into functional UI code is a time-consuming yet indispensable step of website development. Manual methods of converting visual designs into functional code present significant challenges, especially for non-experts. To explore automatic design-to-code solutions, we first conduct a motivating study on GPT-4o and identify three types of issues in generating UI code: element omission, element distortion, and element misarrangement. We further reveal that a focus on smaller visual segments can help multimodal large language models (MLLMs) mitigate these failures in the generation process. In this paper, we propose DCGen, a divide-and-conquer-based approach to automate the translation of webpage design to UI code. DCGen starts by dividing screenshots into manageable segments, generating descriptions for each segment, and then reassembling them into complete UI code for the entire screenshot. We conduct extensive testing with a dataset comprised of real-world websites and various MLLMs and demonstrate that DCGen achieves up to a 14% improvement in visual similarity over competing methods. To the best of our knowledge, DCGen is the first segment-aware prompt-based approach for generating UI code directly from screenshots. | 翻訳日:2024-06-25 15:43:33 公開日:2024-06-24 |
# PenSLR: Ensemblingを用いたペルシアのエンドツーエンド手話認識
PenSLR: Persian end-to-end Sign Language Recognition Using Ensembling ( http://arxiv.org/abs/2406.16388v1 ) ライセンス: Link先を確認 | Amirparsa Salmankhah, Amirreza Rajabi, Negin Kheirmand, Ali Fadaeimanesh, Amirreza Tarabkhah, Amirreza Kazemzadeh, Hamed Farbeh, | (参考訳) 手話認識(SLR)は、聴覚障害者と聴覚障害のない人のコミュニケーションギャップを埋めることを目的とした、急速に成長する分野である。
既存のペルシャ手話(PSL)のソリューションは単語レベルの解釈に限られており、より高度で包括的なソリューションの必要性を強調している。
さらに、他の言語に関する以前の研究は、主に、複数のモデルの集約された結果の恩恵を受けるのではなく、ニューラルネットワークアーキテクチャやハードウェア構成を操作することに焦点を当てていた。
本稿では,IMU(Inertial Measurement Unit)と,可変長シーケンスを予測可能なディープラーニングフレームワークを用いた5つのフレキシブルセンサで構成される,グローブベースの手話システムであるPenSLRを紹介する。
我々は、コネクショニスト時間分類(CTC)損失関数を活用し、入力信号のセグメンテーションを不要にすることで、エンドツーエンドでこれを実現する。
そこで本研究では,スターアライメント(Star Alignment)と呼ばれる複数のシーケンスアライメントアルゴリズムを活用することで,新たなアンサンブル手法を提案する。
さらに、3000以上の時系列サンプルを含む16のPSL符号を含む、新しいPSLデータセットを導入する。
このデータセットを用いて、4つの単語レベルおよび文レベルメトリクスに基づいてシステムの性能を評価する。
評価の結果,PenSLR の単語精度は 94.58% と 996.70% であることがわかった。
これらの成果は,各シナリオにおいて単語レベルの性能を0.51%,1.32%向上させるだけでなく,文レベルの精度で1.46%,4.00%の大幅な向上をもたらす。
Sign Language Recognition (SLR) is a fast-growing field that aims to fill the communication gaps between the hearing-impaired and people without hearing loss. Existing solutions for Persian Sign Language (PSL) are limited to word-level interpretations, underscoring the need for more advanced and comprehensive solutions. Moreover, previous work on other languages mainly focuses on manipulating the neural network architectures or hardware configurations instead of benefiting from the aggregated results of multiple models. In this paper, we introduce PenSLR, a glove-based sign language system consisting of an Inertial Measurement Unit (IMU) and five flexible sensors powered by a deep learning framework capable of predicting variable-length sequences. We achieve this in an end-to-end manner by leveraging the Connectionist Temporal Classification (CTC) loss function, eliminating the need for segmentation of input signals. To further enhance its capabilities, we propose a novel ensembling technique by leveraging a multiple sequence alignment algorithm known as Star Alignment. Furthermore, we introduce a new PSL dataset, including 16 PSL signs with more than 3000 time-series samples in total. We utilize this dataset to evaluate the performance of our system based on four word-level and sentence-level metrics. Our evaluations show that PenSLR achieves a remarkable word accuracy of 94.58% and 96.70% in subject-independent and subject-dependent setups, respectively. These achievements are attributable to our ensembling algorithm, which not only boosts the word-level performance by 0.51% and 1.32% in the respective scenarios but also yields significant enhancements of 1.46% and 4.00%, respectively, in sentence-level accuracy. | 翻訳日:2024-06-25 15:43:33 公開日:2024-06-24 |
# クリストッフェル語の対称性
A Symmetry Property of Christoffel Words ( http://arxiv.org/abs/2406.16408v1 ) ライセンス: Link先を確認 | Yan Lanciault, Christophe Reutenauer, | (参考訳) 長さによる因子の濃度列が対称である台詞的単語理論に動機付けられ、この対称性の2変数変種を導入する。
この対称性がChristoffelの単語を特徴付けることを示し、他の関連する結果を確立する。
Motivated by the theory of trapezoidal words, whose sequences of cardinality of factors by length are symmetric, we introduce a bivariate variant of this symmetry. We show that this symmetry characterizes Christoffel words, and establish other related results. | 翻訳日:2024-06-25 15:43:33 公開日:2024-06-24 |
# 言語に依存しないファクチュアルニューロンを用いた多言語知識編集
Multilingual Knowledge Editing with Language-Agnostic Factual Neurons ( http://arxiv.org/abs/2406.16416v1 ) ライセンス: Link先を確認 | Xue zhang, Yunlong Liang, Fandong Meng, Songming Zhang, Yufeng Chen, Jinan Xu, Jie Zhou, | (参考訳) マルチ言語知識編集(MKE)は,大規模言語モデル(LLM)内の多言語間の事実知識を同時に更新することを目的としている。
しかし、既存のMKE手法の多くは、既存の単言語編集手法を多言語シナリオに適応させ、異なる言語間の同じ事実知識の深いセマンティックな関係を見越して、編集性能を制限している。
この問題に対処するために、まずLLMが多言語的事実知識をどのように表現しているかを調べ、異なる言語における同じ事実知識が共有ニューロンの集合を活性化することを発見し、言語に依存しない事実ニューロンと呼ぶ。
これらのニューロンは多言語知識間の意味的な関係を表現し、主に特定の層に位置する。
そこで本研究では,言語非依存のFactual Neurons (LAFN) を探索・修正し,多言語知識を同時に編集する新しいMKE法を提案する。
具体的には、まず、対応する言語非依存の事実ニューロンを正確に特定するために、編集する複数の言語知識のパラフレーズを生成する。
次に、これらの位置したニューロンを修正するための更新値を最適化し、複数の言語で同じ事実知識を同時に修正する。
Bi-ZsRE と MzsRE のベンチマーク実験の結果,提案手法は既存の MKE 手法よりも優れており,編集性能も優れており,多言語知識間の意味的関係を考慮することが重要であることが示された。
Multilingual knowledge editing (MKE) aims to simultaneously revise factual knowledge across multilingual languages within large language models (LLMs). However, most existing MKE methods just adapt existing monolingual editing methods to multilingual scenarios, overlooking the deep semantic connections of the same factual knowledge between different languages, thereby limiting edit performance. To address this issue, we first investigate how LLMs represent multilingual factual knowledge and discover that the same factual knowledge in different languages generally activates a shared set of neurons, which we call language-agnostic factual neurons. These neurons represent the semantic connections between multilingual knowledge and are mainly located in certain layers. Inspired by this finding, we propose a new MKE method by locating and modifying Language-Agnostic Factual Neurons (LAFN) to simultaneously edit multilingual knowledge. Specifically, we first generate a set of paraphrases for each multilingual knowledge to be edited to precisely locate the corresponding language-agnostic factual neurons. Then we optimize the update values for modifying these located neurons to achieve simultaneous modification of the same factual knowledge in multiple languages. Experimental results on Bi-ZsRE and MzsRE benchmarks demonstrate that our method outperforms existing MKE methods and achieves remarkable edit performance, indicating the importance of considering the semantic connections among multilingual knowledge. | 翻訳日:2024-06-25 15:43:33 公開日:2024-06-24 |
# 周波数対応プロンプティングによるクロスドメインFew-Shot分類の探索
Exploring Cross-Domain Few-Shot Classification via Frequency-Aware Prompting ( http://arxiv.org/abs/2406.16422v1 ) ライセンス: Link先を確認 | Tiange Zhang, Qing Cai, Feng Gao, Lin Qi, Junyu Dong, | (参考訳) クロスドメインなFew-Shot Learningはメタラーニングの発展に大きく貢献している。
しかし、多くの既存手法は、機能的操作やタスクの多様性の向上を通じて、ドメイン適応的帰納バイアス(メタ知識)の学習に注意を払う一方で、深いネットワークが分類決定のために高周波キューに依存する傾向にある現象を無視しているため、高周波情報が脆弱でノイズの多い情報によって邪魔されやすいため、学習帰属バイアスの堅牢性は低下する。
そこで本研究では,新たな認識課題に直面した場合に,異なる周波数キューを選択することで,ネットワークが人間の視覚的知覚をシミュレートできる,相互に注意を向けた周波数対応プロンプト手法を提案する。
具体的には、分解したソース画像の高周波成分を正規分布サンプリングまたはゼロ化で切り換えて周波数認識増幅サンプルを得る周波数認識プロンプト機構を最初に提案する。
そして、CD-FSL設定下で一般化可能な帰納バイアスを学習するために、相互注意モジュールを設計する。
さらに,本手法は,市販CD-FLS法に直接適用可能なプラグアンドプレイモジュールである。
CD-FSLベンチマーク実験の結果,提案手法の有効性が示され,既存のCD-FLS法の性能が向上した。
https://github.com/tinkez/FAP_CDFSC.com
Cross-Domain Few-Shot Learning has witnessed great stride with the development of meta-learning. However, most existing methods pay more attention to learning domain-adaptive inductive bias (meta-knowledge) through feature-wise manipulation or task diversity improvement while neglecting the phenomenon that deep networks tend to rely more on high-frequency cues to make the classification decision, which thus degenerates the robustness of learned inductive bias since high-frequency information is vulnerable and easy to be disturbed by noisy information. Hence in this paper, we make one of the first attempts to propose a Frequency-Aware Prompting method with mutual attention for Cross-Domain Few-Shot classification, which can let networks simulate the human visual perception of selecting different frequency cues when facing new recognition tasks. Specifically, a frequency-aware prompting mechanism is first proposed, in which high-frequency components of the decomposed source image are switched either with normal distribution sampling or zeroing to get frequency-aware augment samples. Then, a mutual attention module is designed to learn generalizable inductive bias under CD-FSL settings. More importantly, the proposed method is a plug-and-play module that can be directly applied to most off-the-shelf CD-FLS methods. Experimental results on CD-FSL benchmarks demonstrate the effectiveness of our proposed method as well as robustly improve the performance of existing CD-FLS methods. Resources at https://github.com/tinkez/FAP_CDFSC. | 翻訳日:2024-06-25 15:43:33 公開日:2024-06-24 |
# 組合せ最適化における効率的な適応のためのメモリ拡張型ニューラルソルバー
Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization ( http://arxiv.org/abs/2406.16424v1 ) ライセンス: Link先を確認 | Felix Chalumeau, Refiloe Shabe, Noah de Nicola, Arnu Pretorius, Thomas D. Barrett, Nathan Grinsztajn, | (参考訳) Combinatorial Optimizationは、多くの現実世界のアプリケーションにとって不可欠だが、NP-のハードな性質のため、依然として課題を呈している。
既存のアプローチの中で、ヒューリスティックスは品質とスケーラビリティの最良のトレードオフを提供し、産業用途に適している。
強化学習(Reinforcement Learning, RL)はヒューリスティックを設計するための柔軟なフレームワークを提供するが、手作りヒューリスティックよりもそれを採用することは、産業用ソルバでは不完全なままである。
既存の学習方法には、特定のインスタンスに適応し、利用可能な計算予算を完全に活用する能力がない。
現在のベストプラクティスは、事前訓練されたポリシーの収集か、データ非効率な微調整に依存しているため、予算の制約の中で新たに利用可能な情報を十分に活用できない。
そこで,本論文では,メモリを活用するRLアプローチであるMementOを提案し,推論時間におけるニューラルソルバの適応性を改善する。
MementOは、以前の決定結果に基づいて動的にアクション分布を更新できる。
本稿では,特にTraveing SalesmanとCapacitated Vehicle Routingのベンチマーク問題に対する有効性を検証するとともに,標準手法と組み合わせて,所定の予算下での性能向上を図ることを実証した。
Combinatorial Optimization is crucial to numerous real-world applications, yet still presents challenges due to its (NP-)hard nature. Amongst existing approaches, heuristics often offer the best trade-off between quality and scalability, making them suitable for industrial use. While Reinforcement Learning (RL) offers a flexible framework for designing heuristics, its adoption over handcrafted heuristics remains incomplete within industrial solvers. Existing learned methods still lack the ability to adapt to specific instances and fully leverage the available computational budget. The current best methods either rely on a collection of pre-trained policies, or on data-inefficient fine-tuning; hence failing to fully utilize newly available information within the constraints of the budget. In response, we present MEMENTO, an RL approach that leverages memory to improve the adaptation of neural solvers at inference time. MEMENTO enables updating the action distribution dynamically based on the outcome of previous decisions. We validate its effectiveness on benchmark problems, in particular Traveling Salesman and Capacitated Vehicle Routing, demonstrating it can successfully be combined with standard methods to boost their performance under a given budget, both in and out-of-distribution, improving their performance on all 12 evaluated tasks. | 翻訳日:2024-06-25 15:43:33 公開日:2024-06-24 |
# 電力グリッドトポロジー最適化におけるエージェントの故障検出:包括的解析
Fault Detection for agents on power grid topology optimization: A Comprehensive analysis ( http://arxiv.org/abs/2406.16426v1 ) ライセンス: Link先を確認 | Malte Lehna, Mohamed Hassouna, Dmitry Degtyar, Sven Tomforde, Christoph Scholz, | (参考訳) 近年,Deep Reinforcement Learning (DRL) を用いた伝送ネットワークのトポロジ最適化が注目されている。
様々な研究者が異なるDRLエージェントを提案しており、しばしばLearning to Run a Power Network (L2RPN)の課題からGrid2Op環境上でベンチマークされている。
環境は現実的な慢性と根底にある潮流のバックエンドで多くの利点がある。
しかしながら、エージェントの生存または失敗の解釈は、様々な潜在的な原因があるため、必ずしも明確ではない。
本研究では,電力網の故障に着目し,パターンを識別し,先行検出を行う。
我々は,WCCI 2022 L2RPN環境において3つの異なるエージェントの慢性的な障害を収集し,約40kのデータポイントを収集した。
クラスタ化によって、5つの異なるクラスタを検出し、異なる障害タイプを特定します。
さらに,失敗を事前に検出し,5つの異なるモデルを評価するマルチクラス予測手法を提案する。
ここでは、Light Gradient-Boosting Machine (LightGBM)が86%の精度で最高のパフォーマンスを示している。
また、時間的故障と生存観察の91%を正確に識別する。
最後に、グリッド内の重要な特徴や領域を識別する、詳細な特徴重要度分析を提供する。
The topology optimization of transmission networks using Deep Reinforcement Learning (DRL) has increasingly come into focus. Various researchers have proposed different DRL agents, which are often benchmarked on the Grid2Op environment from the Learning to Run a Power Network (L2RPN) challenges. The environments have many advantages with their realistic chronics and underlying power flow backends. However, the interpretation of agent survival or failure is not always clear, as there are a variety of potential causes. In this work, we focus on the failures of the power grid to identify patterns and detect them a priori. We collect the failed chronics of three different agents on the WCCI 2022 L2RPN environment, totaling about 40k data points. By clustering, we are able to detect five distinct clusters, identifying different failure types. Further, we propose a multi-class prediction approach to detect failures beforehand and evaluate five different models. Here, the Light Gradient-Boosting Machine (LightGBM) shows the best performance, with an accuracy of 86%. It also correctly identifies in 91% of the time failure and survival observations. Finally, we provide a detailed feature importance analysis that identifies critical features and regions in the grid. | 翻訳日:2024-06-25 15:43:33 公開日:2024-06-24 |
# 点スーパービジョンされた核セグメンテーションにおける動的擬似ラベル最適化
Dynamic Pseudo Label Optimization in Point-Supervised Nuclei Segmentation ( http://arxiv.org/abs/2406.16427v1 ) ライセンス: Link先を確認 | Ziyue Wang, Ye Zhang, Yifeng Wang, Linghan Cai, Yongbing Zhang, | (参考訳) 深層学習は核セグメンテーションにおいて顕著な成果を上げてきたが、ピクセルワイドラベルの膨大な要求は依然として大きな課題である。
アノテーションの負担を軽減するため、既存の手法は点ラベルを用いたモデルトレーニングのための擬似マスクを生成する。
しかし、生成したマスクは必然的に真実とは異なっており、これらの相違はネットワークトレーニング中に合理的に処理されないため、セグメンテーションモデルのサブパー性能が向上する。
この問題に対処するため、我々はDoNuSegというフレームワークを提案し、点教師付き \textbf{Nu}clei \textbf{Seg}mentation における \textbf{D}ynamic pseudo label \textbf{O}ptimization を可能にする。
具体的には、DoNuSegはクラスアクティベーションマップ(CAM)を利用して、アノテーション付きポイントに似た意味を持つ領域を適応的にキャプチャする。
階層的特徴レベルにおける意味的多様性を活用するために,異なるエンコーダブロックから最適なCAMを擬似マスクとして選択する動的選択モジュールを設計する。
一方、疑似マスクの精度をさらに高めるため、CAM誘導コントラストモジュールが提案されている。
CAMが提供するセマンティック情報を活用することに加えて、ポイントラベル固有の位置先を考慮し、効果的に核を識別するためのタスク分離構造を開発する。
大規模な実験により、DoNuSegは最先端のポイント管理手法より優れていることが示された。
コードはhttps://github.com/shinning0821/MICCAI24-DoNuSegで公開されている。
Deep learning has achieved impressive results in nuclei segmentation, but the massive requirement for pixel-wise labels remains a significant challenge. To alleviate the annotation burden, existing methods generate pseudo masks for model training using point labels. However, the generated masks are inevitably different from the ground truth, and these dissimilarities are not handled reasonably during the network training, resulting in the subpar performance of the segmentation model. To tackle this issue, we propose a framework named DoNuSeg, enabling \textbf{D}ynamic pseudo label \textbf{O}ptimization in point-supervised \textbf{Nu}clei \textbf{Seg}mentation. Specifically, DoNuSeg takes advantage of class activation maps (CAMs) to adaptively capture regions with semantics similar to annotated points. To leverage semantic diversity in the hierarchical feature levels, we design a dynamic selection module to choose the optimal one among CAMs from different encoder blocks as pseudo masks. Meanwhile, a CAM-guided contrastive module is proposed to further enhance the accuracy of pseudo masks. In addition to exploiting the semantic information provided by CAMs, we consider location priors inherent to point labels, developing a task-decoupled structure for effectively differentiating nuclei. Extensive experiments demonstrate that DoNuSeg outperforms state-of-the-art point-supervised methods. The code is available at https://github.com/shinning0821/MICCAI24-DoNuSeg. | 翻訳日:2024-06-25 15:43:33 公開日:2024-06-24 |
# 表情認識のためのマルチスレッド深度学習
Multi-threshold Deep Metric Learning for Facial Expression Recognition ( http://arxiv.org/abs/2406.16434v1 ) ライセンス: Link先を確認 | Wenwu Yang, Jinyi Yu, Tuo Chen, Zhenguang Liu, Xun Wang, Jianbing Shen, | (参考訳) 三重項に基づくディープメトリック学習によって生成される効果的な表情特徴表現は、表情認識(FER)に非常に有利である。
三重項に基づくディープ・メトリック・ラーニングの性能は三重項損失の最良のしきい値を特定することによって決定される。
しかし、データセット間の理想的なしきい値が、同じデータセット内のクラス間でも変化するため、閾値検証は難しくて難しい。
本稿では,難解なしきい値検証を回避するだけでなく,表現特徴表現を構築するために三重項損失学習の能力を大幅に向上させる多閾値深度計量学習手法を提案する。
その結果,三重項損失の閾値は本質的にクラス間変動の特異な分布を決定づけ,一意的な表現特徴表現に対応することがわかった。
したがって、有効なしきい値範囲から1つの最適しきい値を選択するのではなく、範囲をまたいだしきい値を徹底的にサンプリングし、範囲内のしきい値によって表される表現特性を完全に抽出し、FERに活用することができる。
このアプローチを実現するために,ディープメトリック学習ネットワークの埋め込み層をスライス集合に分割し,その埋め込み層をエンドツーエンドのマルチスレッドのディープメトリック学習問題としてモデル化する。
各埋め込みスライスはサンプル閾値に対応し、対応する三重項損失を強制して学習し、各埋め込みスライス毎にそれぞれ異なる表現特徴のセットを生成する。
これにより、一組のスライスからなる埋め込み層がより情報的で識別性の高い特徴となり、FER精度が向上する。
顔表情データセットと自然表情データセットの両方において,提案手法の優れた性能を示す。
Effective expression feature representations generated by a triplet-based deep metric learning are highly advantageous for facial expression recognition (FER). The performance of triplet-based deep metric learning is contingent upon identifying the best threshold for triplet loss. Threshold validation, however, is tough and challenging, as the ideal threshold changes among datasets and even across classes within the same dataset. In this paper, we present the multi-threshold deep metric learning technique, which not only avoids the difficult threshold validation but also vastly increases the capacity of triplet loss learning to construct expression feature representations. We find that each threshold of the triplet loss intrinsically determines a distinctive distribution of inter-class variations and corresponds, thus, to a unique expression feature representation. Therefore, rather than selecting a single optimal threshold from a valid threshold range, we thoroughly sample thresholds across the range, allowing the representation characteristics manifested by thresholds within the range to be fully extracted and leveraged for FER. To realize this approach, we partition the embedding layer of the deep metric learning network into a collection of slices and model training these embedding slices as an end-to-end multi-threshold deep metric learning problem. Each embedding slice corresponds to a sample threshold and is learned by enforcing the corresponding triplet loss, yielding a set of distinct expression features, one for each embedding slice. It makes the embedding layer, which is composed of a set of slices, a more informative and discriminative feature, hence enhancing the FER accuracy. Extensive evaluations demonstrate the superior performance of the proposed approach on both posed and spontaneous facial expression datasets. | 翻訳日:2024-06-25 15:43:33 公開日:2024-06-24 |
# 連続学習における実験の混合の理論
Theory on Mixture-of-Experts in Continual Learning ( http://arxiv.org/abs/2406.16437v1 ) ライセンス: Link先を確認 | Hongbo Li, Sen Lin, Lingjie Duan, Yingbin Liang, Ness B. Shroff, | (参考訳) 継続学習(CL)は、時間とともに現れる新しいタスクに適応する能力のため、大きな注目を集めている。
モデルが新しいタスクに適応するにつれて、(古いタスクの)破滅的な忘れがCLの大きな問題として認識されるようになった。
最近、Mixture-of-Experts (MoE) モデルは、複数の専門家の間で多様なタスクを分散・分散するためにゲーティングネットワークを利用することで、CLにおける破滅的な忘れを効果的に軽減することが示されている。
しかし,MoEの理論的解析とCLの学習性能への影響は乏しい。
本稿では、過パラメータ化線形回帰タスクのレンズを用いて、CLにおけるMoEの影響を特徴づける最初の理論的結果を提供する。
ルータは各タスクに対して適切な専門家を選択し、すべての専門家間で負荷のバランスをとることを学習する一方で、MoEモデルが専門家を多様化してさまざまなタスクを専門化できることを証明することで、単一の専門家よりもMoEのメリットを確立します。
さらに本研究は, CL における MoE が, 継続タスク到着を考慮しない既存の MoE 研究では不要なシステム収束を達成するために, 十分な訓練ラウンドを経て, ゲーティングネットワークの更新を終了する必要があることを示唆している。
さらに,CLの学習性能におけるMoEの利点を特徴付けるために,期待される誤りと全体的な一般化誤差に対して明示的な表現を提供する。
興味深いことに、より多くの専門家を追加するには、収束前に追加のラウンドが必要になるため、学習パフォーマンスは向上しない可能性がある。
最後に、線形モデルからディープニューラルネットワーク(DNN)へのこれらの洞察を拡張するために、合成データセットと実データセットの両方で実験を行い、CLにおけるMoEの実用的なアルゴリズム設計にも光を当てた。
Continual learning (CL) has garnered significant attention because of its ability to adapt to new tasks that arrive over time. Catastrophic forgetting (of old tasks) has been identified as a major issue in CL, as the model adapts to new tasks. The Mixture-of-Experts (MoE) model has recently been shown to effectively mitigate catastrophic forgetting in CL, by employing a gating network to sparsify and distribute diverse tasks among multiple experts. However, there is a lack of theoretical analysis of MoE and its impact on the learning performance in CL. This paper provides the first theoretical results to characterize the impact of MoE in CL via the lens of overparameterized linear regression tasks. We establish the benefit of MoE over a single expert by proving that the MoE model can diversify its experts to specialize in different tasks, while its router learns to select the right expert for each task and balance the loads across all experts. Our study further suggests an intriguing fact that the MoE in CL needs to terminate the update of the gating network after sufficient training rounds to attain system convergence, which is not needed in the existing MoE studies that do not consider the continual task arrival. Furthermore, we provide explicit expressions for the expected forgetting and overall generalization error to characterize the benefit of MoE in the learning performance in CL. Interestingly, adding more experts requires additional rounds before convergence, which may not enhance the learning performance. Finally, we conduct experiments on both synthetic and real datasets to extend these insights from linear models to deep neural networks (DNNs), which also shed light on the practical algorithm design for MoE in CL. | 翻訳日:2024-06-25 15:43:33 公開日:2024-06-24 |
# 連続的に変化する環境における物体検出のためのテスト時間適応の探索
Exploring Test-Time Adaptation for Object Detection in Continually Changing Environments ( http://arxiv.org/abs/2406.16439v1 ) ライセンス: Link先を確認 | Shilei Cao, Yan Liu, Juepeng Zheng, Weijia Li, Runmin Dong, Haohuan Fu, | (参考訳) 現実世界のアプリケーションでは、ニューラルネットワークモデルは、ターゲットドメインの分布が時間的変化を受ける動的環境に一般的にデプロイされる。
最近CTTA(Continuous Test-Time Adaptation)が、継続的に変化するターゲットドメインから引き出されたデータに対して、ソース学習されたモデルを徐々に適応させる、有望なテクニックとして登場した。
近年のCTTA対応の進歩にもかかわらず,2つの重要な課題が残っている。
1)既存手法における疑似ラベルの固定しきい値の使用は,モデル信頼性がカテゴリやドメインによって異なるため,低品質な擬似ラベルの生成につながる。
2) 現状の解法では, 確率的パラメータ復元を用いて破滅的忘れを軽減しているが, 臨界情報の保存能力は本質的なランダム性によって損なわれている。
これらの課題に対処するため,CTTAシナリオにおける検出モデルの性能向上を目的としたCTAODを提案する。
CTAODは従来のCTTAの成果に触発されて,3つのコアコンポーネントを特徴とする平均教師フレームワーク上に構築されている。
まず、対象検出に適したオブジェクトレベルのコントラスト学習モジュールは、教師の関心領域を用いてオブジェクトレベルの特徴を抽出し、コントラスト学習を通じて最適化する。
第二に、動的しきい値戦略は、予測された信頼度スコアに基づいてカテゴリ固有のしきい値を更新し、擬似ラベルの品質を向上させる。
最後に、ランダムマスク行列の重みとして勾配を用いて不活性パラメータを選択的にリセットし、本質的な知識の保持を確保するためのデータ駆動確率的復元機構を設計する。
CTAODは既存の手法よりも優れており,特にCityscapes-to-Cityscapes-C CTTAタスクの3.0mAP改善を実現している。
For real-world applications, neural network models are commonly deployed in dynamic environments, where the distribution of the target domain undergoes temporal changes. Continual Test-Time Adaptation (CTTA) has recently emerged as a promising technique to gradually adapt a source-trained model to test data drawn from a continually changing target domain. Despite recent advancements in addressing CTTA, two critical issues remain: 1) The use of a fixed threshold for pseudo-labeling in existing methodologies leads to the generation of low-quality pseudo-labels, as model confidence varies across categories and domains; 2) While current solutions utilize stochastic parameter restoration to mitigate catastrophic forgetting, their capacity to preserve critical information is undermined by its intrinsic randomness. To tackle these challenges, we present CTAOD, aiming to enhance the performance of detection models in CTTA scenarios. Inspired by prior CTTA works for effective adaptation, CTAOD is founded on the mean-teacher framework, characterized by three core components. Firstly, the object-level contrastive learning module tailored for object detection extracts object-level features using the teacher's region of interest features and optimizes them through contrastive learning. Secondly, the dynamic threshold strategy updates the category-specific threshold based on predicted confidence scores to improve the quality of pseudo-labels. Lastly, we design a data-driven stochastic restoration mechanism to selectively reset inactive parameters using the gradients as weights for a random mask matrix, thereby ensuring the retention of essential knowledge. We demonstrate the effectiveness of our approach on four CTTA tasks for object detection, where CTAOD outperforms existing methods, especially achieving a 3.0 mAP improvement on the Cityscapes-to-Cityscapes-C CTTA task. | 翻訳日:2024-06-25 15:43:33 公開日:2024-06-24 |
# UniCoder:Universal Codeによる大規模言語モデルのスケーリング
UniCoder: Scaling Code Large Language Model via Universal Code ( http://arxiv.org/abs/2406.16441v1 ) ライセンス: Link先を確認 | Tao Sun, Linzheng Chai, Jian Yang, Yuwei Yin, Hongcheng Guo, Jiaheng Liu, Bing Wang, Liqun Yang, Zhoujun Li, | (参考訳) 中間推論や行動ステップは、様々な下流自然言語処理(NLP)タスクを処理するために、大きな言語モデル(LLM)の改善に成功している。
コード生成にLLMを適用する場合、最近の研究は主に、チェーン・オブ・ソート(CoT)のプロンプトのように、中間的な自然言語推論ステップを記述し、その後、自然言語や他の構造化された中間ステップでコードを出力するようにモデルを指示することに焦点を当てている。
しかし、標準的なCoTはコードとの論理構造や表現形式が異なるため、コード変換や生成タスクには適していない。
本稿では,中間表現としてユニバーサルコード(UniCode)を導入する。
これは代入演算子、条件演算子、ループなどのプログラミング言語の規則を混合したアルゴリズムステップの記述である。
そこで我々は、UniCoder-Instructという命令データセットを収集し、マルチタスク学習の目的に基づいてモデルUniCoderを訓練する。
UniCoder-Instructは自然言語の質問、コードソリューション、および対応するユニバーサルコードから構成される。
中間普遍符号表現と最終符号解とのアライメントは、生成されたコードの品質を大幅に向上させる。
実験結果から,UniCoderは,擬似符号における構造的手がかりの有効性を示すとともに,従来のプロンプト手法よりも大幅に優れていた。
Intermediate reasoning or acting steps have successfully improved large language models (LLMs) for handling various downstream natural language processing (NLP) tasks. When applying LLMs for code generation, recent works mainly focus on directing the models to articulate intermediate natural-language reasoning steps, as in chain-of-thought (CoT) prompting, and then output code with the natural language or other structured intermediate steps. However, such output is not suitable for code translation or generation tasks since the standard CoT has different logical structures and forms of expression with the code. In this work, we introduce the universal code (UniCode) as the intermediate representation. It is a description of algorithm steps using a mix of conventions of programming languages, such as assignment operator, conditional operator, and loop. Hence, we collect an instruction dataset UniCoder-Instruct to train our model UniCoder on multi-task learning objectives. UniCoder-Instruct comprises natural-language questions, code solutions, and the corresponding universal code. The alignment between the intermediate universal code representation and the final code solution significantly improves the quality of the generated code. The experimental results demonstrate that UniCoder with the universal code significantly outperforms the previous prompting methods by a large margin, showcasing the effectiveness of the structural clues in pseudo-code. | 翻訳日:2024-06-25 15:43:33 公開日:2024-06-24 |
# EmoLLM: 大規模言語モデルを扱うマルチモーダル感情理解
EmoLLM: Multimodal Emotional Understanding Meets Large Language Models ( http://arxiv.org/abs/2406.16442v1 ) ライセンス: Link先を確認 | Qu Yang, Mang Ye, Bo Du, | (参考訳) マルチモーダル大規模言語モデル(MLLM)は、客観的なマルチモーダル認識タスクにおいて顕著なパフォーマンスを達成しているが、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力は、まだ明らかにされていない。
したがって、マルチモーダルメディアを通じて人間によって表現される複雑な感情を効果的に理解し、反応する能力を妨げる。
このギャップを埋めるために、私たちはEmoBenchという5つの一般的な感情課題におけるMLLMの感情能力を評価するために設計された最初の総合的なベンチマークを紹介します。
本研究では,マルチモーダルな感情理解モデルであるEmoLLMを提案する。
1)マルチパースペクティブ・ビジュアル・プロジェクションでは,複数の視点から視覚データから多様な感情的手がかりを捉えている。
2) EmoPromptでは, MLLMが正しい方向への感情を判断できるように誘導する。
実験の結果、EmoLLMはマルチモーダルな感情理解性能を著しく向上させ、EmoBench上の複数の基礎モデルに対して平均12.1%改善した。
我々の研究は、人間とコンピュータの相互作用、メンタルヘルスのサポート、共感的AIシステムといった分野における幅広い応用によって、複雑な人間の感情のより深い、よりニュアンスな理解を促進することによって、MLLMの進歩に寄与する。
コード、データ、モデルがリリースされる。
Multi-modal large language models (MLLMs) have achieved remarkable performance on objective multimodal perception tasks, but their ability to interpret subjective, emotionally nuanced multimodal content remains largely unexplored. Thus, it impedes their ability to effectively understand and react to the intricate emotions expressed by humans through multimodal media. To bridge this gap, we introduce EmoBench, the first comprehensive benchmark designed specifically to evaluate the emotional capabilities of MLLMs across five popular emotional tasks, using a diverse dataset of 287k images and videos paired with corresponding textual instructions. Meanwhile, we propose EmoLLM, a novel model for multimodal emotional understanding, incorporating with two core techniques. 1) Multi-perspective Visual Projection, it captures diverse emotional cues from visual data from multiple perspectives. 2) EmoPrompt, it guides MLLMs to reason about emotions in the correct direction. Experimental results demonstrate that EmoLLM significantly elevates multimodal emotional understanding performance, with an average improvement of 12.1% across multiple foundation models on EmoBench. Our work contributes to the advancement of MLLMs by facilitating a deeper and more nuanced comprehension of intricate human emotions, paving the way for the development of artificial emotional intelligence capabilities with wide-ranging applications in areas such as human-computer interaction, mental health support, and empathetic AI systems. Code, data, and model will be released. | 翻訳日:2024-06-25 15:33:48 公開日:2024-06-24 |
# LVLMにおける関係幻覚の評価と解析
Evaluating and Analyzing Relationship Hallucinations in LVLMs ( http://arxiv.org/abs/2406.16449v1 ) ライセンス: Link先を確認 | Mingrui Wu, Jiayi Ji, Oucheng Huang, Jiale Li, Yuhang Wu, Xiaoshuai Sun, Rongrong Ji, | (参考訳) 幻覚の問題は、既存のLVLM(Large Vision-Language Models)の関心事である。
これまでは主に、物体検出装置を導入することで容易に緩和できる物体幻覚の研究に重点を置いてきた。
しかし、これらの努力は、視覚的理解に欠かせない対象間の関係における幻覚を無視している。
本稿では,視覚関係の幻覚を評価するための新しいベンチマークであるR-Benchを紹介する。
R-Benchは、関係の存在に焦点を当てたイメージレベルの質問と、局所的な視覚的理解を評価するインスタンスレベルの質問を特徴としている。
我々は,関係関連性,主観関連性,関係対象性という,幻覚につながる3つの関係共起関係を同定する。
ビジュアルインストラクションチューニングデータセットのロングテール分布は、LVLMの視覚的関係に対する理解に大きな影響を及ぼす。
さらに,現在のLVLMは視覚的内容を無視し,大言語モデルの常識知識を過度に依存する傾向にあることを明らかにした。
また、文脈情報に基づく空間関係の推論にも苦労している。
The issue of hallucinations is a prevalent concern in existing Large Vision-Language Models (LVLMs). Previous efforts have primarily focused on investigating object hallucinations, which can be easily alleviated by introducing object detectors. However, these efforts neglect hallucinations in inter-object relationships, which is essential for visual comprehension. In this work, we introduce R-Bench, a novel benchmark for evaluating Vision Relationship Hallucination. R-Bench features image-level questions that focus on the existence of relationships and instance-level questions that assess local visual comprehension. We identify three types of relationship co-occurrences that lead to hallucinations: relationship-relationship, subject-relationship, and relationship-object. The visual instruction tuning dataset's long-tail distribution significantly impacts LVLMs' understanding of visual relationships. Furthermore, our analysis reveals that current LVLMs tend to disregard visual content and overly rely on the common sense knowledge of Large Language Models. They also struggle with reasoning about spatial relationships based on contextual information. | 翻訳日:2024-06-25 15:33:48 公開日:2024-06-24 |
# 効率的な基礎構築:構造的フィードフォワード層を用いたLLMの効果的訓練
Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers ( http://arxiv.org/abs/2406.16450v1 ) ライセンス: Link先を確認 | Xiuying Wei, Skander Moalla, Razvan Pascanu, Caglar Gulcehre, | (参考訳) 大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
このことが、これらのモデルのパラメータ数と計算コストを、性能に大きな影響を及ぼすことなく削減する研究の議題となった。
本研究では,注意ブロックよりも少ない計算集約フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLSMについて検討した。
我々は,効率的な低ランク行列とブロック対角行列を組み合わせることで,FFNの線形層近似を3つの候補として検討する。
これらの近似を調べた多くの先行研究とは対照的に、本研究では、これらの近似を検証した。
i)これらの構造を、スクラッチの観点から探究すること。
ii) 1.3Bパラメータにスケールし、
三 畳み込み建築というよりは、近年のトランスフォーマー方式のLLMにおいて行うこと。
まず,事前マージ手法を用いたオンライン復号化など,様々なシナリオにおいて実際の計算能力向上につながることを実証した。
また,初期化を契機に,これらの近似が示す低速なトレーニング力学を改善することを目的とした,‘textit{self-guided training’と呼ばれる新しいトレーニング体制を提案する。
大規模なRefinedWebデータセットの実験は、我々のメソッドがトレーニングと推論に効率的かつ効果的であることを示している。
興味深いことに、これらの構造化FFNは元のモデルよりも急激なスケーリング曲線を示す。
さらに、32\% FFNパラメータと2.5$\times$ Speed-upを持つ構造化行列に自己誘導型トレーニングを適用することで、同じトレーニングFLOPの下では、0.4パープレキシティの増加しか実現できない。
最後に,現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを,パープレキシティとスループット性能で開発する。
我々のコードは \url{https://github.com/CLAIRE-Labo/StructuredFFN/tree/main} で利用可能です。
State-of-the-art results in large language models (LLMs) often rely on scale, which becomes computationally expensive. This has sparked a research agenda to reduce these models' parameter count and computational costs without significantly impacting their performance. Our study focuses on transformer-based LLMs, specifically targeting the computationally intensive feedforward networks (FFN), which are less studied than attention blocks. We consider three candidate linear layer approximations in the FFN by combining efficient low-rank and block-diagonal matrices. In contrast to many previous works that examined these approximations, our study i) explores these structures from the training-from-scratch perspective, ii) scales up to 1.3B parameters, and iii) is conducted within recent Transformer-based LLMs rather than convolutional architectures. We first demonstrate they can lead to actual computational gains in various scenarios, including online decoding when using a pre-merge technique. Additionally, we propose a novel training regime, called \textit{self-guided training}, aimed at improving the poor training dynamics that these approximations exhibit when used from initialization. Experiments on the large RefinedWeb dataset show that our methods are both efficient and effective for training and inference. Interestingly, these structured FFNs exhibit steeper scaling curves than the original models. Further applying self-guided training to the structured matrices with 32\% FFN parameters and 2.5$\times$ speed-up enables only a 0.4 perplexity increase under the same training FLOPs. Finally, we develop the wide and structured networks surpassing the current medium-sized and large-sized Transformer in perplexity and throughput performance. Our code is available at \url{https://github.com/CLAIRE-Labo/StructuredFFN/tree/main}. | 翻訳日:2024-06-25 15:33:48 公開日:2024-06-24 |
# メタポピュレーションのためのWilson-Cowanモデルでの学習
Learning in Wilson-Cowan model for metapopulation ( http://arxiv.org/abs/2406.16453v1 ) ライセンス: Link先を確認 | Raffaele Marino, Lorenzo Buffoni, Lorenzo Chicchi, Francesca Di Patti, Diego Febbe, Lorenzo Giambagli, Duccio Fanelli, | (参考訳) 神経質量ネットワークモデル(英語版)であるウィルソン=コーワンモデル(Wilson-Cowan model for metapopulation)は、脳の様々な皮質下領域を接続ノードとして扱う。
各領域は、標準のWilson-Cowanモデルと一致する興奮性および抑制性の細胞の相互作用する集団から構成される。
このようなメタポピュレーションモデルのダイナミクスに安定したアトラクタを組み込むことで、高い画像とテキストの分類精度を達成できる学習アルゴリズムに変換する。
我々は、MNISTとFashion MNISTで、畳み込みニューラルネットワークと組み合わせて、CIFAR-10とTF-FLOWERSで、IMDBで変換器アーキテクチャ(BERT)と組み合わせて、常に高い分類精度を示す。
これらの数値的な評価は、メタポピュレーションのためのウィルソン・コーワンモデルへの最小限の変更は、ユニークで以前は観測されなかったダイナミクスを明らかにすることができることを示している。
The Wilson-Cowan model for metapopulation, a Neural Mass Network Model, treats different subcortical regions of the brain as connected nodes, with connections representing various types of structural, functional, or effective neuronal connectivity between these regions. Each region comprises interacting populations of excitatory and inhibitory cells, consistent with the standard Wilson-Cowan model. By incorporating stable attractors into such a metapopulation model's dynamics, we transform it into a learning algorithm capable of achieving high image and text classification accuracy. We test it on MNIST and Fashion MNIST, in combination with convolutional neural networks, on CIFAR-10 and TF-FLOWERS, and, in combination with a transformer architecture (BERT), on IMDB, always showing high classification accuracy. These numerical evaluations illustrate that minimal modifications to the Wilson-Cowan model for metapopulation can reveal unique and previously unobserved dynamics. | 翻訳日:2024-06-25 15:33:48 公開日:2024-06-24 |
# 生産型AIモデルにおける有害な医療製品レコメンデーションの回避とラベル外宣伝のためのガードレール
Guardrails for avoiding harmful medical product recommendations and off-label promotion in generative AI models ( http://arxiv.org/abs/2406.16455v1 ) ライセンス: Link先を確認 | Daniel Lopez-Martinez, | (参考訳) ジェネレーティブAI(GenAI)モデルは、幅広い医療タスクにおいて顕著な能力を示してきた。
しかし、これらのモデルは、非常に限定的な人的監視を伴う汎用的なデータセットを用いて訓練されているため、安全と有効性について十分な評価を受けていない医療製品の使用、あるいは規制当局による承認を学べる。
GenAIがユーザーにリーチできる規模を考えると、未確認の勧告は公衆衛生上のリスクをもたらす。
本研究では,潜在的に有害な製品レコメンデーションを同定する手法を提案し,近年のマルチモーダルな大規模言語モデルを用いてそれを実証する。
Generative AI (GenAI) models have demonstrated remarkable capabilities in a wide variety of medical tasks. However, as these models are trained using generalist datasets with very limited human oversight, they can learn uses of medical products that have not been adequately evaluated for safety and efficacy, nor approved by regulatory agencies. Given the scale at which GenAI may reach users, unvetted recommendations pose a public health risk. In this work, we propose an approach to identify potentially harmful product recommendations, and demonstrate it using a recent multimodal large language model. | 翻訳日:2024-06-25 15:33:48 公開日:2024-06-24 |
# メタラーニングによる自動プライバシ保護技術
Automated Privacy-Preserving Techniques via Meta-Learning ( http://arxiv.org/abs/2406.16456v1 ) ライセンス: Link先を確認 | Tânia Carvalho, Nuno Moniz, Luís Antunes, | (参考訳) タスクの学習のためにプライベートデータを共有することは、透明でセキュアな機械学習アプリケーションにとって重要なことです。
個人のプライバシーを確保しつつデータを変換することを目的とした,多くのプライバシ保護技術が提案されている。
これらの技法のいくつかはツールに組み込まれており、その他は様々なオンラインプラットフォームを通じてアクセスされている。
しかし、このようなツールは手動で設定する必要があるため、複雑で時間を要する可能性がある。
さらに、それらは相当な専門知識を必要とし、高度な技術知識を持つ人だけの使用を制限する可能性がある。
本稿では,自動プライバシ保護方式であるAUTOPRIVを提案する。
AUTOPRIVは、メタラーニングを使用して、非識別プロセスを自動化することで、マシンラーニングタスクのためのデータのセキュアなリリースを容易にする。
主な目標は、大規模なプライバシ構成の予測パフォーマンスとプライバシリスクを予測することである。
我々は、新しい領域内で最適な近似を達成できるであろう最も有望なソリューションのランクリストを提供する。
AUTOPRIVは計算複雑性とエネルギー消費を大幅に削減するので、非常に効果的である。
Sharing private data for learning tasks is pivotal for transparent and secure machine learning applications. Many privacy-preserving techniques have been proposed for this task aiming to transform the data while ensuring the privacy of individuals. Some of these techniques have been incorporated into tools, whereas others are accessed through various online platforms. However, such tools require manual configuration, which can be complex and time-consuming. Moreover, they require substantial expertise, potentially restricting their use to those with advanced technical knowledge. In this paper, we propose AUTOPRIV, the first automated privacy-preservation method, that eliminates the need for any manual configuration. AUTOPRIV employs meta-learning to automate the de-identification process, facilitating the secure release of data for machine learning tasks. The main goal is to anticipate the predictive performance and privacy risk of a large set of privacy configurations. We provide a ranked list of the most promising solutions, which are likely to achieve an optimal approximation within a new domain. AUTOPRIV is highly effective as it reduces computational complexity and energy consumption considerably. | 翻訳日:2024-06-25 15:33:48 公開日:2024-06-24 |
# ブラインド超解法における劣化予測の不確かさの抑制
Suppressing Uncertainties in Degradation Estimation for Blind Super-Resolution ( http://arxiv.org/abs/2406.16459v1 ) ライセンス: Link先を確認 | Junxiong Lin, Zeng Tao, Xuan Tong, Xinji Mai, Haoran Wang, Boyang Wang, Yan Wang, Qing Zhao, Jiawen Yu, Yuxuan Lin, Shaoqi Yan, Shuyong Gao, Wenqiang Zhang, | (参考訳) ブラインド画像の超解像問題は、未知の劣化モードで低解像度(LR)画像から高解像度(HR)画像を復元することを目的としている。
既存のほとんどの手法は、ぼやけたカーネルを使って画像劣化過程をモデル化している。
しかし、この明示的なモデリングアプローチは、JPEG圧縮、ぼかし、ノイズの高次組み合わせなど、現実世界で遭遇する複雑で多様な劣化過程をカバーするのに苦労している。
劣化過程の暗黙的モデリングは、この問題を効果的に克服することができるが、暗黙的モデリングの重要な課題は、劣化過程の正確な基底真理ラベルがないことである。
暗黙的モデリングに固有のこの制限を克服するために、ブラインドな \textbf{S}uper-\textbf{R}esolution framework (\textbf{USR} ) に対する \textbf{U}ncertainty-based degradation representation を提案する。
画像中の局所的な劣化表現の不確かさを抑えることにより、USRは分解表現の自己教師付き学習を促進した。
USRは、Adaptive Uncertainty-Aware Degradation extract (AUDE)と可変深さ動的畳み込み(VDDC)ブロックからなる特徴抽出ネットワークの2つのコンポーネントで構成されている。
LR画像から不確かさに基づく劣化表現を抽出するために、AUDEは、不確かさ抑制損失を伴う自己教師付き不確かさコントラストモジュールを使用して、劣化エクストラクタ固有のモデル不確かさを抑制する。
さらに、VDDCブロックは動的畳み込みにより劣化情報を統合する。
Rhe VDDCはまた、ネットワーク階層に応じて劣化表現を適応的に調整し、劣化情報の効果的な統合を容易にするアダプティブインテンシティスケーリング(Adaptive Intensity Scaling)演算も採用している。
定量的および定性的な実験により、我々のアプローチの優位性が確認された。
The problem of blind image super-resolution aims to recover high-resolution (HR) images from low-resolution (LR) images with unknown degradation modes. Most existing methods model the image degradation process using blur kernels. However, this explicit modeling approach struggles to cover the complex and varied degradation processes encountered in the real world, such as high-order combinations of JPEG compression, blur, and noise. Implicit modeling for the degradation process can effectively overcome this issue, but a key challenge of implicit modeling is the lack of accurate ground truth labels for the degradation process to conduct supervised training. To overcome this limitations inherent in implicit modeling, we propose an \textbf{U}ncertainty-based degradation representation for blind \textbf{S}uper-\textbf{R}esolution framework (\textbf{USR}). By suppressing the uncertainty of local degradation representations in images, USR facilitated self-supervised learning of degradation representations. The USR consists of two components: Adaptive Uncertainty-Aware Degradation Extraction (AUDE) and a feature extraction network composed of Variable Depth Dynamic Convolution (VDDC) blocks. To extract Uncertainty-based Degradation Representation from LR images, the AUDE utilizes the Self-supervised Uncertainty Contrast module with Uncertainty Suppression Loss to suppress the inherent model uncertainty of the Degradation Extractor. Furthermore, VDDC block integrates degradation information through dynamic convolution. Rhe VDDC also employs an Adaptive Intensity Scaling operation that adaptively adjusts the degradation representation according to the network hierarchy, thereby facilitating the effective integration of degradation information. Quantitative and qualitative experiments affirm the superiority of our approach. | 翻訳日:2024-06-25 15:33:48 公開日:2024-06-24 |
# InterCLIP-MEP:マルチモーダルサーカスム検出のための対話型CLIPとメモリ拡張予測器
InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection ( http://arxiv.org/abs/2406.16464v1 ) ライセンス: Link先を確認 | Junjie Chen, Subin Huang, | (参考訳) ソーシャルメディアにおけるサルカズムの頻度は、テキストと画像の組み合わせを通して伝えられ、感情分析と意図的マイニングにおいて重要な課題が提示される。
現在のマルチモーダル・サルカズム検出法は、刺激的な手がかりからの偏見に苦しむことが証明されており、テキストと画像の間の複雑な相互作用を表面的に理解している。
これらの問題に対処するため,マルチモーダルサルカズム検出のための堅牢なフレームワークであるInterCLIP-MEPを提案する。
InterCLIP-MEPは、CLIPの改良版であるInteractive CLIP(InterCLIP)をバックボーンとして導入し、各エンコーダにクロスモーダル情報を埋め込んでサンプル表現を強化する。
さらに、メモリ拡張予測器(MEP)にInterCLIPを適用するための新しいトレーニング戦略が設計されている。
MEPは動的デュアルチャネルメモリを使用してテストサンプルの貴重な履歴情報を記憶し、このメモリを非パラメトリック分類器として利用して最終的な予測を導出する。
InterCLIPを用いてテキストと画像の相互作用をより効果的にエンコードし、MEPを組み込むことで、InterCLIP-MEPはマルチモーダルサルカズムをより堅牢に認識する。
実験により、InterCLIP-MEPはMMSD2.0ベンチマークで最先端のパフォーマンスを達成することが示された。
コードとデータは[https://github.com/CoderChen01/InterCLIP-MEP](https://github.com/CoderChen01/InterCLIP-MEP]で入手できる。
The prevalence of sarcasm in social media, conveyed through text-image combinations, presents significant challenges for sentiment analysis and intention mining. Current multi-modal sarcasm detection methods have been proven to struggle with biases from spurious cues, leading to a superficial understanding of the complex interactions between text and image. To address these issues, we propose InterCLIP-MEP, a robust framework for multi-modal sarcasm detection. InterCLIP-MEP introduces a refined variant of CLIP, Interactive CLIP (InterCLIP), as the backbone, enhancing sample representations by embedding cross-modality information in each encoder. Furthermore, a novel training strategy is designed to adapt InterCLIP for a Memory-Enhanced Predictor (MEP). MEP uses dynamic dual-channel memory to store valuable historical knowledge of test samples and then leverages this memory as a non-parametric classifier to derive the final prediction. By using InterCLIP to encode text-image interactions more effectively and incorporating MEP, InterCLIP-MEP offers a more robust recognition of multi-modal sarcasm. Experiments demonstrate that InterCLIP-MEP achieves state-of-the-art performance on the MMSD2.0 benchmark. Code and data are available at [https://github.com/CoderChen01/InterCLIP-MEP](https://github.com/CoderChen01/InterCLIP-MEP). | 翻訳日:2024-06-25 15:33:48 公開日:2024-06-24 |
# SLOctolyzer:走査型レーザー眼科画像におけるセグメント化と特徴抽出のための完全自動解析ツールキット
SLOctolyzer: Fully automatic analysis toolkit for segmentation and feature extracting in scanning laser ophthalmoscopy images ( http://arxiv.org/abs/2406.16466v1 ) ライセンス: Link先を確認 | Jamie Burke, Samuel Gibbon, Justin Engelmann, Adam Threlfall, Ylenia Giarratano, Charlene Hamid, Stuart King, Ian J. C. MacCormick, Tom MacGillivray, | (参考訳) 目的: SLOctolyzer:赤外反射走査レーザー眼鏡(SLO)画像に現れる網膜血管を包含するためのオープンソースの解析ツールキット。
メソッド: SLOctolyzerにはセグメンテーションと測定という2つの主要なモジュールが含まれている。
セグメンテーションモジュールは、深層学習法を用いて網膜解剖を記述し、測定モジュールは、血管の複雑さ、密度、靭性、口径などの重要な網膜血管の特徴を定量化する。
未確認データを用いてセグメンテーションモジュールを評価し,再現性を評価する。
結果: SLOctolyzerのセグメンテーションモジュールは, 未確認内部試験データに対して良好に動作した(全血管で0.9097, 動脈で0.8376, 静脈で0.8525, 光ディスクで0.9430, 葉で0.8837)。
重症網膜疾患に対する外的検証では, 予後が低下した(動脈用では0.7180, 静脈用では0.7470, 視床用では0.9032)。
SLOctolyzerの再現性は良好であった(フラクタル次元の差 -0.0007, 容器密度 -0.0003, 容器口径 -0.3154$\mu$m, トルトゥシティ密度 0.0013)。
SLOはマキュラ中心のSLO画像を20秒未満で処理でき、ディスク中心のSLO画像を30秒未満で標準のラップトップCPUで処理できる。
結論: SLOctolyzerは, 生のSLO画像を再現性, 臨床的に有意な網膜血管パラメータに変換する最初のオープンソースツールである。
SLO画像は光コヒーレンス断層撮影(OCT)と同時撮影され,眼疾患や全身疾患に関連付けることで網膜血管計測の抽出に有用であると考えられた。
専門知識やプロプライエタリなソフトウェアは必要とせず、セグメンテーションの手作業による修正と、血管メトリクスの再計算が可能である。
SLOctolyzerはhttps://github.com/jaburke166/SLOctolyzerで無料で利用できる。
Purpose: To describe SLOctolyzer: an open-source analysis toolkit for en face retinal vessels appearing in infrared reflectance scanning laser ophthalmoscopy (SLO) images. Methods: SLOctolyzer includes two main modules: segmentation and measurement. The segmentation module use deep learning methods to delineate retinal anatomy, while the measurement module quantifies key retinal vascular features such as vessel complexity, density, tortuosity, and calibre. We evaluate the segmentation module using unseen data and measure its reproducibility. Results: SLOctolyzer's segmentation module performed well against unseen internal test data (Dice for all-vessels, 0.9097; arteries, 0.8376; veins, 0.8525; optic disc, 0.9430; fovea, 0.8837). External validation against severe retinal pathology showed decreased performance (Dice for arteries, 0.7180; veins, 0.7470; optic disc, 0.9032). SLOctolyzer had good reproducibility (mean difference for fractal dimension, -0.0007; vessel density, -0.0003; vessel calibre, -0.3154 $\mu$m; tortuosity density, 0.0013). SLOctolyzer can process a macula-centred SLO image in under 20 seconds and a disc-centred SLO image in under 30 seconds using a standard laptop CPU. Conclusions: To our knowledge, SLOctolyzer is the first open-source tool to convert raw SLO images into reproducible and clinically meaningful retinal vascular parameters. SLO images are captured simultaneous to optical coherence tomography (OCT), and we believe our software will be useful for extracting retinal vascular measurements from large OCT image sets and linking them to ocular or systemic diseases. It requires no specialist knowledge or proprietary software, and allows manual correction of segmentations and re-computing of vascular metrics. SLOctolyzer is freely available at https://github.com/jaburke166/SLOctolyzer. | 翻訳日:2024-06-25 15:33:48 公開日:2024-06-24 |
# コサイン類似性損失の隠れた落とし穴
The Hidden Pitfalls of the Cosine Similarity Loss ( http://arxiv.org/abs/2406.16468v1 ) ライセンス: Link先を確認 | Andrew Draganov, Sharvaree Vadgama, Erik J. Bekkers, | (参考訳) 2つの点の間の余弦的類似性の勾配は、(1)ある点が大きければ、または(2)その点が潜伏空間の反対端にあるときである。
反対に、点間のコサイン類似性を最適化することは、それらが大規模に成長することを証明している。
したがって、(1)は実際は避けられない。
そして、これらの派生は極めて一般的なものであり、深層学習アーキテクチャと標準の自己教師型学習(SSL)損失関数の多くをカバーしています。
ネットワーク初期化への簡単な変更により、研究対象のSSLメソッドが高速に収束するのに役立つ。
We show that the gradient of the cosine similarity between two points goes to zero in two under-explored settings: (1) if a point has large magnitude or (2) if the points are on opposite ends of the latent space. Counterintuitively, we prove that optimizing the cosine similarity between points forces them to grow in magnitude. Thus, (1) is unavoidable in practice. We then observe that these derivations are extremely general -- they hold across deep learning architectures and for many of the standard self-supervised learning (SSL) loss functions. This leads us to propose cut-initialization: a simple change to network initialization that helps all studied SSL methods converge faster. | 翻訳日:2024-06-25 15:33:48 公開日:2024-06-24 |
# 視覚的・文化的解釈の評価:人間のVLMによるK-Viscuitベンチマーク
Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with Human-VLM Collaboration ( http://arxiv.org/abs/2406.16469v1 ) ライセンス: Link先を確認 | Yujin Baek, ChaeHun Park, Jaeseok Kim, Yu-Jung Heo, Du-Seong Chang, Jaegul Choo, | (参考訳) 文化的に包括的な視覚言語モデル(VLM)を作成するために、最も大きな要件は、文化的要素を反映する質問に応答するモデルの能力を診断できるテストベンチマークを開発することである。
本稿では,従来の研究は人手による手作業に依存しており,多様性と効率を損なうことを指摘し,このようなベンチマークの必要性に対処する。
本稿では,多様性と効率を高めるため,文化的なVLMベンチマークを構築するための半自動パイプラインを提案する。
このパイプラインは人間とVLMのコラボレーションを活用し、VLMはガイドライン、人間に注釈を付けた例、画像に関する知識に基づいて質問を生成し、品質と文化の関連性についてネイティブスピーカーによってレビューされる。
適応可能なパイプラインの有効性は、K-Viscuitと呼ばれる韓国の文化に合わせてデータセットを作成するという、特定のアプリケーションを通じて実証されます。
Type 1の質問は視覚的認識能力を測定し、Type 2の質問はきめ細かい視覚的推論スキルを評価します。
これにより、様々な側面にわたるVLMモデルの徹底的な診断が可能になる。
K-Viscuitを用いた評価の結果,韓国文化の理解において,オープンソースモデルはプロプライエタリなモデルに遅れがみられ,改善すべき領域が強調された。
異なる文化的側面におけるVLM性能の多種多様な分析を行った。
さらに、VLMの文化的解釈能力向上に向けた今後の方向性を示唆し、外部知識検索を取り入れて生成プロセスを強化する可能性についても検討した。
データセットとコードは公開されます。
To create culturally inclusive vision-language models (VLMs), the foremost requirement is developing a test benchmark that can diagnose the models' ability to respond to questions reflecting cultural elements. This paper addresses the necessity for such benchmarks, noting that existing research has relied on human annotators' manual efforts, which impedes diversity and efficiency. We propose a semi-automated pipeline for constructing cultural VLM benchmarks to enhance diversity and efficiency. This pipeline leverages human-VLM collaboration, where VLMs generate questions based on guidelines, human-annotated examples, and image-wise relevant knowledge, which are then reviewed by native speakers for quality and cultural relevance. The effectiveness of our adaptable pipeline is demonstrated through a specific application: creating a dataset tailored to Korean culture, dubbed K-Viscuit. The resulting benchmark features two types of questions: Type 1 questions measure visual recognition abilities, while Type 2 assess fine-grained visual reasoning skills. This ensures a thorough diagnosis of VLM models across various aspects. Our evaluation using K-Viscuit revealed that open-source models notably lag behind proprietary models in understanding Korean culture, highlighting areas for improvement. We provided diverse analyses of VLM performance across different cultural aspects. Besides, we explored the potential of incorporating external knowledge retrieval to enhance the generation process, suggesting future directions for improving cultural interpretation ability of VLMs. Our dataset and code will be made publicly available. | 翻訳日:2024-06-25 15:33:48 公開日:2024-06-24 |
# 不確かさを追求する:動的顔表情認識における不確かさを解消する2段階統一フレームワーク
Seeking Certainty In Uncertainty: Dual-Stage Unified Framework Solving Uncertainty in Dynamic Facial Expression Recognition ( http://arxiv.org/abs/2406.16473v1 ) ライセンス: Link先を確認 | Haoran Wang, Xinji Mai, Zeng Tao, Xuan Tong, Junxiong Lin, Yan Wang, Jiawen Yu, Boyang Wang, Shaoqi Yan, Qing Zhao, Ziheng Zhou, Shuyong Gao, Wenqiang Zhang, | (参考訳) 動的表情認識(DFER)技術の現代技術は、映像コンテンツから表情の感情マッピングを導出することで顕著な進歩を促進する。
しかし、DFERデータセットは相当量のノイズデータを含んでいる。
ノイズは、ロジカルなラベル付けを損なう低品質なキャプチャと、アノテーションのバイアスによる誤ラベルに悩まされるインスタンスから発生し、データのユーザビリティに関する不確実性と、ラベルの信頼性に関する不確実性という2つの主要な不確実性を生み出します。
2種類の不確実性に対処するため,我々は,textbf{S}eeking \textbf{C}ertain data \textbf{I}n extensive \textbf{U}ncertain data (SCIU) を目的とした2段階のフレームワークを慎重に構築した。
このイニシアチブは、これらの不確実性のDFERデータセットを浄化することを目的としており、トレーニングプロセスでクリーンで検証されたデータのみが使用されることを保証する。
低品質な試料の問題を緩和するため, 低重量で使用不可能と判断された試料およびプーンの評価を行うCGP(Coarse-Grained Pruning)ステージを導入する。
不正確なアノテーションを持つサンプルに対しては、FGC(Fen-Grained Correction)ステージが予測安定性を評価し、誤ラベルデータの修正を行う。
さらに、SCIUは、一般的なDFER方法論とのシームレスな統合に適した、普遍的に互換性のあるプラグイン・アンド・プレイフレームワークとして考えられている。
一般的なDFERデータセットと、多数のベンチマークメソッドに対する厳密な実験は、SCIUの能力に基づいて、パフォーマンスメトリクスを著しく高めている。
The contemporary state-of-the-art of Dynamic Facial Expression Recognition (DFER) technology facilitates remarkable progress by deriving emotional mappings of facial expressions from video content, underpinned by training on voluminous datasets. Yet, the DFER datasets encompass a substantial volume of noise data. Noise arises from low-quality captures that defy logical labeling, and instances that suffer from mislabeling due to annotation bias, engendering two principal types of uncertainty: the uncertainty regarding data usability and the uncertainty concerning label reliability. Addressing the two types of uncertainty, we have meticulously crafted a two-stage framework aiming at \textbf{S}eeking \textbf{C}ertain data \textbf{I}n extensive \textbf{U}ncertain data (SCIU). This initiative aims to purge the DFER datasets of these uncertainties, thereby ensuring that only clean, verified data is employed in training processes. To mitigate the issue of low-quality samples, we introduce the Coarse-Grained Pruning (CGP) stage, which assesses sample weights and prunes those deemed unusable due to their low weight. For samples with incorrect annotations, the Fine-Grained Correction (FGC) stage evaluates prediction stability to rectify mislabeled data. Moreover, SCIU is conceived as a universally compatible, plug-and-play framework, tailored to integrate seamlessly with prevailing DFER methodologies. Rigorous experiments across prevalent DFER datasets and against numerous benchmark methods substantiates SCIU's capacity to markedly elevate performance metrics. | 翻訳日:2024-06-25 15:33:48 公開日:2024-06-24 |
# ResMaster: 構造的および微細な誘導による高分解能画像生成をマスターする
ResMaster: Mastering High-Resolution Image Generation via Structural and Fine-Grained Guidance ( http://arxiv.org/abs/2406.16476v1 ) ライセンス: Link先を確認 | Shuwei Shi, Wenbo Li, Yuechen Zhang, Jingwen He, Biao Gong, Yinqiang Zheng, | (参考訳) 拡散モデルは高品質な画像を生成するのに優れているが、4Kのような高解像度へのスケーリングは、しばしば過度に滑らかなコンテンツ、構造的歪み、繰り返しパターンをもたらす。
この目的のために,ResMasterを導入した。ResMasterは,解像度制限を超えた高品質な画像を生成するために,解像度制限付き拡散モデルを実現する。
具体的には、ResMasterは、事前訓練された拡散モデルによって作成された低解像度の参照画像を利用して、パッチ・バイ・パッチベースで高解像度の画像を作成するための構造的かつきめ細かなガイダンスを提供する。
コヒーレントなグローバル構造を確保するため、ResMasterは高分解能パッチの低周波成分を各復調ステップで低分解能参照と慎重に整列する。
微粒化誘導には、低解像度参照に基づく調整された画像プロンプトと、視覚言語モデルによって生成されたリッチテキストプロンプトが組み込まれている。
このアプローチは、局所的なパターンの歪みを著しく軽減し、詳細化を改善する。
大規模な実験により、ResMasterは高解像度画像生成のための新しいベンチマークを設定し、有望な効率を示す。
プロジェクトページはhttps://shuweis.github.io/ResMasterです。
Diffusion models excel at producing high-quality images; however, scaling to higher resolutions, such as 4K, often results in over-smoothed content, structural distortions, and repetitive patterns. To this end, we introduce ResMaster, a novel, training-free method that empowers resolution-limited diffusion models to generate high-quality images beyond resolution restrictions. Specifically, ResMaster leverages a low-resolution reference image created by a pre-trained diffusion model to provide structural and fine-grained guidance for crafting high-resolution images on a patch-by-patch basis. To ensure a coherent global structure, ResMaster meticulously aligns the low-frequency components of high-resolution patches with the low-resolution reference at each denoising step. For fine-grained guidance, tailored image prompts based on the low-resolution reference and enriched textual prompts produced by a vision-language model are incorporated. This approach could significantly mitigate local pattern distortions and improve detail refinement. Extensive experiments validate that ResMaster sets a new benchmark for high-resolution image generation and demonstrates promising efficiency. The project page is https://shuweis.github.io/ResMaster . | 翻訳日:2024-06-25 15:33:48 公開日:2024-06-24 |
# DaLPSR: リアルタイム画像スーパーリゾリューションのためのレバレッジ劣化対応言語プロンプト
DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution ( http://arxiv.org/abs/2406.16477v1 ) ライセンス: Link先を確認 | Aiwen Jiang, Zhi Wei, Long Peng, Feiqiang Liu, Wenbo Li, Mingwen Wang, | (参考訳) 低解像度画像に対する高解像度高解像度画像再構成のための超高解像度画像探索
近年、拡散に基づくモデルは、豊富な事前知識を持つ能力のために大きな注目を集めている。
一般的なテキストプロンプトに基づく拡散モデルの成功により、テキスト2画像の分野におけるテキスト制御の有効性が検証された。
しかし, 拡散モデルのランダム性特性と相まって, 低解像度画像によく見られる重度劣化を考えると, 過度に劣化した画像内の意味や劣化情報を適切に識別することは困難である。
これはしばしば意味的損失、視覚的アーティファクト、視覚的幻覚といった障害につながり、実用的な使用に重大な課題を生じさせる。
これらの課題に対処するために, 精度, 精細度, 高忠実度画像復元のために, 劣化対応言語プロンプトを活用することを提案する。
セマンティックコンテンツ記述や劣化プロンプトを含む補完的な事前事項を探索する。
具体的には、LR画像の劣化度を自動的に識別し、画像復元に有効な劣化先行時間を生成するために、画像復元プロンプトアライメントデコーダを提案する。
一方、事前訓練されたマルチモーダルな大言語モデルから、人間の知覚と密に整合した高レベルのセマンティックな先入観を導き、画像復元のための忠実度制御を確実にする。
いくつかの一般的な合成および実世界のベンチマークデータセットにおいて、最先端の手法との総合的な比較が行われた。
定量的および定性的な分析により,提案手法は,特に参照不要な指標に基づく実世界の場合において,新しい最先端の知覚品質レベルを達成することを示した。
Image super-resolution pursuits reconstructing high-fidelity high-resolution counterpart for low-resolution image. In recent years, diffusion-based models have garnered significant attention due to their capabilities with rich prior knowledge. The success of diffusion models based on general text prompts has validated the effectiveness of textual control in the field of text2image. However, given the severe degradation commonly presented in low-resolution images, coupled with the randomness characteristics of diffusion models, current models struggle to adequately discern semantic and degradation information within severely degraded images. This often leads to obstacles such as semantic loss, visual artifacts, and visual hallucinations, which pose substantial challenges for practical use. To address these challenges, this paper proposes to leverage degradation-aligned language prompt for accurate, fine-grained, and high-fidelity image restoration. Complementary priors including semantic content descriptions and degradation prompts are explored. Specifically, on one hand, image-restoration prompt alignment decoder is proposed to automatically discern the degradation degree of LR images, thereby generating beneficial degradation priors for image restoration. On the other hand, much richly tailored descriptions from pretrained multimodal large language model elicit high-level semantic priors closely aligned with human perception, ensuring fidelity control for image restoration. Comprehensive comparisons with state-of-the-art methods have been done on several popular synthetic and real-world benchmark datasets. The quantitative and qualitative analysis have demonstrated that the proposed method achieves a new state-of-the-art perceptual quality level, especially in real-world cases based on reference-free metrics. | 翻訳日:2024-06-25 15:33:48 公開日:2024-06-24 |
# EMMI -- Empathic Multimodal Motivational Interviews Dataset: Analyses and Annotations
EMMI -- Empathic Multimodal Motivational Interviews Dataset: Analyses and Annotations ( http://arxiv.org/abs/2406.16478v1 ) ライセンス: Link先を確認 | Lucie Galland, Catherine Pelachaud, Florian Pecune, | (参考訳) 治療におけるマルチモーダル相互作用の研究は、治療を支援するマルチモーダルバーチャルエージェントの開発に使用できるセラピストと患者行動の包括的理解をもたらす可能性がある。
本研究の目的は、セラピストが治療の課題目標(モチベーション・インタビューの古典的なステップを実践)と社会的目標(信頼関係の構築と共感の表現)をいかにうまく融合させるかを明らかにすることである。
さらに, 患者を様々な「タイプ」に分類し, 治療的アプローチの仕方も検討した。
本目的は,シミュレートされたモチベーションインタビュー会話からなるコーパスのマルチモーダルアノテーションで,アクターが患者とセラピストの役割を描写することである。
我々は、公開されている2つのMIコーパスであるAnnoMIとMotivational Interviewing DatasetからなるEMMIを紹介し、マルチモーダルアノテーションを追加します。
我々はこれらのアノテーションを分析し,社会的・共感的行動を強調したモチベーションインタビューを行う仮想エージェントを開発するための機能的振る舞いを特徴付ける。
分析の結果,治療者の行動に有意な差異を呈し,治療者の行動に適応する3つの患者群が認められた。
このことは、ダイアログの現在の状況やユーザの種類に応じて、セラピストが行動に適応できることの重要性を示している。
The study of multimodal interaction in therapy can yield a comprehensive understanding of therapist and patient behavior that can be used to develop a multimodal virtual agent supporting therapy. This investigation aims to uncover how therapists skillfully blend therapy's task goal (employing classical steps of Motivational Interviewing) with the social goal (building a trusting relationship and expressing empathy). Furthermore, we seek to categorize patients into various ``types'' requiring tailored therapeutic approaches. To this intent, we present multimodal annotations of a corpus consisting of simulated motivational interviewing conversations, wherein actors portray the roles of patients and therapists. We introduce EMMI, composed of two publicly available MI corpora, AnnoMI and the Motivational Interviewing Dataset, for which we add multimodal annotations. We analyze these annotations to characterize functional behavior for developing a virtual agent performing motivational interviews emphasizing social and empathic behaviors. Our analysis found three clusters of patients expressing significant differences in behavior and adaptation of the therapist's behavior to those types. This shows the importance of a therapist being able to adapt their behavior depending on the current situation within the dialog and the type of user. | 翻訳日:2024-06-25 15:33:48 公開日:2024-06-24 |
# 前向き学習におけるNeoHebbian Dynamicsの新たな展開:ニューロモルフィックコンピューティングへの応用
Emerging NeoHebbian Dynamics in Forward-Forward Learning: Implications for Neuromorphic Computing ( http://arxiv.org/abs/2406.16479v1 ) ライセンス: Link先を確認 | Erik B. Terres-Escudero, Javier Del Ser, Pablo García-Bringas, | (参考訳) 神経計算の進歩は、主に勾配バックプロパゲーションアルゴリズム(BP)に依存している。
しかし、最近の非定常データモデリングへのシフトは、このヒューリスティックな限界を強調し、その適応能力が生物学的脳で見られるものとは程遠いことを明らかにしている。
BPとは異なり、重み更新は逆誤差伝搬経路によって計算されるが、Hebbian Learning dynamicsは層内部の情報のみを使用してシナプス更新を提供する。
これは、BPの欠点を克服すると仮定された、生物学的に実証可能な学習アルゴリズムへの関心を喚起した。
この文脈で、Hinton氏は最近、各レイヤに局所的な学習ルールを採用し、複数のデータモデリングタスクでその有効性を実証したフォワード・フォワードアルゴリズム(FFA)を導入した。
この研究において、局所学習を駆動する良さ関数として2乗ユークリッドノルムを用いる場合、結果のFFAはネオヘビアン学習規則と同値である。
この結果を検証するために、アナログネットワークにおけるFFAのトレーニング行動と、スパイクニューラルネットワークにおけるヘビアン適応を比較した。
実験により,FFAの両バージョンが類似の精度と潜伏分布を生成することが示された。
今回報告した知見は,生物学習規則と現在使用されている学習アルゴリズムを結びつけた実証的な証拠であり,FFAからヘビアン学習規則への肯定的な結果の補間への道を開くものである。
同時に、FFAの下で訓練されたアナログネットワークがニューロモルフィックコンピューティングに直接適用され、エネルギー使用量が減少し、計算速度が向上する可能性が示唆された。
Advances in neural computation have predominantly relied on the gradient backpropagation algorithm (BP). However, the recent shift towards non-stationary data modeling has highlighted the limitations of this heuristic, exposing that its adaptation capabilities are far from those seen in biological brains. Unlike BP, where weight updates are computed through a reverse error propagation path, Hebbian learning dynamics provide synaptic updates using only information within the layer itself. This has spurred interest in biologically plausible learning algorithms, hypothesized to overcome BP's shortcomings. In this context, Hinton recently introduced the Forward-Forward Algorithm (FFA), which employs local learning rules for each layer and has empirically proven its efficacy in multiple data modeling tasks. In this work we argue that when employing a squared Euclidean norm as a goodness function driving the local learning, the resulting FFA is equivalent to a neo-Hebbian Learning Rule. To verify this result, we compare the training behavior of FFA in analog networks with its Hebbian adaptation in spiking neural networks. Our experiments demonstrate that both versions of FFA produce similar accuracy and latent distributions. The findings herein reported provide empirical evidence linking biological learning rules with currently used training algorithms, thus paving the way towards extrapolating the positive outcomes from FFA to Hebbian learning rules. Simultaneously, our results imply that analog networks trained under FFA could be directly applied to neuromorphic computing, leading to reduced energy usage and increased computational speed. | 翻訳日:2024-06-25 15:24:04 公開日:2024-06-24 |
# 四元系活性化関数を用いた四元系ニューラルネットワークの改良
Improving Quaternion Neural Networks with Quaternionic Activation Functions ( http://arxiv.org/abs/2406.16481v1 ) ライセンス: Link先を確認 | Johannes Pöppelbaum, Andreas Schwung, | (参考訳) 本稿では、よく使われる分割活性化関数の代替として、四元数等級または位相を変更できる新しい四元数活性化関数を提案する。
四元数活性化関数に関連する基準を定義し,この分析に基づいて新しい活性化関数を提案する。
ReLU や Tanh のような既知の活性化関数を四元数要素に別々に適用する代わりに、これらの活性化関数は四元数の性質を考慮し、四元数空間 $\mathbb{H}$ を尊重する。
特に、全ての四元数成分を用いて全ての出力成分を計算し、例えば四元数畳み込みを活性化関数へ向けてハミルトン積の利点を実行する。
提案した活性化関数は、勾配降下法で訓練された任意の四元数値ニューラルネットワークに組み込むことができる。
さらに, 活性化関数の導関数について考察し, 位相に影響を及ぼす活性化関数に対して有益な特性を観察する。
具体的には、基本的には入力範囲全体に敏感であることを証明し、改良された勾配流を期待できる。
CIFAR-10とSVHNデータセットを用いた2つの画像分類課題における分割ReLUと分割Tanhとの比較を含む,提案した四元数活性化関数の実験的評価を行った。
そこでは、特に位相に影響を及ぼす四元数活性化関数は、常により良い性能をもたらすことを証明している。
In this paper, we propose novel quaternion activation functions where we modify either the quaternion magnitude or the phase, as an alternative to the commonly used split activation functions. We define criteria that are relevant for quaternion activation functions, and subsequently we propose our novel activation functions based on this analysis. Instead of applying a known activation function like the ReLU or Tanh on the quaternion elements separately, these activation functions consider the quaternion properties and respect the quaternion space $\mathbb{H}$. In particular, all quaternion components are utilized to calculate all output components, carrying out the benefit of the Hamilton product in e.g. the quaternion convolution to the activation functions. The proposed activation functions can be incorporated in arbitrary quaternion valued neural networks trained with gradient descent techniques. We further discuss the derivatives of the proposed activation functions where we observe beneficial properties for the activation functions affecting the phase. Specifically, they prove to be sensitive on basically the whole input range, thus improved gradient flow can be expected. We provide an elaborate experimental evaluation of our proposed quaternion activation functions including comparison with the split ReLU and split Tanh on two image classification tasks using the CIFAR-10 and SVHN dataset. There, especially the quaternion activation functions affecting the phase consistently prove to provide better performance. | 翻訳日:2024-06-25 15:24:04 公開日:2024-06-24 |
# 非エルミートBCS超流動の散逸非対称ハバードモデルにおける相図
Phase diagram of non-Hermitian BCS superfluids in a dissipative asymmetric Hubbard model ( http://arxiv.org/abs/2406.16482v1 ) ライセンス: Link先を確認 | Soma Takemori, Kazuki Yamamoto, Akihisa Koga, | (参考訳) 非エルミタン(NH)の非対称ホッピングと複素値相互作用を持つフェルミ・ハッバードモデルについて検討した。
NH BCS理論により、ホッピングの弱い非対称性は、BdGハミルトニアンの固有値の虚部だけにしか影響しないので、BCS超流動性には影響しない。
$d$次元超立方体格子の体系的解析は、状態の密度の特異性は、通常状態と散逸誘起超流動状態の間の相境界に影響を与えることを明らかにしている。
この結果は,光解離法と局所的損失と非局所的ラビ結合を用いて超低温原子で測定し,量子ガス顕微鏡で測定したヌル測定結果のポストセレクトによって評価することができる。
We investigate the non-Hermitian (NH) attractive Fermi-Hubbard model with asymmetric hopping and complex-valued interactions, which should be realized by collective one-body loss and two-body loss. By means of the NH BCS theory, we find that the weak asymmetry of the hopping does not affect the BCS superfluidity since it only affects the imaginary part of the eigenvalues of the BdG Hamiltonian. Systematic analysis in the $d$-dimensional hypercubic lattices clarifies that the singularity in the density of states affects the phase boundary between the normal and dissipation-induced superfluid states. Our results can be tested in ultracold atoms by using the photoassociation techniques and a nonlocal Rabi coupling with local losses and postselecting null measurement outcomes utilized by quantum-gas microscopes. | 翻訳日:2024-06-25 15:24:04 公開日:2024-06-24 |
# 欠失変化下におけるロバスト予測
Robust prediction under missingness shifts ( http://arxiv.org/abs/2406.16484v1 ) ライセンス: Link先を確認 | Patrick Rockenschaub, Zhicong Xian, Alireza Zamanian, Marta Piperno, Octavia-Andreea Ciora, Elisabeth Pachl, Narges Ahmidi, | (参考訳) 未知の共変量では予測がより困難になる。
不足に対処するために選択されるメソッドは、モデルのパフォーマンスに大きく影響します。
多くの実世界の問題において、最高の予測性能は、欠落している価値の有意義な性質を活用できるモデルによって達成される。
しかし、コバリアントが欠落する理由は、モデルが実際にデプロイされた後に変更される可能性がある。
このような欠落が生じた場合、失っている値の条件確率はターゲットデータによって異なる。
ソースデータの予測性能はもはや良好な選択基準にはなり得ず、情報不足に依存しないアプローチが好ましい。
しかし,ベイズ予測器は観測データにのみ依存する不明瞭な変化によって変化しないことを示す。
ベイズ予測器の任意の一貫した推定器は、これらの条件下で頑健な予測をもたらす可能性があるが、異なる方法が異なる種類のシフトに対して堅牢であることを示す実験的に示している。
欠損シフトが無視できない場合、ベイズ予測器はシフトによって変化する可能性がある。
この場合、どちらのアプローチもベイズ予測器を回復しないが、不足を無視することが非常に有益であることが実証的に判明した。
Prediction becomes more challenging with missing covariates. What method is chosen to handle missingness can greatly affect how models perform. In many real-world problems, the best prediction performance is achieved by models that can leverage the informative nature of a value being missing. Yet, the reasons why a covariate goes missing can change once a model is deployed in practice. If such a missingness shift occurs, the conditional probability of a value being missing differs in the target data. Prediction performance in the source data may no longer be a good selection criterion, and approaches that do not rely on informative missingness may be preferable. However, we show that the Bayes predictor remains unchanged by ignorable shifts for which the probability of missingness only depends on observed data. Any consistent estimator of the Bayes predictor may therefore result in robust prediction under those conditions, although we show empirically that different methods appear robust to different types of shifts. If the missingness shift is non-ignorable, the Bayes predictor may change due to the shift. While neither approach recovers the Bayes predictor in this case, we found empirically that disregarding missingness was most beneficial when it was highly informative. | 翻訳日:2024-06-25 15:24:04 公開日:2024-06-24 |
# リワードモデリングのための包括的選好データ収集に向けて
Towards Comprehensive Preference Data Collection for Reward Modeling ( http://arxiv.org/abs/2406.16486v1 ) ライセンス: Link先を確認 | Yulan Hu, Qingyang Li, Sheng Ouyang, Ge Chen, Kaihui Chen, Lijun Mei, Xucheng Ye, Fuzheng Zhang, Yong Liu, | (参考訳) Reinforcement Learning from Human Feedback (RLHF)は、大規模言語モデル(LLM)と人間の嗜好との整合を促進し、それによって生成された応答の質を高める。
RLHFの重要な構成要素は報酬モデルであり、それは嗜好データに基づいて訓練され、推論段階でスカラー報酬を出力する。
しかし、選好データの収集は依然として徹底的な調査を欠いている。
近年の研究では、選好データはAIか人間によって収集され、選択されたインスタンスと拒否されたインスタンスがペアの応答で識別されていることが示されている。
このプロセスがノイズを効果的に除去し、収集したデータの十分な多様性を保証するかどうかを問う。
これらの懸念に対処するために、我々は初めて、プロセスを4つの段階に分解する、選好データ収集のための包括的なフレームワークを提案する。
この構造的アプローチは、人間の労働への依存を減らしながら、高品質な嗜好の収集を保証する。
提案手法の有効性を実証し,異なる段階で収集したデータに基づいて総合的な実験を行った。
Reinforcement Learning from Human Feedback (RLHF) facilitates the alignment of large language models (LLMs) with human preferences, thereby enhancing the quality of responses generated. A critical component of RLHF is the reward model, which is trained on preference data and outputs a scalar reward during the inference stage. However, the collection of preference data still lacks thorough investigation. Recent studies indicate that preference data is collected either by AI or humans, where chosen and rejected instances are identified among pairwise responses. We question whether this process effectively filters out noise and ensures sufficient diversity in collected data. To address these concerns, for the first time, we propose a comprehensive framework for preference data collection, decomposing the process into four incremental steps: Prompt Generation, Response Generation, Response Filtering, and Human Labeling. This structured approach ensures the collection of high-quality preferences while reducing reliance on human labor. We conducted comprehensive experiments based on the data collected at different stages, demonstrating the effectiveness of the proposed data collection method. | 翻訳日:2024-06-25 15:24:04 公開日:2024-06-24 |
# マルチビューグラフクラスタリングによるゴッドヘッダファイルの分解
Decomposing God Header File via Multi-View Graph Clustering ( http://arxiv.org/abs/2406.16487v1 ) ライセンス: Link先を確認 | Yue Wang, Wenhui Chang, Yanzhen Zou, Tongwei Deng, Bing Xie, | (参考訳) God Header Fileは、大きなコードサイズと大きなファイルインパクトを持つヘッダファイルを指す。
このようなファイルはコードの理解が困難で、コンパイルが遅くなり、最終的にソフトウェアの進化に伴うメンテナンスコストが増大する。
この概念はゴッドクラスに似ているが、既存のゴッドクラスのリファクタリング方法はゴッドヘッダファイルには不適切である。
その理由はヘッダファイルのコード要素が大部分が短い宣言型であり、システム全体のビルド依存はコンパイル効率を改善するために考慮されるべきであるという事実にある。
一方、これらの手法は、ゴッドヘッダファイルの分解において非常に重要である循環的依存関係の懸念を見落としている。
これらの課題に対処するために,マルチビューグラフクラスタリングに基づくゴッドヘッダファイル分解手法を提案する。
まず、複数の関係を持つコード要素グラフを構築します。
そして、グラフの粗大化後、関連するコード要素のクラスタを識別するために、新しいマルチビューグラフクラスタリングアルゴリズムを適用し、クラスタリング結果の循環的依存関係に対処するヒューリスティックアルゴリズムを導入する。
我々は、異なるプロジェクトから6つの現実世界のゴッドヘッダファイルとともに、合成データセットに対するアプローチを評価した。
その結果,既存のゴッドクラスリファクタリング法に比べて11.5%高い精度が得られることがわかった。
さらに,実世界のGod Headerファイルのモジュール性が向上し,過去のコミットに対する再コンパイル時間を15%から60%削減した。
God Header File refers to a header file with large code size and wide file impact. Such files pose difficulties in code comprehension and slow down compilation, ultimately increasing the maintenance cost during software evolution. Although this concept is similar to God Class, existing refactoring methods for God Classes are inappropriate for God Header Files. The reason lies in the fact that the code elements in header files are mostly short declaration types, and build dependencies of the entire system should be considered with the aim of improving compilation efficiency. Meanwhile, these methods overlook the concern of cyclic dependencies, which holds immense importance in the God Header File decomposition. To address these challenges, this paper proposes a God Header File decomposing approach based on multi-view graph clustering. It first constructs a code element graph with multiple relationships. Then after coarsening the graph, a novel multi-view graph clustering algorithm is applied to identify clusters of closely related code elements, and a heuristic algorithm is introduced to address the cyclic dependencies in the clustering result. We evaluate our approach on a synthetic dataset as well as six real-world God Header Files from different projects. The results show that our approach could achieve 11.5% higher accuracy in comparison to existing God Class refactoring methods. Moreover, our decomposition results attain better modularity on all the real-world God Header Files and reduce recompilation time for historical commits by 15% to 60%. | 翻訳日:2024-06-25 15:24:04 公開日:2024-06-24 |
# ボース・アインシュタイン凝縮体の全光学的生成と2Hz繰り返し速度
All-optical production of Bose-Einstein condensates with 2 Hz repetition rate ( http://arxiv.org/abs/2406.16488v1 ) ライセンス: Link先を確認 | Mareike Hetzel, Martin Quensen, Jan Simon Haase, Carsten Klempt, | (参考訳) 中性原子のボース・アインシュタイン凝縮(BECs)は、基礎研究と精密気象学において重要な量子システムである。
多くのアプリケーションは、科学応用において最適化されたデータ取得率のために、BECの短い準備時間を必要とし、デッドタイムを減らし、原子量子センサーの帯域幅を改善している。
本稿では,2Hz以上の繰り返し速度を有するルビジウムBECの生成について報告する。
このシステムは、レーザービームの空間変調によって生じる動的に調整された光学ポテンシャルにおける強制的な蒸発に依存している。
本システムは,ユビキタスルビジウムBECの多用途源を提供し,高精度原子干渉計の活用を促進する。
Bose-Einstein condensates (BECs) of neutral atoms constitute an important quantum system for fundamental research and precision metrology. Many applications require short preparation times of BECs, for example, for optimized data acquisition rates in scientific applications, and reduced dead times and improved bandwidths for atomic quantum sensors. Here, we report on the generation of rubidium BECs with a repetition rate of more than 2 Hz. The system relies on forced evaporation in a dynamically adjusted optical potential, which is created by the spatial modulation of laser beams. Our system provides a versatile source of the ubiquitous rubidium BECs, and promotes their exploitation for high-precision atom interferometers. | 翻訳日:2024-06-25 15:24:04 公開日:2024-06-24 |
# Deepfakeのツイートを自動的に検出
Deepfake tweets automatic detection ( http://arxiv.org/abs/2406.16489v1 ) ライセンス: Link先を確認 | Adam Frej, Adrian Kaminski, Piotr Marciniak, Szymon Szmajdzinski, Soveatin Kuntur, Anna Wroblewska, | (参考訳) 本研究では,NLP(Advanced Natural Language Processing)技術を活用して,真のテキストとAI生成テキストを区別することで,DeepFakeのツイートを検出するという重要な課題に対処する。
誤報の頻度が高まる中、我々の研究はTweepFakeデータセットを使用して、さまざまな機械学習モデルのトレーニングと評価を行っている。
本研究の目的は,DeepFakeコンテンツ認識のための効果的な戦略を特定し,デジタルコミュニケーションの完全性を高めることである。
AI生成の誤情報を検出するための信頼性の高い方法を開発することで、この研究はより信頼性の高いオンライン情報環境に寄与する。
This study addresses the critical challenge of detecting DeepFake tweets by leveraging advanced natural language processing (NLP) techniques to distinguish between genuine and AI-generated texts. Given the increasing prevalence of misinformation, our research utilizes the TweepFake dataset to train and evaluate various machine learning models. The objective is to identify effective strategies for recognizing DeepFake content, thereby enhancing the integrity of digital communications. By developing reliable methods for detecting AI-generated misinformation, this work contributes to a more trustworthy online information environment. | 翻訳日:2024-06-25 15:24:04 公開日:2024-06-24 |
# SemEval2024 Task 5: The Legal Argument Reasoning Task in Civil Procedure
eagerlearners at SemEval2024 Task 5: The Legal Argument Reasoning Task in Civil Procedure ( http://arxiv.org/abs/2406.16490v1 ) ライセンス: Link先を確認 | Hoorieh Sabzevari, Mohammadmostafa Rostamkhani, Sauleh Eetemadi, | (参考訳) 本研究では,3大言語モデルと2大入力トークンサイズを持つ2つのモデル,および2つの法定データを用いた事前学習モデルを用いて,ゼロショット法の性能について検討した。
私たちの主要なデータセットは、米国民事訴訟のドメインから来ています。
これには、訴訟の要約、特定の質問、潜在的な答え、そして、各解決がなぜ関連しているのかに関する詳細な説明が含まれる。
異なる手法を比較することで、法的なデータセットにある複雑さを効果的に扱えるかを理解することを目指していた。
以上の結果から,大規模言語モデルのゼロショット手法が複雑なデータをいかに理解できるかが示唆された。
これらの実験でF1スコアが最も高かったのは64%でした。
This study investigates the performance of the zero-shot method in classifying data using three large language models, alongside two models with large input token sizes and the two pre-trained models on legal data. Our main dataset comes from the domain of U.S. civil procedure. It includes summaries of legal cases, specific questions, potential answers, and detailed explanations for why each solution is relevant, all sourced from a book aimed at law students. By comparing different methods, we aimed to understand how effectively they handle the complexities found in legal datasets. Our findings show how well the zero-shot method of large language models can understand complicated data. We achieved our highest F1 score of 64% in these experiments. | 翻訳日:2024-06-25 15:24:04 公開日:2024-06-24 |
# メタ最適化手法によるValence Preferenceのドメイン間転送
Cross-domain Transfer of Valence Preferences via a Meta-optimization Approach ( http://arxiv.org/abs/2406.16494v1 ) ライセンス: Link先を確認 | Chuang Zhao, Hongke Zhao, Ming He, Xiaomeng Li, Jianping Fan, | (参考訳) クロスドメインレコメンデーションは、データのスパーシリティとコールドスタート問題を緩和するための潜在的な道を提供する。
埋め込みとマッピングは、古典的なクロスドメイン研究のジャンルとして、2つのドメイン間の表現変換を実行する共通のマッピング関数を特定することを目的としている。
それにもかかわらず、特に重複するユーザが不足しているシナリオでは、従来の粗い好み表現、非個人化マッピング機能、重複するユーザの過度な依存がパフォーマンスを制限している。
上記の課題に対処するため,CVPMという新しいドメイン間アプローチを提案する。
CVPMは、パラメトリックメタラーニングと自己教師付き学習のハイブリッドアーキテクチャとして、ドメイン間の関心伝達を形式化する。
具体的には,ユーザの嗜好と有能な嗜好理論に対する深い洞察から,ユーザの肯定的な嗜好と否定的な行動の間には有意な違いがあると考え,その分布を学習するために区別エンコーダを用いる。
特に、事前学習されたモデルとアイテムの人気を利用して擬似相互作用アイテムをサンプリングし、両分布の整合性を確保する。
嗜好伝達のパーソナライズを保証するために、各ユーザのマッピングを共通の変換とパーソナライズされたバイアスの2つの部分として扱い、そこで、パーソナライズされたバイアスを生成するネットワークをメタラーナーによって出力する。
さらに、重複するユーザに対する教師付き損失に加えて、グループレベルと個人レベルの両方から重複しないユーザに対するコントラスト的タスクを設計し、モデルスキューを回避し、表現の意味論を強化する。
実験データ分析と広範囲な実験結果から,提案手法の有効性と進歩が示された。
Cross-domain recommendation offers a potential avenue for alleviating data sparsity and cold-start problems. Embedding and mapping, as a classic cross-domain research genre, aims to identify a common mapping function to perform representation transformation between two domains. Nevertheless, previous coarse-grained preference representations, non-personalized mapping functions, and excessive reliance on overlapping users limit their performance, especially in scenarios where overlapping users are sparse. To address aforementioned challenges, we propose a novel cross-domain approach, namely CVPM. CVPM formalizes cross-domain interest transfer as a hybrid architecture of parametric meta-learning and self-supervised learning, which not only transfers user preferences at a finer level, but also enables signal enhancement with the knowledge of non-overlapping users. Specifically, with deep insights into user preferences and valence preference theory, we believe that there exists significant difference between users' positive preferences and negative behaviors, and thus employ differentiated encoders to learn their distributions. In particular, we further utilize the pre-trained model and item popularity to sample pseudo-interaction items to ensure the integrity of both distributions. To guarantee the personalization of preference transfer, we treat each user's mapping as two parts, the common transformation and the personalized bias, where the network used to generate the personalized bias is output by a meta-learner. Furthermore, in addition to the supervised loss for overlapping users, we design contrastive tasks for non-overlapping users from both group and individual-levels to avoid model skew and enhance the semantics of representations. Exhaustive data analysis and extensive experimental results demonstrate the effectiveness and advancement of our proposed framework. | 翻訳日:2024-06-25 15:24:04 公開日:2024-06-24 |
# OTCE:ハイブリッドSSMとエキスパートのクロスドメイン混合によるオブザーバ・シンカー・コンシーバー・エクスプレッサーの構築
OTCE: Hybrid SSM and Attention with Cross Domain Mixture of Experts to construct Observer-Thinker-Conceiver-Expresser ( http://arxiv.org/abs/2406.16495v1 ) ライセンス: Link先を確認 | Jingze Shi, Ting Xie, Bingheng Wu, Chunjun Zheng, Kai Wang, | (参考訳) 近年の研究では、言語モデリングタスクにおいて、MambaとTransformerアーキテクチャを組み合わせることで、MambaやTransformerアーキテクチャを単独で優れた性能を発揮することが示されている。
二次自己アテンション機構は、シーケンス内の任意の要素の長期的な依存関係を扱う際の選択状態空間の欠点を効果的に緩和する。
本稿では、選択状態空間モデルと二次的注意を結びつける位置情報注入法を提案し、これら2つのアーキテクチャをクロスシェアドメインを持つハイブリッド専門家と統合し、両者の利点を享受する。
我々は、よりバイオミメティックなアイデアを持つ新しいアーキテクチャを設計する: Observer-Thinker-Conceiver-Expresser (OTCE)。
Recent research has shown that combining Mamba with Transformer architecture, which has selective state space and quadratic self-attention mechanism, outperforms using Mamba or Transformer architecture alone in language modeling tasks. The quadratic self-attention mechanism effectively alleviates the shortcomings of selective state space in handling long-term dependencies of any element in the sequence. We propose a position information injection method that connects the selective state space model with the quadratic attention, and integrates these two architectures with hybrid experts with cross-sharing domains, so that we can enjoy the advantages of both. We design a new architecture with a more biomimetic idea: Observer-Thinker-Conceiver-Expresser (OTCE), which can compete with well-known medium-scale open-source language models on a small scale in language modeling tasks. | 翻訳日:2024-06-25 15:24:04 公開日:2024-06-24 |
# 適応バランス探索に基づくデュアルチャネル粒子群最適化アルゴリズム
A Dual-Channel Particle Swarm Optimization Algorithm Based on Adaptive Balance Search ( http://arxiv.org/abs/2406.16500v1 ) ライセンス: Link先を確認 | Zhenxing Zhang, | (参考訳) 探索(Er)と搾取(Ei)のバランスは、異なる問題に対する粒子群最適化(PSO)アルゴリズムの一般化性能を決定する。
地域最低限付近のグローバルベストによるバランス不足は広く研究されているが、PSOに存在する個人ベストポジション(P)とグローバルベストポジション(G)に関する2つの行動に体系的に注意を払っている学者は少ない。
1) P's uncontrollable-exploitation and involuntary-exploration guidance behavior。
2) Gのフルタイムおよびグローバルガイダンス行動はErとEiのバランスに悪影響を及ぼす。
これに関して、まずバランスに影響を与えるメカニズムを明らかにし、Er と Ei のバランスを改善するための3つの重要なポイントを指摘し、P と G の結合を排除し、P を制御可能な探索および自発的探索誘導行動で強化し、G のフルタイムおよびグローバルガイダンス行動を制御する。
次に、適応バランス探索(DCPSO-ABS)に基づく二重チャネルPSOアルゴリズムを提案する。
このアルゴリズムは、PとGの相互作用を緩和し、PとGの動作を制御し、一方、Pを自発的探索および制御可能な探索誘導行動で強化する適応バランス探索戦略と、Gのフルタイムおよびグローバルガイダンス動作を適応的に制御する。
最後に,57のベンチマーク関数に対する3種類の実験を行い,提案アルゴリズムが選択した最先端アルゴリズムよりも高い一般化性能を有することを示す。
The balance between exploration (Er) and exploitation (Ei) determines the generalization performance of the particle swarm optimization (PSO) algorithm on different problems. Although the insufficient balance caused by global best being located near a local minimum has been widely researched, few scholars have systematically paid attention to two behaviors about personal best position (P) and global best position (G) existing in PSO. 1) P's uncontrollable-exploitation and involuntary-exploration guidance behavior. 2) G's full-time and global guidance behavior, each of which negatively affects the balance of Er and Ei. With regards to this, we firstly discuss the two behaviors, unveiling the mechanisms by which they affect the balance, and further pinpoint three key points for better balancing Er and Ei: eliminating the coupling between P and G, empowering P with controllable-exploitation and voluntary-exploration guidance behavior, controlling G's full-time and global guidance behavior. Then, we present a dual-channel PSO algorithm based on adaptive balance search (DCPSO-ABS). This algorithm entails a dual-channel framework to mitigate the interaction of P and G, aiding in regulating the behaviors of P and G, and meanwhile an adaptive balance search strategy for empowering P with voluntary-exploration and controllable-exploitation guidance behavior as well as adaptively controlling G's full-time and global guidance behavior. Finally, three kinds of experiments on 57 benchmark functions are designed to demonstrate that our proposed algorithm has stronger generalization performance than selected state-of-the-art algorithms. | 翻訳日:2024-06-25 15:24:04 公開日:2024-06-24 |
# UNICAD: 攻撃検出・騒音低減・新しいクラス識別のための統一的アプローチ
UNICAD: A Unified Approach for Attack Detection, Noise Reduction and Novel Class Identification ( http://arxiv.org/abs/2406.16501v1 ) ライセンス: Link先を確認 | Alvaro Lopez Pellicer, Kittipos Giatgong, Yi Li, Neeraj Suri, Plamen Angelov, | (参考訳) ディープニューラルネットワーク(DNN)の利用が普及するにつれて、敵対的な攻撃に対する脆弱性や、目に見えないクラスを扱う際の制限が大きな課題となっている。
最先端技術は、特定の敵の攻撃シナリオ、分類、あるいは学習の進化をカバーする個々の問題に取り組むための個別のソリューションを提供する。
しかし、現実世界のシステムは、分類精度を犠牲にすることなく、幅広い敵攻撃を検知し、回復することができ、かつ、.bf unseen"シナリオで柔軟に作用する必要がある。
本稿では, 適応型ソリューションを実現するために, 様々な技術を統合する新しいフレームワークとして, UNICADを提案する。
対象画像分類のために、UNICADは正確な画像分類を達成し、未知のクラスを検出し、自己エンコーダをデノナイズしたプロトタイプと類似性に基づくDNNを用いて敵攻撃から回復する。
CIFAR-10データセットで行った実験は、UNICADが対向緩和および見知らぬクラス分類において有効であり、従来のモデルよりも優れていたことを示している。
As the use of Deep Neural Networks (DNNs) becomes pervasive, their vulnerability to adversarial attacks and limitations in handling unseen classes poses significant challenges. The state-of-the-art offers discrete solutions aimed to tackle individual issues covering specific adversarial attack scenarios, classification or evolving learning. However, real-world systems need to be able to detect and recover from a wide range of adversarial attacks without sacrificing classification accuracy and to flexibly act in {\bf unseen} scenarios. In this paper, UNICAD, is proposed as a novel framework that integrates a variety of techniques to provide an adaptive solution. For the targeted image classification, UNICAD achieves accurate image classification, detects unseen classes, and recovers from adversarial attacks using Prototype and Similarity-based DNNs with denoising autoencoders. Our experiments performed on the CIFAR-10 dataset highlight UNICAD's effectiveness in adversarial mitigation and unseen class classification, outperforming traditional models. | 翻訳日:2024-06-25 15:24:04 公開日:2024-06-24 |
# LOGCAN++:リモートセンシング画像のセマンティックセグメンテーションのためのローカル・グローバル・クラス・アウェアネットワーク
LOGCAN++: Local-global class-aware network for semantic segmentation of remote sensing images ( http://arxiv.org/abs/2406.16502v1 ) ライセンス: Link先を確認 | Xiaowen Ma, Rongrong Lian, Zhenkai Wu, Hongbo Guo, Mengting Ma, Sensen Wu, Zhenhong Du, Siyang Song, Wei Zhang, | (参考訳) リモートセンシング画像は通常、複雑な背景、スケールと向きのバリエーション、およびクラス内の大きなばらつきによって特徴づけられる。
一般的なセマンティックセグメンテーション手法は上記の問題を十分に調査することができないため、リモートセンシング画像セグメンテーションの性能は限られている。
本稿では,グローバルクラス認識(GCA)モジュールと複数のローカルクラス認識(LCA)モジュールからなる,リモートセンシング画像用にカスタマイズされたセマンティックセマンティックセマンティックセマンティクスモデルであるLOGCAN++を提案する。
GCAモジュールは、クラスレベルのコンテキストモデリングのためのグローバル表現をキャプチャして、バックグラウンドノイズの干渉を低減する。
LCAモジュールは、大域的なクラス表現と間接的にピクセルを関連づける中間知覚要素として局所クラス表現を生成し、大規模なクラス内分散問題に対処することを目標としている。
特に,局所クラス表現の適応抽出のためのLCAモジュールにアフィン変換を導入し,リモートセンシング画像のスケールや方向の変動を効果的に許容する。
3つのベンチマークデータセットの大規模な実験により、我々のLOGCAN++は、現在の主流の汎用およびリモートセマンティックセマンティックセグメンテーションメソッドより優れており、スピードと精度のトレードオフがより良くなっています。
コードはhttps://github.com/xwmaxwma/rssegmentation.comで入手できる。
Remote sensing images usually characterized by complex backgrounds, scale and orientation variations, and large intra-class variance. General semantic segmentation methods usually fail to fully investigate the above issues, and thus their performances on remote sensing image segmentation are limited. In this paper, we propose our LOGCAN++, a semantic segmentation model customized for remote sensing images, which is made up of a Global Class Awareness (GCA) module and several Local Class Awareness (LCA) modules. The GCA module captures global representations for class-level context modeling to reduce the interference of background noise. The LCA module generates local class representations as intermediate perceptual elements to indirectly associate pixels with the global class representations, targeting at dealing with the large intra-class variance problem. In particular, we introduce affine transformations in the LCA module for adaptive extraction of local class representations to effectively tolerate scale and orientation variations in remotely sensed images. Extensive experiments on three benchmark datasets show that our LOGCAN++ outperforms current mainstream general and remote sensing semantic segmentation methods and achieves a better trade-off between speed and accuracy. Code is available at https://github.com/xwmaxwma/rssegmentation. | 翻訳日:2024-06-25 15:24:04 公開日:2024-06-24 |
# $\text{Alpha}^2$:Deep Reinforcement Learning を用いた論理式アルファの発見
$\text{Alpha}^2$: Discovering Logical Formulaic Alphas using Deep Reinforcement Learning ( http://arxiv.org/abs/2406.16505v1 ) ライセンス: Link先を確認 | Feng Xu, Yan Yin, Xinyu Zhang, Tianyuan Liu, Shengyi Jiang, Zongzhang Zhang, | (参考訳) アルファは量的取引のシグナルを提供する上で重要である。
業界は、その解釈可能性と分析の容易さに関する公式アルファの発見を、表現的だが過度に適合する黒ボックスアルファと比較して高く評価している。
本研究では, 公式αの発見に焦点をあてる。
公式αのコレクションを自動生成する以前の研究は、主に遺伝的プログラミング(GP)に基づいており、これは初期集団に敏感で、局所最適に変換し、計算速度を遅くするという問題に悩まされていることが知られている。
近年, アルファ発見のための深部強化学習(DRL)の取り組みは, アルファ相関や妥当性などの重要な実践的考察に完全には対応していない。
本稿では,プログラム構築としてアルファ発見プロセスを定式化し,DRLを用いたアルファ発見のための新しいフレームワークを提案する。
我々のエージェントである$\text{Alpha}^2$は評価基準に最適化されたアルファプログラムを組み立てます。
DRLでガイドされた探索アルゴリズムは、潜在的なアルファ結果の値推定に基づいて探索空間をナビゲートする。
評価基準はアルファのパフォーマンスと多様性の両方を奨励し、最終的な取引戦略を改善する。
探索αの定式化はまた、事前計算次元解析の利点をもたらし、アルファの論理的健全性を確保し、膨大な探索空間を広範囲に切断する。
実世界の株式市場での実証実験では、様々な論理的かつ効果的なアルファを識別する$\text{Alpha}^2$の能力を示し、最終的な取引戦略の性能を大幅に向上させる。
私たちのメソッドのコードはhttps://github.com/x35f/alpha2.orgで公開されています。
Alphas are pivotal in providing signals for quantitative trading. The industry highly values the discovery of formulaic alphas for their interpretability and ease of analysis, compared with the expressive yet overfitting-prone black-box alphas. In this work, we focus on discovering formulaic alphas. Prior studies on automatically generating a collection of formulaic alphas were mostly based on genetic programming (GP), which is known to suffer from the problems of being sensitive to the initial population, converting to local optima, and slow computation speed. Recent efforts employing deep reinforcement learning (DRL) for alpha discovery have not fully addressed key practical considerations such as alpha correlations and validity, which are crucial for their effectiveness. In this work, we propose a novel framework for alpha discovery using DRL by formulating the alpha discovery process as program construction. Our agent, $\text{Alpha}^2$, assembles an alpha program optimized for an evaluation metric. A search algorithm guided by DRL navigates through the search space based on value estimates for potential alpha outcomes. The evaluation metric encourages both the performance and the diversity of alphas for a better final trading strategy. Our formulation of searching alphas also brings the advantage of pre-calculation dimensional analysis, ensuring the logical soundness of alphas, and pruning the vast search space to a large extent. Empirical experiments on real-world stock markets demonstrates $\text{Alpha}^2$'s capability to identify a diverse set of logical and effective alphas, which significantly improves the performance of the final trading strategy. The code of our method is available at https://github.com/x35f/alpha2. | 翻訳日:2024-06-25 15:24:04 公開日:2024-06-24 |
# CMA-ESにおけるランクワン更新の自然なグラディエント解釈
Natural Gradient Interpretation of Rank-One Update in CMA-ES ( http://arxiv.org/abs/2406.16506v1 ) ライセンス: Link先を確認 | Ryoki Hamano, Shinichi Shirakawa, Masahiro Nomura, | (参考訳) 共分散行列適応進化戦略 (CMA-ES) は連続ブラックボックス最適化のための多変量正規分布を用いた確率的探索アルゴリズムである。
CMA-ESの一部は確率的自然勾配法で記述することができ、情報幾何最適化(IGO)フレームワークから導出することができる。
しかし、CMA-ESのいくつかの構成要素、例えばランクワン更新は理論的な理解が限られている。
階数1の更新により、共分散行列は進化経路の方向に解を生成する可能性を高めることができるが、階数$\mu$の更新とは異なり、自然勾配法として定式化して解釈することは困難である。
本研究では,CMA-ESにおけるランクワン更新の新しい解釈を,先行分布の自然勾配の観点から提案する。
まず,先行分布を組み込むために拡張されたIGOフレームワークであるMAP-IGOを提案する。
そして、進化経路の方向に有望な平均ベクトルが存在するという考え方に基づいて事前分布を設定することにより、MAP-IGOからランクワン更新を導出する。
さらに、新たに導出されたランクワン更新は拡張可能であり、平均ベクトルの更新に追加用語が現れる。
種々のベンチマーク関数を用いた追加項の特性を実験的に検討する。
The covariance matrix adaptation evolution strategy (CMA-ES) is a stochastic search algorithm using a multivariate normal distribution for continuous black-box optimization. In addition to strong empirical results, part of the CMA-ES can be described by a stochastic natural gradient method and can be derived from information geometric optimization (IGO) framework. However, there are some components of the CMA-ES, such as the rank-one update, for which the theoretical understanding is limited. While the rank-one update makes the covariance matrix to increase the likelihood of generating a solution in the direction of the evolution path, this idea has been difficult to formulate and interpret as a natural gradient method unlike the rank-$\mu$ update. In this work, we provide a new interpretation of the rank-one update in the CMA-ES from the perspective of the natural gradient with prior distribution. First, we propose maximum a posteriori IGO (MAP-IGO), which is the IGO framework extended to incorporate a prior distribution. Then, we derive the rank-one update from the MAP-IGO by setting the prior distribution based on the idea that the promising mean vector should exist in the direction of the evolution path. Moreover, the newly derived rank-one update is extensible, where an additional term appears in the update for the mean vector. We empirically investigate the properties of the additional term using various benchmark functions. | 翻訳日:2024-06-25 15:14:19 公開日:2024-06-24 |
# 動的共変量を用いた統計的ランク付け
Statistical ranking with dynamic covariates ( http://arxiv.org/abs/2406.16507v1 ) ライセンス: Link先を確認 | Pinjun Dong, Ruijian Han, Binyan Jiang, Yiming Xu, | (参考訳) 我々は,Plackett--Luceフレームワークを基盤とした共変量付きランキングモデルを考える。
純粋共変量や固定共変量による個々の効果に焦点を当てた既存の研究とは異なり、我々の手法は動的共変量と個々の効果を統合する。
この柔軟性が追加され、現実的なランキングが向上する一方で、関連する推定手順を分析する上で大きな課題が生じる。
本稿はこれらの課題に対処するための最初の試みである。
まず、モデルの識別可能性について十分かつ必要な条件について論じる。
次に、最大極大推定器(MLE)を計算するために、効率的な交互最大化アルゴリズムを導入する。
比較グラフと動的共変量のトポロジーに関する適切な仮定の下で、漸近グラフ接続を特徴とする収束率を持つMLEに対する定量的均一整合結果を確立する。
提案したグラフトポロジー仮定は、最適前順序空間性条件下でのいくつかの一般的なランダムグラフモデルに対して成り立つ。
馬の競馬やテニス競技を含む実世界のデータセットに提案したモデルの適用を実証するために,我々の理論的知見を裏付ける包括的数値的研究を行った。
We consider a covariate-assisted ranking model grounded in the Plackett--Luce framework. Unlike existing works focusing on pure covariates or individual effects with fixed covariates, our approach integrates individual effects with dynamic covariates. This added flexibility enhances realistic ranking yet poses significant challenges for analyzing the associated estimation procedures. This paper makes an initial attempt to address these challenges. We begin by discussing the sufficient and necessary condition for the model's identifiability. We then introduce an efficient alternating maximization algorithm to compute the maximum likelihood estimator (MLE). Under suitable assumptions on the topology of comparison graphs and dynamic covariates, we establish a quantitative uniform consistency result for the MLE with convergence rates characterized by the asymptotic graph connectivity. The proposed graph topology assumption holds for several popular random graph models under optimal leading-order sparsity conditions. A comprehensive numerical study is conducted to corroborate our theoretical findings and demonstrate the application of the proposed model to real-world datasets, including horse racing and tennis competitions. | 翻訳日:2024-06-25 15:14:19 公開日:2024-06-24 |
# 大きな語彙サイズは大きな言語モデルを改善する
Large Vocabulary Size Improves Large Language Models ( http://arxiv.org/abs/2406.16508v1 ) ライセンス: Link先を確認 | Sho Takase, Ryokan Ri, Shun Kiyono, Takuya Kato, | (参考訳) 本稿では,語彙サイズと大規模言語モデル(LLM)の性能の関係を実証的に検討し,語彙サイズの定義方法について考察する。
実験結果から,LLMの語彙サイズが大きくなると性能が向上することがわかった。
さらに,事前学習された言語モデルを異なる対象言語で訓練する連続的な訓練シナリオについても考察する。
事前定義された語彙の代わりに新しい語彙を使用するための簡単な方法を導入する。
本稿では,新しい語彙を用いた場合,事前学習に使用する語彙がモデルより優れていることを示す。
This paper empirically investigates the relationship between subword vocabulary size and the performance of large language models (LLMs) to provide insights on how to define the vocabulary size. Experimental results show that larger vocabulary sizes lead to better performance in LLMs. Moreover, we consider a continual training scenario where a pre-trained language model is trained on a different target language. We introduce a simple method to use a new vocabulary instead of the pre-defined one. We show that using the new vocabulary outperforms the model with the vocabulary used in pre-training. | 翻訳日:2024-06-25 15:14:19 公開日:2024-06-24 |
# 衛星画像時系列からの作物マッピングのためのマルチモーダル視覚変換器
Multi-Modal Vision Transformers for Crop Mapping from Satellite Image Time Series ( http://arxiv.org/abs/2406.16513v1 ) ライセンス: Link先を確認 | Theresa Follath, David Mickisch, Jan Hemmerling, Stefan Erasmi, Marcel Schwieder, Begüm Demir, | (参考訳) 衛星画像時系列(SITS)から,異なる衛星センサで取得した画像を用いて,作物マッピングの枠組みにおける分類性能を向上させることが示されている。
既存の最先端アーキテクチャでは、SITSの空間次元に対する時間次元と畳み込みを処理するために自己アテンション機構を使用している。
単一モーダルSITSからの作物マッピングにおける純粋に注意に基づくアーキテクチャの成功により、我々は複数のマルチモーダルマルチテンポラルトランスフォーマーベースのアーキテクチャを導入する。
具体的には,時間空間視変換器(TSViT)における早期核融合,クロスアテンション核融合,同期クラストークン核融合の有効性について検討した。
実験結果から, 畳み込みと自己認識の両コンポーネントによる最先端アーキテクチャの大幅な改善が示された。
Using images acquired by different satellite sensors has shown to improve classification performance in the framework of crop mapping from satellite image time series (SITS). Existing state-of-the-art architectures use self-attention mechanisms to process the temporal dimension and convolutions for the spatial dimension of SITS. Motivated by the success of purely attention-based architectures in crop mapping from single-modal SITS, we introduce several multi-modal multi-temporal transformer-based architectures. Specifically, we investigate the effectiveness of Early Fusion, Cross Attention Fusion and Synchronized Class Token Fusion within the Temporo-Spatial Vision Transformer (TSViT). Experimental results demonstrate significant improvements over state-of-the-art architectures with both convolutional and self-attention components. | 翻訳日:2024-06-25 15:14:19 公開日:2024-06-24 |
# モード位相整合によるニオブ薄膜窒化リチウムのスクイーズ光源の実証
Demonstration of a Squeezed Light Source on Thin-Film Lithium Niobate with Modal Phase Matching ( http://arxiv.org/abs/2406.16516v1 ) ライセンス: Link先を確認 | Tummas Napoleon Arge, Seongmin Jo, Huy Quang Nguyen, Francesco Lenzini, Emma Lomonte, Jens Arnbak Holbøll Nielsen, Renato R. Domeneguetti, Jonas Schou Neergaard-Nielsen, Wolfram Pernice, Tobias Gehring, Ulrik Lund Andersen, | (参考訳) Squeezed状態は連続変数(CV)量子情報処理に必須であり、計算、センシング、通信に広く応用されている。
集積フォトニック回路は、大規模CV回路を構築するためのスケーラブルで便利なプラットフォームを提供する。
薄膜窒化リチウム(TFLN)は、低伝搬損失、パラメトリックダウン変換、高速な電気光学変調により特に有望である。
本研究では,TFLNプラットフォーム上で圧縮光源を実演し,最大-2.2dBの効率でモーダル位相マッチングと格子結合器を用いて0.46dBのショットノイズ低減を実現した。
達成されたスクイージングは、周期的なポーリングに基づくより複雑な回路を用いて観測されたものと同等である。
よりシンプルな設計は、コンパクトで効率的で再現可能なシャープライトの光源を可能にする。
Squeezed states are essential for continuous variable (CV) quantum information processing, with wide-ranging applications in computing, sensing and communications. Integrated photonic circuits provide a scalable, convenient platform for building large CV circuits. Thin-film Lithium Niobate (TFLN) is particularly promising due to its low propagation loss, efficient parametric down conversion, and fast electro-optical modulation. In this work, we demonstrate a squeezed light source on an integrated TFLN platform, achieving a measured shot noise reduction of 0.46 dB using modal phase matching and grating couplers with an efficiency of up to -2.2 dB. The achieved squeezing is comparable to what has been observed using more complex circuitry based on periodic poling. The simpler design allows for compact, efficient and reproducible sources of squeezed light. | 翻訳日:2024-06-25 15:14:19 公開日:2024-06-24 |
# ビジョン・マンバを用いたコンクリート・アスファルト・石英表面の自律的き裂セグメンテーション
Vision Mamba-based autonomous crack segmentation on concrete, asphalt, and masonry surfaces ( http://arxiv.org/abs/2406.16518v1 ) ライセンス: Link先を確認 | Zhaohui Chen, Elyas Asadi Shamsabadi, Sheng Jiang, Luming Shen, Daniel Dias-da-Costa, | (参考訳) 畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、特定の条件下でのき裂検出において高度な精度を示す。
しかし、固定された局所的な注意はCNNの一般化を損なう可能性があり、グローバルな自己注意の二次的な複雑さはトランスフォーマーの実践的な展開を制限する。
マンバの次世代アーキテクチャの出現を踏まえ, コンクリート, アスファルト, 石英表面のひび割れセグメンテーションのためのビジョンマンバ(VMamba)ベースのフレームワークを提案する。
パラメータが15.6%から74.5%少ないため、VMambaと統合されたエンコーダデコーダネットワークは、Transformerベースのモデルと同等の性能を示しながら、CNNベースのモデルよりも最大2.8%高いmDSを得ることができた。
さらに、VMambaベースのエンコーダデコーダネットワークは、最大90.6%の浮動小数点演算で高解像度の画像入力を処理することができる。
Convolutional neural networks (CNNs) and Transformers have shown advanced accuracy in crack detection under certain conditions. Yet, the fixed local attention can compromise the generalisation of CNNs, and the quadratic complexity of the global self-attention restricts the practical deployment of Transformers. Given the emergence of the new-generation architecture of Mamba, this paper proposes a Vision Mamba (VMamba)-based framework for crack segmentation on concrete, asphalt, and masonry surfaces, with high accuracy, generalisation, and less computational complexity. Having 15.6% - 74.5% fewer parameters, the encoder-decoder network integrated with VMamba could obtain up to 2.8% higher mDS than representative CNN-based models while showing about the same performance as Transformer-based models. Moreover, the VMamba-based encoder-decoder network could process high-resolution image input with up to 90.6% lower floating-point operations. | 翻訳日:2024-06-25 15:14:19 公開日:2024-06-24 |
# ニンジンとスティック:ポジティブで否定的なフィードバックによる自己モチベーションの導入
Carrot and Stick: Inducing Self-Motivation with Positive & Negative Feedback ( http://arxiv.org/abs/2406.16521v1 ) ライセンス: Link先を確認 | Jimin Sohn, Jeihee Cho, Junyong Lee, Songmu Heo, Ji-Eun Han, David R. Mortensen, | (参考訳) 肯定的思考は、教育や職場など様々な分野において、自己動機づけの重要な要素であると考えられている。
感情移入や肯定的再フレーミングを含む以前の研究は、言語の肯定的な側面に焦点を当ててきた。
しかし、目標を達成するための自己モチベーションは、まだ計算の観点から研究されていない。
さらに、肯定的なフィードバックと否定的なフィードバックの両方が、自己モチベーションを高めるために必要であるにもかかわらず、まだ否定的なフィードバックは検討されていない。
自己モチベーションを促進するために,12,590文からなるCArrot and STICk(CASTIC)データセットを提案する。
当社のデータとコードはこちらで公開されています。
Positive thinking is thought to be an important component of self-motivation in various practical fields such as education and the workplace. Previous work, including sentiment transfer and positive reframing, has focused on the positive side of language. However, self-motivation that drives people to reach their goals has not yet been studied from a computational perspective. Moreover, negative feedback has not yet been explored, even though positive and negative feedback are both necessary to grow self-motivation. To facilitate self-motivation, we propose CArrot and STICk (CASTIC) dataset, consisting of 12,590 sentences with 5 different strategies for enhancing self-motivation. Our data and code are publicly available at here. | 翻訳日:2024-06-25 15:14:19 公開日:2024-06-24 |
# 専門学生:多言語知識蒸留における初期化の意義について
The Privileged Students: On the Value of Initialization in Multilingual Knowledge Distillation ( http://arxiv.org/abs/2406.16524v1 ) ライセンス: Link先を確認 | Haryo Akbarianto Wibowo, Thamar Solorio, Alham Fikri Aji, | (参考訳) 知識蒸留(KD)は、多くのNLPタスクにおいて、より小さなモデルの性能を向上させるための成功戦略であることが証明されている。
しかしながら、KDにおけるほとんどの研究は単言語シナリオのみを探求している。
本稿では,多言語設定におけるKDの価値について検討する。
KDとモデル初期化の重要性は,教師モデルから多言語的知識をいかに獲得するかを学生モデルで分析することによって明らかとなる。
提案手法は,教師モデルの重みを学生モデルに直接コピーして初期化を高めることを強調する。
そこで本研究では,教師の複写重みを用いたモデル初期化が,蒸留プロセス自体の多言語化に最も寄与していることを示す。
さらに,低リソースシナリオにおいても,効率的な重み初期化が多言語機能を維持することを示す。
Knowledge distillation (KD) has proven to be a successful strategy to improve the performance of a smaller model in many NLP tasks. However, most of the work in KD only explores monolingual scenarios. In this paper, we investigate the value of KD in multilingual settings. We find the significance of KD and model initialization by analyzing how well the student model acquires multilingual knowledge from the teacher model. Our proposed method emphasizes copying the teacher model's weights directly to the student model to enhance initialization. Our finding shows that model initialization using copy-weight from the fine-tuned teacher contributes the most compared to the distillation process itself across various multilingual settings. Furthermore, we demonstrate that efficient weight initialization preserves multilingual capabilities even in low-resource scenarios. | 翻訳日:2024-06-25 15:14:19 公開日:2024-06-24 |
# OAML:OOD検出強化のための外部認識メトリック学習
OAML: Outlier Aware Metric Learning for OOD Detection Enhancement ( http://arxiv.org/abs/2406.16525v1 ) ライセンス: Link先を確認 | Heng Gao, Zhuolin He, Shoumeng Qiu, Jian Pu, | (参考訳) トレーニング中にモデルが見ていないオブジェクトを特定するために、アウト・オブ・ディストリビューション(OOD)検出法が開発されている。
Outlier Exposure(OE)メソッドは補助データセットを使用してOOD検出器を直接訓練する。
しかし、代表的なOODサンプルの収集と学習が課題となる可能性がある。
これらの課題に対処するため,我々は,OAMLフレームワークを提案する。
提案手法の主な考え方は,k-NNアルゴリズムと安定拡散モデルを用いて,分散仮定を行なわずに,特徴レベルでのトレーニングを行うための外れ値を生成することである。
意味空間における特徴の相違性を高めるために,OODデータから効率的に学習するための相互情報に基づくコントラスト学習手法を開発した。
理論的および実証的な結果は、この対照的な学習手法の有効性を裏付けるものである。
さらに,知識蒸留を学習フレームワークに組み込んで,分布内分類精度の低下を防止する。
コントラスト学習と知識蒸留の併用により,OOD検出の性能が著しく向上する。
実験結果から,提案手法が従来のOE法より有意に優れていたことが示唆された。
Out-of-distribution (OOD) detection methods have been developed to identify objects that a model has not seen during training. The Outlier Exposure (OE) methods use auxiliary datasets to train OOD detectors directly. However, the collection and learning of representative OOD samples may pose challenges. To tackle these issues, we propose the Outlier Aware Metric Learning (OAML) framework. The main idea of our method is to use the k-NN algorithm and Stable Diffusion model to generate outliers for training at the feature level without making any distributional assumptions. To increase feature discrepancies in the semantic space, we develop a mutual information-based contrastive learning approach for learning from OOD data effectively. Both theoretical and empirical results confirm the effectiveness of this contrastive learning technique. Furthermore, we incorporate knowledge distillation into our learning framework to prevent degradation of in-distribution classification accuracy. The combination of contrastive learning and knowledge distillation algorithms significantly enhances the performance of OOD detection. Experimental results across various datasets show that our method significantly outperforms previous OE methods. | 翻訳日:2024-06-25 15:14:19 公開日:2024-06-24 |
# NARRepair: 自動プログラム修復のための非自己回帰コード生成モデル
NARRepair: Non-Autoregressive Code Generation Model for Automatic Program Repair ( http://arxiv.org/abs/2406.16526v1 ) ライセンス: Link先を確認 | Zhenyu Yang, Zhen Yang, Zhongxing Yu, | (参考訳) 深層学習技術の進歩により,APR(Automatic Program repair)技術の性能は新たなレベルに達した。
従来のディープラーニングに基づくAPR技術は,過去値に基づいて将来の値を予測するAutoregressive(AR)方式でプログラム文を基本的に修正した。
ワード・バイ・ワード生成の方法により、ARベースのAPR技術は大幅に遅延する。
この否定的な結果は、現実のソフトウェア開発において、APR技術が広く採用されていることを覆している。
この問題に対処するため,APRタスクにNon-Autoregressive(NAR)メソッドを適用することを目的としている。
本稿では,APRタスクにNAR方式を効果的に適用するために,最初のカスタマイズされたNAARコード生成モデルであるNARRepairを提案する。
NARRepairは3つの主要なノベルティを特徴としている。
1) 過補正問題を緩和するために修理行為を使用する。
2) ASTから依存情報を抽出し、単語間の依存情報を欠く問題を緩和する。
3)文脈情報の欠如の問題を軽減するため,2段階の復号化を図った。
我々は,APRコミュニティで広く使用されている3つのデータセットに対してNARRepairを評価し,高い修復精度を維持しつつ,推論速度を大幅に向上させることができることを示した。
With the advancement of deep learning techniques, the performance of Automatic Program Repair(APR) techniques has reached a new level. Previous deep learning-based APR techniques essentially modified program sentences in the Autoregressive(AR) manner, which predicts future values based on past values. Due to the manner of word-by-word generation, the AR-based APR technique has a huge time delay. This negative consequence overshadows the widespread adoption of APR techniques in real-life software development. To address the issue, we aim to apply the Non-Autoregressive(NAR) method to the APR task, which can output target code in a parallel manner to avoid huge inference delays. To effectively adapt the NAR manner for the APR task, we in this paper propose NARRepair, the first customized NAR code generation model for the APR task. The NARRepair features three major novelties, including 1) using repair actions to alleviate the over-correction issue, 2) extracting dependency information from AST to alleviate the issue of lacking inter-word dependency information, 3) employing two-stage decoding to alleviate the issue of lacking contextual information. We evaluated NARRepair on three widely used datasets in the APR community, and the results show that our technique can significantly improve the inference speed while maintaining high repair accuracy. | 翻訳日:2024-06-25 15:14:19 公開日:2024-06-24 |
# SyROCCo: マシンラーニングによるシステムレビューの強化
SyROCCo: Enhancing Systematic Reviews using Machine Learning ( http://arxiv.org/abs/2406.16527v1 ) ライセンス: Link先を確認 | Zheng Fang, Miguel Arana-Catania, Felix-Anselm van Lier, Juliana Outes Velarde, Harry Bregazzi, Mara Airoldi, Eleanor Carter, Rob Procter, | (参考訳) 毎年発行される研究成果の多さにより、体系的なレビューが時間とリソースの集約化を増している。
本稿では,システムレビュープロセスのナビゲートを支援する機械学習技術について検討する。
MLは以前、レビューのために確実に「スクリーン」記事として使われてきた。
しかし、データ抽出やエビデンスマッピングといったレビューのその後の段階へのML技術の適用は、その初期段階にある。
そこで我々は,「アウトカムベースの契約」をテーマとした1,952冊の出版物のプロファイリングと分析を支援する一連のツールの開発に着手した。
出版物を「政治分野」のカテゴリーに割り当て、組織、法律、地理的情報などの証拠マッピングの重要情報を特定・抽出し、証拠ベースを同一トピック上の既存のデータセットに接続し、テーマコンテンツを共有するかもしれない記事のサブグループを識別する。
これらのテクニックと、アウトプットを備えたパブリックデータセットを使用したインタラクティブツールがリリースされた。
本研究は,体系的レビュープロセスにおけるエビデンスアクセシビリティと分析を高めるためのML手法の有用性を実証するものである。
これらの取り組みは、将来の体系的なレビューと分析範囲の拡大のために、潜在的に実質的な効率をもたらす可能性を示している。
私たちの研究は、政策立案者や実践者が証拠にアクセスできることの容易さに意味があることを示唆している。
ML技術は、体系的なレビューからデータを集め、アクセスし、分析する革新的な方法を提供することによって、研究と政策のギャップを埋める上で重要な役割を担っているように思えるが、我々はまた、彼らの現在の制限と、特にエラーやバイアスの可能性を考慮し、アプリケーションに注意を払う必要があることも強調する。
The sheer number of research outputs published every year makes systematic reviewing increasingly time- and resource-intensive. This paper explores the use of machine learning techniques to help navigate the systematic review process. ML has previously been used to reliably 'screen' articles for review - that is, identify relevant articles based on reviewers' inclusion criteria. The application of ML techniques to subsequent stages of a review, however, such as data extraction and evidence mapping, is in its infancy. We therefore set out to develop a series of tools that would assist in the profiling and analysis of 1,952 publications on the theme of 'outcomes-based contracting'. Tools were developed for the following tasks: assign publications into 'policy area' categories; identify and extract key information for evidence mapping, such as organisations, laws, and geographical information; connect the evidence base to an existing dataset on the same topic; and identify subgroups of articles that may share thematic content. An interactive tool using these techniques and a public dataset with their outputs have been released. Our results demonstrate the utility of ML techniques to enhance evidence accessibility and analysis within the systematic review processes. These efforts show promise in potentially yielding substantial efficiencies for future systematic reviewing and for broadening their analytical scope. Our work suggests that there may be implications for the ease with which policymakers and practitioners can access evidence. While ML techniques seem poised to play a significant role in bridging the gap between research and policy by offering innovative ways of gathering, accessing, and analysing data from systematic reviews, we also highlight their current limitations and the need to exercise caution in their application, particularly given the potential for errors and biases. | 翻訳日:2024-06-25 15:14:19 公開日:2024-06-24 |
# 大規模言語モデルによる心的方向の推論能力の評価
Evaluating the Ability of Large Language Models to Reason about Cardinal Directions ( http://arxiv.org/abs/2406.16528v1 ) ライセンス: Link先を確認 | Anthony G Cohn, Robert E Blackwell, | (参考訳) 本研究では,Large Language Models (LLMs) の標準方向 (CDs) を推論する能力について検討する。
そのために、ChatGPTと共同開発した第1のデータセットは、CDに関する世界的知識のリコールに重点を置いています。
テンプレートは、関係するエージェントの移動手段や、第1、第2、第3の人物に設定されているかどうかなど、さまざまな変化を許容する。
温度設定がゼロであっても、LLMはより単純なデータセットではうまく機能するが、第2のより複雑なデータセットでは、ゼロの温度設定でも正しいCDを確実に決定できない。
We investigate the abilities of a representative set of Large language Models (LLMs) to reason about cardinal directions (CDs). To do so, we create two datasets: the first, co-created with ChatGPT, focuses largely on recall of world knowledge about CDs; the second is generated from a set of templates, comprehensively testing an LLM's ability to determine the correct CD given a particular scenario. The templates allow for a number of degrees of variation such as means of locomotion of the agent involved, and whether set in the first , second or third person. Even with a temperature setting of zero, Our experiments show that although LLMs are able to perform well in the simpler dataset, in the second more complex dataset no LLM is able to reliably determine the correct CD, even with a temperature setting of zero. | 翻訳日:2024-06-25 15:14:19 公開日:2024-06-24 |
# 非ブリッジエンティティの強化と予測バイアスによるグラフベースのクロスドキュメント関係抽出
Towards Better Graph-based Cross-document Relation Extraction via Non-bridge Entity Enhancement and Prediction Debiasing ( http://arxiv.org/abs/2406.16529v1 ) ライセンス: Link先を確認 | Hao Yue, Shaopeng Lai, Chengyi Yang, Liang Zhang, Junfeng Yao, Jinsong Su, | (参考訳) 文書間関係抽出は,異なる文書に存在する対象エンティティ間の関係を予測することを目的としている。
この点において、支配的なモデルは、ブリッジエンティティを介して関係予測に有用な情報を保持するため、ターゲットエンティティ間の本質的な相互依存を精巧に捉えることができる。
しかし,これらの研究は,対象物のみと共起する非ブリッジ実体を無視し,対象物間の意味的関連性を提供して関係予測を行う。
さらに、一般的に使用されるデータセット--CodREDには、かなりのNAインスタンスが含まれており、推論時の予測バイアスにつながる。
そこで本稿では,非ブリッジエンティティ拡張と予測バイアスを用いたグラフベースのクロスドキュメントREモデルを提案する。
具体的には、統一エンティティグラフを使用して、多数の非ブリッジエンティティを対象エンティティとブリッジエンティティと統合し、それらの間の様々な関連をモデル化し、グラフ再帰ネットワークを使用してこのグラフを符号化する。
最後に,従来の予測分布をキャリブレーションするための新しいデバイアス手法を提案する。
その結果,GPT-3.5-turbo や InstructUIE などすべてのベースラインを改良し,最先端性能を実現した。
特に、我々のモデルは、2023年12月以降の全ての提出物の中で、それぞれ66.23%と55.87%のAUCポイントを2つの設定の下で、公式のリーダーボードで取得している。
私たちのコードはhttps://github.com/DeepLearnXMU/CoRE-NEPD.comで公開されています。
Cross-document Relation Extraction aims to predict the relation between target entities located in different documents. In this regard, the dominant models commonly retain useful information for relation prediction via bridge entities, which allows the model to elaborately capture the intrinsic interdependence between target entities. However, these studies ignore the non-bridge entities, each of which co-occurs with only one target entity and offers the semantic association between target entities for relation prediction. Besides, the commonly-used dataset--CodRED contains substantial NA instances, leading to the prediction bias during inference. To address these issues, in this paper, we propose a novel graph-based cross-document RE model with non-bridge entity enhancement and prediction debiasing. Specifically, we use a unified entity graph to integrate numerous non-bridge entities with target entities and bridge entities, modeling various associations between them, and then use a graph recurrent network to encode this graph. Finally, we introduce a novel debiasing strategy to calibrate the original prediction distribution. Experimental results on the closed and open settings show that our model significantly outperforms all baselines, including the GPT-3.5-turbo and InstructUIE, achieving state-of-the-art performance. Particularly, our model obtains 66.23% and 55.87% AUC points in the official leaderboard\footnote{\url{https://codalab.lisn.upsaclay.fr/competitions/3770#results}} under the two settings, respectively, ranking the first place in all submissions since December 2023. Our code is available at https://github.com/DeepLearnXMU/CoRE-NEPD. | 翻訳日:2024-06-25 15:14:19 公開日:2024-06-24 |
# Conditional Bayesian Quadrature
Conditional Bayesian Quadrature ( http://arxiv.org/abs/2406.16530v1 ) ライセンス: Link先を確認 | Zonghao Chen, Masha Naslidnyk, Arthur Gretton, François-Xavier Briol, | (参考訳) 本稿では,サンプルの取得やインテグレードの評価にコストがかかる状況において,条件付きあるいはパラメトリックな予測を推定するための新しい手法を提案する。
ベイズ二次法のような確率的数値法(英語版)の枠組みにより、我々の新しい手法は積分子に関する事前情報、特に積分子に関する以前の滑らかさの知識と条件予測を組み込むことができる。
その結果,提案手法は不確実性を定量化し,ベイズ感度分析,計算ファイナンス,不確実性に基づく意思決定における課題について理論的および実験的に検証し,迅速な収束率をもたらす。
We propose a novel approach for estimating conditional or parametric expectations in the setting where obtaining samples or evaluating integrands is costly. Through the framework of probabilistic numerical methods (such as Bayesian quadrature), our novel approach allows to incorporates prior information about the integrands especially the prior smoothness knowledge about the integrands and the conditional expectation. As a result, our approach provides a way of quantifying uncertainty and leads to a fast convergence rate, which is confirmed both theoretically and empirically on challenging tasks in Bayesian sensitivity analysis, computational finance and decision making under uncertainty. | 翻訳日:2024-06-25 15:14:19 公開日:2024-06-24 |
# GIM: 生成画像操作検出と位置推定のための100万規模のベンチマーク
GIM: A Million-scale Benchmark for Generative Image Manipulation Detection and Localization ( http://arxiv.org/abs/2406.16531v1 ) ライセンス: Link先を確認 | Yirui Chen, Xudong Huang, Quan Zhang, Wei Li, Mingjian Zhu, Qiangyu Yan, Simiao Li, Hanting Chen, Hailin Hu, Jie Yang, Wei Liu, Jie Hu, | (参考訳) 生成モデルの異常な能力は、画像編集と現実的な画像生成の新しいトレンドとして現れ、マルチメディアデータの信頼性に深刻な脅威を与え、画像操作検出と位置(IMDL)の研究を推進している。
しかし、大規模なデータ基盤がないため、IMDLタスクは実現不可能である。
本稿では,強力なSAM, ChatGPT, 生成モデルを組み合わせた局所的な操作パイプラインを設計する。
そこで我々は,以下の利点を有するGIMデータセットを提案する。
1)AIが操作する画像と実画像のペアを100万枚以上含む大規模なもの。
2)多様な画像クラスを含むリッチ画像コンテンツ
3) 多様な生成操作, 最先端ジェネレータによる画像操作, 各種操作タスク。
前述の利点により、IMDLメソッドのより包括的な評価が可能となり、多様な画像に適用可能になった。
ベースライン手法の一般化能力と総合性能を評価するためのベンチマーク設定を2つ導入する。
さらに、シャドウトラッカー、周波数空間ブロック(FSB)、マルチウィンドウ異常モデリング(MWAM)モジュールからなる新しいIMDLフレームワークGIMFormerを提案する。
GIMに関する大規模な実験は、GIMFormerが2つの異なるベンチマークで過去の最先端の成果を大幅に上回っていることを示している。
The extraordinary ability of generative models emerges as a new trend in image editing and generating realistic images, posing a serious threat to the trustworthiness of multimedia data and driving the research of image manipulation detection and location(IMDL). However, the lack of a large-scale data foundation makes IMDL task unattainable. In this paper, a local manipulation pipeline is designed, incorporating the powerful SAM, ChatGPT and generative models. Upon this basis, We propose the GIM dataset, which has the following advantages: 1) Large scale, including over one million pairs of AI-manipulated images and real images. 2) Rich Image Content, encompassing a broad range of image classes 3) Diverse Generative Manipulation, manipulated images with state-of-the-art generators and various manipulation tasks. The aforementioned advantages allow for a more comprehensive evaluation of IMDL methods, extending their applicability to diverse images. We introduce two benchmark settings to evaluate the generalization capability and comprehensive performance of baseline methods. In addition, we propose a novel IMDL framework, termed GIMFormer, which consists of a ShadowTracer, Frequency-Spatial Block (FSB), and a Multi-window Anomalous Modelling (MWAM) Module. Extensive experiments on the GIM demonstrate that GIMFormer surpasses previous state-of-the-art works significantly on two different benchmarks. | 翻訳日:2024-06-25 15:14:19 公開日:2024-06-24 |
# トークンに基づく意思決定基準は文脈内学習において最適である
Token-based Decision Criteria Are Suboptimal in In-context Learning ( http://arxiv.org/abs/2406.16535v1 ) ライセンス: Link先を確認 | Hakaze Cho, Yoshihiro Sakai, Mariko Kato, Kenshiro Tanaka, Akira Ishii, Naoya Inoue, | (参考訳) In-Context Learning (ICL) は通常、手動で選択したラベルトークンの確率から分類基準を利用する。
しかし、このようなトークンベースの分類基準は、翻訳と制約付き回転による微妙な校正にもかかわらず、最適下決定境界につながると論じる。
この問題に対処するために,トークン確率を放棄し,LMの最後の隠蔽状態に最も近いセントロイド分類器を使用するHidden Calibrationを提案する。
詳細は,隠れ状態に最も近いセントロイド分類を用いて,数発のキャリブレーションセットから以前に観測された最も近いセントロイドのカテゴリを,テストサンプルに予測ラベルとして割り当てる。
3つのモデルと10の分類データセットに関する実験は、隠れキャリブレーションが現在のトークンベースのキャリブレーションを約20%上回っていることを示している。
さらに分析した結果,Hidden Calibration はカテゴリー間重複の少ないより良い分類基準が得られ,LM はHidden Calibration をサポートし,従来のICL に新たな洞察を与える実演の助けを借りて線形分離可能なカテゴリ内クラスタを提供することがわかった。
In-Context Learning (ICL) typically utilizes classification criteria from probabilities of manually selected label tokens. However, we argue that such token-based classification criteria lead to suboptimal decision boundaries, despite delicate calibrations through translation and constrained rotation. To address this problem, we propose Hidden Calibration, which renounces token probabilities and uses the nearest centroid classifier on the LM's last hidden states. In detail, we use the nearest centroid classification on the hidden states, assigning the category of the nearest centroid previously observed from a few-shot calibration set to the test sample as the predicted label. Our experiments on 3 models and 10 classification datasets indicate that Hidden Calibration consistently outperforms current token-based calibrations by about 20%. Our further analysis demonstrates that Hidden Calibration finds better classification criteria with less inter-categories overlap, and LMs provide linearly separable intra-category clusters with the help of demonstrations, which supports Hidden Calibration and gives new insights into the conventional ICL. | 翻訳日:2024-06-25 15:04:12 公開日:2024-06-24 |
# C-LLM:中国語のスペル文字を文字でチェックする方法
C-LLM: Learn to Check Chinese Spelling Errors Character by Character ( http://arxiv.org/abs/2406.16536v1 ) ライセンス: Link先を確認 | Kunting Li, Yong Hu, Liang He, Fandong Meng, Jie Zhou, | (参考訳) Chinese Spell Checking (CSC) は、文中のスペルエラーを検出し、修正することを目的としている。
大きな言語モデル(LLM)は堅牢な機能を示し、様々なタスクに広く適用されているが、CSCのパフォーマンスは不満足であることが多い。
LLMはCSCタスクの漢字レベルの制約、すなわち等長と音韻的類似性を満たすことができず、性能のボトルネックとなる。
さらに分析したところ、この問題は、現在の混合文字語トークン化がこれらの文字レベルの制約を満たすのに苦労しているため、トークン化の粒度に起因することが判明した。
そこで我々は,C-LLMを提案する。C-LLMは,文字による誤りのチェックを学習する中国語のスペルチェック手法である。
文字レベルのトークン化により、モデルは文字レベルのアライメントを学習し、文字レベルの制約に関連する問題を効果的に緩和することができる。
さらに、CSCは複製管理および置換補充タスクに単純化されている。
CSCベンチマークの2つの実験は、C-LLMが既存の手法よりも平均10%改善したことを示している。
具体的には、一般的なシナリオが2.1%改善され、垂直領域のシナリオが12%改善され、最先端のパフォーマンスが確立された。
ソースコードはhttps://github.com/ktlKTL/C-LLMでアクセスできる。
Chinese Spell Checking (CSC) aims to detect and correct spelling errors in sentences. Despite Large Language Models (LLMs) exhibit robust capabilities and are widely applied in various tasks, their performance on CSC is often unsatisfactory. We find that LLMs fail to meet the Chinese character-level constraints of the CSC task, namely equal length and phonetic similarity, leading to a performance bottleneck. Further analysis reveal that this issue stems from the granularity of tokenization, as current mixed character-word tokenization struggles to satisfy these character-level constraints. To address this issue, we propose C-LLM, a Large Language Model-based Chinese Spell Checking method that learns to check errors Character by Character. Character-level tokenization enables the model to learn character-level alignment, effectively mitigating issues related to character-level constraints. Furthermore, CSC is simplified to replication-dominated and substitution-supplemented tasks. Experiments on two CSC benchmarks demonstrate that C-LLM achieves an average improvement of 10% over existing methods. Specifically, it shows a 2.1% improvement in general scenarios and a significant 12% improvement in vertical domain scenarios, establishing state-of-the-art performance. The source code can be accessed at https://github.com/ktlKTL/C-LLM. | 翻訳日:2024-06-25 15:04:12 公開日:2024-06-24 |
# 文字適応器:高忠実度文字カスタマイズのためのプロンプトガイド型領域制御
Character-Adapter: Prompt-Guided Region Control for High-Fidelity Character Customization ( http://arxiv.org/abs/2406.16537v1 ) ライセンス: Link先を確認 | Yuhang Ma, Wenting Xu, Jiji Tang, Qinfeng Jin, Rongsheng Zhang, Zeng Zhao, Changjie Fan, Zhipeng Hu, | (参考訳) イメージを一貫した文字で合成しようとするカスタマイズ画像生成は、ストーリーテリング、ポートレート生成、文字設計などの応用に大きく関連している。
しかし、従来の手法では、不適切な特徴抽出と参照文字の概念的混乱により、高忠実度な文字の保存が困難であった。
そこで本稿では,参照文字の詳細を保存し,高忠実性を確保した画像を生成するためのプラグイン・アンド・プレイ・フレームワークである character-Adapter を提案する。
Character-Adapterは、参照文字と動的領域レベルのアダプタのきめ細かい地域特性を保証し、概念の混乱を軽減するために、プロンプト誘導セグメンテーションを採用している。
文字適応器の有効性を検証するため, 広範囲な実験を行った。
定量的および定性的な結果は、キャラクタアダプタが一貫したキャラクタ生成の最先端性能を実現し、他の手法と比較して24.8%改善したことを示している。
Customized image generation, which seeks to synthesize images with consistent characters, holds significant relevance for applications such as storytelling, portrait generation, and character design. However, previous approaches have encountered challenges in preserving characters with high-fidelity consistency due to inadequate feature extraction and concept confusion of reference characters. Therefore, we propose Character-Adapter, a plug-and-play framework designed to generate images that preserve the details of reference characters, ensuring high-fidelity consistency. Character-Adapter employs prompt-guided segmentation to ensure fine-grained regional features of reference characters and dynamic region-level adapters to mitigate concept confusion. Extensive experiments are conducted to validate the effectiveness of Character-Adapter. Both quantitative and qualitative results demonstrate that Character-Adapter achieves the state-of-the-art performance of consistent character generation, with an improvement of 24.8% compared with other methods | 翻訳日:2024-06-25 15:04:12 公開日:2024-06-24 |
# 連続可変量子テレポーテーションにおける$f$変形フォック状態の解析
Analyzing performance of $f$-deformed displaced Fock state in continuous-variable quantum teleportation ( http://arxiv.org/abs/2406.16538v1 ) ライセンス: Link先を確認 | Deepak, Arpita Chatterjee, | (参考訳) 非ガウス演算、すなわち光子加算、光子減算、光子減算、光子減算、光子減算、光子減算は連続可変量子テレポーテーションの忠実性を高めることに成功している。
しかしながら、これらの非ガウス的資源の欠点は、それらが本質的に確率的であることである。
本稿では,理想的テレポーテーションプロトコルの最適性能に対する非ガウス的資源の成功確率について検討する。
この目的のために、まず、対称ビームスプリッターの別のポートで、$f$変形されたFock状態またはフォトン付加のFock状態またはフォトン置換のFock状態を持つ2モードの絡み合ったチャネルの解析式を導出する。
一般化された転位フォック状態は、通常のボゾン関数を$A=af(a^\dag a)$や$B=af(a^\dag a)^{-1}$のような非線形な$f$変形作用素で置き換えることで得られる。
これら3つの非ガウス状態を記述するウィグナー特性関数を判定し、入力コヒーレントおよび圧縮真空状態に対するテレポーテーション忠実性を達成するために利用する。
非線形置換は、しきい値を超えるテレポーテーションの忠実度を増大させる。
さらに、束縛された光子置換型フォック状態は、単一モードコヒーレント状態と圧縮状態のテレポートのための量子チャネルとして最大効率を示す。
我々は、非ガウス状態の最適性能に対応するスクイーズ状態値を提供するが、これは実験的なフラタニティにとって大きな関心を持つだろう。
さらに, 絡み合ったフォトン置換フォック状態はより多くの絡み合いを持つが, 絡み合ったフォトン置換フォック状態はアインシュタイン-ポドルスキー-ローゼン相関が強いことを示す。
Performing non-Gaussian operations, namely photon addition, photon subtraction, photon-addition-then-subtraction, photon-subtraction-then-addition can successfully enhance the fidelity of the continuous-variable quantum teleportation. However, a shortcoming of these non-Gaussian resources is that they are probabilistic in nature. In this article, we investigate the success probability of the non-Gaussian resources for optimal performance of the ideal teleportation protocol. To this end, we first derive the analytical expression for the two-mode entangled channel having $f$-deformed displaced Fock state or photon-added displaced Fock state or photon-subtracted displaced Fock state at one port and vacuum at another port of a symmetric beam-splitter. The generalized displaced Fock states are obtained by replacing the conventional bosonic functions by the nonlinear $f$-deformed operators such as $A=af(a^\dag a)$ and $B=af(a^\dag a)^{-1}$. The Wigner characteristic functions describing these three aforementioned non-Gaussian states are determined and utilized to attain the teleportation fidelity for input coherent and squeezed vacuum states. It is found that the nonlinear substitution leads to an enhancement in teleportation fidelity beyond the threshold limit. Moreover, the entangled photon-subtracted displaced Fock state demonstrates maximum efficiency as a quantum channel for teleporting single-mode coherent and squeezed states. We provide the squeezing regime values corresponding to the optimal performance of the non-Gaussian states considered, which will be of significant interest to the experimental fraternity. Further, we show that the entangled photon-added displaced Fock states have larger amount of entanglement but the entangled photon-subtracted displaced Fock states have stronger Einstein-Podolsky-Rosen correlation. | 翻訳日:2024-06-25 15:04:12 公開日:2024-06-24 |
# 乗法的重み摂動による汚損に対するロバスト性の改善
Improving robustness to corruptions with multiplicative weight perturbations ( http://arxiv.org/abs/2406.16540v1 ) ライセンス: Link先を確認 | Trung Trinh, Markus Heinonen, Luigi Acerbi, Samuel Kaski, | (参考訳) ディープニューラルネットワーク(DNN)はクリーンなイメージに優れるが、破損したイメージに苦しむ。
データ拡張パイプラインに特定の汚職を組み込むことで、それらの汚職に対する堅牢性を向上させることができるが、クリーンな画像やその他の歪みに対するパフォーマンスを損なう可能性がある。
本稿では、クリーン画像の精度を損なうことなく、広範囲の汚職に対してDNNの堅牢性を向上する代替手法を提案する。
まず、重み空間における乗法的摂動によって入力摂動が模倣できることを示す。
これを活用することで、ランダムな乗法重摂動の下でDNNを最適化する訓練手法であるMultiplicative Perturbation (DAMP) によるデータ拡張を提案する。
また,最近提案されたAdaptive Sharpness-Aware Minimization (ASAM) について検討し,逆乗法重み摂動下でのDNNの最適化を示す。
画像分類データセット(CIFAR-10/100、TinyImageNet、ImageNet)とニューラルネットワークアーキテクチャ(ResNet50、ViT-S/16)の実験は、DAMPがさまざまな設定にまたがる汚職の存在下でモデル一般化性能を向上させることを示している。
特に、DAMPはImageNet上でViT-S/16をスクラッチからトレーニングすることができ、データ拡張なしでResNet50に匹敵するトップ1エラーの23.7%に達した。
Deep neural networks (DNNs) excel on clean images but struggle with corrupted ones. Incorporating specific corruptions into the data augmentation pipeline can improve robustness to those corruptions but may harm performance on clean images and other types of distortion. In this paper, we introduce an alternative approach that improves the robustness of DNNs to a wide range of corruptions without compromising accuracy on clean images. We first demonstrate that input perturbations can be mimicked by multiplicative perturbations in the weight space. Leveraging this, we propose Data Augmentation via Multiplicative Perturbation (DAMP), a training method that optimizes DNNs under random multiplicative weight perturbations. We also examine the recently proposed Adaptive Sharpness-Aware Minimization (ASAM) and show that it optimizes DNNs under adversarial multiplicative weight perturbations. Experiments on image classification datasets (CIFAR-10/100, TinyImageNet and ImageNet) and neural network architectures (ResNet50, ViT-S/16) show that DAMP enhances model generalization performance in the presence of corruptions across different settings. Notably, DAMP is able to train a ViT-S/16 on ImageNet from scratch, reaching the top-1 error of 23.7% which is comparable to ResNet50 without extensive data augmentations. | 翻訳日:2024-06-25 15:04:12 公開日:2024-06-24 |
# 六方晶窒化ホウ素のナノホールによる原子回折
Atomic diffraction by nanoholes in hexagonal boron nitride ( http://arxiv.org/abs/2406.16543v1 ) ライセンス: Link先を確認 | Eivind Kristen Osestad, Ekaterina Zossimova, Michael Walter, Bodil Holst, Johannes Fiedler, | (参考訳) パターン化されたナノ構造を物質波で形成することは、新しいナノフォトニクスデバイスの実現に役立つ。
しかし, 分散効果のため, ナノスケールの特徴を持つパターンの設計は困難である。
ここでは、六方晶窒化ホウ素(h-BN)の異なる孔を通るヘリウム物質波の伝播について、最も弱い分散相互作用のケーススタディとして考察する。
量子力学モデルを用いて、ホール周辺のエッジ原子の偏光可能性を計算する。
これらの値を用いて、散乱ヘリウム原子のファンデルワールス分散係数を計算する。
得られた回折パターンは、穴の形状と大きさに影響され、最小の穴は半径が6ドル〜\AAである。
これらの結果は、ナノフォトニック材料のナノホールパターンの分解能限界を予測するために用いられる。
Fabricating patterned nanostructures with matter waves can help to realise new nanophotonic devices. However, due to dispersion effects, designing patterns with nanoscale features is challenging. Here, we consider the propagation of a helium matter wave through different holes in hexagonal boron nitride (h-BN) as a case study for the weakest dispersion interaction and the matter wave's diffraction as it passes through the holes. We use a quantum-mechanical model to calculate the polarisability of edge atoms around the holes, where we observe polarization ripples of enhanced and reduced polarisabilities around the holes. We use these values to calculate van der Waals dispersion coefficients for the scattered helium atoms. We find that the resulting diffraction patterns are affected by the shape and size of the holes, where the smallest holes have a radius of just $6$~\AA. These results can be used to predict the resolution limits of nano-hole patterns on nanophotonic materials. | 翻訳日:2024-06-25 15:04:12 公開日:2024-06-24 |
# 長大画像群のための階層的Bフレームビデオ符号化
Hierarchical B-frame Video Coding for Long Group of Pictures ( http://arxiv.org/abs/2406.16544v1 ) ライセンス: Link先を確認 | Ivan Kirillov, Denis Parkhomenko, Kirill Chernyshev, Alexander Pletnev, Yibo Shi, Kai Lin, Dmitry Babin, | (参考訳) 学習ビデオ圧縮法は、低遅延(LD)の場合ではVVCよりも優れているが、ランダムアクセス(RA)のシナリオは依然として難しい。
学習されたRAビデオ圧縮のほとんどは、HEVCをアンカーとして使うか、特定のテスト条件でVVCと比較する。
本稿では、フレームの長いシーケンスでのトレーニング、階層的符号化のためのレートアロケーション、推論によるコンテンツ適応を組み合わせたランダムアクセスのためのエンドツーエンド学習ビデオコーデックを提案する。
共通テスト条件 (JVET-CTC) 下では、ビデオのクラスによっては、YUV-PSNR BD-RateでVTM(VVC参照ソフトウェア)に匹敵する結果が得られ、VMAF BD-Rateではほぼ全てのテストセットで性能が向上することを示す。
平均して、VMAFとYUV BD-Ratesの点で、オープンLDとRAのエンドツーエンドソリューションを上回っている。
Learned video compression methods already outperform VVC in the low-delay (LD) case, but the random-access (RA) scenario remains challenging. Most works on learned RA video compression either use HEVC as an anchor or compare it to VVC in specific test conditions, using RGB-PSNR metric instead of Y-PSNR and avoiding comprehensive evaluation. Here, we present an end-to-end learned video codec for random access that combines training on long sequences of frames, rate allocation designed for hierarchical coding and content adaptation on inference. We show that under common test conditions (JVET-CTC), it achieves results comparable to VTM (VVC reference software) in terms of YUV-PSNR BD-Rate on some classes of videos, and outperforms it on almost all test sets in terms of VMAF BD-Rate. On average it surpasses open LD and RA end-to-end solutions in terms of VMAF and YUV BD-Rates. | 翻訳日:2024-06-25 15:04:12 公開日:2024-06-24 |
# 時間グラフにおけるニューラルメッセージパッシングの逐次パターン推定
Inference of Sequential Patterns for Neural Message Passing in Temporal Graphs ( http://arxiv.org/abs/2406.16552v1 ) ライセンス: Link先を確認 | Jan von Pichowski, Vincenzo Perri, Lisi Qarkaxhija, Ingo Scholtes, | (参考訳) 動的グラフにおける時間的パターンのモデリングは、時間を考慮したGNNの開発において、現在重要な研究課題となっている。
時間グラフにおける特定の事象列が時間パターンを構成するか否かは、その発生頻度に限らず、時間パターンを構成する。
タイムスタンプがランダムにシャッフルされる時間グラフで期待するものから逸脱するかどうかを検討する。
このようなランダムなベースラインの説明は時間的パターンをモデル化する上で重要であるが、現在の時間的グラフニューラルネットワークでは無視されている。
この問題に対処するため、我々はHYPA-DBGNNを提案する。
一 統計的に原理化されたヌルモデルに基づくグラフ上の時系列データにおける異常な逐次パターンの推論
(ii) エッジが過剰に表現された逐次パターンをキャプチャする高階のDe Bruijnグラフを利用するニューラルメッセージパッシングアプローチ。
本手法は,超幾何グラフアンサンブルを用いて,事象の時間順序を符号化した1次および高次デ・ブリュアングラフの異常エッジを同定する。
このモデルは、モデル解釈可能性を高める誘導バイアスを導入する。
ベンチマークデータセットと合成データセットを用いて静的ノード分類のアプローチを評価し,時間的エッジの過度および低次エッジに関する観測帰納バイアスを組み込む能力を示す。
経験的データセット内の類似パターンの検出におけるフレームワークの有効性を実証し,ノード分類タスクのベースライン手法よりも優れた性能を示した。
我々の知識を最大限に活用するために、我々の研究は、時間的および因果配列異常を利用した統計的に情報を得たGNNを導入した最初のものである。
HYPA-DBGNNは、統計グラフ推論とニューラルグラフ表現学習のギャップを埋めるパスであり、静的GNNへの潜在的な応用である。
The modelling of temporal patterns in dynamic graphs is an important current research issue in the development of time-aware GNNs. Whether or not a specific sequence of events in a temporal graph constitutes a temporal pattern not only depends on the frequency of its occurrence. We consider whether it deviates from what is expected in a temporal graph where timestamps are randomly shuffled. While accounting for such a random baseline is important to model temporal patterns, it has mostly been ignored by current temporal graph neural networks. To address this issue we propose HYPA-DBGNN, a novel two-step approach that combines (i) the inference of anomalous sequential patterns in time series data on graphs based on a statistically principled null model, with (ii) a neural message passing approach that utilizes a higher-order De Bruijn graph whose edges capture overrepresented sequential patterns. Our method leverages hypergeometric graph ensembles to identify anomalous edges within both first- and higher-order De Bruijn graphs, which encode the temporal ordering of events. The model introduces an inductive bias that enhances model interpretability. We evaluate our approach for static node classification using benchmark datasets and a synthetic dataset that showcases its ability to incorporate the observed inductive bias regarding over- and under-represented temporal edges. We demonstrate the framework's effectiveness in detecting similar patterns within empirical datasets, resulting in superior performance compared to baseline methods in node classification tasks. To the best of our knowledge, our work is the first to introduce statistically informed GNNs that leverage temporal and causal sequence anomalies. HYPA-DBGNN represents a path for bridging the gap between statistical graph inference and neural graph representation learning, with potential applications to static GNNs. | 翻訳日:2024-06-25 15:04:12 公開日:2024-06-24 |
# LLaMA-MoE:LLaMAと連続事前学習の混合設計
LLaMA-MoE: Building Mixture-of-Experts from LLaMA with Continual Pre-training ( http://arxiv.org/abs/2406.16554v1 ) ライセンス: Link先を確認 | Tong Zhu, Xiaoye Qu, Daize Dong, Jiacheng Ruan, Jingqi Tong, Conghui He, Yu Cheng, | (参考訳) Mixture-of-Experts (MoE)は、大規模言語モデル(LLM)をスケールアップするための有望なフレームワークとして人気を集めている。
しかし、大規模な環境でのMoEのスクラッチからのトレーニングは、依然としてデータ不足と不安定な問題に悩まされている。
この制限により、既存の高密度大言語モデルからMoEモデルを構築することを検討する。
具体的には、よく知られたLLaMA-2 7Bモデルに基づいて、(1)オリジナルのフィードフォワードネットワーク(FFN)のパラメータを複数のエキスパートに分割するエキスパート構成、(2)変換されたMoEモデルと追加ゲートネットワークをトレーニングする継続的事前学習、というMoEモデルを得る。
本稿では,専門家の育成のための様々な手法と,継続事前学習のための様々なデータサンプリング戦略を包括的に検討する。
これらの段階の後、LLaMA-MoEモデルは言語能力を維持し、パラメータの一部が活性化された特定の専門家に入力トークンをルーティングできる。
経験的に、200Bトークンをトレーニングすることで、LLaMA-MoE-3.5Bモデルは、同様のアクティベーションパラメータを含む高密度モデルよりも著しく優れている。
ソースコードとモデルはhttps://github.com/pjlab-sys4nlp/llama-moe で公開されている。
Mixture-of-Experts (MoE) has gained increasing popularity as a promising framework for scaling up large language models (LLMs). However, training MoE from scratch in a large-scale setting still suffers from data-hungry and instability problems. Motivated by this limit, we investigate building MoE models from existing dense large language models. Specifically, based on the well-known LLaMA-2 7B model, we obtain an MoE model by: (1) Expert Construction, which partitions the parameters of original Feed-Forward Networks (FFNs) into multiple experts; (2) Continual Pre-training, which further trains the transformed MoE model and additional gate networks. In this paper, we comprehensively explore different methods for expert construction and various data sampling strategies for continual pre-training. After these stages, our LLaMA-MoE models could maintain language abilities and route the input tokens to specific experts with part of the parameters activated. Empirically, by training 200B tokens, LLaMA-MoE-3.5B models significantly outperform dense models that contain similar activation parameters. The source codes and models are available at https://github.com/pjlab-sys4nlp/llama-moe . | 翻訳日:2024-06-25 15:04:12 公開日:2024-06-24 |
# STRIPS計画モデルの準同型と埋め込み
Homomorphisms and Embeddings of STRIPS Planning Models ( http://arxiv.org/abs/2406.16555v1 ) ライセンス: Link先を確認 | Arnaud Lequen, Martin C. Cooper, Frédéric Maris, | (参考訳) 2つのSTRIPSプランニングインスタンスが同型かどうかを決定することは、プランニングインスタンスの比較の最も単純な形式である。
これはまた、計画インスタンス$P$と他のインスタンス$P_0$のサブインスタンスの間の同型を見つけることに関わる問題の特別なケースでもある。
そのような写像の1つの応用は、P に対するすべての解を含むコンパイルされた形式を、すべての解を含むコンパイルされた形式から$P_0$ に効率よく生成することである。
また、$P$ から別のインスタンス $P_0$ への埋め込みの概念を導入し、$P$ が解決不可能な場合、$P_0$ が解決計画を持たないことを推測する。
本稿では,これらの問題の複雑さについて考察する。
1つ目はGI完全であり、理論上は準多項式時間で解けることを示す。
残りの問題はNP完全であることが証明されているが、可能であれば同型を構築するアルゴリズムを提案する。
本稿では,事前処理における制約伝搬の適用がSATソルバの効率を大幅に向上することを示すベンチマーク問題に関する広範な実験実験について報告する。
Determining whether two STRIPS planning instances are isomorphic is the simplest form of comparison between planning instances. It is also a particular case of the problem concerned with finding an isomorphism between a planning instance $P$ and a sub-instance of another instance $P_0$ . One application of such a mapping is to efficiently produce a compiled form containing all solutions to P from a compiled form containing all solutions to $P_0$. We also introduce the notion of embedding from an instance $P$ to another instance $P_0$, which allows us to deduce that $P_0$ has no solution-plan if $P$ is unsolvable. In this paper, we study the complexity of these problems. We show that the first is GI-complete, and can thus be solved, in theory, in quasi-polynomial time. While we prove the remaining problems to be NP-complete, we propose an algorithm to build an isomorphism, when possible. We report extensive experimental trials on benchmark problems which demonstrate conclusively that applying constraint propagation in preprocessing can greatly improve the efficiency of a SAT solver. | 翻訳日:2024-06-25 15:04:12 公開日:2024-06-24 |
# 課題解決を支援するマルチキュービット状態可視化のパイロットスタディ
Multi-qubit state visualizations to support problem solving $-$ a pilot study ( http://arxiv.org/abs/2406.16556v1 ) ライセンス: Link先を確認 | Jonas Bley, Eva Rexigel, Alda Arias, Lars Krupp, Steffen Steinert, Nikolas Longen, Paul Lukowicz, Stefan Küchemann, Jochen Kuhn, Maximilian Kiefer-Emmanouilidis, Artur Widera, | (参考訳) 量子情報科学とテクノロジーの分野が急速に発展していく中で、大きな障害は複雑な問題を解決するために高次数学を理解する必要があることである。
次元円記法のような可視化により、単一キュービット状態だけでなく、複雑なマルチキュービット状態、絡み合い、量子アルゴリズムも可視化できる。
教育研究における近年の知見は, 可視化を問題解決の設定に組み込むことは, シンボリックな問題解決コンテンツにのみ依存するよりも, 生徒のパフォーマンスや認知負荷に有益な影響を与えることを示唆している。
本研究では,数学的な形式化に加えて,マルチキュービットシステムの可視化の提示から学生がどのような状況で恩恵を受けるかを明らかにするための第一歩を踏み出した。
数式-記号的ディラック表記法を単独で用いた場合, 学生のパフォーマンス, 時間, 認知負荷を, 単ビット系および多ビット系における円表記法や次元円表記法と組み合わせて比較した。
学生のパフォーマンスの全体的な違いは、提示された表現によってほとんど検出できないが、問題解決性能は学生に依存し、文脈に依存していることを観察する。
さらに, 参加者に可視化を施すと, 認知負荷の低減が図られた。
今後の研究における設計面について考察する。
In the rapidly evolving interdisciplinary field of quantum information science and technology, a big obstacle is the necessity of understanding high-level mathematics to solve complex problems. Visualizations like the (dimensional) circle notation enable us to visualize not only single-qubit but also complex multi-qubit states, entanglement, and quantum algorithms. Current findings in educational research suggest that incorporating visualizations in settings of problem solving can have beneficial effects on students' performance and cognitive load compared to solely relying on symbolic problem solving content. In this pilot study, we aim to take a first step to identify in which contexts students benefit from the presentation of visualizations of multi-qubit systems in addition to mathematical formalism. We compare students' performance, time taken, and cognitive load when solving problems using the mathematical-symbolic Dirac notation alone with using it accompanied by the circle notation or the dimensional circle notation in single- and multi-qubit systems. Although little overall differences in students' performance can be detected depending on the presented representations, we observe that problem-solving performance is student- and context-dependent. In addition, the results indicate reduced cognitive load when participants are presented with visualization. The results are discussed with respect to relevant design aspects for future studies. | 翻訳日:2024-06-25 15:04:12 公開日:2024-06-24 |
# 指数的ティルティングによる個人の公平性を考慮した効率的なk-means
Efficient k-means with Individual Fairness via Exponential Tilting ( http://arxiv.org/abs/2406.16557v1 ) ライセンス: Link先を確認 | Shengkun Zhu, Jinshan Zeng, Yuan Sun, Sheng Wang, Xiaodong Li, Zhiyong Peng, | (参考訳) 位置情報に基づく資源配分のシナリオでは、各個人と施設間の距離がほぼ等しくなり、公平性を確保することが望まれる。
個別に公平なクラスタリングは、これらのシナリオに適用可能な全ての点を平等に扱うという原則を達成するためにしばしば用いられる。
本稿では,クラスタリングにおける個別の公平性を実現することを目的とした,新しいアルゴリズムである傾きk平均(TKM)を提案する。
我々は指数傾斜を2乗誤差の和(SSE)に統合し、傾きSSEと呼ばれる新しい目的関数を定式化する。
本研究では,傾いたSSEをSSEに一般化し,座標勾配法と一階勾配法を用いて最適化できることを実証する。
本稿では,各クラスタ内の距離の分散である新しいフェアネス尺度を提案し,既存のフェアネス指標によって引き起こされるマシュー効果を緩和する。
我々の理論的解析は、よく知られたk-means++がO(k log k)の乗法誤差を生じ、穏やかな条件下でTKMの収束を確立することを証明している。
公平性の観点からは、TKMによって生じる分散はスケールされたハイパーパラメータによって減少することを示す。
効率の面では、データセットのサイズと時間複雑性が線形であることを示します。
実験の結果,TKMは有効性,公平性,効率性において最先端の手法よりも優れていた。
In location-based resource allocation scenarios, the distances between each individual and the facility are desired to be approximately equal, thereby ensuring fairness. Individually fair clustering is often employed to achieve the principle of treating all points equally, which can be applied in these scenarios. This paper proposes a novel algorithm, tilted k-means (TKM), aiming to achieve individual fairness in clustering. We integrate the exponential tilting into the sum of squared errors (SSE) to formulate a novel objective function called tilted SSE. We demonstrate that the tilted SSE can generalize to SSE and employ the coordinate descent and first-order gradient method for optimization. We propose a novel fairness metric, the variance of the distances within each cluster, which can alleviate the Matthew Effect typically caused by existing fairness metrics. Our theoretical analysis demonstrates that the well-known k-means++ incurs a multiplicative error of O(k log k), and we establish the convergence of TKM under mild conditions. In terms of fairness, we prove that the variance generated by TKM decreases with a scaled hyperparameter. In terms of efficiency, we demonstrate the time complexity is linear with the dataset size. Our experiments demonstrate that TKM outperforms state-of-the-art methods in effectiveness, fairness, and efficiency. | 翻訳日:2024-06-25 15:04:12 公開日:2024-06-24 |
# 吸収分光における非エルミートフロックダイナミクス
Non-Hermitian Floquet dynamics in absorption spectroscopy ( http://arxiv.org/abs/2406.16559v1 ) ライセンス: Link先を確認 | R M Potvliege, | (参考訳) 強い電磁場と相互作用する場合に、原子または凝縮物質媒質によるレーザー磁場の吸収の理論を示す。
後者は回転波近似を仮定しない。
弱いプローブの極限では、リンドブラッド・マスター方程式は関連する定常状態コヒーレンスに対してより小さな線形方程式系に還元される。
この極限において、媒体の複素感受性は、崩壊する着衣状態の個々の寄与の観点で表すことができ、後者は非エルミート的フロケハミルトニアン(英語版)の固有状態である。
A theory of the absorption of a laser field by an atomic or condensed matter medium is presented for the case where the medium is also interacting with a strong electromagnetic field. The rotating wave approximation is not assumed for the latter. It is shown that in the weak probe limit the Lindblad master equation reduces to a smaller system of linear equations for the relevant steady state coherences. In this limit, the complex susceptibility of the medium can be expressed in terms of individual contributions of decaying dressed states, the latter being eigenstates of a non-Hermitian Floquet Hamiltonian. | 翻訳日:2024-06-25 15:04:12 公開日:2024-06-24 |
# EvalAlign: 人間のアノテーションに微調整を施したマルチモーダル大モデルの高精度アライメントによるテキスト・画像モデルの評価
EvalAlign: Evaluating Text-to-Image Models through Precision Alignment of Multimodal Large Models with Supervised Fine-Tuning to Human Annotations ( http://arxiv.org/abs/2406.16562v1 ) ライセンス: Link先を確認 | Zhiyu Tan, Xiaomeng Yang, Luozheng Qin, Mengping Yang, Cheng Zhang, Hao Li, | (参考訳) 近年のテキスト・画像生成モデルの発展は目覚ましい。
しかし、この分野はこれらのモデルの性能を正確に反映する評価指標の欠如に悩まされており、特にモデルの最適化を導くための詳細な指標が欠如している。
本稿では,その精度,安定性,粒度を特徴とする計量であるEvalAlignを提案する。
我々のアプローチは、広範囲なデータセットで事前訓練されたMLLM(Multimodal Large Language Models)の機能を活用する。
画像の忠実度とテキスト画像のアライメントという2つの重要な側面に焦点を当てた評価プロトコルを開発する。
各プロトコルは、特定のスコアリングオプションにリンクされた詳細できめ細かな命令で構成されており、生成された画像の正確な手動スコアリングを可能にする。
我々は,人間の評価判断と密接に一致させるために,MLLMのファインチューン(SFT)を監督し,堅牢な評価モデルを得た。
24のテキスト・ツー・イメージ生成モデルを対象とした総合的なテストでは、EvalAlignは優れたメートル法安定性を提供するだけでなく、既存のメトリクスよりも人間の好みと密に一致し、モデルアセスメントにおけるその有効性と有用性を確認している。
The recent advancements in text-to-image generative models have been remarkable. Yet, the field suffers from a lack of evaluation metrics that accurately reflect the performance of these models, particularly lacking fine-grained metrics that can guide the optimization of the models. In this paper, we propose EvalAlign, a metric characterized by its accuracy, stability, and fine granularity. Our approach leverages the capabilities of Multimodal Large Language Models (MLLMs) pre-trained on extensive datasets. We develop evaluation protocols that focus on two key dimensions: image faithfulness and text-image alignment. Each protocol comprises a set of detailed, fine-grained instructions linked to specific scoring options, enabling precise manual scoring of the generated images. We Supervised Fine-Tune (SFT) the MLLM to align closely with human evaluative judgments, resulting in a robust evaluation model. Our comprehensive tests across 24 text-to-image generation models demonstrate that EvalAlign not only provides superior metric stability but also aligns more closely with human preferences than existing metrics, confirming its effectiveness and utility in model assessment. | 翻訳日:2024-06-25 15:04:12 公開日:2024-06-24 |
# 文中に構造的要素が埋め込まれているか?
Are there identifiable structural parts in the sentence embedding whole? ( http://arxiv.org/abs/2406.16563v1 ) ライセンス: Link先を確認 | Vivi Nastase, Paola Merlo, | (参考訳) 変圧器モデルからの文の埋め込みは固定長ベクトルで多くの言語情報を符号化する。
これらの埋め込みは、分離可能な情報の重なり合う層から成り、また、チャンクに関する情報やその構造的・意味的性質などの特定の種類の情報を検出することができるという仮説を探求する。
本研究では,チャンク構造が既知の文と2つの言語知能データセットからなるデータセットを用いて,チャンクの検出と文法的数に依存し,それらの意味的役割,および学習中に構築されたタスクや内部表現のパフォーマンスの分析を通じて,それらの意味的役割を解明することを示す。
Sentence embeddings from transformer models encode in a fixed length vector much linguistic information. We explore the hypothesis that these embeddings consist of overlapping layers of information that can be separated, and on which specific types of information -- such as information about chunks and their structural and semantic properties -- can be detected. We show that this is the case using a dataset consisting of sentences with known chunk structure, and two linguistic intelligence datasets, solving which relies on detecting chunks and their grammatical number, and respectively, their semantic roles, and through analyses of the performance on the tasks and of the internal representations built during learning. | 翻訳日:2024-06-25 15:04:12 公開日:2024-06-24 |
# FASTC: Point Cloudを使った意味的トレーサビリティ分類のための高速注意フレームワーク
FASTC: A Fast Attentional Framework for Semantic Traversability Classification Using Point Cloud ( http://arxiv.org/abs/2406.16564v1 ) ライセンス: Link先を確認 | Yirui Chen, Pengjin Wei, Zhenhuan Liu, Bingchao Wang, Jie Yang, Wei Liu, | (参考訳) トラバーサビリティマップの作成と周囲の理解は、自律的なナビゲーションにとって重要な前提条件である。
本稿では,点雲を用いたトラバーサビリティ評価の問題に対処する。
本稿では,垂直に配置された点雲と2次元エンコーダ・デコーダ構造から特徴を抽出し,広く使用されている3次元畳み込みではなく,可逆性分類を行うための新しい柱特徴抽出モジュールを提案する。
これにより計算コストが削減され、性能も向上する。
次に,LIDAR点雲の密度問題に適切に対応できる多フレーム情報を融合する新しい時空間アテンションモジュールを提案する。
拡張Semantic KITTIとRELLIS-3Dデータセットの総合的な実験結果から,本手法は既存の手法よりも定量的かつ定量的に優れた性能が得られることが示された。
Producing traversability maps and understanding the surroundings are crucial prerequisites for autonomous navigation. In this paper, we address the problem of traversability assessment using point clouds. We propose a novel pillar feature extraction module that utilizes PointNet to capture features from point clouds organized in vertical volume and a 2D encoder-decoder structure to conduct traversability classification instead of the widely used 3D convolutions. This results in less computational cost while even better performance is achieved at the same time. We then propose a new spatio-temporal attention module to fuse multi-frame information, which can properly handle the varying density problem of LIDAR point clouds, and this makes our module able to assess distant areas more accurately. Comprehensive experimental results on augmented Semantic KITTI and RELLIS-3D datasets show that our method is able to achieve superior performance over existing approaches both quantitatively and quantitatively. | 翻訳日:2024-06-25 14:54:27 公開日:2024-06-24 |
# うるさい隣人: LLMに対する効率的なメンバーシップ推論攻撃
Noisy Neighbors: Efficient membership inference attacks against LLMs ( http://arxiv.org/abs/2406.16565v1 ) ライセンス: Link先を確認 | Filippo Galli, Luca Melis, Tommaso Cucinotta, | (参考訳) トランスフォーマーベースのLSMの潜在的なリスクは、機密情報を含む広範囲なデータセットに依存しているため、プライバシー上の懸念によって妨げられている。
GDPRやCCPAなどの規制措置では、潜在的なプライバシー問題に対処するために堅牢な監査ツールを使用することが求められている。
従来のMIA手法と異なり、しばしば追加モデルの計算集約的な訓練を必要とするが、本研究では、埋め込み空間に確率ノイズを加えてターゲットモデルのみを推論モードで操作することで、ターゲットサンプルに対して「textit{noisy neighbors}」を生成する効率的な手法を提案する。
提案手法はシャドウモデルの有効性と密に一致し,実際のプライバシー監査シナリオにおけるユーザビリティを示す。
The potential of transformer-based LLMs risks being hindered by privacy concerns due to their reliance on extensive datasets, possibly including sensitive information. Regulatory measures like GDPR and CCPA call for using robust auditing tools to address potential privacy issues, with Membership Inference Attacks (MIA) being the primary method for assessing LLMs' privacy risks. Differently from traditional MIA approaches, often requiring computationally intensive training of additional models, this paper introduces an efficient methodology that generates \textit{noisy neighbors} for a target sample by adding stochastic noise in the embedding space, requiring operating the target model in inference mode only. Our findings demonstrate that this approach closely matches the effectiveness of employing shadow models, showing its usability in practical privacy auditing scenarios. | 翻訳日:2024-06-25 14:54:27 公開日:2024-06-24 |
# qudit は dit よりも多くの情報を運ぶことができますか?
Can a qudit carry more information than a dit? ( http://arxiv.org/abs/2406.16566v1 ) ライセンス: Link先を確認 | Teiko Heinosaari, Mark Hillery, | (参考訳) 従来の知恵は、固定された準備測定設定内では、キュービットシステムは少しも利点がないことを示唆している。
標準通信と有名なホレボ境界を考えると、これは事実である。
しかし、これら2つの物理系の間には微妙な違いがあり、適切に利用すれば実用的な応用に変換できる。
まず、情報キャリアとしてのクォーディットとディットの類似性について議論する。
そして、コミュニケーションタスクのための一般的なフレームワークを思い出し、キューディットとディットの違いをレビューします。
最後に、量子ビットの量子特性を利用する単純な通信アプリケーションを提案する。
Conventional wisdom suggests that within a fixed preparation-measurement setup, a qubit system offers no advantage over a bit. This indeed holds true when considering the standard communication and the famous Holevo bound then formalizes the statement that one qubit can encode at most one bit of information. However, there exist subtle differences between these two physical systems that, when properly exploited, can be converted into practical applications. We begin by discussing the similarities between qudits and dits as information carriers. Then we recall a general framework for communication tasks and review some differences that qudits and dits have. In the end, we present a simple communication application that utilizes the quantum character of the qubit. | 翻訳日:2024-06-25 14:54:27 公開日:2024-06-24 |
# 知識駆動型進歩的思考プロンプティングによる多ターン心理学対話のデータ増強
Data Augmentation of Multi-turn Psychological Dialogue via Knowledge-driven Progressive Thought Prompting ( http://arxiv.org/abs/2406.16567v1 ) ライセンス: Link先を確認 | Jiyue Jiang, Liheng Chen, Sheng Wang, Lingpeng Kong, Yu Li, Chuan Wu, | (参考訳) 既存の対話データ拡張(DA)技術は、主に発話レベルの対話を強化することに焦点を当てており、対話コンテキスト情報を考慮に入れるのが困難である。
大規模言語モデル(LLM)の出現により、マルチターン対話の実装が簡略化された。
専門的な理解と知識が欠如しているため、心理的対話のような低リソース領域で満足なパフォーマンスを実現することは依然として困難である。
DAは、既存のデータに基づいて、新たなトレーニングを作成したり、データをプロンプトすることで、モデルが心理学関連の反応をよりよく理解し、生成するのに役立つ。
本稿では,心理学領域におけるパフォーマンス向上のためのマルチターン対話データ拡張の課題に対処することを目的とする。
本稿では,LLMを多ターン心理学関連対話に導くための知識駆動型進歩的思考促進手法を提案する。
この方法は、進歩的思考生成装置、心理学知識生成装置、多ターン対話生成装置を統合する。
プログレッシブ思考生成装置が生成した思考は、生成した対話が有意な意味的偏差を生じないようにするためのプロンプトとして機能し、心理学知識生成装置は、LLMの対話履歴として機能する心理学的知識を生成し、対話生成装置を誘導してマルチターン心理学的対話を生成する。
LLMによるマルチターン心理学的対話生成の精度を確保するためには、綿密な専門家による評価が必要である。
心理学的対話に関連する3つのデータセットを用いて実験を行い,提案手法の有効性を検証した。
Existing dialogue data augmentation (DA) techniques predominantly focus on augmenting utterance-level dialogues, which makes it difficult to take dialogue contextual information into account. The advent of large language models (LLMs) has simplified the implementation of multi-turn dialogues. Due to absence of professional understanding and knowledge, it remains challenging to deliver satisfactory performance in low-resource domain, like psychological dialogue dialogue. DA involves creating new training or prompting data based on the existing data, which help the model better understand and generate psychology-related responses. In this paper, we aim to address the issue of multi-turn dialogue data augmentation for boosted performance in the psychology domain. We propose a knowledge-driven progressive thought prompting method to guide LLM to generate multi-turn psychology-related dialogue. This method integrates a progressive thought generator, a psychology knowledge generator, and a multi-turn dialogue generator. The thought generated by the progressive thought generator serves as a prompt to prevent the generated dialogue from having significant semantic deviations, while the psychology knowledge generator produces psychological knowledge to serve as the dialogue history for the LLM, guiding the dialogue generator to create multi-turn psychological dialogue. To ensure the precision of multi-turn psychological dialogue generation by LLM, a meticulous professional evaluation is required. Extensive experiments conducted on three datasets related to psychological dialogue verify the effectiveness of the proposed method. | 翻訳日:2024-06-25 14:54:27 公開日:2024-06-24 |
# 微分分布ロバスト最適化層
Differentiable Distributionally Robust Optimization Layers ( http://arxiv.org/abs/2406.16571v1 ) ライセンス: Link先を確認 | Xutao Ma, Chao Ning, Wenli Du, | (参考訳) 近年,パイプラインの学習層として最適化問題を埋め込んで,予測重視のアプローチよりも優れたパフォーマンスを示す,意思決定中心の学習への関心が高まっている。
しかし、不確実性の下で意思決定を行うための一般的なパラダイムである分散ロバスト最適化(DRO)では、それを層としてどのように埋め込むか、すなわち曖昧性集合に対してどのように決定を区別するかは未だ分かっていない。
本稿では、パラメータ化二階円錐曖昧性集合を用いた一般混合整数DRO問題に対するそのような微分可能なDRO層を開発し、ワッサーシュタイン曖昧性集合への拡張について議論する。
混合整数決定を区別するために、異なる原理を用いて連続的および離散的な決定を処理し、新しい双対ビュー手法を提案する。
具体的には、双対ビュー手法を実装し、その勾配を推定するために重要サンプリングを利用するために、微分可能エネルギーベースサロゲートを構築した。
さらに、そのような代理が正規化の下で漸近収束を楽しむことを証明する。
提案した微分可能DRO層の適用として,文脈的分布的ロバストな意思決定タスクのための新たな意思決定型学習パイプラインを開発し,実験における予測型アプローチと比較する。
In recent years, there has been a growing research interest in decision-focused learning, which embeds optimization problems as a layer in learning pipelines and demonstrates a superior performance than the prediction-focused approach. However, for distributionally robust optimization (DRO), a popular paradigm for decision-making under uncertainty, it is still unknown how to embed it as a layer, i.e., how to differentiate decisions with respect to an ambiguity set. In this paper, we develop such differentiable DRO layers for generic mixed-integer DRO problems with parameterized second-order conic ambiguity sets and discuss its extension to Wasserstein ambiguity sets. To differentiate the mixed-integer decisions, we propose a novel dual-view methodology by handling continuous and discrete parts of decisions via different principles. Specifically, we construct a differentiable energy-based surrogate to implement the dual-view methodology and use importance sampling to estimate its gradient. We further prove that such a surrogate enjoys the asymptotic convergency under regularization. As an application of the proposed differentiable DRO layers, we develop a novel decision-focused learning pipeline for contextual distributionally robust decision-making tasks and compare it with the prediction-focused approach in experiments. | 翻訳日:2024-06-25 14:54:27 公開日:2024-06-24 |
# 非エルミタンカスケードラビ空洞における位相駆動的完全および非伝統的超放射相転移
Phase driven exact and unconventional superradiance phase transition in non-Hermitian cascaded Rabi cavities ( http://arxiv.org/abs/2406.16576v1 ) ライセンス: Link先を確認 | Shujie Cheng, Shuai-Peng Wang, G. D. M. Neto, Gao Xianlong, | (参考訳) この研究は、非エルミタンカスケードラビ空洞における位相駆動対称性の破れと正確かつ非伝統的な超放射相転移を報告した。
非ハーモニティ性は、原子と光学場の間の結合相($\varphi$と表記される)で導入される。
この正確性は、超放射相境界が解析的に取得され、観測者によって検証されるという事実を指す。
非通例性は、$|\varphi|=\frac{\pi}{4}$または$|\varphi|=\frac{3\pi}{4}$の場合、位相境界は$\mathcal{J}=\frac{1}{2}$(ここで$\mathcal{J}$は無次元空洞結合強度)によって一意に決定され、原子-光場結合強度$g$とは独立である。
他の$\varphi$の場合、位相境界は$\mathcal{J}$と次元のない原子-光学場結合強度$g$で決定される。
さらに, 位相駆動型1次・2次超放射相転移が存在すること, 2次超放射相転移の量子臨界性について検討した。
また,実験的な実現可能性についても論じる。
この研究は、非エルミート超放射性量子相転移とその実験的実現、および基礎となる相転移の普遍性クラスの研究を刺激する。
This work reports the phase driven symmetry breaking and exact and unconventional superradiance phase transition in the non-Hermitian cascaded Rabi cavities. The non-Hermiticity is introduced in the coupling phase (denoted by $\varphi$) between the atom and the optical field. The exactness refers to the fact that the superradiance phase boundary is obtained analytically and verified by the observables. The unconventionality is reflected in that when $|\varphi|=\frac{\pi}{4}$ or $|\varphi|=\frac{3\pi}{4}$, the phase boundary is uniquely determined by $\mathcal{J}=\frac{1}{2}$ (where $\mathcal{J}$ is the dimensionless cavity coupling strength) and is independent of the atom-optical field coupling strength $g$. For other $\varphi$, the phase boundary is determined by $\mathcal{J}$ and the dimensionless atom-optical field coupling strength $g$ together. Besides, we find that there are phase driven first-order and second-order superradiance phase transitions, and the quantum criticality for the second-order superradiance phase transition is studied. In addition, the experimental feasibility is discussed. This work will stimulate the studies of non-Hermitian superradiance quantum phase transitions and their experimental realizations, as well as the underlying universality class of phase transitions. | 翻訳日:2024-06-25 14:54:27 公開日:2024-06-24 |
# 四重化GPT:オープンエンド世界における四重化エージェントを目指して
QuadrupedGPT: Towards a Versatile Quadruped Agent in Open-ended Worlds ( http://arxiv.org/abs/2406.16578v1 ) ライセンス: Link先を確認 | Ye Wang, Yuting Mei, Sipeng Zheng, Qin Jin, | (参考訳) ペットは仲間シップを提供するが、その限られた知性は高度な推論と人間との自律的な相互作用を制限する。
そこで本研究では,ペットに匹敵する俊敏性を備えた多種多様な複雑なタスクを習得する汎用エージェントであるQuadrupedGPTを提案する。
この目標を達成するために、主な課題は以下のとおりである。
一 意思決定にマルチモーダルな観察を効果的に活用すること。
二 移動及び経路計画のアジャイル制御を習得すること。
三 長期的な目的を遂行するための先進的な認知の発達
QuadrupedGPTは、大規模なマルチモーダルモデル(LMM)を用いて、人間の命令と環境コンテキストを処理する。
我々のエージェントは、その広範な知識ベースを生かし、適応的な移動ポリシーの適切なパラメータを自律的に割り当て、セマンティック・アウェアな地形解析を利用して、目標に向かって安全かつ効率的な経路を計画するエージェントを誘導する。
さらに、QuadrupedGPTは、高レベルの推論により、長期目標を実行可能なサブゴールのシーケンスに分解できる問題解決機能を備えている。
様々なベンチマークにわたる大規模な実験により、QuadrupedGPTは複雑な命令で複数のタスクを順応的に処理できることが確認され、オープンエンドの世界における多目的な四重化エージェントへの大きな一歩が示される。
私たちのWebサイトとコードは、https://quadruped-hub.github.io/Quadruped-GPT/で確認できます。
While pets offer companionship, their limited intelligence restricts advanced reasoning and autonomous interaction with humans. Considering this, we propose QuadrupedGPT, a versatile agent designed to master a broad range of complex tasks with agility comparable to that of a pet. To achieve this goal, the primary challenges include: i) effectively leveraging multimodal observations for decision-making; ii) mastering agile control of locomotion and path planning; iii) developing advanced cognition to execute long-term objectives. QuadrupedGPT processes human command and environmental contexts using a large multimodal model (LMM). Empowered by its extensive knowledge base, our agent autonomously assigns appropriate parameters for adaptive locomotion policies and guides the agent in planning a safe but efficient path towards the goal, utilizing semantic-aware terrain analysis. Moreover, QuadrupedGPT is equipped with problem-solving capabilities that enable it to decompose long-term goals into a sequence of executable subgoals through high-level reasoning. Extensive experiments across various benchmarks confirm that QuadrupedGPT can adeptly handle multiple tasks with intricate instructions, demonstrating a significant step towards the versatile quadruped agents in open-ended worlds. Our website and codes can be found at https://quadruped-hub.github.io/Quadruped-GPT/. | 翻訳日:2024-06-25 14:54:27 公開日:2024-06-24 |
# 特徴融合に基づく個人化フェデレーション学習
Personalized federated learning based on feature fusion ( http://arxiv.org/abs/2406.16583v1 ) ライセンス: Link先を確認 | Wolong Xing, Zhenkui Shi, Hongyan Peng, Xiantao Hu, Xianxian Li, | (参考訳) フェデレートされた学習により、分散クライアントは、クライアントのプライバシを保護するためにデータをローカルに保存しながら、トレーニングで協力することができる。
しかし、データ、モデル、デバイスの不均一性のため、最終的なグローバルモデルは、各クライアント上のタスクに対してより良いパフォーマンスを発揮する必要があるかもしれない。
コミュニケーションボトルネック、データ不均一性、モデル不均一性は、連合学習における一般的な課題である。
本研究では,ラベル分布スキュー問題(データの不均一性の一種)について考察した。
分類の文脈では, pFedPM と呼ばれる, パーソナライズされた学習手法を提案する。
このプロセスでは、従来のグラデーションアップロードを機能アップロードに置き換え、通信コストを削減し、異種クライアントモデルを可能にする。
これらの特徴表現は、ある程度のプライバシー保持に重要な役割を果たしている。
ローカルとグローバルの機能を混合するために、ハイパーパラメータ$a$を使い、パーソナライゼーションの度合いを制御できます。
また,関係ネットワークを付加的な決定層として導入し,ラベルを予測するための非線形学習可能な分類器を提供する。
実験結果から,MNIST, FEMNIST, CRIFAR10データセットにおける最近のFL法よりも高い性能を示し,通信効率の低下を図っている。
Federated learning enables distributed clients to collaborate on training while storing their data locally to protect client privacy. However, due to the heterogeneity of data, models, and devices, the final global model may need to perform better for tasks on each client. Communication bottlenecks, data heterogeneity, and model heterogeneity have been common challenges in federated learning. In this work, we considered a label distribution skew problem, a type of data heterogeneity easily overlooked. In the context of classification, we propose a personalized federated learning approach called pFedPM. In our process, we replace traditional gradient uploading with feature uploading, which helps reduce communication costs and allows for heterogeneous client models. These feature representations play a role in preserving privacy to some extent. We use a hyperparameter $a$ to mix local and global features, which enables us to control the degree of personalization. We also introduced a relation network as an additional decision layer, which provides a non-linear learnable classifier to predict labels. Experimental results show that, with an appropriate setting of $a$, our scheme outperforms several recent FL methods on MNIST, FEMNIST, and CRIFAR10 datasets and achieves fewer communications. | 翻訳日:2024-06-25 14:54:27 公開日:2024-06-24 |
# 散逸した量子キックトップにおけるカオスとマジック
Chaos and magic in the dissipative quantum kicked top ( http://arxiv.org/abs/2406.16585v1 ) ライセンス: Link先を確認 | Gianluca Passarelli, Procolo Lucignano, Davide Rossini, Angelo Russomanno, | (参考訳) 無限範囲の相互作用量子スピン-1/2モデルについて検討し、周期的蹴りおよび散逸的に環境と結合する。
熱力学の極限では、規則的かつカオス的な状態を示す古典的な平均場方程式によって記述される。
有限サイズでは、確率的量子軌道を用いて系の力学を記述する。
量子複雑性の尺度である漸近的非安定度(英語版)(asymptotic nonstabilizerness)は軌道上で平均化され、古典的なカオスの振る舞いを反映するが、エントロピーの絡み合いは熱力学の限界におけるカオスとは無関係である。
We consider an infinite-range interacting quantum spin-1/2 model, undergoing periodic kicking and dissipatively coupled with an environment. In the thermodynamic limit, it is described by classical mean-field equations that can show regular and chaotic regimes. At finite size, we describe the system dynamics using stochastic quantum trajectories. We find that the asymptotic nonstabilizerness (alias the magic, a measure of quantum complexity), averaged over trajectories, mirrors the classical chaotic behavior, while the entanglement entropy has no relation with chaos in the thermodynamic limit. | 翻訳日:2024-06-25 14:54:27 公開日:2024-06-24 |
# ディープラーニングによる予測 - 平均的な平均的パフォーマンスを超える
Forecasting with Deep Learning: Beyond Average of Average of Average Performance ( http://arxiv.org/abs/2406.16590v1 ) ライセンス: Link先を確認 | Vitor Cerqueira, Luis Roque, Carlos Soares, | (参考訳) 予測モデルの正確な評価は、信頼性の高い予測を保証するために不可欠である。
予測モデルの評価と比較の現在のプラクティスは、SMAPEのようなメトリクスを使用して、パフォーマンスを1つのスコアにまとめることに重点を置いている。
モデルの相対的性能について,全てのサンプルの平均性能は関連情報を希釈する,という仮説を立てる。
特に、この相対的な性能が全体的な精度と異なる条件である。
本研究では,複数視点から一段階予測モデルを評価するための新しい枠組みを提案し,一段階予測モデルと多段階予測モデルを提案する。
このフレームワークの利点は、最先端のディープラーニングアプローチと古典的な予測手法を比較して示す。
古典的手法(例えばARIMA)は予測に対する長年のアプローチであるが、ディープニューラルネットワーク(例えばNHITS)は、最近、ベンチマークデータセットで最先端の予測性能を示している。
我々はNHITSが一般的に最も優れていることを示す広範な実験を行ったが、その優位性は予測条件によって異なる。
例えば、予測の地平線については、NHITSはマルチステップ予測において古典的なアプローチよりも優れている。
もう1つの関連する洞察は、異常を扱う場合、NHITSはThetaのような手法で優れるということである。
これらの知見はアスペクトベースのモデル評価の重要性を浮き彫りにした。
Accurate evaluation of forecasting models is essential for ensuring reliable predictions. Current practices for evaluating and comparing forecasting models focus on summarising performance into a single score, using metrics such as SMAPE. We hypothesize that averaging performance over all samples dilutes relevant information about the relative performance of models. Particularly, conditions in which this relative performance is different than the overall accuracy. We address this limitation by proposing a novel framework for evaluating univariate time series forecasting models from multiple perspectives, such as one-step ahead forecasting versus multi-step ahead forecasting. We show the advantages of this framework by comparing a state-of-the-art deep learning approach with classical forecasting techniques. While classical methods (e.g. ARIMA) are long-standing approaches to forecasting, deep neural networks (e.g. NHITS) have recently shown state-of-the-art forecasting performance in benchmark datasets. We conducted extensive experiments that show NHITS generally performs best, but its superiority varies with forecasting conditions. For instance, concerning the forecasting horizon, NHITS only outperforms classical approaches for multi-step ahead forecasting. Another relevant insight is that, when dealing with anomalies, NHITS is outperformed by methods such as Theta. These findings highlight the importance of aspect-based model evaluation. | 翻訳日:2024-06-25 14:54:27 公開日:2024-06-24 |
# より公平な顔認識データセットを目指して
Toward Fairer Face Recognition Datasets ( http://arxiv.org/abs/2406.16592v1 ) ライセンス: Link先を確認 | Alexandre Fournier-Mongieux, Michael Soumm, Adrian Popescu, Bertrand Luvison, Hervé Le Borgne, | (参考訳) 顔認識と検証は、2つのコンピュータビジョンタスクであり、深層表現の導入によって性能が向上した。
しかし、実際のトレーニングデータセットにおける顔データやバイアスの繊細な特徴による倫理的、法的、技術的な課題は、彼らの開発を妨げる。
生成AIは、架空のアイデンティティを作成することによってプライバシに対処するが、公平性の問題は継続する。
生成されたトレーニングデータセットに階層属性のバランス機構を導入することにより、公平性を促進する。
既存の実データセット、生成された3つのトレーニングデータセット、拡散ベースデータセットのバランスの取れたバージョンを実験する。
精度と公平性を等しく考慮し、厳密な回帰に基づく属性の統計的分析を含む包括的評価を提案する。
この分析は、バランスが人口的不公平を減少させることを示している。
また、世代が時間とともに正確になるにもかかわらず、パフォーマンスギャップは持続する。
提案手法と包括的検証評価は、より公平で透明な顔認識と検証を促進する。
Face recognition and verification are two computer vision tasks whose performance has progressed with the introduction of deep representations. However, ethical, legal, and technical challenges due to the sensitive character of face data and biases in real training datasets hinder their development. Generative AI addresses privacy by creating fictitious identities, but fairness problems persist. We promote fairness by introducing a demographic attributes balancing mechanism in generated training datasets. We experiment with an existing real dataset, three generated training datasets, and the balanced versions of a diffusion-based dataset. We propose a comprehensive evaluation that considers accuracy and fairness equally and includes a rigorous regression-based statistical analysis of attributes. The analysis shows that balancing reduces demographic unfairness. Also, a performance gap persists despite generation becoming more accurate with time. The proposed balancing method and comprehensive verification evaluation promote fairer and transparent face recognition and verification. | 翻訳日:2024-06-25 14:54:27 公開日:2024-06-24 |
# 電子部品のリサイクル性測定による廃回路基板の自動分解・選別支援
Measuring the Recyclability of Electronic Components to Assist Automatic Disassembly and Sorting Waste Printed Circuit Boards ( http://arxiv.org/abs/2406.16593v1 ) ライセンス: Link先を確認 | Muhammad Mohsin, Xianlai Zeng, Stefano Rovetta, Francesco Masulli, | (参考訳) 電気・電子機器の無駄は、技術製品が急速に進化し、多くのIT部門との競争が激化している。
毎年何百万トンもの電子廃棄物が環境に投棄され、人間の健康に高い影響をもたらす。
そのため, 技術, 特に人工知能を駆使して, 新たな生産プロセスにおいて, 重要な原料の埋立処分も行うことが重要である。
本稿では, 廃プリント基板(WPCB)からの廃電子部品(WEC)のリサイクル性について, 数学的革新モデルを用いて測定した。
この革新的なアプローチは、WECのリサイクルとリサイクルの難しさを評価し、分解とソートを改善するAIモデルを統合する。
WPCBsに存在している個々の電子部品のリサイクル性を評価することは、貴重品の回収可能性についての洞察を与え、経済的価値と生産性の観点からリサイクルに関わる複雑さのレベルを示す。
この新しい測定アプローチは、廃棄されたPCBの自動分解中に識別およびソートされるクラスの数を正確に決定する上で、AIモデルに役立つ。
また、個々の電子部品の反復的なトレーニングと検証のモデルを容易にする。
The waste of electrical and electronic equipment has been increased due to the fast evolution of technology products and competition of many IT sectors. Every year millions of tons of electronic waste are thrown into the environment which causes high consequences for human health. Therefore, it is crucial to control this waste flow using technology, especially using Artificial Intelligence but also reclamation of critical raw materials for new production processes. In this paper, we focused on the measurement of recyclability of waste electronic components (WECs) from waste printed circuit boards (WPCBs) using mathematical innovation model. This innovative approach evaluates both the recyclability and recycling difficulties of WECs, integrating an AI model for improved disassembly and sorting. Assessing the recyclability of individual electronic components present on WPCBs provides insight into the recovery potential of valuable materials and indicates the level of complexity involved in recycling in terms of economic worth and production utility. This novel measurement approach helps AI models in accurately determining the number of classes to be identified and sorted during the automated disassembly of discarded PCBs. It also facilitates the model in iterative training and validation of individual electronic components. | 翻訳日:2024-06-25 14:54:27 公開日:2024-06-24 |
# スキャン-DMRGによる普遍的臨界スケーリングの提案
Probing universal critical scaling with scan-DMRG ( http://arxiv.org/abs/2406.16594v1 ) ライセンス: Link先を確認 | Natalia Chepiga, | (参考訳) 本稿では,密度行列再正規化群 (DMRG) アルゴリズムを用いて量子相転移の普遍的シグネチャをグラデーション付き量子連鎖に適用して抽出する。
次数パラメータとエンタングルメントエントロピーに対して, 横フィールドイジング, 3状態ポット, アシュキン・テラーの3つの最小モデルに対して, 高品質なデータ崩壊を示す。
さらに, 磁化ウェス-ズミノ-ウィッテンおよび非磁性イジング遷移のフラストレーションを有するハルデン鎖に作用すると, スキャン-DMRGは普遍的な臨界スケーリングを捕捉することを示した。
さらに、勾配速度の関数として、最低励起エネルギーの普遍的なスケーリングを報告する。
最後に,Scan-DMRG法は従来のDMRG法に比べて計算コストが大幅に低いことを論じる。
We explore the universal signatures of quantum phase transitions that can be extracted with the density matrix renormalization group (DMRG) algorithm applied to quantum chains with a gradient. We present high-quality data collapses for the order parameter and for the entanglement entropy for three minimal models: transverse-field Ising, 3-state Potts and Ashkin-Teller. Furthermore, we show that scan-DMRG successfully captures the universal critical scaling when applied across the magnetic Wess-Zumino-Witten and non-magnetic Ising transitions in the frustrated Haldane chain. In addition, we report a universal scaling of the lowest excitation energy as a function of a gradient rate. Finally, we argue that the scan-DMRG approach has significantly lower computational cost compare to the conventional DMRG protocols to study quantum phase transitions. | 翻訳日:2024-06-25 14:54:27 公開日:2024-06-24 |
# 計算流体力学のためのハイブリッド量子古典的枠組み
A hybrid quantum-classical framework for computational fluid dynamics ( http://arxiv.org/abs/2406.16595v1 ) ライセンス: Link先を確認 | Chuang-Chao Ye, Ning-Bo An, Teng-Yang Ma, Meng-Han Dou, Wen Bai, Zhao-Yun Chen, Guo-Ping Guo, | (参考訳) 近年、量子コンピューティングにおいて大きな進歩があり、計算流体力学(CFD)のような多くの科学計算において、計算資源の貧困を克服する機会を提供している。
本研究は,CFDにおける量子ポテンシャルの活用に向けた取り組みであり,現在の量子コンピューティングのパワーを解放するために,ハイブリッドな古典的および量子コンピューティングのCFDフレームワークを提案する。
このフレームワークでは、従来のCFDソルバは量子線型代数ライブラリと弱い形式で結合し、古典計算と量子コンピューティングの協調計算を実現する。
量子線形解法は、線形系に対して高精度な解法とスケーラブルな問題サイズを提供し、古典線形ライブラリと同様の線形代数系を解くために容易に呼び出せるように設計されており、既存のCFD解法にシームレスに統合できる。
CFDにおける提案フレームワークの実現可能性と量子線形アルゴリズムの正しさを検証するために,いくつかの典型的なケースが実施されている。
Great progress has been made in quantum computing in recent years, providing opportunities to overcome computation resource poverty in many scientific computations like computational fluid dynamics (CFD). In this work, efforts are made to exploit quantum potentialities in CFD, and a hybrid classical and quantum computing CFD framework is proposed to release the power of current quantum computing. In this framework, the traditional CFD solvers are coupled with quantum linear algebra libraries in weak form to achieve collaborative computation between classical and quantum computing. The quantum linear solver provides high-precision solutions and scalable problem sizes for linear systems and is designed to be easily callable for solving linear algebra systems similar to classical linear libraries, thus enabling seamless integration into existing CFD solvers. Some typical cases are performed to validate the feasibility of the proposed framework and the correctness of quantum linear algorithms in CFD. | 翻訳日:2024-06-25 14:54:27 公開日:2024-06-24 |
# 人間の動きのコピーを撮ってみた!(動画あり)
Do As I Do: Pose Guided Human Motion Copy ( http://arxiv.org/abs/2406.16601v1 ) ライセンス: Link先を確認 | Sifan Wu, Zhenguang Liu, Beibei Zhang, Roger Zimmermann, Zhongjie Ba, Xiaosong Zhang, Kui Ren, | (参考訳) 人間のモーションコピーは、人工知能とコンピュータビジョンにおいて興味深いが、難しい課題である。
この問題は、微妙な人体テクスチャの詳細と時間的一貫性が考慮されるため、本質的に困難である。
既存のアプローチでは、通常、目標とするフェイクビデオを生成するために、L1またはL2損失の従来のGANを採用する。
一方、現在の手法は、人間の観察者が容易に認識できる現実的な画像の詳細と時間的一貫性を達成するのに依然として困難である。
本研究の目的は,(1)知覚的損失を伴うポーズ・ツー・アジェランス生成と,Gromov-Wasserstein損失を理論的に動機づけることで,ポーズと外観のギャップを埋めることである。
2) モデルが過去の貧しい世代から学習するのに役立つ連続学習を促進するために, ポーズ・ツー・アジュアンス・ジェネレーションにおけるエピソード記憶モジュールを提案する。
また、顔の幾何学的手がかりを利用して、顔の詳細を最適化し、各キーボディ部分を専用のローカルGANで洗練する。
(3) 時間的不整合を明示する単一フレーム方式ではなく,シーケンス・ツー・シーケンス方式で前景を生成することを提唱する。
iPER, ComplexMotion, SoloDance, Fish, Mouse の5つのデータセットに対する実験結果から,本手法は音源映像から動きを正確にコピーしながらリアルなターゲット映像を生成することができることを示した。
提案手法は,PSNRとFIDをそれぞれ7.2%,12.4%改善した。
Human motion copy is an intriguing yet challenging task in artificial intelligence and computer vision, which strives to generate a fake video of a target person performing the motion of a source person. The problem is inherently challenging due to the subtle human-body texture details to be generated and the temporal consistency to be considered. Existing approaches typically adopt a conventional GAN with an L1 or L2 loss to produce the target fake video, which intrinsically necessitates a large number of training samples that are challenging to acquire. Meanwhile, current methods still have difficulties in attaining realistic image details and temporal consistency, which unfortunately can be easily perceived by human observers. Motivated by this, we try to tackle the issues from three aspects: (1) We constrain pose-to-appearance generation with a perceptual loss and a theoretically motivated Gromov-Wasserstein loss to bridge the gap between pose and appearance. (2) We present an episodic memory module in the pose-to-appearance generation to propel continuous learning that helps the model learn from its past poor generations. We also utilize geometrical cues of the face to optimize facial details and refine each key body part with a dedicated local GAN. (3) We advocate generating the foreground in a sequence-to-sequence manner rather than a single-frame manner, explicitly enforcing temporal inconsistency. Empirical results on five datasets, iPER, ComplexMotion, SoloDance, Fish, and Mouse datasets, demonstrate that our method is capable of generating realistic target videos while precisely copying motion from a source video. Our method significantly outperforms state-of-the-art approaches and gains 7.2% and 12.4% improvements in PSNR and FID respectively. | 翻訳日:2024-06-25 14:54:27 公開日:2024-06-24 |
# CLEAR: 言語モデルはCausal Graphsを本当に理解できますか?
CLEAR: Can Language Models Really Understand Causal Graphs? ( http://arxiv.org/abs/2406.16605v1 ) ライセンス: Link先を確認 | Sirui Chen, Mengying Xu, Kun Wang, Xingyu Zeng, Rui Zhao, Shengjie Zhao, Chaochao Lu, | (参考訳) 因果推論は、人間が世界をどう解釈するかの土台である。
因果関係をモデル化し、推論するために、因果グラフは簡潔で効果的な解を提供する。
言語モデルの驚くべき進歩を考えると、決定的な疑問が生まれます。
この目的のために,言語モデルによる因果グラフ理解の先駆的な研究を行った。
具体的には、様々な分野(哲学、心理学など)から派生した4つの実践的基準を通じて言語モデルの行動を評価することにより、因果グラフ理解を定義する枠組みを開発する。
CLEARは3つの複雑性レベルを定義し、これらのレベルにまたがる20の因果グラフベースのタスクを包含する新しいベンチマークである。
最後に、我々のフレームワークとベンチマークに基づいて、6つの主要な言語モデルに関する広範な実験を行い、5つの経験的知見を要約する。
その結果,言語モデルが因果グラフの予備的理解を示す一方で,改善の有意な可能性を秘めていることがわかった。
プロジェクトのWebサイトはhttps://github.com/OpenCausaLab/CLEAR.comにある。
Causal reasoning is a cornerstone of how humans interpret the world. To model and reason about causality, causal graphs offer a concise yet effective solution. Given the impressive advancements in language models, a crucial question arises: can they really understand causal graphs? To this end, we pioneer an investigation into language models' understanding of causal graphs. Specifically, we develop a framework to define causal graph understanding, by assessing language models' behaviors through four practical criteria derived from diverse disciplines (e.g., philosophy and psychology). We then develop CLEAR, a novel benchmark that defines three complexity levels and encompasses 20 causal graph-based tasks across these levels. Finally, based on our framework and benchmark, we conduct extensive experiments on six leading language models and summarize five empirical findings. Our results indicate that while language models demonstrate a preliminary understanding of causal graphs, significant potential for improvement remains. Our project website is at https://github.com/OpenCausaLab/CLEAR. | 翻訳日:2024-06-25 14:44:42 公開日:2024-06-24 |
# Cherry on the Cake:フェアネスは最適化の問題ではない
Cherry on the Cake: Fairness is NOT an Optimization Problem ( http://arxiv.org/abs/2406.16606v1 ) ライセンス: Link先を確認 | Marco Favier, Toon Calders, | (参考訳) フェアケーキカット(英: Fair cake-cutting)は、多くの参加者の間でリソースを公平に分割する問題を研究する数学的サブフィールドである。
いわゆる ‘cake' はオブジェクトとして,プレーヤ間で分散可能なリソースを表しています。
この概念は、教師付きマルチラベル分類に関連付けられている。任意のデータセットは、分散する必要があるケーキとみなすことができ、各ラベルはデータセットの共有を受け取るプレーヤである。
特に、データセットの効率的なケーキカットソリューションは、最適な決定関数と等価である。
我々はこの関係を最初に示したわけではないが、この並列性の重要な影響は部分的に忘れられたように思われる。
我々はこれらの古典的な結果を再考し、この接続が機械学習問題における公平性にどのように活用できるかを実証する。
達成可能な公正な決定の集合を理解することは、最適な公正な解を見つけ、公正な要求を満たすための基本的なステップである。
ケーキカット理論のツールを利用することで、最適な公正決定の振る舞いを記述することができました。
具体的には、公正性の制約を満たすために、最適性という名目で、故意に誤りを犯し、同じコミュニティ内の価値の低い個人を優先して、コミュニティ内の個人を保護するための肯定的なラベルを与えることを拒否することが望ましい。
この習慣は、文学ではチェリーピッキングとして知られており、「無礼に不公平」と表現されている。
「」
Fair cake-cutting is a mathematical subfield that studies the problem of fairly dividing a resource among a number of participants. The so-called ``cake,'' as an object, represents any resource that can be distributed among players. This concept is connected to supervised multi-label classification: any dataset can be thought of as a cake that needs to be distributed, where each label is a player that receives its share of the dataset. In particular, any efficient cake-cutting solution for the dataset is equivalent to an optimal decision function. Although we are not the first to demonstrate this connection, the important ramifications of this parallel seem to have been partially forgotten. We revisit these classical results and demonstrate how this connection can be prolifically used for fairness in machine learning problems. Understanding the set of achievable fair decisions is a fundamental step in finding optimal fair solutions and satisfying fairness requirements. By employing the tools of cake-cutting theory, we have been able to describe the behavior of optimal fair decisions, which, counterintuitively, often exhibit quite unfair properties. Specifically, in order to satisfy fairness constraints, it is sometimes preferable, in the name of optimality, to purposefully make mistakes and deny giving the positive label to deserving individuals in a community in favor of less worthy individuals within the same community. This practice is known in the literature as cherry-picking and has been described as ``blatantly unfair.'' | 翻訳日:2024-06-25 14:44:42 公開日:2024-06-24 |
# 不変表現学習がラベルシフトと出会うとき--不十分性と理論的考察
When Invariant Representation Learning Meets Label Shift: Insufficiency and Theoretical Insights ( http://arxiv.org/abs/2406.16608v1 ) ライセンス: Link先を確認 | You-Wei Luo, Chuan-Xian Ren, | (参考訳) 環境変化を伴う実世界の学習シナリオへの重要なステップとして、データセットシフト理論と不変表現学習アルゴリズムが、古典的な学習環境における同じ分布仮定を緩和するために広く研究されている。
分布のシフトの本質に関する様々な仮定の中で、一般化ラベルシフト(GLS)は、シフトの中の複雑な要因に対処する大きな可能性を示す最新のものである。
本稿では,現在のデータセットシフト理論とアルゴリズムの限界を探究し,GLSの包括的理解を示すことによって,新たな洞察を提供する。
理論的側面から、2つの情報的一般化境界が導出され、GLS学習者はベイズの観点から最適対象モデルに十分近いことが証明される。
本研究の主な成果は、不変表現学習が不十分であること、一般化のためのGLS補正が不十分であること、そして、データセットシフトの下で一般化可能なモデルを探索するための理論的支援と革新を提供することの証明である。
方法論的な側面から,既存のシフト補正フレームワークの統一的なビューを提供し,一般化誤差を最小限に抑え,知識伝達を成功させるカーネル埋め込みベースの補正アルゴリズム(KECA)を提案する。
理論的結果と広範囲な実験評価は、データセットシフトに対処するためのGLS補正が不十分であることと、提案アルゴリズムの優位性を示すものである。
As a crucial step toward real-world learning scenarios with changing environments, dataset shift theory and invariant representation learning algorithm have been extensively studied to relax the identical distribution assumption in classical learning setting. Among the different assumptions on the essential of shifting distributions, generalized label shift (GLS) is the latest developed one which shows great potential to deal with the complex factors within the shift. In this paper, we aim to explore the limitations of current dataset shift theory and algorithm, and further provide new insights by presenting a comprehensive understanding of GLS. From theoretical aspect, two informative generalization bounds are derived, and the GLS learner is proved to be sufficiently close to optimal target model from the Bayesian perspective. The main results show the insufficiency of invariant representation learning, and prove the sufficiency and necessity of GLS correction for generalization, which provide theoretical supports and innovations for exploring generalizable model under dataset shift. From methodological aspect, we provide a unified view of existing shift correction frameworks, and propose a kernel embedding-based correction algorithm (KECA) to minimize the generalization error and achieve successful knowledge transfer. Both theoretical results and extensive experiment evaluations demonstrate the sufficiency and necessity of GLS correction for addressing dataset shift and the superiority of proposed algorithm. | 翻訳日:2024-06-25 14:44:42 公開日:2024-06-24 |
# 逆数展開によるディープラーニングアルゴリズム選択モデルのロバスト性評価
Evaluating the Robustness of Deep-Learning Algorithm-Selection Models by Evolving Adversarial Instances ( http://arxiv.org/abs/2406.16609v1 ) ライセンス: Link先を確認 | Emma Hart, Quentin Renau, Kevin Sim, Mohamad Alissa, | (参考訳) ディープニューラルネットワーク(DNN)は、特に特徴の設計や計算を避けた入力表現に対応するため、組合せ最適化ドメインでのアルゴリズム選択にますます使われている。
イメージを入力として使用するドメインからの証拠をマウントすると、深層畳み込みネットワークは敵のサンプルに弱いことが示され、インスタンスの小さな摂動によってDNNが誤分類される可能性がある。
しかし、最近、bin-packingドメインのアルゴリズムセレクタとして約束されているディープ・リカレント・ネットワーク(DRN)が同様に脆弱であるかどうかについては、不明である。
進化的アルゴリズム(EA)を用いて、トレーニング済みのDRNを誤って分類するオンラインビンパッキングのための2つの既存のベンチマークから、インスタンスの摂動を見つけます。
新しく分類されたインスタンスの分析は、いくつかのトレーニングインスタンスの'fragility'、すなわち、誤分類をもたらす小さな摂動を見つけることが簡単な場合と、それに影響を与える要因に光を当てる。
最後に、この手法は、信頼性のバラツキで誤分類された多数の新しいインスタンスを生成し、より堅牢なモデルを作成するための、豊富なトレーニングデータソースを提供する。
Deep neural networks (DNN) are increasingly being used to perform algorithm-selection in combinatorial optimisation domains, particularly as they accommodate input representations which avoid designing and calculating features. Mounting evidence from domains that use images as input shows that deep convolutional networks are vulnerable to adversarial samples, in which a small perturbation of an instance can cause the DNN to misclassify. However, it remains unknown as to whether deep recurrent networks (DRN) which have recently been shown promise as algorithm-selectors in the bin-packing domain are equally vulnerable. We use an evolutionary algorithm (EA) to find perturbations of instances from two existing benchmarks for online bin packing that cause trained DRNs to misclassify: adversarial samples are successfully generated from up to 56% of the original instances depending on the dataset. Analysis of the new misclassified instances sheds light on the `fragility' of some training instances, i.e. instances where it is trivial to find a small perturbation that results in a misclassification and the factors that influence this. Finally, the method generates a large number of new instances misclassified with a wide variation in confidence, providing a rich new source of training data to create more robust models. | 翻訳日:2024-06-25 14:44:42 公開日:2024-06-24 |
# 資源制約条件下における医学的文脈における言語モデルの評価
Evaluation of Language Models in the Medical Context Under Resource-Constrained Settings ( http://arxiv.org/abs/2406.16611v1 ) ライセンス: Link先を確認 | Andrea Posada, Daniel Rueckert, Felix Meissen, Philip Müller, | (参考訳) Transformerアーキテクチャの登場以来、言語モデルの開発は、その有望な可能性によって増加してきた。
しかし、これらのモデルを生産にリリースするには、特に医学のような敏感な領域において、それらの振る舞いを適切に理解する必要がある。
この必要性にもかかわらず、医学文献は未訓練の言語モデルに関する技術的評価を欠いている。
このギャップに対処するため、医療領域における言語モデルに関する包括的調査を行っている。
さらに,分類とテキスト生成タスクに着目し,これらのモデルのサブセットを徹底的な評価のために選択した。
うちのサブセットは53モデルで、1億1000万から13億のパラメータがあり、Transformerベースのモデルの3つのファミリーと多様な知識ドメインにまたがっている。
本研究は、モデルトレーニングや微調整の代わりにゼロショットプロンプトとともに、テキスト分類のための一連のアプローチを採用する。
この結果から,領域の専門化を必要とせずとも,特定のモデルが医療知識を含む潜在可能性を示すとともに,様々なタスクやデータセットにまたがる顕著なパフォーマンスが明らかとなった。
その結果,医学的文脈,特に資源制約のある環境におけるモデル応用のさらなる探求が提唱された。
コードはhttps://github.com/anpoc/Language-models-in-medicineで公開されている。
Since the emergence of the Transformer architecture, language model development has increased, driven by their promising potential. However, releasing these models into production requires properly understanding their behavior, particularly in sensitive domains such as medicine. Despite this need, the medical literature still lacks technical assessments of pre-trained language models, which are especially valuable in resource-constrained settings in terms of computational power or limited budget. To address this gap, we provide a comprehensive survey of language models in the medical domain. In addition, we selected a subset of these models for thorough evaluation, focusing on classification and text generation tasks. Our subset encompasses 53 models, ranging from 110 million to 13 billion parameters, spanning the three families of Transformer-based models and from diverse knowledge domains. This study employs a series of approaches for text classification together with zero-shot prompting instead of model training or fine-tuning, which closely resembles the limited resource setting in which many users of language models find themselves. Encouragingly, our findings reveal remarkable performance across various tasks and datasets, underscoring the latent potential of certain models to contain medical knowledge, even without domain specialization. Consequently, our study advocates for further exploration of model applications in medical contexts, particularly in resource-constrained settings. The code is available on https://github.com/anpoc/Language-models-in-medicine. | 翻訳日:2024-06-25 14:44:42 公開日:2024-06-24 |
# プロセス代数に基づくRakuとGoのツールコーディネートアーキテクチャ
Process Algebra Based Tool Coordination Architectures in Raku and Go ( http://arxiv.org/abs/2406.16614v1 ) ライセンス: Link先を確認 | Bob Diertens, | (参考訳) 本稿では,プロセス代数を用いたプロジェクトソフトウェア工学の現在進行中の研究について述べる。
本プロジェクトでは,プロセス仕様フォーマリズム(PSF)のためのツールセットであるPSF Toolkitからシミュレータを再実装する手法を開発した。
この新しいシミュレーターは、プロセス代数に基づいたツールコーディネートアーキテクチャであるToolBusを使用する。
現在、このツールBusをベースにした新しいツールコーディネートアーキテクチャを開発しています。
プログラミング言語のRakuとGoでは、ToolBusのプリミティブを実装しています。
これらの言語はどちらも、チャンネル形式で並列エンティティ間の並行性と通信をサポートする。
これらのツールコオリネーションアーキテクチャを例に挙げる。
また,このツールコーディネートアーキテクチャをベースとしたPSF Toolkitのシミュレータの実装について述べる。
This paper presents ongoing research in our project software engineering with process algebra. In this project we have developed among others a reimplementation of the simulator from the PSF Toolkit, a set of tools for the Process Specification formalism (PSF). This new simulator uses the ToolBus, a tool coordination architecture based on process algebra. We now developed new tool coordination architectures based on this ToolBus. We implement the primitives of the ToolBus in the programming languages Raku and Go. Both these languages have support for concurrency and communication between concurrent entities in the form of channels. We apply these tool coorination architectures on a small example. And we give implementations for the simulator in the PSF Toolkit based on the tool coordination architectures in Raku and Go. | 翻訳日:2024-06-25 14:44:42 公開日:2024-06-24 |
# 第5回 CLVISION Challenge 2024 のチャンピオンシップ・ウィンニング・ソリューション
The Championship-Winning Solution for the 5th CLVISION Challenge 2024 ( http://arxiv.org/abs/2406.16615v1 ) ライセンス: Link先を確認 | Sishun Pan, Tingmin Li, Yang Yang, | (参考訳) 本稿では,従来のクラスインクリメンタル・ラーニング以上の難題を示す第5回CLVision Challengeについて紹介する。
標準的な設定とは異なり、このコンペティションは以前遭遇したクラスの再発を特徴とし、アウト・オブ・ディストリビューション(OOD)カテゴリを含む可能性のあるラベルのないデータを含んでいる。
本手法は,クラスインクリメンタル学習における破滅的忘れ問題に対処する各タスクに対して,独立したパラメータ空間を割り当て,教師付き分類学習,教師なし比較学習,擬似ラベル分類学習という3つのトレーニング戦略を用いてラベル付きデータとラベルなしデータの両方で情報を完全に活用し,各サブネットワークの分類性能を向上させる。
さらに,推定段階において,各サブネット間の相互作用戦略を考案し,そのクラスに対応する異なるサブネット間の平均ロジットを,各サブネットから学習した知識を活用して分類精度を向上させる。
これらの戦略は、競合シナリオの3つのシナリオに同時に適用することができ、競合シナリオの困難を効果的に解決することができる。
実験では, 予備選考段階では0.4535, 最終選考段階では0.4805, 最終選考段階では0.4805であった。
In this paper, we introduce our approach to the 5th CLVision Challenge, which presents distinctive challenges beyond traditional class incremental learning. Unlike standard settings, this competition features the recurrence of previously encountered classes and includes unlabeled data that may contain Out-of-Distribution (OOD) categories. Our approach is based on Winning Subnetworks to allocate independent parameter spaces for each task addressing the catastrophic forgetting problem in class incremental learning and employ three training strategies: supervised classification learning, unsupervised contrastive learning, and pseudo-label classification learning to fully utilize the information in both labeled and unlabeled data, enhancing the classification performance of each subnetwork. Furthermore, during the inference stage, we have devised an interaction strategy between subnetworks, where the prediction for a specific class of a particular sample is the average logits across different subnetworks corresponding to that class, leveraging the knowledge learned from different subnetworks on recurring classes to improve classification accuracy. These strategies can be simultaneously applied to the three scenarios of the competition, effectively solving the difficulties in the competition scenarios. Experimentally, our method ranks first in both the pre-selection and final evaluation stages, with an average accuracy of 0.4535 during the preselection stage and an average accuracy of 0.4805 during the final evaluation stage. | 翻訳日:2024-06-25 14:44:42 公開日:2024-06-24 |
# No more Sliding-Windows: 学習なしのランダム畳み込みに基づく動的関数接続性
No More Sliding-Windows: Dynamic Functional Connectivity Based On Random Convolutions Without Learning ( http://arxiv.org/abs/2406.16619v1 ) ライセンス: Link先を確認 | Yongjie Duan, Zhiying Long, | (参考訳) 動的機能接続の分野では、スライドウインドウ法が広く使われ、安定性が一般に認識されている。
しかし,ウィンドウ内におけるスライディングウインドウ法のデータ処理は過度に単純化され,その有効性はある程度制限される。
本研究では,ランダムな畳み込みに基づく特徴拡張手法を提案する。
シミュレーションデータを用いた実験により、ランダム畳み込み法を用いて得られた動的機能接続行列と時系列は、スライドウインドウ法(45.99\%)と比較して、より短い時間ウィンドウ内での標準解に適合する(95.59\%)。
実データにおけるジェンダー差分法による研究により、ランダム畳み込み法はスライディングウインドウ法よりも多くの性別差を明らかにすることが明らかとなった。
理論的解析を通じて,このモデルの特別な場合であるスライドウインドウ法を用いて,より包括的な畳み込み関数接続計算モデルを提案する。
In the field of dynamic functional connectivity, the sliding-window method is widely used and its stability is generally recognized. However, the sliding-window method's data processing within the window is overly simplistic, which to some extent limits its effectiveness. This study proposes a feature expansion method based on random convolution, which achieves better and more noise-resistant results than the sliding-window method without requiring training. Experiments on simulated data show that the dynamic functional connectivity matrix and time series obtained using the random convolution method have a higher degree of fit (95.59\%) with the standard answers within shorter time windows, compared to the sliding-window method (45.99\%). Gender difference studies on real data also reveal that the random convolution method uncovers more gender differences than the sliding-window method. Through theoretical analysis, we propose a more comprehensive convolutional functional connectivity computation model, with the sliding-window method being a special case of this model, thereby opening up vast potential for research methods in dynamic functional connectivity. | 翻訳日:2024-06-25 14:44:42 公開日:2024-06-24 |
# OmAgent:タスク分割型複雑なビデオ理解のためのマルチモーダルエージェントフレームワーク
OmAgent: A Multi-modal Agent Framework for Complex Video Understanding with Task Divide-and-Conquer ( http://arxiv.org/abs/2406.16620v1 ) ライセンス: Link先を確認 | Lu Zhang, Tiancheng Zhao, Heting Ying, Yibo Ma, Kyusong Lee, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、包括的なビデオ理解を含むマルチモーダルなコンテキストにその能力を拡張している。
しかし,24時間CCTV映像やフル長フィルムなどの広帯域ビデオの処理は,膨大なデータと処理要求のために大きな課題を生んでいる。
キーフレームを抽出したり、フレームをテキストに変換するといった従来の手法は、しばしばかなりの情報損失をもたらす。
これらの欠点に対処するため、我々はOmAgentを開発し、ビデオの詳細な内容を保存し、特定のクエリの関連ビデオフレームを効率的に保存し、検索する。
さらにDivide-and-Conquer Loopは、自律的な推論、動的呼び出しAPIとクエリ処理と精度を高めるツールを備えている。
このアプローチにより、堅牢なビデオ理解が保証され、情報損失が大幅に減少する。
実験の結果、OmAgentが様々な種類のビデオや複雑なタスクを処理できることが確認された。
さらに、より高度な自律性と堅牢なツールコールシステムを備えており、さらに複雑なタスクを達成できます。
Recent advancements in Large Language Models (LLMs) have expanded their capabilities to multimodal contexts, including comprehensive video understanding. However, processing extensive videos such as 24-hour CCTV footage or full-length films presents significant challenges due to the vast data and processing demands. Traditional methods, like extracting key frames or converting frames to text, often result in substantial information loss. To address these shortcomings, we develop OmAgent, efficiently stores and retrieves relevant video frames for specific queries, preserving the detailed content of videos. Additionally, it features an Divide-and-Conquer Loop capable of autonomous reasoning, dynamically invoking APIs and tools to enhance query processing and accuracy. This approach ensures robust video understanding, significantly reducing information loss. Experimental results affirm OmAgent's efficacy in handling various types of videos and complex tasks. Moreover, we have endowed it with greater autonomy and a robust tool-calling system, enabling it to accomplish even more intricate tasks. | 翻訳日:2024-06-25 14:44:42 公開日:2024-06-24 |
# 貴金属(Au, Ag, Cu)は超伝導体か?
Can the noble metals (Au, Ag and Cu) be superconductors? ( http://arxiv.org/abs/2406.16621v1 ) ライセンス: Link先を確認 | Giovanni A. Ummarino, Alessio Zaccone, | (参考訳) 貴金属は優れた導体であるが超伝導は示さないという知識が一般的である。
一方、薄膜の量子閉じ込めは、いくつかの超伝導体における超伝導臨界温度の顕著な向上をもたらすことが一貫して示されている。
したがって、超薄膜閉じ込めが非超伝導金属の超伝導を誘導するかどうかという重要な根本的な問題である。
我々は, 薄膜閉じ込め下での良金属中の超伝導のBCS理論の一般化について述べる。
これらの新しいエリシュベルク型方程式を数値解析することにより、超伝導臨界温度の膜厚依存性を$L$とする。
このパラメータフリー理論は、材料中の自由キャリア数の関数である膜厚の特定の値に対する臨界温度の最大増加を予測する。
この事実を露呈し、適切な厚さの金、銀、銅の超薄膜は、低温でも実験可能な温度で超伝導体になる可能性があると予測した。
これは厚さが半ナノメートルに近い非常に正確な値でなければならない微調整問題であることを示す。
It is common knowledge that noble metals are excellent conductors but do not exhibit superconductivity. On the other hand, quantum confinement in thin films has been consistently shown to induce a significant enhancement of the superconducting critical temperature in several superconductors. It is therefore an important fundamental question whether ultra-thin film confinement may induce observable superconductivity in non-superconducting metals. We present a generalization, in the Eliashberg framework, of a BCS theory of superconductivity in good metals under thin-film confinement. By numerically solving these new Eliashberg-type equations, we find the dependence of the superconducting critical temperature on the film thickness $L$. This parameter-free theory predicts a maximum increase in the critical temperature for a specific value of the film thickness, which is a function of the number of free carriers in the material. Exploiting this fact, we predict that ultra-thin films of gold, silver and copper of suitable thickness could be superconductors at low but experimentally accessible temperatures. We demonstrate that this is a fine-tuning problem where the thickness must assume a very precise value, close to half a nanometer. | 翻訳日:2024-06-25 14:44:42 公開日:2024-06-24 |
# 単一$Si_3 N_4$Whispering Galleryモード共振器における各モードの量子周波数コムの同時生成
Simultaneous Generation of Quantum Frequency Combs across Distinct Modal Families in a Single $Si_3 N_4$ Whispering Gallery Mode Resonator ( http://arxiv.org/abs/2406.16622v1 ) ライセンス: Link先を確認 | Bo Ji, Nianqin Li, Guangqiang He, | (参考訳) 量子周波数コム(Quantum frequency combs, QFCs)は、クラスタ状態のような多モードの絡み合いのための汎用的な資源であり、量子通信や計算に不可欠である。
オンチップ・ウィスパーリング・ギャラリーモード共振器(WGMR)は、これらの状態を極低しきい値のパワーで生成することができる。
本稿では, 単一オンチップ$Si_3N_4$ WGMR を用いた3つのQFCの同時生成について述べる。
マイクロリング共振器の半径240$\mu m$を設計し, 整合性制御のために130〜260$THz$の周波数範囲で4つのモードファミリをサポート可能とした。
以上の結果から,Si_3 N_4$ WGMRの構造を慎重に設計することにより,単色ポンプ光を同時に利用して,異なる変調族にまたがる量子絡み合った周波数コムを生成できることが示唆された。
これは、空間光変調器(SLM)を用いてポンプモードプロファイルを変調することで実現される。
本手法は,チップ上の高密度エンタングルメント統合を実現するための,シンプルで低コストな手法を提供する。
Quantum frequency combs (QFCs) are versatile resources for multi-mode entanglement, such as cluster states, crucial for quantum communication and computation. On-chip whispering gallery mode resonators (WGMRs) can generate these states at ultra-low threshold power. In this paper, we demonstrate the simultaneous generation of three QFCs using a single on-chip $Si_3N_4$ WGMR across distinct modal families. We designed a micro-ring resonator with a radius of 240 $\mu m$, capable of supporting four modal families within the 130 to 260 $THz$ frequency range for consistency regulation. Our results indicate that, by carefully designing the structure of $Si_3 N_4$ WGMRs, it is possible to generate quantum entangled frequency combs across distinct modal families simultaneously using monochromatic pump light. This is achieved by modulating the pump mode profiles with a spatial light modulator (SLM). Our approach offers a simple and low-cost method to achieve higher-density entanglement integration on-chip. | 翻訳日:2024-06-25 14:44:42 公開日:2024-06-24 |
# NeRFをアーティキュレートする:条件視合成による教師なし調音物体モデリング
Articulate your NeRF: Unsupervised articulated object modeling via conditional view synthesis ( http://arxiv.org/abs/2406.16623v1 ) ライセンス: Link先を確認 | Jianning Deng, Kartic Subr, Hakan Bilen, | (参考訳) そこで本稿では,頑健な部分を持つ明瞭な物体のポーズと部分分割を学習するための新しい教師なし手法を提案する。
本手法は,物体の形状と外観を,第1観察から暗黙的モデルを用いて学習し,第2観察から部分分割と調音を除去し,第2観察から後者の観察をレンダリングする。
さらに,部分分割と調音の結合最適化の複雑さに対処するために,ボクセルグリッドを用いた初期化戦略と分離最適化手法を提案する。
従来の教師なしの作業と比較すると,本モデルは性能が著しく向上し,複数の部分を持つオブジェクトに一般化される。
We propose a novel unsupervised method to learn the pose and part-segmentation of articulated objects with rigid parts. Given two observations of an object in different articulation states, our method learns the geometry and appearance of object parts by using an implicit model from the first observation, distils the part segmentation and articulation from the second observation while rendering the latter observation. Additionally, to tackle the complexities in the joint optimization of part segmentation and articulation, we propose a voxel grid-based initialization strategy and a decoupled optimization procedure. Compared to the prior unsupervised work, our model obtains significantly better performance, and generalizes to objects with multiple parts while it can be efficiently from few views for the latter observation. | 翻訳日:2024-06-25 14:44:42 公開日:2024-06-24 |
# XAIへの代理モデルアプローチをハックする
Hacking a surrogate model approach to XAI ( http://arxiv.org/abs/2406.16626v1 ) ライセンス: Link先を確認 | Alexander Wilhelm, Katharina A. Zweig, | (参考訳) 近年、高度に複雑なAIシステムのための新しいアプリケーションの数が大幅に増えている。
アルゴリズムによる意思決定システム(ADM)は、AIシステムが人間の意思決定プロセスを置き換えるアプリケーションのひとつだ。
このようなシステムの公平性と透明性を確保するための1つのアプローチとして、説明可能なAI(XAI)がより重要になっている。
説明可能性を達成するための1つのバリエーションは、サロゲートモデル、すなわちブラックボックスモデルの入力-出力-リレーショナルに基づいて、より単純な機械学習モデルをトレーニングするアイデアである。
より単純な機械学習モデルは、例えば、人間によって直感的に理解可能な決定木になる可能性がある。
しかし、サロゲートモデルがブラックボックスをいかにうまく近似するかについての知見は乏しい。
我々の主要な前提は、優れた代理モデルアプローチは、人間の注意にそのような差別的な行動をもたらすべきである、ということです。
しかし、本論文では、判別された部分群が、すべてのカテゴリで同じであるにもかかわらず、ブラックボックス ADM システムから一つの肯定的な決定を下しても、対応するグループメンバーシップの問題は、システムのオペレーターが望むほど低いレベルまで押し下げることができることを示す。
次に、この発見を一般化して、識別された質問が尋ねられる木の正確なレベルを特定し、より現実的なシナリオにおいて、不利なグループの一部の部分にのみ差別が発生する場合、そのような差別を隠すことはさらに不可能であることを示す。
我々のアプローチは、他の代理モデルに容易に一般化できる。
In recent years, the number of new applications for highly complex AI systems has risen significantly. Algorithmic decision-making systems (ADMs) are one of such applications, where an AI system replaces the decision-making process of a human expert. As one approach to ensure fairness and transparency of such systems, explainable AI (XAI) has become more important. One variant to achieve explainability are surrogate models, i.e., the idea to train a new simpler machine learning model based on the input-output-relationship of a black box model. The simpler machine learning model could, for example, be a decision tree, which is thought to be intuitively understandable by humans. However, there is not much insight into how well the surrogate model approximates the black box. Our main assumption is that a good surrogate model approach should be able to bring such a discriminating behavior to the attention of humans; prior to our research we assumed that a surrogate decision tree would identify such a pattern on one of its first levels. However, in this article we show that even if the discriminated subgroup - while otherwise being the same in all categories - does not get a single positive decision from the black box ADM system, the corresponding question of group membership can be pushed down onto a level as low as wanted by the operator of the system. We then generalize this finding to pinpoint the exact level of the tree on which the discriminating question is asked and show that in a more realistic scenario, where discrimination only occurs to some fraction of the disadvantaged group, it is even more feasible to hide such discrimination. Our approach can be generalized easily to other surrogate models. | 翻訳日:2024-06-25 14:44:42 公開日:2024-06-24 |
# MLAAN: Multilaminar Leap Augmented Auxiliary Network によるローカル学習のスケールアップ
MLAAN: Scaling Supervised Local Learning with Multilaminar Leap Augmented Auxiliary Network ( http://arxiv.org/abs/2406.16633v1 ) ライセンス: Link先を確認 | Yuming Zhang, Shouxin Zhang, Peizhe Wang, Feiyu Zhu, Dongzhi Guan, Jiabin Liu, Changpeng Cai, | (参考訳) エンド・ツー・エンド(E2E)のトレーニングアプローチは、一般的に、高メモリ消費、トレーニングの効率の低下、モデルの並列化の課題、および準最適生体適合性に悩まされている。
ローカル学習は、E2Eの代替として約束を守る新しいインタラクティブな訓練方法と考えられている。
それにもかかわらず、従来の局所学習手法は、不適切な局所的なモジュール間相互作用のために高いモデル精度を達成するには不十分である。
本稿では,Multilaminar Leap Augmented Auxiliary Network (MLAAN)を用いたScaling Supervised Local Learningと呼ばれる新しいモデルを提案する。
MLAANは、堅牢な強化モジュールと組み合わせた、革新的な教師付きローカル学習アプローチを備えている。
この二重成分設計により、MLAANは確立した局所学習技術とスムーズに統合でき、基礎的手法の有効性を高めることができる。
独立補助ネットワークとカスケード補助ネットワークを一方に構築することにより、モデルの局所的・大域的特徴を別々に獲得し、より弱い監督に伴う学習能力の低下に対処する跳躍増進モジュールを具備する。
このアーキテクチャは、局所的なモジュール間の情報の交換を増大させるだけでなく、ミオピアに対するモデルの傾向を効果的に緩和する。
CIFAR-10, STL-10, SVHN, ImageNet の4つのベンチマークデータセットで行った実験により, MLAAN と既存の教師付き局所学習手法の統合が元の方法論を大幅に強化することを示した。
特に、MLAANは、GPUメモリを節約しながら最適なパフォーマンスでエンドツーエンドのトレーニングアプローチを総合的に上回るローカル学習方法を提供する。
End-to-end (E2E) training approaches are commonly plagued by high memory consumption, reduced efficiency in training, challenges in model parallelization, and suboptimal biocompatibility. Local learning is considered a novel interactive training method that holds promise as an alternative to E2E. Nonetheless, conventional local learning methods fall short in achieving high model accuracy due to inadequate local inter-module interactions. In this paper, we introduce a new model known as the Scaling Supervised Local Learning with Multilaminar Leap Augmented Auxiliary Network (MLAAN). MLAAN features an innovative supervised local learning approach coupled with a robust reinforcement module. This dual-component design enables the MLAAN to integrate smoothly with established local learning techniques, thereby enhancing the efficacy of the foundational methods. The method simultaneously acquires the local and global features of the model separately by constructing an independent auxiliary network and a cascade auxiliary network on the one hand and incorporates a leap augmented module, which serves to counteract the reduced learning capacity often associated with weaker supervision. This architecture not only augments the exchange of information amongst the local modules but also effectively mitigates the model's tendency toward myopia. The experimental evaluations conducted on four benchmark datasets, CIFAR-10, STL-10, SVHN, and ImageNet, demonstrate that the integration of MLAAN with existing supervised local learning methods significantly enhances the original methodologies. Of particular note, MLAAN enables local learning methods to comprehensively outperform end-to-end training approaches in terms of optimal performance while saving GPU memory. | 翻訳日:2024-06-25 14:44:42 公開日:2024-06-24 |
# ShadowLLM: 大規模言語モデルのための予測型コンテキストスポーザリティ
ShadowLLM: Predictor-based Contextual Sparsity for Large Language Models ( http://arxiv.org/abs/2406.16635v1 ) ライセンス: Link先を確認 | Yash Akhauri, Ahmed F AbouElhamayed, Jordan Dotzel, Zhiru Zhang, Alexander M Rush, Safeen Huda, Mohamed S Abdelfattah, | (参考訳) 大規模言語モデル(LLM)の高消費電力化と遅延に敏感なデプロイメントは、量子化やスパシティといったテクニックを動機付けている。
LLMから注意頭やニューロンを永久的に除去することは、LLMの精度を著しく低下させる可能性がある。
従来の研究は、アクティベーションのマグニチュードを予測するためにトレーニングされたニューラルネットワークを使用して、コンテキスト空間のスパーシティをモデル化しようと試みており、アクティベーションのマグニチュードが低い動的プーン構造に使用できる。
本稿では,LLMにおける注意頭とニューロンの重要性を評価するために,等級に基づくプルーニング基準を超えて検討する。
そこで我々は,従来の手法に比べて遅延を増大させることなく,LLMの動作をシャドウイングし,空間パターンを改良し,エンドツーエンドの精度を15%以上向上させることができるShadowLLMという新しい予測器を開発した。
ShadowLLMは最先端のDejaVuフレームワーク上で最大20倍のスピードアップを達成する。
これらの拡張は、最大300億のパラメータを持つモデルで検証される。
私たちのコードは \href{https://github.com/abdelfattah-lab/shadow_llm/}{ShadowLLM} で利用可能です。
The high power consumption and latency-sensitive deployments of large language models (LLMs) have motivated techniques like quantization and sparsity. Contextual sparsity, where the sparsity pattern is input-dependent, is crucial in LLMs because the permanent removal of attention heads or neurons from LLMs can significantly degrade accuracy. Prior work has attempted to model contextual sparsity using neural networks trained to predict activation magnitudes, which can be used to dynamically prune structures with low predicted activation magnitude. In this paper, we look beyond magnitude-based pruning criteria to assess attention head and neuron importance in LLMs. We developed a novel predictor called ShadowLLM, which can shadow the LLM behavior and enforce better sparsity patterns, resulting in over 15% improvement in end-to-end accuracy without increasing latency compared to previous methods. ShadowLLM achieves up to a 20\% speed-up over the state-of-the-art DejaVu framework. These enhancements are validated on models with up to 30 billion parameters. Our code is available at \href{https://github.com/abdelfattah-lab/shadow_llm/}{ShadowLLM}. | 翻訳日:2024-06-25 14:44:42 公開日:2024-06-24 |
# パラメータ最適化多段階グラフ畳み込みネットワークと変圧器モデルを用いた人間の活動認識のための特徴融合
Feature Fusion for Human Activity Recognition using Parameter-Optimized Multi-Stage Graph Convolutional Network and Transformer Models ( http://arxiv.org/abs/2406.16638v1 ) ライセンス: Link先を確認 | Mohammad Belal, Taimur Hassan, Abdelfatah Ahmed, Ahmad Aljarah, Nael Alsheikh, Irfan Hussain, | (参考訳) HAR(Human Activity Recognition)は、コンピュータとマシンビジョン技術を用いた人間の動きの理解に関わる研究分野である。
このタスクの強力なツールとしてディープラーニングが登場し、畳み込みニューラルネットワーク(CNN)やトランスフォーマーといったモデルが、人間の動作のさまざまな側面を捉えている。
この研究の重要な貢献の1つは、空間的・時間的特徴を捉え、HARの精度を向上させるための特徴融合の有効性の実証である。
この研究は、HuGaDB、PKU-MMD、LARa、TUGデータセットからの知覚データを用いている。
PO-MS-GCNとTransformerの2つのモデルが訓練され評価され、PO-MS-GCNは最先端モデルを上回った。
HuGaDBとTUGは高い精度とf1スコアを獲得し、LARaとPKU-MMDは低いスコアを示した。
フィーチャーフュージョンはデータセット間で結果を改善した。
Human activity recognition (HAR) is a crucial area of research that involves understanding human movements using computer and machine vision technology. Deep learning has emerged as a powerful tool for this task, with models such as Convolutional Neural Networks (CNNs) and Transformers being employed to capture various aspects of human motion. One of the key contributions of this work is the demonstration of the effectiveness of feature fusion in improving HAR accuracy by capturing spatial and temporal features, which has important implications for the development of more accurate and robust activity recognition systems. The study uses sensory data from HuGaDB, PKU-MMD, LARa, and TUG datasets. Two model, the PO-MS-GCN and a Transformer were trained and evaluated, with PO-MS-GCN outperforming state-of-the-art models. HuGaDB and TUG achieved high accuracies and f1-scores, while LARa and PKU-MMD had lower scores. Feature fusion improved results across datasets. | 翻訳日:2024-06-25 14:34:57 公開日:2024-06-24 |
# ブラインドAI画像品質評価のための視覚言語一貫性指導型マルチモーダル・プロンプト学習
Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment ( http://arxiv.org/abs/2406.16641v1 ) ライセンス: Link先を確認 | Jun Fu, Wei Zhou, Qiuping Jiang, Hantao Liu, Guangtao Zhai, | (参考訳) 近年,コントラスト言語-画像事前学習(CLIP)モデルを自然な画像品質評価に適用する上で,テキスト・プロンプト・チューニングはインスピレーション的性能を示した。
しかし、このような単モーダルなプロンプト学習法はCLIPモデルの言語分岐をチューニングするだけである。
AGIが自然画像と視覚的に異なるため、CLIPモデルをAI生成画像品質評価(AGIQA)に適用するには十分ではない。
さらに、AGIの知覚的品質と相関するユーザ入力テキストプロンプトとAGIの整合性は、AGIQAのガイドには適用されない。
本稿では,CLIP-AGIQA(CLIP-AGIQA)と呼ばれる盲点AGIQAに対して,視覚言語で指導されたマルチモーダル・プロンプト学習を提案する。
具体的には,CLIPモデルの言語と視覚分岐において,学習可能なテキストと視覚的プロンプトを導入する。
さらに、上記のマルチモーダルプロンプトの最適化を導くために、学習された視覚言語整合性知識を用いたテキスト・画像のアライメント品質予測タスクを設計する。
2つの公開AGIQAデータセットの実験結果から,提案手法が最先端の品質評価モデルより優れていることが示された。
ソースコードはhttps://github.com/JunFu 1995/CLIP-AGIQAで入手できる。
Recently, textual prompt tuning has shown inspirational performance in adapting Contrastive Language-Image Pre-training (CLIP) models to natural image quality assessment. However, such uni-modal prompt learning method only tunes the language branch of CLIP models. This is not enough for adapting CLIP models to AI generated image quality assessment (AGIQA) since AGIs visually differ from natural images. In addition, the consistency between AGIs and user input text prompts, which correlates with the perceptual quality of AGIs, is not investigated to guide AGIQA. In this letter, we propose vision-language consistency guided multi-modal prompt learning for blind AGIQA, dubbed CLIP-AGIQA. Specifically, we introduce learnable textual and visual prompts in language and vision branches of CLIP models, respectively. Moreover, we design a text-to-image alignment quality prediction task, whose learned vision-language consistency knowledge is used to guide the optimization of the above multi-modal prompts. Experimental results on two public AGIQA datasets demonstrate that the proposed method outperforms state-of-the-art quality assessment models. The source code is available at https://github.com/JunFu1995/CLIP-AGIQA. | 翻訳日:2024-06-25 14:34:57 公開日:2024-06-24 |
# 相対論的シュレーディンガー・サルペーター方程式のトンネル力学
Tunneling dynamics of the relativistic Schrödinger/Salpeter equation ( http://arxiv.org/abs/2406.16644v1 ) ライセンス: Link先を確認 | F. Daem, A. Matzkin, | (参考訳) 本研究では、相対論的シュリンガー方程式(サルペーター方程式とも呼ばれる)に従って進化する粒子波束のポテンシャル散乱とトンネル力学について検討する。
サルペーター方程式のトンネル特性は、標準相対論的波動方程式(クライン=ゴルドン方程式やディラック方程式など)とは異なる。
特に、構成空間の方程式が擬微分作用素を含むことを考えると、トンネル解は運動量空間で作用することによって見つけなければならない。
得られた積分方程式は、モデルポテンシャル障壁上に散乱するウェーブパペットに対して数値的に導出され、解かれる。
これらの溶液は、クライントンネルの欠如と、光円錐の外側を伝播する透過波束の分画に対する電位の影響によって特徴づけられる。
We investigate potential scattering and tunneling dynamics of a particle wavepacket evolving according to the relativistic Schr\"odinger equation (also known as the Salpeter equation). The tunneling properties of the Salpeter equation differ from those of the standard relativistic wave equations (such as the Klein-Gordon or Dirac equations). In particular, the tunneling solutions must be found by working in momentum space, given that the equation in configuration space contains a pseudo-differential operator. The resulting integral equations are derived and solved numerically for wavepackets scattering on model potential barriers. The solutions are characterized by the absence of Klein tunneling and an effect of the potential on the fraction of the transmitted wavepacket that propagates outside the light cone, a feature that has in the past been well-studied only for free propagation. | 翻訳日:2024-06-25 14:34:57 公開日:2024-06-24 |
# OQuPy:プロセステンソルを用いた非マルコフ開量子系を効率的にシミュレートするPythonパッケージ
OQuPy: A Python package to efficiently simulate non-Markovian open quantum systems with process tensors ( http://arxiv.org/abs/2406.16650v1 ) ライセンス: Link先を確認 | Gerald E. Fux, Piper Fowler-Wright, Joel Beckles, Eoin P. Butler, Paul R. Eastham, Dominic Gribben, Jonathan Keeling, Dainius Kilda, Peter Kirton, Ewen D. C. Lawrence, Brendon W. Lovett, Eoin O'Neill, Aidan Strathearn, Roosmarijn de Wit, | (参考訳) システムの強い結合から構造化環境への非マルコフ力学は、量子力学や新興技術の多くの応用において不可欠である。
しかしながら、メモリ効果を含む一般的な量子力学の正確な記述は、標準的な解析的あるいは直接的な数値的アプローチを禁止し、要求されるタスクである。
我々はオープンソースのソフトウェアパッケージであるOQuPy(PythonのOpen Quantum System)のメジャーリリースについて紹介する。
これは、プロセステンソルアプローチを利用して、単一のマップ、プロセステンソルがシステム上の環境のあらゆる影響をキャプチャするオープン量子システムである。
テンソルネットワーク形式におけるプロセステンソルの表現は、非マルコフ開量子系(NM-OQS)の正確にかつ高効率な記述を可能にする。
OQuPyパッケージは、(1)単一環境と複数の環境に結合した量子系の力学と多重時間相関を計算し、(2)NM-OQSの制御プロトコルを最適化し、(3)NM-OQSの相互作用鎖をシミュレートし、(4)NM-OQSのアンサンブルと共有中心系を結合した平均場ダイナミクスを計算する方法を提供する。
我々の目標は、量子化学、量子センシング、量子情報といった分野におけるオープン量子システムの研究者にとって、容易にアクセス可能で拡張可能なツールを提供することです。
Non-Markovian dynamics arising from the strong coupling of a system to a structured environment is essential in many applications of quantum mechanics and emerging technologies. Deriving an accurate description of general quantum dynamics including memory effects is however a demanding task, prohibitive to standard analytical or direct numerical approaches. We present a major release of our open source software package, OQuPy (Open Quantum System in Python), which provides several recently developed numerical methods that address this challenging task. It utilizes the process tensor approach to open quantum systems in which a single map, the process tensor, captures all possible effects of an environment on the system. The representation of the process tensor in a tensor network form allows an exact yet highly efficient description of non-Markovian open quantum systems (NM-OQS). The OQuPy package provides methods to (1) compute the dynamics and multi-time correlations of quantum systems coupled to single and multiple environments, (2) optimize control protocols for NM-OQS, (3) simulate interacting chains of NM-OQS, and (4) compute the mean-field dynamics of an ensemble of NM-OQS coupled to a common central system. Our aim is to provide an easily accessible and extensible tool for researchers of open quantum systems in fields such as quantum chemistry, quantum sensing, and quantum information. | 翻訳日:2024-06-25 14:34:57 公開日:2024-06-24 |
# 部分的に崩壊したリピータ鎖の安全性
Security of Partially Corrupted Repeater Chains ( http://arxiv.org/abs/2406.16651v1 ) ライセンス: Link先を確認 | Adrian Harkness, Walter O. Krawec, Bing Wang, | (参考訳) 量子鍵分配(Quantum Key Distribution)は、2つのパーティが計算不能な敵に対してセキュアな秘密鍵を確立することを可能にする。
パーティ間の距離を拡張するためには、量子ネットワーク、特にリピータチェーンが不可欠である。
敵はネットワーク内のリピータとファイバリンクを完全にコントロールし、それらを完璧なデバイスに置き換えることができるため、期待される自然の雑音の中で攻撃を隠すことができる。
しかし、大規模なネットワークでは、このような強力な攻撃は不可能かもしれない。
本稿では,Alice と Bob を接続するリピータチェーンの連続部分集合のみを敵が破壊できる場合を分析する。
我々は、この攻撃モデルを想定した厳密な有限鍵証明を導き、性能と耐雑音性の改善が可能であることを示す。
Quantum Key Distribution allows two parties to establish a secret key that is secure against computationally unbounded adversaries. To extend the distance between parties, quantum networks, and in particular repeater chains, are vital. Typically, security in such scenarios assumes the absolute worst case: namely, an adversary has complete control over all repeaters and fiber links in a network and is able to replace them with perfect devices, thus allowing her to hide her attack within the expected natural noise. In a large-scale network, however, such a powerful attack may be infeasible. In this paper, we analyze the case where the adversary can only corrupt a contiguous subset of a repeater chain connecting Alice and Bob, while some portion of the network near Alice and Bob may be considered safe from attack (though still noisy). We derive a rigorous finite key proof of security assuming this attack model and show that improved performance and noise tolerances are possible. | 翻訳日:2024-06-25 14:34:57 公開日:2024-06-24 |
# 言語モデルは言語横断の知識のない推論言語である
Large Language Models Are Cross-Lingual Knowledge-Free Reasoners ( http://arxiv.org/abs/2406.16655v1 ) ライセンス: Link先を確認 | Peng Hu, Sizhe Liu, Changjiang Gao, Xin Huang, Xue Han, Junlan Feng, Chao Deng, Shujian Huang, | (参考訳) 大規模言語モデルは、複数の言語にまたがる印象的な推論機能を示している。
しかし、異なる言語の能力間の関係は、あまり調査されていない。
本研究では,タスクの推論過程を,知識検索と知識のない推論という2つの部分に分割し,それらの言語間移動性を分析する。
適応的かつ構築された知識自由推論データセットを用いて、特定の対象言語における資源の二次的影響にもかかわらず、知識自由推論能力は、様々なソースターゲット言語方向にほぼ完全に移行できることを示し、言語間知識検索は、その伝達を著しく妨げている。
さらに, 推論タスク中の隠れ状態とフィードフォワードネットワークニューロンの活性化を解析することにより, 隠れ表現の類似度が高く, 活性化ニューロンの重複度が大きいことが, 知識検索よりも知識のない推論の言語間伝達性の向上を説明できることを示した。
そこで我々は、知識のない推論が言語共有のメカニズムに埋め込まれているのに対して、知識は異なる言語に別々に格納されているという仮説を立てた。
Large Language Models have demonstrated impressive reasoning capabilities across multiple languages. However, the relationship between capabilities in different languages is less explored. In this work, we decompose the process of reasoning tasks into two separated parts: knowledge retrieval and knowledge-free reasoning, and analyze the cross-lingual transferability of them. With adapted and constructed knowledge-free reasoning datasets, we show that the knowledge-free reasoning capability can be nearly perfectly transferred across various source-target language directions despite the secondary impact of resource in some specific target languages, while cross-lingual knowledge retrieval significantly hinders the transfer. Moreover, by analyzing the hidden states and feed-forward network neuron activation during the reasoning tasks, we show that higher similarity of hidden representations and larger overlap of activated neurons could explain the better cross-lingual transferability of knowledge-free reasoning than knowledge retrieval. Thus, we hypothesize that knowledge-free reasoning embeds in some language-shared mechanism, while knowledge is stored separately in different languages. | 翻訳日:2024-06-25 14:34:57 公開日:2024-06-24 |
# ベイズ反転におけるサンプリング戦略--RTO法とLangevin法の検討
Sampling Strategies in Bayesian Inversion: A Study of RTO and Langevin Methods ( http://arxiv.org/abs/2406.16658v1 ) ライセンス: Link先を確認 | Remi Laumont, Yiqiu Dong, Martin Skovgaard Andersen, | (参考訳) 本稿では, 感度解析のルーツであるRandomize-Then-Optimize(RTO)とベイズフレームワークのルーツであるLangevin(Langevin)の2種類の逆問題の解法について検討する。
方法の2つのクラスは異なる仮定に対応し、異なる対象分布からサンプルを得る。
本稿では,2つのアプローチの主な概念的,理論的相違点を強調し,画像における2つの古典的逆問題(デブロアリングとインペインティング)に対処することにより,現実的な視点から比較する。
サンプリング手法の選択が再現の質に大きな影響を与え,RTO法がパラメータの選択に対してより堅牢であることを示す。
This paper studies two classes of sampling methods for the solution of inverse problems, namely Randomize-Then-Optimize (RTO), which is rooted in sensitivity analysis, and Langevin methods, which are rooted in the Bayesian framework. The two classes of methods correspond to different assumptions and yield samples from different target distributions. We highlight the main conceptual and theoretical differences between the two approaches and compare them from a practical point of view by tackling two classical inverse problems in imaging: deblurring and inpainting. We show that the choice of the sampling method has a significant impact on the quality of the reconstruction and that the RTO method is more robust to the choice of the parameters. | 翻訳日:2024-06-25 14:34:57 公開日:2024-06-24 |
# メトロロジーにおけるデータ駆動モデリング - 簡単な紹介, 現状と今後の展望-
Data-driven Modeling in Metrology -- A Short Introduction, Current Developments and Future Perspectives ( http://arxiv.org/abs/2406.16659v1 ) ライセンス: Link先を確認 | Linda-Sophie Schneider, Patrick Krauss, Nadine Schiering, Christopher Syben, Richard Schielein, Andreas Maier, | (参考訳) 数学モデルは計量学の分野において不可欠であり,測定結果の導出や測定データからの不確かさの計算において重要な役割を担っている。
これらのモデルは通常、測定されている量と他のすべての関連する量との相関を表す。
このような関係は、測定データを解釈して、測定システム自体に関する結論と予測を生成することができる測定システムを構築するために用いられる。
古典モデルは典型的には解析的であり、基本的な物理原理に基づいて構築される。
しかし、デジタル技術、拡張センサーネットワーク、高性能コンピューティングハードウェアの台頭により、データ駆動方式へのシフトが拡大している。
この傾向は、頻繁に変化する現実世界のコンテキストに関する専門家の理解が限られている状況において、大規模で複雑なネットワークセンサーシステムを扱う際に特に顕著である。
ここでは、データ駆動モデリングがもたらす様々な機会と、それらが既に様々な現実世界のアプリケーションで実装されている方法を示す。
Mathematical models are vital to the field of metrology, playing a key role in the derivation of measurement results and the calculation of uncertainties from measurement data, informed by an understanding of the measurement process. These models generally represent the correlation between the quantity being measured and all other pertinent quantities. Such relationships are used to construct measurement systems that can interpret measurement data to generate conclusions and predictions about the measurement system itself. Classic models are typically analytical, built on fundamental physical principles. However, the rise of digital technology, expansive sensor networks, and high-performance computing hardware have led to a growing shift towards data-driven methodologies. This trend is especially prominent when dealing with large, intricate networked sensor systems in situations where there is limited expert understanding of the frequently changing real-world contexts. Here, we demonstrate the variety of opportunities that data-driven modeling presents, and how they have been already implemented in various real-world applications. | 翻訳日:2024-06-25 14:34:57 公開日:2024-06-24 |
# 非凸最適化のための立方正則部分空間ニュートン
Cubic regularized subspace Newton for non-convex optimization ( http://arxiv.org/abs/2406.16666v1 ) ライセンス: Link先を確認 | Jim Zhao, Aurelien Lucchi, Nikita Doikov, | (参考訳) 本稿では,非凸連続関数を最小化する最適化問題に対処する。これは過度なパラメータ化を特徴とする高次元機械学習アプリケーションのコンテキストに関係している。
我々は、ランダムな部分空間に立方正規化を適用すると解釈できる、SSCNと呼ばれるランダム化された座標二階法を解析する。
このアプローチは、2階情報の利用に伴う計算複雑性を効果的に低減し、高次元のシナリオに適用できる。
理論的には、非凸関数に対する収束保証を確立し、任意の部分空間サイズに対する補間率と不正確な曲率推定を可能にする。
部分空間のサイズが大きくなると、我々の複雑性は3次正規化(CR)レートの$\mathcal{O}(\epsilon^{-3/2})$と一致する。
さらに、全ての座標をサンプリングしなくても、$\mathcal{O}(\epsilon^{-3/2}, \epsilon^{-3})$を2次定常点に正確に収束させる適応サンプリング方式を提案する。
実験の結果,従来の一階法に比べ,SSCNの高速化が顕著であった。
This paper addresses the optimization problem of minimizing non-convex continuous functions, which is relevant in the context of high-dimensional machine learning applications characterized by over-parametrization. We analyze a randomized coordinate second-order method named SSCN which can be interpreted as applying cubic regularization in random subspaces. This approach effectively reduces the computational complexity associated with utilizing second-order information, rendering it applicable in higher-dimensional scenarios. Theoretically, we establish convergence guarantees for non-convex functions, with interpolating rates for arbitrary subspace sizes and allowing inexact curvature estimation. When increasing subspace size, our complexity matches $\mathcal{O}(\epsilon^{-3/2})$ of the cubic regularization (CR) rate. Additionally, we propose an adaptive sampling scheme ensuring exact convergence rate of $\mathcal{O}(\epsilon^{-3/2}, \epsilon^{-3})$ to a second-order stationary point, even without sampling all coordinates. Experimental results demonstrate substantial speed-ups achieved by SSCN compared to conventional first-order methods. | 翻訳日:2024-06-25 14:34:57 公開日:2024-06-24 |
# CAVE: 管理可能なオーサシップ検証説明
CAVE: Controllable Authorship Verification Explanations ( http://arxiv.org/abs/2406.16672v1 ) ライセンス: Link先を確認 | Sahana Ramnath, Kartik Pandey, Elizabeth Boschee, Xiang Ren, | (参考訳) 著者検証(AV)(2つの文書が同じ著者を持っているか?
AVはプライベートなオフラインモデルを必要とするプロプライエタリなドメインでよく使われ、ChatGPTのようなSOTAオンラインモデルは望ましくない。
他のSOTAシステムでは、例えばSiamese Networksは解釈不能であり、高信頼のアプリケーションでは信頼できない。
本稿では,この課題に対処する第一歩として,当社のCAVE(Controllable Authorship Verification Explanations): CAVEは,制御可能な自由テキストAV説明を生成する。
1)構造化(関連する言語的特徴に関する部分説明に分解できる)、
2) 説明ラベルの整合性(部分説明の中間ラベルによる)は容易に検証できる。
本研究は, Llama-3-8B をCAVE として訓練し, AV 説明のための人体記述コーパスがないため, GPT-4-TURBO から銀標準説明を採取し, プレトレーニングした Llama-3-8B に蒸留する。
3つの難しいAVデータセットIMdB2、Blog-Auth、FanFictionの結果は、CAVEが高品質な説明(自動的および人的評価によって測定される)と競争的タスクの精度を生成することを示している。
Authorship Verification (AV) (do two documents have the same author?) is essential for many sensitive real-life applications. AV is often used in proprietary domains that require a private, offline model, making SOTA online models like ChatGPT undesirable. Other SOTA systems use methods, e.g. Siamese Networks, that are uninterpretable, and hence cannot be trusted in high-stakes applications. In this work, we take the first step to address the above challenges with our model CAVE (Controllable Authorship Verification Explanations): CAVE generates free-text AV explanations that are controlled to be 1) structured (can be decomposed into sub-explanations with respect to relevant linguistic features), and 2) easily verified for explanation-label consistency (via intermediate labels in sub-explanations). In this work, we train a Llama-3-8B as CAVE; since there are no human-written corpora for AV explanations, we sample silver-standard explanations from GPT-4-TURBO and distill them into a pretrained Llama-3-8B. Results on three difficult AV datasets IMdB2, Blog-Auth, and FanFiction show that CAVE generates high quality explanations (as measured by automatic and human evaluation) as well as competitive task accuracies. | 翻訳日:2024-06-25 14:34:57 公開日:2024-06-24 |
# 安定化剤の高速計算
Faster Computation of Stabilizer Extent ( http://arxiv.org/abs/2406.16673v1 ) ライセンス: Link先を確認 | Hiroki Hamaguchi, Kou Hamada, Naoki Marumo, Nobuyuki Yoshioka, | (参考訳) 非安定化剤のキャラクタリゼーションはゲート合成や古典シミュレーションに応用されているため実りがある。
特に、$\textit{stabilizer extent}$と呼ばれるリソースモノトーンは、Clifford+$T$回路の最先端シミュレータであるランクベースのシミュレータを使ってシミュレーションコストを見積もるのに不可欠である。
本研究では,安定度を計算するための高速数値アルゴリズムを提案する。
本アルゴリズムでは,計算に使用する純安定状態のサブセットを反復的に更新するカラム生成手法を用いる。
このサブセットは、全ての安定化状態とターゲット状態の重なり合いに基づいて選択される。
サブセットを更新すると、$\textit{stabilizer fidelity}$を計算するために新しく提案されたサブルーチンを使用します。
i)安定化状態の数に関して線形時間複雑性を達成する。
(二)空間の複雑さをその場計算により超指数的に低減し、
三 計算の不要な状態
その結果,Haar乱数純状態の安定度と安定化度を最大$n=9$ qubitsまで計算できることがわかった。
さらに、ターゲット状態ベクトルが現実である場合に、我々のアルゴリズムはさらに高速に動作することを示す。
最適化問題のサイズを小さくすることで、4.7時間で$n=10$ qubitsのケースを計算することができる。
Characterization of nonstabilizerness is fruitful due to its application in gate synthesis and classical simulation. In particular, the resource monotone called the $\textit{stabilizer extent}$ is indispensable to estimate the simulation cost using the rank-based simulators, one of the state-of-the-art simulators of Clifford+$T$ circuits. In this work, we propose fast numerical algorithms to compute the stabilizer extent. Our algorithm utilizes the Column Generation method, which iteratively updates the subset of pure stabilizer states used for calculation. This subset is selected based on the overlaps between all stabilizer states and a target state. Upon updating the subset, we make use of a newly proposed subroutine for calculating the $\textit{stabilizer fidelity}$ that (i) achieves the linear time complexity with respect to the number of stabilizer states, (ii) super-exponentially reduces the space complexity by in-place calculation, and (iii) prunes unnecessary states for the computation. As a result, our algorithm can compute the stabilizer fidelity and the stabilizer extent for Haar random pure states up to $n=9$ qubits, which naively requires a memory of 305 EiB. We further show that our algorithm runs even faster when the target state vector is real. The optimization problem size is reduced so that we can compute the case of $n=10$ qubits in 4.7 hours. | 翻訳日:2024-06-25 14:34:57 公開日:2024-06-24 |
# 知識の少ない修辞図の発見に対する計算的アプローチ:体系的調査と研究課題
Computational Approaches to the Detection of Lesser-Known Rhetorical Figures: A Systematic Survey and Research Challenges ( http://arxiv.org/abs/2406.16674v1 ) ライセンス: Link先を確認 | Ramona Kühn, Jelena Mitrović, Michael Granitzer, | (参考訳) 修辞的な人物は、テキストをより面白く、覚えやすく、説得力のあるものにすることで、日々のコミュニケーションにおいて重要な役割を担います。
したがって、テキストの意味を十分に理解するためには、修辞学的な数字を計算的に検出することが重要である。
我々は、あまり知られていないレトリックフィギュアに対する計算手法の概要を概観する。
我々は、自然言語処理の分野におけるそれらの重要性を強調し、修辞的図形に関する言語的・計算的な視点を探求する。
データセット、定義、修辞関数、検出アプローチなど、さまざまな数値を詳細に提示する。
データセットの不足、言語制限、ルールベースのメソッドへの依存といった課題を特定した。
Rhetorical figures play a major role in our everyday communication as they make text more interesting, more memorable, or more persuasive. Therefore, it is important to computationally detect rhetorical figures to fully understand the meaning of a text. We provide a comprehensive overview of computational approaches to lesser-known rhetorical figures. We explore the linguistic and computational perspectives on rhetorical figures, emphasizing their significance for the domain of Natural Language Processing. We present different figures in detail, delving into datasets, definitions, rhetorical functions, and detection approaches. We identified challenges such as dataset scarcity, language limitations, and reliance on rule-based methods. | 翻訳日:2024-06-25 14:34:57 公開日:2024-06-24 |
# Segment Any Text:ロバストで効率的で適応可能な文セグメンテーションのためのユニバーサルアプローチ
Segment Any Text: A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentation ( http://arxiv.org/abs/2406.16678v1 ) ライセンス: Link先を確認 | Markus Frohmann, Igor Sterner, Ivan Vulić, Benjamin Minixhofer, Markus Schedl, | (参考訳) テキストを文章に分割することは、多くのNLPシステムにおいて、早期かつ重要な役割を果たす。
これは、句読点のような語彙的特徴に依存する規則に基づく、あるいは統計的手法を用いることで、一般的に達成される。
最近のいくつかの研究は、もはや句読点のみに依存していないが、事前の手法が全てを達成することはない。
一 句読を欠くことに対する頑丈さ
(二)新領域への効果的な適応性及び
(三)高効率。
この問題を解決するために、新しいモデル、Segment any Text (SaT)を導入します。
頑健性を高めるため,句読点への依存度を低くする事前学習方式を提案する。
適応性に対処するために、パラメータ効率の良い微調整の余分な段階を導入し、歌詞や法的文書からの詩など、異なる領域における最先端のパフォーマンスを確立する。
その過程でアーキテクチャの変更を導入することで,従来の最先端技術よりも3倍のスピード向上を実現し,将来的なコンテキストへの急激な依存を解消します。
最後に,既存セグメンテーションツールのドロップイン置換・拡張として機能し,多言語データの多言語混合を微調整したモデルを提案する。
全体として、私たちのコントリビューションは、任意のテキストをセグメント化するための普遍的なアプローチを提供します。
提案手法は,多種多様なドメインや言語にまたがる8つのコーパス,特にテキストのフォーマットが不十分な現実的な状況において,強力なLLMを含むすべてのベースラインよりも優れる。
ドキュメンテーションを含む私たちのモデルとコードは、MITライセンス下でhttps://huggingface.co/segment-any-textで利用可能です。
Segmenting text into sentences plays an early and crucial role in many NLP systems. This is commonly achieved by using rule-based or statistical methods relying on lexical features such as punctuation. Although some recent works no longer exclusively rely on punctuation, we find that no prior method achieves all of (i) robustness to missing punctuation, (ii) effective adaptability to new domains, and (iii) high efficiency. We introduce a new model - Segment any Text (SaT) - to solve this problem. To enhance robustness, we propose a new pretraining scheme that ensures less reliance on punctuation. To address adaptability, we introduce an extra stage of parameter-efficient fine-tuning, establishing state-of-the-art performance in distinct domains such as verses from lyrics and legal documents. Along the way, we introduce architectural modifications that result in a threefold gain in speed over the previous state of the art and solve spurious reliance on context far in the future. Finally, we introduce a variant of our model with fine-tuning on a diverse, multilingual mixture of sentence-segmented data, acting as a drop-in replacement and enhancement for existing segmentation tools. Overall, our contributions provide a universal approach for segmenting any text. Our method outperforms all baselines - including strong LLMs - across 8 corpora spanning diverse domains and languages, especially in practically relevant situations where text is poorly formatted. Our models and code, including documentation, are available at https://huggingface.co/segment-any-text under the MIT license. | 翻訳日:2024-06-25 14:34:57 公開日:2024-06-24 |
# De Novo PROTAC設計における機械学習の創発的アプローチの概観
A Comprehensive Review of Emerging Approaches in Machine Learning for De Novo PROTAC Design ( http://arxiv.org/abs/2406.16681v1 ) ライセンス: Link先を確認 | Yossra Gharbi, Rocío Mercado, | (参考訳) 標的タンパク質分解(Targeted protein degradation、TPD)は、細胞内のタンパク質レベルを制御し、細胞固有の分解経路を利用して疾患関連タンパク質を選択的に標的にし、分解することを目的とした、現代の薬物発見における急速に成長する分野である。
この戦略は、占有型インヒビターが成功していない場合に治療介入の新たな機会を生み出す。
プロテオリシス標的キメラ(PROTAC)は、病原性タンパク質の選択的ターゲティングおよびプロテアソーム分解にユビキチン-プロテアソーム系を活用するPD戦略の中心である。
場が進化するにつれて、そのような複雑な分子を設計する伝統的な方法論には限界があることが明らかになる。
これにより、機械学習(ML)と生成モデリングを使用して開発プロセスを改善し、加速する。
本稿では,MLがde novo PROTAC設計に与える影響について検討する。
我々は、PDを発現する効果的な二官能分子を創出するために必要な複雑さを補足し、PTACリンカー設計の異なる特徴を掘り下げる。
次に、小分子の薬物発見の領域に根ざしたフラグメントベースドラッグデザイン(FBDD)の文脈におけるMLがどのようにしてPTACリンカー設計の道を開いたかを検討する。
本稿では, ProTAC 開発における複雑な分野に本手法を適用した際の限界について批判的な評価を行う。
さらに, ProTAC設計に適用される既存のMLの成果を概観し, 先駆的な取り組みと, これらの研究が直面する限界を強調した。
ProTAC 開発の現状と ProTAC 設計における ML の不可欠な役割に関する洞察を提供することによって,我々は新たなモダリティのためのより良い設計戦略を追求する研究者に貴重な視点を提供することを目指している。
Targeted protein degradation (TPD) is a rapidly growing field in modern drug discovery that aims to regulate the intracellular levels of proteins by harnessing the cell's innate degradation pathways to selectively target and degrade disease-related proteins. This strategy creates new opportunities for therapeutic intervention in cases where occupancy-based inhibitors have not been successful. Proteolysis-targeting chimeras (PROTACs) are at the heart of TPD strategies, which leverage the ubiquitin-proteasome system for the selective targeting and proteasomal degradation of pathogenic proteins. As the field evolves, it becomes increasingly apparent that the traditional methodologies for designing such complex molecules have limitations. This has led to the use of machine learning (ML) and generative modeling to improve and accelerate the development process. In this review, we explore the impact of ML on de novo PROTAC design $-$ an aspect of molecular design that has not been comprehensively reviewed despite its significance. We delve into the distinct characteristics of PROTAC linker design, underscoring the complexities required to create effective bifunctional molecules capable of TPD. We then examine how ML in the context of fragment-based drug design (FBDD), honed in the realm of small-molecule drug discovery, is paving the way for PROTAC linker design. Our review provides a critical evaluation of the limitations inherent in applying this method to the complex field of PROTAC development. Moreover, we review existing ML works applied to PROTAC design, highlighting pioneering efforts and, importantly, the limitations these studies face. By offering insights into the current state of PROTAC development and the integral role of ML in PROTAC design, we aim to provide valuable perspectives for researchers in their pursuit of better design strategies for this new modality. | 翻訳日:2024-06-25 14:34:57 公開日:2024-06-24 |
# 3レベル原子による光学・機械的絡み合いの促進
Enhancement of Opto-Electro-Mechanical Entanglement through Three-Level Atoms ( http://arxiv.org/abs/2406.16682v1 ) ライセンス: Link先を確認 | Abebe Senbeto Kussia, Tewodros Yirgashewa Darge, Tesfay Gebremariam Tesfahannes, Abeba Teklie Bimeraw, Berihu Teklu, | (参考訳) 3レベル原子を含むオプトエレクトロメカニカルシステムにおいて, 動的バイパートライトの絡み合いに対処する。
このシステムは、縮退した3レベル原子、機械共振器、光学キャビティ、マイクロ波キャビティから構成される。
線形化近似と非線形量子-ランジュバン方程式を用いて,系の力学を解析し,対数ネガティリティを用いて二部構造エンタングルメントを評価する。
その結果, 各サブシステム間の絡み合いは, 原子注入率の上昇とともに増大し, 原子注入率の上昇によりサブシステム間の情報伝達が促進されることが示唆された。
さらに,結合速度の増加に伴い,サブシステム間の相関が増大することが観察された。
さらに, 温度上昇に伴って各サブシステム間の相関が減少することを示した。
この結果は、オプト・エレクトロメカニカル・システムにおけるバイパートライトの絡み合いに対する3レベル原子の正の影響を浮き彫りにした。
したがって、このような電気オプトメカニカルシステムは、オプトメカニカル情報伝達の枠組みを提供することができる。
We address the dynamical bipartite entanglement in an opto-electro-mechanical system that involves a three-level atom. The system consists of a degenerate three-level atom, a mechanical resonator, an optical cavity, and a microwave cavity. By utilizing the linearization approximation and nonlinear quantum-Langevin equations, the dynamics of the system are analyzed, and the bipartite entanglement is evaluated using the logarithmic negativity. The research findings indicate that the entanglement between each subsystem increases with the atom injection rate, suggesting that a higher atom injection rate leads to enhanced information transmission between the subsystems. Additionally, it is observed that the correlation between subsystems increases with an increase in the coupling rate. Moreover, the study demonstrates that the correlation between each subsystem decreases as temperature rises. The results highlight the positive impact of three-level atoms on the bipartite entanglement in an opto-electro-mechanical system. Consequently, such electro-optomechanical systems can offer a framework for optomechanical information transfer. | 翻訳日:2024-06-25 14:34:57 公開日:2024-06-24 |
# 拡散モデルの逆サンプリングのための反発型スコア蒸留法
Repulsive Score Distillation for Diverse Sampling of Diffusion Models ( http://arxiv.org/abs/2406.16683v1 ) ライセンス: Link先を確認 | Nicolas Zilberstein, Morteza Mardani, Santiago Segarra, | (参考訳) スコア蒸留サンプリングは,拡散モデルと複雑な視覚生成の融合において重要な役割を担っている。
印象的な結果にもかかわらず、モード崩壊と多様性の欠如に悩まされている。
この課題に対処するために、スコア蒸留の勾配流の解釈を利用して、Repulsive Score Distillation (RSD)を提案する。
特に,多様性を促進する粒子の集合の反発に基づく変分フレームワークを提案する。
粒子間のカップリングを組み込んだ変分近似を用いて、反発は、相対的な対の類似性に基づく粒子の相互作用を放射基底核を介して測定する単純な正則化として現れる。
我々は制約のないサンプリングシナリオと制約のないサンプリングシナリオの両方に対してRSDを設計する。
制約付きサンプリングでは、計算、品質、多様性のバランスを良くする拡張された変分定式化につながる潜時空間の逆問題に焦点をあてる。
テキスト・画像生成および逆問題に対する広範な実験により、RSDは最先端の代替品に比べて多様性と品質のトレードオフが優れていることが示された。
Score distillation sampling has been pivotal for integrating diffusion models into generation of complex visuals. Despite impressive results it suffers from mode collapse and lack of diversity. To cope with this challenge, we leverage the gradient flow interpretation of score distillation to propose Repulsive Score Distillation (RSD). In particular, we propose a variational framework based on repulsion of an ensemble of particles that promotes diversity. Using a variational approximation that incorporates a coupling among particles, the repulsion appears as a simple regularization that allows interaction of particles based on their relative pairwise similarity, measured e.g., via radial basis kernels. We design RSD for both unconstrained and constrained sampling scenarios. For constrained sampling we focus on inverse problems in the latent space that leads to an augmented variational formulation, that strikes a good balance between compute, quality and diversity. Our extensive experiments for text-to-image generation, and inverse problems demonstrate that RSD achieves a superior trade-off between diversity and quality compared with state-of-the-art alternatives. | 翻訳日:2024-06-25 14:25:06 公開日:2024-06-24 |
# 量子エミッタからの連結グラフ符号の決定論的生成
Deterministic generation of concatenated graph codes from quantum emitters ( http://arxiv.org/abs/2406.16684v1 ) ライセンス: Link先を確認 | Love A. Pettersson, Anders S. Sørensen, Stefano Paesani, | (参考訳) 光子損失は、フォトニック量子技術において支配的なノイズ機構である。
したがって、損失耐性の高いフォールトトレラントスキームを設計することは、フォトニック量子情報プロセッサのスケーリングにおける中心的な課題である。
効率よく損失を補正できるコードとのフォールトトレラントな構成の結合は、これを実現するための有望なアプローチであるが、光子と結合するコードを実装する実践的な方法は欠如している。
本稿では,2つの量子エミッタまたは1つの量子エミッタをメモリに結合した1つの量子エミッタから多光子放射を用いて,連結グラフコードを生成する手法を提案する。
これらの手法により, 補助光子を必要とせずに, 高光子損失と標準核融合ゲートを有する実用的状況において, フォールトトレラント核融合に基づく量子計算が可能となることを示す。
Photon loss is the dominant noise mechanism in photonic quantum technologies. Designing fault-tolerant schemes with high tolerance to loss is thus a central challenge in scaling photonic quantum information processors. Concatenation of a fault-tolerant construction with a code able to efficiently correct loss is a promising approach to achieve this, but practical ways to implement code concatenation with photons have been lacking. We propose schemes for generating concatenated graph codes using multi-photon emission from two quantum emitters or a single quantum emitter coupled to a memory; capabilities available in several photonic platforms. We show that these schemes enable fault-tolerant fusion-based quantum computation in practical regimes with high photon loss and standard fusion gates without the need for auxiliary photons. | 翻訳日:2024-06-25 14:25:06 公開日:2024-06-24 |
# 量子対称性と古典対称性
Quantum and classical symmetries ( http://arxiv.org/abs/2406.16686v1 ) ライセンス: Link先を確認 | A. Anokhina, M. Satleikin, A. Sedova, A. Shukakidze, | (参考訳) 我々は、単純な古典物理学と日常的な経験現象の立場から、好奇的でパラドックス的な一連の集合について、やや非標準的な見解を提案する。
可観測量(例えば、エネルギー、運動量、角運動量)の量子化(離散値)、ほとんどの場合(例えば、座標と運動量、差軸上の角運動量射影の座標と運動量の同時測定)の禁止、同時に測定可能な量に対する反直感的関係(例えば、平方運動量$l(l+1)$の有名な表現は、最大射影$l$である。
これらのパラドックスと他のパラドックスは伝統的に「純粋量子」現象、すなわち「古典的世界」現象に類似点を持たない「純粋量子」現象と関連している。
しかし、古典的現象に量子技術を適用するとすぐに、古典的世界と「量子的」世界の間に深い類似点が存在する。
これらの類似は、古典物理学の比較的単純でよく知られたモデル、例えば、媒体を通る光転移の単純化されたモデル、互いに近くで観測者から遠く離れた電荷の系、クーロン/ニュートン場の運動の特異性などの例で従う。
このテキストは、量子力学の基礎に興味がある高校生や大学生に宛てたミニコースと見なすことができるが、まだ標準コースの体系的な研究の準備ができていない。
この文章は、そのような学生を監督する人々にとっても有用かもしれない。
We suggest a somewhat non-standard view on a set of curious, paradoxical from the standpoint of simple classical physics and everyday experience phenomena. There are the quantisation (discrete set of values) of the observables (e.g., energy, momentum, angular momentum); forbidden simultaneous measurements of the observables in the most cases (e.g., of a coordinate and momentum, of angular momentum projections on difference axis); counter-intuitive relations on the simultaneously measurable quantities (e.g., the famous expression for the square momentum $l(l+1)$ with the maximal projection $l$). These and other paradoxes are traditionally related to "purely quantum" phenomenon, i.e., having no analogue in the "classical world" ones. However, there are deep analogies between classical and "quantum" worlds, as soon as the quantum technique is applied to the classical phenomenon. We follow these analogies with the examples of relatively simple and well known models of classical physics, such as a simplified model of light transition through the media, a system of electric charges close to each other and far from the observer; the specific of motion in the Coulomb/Newtonian field. This text can be considered as a mini-course addressed to higher school and undergraduate students who are interested in basics of quantum mechanics, but are not yet ready for systematic study of standard courses. The text may be also useful to those who supervise such students. | 翻訳日:2024-06-25 14:25:06 公開日:2024-06-24 |
# 未訓練メッセージパッシング層によるリンク予測
Link Prediction with Untrained Message Passing Layers ( http://arxiv.org/abs/2406.16687v1 ) ライセンス: Link先を確認 | Lisi Qarkaxhija, Anatol E. Wegner, Ingo Scholtes, | (参考訳) メッセージパッシングニューラルネットワーク(MPNN)は、ノード間で情報を交換することでグラフを操作する。
MPNNは、分子科学、コンピュータビジョン、自然言語処理、組合せ最適化といった分野において、様々なノード、エッジ、グラフレベルのタスクにうまく適用されている。
しかし、ほとんどのMPNNは大量のラベル付きデータをトレーニングする必要がある。
本研究では、グラフニューラルネットワークにおけるさまざまなトレーニングされていないメッセージパッシングレイヤの使用、すなわち、メッセージパッシングステップでノード機能を変換するために使用されるトレーニング可能なパラメータをすべて削除する、一般的なメッセージパッシングアーキテクチャの変種について検討する。
リンク予測に焦点をあてると、訓練されていないメッセージパッシング層は、特に高次元の特徴の存在下で、完全に訓練されたMPNNと比較して、競争力があり、性能も優れていることが分かる。
本研究では,未学習のメッセージパッシング層が暗黙的に生成する特徴の内積をパスベースのトポロジカルノード類似度尺度に関連付けることによって,未学習のメッセージパッシングの理論解析を行う。
このように、訓練されていないメッセージパッシングアーキテクチャは、リンク予測に対する高度に効率的かつ解釈可能なアプローチと見なすことができる。
Message passing neural networks (MPNNs) operate on graphs by exchanging information between neigbouring nodes. MPNNs have been successfully applied to various node-, edge-, and graph-level tasks in areas like molecular science, computer vision, natural language processing, and combinatorial optimization. However, most MPNNs require training on large amounts of labeled data, which can be costly and time-consuming. In this work, we explore the use of various untrained message passing layers in graph neural networks, i.e. variants of popular message passing architecture where we remove all trainable parameters that are used to transform node features in the message passing step. Focusing on link prediction, we find that untrained message passing layers can lead to competitive and even superior performance compared to fully trained MPNNs, especially in the presence of high-dimensional features. We provide a theoretical analysis of untrained message passing by relating the inner products of features implicitly produced by untrained message passing layers to path-based topological node similarity measures. As such, untrained message passing architectures can be viewed as a highly efficient and interpretable approach to link prediction. | 翻訳日:2024-06-25 14:25:06 公開日:2024-06-24 |
# ニューラルネットワーク学習型分類タスクにおける符号化方式
Coding schemes in neural networks learning classification tasks ( http://arxiv.org/abs/2406.16689v1 ) ライセンス: Link先を確認 | Alexander van Meegen, Haim Sompolinsky, | (参考訳) ニューラルネットワークは、タスク依存機能の意味のある表現を生成する重要な能力を持つ。
実際、適切なスケーリングによって、ニューラルネットワークにおける教師付き学習は、強いタスク依存の機能学習をもたらす可能性がある。
しかし、「符号化スキーム」と呼ぶ創発表現の性質はいまだ不明である。
創発的符号化方式を理解するために,学習がネットワーク重みの後方分布を形作るベイジアンフレームワークを用いて,完全連結で広いニューラルネットワーク学習分類タスクについて検討する。
従来の知見と一致して,我々は特徴学習体制(「非ラジ」,「リッチ」,「メアンフィールド」レジーム)の分析を行った。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
線形ネットワークでは、タスクのアナログ符号化方式が出現する。
強い表現にもかかわらず、平均予測子は遅延ケースと同一である。
非線形ネットワークでは、自発的対称性の破れは冗長あるいはスパースな符号化スキームにつながる。
重みのスケーリングや神経の非線形性といったネットワーク特性が創発的表現にどのように深く影響するかを明らかにする。
Neural networks posses the crucial ability to generate meaningful representations of task-dependent features. Indeed, with appropriate scaling, supervised learning in neural networks can result in strong, task-dependent feature learning. However, the nature of the emergent representations, which we call the `coding scheme', is still unclear. To understand the emergent coding scheme, we investigate fully-connected, wide neural networks learning classification tasks using the Bayesian framework where learning shapes the posterior distribution of the network weights. Consistent with previous findings, our analysis of the feature learning regime (also known as `non-lazy', `rich', or `mean-field' regime) shows that the networks acquire strong, data-dependent features. Surprisingly, the nature of the internal representations depends crucially on the neuronal nonlinearity. In linear networks, an analog coding scheme of the task emerges. Despite the strong representations, the mean predictor is identical to the lazy case. In nonlinear networks, spontaneous symmetry breaking leads to either redundant or sparse coding schemes. Our findings highlight how network properties such as scaling of weights and neuronal nonlinearity can profoundly influence the emergent representations. | 翻訳日:2024-06-25 14:25:06 公開日:2024-06-24 |
# 線形複素言語モデルのスケーリング法則
Scaling Laws for Linear Complexity Language Models ( http://arxiv.org/abs/2406.16690v1 ) ライセンス: Link先を確認 | Xuyang Shen, Dong Li, Ruitao Leng, Zhen Qin, Weigao Sun, Yiran Zhong, | (参考訳) 大規模言語モデルの線形複雑性モデルへの関心は高まっているが、そのスケーリング能力は未だ不明である。
本研究では,線形複雑性言語モデルのスケーリング法則について述べる。
具体的には、3つの効率的な線形アーキテクチャのスケーリング挙動について検討する。
これには、データ非依存の線形アテンションモデルであるTNL、データ非依存のリニアRNNであるHGRN2、崩壊のないリニアアテンションモデルであるcosFormer2が含まれる。
また,LLaMAをソフトマックスアテンションのためのベースラインアーキテクチャとして含めている。
これらのモデルは、300Bコーパスの70Mから7Bパラメータの6つの変種で訓練され、様々な下流タスクで合計1,376の中間チェックポイントで評価された。
これらのタスクには、検証損失、常識推論、情報検索と生成が含まれる。
既存の線形複雑言語モデルは従来のトランスフォーマーモデルと同様のスケーリング能力を示しつつ、優れた言語能力と知識保持を示す。
The interest in linear complexity models for large language models is on the rise, although their scaling capacity remains uncertain. In this study, we present the scaling laws for linear complexity language models to establish a foundation for their scalability. Specifically, we examine the scaling behaviors of three efficient linear architectures. These include TNL, a linear attention model with data-independent decay; HGRN2, a linear RNN with data-dependent decay; and cosFormer2, a linear attention model without decay. We also include LLaMA as a baseline architecture for softmax attention for comparison. These models were trained with six variants, ranging from 70M to 7B parameters on a 300B-token corpus, and evaluated with a total of 1,376 intermediate checkpoints on various downstream tasks. These tasks include validation loss, commonsense reasoning, and information retrieval and generation. The study reveals that existing linear complexity language models exhibit similar scaling capabilities as conventional transformer-based models while also demonstrating superior linguistic proficiency and knowledge retention. | 翻訳日:2024-06-25 14:25:06 公開日:2024-06-24 |
# Task Oriented In-Domain Data Augmentation
Task Oriented In-Domain Data Augmentation ( http://arxiv.org/abs/2406.16694v1 ) ライセンス: Link先を確認 | Xiao Liang, Xinyu Hu, Simiao Zuo, Yeyun Gong, Qiang Lou, Yi Liu, Shao-Lun Huang, Jian Jiao, | (参考訳) 大規模言語モデル(LLM)は様々なアプリケーションや分野において優れた性能を示している。
法律や広告などの専門分野の性能向上のために、LLMはドメイン内のデータに基づいて事前訓練されることが多い。
しかし、既存のアプローチは2つの大きな問題に悩まされている。
まず、ドメイン内のデータは一般的なドメインに依存しないデータに比べて少ない。
第二に、連続的な事前トレーニングに使用されるデータはタスクアウェアではなく、ダウンストリームアプリケーションでは役に立たない可能性がある。
タスク指向のドメイン内データ拡張フレームワークTRAITを提案する。
我々のフレームワークは、ドメイン内のデータ選択とタスク指向の合成通路生成の2つの部分に分けられる。
データ選択戦略は、一般コーパスから大量のドメイン内データを識別し、選択し、連続的な事前学習データにおいてドメイン知識を著しく強化する。
合成文には、ダウンストリームタスクに関する質問に答えるためにドメイン知識を使用する方法についてのガイダンスが含まれている。
このようなパスをトレーニングすることで、モデルは下流アプリケーションの必要性に合わせている。
LLMを広告と数学の2つの領域に適用する。
TRAITは平均して広告領域で8%、数学領域で7.5%改善している。
Large Language Models (LLMs) have shown superior performance in various applications and fields. To achieve better performance on specialized domains such as law and advertisement, LLMs are often continue pre-trained on in-domain data. However, existing approaches suffer from two major issues. First, in-domain data are scarce compared with general domain-agnostic data. Second, data used for continual pre-training are not task-aware, such that they may not be helpful to downstream applications. We propose TRAIT, a task-oriented in-domain data augmentation framework. Our framework is divided into two parts: in-domain data selection and task-oriented synthetic passage generation. The data selection strategy identifies and selects a large amount of in-domain data from general corpora, and thus significantly enriches domain knowledge in the continual pre-training data. The synthetic passages contain guidance on how to use domain knowledge to answer questions about downstream tasks. By training on such passages, the model aligns with the need of downstream applications. We adapt LLMs to two domains: advertisement and math. On average, TRAIT improves LLM performance by 8% in the advertisement domain and 7.5% in the math domain. | 翻訳日:2024-06-25 14:25:06 公開日:2024-06-24 |
# 3次元ノイズ発生とグラディエント一貫性モデリングによる幾何学的スコア蒸留
Geometry-Aware Score Distillation via 3D Consistent Noising and Gradient Consistency Modeling ( http://arxiv.org/abs/2406.16695v1 ) ライセンス: Link先を確認 | Min-Seop Kwak, Donghoon Ahn, Ines Hyeonsu Kim, Jin-wha Kim, Seungryong Kim, | (参考訳) 事前学習した2次元拡散モデルのスコアを3次元表現に抽出する手法であるスコア蒸留サンプリング(SDS)は,最近,テキスト・ツー・3次元生成タスクにおいて大きな進歩をもたらした。
しかし、このアプローチはヤヌス問題のような批判的な幾何学的不整合問題に直面している。
このような不整合性問題は,様々な視点から予測される2Dスコア間のマルチビューの不整合によって引き起こされる可能性があるという仮説から出発し,3D一貫性を組み込むシンプルな汎用的なプラグイン・アンド・プレイフレームワークであるGSDをSDSプロセスに導入する。
提案手法は,標準ガウス分布に完全に従う3次元一貫したノイズマップを生成するために設計された3次元一貫したノイズマップ,異なる視点の予測勾配間の対応を識別する幾何に基づく勾配ワープ,より一貫した勾配を生成するためにシーン形状を最適化する新しい勾配補正の3成分から構成される。
提案手法は,テキスト・ツー・3次元生成タスクにおける幾何学的不整合問題に対して,最小計算コストで対処し,既存のスコア蒸留モデルと互換性を持たせることにより,性能を著しく向上することを示した。
私たちのプロジェクトページはhttps://ku-cvlab.github.io/GSD/で公開されています。
Score distillation sampling (SDS), the methodology in which the score from pretrained 2D diffusion models is distilled into 3D representation, has recently brought significant advancements in text-to-3D generation task. However, this approach is still confronted with critical geometric inconsistency problems such as the Janus problem. Starting from a hypothesis that such inconsistency problems may be induced by multiview inconsistencies between 2D scores predicted from various viewpoints, we introduce GSD, a simple and general plug-and-play framework for incorporating 3D consistency and therefore geometry awareness into the SDS process. Our methodology is composed of three components: 3D consistent noising, designed to produce 3D consistent noise maps that perfectly follow the standard Gaussian distribution, geometry-based gradient warping for identifying correspondences between predicted gradients of different viewpoints, and novel gradient consistency loss to optimize the scene geometry toward producing more consistent gradients. We demonstrate that our method significantly improves performance, successfully addressing the geometric inconsistency problems in text-to-3D generation task with minimal computation cost and being compatible with existing score distillation-based models. Our project page is available at https://ku-cvlab.github.io/GSD/. | 翻訳日:2024-06-25 14:25:06 公開日:2024-06-24 |
# 公立憲法AI
Public Constitutional AI ( http://arxiv.org/abs/2406.16696v1 ) ライセンス: Link先を確認 | Gilad Abiri, | (参考訳) AI当局の権限はますます強まりつつある。
AIの意思決定が不可能になり、医療、教育、法律などの分野に入るためには、重要な疑問に直面する必要がある。
このエッセイは、AIの正当性を確保するためには、AIシステムの設計と制約に一般市民が関与する方法が必要であり、これらの技術がコミュニティの共有価値を反映していることを保証する。
Anthropicが提唱するコンスティチューショナルAIは、AIの民主的制御のためのモデルを提供することによって、この目標に向かっている。
しかし、立憲AIが明示的な原則をAIモデルにハードコーディングするというコミットメントは透明性と説明責任を高める一方で、個々のAI決定の不透明さに対処し、真の民主的正当性を促進するという2つの重要な側面に不足している。
この制限を克服するため、このエッセイは「公共の憲法AI」を提案する。
このアプローチでは、一般市民を含む多様な利害関係者がAI開発を導く原則を慎重に考える、参加的なプロセスが想定されている。
結果として生じる「AIコンスティチューション」は、一般的な著作者の正当性を持ち、公の意思でAIガバナンスを根底に置くことになる。
さらに、このエッセイは「AIケース法」を開発するために「AI裁判所」を提案し、AIトレーニングにおける憲法原則を運用するための具体例を提供している。
この憲法の原則とケースローの進化的な組み合わせは、AIガバナンスを公共の価値観にもっと敏感にすることを目的としている。
熟考的な民主的プロセスにAIガバナンスを根ざすことによって、パブリックコンスティチューショナルAIは、真の民主的正当性を持つ自動化当局に訴える道を提供すると同時に、ますます強力なAIシステムによって引き起こされる固有の課題に対処し、公衆の関心と整合性を確保する。
We are increasingly subjected to the power of AI authorities. As AI decisions become inescapable, entering domains such as healthcare, education, and law, we must confront a vital question: how can we ensure AI systems have the legitimacy necessary for effective governance? This essay argues that to secure AI legitimacy, we need methods that engage the public in designing and constraining AI systems, ensuring these technologies reflect the community's shared values. Constitutional AI, proposed by Anthropic, represents a step towards this goal, offering a model for democratic control of AI. However, while Constitutional AI's commitment to hardcoding explicit principles into AI models enhances transparency and accountability, it falls short in two crucial aspects: addressing the opacity of individual AI decisions and fostering genuine democratic legitimacy. To overcome these limitations, this essay proposes "Public Constitutional AI." This approach envisions a participatory process where diverse stakeholders, including ordinary citizens, deliberate on the principles guiding AI development. The resulting "AI Constitution" would carry the legitimacy of popular authorship, grounding AI governance in the public will. Furthermore, the essay proposes "AI Courts" to develop "AI case law," providing concrete examples for operationalizing constitutional principles in AI training. This evolving combination of constitutional principles and case law aims to make AI governance more responsive to public values. By grounding AI governance in deliberative democratic processes, Public Constitutional AI offers a path to imbue automated authorities with genuine democratic legitimacy, addressing the unique challenges posed by increasingly powerful AI systems while ensuring their alignment with the public interest. | 翻訳日:2024-06-25 14:25:06 公開日:2024-06-24 |
# Breadth-First SearchとConstant-Depth Restarting Random Walksの比較
Expected Runtime Comparisons Between Breadth-First Search and Constant-Depth Restarting Random Walks ( http://arxiv.org/abs/2406.16697v1 ) ライセンス: Link先を確認 | Daniel Platnick, Richard Anthony Valenzano, | (参考訳) グリージー検索アルゴリズムが局所的なミニマや高原に遭遇すると、検索は通常、幅優先探索(BrFS)に変換される。
本研究では,BrFSと一定深度再起動型ランダムウォーク(RRW)の性能を,高原/地方ミニマへの出口を見つけるためによく使用される2つの手法で解析し,それぞれが適しているタイミングをよりよく理解する。
特に,所定の目標深度で一様に分散された目標セットの場合,BrFSの予測ランタイムを正式に導出する。
そして、そのゴール深さに十分な目標がある場合、RRWがBrFSよりも高速であることを証明します。
我々はこのしきい値をクロスオーバーポイントと呼ぶ。
我々の境界線は、木の分岐係数、ゴール深さ、ランダムウォーク深さの誤差と交叉点が線形に成長し、一方、木の大きさは分岐係数とゴール深さで指数関数的に成長することを示している。
最後に、この境界の実用的意味と適用性について論じる。
When greedy search algorithms encounter a local minima or plateau, the search typically devolves into a breadth-first search (BrFS), or a local search technique is used in an attempt to find a way out. In this work, we formally analyze the performance of BrFS and constant-depth restarting random walks (RRW) -- two methods often used for finding exits to a plateau/local minima -- to better understand when each is best suited. In particular, we formally derive the expected runtime for BrFS in the case of a uniformly distributed set of goals at a given goal depth. We then prove RRW will be faster than BrFS on trees if there are enough goals at that goal depth. We refer to this threshold as the crossover point. Our bound shows that the crossover point grows linearly with the branching factor of the tree, the goal depth, and the error in the random walk depth, while the size of the tree grows exponentially in branching factor and goal depth. Finally, we discuss the practical implications and applicability of this bound. | 翻訳日:2024-06-25 14:25:06 公開日:2024-06-24 |
# 解釈可能な公正表現の学習
Learning Interpretable Fair Representations ( http://arxiv.org/abs/2406.16698v1 ) ライセンス: Link先を確認 | Tianhao Wang, Zana Buçinca, Zilin Ma, | (参考訳) 近年,予測タスクにおける不公平な結果を軽減する公平な表現を学習するための多くのアプローチが提案されている。
これらの手法の重要な動機は、表現が未知の目的を持つ第三者によって使用できることである。
しかし、現在の公正な表現は一般に解釈できないため、第三者はこれらの公正な表現を探索のために使うことができず、事前契約された予測タスク以外の追加の洞察を得ることはできない。
したがって、予測タスクを超えてデータの有用性を高めるためには、表現は公平でありながら解釈可能である必要があると論じる。
本稿では,表現学習過程において,解釈可能な「適切な知識」を導入することによって,解釈可能な公正表現を学習するための一般的な枠組みを提案する。
我々は、このアイデアを実装し、ColorMNISTおよびDspriteデータセットを用いて実験を行う。
以上の結果から,我々の表現は解釈可能であることに加えて,下流の分類課題において,最先端の公正表現と比較してわずかに精度が高く,より公平な結果が得られることが示唆された。
Numerous approaches have been recently proposed for learning fair representations that mitigate unfair outcomes in prediction tasks. A key motivation for these methods is that the representations can be used by third parties with unknown objectives. However, because current fair representations are generally not interpretable, the third party cannot use these fair representations for exploration, or to obtain any additional insights, besides the pre-contracted prediction tasks. Thus, to increase data utility beyond prediction tasks, we argue that the representations need to be fair, yet interpretable. We propose a general framework for learning interpretable fair representations by introducing an interpretable "prior knowledge" during the representation learning process. We implement this idea and conduct experiments with ColorMNIST and Dsprite datasets. The results indicate that in addition to being interpretable, our representations attain slightly higher accuracy and fairer outcomes in a downstream classification task compared to state-of-the-art fair representations. | 翻訳日:2024-06-25 14:25:06 公開日:2024-06-24 |
# 医用画像分割のためのU-Netモデルにおける受容野サイズの影響
Demystifying the Effect of Receptive Field Size in U-Net Models for Medical Image Segmentation ( http://arxiv.org/abs/2406.16701v1 ) ライセンス: Link先を確認 | Vincent Loos, Rohit Pardasani, Navchetan Awasthi, | (参考訳) 医用画像のセグメンテーションは医療アプリケーションにとって重要な課題であり、U-Netsは有望な結果を示してきた。
この研究は、受信フィールド(RF)サイズとそのU-NetおよびAttention U-Netアーキテクチャへの影響について検討されている。
本研究は, RFサイズ, 関心領域の特徴, モデル性能の関係, 異なるデータセットに対するU-Net法と注意U-Net法におけるRFサイズと計算コストのバランスなど, いくつかの重要な要素について検討する。
本研究は、ネットワーク内の与えられた層の理論的受容場(TRF)を表す数学的表記法を提案し、実効受容場(ERF)レートとオブジェクトレートという2つの新しい指標を提案する。
その結果、より広いグローバルなコンテキストを捉えることと計算効率を維持することのバランスを保ち、モデル性能を最適化する最適なRFサイズが存在することが示された。
興味深いことに、データ複雑性と必要なRFサイズとの間には明確な相関関係が観察される; コントラストのみに基づくセグメンテーションは、より小さなRFサイズでも達成されたピーク性能にのみ依存するが、より複雑なセグメンテーションタスクはより大きなRFを必要とする。
注意 U-Net モデルは、TRF のサイズに関わらず、注意機構の価値を強調しながら、一貫して U-Net モデルよりも優れていた。
これらの新たな洞察は、医用イメージングのためのより効率的なU-Netベースのアーキテクチャを開発するための貴重なリソースを示し、将来の探査の道を開く。
また、U-Net(および注意U-Net)モデルのTRFを計算するツールも開発され、与えられたモデルとデータセットに対して適切なTRFサイズを提案する。
Medical image segmentation is a critical task in healthcare applications, and U-Nets have demonstrated promising results. This work delves into the understudied aspect of receptive field (RF) size and its impact on the U-Net and Attention U-Net architectures. This work explores several critical elements including the relationship between RF size, characteristics of the region of interest, and model performance, as well as the balance between RF size and computational costs for U-Net and Attention U-Net methods for different datasets. This work also proposes a mathematical notation for representing the theoretical receptive field (TRF) of a given layer in a network and proposes two new metrics - effective receptive field (ERF) rate and the Object rate to quantify the fraction of significantly contributing pixels within the ERF against the TRF area and assessing the relative size of the segmentation object compared to the TRF size respectively. The results demonstrate that there exists an optimal TRF size that successfully strikes a balance between capturing a wider global context and maintaining computational efficiency, thereby optimizing model performance. Interestingly, a distinct correlation is observed between the data complexity and the required TRF size; segmentation based solely on contrast achieved peak performance even with smaller TRF sizes, whereas more complex segmentation tasks necessitated larger TRFs. Attention U-Net models consistently outperformed their U-Net counterparts, highlighting the value of attention mechanisms regardless of TRF size. These novel insights present an invaluable resource for developing more efficient U-Net-based architectures for medical imaging and pave the way for future exploration. A tool is also developed that calculates the TRF for a U-Net (and Attention U-Net) model, and also suggest an appropriate TRF size for a given model and dataset. | 翻訳日:2024-06-25 14:25:06 公開日:2024-06-24 |
# 高忠実度量子レジスタの集合的調製
Collective preparation of large quantum registers with high fidelity ( http://arxiv.org/abs/2406.16706v1 ) ライセンス: Link先を確認 | Lorenzo Buffoni, Michele Campisi, | (参考訳) 我々は5612量子ビットの大規模な量子レジスタの作成について報告し、前例のない高いグローバル忠実度は0.9956$である。
これは、高接続性を有する超伝導量子ビットのプログラマブルネットワークに改良された協調量子情報消去(CQIE)プロトコル(Buffoni, L. and Campisi, M., Quantum 7, 961 (2023))を適用することで達成された。
ここで、量子レジスタは、各量子ビットの個々のリセットに基づく標準法とのばらつきにおいて、全体として扱われるので、非常に高い個々のリセットフィデリティ$f$さえも、非常に高い個々のリセットフィデリティ$F=f^N$を回避し、その結果として、クビット数$N$が増加するグローバルフィデリティ$F=f^N$が消滅する。
We report on the preparation of a large quantum register of 5612 qubits, with the unprecedented high global fidelity of $F\simeq 0.9956$. This was achieved by applying an improved cooperative quantum information erasure (CQIE) protocol [Buffoni, L. and Campisi, M., Quantum 7, 961 (2023)] to a programmable network of superconducting qubits featuring a high connectivity. At variance with the standard method based on the individual reset of each qubit in parallel, here the quantum register is treated as a whole, thus avoiding the well-known orthogonality catastrophe wehereby even an extremely high individual reset fidelity $f$ results in vanishing global fidelities $F=f^N$ with growing number $N$ of qubits. | 翻訳日:2024-06-25 14:25:06 公開日:2024-06-24 |
# 階層的強化学習のための確率的部分表現
Probabilistic Subgoal Representations for Hierarchical Reinforcement learning ( http://arxiv.org/abs/2406.16707v1 ) ライセンス: Link先を確認 | Vivienne Huiling Wang, Tinghuai Wang, Wenyan Yang, Joni-Kristian Kämäräinen, Joni Pajarinen, | (参考訳) 目標条件付き階層的強化学習(HRL)では、ハイレベルポリシーは、到達すべき低レベルポリシーのサブゴールを指定する。
有効なHRLヒンジは、適度なサブゴアル・リレーゼン・テイション関数に基づいて、状態空間を潜在サブゴアル空間に抽象化し、様々な低レベルな振る舞いを誘導する。
既存の方法では、状態空間から潜在サブゴール空間への決定論的マッピングを提供するサブゴール表現を採用している。
代わりに、この論文はガウス過程(GP)を最初の確率的サブゴール表現に利用する。
提案手法では,潜在サブゴアル空間に先行するGPを用いて,学習可能なカーネルを通して状態空間の長距離相関を利用して,サブゴアル表現関数の後方分布を学習する。
これにより、事前の計画手順から長距離サブゴール情報を統合して確率的不確実性に対処するアダプティブメモリが実現される。
さらに,統一された枠組み内での確率的サブゴール表現とポリシーの同時学習を容易にするための新しい学習目標を提案する。
実験では, 標準ベンチマークや確率的要素を持つ環境, 様々な報酬条件下で, 最先端のベースラインよりも優れていた。
さらに、我々のモデルは、異なるタスク間で低レベルのポリシーを転送する有望な能力を示している。
In goal-conditioned hierarchical reinforcement learning (HRL), a high-level policy specifies a subgoal for the low-level policy to reach. Effective HRL hinges on a suitable subgoal represen tation function, abstracting state space into latent subgoal space and inducing varied low-level behaviors. Existing methods adopt a subgoal representation that provides a deterministic mapping from state space to latent subgoal space. Instead, this paper utilizes Gaussian Processes (GPs) for the first probabilistic subgoal representation. Our method employs a GP prior on the latent subgoal space to learn a posterior distribution over the subgoal representation functions while exploiting the long-range correlation in the state space through learnable kernels. This enables an adaptive memory that integrates long-range subgoal information from prior planning steps allowing to cope with stochastic uncertainties. Furthermore, we propose a novel learning objective to facilitate the simultaneous learning of probabilistic subgoal representations and policies within a unified framework. In experiments, our approach outperforms state-of-the-art baselines in standard benchmarks but also in environments with stochastic elements and under diverse reward conditions. Additionally, our model shows promising capabilities in transferring low-level policies across different tasks. | 翻訳日:2024-06-25 14:25:06 公開日:2024-06-24 |
# CausalFormer: 時間的因果発見のための解釈可能な変換器
CausalFormer: An Interpretable Transformer for Temporal Causal Discovery ( http://arxiv.org/abs/2406.16708v1 ) ライセンス: Link先を確認 | Lingbai Kong, Wengen Li, Hanchen Yang, Yichao Zhang, Jihong Guan, Shuigeng Zhou, | (参考訳) 時系列データ中の因果関係を明らかにするため,時間的因果発見は重要な課題である。
最新の時間因果探索法は通常、時系列間の因果関係を明らかにするために予測タスクでディープラーニングモデルを訓練する。
それらは、訓練されたモデルのいくつかのコンポーネント、例えば、注意重みと畳み込み重みのパラメータを分析することで因果関係を捉える。
しかし、これはモデルパラメータから因果関係への不完全なマッピングプロセスであり、因果発見においても重要な他のコンポーネント(例えば、完全に連結された層や活性化関数)を調べるのに失敗する。
時間的因果発見における深層学習モデル全体の活用を容易にするために,因果認識変換器と分解に基づく因果検出器からなる因果発見モデルCausalFormerを提案する。
因果対応変換器は、時間的優先度制約の下で各入力時系列を時間的次元に沿って集約する設計されたマルチカーネル因果畳み込みを用いた予測タスクを用いて時系列データの因果表現を学習する。
そして、分解に基づく因果検出器は、トレーニングされた因果変換器のグローバル構造と回帰関連性伝播を解釈し、潜在的な因果関係を同定し、最終的に因果グラフを構築する。
合成、シミュレーション、および実際のデータセットの実験は、時間的因果性を発見する上でのCausalFormerの最先端のパフォーマンスを示している。
私たちのコードはhttps://github.com/lingbai-kong/CausalFormer.comから入手可能です。
Temporal causal discovery is a crucial task aimed at uncovering the causal relations within time series data. The latest temporal causal discovery methods usually train deep learning models on prediction tasks to uncover the causality between time series. They capture causal relations by analyzing the parameters of some components of the trained models, e.g., attention weights and convolution weights. However, this is an incomplete mapping process from the model parameters to the causality and fails to investigate the other components, e.g., fully connected layers and activation functions, that are also significant for causal discovery. To facilitate the utilization of the whole deep learning models in temporal causal discovery, we proposed an interpretable transformer-based causal discovery model termed CausalFormer, which consists of the causality-aware transformer and the decomposition-based causality detector. The causality-aware transformer learns the causal representation of time series data using a prediction task with the designed multi-kernel causal convolution which aggregates each input time series along the temporal dimension under the temporal priority constraint. Then, the decomposition-based causality detector interprets the global structure of the trained causality-aware transformer with the proposed regression relevance propagation to identify potential causal relations and finally construct the causal graph. Experiments on synthetic, simulated, and real datasets demonstrate the state-of-the-art performance of CausalFormer on discovering temporal causality. Our code is available at https://github.com/lingbai-kong/CausalFormer. | 翻訳日:2024-06-25 14:25:06 公開日:2024-06-24 |
# Portrait3D: ワン・イン・ザ・ウィンド・ポートレート画像からの3次元ヘッド生成
Portrait3D: 3D Head Generation from Single In-the-wild Portrait Image ( http://arxiv.org/abs/2406.16710v1 ) ライセンス: Link先を確認 | Jinkun Hao, Junshu Tang, Jiangning Zhang, Ran Yi, Yijia Hong, Moran Li, Weijian Cao, Yating Wang, Lizhuang Ma, | (参考訳) 最近の研究はワンショットの3Dオブジェクト生成において大きな成功を収めているが、高品質で忠実な3Dヘッド生成は依然として大きな課題である。
従来の3Dヘッド生成法はテキスト記述によって制限されており、画像ベースの手法は高品質なヘッドジオメトリを作成するのに苦労していた。
この課題に対処するため,我々は,高品質な3Dヘッドを生成できる新しいフレームワークであるPortrait3Dを提案する。
私たちの作品では、肖像画の身元情報を3つにまとめています。
1) 幾何初期化。
2 幾何学彫刻、及び
3) テクスチャ生成段階。
まず,顔情報を表す制御信号を含むID認識誘導強調を実現するために,画像の特徴をテキストの特徴と整合させる。
次に、キャニーマップ、ポートレート画像のID特徴、および事前訓練されたテキスト-正規/深度拡散モデルを用いて、ID認識幾何監視を生成し、3D-GANインバージョンを用いて、ID認識幾何初期化を生成する。
さらに、3Dヘッド生成にID情報を注入する機能により、幾何彫刻のためのID認識スコア蒸留(ISD)を計算するためにID認識ガイダンスを使用する。
テクスチャ生成にはID Consistent Texture Inpainting and Refinementを採用する。
次に、ID認識ガイダンスを用いて、ノイズの多い多視点画像に対する画像レベルの監視を行い、洗練されたテクスチャマップを得る。
広範にわたる実験により,高品質な3Dヘッドを高精度な形状とテクスチャで生成できることが実証された。
プロジェクトページはhttps://jinkun-hao.github.io/Portrait3D/にある。
While recent works have achieved great success on one-shot 3D common object generation, high quality and fidelity 3D head generation from a single image remains a great challenge. Previous text-based methods for generating 3D heads were limited by text descriptions and image-based methods struggled to produce high-quality head geometry. To handle this challenging problem, we propose a novel framework, Portrait3D, to generate high-quality 3D heads while preserving their identities. Our work incorporates the identity information of the portrait image into three parts: 1) geometry initialization, 2) geometry sculpting, and 3) texture generation stages. Given a reference portrait image, we first align the identity features with text features to realize ID-aware guidance enhancement, which contains the control signals representing the face information. We then use the canny map, ID features of the portrait image, and a pre-trained text-to-normal/depth diffusion model to generate ID-aware geometry supervision, and 3D-GAN inversion is employed to generate ID-aware geometry initialization. Furthermore, with the ability to inject identity information into 3D head generation, we use ID-aware guidance to calculate ID-aware Score Distillation (ISD) for geometry sculpting. For texture generation, we adopt the ID Consistent Texture Inpainting and Refinement which progressively expands the view for texture inpainting to obtain an initialization UV texture map. We then use the id-aware guidance to provide image-level supervision for noisy multi-view images to obtain a refined texture map. Extensive experiments demonstrate that we can generate high-quality 3D heads with accurate geometry and texture from single in-the-wild portrait images. The project page is at https://jinkun-hao.github.io/Portrait3D/. | 翻訳日:2024-06-25 14:15:21 公開日:2024-06-24 |
# AutoDetect: 大規模言語モデルにおける弱度自動検出のための統一フレームワーク
AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models ( http://arxiv.org/abs/2406.16714v1 ) ライセンス: Link先を確認 | Jiale Cheng, Yida Lu, Xiaotao Gu, Pei Ke, Xiao Liu, Yuxiao Dong, Hongning Wang, Jie Tang, Minlie Huang, | (参考訳) 大きな言語モデル(LLM)はますます強力になってきていますが、命令追従やコーディングタスクのミスなど、目覚ましいが微妙な弱点があります。
これらの予期せぬ誤りは、実際の展開において重大な結果をもたらす可能性があるため、LLM内の制限を体系的に調査することが重要である。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできないが、手動検査はコストが高く、スケーラブルではない。
本稿では,様々なタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークAutoDetectを紹介する。
学生の学習成果を測定する教育評価プロセスにインスパイアされたAutoDetectは、3つのLCMエージェント(検査者、質問者、評価官)で構成されている。
これら3つのエージェント間の協調は、包括的で詳細な弱点識別を実現するように設計されている。
当社のフレームワークは,ChatGPTやClaudeといった著名なモデルで30%以上の識別成功率で,欠陥の発見に大きな成功を収めている。
さらに重要なのは、これらの識別された弱点が特定のモデル改善のガイドとなり、セルフインストラクションのような未ターゲットのデータ拡張メソッドよりも効果的であることが証明されることだ。
我々のアプローチは、LlamaシリーズやMistral-7bなど、人気のあるLLMの大幅な改善をもたらし、いくつかのベンチマークでパフォーマンスを10%以上向上させた。
コードとデータはhttps://github.com/thu-coai/AutoDetect.comで公開されている。
Although Large Language Models (LLMs) are becoming increasingly powerful, they still exhibit significant but subtle weaknesses, such as mistakes in instruction-following or coding tasks. As these unexpected errors could lead to severe consequences in practical deployments, it is crucial to investigate the limitations within LLMs systematically. Traditional benchmarking approaches cannot thoroughly pinpoint specific model deficiencies, while manual inspections are costly and not scalable. In this paper, we introduce a unified framework, AutoDetect, to automatically expose weaknesses in LLMs across various tasks. Inspired by the educational assessment process that measures students' learning outcomes, AutoDetect consists of three LLM-powered agents: Examiner, Questioner, and Assessor. The collaboration among these three agents is designed to realize comprehensive and in-depth weakness identification. Our framework demonstrates significant success in uncovering flaws, with an identification success rate exceeding 30% in prominent models such as ChatGPT and Claude. More importantly, these identified weaknesses can guide specific model improvements, proving more effective than untargeted data augmentation methods like Self-Instruct. Our approach has led to substantial enhancements in popular LLMs, including the Llama series and Mistral-7b, boosting their performance by over 10% across several benchmarks. Code and data are publicly available at https://github.com/thu-coai/AutoDetect. | 翻訳日:2024-06-25 14:15:21 公開日:2024-06-24 |
# GC-Bench: 新しいインサイトを備えたグラフ凝縮のためのベンチマークフレームワーク
GC-Bench: A Benchmark Framework for Graph Condensation with New Insights ( http://arxiv.org/abs/2406.16715v1 ) ライセンス: Link先を確認 | Shengbo Gong, Juntong Ni, Noveen Sachdeva, Carl Yang, Wei Jin, | (参考訳) グラフ凝縮(GC)は、元のグラフの本質的な情報を保持する、はるかに小さなグラフを学習するために設計された新興技術である。
この凝縮グラフは、元の大きなグラフで達成されたものと同等のパフォーマンスを維持しながら、グラフニューラルネットワークを加速する可能性を示している。
さらに、この手法は、ニューラルネットワーク探索のような下流のアプリケーションを容易にし、大きなグラフにおける冗長性の理解を強化する。
GC手法の急速な開発にもかかわらず、体系的な評価フレームワークはいまだに存在せず、特定の評価面に対する重要な設計を明確にする必要がある。
さらに、GCが特定のグラフ特性を本質的に保存し、ターゲット設計の努力なしに堅牢性を提供するかどうかなど、いくつかの有意義な疑問が研究されていない。
本稿では,最近のGC手法を複数の次元にわたって評価し,新たな洞察を生み出すための総合的なフレームワークであるGC-Benchを紹介する。
実験により,GCプロセスと凝縮グラフの特性についてより深い知見が得られ,性能向上と新しいアプリケーション探索に向けた今後の取り組みを導いた。
私たちのコードは \url{https://github.com/Emory-Melody/GraphSlim/tree/main/benchmark} で利用可能です。
Graph condensation (GC) is an emerging technique designed to learn a significantly smaller graph that retains the essential information of the original graph. This condensed graph has shown promise in accelerating graph neural networks while preserving performance comparable to those achieved with the original, larger graphs. Additionally, this technique facilitates downstream applications such as neural architecture search and enhances our understanding of redundancy in large graphs. Despite the rapid development of GC methods, a systematic evaluation framework remains absent, which is necessary to clarify the critical designs for particular evaluative aspects. Furthermore, several meaningful questions have not been investigated, such as whether GC inherently preserves certain graph properties and offers robustness even without targeted design efforts. In this paper, we introduce GC-Bench, a comprehensive framework to evaluate recent GC methods across multiple dimensions and to generate new insights. Our experimental findings provide a deeper insights into the GC process and the characteristics of condensed graphs, guiding future efforts in enhancing performance and exploring new applications. Our code is available at \url{https://github.com/Emory-Melody/GraphSlim/tree/main/benchmark}. | 翻訳日:2024-06-25 14:15:21 公開日:2024-06-24 |
# オーディオディープフェイク検出のための適応セントロイドシフトを用いたワンクラス学習
One-Class Learning with Adaptive Centroid Shift for Audio Deepfake Detection ( http://arxiv.org/abs/2406.16716v1 ) ライセンス: Link先を確認 | Hyun Myung Kim, Kangwook Jang, Hoirin Kim, | (参考訳) 近年,音声合成システムが目覚ましい進歩を遂げているため,目に見えないシステムでよく機能する堅牢なディープフェイク検出システムの重要性が高まっている。
本稿では,ボナフィド表現の重み付け平均として連続的にシフトすることで,セントロイド表現を更新する適応セントロイドシフト(ACS)手法を提案する。
提案手法では, ボナフィドサンプルのみを用いてセントロイドを定義する。
ACSと一流の学習を統合することで、bonafide表現を単一のクラスタに集約し、未確認のスプーフィング攻撃に対して堅牢な、十分に分離された埋め込みを形成します。
提案手法は,ASVspoof 2021ディープフェイクデータセットにおいて2.19%の誤差率(EER)を達成し,既存の全システムより優れていた。
さらに,本手法は, ボナフィドの埋め込みを単一のクラスタに効果的にマッピングし, ボナフィドとスプーフのクラスをアンタングル化することを示す。
As speech synthesis systems continue to make remarkable advances in recent years, the importance of robust deepfake detection systems that perform well in unseen systems has grown. In this paper, we propose a novel adaptive centroid shift (ACS) method that updates the centroid representation by continually shifting as the weighted average of bonafide representations. Our approach uses only bonafide samples to define their centroid, which can yield a specialized centroid for one-class learning. Integrating our ACS with one-class learning gathers bonafide representations into a single cluster, forming well-separated embeddings robust to unseen spoofing attacks. Our proposed method achieves an equal error rate (EER) of 2.19% on the ASVspoof 2021 deepfake dataset, outperforming all existing systems. Furthermore, the t-SNE visualization illustrates that our method effectively maps the bonafide embeddings into a single cluster and successfully disentangles the bonafide and spoof classes. | 翻訳日:2024-06-25 14:15:21 公開日:2024-06-24 |
# 量子ノイズと$Δ_T$ノイズによるYu-Shiba Rushinov状態の探索
Probing Yu-Shiba Rushinov state via quantum noise and $Δ_T$ noise ( http://arxiv.org/abs/2406.16717v1 ) ライセンス: Link先を確認 | Tusaradri Mohapatra, Sachiraj Mishra, Colin Benjamin, | (参考訳) 最近の注目は、電荷電流が消えるときに$\Delta_T$のノイズが発生する温度勾配である。
この研究は、スピン偏極$\Delta T$ノイズと$\Delta_T$ショットノイズ、$\Delta_T$ホットノイズ、および金属/スピンフリップ/金属/絶縁体/超伝導接合体からなる1次元(1次元)構造における量子ノイズ(ショットノイズと熱ノイズの両方)を併用して、YSR(Yu-Shiba-Rusinov)境界状態を探索する。
超伝導体の超伝導ギャップ内の局在状態であるYSR結合状態はスピンフリップとして働く磁気不純物によって誘導される。
YSR境界状態はマヨラナ境界状態(MBS)と区別されるべきであり、これは超伝導体上の磁気的不純物、例えば磁性原子との相互作用によっても起こりうる。
この作業の主な目的は、YSRバウンドステートにユニークなシグネチャを提供することによって、これを明確化することである。
本稿では、量子ノイズと最近発見された$\Delta_T$ノイズを用いて、特にスピン輸送に焦点を当てたYSR境界状態を効果的に探索できることを示す。
スピン$\Delta_T$ノイズは、YSR境界状態のプローブとしての$\Delta_T$ノイズよりも優れたツールである。
さらに、量子ノイズの解析により、$\Delta_T$ノイズと同様、スピン量子ノイズはYSR境界状態を検出する際の電荷量子ノイズよりも効果的であることが明らかとなった。
Recent attention has been drawn to temperature gradient generated $\Delta_T$ noise at vanishing charge current. This study delves into examining the properties of spin-polarised $\Delta T$ noise in conjunction with $\Delta_T$-shot noise, $\Delta_T$-thermal noise, and quantum noise (again both shot and thermal noise) in a one-dimensional (1D) structure comprising metal/spin-flipper/metal/insulator/superconductor junction to probe Yu-Shiba-Rusinov (YSR) bound states. YSR bound states, which are localized states within the superconducting gap of a superconductor are induced by a magnetic impurity acting as a spin-flipper. A YSR bound state should be distinguished from a Majorana bound state (MBS), which too can occur due to interaction with magnetic impurities, e.g., magnetic adatoms on superconductors, and this can lead to false positives in detecting MBS. Clarifying this by providing a unique signature for the YSR-bound state is the main aim of this work. In this paper, we show that YSR bound states can be effectively probed using quantum noise and the recently discovered $\Delta_T$ noise, with a focus on especially spin transport. We see that the spin $\Delta_T$ noise is a superior tool compared to the charge $\Delta_T$ noise as a probe for YSR bound states. Additionally, our analysis of quantum noise reveals that similar to $\Delta_T$ noise, spin quantum noise is more effective than charge quantum noise in detecting YSR bound states. | 翻訳日:2024-06-25 14:15:21 公開日:2024-06-24 |
# 変圧器からマンバへの航法コンパス
Venturing into Uncharted Waters: The Navigation Compass from Transformer to Mamba ( http://arxiv.org/abs/2406.16722v1 ) ライセンス: Link先を確認 | Yuchen Zou, Yineng Chen, Zuchao Li, Lefei Zhang, Hai Zhao, | (参考訳) ディープニューラルネットワークアーキテクチャであるTransformerは、長年、自然言語処理などの分野を支配してきた。
しかし、最近のマンバの導入は、その優位性に挑戦し、研究者の間でかなりの関心を喚起し、マンバをベースとした一連のモデルが顕著な可能性を示している。
この調査論文は、総合的な議論を組織し、本質的な研究の側面に飛び込み、以下をカバーしている。
i) マンバ機構の機能とその構造的状態空間モデルの原理に基づく基礎
(二) トランスフォーマーの代替としての可能性を探り、様々なネットワークとMambaの統合と改善を提案すること。
三 トランスフォーマーとマンバの組み合わせにより、お互いの欠点を補うこと。
我々はまた、カーネル関数のフレームワークにおいて、MambaとTransformerを解釈し、それらの数学的性質を統一された文脈内で比較できるように努力してきた。
本稿は,現在までのマンバに関する改善の大部分を取り上げている。
Transformer, a deep neural network architecture, has long dominated the field of natural language processing and beyond. Nevertheless, the recent introduction of Mamba challenges its supremacy, sparks considerable interest among researchers, and gives rise to a series of Mamba-based models that have exhibited notable potential. This survey paper orchestrates a comprehensive discussion, diving into essential research dimensions, covering: (i) the functioning of the Mamba mechanism and its foundation on the principles of structured state space models; (ii) the proposed improvements and the integration of Mamba with various networks, exploring its potential as a substitute for Transformers; (iii) the combination of Transformers and Mamba to compensate for each other's shortcomings. We have also made efforts to interpret Mamba and Transformer in the framework of kernel functions, allowing for a comparison of their mathematical nature within a unified context. Our paper encompasses the vast majority of improvements related to Mamba to date. | 翻訳日:2024-06-25 14:15:21 公開日:2024-06-24 |
# μ-Net:μ-CTセグメンテーションのためのディープラーニングベースのアーキテクチャ
μ-Net: A Deep Learning-Based Architecture for μ-CT Segmentation ( http://arxiv.org/abs/2406.16724v1 ) ライセンス: Link先を確認 | Pierangela Bruno, Edoardo De Rose, Carlo Adornetto, Francesco Calimeri, Sandro Donato, Raffaele Giuseppe Agostino, Daniela Amelio, Riccardo Barberi, Maria Carmela Cerra, Maria Caterina Crocco, Mariacristina Filice, Raffaele Filosa, Gianluigi Greco, Sandra Imbrogno, Vincenzo Formoso, | (参考訳) X線計算マイクロトモグラフィー ({\mu}-CT) は、医学および生物学的試料の内部解剖の高解像度な3次元画像を生成する非破壊的手法である。
これらの画像は、臨床医が内部解剖を調べ、疾患や解剖学的形態に関する洞察を得ることを可能にする。
しかし、3D画像から関連情報を抽出するには、通常手作業で行われる関心領域のセマンティックセグメンテーションが必要である。
本研究では、畳み込みニューラルネットワーク(CNN)を用いて、Carassius auratusの心臓の完全な形態を自動分割する新しいフレームワークを提案する。
このフレームワークは、最適化された2D CNNアーキテクチャを用いて、サンプルの3Dセグメンテーションを推測し、3D CNNアーキテクチャの計算コストが高いことを回避している。
我々は,データ正規化と処理のための標準プロトコルを提案することにより,大規模かつ高解像度の画像データ(各次元に1000ピクセル以上)と小さなトレーニングデータベース(3つのサンプルのみ)を扱うという課題に対処する。
さらに, サンプルの雑音, コントラスト, 空間分解能, およびアーキテクチャの訓練が, 入力画像数に依存する再構成手法の影響について検討した。
実験の結果,本フレームワークは新たな試料の分画に要する時間を著しく短縮し,より高速なカラシウス心形態のマイクロトモグラフィー解析を可能にした。
さらに、我々のフレームワークは、高解像度で小さなデータセットサイズで、mu}-CTのあらゆるバイオイメージ(生物学的および医学的)と連携できる。
X-ray computed microtomography ({\mu}-CT) is a non-destructive technique that can generate high-resolution 3D images of the internal anatomy of medical and biological samples. These images enable clinicians to examine internal anatomy and gain insights into the disease or anatomical morphology. However, extracting relevant information from 3D images requires semantic segmentation of the regions of interest, which is usually done manually and results time-consuming and tedious. In this work, we propose a novel framework that uses a convolutional neural network (CNN) to automatically segment the full morphology of the heart of Carassius auratus. The framework employs an optimized 2D CNN architecture that can infer a 3D segmentation of the sample, avoiding the high computational cost of a 3D CNN architecture. We tackle the challenges of handling large and high-resoluted image data (over a thousand pixels in each dimension) and a small training database (only three samples) by proposing a standard protocol for data normalization and processing. Moreover, we investigate how the noise, contrast, and spatial resolution of the sample and the training of the architecture are affected by the reconstruction technique, which depends on the number of input images. Experiments show that our framework significantly reduces the time required to segment new samples, allowing a faster microtomography analysis of the Carassius auratus heart shape. Furthermore, our framework can work with any bio-image (biological and medical) from {\mu}-CT with high-resolution and small dataset size | 翻訳日:2024-06-25 14:15:21 公開日:2024-06-24 |
# CausalMMM:マーケティングミックスモデリングのための因果構造学習
CausalMMM: Learning Causal Structure for Marketing Mix Modeling ( http://arxiv.org/abs/2406.16728v1 ) ライセンス: Link先を確認 | Chang Gong, Di Yao, Lei Zhang, Sheng Chen, Wenbin Li, Yueyang Su, Jingping Bi, | (参考訳) オンライン広告では、ブランドショップの総商品量(GMV)を予測し、意思決定者が様々な広告チャネルの予算配分を調整するのを助けるためにマーケティングミックスモデリング(MMM)が用いられる。
従来のMMM手法は、マーケティングの複雑さを扱うのに失敗することがある。
より優れた予測のために因果構造を符号化しようとする試みもあるが、因果構造が事前に知られ、変更できないという厳密な制限がある。
本稿では,データから解釈可能な因果構造を自動的に発見し,より優れたGMV予測を行う因果MMM問題を定義する。
因果的MMMを実現するためには,(1)因果的異質性 (Causal Heterogeneity) という2つの課題に対処する必要がある。
様々な種類の店舗の因果構造は様々である。
2)マーケティング対応パターン
様々なマーケティング対応パターン、すなわち輸送効果と形状効果が実際に検証されている。
因果的MMMは、異なる店舗の特定の因果的構造を動的に発見する必要があると論じ、その予測は、既知のマーケティング対応パターンに従わなければならない。
そこで本稿では,異なるチャネル間の因果関係を測り,時間的および飽和マーケティングの対応パターンを正規化してGMVを予測するために,Granger因果関係を変動推論フレームワークに統合するCausalMMMを提案する。
大規模な実験により、CausalMMMは5.7%\sim 7.1%の改善した合成データセットにおける因果構造学習の優れた性能を達成できるだけでなく、代表的EコマースプラットフォームにおけるGMV予測結果も向上できることが示された。
In online advertising, marketing mix modeling (MMM) is employed to predict the gross merchandise volume (GMV) of brand shops and help decision-makers to adjust the budget allocation of various advertising channels. Traditional MMM methods leveraging regression techniques can fail in handling the complexity of marketing. Although some efforts try to encode the causal structures for better prediction, they have the strict restriction that causal structures are prior-known and unchangeable. In this paper, we define a new causal MMM problem that automatically discovers the interpretable causal structures from data and yields better GMV predictions. To achieve causal MMM, two essential challenges should be addressed: (1) Causal Heterogeneity. The causal structures of different kinds of shops vary a lot. (2) Marketing Response Patterns. Various marketing response patterns i.e., carryover effect and shape effect, have been validated in practice. We argue that causal MMM needs dynamically discover specific causal structures for different shops and the predictions should comply with the prior known marketing response patterns. Thus, we propose CausalMMM that integrates Granger causality in a variational inference framework to measure the causal relationships between different channels and predict the GMV with the regularization of both temporal and saturation marketing response patterns. Extensive experiments show that CausalMMM can not only achieve superior performance of causal structure learning on synthetic datasets with improvements of 5.7%\sim 7.1%, but also enhance the GMV prediction results on a representative E-commerce platform. | 翻訳日:2024-06-25 14:15:21 公開日:2024-06-24 |
# DESI(Dark Energy Spectroscopic Instrument)におけるリマン破れ銀河分類と赤方偏移回帰のための畳み込みニューラルネットワーク
Convolutional neural network for Lyman break galaxies classification and redshift regression in DESI (Dark Energy Spectroscopic Instrument) ( http://arxiv.org/abs/2406.16730v1 ) ライセンス: Link先を確認 | Julien Taran, | (参考訳) DESIは、4000万個のクエーサーと銀河を5年間にわたって観測し、空の3Dマップを作成するという、画期的な国際プロジェクトです。
この地図は、ダークエネルギーからニュートリノ質量まで、宇宙論の様々な側面を探索することができる。
我々は、DESI、Lyman Break Galaxies (LBGs)によって観察される1つの種類の物体に焦点を当てている。
目的は、スペクトルを用いて実際にLBGであるかどうかを判断し、もしそうなら、赤方偏移と呼ばれる現象を使って地球からの距離を決定することである。
これにより、これらの銀河をDESI 3Dマップ上に配置することができます。
この目的は、QuasarNET(See arXiv:1808.09955)にインスパイアされた畳み込みニューラルネットワーク(CNN)を開発し、同時に分類(LBG型の有無)と回帰タスク(LBGの赤方偏移を決定する)を実行することである。
当初、スペクトルを波長にシフトさせたり、スペクトルにノイズを加えたり、合成スペクトルを加えたりといったデータ拡張技術を使用して、モデルのトレーニングデータセットを3,019データから66,000データに増やした。
第2フェーズでは、転送学習とベイズ最適化によるハイパーパラメータチューニングにより、QuassarNETアーキテクチャの変更によりモデル性能が向上した。
特に興味深い赤方偏移のある地域では、低(約2回)、高(約4回)の赤方偏移でモデル性能を評価するために使用される純度/効率曲線で最大26%のゲインが達成された。
ベストモデルの平均スコアは94%で、初期モデルでは75%だった。
DESI is a groundbreaking international project to observe more than 40 million quasars and galaxies over a 5-year period to create a 3D map of the sky. This map will enable us to probe multiple aspects of cosmology, from dark energy to neutrino mass. We are focusing here on one type of object observed by DESI, the Lyman Break Galaxies (LBGs). The aim is to use their spectra to determine whether they are indeed LBGs, and if so, to determine their distance from the Earth using a phenomenon called redshift. This will enable us to place these galaxies on the DESI 3D map. The aim is therefore to develop a convolutional neural network (CNN) inspired by QuasarNET (See arXiv:1808.09955), performing simultaneously a classification (LBG type or not) and a regression task (determine the redshift of the LBGs). Initially, data augmentation techniques such as shifting the spectra in wavelengths, adding noise to the spectra, or adding synthetic spectra were used to increase the model training dataset from 3,019 data to over 66,000. In a second phase, modifications to the QuasarNET architecture, notably through transfer learning and hyperparameter tuning with Bayesian optimization, boosted model performance. Gains of up to 26% were achieved on the Purity/Efficiency curve, which is used to evaluate model performance, particularly in areas with interesting redshifts, at low (around 2) and high (around 4) redshifts. The best model obtained an average score of 94%, compared with 75% for the initial model. | 翻訳日:2024-06-25 14:15:21 公開日:2024-06-24 |
# CLIMATELI: 気候変動データに基づくエンティティリンクの評価
CLIMATELI: Evaluating Entity Linking on Climate Change Data ( http://arxiv.org/abs/2406.16732v1 ) ライセンス: Link先を確認 | Shijia Zhou, Siyao Peng, Barbara Plank, | (参考訳) 気候変動(CC)は、社会科学から自然言語処理(NLP)まで、研究分野に注目が集まっている。
CCはまた、学術出版物からソーシャルメディアフォーラムまで、様々な設定やコミュニケーションプラットフォームで議論されている。
このようなデータで言及されている誰と何を理解することは、CCに対する新たな洞察を得るための最初の重要なステップである。
今回,CLIMATELI(CLIMATe Entity LInking)について紹介する。
CLIMATELI(CLIMATe Entity Linking)を用いて,CCトピック上の既存のエンティティリンク(EL)システムの評価を行い,CCエンティティの自動フィルタリング手法を提案する。
ELモデルの性能はトークンレベルとエンティティレベルの両方で人間に遅れていることが判明した。
非nominalおよび/または非CCエンティティの保持または除外の範囲内でのテストは、特にモデルのパフォーマンスに影響を与える。
Climate Change (CC) is a pressing topic of global importance, attracting increasing attention across research fields, from social sciences to Natural Language Processing (NLP). CC is also discussed in various settings and communication platforms, from academic publications to social media forums. Understanding who and what is mentioned in such data is a first critical step to gaining new insights into CC. We present CLIMATELI (CLIMATe Entity LInking), the first manually annotated CC dataset that links 3,087 entity spans to Wikipedia. Using CLIMATELI (CLIMATe Entity LInking), we evaluate existing entity linking (EL) systems on the CC topic across various genres and propose automated filtering methods for CC entities. We find that the performance of EL models notably lags behind humans at both token and entity levels. Testing within the scope of retaining or excluding non-nominal and/or non-CC entities particularly impacts the models' performances. | 翻訳日:2024-06-25 14:15:21 公開日:2024-06-24 |
# LLMに基づく判定におけるグループフェアネスの誘導
Inducing Group Fairness in LLM-Based Decisions ( http://arxiv.org/abs/2406.16738v1 ) ライセンス: Link先を確認 | James Atwood, Preethi Lahoti, Ananth Balashankar, Flavien Prost, Ahmad Beirami, | (参考訳) Prompting Large Language Models (LLMs) は、テキストデータを分類する新しい、興味深い手段を生み出した。
群フェアネスの評価と更新は、分類器フェアネス文学においてよく研究されている問題であるが、古典的なアプローチ(例:正規化)は継続せず、いくつかの新しい機会(例:プロンプトベースの修復)が生じる。
毒性分類タスクにおけるLCMに基づく分類器の公平性を測定し,プロンプトに基づく分類器が不公平な判断につながることを実証的に示す。
いくつかの修復手法を導入し、公平さとパフォーマンスのトレードオフをベンチマークします。
LLMに基づく分類器におけるグループフェアネスの研究が促進されることを願っている。
Prompting Large Language Models (LLMs) has created new and interesting means for classifying textual data. While evaluating and remediating group fairness is a well-studied problem in classifier fairness literature, some classical approaches (e.g., regularization) do not carry over, and some new opportunities arise (e.g., prompt-based remediation). We measure fairness of LLM-based classifiers on a toxicity classification task, and empirically show that prompt-based classifiers may lead to unfair decisions. We introduce several remediation techniques and benchmark their fairness and performance trade-offs. We hope our work encourages more research on group fairness in LLM-based classifiers. | 翻訳日:2024-06-25 14:15:21 公開日:2024-06-24 |
# エージェント駆動自動ソフトウェアの改善
Agent-Driven Automatic Software Improvement ( http://arxiv.org/abs/2406.16739v1 ) ライセンス: Link先を確認 | Fernando Vallecillos Ruiz, | (参考訳) ソフトウェアメンテナンスがソフトウェア開発コストの50%を占めるようになると、コード品質と信頼性の向上がこれまで以上に重要になっています。
この課題に対応するために、この博士研究提案は、ソフトウェアメンテナンスタスクを実行するために、LLM(Large Language Models)を利用したエージェントの配置に焦点を当て、革新的なソリューションを探求することを目的としている。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
ひとつ大きな課題は、機能的およびコンテキスト的に関連付けられたコードを生成する最終段階でのエラーである。
さらに、このプロジェクトは、エージェントが互いのエラーを訂正し、学習できる協調フレームワークを通じて、ソースコードにおける現在のLLMの固有の制限を克服することを目的としている。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの裏にあるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
私たちの主な目標は、ソフトウェア開発の効率性と信頼性を高める新しいツールとフレームワークを開発することで、自動ソフトウェア改善の分野における飛躍的な進歩を達成することです。
With software maintenance accounting for 50% of the cost of developing software, enhancing code quality and reliability has become more critical than ever. In response to this challenge, this doctoral research proposal aims to explore innovative solutions by focusing on the deployment of agents powered by Large Language Models (LLMs) to perform software maintenance tasks. The iterative nature of agents, which allows for continuous learning and adaptation, can help surpass common challenges in code generation. One distinct challenge is the last-mile problems, errors at the final stage of producing functionally and contextually relevant code. Furthermore, this project aims to surpass the inherent limitations of current LLMs in source code through a collaborative framework where agents can correct and learn from each other's errors. We aim to use the iterative feedback in these systems to further fine-tune the LLMs underlying the agents, becoming better aligned to the task of automated software improvement. Our main goal is to achieve a leap forward in the field of automatic software improvement by developing new tools and frameworks that can enhance the efficiency and reliability of software development. | 翻訳日:2024-06-25 14:15:21 公開日:2024-06-24 |
# 偏微分方程式に対するリフティング積フーリエニューラル演算子を用いた境界-領域マッピングの学習
Learning the boundary-to-domain mapping using Lifting Product Fourier Neural Operators for partial differential equations ( http://arxiv.org/abs/2406.16740v1 ) ライセンス: Link先を確認 | Aditya Kashi, Arka Daw, Muralikrishnan Gopalakrishnan Meena, Hao Lu, | (参考訳) フーリエニューラル演算子(FNO)のようなニューラル演算子は、関数空間間のマッピングを学習する解像度に依存しないディープラーニングモデルを提供することが示されている。
例えば、初期条件は、ニューラル作用素を用いて将来の時間ステップで偏微分方程式(PDE)の解にマッピングすることができる。
ニューラル作用素の人気にもかかわらず、境界上のデータ(空間的に変化するディリクレ境界条件など)のみを与えられた領域上での解関数の予測には未探索のままである。
本稿では,境界領域間問題,流体力学,固体力学,熱伝達などの分野に幅広く応用されている問題について述べる。
我々は、低次元境界上で定義された任意の境界関数を領域全体の解にマッピングできる新しいFNOベースのアーキテクチャ、Lifting Product FNO(LP-FNO)を提案する。
具体的には,低次元境界上に定義された2つのFNOを,提案した昇降積層を用いて高次元領域に持ち上げる。
2次元ポアソン方程式に対して提案したLP-FNOの有効性と分解能の独立性を実証する。
Neural operators such as the Fourier Neural Operator (FNO) have been shown to provide resolution-independent deep learning models that can learn mappings between function spaces. For example, an initial condition can be mapped to the solution of a partial differential equation (PDE) at a future time-step using a neural operator. Despite the popularity of neural operators, their use to predict solution functions over a domain given only data over the boundary (such as a spatially varying Dirichlet boundary condition) remains unexplored. In this paper, we refer to such problems as boundary-to-domain problems; they have a wide range of applications in areas such as fluid mechanics, solid mechanics, heat transfer etc. We present a novel FNO-based architecture, named Lifting Product FNO (or LP-FNO) which can map arbitrary boundary functions defined on the lower-dimensional boundary to a solution in the entire domain. Specifically, two FNOs defined on the lower-dimensional boundary are lifted into the higher dimensional domain using our proposed lifting product layer. We demonstrate the efficacy and resolution independence of the proposed LP-FNO for the 2D Poisson equation. | 翻訳日:2024-06-25 14:15:21 公開日:2024-06-24 |
# トランスを用いたエネルギー材料の薄膜構造抽出
Extracting thin film structures of energy materials using transformers ( http://arxiv.org/abs/2406.16741v1 ) ライセンス: Link先を確認 | Chen Zhang, Valerie A. Niemann, Peter Benedek, Thomas F. Jaramillo, Mathieu Doucet, | (参考訳) 中性子・変圧器反射率と高度計算エンジン (N-TRACE) は, 中性子反射率データ解析のためのニューラルネットワークモデルである。
高速で正確な初期パラメータ推定と効率的な改善、リチウムを介する窒素還元のリアルタイムなデータ分析の効率と精度の向上、電気化学アンモニア合成、その他の化学変換や電池との関連性を提供する。
システム全体の一般化の制限にもかかわらず、リフレクションメトリデータをモデリングするための試行錯誤アプローチを置き換えるモデルの基礎として、トランスフォーマーを使用することが約束されている。
Neutron-Transformer Reflectometry and Advanced Computation Engine (N-TRACE ), a neural network model using transformer architecture, is introduced for neutron reflectometry data analysis. It offers fast, accurate initial parameter estimations and efficient refinements, improving efficiency and precision for real-time data analysis of lithium-mediated nitrogen reduction for electrochemical ammonia synthesis, with relevance to other chemical transformations and batteries. Despite limitations in generalizing across systems, it shows promises for the use of transformers as the basis for models that could replace trial-and-error approaches to modeling reflectometry data. | 翻訳日:2024-06-25 14:15:21 公開日:2024-06-24 |
# 対数コントラストデコーディング: 対数プロンプト最適化による大規模言語モデルの安全性アライメント向上
Adversarial Contrastive Decoding: Boosting Safety Alignment of Large Language Models via Opposite Prompt Optimization ( http://arxiv.org/abs/2406.16743v1 ) ライセンス: Link先を確認 | Zhengyue Zhao, Xiaoyun Zhang, Kaidi Xu, Xing Hu, Rui Zhang, Zidong Du, Qi Guo, Yunji Chen, | (参考訳) LLM(Large Language Models)の広範な適用により、安全性の確保と有害な応答の防止が重要な関心事となっている。
命令微調整と人間フィードバックからの強化学習(RLHF)に基づく現在の安全な調整手法は、LLMからの有害な応答を効果的に低減することができるが、モデルトレーニング中に高品質なデータセットと重い計算オーバーヘッドを必要とすることが多い。
言語モデルを整合させる別の方法は、重いトレーニングをすることなく、モデルの出力でトークンのロジットを変更することである。
近年の研究では、コントラスト復号化は、混同トークンの可能性を低減し、言語モデルの性能を向上させることが示されている。
しかし、これらの手法は対照的なモデルや命令テンプレートを手動で選択する必要がある。
そこで本稿では,ACD(Adversarial Contrastive Decoding)を提案する。
ACDはターゲットモデルをトレーニングすることなく、比較的小さなアンカーデータセット(各モデルで3分)に軽量なプロンプトチューニングを適用する必要がある。
大規模なモデルおよびベンチマーク実験により,提案手法は,元の生成能力を犠牲にすることなく,従来モデルのトレーニング不要復号法よりもはるかに優れた安全性を実現することを示した。
With the widespread application of Large Language Models (LLMs), it has become a significant concern to ensure their safety and prevent harmful responses. While current safe-alignment methods based on instruction fine-tuning and Reinforcement Learning from Human Feedback (RLHF) can effectively reduce harmful responses from LLMs, they often require high-quality datasets and heavy computational overhead during model training. Another way to align language models is to modify the logit of tokens in model outputs without heavy training. Recent studies have shown that contrastive decoding can enhance the performance of language models by reducing the likelihood of confused tokens. However, these methods require the manual selection of contrastive models or instruction templates. To this end, we propose Adversarial Contrastive Decoding (ACD), an optimization-based framework to generate two opposite system prompts for prompt-based contrastive decoding. ACD only needs to apply a lightweight prompt tuning on a rather small anchor dataset (< 3 min for each model) without training the target model. Experiments conducted on extensive models and benchmarks demonstrate that the proposed method achieves much better safety performance than previous model training-free decoding methods without sacrificing its original generation ability. | 翻訳日:2024-06-25 14:15:21 公開日:2024-06-24 |
# 優先順位フィードバックによるバンド:Stackelbergのゲームパースペクティブ
Bandits with Preference Feedback: A Stackelberg Game Perspective ( http://arxiv.org/abs/2406.16745v1 ) ライセンス: Link先を確認 | Barna Pásztor, Parnian Kassraie, Andreas Krause, | (参考訳) 嗜好フィードバックを持つ帯域は、直接値クエリの代わりにペア比較が許される場合にのみ、未知のターゲット関数を最適化する強力なツールを提供する。
このモデルは、人間のフィードバックをオンライン推論と最適化に組み込むことができ、大規模な言語モデルを微調整するためのシステムに採用されている。
この問題は、線形対象関数の単純化された設定や、実用的関心を制限する有限小領域においてよく理解されている。
次のステップとして、無限の領域と非線形(カーネル化された)報酬を考える。
この設定では、一対のアクションを選択することは極めて困難であり、探索と搾取のバランスをとる必要がある。
本稿では,このトレードオフをゼロサムのStackelbergゲームとしてエミュレートしたMAXMINLCBを提案する。
MAXMINLCBは、既存のアルゴリズムを一貫して上回り、常に有意な速度-最適後悔の保証を満たす。
これは、カーネル化されたロジスティック推定器のための新しい嗜好に基づく信頼シーケンスが原因である。
Bandits with preference feedback present a powerful tool for optimizing unknown target functions when only pairwise comparisons are allowed instead of direct value queries. This model allows for incorporating human feedback into online inference and optimization and has been employed in systems for fine-tuning large language models. The problem is well understood in simplified settings with linear target functions or over finite small domains that limit practical interest. Taking the next step, we consider infinite domains and nonlinear (kernelized) rewards. In this setting, selecting a pair of actions is quite challenging and requires balancing exploration and exploitation at two levels: within the pair, and along the iterations of the algorithm. We propose MAXMINLCB, which emulates this trade-off as a zero-sum Stackelberg game, and chooses action pairs that are informative and yield favorable rewards. MAXMINLCB consistently outperforms existing algorithms and satisfies an anytime-valid rate-optimal regret guarantee. This is due to our novel preference-based confidence sequences for kernelized logistic estimators. | 翻訳日:2024-06-25 14:05:36 公開日:2024-06-24 |
# Responsible Foundation Model Development Cheatsheet: ツールとリソースのレビュー
The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources ( http://arxiv.org/abs/2406.16746v1 ) ライセンス: Link先を確認 | Shayne Longpre, Stella Biderman, Alon Albalak, Hailey Schoelkopf, Daniel McDuff, Sayash Kapoor, Kevin Klyman, Kyle Lo, Gabriel Ilharco, Nay San, Maribeth Rauh, Aviya Skowron, Bertie Vidgen, Laura Weidinger, Arvind Narayanan, Victor Sanh, David Adelani, Percy Liang, Rishi Bommasani, Peter Henderson, Sasha Luccioni, Yacine Jernite, Luca Soldaini, | (参考訳) ファンデーションモデル開発は、急速に成長するコントリビュータ、科学者、アプリケーションを引き付けている。
私たちは、責任ある開発プラクティスを形作るのに役立つために、Foundation Model Development Cheatsheetを紹介します。
私たちは、インフォームドデータの選択、処理、理解、正確で制限対応のアーティファクトドキュメント、効率的なモデルトレーニング、トレーニングからの環境影響の認識の促進、能力、リスク、クレームの慎重なモデル評価、責任あるモデルリリース、ライセンス、デプロイメントプラクティスをサポートするリソース(ソフトウェア、ドキュメント、フレームワーク、ガイド、実用的なツールなど)を調査するための、多くの事前作業に取り組んでいます。
このキュレートされたリソースの収集が、より責任ある開発を導くのに役立つことを願っています。
このリストをキュレートするプロセスにより、AI開発エコシステムをレビューし、既存のプラクティスに欠落しているツール、誤用、あるいは過剰使用されているツールを明らかにしました。
私たちはそれを見つける。
(i)データソーシング、モデル評価、モニタリングのためのツールは、倫理的・現実的なニーズに過小評価されている。
(二)モデル安全性、能力、環境影響の評価には再現性と透明性が欠如している。
三 テキスト、特に英語を中心とした分析が多言語・多モーダル分析に支配され続けていること。
(4)単にモデルではなくシステムの評価が必要であり、その能力と影響が文脈で評価される。
Foundation model development attracts a rapidly expanding body of contributors, scientists, and applications. To help shape responsible development practices, we introduce the Foundation Model Development Cheatsheet: a growing collection of 250+ tools and resources spanning text, vision, and speech modalities. We draw on a large body of prior work to survey resources (e.g. software, documentation, frameworks, guides, and practical tools) that support informed data selection, processing, and understanding, precise and limitation-aware artifact documentation, efficient model training, advance awareness of the environmental impact from training, careful model evaluation of capabilities, risks, and claims, as well as responsible model release, licensing and deployment practices. We hope this curated collection of resources helps guide more responsible development. The process of curating this list, enabled us to review the AI development ecosystem, revealing what tools are critically missing, misused, or over-used in existing practices. We find that (i) tools for data sourcing, model evaluation, and monitoring are critically under-serving ethical and real-world needs, (ii) evaluations for model safety, capabilities, and environmental impact all lack reproducibility and transparency, (iii) text and particularly English-centric analyses continue to dominate over multilingual and multi-modal analyses, and (iv) evaluation of systems, rather than just models, is needed so that capabilities and impact are assessed in context. | 翻訳日:2024-06-25 14:05:36 公開日:2024-06-24 |
# Sparserはより速く、より少ない:ロングレンジトランスフォーマーのための効率的なスパースアテンション
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers ( http://arxiv.org/abs/2406.16747v1 ) ライセンス: Link先を確認 | Chao Lou, Zixia Jia, Zilong Zheng, Kewei Tu, | (参考訳) 自己回帰変換器において、特に拡張されたコンテキストウィンドウ内で、長いシーケンスを効率的に調整することは、2次計算の複雑さと、自己保持機構に固有のKVメモリ要求が原因で大きな課題を生じさせる。
本研究では,これらの計算およびメモリ障害を克服し,性能を維持しつつ,新たな注意機構であるSPARSEK Attentionを導入する。
提案手法は,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合し,勾配に基づく最適化を実現する。
その結果、SPARSEK Attentionは線形時間複雑性と生成時のメモリフットプリントを一定にする。
実験結果から,SPARSEK Attention は従来のスパースアテンション手法よりも優れており,特に言語モデリングや下流タスクにおいて,トレーニングと推論の双方において大幅な速度向上を実現していることが明らかとなった。
さらに,本手法は学習済みのLarge Language Model(LLM)に最小限の微調整でシームレスに統合することができ,多様なアプリケーションにおける長距離依存性を効果的に管理するための実用的なソリューションを提供する。
Accommodating long sequences efficiently in autoregressive Transformers, especially within an extended context window, poses significant challenges due to the quadratic computational complexity and substantial KV memory requirements inherent in self-attention mechanisms. In this work, we introduce SPARSEK Attention, a novel sparse attention mechanism designed to overcome these computational and memory obstacles while maintaining performance. Our approach integrates a scoring network and a differentiable top-k mask operator, SPARSEK, to select a constant number of KV pairs for each query, thereby enabling gradient-based optimization. As a result, SPARSEK Attention offers linear time complexity and constant memory footprint during generation. Experimental results reveal that SPARSEK Attention outperforms previous sparse attention methods and provides significant speed improvements during both training and inference, particularly in language modeling and downstream tasks. Furthermore, our method can be seamlessly integrated into pre-trained Large Language Models (LLMs) with minimal fine-tuning, offering a practical solution for effectively managing long-range dependencies in diverse applications. | 翻訳日:2024-06-25 14:05:36 公開日:2024-06-24 |
# OCALM:言語モデルを用いたオブジェクト指向評価
OCALM: Object-Centric Assessment with Language Models ( http://arxiv.org/abs/2406.16748v1 ) ライセンス: Link先を確認 | Timo Kaufmann, Jannis Blüml, Antonia Wüst, Quentin Delfosse, Kristian Kersting, Eyke Hüllermeier, | (参考訳) 強化学習(RL)エージェントを効率的に訓練するための報奨信号の適切な定義は難しい課題である。
望ましい振る舞いが現れるようなバランスのとれた客観的関数の設計には、特に複雑な環境において専門的な知識が必要である。
人間のフィードバックから報酬を学び、あるいは大きな言語モデル(LLM)を使って報酬を直接提供することは有望な代替手段であり、非専門家がエージェントの目標を指定できるようにする。
しかし、ブラックボックスの報酬モデルでは報酬のデバッグが困難になる。
本研究では,言語モデルを用いたオブジェクト指向アセスメント(OCALM)を提案し,自然言語タスク記述からRLエージェントに対する固有解釈可能な報酬関数を導出する。
OCALMはLLMの広範な世界知識を使用し、多くの環境に共通するオブジェクト中心の性質を活用して、リレーショナルな概念に焦点を当てた報酬関数を導出し、RLエージェントにタスク記述からポリシーを導出する機能を提供する。
Properly defining a reward signal to efficiently train a reinforcement learning (RL) agent is a challenging task. Designing balanced objective functions from which a desired behavior can emerge requires expert knowledge, especially for complex environments. Learning rewards from human feedback or using large language models (LLMs) to directly provide rewards are promising alternatives, allowing non-experts to specify goals for the agent. However, black-box reward models make it difficult to debug the reward. In this work, we propose Object-Centric Assessment with Language Models (OCALM) to derive inherently interpretable reward functions for RL agents from natural language task descriptions. OCALM uses the extensive world-knowledge of LLMs while leveraging the object-centric nature common to many environments to derive reward functions focused on relational concepts, providing RL agents with the ability to derive policies from task descriptions. | 翻訳日:2024-06-25 14:05:36 公開日:2024-06-24 |
# 確率的低ランクリカレントニューラルネットワークのニューラルネットワークによる推定
Inferring stochastic low-rank recurrent neural networks from neural data ( http://arxiv.org/abs/2406.16749v1 ) ライセンス: Link先を確認 | Matthijs Pals, A Erdem Sağtekin, Felix Pei, Manuel Gloeckler, Jakob H Macke, | (参考訳) 計算神経科学における中心的な目的は、多くのニューロンの活動と基礎となる力学系を関連付けることである。
これらのニューラルダイナミクスのモデルは、理想的には解釈可能であり、観測されたデータによく適合する。
低ランクリカレントニューラルネットワーク(RNN)は、トラクタブルダイナミクスを持つことにより、そのような解釈可能性を示す。
しかし、基礎となる確率システムのノイズの多い観測から得られるデータに対して、低ランクのRNNを最適に適合させる方法は不明である。
本稿では,確率的低ランクRNNをモンテカルロ変分法に適合させる手法を提案する。
連続的およびスパイク的なニューラルデータからなる複数のデータセット上で本手法の有効性を検証する。
さらに, 片方向線形非線形性を持つ低ランクモデルに対しては, 単位数の指数的コストではなく, 多項式のすべての固定点を効率的に同定する方法を示し, 大規模RNNに対して抽出可能な推論力学の解析を行う。
本手法は, 実験記録に基づく力学系を解明し, トラジェクトリが試験と臨床の変動に一致した生成モデルを提供する。
A central aim in computational neuroscience is to relate the activity of large populations of neurons to an underlying dynamical system. Models of these neural dynamics should ideally be both interpretable and fit the observed data well. Low-rank recurrent neural networks (RNNs) exhibit such interpretability by having tractable dynamics. However, it is unclear how to best fit low-rank RNNs to data consisting of noisy observations of an underlying stochastic system. Here, we propose to fit stochastic low-rank RNNs with variational sequential Monte Carlo methods. We validate our method on several datasets consisting of both continuous and spiking neural data, where we obtain lower dimensional latent dynamics than current state of the art methods. Additionally, for low-rank models with piecewise linear nonlinearities, we show how to efficiently identify all fixed points in polynomial rather than exponential cost in the number of units, making analysis of the inferred dynamics tractable for large RNNs. Our method both elucidates the dynamical systems underlying experimental recordings and provides a generative model whose trajectories match observed trial-to-trial variability. | 翻訳日:2024-06-25 14:05:36 公開日:2024-06-24 |
# アラビア方言のゼロショットテキスト音声化に向けて
Towards Zero-Shot Text-To-Speech for Arabic Dialects ( http://arxiv.org/abs/2406.16751v1 ) ライセンス: Link先を確認 | Khai Duy Doan, Abdul Waheed, Muhammad Abdul-Mageed, | (参考訳) ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。
このギャップに対処するアラビア語は、4億5000万人以上の母語話者の言語で、まず、音声合成のニーズに合う大きさの既存のデータセットを適用します。
さらに、アラビア語の方言識別モデルを用いて、事前定義された方言ラベルが多方言環境でのZS-TTSモデルの改善に与える影響を探索する。
XTTS\footnote{https://docs.coqui.ai/en/latest/models/xtts.html}\footnote{https://medium.com/machine-learns/xtts-v2-new-version-of-the-open-source-text-to-speech-model-af7391 4db81f}\footnote{https://medium.com/@erogol/xtts-v1-techincal-notes-eb83ff05bdc} は、オープンソースのアーキテクチャである。
次に、31人の未確認話者と、社内の方言データセットからなるデータセット上で、我々のモデルを評価した。
自動評価と人的評価の結果は、方言音声を生成でき、説得力のある性能を示す。
我々の研究は、アラビア語におけるこの新たな研究領域の改善の可能性を強調している。
Zero-shot multi-speaker text-to-speech (ZS-TTS) systems have advanced for English, however, it still lags behind due to insufficient resources. We address this gap for Arabic, a language of more than 450 million native speakers, by first adapting a sizeable existing dataset to suit the needs of speech synthesis. Additionally, we employ a set of Arabic dialect identification models to explore the impact of pre-defined dialect labels on improving the ZS-TTS model in a multi-dialect setting. Subsequently, we fine-tune the XTTS\footnote{https://docs.coqui.ai/en/latest/models/xtts.html}\footnote{https://medium.com/machine-learns/xtts-v2-new-version-of-the-open-source-text-to-speech-model-af7391 4db81f}\footnote{https://medium.com/@erogol/xtts-v1-techincal-notes-eb83ff05bdc} model, an open-source architecture. We then evaluate our models on a dataset comprising 31 unseen speakers and an in-house dialectal dataset. Our automated and human evaluation results show convincing performance while capable of generating dialectal speech. Our study highlights significant potential for improvements in this emerging area of research in Arabic. | 翻訳日:2024-06-25 14:05:36 公開日:2024-06-24 |
# 診断用MRIスキャナー:画像レスアクティブサンプリング
The MRI Scanner as a Diagnostic: Image-less Active Sampling ( http://arxiv.org/abs/2406.16754v1 ) ライセンス: Link先を確認 | Yuning Du, Rohan Dharmakumar, Sotirios A. Tsaftaris, | (参考訳) MRIの診断精度が高いにもかかわらず、MRIをPOC(Point-of-Care)疾患識別ツールとして用いると、高磁場強度と長い取得時間の使用により、アクセシビリティーに重大な課題が生じる。
画像再構成を割引しながら、(自動)下流意思決定タスクに従って、取得したサンプルを患者レベルで動的に最適化できるのか?
そこで我々は, 患者レベルにおいて, k空間のアンサンプから疾患を直接推測するために, 強化学習を通じて, 能動的サンプリング戦略を学習するMLベースのフレームワークを提案する。
我々は,Meniscus Tearをアンダーサンプル膝MRIデータで推定し,全サンプルk空間データを用いてMLによる診断に匹敵する診断性能を得られた。
タスク固有のサンプリングポリシーを分析し、アクティブサンプリングアプローチの適応性を示す。
導入されたフラガアルサンプリング戦略は、MRIベースのPOC疾患の診断と関連する事前スクリーニングツールの生存性を高めるために、高磁場強度要求を低減できる可能性がある。
Despite the high diagnostic accuracy of Magnetic Resonance Imaging (MRI), using MRI as a Point-of-Care (POC) disease identification tool poses significant accessibility challenges due to the use of high magnetic field strength and lengthy acquisition times. We ask a simple question: Can we dynamically optimise acquired samples, at the patient level, according to an (automated) downstream decision task, while discounting image reconstruction? We propose an ML-based framework that learns an active sampling strategy, via reinforcement learning, at a patient-level to directly infer disease from undersampled k-space. We validate our approach by inferring Meniscus Tear in undersampled knee MRI data, where we achieve diagnostic performance comparable with ML-based diagnosis, using fully sampled k-space data. We analyse task-specific sampling policies, showcasing the adaptability of our active sampling approach. The introduced frugal sampling strategies have the potential to reduce high field strength requirements that in turn strengthen the viability of MRI-based POC disease identification and associated preliminary screening tools. | 翻訳日:2024-06-25 14:05:36 公開日:2024-06-24 |
# 変形予測におけるポラリゼーションと不公平の対応
Addressing Polarization and Unfairness in Performative Prediction ( http://arxiv.org/abs/2406.16756v1 ) ライセンス: Link先を確認 | Kun Jin, Tian Xie, Yang Liu, Xueru Zhang, | (参考訳) 機械学習(ML)モデルが人間を含むアプリケーション(オンラインレコメンデーション、学校の入学、雇用、貸与など)で使用される場合、モデル自体が予測対象データの分布の変化を引き起こす可能性がある。
Performative Prediction (PP) は、MLモデルを学ぶ際に、そのようなモデル依存の分散シフトを明示的に考慮するフレームワークである。
システムロバストネスに対するPPにおけるパフォーマンス安定(PS)ソリューションの発見に多大な努力が注がれているが、その社会的含意は明らかにされておらず、公平性のような社会規範にPSソリューションが適合しているかどうかは不明である。
本稿では,PSソリューションの公平性について,性能予測において検討した。
まずPS解が重大偏光効果とグループワイズ損失の相違を生じさせることを示す。
文献で一般的に使われている既存の公平性メカニズムは不公平性を緩和するのに役立つが、それらは失敗し、モデル依存の分布シフトの下で安定性を損なう可能性がある。
そこで本研究では,PP設定における安定性と公平性を両立できる新しい公正介入機構を提案する。
提案手法を検証するために理論的解析と実験を行った。
When machine learning (ML) models are used in applications that involve humans (e.g., online recommendation, school admission, hiring, lending), the model itself may trigger changes in the distribution of targeted data it aims to predict. Performative prediction (PP) is a framework that explicitly considers such model-dependent distribution shifts when learning ML models. While significant efforts have been devoted to finding performative stable (PS) solutions in PP for system robustness, their societal implications are less explored and it is unclear whether PS solutions are aligned with social norms such as fairness. In this paper, we set out to examine the fairness property of PS solutions in performative prediction. We first show that PS solutions can incur severe polarization effects and group-wise loss disparity. Although existing fairness mechanisms commonly used in literature can help mitigate unfairness, they may fail and disrupt the stability under model-dependent distribution shifts. We thus propose novel fairness intervention mechanisms that can simultaneously achieve both stability and fairness in PP settings. Both theoretical analysis and experiments are provided to validate the proposed method. | 翻訳日:2024-06-25 14:05:36 公開日:2024-06-24 |
# 高速多言語LLM推論に向けて:投機的復号化と特化推論
Towards Fast Multilingual LLM Inference: Speculative Decoding and Specialized Drafters ( http://arxiv.org/abs/2406.16758v1 ) ライセンス: Link先を確認 | Euiin Yi, Taehyeon Kim, Hongseok Jeung, Du-Seong Chang, Se-Young Yun, | (参考訳) 大規模言語モデル(LLM)は自然言語処理に革命をもたらし、様々な商用アプリケーションに応用範囲を広げている。
しかし、これらのモデルの展開は多言語設定における高い推論時間によって制約される。
この課題を軽減するため,本論文では,投機的復号化におけるアシスタントモデルのトレーニングレシピについて検討し,将来のトークンを目標LLMで検証する。
言語固有のドラフトモデルは,対象とする事前訓練とファイントゥン戦略によって最適化され,従来の手法に比べて推論時間の大幅に短縮されることを示す。
予測時間,領域外高速化,GPT-4o 評価において,これらのモデルを様々な言語で検証する。
Large language models (LLMs) have revolutionized natural language processing and broadened their applicability across diverse commercial applications. However, the deployment of these models is constrained by high inference time in multilingual settings. To mitigate this challenge, this paper explores a training recipe of an assistant model in speculative decoding, which are leveraged to draft and-then its future tokens are verified by the target LLM. We show that language-specific draft models, optimized through a targeted pretrain-and-finetune strategy, substantially brings a speedup of inference time compared to the previous methods. We validate these models across various languages in inference time, out-of-domain speedup, and GPT-4o evaluation. | 翻訳日:2024-06-25 14:05:36 公開日:2024-06-24 |
# P-Bi-Immune promiseBQP-Complete Languages
Extensively Not P-Bi-Immune promiseBQP-Complete Languages ( http://arxiv.org/abs/2406.16764v1 ) ライセンス: Link先を確認 | Andrew Jackson, | (参考訳) 本稿では、まず、古典的にシミュレートできる決定問題を決定するために量子回路をシミュレートする無限のインスタンスの存在を、ゴッテマン・クニルの定理以外の方法によって確立する。
次に、量子回路のどの制限の下で、無限に多くの古典的にシミュレート可能なインスタンスが存在するかを調べる。
このような制約は多数あり、古典的にシミュレート可能な無限集合を排除せずに、それらの組み合わせを同時に適用することができる。
これに使われるツールのさらなる分析は、すべての(プロミーズ)BQP言語が1対1で再現可能な言語が存在することを示している。
この言語は、非常に多くの約束の下ではP-bi免疫ではない。
In this paper, I first establish -- via methods other than the Gottesman-Knill theorem -- the existence of an infinite set of instances of simulating a quantum circuit to decide a decision problem that can be simulated classically. I then examine under what restrictions on quantum circuits the existence of infinitely many classically simulable instances persists. There turns out to be a vast number of such restrictions, and any combination of those found can be applied at the same time without eliminating the infinite set of classically simulable instances. Further analysis of the tools used in this then shows there exists a language that every (promise) BQP language is one-one reducible to. This language is also not P-bi-immune under very many promises. | 翻訳日:2024-06-25 14:05:36 公開日:2024-06-24 |
# 成分交換性をもつコンフォーマル時系列分解
Conformal time series decomposition with component-wise exchangeability ( http://arxiv.org/abs/2406.16766v1 ) ライセンス: Link先を確認 | Derck W. E. Prinzhorn, Thijmen Nijdam, Putri A. van der Linden, Alexander Timans, | (参考訳) コンフォーマル予測は、分散のない不確実性定量化のための実践的なフレームワークを提供し、データ交換可能性に関する比較的軽度な仮定の下で有限サンプルカバレッジ保証を提供する。
しかし、これらの仮定は時間的に相関した性質のために時系列を保たない。
本稿では,時系列の分解を取り入れた時系列予測における共形予測の新たな利用法を提案する。
このアプローチは、異なる時間的コンポーネントを個別にモデル化することを可能にする。
各コンポーネントに特定の共形アルゴリズムを適用し、得られた予測間隔をマージすることにより、各コンポーネントの下位にある異なる交換可能性の仕組みを考慮に入れたメソッドをカスタマイズする。
我々の分解に基づくアプローチは、合成および実世界のデータに基づいて、徹底的に議論され、実証的に評価される。
本手法は,よく構造化された時系列に対して有望な結果を与えるが,より複雑なデータに対する分解ステップなどの要因によって制限される可能性がある。
Conformal prediction offers a practical framework for distribution-free uncertainty quantification, providing finite-sample coverage guarantees under relatively mild assumptions on data exchangeability. However, these assumptions cease to hold for time series due to their temporally correlated nature. In this work, we present a novel use of conformal prediction for time series forecasting that incorporates time series decomposition. This approach allows us to model different temporal components individually. By applying specific conformal algorithms to each component and then merging the obtained prediction intervals, we customize our methods to account for the different exchangeability regimes underlying each component. Our decomposition-based approach is thoroughly discussed and empirically evaluated on synthetic and real-world data. We find that the method provides promising results on well-structured time series, but can be limited by factors such as the decomposition step for more complex data. | 翻訳日:2024-06-25 14:05:36 公開日:2024-06-24 |
# GPT-Writing Prompts データセット:短い物語における文字ポートフォリオの比較分析
The GPT-WritingPrompts Dataset: A Comparative Analysis of Character Portrayal in Short Stories ( http://arxiv.org/abs/2406.16767v1 ) ライセンス: Link先を確認 | Xi Yu Huang, Krishnapriya Vishnubhotla, Frank Rudzicz, | (参考訳) 大きな言語モデルの生成能力の向上は、創造的な執筆とストーリーテリングのための強力なツールとなった。
したがって、生成した物語の性質と、それらが人間のストーリーテリングとどのように異なるのかを定量的に理解することが重要である。
Reddit WritingPromptsデータセットをGPT-3.5で生成された短いストーリーで拡張します。
本研究では,人間と機械の両方の生成過程から,ストーリーテリングの感情的特徴と記述的特徴を6次元で定量化し比較する。
生成した物語は6次元すべてで人間ストーリーとは大きく異なり,主主人公の物語的視点やジェンダーに応じてグループ化された場合,人間世代と機械世代は同様のバイアスを呈することがわかった。
データセットとコードはhttps://github.com/KristinHuangg/gpt-writing-promptsでリリースしています。
The improved generative capabilities of large language models have made them a powerful tool for creative writing and storytelling. It is therefore important to quantitatively understand the nature of generated stories, and how they differ from human storytelling. We augment the Reddit WritingPrompts dataset with short stories generated by GPT-3.5, given the same prompts. We quantify and compare the emotional and descriptive features of storytelling from both generative processes, human and machine, along a set of six dimensions. We find that generated stories differ significantly from human stories along all six dimensions, and that human and machine generations display similar biases when grouped according to the narrative point-of-view and gender of the main protagonist. We release our dataset and code at https://github.com/KristinHuangg/gpt-writing-prompts. | 翻訳日:2024-06-25 14:05:36 公開日:2024-06-24 |
# WARP: 平均的償還政策のメリットについて
WARP: On the Benefits of Weight Averaged Rewarded Policies ( http://arxiv.org/abs/2406.16768v1 ) ライセンス: Link先を確認 | Alexandre Ramé, Johan Ferret, Nino Vieillard, Robert Dadashi, Léonard Hussenot, Pierre-Louis Cedoz, Pier Giuseppe Sessa, Sertan Girgin, Arthur Douillard, Olivier Bachem, | (参考訳) 人間のフィードバックからの強化学習(RLHF)は、人間の好みに基づいて訓練された報酬モデルを用いて、世代に高い報酬を与えるよう促すことにより、大きな言語モデル(LLM)を整列させる。
事前訓練された知識の忘れを防止するため、RLHFは通常、KL正規化を取り入れている。
本稿では、KLと報酬のトレードオフに取り組むために、Weight Averaged Rewarded Policies(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
まず、KL正則化における動的アンカーとしてポリシーの指数移動平均を用いる。
第二に、独立に調整されたポリシーを新しい拡張されたポリシーにマージするために球面補間を適用する。
第3に、この統合モデルと初期化を線形に補間し、事前学習から特徴を回復する。
この手順は反復的に適用され、各反復の最終モデルは次回への先進的な初期化として使用され、段階的にKL-逆パレートフロントを精製し、固定KLにおいて優れた報酬を得る。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
Reinforcement learning from human feedback (RLHF) aligns large language models (LLMs) by encouraging their generations to have high rewards, using a reward model trained on human preferences. To prevent the forgetting of pre-trained knowledge, RLHF usually incorporates a KL regularization; this forces the policy to remain close to its supervised fine-tuned initialization, though it hinders the reward optimization. To tackle the trade-off between KL and reward, in this paper we introduce a novel alignment strategy named Weight Averaged Rewarded Policies (WARP). WARP merges policies in the weight space at three distinct stages. First, it uses the exponential moving average of the policy as a dynamic anchor in the KL regularization. Second, it applies spherical interpolation to merge independently fine-tuned policies into a new enhanced one. Third, it linearly interpolates between this merged model and the initialization, to recover features from pre-training. This procedure is then applied iteratively, with each iteration's final model used as an advanced initialization for the next, progressively refining the KL-reward Pareto front, achieving superior rewards at fixed KL. Experiments with GEMMA policies validate that WARP improves their quality and alignment, outperforming other open-source LLMs. | 翻訳日:2024-06-25 14:05:36 公開日:2024-06-24 |
# 極低温で動作するレーザ光フォトニック回路用集積熱光学位相シフト器
Integrated thermo-optic phase shifters for laser-written photonic circuits operating at cryogenic temperatures ( http://arxiv.org/abs/2406.16770v1 ) ライセンス: Link先を確認 | Francesco Ceccarelli, Jelena V. Rakonjac, Samuele Grandi, Hugues de Riedmatten, Roberto Osellame, Giacomo Corrielli, | (参考訳) 集積フォトニクスは、小型チップにおける光学信号のコンパクトかつ安定な操作を提供し、位相シフト器によって動的に機能を変更することができる。
これらのデバイスの低温操作は、フォトニック量子技術の進歩、量子光源、単一光子検出器、液体ヘリウム温度で動作する量子メモリなどのコンポーネントの集積に欠かせないものになりつつある。
本研究では、フェムト秒レーザー導波路書き込み(FLW)により製造され、室温および極低温の両方で熱光学位相シフト器によって制御されるプログラマブルガラスフォトニック集積回路(PIC)について報告する。
フェムト秒レーザーの微細構造を生かして、両条件とも消費電力が最小であり、温度勾配が制限された信頼性PIC動作を実現した。
この進歩は、レーザー書き型フォトニックチップで実現された完全に統合された量子アーキテクチャへの道を開く、低温で互換性のあるプログラム可能なFLW PICとして初めてのものである。
Integrated photonics offers compact and stable manipulation of optical signals in miniaturized chips, with the possibility of changing dynamically their functionality by means of integrated phase shifters. Cryogenic operation of these devices is becoming essential for advancing photonic quantum technologies, accommodating components like quantum light sources, single photon detectors and quantum memories operating at liquid helium temperatures. In this work, we report on a programmable glass photonic integrated circuit (PIC) fabricated through femtosecond laser waveguide writing (FLW) and controlled by thermo-optic phase shifters both in a room-temperature and in a cryogenic setting. By taking advantage of a femtosecond laser microstructuring process, we achieved reliable PIC operation with minimal power consumption and confined temperature gradients in both conditions. This advancement marks the first cryogenically-compatible programmable FLW PIC, paving the way for fully integrated quantum architectures realized on a laser-written photonic chip. | 翻訳日:2024-06-25 14:05:36 公開日:2024-06-24 |
# 五輪アリーナのメダルランキング:最も知能なAIは誰だ?
OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far? ( http://arxiv.org/abs/2406.16772v1 ) ライセンス: Link先を確認 | Zhen Huang, Zengzhi Wang, Shijie Xia, Pengfei Liu, | (参考訳) オリンピックアリーナ(オリンピックレベル、多分野、超知能AIのマルチモーダルベンチマーク)によって測定された、これまでで最もインテリジェントなAIモデルは誰ですか?
具体的には、最近リリースされたClaude-3.5-Sonnet、Gemini-1.5-Pro、GPT-4oに焦点を当てます。
本稿では,各種分野にわたる総合的なパフォーマンスに基づいて,初めてオリンピック・メダリスト・テーブルを用いてAIモデルをランク付けする手法を提案する。
1)Claude-3.5-SonnetはGPT-4oよりも高い総合的な性能を示し、少数の被験者(物理, 化学, 生物学)でGPT-4oを上回った。
2) Gemini-1.5-Pro と GPT-4V は GPT-4o と Claude-3.5-Sonnet のすぐ後ろで連続的にランクされるが、その間には明らかな性能差がある。
(3) オープンソースコミュニティのAIモデルのパフォーマンスは、これらのプロプライエタリなモデルに大きく遅れています。
(4) このベンチマークにおけるこれらのモデルの性能は満足度に欠けており、超知能を達成するまでにはまだ長い道のりが残っていることを示唆している。
このベンチマークでは、最新の強力なモデルのパフォーマンスを継続的に追跡し、評価することを約束しています(https://github.com/GAIR-NLP/OlympicArena.comで利用可能です)。
In this report, we pose the following question: Who is the most intelligent AI model to date, as measured by the OlympicArena (an Olympic-level, multi-discipline, multi-modal benchmark for superintelligent AI)? We specifically focus on the most recently released models: Claude-3.5-Sonnet, Gemini-1.5-Pro, and GPT-4o. For the first time, we propose using an Olympic medal Table approach to rank AI models based on their comprehensive performance across various disciplines. Empirical results reveal: (1) Claude-3.5-Sonnet shows highly competitive overall performance over GPT-4o, even surpassing GPT-4o on a few subjects (i.e., Physics, Chemistry, and Biology). (2) Gemini-1.5-Pro and GPT-4V are ranked consecutively just behind GPT-4o and Claude-3.5-Sonnet, but with a clear performance gap between them. (3) The performance of AI models from the open-source community significantly lags behind these proprietary models. (4) The performance of these models on this benchmark has been less than satisfactory, indicating that we still have a long way to go before achieving superintelligence. We remain committed to continuously tracking and evaluating the performance of the latest powerful models on this benchmark (available at https://github.com/GAIR-NLP/OlympicArena). | 翻訳日:2024-06-25 14:05:36 公開日:2024-06-24 |
# 半監督型3次元インスタンス分割のためのインスタンス一貫性規則化
Instance Consistency Regularization for Semi-Supervised 3D Instance Segmentation ( http://arxiv.org/abs/2406.16776v1 ) ライセンス: Link先を確認 | Yizheng Wu, Zhiyu Pan, Kewei Wang, Xingyi Li, Jiahao Cui, Liwen Xiao, Guosheng Lin, Zhiguo Cao, | (参考訳) ポイントワイズセマンティクスとインスタンスラベルを備えた大規模データセットは、3Dインスタンスのセグメンテーションには不可欠だが、コストも高い。
ラベルのないデータを活用するために、従来の半教師付き3Dインスタンスセグメンテーションアプローチは、一貫性の正則化のために高品質な擬似ラベルに依存する自己学習フレームワークを探索した。
彼らは直感的にインスタンスとセマンティックな擬似ラベルを共同学習方式で活用する。
しかし、意味的な擬似ラベルには、不均衡なカテゴリー分布と類似しているが異なるカテゴリーの自然な混同から派生した多数のノイズが含まれており、自己学習において深刻な崩壊をもたらす。
3Dのインスタンスが重なりにくく空間的に分離可能であるという観察に感銘を受け、半教師付きセグメンテーションの改善にインスタンスの整合性正規化のみを頼りにできるかどうかを問う。
そこで本研究では,未ラベルデータから純粋なインスタンス知識を探索し,活用するための,新たな自己学習ネットワークInsTeacher3Dを提案する。
まず並列ベース3DインスタンスセグメンテーションモデルDKNetを構築し、各インスタンスを意味的セグメンテーションに依存しない識別インスタンスカーネルを介して他と区別する。
DKNetに基づいて、高品質なインスタンス擬似ラベルを生成し、活用するための新しいインスタンス整合性正規化フレームワークを設計する。
複数の大規模データセットの実験結果から、InsTeacher3Dは最先端の半教師付きアプローチよりも大幅に優れていた。
コードは、https://github.com/W1zheng/InsTeacher3D.comで入手できる。
Large-scale datasets with point-wise semantic and instance labels are crucial to 3D instance segmentation but also expensive. To leverage unlabeled data, previous semi-supervised 3D instance segmentation approaches have explored self-training frameworks, which rely on high-quality pseudo labels for consistency regularization. They intuitively utilize both instance and semantic pseudo labels in a joint learning manner. However, semantic pseudo labels contain numerous noise derived from the imbalanced category distribution and natural confusion of similar but distinct categories, which leads to severe collapses in self-training. Motivated by the observation that 3D instances are non-overlapping and spatially separable, we ask whether we can solely rely on instance consistency regularization for improved semi-supervised segmentation. To this end, we propose a novel self-training network InsTeacher3D to explore and exploit pure instance knowledge from unlabeled data. We first build a parallel base 3D instance segmentation model DKNet, which distinguishes each instance from the others via discriminative instance kernels without reliance on semantic segmentation. Based on DKNet, we further design a novel instance consistency regularization framework to generate and leverage high-quality instance pseudo labels. Experimental results on multiple large-scale datasets show that the InsTeacher3D significantly outperforms prior state-of-the-art semi-supervised approaches. Code is available: https://github.com/W1zheng/InsTeacher3D. | 翻訳日:2024-06-25 13:55:51 公開日:2024-06-24 |
# 音声翻訳におけるLLMのブレンディング:IWSLT 2024におけるKITのオフライン音声翻訳システム
Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 ( http://arxiv.org/abs/2406.16777v1 ) ライセンス: Link先を確認 | Sai Koneru, Thai-Binh Nguyen, Ngoc-Quan Pham, Danni Liu, Zhaolin Li, Alexander Waibel, Jan Niehues, | (参考訳) 大規模言語モデル(LLM)は現在、自動音声認識(ASR)、機械翻訳(MT)、さらにはエンドツーエンド音声翻訳(ST)など、様々なタスクを探索中である。
本稿では,制約付き+LLMトラックにおけるKITのオフライン・サブミッションについて,最近提案された手法を組み込んで記述する。
具体的には、Mistral-7B\footnote{mistralai/Mistral-7B-Instruct-v0.1}をシステムに統合し、2つの方法で拡張する。
まず,本システムで生成したN-bestリストを活用し,LLMを微調整し,転写文を正確に予測することで,ASR出力を改良する。
第2に,LLMの微調整により文書レベルでのMT出力を洗練し,ASRとMT予測の両方を活用して翻訳品質を向上させる。
LLM を ASR と MT システムに統合すると,単語誤り率 0.3 % と tst2019 テストセット COMET の 0.65 % が絶対的に向上することがわかった。
重なり合う話者と背景雑音を伴う挑戦的なテストセットにおいて、LLMの統合は、ASR性能の悪いため、有益ではないことが判明した。
ここでは,音声活動検出セグメンテーションのみでの翻訳では利用できないコンテキスト使用量を改善するために,チャンク長形デコード付きASRを用いる。
Large Language Models (LLMs) are currently under exploration for various tasks, including Automatic Speech Recognition (ASR), Machine Translation (MT), and even End-to-End Speech Translation (ST). In this paper, we present KIT's offline submission in the constrained + LLM track by incorporating recently proposed techniques that can be added to any cascaded speech translation. Specifically, we integrate Mistral-7B\footnote{mistralai/Mistral-7B-Instruct-v0.1} into our system to enhance it in two ways. Firstly, we refine the ASR outputs by utilizing the N-best lists generated by our system and fine-tuning the LLM to predict the transcript accurately. Secondly, we refine the MT outputs at the document level by fine-tuning the LLM, leveraging both ASR and MT predictions to improve translation quality. We find that integrating the LLM into the ASR and MT systems results in an absolute improvement of $0.3\%$ in Word Error Rate and $0.65\%$ in COMET for tst2019 test set. In challenging test sets with overlapping speakers and background noise, we find that integrating LLM is not beneficial due to poor ASR performance. Here, we use ASR with chunked long-form decoding to improve context usage that may be unavailable when transcribing with Voice Activity Detection segmentation alone. | 翻訳日:2024-06-25 13:55:51 公開日:2024-06-24 |
# エッジプルーニングを用いた変圧器回路の探索
Finding Transformer Circuits with Edge Pruning ( http://arxiv.org/abs/2406.16778v1 ) ライセンス: Link先を確認 | Adithya Bhaskar, Alexander Wettig, Dan Friedman, Danqi Chen, | (参考訳) 言語モデルを解釈するパスは、しばしば回路の分析によって進行する。
最近の研究は回路発見のタスクを自動化した。
しかし、これらの手法は非効率な探索アルゴリズムや不正確な近似に依存するため、実用的な制限がある。
本稿では,最適化問題として自動回路発見の枠組みを定め,有効かつスケーラブルなソリューションとして *Edge Pruning* を提案する。
エッジプルーニングは勾配に基づくプルーニング技術を活用するが、ニューロンやコンポーネントを除去する代わりに、コンポーネント間で \emph{edges} をプルーニングする。
提案手法は,従来の手法に比べてエッジ数の半分以下であるGPT-2の回路を,標準回路ファイリングタスクの完全なモデル予測に等しく忠実に行う。
エッジプルーニングは、最大100Kの例でも効率的であり、従来の手法よりも高速で、はるかに優れた回路を生成する。
また、Tracrでコンパイルされた2つのモデルにおいて、地上構造回路を完全に復元する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
この設定は、命令プロンプトとコンテキスト内学習の背景にあるメカニズムを比較したケーススタディである。
99.96%以上の間隔を持つ2つの回路が完全なモデルの性能と一致し、2つの設定のメカニズムが大幅に重なることを明らかにした。
私たちのケーススタディでは、エッジプルーニングは解釈可能性のための実用的でスケーラブルなツールであり、大きなモデルにのみ現れる振る舞いに光を当てています。
The path to interpreting a language model often proceeds via analysis of circuits -- sparse computational subgraphs of the model that capture specific aspects of its behavior. Recent work has automated the task of discovering circuits. Yet, these methods have practical limitations, as they rely either on inefficient search algorithms or inaccurate approximations. In this paper, we frame automated circuit discovery as an optimization problem and propose *Edge Pruning* as an effective and scalable solution. Edge Pruning leverages gradient-based pruning techniques, but instead of removing neurons or components, it prunes the \emph{edges} between components. Our method finds circuits in GPT-2 that use less than half the number of edges compared to circuits found by previous methods while being equally faithful to the full model predictions on standard circuit-finding tasks. Edge Pruning is efficient even with as many as 100K examples, outperforming previous methods in speed and producing substantially better circuits. It also perfectly recovers the ground-truth circuits in two models compiled with Tracr. Thanks to its efficiency, we scale Edge Pruning to CodeLlama-13B, a model over 100x the scale that prior methods operate on. We use this setting for a case study comparing the mechanisms behind instruction prompting and in-context learning. We find two circuits with more than 99.96% sparsity that match the performance of the full model and reveal that the mechanisms in the two settings overlap substantially. Our case study shows that Edge Pruning is a practical and scalable tool for interpretability and sheds light on behaviors that only emerge in large models. | 翻訳日:2024-06-25 13:55:51 公開日:2024-06-24 |
# あなたが何を言っているかではなく、どのように言うかである:読みやすさを改善する驚くほど単純なアプローチ
It Is Not About What You Say, It Is About How You Say It: A Surprisingly Simple Approach for Improving Reading Comprehension ( http://arxiv.org/abs/2406.16779v1 ) ライセンス: Link先を確認 | Sagi Shaier, Lawrence E Hunter, Katharina von der Wense, | (参考訳) 自然言語処理はこの10年間で急速に進歩している。
開発速度のため、適切な評価なしにいくつかのプラクティスが確立される。
そのような事例の1つを考慮し、読解に焦点をあてて、最初の研究課題を問う。
1) 入力の順序、すなわち質問とコンテキストはモデルの性能にどのように影響しますか?
さらに、入力強調の最近の進歩を踏まえ、第2の研究課題を問う。
2) 質問やコンテキスト,あるいはパフォーマンスの向上などを強調していますか?
3つのデータセットにまたがる9つの大きな言語モデルで実験した結果、質問の前にコンテキストを提示することでモデルのパフォーマンスが向上し、精度は311\%$まで向上することがわかった。
さらに、文脈を強調することは、質問の強調よりも優れた結果をもたらすが、一般に、入力の一部を強調することは、モデルが答えるパラメトリック知識を欠く問題に対処するのに特に効果的である。
さらに、プロンプトベースとアテンションベースの両方の強調手法で実験した結果、最良の手法は驚くほど単純であることがわかった。入力にいくつかのトークンを連結するだけで、最大36 %の精度の改善が得られ、より小さなモデルの方がはるかに大きなものより優れている。
Natural language processing has seen rapid progress over the past decade. Due to the speed of developments, some practices get established without proper evaluation. Considering one such case and focusing on reading comprehension, we ask our first research question: 1) How does the order of inputs -- i.e., question and context -- affect model performance? Additionally, given recent advancements in input emphasis, we ask a second research question: 2) Does emphasizing either the question, the context, or both enhance performance? Experimenting with 9 large language models across 3 datasets, we find that presenting the context before the question improves model performance, with an accuracy increase of up to $31\%$. Furthermore, emphasizing the context yields superior results compared to question emphasis, and in general, emphasizing parts of the input is particularly effective for addressing questions that models lack the parametric knowledge to answer. Experimenting with both prompt-based and attention-based emphasis methods, we additionally find that the best method is surprisingly simple: it only requires concatenating a few tokens to the input and results in an accuracy improvement of up to $36\%$, allowing smaller models to outperform their significantly larger counterparts. | 翻訳日:2024-06-25 13:55:51 公開日:2024-06-24 |
# OpenStreetMapデータを用いた歩行者用キャリー容量電卓:都市観光・公共空間への応用
A Carrying Capacity Calculator for Pedestrians Using OpenStreetMap Data: Application to Urban Tourism and Public Spaces ( http://arxiv.org/abs/2406.16781v1 ) ライセンス: Link先を確認 | Duarte Sampaio de Almeida, Rodrigo Simões, Fernando Brito e Abreu, Adriano Lopes, Inês Boavida-Portugal, | (参考訳) 持続可能な管理には,都市観光地や公共空間の輸送能力の決定が不可欠である。
本稿では,OpenStreetMap(OSM)データに基づいて,ユーザ定義領域の歩行者輸送能力を算出するオンラインツールを提案する。
このツールは、歩行者当たりの面積、回転係数、補正要因、管理能力などのパラメータを組み込むことで、物理的、現実的、効果的な輸送能力を考える。
輸送能力電卓は、環境、経済、社会、経験的要因のバランスをとるのに役立ち、人口過密を防ぎ、住民や訪問者の生活の質を維持する。
このツールは特に観光先管理、都市計画、イベント管理に役立ち、積極的訪問者体験と持続可能なインフラ開発を確実にする。
我々は、この電卓の実装、その基礎となるアルゴリズム、およびリスボンのサンタマリアマイオール教区への適用について詳述し、都市観光と公共空間の管理におけるその効果を強調した。
Determining the carrying capacity of urban tourism destinations and public spaces is essential for sustainable management. This paper presents an online tool that calculates pedestrian carrying capacities for user-defined areas based on OpenStreetMap (OSM) data. The tool considers physical, real, and effective carrying capacities by incorporating parameters such as area per pedestrian, rotation factor, corrective factors, and management capacity. The carrying capacity calculator aids in balancing environmental, economic, social, and experiential factors to prevent overcrowding and preserve the quality of life for residents and visitors. This tool is particularly useful for tourism destination management, urban planning, and event management, ensuring positive visitor experiences and sustainable infrastructure development. We detail the implementation of the calculator, its underlying algorithm, and its application to the Santa Maria Maior parish in Lisbon, highlighting its effectiveness in managing urban tourism and public spaces. | 翻訳日:2024-06-25 13:55:51 公開日:2024-06-24 |
# 逆制約強化学習に対する信頼感
Confidence Aware Inverse Constrained Reinforcement Learning ( http://arxiv.org/abs/2406.16782v1 ) ライセンス: Link先を確認 | Sriram Ganapathi Subramanian, Guiliang Liu, Mohammed Elmahgiubi, Kasra Rezaee, Pascal Poupart, | (参考訳) 現実世界の問題に対する解決策を思いついたとき、人間は暗黙的に、あまりに数が多く複雑すぎて完全に特定できない制約に固執する。
しかしながら、強化学習(RL)エージェントは、これらの設定において正しい最適ポリシーを学ぶためにこれらの制約を必要とする。
Inverse Constraint Reinforcement Learning (ICRL)の分野は、この問題に対処し、オフラインで収集された専門家によるデモンストレーションから制約を推定するアルゴリズムを提供する。
実践者は、これらの制約を使用することを決定する前に、推定された制約に対する信頼の尺度を知っておくことを好む。
しかし、事前の作業では、ユーザは推論された制約に対して望ましいレベルの信頼を提供できない。
この研究は、専門家による一連のデモンストレーションで信頼レベルを取ることができる原則的ICRL法を提供し、少なくとも所望の信頼レベルに対する真の基礎的制約と同じくらいの制約を出力する。
さらに、従来の方法と異なり、専門家の軌道の数が不足しているかどうかをユーザが把握し、所望の信頼度で制約を同時に学習するために必要な専門家の軌道と、所望のパフォーマンスレベルを達成するポリシーを収集する。
In coming up with solutions to real-world problems, humans implicitly adhere to constraints that are too numerous and complex to be specified completely. However, reinforcement learning (RL) agents need these constraints to learn the correct optimal policy in these settings. The field of Inverse Constraint Reinforcement Learning (ICRL) deals with this problem and provides algorithms that aim to estimate the constraints from expert demonstrations collected offline. Practitioners prefer to know a measure of confidence in the estimated constraints, before deciding to use these constraints, which allows them to only use the constraints that satisfy a desired level of confidence. However, prior works do not allow users to provide the desired level of confidence for the inferred constraints. This work provides a principled ICRL method that can take a confidence level with a set of expert demonstrations and outputs a constraint that is at least as constraining as the true underlying constraint with the desired level of confidence. Further, unlike previous methods, this method allows a user to know if the number of expert trajectories is insufficient to learn a constraint with a desired level of confidence, and therefore collect more expert trajectories as required to simultaneously learn constraints with the desired level of confidence and a policy that achieves the desired level of performance. | 翻訳日:2024-06-25 13:55:51 公開日:2024-06-24 |
# M2Lingual:大規模言語モデルにおける多言語・多言語インストラクションアライメントの強化
M2Lingual: Enhancing Multilingual, Multi-Turn Instruction Alignment in Large Language Models ( http://arxiv.org/abs/2406.16783v1 ) ライセンス: Link先を確認 | Rishabh Maheshwary, Vikas Yadav, Hoang Nguyen, Khyati Mahajan, Sathwik Tejaswi Madhusudhan, | (参考訳) インストラクション微調整(IFT)は、命令に従うためにLLM(Large Language Models)を調整するために重要である。
近年,多くの効果的なIFTデータセットが提案されているが,主に英語などの高資源言語に焦点が当てられている。
本研究では,M2Lingualと呼ばれる多言語・多言語・多言語命令微調整データセットを,多言語・多言語・多言語・多言語・多言語・多言語・多言語/多言語・多言語・多言語・多言語・多言語・多言語/多言語・多言語・多言語/多言語・多言語・多言語・多言語/多言語・多言語・多言語・多言語・多言語・多言語・多言語/多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語
M2Lingualには合計182KのIFTペアが含まれており、70の言語、17のNLPタスク、一般的な命令応答ペアをカバーしている。
M2Lingualで微調整されたLLMは、既存の多言語IFTデータセットの大部分を著しく上回っている。
重要なことに、M2LingualでトレーニングされたLLMは、既存の多言語IFTデータセットと比較して、幅広い評価ベンチマークで一貫して競合する結果が得られる。
具体的には、M2Lingualで微調整されたLLMは、翻訳された多言語・多言語評価ベンチマークと、多言語タスクの多種多様な性能を実現する。
このように、我々は貢献し、2段階のEvol分類法を創出に用いた。
M2Lingualリポジトリ - https://huggingface.co/datasets/ServiceNow-AI/M2Lingual
Instruction finetuning (IFT) is critical for aligning Large Language Models (LLMs) to follow instructions. Numerous effective IFT datasets have been proposed in the recent past, but most focus on high resource languages such as English. In this work, we propose a fully synthetic, novel taxonomy (Evol) guided Multilingual, Multi-turn instruction finetuning dataset, called M2Lingual, to better align LLMs on a diverse set of languages and tasks. M2Lingual contains a total of 182K IFT pairs that are built upon diverse seeds, covering 70 languages, 17 NLP tasks and general instruction-response pairs. LLMs finetuned with M2Lingual substantially outperform the majority of existing multilingual IFT datasets. Importantly, LLMs trained with M2Lingual consistently achieve competitive results across a wide variety of evaluation benchmarks compared to existing multilingual IFT datasets. Specifically, LLMs finetuned with M2Lingual achieve strong performance on our translated multilingual, multi-turn evaluation benchmark as well as a wide variety of multilingual tasks. Thus we contribute, and the 2 step Evol taxonomy used for its creation. M2Lingual repository - https://huggingface.co/datasets/ServiceNow-AI/M2Lingual | 翻訳日:2024-06-25 13:55:51 公開日:2024-06-24 |
# 言語から視覚からMOTへのトランスフォーマーの進歩:トランスフォーマーを用いた多目的追跡に関する文献レビュー
The Progression of Transformers from Language to Vision to MOT: A Literature Review on Multi-Object Tracking with Transformers ( http://arxiv.org/abs/2406.16784v1 ) ライセンス: Link先を確認 | Abhi Kamboj, | (参考訳) トランスフォーマーニューラルネットワークアーキテクチャは、アテンション層を利用することで、自己回帰シーケンス・ツー・シーケンスのモデリングを可能にする。
元々は機械翻訳を応用して作られたが、自然言語処理に革命をもたらした。
近年、トランスフォーマーは様々なパターン認識タスク、特にコンピュータビジョンにも応用されている。
本稿では,トランスを用いたコンピュータビジョンの進歩について述べる。
次に、特にMOT(Multi-Object Tracking)に注目し、トランスフォーマーが最先端のMOTでますます競争力を高めつつある状況について論じる。
The transformer neural network architecture allows for autoregressive sequence-to-sequence modeling through the use of attention layers. It was originally created with the application of machine translation but has revolutionized natural language processing. Recently, transformers have also been applied across a wide variety of pattern recognition tasks, particularly in computer vision. In this literature review, we describe major advances in computer vision utilizing transformers. We then focus specifically on Multi-Object Tracking (MOT) and discuss how transformers are increasingly becoming competitive in state-of-the-art MOT works, yet still lag behind traditional deep learning methods. | 翻訳日:2024-06-25 13:55:51 公開日:2024-06-24 |
# 分散エンタングルメントを用いた長基準画像の量子分解能限界
Quantum resolution limit of long-baseline imaging using distributed entanglement ( http://arxiv.org/abs/2406.16789v1 ) ライセンス: Link先を確認 | Isack Padilla, Aqil Sajjad, Babak N. Saif, Saikat Guha, | (参考訳) 2つの望遠鏡サイト間の共通絡み合いは、標準位相走査干渉計を模倣して点源の定位に利用できるが、遠方の望遠鏡から光を物理的に集めることができないことが示されている。
本稿では,各望遠鏡で空間モードソートを行う受信機と,事前に共有された絡み合いと局所量子演算を組み合わせることで,望遠鏡から収集した光に作用する最も一般的なマルチモード干渉計を模倣することができることを示す。
定量的な受動イメージング問題への一例として、2つの恒星間の角分離を推定する量子制限精度が、前述のエンタングルメントに基づく受信機のインスタンス化によって達成可能であることを示す。
我々は、この絡み合い支援戦略が、何個もの望遠鏡を含む複雑な定量的イメージングタスクの量子制限精度を達成するためにどのように使用できるかについて論じる。
この一般的な受信機の青写真は、各望遠鏡に展開された量子メモリバンクや空間モードソーターへの星光の量子的変換と、量子メモリ上の量子ビットゲートや測定を含む光学的検出を含む計測である。
本稿では,各望遠鏡の直径に対する基準線距離の比に基づいて,望遠鏡の局部モードソートを行う場合の局所モードソートと,そのシーンに関する全体的な量子制限情報との相対的な寄与について論じる。
It has been shown that shared entanglement between two telescope sites can in principle be used to localize a point source by mimicking the standard phase-scanning interferometer, but without physically bringing the light from the distant telescopes together. In this paper, we show that a receiver that employs spatial-mode sorting at each telescope site, combined with pre-shared entanglement and local quantum operations can be used to mimic the most general multimode interferometer acting on light collected from the telescopes. As an example application to a quantitative passive-imaging problem, we show that the quantum-limited precision of estimating the angular separation between two stars can be attained by an instantiation of the aforesaid entanglement based receiver. We discuss how this entanglement assisted strategy can be used to achieve the quantum-limited precision of any complex quantitative imaging task involving any number of telescopes. We provide a blueprint of this general receiver that involves quantum transduction of starlight into quantum memory banks and spatial mode sorters deployed at each telescope site, and measurements that include optical detection as well as qubit gates and measurements on the quantum memories. We discuss the relative contributions of local mode sorting at telescope sites vis-a-vis distributed entanglement-assisted interferometry, to the overall quantum-limited information about the scene, based on the ratio of the baseline distance to the individual telescope diameter. | 翻訳日:2024-06-25 13:55:51 公開日:2024-06-24 |
# 集合的マインド、仮想化MLOps、MLPerf、集合的知識プレイグラウンド、再現可能な最適化トーナメントによるより効率的で費用効率の良いAI/MLシステムの実現
Enabling more efficient and cost-effective AI/ML systems with Collective Mind, virtualized MLOps, MLPerf, Collective Knowledge Playground and reproducible optimization tournaments ( http://arxiv.org/abs/2406.16791v1 ) ライセンス: Link先を確認 | Grigori Fursin, | (参考訳) このホワイトペーパーで、私はコミュニティの取り組みとして、集団マインドフレームワーク(CM)、仮想化MLOps、MLPerfベンチマーク、再現可能な最適化トーナメントの助けを借りて、AI、MLや他の一般的なワークロードのための、より安く、より速く、よりエネルギー効率の良いソフトウェアとハードウェアを自動で設計する取り組みを紹介します。
私は、急速に進化するオープンソースおよびプロプライエタリなAI/MLモデル、データセット、ソフトウェア、ハードウェアにわたる複雑なアプリケーションの構築、実行、プロファイリング、最適化という面倒なプロセスをモジュール化、自動化、仮想化するCMを開発しました。
MLOpsとDevOps(CM4MLOps)のためのポータブルで再利用性があり、テクノロジに依存しない自動化レシピ(ResearchOps)の助けを借りて、150以上の研究論文を再現し、CMとMLPerfを使用してMLとAIシステムの第1の大規模コミュニティベンチマークを組織した時に、学術と産業の密接なコラボレーションで見つけました。
CMとCM4MLOpsをMLCommonsに寄贈して、一般的な技術に依存しない自動化、仮想化と再現性フレームワークを使用して、AIやその他の新興ワークロードを最も効率的かつコスト効率のよい方法で構築し、運用する方法を学ぶのに役立つようにしました。
私の長期的なビジョンは、コスト、レイテンシ、スループット、正確性、エネルギー、サイズ、その他の重要な特性といった要求と制約に基づいて、異なるベンダーから最も適したオープンソースおよびプロプライエタリなコンポーネントから自動生成されるコモディティを提供することによって、AIを誰でも利用できるようにすることです。
In this white paper, I present my community effort to automatically co-design cheaper, faster and more energy-efficient software and hardware for AI, ML and other popular workloads with the help of the Collective Mind framework (CM), virtualized MLOps, MLPerf benchmarks and reproducible optimization tournaments. I developed CM to modularize, automate and virtualize the tedious process of building, running, profiling and optimizing complex applications across rapidly evolving open-source and proprietary AI/ML models, datasets, software and hardware. I achieved that with the help of portable, reusable and technology-agnostic automation recipes (ResearchOps) for MLOps and DevOps (CM4MLOps) discovered in close collaboration with academia and industry when reproducing more than 150 research papers and organizing the 1st mass-scale community benchmarking of ML and AI systems using CM and MLPerf. I donated CM and CM4MLOps to MLCommons to help connect academia and industry to learn how to build and run AI and other emerging workloads in the most efficient and cost-effective way using a common and technology-agnostic automation, virtualization and reproducibility framework while unifying knowledge exchange, protecting everyone's intellectual property, enabling portable skills, and accelerating transfer of the state-of-the-art research to production. My long-term vision is to make AI accessible to everyone by making it a commodity automatically produced from the most suitable open-source and proprietary components from different vendors based on user demand, requirements and constraints such as cost, latency, throughput, accuracy, energy, size and other important characteristics. | 翻訳日:2024-06-25 13:55:51 公開日:2024-06-24 |
# ディープラーニングとカオス: 画像暗号化と復号化を併用したアプローチ
Deep Learning and Chaos: A combined Approach To Image Encryption and Decryption ( http://arxiv.org/abs/2406.16792v1 ) ライセンス: Link先を確認 | Bharath V Nair, Vismaya V S, Sishu Shankar Muni, Ali Durdu, | (参考訳) 本稿では,新しい3次元ハイパーカオスマップ,2次元メムリスタマップ,畳み込みニューラルネットワーク(CNN),キー感度解析を用いた画像暗号化と復号化アルゴリズムを提案する。
暗号化は、3Dハイパーカオスマップを用いて、ピクセル値の破壊の下で複雑なシーケンスを生成することによってグレー画像のスクランブルから始まり、この元の暗号化の堅牢性は、複雑なパターンを学習し、安全層を追加するためにCNNを使用することによってさらに強化される。
暗号アルゴリズムのロバスト性は、キー感度分析(キー要素に対するアルゴリズムの平均感度)によって示される。
その他の非許可復号化の要因やシステムは、鍵のわずかな変化があっても復号化手続きを変更することができ、復号化画像の効率の悪さをもたらす。
統計分析にはエントロピー解析、相関解析、ヒストグラム解析、および異常検出などの他のセキュリティ分析が含まれており、いずれも提案した暗号化手法の安全性と有効性を確認している。
ガウス雑音に対するロバスト性をテストするために, 様々な雑音条件下でのアルゴリズムの試験を行う。
NPCR (Number of Pixel Change Rate) や UACI (Unified Average Change Intensity) といった差分解析のためのメトリクスも、暗号化の強度を決定するために使われる。
同時に、複数のテスト画像に対して経験的検証を行い、提案手法が実用的に適用可能であり、ノイズに対して堅牢であることを示した。
シミュレーション結果と比較分析により、我々の暗号方式は、優れた視覚的セキュリティ、復号化品質、計算効率を有しており、ビッグデータアプリケーションにおけるセキュアな画像伝送と記憶に効率的であることが示されている。
In this paper, we introduce a novel image encryption and decryption algorithm using hyperchaotic signals from the novel 3D hyperchaotic map, 2D memristor map, Convolutional Neural Network (CNN), and key sensitivity analysis to achieve robust security and high efficiency. The encryption starts with the scrambling of gray images by using a 3D hyperchaotic map to yield complex sequences under disruption of pixel values; the robustness of this original encryption is further reinforced by employing a CNN to learn the intricate patterns and add the safety layer. The robustness of the encryption algorithm is shown by key sensitivity analysis, i.e., the average sensitivity of the algorithm to key elements. The other factors and systems of unauthorized decryption, even with slight variations in the keys, can alter the decryption procedure, resulting in the ineffective recreation of the decrypted image. Statistical analysis includes entropy analysis, correlation analysis, histogram analysis, and other security analyses like anomaly detection, all of which confirm the high security and effectiveness of the proposed encryption method. Testing of the algorithm under various noisy conditions is carried out to test robustness against Gaussian noise. Metrics for differential analysis, such as the NPCR (Number of Pixel Change Rate)and UACI (Unified Average Change Intensity), are also used to determine the strength of encryption. At the same time, the empirical validation was performed on several test images, which showed that the proposed encryption techniques have practical applicability and are robust to noise. Simulation results and comparative analyses illustrate that our encryption scheme possesses excellent visual security, decryption quality, and computational efficiency, and thus, it is efficient for secure image transmission and storage in big data applications. | 翻訳日:2024-06-25 13:55:51 公開日:2024-06-24 |
# Adam-mini: より少ない学習率でより多くのものを得る
Adam-mini: Use Fewer Learning Rates To Gain More ( http://arxiv.org/abs/2406.16793v1 ) ライセンス: Link先を確認 | Yushun Zhang, Congliang Chen, Ziniu Li, Tian Ding, Chenwei Wu, Yinyu Ye, Zhi-Quan Luo, Ruoyu Sun, | (参考訳) 我々は、メモリフットプリントを45%から50%削減したAdamWよりも、オンパーまたは優れたパフォーマンスを実現する最適化器Adam-miniを提案する。
Adam-miniは、1/\sqrt{v}$で各パラメータに個別の学習率を割り当てる代わりに、事前に定義されたパラメータブロック内の平均$v$をそのブロックの学習率として使用します。
このようなデザインは、2つの経験的な発見にインスパイアされている。
まず、変圧器のヘシアンは、密度の高いサブブロックの大きさの異なるほぼブロックの対角構造を示す。
第二に、これら高密度のサブブロックそれぞれに対して、Adamより優れた1つの高品質の学習速度が存在し、検索に十分なリソースが確保できる。
Adam-miniは、これらの優れた学習率を見つけ、Adamで$\geq 90% v$を下げる、コスト効率のよい方法を提供する。
実験により,Adam-mini が 125M から 7B までの大きさの様々な言語モデルにおいて,事前学習,教師付き微調整,RLHF に対して,Adam-mini がAdamW よりも同等以上の性能を示すことを確認した。
Adam-miniのメモリフットプリントの削減により、GPUとCPU間の通信オーバーヘッドが軽減され、スループットが向上する。
例えば、Adam-miniは2x A800-80GBのGPU上でのLlama2-7Bの事前トレーニングでAdamWよりも49.6%高いスループットを達成した。
We propose Adam-mini, an optimizer that achieves on-par or better performance than AdamW with 45% to 50% less memory footprint. Adam-mini reduces memory by cutting down the number of learning rates in Adam: Instead of assigning an individual learning rate for each parameter using $1/\sqrt{v}$, Adam-mini uses the average of $v$ within a pre-defined parameter block as the learning rate for that block. Such a design is inspired by two empirical findings. First, the Hessian of Transformers exhibits a near-block diagonal structure with different sizes of dense sub-blocks. Second, for each of these dense sub-blocks, there exists a single high-quality learning rate that can outperform Adam, provided that sufficient resources are available to search it out. Adam-mini provides one cost-effective way to find these good learning rates and manage to cut down $\geq 90% v$ in Adam. Empirically, we verify that Adam-mini performs on par or better than AdamW on various language models sized from 125M to 7B for pre-training, supervised fine-tuning, and RLHF. The reduced memory footprint of Adam-mini also alleviates communication overheads among GPUs and CPUs, thereby increasing throughput. For instance, Adam-mini achieves 49.6% higher throughput than AdamW when pre-training Llama2-7B on 2x A800-80GB GPUs, which saves 33% wall-clock time for pre-training. | 翻訳日:2024-06-25 13:55:51 公開日:2024-06-24 |
# Lottery Ticket Adaptation: LLMにおける破壊的干渉の軽減
Lottery Ticket Adaptation: Mitigating Destructive Interference in LLMs ( http://arxiv.org/abs/2406.16797v1 ) ライセンス: Link先を確認 | Ashwinee Panda, Berivan Isik, Xiangyu Qi, Sanmi Koyejo, Tsachy Weissman, Prateek Mittal, | (参考訳) 大規模言語モデル(LLM)を新しいタスクに適用するための既存の方法は、すべてのモデルの重みを変更するため、マルチタスク適応には適していない。
初期のタスクの破滅的な忘れなど、結果として生じる影響は、複数のタスクで優れたパフォーマンスを得るのを同時に困難にしている。
これを軽減するために,モデルのスパースサブネットワークのみを特定し最適化するスパース適応法であるLottery Ticket Adaptation (LoTA)を提案する。
我々はLoTAを命令追従、推論、数学、要約といった幅広い課題に対して評価する。
LoTAは完全な微調整と低ランク適応(LoRA)よりも優れたパフォーマンスを実現し、他のタスクをトレーニングしても優れたパフォーマンスを維持する。
LoTAは、 \emph{lottery ticket} (または \emph{sparse task vectors}) を抽出し、微調整することにより、非常に異なるタスクに対するモデルマージを可能にする。
Existing methods for adapting large language models (LLMs) to new tasks are not suited to multi-task adaptation because they modify all the model weights -- causing destructive interference between tasks. The resulting effects, such as catastrophic forgetting of earlier tasks, make it challenging to obtain good performance on multiple tasks at the same time. To mitigate this, we propose Lottery Ticket Adaptation (LoTA), a sparse adaptation method that identifies and optimizes only a sparse subnetwork of the model. We evaluate LoTA on a wide range of challenging tasks such as instruction following, reasoning, math, and summarization. LoTA obtains better performance than full fine-tuning and low-rank adaptation (LoRA), and maintains good performance even after training on other tasks -- thus, avoiding catastrophic forgetting. By extracting and fine-tuning over \emph{lottery tickets} (or \emph{sparse task vectors}), LoTA also enables model merging over highly dissimilar tasks. | 翻訳日:2024-06-25 13:55:51 公開日:2024-06-24 |
# RES-Q: リポジトリスケールでのコード編集大規模言語モデルシステムの評価
RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale ( http://arxiv.org/abs/2406.16801v1 ) ライセンス: Link先を確認 | Beck LaBash, August Rosedale, Alex Reents, Colin Wiel, | (参考訳) LLM(Large Language Models)の命令追従能力は、大規模なコードリポジトリへの編集などの複雑なタスクにアプローチ可能なLLMベースのシステムのクラスを育んでいる。
LLMの動作の高感度と予測不可能さにより,これらのシステムの今後のイテレーションを推し進めるためには,ロバストな評価ツールが必要である。
実際のGitHubコミットから派生した100のリポジトリ編集タスクからなる,自然言語命令ベースのベンチマークであるRES-Qを提案する。
RES-Qは、編集命令とコードレポジトリを与えられた後、LLMシステムの情報収集能力を評価し、命令によって設定された基準を満たす編集を構築する。
この方法でLLMを評価することは、従来のベンチマークの問題に対処し、モデルの能力をより包括的に評価するものである、と我々は主張する。
我々は,言語エージェント開発ソフトウェアであるQurrent OS上に構築されたリポジトリ編集システムにおいて,言語エージェントとして,最先端のLLMを評価した。
HumanEvalでの1%のパス@1パフォーマンスの違いにもかかわらず、Claude Sonnet 3.5は、RES-QでGPT-4oを12%のパス@1で上回り、従来のベンチマークが飽和に近づくにつれて、RES-Qのモデル能力を区別する能力を示している。
さらに、トークン効率、既存のベンチマークとの性能関係、およびクローズドおよびオープンソースLLM間の興味深い相違について検討する。
コードとデータセットはhttps://github.com/Qurrent-AI/RES-Qで公開されている。
The instruction-following ability of Large Language Models (LLMs) has cultivated a class of LLM-based systems capable of approaching complex tasks such as making edits to large code repositories. Due to the high sensitivity and unpredictability of LLM behavior in response to changes in prompting, robust evaluation tools are needed to drive future iteration of these systems. We propose RES-Q, a natural language instruction-based benchmark for evaluating $\textbf{R}$epository $\textbf{E}$diting $\textbf{S}$ystems, which consists of 100 repository editing tasks derived from real GitHub commits. Given an edit instruction and a code repository, RES-Q evaluates an LLM system's ability to gather information and construct an edit that satisfies the criteria set by the instruction. We argue that evaluating LLMs in this way addresses issues with traditional benchmarks and provides a more holistic assessment of a model's abilities. We evaluate various state-of-the-art LLMs as language agents in a repository-editing system built on Qurrent OS, our language agent development software. Despite their 1% pass@1 performance difference on HumanEval, we find Claude Sonnet 3.5 outperforms GPT-4o by 12% pass@1 on RES-Q, indicating RES-Q's capacity to differentiate model capability as traditional benchmarks approach saturation. We further investigate token efficiency, performance relationships with existing benchmarks, and interesting disparities between closed and open-source LLMs. Code and dataset are available at https://github.com/Qurrent-AI/RES-Q. | 翻訳日:2024-06-25 13:55:51 公開日:2024-06-24 |
# エキスパートアドバイザによるバンドのレグレトバウンドの改善
Improved Regret Bounds for Bandits with Expert Advice ( http://arxiv.org/abs/2406.16802v1 ) ライセンス: Link先を確認 | Nicolò Cesa-Bianchi, Khaled Eldowa, Emmanuel Esposito, Julia Olkhovskaya, | (参考訳) 本研究ノートでは,バンディットを専門家の助言で再考する。
制限されたフィードバックモデルの下では、最悪のケースの後悔に対して$\sqrt{K T \ln(N/K)}$の下位境界を証明し、そこでは$K$はアクションの数、$N>K$はエキスパートの数、$T$はタイムホライゾンとなる。
これは、既に知られている同じ順序の上界と一致し、$\sqrt{K T (\ln N) / (\ln K)}$の最良の下界を改善する。
標準フィードバックモデルでは、専門家間の合意に依存する新しいインスタンスベースの上限を証明し、以前の結果と比較して対数的改善を提供する。
In this research note, we revisit the bandits with expert advice problem. Under a restricted feedback model, we prove a lower bound of order $\sqrt{K T \ln(N/K)}$ for the worst-case regret, where $K$ is the number of actions, $N>K$ the number of experts, and $T$ the time horizon. This matches a previously known upper bound of the same order and improves upon the best available lower bound of $\sqrt{K T (\ln N) / (\ln K)}$. For the standard feedback model, we prove a new instance-based upper bound that depends on the agreement between the experts and provides a logarithmic improvement compared to prior results. | 翻訳日:2024-06-25 13:55:51 公開日:2024-06-24 |
# Chenらによるインターネット・オブ・ヘルスに関する認証プロトコルへのコメント
Comment on Chen et al.'s Authentication Protocol for Internet of Health Things ( http://arxiv.org/abs/2406.16804v1 ) ライセンス: Link先を確認 | Iman Jafarian, Siavash Khorsandi, | (参考訳) インターネット・オブ・メディカル・モノ(IoT)は医療業界に革命をもたらし、接続された医療機器とウェアラブルセンサーをシームレスに統合し、患者のケアを強化し、医療サービスの最適化を可能にした。
しかし、インターネット・オブ・メディカル・モノの急速な普及は、患者のプライバシを効果的に保護し、機密性の高い医療データを保護し、インターネット・オブ・メディカル・モノのシステム全体の信頼性と安全性を確保するために、重大なセキュリティ上の課題も引き起こす。
この文脈では、鍵合意プロトコルを使用して、相互接続された医療機器と中央システム間の共有暗号鍵をセキュアに確立し、機密かつ認証された通信を保証する。
先日、Chenらは、インターネット・オブ・ヘルスのための軽量な認証および鍵契約プロトコルを提案した。
本稿では,提案手法の記述的解析を行い,Chenらがセッション固有の一時情報攻撃や盗難検証器攻撃に対して脆弱であることを証明する。
The Internet of Medical Things has revolutionized the healthcare industry, enabling the seamless integration of connected medical devices and wearable sensors to enhance patient care and optimize healthcare services. However, the rapid adoption of the Internet of Medical Things also introduces significant security challenges that must be effectively addressed to preserve patient privacy, protect sensitive medical data, and ensure the overall reliability and safety of Internet of Medical Things systems. In this context, a key agreement protocol is used to securely establish shared cryptographic keys between interconnected medical devices and the central system, ensuring confidential and authenticated communication. Recently Chen et al. proposed a lightweight authentication and key agreement protocol for the Internet of health things. In this article, we provide a descriptive analysis of their proposed scheme and prove that Chen et al.'s scheme is vulnerable to Known session-specific temporary information attacks and stolen verifier attacks. | 翻訳日:2024-06-25 13:46:06 公開日:2024-06-24 |
# Beyond Thumbs Up/Down: テキスト対画像生成のための細粒度フィードバックの難題
Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation ( http://arxiv.org/abs/2406.16807v1 ) ライセンス: Link先を確認 | Katherine M. Collins, Najoung Kim, Yonatan Bitton, Verena Rieser, Shayegan Omidshafiei, Yushi Hu, Sherol Chen, Senjuti Dutta, Minsuk Chang, Kimin Lee, Youwei Liang, Georgina Evans, Sahil Singla, Gang Li, Adrian Weller, Junfeng He, Deepak Ramachandran, Krishnamurthy Dj Dvijotham, | (参考訳) 人間のフィードバックは、テキスト・ツー・イメージ生成のための報酬モデルを学び、精査する上で重要な役割を担っているが、正確な報酬関数を学習するために、フィードバックが取るべき最適な形式は、決定的に確立されていない。
本稿では,従来の粗いフィードバック(例えば,サムアップ/ダウン,オプション間のランク付けなど)と比較して,画像品質と迅速なアライメントにおけるニュアンスドの区別を捉えたきめ細かいフィードバックの有効性について検討する。
きめ細かいフィードバックは、特に多様な社会的嗜好に適応するシステムにとって有望であるが、粗いフィードバックに対する優位性の証明は自動ではないことを示す。
実選好データと合成選好データを用いて,モデル選択,フィードバックタイプ,人間の判断と計算解釈の整合性による有効モデル構築の複雑さを明らかにする。
我々は、きめ細かいフィードバックを導き、活用する上で重要な課題を特定し、その利点と実用性の再評価を促す。
しかし、既知の属性で制御された設定では、フィードバック属性を慎重に検討することや、きめ細かいフィードバックの潜在的な価値を適切に解き放つために、潜在的にベクソンなモデリングアプローチが求められます。
Human feedback plays a critical role in learning and refining reward models for text-to-image generation, but the optimal form the feedback should take for learning an accurate reward function has not been conclusively established. This paper investigates the effectiveness of fine-grained feedback which captures nuanced distinctions in image quality and prompt-alignment, compared to traditional coarse-grained feedback (for example, thumbs up/down or ranking between a set of options). While fine-grained feedback holds promise, particularly for systems catering to diverse societal preferences, we show that demonstrating its superiority to coarse-grained feedback is not automatic. Through experiments on real and synthetic preference data, we surface the complexities of building effective models due to the interplay of model choice, feedback type, and the alignment between human judgment and computational interpretation. We identify key challenges in eliciting and utilizing fine-grained feedback, prompting a reassessment of its assumed benefits and practicality. Our findings -- e.g., that fine-grained feedback can lead to worse models for a fixed budget, in some settings; however, in controlled settings with known attributes, fine grained rewards can indeed be more helpful -- call for careful consideration of feedback attributes and potentially beckon novel modeling approaches to appropriately unlock the potential value of fine-grained feedback in-the-wild. | 翻訳日:2024-06-25 13:46:06 公開日:2024-06-24 |
# PISTOL:LLMの構造的アンラーニングのためのデータセットコンパイルパイプライン
PISTOL: Dataset Compilation Pipeline for Structural Unlearning of LLMs ( http://arxiv.org/abs/2406.16810v1 ) ライセンス: Link先を確認 | Xinchi Qiu, William F. Shen, Yihong Chen, Nicola Cancedda, Pontus Stenetorp, Nicholas D. Lane, | (参考訳) 近年、LLMにとって重要な保護策として、事前訓練されたモデルや微調整されたモデルに格納された特定のデータを消去しようとする機械学習が登場している。
しかし、これまで検討されてきたLCMの非学習的アプローチは、独立したデータポイントの除去に重点を置いており、記憶された事実が論理的に相互に結びついており、暗黙の知識グラフを形成することを考慮していない。
アンラーニングの実践的応用に欠かせない構造的アンラーニング手法の開発を容易にするために,構造的LLMアンラーニングをベンチマークするための多シナリオデータセットをコンパイルするパイプラインであるPISTOLを提案する。
さらに、PISTOLを用いて合成したサンプルデータセットを活用し、Llama2-7BとMistral-7Bのモデルで4つの異なるアンラーニング手法を用いてベンチマークを行った。
この分析は、高度に接続されたデータ、バッチデータ、あるいは特定のドメインにスキューされたデータを効果的かつ堅牢に除去する上で、一般的な課題を説明するのに役立つ。
また、事前トレーニングされたモデルの選択が未学習のパフォーマンスに影響を与えることも強調している。
この研究は、現在のLLMの未学習手法の限界に対する理解を深め、今後の研究方向性を提案するだけでなく、この分野における探索と検証を継続する上で、レプリカブルなフレームワークも提供する。
Recently, machine unlearning, which seeks to erase specific data stored in the pre-trained or fine-tuned models, has emerged as a crucial protective measure for LLMs. However, unlearning approaches for LLMs that have been considered thus far have focused on the removal of independent data points and have not taken into account that the stored facts are logically connected to one another and form an implicit knowledge graph. To facilitate the development of structural unlearning methods, which are essential for the practical application of unlearning, we propose PISTOL, a pipeline for compiling multi-scenario datasets for benchmarking structural LLM unlearning. Additionally, leveraging sample datasets synthesized using PISTOL, we conducted benchmarks with four distinct unlearning methods on both Llama2-7B and Mistral-7B models. This analysis helps to illustrate the prevailing challenges in effectively and robustly removing highly inter-connected data, batched data, or data skewed towards a specific domain. It also highlights the choice of pre-trained model can impact unlearning performance. This work not only advances our understandings on the limitation of current LLMs unlearning methods and proposes future research directions, but also provides a replicable framework for ongoing exploration and validation in the field. | 翻訳日:2024-06-25 13:46:06 公開日:2024-06-24 |
# ClotheDreamer: 3Dガウシアンによるテキストガイドガーメント生成
ClotheDreamer: Text-Guided Garment Generation with 3D Gaussians ( http://arxiv.org/abs/2406.16815v1 ) ライセンス: Link先を確認 | Yufei Liu, Junshu Tang, Chu Zheng, Shijie Zhang, Jinkun Hao, Junwei Zhu, Dongjin Huang, | (参考訳) テキストからの高忠実度3D衣料合成は、デジタルアバター作成には望ましいが困難である。
SDS(Score Distillation Sampling)による近年の拡散ベースのアプローチは、新しい可能性を実現しているが、複雑に人体と結合するか、再利用に苦慮している。
テキストプロンプトからウェアラブルで生産可能な3D衣料資産を生成する3Dガウス方式のClotheDreamerを紹介する。
本稿では,Distangled Clothe Gaussian Splatting (DCGS)を提案する。
DCGSは、着用したアバターを1つのガウスモデルとして表現しているが、ガウススプレートを凍結する。
品質と完全性を高めるため,服飾アバターと衣服RGBDレンダリングをそれぞれ監視するために双方向SDSを導入し,ゆるい衣服に新たなプルーニング戦略を提案する。
当社のアプローチでは、入力としてカスタムウェアテンプレートもサポートしています。
我々のデザインに相応しい3D衣服は、仮想試着に簡単に適用でき、物理的に正確なアニメーションをサポートすることができる。
大規模な実験により,本手法の優れた性能と競争性能が示された。
私たちのプロジェクトページはhttps://ggxxii.github.io/clothedreamer.comです。
High-fidelity 3D garment synthesis from text is desirable yet challenging for digital avatar creation. Recent diffusion-based approaches via Score Distillation Sampling (SDS) have enabled new possibilities but either intricately couple with human body or struggle to reuse. We introduce ClotheDreamer, a 3D Gaussian-based method for generating wearable, production-ready 3D garment assets from text prompts. We propose a novel representation Disentangled Clothe Gaussian Splatting (DCGS) to enable separate optimization. DCGS represents clothed avatar as one Gaussian model but freezes body Gaussian splats. To enhance quality and completeness, we incorporate bidirectional SDS to supervise clothed avatar and garment RGBD renderings respectively with pose conditions and propose a new pruning strategy for loose clothing. Our approach can also support custom clothing templates as input. Benefiting from our design, the synthetic 3D garment can be easily applied to virtual try-on and support physically accurate animation. Extensive experiments showcase our method's superior and competitive performance. Our project page is at https://ggxxii.github.io/clothedreamer. | 翻訳日:2024-06-25 13:46:06 公開日:2024-06-24 |
# GPT-4V探査:自動運転のマイニング
GPT-4V Explorations: Mining Autonomous Driving ( http://arxiv.org/abs/2406.16817v1 ) ライセンス: Link先を確認 | Zixuan Li, | (参考訳) 本稿では,GPT-4V(ision)大規模視覚言語モデルの鉱山環境における自律運転への適用について検討する。
GPT-4Vは、視覚的質問応答機能と複雑なシーン理解機能を導入し、これらの特殊な設定における課題に対処する。
GPT-4Vは、堅牢な理解と意思決定能力を示したが、特定の車両の種類を正確に識別し、動的相互作用を管理するのに困難に直面した。
これらの課題にもかかわらず、その効果的なナビゲーションと戦略的決定は、鉱業環境の複雑な条件下での自律運転の信頼性の高いエージェントとしての可能性を示し、産業環境における適応性と運用可能性を強調している。
This paper explores the application of the GPT-4V(ision) large visual language model to autonomous driving in mining environments, where traditional systems often falter in understanding intentions and making accurate decisions during emergencies. GPT-4V introduces capabilities for visual question answering and complex scene comprehension, addressing challenges in these specialized settings.Our evaluation focuses on its proficiency in scene understanding, reasoning, and driving functions, with specific tests on its ability to recognize and interpret elements such as pedestrians, various vehicles, and traffic devices. While GPT-4V showed robust comprehension and decision-making skills, it faced difficulties in accurately identifying specific vehicle types and managing dynamic interactions. Despite these challenges, its effective navigation and strategic decision-making demonstrate its potential as a reliable agent for autonomous driving in the complex conditions of mining environments, highlighting its adaptability and operational viability in industrial settings. | 翻訳日:2024-06-25 13:46:06 公開日:2024-06-24 |
# 構造に基づく医薬品設計における拡散モデルに対する一般結合親和性誘導
General Binding Affinity Guidance for Diffusion Models in Structure-Based Drug Design ( http://arxiv.org/abs/2406.16821v1 ) ライセンス: Link先を確認 | Yue Jian, Curtis Wu, Danny Reidenbach, Aditi S. Krishnapriyan, | (参考訳) 構造ベースドラッグデザイン(SBDD)は、指定されたタンパク質ポケットに強く、具体的に結合する有効なリガンドを生成することに焦点を当てている。
いくつかの方法は、SBDDで機械学習を使用して、所望のタンパク質ポケットの構造に基づいて、3次元空間でこれらのリガンドを生成する。
近年、拡散モデルは原子の位置と型の基底分布をモデル化することで成功している。
これらの方法は、タンパク質ポケットの構造的詳細を考慮するのに効果的であるが、結合親和性について明確には考慮しないことが多い。
結合親和性は、リガンドがタンパク質ポケットにいかに強く結合するかを特徴付け、結合過程に関連する自由エネルギーの変化によって測定される。
これはリガンドとタンパク質ポケット間の相互作用の有効性をベンチマークする上で最も重要な指標の1つである。
そこで我々は,BADGER: Binding Affinity Diffusion Guidance with Enhanced Refinementを提案する。
BADGERは、タンパク質-リガンド結合の改善に向けて拡散サンプリング過程を制御し、リガンドとタンパク質間の結合親和性の分布を調節する一般的な方法である。
ニューラルネットワーク(NN)を用いてエネルギー関数をモデル化し,オートドック・ビナ(ADV)により近似した。
ADVのエネルギー機能は非分化可能であり、リガンドと標的タンパク質受容体の相互作用に基づいて親和性を推定する。
NNを微分可能エネルギー関数のプロキシとして使用することにより、学習エネルギー関数の勾配を訓練された拡散モデル上のガイダンス手法として利用する。
提案手法は, 生成リガンドのタンパク質受容体への結合親和性を最大60%向上させ, 従来の機械学習手法をはるかに上回っていることを示す。
また,本手法は柔軟であり,他の拡散型SBDDフレームワークにも容易に適用可能であることを示す。
Structure-Based Drug Design (SBDD) focuses on generating valid ligands that strongly and specifically bind to a designated protein pocket. Several methods use machine learning for SBDD to generate these ligands in 3D space, conditioned on the structure of a desired protein pocket. Recently, diffusion models have shown success here by modeling the underlying distributions of atomic positions and types. While these methods are effective in considering the structural details of the protein pocket, they often fail to explicitly consider the binding affinity. Binding affinity characterizes how tightly the ligand binds to the protein pocket, and is measured by the change in free energy associated with the binding process. It is one of the most crucial metrics for benchmarking the effectiveness of the interaction between a ligand and protein pocket. To address this, we propose BADGER: Binding Affinity Diffusion Guidance with Enhanced Refinement. BADGER is a general guidance method to steer the diffusion sampling process towards improved protein-ligand binding, allowing us to adjust the distribution of the binding affinity between ligands and proteins. Our method is enabled by using a neural network (NN) to model the energy function, which is commonly approximated by AutoDock Vina (ADV). ADV's energy function is non-differentiable, and estimates the affinity based on the interactions between a ligand and target protein receptor. By using a NN as a differentiable energy function proxy, we utilize the gradient of our learned energy function as a guidance method on top of any trained diffusion model. We show that our method improves the binding affinity of generated ligands to their protein receptors by up to 60\%, significantly surpassing previous machine learning methods. We also show that our guidance method is flexible and can be easily applied to other diffusion-based SBDD frameworks. | 翻訳日:2024-06-25 13:46:06 公開日:2024-06-24 |
# ユニバーサルアダプタシークレットを用いたマルチパーティ・マルチブロックチェーンアトミックスワッププロトコル
A Multi-Party, Multi-Blockchain Atomic Swap Protocol with Universal Adaptor Secret ( http://arxiv.org/abs/2406.16822v1 ) ライセンス: Link先を確認 | Shengewei You, Aditya Joshi, Andrey Kuehlkamp, Jarek Nabrzyski, | (参考訳) 複数のブロックチェーンにわたるデジタルアセットトランザクションの複雑さの増大は、2人以上の参加者を安全に扱える堅牢なアトミックスワッププロトコルを必要とします。
従来のアトミックスワッププロトコル(アダプタシグネチャに基づくものを含む)は、アトミック性を損なう悪意のあるドロップアウト攻撃に対して脆弱であり、トランザクションのセキュリティを損なう。
本稿では, ほぼ完全にオフチェーンで動作する新しいマルチパーティ・アトミックスワッププロトコルを提案する。
当社のプロトコルでは,Schnorrのようなシグネチャ検証とユニバーサルアダプタシークレットを活用して,スマートコントラクトや信頼できるサードパーティを必要とせずに,さまざまな参加者やブロックチェーン間のアトミック性とスケーラビリティを確保しています。
共謀攻撃や悪意あるドロップアウトといった重要な課題に対処することにより、当社のプロトコルは、マルチパーティ原子スワップのセキュリティと効率を大幅に向上させる。
私たちのコントリビューションには、あらゆる参加者を巻き込んだ原子スワップのための最初のスケーラブルで完全なオフチェーンプロトコル、ネイティブブロックチェーンへのオーバーヘッドゼロの追加、分散化された資産交換のための実用的で費用対効果の高いソリューションの提供などが含まれています。
The increasing complexity of digital asset transactions across multiple blockchains necessitates a robust atomic swap protocol that can securely handle more than two participants. Traditional atomic swap protocols, including those based on adaptor signatures, are vulnerable to malicious dropout attacks, which break atomicity and compromise the security of the transaction. This paper presents a novel multi-party atomic swap protocol that operates almost entirely off-chain, requiring only a single on-chain transaction for finalization. Our protocol leverages Schnorr-like signature verification and a universal adaptor secret to ensure atomicity and scalability across any number of participants and blockchains without the need for smart contracts or trusted third parties. By addressing key challenges such as collusion attacks and malicious dropouts, our protocol significantly enhances the security and efficiency of multi-party atomic swaps. Our contributions include the first scalable, fully off-chain protocol for atomic swaps involving any number of participants, adding zero overhead to native blockchains, and providing a practical and cost-effective solution for decentralized asset exchanges. | 翻訳日:2024-06-25 13:46:06 公開日:2024-06-24 |
# Ragnarök: TREC 2024の再利用可能なRAGフレームワークとベースライン
Ragnarök: A Reusable RAG Framework and Baselines for TREC 2024 Retrieval-Augmented Generation Track ( http://arxiv.org/abs/2406.16828v1 ) ライセンス: Link先を確認 | Ronak Pradeep, Nandan Thakur, Sahel Sharifymoghaddam, Eric Zhang, Ryan Nguyen, Daniel Campos, Nick Craswell, Jimmy Lin, | (参考訳) 新しいBing Searchを試した?
それとも、Google AIに夢中になったのか?
現代の検索スタックは、最近、検索強化世代(RAG)システムを含むように進化した。
リアルタイムデータを大規模言語モデル(LLM)に検索し、組み込むことで、文書のランク付けリストの表示に依存する従来の検索パラダイムとは対照的に、適切に表現され、属性付き、簡潔な要約を提供することができる。
したがって、これらの最近の進歩を踏まえ、RAGベースの検索システムを構築、テスト、視覚化、体系的に評価する領域を持つことが不可欠である。
このことを念頭に, TREC 2024 RAG Trackを提案する。
私たちの作業では、このトラックを現実にするためのステップをレイアウトしました -- 再利用可能なフレームワークであるRagnar\"okの詳細を説明し、新しいMS MARCO V2.1コレクションの選択のキュレーションを説明し、トラックの開発トピックをリリースし、エンドユーザーを支援するI/O定義を標準化します。
次に、Ragnar\"okを用いて、OpenAIのGPT-4oやCohereのCommand R+といった重要な産業ベースラインを特定し、提供する。
さらに,クラウドソーシングによるペアワイズRAGシステムのベンチマークを可能にする対話型アリーナのためのWebベースのユーザインタフェースを提案する。
我々は,今後のRAGシステムの統一標準を実現するため,Ragnar\"okフレームワークとベースラインをオープンソース化した。
Did you try out the new Bing Search? Or maybe you fiddled around with Google AI~Overviews? These might sound familiar because the modern-day search stack has recently evolved to include retrieval-augmented generation (RAG) systems. They allow searching and incorporating real-time data into large language models (LLMs) to provide a well-informed, attributed, concise summary in contrast to the traditional search paradigm that relies on displaying a ranked list of documents. Therefore, given these recent advancements, it is crucial to have an arena to build, test, visualize, and systematically evaluate RAG-based search systems. With this in mind, we propose the TREC 2024 RAG Track to foster innovation in evaluating RAG systems. In our work, we lay out the steps we've made towards making this track a reality -- we describe the details of our reusable framework, Ragnar\"ok, explain the curation of the new MS MARCO V2.1 collection choice, release the development topics for the track, and standardize the I/O definitions which assist the end user. Next, using Ragnar\"ok, we identify and provide key industrial baselines such as OpenAI's GPT-4o or Cohere's Command R+. Further, we introduce a web-based user interface for an interactive arena allowing benchmarking pairwise RAG systems by crowdsourcing. We open-source our Ragnar\"ok framework and baselines to achieve a unified standard for future RAG systems. | 翻訳日:2024-06-25 13:46:06 公開日:2024-06-24 |
# 言語モデルにおけるトークン化バイアスの理解と緩和
Understanding and Mitigating Tokenization Bias in Language Models ( http://arxiv.org/abs/2406.16829v1 ) ライセンス: Link先を確認 | Buu Phan, Marton Havasi, Matthew Muckley, Karen Ullrich, | (参考訳) State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
具体的には、次のトークン予測のために言語モデルに渡す前に、条件付き文字列をトークンのリストにエンコードする必要がある。
最大プレフィックスマッチングのような符号化方式では、トークン化はより多くのトレーニングやデータで緩和できないサンプリングバイアスを誘導する。
この普遍的な問題に対処するために,トークン化データに基づいて訓練されたモデルから,バイアスのない推定値を得る新しいアルゴリズムを提案する。
提案手法では,モデルの微調整を必要とせず,その複雑性をモデルの実行数として定義し,シーケンス長と線形にスケールする。
その結果,トークン化言語モデルからトークンフリーな振る舞いをシミュレートできることが示唆された。
従来の言語モデルへのトークンの直接的プロンプト法とは対照的に,マルコフチェーン機構を用いて,遷移確率を正確に回復する手法の正しさを実証的に検証する。
State-of-the-art language models are autoregressive and operate on subword units known as tokens. Specifically, one must encode the conditioning string into a list of tokens before passing to the language models for next-token prediction. We show that, for encoding schemes such as maximum prefix matching, tokenization induces a sampling bias that cannot be mitigated with more training or data. To counter this universal problem, we propose a novel algorithm to obtain unbiased estimates from a model that was trained on tokenized data. Our method does not require finetuning the model, and its complexity, defined as the number of model runs, scales linearly with the sequence length. As a consequence, we show that one can simulate token-free behavior from a tokenized language model. We empirically verify the correctness of our method through a Markov-chain setup, where it accurately recovers the transition probabilities, as opposed to the conventional method of directly prompting tokens into the language model. | 翻訳日:2024-06-25 13:46:06 公開日:2024-06-24 |
# USDC:$\underline{U}$ser $\underline{S}$tance and $\underline{D}$ogmatism in Long $\underline{C}$onversations
USDC: A Dataset of $\underline{U}$ser $\underline{S}$tance and $\underline{D}$ogmatism in Long $\underline{C}$onversations ( http://arxiv.org/abs/2406.16833v1 ) ライセンス: Link先を確認 | Mounika Marreddy, Subba Reddy Oota, Venkata Charan Chinni, Manish Gupta, Lucie Flek, | (参考訳) 様々なトピックの長い会話スレッドにおけるユーザの意見やスタンスを識別することは、パーソナライゼーション、市場調査、政治キャンペーン、カスタマーサービス、コンフリクト解決、ターゲット広告、コンテンツモデレーションの強化に極めて重要である。
したがって、このタスクを自動化するために言語モデルをトレーニングすることが重要である。
しかし、そのようなモデルをトレーニングするためには、手動アノテーションの収集には複数の課題がある。
1) 時間がかかり費用がかかる。
2)会話スレッドは非常に長く、ノイズの多いアノテーションの可能性が高まります。
3)会話の中でユーザが意見を変えるインスタンスの解釈は困難である。
複雑な自然言語処理(NLP)タスクのための大規模言語モデル(LLM)の最近の成功に触発されて、我々はMistral LargeとGPT-4を活用し、以下の2つのタスクにおける人間のアノテーションプロセスを自動化するとともに、推論も行う。
一 ユーザースタンス分類であって、利用者の投稿の姿勢を五点規模の会話でラベル付けすること
二 ユーザ・ドッグマティズムの分類であって、4点の尺度で会話において、ユーザの全体的意見をラベル付けするものであること。
764人のマルチユーザRedditの会話で、ゼロショット、ワンショット、および少数ショットのアノテーションに投票する多数派は、USDCデータセットをキュレートするのに役立ちます。
その後、USDCは5クラスのスタンスと4クラスのドクトマティズム分類タスクのために、複数のデプロイ可能な小さな言語モデルを微調整およびインストラクションチューニングするために使用される。
コードとデータセットを公開しています [https://anonymous.4open.science/r/USDC-0F7F]。
Identifying user's opinions and stances in long conversation threads on various topics can be extremely critical for enhanced personalization, market research, political campaigns, customer service, conflict resolution, targeted advertising, and content moderation. Hence, training language models to automate this task is critical. However, to train such models, gathering manual annotations has multiple challenges: 1) It is time-consuming and costly; 2) Conversation threads could be very long, increasing chances of noisy annotations; and 3) Interpreting instances where a user changes their opinion within a conversation is difficult because often such transitions are subtle and not expressed explicitly. Inspired by the recent success of large language models (LLMs) for complex natural language processing (NLP) tasks, we leverage Mistral Large and GPT-4 to automate the human annotation process on the following two tasks while also providing reasoning: i) User Stance classification, which involves labeling a user's stance of a post in a conversation on a five-point scale; ii) User Dogmatism classification, which deals with labeling a user's overall opinion in the conversation on a four-point scale. The majority voting on zero-shot, one-shot, and few-shot annotations from these two LLMs on 764 multi-user Reddit conversations helps us curate the USDC dataset. USDC is then used to finetune and instruction-tune multiple deployable small language models for the 5-class stance and 4-class dogmatism classification tasks. We make the code and dataset publicly available [https://anonymous.4open.science/r/USDC-0F7F]. | 翻訳日:2024-06-25 13:46:06 公開日:2024-06-24 |
# $(f, )$-GAN の濃度不等式
Concentration Inequalities for $(f,Γ)$-GANs ( http://arxiv.org/abs/2406.16834v1 ) ライセンス: Link先を確認 | Jeremiah Birrell, | (参考訳) GAN(Generative Adversarial Network)は、ジェネレータ分布を訓練する教師なし学習手法である。
そのような方法の多くは、計量や発散の最小化として定式化することができる。
近年の研究では、積分確率測度(IPM)、例えば1-ワッサーシュタイン測度に基づくWGANに基づくGANの統計的一貫性が証明されている。
IPMは、微分器の空間上の線形汎函数(期待の差)を最適化することによって定義される。
より大きな GAN のクラスは、(f,\Gamma)$-divergences を用いて構成することができ、これらは IPM と $f$-divergences (例えば、KL や $\alpha$-divergences) の間の一般化と補間を行う。
$(f,\Gamma)$-GANのインスタンスは、多くのアプリケーションで改善されたパフォーマンスを示すことが示されている。
本研究では、一般の$f$と$\Gamma$に対する$(f,\Gamma)$-GANsの統計的一貫性について研究する。
具体的には、有限サンプル濃度の不等式を導出する。
これらの導出は、目的関数の非線形性による新しい議論を必要とする。
本研究は, IPM-GANs の既知値に対して, この理論の適用範囲を大幅に広げるとともに, 適切な限界を達成できることを実証する。
Generative adversarial networks (GANs) are unsupervised learning methods for training a generator distribution to produce samples that approximate those drawn from a target distribution. Many such methods can be formulated as minimization of a metric or divergence. Recent works have proven the statistical consistency of GANs that are based on integral probability metrics (IPMs), e.g., WGAN which is based on the 1-Wasserstein metric. IPMs are defined by optimizing a linear functional (difference of expectations) over a space of discriminators. A much larger class of GANs, which allow for the use of nonlinear objective functionals, can be constructed using $(f,\Gamma)$-divergences; these generalize and interpolate between IPMs and $f$-divergences (e.g., KL or $\alpha$-divergences). Instances of $(f,\Gamma)$-GANs have been shown to exhibit improved performance in a number of applications. In this work we study the statistical consistency of $(f,\Gamma)$-GANs for general $f$ and $\Gamma$. Specifically, we derive finite-sample concentration inequalities. These derivations require novel arguments due to nonlinearity of the objective functional. We demonstrate that our new results reduce to the known results for IPM-GANs in the appropriate limit while also significantly extending the domain of applicability of this theory. | 翻訳日:2024-06-25 13:46:06 公開日:2024-06-24 |
# 復号化からメタ生成へ:大規模言語モデルのための推論時間アルゴリズム
From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models ( http://arxiv.org/abs/2406.16838v1 ) ライセンス: Link先を確認 | Sean Welleck, Amanda Bertsch, Matthew Finlayson, Hailey Schoelkopf, Alex Xie, Graham Neubig, Ilia Kulikov, Zaid Harchaoui, | (参考訳) 大規模言語モデル(LLM)に関する現代の研究で最も顕著な発見の1つは、トレーニング中の計算のスケールアップがより良い結果をもたらすことである。
しかし、推論中に計算をスケールする利点にはあまり注意が向けられていない。
この調査は、これらの推論時間アプローチに焦点を当てる。
我々はトークンレベルの生成アルゴリズム、メタジェネレーションアルゴリズム、効率的な生成という3つの領域を統一的な数学的定式化の下で探索する。
トークンレベルの生成アルゴリズムは、しばしば復号アルゴリズムと呼ばれ、一度に1つのトークンをサンプリングするか、トークンレベルの検索空間を構築して出力を選択する。
これらの手法は典型的には、言語モデルのロジット、次のトーケン分布、確率スコアへのアクセスを前提としている。
メタジェネレーションアルゴリズムは部分的または完全なシーケンスで動作し、ドメイン知識を取り入れ、バックトラックを可能にし、外部情報を統合する。
効率的な生成方法は、トークンコストを削減し、生成速度を向上することを目的としている。
我々の調査は、従来の自然言語処理、現代のLLM、機械学習システムという3つの研究コミュニティの視点を統一する。
One of the most striking findings in modern research on large language models (LLMs) is that scaling up compute during training leads to better results. However, less attention has been given to the benefits of scaling compute during inference. This survey focuses on these inference-time approaches. We explore three areas under a unified mathematical formalism: token-level generation algorithms, meta-generation algorithms, and efficient generation. Token-level generation algorithms, often called decoding algorithms, operate by sampling a single token at a time or constructing a token-level search space and then selecting an output. These methods typically assume access to a language model's logits, next-token distributions, or probability scores. Meta-generation algorithms work on partial or full sequences, incorporating domain knowledge, enabling backtracking, and integrating external information. Efficient generation methods aim to reduce token costs and improve the speed of generation. Our survey unifies perspectives from three research communities: traditional natural language processing, modern LLMs, and machine learning systems. | 翻訳日:2024-06-25 13:46:06 公開日:2024-06-24 |
# データモデル(D3M):データ選択によるサブグループロバスト性の改善
Data Debiasing with Datamodels (D3M): Improving Subgroup Robustness via Data Selection ( http://arxiv.org/abs/2406.16846v1 ) ライセンス: Link先を確認 | Saachi Jain, Kimia Hamidieh, Kristian Georgiev, Andrew Ilyas, Marzyeh Ghassemi, Aleksander Madry, | (参考訳) 機械学習モデルは、トレーニング中に不足しているサブグループで失敗する可能性がある。
データセットバランシングのようなテクニックは、パフォーマンスの低いグループのパフォーマンスを改善することができるが、トレーニンググループアノテーションへのアクセスが必要であり、最終的にはデータセットの大部分を削除することができる。
本稿では,データモデルを用いたデータデバイアス(Data Debiasing with Datamodels, D3M)を提案する。
提案手法では,少数の例だけを取り除き,非バイアス型分類器を効率的に訓練することが可能であり,トレーニンググループアノテーションやハイパーパラメータチューニングを必要としない。
Machine learning models can fail on subgroups that are underrepresented during training. While techniques such as dataset balancing can improve performance on underperforming groups, they require access to training group annotations and can end up removing large portions of the dataset. In this paper, we introduce Data Debiasing with Datamodels (D3M), a debiasing approach which isolates and removes specific training examples that drive the model's failures on minority groups. Our approach enables us to efficiently train debiased classifiers while removing only a small number of examples, and does not require training group annotations or additional hyperparameter tuning. | 翻訳日:2024-06-25 13:46:06 公開日:2024-06-24 |
# 画像ヘイスタックにおける視覚的ニーズの喪失: 視覚言語モデルは、短所と長所で容易に抽出される
Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts ( http://arxiv.org/abs/2406.16851v1 ) ライセンス: Link先を確認 | Aditya Sharma, Michael Saxon, William Yang Wang, | (参考訳) 本稿では,視覚言語モデル(VLM)における長文抽出推論を動的に評価するためのベンチマーク・ジェネレータであるLoCoVQAを提案する。
LoCoVQAは、数理推論、VQA、および文字認識タスクのテスト例を拡張し、分布内および分布外の両方の画像からなる、ますます長い視覚的コンテキストを持つ。
これらのタスク全体では、視覚コンテキストの長さが大きくなるにつれて、多様なVLMが急速に性能を低下させ、しばしば顕著な指数的な減衰傾向を示す。
このテストは、VLMがクエリ(テキストドメインの言語モデル(LM)にとって非常に容易なタスク)に応答する際に、関係のない情報を無視できるかどうかを評価する。
We present LoCoVQA, a dynamic benchmark generator for evaluating long-context extractive reasoning in vision language models (VLMs). LoCoVQA augments test examples for mathematical reasoning, VQA, and character recognition tasks with increasingly long visual contexts composed of both in-distribution and out-of-distribution distractor images. Across these tasks, a diverse set of VLMs rapidly lose performance as the visual context length grows, often exhibiting a striking exponential decay trend. This test assesses how well VLMs can ignore irrelevant information when answering queries -- a task that is quite easy for language models (LMs) in the text domain -- demonstrating that current state-of-the-art VLMs lack this essential capability for many long-context applications. | 翻訳日:2024-06-25 13:46:06 公開日:2024-06-24 |
# EAGLE-2:動的ドラフト木を用いた言語モデルの高速推論
EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees ( http://arxiv.org/abs/2406.16858v1 ) ライセンス: Link先を確認 | Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang, | (参考訳) 現代の大規模言語モデル(LLM)による推論は高価で時間を要するものであり、投機的サンプリングは効果的な解であることが証明されている。
EAGLEのような投機的サンプリング手法の多くは静的なドラフトツリーを使用しており、ドラフトトークンの受け入れ率はそれらの位置のみに依存すると暗黙的に仮定している。
興味深いことに、ドラフトトークンの受け入れ率も文脈に依存していることがわかった。
本稿では,EAGLEをベースとしたEAGLE-2を提案する。
この改善は、ERGLEのドラフトモデルが十分に校正されているという事実を活用している。
EAGLE-2 の高速化比 3.05x-4.26x は EAGLE-1 よりも20%-40% 高速である。
EAGLE-2はまた、生成されたテキストの分布が変わらないことを保証する。
Inference with modern Large Language Models (LLMs) is expensive and time-consuming, and speculative sampling has proven to be an effective solution. Most speculative sampling methods such as EAGLE use a static draft tree, implicitly assuming that the acceptance rate of draft tokens depends only on their position. Interestingly, we found that the acceptance rate of draft tokens is also context-dependent. In this paper, building upon EAGLE, we propose EAGLE-2, which introduces a new technique of context-aware dynamic draft tree into drafting modeling. This improvement leverages the fact that the draft model of EAGLE is well-calibrated: the confidence scores from the draft model approximate acceptance rates with small errors. We conducted extensive evaluations on three series of LLMs and six tasks, with EAGLE-2 achieving speedup ratios 3.05x-4.26x, which is 20%-40% faster than EAGLE-1. EAGLE-2 also ensures that the distribution of the generated text remains unchanged, making it a lossless acceleration algorithm. | 翻訳日:2024-06-25 13:46:06 公開日:2024-06-24 |
# 多部製品性テストは、二部製品性テストより容易である
Testing multipartite productness is easier than testing bipartite productness ( http://arxiv.org/abs/2406.16827v1 ) ライセンス: Link先を確認 | Benjamin D. M. Jones, Ashley Montanaro, | (参考訳) 入力状態がこの性質を持つか、この性質を持つ任意の状態からトレース距離で$\epsilon$-farであるという約束を条件として、ある二分法で生成される多部量子状態の性質をテストするのに必要なコピー数(すなわち、真の多部量子状態は絡み合わない)の低い境界を証明する。
固定された$\epsilon \leq \frac{1}{2}$に対して、$O(n / \epsilon^2)$コピーは十分であることを示す。
我々の証明手法は、このような状態に対する一様ランダムなアンサンブルを考慮し、コピー数が少なくとも$\Omega (n / \log n)$でない限り、これらのアンサンブル間のトレース距離が十分に大きい$n$に対して任意に小さくなることを示す。
本稿では, グラフ状態のテストと, エンタングルメントの一般化幾何測度を計算することの意味について論じる。
We prove a lower bound on the number of copies needed to test the property of a multipartite quantum state being product across some bipartition (i.e. not genuinely multipartite entangled), given the promise that the input state either has this property or is $\epsilon$-far in trace distance from any state with this property. We show that $\Omega(n / \log n)$ copies are required (for fixed $\epsilon \leq \frac{1}{2}$), complementing a previous result that $O(n / \epsilon^2)$ copies are sufficient. Our proof technique proceeds by considering uniformly random ensembles over such states, and showing that the trace distance between these ensembles becomes arbitrarily small for sufficiently large $n$ unless the number of copies is at least $\Omega (n / \log n)$. We discuss implications for testing graph states and computing the generalised geometric measure of entanglement. | 翻訳日:2024-06-25 13:36:22 公開日:2024-06-24 |
# NLIによるFactual Entailmentの探索 : ニュースメディアによる研究
Exploring Factual Entailment with NLI: A News Media Study ( http://arxiv.org/abs/2406.16842v1 ) ライセンス: Link先を確認 | Guy Mor-Lan, Effi Levi, | (参考訳) 本稿では, 事実性と自然言語推論(NLI)の関係を, ニュース記事から自然発生文のデータセットをアノテートするために, FactRelを導入して検討する。
分析の結果,84%の事実支援ペアと63%の事実抑制ペアは,それぞれNLIの含意や矛盾に比例せず,事実関係がメディアの話題の分析に適していることが示唆された。
我々は,新しいデータセットをペアで分類するモデルを用いて実験を行い,いくつかの場合において,注釈付きデータセットに基づいてGPT-4で合成データを生成することにより,性能が向上することを示した。
驚くべきことに、GPT-4による少数ショット学習は、ラベル付きデータセットでトレーニングされた中型LM(DeBERTa)と同等に強力な結果をもたらす。
これらの結果は、この課題が世界知識と高度な推論能力の両方に根本的な依存があることを仮定する。
We explore the relationship between factuality and Natural Language Inference (NLI) by introducing FactRel -- a novel annotation scheme that models \textit{factual} rather than \textit{textual} entailment, and use it to annotate a dataset of naturally occurring sentences from news articles. Our analysis shows that 84\% of factually supporting pairs and 63\% of factually undermining pairs do not amount to NLI entailment or contradiction, respectively, suggesting that factual relationships are more apt for analyzing media discourse. We experiment with models for pairwise classification on the new dataset, and find that in some cases, generating synthetic data with GPT-4 on the basis of the annotated dataset can improve performance. Surprisingly, few-shot learning with GPT-4 yields strong results on par with medium LMs (DeBERTa) trained on the labelled dataset. We hypothesize that these results indicate the fundamental dependence of this task on both world knowledge and advanced reasoning abilities. | 翻訳日:2024-06-25 13:36:22 公開日:2024-06-24 |
# RaTEScore: 放射線学レポート生成のためのメトリクス
RaTEScore: A Metric for Radiology Report Generation ( http://arxiv.org/abs/2406.16845v1 ) ライセンス: Link先を確認 | Weike Zhao, Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie, | (参考訳) 本稿では,Radiological Report (Text) Evaluation (RaTEScore) と呼ばれる,AIモデルによる医療報告の質を評価するための新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
技術的には、包括的医療用NERデータセットであるRaTE-NERを開発し、この目的でNERモデルを訓練した。
このモデルにより、複雑な放射線学的報告を構成医療機関に分解することができる。
計量そのものは、言語モデルから得られたエンティティ埋め込みの類似性を比較し、それらのタイプと臨床的意義との関連性に基づいて導かれる。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
This paper introduces a novel, entity-aware metric, termed as Radiological Report (Text) Evaluation (RaTEScore), to assess the quality of medical reports generated by AI models. RaTEScore emphasizes crucial medical entities such as diagnostic outcomes and anatomical details, and is robust against complex medical synonyms and sensitive to negation expressions. Technically, we developed a comprehensive medical NER dataset, RaTE-NER, and trained an NER model specifically for this purpose. This model enables the decomposition of complex radiological reports into constituent medical entities. The metric itself is derived by comparing the similarity of entity embeddings, obtained from a language model, based on their types and relevance to clinical significance. Our evaluations demonstrate that RaTEScore aligns more closely with human preference than existing metrics, validated both on established public benchmarks and our newly proposed RaTE-Eval benchmark. | 翻訳日:2024-06-25 13:36:22 公開日:2024-06-24 |
# 空間相関格子干渉計の実現
Realizing a spatially correlated lattice interferometer ( http://arxiv.org/abs/2406.16847v1 ) ライセンス: Link先を確認 | Peng Peng, Dekai Mao, Yi Liang, Guoling Yin, Hongmian Shui, Bo Song, Xiaoji Zhou, | (参考訳) 原子干渉計は、物理定数を測定し、前例のない精度で基礎物理学を検証するための強力なツールを提供する。
従来の原子干渉計は2つの経路の位相差に焦点を合わせ、固定されたコヒーレンスを持つ物質波を利用する。
本稿では、移動光学格子を重力方向に装ったコヒーレント物質波のラムゼー・ボーデ波干渉計の実現について報告し、調整可能なコヒーレンスを持つ複数の経路に沿った干渉を探索する。
格子内および2本の腕の間における原子の空間的相関を干渉計により検討し,ボース・アインシュタイン凝縮体の長距離コヒーレンスの性質により出現する多重干渉ピークを観測した。
この結果は理論シミュレーションとよく一致し、超低温原子を用いた高精度干渉計の道を開いた。
Atom interferometers provide a powerful tool for measuring physical constants and testifying fundamental physics with unprecedented precision. Conventional atom interferometry focuses on the phase difference between two paths and utilizes matter waves with fixed coherence. Here, we report on realizing a Ramsey-Bord\'e interferometer of coherent matter waves dressed by a moving optical lattice in the gravity direction, and explore the resulting interference along multiple paths with tunable coherence. We investigate spatial correlations of atoms both within the lattice and between two arms by interferometry, and observe the emerging multiple interference peaks owing to the long-range coherence nature of the Bose-Einstein condensate. Our findings agree well with theoretical simulations, paving the way for high-precision interferometry with ultracold atoms. | 翻訳日:2024-06-25 13:36:22 公開日:2024-06-24 |
# 小児脳腫瘍切除における教師なし領域適応
Unsupervised Domain Adaptation for Pediatric Brain Tumor Segmentation ( http://arxiv.org/abs/2406.16848v1 ) ライセンス: Link先を確認 | Jingru Fu, Simone Bendazzoli, Örjan Smedby, Rodrigo Moreno, | (参考訳) 成体グリオーマに対する正確な自動セグメンテーションモデルの構築に向けた重要な進歩がなされている。
しかし、これらのモデルの性能は、画像と臨床の違い(ドメインシフト)により、小児グリオーマに適用すると劣化することが多い。
小児グリオーマに対する十分な注釈データを得ることは、まれな性質のため、通常困難である。
また、手動のアノテーションは少なく、高価である。
本研究では,成人グリオーマ(ソースドメイン)から小児グリオーマ(ターゲットドメイン)への教師なしドメイン適応を実現するためのドメイン適応nnU-Net(DA-nnU-Net)を提案する。
具体的には、勾配反転層(GRL)に接続されたドメイン分類器をバックボーンnnU-Netに追加する。
分類器が非常に高い精度に達すると、GRLは、ソースドメイン上のセグメンテーション精度を維持しながら、分類器からセグメンテーションモデルへドメイン不変の機能を転送する目的によって活性化される。
分類器の精度は徐々に低下する。
ターゲットドメインではアノテーションは使用されない。
また,BraTS-Adult glioma (N=1251)とBraTS-PED glioma (N=99。
提案法は,成体データのみを用いたモデルと比較して,腫瘍コア(TC)領域における顕著なパフォーマンス向上を示す:Diceスコアが32%,Hausdorff距離が95%,およびHausdorff距離が20。
さらに,本手法は,TC領域の2つのデータセットから手動アノテーションを用いた実効上界モデルと比較して,統計的に有意な差は認められなかった。
コードはhttps://github.com/Fjr9516/DA_nnUNet.comで共有されている。
Significant advances have been made toward building accurate automatic segmentation models for adult gliomas. However, the performance of these models often degrades when applied to pediatric glioma due to their imaging and clinical differences (domain shift). Obtaining sufficient annotated data for pediatric glioma is typically difficult because of its rare nature. Also, manual annotations are scarce and expensive. In this work, we propose Domain-Adapted nnU-Net (DA-nnUNet) to perform unsupervised domain adaptation from adult glioma (source domain) to pediatric glioma (target domain). Specifically, we add a domain classifier connected with a gradient reversal layer (GRL) to a backbone nnU-Net. Once the classifier reaches a very high accuracy, the GRL is activated with the goal of transferring domain-invariant features from the classifier to the segmentation model while preserving segmentation accuracy on the source domain. The accuracy of the classifier slowly degrades to chance levels. No annotations are used in the target domain. The method is compared to 8 different supervised models using BraTS-Adult glioma (N=1251) and BraTS-PED glioma data (N=99). The proposed method shows notable performance enhancements in the tumor core (TC) region compared to the model that only uses adult data: ~32% better Dice scores and ~20 better 95th percentile Hausdorff distances. Moreover, our unsupervised approach shows no statistically significant difference compared to the practical upper bound model using manual annotations from both datasets in TC region. The code is shared at https://github.com/Fjr9516/DA_nnUNet. | 翻訳日:2024-06-25 13:36:22 公開日:2024-06-24 |
# 完全からノイズの多い世界シミュレーション:SLAMロバストネスベンチマークのためのカスタマイズ可能なマルチモーダル摂動
From Perfect to Noisy World Simulation: Customizable Embodied Multi-modal Perturbations for SLAM Robustness Benchmarking ( http://arxiv.org/abs/2406.16850v1 ) ライセンス: Link先を確認 | Xiaohao Xu, Tianyi Zhang, Sibo Wang, Xiang Li, Yongqi Chen, Ye Li, Bhiksha Raj, Matthew Johnson-Roberson, Xiaonan Huang, | (参考訳) エージェントは、非構造環境で動作するために堅牢なナビゲーションシステムを必要とし、エージェントの自律性に不可欠な同時局在マッピング(SLAM)モデルの堅牢性を実現する。
実世界のデータセットは貴重なものだが、シミュレーションベースのベンチマークは堅牢性評価のためのスケーラブルなアプローチを提供する。
しかし、多種多様な摂動を持つ困難で制御可能なノイズの多い世界を作ることは、いまだ探索されていない。
そこで本研究では,様々な摂動に対するマルチモーダルSLAMモデルのレジリエンスを評価することを目的とした,ノイズの多いデータ合成のための,新しいカスタマイズ可能なパイプラインを提案する。
本発明のパイプラインは、そのソースおよび伝播順序によって分類された、具体化されたマルチモーダル(特にRGB−D)センシングのための、センサ及び運動摂動の包括的分類と、手続き的合成を可能にする。
また、これらの摂動を合成するためのツールボックスも提供し、クリーン環境をノイズの多いシミュレーションに変換することができる。
パイプラインを利用して、様々な摂動型を含む大規模ノイズ・レプリカベンチマークをインスタンス化し、既存のRGB-D SLAMモデルのリスク許容性を評価する。
我々の広範な分析により、標準ベンチマークでの精度が証明されているにもかかわらず、ニューラル(NeRFとガウススプラッティングに基づく)モデルと非ニューラルSLAMモデルの障害に対する感受性が明らかになった。
私たちのコードはhttps://github.com/Xiaohao-Xu/SLAM-under-Perturbationで公開されています。
Embodied agents require robust navigation systems to operate in unstructured environments, making the robustness of Simultaneous Localization and Mapping (SLAM) models critical to embodied agent autonomy. While real-world datasets are invaluable, simulation-based benchmarks offer a scalable approach for robustness evaluations. However, the creation of a challenging and controllable noisy world with diverse perturbations remains under-explored. To this end, we propose a novel, customizable pipeline for noisy data synthesis, aimed at assessing the resilience of multi-modal SLAM models against various perturbations. The pipeline comprises a comprehensive taxonomy of sensor and motion perturbations for embodied multi-modal (specifically RGB-D) sensing, categorized by their sources and propagation order, allowing for procedural composition. We also provide a toolbox for synthesizing these perturbations, enabling the transformation of clean environments into challenging noisy simulations. Utilizing the pipeline, we instantiate the large-scale Noisy-Replica benchmark, which includes diverse perturbation types, to evaluate the risk tolerance of existing advanced RGB-D SLAM models. Our extensive analysis uncovers the susceptibilities of both neural (NeRF and Gaussian Splatting -based) and non-neural SLAM models to disturbances, despite their demonstrated accuracy in standard benchmarks. Our code is publicly available at https://github.com/Xiaohao-Xu/SLAM-under-Perturbation. | 翻訳日:2024-06-25 13:36:22 公開日:2024-06-24 |
# 言語から視覚への長期的文脈伝達
Long Context Transfer from Language to Vision ( http://arxiv.org/abs/2406.16852v1 ) ライセンス: Link先を確認 | Peiyuan Zhang, Kaichen Zhang, Bo Li, Guangtao Zeng, Jingkang Yang, Yuanhan Zhang, Ziyue Wang, Haoran Tan, Chunyuan Li, Ziwei Liu, | (参考訳) ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
多くの研究は、ビジュアルリサンプラーを使用して視覚トークンの数を減らすことでこの問題に対処している。
本稿では,言語モデルの観点から,この問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
我々はこの現象を長期の文脈伝達と呼び、その特性を慎重に改善する。
視覚モダリティにおけるLMMの長期文脈への一般化能力を効果的に測定するために,言語モデルのNIAHテストにインスパイアされた純粋に合成された長視野ベンチマークであるV-NIAH(Visual Needle-In-A-Haystack)を開発した。
提案するLong Video Assistant(LongVA)は,2000フレーム以上を処理できる。
コンテキスト長が拡張されたLongVAは、7Bスケールモデルにおいて、より多くの入力フレームを高密度にサンプリングすることで、ビデオMMEの最先端性能を実現する。
私たちの研究はhttps://github.com/EvolvingLMMs-Lab/LongVAで公開されています。
Video sequences offer valuable temporal information, but existing large multimodal models (LMMs) fall short in understanding extremely long videos. Many works address this by reducing the number of visual tokens using visual resamplers. Alternatively, in this paper, we approach this problem from the perspective of the language model. By simply extrapolating the context length of the language backbone, we enable LMMs to comprehend orders of magnitude more visual tokens without any video training. We call this phenomenon long context transfer and carefully ablate its properties. To effectively measure LMMs' ability to generalize to long contexts in the vision modality, we develop V-NIAH (Visual Needle-In-A-Haystack), a purely synthetic long vision benchmark inspired by the language model's NIAH test. Our proposed Long Video Assistant (LongVA) can process 2000 frames or over 200K visual tokens without additional complexities. With its extended context length, LongVA achieves state-of-the-art performance on Video-MME among 7B-scale models by densely sampling more input frames. Our work is open-sourced at https://github.com/EvolvingLMMs-Lab/LongVA. | 翻訳日:2024-06-25 13:36:22 公開日:2024-06-24 |
# GeoMFormer: 幾何学的分子表現学習のための汎用アーキテクチャ
GeoMFormer: A General Architecture for Geometric Molecular Representation Learning ( http://arxiv.org/abs/2406.16853v1 ) ライセンス: Link先を確認 | Tianlang Chen, Shengjie Luo, Di He, Shuxin Zheng, Tie-Yan Liu, Liwei Wang, | (参考訳) 量子力学における中心的なトピックである分子モデリングは、特性を正確に計算し、分子系の挙動をシミュレートすることを目的としている。
分子モデルは物理法則によって制御され、回転と変換の座標に不変や等式などの幾何学的制約を課す。
これらの制約の下で分子表現を学習するために多くのディープラーニングアプローチが開発されているが、そのほとんどはヒューリスティックで高価なモジュールの上に構築されている。
我々は、不変性と同変性の両方を学ぶための、汎用的で柔軟なフレームワークが強く必要であると主張する。
本研究では,この目的を達成するためにGeoMFormerと呼ばれるトランスフォーマーに基づく新しい分子モデルを提案する。
標準のTransformerモジュールを使うことで、不変および同変表現の維持と学習のために2つの別々のストリームが開発される。
慎重に設計されたクロスアテンションモジュールは2つのストリームをブリッジし、情報融合と各ストリームにおける幾何学的モデリングの強化を可能にする。
汎用的でフレキシブルなアーキテクチャとして,GeoMFormerの特別なインスタンス化として,従来のアーキテクチャの多くを見ることができることを示す。
大規模実験によりGeoMFormerのパワーを実証した。
すべての実験結果から、GeoMFormerは、異なるタイプとスケールの不変タスクと同変タスクの両方において、強い性能を達成していることがわかる。
コードとモデルはhttps://github.com/c-tl/GeoMFormer.comで公開される。
Molecular modeling, a central topic in quantum mechanics, aims to accurately calculate the properties and simulate the behaviors of molecular systems. The molecular model is governed by physical laws, which impose geometric constraints such as invariance and equivariance to coordinate rotation and translation. While numerous deep learning approaches have been developed to learn molecular representations under these constraints, most of them are built upon heuristic and costly modules. We argue that there is a strong need for a general and flexible framework for learning both invariant and equivariant features. In this work, we introduce a novel Transformer-based molecular model called GeoMFormer to achieve this goal. Using the standard Transformer modules, two separate streams are developed to maintain and learn invariant and equivariant representations. Carefully designed cross-attention modules bridge the two streams, allowing information fusion and enhancing geometric modeling in each stream. As a general and flexible architecture, we show that many previous architectures can be viewed as special instantiations of GeoMFormer. Extensive experiments are conducted to demonstrate the power of GeoMFormer. All empirical results show that GeoMFormer achieves strong performance on both invariant and equivariant tasks of different types and scales. Code and models will be made publicly available at https://github.com/c-tl/GeoMFormer. | 翻訳日:2024-06-25 13:36:22 公開日:2024-06-24 |
# DreamBench++: パーソナライズされた画像生成のための人為的なベンチマーク
DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation ( http://arxiv.org/abs/2406.16855v1 ) ライセンス: Link先を確認 | Yuang Peng, Yuxin Cui, Haomiao Tang, Zekun Qi, Runpei Dong, Jing Bai, Chunrui Han, Zheng Ge, Xiangyu Zhang, Shu-Tao Xia, | (参考訳) パーソナライズされた画像生成は、創造的にパーソナライズされたコンテンツを生成するという素晴らしい機能のために、日々の作業や生活で人を助けることに大きな期待を持っています。
しかしながら、現在の評価は自動化されているが、人間と不一致であるか、時間と費用のかかる人間の評価を必要とする。
本稿では,先進的なマルチモーダルGPTモデルによって自動化された人間対応ベンチマークであるDreamBench++を紹介する。
具体的には,GPTを人力・自己整合両立させ,タスク強化を施すプロンプトを体系的に設計する。
さらに,多様な画像とプロンプトからなる包括的データセットを構築する。
7つのモダンな生成モデルをベンチマークすることで、DreamBench++がはるかに人道的な評価をもたらし、革新的な発見によってコミュニティを後押しすることを示した。
Personalized image generation holds great promise in assisting humans in everyday work and life due to its impressive function in creatively generating personalized content. However, current evaluations either are automated but misalign with humans or require human evaluations that are time-consuming and expensive. In this work, we present DreamBench++, a human-aligned benchmark automated by advanced multimodal GPT models. Specifically, we systematically design the prompts to let GPT be both human-aligned and self-aligned, empowered with task reinforcement. Further, we construct a comprehensive dataset comprising diverse images and prompts. By benchmarking 7 modern generative models, we demonstrate that DreamBench++ results in significantly more human-aligned evaluation, helping boost the community with innovative findings. | 翻訳日:2024-06-25 13:36:22 公開日:2024-06-24 |
# Cambrian-1:マルチモーダルLLMの完全なオープン・ビジョン中心探索
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs ( http://arxiv.org/abs/2406.16860v1 ) ライセンス: Link先を確認 | Shengbang Tong, Ellis Brown, Penghao Wu, Sanghyun Woo, Manoj Middepogu, Sai Charitha Akula, Jihan Yang, Shusheng Yang, Adithya Iyer, Xichen Pan, Austin Wang, Rob Fergus, Yann LeCun, Saining Xie, | (参考訳) 視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
より強力な言語モデルはマルチモーダル能力を高めることができるが、視覚コンポーネントの設計選択はしばしば不十分に探索され、視覚表現学習研究から切り離されている。
このギャップは、現実世界のシナリオにおける正確なセンサーの接地を妨げる。
本研究は,20以上の視覚エンコーダを用いた実験に基づいて,LLMとビジュアルインストラクションチューニングを用いて様々な視覚表現の評価を行い,異なるモデルやアーキテクチャ(自己監督型,強く監督型,あるいは組み合わせ型)に対する新たな洞察を提供する。
既存のMLLMベンチマークを批判的に検討し、様々なタスクの結果の統合と解釈の難しさに対処し、新しいビジョン中心のベンチマークCV-Benchを導入する。
本研究では,高分解能な視覚特徴をLCMと統合した動的かつ空間的に認識可能なコネクタである空間的視覚アグリゲータ (SVA) を提案する。
さらに,公開資料からの高品質な視覚指導調整データのキュレーションについて検討し,データソースのバランスと分配率の重要性を強調した。
総括的に、Cambrian-1は最先端のパフォーマンスを達成するだけでなく、命令調整されたMLLMのための包括的でオープンなクックブックとしても機能する。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
私たちは、マルチモーダルシステムと視覚表現学習の進歩を刺激し、加速することを願っています。
We introduce Cambrian-1, a family of multimodal LLMs (MLLMs) designed with a vision-centric approach. While stronger language models can enhance multimodal capabilities, the design choices for vision components are often insufficiently explored and disconnected from visual representation learning research. This gap hinders accurate sensory grounding in real-world scenarios. Our study uses LLMs and visual instruction tuning as an interface to evaluate various visual representations, offering new insights into different models and architectures -- self-supervised, strongly supervised, or combinations thereof -- based on experiments with over 20 vision encoders. We critically examine existing MLLM benchmarks, addressing the difficulties involved in consolidating and interpreting results from various tasks, and introduce a new vision-centric benchmark, CV-Bench. To further improve visual grounding, we propose the Spatial Vision Aggregator (SVA), a dynamic and spatially-aware connector that integrates high-resolution vision features with LLMs while reducing the number of tokens. Additionally, we discuss the curation of high-quality visual instruction-tuning data from publicly available sources, emphasizing the importance of data source balancing and distribution ratio. Collectively, Cambrian-1 not only achieves state-of-the-art performance but also serves as a comprehensive, open cookbook for instruction-tuned MLLMs. We provide model weights, code, supporting tools, datasets, and detailed instruction-tuning and evaluation recipes. We hope our release will inspire and accelerate advancements in multimodal systems and visual representation learning. | 翻訳日:2024-06-25 13:36:22 公開日:2024-06-24 |
# 量子コンピュータは何でもできるのか?
Can Quantum Computers Do Nothing? ( http://arxiv.org/abs/2406.16861v1 ) ライセンス: Link先を確認 | Alexander Nico-Katz, Nathan Keenan, John Goold, | (参考訳) 量子コンピューティングプラットフォームには矛盾するエンジニアリング要件がある: 量子ビットはアイドリング(「何もしない」)時に相互の相互作用から保護されなければならない。
アイドリングキュービットが十分に保護されていない場合、情報は近隣のキュービットに'リーク'し、非局所分布となり、最終的にはアクセス不能となる。
このジレンマに対する候補解には、パターン化強化多体局在、動的デカップリング、能動誤差補正などがある。
しかし、内部ダイナミクスによる情報損失を、eg SPAMエラーや強調時間と同じような方法で実際に定量化する情報理論プロトコルは存在しない。
本研究では、このビット単位のアイドル情報損失を量子情報理論によるツールの活用に基づいて定量化する、スケーラブルでフレキシブルなデバイス非特異なプロトコルを開発する。
我々はこのプロトコルを、IBMのFalcon 5.11シリーズの全プロセッサ上で4ヶ月にわたって行われた3500以上の実験(2023年 - 2024年)で実装した。
ショット数からゼロショットノイズへのスケーリング解析により、他の誤差源を考慮し、結果を外挿した後、アイドル情報漏洩を高い統計的意義で検出する。
この研究は、保護操作ジレンマを調査し、最終的に解決できる、しっかりとした定量的基盤を提供する。
Quantum computing platforms are subject to contradictory engineering requirements: qubits must be protected from mutual interactions when idling ('doing nothing'), and strongly interacting when in operation. If idling qubits are not sufficiently protected, information can 'leak' into neighbouring qubits, become non-locally distributed, and ultimately inaccessible. Candidate solutions to this dilemma include patterning-enhanced many-body localization, dynamical decoupling, and active error correction. However, no information-theoretic protocol exists to actually quantify this information loss due to internal dynamics in a similar way to e.g. SPAM errors or dephasing times. In this work, we develop a scalable, flexible, device non-specific protocol for quantifying this bitwise idle information loss based on the exploitation of tools from quantum information theory. We implement this protocol in over 3500 experiments carried out across 4 months (Dec 2023 - Mar 2024) on IBM's entire Falcon 5.11 series of processors. After accounting for other sources of error, and extrapolating results via a scaling analysis in shot count to zero shot noise, we detect idle information leakage to a high degree of statistical significance. This work thus provides a firm quantitative foundation from which the protection-operation dilemma can be investigated and ultimately resolved. | 翻訳日:2024-06-25 13:36:22 公開日:2024-06-24 |
# Dreamitate: ビデオ生成による実世界のビジュモータ政策学習
Dreamitate: Real-World Visuomotor Policy Learning via Video Generation ( http://arxiv.org/abs/2406.16862v1 ) ライセンス: Link先を確認 | Junbang Liang, Ruoshi Liu, Ege Ozguroglu, Sruthi Sudhakar, Achal Dave, Pavel Tokmakov, Shuran Song, Carl Vondrick, | (参考訳) 操作における重要な課題は、多様な視覚環境に堅牢に一般化できるポリシーを学ぶことである。
堅牢なポリシーを学ぶための有望なメカニズムは、大規模なインターネットビデオデータセットで事前訓練されたビデオ生成モデルを活用することである。
本稿では,与えられたタスクの人間による実演の映像拡散モデルを微調整するビジュモータポリシー学習フレームワークを提案する。
テスト時には,新しいシーンの画像に条件付けされたタスクの実行例を生成し,この合成実行を直接使用してロボットを制御する。
私たちの重要な洞察は、共通のツールを使用することで、人間の手とロボットマニピュレータの間のエンボディメントギャップを、力ずくで埋めることができるということです。
複雑化の4つの課題に対するアプローチを評価し,インターネット規模の生成モデルを活用することで,学習方針が既存の行動クローニング手法よりもはるかに高い一般化を実現できることを実証した。
A key challenge in manipulation is learning a policy that can robustly generalize to diverse visual environments. A promising mechanism for learning robust policies is to leverage video generative models, which are pretrained on large-scale datasets of internet videos. In this paper, we propose a visuomotor policy learning framework that fine-tunes a video diffusion model on human demonstrations of a given task. At test time, we generate an example of an execution of the task conditioned on images of a novel scene, and use this synthesized execution directly to control the robot. Our key insight is that using common tools allows us to effortlessly bridge the embodiment gap between the human hand and the robot manipulator. We evaluate our approach on four tasks of increasing complexity and demonstrate that harnessing internet-scale generative models allows the learned policy to achieve a significantly higher degree of generalization than existing behavior cloning approaches. | 翻訳日:2024-06-25 13:36:22 公開日:2024-06-24 |
# FreeTraj:ビデオ拡散モデルにおけるチューニング自由軌道制御
FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models ( http://arxiv.org/abs/2406.16863v1 ) ライセンス: Link先を確認 | Haonan Qiu, Zhaoxi Chen, Zhouxia Wang, Yingqing He, Menghan Xia, Ziwei Liu, | (参考訳) 拡散モデルはビデオ生成において顕著な能力を示しており、生成プロセスに軌道制御を導入することにさらに関心を喚起している。
既存の研究は主にトレーニングベースの手法(例えば条件付きアダプタ)に焦点を当てているが、拡散モデル自体がトレーニングを必要とせずに生成したコンテンツの適切な制御を可能にすると論じている。
本研究では、ノイズ構成とアテンション計算の両方に関するガイダンスを付与することにより、トラジェクトリ制御可能なビデオ生成を実現するためのチューニング不要のフレームワークを提案する。
具体的には
1) 最初はいくつかのインストラクティブな現象を示し, 初期雑音が生成したコンテンツの運動軌跡に与える影響を解析した。
次に,ノイズサンプリングやアテンション機構の変更による軌道制御を可能にする,チューニング不要な手法であるFreeTrajを提案する。
さらに、FreeTrajを拡張して、制御可能なトラジェクトリによる長大なビデオ生成を容易にする。
これらの設計により、ユーザは手動で軌跡を提供する柔軟性や、LLM軌跡プランナーが自動生成する軌跡を選択できる。
ビデオ拡散モデルの軌道制御性向上に本手法の有効性を検証した。
Diffusion model has demonstrated remarkable capability in video generation, which further sparks interest in introducing trajectory control into the generation process. While existing works mainly focus on training-based methods (e.g., conditional adapter), we argue that diffusion model itself allows decent control over the generated content without requiring any training. In this study, we introduce a tuning-free framework to achieve trajectory-controllable video generation, by imposing guidance on both noise construction and attention computation. Specifically, 1) we first show several instructive phenomenons and analyze how initial noises influence the motion trajectory of generated content. 2) Subsequently, we propose FreeTraj, a tuning-free approach that enables trajectory control by modifying noise sampling and attention mechanisms. 3) Furthermore, we extend FreeTraj to facilitate longer and larger video generation with controllable trajectories. Equipped with these designs, users have the flexibility to provide trajectories manually or opt for trajectories automatically generated by the LLM trajectory planner. Extensive experiments validate the efficacy of our approach in enhancing the trajectory controllability of video diffusion models. | 翻訳日:2024-06-25 13:36:22 公開日:2024-06-24 |
# StableNormal: 安定およびシャープ正規化における拡散変動の低減
StableNormal: Reducing Diffusion Variance for Stable and Sharp Normal ( http://arxiv.org/abs/2406.16864v1 ) ライセンス: Link先を確認 | Chongjie Ye, Lingteng Qiu, Xiaodong Gu, Qi Zuo, Yushuang Wu, Zilong Dong, Liefeng Bo, Yuliang Xiu, Xiaoguang Han, | (参考訳) この研究は、単色入力(画像やビデオなど)から高画質表面の正規分布推定を行うという課題に対処する。
しかし、以前の試みは、Image2Normalタスクの決定論的性質と矛盾する確率論的推論と、見積もりプロセスを遅くするコストのかかるステップに依然として苦労している。
提案手法であるStableNormalは, 拡散過程の確率性を緩和し, 推測分散を低減し, 付加的なアンサンブル過程を伴わずに「安定とシャープ」の正規推定を導出する。
StableNormalは、極端な照明、ぼやけ、低品質といった、困難な画像条件下で、堅牢に機能する。
また、透明で反射的な表面に対しても頑丈であり、多くの物体が散らばっている。
具体的には、StableNormalは1ステップの正規推定器(YOSO)から始まり、比較的粗いが信頼性の高い最初の正規推定を導出し、その後、正規を洗練して幾何学的詳細を復元する意味誘導精製プロセス(SG-DRN)を用いる。
StableNormalの有効性は、DIODE-indoor、iBims、ScannetV2、NYUv2といった標準データセットや、表面再構成や正規化といったさまざまな下流タスクの競合パフォーマンスを通じて実証されている。
これらの結果は、StableNormalが正確な正規推定のために「安定性」と「シャープネス」の両方を保っていることを証明している。
StableNormalは、決定論的推定のために拡散先行を再利用しようとする赤ちゃんの試みである。
これを民主化するために、hf.co/Stable-Xでコードとモデルが公開されている。
This work addresses the challenge of high-quality surface normal estimation from monocular colored inputs (i.e., images and videos), a field which has recently been revolutionized by repurposing diffusion priors. However, previous attempts still struggle with stochastic inference, conflicting with the deterministic nature of the Image2Normal task, and costly ensembling step, which slows down the estimation process. Our method, StableNormal, mitigates the stochasticity of the diffusion process by reducing inference variance, thus producing "Stable-and-Sharp" normal estimates without any additional ensembling process. StableNormal works robustly under challenging imaging conditions, such as extreme lighting, blurring, and low quality. It is also robust against transparent and reflective surfaces, as well as cluttered scenes with numerous objects. Specifically, StableNormal employs a coarse-to-fine strategy, which starts with a one-step normal estimator (YOSO) to derive an initial normal guess, that is relatively coarse but reliable, then followed by a semantic-guided refinement process (SG-DRN) that refines the normals to recover geometric details. The effectiveness of StableNormal is demonstrated through competitive performance in standard datasets such as DIODE-indoor, iBims, ScannetV2 and NYUv2, and also in various downstream tasks, such as surface reconstruction and normal enhancement. These results evidence that StableNormal retains both the "stability" and "sharpness" for accurate normal estimation. StableNormal represents a baby attempt to repurpose diffusion priors for deterministic estimation. To democratize this, code and models have been publicly available in hf.co/Stable-X | 翻訳日:2024-06-25 13:36:22 公開日:2024-06-24 |
# 大規模マルチモーダルモデルにおける参照表現の包括的評価の再検討
Revisiting Referring Expression Comprehension Evaluation in the Era of Large Multimodal Models ( http://arxiv.org/abs/2406.16866v1 ) ライセンス: Link先を確認 | Jierun Chen, Fangyun Wei, Jinjing Zhao, Sizhe Song, Bohuai Wu, Zhuoxuan Peng, S. -H. Gary Chan, Hongyang Zhang, | (参考訳) Referring Expression comprehension (REC)は、テキスト記述に基づいてターゲットインスタンスをローカライズする。
RECの最近の進歩は、CogVLMのような大規模なマルチモーダルモデル(LMM)によって推進され、RefCOCOでは92.44%の精度を達成した。
しかし、この研究では、既存のベンチマークであるRefCOCO、RefCOCO+、RefCOCOgがLMMの包括的能力を捉えているかどうかを疑問視する。
RefCOCO+は14%、RefCOCO+は24%、RefCOCOgは5%であり、評価の信頼性を損なう。
本稿では、問題のある事例を除外し、RECタスクを処理できる複数のLMMを再評価することにより、精度が大幅に向上し、ベンチマークノイズの影響を浮き彫りにすることで、この問題に対処する。
そこで本研究では,最新のRECモデルを評価するための総合RECベンチマークであるRef-L4を紹介する。
Ref-L4は4つの重要な特徴によって区別される。
1)45,341のアノテーション付き実質的なサンプルサイズ
2)365の異なる型とインスタンスのスケールが30から3,767まで様々である多種多様な対象分類
3) 平均24.2ワードの長文参照表現
4) 22,813種類の単語からなる広範囲な語彙。
我々は、Ref-L4上で24の大規模モデルを評価し、貴重な洞察を提供する。
RefCOCO、RefCOCO+、RefCOCOgのクリーンバージョン、および我々のRef-L4ベンチマークと評価コードもhttps://github.com/JierunChen/Ref-L4で入手できる。
Referring expression comprehension (REC) involves localizing a target instance based on a textual description. Recent advancements in REC have been driven by large multimodal models (LMMs) like CogVLM, which achieved 92.44% accuracy on RefCOCO. However, this study questions whether existing benchmarks such as RefCOCO, RefCOCO+, and RefCOCOg, capture LMMs' comprehensive capabilities. We begin with a manual examination of these benchmarks, revealing high labeling error rates: 14% in RefCOCO, 24% in RefCOCO+, and 5% in RefCOCOg, which undermines the authenticity of evaluations. We address this by excluding problematic instances and reevaluating several LMMs capable of handling the REC task, showing significant accuracy improvements, thus highlighting the impact of benchmark noise. In response, we introduce Ref-L4, a comprehensive REC benchmark, specifically designed to evaluate modern REC models. Ref-L4 is distinguished by four key features: 1) a substantial sample size with 45,341 annotations; 2) a diverse range of object categories with 365 distinct types and varying instance scales from 30 to 3,767; 3) lengthy referring expressions averaging 24.2 words; and 4) an extensive vocabulary comprising 22,813 unique words. We evaluate a total of 24 large models on Ref-L4 and provide valuable insights. The cleaned versions of RefCOCO, RefCOCO+, and RefCOCOg, as well as our Ref-L4 benchmark and evaluation code, are available at https://github.com/JierunChen/Ref-L4. | 翻訳日:2024-06-25 13:36:22 公開日:2024-06-24 |
# 量子後暗号の応用
Applications of Post-quantum Cryptography ( http://arxiv.org/abs/2406.13258v2 ) ライセンス: Link先を確認 | Emils Bagirovs, Grigory Provodin, Tuomo Sipola, Jari Hautamäki, | (参考訳) 量子コンピュータの絶えず進歩する能力により、複雑な数学問題に依存する従来の暗号システムは、予期せぬ脆弱性に遭遇する可能性がある。
暗号攻撃ではコスト非効率と見なされる通常のコンピュータとは異なり、量子コンピュータは計算速度において大きな利点がある。
この区別は、現在使われているアルゴリズムの安全性を低下させるか、あるいは完全に脆弱にする可能性があり、量子脅威に対する最も合理的な解決策として、量子後暗号(PQC)の探索を説得する。
このレビューは、PQCに関連するアプリケーション、メリット、課題に関する現在の情報を提供することを目的としている。
このレビューでは、2022年と2023年に制限された範囲の体系的なスクーピングのレビューを採用しており、この論文では科学雑誌に掲載された記事のみが使用された。
このレビューでは、様々な分野における量子コンピューティングの適用について論じている。
しかし,本論文の範囲はPQCの領域に限定された。
その後、格子ベース、ハッシュベース、コードベース、多変量多項式、等質暗号など様々なPQCアルゴリズムを解析する。
それぞれのアルゴリズムは、潜在的な応用、堅牢性、課題に基づいて判断される。
分析されたアルゴリズムはすべて、デジタルシグネチャ、通信チャネル、IoTといったアプリケーションにおいて、クォータ後の時代に期待されている。
さらに、いくつかのアルゴリズムは、銀行取引、通信、知的財産の領域で既に実装されている。
一方、それらの可能性にもかかわらず、これらのアルゴリズムは標準化の欠如、大量のストレージと計算能力を必要とし、何年もの暗号解析でしか発見できない未知の脆弱性を抱えているため、深刻な課題に直面している。
With the constantly advancing capabilities of quantum computers, conventional cryptographic systems relying on complex math problems may encounter unforeseen vulnerabilities. Unlike regular computers, which are often deemed cost-ineffective in cryptographic attacks, quantum computers have a significant advantage in calculation speed. This distinction potentially makes currently used algorithms less secure or even completely vulnerable, compelling the exploration of post-quantum cryptography (PQC) as the most reasonable solution to quantum threats. This review aims to provide current information on applications, benefits, and challenges associated with the PQC. The review employs a systematic scoping review with the scope restricted to the years 2022 and 2023; only articles that were published in scientific journals were used in this paper. The review examined the articles on the applications of quantum computing in various spheres. However, the scope of this paper was restricted to the domain of the PQC because most of the analyzed articles featured this field. Subsequently, the paper is analyzing various PQC algorithms, including lattice-based, hash-based, code-based, multivariate polynomial, and isogeny-based cryptography. Each algorithm is being judged based on its potential applications, robustness, and challenges. All the analyzed algorithms are promising for the post-quantum era in such applications as digital signatures, communication channels, and IoT. Moreover, some of the algorithms are already implemented in the spheres of banking transactions, communication, and intellectual property. Meanwhile, despite their potential, these algorithms face serious challenges since they lack standardization, require vast amounts of storage and computation power, and might have unknown vulnerabilities that can be discovered only with years of cryptanalysis. | 翻訳日:2024-06-25 13:26:35 公開日:2024-06-24 |
# 量子コンピューティングのサイバー保護応用 : レビュー
Cyber Protection Applications of Quantum Computing: A Review ( http://arxiv.org/abs/2406.13259v2 ) ライセンス: Link先を確認 | Ummar Ahmed, Tuomo Sipola, Jari Hautamäki, | (参考訳) 量子コンピューティング(Quantum Computing)は、量子力学の原理を利用して計算を行う情報技術の最先端分野である。
これはサイバーセキュリティ産業に大きな影響を与える。
既存のサイバー保護アプリケーションはうまく機能しているが、コンピュータネットワークには依然として課題と脆弱性がある。
データやプライバシーも侵害されることがある。
これらの合併症は、量子コンピューティングのどんなサイバー保護アプリケーションがあるのか、サイバー保護にどんな方法やテクニックが使えるのか、という研究の疑問に繋がる。
これらの疑問は、量子コンピューティングがどれだけのパワーを持ち、それが従来のコンピューティングシステムよりどの程度優れているかを明らかにする。
このスコーピングのレビューは815の論文を考慮して行われた。
量子技術がサイバー環境で実装された場合、実現可能な可能性を示した。
このスコーピングレビューでは、アルゴリズムやアプリケーション、バイオインフォマティクス、クラウドとエッジコンピューティング、複雑なシステムの組織化、セキュリティと脅威に焦点を当てたアプリケーション領域、より広範な量子コンピューティングエコシステムなど、さまざまな領域について論じている。
これらの分野では、量子コンピューティングが実装され、作業環境に革命をもたらすための重要なスコープがある。
サイバー保護のための多くの量子コンピューティングアプリケーションと、データとプライバシを保護するための多くのテクニックが同定された。
結果はネットワークセキュリティに限らず、データセキュリティも含んでいる。
本稿では、社会科学における量子コンピューティングの応用など、社会的側面についても論じる。
このスクーピングレビューでは、様々なサイバーセキュリティドメインにおける量子コンピューティングの効率性とセキュリティの強化について論じる。
さらに、これは読者に、サイバー世界を保護するためにどんな技術や方法が展開できるかを考えることを奨励する。
Quantum computing is a cutting-edge field of information technology that harnesses the principles of quantum mechanics to perform computations. It has major implications for the cyber security industry. Existing cyber protection applications are working well, but there are still challenges and vulnerabilities in computer networks. Sometimes data and privacy are also compromised. These complications lead to research questions asking what kind of cyber protection applications of quantum computing are there and what potential methods or techniques can be used for cyber protection? These questions will reveal how much power quantum computing has and to what extent it can outperform the conventional computing systems. This scoping review was conducted by considering 815 papers. It showed the possibilities that can be achievedif quantum technologies are implemented in cyber environments. This scoping review discusses various domains such as algorithms and applications, bioinformatics, cloud and edge computing, the organization of complex systems, application areas focused on security and threats, and the broader quantum computing ecosystem. In each of these areas, there is significant scope for quantum computing to be implemented and to revolutionize the working environment. Numerous quantum computing applications for cyber protection and a number of techniques to protect our data and privacy were identified. The results are not limited to network security but also include data security. This paper also discusses societal aspects, e.g., the applications of quantum computing in the social sciences. This scoping review discusses how to enhance the efficiency and security of quantum computing in various cyber security domains. Additionally, it encourages the reader to think about what kind of techniques and methods can be deployed to secure the cyber world. | 翻訳日:2024-06-25 13:26:35 公開日:2024-06-24 |
# 量子コンピューティングの機械学習応用
Machine Learning Applications of Quantum Computing: A Review ( http://arxiv.org/abs/2406.13262v2 ) ライセンス: Link先を確認 | Thien Nguyen, Tuomo Sipola, Jari Hautamäki, | (参考訳) 量子コンピューティングと機械学習の交差点では、従来の計算手法の限界をはるかに超えて、これらの技術がデータ処理と分析の能力に与える影響について検討する。
このレビューは、32のセミナル論文の詳細な分析に基づいて、量子コンピューティングと機械学習の相互作用を掘り下げ、先進的なデータ処理とアプリケーションにおける古典的コンピューティングの限界を超越することに焦点を当てる。
このレビューでは、これらの進歩から大きな恩恵を受ける重要な分野であるサイバーセキュリティの強化における量子化手法の可能性を強調している。
学術データベースとしてScience Directを主に活用したこの文献レビューは、機械学習における量子技術の変革的効果を掘り下げ、さまざまな研究や学術論文から洞察を引き出す。
主にサイバーセキュリティにおける量子コンピューティングの重要性の増大に焦点が当てられているが、このレビューは、分野が成熟するにつれて他のセクターに有望な意味があることも認めている。
我々の体系的なアプローチは、量子機械学習アルゴリズム、アプリケーション、課題、そして潜在的な将来の発展に基づくソースを分類し、量子コンピューティングが実用的な機械学習シナリオでますます実装されていることを明らかにする。
このレビューは、量子化された機械学習アルゴリズムの進歩とサイバーセキュリティなどの分野における潜在的な応用を強調し、倫理的およびセキュリティ上の懸念を考慮しつつ、業界固有のソリューションの必要性を強調している。
本論文は,現状の概要と今後の方向性を提示することによって,量子機械学習の継続的な研究と戦略的発展の基礎を定めている。
At the intersection of quantum computing and machine learning, this review paper explores the transformative impact these technologies are having on the capabilities of data processing and analysis, far surpassing the bounds of traditional computational methods. Drawing upon an in-depth analysis of 32 seminal papers, this review delves into the interplay between quantum computing and machine learning, focusing on transcending the limitations of classical computing in advanced data processing and applications. This review emphasizes the potential of quantum-enhanced methods in enhancing cybersecurity, a critical sector that stands to benefit significantly from these advancements. The literature review, primarily leveraging Science Direct as an academic database, delves into the transformative effects of quantum technologies on machine learning, drawing insights from a diverse collection of studies and scholarly articles. While the focus is primarily on the growing significance of quantum computing in cybersecurity, the review also acknowledges the promising implications for other sectors as the field matures. Our systematic approach categorizes sources based on quantum machine learning algorithms, applications, challenges, and potential future developments, uncovering that quantum computing is increasingly being implemented in practical machine learning scenarios. The review highlights advancements in quantum-enhanced machine learning algorithms and their potential applications in sectors such as cybersecurity, emphasizing the need for industry-specific solutions while considering ethical and security concerns. By presenting an overview of the current state and projecting future directions, the paper sets a foundation for ongoing research and strategic advancement in quantum machine learning. | 翻訳日:2024-06-25 13:26:35 公開日:2024-06-24 |
# スタイル-NeRF2NeRF:スタイル対応マルチビュー画像からの3次元スタイル転送
Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images ( http://arxiv.org/abs/2406.13393v2 ) ライセンス: Link先を確認 | Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada, | (参考訳) 本稿では,2次元画像拡散モデルのパワーを生かした3次元シーンのスタイリングのための,シンプルで効果的なパイプラインを提案する。
多視点画像の集合から再構成されたNeRFモデルを考えると、スタイル整列画像-画像拡散モデルにより生成されたスタイリング画像を用いて、ソースのNeRFモデルを精細化し、3Dスタイルの転送を行う。
ターゲット方式のプロンプトが与えられた場合、我々はまず、注意共有機構を備えた深度条件付き拡散モデルを利用して、知覚的に類似した多視点画像を生成する。
次に, 事前学習したCNNモデルから抽出した特徴写像に基づいて, スライスされたワッサースタイン損失を用いて, スタイル伝達過程を導出する。
我々のパイプラインは分離されたステップで構成されており、ユーザーは様々なプロンプトのアイデアをテストし、NeRFファインチューニングステージに進む前にスタイリングされた3D結果をプレビューすることができる。
本手法は,現実の3Dシーンに多彩な芸術的スタイルを,競争力のある品質で伝達できることを実証する。
結果のビデオはプロジェクトのページでも公開されている。
We propose a simple yet effective pipeline for stylizing a 3D scene, harnessing the power of 2D image diffusion models. Given a NeRF model reconstructed from a set of multi-view images, we perform 3D style transfer by refining the source NeRF model using stylized images generated by a style-aligned image-to-image diffusion model. Given a target style prompt, we first generate perceptually similar multi-view images by leveraging a depth-conditioned diffusion model with an attention-sharing mechanism. Next, based on the stylized multi-view images, we propose to guide the style transfer process with the sliced Wasserstein loss based on the feature maps extracted from a pre-trained CNN model. Our pipeline consists of decoupled steps, allowing users to test various prompt ideas and preview the stylized 3D result before proceeding to the NeRF fine-tuning stage. We demonstrate that our method can transfer diverse artistic styles to real-world 3D scenes with competitive quality. Result videos are also available on our project page: https://haruolabs.github.io/style-n2n/ | 翻訳日:2024-06-25 13:26:35 公開日:2024-06-24 |
# 離散的音声強調による子どもの音声認識
Children's Speech Recognition through Discrete Token Enhancement ( http://arxiv.org/abs/2406.13431v2 ) ライセンス: Link先を確認 | Vrunda N. Sukhadia, Shammur Absar Chowdhury, | (参考訳) 子どもの音声認識は、公開データの欠如が主な理由として、低リソースの課題と見なされている。
このようなデータ不足には、高価なデータ収集やアノテーションプロセス、データプライバシなど、いくつかの理由がある。
音声信号を機密情報を保持せず、言語情報と音響情報の両方をキャプチャする離散トークンに変換することは、プライバシー上の問題に対する解決策になり得る。
本研究では,ASRの性能を著しく低下させることなく,個々の音声トークンを幼児の音声認識システムに組み込むことを入力として検討する。
さらに、これらの離散ラベルを作成するためのシングルビューとマルチビュー戦略についても検討した。
さらに、未確認領域とナビティビティデータセットを用いて一般化能力のモデルを検証した。
その結果,子供用離散トークンASRは,約83%のパラメータでほぼ同等の性能を発揮することがわかった。
Children's speech recognition is considered a low-resource task mainly due to the lack of publicly available data. There are several reasons for such data scarcity, including expensive data collection and annotation processes, and data privacy, among others. Transforming speech signals into discrete tokens that do not carry sensitive information but capture both linguistic and acoustic information could be a solution for privacy concerns. In this study, we investigate the integration of discrete speech tokens into children's speech recognition systems as input without significantly degrading the ASR performance. Additionally, we explored single-view and multi-view strategies for creating these discrete labels. Furthermore, we tested the models for generalization capabilities with unseen domain and nativity dataset. Results reveal that the discrete token ASR for children achieves nearly equivalent performance with an approximate 83% reduction in parameters. | 翻訳日:2024-06-25 13:26:35 公開日:2024-06-24 |
# 対話型人工知能が心の理論と自律行動の体系化に有効か : 比較分析
The Efficacy of Conversational Artificial Intelligence in Rectifying the Theory of Mind and Autonomy Biases: Comparative Analysis ( http://arxiv.org/abs/2406.13813v2 ) ライセンス: Link先を確認 | Marcin Rządeczka, Anna Sterna, Julia Stolińska, Paulina Kaczyńska, Marcin Moskalewicz, | (参考訳) この研究は、認知バイアスの是正と人間とAIの相互作用への影響の認識における会話型人工知能(CAI)の有効性を評価する。
認知バイアス(規範的思考からの体系的な逸脱)は精神健康に影響を与え、うつ病や不安などの症状を増す。
治療チャットボットは、認知行動療法(CBT)をより使いやすく、手頃な価格で、スケーラブルで即時のサポートを提供する。
この研究は、典型的なユーザとボットの相互作用をシミュレートする臨床ベースの仮想ケースシナリオを用いた構造化手法を用いている。
パフォーマンスと感情の認知バイアスは、マインドバイアスの理論(AIの人間的形態化、AIへの過信、AIへの帰属)と自律バイアス(制御のイリュージョン、基本的な帰属エラー、ジャストワールド仮説)の2つのカテゴリで評価された。
定性的フィードバック機構は, 精度, 治療品質, およびCBTの原理の遵守に基づく応答の定量化のために, 順序尺度を用いて使用した。
医療用ロボット(Wysa, Youper)と一般用LSM(GTP 3.5, GTP 4, Gemini Pro)をスクリプトによる相互作用により評価し, 認知科学者と臨床心理学者が二重レビューを行った。
統計的分析では、非治療的ボットはバイアス修正において常に優れた成績を示し、6つのバイアスのうち4つは影響認識において優れていた。
このデータは、非治療的なチャットボットが認知バイアスに対処する上でより効果的であることを示唆している。
The study evaluates the efficacy of Conversational Artificial Intelligence (CAI) in rectifying cognitive biases and recognizing affect in human-AI interactions, which is crucial for digital mental health interventions. Cognitive biases (systematic deviations from normative thinking) affect mental health, intensifying conditions like depression and anxiety. Therapeutic chatbots can make cognitive-behavioral therapy (CBT) more accessible and affordable, offering scalable and immediate support. The research employs a structured methodology with clinical-based virtual case scenarios simulating typical user-bot interactions. Performance and affect recognition were assessed across two categories of cognitive biases: theory of mind biases (anthropomorphization of AI, overtrust in AI, attribution to AI) and autonomy biases (illusion of control, fundamental attribution error, just-world hypothesis). A qualitative feedback mechanism was used with an ordinal scale to quantify responses based on accuracy, therapeutic quality, and adherence to CBT principles. Therapeutic bots (Wysa, Youper) and general-use LLMs (GTP 3.5, GTP 4, Gemini Pro) were evaluated through scripted interactions, double-reviewed by cognitive scientists and a clinical psychologist. Statistical analysis showed therapeutic bots were consistently outperformed by non-therapeutic bots in bias rectification and in 4 out of 6 biases in affect recognition. The data suggests that non-therapeutic chatbots are more effective in addressing some cognitive biases. | 翻訳日:2024-06-25 13:26:35 公開日:2024-06-24 |
# Q*: 検討計画によるLLMのマルチステップ推論の改善
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning ( http://arxiv.org/abs/2406.14283v2 ) ライセンス: Link先を確認 | Chaojie Wang, Yanchen Deng, Zhiyi Lv, Shuicheng Yan, An Bo, | (参考訳) 大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
しかし、自己回帰生成プロセスにより、多段階推論を行う場合、LSMは誤り、幻覚、矛盾する文を生成するのが難しくなる。
本稿では,LLMの多段階的推論をヒューリスティックな探索問題とすることで,LLMの復号化プロセスの汎用的,汎用的,アジャイル的な枠組みであるQ*を導入することにより,病理の緩和を図る。
将来期待される報酬を推定するヒューリスティック関数としてプラグアンドプレイQ値モデルを学習することにより、我々のQ*はLLMを現在のタスクに微調整することなく、最も有望な次の推論ステップを選択することができる。
GSM8K, MATH, MBPPの大規模実験により, 提案手法の優位性を実証し, 既存のオープンソースLCMの推論性能の向上に寄与した。
Large Language Models (LLMs) have demonstrated impressive capability in many natural language tasks. However, the auto-regressive generation process makes LLMs prone to produce errors, hallucinations and inconsistent statements when performing multi-step reasoning. In this paper, by casting multi-step reasoning of LLMs as a heuristic search problem, we aim to alleviate the pathology by introducing Q*, a general, versatile and agile framework for guiding LLMs decoding process with deliberative planning. By learning a plug-and-play Q-value model as heuristic function for estimating expected future rewards, our Q* can effectively guide LLMs to select the most promising next reasoning step without fine-tuning LLMs for the current task, which avoids the significant computational overhead and potential risk of performance degeneration on other tasks. Extensive experiments on GSM8K, MATH and MBPP demonstrate the superiority of our method, contributing to improving the reasoning performance of existing open-source LLMs. | 翻訳日:2024-06-25 13:26:35 公開日:2024-06-24 |
# ハルダンの統計相関理論の古典システムへの応用
Application of Haldane's statistical correlation theory in classical systems ( http://arxiv.org/abs/2406.14327v2 ) ライセンス: Link先を確認 | Projesh Kumar Roy, | (参考訳) この手紙は、古典システムにおけるハルダンの統計的相関理論の適用について調査する。
修正された統計的相関理論は、指数の形で非線型性をハルデンの原理論に含めることによって提案されている。
統計的相関の相違性への依存性を強調した。
この修正理論を用いて、中間統計学の準古典的導出が示され、区別不可能性は統計的相関の形で区別可能なシステムに導入される。
最終結果は古典的分数除算統計(CFES)と等価であり、これは以前に純粋に古典的なルートを用いて導かれたものである。
パワー系列展開に基づく拡張非線形相関モデルも提案され、様々な中間統計モデルを生成することができる。
This letter investigates the application of Haldane's statistical correlation theory in classical systems. A modified statistical correlation theory has been proposed by including non-linearity in the form of an exponent into the original theory of Haldane. The dependence of the statistical correlation on indistinguishability is highlighted. Using this modified theory, a quasi-classical derivation of intermediate statistics is shown where indistinguishability can be introduced into distinguishable systems in the form of a statistical correlation. The final result is equivalent to the classical fractional exclusion statistics (CFES), which was derived earlier using a purely classical route. An extended non-linear correlation model based on power series expansion is also proposed, which can produce various intermediate statistical models. | 翻訳日:2024-06-25 13:26:35 公開日:2024-06-24 |
# 一様ランダムウォークにおける点予測のための動きの融合とナイーブ予測
Fusion of Movement and Naive Predictions for Point Forecasting in Univariate Random Walks ( http://arxiv.org/abs/2406.14469v2 ) ライセンス: Link先を確認 | Cheng Zhang, | (参考訳) 単変量ランダムウォークにおける点予測の従来の方法は、データの予測不能のため、単純なベンチマークを超えないことが多い。
本研究では,移動予測(二項分類)とナイーブ予測を融合した新しい予測手法を提案する。
この手法の有効性は理論解析、シミュレーション、実世界のデータ実験を通じて実証される。
ARIMA、線形回帰、MLP、LSTMネットワークといったベースラインモデルを上回るパフォーマンスで、S&P500指数とBitcoin価格を予測している。
この方法は、正確な点予測が困難な場合に特に有利であるが、正確な運動予測が達成可能であり、ランダムウォークコンテキストにおける点予測に移動予測を変換する。
Traditional methods for point forecasting in univariate random walks often fail to surpass naive benchmarks due to data unpredictability. This study introduces a novel forecasting method that fuses movement prediction (binary classification) with naive forecasts for accurate one-step-ahead point forecasting. The method's efficacy is demonstrated through theoretical analysis, simulations, and real-world data experiments. It reliably exceeds naive forecasts with movement prediction accuracies as low as 0.55, outperforming baseline models like ARIMA, linear regression, MLP, and LSTM networks in forecasting the S\&P 500 index and Bitcoin prices. This method is particularly advantageous when accurate point predictions are challenging but accurate movement predictions are attainable, translating movement predictions into point forecasts in random walk contexts. | 翻訳日:2024-06-25 13:16:50 公開日:2024-06-24 |
# 受動状態エネルギーを用いた多粒子絡み合いの分類
Classifying multiparticle entanglement with passive state energies ( http://arxiv.org/abs/2406.14584v2 ) ライセンス: Link先を確認 | Xue Yang, Yan-Han Yang, Xin-Zhu Liu, Shao-Ming Fei, Ming-Xing Luo, | (参考訳) 物理学の基本的な分野としての熱力学は、熱、仕事、エネルギーの関係を調べる。
最大エネルギー抽出は、任意の循環的ユニタリ過程下で抽出されたエネルギーを持たない受動的状態を使用することで特徴付けられる。
本稿では,多ビット交絡純状態に対する極端受動的状態エネルギーの概念と多角形不等式を導出する。
極端受動的状態エネルギーは、SLOCCの下で等価な量子状態のクラスごとに一括して凸ポリトープを形成することを示す。
最終的に、SLOCCの下でのマルチパーティの絡み合いを分類するために、マルチパーティの受動的状態エネルギー基準を導入する。
この結果から, 多粒子の絡み合いを観察する熱力学的手法が得られた。
Thermodynamics as a fundamental branch of physics examines the relationships between heat, work, and energy. The maximum energy extraction can be characterized by using the passive states that has no extracted energy under any cyclic unitary process. In this paper, we focus on the concept of marginal passive state energy and derive polygon inequalities for multi-qubit entangled pure states. We show that the marginal passive state energies collectively form a convex polytope for each class of quantum states that are equivalent under SLOCC. We finally introduce multipartite passive state energy criteria to classify multipartite entanglement under SLOCC. The present result provides a thermodynamic method to witness multipartite entanglement. | 翻訳日:2024-06-25 13:16:50 公開日:2024-06-24 |
# FPGAにおけるマルチエグジットによるドロップアウト型ベイズニューラルネットワークの強化
Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA ( http://arxiv.org/abs/2406.14593v2 ) ライセンス: Link先を確認 | Hao Mark Chen, Liam Castelli, Martin Ferianc, Hongyu Zhou, Shuanglong Liu, Wayne Luk, Hongxiang Fan, | (参考訳) 信頼性の高い不確実性推定は、医療診断や自律運転といった様々な安全クリティカルな応用において重要な役割を担っている。
近年、ベイズニューラルネットワーク (BayesNNs) は、信頼性の高い不確実性推定で正確な予測を行う能力により、かなりの研究と工業的関心を集めている。
しかし、アルゴリズムの複雑さと結果のベイズNNのハードウェア性能は、現実のアプリケーションでは採用を妨げている。
このギャップを埋めるために,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは,計算とメモリのオーバーヘッドを低減し,精度と不確実性評価の精度を実現した,新しいマルチエグジット・ドロップアウト型ベイズNNを提案する。
ハードウェアレベルでは,提案するマルチエグジットベイズNNに対してFPGAベースのアクセラレータを生成可能な変換フレームワークを提案する。
資源消費を低減し、ハードウェア全体の性能を向上させるため、空間マッピングと時間マッピングの混合など、いくつかの最適化手法が導入された。
包括的実験により、我々のアプローチはCPU、GPU、その他の最先端ハードウェア実装と比較して高いエネルギー効率を達成することができることを示した。
この研究の今後の展開をサポートするため、私たちはhttps://github.com/os-hxfan/MCME_FPGA_Acc.gitでコードをオープンソース化しました。
Reliable uncertainty estimation plays a crucial role in various safety-critical applications such as medical diagnosis and autonomous driving. In recent years, Bayesian neural networks (BayesNNs) have gained substantial research and industrial interests due to their capability to make accurate predictions with reliable uncertainty estimation. However, the algorithmic complexity and the resulting hardware performance of BayesNNs hinder their adoption in real-life applications. To bridge this gap, this paper proposes an algorithm and hardware co-design framework that can generate field-programmable gate array (FPGA)-based accelerators for efficient BayesNNs. At the algorithm level, we propose novel multi-exit dropout-based BayesNNs with reduced computational and memory overheads while achieving high accuracy and quality of uncertainty estimation. At the hardware level, this paper introduces a transformation framework that can generate FPGA-based accelerators for the proposed efficient multi-exit BayesNNs. Several optimization techniques such as the mix of spatial and temporal mappings are introduced to reduce resource consumption and improve the overall hardware performance. Comprehensive experiments demonstrate that our approach can achieve higher energy efficiency compared to CPU, GPU, and other state-of-the-art hardware implementations. To support the future development of this research, we have open-sourced our code at: https://github.com/os-hxfan/MCME_FPGA_Acc.git | 翻訳日:2024-06-25 13:16:50 公開日:2024-06-24 |
# 検索用拡張生成フレームワークにおける微調整大言語モデルとの相関抽出
Relation Extraction with Fine-Tuned Large Language Models in Retrieval Augmented Generation Frameworks ( http://arxiv.org/abs/2406.14745v2 ) ライセンス: Link先を確認 | Sefika Efeoglu, Adrian Paschke, | (参考訳) 情報抽出(IE)は、構造化されていないデータを知識グラフ(KG)のような構造化形式に変換するために重要である。
IE内の重要なタスクはリレーショナル抽出(RE)であり、テキスト内のエンティティ間の関係を識別する。
教師なし、教師なし、弱教師付き、ルールベースのアプローチなど、さまざまなREメソッドが存在する。
プレトレーニング言語モデル(PLM)を活用した最近の研究は、この分野で大きな成功を収めている。
LLM(Large Language Models)が支配する現在の時代には、これらのモデルを微調整することで、特にドメイン適応の問題や文内のエンティティ間の暗黙的な関係の特定に関して、ゼロショットLLMプロンプトベースのREメソッドに関連する制限を克服することができる。
文の依存木から容易に抽出できないこれらの暗黙の関係は、正確な識別のために論理的推論を必要とする。
本研究では,LLMがRAGフレームワーク内のジェネレータとして機能する場合に,文レベルで暗黙の関係を識別するという課題に対処するため,微調整LLMの性能とRAG(Retrieval Augmented-based)REアプローチへの統合について検討する。
TACRED、TACRED-Revisited (TACREV)、Re-TACRED、SemEVALのデータセットに対する実証的な評価は、Llama2-7B、Mistral-7B、T5 (Large)など、微調整のLLMによる大幅なパフォーマンス向上を示している。
提案手法は, 暗黙の関係が一般的であるSemEVALにおいて, このデータセットの先行結果を上回り, 大幅な向上を実現している。
さらに,本手法は,TACRED,TACREV,Re-TACREDの先行研究よりも優れており,様々な評価シナリオにおいて優れた性能を示す。
Information Extraction (IE) is crucial for converting unstructured data into structured formats like Knowledge Graphs (KGs). A key task within IE is Relation Extraction (RE), which identifies relationships between entities in text. Various RE methods exist, including supervised, unsupervised, weakly supervised, and rule-based approaches. Recent studies leveraging pre-trained language models (PLMs) have shown significant success in this area. In the current era dominated by Large Language Models (LLMs), fine-tuning these models can overcome limitations associated with zero-shot LLM prompting-based RE methods, especially regarding domain adaptation challenges and identifying implicit relations between entities in sentences. These implicit relations, which cannot be easily extracted from a sentence's dependency tree, require logical inference for accurate identification. This work explores the performance of fine-tuned LLMs and their integration into the Retrieval Augmented-based (RAG) RE approach to address the challenges of identifying implicit relations at the sentence level, particularly when LLMs act as generators within the RAG framework. Empirical evaluations on the TACRED, TACRED-Revisited (TACREV), Re-TACRED, and SemEVAL datasets show significant performance improvements with fine-tuned LLMs, including Llama2-7B, Mistral-7B, and T5 (Large). Notably, our approach achieves substantial gains on SemEVAL, where implicit relations are common, surpassing previous results on this dataset. Additionally, our method outperforms previous works on TACRED, TACREV, and Re-TACRED, demonstrating exceptional performance across diverse evaluation scenarios. | 翻訳日:2024-06-25 13:16:50 公開日:2024-06-24 |
# LatentExplainer: マルチモーダル基礎モデルを用いた深部生成モデルにおける潜在表現の説明
LatentExplainer: Explaining Latent Representations in Deep Generative Models with Multi-modal Foundation Models ( http://arxiv.org/abs/2406.14862v2 ) ライセンス: Link先を確認 | Mengdan Zhu, Raasikh Kanjiani, Jiahui Lu, Andrew Choi, Qirui Ye, Liang Zhao, | (参考訳) VAEや拡散モデルのような深層生成モデルは、潜伏変数を利用してデータ分布を学習し、高品質なサンプルを生成することによって、様々な生成タスクを進化させてきた。
機械学習モデルの解釈において、説明可能なAIの分野は進歩しているが、生成モデルにおける潜伏変数の理解は依然として困難である。
本稿では,深層生成モデルにおける潜伏変数の意味論的説明を自動的に生成するフレームワークであるLatentExplainerを紹介する。
LatentExplainerは、潜伏変数の意味の推測、帰納的バイアスによる説明の整合、さまざまな説明可能性の扱いの3つの主な課題に取り組む。
このフレームワークは、潜伏変数を摂動させ、生成されたデータの変化を解釈することによって、データ生成プロセスを理解し制御するための体系的なアプローチを提供し、深層生成モデルの透明性と解釈可能性を高める。
提案手法を実環境および合成データセット上で評価し,提案手法は潜伏変数の高品質な説明を生成する上で優れた性能を示す。
Deep generative models like VAEs and diffusion models have advanced various generation tasks by leveraging latent variables to learn data distributions and generate high-quality samples. Despite the field of explainable AI making strides in interpreting machine learning models, understanding latent variables in generative models remains challenging. This paper introduces LatentExplainer, a framework for automatically generating semantically meaningful explanations of latent variables in deep generative models. LatentExplainer tackles three main challenges: inferring the meaning of latent variables, aligning explanations with inductive biases, and handling varying degrees of explainability. By perturbing latent variables and interpreting changes in generated data, the framework provides a systematic approach to understanding and controlling the data generation process, enhancing the transparency and interpretability of deep generative models. We evaluate our proposed method on several real-world and synthetic datasets, and the results demonstrate superior performance in generating high-quality explanations of latent variables. | 翻訳日:2024-06-25 13:16:50 公開日:2024-06-24 |
# GIEBench:大規模言語モデルに対するグループアイデンティティベースの共感の全体的評価を目指して
GIEBench: Towards Holistic Evaluation of Group Identity-based Empathy for Large Language Models ( http://arxiv.org/abs/2406.14903v2 ) ライセンス: Link先を確認 | Leyan Wang, Yonggang Jin, Tianhao Shen, Tianyu Zheng, Xinrun Du, Chenchen Zhang, Wenhao Huang, Jiaheng Liu, Shi Wang, Ge Zhang, Liuyu Xiang, Zhaofeng He, | (参考訳) 大規模言語モデル (LLM) の発展と普及が進むにつれて, LLM が多様なグループアイデンティティに対して共感を示し,それらの視点を理解する能力はますます重要視されている。
LLMの共感評価のための既存のベンチマークのほとんどは、悲しみや痛みなどの普遍的な人間の感情に焦点を当てており、しばしば個人の集団のアイデンティティの文脈を見下ろしている。
このギャップに対処するために、GIEBenchという、11のアイデンティティディメンションを含む総合的なベンチマークを導入し、97のグループアイデンティティをカバーし、グループアイデンティティに関連する合計999のシングルチョイス質問をカバーした。
GIEBenchは、性別、年齢、職業、人種などの特定のグループのアイデンティティを提示するときのLLMの共感を評価するように設計されており、特定グループの立場から反応する能力を強調している。
これは、異なるアイデンティティを持つユーザに適した共感型LLMアプリケーションの開発を継続するのをサポートする。
LLMを23個評価したところ、これらのLCMは異なるアイデンティティの観点から理解されているものの、これらの視点を採用するための明示的な指示なしでは、同一の共感を連続的に示さないことが明らかとなった。
このことは、人間のアイデンティティの多面的性質をよりよく適合させるために、多様な値を持つLCMのアライメントを改善する必要性を強調している。
データセットはhttps://github.com/GIEBench/GIEBench.comで公開しています。
As large language models (LLMs) continue to develop and gain widespread application, the ability of LLMs to exhibit empathy towards diverse group identities and understand their perspectives is increasingly recognized as critical. Most existing benchmarks for empathy evaluation of LLMs focus primarily on universal human emotions, such as sadness and pain, often overlooking the context of individuals' group identities. To address this gap, we introduce GIEBench, a comprehensive benchmark that includes 11 identity dimensions, covering 97 group identities with a total of 999 single-choice questions related to specific group identities. GIEBench is designed to evaluate the empathy of LLMs when presented with specific group identities such as gender, age, occupation, and race, emphasizing their ability to respond from the standpoint of the identified group. This supports the ongoing development of empathetic LLM applications tailored to users with different identities. Our evaluation of 23 LLMs revealed that while these LLMs understand different identity standpoints, they fail to consistently exhibit equal empathy across these identities without explicit instructions to adopt those perspectives. This highlights the need for improved alignment of LLMs with diverse values to better accommodate the multifaceted nature of human identities. Our datasets are available at https://github.com/GIEBench/GIEBench. | 翻訳日:2024-06-25 13:16:50 公開日:2024-06-24 |
# ESC-Eval:大規模言語モデルにおける感情支援対話の評価
ESC-Eval: Evaluating Emotion Support Conversations in Large Language Models ( http://arxiv.org/abs/2406.14952v2 ) ライセンス: Link先を確認 | Haiquan Zhao, Lingyu Li, Shisong Chen, Shuqi Kong, Jiaan Wang, Kexin Huang, Tianle Gu, Yixu Wang, Dandan Liang, Zhixu Li, Yan Teng, Yanghua Xiao, Yingchun Wang, | (参考訳) 感情支援会話(Emotion Support Conversation、ESC)は、人間のストレスを減らし、感情的な指導を提供し、究極的には人間の精神的・身体的幸福を高めることを目的とした重要なアプリケーションである。
LLM(Large Language Models)の発展に伴い、多くの研究者がESCモデルとしてLLMを使用している。
しかし,これらのLCMを用いたESCの評価はいまだに不確実である。
ロールプレイングエージェントの開発に触発されて,ESCモデルとの対話にロールプレイングエージェントを使用するESC評価フレームワーク(ESC-Eval)を提案し,対話型対話を手動で評価する。
より詳しくは、7つの既存のデータセットから2,801個のロールプレイングカードを再編成し、ロールプレイングエージェントの役割を定義した。
第2に,GAT-4よりも混乱した人物のように振る舞うESC-Roleと呼ばれる特定のロールプレイングモデルを訓練する。
第3に,ESC-Role と組織化されたロールカードを通じて,汎用AI支援 LLM (ChatGPT) やESC指向 LLM (ExTES-Llama) を含む14 LLM をESCモデルとして,系統的に実験を行った。
異なるESCモデルの対話型マルチターン対話において、包括的なヒューマンアノテーションを行う。
その結果、ESC指向のLSMは一般のAI支援LSMよりも優れたESC能力を示すが、人間のパフォーマンスには差があることがわかった。
さらに,将来のESCモデルのスコアリングプロセスを自動化するために,注釈付きデータに基づいてトレーニングしたESC-RANKを開発し,GPT-4の35ポイントを超えるスコアリング性能を実現した。
私たちのデータとコードはhttps://github.com/haidequanbu/ESC-Eval.comで公開されています。
Emotion Support Conversation (ESC) is a crucial application, which aims to reduce human stress, offer emotional guidance, and ultimately enhance human mental and physical well-being. With the advancement of Large Language Models (LLMs), many researchers have employed LLMs as the ESC models. However, the evaluation of these LLM-based ESCs remains uncertain. Inspired by the awesome development of role-playing agents, we propose an ESC Evaluation framework (ESC-Eval), which uses a role-playing agent to interact with ESC models, followed by a manual evaluation of the interactive dialogues. In detail, we first re-organize 2,801 role-playing cards from seven existing datasets to define the roles of the role-playing agent. Second, we train a specific role-playing model called ESC-Role which behaves more like a confused person than GPT-4. Third, through ESC-Role and organized role cards, we systematically conduct experiments using 14 LLMs as the ESC models, including general AI-assistant LLMs (ChatGPT) and ESC-oriented LLMs (ExTES-Llama). We conduct comprehensive human annotations on interactive multi-turn dialogues of different ESC models. The results show that ESC-oriented LLMs exhibit superior ESC abilities compared to general AI-assistant LLMs, but there is still a gap behind human performance. Moreover, to automate the scoring process for future ESC models, we developed ESC-RANK, which trained on the annotated data, achieving a scoring performance surpassing 35 points of GPT-4. Our data and code are available at https://github.com/haidequanbu/ESC-Eval. | 翻訳日:2024-06-25 13:16:50 公開日:2024-06-24 |
# 高速な正則線形結合型時間差プラグ
Tempora-Fusion: Time-Lock Puzzle with Efficient Verifiable Homomorphic Linear Combination ( http://arxiv.org/abs/2406.15070v2 ) ライセンス: Link先を確認 | Aydin Abadi, | (参考訳) 将来、機密情報を確実に送信するために、TLP(Time-Lock Puzzles)が開発された。
彼らのアプリケーションには、定期的な支払い、期限付きコミットメント、電子投票、封印された入札が含まれる。
ホモモルフィック TLP は、異なるクライアントのパズルの計算を可能にする TLP の重要な変種である。
これにより、ソルバ/サーバは計算結果を符号化する1つのパズルのみに取り組むことができる。
しかし、既存の同型TLPは、計算結果の正しさを検証するためのサポートを欠いている。
計算精度の検証を確実にしながら、サーバが異なるクライアントからパズルの同型線形結合を実行することができるTLPであるTempora-Fusionを導入することで、この制限に対処する。
この方式は、検証のための非対称鍵暗号を回避し、効率的な実装の道を開く。
我々は,フェデレートラーニング,オンラインバンキングにおける定期的な支払い,電子投票など,様々な分野における我々のスキームの適用について論じる。
To securely transmit sensitive information into the future, Time-Lock Puzzles (TLPs) have been developed. Their applications include scheduled payments, timed commitments, e-voting, and sealed-bid auctions. Homomorphic TLP is a key variant of TLP that enables computation on puzzles from different clients. This allows a solver/server to tackle only a single puzzle encoding the computation's result. However, existing homomorphic TLPs lack support for verifying the correctness of the computation results. We address this limitation by introducing Tempora-Fusion, a TLP that allows a server to perform homomorphic linear combinations of puzzles from different clients while ensuring verification of computation correctness. This scheme avoids asymmetric-key cryptography for verification, thus paving the way for efficient implementations. We discuss our scheme's application in various domains, such as federated learning, scheduled payments in online banking, and e-voting. | 翻訳日:2024-06-25 13:16:50 公開日:2024-06-24 |
# IPカメラの脆弱性を発見(そして悪用)する : Tenda CP3 ケーススタディ
Finding (and exploiting) vulnerabilities on IP Cameras: the Tenda CP3 case study ( http://arxiv.org/abs/2406.15103v2 ) ライセンス: Link先を確認 | Dario Stabili, Tobia Bocchi, Filip Valgimigli, Mirco Marchetti, | (参考訳) 現在、消費者IPカメラは、プライベートハウスや小さなオフィスなど、様々な状況において、リモート監視の最も広く採用されているソリューションである。
これらのデバイスのセキュリティは精査されているが、ほとんどのアプローチは比較的浅いネットワークベースの分析に限られている。
本稿では,IPカメラファームウェアから抽出した実行可能ファイルの静的および動的解析を含む,遠隔操作可能な脆弱性のセキュリティ分析と識別手法について論じる。
既存の手法と比較して,我々の手法は,攻撃可能な脆弱性につながる可能性のある悪意ある呼び出しシーケンスの識別に焦点をあてる。
本稿では,天田CP3IPカメラを事例として,本手法の適用例を示す。
CVSSスコアは7.5~9.8。
分析を部分的に自動化するために、Ghidraとrhabdomancerに基づいたカスタムツールも開発した。
Consumer IP cameras are now the most widely adopted solution for remote monitoring in various contexts, such as private homes or small offices. While the security of these devices has been scrutinized, most approaches are limited to relatively shallow network-based analyses. In this paper, we discuss a methodology for the security analysis and identification of remotely exploitable vulnerabilities in IP cameras, which includes static and dynamic analyses of executables extracted from IP camera firmware. Compared to existing methodologies, our approach leverages the context of the target device to focus on the identification of malicious invocation sequences that could lead to exploitable vulnerabilities. We demonstrate the application of our methodology by using the Tenda CP3 IP camera as a case study. We identified five novel CVEs, with CVSS scores ranging from 7.5 to 9.8. To partially automate our analysis, we also developed a custom tool based on Ghidra and rhabdomancer. | 翻訳日:2024-06-25 13:16:50 公開日:2024-06-24 |
# 音声合成における2次元ジェスチャー表現の効果の検討
Investigating the impact of 2D gesture representation on co-speech gesture generation ( http://arxiv.org/abs/2406.15111v2 ) ライセンス: Link先を確認 | Teo Guichoux, Laure Soulier, Nicolas Obin, Catherine Pelachaud, | (参考訳) 共同音声ジェスチャーは、人間と体現的会話エージェント(ECA)の相互作用において重要な役割を果たす。
近年の深層学習手法は, 音声と同期した現実的, 自然な音声ジェスチャーを生成することができるが, 大量の訓練データを必要とする。
人間のポーズ検出モデルを通じてYouTubeなどのソースから動画をコンパイルする"In-the-Wild"データセットは、音声と組み合わせた2Dスケルトンシーケンスを提供することで、解決策を提供する。
同時に、革新的なリフトモデルが登場し、これらの2Dポーズシーケンスを3D対応に変換できるようになり、3Dジェスチャーの大規模で多様なデータセットが生まれる。
しかし、導出した3Dポーズ推定は基本的に擬似基底真理であり、実際の基底真理は2Dモーションデータである。
この区別は、ジェスチャ表現の次元性が生成した動きの質に与える影響についての疑問を提起する。
本研究では,訓練データの次元性,2次元あるいは3次元の関節座標がマルチモーダル音声合成モデルの性能に及ぼす影響を評価する。
体ポーズの2次元生成配列を3次元に変換するために揚力モデルを用いる。
そして、3Dで直接生成されたジェスチャー列と2Dで生成されたジェスチャー列を比較し、後処理として3Dにリフトする。
Co-speech gestures play a crucial role in the interactions between humans and embodied conversational agents (ECA). Recent deep learning methods enable the generation of realistic, natural co-speech gestures synchronized with speech, but such approaches require large amounts of training data. "In-the-wild" datasets, which compile videos from sources such as YouTube through human pose detection models, offer a solution by providing 2D skeleton sequences that are paired with speech. Concurrently, innovative lifting models have emerged, capable of transforming these 2D pose sequences into their 3D counterparts, leading to large and diverse datasets of 3D gestures. However, the derived 3D pose estimation is essentially a pseudo-ground truth, with the actual ground truth being the 2D motion data. This distinction raises questions about the impact of gesture representation dimensionality on the quality of generated motions, a topic that, to our knowledge, remains largely unexplored. In this work, we evaluate the impact of the dimensionality of the training data, 2D or 3D joint coordinates, on the performance of a multimodal speech-to-gesture deep generative model. We use a lifting model to convert 2D-generated sequences of body pose to 3D. Then, we compare the sequence of gestures generated directly in 3D to the gestures generated in 2D and lifted to 3D as post-processing. | 翻訳日:2024-06-25 13:16:50 公開日:2024-06-24 |
# ローカルおよびグローバルな解釈可能性のためのProto-BagNets-by-design
This actually looks like that: Proto-BagNets for local and global interpretability-by-design ( http://arxiv.org/abs/2406.15168v2 ) ライセンス: Link先を確認 | Kerol Djoumessi, Bubacarr Bah, Laura Kühlewein, Philipp Berens, Lisa Koch, | (参考訳) 解釈可能性(Interpretability)は、医療診断を含む高度な応用において、機械学習モデルを使用するための重要な要件である。
ブラックボックスモデルの説明は主に、モデルの振る舞いを忠実に反映しないポストホックメソッドに依存している。
対策として、プロトタイプベースのネットワークが提案されているが、その解釈可能性には、粗い、信頼できない、不正確な説明を提供することが示されているため、制限されている。
本稿では,局所的特徴モデルとプロトタイプ学習の利点を組み合わせた解釈可能なプロトタイプベースモデルであるProto-BagNetsを紹介する。
網膜CTデータを用いたDrusen検出のためのProto-BagNetの評価を行った。
Proto-BagNetは、最先端の解釈可能な非解釈可能なモデルと互換性があり、忠実で正確で臨床的に意味のある局所的およびグローバルな説明を提供する。
コードはhttps://github.com/kdjoumessi/Proto-BagNetsで公開されている。
Interpretability is a key requirement for the use of machine learning models in high-stakes applications, including medical diagnosis. Explaining black-box models mostly relies on post-hoc methods that do not faithfully reflect the model's behavior. As a remedy, prototype-based networks have been proposed, but their interpretability is limited as they have been shown to provide coarse, unreliable, and imprecise explanations. In this work, we introduce Proto-BagNets, an interpretable-by-design prototype-based model that combines the advantages of bag-of-local feature models and prototype learning to provide meaningful, coherent, and relevant prototypical parts needed for accurate and interpretable image classification tasks. We evaluated the Proto-BagNet for drusen detection on publicly available retinal OCT data. The Proto-BagNet performed comparably to the state-of-the-art interpretable and non-interpretable models while providing faithful, accurate, and clinically meaningful local and global explanations. The code is available at https://github.com/kdjoumessi/Proto-BagNets. | 翻訳日:2024-06-25 13:16:50 公開日:2024-06-24 |
# 復号時間アライメントのための進化的ヒューリスティックスを用いたリワードステアリング
Reward Steering with Evolutionary Heuristics for Decoding-time Alignment ( http://arxiv.org/abs/2406.15193v2 ) ライセンス: Link先を確認 | Chia-Yu Hung, Navonil Majumder, Ambuj Mehrish, Soujanya Poria, | (参考訳) LLMの広範な適用性と全義性の向上は、LLMの反応をユーザやステークホルダーの好みに合わせる必要性を示唆している。
良好なアライメントを実現するために、微調整LDMパラメータを最適化する多くの最適化手法が提案されている。
しかし、そのようなパラメータチューニングは多くのタスクにおけるモデル性能に干渉することが知られている。
さらに、このような状況では、ユーザの好みの変化に追随するのは難しい。
報酬モデルガイダンスによる復号時間アライメントは、推論時間の増加を犠牲にしてこれらの問題を解決する。
しかし、そのような手法のほとんどは、探索と報酬の搾取の間に適切なバランスを取らない(多くの場合、これら2つの側面が混ざった定式化のために)。
この2つの側面を分離し、進化的な方法で実装する: 探索は、変更された命令から復号することで実施され、搾取は、不利益な世代を、よく回復した世代に周期的に置き換えるものとして表現される。
実証的な証拠は、この戦略が広く受け入れられている2つのアライメントベンチマークAlpacaEval 2 と MT-Bench において、多くの選好最適化とデコードタイムアライメントアプローチより優れていることを示している。
私たちの実装は、https://darwin-alignment.github.io.comで利用可能です。
The widespread applicability and increasing omnipresence of LLMs have instigated a need to align LLM responses to user and stakeholder preferences. Many preference optimization approaches have been proposed that fine-tune LLM parameters to achieve good alignment. However, such parameter tuning is known to interfere with model performance on many tasks. Moreover, keeping up with shifting user preferences is tricky in such a situation. Decoding-time alignment with reward model guidance solves these issues at the cost of increased inference time. However, most of such methods fail to strike the right balance between exploration and exploitation of reward -- often due to the conflated formulation of these two aspects - to give well-aligned responses. To remedy this we decouple these two aspects and implement them in an evolutionary fashion: exploration is enforced by decoding from mutated instructions and exploitation is represented as the periodic replacement of poorly-rewarded generations with well-rewarded ones. Empirical evidences indicate that this strategy outperforms many preference optimization and decode-time alignment approaches on two widely accepted alignment benchmarks AlpacaEval 2 and MT-Bench. Our implementation will be available at: https://darwin-alignment.github.io. | 翻訳日:2024-06-25 13:16:50 公開日:2024-06-24 |
# VideoScore:ビデオ生成のための微粒な人間のフィードバックをシミュレートする自動メトリクスを作る
VideoScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation ( http://arxiv.org/abs/2406.15252v2 ) ライセンス: Link先を確認 | Xuan He, Dongfu Jiang, Ge Zhang, Max Ku, Achint Soni, Sherman Siu, Haonan Chen, Abhranil Chandra, Ziyan Jiang, Aaran Arulraj, Kai Wang, Quy Duc Do, Yuansheng Ni, Bohan Lyu, Yaswanth Narsupalli, Rongqi Fan, Zhiheng Lyu, Yuchen Lin, Wenhu Chen, | (参考訳) 近年、ビデオ生成の進歩が目覚ましい。
しかし、自動ビデオメトリクスの開発は大幅に遅れている。
既存のメトリクスでは、生成されたビデオに対して信頼できるスコアを提供することはできません。
主な障壁は、大規模なヒューマンアノテートデータセットの欠如である。
本稿では,既存の11種類のビデオ生成モデルから合成した37.6K以上の人為的マルチアスペクトスコアを含む,最初の大規模データセットであるVideoFeedbackをリリースする。
ビデオ品質の自動評価を可能にするために、VideoFeedbackに基づいてVideoScore(Mantisから初期化)をトレーニングする。
実験によると、VideoScoreと人間の間のSpearmanの相関は、VideoFeedback-testで77.1に達し、以前のベストメトリクスを約50ポイント上回っている。
他のホールドアウトされたEvalCrafter、GenAI-Bench、VBenchのさらなる結果は、VideoScoreが他のメトリクスよりもはるかに高い相関性を持っていることを示している。
これらの結果から,VoiceScoreは,(1)進行追跡のために異なる動画モデルをレートすること,(2)RLHF(Reinforcement Learning with Human Feedback)におけるきめ細かい人間のフィードバックをシミュレートして,現在の映像生成モデルを改善するための優れたプロキシとして機能すると考えている。
The recent years have witnessed great advances in video generation. However, the development of automatic video metrics is lagging significantly behind. None of the existing metric is able to provide reliable scores over generated videos. The main barrier is the lack of large-scale human-annotated dataset. In this paper, we release VideoFeedback, the first large-scale dataset containing human-provided multi-aspect score over 37.6K synthesized videos from 11 existing video generative models. We train VideoScore (initialized from Mantis) based on VideoFeedback to enable automatic video quality assessment. Experiments show that the Spearman correlation between VideoScore and humans can reach 77.1 on VideoFeedback-test, beating the prior best metrics by about 50 points. Further result on other held-out EvalCrafter, GenAI-Bench, and VBench show that VideoScore has consistently much higher correlation with human judges than other metrics. Due to these results, we believe VideoScore can serve as a great proxy for human raters to (1) rate different video models to track progress (2) simulate fine-grained human feedback in Reinforcement Learning with Human Feedback (RLHF) to improve current video generation models. | 翻訳日:2024-06-25 13:16:50 公開日:2024-06-24 |
# FT-AED:早期高速道路交通異常事象検出のためのベンチマークデータセット
FT-AED: Benchmark Dataset for Early Freeway Traffic Anomalous Event Detection ( http://arxiv.org/abs/2406.15283v2 ) ライセンス: Link先を確認 | Austin Coursey, Junyi Ji, Marcos Quinones-Grueiro, William Barbour, Yuhang Zhang, Tyler Derr, Gautam Biswas, Daniel B. Work, | (参考訳) 事故などの高速道路上の異常事象の早期かつ正確な検出は、緊急応答とクリアランスを改善することができる。
しかし、イベント識別や報告における既存の遅延やエラーは、解決が難しい問題である。
現在の大規模高速道路交通データセットは、異常検出のために設計されておらず、これらの課題を無視している。
本稿では,自動検出のための大規模レーンレベル高速道路交通データセットについて紹介する。
当社のデータセットは、ナッシュビルに向かう州間高速道路24号線の18マイル延長に沿って、4車線で収集された1週間のレーダー検知センサーデータからできており、計370万件以上のセンサーが測定されている。
また、ナッシュビル交通管理センターから公式のクラッシュレポートを収集し、データセット内の他のあらゆる潜在的な異常を手動でラベル付けします。
将来の機械学習とトラフィック研究でデータセットが使用される可能性を示すため、データセット上の多数のディープラーニング異常検出モデルをベンチマークした。
教師なしグラフニューラルネットワークオートエンコーダは,この問題に対して有望な解決策であり,空間的関係を無視すると性能が低下することがわかった。
我々は,事故の75%を検知しながら,報告遅延を平均10分以上低減できることを実証した。
私たちのデータセットと開始に必要なすべての前処理コードは、将来の研究を促進するためにhttps://vu.edu/ft-aed/で公開されています。
Early and accurate detection of anomalous events on the freeway, such as accidents, can improve emergency response and clearance. However, existing delays and errors in event identification and reporting make it a difficult problem to solve. Current large-scale freeway traffic datasets are not designed for anomaly detection and ignore these challenges. In this paper, we introduce the first large-scale lane-level freeway traffic dataset for anomaly detection. Our dataset consists of a month of weekday radar detection sensor data collected in 4 lanes along an 18-mile stretch of Interstate 24 heading toward Nashville, TN, comprising over 3.7 million sensor measurements. We also collect official crash reports from the Nashville Traffic Management Center and manually label all other potential anomalies in the dataset. To show the potential for our dataset to be used in future machine learning and traffic research, we benchmark numerous deep learning anomaly detection models on our dataset. We find that unsupervised graph neural network autoencoders are a promising solution for this problem and that ignoring spatial relationships leads to decreased performance. We demonstrate that our methods can reduce reporting delays by over 10 minutes on average while detecting 75% of crashes. Our dataset and all preprocessing code needed to get started are publicly released at https://vu.edu/ft-aed/ to facilitate future research. | 翻訳日:2024-06-25 13:16:50 公開日:2024-06-24 |