このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240301となっている論文です。

PDF登録状況(公開日: 20240301)

TitleAuthorsAbstract論文公表日・翻訳日
# 機械学習は初等教育の終了を早めに予測

Machine Learning Predicts Upper Secondary Education Dropout as Early as the End of Primary School ( http://arxiv.org/abs/2403.14663v1 )

ライセンス: Link先を確認
Maria Psyridou, Fabi Prezja, Minna Torppa, Marja-Kristiina Lerkkanen, Anna-Maija Poikkeus, Kati Vasalampi, (参考訳) 教育は貧困を緩和し、経済成長を推進し、個人を力づけることにおいて重要な役割を担っている。 しかし、学校の退学の持続的な問題は、その効果が個人を超えて広がるという重大な課題を生んでいる。 これまでの研究では、機械学習をドロップアウトの分類に用いていたが、これらの研究は短期的な焦点に悩まされ、研究期間のわずか数年で収集されたデータに依存していた。 本研究は、幼稚園から9年生までのデータを含む13年間の縦断データセットを用いて、モデリングの地平を広げた。 本手法は,学生の学術的・認知的スキル,モチベーション,行動,幸福感,公式記録されたドロップアウトデータなど,幅広いパラメータを取り入れた。 本研究で開発された機械学習モデルでは, 曲線(AUC)の平均面積が0.61まで, 改善されたAUCは0.65まで, グレード9まで, 顕著な分類能力を示した。 さらなるデータ収集と独立相関分析が重要である。 将来のイテレーションでは、そのようなモデルは、教育者のプロセスと、リスクの高い学生を特定する既存のプロトコルを積極的に支援する可能性があり、それによって、学生の保持と成功戦略の再発明を支援し、最終的には教育成果の改善に寄与する可能性がある。

Education plays a pivotal role in alleviating poverty, driving economic growth, and empowering individuals, thereby significantly influencing societal and personal development. However, the persistent issue of school dropout poses a significant challenge, with its effects extending beyond the individual. While previous research has employed machine learning for dropout classification, these studies often suffer from a short-term focus, relying on data collected only a few years into the study period. This study expanded the modeling horizon by utilizing a 13-year longitudinal dataset, encompassing data from kindergarten to Grade 9. Our methodology incorporated a comprehensive range of parameters, including students' academic and cognitive skills, motivation, behavior, well-being, and officially recorded dropout data. The machine learning models developed in this study demonstrated notable classification ability, achieving a mean area under the curve (AUC) of 0.61 with data up to Grade 6 and an improved AUC of 0.65 with data up to Grade 9. Further data collection and independent correlational and causal analyses are crucial. In future iterations, such models may have the potential to proactively support educators' processes and existing protocols for identifying at-risk students, thereby potentially aiding in the reinvention of student retention and success strategies and ultimately contributing to improved educational outcomes.
翻訳日:2024-04-01 03:43:10 公開日:2024-03-01
# ClickTree:Clickstreamデータに基づく数学学生のパフォーマンス予測手法

ClickTree: A Tree-based Method for Predicting Math Students' Performance Based on Clickstream Data ( http://arxiv.org/abs/2403.14664v1 )

ライセンス: Link先を確認
Narjes Rohani, Behnam Rohani, Areti Manataki, (参考訳) 学生のパフォーマンスの予測と生徒の学習行動の分析は、オンラインコースの強化に重要な役割を果たしている。 学生の振る舞いを捉えた大量のクリックストリームデータを分析することによって、教育者は学術的な成果に影響を与える要因について貴重な洞察を得ることができ、コースにおける改善の領域を特定することができる。 本研究では,学生のクリックストリームデータに基づいて,数学課題における学生のパフォーマンスを予測するための木に基づく手法であるClickTreeを開発した。 そこで我々は,広範囲なクリックストリームデータから課題レベル,課題レベル,学生レベルの特徴を含む一連の特徴を抽出し,課題の解決に成功するかどうかを予測するために,CatBoostツリーを訓練した。 この手法は2023年の教育データマイニングカップで0.78844のAUCを達成し、大会では2位となった。 さらに,本研究の結果から,学生は問題タイプにおいて,与えられた集合から回答のサブセットを選択することや,Algebra IIの課題に直面することが示唆された。 さらに, 単位内割当てに係わる課題に対して, 単位内割当てに係わる問題に対処し, より多くの問題に正しく答える一方で, 家庭教師の要求率が高かった。 提案手法は, 生徒の学習経験を改善するために利用することができ, 上記の知見を数学コースに統合し, 生徒の学習成果を向上させることができる。

The prediction of student performance and the analysis of students' learning behavior play an important role in enhancing online courses. By analysing a massive amount of clickstream data that captures student behavior, educators can gain valuable insights into the factors that influence academic outcomes and identify areas of improvement in courses. In this study, we developed ClickTree, a tree-based methodology, to predict student performance in mathematical assignments based on students' clickstream data. We extracted a set of features, including problem-level, assignment-level and student-level features, from the extensive clickstream data and trained a CatBoost tree to predict whether a student successfully answers a problem in an assignment. The developed method achieved an AUC of 0.78844 in the Educational Data Mining Cup 2023 and ranked second in the competition. Furthermore, our results indicate that students encounter more difficulties in the problem types that they must select a subset of answers from a given set as well as problem subjects of Algebra II. Additionally, students who performed well in answering end-unit assignment problems engaged more with in-unit assignments and answered more problems correctly, while those who struggled had higher tutoring request rate. The proposed method can be utilized to improve students' learning experiences, and the above insights can be integrated into mathematical courses to enhance students' learning outcomes.
翻訳日:2024-04-01 03:43:10 公開日:2024-03-01
# 短心電図と長期HRVを用いたマルチモーダル心不全リスク推定

Multi-modal Heart Failure Risk Estimation based on Short ECG and Sampled Long-Term HRV ( http://arxiv.org/abs/2403.15408v1 )

ライセンス: Link先を確認
Sergio González, Abel Ko-Chun Yi, Wan-Ting Hsieh, Wei-Chao Chen, Chun-Li Wang, Victor Chien-Chia Wu, Shang-Hung Chang, (参考訳) 心臓不全(HF)を含む心臓血管疾患は、早期発見を回避し、世界的死亡率の高い原因となっている。 この文脈では、アクセス可能で効果的なリスク評価は不可欠である。 従来のアプローチはリソース集約的な診断テストに依存しており、通常は症状の発症後に投与される。 心電図(ECG)技術の普及と機械学習のパワーは、スマートヘルスケアにおいて実行可能な代替手段として浮上している。 本稿では,30秒間の心電図記録とHRVデータを組み合わせてHF入院リスクを推定するマルチモーダル手法を提案する。 我々は、総合的なECG機能を組み込んだXGBoostモデル(AFT)と生ECGから学習するResNetモデルという2つの生存モデルを紹介した。 本研究は, 当日測定した超短寿命ビート・ビート・ビート・ビート・ビート・ビート・計測の組み合わせから抽出した, 新たな長期HRVを用いて拡張する。 本稿では,ResNet と Transformer アーキテクチャ (TFM-ResNet) を組み合わせたサバイバルモデルを提案する。 実験では,14個の生存モデルと各種外部ECGデータセットの競合判別能力と比較して,0.8537のコンコーダンス指標を用いたHFリスク評価における高いモデル性能を示す。 Apple Watchのデータによる転送性テストの後、myHeartScore Appで実装された我々のアプローチは、コスト効率が高くアクセス性の高いHFリスクアセスメントを提供し、その防止と管理に寄与します。

Cardiovascular diseases, including Heart Failure (HF), remain a leading global cause of mortality, often evading early detection. In this context, accessible and effective risk assessment is indispensable. Traditional approaches rely on resource-intensive diagnostic tests, typically administered after the onset of symptoms. The widespread availability of electrocardiogram (ECG) technology and the power of Machine Learning are emerging as viable alternatives within smart healthcare. In this paper, we propose several multi-modal approaches that combine 30-second ECG recordings and approximate long-term Heart Rate Variability (HRV) data to estimate the risk of HF hospitalization. We introduce two survival models: an XGBoost model with Accelerated Failure Time (AFT) incorporating comprehensive ECG features and a ResNet model that learns from the raw ECG. We extend these with our novel long-term HRVs extracted from the combination of ultra-short-term beat-to-beat measurements taken over the day. To capture their temporal dynamics, we propose a survival model comprising ResNet and Transformer architectures (TFM-ResNet). Our experiments demonstrate high model performance for HF risk assessment with a concordance index of 0.8537 compared to 14 survival models and competitive discrimination power on various external ECG datasets. After transferability tests with Apple Watch data, our approach implemented in the myHeartScore App offers cost-effective and highly accessible HF risk assessment, contributing to its prevention and management.
翻訳日:2024-04-01 03:04:05 公開日:2024-03-01
# ModelObfuscator: デプロイされたMLベースのシステムを保護するための難読化モデル情報

ModelObfuscator: Obfuscating Model Information to Protect Deployed ML-based Systems ( http://arxiv.org/abs/2306.06112v3 )

ライセンス: Link先を確認
Mingyi Zhou, Xiang Gao, Jing Wu, John Grundy, Xiao Chen, Chunyang Chen, Li Li, (参考訳) ますます多くのエッジデバイスやモバイルアプリが、ディープラーニング(DL)機能を活用している。 リモートクラウドホストサービスではなく、デバイスにそのようなモデルをデプロイする — オンデバイスモデルと呼ばれる — は、デバイスからユーザデータを送信せず、応答時間も高いため、人気を博している。 しかし、デバイス上のモデルは、対応するアプリをアンパックすることでアクセスでき、モデルが攻撃者に完全に公開されているため、簡単に攻撃することができる。 近年の研究では、攻撃者はデバイス上でのモデルに対するホワイトボックスのような攻撃や、トレーニングデータの逆転を簡単に生成できることが示されている。 デバイス上のモデルをホワイトボックス攻撃から保護するために,モデル難読化と呼ばれる新しい手法を提案する。 具体的には、モデル難読化は、リネーム、パラメータカプセル化、神経構造難読化、ショートカット注入、余分な層注入によってモデルのキー情報、構造、パラメータ、属性を隠蔽する。 デバイス上でのTFLiteモデルを自動的に難読化するためのプロトタイプツールModelObfuscatorを開発した。 提案手法は,DLモデルの遅延を増大させることなく,内部情報を解析することの難しさを大幅に増大させることで,モデルセキュリティを劇的に改善できることを示す。 提案したオンデバイスモデル難読化は,オンデバイスモデルデプロイメントの基本的な技術となる可能性がある。 私たちのプロトタイプツールは、https://github.com/zhoumingyi/ModelObfuscator.comで公開されています。

More and more edge devices and mobile apps are leveraging deep learning (DL) capabilities. Deploying such models on devices -- referred to as on-device models -- rather than as remote cloud-hosted services, has gained popularity because it avoids transmitting user data off of the device and achieves high response time. However, on-device models can be easily attacked, as they can be accessed by unpacking corresponding apps and the model is fully exposed to attackers. Recent studies show that attackers can easily generate white-box-like attacks for an on-device model or even inverse its training data. To protect on-device models from white-box attacks, we propose a novel technique called model obfuscation. Specifically, model obfuscation hides and obfuscates the key information -- structure, parameters and attributes -- of models by renaming, parameter encapsulation, neural structure obfuscation obfuscation, shortcut injection, and extra layer injection. We have developed a prototype tool ModelObfuscator to automatically obfuscate on-device TFLite models. Our experiments show that this proposed approach can dramatically improve model security by significantly increasing the difficulty of parsing models inner information, without increasing the latency of DL models. Our proposed on-device model obfuscation has the potential to be a fundamental technique for on-device model deployment. Our prototype tool is publicly available at: https://github.com/zhoumingyi/ModelObfuscator.
翻訳日:2024-03-25 23:48:38 公開日:2024-03-01
# Beyond Beats: ポピュラー音楽のレシピ? 機械学習のアプローチ

Beyond Beats: A Recipe to Song Popularity? A machine learning approach ( http://arxiv.org/abs/2403.12079v1 )

ライセンス: Link先を確認
Niklas Sebastian, Jung, Florian Mayer, (参考訳) 音楽の人気予測は、データ駆動アルゴリズムの台頭とSpotifyのようなストリーミングプラットフォームによって、業界と学界の両方で大きな注目を集めている。 本研究は,1957年から2020年にかけての3万曲を対象としたデータセットを用いて,さまざまな機械学習モデルの予測能力について検討することを目的とする。 方法: 普通最小方形(OLS)、多変量適応回帰スプライン(MARS)、ランダムフォレスト(Random Forest)、XGBoost(XGBoost)アルゴリズムを用いて、歌の特徴と人気への影響を分析する。 結果: 普通最小広場回帰分析(OLS)では, ジャンルが人気に大きく影響し, 時間とともに顕著な傾向がみられた。 MARSモデリングは変数間の複雑な関係、特にインストゥルメンタルネスや持続時間といった特徴を強調します。 ランダムフォレストとXGBoostモデルは、人気の予測においてジャンル、特にEDMの重要性を強調している。 パフォーマンスの変動にもかかわらず、ランダムフォレストが最も効果的なモデルとして登場し、平均スコアに比べて予測精度が7.1%向上した。 ジャンルの重要性にもかかわらず、音楽に関連する特徴の変化が、ジャンルと他の要素の間の複雑な相互作用を示唆しているため、歌の人気を予測することは依然として困難である。 その結果、大声さや歌の持続時間といった特定の特徴が人気スコアに影響を及ぼすが、歌の成功を正確に予測するのは難しい。

Music popularity prediction has garnered significant attention in both industry and academia, fuelled by the rise of data-driven algorithms and streaming platforms like Spotify. This study aims to explore the predictive power of various machine learning models in forecasting song popularity using a dataset comprising 30,000 songs spanning different genres from 1957 to 2020. Methods: We employ Ordinary Least Squares (OLS), Multivariate Adaptive Regression Splines (MARS), Random Forest, and XGBoost algorithms to analyse song characteristics and their impact on popularity. Results: Ordinary Least Squares (OLS) regression analysis reveals genre as the primary influencer of popularity, with notable trends over time. MARS modelling highlights the complex relationship between variables, particularly with features like instrumentalness and duration. Random Forest and XGBoost models underscore the importance of genre, especially EDM, in predicting popularity. Despite variations in performance, Random Forest emerges as the most effective model, improving prediction accuracy by 7.1% compared to average scores. Despite the importance of genre, predicting song popularity remains challenging, as observed variations in music-related features suggest complex interactions between genre and other factors. Consequently, while certain characteristics like loudness and song duration may impact popularity scores, accurately predicting song success remains elusive.
翻訳日:2024-03-25 07:36:54 公開日:2024-03-01
# プライバシの増幅のための一般的なシャッフルフレームワーク - プライバシ保証の強化とユーティリティの強化

A Generalized Shuffle Framework for Privacy Amplification: Strengthening Privacy Guarantees and Enhancing Utility ( http://arxiv.org/abs/2312.14388v3 )

ライセンス: Link先を確認
E Chen, Yang Cao, Yifei Ge, (参考訳) ローカルディファレンシャルプライバシのシャッフルモデルは、高ユーティリティでプライバシ保護を強化するために設計された、高度なプライバシアンプリフィケーションの方法である。 機密データをランダムにシャッフルすることで、個々のデータポイントを特定の個人にリンクさせることがより困難になる。 しかしながら、既存のほとんどの研究は、$(\epsilon_0,\delta_0)$-Locally Differentially Private (LDP)ランダム化器に基づくシャッフルモデルに重点を置いており、$(\epsilon_0,\delta_0)$-LDP やパーソナライズされた LDP (PLDP) のような複雑なシナリオを考慮に入れている。 これにより、シャッフルモデルの可能性の包括的理解が妨げられ、様々な設定で応用が制限される。 この研究ギャップを埋めるために、パーソナライズされたプライバシーパラメータを持つ任意の$(\epsilon_i,\delta_i)$-PLDP設定に適用可能な一般化シャッフルフレームワークを提案する。 この一般化により、プライバシとユーティリティのトレードオフのより広範な探索が可能になり、さまざまなコンテキストにおけるプライバシ保存分析の設計が容易になる。 シャッフル$(\epsilon_i,\delta_i)$-PLDPプロセスは、およそ$\mu$-Gaussian差分プライバシーを \mu = \sqrt {\frac{2}{\sum_{i=1}^{n} \frac{1-\delta_i}{1+e^{\epsilon_i}}-\max_{i}{\frac{1-\delta_{i}}{1+e^{\epsilon_{i}}} で保存する。 このアプローチでは、不等式推定に関連する制限や潜在的な不正確さを避けることができます。 プライバシ保証を強化するために、Chernoff境界やHoeffdingの不等式といった大まかな見積に頼るのではなく、仮説テストを利用することにより、低いバウンダリを改善する。 さらに,本手法は,グローバルモデルの有用性を保ちながら,強力な中央プライバシー保証を実現する上で,既存の手法よりも優れていることを示す。 また、平均関数、周波数推定、確率勾配勾配に対する対応するアルゴリズムを慎重に設計した。

The shuffle model of local differential privacy is an advanced method of privacy amplification designed to enhance privacy protection with high utility. It achieves this by randomly shuffling sensitive data, making linking individual data points to specific individuals more challenging. However, most existing studies have focused on the shuffle model based on $(\epsilon_0,0)$-Locally Differentially Private (LDP) randomizers, with limited consideration for complex scenarios such as $(\epsilon_0,\delta_0)$-LDP or personalized LDP (PLDP). This hinders a comprehensive understanding of the shuffle model's potential and limits its application in various settings. To bridge this research gap, we propose a generalized shuffle framework that can be applied to any $(\epsilon_i,\delta_i)$-PLDP setting with personalized privacy parameters. This generalization allows for a broader exploration of the privacy-utility trade-off and facilitates the design of privacy-preserving analyses in diverse contexts. We prove that shuffled $(\epsilon_i,\delta_i)$-PLDP process approximately preserves $\mu$-Gaussian Differential Privacy with \mu = \sqrt{\frac{2}{\sum_{i=1}^{n} \frac{1-\delta_i}{1+e^{\epsilon_i}}-\max_{i}{\frac{1-\delta_{i}}{1+e^{\epsilon_{i}}}}}}. $ This approach allows us to avoid the limitations and potential inaccuracies associated with inequality estimations. To strengthen the privacy guarantee, we improve the lower bound by utilizing hypothesis testing} instead of relying on rough estimations like the Chernoff bound or Hoeffding's inequality. Furthermore, extensive comparative evaluations clearly show that our approach outperforms existing methods in achieving strong central privacy guarantees while preserving the utility of the global model. We have also carefully designed corresponding algorithms for average function, frequency estimation, and stochastic gradient descent.
翻訳日:2024-03-18 11:28:19 公開日:2024-03-01
# OPAF:リカレントニューラルネットワークにおける非線形活性化関数のためのセキュアな2要素計算プロトコル最適化

OPAF: Optimized Secure Two-Party Computation Protocols for Nonlinear Activation Functions in Recurrent Neural Network ( http://arxiv.org/abs/2403.00239v1 )

ライセンス: Link先を確認
Qian Feng, Zhihua Xia, Zhifeng Xu, Jiasi Weng, Jian Weng, (参考訳) ディープニューラルネットワーク(DNN)は通常、畳み込み、プーリング、アクティベーション機能を含む。 プライバシーに関する懸念が高まっているため、プライバシー保護のDNNはホットな研究トピックとなっている。 一般に、畳み込みとプーリング操作は加法的ホモモルフィックとセキュアな比較によって支持できるが、アクティベーション関数の安全な実装は、特に指数関数、シグミド関数、タン関数のような非線型関数の精度と効率の要求に対してそれほど単純ではない。 本稿では,SIRNNが現在最先端技術である2つの設定を持つ半正直モデルにおける非線形関数の実装について,特に注目する。 従来の研究と異なり、本質的な特徴と価値のある小さなトリックを用いて、これらの機能の実装を改善することを提案した。 まず,計算処理の大部分をローカルに実行した分割・対数戦略を用いて,指数関数の新規かつ効率的なプロトコルを提案する。 指数プロトコルはポアソン回帰のような機械学習タスクで広く使われており、シグモノイドやタン関数の重要なコンポーネントでもある。 次に,Sigmoid と Tanh の対称性を利用して入力を微調整し,2PC 構築ブロックを削減し,オーバーヘッドの低減と性能の向上に寄与する。 その結果、基本構造ブロックを少なくしてこれらの関数を実装した。 総合評価の結果,本プロトコルは,それぞれ57%,44%,42%の指数関数(負の入力しか持たない),シグモイド関数,Tanh関数を減らしながら,最先端の精度を実現していることがわかった。

Deep neural network (DNN) typically involves convolutions, pooling, and activation function. Due to the growing concern about privacy, privacy-preserving DNN becomes a hot research topic. Generally, the convolution and pooling operations can be supported by additive homomorphic and secure comparison, but the secure implementation of activation functions is not so straightforward for the requirements of accuracy and efficiency, especially for the non-linear ones such as exponential, sigmoid, and tanh functions. This paper pays a special attention to the implementation of such non-linear functions in semi-honest model with two-party settings, for which SIRNN is the current state-of-the-art. Different from previous works, we proposed improved implementations for these functions by using their intrinsic features as well as worthy tiny tricks. At first, we propose a novel and efficient protocol for exponential function by using a divide-and-conquer strategy with most of the computations executed locally. Exponential protocol is widely used in machine learning tasks such as Poisson regression, and is also a key component of sigmoid and tanh functions. Next, we take advantage of the symmetry of sigmoid and Tanh, and fine-tune the inputs to reduce the 2PC building blocks, which helps to save overhead and improve performance. As a result, we implement these functions with fewer fundamental building blocks. The comprehensive evaluations show that our protocols achieve state-of-the-art precision while reducing run-time by approximately 57%, 44%, and 42% for exponential (with only negative inputs), sigmoid, and Tanh functions, respectively.
翻訳日:2024-03-18 06:39:33 公開日:2024-03-01
# SoK:プログラマブルロジックコントローラのセキュリティ

SoK: Security of Programmable Logic Controllers ( http://arxiv.org/abs/2403.00280v1 )

ライセンス: Link先を確認
Efrén López-Morales, Ulysse Planta, Carlos Rubio-Medrano, Ali Abbasi, Alvaro A. Cardenas, (参考訳) 何十億もの人々が水処理工場、エネルギー管理、食品生産といった重要なユーティリティと製造インフラに依存している。 信頼できるインフラへの依存は、サイバー攻撃の貴重な標的となる。 物理的なインフラを攻撃する敵の主要なターゲットの1つは、プログラム可能なロジックコントローラ(PLC)である。 本研究では,PLCのセキュリティを探求する知識の包括的体系化を初めて実施する: PLCの攻撃と防御の詳細な分析を行い,過去17年間の研究からPLCのセキュリティの動向を明らかにする。 PLCとICS(Industrial Control Systems)に新たな脅威分類を導入する。 最後に、もし無視されたとしても、重要なインフラに対する新たな破滅的な攻撃につながる可能性がある研究ギャップを特定して指摘します。

Billions of people rely on essential utility and manufacturing infrastructures such as water treatment plants, energy management, and food production. Our dependence on reliable infrastructures makes them valuable targets for cyberattacks. One of the prime targets for adversaries attacking physical infrastructures are Programmable Logic Controllers (PLCs) because they connect the cyber and physical worlds. In this study, we conduct the first comprehensive systematization of knowledge that explores the security of PLCs: We present an in-depth analysis of PLC attacks and defenses and discover trends in the security of PLCs from the last 17 years of research. We introduce a novel threat taxonomy for PLCs and Industrial Control Systems (ICS). Finally, we identify and point out research gaps that, if left ignored, could lead to new catastrophic attacks against critical infrastructures.
翻訳日:2024-03-18 06:39:33 公開日:2024-03-01
# モバイルアドホックネットワークのためのセキュアルーティング

Secure Routing for Mobile Ad hoc Networks ( http://arxiv.org/abs/2403.00404v1 )

ライセンス: Link先を確認
Panagiotis Papadimitratos, Zygmunt J. Haas, (参考訳) モバイルアドホックネットワーク(MANET)技術の出現は、有線ネットワークインフラストラクチャーの拡張または運用、あるいはおそらくは自律ネットワークへと進化する通信機器の、自己組織化された無線相互接続を提唱する。 いずれにせよ、MANETベースのアプリケーションの普及は、さまざまな要因に依存しており、信頼性が満たすべき主要な課題の1つです。 既知のセキュリティメカニズムが存在するにもかかわらず、この新しいネットワークパラダイムに関連する追加の脆弱性と機能は、そのような従来のソリューションを適用できない可能性がある。 特に、オープンで分散的な通信環境における中央の認可施設の欠如は、特に協調的なネットワーク運用の必要性から大きな課題である。 特にMANETでは、どのノードも経路発見プロセスを中断することでルーティングプロトコル機能を損なう可能性がある。 本稿では,このような悪意ある行動の有害な影響を軽減し,正確な接続情報を提供する経路発見プロトコルを提案する。 我々のプロトコルは、生成された、妥協された、あるいは再生されたルート応答が拒否されるか、クエリノードに決して届かないことを保証します。 さらに、プロトコルの応答性はルーティングプロトコル自体を利用するさまざまなタイプの攻撃の下で保護される。 提案方式の唯一の要件は,クエリ開始ノードと検索先とのセキュリティアソシエーションの存在である。 具体的には、任意の悪意のある振る舞いを示す中間ノードに関する仮定は行われない。 このスキームは、多数の非凝固ノードの存在下で堅牢であり、タイムリーに正確なルーティング情報を提供する。

The emergence of the Mobile Ad Hoc Networking (MANET) technology advocates self-organized wireless interconnection of communication devices that would either extend or operate in concert with the wired networking infrastructure or, possibly, evolve to autonomous networks. In either case, the proliferation of MANET-based applications depends on a multitude of factors, with trustworthiness being one of the primary challenges to be met. Despite the existence of well-known security mechanisms, additional vulnerabilities and features pertinent to this new networking paradigm might render such traditional solutions inapplicable. In particular, the absence of a central authorization facility in an open and distributed communication environment is a major challenge, especially due to the need for cooperative network operation. In particular, in MANET, any node may compromise the routing protocol functionality by disrupting the route discovery process. In this paper, we present a route discovery protocol that mitigates the detrimental effects of such malicious behavior, as to provide correct connectivity information. Our protocol guarantees that fabricated, compromised, or replayed route replies would either be rejected or never reach back the querying node. Furthermore, the protocol responsiveness is safeguarded under different types of attacks that exploit the routing protocol itself. The sole requirement of the proposed scheme is the existence of a security association between the node initiating the query and the sought destination. Specifically, no assumption is made regarding the intermediate nodes, which may exhibit arbitrary and malicious behavior. The scheme is robust in the presence of a number of non-colluding nodes, and provides accurate routing information in a timely manner.
翻訳日:2024-03-18 06:39:33 公開日:2024-03-01
# SoK: アーキテクチャ設計の欠陥と緩和を橋渡しするクロスチェーン

SoK: Cross-Chain Bridging Architectural Design Flaws and Mitigations ( http://arxiv.org/abs/2403.00405v1 )

ライセンス: Link先を確認
Jakob Svennevik Notland, Jinguye Li, Mariusz Nowostawski, Peter Halland Haro, (参考訳) クロスチェーンブリッジは、異種ブロックチェーン間の相互運用性を実現するソリューションである。 基盤となるブロックチェーンとは対照的に、ブリッジはセキュリティ保証が劣ることが多く、2022年の15~20億米ドルの範囲で被害を受けたハックの標的となっている。 ブリッジアーキテクチャの現在の状況は、それらがあいまいであり、異なるアーキテクチャとそのコンポーネントが、異なる脆弱性とどのように関連しているかという概念は、次にない。 本研究では過去3年間(2021-2023年)に60の異なる橋と34の橋のエクスプロイトを分析してきた。 解析の結果,橋梁の13の構成要素が同定された。 コンポーネントを8種類の脆弱性にリンクしました。 本研究は, 設計欠陥の突発的悪用に対処するため, 既存の対策と可能な対策に基づいて, 11のインパクト低減対策を提案している。 結果は、セキュアなクロスチェーンブリッジアーキテクチャの設計と実装、設計上の欠陥の防止、エクスプロイトのネガティブな影響軽減のためのガイドラインとして使用される。

Cross-chain bridges are solutions that enable interoperability between heterogeneous blockchains. In contrast to the underlying blockchains, the bridges often provide inferior security guarantees and have been targets of hacks causing damage in the range of 1.5 to 2 billion USD in 2022. The current state of bridge architectures is that they are ambiguous, and there is next to no notion of how different architectures and their components are related to different vulnerabilities. Throughout this study, we have analysed 60 different bridges and 34 bridge exploits in the last three years (2021-2023). Our analyses identified 13 architectural components of the bridges. We linked the components to eight types of vulnerabilities, also called design flaws. We identified prevention measures and proposed 11 impact reduction measures based on the existing and possible countermeasures to address the imminent exploits of the design flaws. The results are meant to be used as guidelines for designing and implementing secure cross-chain bridge architectures, preventing design flaws, and mitigating the negative impacts of exploits.
翻訳日:2024-03-18 06:39:33 公開日:2024-03-01
# ブロックチェーン拡張性向上のためのマークルツリーとバークルツリーの適応的再構成

Adaptive Restructuring of Merkle and Verkle Trees for Enhanced Blockchain Scalability ( http://arxiv.org/abs/2403.00406v1 )

ライセンス: Link先を確認
Oleksandr Kuznetsov, Dzianis Kanonik, Alex Rusnak, Anton Yezhov, Oleksandr Domin, (参考訳) ブロックチェーン技術のスケーラビリティは依然として重要な課題であり、さまざまな分野で広く採用されている。 本稿では,ブロックチェーンアーキテクチャの基本コンポーネントであるMerkleとVerkleツリーの適応的再構成を提案して,データの整合性の確保と効率的な検証プロセスの促進に寄与する,この課題に対処する革新的なアプローチを紹介する。 従来の静的木構造とは異なり、適応モデルは使用パターンに基づいてこれらの木の構成を動的に調整し、検証に必要な平均経路長を著しく削減し、その結果、これらのプロセスに関連する計算オーバーヘッドを低減します。 包括的概念的枠組みを通じて、二分木構成と非二分木構成の両方を包含する適応的再構成の方法論を概説する。 このフレームワークは一連の詳細な例を通して検証され、実際の実現可能性と効率が我々のアプローチで達成可能であることを実証する。 さらに、既存のスケーラビリティソリューションとの比較分析を行い、追加の複雑さや依存関係を導入することなく、単純さ、セキュリティ、効率の向上の観点から、適応的再構成の独特な利点を強調します。 この研究の意味は、理論的な進歩を超えて、スケーラブルでセキュアで効率的なブロックチェーンデータ検証方法を提供することで、金融やサプライチェーン管理などにおけるブロックチェーンテクノロジの広範な採用を促進することができる。 ブロックチェーンエコシステムが進化を続けるにつれて、ここで概説した原則と方法論は、その成長と成熟に大きく貢献する可能性がある。

The scalability of blockchain technology remains a pivotal challenge, impeding its widespread adoption across various sectors. This study introduces an innovative approach to address this challenge by proposing the adaptive restructuring of Merkle and Verkle trees, fundamental components of blockchain architecture responsible for ensuring data integrity and facilitating efficient verification processes. Unlike traditional static tree structures, our adaptive model dynamically adjusts the configuration of these trees based on usage patterns, significantly reducing the average path length required for verification and, consequently, the computational overhead associated with these processes. Through a comprehensive conceptual framework, we delineate the methodology for adaptive restructuring, encompassing both binary and non-binary tree configurations. This framework is validated through a series of detailed examples, demonstrating the practical feasibility and the efficiency gains achievable with our approach. Moreover, we present a comparative analysis with existing scalability solutions, highlighting the unique advantages of adaptive restructuring in terms of simplicity, security, and efficiency enhancement without introducing additional complexities or dependencies. This study's implications extend beyond theoretical advancements, offering a scalable, secure, and efficient method for blockchain data verification that could facilitate broader adoption of blockchain technology in finance, supply chain management, and beyond. As the blockchain ecosystem continues to evolve, the principles and methodologies outlined herein are poised to contribute significantly to its growth and maturity.
翻訳日:2024-03-18 06:39:33 公開日:2024-03-01
# 最小逆モデルによる遅延型PUFの攻撃

Attacking Delay-based PUFs with Minimal Adversary Model ( http://arxiv.org/abs/2403.00464v1 )

ライセンス: Link先を確認
Hongming Fei, Owen Millwood, Prosanta Gope, Jack Miskelly, Biplab Sikdar, (参考訳) Physically Unclonable Functions (PUF)は、軽量デバイス認証のための合理化されたソリューションを提供する。 遅延ベースのArbiter PUFは実装が容易で膨大なチャレンジスペースを持つが、入力と出力の相関を利用したモデリング攻撃には無関心である。 したがって、モデリングに抵抗するPUFの開発と、それらに対する機械学習攻撃の考案の間には、研究が偏在している。 この二分法は、PUFのセキュリティを測る普遍的なツールが欠如していることから、PUFのセキュリティに対する過大な懸念と過信をもたらすことが多い。 多くのシナリオでは、攻撃にはPUFタイプや設定パラメータなどの追加情報が必要である。 また、新しいPUFは、導入時に特定のアタックモデルがない場合、しばしば 'Secure' とブランドされる。 遅延に基づくPUFの安全性を公平に評価するために,様々なPUFに対する攻撃を最小限の知識で実装するためのMixture-of-PUF-Experts (MoPE) 構造を特徴とする汎用フレームワークを提案する。 我々は,本モデルが様々なPUFタイプを攻撃できることを示す。例えば,適切な量の課題と応答だけを用いて,異種フィードフォワードPUFに対する最初の攻撃を成功させた。 本モデルの拡張版であるMMOPE(Multi-gate Mixture-of-PUF-Experts)構造を提案する。 これにより、複数のPUFを同時に攻撃するためのトレーニング期間の合理化が可能になる。 本研究は, 実世界の非バイアス, 偏りのあるデータセットを用いて, PUFのスペクトルにまたがって, MoPE と MMoPE の強力な性能を示す。

Physically Unclonable Functions (PUFs) provide a streamlined solution for lightweight device authentication. Delay-based Arbiter PUFs, with their ease of implementation and vast challenge space, have received significant attention; however, they are not immune to modelling attacks that exploit correlations between their inputs and outputs. Research is therefore polarized between developing modelling-resistant PUFs and devising machine learning attacks against them. This dichotomy often results in exaggerated concerns and overconfidence in PUF security, primarily because there lacks a universal tool to gauge a PUF's security. In many scenarios, attacks require additional information, such as PUF type or configuration parameters. Alarmingly, new PUFs are often branded `secure' if they lack a specific attack model upon introduction. To impartially assess the security of delay-based PUFs, we present a generic framework featuring a Mixture-of-PUF-Experts (MoPE) structure for mounting attacks on various PUFs with minimal adversarial knowledge, which provides a way to compare their performance fairly and impartially. We demonstrate the capability of our model to attack different PUF types, including the first successful attack on Heterogeneous Feed-Forward PUFs using only a reasonable amount of challenges and responses. We propose an extension version of our model, a Multi-gate Mixture-of-PUF-Experts (MMoPE) structure, facilitating multi-task learning across diverse PUFs to recognise commonalities across PUF designs. This allows a streamlining of training periods for attacking multiple PUFs simultaneously. We conclude by showcasing the potent performance of MoPE and MMoPE across a spectrum of PUF types, employing simulated, real-world unbiased, and biased data sets for analysis.
翻訳日:2024-03-18 06:39:33 公開日:2024-03-01
# Bitcoinにおけるヒューリスティックベースのアドレスクラスタリングの有効性の評価

Assessing the Efficacy of Heuristic-Based Address Clustering for Bitcoin ( http://arxiv.org/abs/2403.00523v1 )

ライセンス: Link先を確認
Hugo Schnoering, Pierre Porthaux, Michalis Vazirgiannis, (参考訳) Bitcoinブロックチェーン内でトランザクションを探索するには、数十億のエンティティ間のbitcoinの転送を調べる必要がある。 しかし、そのような膨大な数の実体を研究するには実用的でなく、資源を消費することが多い。 その結果、エンティティクラスタリングは、ほとんどの分析研究において最初のステップとなる。 このプロセスは、しばしばこれらの実体の実践と行動に根ざしたヒューリスティックを取り入れている。 本研究は,4つの新しいヒューリスティックの紹介とともに,広く利用されている2つのヒューリスティックの検証を行った。 我々の貢献には、与えられたヒューリスティックによって達成されるエンティティ数の減少を定量化するために設計された計量である「textit{clustering ratio}」の導入が含まれる。 この減少率の評価は、分析目的のために特定のヒューリスティックの選択を正当化する上で重要な役割を担っている。 ブロックチェーン上のエンティティの数が継続的に増加するのを特徴とするBitcoinシステムの動的な性質と、それらのエンティティの進化する振る舞いを考えると、各ヒューリスティックに対するクラスタリング比の時間的進化を調査するために、我々の研究を拡張します。 この時間的分析は、時間とともにこれらのヒューリスティックスの有効性の理解を高める。

Exploring transactions within the Bitcoin blockchain entails examining the transfer of bitcoins among several hundred million entities. However, it is often impractical and resource-consuming to study such a vast number of entities. Consequently, entity clustering serves as an initial step in most analytical studies. This process often employs heuristics grounded in the practices and behaviors of these entities. In this research, we delve into the examination of two widely used heuristics, alongside the introduction of four novel ones. Our contribution includes the introduction of the \textit{clustering ratio}, a metric designed to quantify the reduction in the number of entities achieved by a given heuristic. The assessment of this reduction ratio plays an important role in justifying the selection of a specific heuristic for analytical purposes. Given the dynamic nature of the Bitcoin system, characterized by a continuous increase in the number of entities on the blockchain, and the evolving behaviors of these entities, we extend our study to explore the temporal evolution of the clustering ratio for each heuristic. This temporal analysis enhances our understanding of the effectiveness of these heuristics over time.
翻訳日:2024-03-18 06:39:33 公開日:2024-03-01
# ゲーム開発における擬似数生成のためのロジスティックマップの解析

Analysis of Logistic Map for Pseudorandom Number Generation in Game Development ( http://arxiv.org/abs/2403.00864v1 )

ライセンス: Link先を確認
Chenxiao Zhou, (参考訳) 多くの人気ビデオゲームは擬似乱数生成器を使用して、ゲームオブジェクトのためのランダムに分散した場所を可能な限り予測不能にしている。 ゲーム競争のようなシナリオでは再現可能なランダム性も必要であり、同じシード入力が与えられた場合、ランダムな結果が再現可能である。 既存のランダム生成法では、シード入力に限定的な選択がある。 この制限に対処するため,ゲーム開発のためのロジスティックマップと呼ばれるカオスマップを解析した。 このカオスマップの特性を分析した後,擬似乱数列生成アルゴリズムとゲームオブジェクトのランダムな位置の生成アルゴリズムを開発した。 Snakeのゲームの実験では、ロジスティックマップがゲーム開発に有効であることを実証している。 また,提案アルゴリズムにより再現可能なランダム性も実現した。

Many popular video games use pseudorandom number generators to create randomly distributed locations for game objects as highly unpredictable as possible. Some scenarios like game competition also need reproducible randomness, namely the random results can be reproducible if given the same seed input. Existing random generation methods have limited choices for seed input. To address this limitation, this study analyzes a chaotic map called the Logistic Map for game development. After analyzing the properties of this chaotic map, I developed a pseudorandom sequence generation algorithm and a generation algorithm of random locations of game objects. Experiments on the game of Snake demonstrate that the Logistic Map is viable for game development. The reproducible randomness is also realized with the proposed algorithm.
翻訳日:2024-03-18 06:39:33 公開日:2024-03-01
# 有限Alphabetを用いた分散音源の非インタラクティブシミュレーションについて

On Non-Interactive Simulation of Distributed Sources with Finite Alphabets ( http://arxiv.org/abs/2403.00989v1 )

ライセンス: Link先を確認
Hojat Allah Salehi, Farhad Shirani, (参考訳) 本研究では,非インタラクティブソースシミュレーション(NISS)問題に対するフーリエ解析フレームワークを提案する。 2つの分散エージェントは、共同分布$P_{X^dY^d}$に従って描画されたシーケンスのペア$X^d$と$Y^d$を観測する。 エージェントは出力を$U=f_d(X^d)$と$V=g_d(Y^d)$にし、目標分布を$Q_{UV}$に十分近いジョイント分布を生成する。 既存の研究では、有限アルファベット出力のNAS問題は決定可能であることが示されている。 二項出力NASの場合、入力複雑性の上限は$O(\exp\operatorname{poly}(\frac{1}{\epsilon}))$である。 本研究では,NASシナリオのいくつかのクラスにおいて,入力複雑性とアルゴリズム設計に対処する。 二重対称なバイナリ入力を持つバイナリ出力NASのシナリオでは、入力複雑性は$\Theta(\log{\frac{1}{\epsilon}})$である。 模擬関数対の明示的な特徴付けが提供される。 一般的な有限入力のシナリオに対して、合成関数 $(f_d(X^d),g_d(Y^d))$ を明示的に見つける構成的アルゴリズムが導入された。 このアプローチは、新しいFourier分析フレームワークに依存している。 IID入力によるNASシナリオの様々な数値シミュレーションが提供される。 さらに、フーリエフレームワークの汎用性を説明するために、絡み合い支援型NISやマルコフ入力を用いたNISなど、非IID入力のいくつかの例が提供されている。

This work presents a Fourier analysis framework for the non-interactive source simulation (NISS) problem. Two distributed agents observe a pair of sequences $X^d$ and $Y^d$ drawn according to a joint distribution $P_{X^dY^d}$. The agents aim to generate outputs $U=f_d(X^d)$ and $V=g_d(Y^d)$ with a joint distribution sufficiently close in total variation to a target distribution $Q_{UV}$. Existing works have shown that the NISS problem with finite-alphabet outputs is decidable. For the binary-output NISS, an upper-bound to the input complexity was derived which is $O(\exp\operatorname{poly}(\frac{1}{\epsilon}))$. In this work, the input complexity and algorithm design are addressed in several classes of NISS scenarios. For binary-output NISS scenarios with doubly-symmetric binary inputs, it is shown that the input complexity is $\Theta(\log{\frac{1}{\epsilon}})$, thus providing a super-exponential improvement in input complexity. An explicit characterization of the simulating pair of functions is provided. For general finite-input scenarios, a constructive algorithm is introduced that explicitly finds the simulating functions $(f_d(X^d),g_d(Y^d))$. The approach relies on a novel Fourier analysis framework. Various numerical simulations of NISS scenarios with IID inputs are provided. Furthermore, to illustrate the general applicability of the Fourier framework, several examples with non-IID inputs, including entanglement-assisted NISS and NISS with Markovian inputs are provided.
翻訳日:2024-03-18 06:39:33 公開日:2024-03-01
# BasedAI: ゼロ知識大言語モデル(ZK-LLM)のための分散P2Pネットワーク

BasedAI: A decentralized P2P network for Zero Knowledge Large Language Models (ZK-LLMs) ( http://arxiv.org/abs/2403.01008v1 )

ライセンス: Link先を確認
Sean Wellington, (参考訳) BasedAIはマシンの分散ネットワークで、FHE(Fully Homomorphic Encryption)とLLM(Big Language Model)をネットワークに接続する分散インフラストラクチャを導入している。 提案したフレームワークは、"Cerberus Squeezing"と呼ばれるデフォルトのメカニズムをマイニングプロセスに組み込んで、データプライバシのための生成敵ネットワークからの洞察を活用することにより、標準LLMを暗号化ゼロ知識LLM(ZK-LLM)に変換する。 この新しい量子化メカニズムは、クエリまたは対応するレスポンスを復号することなく、LLMとのユーザインタラクションに由来するプロンプトを処理し、応答することを可能にする。 Cerberus Squeezingの導入は、ユーザ、マイナ、バリデータ間のコールを積極的に最適化することで、現在のFHE準拠のコンピューティング環境における量子化関数によるパフォーマンス劣化を著しく改善する。

BasedAI is a distributed network of machines which introduces decentralized infrastructure capable of integrating Fully Homomorphic Encryption (FHE) with any large language model (LLM) connected to its network. The proposed framework embeds a default mechanism, called "Cerberus Squeezing", into the mining process which enables the transformation of a standard LLMs into encrypted zero-knowledge LLMs, or "ZK-LLMs", leveraging insights from generative adversarial networks for data privacy. This novel quantization mechanism empowers BasedAI miners to process and respond to prompts derived from User interaction with LLMs without the need for decrypting either the queries or their corresponding responses. The introduction of Cerberus Squeezing significantly improves performance degradation caused by quantized functions in current FHE-compliant computing environments by proactively optimizing calls between users, miners, and validators.
翻訳日:2024-03-18 06:39:33 公開日:2024-03-01
# 解釈可能性のレイアウトは攻撃文の人間の知覚に影響を及ぼすか?

Can Interpretability Layouts Influence Human Perception of Offensive Sentences? ( http://arxiv.org/abs/2403.05581v1 )

ライセンス: Link先を確認
Thiago Freitas dos Santos, Nardine Osman, Marco Schorlemmer, (参考訳) 本稿では,3つの機械学習(ML)の解釈可能性レイアウトが,ヘイトスピーチを含む文の評価において,「ミソジニー」と「ラキズム」のクラスに着目し,参加者の視点に影響を及ぼすか否かを評価する。 文献に散在する結論が存在することを踏まえ,質問応答の統計的・質的な分析を通じて,オンラインコミュニティにおけるML解釈可能性の利用に関する実証的証拠を提供する。 一般化付加モデル(Generalized Additive Model)は、参加者のレーティングを推定し、オブジェクト内およびオブジェクト間のデザインを取り入れている。 統計的分析では、どの解釈可能性レイアウトも参加者の見解に大きく影響しないが、定性的な分析はML解釈可能性の利点を示している。 1)観念とモデルに相違がある場合、参加者に是正的フィードバックを与えるよう促す。 2) 従来のパフォーマンス指標を超えてモデルの振る舞いを評価するための洞察を提供する。

This paper conducts a user study to assess whether three machine learning (ML) interpretability layouts can influence participants' views when evaluating sentences containing hate speech, focusing on the "Misogyny" and "Racism" classes. Given the existence of divergent conclusions in the literature, we provide empirical evidence on using ML interpretability in online communities through statistical and qualitative analyses of questionnaire responses. The Generalized Additive Model estimates participants' ratings, incorporating within-subject and between-subject designs. While our statistical analysis indicates that none of the interpretability layouts significantly influences participants' views, our qualitative analysis demonstrates the advantages of ML interpretability: 1) triggering participants to provide corrective feedback in case of discrepancies between their views and the model, and 2) providing insights to evaluate a model's behavior beyond traditional performance metrics.
翻訳日:2024-03-18 06:10:13 公開日:2024-03-01
# 熱カーネルの走査:ガウス過程を用いた埋め込みデータ

Sketching the Heat Kernel: Using Gaussian Processes to Embed Data ( http://arxiv.org/abs/2403.07929v1 )

ライセンス: Link先を確認
Anna C. Gilbert, Kevin O'Neill, (参考訳) 本稿では、ガウス過程の計算実現に基づく低次元ユークリッド空間にデータを埋め込む新しい非決定論的手法を提案する。 この種の埋め込みは、高次元の一般多様体の理論モデルとして (Adler et al, 2018) に初めて現れた。 特に、ガウス過程の共分散関数を熱核とみなし、埋め込み量を計算して熱核を表す行列をスケッチする。 Karhunen-Lo\eve展開は、埋め込み中の直線距離が確率的な意味で拡散距離に近似していることを明らかにし、鋭いカットオフを回避し、より小さな構造の一部を維持する。 我々の手法は、その強靭性から外れ値へのさらなる優位性を示す。 我々は理論と実験の両方でアプローチを正当化する。

This paper introduces a novel, non-deterministic method for embedding data in low-dimensional Euclidean space based on computing realizations of a Gaussian process depending on the geometry of the data. This type of embedding first appeared in (Adler et al, 2018) as a theoretical model for a generic manifold in high dimensions. In particular, we take the covariance function of the Gaussian process to be the heat kernel, and computing the embedding amounts to sketching a matrix representing the heat kernel. The Karhunen-Lo\`eve expansion reveals that the straight-line distances in the embedding approximate the diffusion distance in a probabilistic sense, avoiding the need for sharp cutoffs and maintaining some of the smaller-scale structure. Our method demonstrates further advantage in its robustness to outliers. We justify the approach with both theory and experiments.
翻訳日:2024-03-18 05:50:41 公開日:2024-03-01
# 大規模言語モデルを用いた複雑ネットワークにおける臨界ノードの同定

Identify Critical Nodes in Complex Network with Large Language Models ( http://arxiv.org/abs/2403.03962v1 )

ライセンス: Link先を確認
Jinzhu Mao, Dongyun Zou, Li Sheng, Siyi Liu, Chen Gao, Yue Wang, Yong Li(参考訳) ネットワークにおけるクリティカルノードの特定は古典的な意思決定課題であり、多くの手法が適応性とユーティリティのバランスをとるのに苦労している。 そこで本研究では,大規模言語モデル (llms) を用いた進化的アルゴリズム (ea) に対して,与えられたスコアに基づいて重要なノードを識別する "score\_nodes" という関数を生成する手法を提案する。 本モデルは,手動初期化,人口管理,LLMに基づく進化の3つの主要コンポーネントから構成される。 初期個体群から進化し、手動で作成された一連のノードスコアリング機能を持つ。 LLMは、強い文脈理解と豊かなプログラミングスキルを活用して、個人に対してクロスオーバーおよび突然変異操作を行い、優れた新機能を生み出す。 これらの機能は次に分類され、ランク付けされ、多様性を維持しながら人口の安定的な発展を保証するために排除される。 本手法の優れた性能を実証し,他の最先端アルゴリズムと比較して高い一般化能力を示す。 多様な効率的なノードスコアリング関数を一貫して、秩序的に生成することができる。 この作業で全ての結果を再現できるすべてのソースコードとモデルは、このリンクで公開されている。

Identifying critical nodes in networks is a classical decision-making task, and many methods struggle to strike a balance between adaptability and utility. Therefore, we propose an approach that empowers Evolutionary Algorithm (EA) with Large Language Models (LLMs), to generate a function called "score\_nodes" which can further be used to identify crucial nodes based on their assigned scores. Our model consists of three main components: Manual Initialization, Population Management, and LLMs-based Evolution. It evolves from initial populations with a set of designed node scoring functions created manually. LLMs leverage their strong contextual understanding and rich programming skills to perform crossover and mutation operations on the individuals, generating excellent new functions. These functions are then categorized, ranked, and eliminated to ensure the stable development of the populations while preserving diversity. Extensive experiments demonstrate the excellent performance of our method, showcasing its strong generalization ability compared to other state-of-the-art algorithms. It can consistently and orderly generate diverse and efficient node scoring functions. All source codes and models that can reproduce all results in this work are publicly available at this link: \url{https://anonymous.4open.science/r/LLM4CN-6520}
翻訳日:2024-03-08 20:29:59 公開日:2024-03-01
# 言語モデルを用いたマルチモーダルシステムの大量生産失敗

Mass-Producing Failures of Multimodal Systems with Language Models ( http://arxiv.org/abs/2306.12105v2 )

ライセンス: Link先を確認
Shengbang Tong, Erik Jones, Jacob Steinhardt(参考訳) デプロイされたマルチモーダルシステムは、評価者が予想しなかった方法で失敗する可能性がある。 デプロイ前にこれらの障害を見つけるために、MultiMonを導入する。MultiMonは、モデル障害のパターンを自然言語で記述する、系統的な障害を自動的に識別するシステムである。 体系的な失敗を明らかにするために、MultiMonは間違った合意の例としてコーパスをスクラップする。 その後、言語モデル(gpt-4など)に障害の系統的パターンを見つけ、自然言語で記述するように促す。 マルチモンを用いて、クリップテキストエンコーダの14の系統的障害(例えば、"ignores quantifiers"など)を見つけ、それぞれが数百の異なる入力(例えば、"a shelf with a few/many books")からなる。 CLIPは最先端のマルチモーダルシステムのバックボーンであるため、これらの入力はMidjourney 5.1、DALL-E、VideoFusionなどで失敗する。 またMultiMonは、自動運転車など特定のユースケースに関連する障害にも対応できる。 我々はMultiMonを、潜在的なシステム障害の長い尾を自律的に探究する評価へのステップと考えている。 MultiMONのコードはhttps://github.com/tsb0601/MultiMonで入手できる。

Deployed multimodal systems can fail in ways that evaluators did not anticipate. In order to find these failures before deployment, we introduce MultiMon, a system that automatically identifies systematic failures -- generalizable, natural-language descriptions of patterns of model failures. To uncover systematic failures, MultiMon scrapes a corpus for examples of erroneous agreement: inputs that produce the same output, but should not. It then prompts a language model (e.g., GPT-4) to find systematic patterns of failure and describe them in natural language. We use MultiMon to find 14 systematic failures (e.g., "ignores quantifiers") of the CLIP text-encoder, each comprising hundreds of distinct inputs (e.g., "a shelf with a few/many books"). Because CLIP is the backbone for most state-of-the-art multimodal systems, these inputs produce failures in Midjourney 5.1, DALL-E, VideoFusion, and others. MultiMon can also steer towards failures relevant to specific use cases, such as self-driving cars. We see MultiMon as a step towards evaluation that autonomously explores the long tail of potential system failures. Code for MULTIMON is available at https://github.com/tsb0601/MultiMon.
翻訳日:2024-03-07 03:19:26 公開日:2024-03-01
# Metamorpheus: メタフォリック・ビジュアル・ストーリーテリングによる対話的、感情的、創造的なドリームナレーション

Metamorpheus: Interactive, Affective, and Creative Dream Narration Through Metaphorical Visual Storytelling ( http://arxiv.org/abs/2403.00632v1 )

ライセンス: Link先を確認
Qian Wan, Xin Feng, Yining Bei, Zhiqi Gao, Zhicong Lu(参考訳) 人間の感情は、本質的に生活経験によって形成され、そこからパーソナライズされた意味を構築する。 このような意味形成過程における関与は、健康を促進する様々な心理療法への介入として実践されてきた。 それにもかかわらず、日常生活における生活経験の再現と再集計を支援することは、hciで検討されている。 また、生成的AIモデルのような技術が、どのようにして意思決定プロセスを促進し、究極的には感情的なマインドフルネスをサポートするかは分かっていない。 本稿では,夢の中の感情体験の創造的な視覚的ストーリーテリングにユーザを巻き込む感情的インタフェースであるMetamorpheusを紹介する。 metamorpheusは、夢の感情的な弧に基づいてストーリーラインを配置し、隠語的なイメージやテキストの描写の創造を通じて自己反射を挑発する。 このシステムはメタファーの提案を提供し、生成するAIモデルを使って視覚的なメタファーとテキストの描写を生成する。 私たちの経験中心評価は、Metamorpheusと対話することで、ユーザーは自分の夢を鮮明なディテールで思い出すことができます。

Human emotions are essentially molded by lived experiences, from which we construct personalised meaning. The engagement in such meaning-making process has been practiced as an intervention in various psychotherapies to promote wellness. Nevertheless, to support recollecting and recounting lived experiences in everyday life remains under explored in HCI. It also remains unknown how technologies such as generative AI models can facilitate the meaning making process, and ultimately support affective mindfulness. In this paper we present Metamorpheus, an affective interface that engages users in a creative visual storytelling of emotional experiences during dreams. Metamorpheus arranges the storyline based on a dream's emotional arc, and provokes self-reflection through the creation of metaphorical images and text depictions. The system provides metaphor suggestions, and generates visual metaphors and text depictions using generative AI models, while users can apply generations to recolour and re-arrange the interface to be visually affective. Our experience-centred evaluation manifests that, by interacting with Metamorpheus, users can recall their dreams in vivid detail, through which they relive and reflect upon their experiences in a meaningful way.
翻訳日:2024-03-06 23:42:50 公開日:2024-03-01
# feduv:不均質なフェデレーション学習のための一様性と分散

FedUV: Uniformity and Variance for Heterogeneous Federated Learning ( http://arxiv.org/abs/2402.18372v2 )

ライセンス: Link先を確認
Ha Min Son, Moon-Hyun Kim, Tai-Myoung Chung, Chao Huang, Xin Liu(参考訳) フェデレーション学習は、広く分散されたデータでニューラルネットワークをトレーニングするための有望なフレームワークである。 しかし、性能は異種分散データで大きく劣化する。 最近の研究によると、これはネットワークの最終層が局所バイアスの最もやすいためであり、一部は直交分類器として最終層を凍結させることに成功したためである。 凍結重量が一定の特異値をもたらすという観測によって動機付けられた重みにSVDを適用して分類器の訓練力学を考察する。 IIDと非IID設定でのトレーニングには違いがあることがわかった。 この結果に基づき,(1)分類器の次元的確率分布のばらつき,(2)エンコーダの表現の超球面的一様性,という,iid設定を連続的にエミュレートするための局所学習のための2つの正規化項を導入する。 これらの正規化は、ローカルなデータ分布に関わらず、ローカルなモデルがIDD設定であるかのように振る舞うように促すため、データに柔軟でありながらバイアスの傾向を相殺する。 ラベルシフト設定と機能シフト設定の両方で広範な実験を行った結果,大規模モデルやデータセットにスケーラブルであることに加えて,特に非iidケースでは高いマージンで高い性能が得られることを確認した。

Federated learning is a promising framework to train neural networks with widely distributed data. However, performance degrades heavily with heterogeneously distributed data. Recent work has shown this is due to the final layer of the network being most prone to local bias, some finding success freezing the final layer as an orthogonal classifier. We investigate the training dynamics of the classifier by applying SVD to the weights motivated by the observation that freezing weights results in constant singular values. We find that there are differences when training in IID and non-IID settings. Based on this finding, we introduce two regularization terms for local training to continuously emulate IID settings: (1) variance in the dimension-wise probability distribution of the classifier and (2) hyperspherical uniformity of representations of the encoder. These regularizations promote local models to act as if it were in an IID setting regardless of the local data distribution, thus offsetting proneness to bias while being flexible to the data. On extensive experiments in both label-shift and feature-shift settings, we verify that our method achieves highest performance by a large margin especially in highly non-IID cases in addition to being scalable to larger models and datasets.
翻訳日:2024-03-06 23:42:03 公開日:2024-03-01
# 共通原因原理によるシンプソンのパラドックスの解決

Resolution of Simpson's paradox via the common cause principle ( http://arxiv.org/abs/2403.00957v1 )

ライセンス: Link先を確認
A. Hovhannisyan and A. E. Allahverdyan(参考訳) シンプソンのパラドックス(英: simpson's paradox)は、3つ目の確率変数である$b$が与えられる2つの事象の確率的関係を確立するための障害である。 ランダム変数$A$($a_1$、$a_2$とそれらの補数を組み合わせたもの)と$B$が、観測する必要のない共通原因$C$を持つ場合のシナリオに注目します。 あるいは$C$が$A$を$B$から$A$と仮定することもできる。 このような場合、$a_1$と$a_2$の正確な関連は$C$の条件付けによって定義される。 この集合は元のシンプソンのパラドックスを一般化する。 この2つの矛盾するオプションは、単に2つの特定の原因と異なる原因を参照するだけです。 b$ と $c$ が二項であり、$a$ が四項(正当なシンプソンのパラドックスの最小かつ最も広く使われている状況)であれば、任意の二項共通原因に対する条件付けは、パラドックスの最初の定式化における$b$ の条件付けとして、$a_1$ と $a_2$ の間の関係の同じ方向を確立する。 したがって、最小の共通の原因に対して、シンプソンのパラドックスの選択肢は、その辺限化ではなく、$b$以上の条件付けを前提とすべきである。 第三次(観測されていない)の共通因は、シンプソンのパラドックスの3つのオプションすべて(例えば、境界化、条件付き、およびそれらのうちのどれか)が可能であることであり、正しい選択肢を選択するには、$C$に関する事前情報が必要である。

Simpson's paradox is an obstacle to establishing a probabilistic association between two events $a_1$ and $a_2$, given the third (lurking) random variable $B$. We focus on scenarios when the random variables $A$ (which combines $a_1$, $a_2$, and their complements) and $B$ have a common cause $C$ that need not be observed. Alternatively, we can assume that $C$ screens out $A$ from $B$. For such cases, the correct association between $a_1$ and $a_2$ is to be defined via conditioning over $C$. This set-up generalizes the original Simpson's paradox. Now its two contradicting options simply refer to two particular and different causes $C$. We show that if $B$ and $C$ are binary and $A$ is quaternary (the minimal and the most widespread situation for valid Simpson's paradox), the conditioning over any binary common cause $C$ establishes the same direction of the association between $a_1$ and $a_2$ as the conditioning over $B$ in the original formulation of the paradox. Thus, for the minimal common cause, one should choose the option of Simpson's paradox that assumes conditioning over $B$ and not its marginalization. For tertiary (unobserved) common causes $C$ all three options of Simpson's paradox become possible (i.e. marginalized, conditional, and none of them), and one needs prior information on $C$ to choose the right option.
翻訳日:2024-03-06 21:44:24 公開日:2024-03-01
# ATP:トップキーの注意を通した高速LLMサービスの実現

ATP: Enabling Fast LLM Serving via Attention on Top Principal Keys ( http://arxiv.org/abs/2403.02352v1 )

ライセンス: Link先を確認
Yue Niu, Saurav Prakash, Salman Avestimehr(参考訳) 個別のトークンではなく, \textbf{t}op \textbf{p}rincipal キーに \textbf{a}ttentionを固定する,線形複雑性を持つ新たな注意機構であるatpを提案する。 特にATPは、入力シーケンスが典型的には低ランクである、すなわち入力シーケンスをいくつかの主塩基で表すことができるという重要な観察によって駆動される。 したがって、全ての入力トークンを直接反復するのではなく、ATPは入力を直交空間に変換し、トップ主基底(キー)のみに注意を向ける。 入力シーケンスの低ランク構造が観察されているため、ATPは入力シーケンスのセマンティックな関係をいくつかの主キーで捉えることができる。 さらに、注目すべき性能低下を伴わずに、注意の複雑さを \emph{quadratic} から \emph{linear} に低下させる。 atpは、低ランクの入力を持つ他の線形層の複雑さをさらに削減し、アテンションモジュールのみをターゲットとした以前の作業よりも高速化する。 様々なモデル(例えばBERTやLlama)に対する評価では、ATPは標準的なアテンション機構よりも計算とメモリの複雑さがはるかに低い精度で達成されている。 特にATPは、プリンシパルキーが1/2ドル、プリンシパルキーが1/4ドル、精度が2\%程度しかありません。

We propose a new attention mechanism with linear complexity, ATP, that fixates \textbf{A}ttention on \textbf{T}op \textbf{P}rincipal keys, rather than on each individual token. Particularly, ATP is driven by an important observation that input sequences are typically low-rank, i.e., input sequences can be represented by a few principal bases. Therefore, instead of directly iterating over all the input tokens, ATP transforms inputs into an orthogonal space and computes attention only on the top principal bases (keys). Owing to the observed low-rank structure in input sequences, ATP is able to capture semantic relationships in input sequences with a few principal keys. Furthermore, the attention complexity is reduced from \emph{quadratic} to \emph{linear} without incurring a noticeable performance drop. ATP further reduces complexity for other linear layers with low-rank inputs, leading to more speedup compared to prior works that solely target the attention module. Our evaluations on various models (e.g., BERT and Llama) demonstrate that ATP achieves comparable accuracy with much lower computation and memory complexity than the standard attention mechanism. In particular, ATP barely loses accuracy with only $1/2$ principal keys, and only incurs around $2\%$ accuracy drops with $1/4$ principal keys.
翻訳日:2024-03-06 17:28:30 公開日:2024-03-01
# 宇宙構造形成における深層学習の洞察

Deep learning insights into cosmological structure formation ( http://arxiv.org/abs/2011.10577v3 )

ライセンス: Link先を確認
Luisa Lucie-Smith, Hiranya V. Peiris, Andrew Pontzen, Brian Nord, Jeyan Thiyagalingam(参考訳) 初期の宇宙に存在する線形初期条件から後期の暗黒物質の拡張ハロゲンへの進化は、宇宙論的シミュレーションを用いて計算できる。 しかし、この複雑な過程の理論的理解はいまだに解明されておらず、特に、暗黒物質ハローの最終質量の確立における初期条件における異方性情報の役割は、長年の謎のままである。 ここでは,この問題を調査するための深層学習フレームワークを構築する。 本研究では,3次元畳み込みニューラルネットワーク(cnn)を訓練し,初期条件から暗黒物質ハロゲンの質量を予測し,最終ハロ質量に関する初期密度場の等方的・異方的側面の情報量を全一般的に定量化する。 異方性は, 最終ハロ質量に関する密度場の球面平均内に含まれる情報に対して, 統計的に有意な量の情報を与える。 しかし、最終的な質量予測における全体の散乱は、この追加情報によって定性的に変化せず、0.9 dexから0.7 dexへと減少する。 このような小さな改良が得られた結果,初期密度場の等方的側面は基本的に最終ハロ質量に関する関連情報を飽和させることがわかった。 したがって、初期条件で直接エンコードされた情報を探す代わりに、より正確なハロ質量予測へのより有望なルートは、摂動理論に基づく近似力学情報を追加することである。 より広義には、深層学習フレームワークは、宇宙の構造形成に物理的洞察を抽出できる強力なツールとなることを示唆する。

The evolution of linear initial conditions present in the early universe into extended halos of dark matter at late times can be computed using cosmological simulations. However, a theoretical understanding of this complex process remains elusive; in particular, the role of anisotropic information in the initial conditions in establishing the final mass of dark matter halos remains a long-standing puzzle. Here, we build a deep learning framework to investigate this question. We train a three-dimensional convolutional neural network (CNN) to predict the mass of dark matter halos from the initial conditions, and quantify in full generality the amounts of information in the isotropic and anisotropic aspects of the initial density field about final halo masses. We find that anisotropies add a small, albeit statistically significant amount of information over that contained within spherical averages of the density field about final halo mass. However, the overall scatter in the final mass predictions does not change qualitatively with this additional information, only decreasing from 0.9 dex to 0.7 dex. Given such a small improvement, our results demonstrate that isotropic aspects of the initial density field essentially saturate the relevant information about final halo mass. Therefore, instead of searching for information directly encoded in initial conditions anisotropies, a more promising route to accurate, fast halo mass predictions is to add approximate dynamical information based e.g. on perturbation theory. More broadly, our results indicate that deep learning frameworks can provide a powerful tool for extracting physical insight into cosmological structure formation.
翻訳日:2024-03-05 21:28:18 公開日:2024-03-01
# 模倣学習のためのベイズロバスト最適化

Bayesian Robust Optimization for Imitation Learning ( http://arxiv.org/abs/2007.12315v4 )

ライセンス: Link先を確認
Daniel S. Brown, Scott Niekum, Marek Petrik(参考訳) 模倣学習における主な課題の1つは、エージェントがデモの状態分布の外側でどのようなアクションをとるべきかを決定することである。 逆強化学習(IRL)は、パラメータ化された報酬関数を学習することで新しい状態への一般化を可能にするが、これらのアプローチは真の報酬関数と対応する最適ポリシーに対する不確実性に直面している。 irlに基づく既存の安全模倣学習アプローチは、敵報酬関数の仮定の下でポリシーを最適化するmaxminフレームワークを使用してこの不確実性に対処するが、リスク中立のirlアプローチは平均に対するポリシーを最適化するか、マップ報酬関数を最適化するかのいずれかである。 リスクを完全に無視することは過度に攻撃的かつ安全でない政策につながるが、完全に敵対的な意味での最適化もまた問題となる。 本稿では,この2つの極端間の橋渡しを行うため,BROIL(Bayesian Robust Optimization for Imitation Learning)を提案する。 BROILはベイジアン報酬関数推論とユーザ固有のリスクトレランスを活用して、期待されるリターンとリスク時の条件値のバランスをとる堅牢なポリシを効率的に最適化する。 実験の結果,ブロイユは回帰最大化とリスク最小化の動作を補間し,既存のリスクに敏感でリスク中立な逆強化学習アルゴリズムよりも優れていることがわかった。 コードはhttps://github.com/dsbrown1331/broilで入手できる。

One of the main challenges in imitation learning is determining what action an agent should take when outside the state distribution of the demonstrations. Inverse reinforcement learning (IRL) can enable generalization to new states by learning a parameterized reward function, but these approaches still face uncertainty over the true reward function and corresponding optimal policy. Existing safe imitation learning approaches based on IRL deal with this uncertainty using a maxmin framework that optimizes a policy under the assumption of an adversarial reward function, whereas risk-neutral IRL approaches either optimize a policy for the mean or MAP reward function. While completely ignoring risk can lead to overly aggressive and unsafe policies, optimizing in a fully adversarial sense is also problematic as it can lead to overly conservative policies that perform poorly in practice. To provide a bridge between these two extremes, we propose Bayesian Robust Optimization for Imitation Learning (BROIL). BROIL leverages Bayesian reward function inference and a user specific risk tolerance to efficiently optimize a robust policy that balances expected return and conditional value at risk. Our empirical results show that BROIL provides a natural way to interpolate between return-maximizing and risk-minimizing behaviors and outperforms existing risk-sensitive and risk-neutral inverse reinforcement learning algorithms. Code is available at https://github.com/dsbrown1331/broil.
翻訳日:2024-03-05 21:27:33 公開日:2024-03-01
# 有限水平探索線形2次制御問題に対するポリシー勾配法の収束性

Convergence of policy gradient methods for finite-horizon exploratory linear-quadratic control problems ( http://arxiv.org/abs/2211.00617v3 )

ライセンス: Link先を確認
Michael Giegrich, Christoph Reisinger, Yufei Zhang(参考訳) 有限水平連続時間探索線形四元数制御(LQC)問題に対する政策勾配法(PG法)の大域的線形収束について検討する。 この設定には、不定のコストを伴う確率的lqc問題が含まれ、目的に追加のエントロピー正則化が可能となる。 状態変数において平均が線型であり、共分散が状態独立である連続時間ガウスポリシーを考える。 離散時間問題とは対照的に、コストはポリシーにおいて非強制的であり、すべての降下方向が有界イテレートにつながるわけではない。 本稿では,フィッシャー幾何とビュール=ヴァッサーシュタイン幾何を用いて,政策の平均と共分散に対する幾何的勾配勾配勾配を求める。 ポリシーイテレートは、a-プリオリ境界を満たすことが示され、線形レートで最適ポリシーにグローバルに収束する。 さらに,離散時間ポリシーを用いた新しいPG手法を提案する。 このアルゴリズムは連続時間解析を活用し、異なる動作周波数にわたってロバストな線形収束を実現する。 数値実験により提案アルゴリズムの収束性と堅牢性を確認する。

We study the global linear convergence of policy gradient (PG) methods for finite-horizon continuous-time exploratory linear-quadratic control (LQC) problems. The setting includes stochastic LQC problems with indefinite costs and allows additional entropy regularisers in the objective. We consider a continuous-time Gaussian policy whose mean is linear in the state variable and whose covariance is state-independent. Contrary to discrete-time problems, the cost is noncoercive in the policy and not all descent directions lead to bounded iterates. We propose geometry-aware gradient descents for the mean and covariance of the policy using the Fisher geometry and the Bures-Wasserstein geometry, respectively. The policy iterates are shown to satisfy an a-priori bound, and converge globally to the optimal policy with a linear rate. We further propose a novel PG method with discrete-time policies. The algorithm leverages the continuous-time analysis, and achieves a robust linear convergence across different action frequencies. A numerical experiment confirms the convergence and robustness of the proposed algorithm.
翻訳日:2024-03-05 21:24:10 公開日:2024-03-01
# 有限時間保証付き高次元状態空間におけるマルコフ決定過程の構造推定

Structural Estimation of Markov Decision Processes in High-Dimensional State Space with Finite-Time Guarantees ( http://arxiv.org/abs/2210.01282v3 )

ライセンス: Link先を確認
Siliang Zeng, Mingyi Hong, Alfredo Garcia(参考訳) 本研究では,実施行動と訪問状態の観測可能な履歴に基づいて,人間エージェントによる動的決定の構造モデルの推定作業を検討する。 この問題には固有のネスト構造があり、内部問題では与えられた報酬関数に対する最適ポリシーが特定され、外部問題では適合度の測定が最大化される。 このネストループ構造の計算負担を軽減するためにいくつかの手法が提案されているが、状態空間が大きな濃度で離散的である場合や高次元で連続している場合、これらの手法は依然として高い複雑さに悩まされている。 逆強化学習(IRL)文学における他のアプローチは、報酬推定精度の低下を犠牲にして政策推定を強調する。 本稿では,報酬推定精度を損なうことなく,高次元状態空間を扱うことができる有限時間保証付き単一ループ推定アルゴリズムを提案する。 提案アルゴリズムでは,各ポリシー改善ステップを確率的勾配ステップで追従し,最大化を行う。 提案アルゴリズムは有限時間保証付き定常解に収束することを示す。 さらに, 報酬が線形にパラメータ化される場合, アルゴリズムは極大推定器を線形に近似することを示す。 最後に、MuJoCoにおけるロボット制御問題とその転送設定を用いて、提案アルゴリズムが他のIRLや模倣学習ベンチマークと比較して優れた性能を達成することを示す。

We consider the task of estimating a structural model of dynamic decisions by a human agent based upon the observable history of implemented actions and visited states. This problem has an inherent nested structure: in the inner problem, an optimal policy for a given reward function is identified while in the outer problem, a measure of fit is maximized. Several approaches have been proposed to alleviate the computational burden of this nested-loop structure, but these methods still suffer from high complexity when the state space is either discrete with large cardinality or continuous in high dimensions. Other approaches in the inverse reinforcement learning (IRL) literature emphasize policy estimation at the expense of reduced reward estimation accuracy. In this paper we propose a single-loop estimation algorithm with finite time guarantees that is equipped to deal with high-dimensional state spaces without compromising reward estimation accuracy. In the proposed algorithm, each policy improvement step is followed by a stochastic gradient step for likelihood maximization. We show that the proposed algorithm converges to a stationary solution with a finite-time guarantee. Further, if the reward is parameterized linearly, we show that the algorithm approximates the maximum likelihood estimator sublinearly. Finally, by using robotics control problems in MuJoCo and their transfer settings, we show that the proposed algorithm achieves superior performance compared with other IRL and imitation learning benchmarks.
翻訳日:2024-03-05 21:23:55 公開日:2024-03-01
# ロシアとウクライナの紛争における低レベルのサイバー犯罪アクターの役割を探る

Getting Bored of Cyberwar: Exploring the Role of Low-level Cybercrime Actors in the Russia-Ukraine Conflict ( http://arxiv.org/abs/2208.10629v6 )

ライセンス: Link先を確認
Anh V. Vu, Daniel R. Thomas, Ben Collier, Alice Hutchings, Richard Clayton, Ross Anderson(参考訳) ロシアとウクライナの紛争における低レベルのサイバー犯罪俳優によるサイバー攻撃の役割について、かなりの論評が寄せられている。 我々は、358kのウェブ偽造攻撃、1.7MのDDoS攻撃、1764のHack Forumsの投稿と、侵略の2ヶ月前と4ヶ月後のボランティアハッキンググループの441のアナウンス(58kの返信を含む)を分析した。 ネット上での議論は大幅に増加し、ロシアとウクライナを標的とした攻撃も増えている。 しかし、これらのプレイヤーが進行中のハイブリッド戦において果たした役割は小さく、国家が支援する作戦において永続的で動機づけられた「ハックティビスト」から切り離されるべきである。 紛争への彼らの関与は短命であり、状況について議論し、数週間後にロシアまたはウクライナに対する破壊攻撃とddos攻撃の両方を行うことに明らかに関心が失われた。

There has been substantial commentary on the role of cyberattacks carried by low-level cybercrime actors in the Russia-Ukraine conflict. We analyse 358k web defacement attacks, 1.7M reflected DDoS attacks, 1764 Hack Forums posts mentioning the two countries, and 441 announcements (with 58k replies) of a volunteer hacking group for two months before and four months after the invasion. We find the conflict briefly but notably caught the attention of low-level cybercrime actors, with significant increases in online discussion and both types of attack targeting Russia and Ukraine. However, there was little evidence of high-profile actions; the role of these players in the ongoing hybrid warfare is minor, and they should be separated from persistent and motivated 'hacktivists' in state-sponsored operations. Their involvement in the conflict appears to have been short-lived and fleeting, with a clear loss of interest in discussing the situation and carrying out both defacement and DDoS attacks against either Russia or Ukraine after a few weeks.
翻訳日:2024-03-05 21:22:52 公開日:2024-03-01
# SGDパラメータフリー化

Making SGD Parameter-Free ( http://arxiv.org/abs/2205.02160v3 )

ライセンス: Link先を確認
Yair Carmon and Oliver Hinder(参考訳) パラメータフリー確率凸最適化 (SCO) のアルゴリズムを開発し, 収束率は対応するパラメータ設定の最適値よりも大きい2対数係数である。 対照的に、パラメータフリーSCOの最もよく知られたレートは、オンラインパラメータフリーの後悔境界に基づいており、これは既知のパラメーターと比べ、避けられない過剰な対数項を含む。 このアルゴリズムは概念的に単純であり、高い確率保証を持ち、未知の勾配ノルム、滑らかさ、強い凸性にも部分的に適応している。 結果の核心は,SGDステップサイズ選択のための新しいパラメータフリー証明書と,SGDのa-プリオリ境界が反復しないと仮定する時間一様濃度の結果である。

We develop an algorithm for parameter-free stochastic convex optimization (SCO) whose rate of convergence is only a double-logarithmic factor larger than the optimal rate for the corresponding known-parameter setting. In contrast, the best previously known rates for parameter-free SCO are based on online parameter-free regret bounds, which contain unavoidable excess logarithmic terms compared to their known-parameter counterparts. Our algorithm is conceptually simple, has high-probability guarantees, and is also partially adaptive to unknown gradient norms, smoothness, and strong convexity. At the heart of our results is a novel parameter-free certificate for SGD step size choice, and a time-uniform concentration result that assumes no a-priori bounds on SGD iterates.
翻訳日:2024-03-05 21:21:40 公開日:2024-03-01
# 逆強化学習による解釈可能な深層強化学習モデルの構築

Towards Interpretable Deep Reinforcement Learning Models via Inverse Reinforcement Learning ( http://arxiv.org/abs/2203.16464v3 )

ライセンス: Link先を確認
Sean Xie, Soroush Vosoughi, Saeed Hassanpour(参考訳) 人工知能は、特に近年のディープラーニングの進歩を通じて、自然言語処理やコンピュータビジョンといった分野における多くのタスクにおいて、例外的なパフォーマンスを達成した。 望ましい評価指標に加えて、これらのモデルを確実に活用するには高いレベルの解釈可能性が必要である。 したがって、モデルが入力を出力にマッピングするプロセスに関する洞察を提供する説明は、ずっと求められている。 残念なことに、現在の機械学習モデルのブラックボックスの性質はまだ未解決の問題であり、この性質は研究者がモデルの振る舞いと最終的な予測を学習し説明することを妨げる。 本研究では,Reinforcement Learningモデルによる意思決定のグローバルな説明を提供し,モデルの意思決定プロセスの要約によってモデルが従う直感的な傾向を捉えるための,Adversarial Inverse Reinforcement Learningを活用した新しいフレームワークを提案する。

Artificial intelligence, particularly through recent advancements in deep learning, has achieved exceptional performances in many tasks in fields such as natural language processing and computer vision. In addition to desirable evaluation metrics, a high level of interpretability is often required for these models to be reliably utilized. Therefore, explanations that offer insight into the process by which a model maps its inputs onto its outputs are much sought-after. Unfortunately, the current black box nature of machine learning models is still an unresolved issue and this very nature prevents researchers from learning and providing explicative descriptions for a model's behavior and final predictions. In this work, we propose a novel framework utilizing Adversarial Inverse Reinforcement Learning that can provide global explanations for decisions made by a Reinforcement Learning model and capture intuitive tendencies that the model follows by summarizing the model's decision-making process.
翻訳日:2024-03-05 21:21:25 公開日:2024-03-01
# プロジェクティブ計測は非局所性のリサイクルに十分である

Projective measurements are sufficient for recycling nonlocality ( http://arxiv.org/abs/2202.05007v3 )

ライセンス: Link先を確認
Anna Steffinlongo, Armin Tavakoli(参考訳) アンシャープ測定は、複数のシーケンシャルオブザーバ間で共有される絡み合った状態の非局所性をリサイクルする鍵となる資源として広く見なされている。 これとは対照的に, 量子アンシラを用いることなく, 非局所性は標準射影計測のみを用いてリサイクルできることを示した。 chsh不等式に着目し,古典的ランダム性が存在する場合,最大に絡み合う2量子状態に対するベルパラメータの最適トレードオフを決定する。 そして、最大に絡み合った状態が、標準のchshのシナリオとは対照的に、より大きな逐次的違反を引き起こすことを発見する。 さらに,非局所性は,射影測定と局所ランダム性のみを用いてもリサイクル可能であることを示す。 逐次非局所性実験における実験結果の意義について考察する。

Unsharp measurements are widely seen as the key resource for recycling the nonlocality of an entangled state shared between several sequential observers. Contrasting this, we here show that nonlocality can be recycled using only standard projective measurements, without using quantum ancillas. Focusing on the CHSH inequality, we determine the optimal trade-off in the Bell parameters for a maximally entangled two-qubit state in the presence of shared classical randomness. We then find that non-maximally entangled states make possible larger sequential violations, which contrasts the standard CHSH scenario. Furthermore, we show that nonlocality can be recycled even when only using projective measurements and local randomness. We discuss the implications of our results for experimental implementations of sequential nonlocality.
翻訳日:2024-03-05 21:21:10 公開日:2024-03-01
# 意味知識拡張を用いたプロンプトに基づくゼロショット関係抽出

Prompt-based Zero-shot Relation Extraction with Semantic Knowledge Augmentation ( http://arxiv.org/abs/2112.04539v3 )

ライセンス: Link先を確認
Jiaying Gong and Hoda Eldardiry(参考訳) 関係トリプルト抽出(RTE)では、トレーニングインスタンスが存在しない未知の関係を認識することは難しい課題である。 質問応答モデルや関係記述に基づいて、見当たらない関係を認識する努力がなされている。 しかし、これらのアプローチは見えない関係と見えない関係の間の関係に関する意味的な情報を見逃している。 本稿では,ゼロショット設定下での未知の関係を認識するために,意味知識増強(ZS-SKA)を用いたプロンプトベースモデルを提案する。 本稿では,新しい単語レベルのアナロジーに基づく文翻訳規則を提示し,その新しい規則を用いて,未知の関係を持つインスタンスから,未知の関係を持つ拡張インスタンスを生成する。 我々は,外部知識グラフに基づく重み付き仮想ラベル構成を用いてプロンプトをデザインし,出現した関係から学習した意味的知識情報を統合する。 プロンプトテンプレートで実際のラベルセットを使用する代わりに、重み付き仮想ラベルワードを構築します。 我々は、拡張インスタンスやプロンプトと見たり見えない関係の表現を学習する。 次に、原型ネットワークを用いて生成した表現間の距離を計算し、未知の関係を予測する。 FewRel、Wiki-ZSL、NYTの3つの公開データセットで実施された大規模な実験は、ZS-SKAがゼロショット設定で他の手法よりも優れていることを示している。 また,ZS-SKAの有効性とロバスト性を示した。

In relation triplet extraction (RTE), recognizing unseen relations for which there are no training instances is a challenging task. Efforts have been made to recognize unseen relations based on question-answering models or relation descriptions. However, these approaches miss the semantic information about connections between seen and unseen relations. In this paper, We propose a prompt-based model with semantic knowledge augmentation (ZS-SKA) to recognize unseen relations under the zero-shot setting. We present a new word-level analogy-based sentence translation rule and generate augmented instances with unseen relations from instances with seen relations using that new rule. We design prompts with weighted virtual label construction based on an external knowledge graph to integrate semantic knowledge information learned from seen relations. Instead of using the actual label sets in the prompt template, we construct weighted virtual label words. We learn the representations of both seen and unseen relations with augmented instances and prompts. We then calculate the distance between the generated representations using prototypical networks to predict unseen relations. Extensive experiments conducted on three public datasets FewRel, Wiki-ZSL, and NYT, show that ZS-SKA outperforms other methods under zero-shot setting. Results also demonstrate the effectiveness and robustness of ZS-SKA.
翻訳日:2024-03-05 21:20:55 公開日:2024-03-01
# $\infty$-Diff: Infinite Resolution Diffusion with Subsampled Mollified States

$\infty$-Diff: Infinite Resolution Diffusion with Subsampled Mollified States ( http://arxiv.org/abs/2303.18242v2 )

ライセンス: Link先を確認
Sam Bond-Taylor, Chris G. Willcocks(参考訳) 本稿では,無限次元ヒルベルト空間で定義される生成拡散モデルである$\infty$-Diffを紹介する。 ランダムにサンプリングされた座標のサブセットをトレーニングし、それらの位置のみのコンテンツをデノナイズすることにより、任意の解像度サンプリングのための連続関数を学習する。 この手法では,非局所積分演算子を用いてヒルベルト空間間の写像を行い,空間的コンテキストアグリゲーションを可能にする。 これは、生のスパース座標を直接操作する効率的なマルチスケール関数空間アーキテクチャと、不規則を平滑化するmollified diffusionプロセスによって達成される。 高解像度データセットの実験により、サブサンプリングレートが8\timesでも、我々のモデルは高品質な拡散を維持していることがわかった。 これにより、実行時間とメモリの節約が大幅に向上し、fidスコアの低いサンプルが提供され、詳細を維持しながらトレーニング解像度を超えてスケールする。

This paper introduces $\infty$-Diff, a generative diffusion model defined in an infinite-dimensional Hilbert space, which can model infinite resolution data. By training on randomly sampled subsets of coordinates and denoising content only at those locations, we learn a continuous function for arbitrary resolution sampling. Unlike prior neural field-based infinite-dimensional models, which use point-wise functions requiring latent compression, our method employs non-local integral operators to map between Hilbert spaces, allowing spatial context aggregation. This is achieved with an efficient multi-scale function-space architecture that operates directly on raw sparse coordinates, coupled with a mollified diffusion process that smooths out irregularities. Through experiments on high-resolution datasets, we found that even at an $8\times$ subsampling rate, our model retains high-quality diffusion. This leads to significant run-time and memory savings, delivers samples with lower FID scores, and scales beyond the training resolution while retaining detail.
翻訳日:2024-03-05 21:15:50 公開日:2024-03-01
# gpt-4技術報告

GPT-4 Technical Report ( http://arxiv.org/abs/2303.08774v5 )

ライセンス: Link先を確認
OpenAI: Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, Red Avila, Igor Babuschkin, Suchir Balaji, Valerie Balcom, Paul Baltescu, Haiming Bao, Mohammad Bavarian, Jeff Belgum, Irwan Bello, Jake Berdine, Gabriel Bernadett-Shapiro, Christopher Berner, Lenny Bogdonoff, Oleg Boiko, Madelaine Boyd, Anna-Luisa Brakman, Greg Brockman, Tim Brooks, Miles Brundage, Kevin Button, Trevor Cai, Rosie Campbell, Andrew Cann, Brittany Carey, Chelsea Carlson, Rory Carmichael, Brooke Chan, Che Chang, Fotis Chantzis, Derek Chen, Sully Chen, Ruby Chen, Jason Chen, Mark Chen, Ben Chess, Chester Cho, Casey Chu, Hyung Won Chung, Dave Cummings, Jeremiah Currier, Yunxing Dai, Cory Decareaux, Thomas Degry, Noah Deutsch, Damien Deville, Arka Dhar, David Dohan, Steve Dowling, Sheila Dunning, Adrien Ecoffet, Atty Eleti, Tyna Eloundou, David Farhi, Liam Fedus, Niko Felix, Sim\'on Posada Fishman, Juston Forte, Isabella Fulford, Leo Gao, Elie Georges, Christian Gibson, Vik Goel, Tarun Gogineni, Gabriel Goh, Rapha Gontijo-Lopes, Jonathan Gordon, Morgan Grafstein, Scott Gray, Ryan Greene, Joshua Gross, Shixiang Shane Gu, Yufei Guo, Chris Hallacy, Jesse Han, Jeff Harris, Yuchen He, Mike Heaton, Johannes Heidecke, Chris Hesse, Alan Hickey, Wade Hickey, Peter Hoeschele, Brandon Houghton, Kenny Hsu, Shengli Hu, Xin Hu, Joost Huizinga, Shantanu Jain, Shawn Jain, Joanne Jang, Angela Jiang, Roger Jiang, Haozhun Jin, Denny Jin, Shino Jomoto, Billie Jonn, Heewoo Jun, Tomer Kaftan, {\L}ukasz Kaiser, Ali Kamali, Ingmar Kanitscheider, Nitish Shirish Keskar, Tabarak Khan, Logan Kilpatrick, Jong Wook Kim, Christina Kim, Yongjik Kim, Jan Hendrik Kirchner, Jamie Kiros, Matt Knight, Daniel Kokotajlo, {\L}ukasz Kondraciuk, Andrew Kondrich, Aris Konstantinidis, Kyle Kosic, Gretchen Krueger, Vishal Kuo, Michael Lampe, Ikai Lan, Teddy Lee, Jan Leike, Jade Leung, Daniel Levy, Chak Ming Li, Rachel Lim, Molly Lin, Stephanie Lin, Mateusz Litwin, Theresa Lopez, Ryan Lowe, Patricia Lue, Anna Makanju, Kim Malfacini, Sam Manning, Todor Markov, Yaniv Markovski, Bianca Martin, Katie Mayer, Andrew Mayne, Bob McGrew, Scott Mayer McKinney, Christine McLeavey, Paul McMillan, Jake McNeil, David Medina, Aalok Mehta, Jacob Menick, Luke Metz, Andrey Mishchenko, Pamela Mishkin, Vinnie Monaco, Evan Morikawa, Daniel Mossing, Tong Mu, Mira Murati, Oleg Murk, David M\'ely, Ashvin Nair, Reiichiro Nakano, Rajeev Nayak, Arvind Neelakantan, Richard Ngo, Hyeonwoo Noh, Long Ouyang, Cullen O'Keefe, Jakub Pachocki, Alex Paino, Joe Palermo, Ashley Pantuliano, Giambattista Parascandolo, Joel Parish, Emy Parparita, Alex Passos, Mikhail Pavlov, Andrew Peng, Adam Perelman, Filipe de Avila Belbute Peres, Michael Petrov, Henrique Ponde de Oliveira Pinto, Michael (Rai) Pokorny, Michelle Pokrass, Vitchyr H. Pong, Tolly Powell, Alethea Power, Boris Power, Elizabeth Proehl, Raul Puri, Alec Radford, Jack Rae, Aditya Ramesh, Cameron Raymond, Francis Real, Kendra Rimbach, Carl Ross, Bob Rotsted, Henri Roussez, Nick Ryder, Mario Saltarelli, Ted Sanders, Shibani Santurkar, Girish Sastry, Heather Schmidt, David Schnurr, John Schulman, Daniel Selsam, Kyla Sheppard, Toki Sherbakov, Jessica Shieh, Sarah Shoker, Pranav Shyam, Szymon Sidor, Eric Sigler, Maddie Simens, Jordan Sitkin, Katarina Slama, Ian Sohl, Benjamin Sokolowsky, Yang Song, Natalie Staudacher, Felipe Petroski Such, Natalie Summers, Ilya Sutskever, Jie Tang, Nikolas Tezak, Madeleine B. Thompson, Phil Tillet, Amin Tootoonchian, Elizabeth Tseng, Preston Tuggle, Nick Turley, Jerry Tworek, Juan Felipe Cer\'on Uribe, Andrea Vallone, Arun Vijayvergiya, Chelsea Voss, Carroll Wainwright, Justin Jay Wang, Alvin Wang, Ben Wang, Jonathan Ward, Jason Wei, CJ Weinmann, Akila Welihinda, Peter Welinder, Jiayi Weng, Lilian Weng, Matt Wiethoff, Dave Willner, Clemens Winter, Samuel Wolrich, Hannah Wong, Lauren Workman, Sherwin Wu, Jeff Wu, Michael Wu, Kai Xiao, Tao Xu, Sarah Yoo, Kevin Yu, Qiming Yuan, Wojciech Zaremba, Rowan Zellers, Chong Zhang, Marvin Zhang, Shengjia Zhao, Tianhao Zheng, Juntang Zhuang, William Zhuk, Barret Zoph(参考訳) 本稿では,画像とテキストの入力を受け付け,テキスト出力を生成する大規模マルチモーダルモデルgpt-4の開発について報告する。 多くの実世界のシナリオでは人間よりも能力は低いが、GPT-4は様々な専門的、学術的なベンチマークで人間レベルのパフォーマンスを示しており、試験受験者の上位10%のスコアで模擬試験に合格している。 GPT-4は、文書内の次のトークンを予測するために事前訓練されたトランスフォーマーベースのモデルである。 トレーニング後のアライメントプロセスは,実効性と所望の行動への順応性の向上をもたらす。 このプロジェクトのコアコンポーネントは、幅広いスケールで予測可能な振る舞いをするインフラストラクチャと最適化手法の開発だった。 これにより、GPT-4の1/1000分の1以下のモデルに基づいて、GPT-4の性能のいくつかの側面を正確に予測できる。

We report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs. While less capable than humans in many real-world scenarios, GPT-4 exhibits human-level performance on various professional and academic benchmarks, including passing a simulated bar exam with a score around the top 10% of test takers. GPT-4 is a Transformer-based model pre-trained to predict the next token in a document. The post-training alignment process results in improved performance on measures of factuality and adherence to desired behavior. A core component of this project was developing infrastructure and optimization methods that behave predictably across a wide range of scales. This allowed us to accurately predict some aspects of GPT-4's performance based on models trained with no more than 1/1,000th the compute of GPT-4.
翻訳日:2024-03-05 21:14:49 公開日:2024-03-01
# Fisher's Linear Discriminant を用いた最適領域適応

Approximately optimal domain adaptation with Fisher's Linear Discriminant ( http://arxiv.org/abs/2302.14186v3 )

ライセンス: Link先を確認
Hayden S. Helm and Ashwin De Silva and Joshua T. Vogelstein and Carey E. Priebe and Weiwei Yang(参考訳) 本研究では,fisherの線形判別(fld)に基づくモデル群をドメイン適応の文脈で提案する。 クラスは2つの仮説の凸結合である。 一 前述した出典の課題を表す平均的仮説 二 新たな目標課題について訓練した仮説 特定の生成的設定のために、2つのモデルの最適凸結合を0-1損失下で導出し、計算可能な近似を提案し、最適仮説、仮説の間の相対的リスクに対する様々なパラメータ設定の影響を研究する。 i)と仮説 i)。 脳波とECGに基づく分類設定の文脈における最適分類器の有効性を実証し、各ソースタスクから直接の情報にアクセスせずに最適な分類器を計算できると主張している。 我々は、さらなる応用、制限、将来的な方向性について論じる。

We propose a class of models based on Fisher's Linear Discriminant (FLD) in the context of domain adaptation. The class is the convex combination of two hypotheses: i) an average hypothesis representing previously seen source tasks and ii) a hypothesis trained on a new target task. For a particular generative setting we derive the optimal convex combination of the two models under 0-1 loss, propose a computable approximation, and study the effect of various parameter settings on the relative risks between the optimal hypothesis, hypothesis i), and hypothesis ii). We demonstrate the effectiveness of the proposed optimal classifier in the context of EEG- and ECG-based classification settings and argue that the optimal classifier can be computed without access to direct information from any of the individual source tasks. We conclude by discussing further applications, limitations, and possible future directions.
翻訳日:2024-03-05 21:14:25 公開日:2024-03-01
# 単純な正規化ニューラルネットワークに突然および自発的な戦略スイッチが出現

Abrupt and spontaneous strategy switches emerge in simple regularised neural networks ( http://arxiv.org/abs/2302.11351v4 )

ライセンス: Link先を確認
Anika T. L\"owe, L\'eo Touzo, Paul S. Muhle-Karbe, Andrew M. Saxe, Christopher Summerfield, Nicolas W. Schuck(参考訳) 人間は時々、彼らが取り組んでいるタスクに対して突然で劇的なパフォーマンス改善をもたらす洞察を持つ。 突然の戦略適応はしばしば洞察と結びついており、創造性やメタ認知的推論のような複雑なプロセスと結びついた人間の認知の独特な側面であると考えられている。 ここでは、モデルが段階的な勾配降下によって入力出力関連を形成することしか学ばない場合であっても、単純な人工ニューラルネットワークで洞察的な振る舞いが生じるかどうかを学習視点で問う。 より効率的に解くために隠れた規則性を含む知覚的決定タスクにおいて、人間と正規化ニューラルネットワークの学習ダイナミクスを比較した。 その結果,アハモーメントを反映した突発的かつ突然の戦略変更を特徴とする,この規則性に気付く人間はごく一部に過ぎなかった。 特に、段階的な学習規則と一定の学習率を持つ単純なニューラルネットワークは、人間の洞察様スイッチの動作特性を密接に模倣しており、いくつかのネットワークでのみ、洞察の遅延、突然性、選択的発生を示す。 ネットワークアーキテクチャと学習ダイナミクスの分析により、洞察的な振る舞いは、規則化されたゲーティング機構と、勾配更新に追加されたノイズに決定的に依存していることが判明した。 これは、単純なニューラルネットワークにおける段階的な学習から、インサイトのような振る舞いが自然に生じ、ノイズ、ゲーティング、正規化の影響を反映することを示唆している。

Humans sometimes have an insight that leads to a sudden and drastic performance improvement on the task they are working on. Sudden strategy adaptations are often linked to insights, considered to be a unique aspect of human cognition tied to complex processes such as creativity or meta-cognitive reasoning. Here, we take a learning perspective and ask whether insight-like behaviour can occur in simple artificial neural networks, even when the models only learn to form input-output associations through gradual gradient descent. We compared learning dynamics in humans and regularised neural networks in a perceptual decision task that included a hidden regularity to solve the task more efficiently. Our results show that only some humans discover this regularity, whose behaviour was marked by a sudden and abrupt strategy switch that reflects an aha-moment. Notably, we find that simple neural networks with a gradual learning rule and a constant learning rate closely mimicked behavioural characteristics of human insight-like switches, exhibiting delay of insight, suddenness and selective occurrence in only some networks. Analyses of network architectures and learning dynamics revealed that insight-like behaviour crucially depended on a regularised gating mechanism and noise added to gradient updates, which allowed the networks to accumulate "silent knowledge" that is initially suppressed by regularised (attentional) gating. This suggests that insight-like behaviour can arise naturally from gradual learning in simple neural networks, where it reflects the combined influences of noise, gating and regularisation.
翻訳日:2024-03-05 21:13:31 公開日:2024-03-01
# 一般活性化を伴う深部平衡モデルの大域収束速度

Global Convergence Rate of Deep Equilibrium Models with General Activations ( http://arxiv.org/abs/2302.05797v3 )

ライセンス: Link先を確認
Lan V. Truong(参考訳) lingらは最近の論文で、reluアクティベーションを伴う超パラメータ深層平衡モデル(deq)を調査した。 彼らは勾配降下が線形収束率で二次損失関数のグローバル最適解に収束することを示した。 本稿は、この事実が第一導関数と第二導関数との一般に有界な活性化を持つ DEQ に対して依然として成り立つことを示す。 新しい活性化関数は一般に非均一であるため、平衡点のグラム行列の最小固有値の境界は特に困難である。 この課題を達成するためには、新しい集団グラム行列を作成し、エルミート多項式展開を伴う新しい双対活性化形式を開発する必要がある。

In a recent paper, Ling et al. investigated the over-parametrized Deep Equilibrium Model (DEQ) with ReLU activation. They proved that the gradient descent converges to a globally optimal solution for the quadratic loss function at a linear convergence rate. This paper shows that this fact still holds for DEQs with any generally bounded activation with bounded first and second derivatives. Since the new activation function is generally non-homogeneous, bounding the least eigenvalue of the Gram matrix of the equilibrium point is particularly challenging. To accomplish this task, we must create a novel population Gram matrix and develop a new form of dual activation with Hermite polynomial expansion.
翻訳日:2024-03-05 21:12:45 公開日:2024-03-01
# マルチモダリティ表現学習:進化,事前学習とその応用に関する調査

Multimodality Representation Learning: A Survey on Evolution, Pretraining and Its Applications ( http://arxiv.org/abs/2302.00389v2 )

ライセンス: Link先を確認
Muhammad Arslan Manzoor, Sarah Albarri, Ziting Xian, Zaiqiao Meng, Preslav Nakov, and Shangsong Liang(参考訳) マルチモダリティ表現学習(multimodality representation learning)は、異なるモダリティとその相関から情報を埋め込む手法として、視覚質問応答(vqa)、自然言語 for visual reasoning(nlvr)、視覚言語検索(vlr)といった様々なアプリケーションで顕著な成功を収めている。 これらのアプリケーションの中で、高度なモデルが任意のマルチモーダルタスク、例えば、理解、認識、検索、生成を最適に行うためには、クロスモーダル相互作用と異なるモダリティからの補完的情報が必要である。 研究者はこれらの課題に対処するための様々な方法を提案している。 異なる変圧器ベースのアーキテクチャは、複数のモダリティで特別に実行された。 本調査は,多言語・現代多モーダルタスクにおけるテキスト,視覚,音声の特徴を扱うための,深層学習型マルチモーダルアーキテクチャの進化と強化に関する包括的な文献を提示する。 本研究は概説する。 (i)近年のタスク特化深層学習手法 (ii)プリトレーニングタイプとマルチモーダルプリトレーニング目的。 (iii)最先端の事前学習したマルチモーダルアプローチからアーキテクチャ統一へ (4)マルチモーダルなタスクカテゴリと、よりよいマルチモーダルな学習のために考案できる将来の改善の可能性。 さらに,プリトレーニングや微調整のためのベンチマークの大部分をカバーする,新たな研究者のためのデータセットセクションも用意する。 最後に、大きな課題、ギャップ、潜在的研究トピックについて検討する。 本調査に関連する定期的なペーパーリストは,https://github.com/marslanm/multimodality-representation-learningで維持されている。

Multimodality Representation Learning, as a technique of learning to embed information from different modalities and their correlations, has achieved remarkable success on a variety of applications, such as Visual Question Answering (VQA), Natural Language for Visual Reasoning (NLVR), and Vision Language Retrieval (VLR). Among these applications, cross-modal interaction and complementary information from different modalities are crucial for advanced models to perform any multimodal task, e.g., understand, recognize, retrieve, or generate optimally. Researchers have proposed diverse methods to address these tasks. The different variants of transformer-based architectures performed extraordinarily on multiple modalities. This survey presents the comprehensive literature on the evolution and enhancement of deep learning multimodal architectures to deal with textual, visual and audio features for diverse cross-modal and modern multimodal tasks. This study summarizes the (i) recent task-specific deep learning methodologies, (ii) the pretraining types and multimodal pretraining objectives, (iii) from state-of-the-art pretrained multimodal approaches to unifying architectures, and (iv) multimodal task categories and possible future improvements that can be devised for better multimodal learning. Moreover, we prepare a dataset section for new researchers that covers most of the benchmarks for pretraining and finetuning. Finally, major challenges, gaps, and potential research topics are explored. A constantly-updated paperlist related to our survey is maintained at https://github.com/marslanm/multimodality-representation-learning.
翻訳日:2024-03-05 21:11:33 公開日:2024-03-01
# 木構造確率的図形モデルとしてのニューラルネットワークについて

On Neural Networks as Infinite Tree-Structured Probabilistic Graphical Models ( http://arxiv.org/abs/2305.17583v3 )

ライセンス: Link先を確認
Boyao Li, Alexandar J. Thomson, Matthew M. Engelhard, David Page(参考訳) ディープニューラルネットワーク(DNN)は、確率的グラフィカルモデル(PGM)の正確なセマンティクスと決定的な確率論的解釈を欠いている。 本稿では,ニューラルネットワークに対応する無限木構造PGMを構築することにより,革新的な解を提案する。 我々の研究は、DNNが前方伝播中に、この代替のPGM構造において正確であるPGMの近似を行うことを明らかにした。 我々の研究は、ニューラルネットワークをカーネルマシンや無限サイズのガウス過程として記述する既存の研究を補完するだけでなく、DNNがPGMで正確に推測するより直接的な近似も解明している。 潜在的な利点としては、教育とDNNの解釈の改善、PGMとDNNの強みをマージするアルゴリズムなどがある。

Deep neural networks (DNNs) lack the precise semantics and definitive probabilistic interpretation of probabilistic graphical models (PGMs). In this paper, we propose an innovative solution by constructing infinite tree-structured PGMs that correspond exactly to neural networks. Our research reveals that DNNs, during forward propagation, indeed perform approximations of PGM inference that are precise in this alternative PGM structure. Not only does our research complement existing studies that describe neural networks as kernel machines or infinite-sized Gaussian processes, it also elucidates a more direct approximation that DNNs make to exact inference in PGMs. Potential benefits include improved pedagogy and interpretation of DNNs, and algorithms that can merge the strengths of PGMs and DNNs.
翻訳日:2024-03-05 21:05:44 公開日:2024-03-01
# dot製品による階層型クラスタリングによる隠れ木構造回復

Hierarchical clustering with dot products recovers hidden tree structure ( http://arxiv.org/abs/2305.15022v3 )

ライセンス: Link先を確認
Annie Gray, Alexander Modell, Patrick Rubin-Delanchy, Nick Whiteley(参考訳) 本稿では,高度に確立された凝集クラスタリングアルゴリズムについて,階層構造の復元に焦点をあてた新しい視点を提案する。 我々は、例えば最小距離またはクラスタ内分散ではなく、最大平均ドット積でクラスタをマージする、標準アルゴリズムの単純な変種を推奨する。 このアルゴリズムによって出力される木は、汎用的確率的グラフィカルモデルの下で、データ内の生成階層構造のボナfide推定を提供する。 重要な技術的革新は、このモデルにおける階層的情報がどのようにしてデータから復元できる木幾何に変換されるかを理解し、サンプルサイズとデータ次元を同時に増やすことの利点を特徴付けることである。 UPGMAやWardの手法,HDBSCANといった既存手法よりも,実データの方が優れた木回復性能を示す。

In this paper we offer a new perspective on the well established agglomerative clustering algorithm, focusing on recovery of hierarchical structure. We recommend a simple variant of the standard algorithm, in which clusters are merged by maximum average dot product and not, for example, by minimum distance or within-cluster variance. We demonstrate that the tree output by this algorithm provides a bona fide estimate of generative hierarchical structure in data, under a generic probabilistic graphical model. The key technical innovations are to understand how hierarchical information in this model translates into tree geometry which can be recovered from data, and to characterise the benefits of simultaneously growing sample size and data dimension. We demonstrate superior tree recovery performance with real data over existing approaches such as UPGMA, Ward's method, and HDBSCAN.
翻訳日:2024-03-05 21:05:02 公開日:2024-03-01
# コインベッティングによる潜在変数モデルのチューニング自由最大習熟訓練

Tuning-Free Maximum Likelihood Training of Latent Variable Models via Coin Betting ( http://arxiv.org/abs/2305.14916v2 )

ライセンス: Link先を確認
Louis Sharrock, Daniel Dodd, Christopher Nemeth(参考訳) 本稿では,極端最大推定による潜在変数モデルを学習するための2つの新しい粒子ベースアルゴリズムを提案する。 本手法は最適化問題としての限界最大度推定の観点、すなわち自由エネルギー汎関数の最小化を基礎としている。 この問題を解決する一つの方法は、自由エネルギーに付随する勾配流の離散化である。 ステイン変分勾配降下の拡張に類似したそのようなアプローチを1つ検討し、各イテレーションで自由エネルギーが減少することを保証する降下補題を確立する。 勾配流の離散化として得られる他の手法は、必ずしも適切な速度で収束を確保するためには、練習者が慎重に調整しなければならない学習率に依存する。 このことを念頭に,コンベックス最適化によるコイン賭け手法に基づいて,完全に学習率フリーである自由エネルギーを最適化する別のアルゴリズムを提案する。 我々は,いくつかの高次元設定を含む数値実験を通して,アルゴリズムの性能を検証する。 我々の結果は、ハイパーパラメータチューニングを必要とせず、既存の粒子法と競合する。

We introduce two new particle-based algorithms for learning latent variable models via marginal maximum likelihood estimation, including one which is entirely tuning-free. Our methods are based on the perspective of marginal maximum likelihood estimation as an optimization problem: namely, as the minimization of a free energy functional. One way to solve this problem is via the discretization of a gradient flow associated with the free energy. We study one such approach, which resembles an extension of Stein variational gradient descent, establishing a descent lemma which guarantees that the free energy decreases at each iteration. This method, and any other obtained as the discretization of the gradient flow, necessarily depends on a learning rate which must be carefully tuned by the practitioner in order to ensure convergence at a suitable rate. With this in mind, we also propose another algorithm for optimizing the free energy which is entirely learning rate free, based on coin betting techniques from convex optimization. We validate the performance of our algorithms across several numerical experiments, including several high-dimensional settings. Our results are competitive with existing particle-based methods, without the need for any hyperparameter tuning.
翻訳日:2024-03-05 21:04:47 公開日:2024-03-01
# トリエージェント生成パイプラインによるパーソナライズされた抽象要約

Personalized Abstractive Summarization by Tri-agent Generation Pipeline ( http://arxiv.org/abs/2305.02483v2 )

ライセンス: Link先を確認
Wen Xiao, Yujia Xie, Giuseppe Carenini, Pengcheng He(参考訳) ChatGPTのような大きな言語モデルからのアウトプットを暗黙のユーザー嗜好に合わせることは、印象的な生成能力にもかかわらず、依然として課題である。 本稿では,出力パーソナライゼーションを強化するために,ジェネレータ,インストラクター,エディタからなる三元生成パイプラインを提案する。 ジェネレータは初期出力を生成し、インストラクターはユーザの好みに基づいて自動的に編集命令を生成し、エディタはそれらの好みに合わせて出力を洗練する。 推論のみの大規模言語モデル(ChatGPT)はジェネレータとエディタの両方として機能し、より小さなモデルはインストラクターとして機能して出力生成を誘導する。 我々は,大規模編集者モデルからのフィードバックを活用して,教師の指導力を向上させる。 2つの抽象的な要約データセットの実験結果から,ユーザの期待に応えたアウトプット生成におけるアプローチの有効性が示された。 コードは \url{https://github.com/Wendy-Xiao/chatgpt_editing_summ} で入手できる。

Tailoring outputs from large language models, like ChatGPT, to implicit user preferences remains a challenge despite their impressive generative capabilities. In this paper, we propose a tri-agent generation pipeline comprising a generator, an instructor, and an editor to enhance output personalization. The generator produces an initial output, the instructor automatically generates editing instructions based on user preferences, and the editor refines the output to align with those preferences. The inference-only large language model (ChatGPT) serves as both the generator and editor, with a smaller model acting as the instructor to guide output generation. We train the instructor using editor-steered reinforcement learning, leveraging feedback from a large-scale editor model to optimize instruction generation. Experimental results on two abstractive summarization datasets demonstrate the effectiveness of our approach in generating outputs that better meet user expectations. Code is available at \url{https://github.com/Wendy-Xiao/chatgpt_editing_summ}
翻訳日:2024-03-05 21:03:32 公開日:2024-03-01
# ポピュリズムの顔:機械学習を用いた政治指導者の感情表現の相違について

The Face of Populism: Examining Differences in Facial Emotional Expressions of Political Leaders Using Machine Learning ( http://arxiv.org/abs/2304.09914v3 )

ライセンス: Link先を確認
Sara Major, Aleksandar Toma\v{s}evi\'c(参考訳) オンラインメディアは、政治情報がグローバルに拡散され消費される方法に革命をもたらしており、この変化によって、政治関係者は有権者の注意を引き付けて維持する新しい戦略を採用せざるを得なくなった。 これらの戦略はしばしば感情的な説得と魅力に頼り、視覚的コンテンツがバーチャル空間でますます普及するにつれて、政治的コミュニケーションの多くは、挑発的なビデオコンテンツとイメージによって特徴づけられるようになった。 本稿では, この種の材料を解析するための新しいアプローチを提案する。 我々は、pythonライブラリferが提供する既存のトレーニング済み畳み込みニューラルネットワークアーキテクチャに基づいて、15カ国の政治指導者を描いた220のyoutubeビデオのサンプルにディープラーニングベースのコンピュータビジョンアルゴリズムを適用する。 このアルゴリズムは6つの感情状態(不安、嫌悪感、恐怖、幸福、悲しみ、驚き)の相対的な存在を表す感情スコアと、処理されたYouTubeビデオのフレームごとに中立的な表現を返す。 我々は,Global Party Survey (GPS) で定義されている,ポピュリスト・レトリックの度合いの異なるリーダー群の平均否定感情スコアの統計的に有意な差を観察し,ポピュリスト・リーダーは,非ポピュリスト・レトリックよりも公的なパフォーマンスにおいて否定感情を表現する傾向を示した。 全体として、我々の貢献は、政治指導者間の視覚的自己表現の特徴と、非言語コミュニケーションのさらなる計算研究のためのオープンソースワークフローに関する洞察を与えます。

Online media has revolutionized the way political information is disseminated and consumed on a global scale, and this shift has compelled political figures to adopt new strategies of capturing and retaining voter attention. These strategies often rely on emotional persuasion and appeal, and as visual content becomes increasingly prevalent in virtual space, much of political communication too has come to be marked by evocative video content and imagery. The present paper offers a novel approach to analyzing material of this kind. We apply a deep-learning-based computer-vision algorithm to a sample of 220 YouTube videos depicting political leaders from 15 different countries, which is based on an existing trained convolutional neural network architecture provided by the Python library fer. The algorithm returns emotion scores representing the relative presence of 6 emotional states (anger, disgust, fear, happiness, sadness, and surprise) and a neutral expression for each frame of the processed YouTube video. We observe statistically significant differences in the average score of expressed negative emotions between groups of leaders with varying degrees of populist rhetoric as defined by the Global Party Survey (GPS), indicating that populist leaders tend to express negative emotions to a greater extent during their public performance than their non-populist counterparts. Overall, our contribution provides insight into the characteristics of visual self-representation among political leaders, as well as an open-source workflow for further computational studies of their non-verbal communication.
翻訳日:2024-03-05 21:02:23 公開日:2024-03-01
# オペレーター学習のパラメトリック複雑性

The Parametric Complexity of Operator Learning ( http://arxiv.org/abs/2306.15924v3 )

ライセンス: Link先を確認
Samuel Lanthaler and Andrew M. Stuart(参考訳) ニューラルネットワークを用いて、関数のバナッハ空間間の演算子マッピングを近似し、エミュレーションによってモデル評価を加速したり、データからモデルを発見したりすることができる。 その結果,近年,この手法が注目され,オペレーター学習の分野が急速に拡大している。 この論文の第一の貢献は、C^r$-あるいはリプシッツ正則性のみによって特徴づけられる作用素の一般クラスに対して、作用素学習は高次元近似問題においてよく知られた次元の呪いの無限次元の類似である「パラメトリック複雑性の帰結」に苦しむことを証明することである。 その結果は、PCA-Net、DeepONet、FNOなど、さまざまな既存のニューラル演算子に適用できる。 論文の第二の貢献は、ハミルトン・ヤコビ方程式によって定義される解作用素に対してこの一般的な呪いが克服可能であることを証明することである。 この目的のために、hj-netと呼ばれる新しいニューラルオペレーターアーキテクチャが導入され、基盤となるハミルトン系の特性情報を明示的に考慮した。 誤差と複雑性の推定はhj-netによって導出され、このアーキテクチャは無限次元の入出力関数空間に関連するパラメトリック複雑性の呪いを打ち負かすことができる。

Neural operator architectures employ neural networks to approximate operators mapping between Banach spaces of functions; they may be used to accelerate model evaluations via emulation, or to discover models from data. Consequently, the methodology has received increasing attention over recent years, giving rise to the rapidly growing field of operator learning. The first contribution of this paper is to prove that for general classes of operators which are characterized only by their $C^r$- or Lipschitz-regularity, operator learning suffers from a ``curse of parametric complexity'', which is an infinite-dimensional analogue of the well-known curse of dimensionality encountered in high-dimensional approximation problems. The result is applicable to a wide variety of existing neural operators, including PCA-Net, DeepONet and the FNO. The second contribution of the paper is to prove that this general curse can be overcome for solution operators defined by the Hamilton-Jacobi equation; this is achieved by leveraging additional structure in the underlying solution operator, going beyond regularity. To this end, a novel neural operator architecture is introduced, termed HJ-Net, which explicitly takes into account characteristic information of the underlying Hamiltonian system. Error and complexity estimates are derived for HJ-Net which show that this architecture can provably beat the curse of parametric complexity related to the infinite-dimensional input and output function spaces.
翻訳日:2024-03-05 20:55:54 公開日:2024-03-01
# labelbench:適応ラベル効率学習をベンチマークするための包括的なフレームワーク

LabelBench: A Comprehensive Framework for Benchmarking Adaptive Label-Efficient Learning ( http://arxiv.org/abs/2306.09910v4 )

ライセンス: Link先を確認
Jifan Zhang, Yifang Chen, Gregory Canal, Stephen Mussmann, Arnav M. Das, Gantavya Bhatt, Yinglun Zhu, Jeffrey Bilmes, Simon Shaolei Du, Kevin Jamieson, Robert D Nowak(参考訳) ラベル付きデータは現代の機械学習アプリケーションには不可欠だが、ラベルの取得には費用がかかる。 このコストを軽減するために、転送学習、半教師付き学習、アクティブラーニングなどの機械学習手法はラベル効率を目標とし、比較的少数のラベル付き例から高い予測性能を達成する。 実際に最高のラベル効率を得るには、これらのテクニックの組み合わせを必要とすることが多いが、既存のベンチマークと評価フレームワークは、これらすべてのテクニックの併用を捉えていない。 本稿では,複数のラベル効率学習手法を共同評価するための新しい計算効率の高いフレームワークである labelbench を導入することで,この不足に対処する。 LabelBench の応用として,手動学習と半教師あり学習を組み合わせた最新の能動学習手法のベンチマークを導入する。 我々のベンチマークでは, これまでに報告されたアクティブラーニングよりも優れたラベル効率を示す。 labelbenchのモジュラーコードベースは、より広いコミュニティがラベル効率のよい学習方法とベンチマークを提供するためにオープンソースである。 リポジトリは、https://github.com/EfficientTraining/LabelBench.comで見ることができる。

Labeled data are critical to modern machine learning applications, but obtaining labels can be expensive. To mitigate this cost, machine learning methods, such as transfer learning, semi-supervised learning and active learning, aim to be label-efficient: achieving high predictive performance from relatively few labeled examples. While obtaining the best label-efficiency in practice often requires combinations of these techniques, existing benchmark and evaluation frameworks do not capture a concerted combination of all such techniques. This paper addresses this deficiency by introducing LabelBench, a new computationally-efficient framework for joint evaluation of multiple label-efficient learning techniques. As an application of LabelBench, we introduce a novel benchmark of state-of-the-art active learning methods in combination with semi-supervised learning for fine-tuning pretrained vision transformers. Our benchmark demonstrates better label-efficiencies than previously reported in active learning. LabelBench's modular codebase is open-sourced for the broader community to contribute label-efficient learning methods and benchmarks. The repository can be found at: https://github.com/EfficientTraining/LabelBench.
翻訳日:2024-03-05 20:54:47 公開日:2024-03-01
# RRSIS:リモートセンシング画像のセグメンテーションを参照

RRSIS: Referring Remote Sensing Image Segmentation ( http://arxiv.org/abs/2306.08625v2 )

ライセンス: Link先を確認
Zhenghang Yuan, Lichao Mou, Yuansheng Hua, Xiao Xiang Zhu(参考訳) リモートセンシング画像から所望のオブジェクトをローカライズすることは、実用上非常に有用である。 与えられた表現が参照する対象を分割することを目的とした画像分割の参照は、自然画像において広く研究されている。 しかし、このリモートセンシング画像のタスクには、ほとんど研究の注意が払われていない。 本稿では,実世界の応用の可能性を考慮して,このギャップを埋めるためにリモートセンシング画像セグメンテーション(RRSIS)を紹介する。 具体的には、このタスクのためにRefSegRSと呼ばれる新しいデータセットを作成し、異なるメソッドの評価を可能にします。 その後、RefSegRSデータセット上の自然画像のイメージセグメンテーション手法をベンチマークし、これらのモデルが小さな物体や散乱物体の検出において限られた有効性を示すことを示した。 この問題を軽減するために,言語機能を利用した言語誘導型クロススケール拡張(LGCE)モジュールを提案する。 提案したデータセット、ベンチマーク結果、デザインされたLGCEモジュールは、より良いRRSISモデルの設計に関する洞察を提供する。 データセットとコードを公開します。

Localizing desired objects from remote sensing images is of great use in practical applications. Referring image segmentation, which aims at segmenting out the objects to which a given expression refers, has been extensively studied in natural images. However, almost no research attention is given to this task of remote sensing imagery. Considering its potential for real-world applications, in this paper, we introduce referring remote sensing image segmentation (RRSIS) to fill in this gap and make some insightful explorations. Specifically, we create a new dataset, called RefSegRS, for this task, enabling us to evaluate different methods. Afterward, we benchmark referring image segmentation methods of natural images on the RefSegRS dataset and find that these models show limited efficacy in detecting small and scattered objects. To alleviate this issue, we propose a language-guided cross-scale enhancement (LGCE) module that utilizes linguistic features to adaptively enhance multi-scale visual features by integrating both deep and shallow features. The proposed dataset, benchmarking results, and the designed LGCE module provide insights into the design of a better RRSIS model. We will make our dataset and code publicly available.
翻訳日:2024-03-05 20:54:16 公開日:2024-03-01
# DCTX-Conformer:低レイテンシ統合ストリーミングと非ストリーミングコンフォーマーASRのための動的コンテキスト搬送

DCTX-Conformer: Dynamic context carry-over for low latency unified streaming and non-streaming Conformer ASR ( http://arxiv.org/abs/2306.08175v2 )

ライセンス: Link先を確認
Goeric Huybrechts, Srikanth Ronanki, Xilai Li, Hadis Nosrati, Sravan Bodapati, Katrin Kirchhoff(参考訳) コンフォーメータベースのエンドツーエンドモデルは最近普及しており、ストリーミングおよび非ストリーミング自動音声認識(asr)の両方で一般的に使用されている。 デュアルモードや動的チャンクトレーニングのような技術は、ストリーミングと非ストリーミングシステムを統合するのに役立った。 しかし、完全な過去のコンテキストと限られたコンテキストのストリーミングには、パフォーマンスのギャップが残っている。 そこで本研究では,SOTA統合ASRシステムにおける動的コンテキスト搬送機構の統合を提案する。 提案するdynamic context conformer(dctx-conformer)は,チャンクの左コンテキストと先行する1つ以上のコンテキスト埋め込みの両方を考慮した,重複しないコンテクストキャリーオーバー機構を採用している。 sotaを25.0%の単語誤り率で上回り、追加のコンテキスト埋め込みによる遅延の影響は無視できる。

Conformer-based end-to-end models have become ubiquitous these days and are commonly used in both streaming and non-streaming automatic speech recognition (ASR). Techniques like dual-mode and dynamic chunk training helped unify streaming and non-streaming systems. However, there remains a performance gap between streaming with a full and limited past context. To address this issue, we propose the integration of a novel dynamic contextual carry-over mechanism in a state-of-the-art (SOTA) unified ASR system. Our proposed dynamic context Conformer (DCTX-Conformer) utilizes a non-overlapping contextual carry-over mechanism that takes into account both the left context of a chunk and one or more preceding context embeddings. We outperform the SOTA by a relative 25.0% word error rate, with a negligible latency impact due to the additional context embeddings.
翻訳日:2024-03-05 20:53:57 公開日:2024-03-01
# 言語モデルにおける社会デモグラフィバイアス:調査と前進経路

Sociodemographic Bias in Language Models: A Survey and Forward Path ( http://arxiv.org/abs/2306.08158v4 )

ライセンス: Link先を確認
Vipul Gupta, Pranav Narayanan Venkit, Shomir Wilson, Rebecca J. Passonneau(参考訳) 本稿では,言語モデル(LM)における社会デマトグラフィーバイアスに関する研究を包括的に調査する。 言語モデルに埋め込まれたソシオデマトグラフィーバイアスは、現実世界の環境に展開する際に有害な効果をもたらす可能性がある。 我々は,既存の文献を,バイアスの種類,偏見の定量化,偏見の手法の3つの分野に体系的に分類する。 我々はまた、過去10年間のlmバイアスの調査の進化を追跡している。 我々はバイアス研究における現在の傾向、限界、および潜在的将来方向を特定する。 より効果的で信頼性の高いソリューションに向けた今後の研究を導くため、オープンな質問のチェックリストを提示する。 また、学際的アプローチを用いて、LMバイアスに関する作業と潜在的な害の理解を組み合わせることを推奨する。

This paper presents a comprehensive survey of work on sociodemographic bias in language models (LMs). Sociodemographic biases embedded within language models can have harmful effects when deployed in real-world settings. We systematically organize the existing literature into three main areas: types of bias, quantifying bias, and debiasing techniques. We also track the evolution of investigations of LM bias over the past decade. We identify current trends, limitations, and potential future directions in bias research. To guide future research towards more effective and reliable solutions, we present a checklist of open questions. We also recommend using interdisciplinary approaches to combine works on LM bias with an understanding of the potential harms.
翻訳日:2024-03-05 20:53:40 公開日:2024-03-01
# Bures-Wasserstein グラフの意味

Bures-Wasserstein Means of Graphs ( http://arxiv.org/abs/2305.19738v2 )

ライセンス: Link先を確認
Isabel Haasler, Pascal Frossard(参考訳) サンプルデータの平均を見つけることは、機械学習と統計学における基本的な課題である。 しかし、データサンプルがグラフオブジェクトである場合、平均を定義することは本質的に難しいタスクである。 本研究では,滑らかなグラフ信号分布の空間への埋め込みにより,グラフ平均を定義するための新しい枠組みを提案する。 この埋め込み空間に平均を見つけることで、構造情報を保存する平均グラフを復元することができる。 我々は,新しいグラフの存在と特異性を確立し,それを計算するための反復アルゴリズムを提供する。 機械学習における実用的な応用ツールとしてのフレームワークの可能性を強調するため,構造化アライメントグラフのk平均クラスタリング,機能的脳ネットワークの分類,多層グラフにおける半教師付きノード分類など,様々なタスクで評価した。 実験結果から,本手法は一貫した性能を実現し,既存のベースライン手法より優れ,最先端手法の性能向上を図っている。

Finding the mean of sampled data is a fundamental task in machine learning and statistics. However, in cases where the data samples are graph objects, defining a mean is an inherently difficult task. We propose a novel framework for defining a graph mean via embeddings in the space of smooth graph signal distributions, where graph similarity can be measured using the Wasserstein metric. By finding a mean in this embedding space, we can recover a mean graph that preserves structural information. We establish the existence and uniqueness of the novel graph mean, and provide an iterative algorithm for computing it. To highlight the potential of our framework as a valuable tool for practical applications in machine learning, it is evaluated on various tasks, including k-means clustering of structured aligned graphs, classification of functional brain networks, and semi-supervised node classification in multi-layer graphs. Our experimental results demonstrate that our approach achieves consistent performance, outperforms existing baseline approaches, and improves the performance of state-of-the-art methods.
翻訳日:2024-03-05 20:51:34 公開日:2024-03-01
# escaping mediocrity: 2層ネットワークがsgdでハード一般化線形モデルをどのように学習するか

Escaping mediocrity: how two-layer networks learn hard generalized linear models with SGD ( http://arxiv.org/abs/2305.18502v2 )

ライセンス: Link先を確認
Luca Arnaboldi, Florent Krzakala, Bruno Loureiro, Ludovic Stephan(参考訳) 本研究では,2層ニューラルネットワークがSGD(Stochastic Gradient Descent)の下で一般化された線形目標関数を学習する際のサンプルの複雑さについて検討し,初期化時に多くの平坦な方向が存在する課題に着目した。 このシナリオでは、$n=O(d \log d)$サンプルは通常必要である。 しかし、高次元の文脈と様々な幅のプレファクタについて正確な結果を提供する。 特に,過パラメータ化はこの問題クラス内の定数因子によってのみ収束を増強できることが示唆された。 これらの洞察は、sgdダイナミクスをより低い次元の確率過程に還元し、脱出するメディオクラリティが終了時刻の計算に等しいことに着目する。 しかし,この過程の決定論的近似が脱出時間を表すことを証明し,確率性の役割がこのシナリオにおいて最小となることを示唆する。

This study explores the sample complexity for two-layer neural networks to learn a generalized linear target function under Stochastic Gradient Descent (SGD), focusing on the challenging regime where many flat directions are present at initialization. It is well-established that in this scenario $n=O(d \log d)$ samples are typically needed. However, we provide precise results concerning the pre-factors in high-dimensional contexts and for varying widths. Notably, our findings suggest that overparameterization can only enhance convergence by a constant factor within this problem class. These insights are grounded in the reduction of SGD dynamics to a stochastic process in lower dimensions, where escaping mediocrity equates to calculating an exit time. Yet, we demonstrate that a deterministic approximation of this process adequately represents the escape time, implying that the role of stochasticity may be minimal in this scenario.
翻訳日:2024-03-05 20:51:07 公開日:2024-03-01
# 分散検出における大規模言語モデルはどの程度優れているか?

How Good Are Large Language Models at Out-of-Distribution Detection? ( http://arxiv.org/abs/2308.10261v3 )

ライセンス: Link先を確認
Bo Liu, Liming Zhan, Zexin Lu, Yujie Feng, Lei Xue, Xiao-Ming Wu(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、機械学習(ML)モデルの信頼性を高める上で重要な役割を果たす。 大規模言語モデル(LLM)の出現は、MLコミュニティ内のパラダイムシフトを触媒し、さまざまな自然言語処理タスクにまたがる優れた能力を示している。 既存の研究では、BERT、RoBERTa、GPT-2のような比較的小型のトランスフォーマーを用いたOOD検出が研究されているが、スケール、事前学習目標、推論パラダイムの相違は、これらの発見がLLMに適用可能であることを疑問視している。 本稿では, LLM 領域における OOD 検出の先駆的な研究に着手し, 7B から 65B までの LLaMA シリーズに着目した。 我々は,一般用OOD検出器を徹底的に評価し,ゼログレードおよび微調整のシナリオにおいて,その性能を精査した。 特に,LLMの事前学習目標を下流タスクと整合させて,従来の識別的in-distribution fine-tuningを生成的微調整に変更した。 以上の結果から, 簡易なコサイン距離OOD検出器は優れた有効性を示し, その他のOOD検出器よりも優れていた。 本研究では, LLM の埋め込み空間の等方性を強調し, より小さな BERT 系モデルで観測される異方性と明確に対比して, この現象の興味深い説明を行う。 この新たな洞察は、LDMがOODデータを検出する方法の理解を深め、動的環境における適合性と信頼性を高める。

Out-of-distribution (OOD) detection plays a vital role in enhancing the reliability of machine learning (ML) models. The emergence of large language models (LLMs) has catalyzed a paradigm shift within the ML community, showcasing their exceptional capabilities across diverse natural language processing tasks. While existing research has probed OOD detection with relative small-scale Transformers like BERT, RoBERTa and GPT-2, the stark differences in scales, pre-training objectives, and inference paradigms call into question the applicability of these findings to LLMs. This paper embarks on a pioneering empirical investigation of OOD detection in the domain of LLMs, focusing on LLaMA series ranging from 7B to 65B in size. We thoroughly evaluate commonly-used OOD detectors, scrutinizing their performance in both zero-grad and fine-tuning scenarios. Notably, we alter previous discriminative in-distribution fine-tuning into generative fine-tuning, aligning the pre-training objective of LLMs with downstream tasks. Our findings unveil that a simple cosine distance OOD detector demonstrates superior efficacy, outperforming other OOD detectors. We provide an intriguing explanation for this phenomenon by highlighting the isotropic nature of the embedding spaces of LLMs, which distinctly contrasts with the anisotropic property observed in smaller BERT family models. The new insight enhances our understanding of how LLMs detect OOD data, thereby enhancing their adaptability and reliability in dynamic environments.
翻訳日:2024-03-05 20:43:51 公開日:2024-03-01
# 音声の匿名化:話者匿名化手法の評価と設計

Anonymizing Speech: Evaluating and Designing Speaker Anonymization Techniques ( http://arxiv.org/abs/2308.04455v4 )

ライセンス: Link先を確認
Pierre Champion(参考訳) 音声ユーザインタフェースの利用が増加し、音声データの収集と保存が急増した。 データ収集は、ほとんどの音声サービスを支える効率的なツールの開発を可能にするが、集中ストレージが個人の音声データをサイバー脅威に脆弱にするため、ユーザーにとって深刻なプライバシー問題を引き起こす。 AmazonのAlexa、GoogleのHome、AppleのSiriといった音声ベースのデジタルアシスタントの利用が増加し、パーソナル音声データの収集が容易になったことで、音声クローズとスピーカー/ジェンダー/病理/etcの悪意ある使用のリスクが高まった。 認識が高まりました 本論文は,音声の匿名化と匿名化の程度を評価するための解を提案する。 本研究において、匿名化とは、音声信号(例えば、言語コンテンツへのアクセス)の有用性(有効性)を維持しつつ、個人音声データをアイデンティティーと結びつかないものにすることを指す。 まず、評価プロトコルがプライバシー保護の程度を適切に評価するために考慮する必要があるいくつかの課題を特定することから始める。 評価のために匿名化システムをどのように構成するかを明確にし、多くの実用的なデプロイメント構成ではプライバシ評価が許されていないことを強調する。 さらに,最も一般的な音声変換に基づく匿名化システムについて検討し,いくつかの制限を克服するための新しい手法を提案する前に,その弱点を特定する。 匿名化システムのすべてのコンポーネントを分離し、各コンポーネントに関連付けられた話者PPIの度合いを評価する。 次に,各コンポーネントに対して,実用性を維持しながら話者ppiを可能な限り削減するための変換手法を提案する。 我々は、量子化に基づく変換に基づく匿名化アルゴリズムを、最もよく使われ、よく知られたノイズベースアプローチの代替として推奨する。 最後に,匿名化を回避すべく,新たな攻撃手法を提案する。

The growing use of voice user interfaces has led to a surge in the collection and storage of speech data. While data collection allows for the development of efficient tools powering most speech services, it also poses serious privacy issues for users as centralized storage makes private personal speech data vulnerable to cyber threats. With the increasing use of voice-based digital assistants like Amazon's Alexa, Google's Home, and Apple's Siri, and with the increasing ease with which personal speech data can be collected, the risk of malicious use of voice-cloning and speaker/gender/pathological/etc. recognition has increased. This thesis proposes solutions for anonymizing speech and evaluating the degree of the anonymization. In this work, anonymization refers to making personal speech data unlinkable to an identity while maintaining the usefulness (utility) of the speech signal (e.g., access to linguistic content). We start by identifying several challenges that evaluation protocols need to consider to evaluate the degree of privacy protection properly. We clarify how anonymization systems must be configured for evaluation purposes and highlight that many practical deployment configurations do not permit privacy evaluation. Furthermore, we study and examine the most common voice conversion-based anonymization system and identify its weak points before suggesting new methods to overcome some limitations. We isolate all components of the anonymization system to evaluate the degree of speaker PPI associated with each of them. Then, we propose several transformation methods for each component to reduce as much as possible speaker PPI while maintaining utility. We promote anonymization algorithms based on quantization-based transformation as an alternative to the most-used and well-known noise-based approach. Finally, we endeavor a new attack method to invert anonymization.
翻訳日:2024-03-05 20:41:48 公開日:2024-03-01
# 一般マルチウェイ比較に基づくスペクトルランキング推定

Spectral Ranking Inferences based on General Multiway Comparisons ( http://arxiv.org/abs/2308.02918v3 )

ライセンス: Link先を確認
Jianqing Fan, Zhipeng Lou, Weichen Wang, Mengxin Yu(参考訳) 本稿では,比較対象の未観測選好スコアの推定と不確実性の定量化におけるスペクトル法の性能について,より現実的な設定で検討する。 具体的には、比較グラフは、可能ヘテロジニアスサイズのハイパーエッジで構成され、比較の数は与えられたハイパーエッジに対して1つ以下である。 このような設定は実アプリケーションでは広く適用され、グラフのランダム性や一般的なブラッドリー・テリー・ルース(btl)やプラケット・ルース(pl)モデルに課される制限的な均質なサンプリング仮定を回避できる。 さらに、BTLモデルやPLモデルが適切である場合、スペクトル推定器とMLE(Maximum Likelihood Estimator)の関係を明らかにする。 等重化バニラスペクトル法から推定される最適重み付けを2段階のスペクトル法で適用することで,MLEと同じ漸近効率が得られることがわかった。 推定された選好スコアの漸近分布を考えると、固定グラフとランダムグラフの設定の両方に適用可能な1サンプルと2サンプルの両方のランク付けを行うための包括的なフレームワークも導入する。 有効な2つのサンプルランクテスト手法が提案されたのはこれが初めてである。 最後に,本研究の知見を総合的な数値シミュレーションにより検証し,その後,統計ジャーナルや映画ランキングの統計的推測に応用する。

This paper studies the performance of the spectral method in the estimation and uncertainty quantification of the unobserved preference scores of compared entities in a general and more realistic setup. Specifically, the comparison graph consists of hyper-edges of possible heterogeneous sizes, and the number of comparisons can be as low as one for a given hyper-edge. Such a setting is pervasive in real applications, circumventing the need to specify the graph randomness and the restrictive homogeneous sampling assumption imposed in the commonly used Bradley-Terry-Luce (BTL) or Plackett-Luce (PL) models. Furthermore, in scenarios where the BTL or PL models are appropriate, we unravel the relationship between the spectral estimator and the Maximum Likelihood Estimator (MLE). We discover that a two-step spectral method, where we apply the optimal weighting estimated from the equal weighting vanilla spectral method, can achieve the same asymptotic efficiency as the MLE. Given the asymptotic distributions of the estimated preference scores, we also introduce a comprehensive framework to carry out both one-sample and two-sample ranking inferences, applicable to both fixed and random graph settings. It is noteworthy that this is the first time effective two-sample rank testing methods have been proposed. Finally, we substantiate our findings via comprehensive numerical simulations and subsequently apply our developed methodologies to perform statistical inferences for statistical journals and movie rankings.
翻訳日:2024-03-05 20:41:21 公開日:2024-03-01
# 双線型電磁場による$\mathbb{R}^N$上の非線形シュリンガー方程式の短時間制御性

Small-time controllability for the nonlinear Schr\"odinger equation on $\mathbb{R}^N$ via bilinear electromagnetic fields ( http://arxiv.org/abs/2307.15819v2 )

ライセンス: Link先を確認
Alessandro Duca and Eugenio Pozzoli(参考訳) 非線形 schr\"odinger 方程式 (nls) の磁気場と電場の存在下では$\mathbb{r}^n$ 上の小さな時間制御可能性問題に対処する。 方程式が $i\partial_t \psi = [-\Delta+u_0(t)h_{\vec{0}}+\langle u(t), P\rangle +\kappa|\psi|^{2p}]\psi$ となる特定のフレームワークを選択する。 ここで、制御作用素はゼロのエルミート函数 $h_{\vec{0}}(x)$ と運動量作用素 $P=i\nabla$ で定義される。 詳細は、十分に大きな制御信号$u_0$および$u$を介して、所望の速さで(NLS)のダイナミクスを制御できることについて検討する。 まず、この性質が検証される量子状態の族の存在を示す。 第二に、この族に属する特定の状態を考えることによって、時間 0 において量子系の有界領域におけるエネルギーの任意の変化を制御する能力を示す。 この結果は,(nls)における非線形項は,所望の時間に限り小さい場合の線形問題の摂動である,という考え方を生かして証明される。 証明の中核は双線型方程式の可制御性であり、無限次元プロパゲータの特定の非可換性を用いて取り組まれる。

We address the small-time controllability problem for a nonlinear Schr\"odinger equation (NLS) on $\mathbb{R}^N$ in the presence of magnetic and electric external fields. We choose a particular framework where the equation becomes $i\partial_t \psi = [-\Delta+u_0(t)h_{\vec{0}}+\langle u(t), P\rangle +\kappa|\psi|^{2p}]\psi$. Here, the control operators are defined by the zeroth Hermite function $h_{\vec{0}}(x)$ and the momentum operator $P=i\nabla$. In detail, we study when it is possible to control the dynamics of (NLS) as fast as desired via sufficiently large control signals $u_0$ and $u$. We first show the existence of a family of quantum states for which this property is verified. Secondly, by considering some specific states belonging to this family, as a physical consequence we show the capability of controlling arbitrary changes of energy in bounded regions of the quantum system, in time zero. Our results are proved by exploiting the idea that the nonlinear term in (NLS) is only a perturbation of the linear problem when the time is as small as desired. The core of the proof, then, is the controllability of the bilinear equation which is tackled by using specific non-commutativity properties of infinite-dimensional propagators.
翻訳日:2024-03-05 20:40:56 公開日:2024-03-01
# 自己学習最適化 (STOP): 繰り返し自己改善コード生成

Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation ( http://arxiv.org/abs/2310.02304v2 )

ライセンス: Link先を確認
Eric Zelikman, Eliana Lorch, Lester Mackey, Adam Tauman Kalai(参考訳) 近年のAIシステム(例:Tree-of-ThoughtsとProgram-Aided Language Models)の進歩は、より良い出力を生成するために複数の言語モデルへの呼び出しを構造化する"スキャフォールディング"プログラムを提供することで、問題を解決している。 足場プログラムはPythonのようなプログラミング言語で記述されている。 本研究では,言語モデルを用いた足場構築プログラムを用いて自己改善を行う。 まず、言語モデルを何回かクエリし、最良のソリューションを返すことで、所定のユーティリティ機能に従って入力プログラムを改善するシード "improver" から始める。 そして、このシード改善器を実行して改善します。 ダウンストリームタスクの小さなセット全体で、改善された改善プログラムは、シード改善プログラムよりも大幅にパフォーマンスの高いプログラムを生成する。 言語モデルでは,ビーム探索,遺伝的アルゴリズム,シミュレートアニーリングなど,様々な自己改善戦略が提案されている。 言語モデル自体が変更されないため、これは完全な再帰的自己改善ではない。 それでも、我々の実験では、近代的な言語モデルであるGPT-4が、自分自身を改善のために呼び出すことができるコードを書くことができることを実証しています。 我々は、自己改善技術の開発に関する懸念を考察し、生成したコードがサンドボックスをバイパスする頻度を評価する。

Several recent advances in AI systems (e.g., Tree-of-Thoughts and Program-Aided Language Models) solve problems by providing a "scaffolding" program that structures multiple calls to language models to generate better outputs. A scaffolding program is written in a programming language such as Python. In this work, we use a language-model-infused scaffolding program to improve itself. We start with a seed "improver" that improves an input program according to a given utility function by querying a language model several times and returning the best solution. We then run this seed improver to improve itself. Across a small set of downstream tasks, the resulting improved improver generates programs with significantly better performance than its seed improver. A variety of self-improvement strategies are proposed by the language model, including beam search, genetic algorithms, and simulated annealing. Since the language models themselves are not altered, this is not full recursive self-improvement. Nonetheless, it demonstrates that a modern language model, GPT-4 in our experiments, is capable of writing code that can call itself to improve itself. We consider concerns around the development of self-improving technologies and evaluate the frequency with which the generated code bypasses a sandbox.
翻訳日:2024-03-05 20:34:52 公開日:2024-03-01
# CaveSeg:自律型水中洞窟探査のための深部セマンティックセグメンテーションとシーンパーシング

CaveSeg: Deep Semantic Segmentation and Scene Parsing for Autonomous Underwater Cave Exploration ( http://arxiv.org/abs/2309.11038v5 )

ライセンス: Link先を確認
A. Abdullah, T. Barua, R. Tibbetts, Z. Chen, M. J. Islam, I. Rekleitis(参考訳) 本稿では,水中洞窟におけるAUVナビゲーションのためのセマンティックセグメンテーションとシーン解析のための最初のビジュアル学習パイプラインであるCaveSegを紹介する。 水中洞窟シーンのセマンティックセマンティックセグメンテーションのための包括的データセットを作成し,注釈付きトレーニングデータの不足に対処する。 重要なナビゲーションマーカー(洞窟線、矢印など)、障害物(地平原や頭上層など)、スキューバダイバー、サーボのためのオープンエリアのためのピクセルアノテーションが含まれている。 米国、メキシコ、スペインの洞窟システムに関する包括的なベンチマーク分析を通じて、水中洞窟環境を高速に意味論的に解析するためのcavesegに基づく強固な深部視覚モデルの開発が可能であることを実証する。 特に,計算的に軽量で,リアルタイムに近い実行が可能なトランスフォーマーモデルを構築し,最先端性能を実現する。 最後に,水中洞窟内におけるAUVによる視覚サーボのためのセマンティックセグメンテーションの設計選択と意義について検討する。 提案されたモデルとベンチマークデータセットは、自律型水中洞窟探査とマッピングにおける将来の研究の有望な機会を開く。

In this paper, we present CaveSeg - the first visual learning pipeline for semantic segmentation and scene parsing for AUV navigation inside underwater caves. We address the problem of scarce annotated training data by preparing a comprehensive dataset for semantic segmentation of underwater cave scenes. It contains pixel annotations for important navigation markers (e.g. caveline, arrows), obstacles (e.g. ground plain and overhead layers), scuba divers, and open areas for servoing. Through comprehensive benchmark analyses on cave systems in USA, Mexico, and Spain locations, we demonstrate that robust deep visual models can be developed based on CaveSeg for fast semantic scene parsing of underwater cave environments. In particular, we formulate a novel transformer-based model that is computationally light and offers near real-time execution in addition to achieving state-of-the-art performance. Finally, we explore the design choices and implications of semantic segmentation for visual servoing by AUVs inside underwater caves. The proposed model and benchmark dataset open up promising opportunities for future research in autonomous underwater cave exploration and mapping.
翻訳日:2024-03-05 20:33:27 公開日:2024-03-01
# 講演「Bout AI生成:著作権と生成AIサプライチェーン」

Talkin' 'Bout AI Generation: Copyright and the Generative-AI Supply Chain ( http://arxiv.org/abs/2309.08133v2 )

ライセンス: Link先を確認
Katherine Lee and A. Feder Cooper and James Grimmelmann(参考訳) 「生成aiは著作権を侵害するのか?」は緊急の質問である。 2つの理由から、これは難しい問題でもある。 第一に、“ジェネレーティブAI”はひとつの企業の製品だけではない。 chatgptのような会話型テキストチャットボット、midjourneyやdall-eのような画像生成、github copilotのようなコーディングアシスタント、音楽を作成しビデオを作成するシステムなど、ゆるやかな関連技術の巨大なエコシステムのキャッチフレーズです。 これらの制度は異なった振る舞いをし、異なる法的問題を引き起こす。 第2の問題は、著作権法が複雑であることで知られており、生成型AIシステムは、作者、類似性、直接的および間接的責任、フェアユース、ライセンスなど、その大きな面に触れている。 これらの問題は、至る所に接続があるため、分離して分析することはできない。 本条では、混乱に秩序をもたらすことを目的とする。 そこで本研究では,学習データ(猫の写真)を世代に変換する相互に相互に相互に相互に相互に連携する,生成型AIサプライチェーンを紹介した。 生成的AIをこれらの構成段階に分解すると、企業やユーザーが著作権上の影響のある選択を行うすべての場所が明らかになる。 これにより、上流の技術的設計が下流の用途に与える影響を追跡でき、複雑な社会技術システムの中で誰が侵害の責任を負うかを評価することができる。 生成的AIの技術に非常に精通しているので、著作権問題にもっと光を当てることができます。 責任を負うべきであり、そうすべきでない人に対して、決定的な答えは与えません。 その代わり、我々は裁判所がこれらの問題に対処しなくてはならない重要な決定を特定し、異なる責任体制から引き起こされる可能性のある結果を示す。

"Does generative AI infringe copyright?" is an urgent question. It is also a difficult question, for two reasons. First, "generative AI" is not just one product from one company. It is a catch-all name for a massive ecosystem of loosely related technologies, including conversational text chatbots like ChatGPT, image generators like Midjourney and DALL-E, coding assistants like GitHub Copilot, and systems that compose music and create videos. These systems behave differently and raise different legal issues. The second problem is that copyright law is notoriously complicated, and generative-AI systems manage to touch on a great many corners of it: authorship, similarity, direct and indirect liability, fair use, and licensing, among much else. These issues cannot be analyzed in isolation, because there are connections everywhere. In this Article, we aim to bring order to the chaos. To do so, we introduce the generative-AI supply chain: an interconnected set of stages that transform training data (millions of pictures of cats) into generations (a new, potentially never-seen-before picture of a cat that has never existed). Breaking down generative AI into these constituent stages reveals all of the places at which companies and users make choices that have copyright consequences. It enables us to trace the effects of upstream technical designs on downstream uses, and to assess who in these complicated sociotechnical systems bears responsibility for infringement when it happens. Because we engage so closely with the technology of generative AI, we are able to shed more light on the copyright questions. We do not give definitive answers as to who should and should not be held liable. Instead, we identify the key decisions that courts will need to make as they grapple with these issues, and point out the consequences that would likely flow from different liability regimes.
翻訳日:2024-03-05 20:32:44 公開日:2024-03-01
# 3QubitエンタングルのA,B,C:すべてを制御するための3ベクトル

A, B, C of Three-Qubit Entanglement: Three Vectors to Control It All ( http://arxiv.org/abs/2309.04621v2 )

ライセンス: Link先を確認
Dmitry B. Uskov and Paul M. Alsing(参考訳) 本稿では,3ビットシステムにおける絡み合い制御の問題に着目する。 su(4) 2量子ビット群のso(6)表現に付随する絡み目のベクトル表現は解析的に様々な制御問題を解決できることを実証する。 i) W型状態とGHZ状態の間の変換 (二)二分コンカーレンス及び三つ方を2つのキュービットのみの限定アクセスで操作すること、及び (iii) usp(4)型四元数演算と量子状態の設計

In this paper we are focusing on entanglement control problem in a three-qubit system. We demonstrate that vector representation of entanglement, associated with SO(6) representation of SU(4) two-qubit group, can be used to solve various control problems analytically including (i) the transformation between a W-type states and GHZ state, and (ii) manipulating bipartite concurrences and three-tangle under a restricted access to only two qubits, and (iii) designing USp(4)-type quaternionic operations and quantum states.
翻訳日:2024-03-05 20:30:37 公開日:2024-03-01
# 強相互作用する局所量子場理論の量子シミュレーションのための効率的な真空状態形成

Efficient vacuum state preparation for quantum simulation of strongly interacting local quantum field theories ( http://arxiv.org/abs/2310.19229v3 )

ライセンス: Link先を確認
Thomas D. Cohen, Hyunwoo Oh(参考訳) 量子コンピュータ上で強相互作用する局所量子場理論の文脈で基底状態を作成するための効率的な手法を提案する。 このアプローチでは、体積の平方根に比例する時間内に真空状態を生成する。 提案手法は,パラメータ空間で適切に定義された経路長とともに資源が線形にスケールするパラメータ空間内の経路をトラバースする新しい手法を利用する。 現実的な制限によるエラーは抑制され、沿道の世俗的な成長は見られない。 最終的な精度は、体積に依存しない付加コストで任意に向上することができ、生成した状態と正確な基底状態との重なりによって対数的に増加する。 本手法は, 量子場理論の領域内だけでなく, 長い経路長を含む他の課題にも適用できる可能性が期待されている。

We present an efficient approach for preparing ground states in the context of strongly interacting local quantum field theories on quantum computers. The approach produces the vacuum state in a time proportional to the square-root of the volume, which is a square-root improvement in speed compared to traditional approaches. The approach exploits a novel method for traversing the path in parameter space in which the resources scale linearly with a path length suitably defined in parameter space. Errors due to practical limitations are controlled and do not exhibit secular growth along the path. The final accuracy can be arbitrarily improved with an additive cost, which is independent of the volume and grows slower than logarithmically with the overlap between the state produced and the exact ground state. We expect that the method could potentially hold practical value not only within the realm of quantum field theories but also in addressing other challenges involving long path lengths.
翻訳日:2024-03-05 20:25:26 公開日:2024-03-01
# 最適輸送によるニューラルネットワークの線形モード接続性証明

Proving Linear Mode Connectivity of Neural Networks via Optimal Transport ( http://arxiv.org/abs/2310.19103v2 )

ライセンス: Link先を確認
Damien Ferbach, Baptiste Goujaud, Gauthier Gidel, Aymeric Dieuleveut(参考訳) 高次元非凸最適化問題のエネルギー展望は、現代のディープニューラルネットワークアーキテクチャの有効性を理解する上で重要である。 最近の研究では、確率的トレーニングの2回の実行後に見つかる2つの異なる解が、しばしば非常に単純な連続経路(例えば、線形)で連結されることが実験的に示されている。 本稿では,この経験的観察を理論的に説明する枠組みを提供する。 経験的尺度のワッサーシュタイン距離の収束率に基づいて,確率勾配勾配で訓練された2層ニューラルネットワークが線形に接続されていることを示す。 さらに,2つのディープニューラルネットワークの各層に,独立したニューロン重みを線形に連結した上層と下層の境界を表現した。 最後に,ワッサースタイン収束率を決定する神経細胞の重み分布の寸法が線形モード接続とどのように相関しているかを示すことにより,本手法の有効性を実証した。

The energy landscape of high-dimensional non-convex optimization problems is crucial to understanding the effectiveness of modern deep neural network architectures. Recent works have experimentally shown that two different solutions found after two runs of a stochastic training are often connected by very simple continuous paths (e.g., linear) modulo a permutation of the weights. In this paper, we provide a framework theoretically explaining this empirical observation. Based on convergence rates in Wasserstein distance of empirical measures, we show that, with high probability, two wide enough two-layer neural networks trained with stochastic gradient descent are linearly connected. Additionally, we express upper and lower bounds on the width of each layer of two deep neural networks with independent neuron weights to be linearly connected. Finally, we empirically demonstrate the validity of our approach by showing how the dimension of the support of the weight distribution of neurons, which dictates Wasserstein convergence rates is correlated with linear mode connectivity.
翻訳日:2024-03-05 20:25:12 公開日:2024-03-01
# SalUn: 画像分類と生成の両方において、グラディエントベースのウェイトサリエンシによる機械学習の強化

SalUn: Empowering Machine Unlearning via Gradient-based Weight Saliency in Both Image Classification and Generation ( http://arxiv.org/abs/2310.12508v4 )

ライセンス: Link先を確認
Chongyu Fan, Jiancheng Liu, Yihua Zhang, Eric Wong, Dennis Wei, Sijia Liu(参考訳) データレギュレーションの進化に伴い、マシンアンラーニング(MU)は、今日のAIモデルの信頼性と安全性を促進する重要なツールとなっている。 しかし、データおよび/またはウェイトパースペクティブに焦点を当てた既存のMUメソッドは、未学習の精度、安定性、ドメイン間の適用性に制限を受けることが多い。 これらの課題に対処するため、モデル説明において、MUの「重み値」の概念を導入し、入力値値と並列性を引き出す。 この革新はMUの注意をモデル全体よりも特定のモデルウェイトに向け、効率と効率を改善します。 saliency unlearning (salun)と呼ぶ結果、パフォーマンスのギャップを"exact"アンラーニング(データポイントを取り除いた後にゼロから再トレーニングする)で狭めます。 私たちの知る限り、SalUnは、画像分類と生成タスクの両方において、データ、クラス、概念を忘れることの影響を効果的に消すことができる最初の原則MUアプローチです。 例えば、SalUnは、CIFAR-10データセットの正確なアンラーニングに比べて0.2%の差で、高分散ランダムデータの忘れにおいて安定性の優位性をもたらす。 さらに、条件付き拡散モデルが有害な画像を生成するのを防ぐために、SalUnは100%近い未学習の精度を達成し、時代遅れの安定拡散やForget-Me-Notのような最先端のベースラインを上回っている。 コードはhttps://github.com/OPTML-Group/Unlearn-Saliencyで入手できる。 (注意:本論文は自然に悪影響を及ぼす可能性のあるモデル出力を含む。)

With evolving data regulations, machine unlearning (MU) has become an important tool for fostering trust and safety in today's AI models. However, existing MU methods focusing on data and/or weight perspectives often suffer limitations in unlearning accuracy, stability, and cross-domain applicability. To address these challenges, we introduce the concept of 'weight saliency' for MU, drawing parallels with input saliency in model explanation. This innovation directs MU's attention toward specific model weights rather than the entire model, improving effectiveness and efficiency. The resultant method that we call saliency unlearning (SalUn) narrows the performance gap with 'exact' unlearning (model retraining from scratch after removing the forgetting data points). To the best of our knowledge, SalUn is the first principled MU approach that can effectively erase the influence of forgetting data, classes, or concepts in both image classification and generation tasks. As highlighted below, For example, SalUn yields a stability advantage in high-variance random data forgetting, e.g., with a 0.2% gap compared to exact unlearning on the CIFAR-10 dataset. Moreover, in preventing conditional diffusion models from generating harmful images, SalUn achieves nearly 100% unlearning accuracy, outperforming current state-of-the-art baselines like Erased Stable Diffusion and Forget-Me-Not. Codes are available at https://github.com/OPTML-Group/Unlearn-Saliency. (WARNING: This paper contains model outputs that may be offensive in nature.)
翻訳日:2024-03-05 20:24:21 公開日:2024-03-01
# 斜め森林を用いたオンライン環境におけるグループフェアネス向上

Enhancing Group Fairness in Online Settings Using Oblique Decision Forests ( http://arxiv.org/abs/2310.11401v2 )

ライセンス: Link先を確認
Somnath Basu Roy Chowdhury, Nicholas Monath, Ahmad Beirami, Rahul Kidambi, Avinava Dubey, Amr Ahmed, Snigdha Chaturvedi(参考訳) 公平性、特にグループ公平性は、機械学習システムのコンテキストにおいて重要な考慮事項である。 最も一般的に採用されているグループフェアネスエンハンシングテクニックは、トレーニングプロセス中にフェアネス目標(例えば、人口比パリティ)とタスク固有の目標(例えば、クロスエントロピー)の混合に依存するインプロセッシング手法である。 しかし、データがオンライン形式で(一度に1つのインスタンス)到着すると、このような公正な目標を最適化することは、いくつかの課題を引き起こします。 特に、グループフェアネスの目標は、異なる人口集団にわたる予測の予測を用いて定義される。 アルゴリズムが一度に1つのインスタンスにアクセスできるオンライン設定では、グループフェアネスの目標を推定するには、追加のストレージと、タスク固有の目標よりもはるかに多くの計算(例えば、前方/後方通過)が必要である。 本稿では,オンライン環境で公平な意思決定を行うために,斜め決定木のアンサンブルであるaranyaniを提案する。 アラニーニの階層木構造はパラメータ分離を可能にし、事前決定の集計統計値を用いて公平度勾配を効率的に計算し、追加ストレージや前方/後方通過の必要性を排除できる。 また,aranyaniを訓練するための効率的な枠組みを提案し,その性質を理論的に解析する。 5つの公開ベンチマーク(ビジョンと言語データセットを含む)で実証的な評価を行い、Aranyaniがベースラインアプローチよりも精度-公正トレードオフが優れていることを示す。

Fairness, especially group fairness, is an important consideration in the context of machine learning systems. The most commonly adopted group fairness-enhancing techniques are in-processing methods that rely on a mixture of a fairness objective (e.g., demographic parity) and a task-specific objective (e.g., cross-entropy) during the training process. However, when data arrives in an online fashion -- one instance at a time -- optimizing such fairness objectives poses several challenges. In particular, group fairness objectives are defined using expectations of predictions across different demographic groups. In the online setting, where the algorithm has access to a single instance at a time, estimating the group fairness objective requires additional storage and significantly more computation (e.g., forward/backward passes) than the task-specific objective at every time step. In this paper, we propose Aranyani, an ensemble of oblique decision trees, to make fair decisions in online settings. The hierarchical tree structure of Aranyani enables parameter isolation and allows us to efficiently compute the fairness gradients using aggregate statistics of previous decisions, eliminating the need for additional storage and forward/backward passes. We also present an efficient framework to train Aranyani and theoretically analyze several of its properties. We conduct empirical evaluations on 5 publicly available benchmarks (including vision and language datasets) to show that Aranyani achieves a better accuracy-fairness trade-off compared to baseline approaches.
翻訳日:2024-03-05 20:23:07 公開日:2024-03-01
# ディープニューラルネットワーク分類器における潜在バイナリエンコーディングの出現

Emergence of Latent Binary Encoding in Deep Neural Network Classifiers ( http://arxiv.org/abs/2310.08224v3 )

ライセンス: Link先を確認
Luigi Sbail\`o and Luca Ghiringhelli(参考訳) ディープニューラルネットワーク分類器の潜在空間におけるバイナリエンコーディングの出現について検討する。 このようなバイナリエンコーディングは、トレーニング中に潜在表現を圧縮するために特別に設計された損失関数を使用する線形垂直層の統合によって誘導される。 圧縮と情報保持のトレードオフの結果、ネットワークは潜伏空間の各次元について2つの可能な値のうちの1つを仮定することを学ぶ。 二進符号化は、同じクラスのすべての表現が、ハイパーキューブの頂点に対応する同じ点に崩壊することで引き起こされ、符号化が生成される。 本稿では,バイナリエンコーディングの出現により,ネットワークのロバスト性,信頼性,精度が著しく向上することを示す。

We investigate the emergence of binary encoding within the latent space of deep-neural-network classifiers. Such binary encoding is induced by the integration of a linear penultimate layer, which employs during training a loss function specifically designed to compress the latent representations. As a result of a trade-off between compression and information retention, the network learns to assume only one of two possible values for each dimension in the latent space. The binary encoding is provoked by the collapse of all representations of the same class to the same point, which corresponds to the vertex of a hypercube, thereby creating the encoding. We demonstrate that the emergence of binary encoding significantly enhances robustness, reliability and accuracy of the network.
翻訳日:2024-03-05 20:22:40 公開日:2024-03-01
# 単一タンジェント空間の誤りを解き明かす:ロボット学習におけるリーマン幾何学の適用分析と解明

Unraveling the Single Tangent Space Fallacy: An Analysis and Clarification for Applying Riemannian Geometry in Robot Learning ( http://arxiv.org/abs/2310.07902v2 )

ライセンス: Link先を確認
No\'emie Jaquier, Leonel Rozo, Tamim Asfour(参考訳) ロボット工学の領域では、多くの下流ロボティクスタスクは、データ処理、モデリング、合成のための機械学習手法を活用する。 このデータは、剛体配向を表す四元数の単位ノルム条件や、剛性およびマニピュラ性エリプシドの正定性など、本質的に幾何学的制約を持つ変数を含むことが多い。 このような幾何学的制約を扱うには、微分幾何学から機械学習手法の定式化へのツールの組み入れが効果的に必要となる。 この文脈において、リーマン多様体はそのような幾何学的制約を扱う強力な数学的枠組みとして現れる。 しかしながら、最近のロボット学習への導入は、主に数学的に定型化された単純化によって特徴づけられ、以下「単一接地空間誤認」と呼ばれる。 このアプローチは単に興味のあるデータを単一の接点(ユークリッド)空間に投影するだけで、そこでは既成の学習アルゴリズムが適用される。 本稿では,このアプローチに関する様々な誤解を理論的に解明し,その欠点を実験的に証明する。 最後に、ロボット学習アプリケーションにリーマン幾何学を採用する際のベストプラクティスを促進するための貴重な洞察を提供する。

In the realm of robotics, numerous downstream robotics tasks leverage machine learning methods for processing, modeling, or synthesizing data. Often, this data comprises variables that inherently carry geometric constraints, such as the unit-norm condition of quaternions representing rigid-body orientations or the positive definiteness of stiffness and manipulability ellipsoids. Handling such geometric constraints effectively requires the incorporation of tools from differential geometry into the formulation of machine learning methods. In this context, Riemannian manifolds emerge as a powerful mathematical framework to handle such geometric constraints. Nevertheless, their recent adoption in robot learning has been largely characterized by a mathematically-flawed simplification, hereinafter referred to as the "single tangent space fallacy". This approach involves merely projecting the data of interest onto a single tangent (Euclidean) space, over which an off-the-shelf learning algorithm is applied. This paper provides a theoretical elucidation of various misconceptions surrounding this approach and offers experimental evidence of its shortcomings. Finally, it presents valuable insights to promote best practices when employing Riemannian geometry within robot learning applications.
翻訳日:2024-03-05 20:22:28 公開日:2024-03-01
# 自由形ロボット設計のための強化学習

Reinforcement learning for freeform robot design ( http://arxiv.org/abs/2310.05670v2 )

ライセンス: Link先を確認
Muhan Li, David Matthews, Sam Kriegman(参考訳) 動物の形態素適応の必要性に触発されて、ロボットの設計の物理的側面を包含するロボットトレーニングの拡大を試みている。 しかし、ロボットの3次元形態を最適化できる強化学習法は、所定の静的なトポロジーの四肢を再配置または再配置するために制限されている。 ここでは,任意の外部構造と内部構造を持つフリーフォームロボットを設計するためのポリシー勾配を示す。 これは原子構成要素の束を沈着または除去し、付加物、器官、空洞のような高レベルの非パラメトリックなマクロ構造を形成する作用によって達成される。 提案手法は開ループ制御にのみ適用されるが,将来的には閉ループ制御やsim2real の物理機械への転送にどのように適用できるかを論じる。

Inspired by the necessity of morphological adaptation in animals, a growing body of work has attempted to expand robot training to encompass physical aspects of a robot's design. However, reinforcement learning methods capable of optimizing the 3D morphology of a robot have been restricted to reorienting or resizing the limbs of a predetermined and static topological genus. Here we show policy gradients for designing freeform robots with arbitrary external and internal structure. This is achieved through actions that deposit or remove bundles of atomic building blocks to form higher-level nonparametric macrostructures such as appendages, organs and cavities. Although results are provided for open loop control only, we discuss how this method could be adapted for closed loop control and sim2real transfer to physical machines in future.
翻訳日:2024-03-05 20:21:12 公開日:2024-03-01
# ALEXR: Convex Finite-Sum Coupled compositional Stochastic Optimizationのための最適単ループアルゴリズム

ALEXR: An Optimal Single-Loop Algorithm for Convex Finite-Sum Coupled Compositional Stochastic Optimization ( http://arxiv.org/abs/2312.02277v3 )

ライセンス: Link先を確認
Bokun Wang and Tianbao Yang(参考訳) 本稿では,群分布的ロバスト最適化(gdro),不均衡データを用いた学習,強化学習,ランク付けへの学習など,多くのアプリケーションを用いた凸有限和結合合成確率最適化(cfcco)の問題を再検討する。 これらの問題を解決するために、ALEXRと呼ばれる効率的な単ループプリマル・デュアルブロック座標近似アルゴリズムを導入する。 このアルゴリズムは、主変数の二重変数および確率的近位勾配降下更新に対するブロック座標確率鏡の上昇更新を利用する。 我々は, ALEXR の凸面および強凸面における収束速度を, 関連関数の滑らかさおよび非平滑性条件下で確立し, これまでの滑らかな CFCCO 問題における最良の速度を改善するだけでなく, GDRO の双対形式のようなより困難な非平滑性問題の解法として cFCCO の領域を拡大する。 最後に, cfcco問題に対する一階ブロック座標確率アルゴリズムにおいて, アレクサの収束率が最適であることを示すために, より低い複雑性境界を示す。

This paper revisits a class of convex Finite-Sum Coupled Compositional Stochastic Optimization (cFCCO) problems with many applications, including group distributionally robust optimization (GDRO), learning with imbalanced data, reinforcement learning, and learning to rank. To better solve these problems, we introduce an efficient single-loop primal-dual block-coordinate proximal algorithm, dubbed ALEXR. This algorithm leverages block-coordinate stochastic mirror ascent updates for the dual variable and stochastic proximal gradient descent updates for the primal variable. We establish the convergence rates of ALEXR in both convex and strongly convex cases under smoothness and non-smoothness conditions of involved functions, which not only improve the best rates in previous works on smooth cFCCO problems but also expand the realm of cFCCO for solving more challenging non-smooth problems such as the dual form of GDRO. Finally, we present lower complexity bounds to demonstrate that the convergence rates of ALEXR are optimal among first-order block-coordinate stochastic algorithms for the considered class of cFCCO problems.
翻訳日:2024-03-05 20:14:23 公開日:2024-03-01
# aria:連合視覚分類におけるアーキテクチャ,初期化,集約手法の相互作用について

ARIA: On the Interaction Between Architectures, Initialization and Aggregation Methods for Federated Visual Classification ( http://arxiv.org/abs/2311.14625v2 )

ライセンス: Link先を確認
Vasilis Siomos, Sergio Naval-Marimont, Jonathan Passerat-Palmbach, Giacomo Tarroni(参考訳) Federated Learning(FL)は、機密データの交換を排除し、クライアントとサーバ間のモデルパラメータの交換に頼ることによって、クロスインスタンスモデルのプライバシー保護学習を可能にする協調トレーニングパラダイムである。 クライアントモデルの集約方法に関する個々の研究や、最近ではimagenet事前トレーニングのメリットについて、フェデレーションが選択したアーキテクチャが持つ効果や、前述の要素が相互に関連している方法についての理解が不足している。 この目的のために,第1回ARchitecture-Initialization-Aggregation研究と,医療画像分類タスクにおけるARIAのベンチマークを行う。 現在のプラクティスとは違って、最高のパフォーマンスを達成するためには、ARIA要素を一緒に選択する必要があります。 また,タスク,正規化レイヤの効果,SSL事前トレーニングの有用性などによって,各要素の適切な選択について,FL固有のアーキテクチャやトレーニングパイプラインを設計するための潜在的な方向性を示唆した。

Federated Learning (FL) is a collaborative training paradigm that allows for privacy-preserving learning of cross-institutional models by eliminating the exchange of sensitive data and instead relying on the exchange of model parameters between the clients and a server. Despite individual studies on how client models are aggregated, and, more recently, on the benefits of ImageNet pre-training, there is a lack of understanding of the effect the architecture chosen for the federation has, and of how the aforementioned elements interconnect. To this end, we conduct the first joint ARchitecture-Initialization-Aggregation study and benchmark ARIAs across a range of medical image classification tasks. We find that, contrary to current practices, ARIA elements have to be chosen together to achieve the best possible performance. Our results also shed light on good choices for each element depending on the task, the effect of normalisation layers, and the utility of SSL pre-training, pointing to potential directions for designing FL-specific architectures and training pipelines.
翻訳日:2024-03-05 20:12:58 公開日:2024-03-01
# ミリケルビン温度に対するペニングトラップにおける二次元イオン結晶の面内運動の高速冷却

Rapid cooling of the in-plane motion of two-dimensional ion crystals in a Penning trap to millikelvin temperatures ( http://arxiv.org/abs/2311.11906v2 )

ライセンス: Link先を確認
Wes Johnson, Athreya Shankar, John Zaris, John Bollinger, and Scott E. Parker(参考訳) ペニングトラップにおける2次元イオン結晶の平面内自由度を高速に冷却する実験的なオーバーヘッドを伴わない高実用技術を提案する。 シミュレーションにより, 面内モードを10ms未満で約1mkの温度まで冷却できることを実証した。この手法は, 低冷却面内動作と効率良く冷却された面外動作の近共振結合に依存しており, 新たなポテンシャルを導入することなく実現している。 レーザ冷却力学のシミュレーションでは、数百ミリ秒の時間スケールでイオン結晶の面内運動が非常にゆっくりと冷却され、実験的な加熱速度よりも遅い可能性が示唆されている。 本研究は、平面運動のサブドップラーレーザー冷却と、ペニングトラップ内の二次元結晶を用いたより堅牢で汎用的な量子シミュレーションおよび量子センシング実験のステージを設定する。

We propose a highly feasible technique with no experimental overhead to rapidly cool the in-plane degrees of freedom of large two-dimensional ion crystals in Penning traps. Through simulations, we demonstrate that our approach enables the in-plane modes to cool down to a temperature of around 1 mK in less than 10 ms. Our technique relies on near-resonant coupling of the poorly cooled in-plane motions and the efficiently cooled out-of-plane motions, and is achieved without introducing additional potentials. The rapid cooling enabled by our approach is in contrast to typical operating conditions, where our simulations of the laser cooling dynamics suggest that the ion crystal's in-plane motion cools very slowly on a timescale of several hundreds of milliseconds, a rate likely slower than experimental heating rates. Our work sets the stage for sub-Doppler laser cooling of the planar motion, and more robust and versatile quantum simulation and quantum sensing experiments with two-dimensional crystals in Penning traps.
翻訳日:2024-03-05 20:12:39 公開日:2024-03-01
# 強結合分子系における分極子の加熱速度

Thermalization rate of polaritons in strongly-coupled molecular systems ( http://arxiv.org/abs/2311.09896v2 )

ライセンス: Link先を確認
Evgeny A. Tereshchenkov, Ivan V. Panyukov, M. Misko, Vladislav Yu. Shishkov, Evgeny S. Andrianov and Anton V. Zasedatelev(参考訳) ポラリトン熱化は、低温の固体半導体マイクロキャビティから室温の分子による表面プラズモンナノキャビティまで、光物質ボース-アインシュタイン凝縮を達成するための重要なプロセスである。 偏光子状態の物質成分に由来する、熱化の顕微鏡機構は特定の材料特性と密接に結びついている。 本研究では, 強結合分子系の偏光子熱化について検討する。 低エネルギー分子振動を持つ電子-フォノン相互作用(エキシトン-振動カップリング)による偏光子熱分解に関する微視的理論を開発した。 本理論は、ストークスシフトやフォトルミネッセンスの温度依存性線幅などの素分子の実験的にアクセス可能なスペクトル特性と、よく知られた光学キャビティのパラメータを併用して、温度依存偏光子熱速度を計算する簡単な解析方法を提案する。 地中および励起状態における非平衡偏光子凝縮に関する最近の実験報告と質的一致を示し,低温で観測される熱分解ボトルネック効果について解説した。 本研究は、偏光子凝縮における振動自由度の重要性を示し、適切な材料システムとキャビティ設計の選択を含む将来の実験に実用的なガイダンスを提供する。

Polariton thermalization is a key process in achieving light-matter Bose--Einstein condensation, spanning from solid-state semiconductor microcavities at cryogenic temperatures to surface plasmon nanocavities with molecules at room temperature. Originated from the matter component of polariton states, the microscopic mechanisms of thermalization are closely tied to specific material properties. In this work, we investigate polariton thermalization in strongly-coupled molecular systems. We develop a microscopic theory addressing polariton thermalization through electron-phonon interactions (known as exciton-vibration coupling) with low-energy molecular vibrations. This theory presents a simple analytical method to calculate the temperature-dependent polariton thermalization rate, utilizing experimentally accessible spectral properties of bare molecules, such as the Stokes shift and temperature-dependent linewidth of photoluminescence, in conjunction with well-known parameters of optical cavities. Our findings demonstrate qualitative agreement with recent experimental reports of nonequilibrium polariton condensation in both ground and excited states, and explain the thermalization bottleneck effect observed at low temperatures. This study showcases the significance of vibrational degrees of freedom in polariton condensation and offers practical guidance for future experiments, including the selection of suitable material systems and cavity designs.
翻訳日:2024-03-05 20:12:21 公開日:2024-03-01
# オープンドメインの手続きをカスタマイズする1つのサイズ

One Size Does Not Fit All: Customizing Open-Domain Procedures ( http://arxiv.org/abs/2311.09510v2 )

ライセンス: Link先を確認
Yash Kumar Lal and Li Zhang and Faeze Brahman and Bodhisattwa Prasad Majumder and Peter Clark and Niket Tandon(参考訳) 庭を植える方法のようなハウツー手順は、今や何百万ものユーザーが使っているが、例えば農薬なしで庭を植えるなど、ユーザーの特定のニーズを満たすためにカスタマイズする必要がある場合もある。 我々のゴールは、このようなカスタマイズを行うLLMの能力の測定と改善です。 我々のアプローチは、カスタマイズに必要な200以上のWikiHowプロシージャのCustomPlansと呼ばれる新しい評価セットを使用して、カスタマイズのためのシンプルなマルチLLMエージェントアーキテクチャとエンドツーエンドのLCMをテストすることである。 2つのLLMエージェントが連続的に使用される単純なアーキテクチャは、一般的なハウツープロシージャを編集するアーキテクチャと、その実行可能性を検証するアーキテクチャとで、エンドツーエンドのLLMを著しく上回る(10.5%)。 このことから, LLM はプロシージャのカスタマイズに合理的に設定可能であることが示唆された。 これはまた、マルチエージェント編集アーキテクチャが将来他のカスタマイズアプリケーション(例えば、コーディング、クリエイティブな書き込み)のためにさらに探究する価値があることを示唆している。

How-to procedures, such as how to plant a garden, are now used by millions of users, but sometimes need customizing to meet a user's specific needs, e.g., planting a garden without pesticides. Our goal is to measure and improve an LLM's ability to perform such customization. Our approach is to test several simple multi-LLM-agent architectures for customization, as well as an end-to-end LLM, using a new evaluation set, called CustomPlans, of over 200 WikiHow procedures each with a customization need. We find that a simple architecture with two LLM agents used sequentially performs best, one that edits a generic how-to procedure and one that verifies its executability, significantly outperforming (10.5% absolute) an end-to-end prompted LLM. This suggests that LLMs can be configured reasonably effectively for procedure customization. This also suggests that multi-agent editing architectures may be worth exploring further for other customization applications (e.g. coding, creative writing) in the future.
翻訳日:2024-03-05 20:11:58 公開日:2024-03-01
# VI-PANN:音声パターン認識における一般化のためのハーネス変換学習と不確かさを考慮した変分推論

VI-PANN: Harnessing Transfer Learning and Uncertainty-Aware Variational Inference for Improved Generalization in Audio Pattern Recognition ( http://arxiv.org/abs/2401.05531v2 )

ライセンス: Link先を確認
John Fischer, Marko Orescanin, Eric Eckstrand(参考訳) トランスファーラーニング(TL)は、ドメインやタスク固有のデータが少ないダウンストリームタスクで使用する多様な大規模データセットの基礎モデルをトレーニングすることによって得られる知識を活用する、ディープラーニング(DL)モデルをトレーニングするアプローチとして、ますます人気が高まっている。 文献はTL技術や応用に富んでいるが、多くの研究は決定論的DLモデルを利用しており、これはしばしば非校正され、予測において疫学(モデル)の不確実性の尺度を伝える能力に欠ける。 決定論的モデルとは異なり、ベイズDL(BDL)モデルはよく校正され、予測のための疫学的不確実性へのアクセスを提供し、競争的な予測性能を達成することができる。 本研究では,変動予測事前学習型音声ニューラルネットワーク(VI-PANN)を提案する。 VI-PANNは、大規模なオーディオイベント検出データセットであるAudioSetで事前トレーニングされている人気のあるResNet-54アーキテクチャの変分推論である。 ESC-50,UrbanSound8K,DCASE2013データセットを用いて,VI-PANNから他の下流音響分類タスクに知識を伝達する際の不確実性の評価を行った。 我々は,上流タスクからの知識とともに校正された不確実性情報を伝達し,下流タスクを実行するモデルの能力を高めることを初めて実証する。

Transfer learning (TL) is an increasingly popular approach to training deep learning (DL) models that leverages the knowledge gained by training a foundation model on diverse, large-scale datasets for use on downstream tasks where less domain- or task-specific data is available. The literature is rich with TL techniques and applications; however, the bulk of the research makes use of deterministic DL models which are often uncalibrated and lack the ability to communicate a measure of epistemic (model) uncertainty in prediction. Unlike their deterministic counterparts, Bayesian DL (BDL) models are often well-calibrated, provide access to epistemic uncertainty for a prediction, and are capable of achieving competitive predictive performance. In this study, we propose variational inference pre-trained audio neural networks (VI-PANNs). VI-PANNs are a variational inference variant of the popular ResNet-54 architecture which are pre-trained on AudioSet, a large-scale audio event detection dataset. We evaluate the quality of the resulting uncertainty when transferring knowledge from VI-PANNs to other downstream acoustic classification tasks using the ESC-50, UrbanSound8K, and DCASE2013 datasets. We demonstrate, for the first time, that it is possible to transfer calibrated uncertainty information along with knowledge from upstream tasks to enhance a model's capability to perform downstream tasks.
翻訳日:2024-03-05 20:04:30 公開日:2024-03-01
# 分割関数と連続最適化によるMessenger RNA設計

Messenger RNA Design via Expected Partition Function and Continuous Optimization ( http://arxiv.org/abs/2401.00037v2 )

ライセンス: Link先を確認
Ning Dai, Wei Yu Tang, Tianshuo Zhou, David H. Mathews, Liang Huang(参考訳) RNAを設計するタスクは離散最適化問題であり、これらの問題のいくつかのバージョンはNPハードである。 一般的な局所探索法に代わるものとして,これらの問題を連続最適化として定式化し,これを「期待分割関数」と呼ぶ古典的分割関数の一般化に基づく最適化のための汎用フレームワークを開発する。 基本的な考え方は、可能な全ての候補列にまたがる分布から始め、目的関数を系列から分布へと拡張することである。 次に,勾配勾配に基づく最適化法を用いて拡張対象関数を改良し,分布は徐々に1つのホットシーケンス(すなわち1つのシーケンス)へと縮小する。 ケーススタディとして,mrna設計の重要な課題として,ワクチンや治療における幅広い応用について考察する。 LinearDesignの最近の研究は、最小自由エネルギー (MFE) のmRNAを効率的に最適化するが、自由エネルギーのアンサンブルの最適化はより困難であり、難易度が高い。 我々のアプローチは、より長いシーケンスでより大きく改善され、アンサンブル自由エネルギーの観点から、リニアデザインソリューションよりも一貫して改善することができる。

The tasks of designing RNAs are discrete optimization problems, and several versions of these problems are NP-hard. As an alternative to commonly used local search methods, we formulate these problems as continuous optimization and develop a general framework for this optimization based on a generalization of classical partition function which we call "expected partition function". The basic idea is to start with a distribution over all possible candidate sequences, and extend the objective function from a sequence to a distribution. We then use gradient descent-based optimization methods to improve the extended objective function, and the distribution will gradually shrink towards a one-hot sequence (i.e., a single sequence). As a case study, we consider the important problem of mRNA design with wide applications in vaccines and therapeutics. While the recent work of LinearDesign can efficiently optimize mRNAs for minimum free energy (MFE), optimizing for ensemble free energy is much harder and likely intractable. Our approach can consistently improve over the LinearDesign solution in terms of ensemble free energy, with bigger improvements on longer sequences.
翻訳日:2024-03-05 20:03:24 公開日:2024-03-01
# 動的および時間に敏感なテスト構築による言語モデル評価におけるデータ汚染対策

LatestEval: Addressing Data Contamination in Language Model Evaluation through Dynamic and Time-Sensitive Test Construction ( http://arxiv.org/abs/2312.12343v3 )

ライセンス: Link先を確認
Yucheng Li, Frank Guerin, Chenghua Lin(参考訳) 超大型で自動クロールコーパスで事前訓練された言語モデルの出現に伴い、評価におけるデータの汚染がますます高まっている。 この問題は、モデル能力と一般化の正確な評価において重大な課題をもたらす。 本稿では,最新のテキストを利用して非汚染読影理解評価を作成する自動手法であるLatestEvalを提案する。 最新Evalは、最近のタイムウインドウで公開されたテキストのみを使用することでデータ汚染を回避し、事前訓練された言語モデルのトレーニングコーパスと重複しないようにする。 最新の自動化パイプラインを開発し 1) 最新のテキストを収集する。 2) キー情報を特定し, 3)既存の回答を文脈から取り除きながら情報を対象とした質問を構築する。 これにより、モデルは単にコピーペーストではなく、残りのコンテキストに基づいて回答を推論する。 実験の結果,従来のベンチマークと対照的に,言語モデルでは無視可能な記憶行動を示し,データ汚染のリスクを著しく低減し,より堅牢な評価につながることが示唆された。 データとコードは、https://github.com/liyucheng09/LatestEval.comで公開されている。

Data contamination in evaluation is getting increasingly prevalent with the emergence of language models pre-trained on super large, automatically crawled corpora. This problem leads to significant challenges in the accurate assessment of model capabilities and generalisations. In this paper, we propose LatestEval, an automatic method that leverages the most recent texts to create uncontaminated reading comprehension evaluations. LatestEval avoids data contamination by only using texts published within a recent time window, ensuring no overlap with the training corpora of pre-trained language models. We develop the LatestEval automated pipeline to 1) gather the latest texts; 2) identify key information, and 3) construct questions targeting the information while removing the existing answers from the context. This encourages models to infer the answers themselves based on the remaining context, rather than just copy-paste. Our experiments demonstrate that language models exhibit negligible memorisation behaviours on LatestEval as opposed to previous benchmarks, suggesting a significantly reduced risk of data contamination and leading to a more robust evaluation. Data and code are publicly available at: https://github.com/liyucheng09/LatestEval.
翻訳日:2024-03-05 20:01:48 公開日:2024-03-01
# Adversarial AutoMixup

Adversarial AutoMixup ( http://arxiv.org/abs/2312.11954v2 )

ライセンス: Link先を確認
Huafeng Qin, Xin Jin, Yun Jiang, Mounim A. El-Yacoubi, Xinbo Gao(参考訳) データ混合強化はディープニューラルネットワークの一般化能力向上に広く応用されている。 近年,ハンドクラフトやサリエンシー情報に基づくミックスアップなどのオフラインデータ混合が,自動混合方式に置き換えられつつある。 2つのサブタスク、すなわち混合サンプル生成と混合分類をエンドツーエンドで最小化することにより、AutoMixは画像分類タスクの精度を大幅に向上する。 しかし,2つのサブタスクに対して最適化の目的が一致しているため,多種多様な混合サンプルの代わりに一貫したタスクを生成する傾向があり,目標タスクトレーニングに過度に適合する。 本稿では,画像分類のための頑健な分類器を訓練するために,画像分類器と混合サンプル生成器を最適化する,逆方向の自動混合処理手法であるAdAutomixupを提案する。 AdAutomixupは2つのモジュール、混合例生成器とターゲット分類器で構成される。 混合サンプル生成装置は, ターゲット分類器に挑戦するために, ハード混合例を生成することを目的としており, ターゲット分類器の目的は, ハード混合例からロバストな特徴を学習し, 一般化を改善することである。 さらに,画像固有の意味の崩壊を防止するために,指数的移動平均(EMA)教師とコサイン類似性を導入し,AdAutomixupをエンドツーエンドにトレーニングする。 7つの画像ベンチマークの大規模な実験は、様々な分類シナリオにおいて、我々のアプローチが技術の状態より優れていることを一貫して証明している。 ソースコードはhttps://github.com/JinXins/Adversarial-AutoMixupで入手できる。

Data mixing augmentation has been widely applied to improve the generalization ability of deep neural networks. Recently, offline data mixing augmentation, e.g. handcrafted and saliency information-based mixup, has been gradually replaced by automatic mixing approaches. Through minimizing two sub-tasks, namely, mixed sample generation and mixup classification in an end-to-end way, AutoMix significantly improves accuracy on image classification tasks. However, as the optimization objective is consistent for the two sub-tasks, this approach is prone to generating consistent instead of diverse mixed samples, which results in overfitting for target task training. In this paper, we propose AdAutomixup, an adversarial automatic mixup augmentation approach that generates challenging samples to train a robust classifier for image classification, by alternatively optimizing the classifier and the mixup sample generator. AdAutomixup comprises two modules, a mixed example generator, and a target classifier. The mixed sample generator aims to produce hard mixed examples to challenge the target classifier, while the target classifier's aim is to learn robust features from hard mixed examples to improve generalization. To prevent the collapse of the inherent meanings of images, we further introduce an exponential moving average (EMA) teacher and cosine similarity to train AdAutomixup in an end-to-end way. Extensive experiments on seven image benchmarks consistently prove that our approach outperforms the state of the art in various classification scenarios. The source code is available at https://github.com/JinXins/Adversarial-AutoMixup.
翻訳日:2024-03-05 20:01:30 公開日:2024-03-01
# chaosbench: 季節-季節間気候予測のためのマルチチャネル物理ベースのベンチマーク

ChaosBench: A Multi-Channel, Physics-Based Benchmark for Subseasonal-to-Seasonal Climate Prediction ( http://arxiv.org/abs/2402.00712v2 )

ライセンス: Link先を確認
Juan Nathaniel, Yongquan Qu, Tung Nguyen, Sungduk Yu, Julius Busecke, Aditya Grover, Pierre Gentine(参考訳) 季節-季節スケールの正確な気候予測は、災害の準備、経済リスクの低減、気候変動に伴う政策決定の改善に不可欠である。 しかし,そのようなシステムのカオス性からs2sの予測は依然として困難である。 現在、気象・気候に関する既存のベンチマークでは、(1)予測範囲が最大14日、(2)運用ベースライン予測が広範囲に含まれておらず、(3)説明可能性に関する物理ベースの制約が欠如している傾向にある。 そこで我々は,S2S予測のための大規模マルチチャネル物理ベースのベンチマークChaosBenchを提案する。 chaosbenchには460万フレーム以上の実世界の観測とシミュレーションがあり、それぞれ60の可変チャネルと最大45年のスパンがある。 また、より物理的に一貫性のあるモデルを可能にするビジョンベースのメトリクスに加えて、物理に基づくいくつかのメトリクスを提案する。 さらに,4つの気象庁の物理ベースの予測を,データ駆動型気象庁のベースラインとして多種多様に含む。 複雑性の異なる2つのタスク、フルとスパースダイナミクスの予測を確立します。 私たちのベンチマークは、panguweather、fourcastnetv2、graphcast、climaxなど既存のモデルで大規模評価を行った最初の例の1つで、もともとs2sタスクでは、気象スケールアプリケーション用に開発された手法が失敗することを発見しました。 私たちはベンチマークコードとデータセットをhttps://leap-stc.github.io/chaosbenchでリリースします。

Accurate prediction of climate in the subseasonal-to-seasonal scale is crucial for disaster readiness, reduced economic risk, and improved policy-making amidst climate change. Yet, S2S prediction remains challenging due to the chaotic nature of such system. At present, existing benchmarks for weather and climate applications, tend to (1) have shorter forecasting range of up-to 14 days, (2) do not include a wide range of operational baseline forecasts, and (3) lack physics-based constraints for explainability. Thus, we propose ChaosBench, a large-scale, multi-channel, physics-based benchmark for S2S prediction. ChaosBench has over 460K frames of real-world observations and simulations, each with 60 variable-channels and spanning for up-to 45 years. We also propose several physics-based, in addition to vision-based metrics, that enables for a more physically-consistent model. Furthermore, we include a diverse set of physics-based forecasts from 4 national weather agencies as baselines to our data-driven counterpart. We establish two tasks that vary in complexity: full and sparse dynamics prediction. Our benchmark is one of the first to perform large-scale evaluation on existing models including PanguWeather, FourCastNetV2, GraphCast, and ClimaX, and finds methods originally developed for weather-scale applications fails on S2S task: they perform much worse than just simply taking the long-term climatological averages. We release our benchmark code and datasets at https://leap-stc.github.io/ChaosBench.
翻訳日:2024-03-05 19:55:08 公開日:2024-03-01
# シュレーディンガーの波動力学における波動関数の崩壊

Collapse of wave functions in Schroedinger's wave mechanics ( http://arxiv.org/abs/2401.15110v2 )

ライセンス: Link先を確認
Rainer Dick(参考訳) 非弾性散乱はシュレーディンガー方程式を通じて標準発展における波動関数の崩壊をもたらすが、弾性散乱は波動関数を崩壊させることはない。 具体的には、非弾性散乱における創発波関数の初期幅は、主に散乱中心の大きさによって決定されるが、入射波関数の幅によっては決定されない。 これは、非弾性散乱による波動関数の動的崩壊と、束縛量子系におけるエネルギー量子化は、生まれた規則を起こさなくても粒子のような信号の出現を説明できることを意味する。

We show that inelastic scattering leads to a collapse of the wave function within standard evolution through the Schroedinger equation, whereas elastic scattering will not collapse the wave function. Specifically, we find that the initial width of the emerging wave function in inelastic scattering is primarily determined by the size of the participating scattering center, but not by the width of the incoming wave function. This implies that dynamical collapse of the wave function through inelastic scattering, together with energy quantization in bound quantum systems, can explain the emergence of particle-like signals without the need to invoke the Born rule.
翻訳日:2024-03-05 19:53:29 公開日:2024-03-01
# CFMatch: オープンドメイン質問応答のための専門家判断による回答等価性の自動評価

CFMatch: Aligning Automated Answer Equivalence Evaluation with Expert Judgments For Open-Domain Question Answering ( http://arxiv.org/abs/2401.13170v3 )

ライセンス: Link先を確認
Zongxia Li, Ishani Mondal, Yijun Liang, Huy Nghiem, and Jordan Boyd-Graber(参考訳) 質問応答(qa)は、答えが正しいかどうかを知った場合にのみ進行するが、最も挑戦的で興味深いqa例の多くでは、回答等価性(ae)を決定する現在の評価指標は、人間の判断、特に大規模言語モデル(llm)からのより冗長で自由形式の回答と一致しないことが多い。 データの欠如とモデルが大きすぎるという2つの課題がある: LLMベースのスコアラは人間の判断とよりよく相関できるが、このタスクは限定的なQAデータセットでのみテストされている。 プロの人間QAコンテストから採用したマシンQAにおいて、AEを評価するための明確で一貫したガイドラインを提供することで、これらの問題を是正する。 また,標準評価と,より効率的で堅牢で軽量な識別型AE分類器ベースのマッチング手法(CFMatch, 1MB未満)の組み合わせを導入し,人間の判断に適合した専門家によるAE規則に従って,回答の正確性をより正確に評価する。

Question answering (QA) can only make progress if we know if an answer is correct, but for many of the most challenging and interesting QA examples, current evaluation metrics to determine answer equivalence (AE) often do not align with human judgments, particularly more verbose, free-form answers from large language models (LLM). There are two challenges: a lack of data and that models are too big: LLM-based scorers can correlate better with human judges, but this task has only been tested on limited QA datasets, and even when available, update of the model is limited because LLMs are large and often expensive. We rectify both of these issues by providing clear and consistent guidelines for evaluating AE in machine QA adopted from professional human QA contests. We also introduce a combination of standard evaluation and a more efficient, robust, and lightweight discriminate AE classifier-based matching method (CFMatch, smaller than 1 MB), trained and validated to more accurately evaluate answer correctness in accordance with adopted expert AE rules that are more aligned with human judgments.
翻訳日:2024-03-05 19:53:19 公開日:2024-03-01
# 実用的なデータ駆動ツールによるアグリゲータの強化: 要求応答に対するアグリゲータと非アグリゲータの柔軟性

Empowering Aggregators with Practical Data-Driven Tools: Harnessing Aggregated and Disaggregated Flexibility for Demand Response ( http://arxiv.org/abs/2401.10726v2 )

ライセンス: Link先を確認
Costas Mylonas, Donata Boric, Leila Luttenberger Maric, Alexandros Tsitsanis, Eleftheria Petrianou, Magda Foti(参考訳) 本研究は, 再生可能エネルギー源(RES)が提示する不確実性の中で, 強固な脱炭化とエネルギーシステムのレジリエンスの強化に重点を置いて, 需要応答(DR)プログラムを通じて, フレキシビリティを活性化する上で, 集合体と集合体との間の重要な相互作用を探求するものである。 まず,データ制限のある環境において,離散フーリエ変換 (dft) とクラスタリング技術を用いて作業者の活動パターンを識別し,集約された柔軟性提供戦略を最適化する手法を提案する。 第2に、DRイベント中の暖房換気・空調システム(HVAC)の非凝集フレキシビリティ・プロビジョニングを評価し、正確なデバイスレベルの分析に機械学習と最適化技術を用いる。 第1のアプローチは、アグリゲータが建物全体の消費のために単一のスマートメータの環境で柔軟性を提供するための非意図的な経路を提供し、第2のアプローチは、居住者の温熱的快適性プロファイルの構築を慎重に検討すると同時に、hvacシステムに専用のスマートメータが存在する場合の柔軟性を最大化する。 本稿は,データ駆動技術の適用と,産業・住宅双方の事例研究を通じて,バランスと新興市場におけるアグリゲータの重要な機会を明らかにしただけでなく,アグリゲータのエンド・ツー・エンドの実践ツールの開発にも成功している。 さらに、このツールの有効性は、詳細なケーススタディを通じて検証され、その運用能力を実証し、レジリエントで効率的なエネルギーシステムの進化に寄与する。

This study explores the crucial interplay between aggregators and building occupants in activating flexibility through Demand Response (DR) programs, with a keen focus on achieving robust decarbonization and fortifying the resilience of the energy system amidst the uncertainties presented by Renewable Energy Sources (RES). Firstly, it introduces a methodology of optimizing aggregated flexibility provision strategies in environments with limited data, utilizing Discrete Fourier Transformation (DFT) and clustering techniques to identify building occupant's activity patterns. Secondly, the study assesses the disaggregated flexibility provision of Heating Ventilation and Air Conditioning (HVAC) systems during DR events, employing machine learning and optimization techniques for precise, device-level analysis. The first approach offers a non-intrusive pathway for aggregators to provide flexibility services in environments of a single smart meter for the whole building's consumption, while the second approach carefully considers building occupants' thermal comfort profiles, while maximizing flexibility in case of existence of dedicated smart meters to the HVAC systems. Through the application of data-driven techniques and encompassing case studies from both industrial and residential buildings, this paper not only unveils pivotal opportunities for aggregators in the balancing and emerging flexibility markets but also successfully develops end-to-end practical tools for aggregators. Furthermore, the efficacy of this tool is validated through detailed case studies, substantiating its operational capability and contributing to the evolution of a resilient and efficient energy system.
翻訳日:2024-03-05 19:51:41 公開日:2024-03-01
# PIP-Net: 野生における歩行者の意図予測

PIP-Net: Pedestrian Intention Prediction in the Wild ( http://arxiv.org/abs/2402.12810v2 )

ライセンス: Link先を確認
Mohsen Azarmi, Mahdi Rezaei, He Wang, Sebastien Glaser(参考訳) 自律走行車(AV)による正確な歩行者意図予測(PIP)はこの分野で現在進行中の研究課題の一つである。 本稿では,現実の都市シナリオにおけるAVによる歩行者横断意図の予測を目的とした新しいフレームワークであるPIP-Netを紹介する。 異なるカメラマウントとセットアップ用に設計された2種類のPIP-Netを提供する。 運転シーンからの運動データと空間的特徴の両方を活用し,提案手法は反復的および時間的注意に基づくソリューションを採用し,最先端性能を上回っている。 道路利用者の視覚的表現とエゴ車との近接性を高めるため,局所的な動き流特徴と組み合わせたカテゴリー的深度特徴マップを導入し,シーンの動態について深い洞察を提供する。 さらに,エゴ車を取り巻くカメラ1台から3台まで,カメラの視野を広げることによる影響について検討し,モデルの文脈的知覚の向上につながる。 交通シナリオや道路環境によっては、歩行者の横断意図を4秒前まで予測することが優れており、現在の歩行者意図予測研究における画期的な研究である。 最後に,実世界の自動運転シナリオにおいて,マルチカメラアノテーションを用いた歩行者意図予測データセットであるurban-pipデータセットを初めて紹介する。

Accurate pedestrian intention prediction (PIP) by Autonomous Vehicles (AVs) is one of the current research challenges in this field. In this article, we introduce PIP-Net, a novel framework designed to predict pedestrian crossing intentions by AVs in real-world urban scenarios. We offer two variants of PIP-Net designed for different camera mounts and setups. Leveraging both kinematic data and spatial features from the driving scene, the proposed model employs a recurrent and temporal attention-based solution, outperforming state-of-the-art performance. To enhance the visual representation of road users and their proximity to the ego vehicle, we introduce a categorical depth feature map, combined with a local motion flow feature, providing rich insights into the scene dynamics. Additionally, we explore the impact of expanding the camera's field of view, from one to three cameras surrounding the ego vehicle, leading to enhancement in the model's contextual perception. Depending on the traffic scenario and road environment, the model excels in predicting pedestrian crossing intentions up to 4 seconds in advance which is a breakthrough in current research studies in pedestrian intention prediction. Finally, for the first time, we present the Urban-PIP dataset, a customised pedestrian intention prediction dataset, with multi-camera annotations in real-world automated driving scenarios.
翻訳日:2024-03-05 19:44:53 公開日:2024-03-01
# 深部畳み込みニューラルネットワークを用いた顕微鏡画像からの活性汚泥沈降特性の予測と伝達学習

Prediction of Activated Sludge Settling Characteristics from Microscopy Images with Deep Convolutional Neural Networks and Transfer Learning ( http://arxiv.org/abs/2402.09367v2 )

ライセンス: Link先を確認
Sina Borzooei, Leonardo Scabini, Gisele Miranda, Saba Daneshgar, Lukas Deblieck, Piet De Langhe, Odemir Bruno, Bernard De Baets, Ingmar Nopens, Elena Torfs(参考訳) 微生物群集は生物排水処理プロセスにおいて重要な役割を果たしている。 例えば, 活性汚泥沈降特性は, 微生物群集組成の影響を受け, 運転条件の変化と排水処理プラント(WWTP)の流動特性に左右される。 フィラメントバルクリング(fb)などの沈着問題につながる微生物組成の変化のタイムリーな評価と予測は、運用上の課題、治療効率の低下、環境影響の悪影響を防ぐことができる。 本研究では, 顕微鏡画像におけるフロックとフィラメントの形態特性に基づいて, 活性汚泥沈降特性を評価するための革新的なコンピュータビジョンに基づくアプローチを提案する。 深層畳み込みニューラルネットワーク(CNN)モデルの伝達学習の実装により,既存の定量的画像解析技術の限界を克服することを目的とした。 オフラインの顕微鏡画像データセットは2年間にわたって収集され、ベルギーのフルスケールのWWTPで毎週サンプリングされた。 cnnモデルの一般化性を高めるために複数のデータ拡張技術が採用された。 Inception v3, ResNet18, ResNet152, ConvNeXt-nano, ConvNeXt-S などのCNNアーキテクチャを用いて, 汚泥沈降特性の評価を行った。 スラッジ容積指数は最終予測変数として用いられたが、他の任意の定位指標を予測するために容易に調整できる。 その結果、提案したCNNベースのアプローチは、労働集約的、客観的、一貫した評価を減らし、トランスファーラーニングはトレーニングフェーズを特に小さくし、その結果、リアルタイムアプリケーションに適用可能な一般化可能なシステムとなった。

Microbial communities play a key role in biological wastewater treatment processes. Activated sludge settling characteristics, for example, are affected by microbial community composition, varying by changes in operating conditions and influent characteristics of wastewater treatment plants (WWTPs). Timely assessment and prediction of changes in microbial composition leading to settling problems, such as filamentous bulking (FB), can prevent operational challenges, reductions in treatment efficiency, and adverse environmental impacts. This study presents an innovative computer vision-based approach to assess activated sludge-settling characteristics based on the morphological properties of flocs and filaments in microscopy images. Implementing the transfer learning of deep convolutional neural network (CNN) models, this approach aims to overcome the limitations of existing quantitative image analysis techniques. The offline microscopy image dataset was collected over two years, with weekly sampling at a full-scale industrial WWTP in Belgium. Multiple data augmentation techniques were employed to enhance the generalizability of the CNN models. Various CNN architectures, including Inception v3, ResNet18, ResNet152, ConvNeXt-nano, and ConvNeXt-S, were tested to evaluate their performance in predicting sludge settling characteristics. The sludge volume index was used as the final prediction variable, but the method can easily be adjusted to predict any other settling metric of choice. The results showed that the suggested CNN-based approach provides less labour-intensive, objective, and consistent assessments, while transfer learning notably minimises the training phase, resulting in a generalizable system that can be employed in real-time applications.
翻訳日:2024-03-05 19:43:31 公開日:2024-03-01
# DoRA:重量分解低ランク適応

DoRA: Weight-Decomposed Low-Rank Adaptation ( http://arxiv.org/abs/2402.09353v2 )

ライセンス: Link先を確認
Shih-Yang Liu, Chien-Yi Wang, Hongxu Yin, Pavlo Molchanov, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Min-Hung Chen(参考訳) 広く使われているパラメータ効率ファインタニング(PEFT)法の中で、LoRAとその変種は追加の推論コストを避けるためにかなりの人気を得ている。 しかし、これらの手法とフル微調整(FT)の間には精度のギャップがまだ残っている。 本稿では,FTとLoRAの相違点を明らかにするために,新しい重量分解解析法を提案する。 本研究は,FTの学習能力に類似して,重み分解型低ランク適応(DoRA)を提案する。 DoRAは、トレーニング済みの重量を2つのコンポーネント、マグニチュードと方向に分解して微調整し、特に、トレーニング可能なパラメータの数を効率的に最小化するために、方向更新にLoRAを使用している。 DoRAを用いることで、LoRAの学習能力とトレーニング安定性を向上するとともに、追加の推論オーバーヘッドを回避できる。 DoRAは、LLaMA、LLaVA、VL-BARTなどの様々な下流タスク、例えばコモンセンス推論、ビジュアルインストラクションチューニング、画像/ビデオテキスト理解において、LoRAよりも一貫して優れている。

Among the widely used parameter-efficient finetuning (PEFT) methods, LoRA and its variants have gained considerable popularity because of avoiding additional inference costs. However, there still often exists an accuracy gap between these methods and full fine-tuning (FT). In this work, we first introduce a novel weight decomposition analysis to investigate the inherent differences between FT and LoRA. Aiming to resemble the learning capacity of FT from the findings, we propose Weight-Decomposed LowRank Adaptation (DoRA). DoRA decomposes the pre-trained weight into two components, magnitude and direction, for fine-tuning, specifically employing LoRA for directional updates to efficiently minimize the number of trainable parameters. By employing DoRA, we enhance both the learning capacity and training stability of LoRA while avoiding any additional inference overhead. DoRA consistently outperforms LoRA on fine-tuning LLaMA, LLaVA, and VL-BART on various downstream tasks, such as commonsense reasoning, visual instruction tuning, and image/video-text understanding.
翻訳日:2024-03-05 19:43:01 公開日:2024-03-01
# 二次リンドブラジアンの線形および非線形応答

Linear and Non-Linear Response of Quadratic Lindbladians ( http://arxiv.org/abs/2402.06593v2 )

ライセンス: Link先を確認
Spenser Talkington, Martin Claassen(参考訳) 擬似リンドブレディアンは、新しいエキゾチック物理学をホストすると予測された、散逸性電子量子系とボソニック量子系の豊富なクラスを含んでいる。 本研究では,有限周波線形および非線形プローブによる定常応答特性と散逸相転移を解明するオープン量子システムのためのlindblad-keldysh分光応答形式を開発した。 例として、(1)境界駆動xyモデルの臨界付近における密度および動的スピン感受性、(2)散逸性リードに結合したベルナル二層グラフェンの線形および非線形光学応答、(3)ボソニック光学格子における定常状態感受性を計算する。 XYモデルスピン密度波長は、臨界指数1/2で分散し、基礎となるスピン密度波列から発する動的スピン応答にはギャップのない分散モードがあり、また、境界散逸器がバルクに弱くなるため、弱および超強散逸限界の分散モードは顕著な対応を示す。 ベルナル二層膜の光学的応答において, 占有の増加に伴って反磁性応答が減少する可能性があることを, 職業に対して単調に増大する閉系と異なり, 第二高調波発生とシフト電流の影響について検討し, 遠心対称閉系において禁止されたこれらの応答が散逸によってこれらの開系に現れることを見出した。 この形式を平衡系と比較し、これらの非相互作用開系と強く相互作用する閉系との類似性を引き出す。

Quadratic Lindbladians encompass a rich class of dissipative electronic and bosonic quantum systems, which have been predicted to host new and exotic physics. In this study, we develop a Lindblad-Keldysh spectroscopic response formalism for open quantum systems that elucidates their steady-state response properties and dissipative phase transitions via finite-frequency linear and non-linear probes. As illustrative examples, we utilize this formalism to calculate the (1) density and dynamic spin susceptibilities of a boundary driven XY model at and near criticality, (2) linear and non-linear optical responses in Bernal bilayer graphene coupled to dissipative leads, and (3) steady state susceptibilities in a bosonic optical lattice. We find that the XY model spin density wavelength diverges with critical exponent 1/2, and there are gapless dispersive modes in the dynamic spin response that originate from the underlying spin density wave order; additionally the dispersing modes of the weak and ultra-strong dissipation limits exhibit a striking correspondence since the boundary dissipators couple only weakly to the bulk in both cases. In the optical response of the Bernal bilayer, we find that the diamagnetic response can decrease with increasing occupation, as opposed to in closed systems where the response increases monotonically with occupation; we study the effect of second harmonic generation and shift current and find that these responses, forbidden in centrosymmetric closed systems, can manifest in these open systems as a result of dissipation. We compare this formalism to its equilibrium counterpart and draw analogies between these non-interacting open systems and strongly interacting closed systems.
翻訳日:2024-03-05 19:41:53 公開日:2024-03-01
# 統計的学習のための確率モデルと近似モデル

Certain and Approximately Certain Models for Statistical Learning ( http://arxiv.org/abs/2402.17926v2 )

ライセンス: Link先を確認
Cheng Zhen, Nischal Aryal, Arash Termehchy, Alireza Aghasi, Amandeep Singh Chabada(参考訳) 現実世界のデータはしばしば不完全であり、値が不足している。 実世界のデータセット上で正確なモデルをトレーニングするには、ユーザーは膨大な時間とリソースを投入し、欠落したデータアイテムの適切な値を見つける必要がある。 本稿では,特定のトレーニングデータや対象モデルに対して,不足値を持つデータから直接正確なモデルを学習できることを実証する。 本稿では,様々な機械学習パラダイムにまたがって,正確なモデルを学ぶためのデータインプテーションの必要性をチェックするための統一的アプローチを提案する。 この必要性を理論的に保証した効率的なアルゴリズムを構築し、インプテーションが不要な場合に正確なモデルを返す。 実験の結果,提案アルゴリズムは計算オーバーヘッドを伴わずに,データ計算に要する時間と労力を大幅に削減できることがわかった。

Real-world data is often incomplete and contains missing values. To train accurate models over real-world datasets, users need to spend a substantial amount of time and resources imputing and finding proper values for missing data items. In this paper, we demonstrate that it is possible to learn accurate models directly from data with missing values for certain training data and target models. We propose a unified approach for checking the necessity of data imputation to learn accurate models across various widely-used machine learning paradigms. We build efficient algorithms with theoretical guarantees to check this necessity and return accurate models in cases where imputation is unnecessary. Our extensive experiments indicate that our proposed algorithms significantly reduce the amount of time and effort needed for data imputation without imposing considerable computational overhead.
翻訳日:2024-03-05 19:35:57 公開日:2024-03-01
# 生成モデル評価の向上:OCRシステムにおける実写画像合成と比較のための新しいアルゴリズム

Advancing Generative Model Evaluation: A Novel Algorithm for Realistic Image Synthesis and Comparison in OCR System ( http://arxiv.org/abs/2402.17204v3 )

ライセンス: Link先を確認
Majid Memari, Khaled R. Ahmed, Shahram Rahimi, Noorbakhsh Amiri Golilarz(参考訳) 本研究は、生成モデル分野における重要な課題、特に合成画像の生成と評価について論じる。 生成モデルの固有の複雑さとそれらの比較のための標準化された手順の欠如を考えると、本研究は合成画像のリアリズムを客観的に評価するための先駆的アルゴリズムを提案する。 このアプローチは、Fr'echet Inception Distance(FID)スコアを精細化し、画像品質をより正確かつ主観的に評価することで、評価手法を大幅に強化する。 このアルゴリズムは,画像生成における現実主義の主観的性質から,従来ほとんど不可能であったアラビア文字の現実的画像の生成と評価の課題に対処するために,特に調整されている。 体系的かつ客観的なフレームワークを提供することにより, 異なる生成モデルの比較を可能にするだけでなく, 設計と出力の改善への道を開く。 この評価と比較のブレークスルーは、OCRの分野、特に特異な複雑さを示すスクリプトの進歩に不可欠であり、高品質な合成画像の生成と評価において新しい標準を設定している。

This research addresses a critical challenge in the field of generative models, particularly in the generation and evaluation of synthetic images. Given the inherent complexity of generative models and the absence of a standardized procedure for their comparison, our study introduces a pioneering algorithm to objectively assess the realism of synthetic images. This approach significantly enhances the evaluation methodology by refining the Fr\'echet Inception Distance (FID) score, allowing for a more precise and subjective assessment of image quality. Our algorithm is particularly tailored to address the challenges in generating and evaluating realistic images of Arabic handwritten digits, a task that has traditionally been near-impossible due to the subjective nature of realism in image generation. By providing a systematic and objective framework, our method not only enables the comparison of different generative models but also paves the way for improvements in their design and output. This breakthrough in evaluation and comparison is crucial for advancing the field of OCR, especially for scripts that present unique complexities, and sets a new standard in the generation and assessment of high-quality synthetic images.
翻訳日:2024-03-05 19:34:32 公開日:2024-03-01
# Latent Transparency を用いた透過層拡散

Transparent Image Layer Diffusion using Latent Transparency ( http://arxiv.org/abs/2402.17113v3 )

ライセンス: Link先を確認
Lvmin Zhang, Maneesh Agrawala(参考訳) 本稿では,大規模な事前学習型潜伏拡散モデルを用いて透過的な画像を生成する手法であるLayerDiffuseを提案する。 単一の透明な画像や複数の透明な層を生成することができる。 この方法は、事前訓練された潜在拡散モデルの潜在多様体にアルファチャネルの透明性を符号化する「相対透過性」を学習する。 事前訓練されたモデルの本来の潜伏分布に最小限の変更を加えて、付加された透明性を潜伏オフセットとして調節することにより、大規模な拡散モデルの生産可能な品質を維持する。 このようにして、任意の潜在拡散モデルは、調整された潜在空間で微調整することで透明な画像生成器に変換できる。 我々は,1mの透明な画像層ペアを用いて,ループ内人間収集方式を用いてモデルを訓練する。 異なるオープンソースイメージジェネレータに適用したり,様々な条件制御システムに適用して,フォアグラウンド/バックグラウンドコンディショニング層生成,ジョイント層生成,レイヤコンテンツの構造制御などを実現することができる。 ユーザ調査によると、ほとんどのケース(97%)のユーザは、生成やマッチングといった従来のアドホックなソリューションよりも、ネイティブに生成された透明なコンテンツを好む。 ユーザが生成した透明な画像の品質は、Adobe Stockのような本物の商用透明な資産に匹敵する。

We present LayerDiffuse, an approach enabling large-scale pretrained latent diffusion models to generate transparent images. The method allows generation of single transparent images or of multiple transparent layers. The method learns a "latent transparency" that encodes alpha channel transparency into the latent manifold of a pretrained latent diffusion model. It preserves the production-ready quality of the large diffusion model by regulating the added transparency as a latent offset with minimal changes to the original latent distribution of the pretrained model. In this way, any latent diffusion model can be converted into a transparent image generator by finetuning it with the adjusted latent space. We train the model with 1M transparent image layer pairs collected using a human-in-the-loop collection scheme. We show that latent transparency can be applied to different open source image generators, or be adapted to various conditional control systems to achieve applications like foreground/background-conditioned layer generation, joint layer generation, structural control of layer contents, etc. A user study finds that in most cases (97%) users prefer our natively generated transparent content over previous ad-hoc solutions such as generating and then matting. Users also report the quality of our generated transparent images is comparable to real commercial transparent assets like Adobe Stock.
翻訳日:2024-03-05 19:34:12 公開日:2024-03-01
# cyberdemo:現実世界のデクスタース操作をシミュレーションした人間のデモを増強する

CyberDemo: Augmenting Simulated Human Demonstration for Real-World Dexterous Manipulation ( http://arxiv.org/abs/2402.14795v2 )

ライセンス: Link先を確認
Jun Wang, Yuzhe Qin, Kaiming Kuang, Yigit Korkmaz, Akhilan Gurumoorthy, Hao Su, Xiaolong Wang(参考訳) 我々は,ロボット模倣学習への新しいアプローチであるcyberdemoを紹介する。 シミュレーション環境に広範なデータ拡張を組み込むことで、サイバーデモは、現実世界に転送された時の従来のドメイン内実世界のデモンストレーションを上回り、様々な物理的および視覚的な状況を処理する。 データ収集の可利用性や利便性に関わらず、CyberDemoは、さまざまなタスクにおける成功率の観点からベースラインメソッドを上回り、これまで目に見えないオブジェクトで一般化性を示す。 例えば、新しいテトラバルブとペンタバルブを回転させることができる。 本研究は,実世界のデクスタース操作タスクにおけるシミュレーションによる人間の実演の有意な可能性を示す。 詳細はhttps://cyber-demo.github.ioで確認できる。

We introduce CyberDemo, a novel approach to robotic imitation learning that leverages simulated human demonstrations for real-world tasks. By incorporating extensive data augmentation in a simulated environment, CyberDemo outperforms traditional in-domain real-world demonstrations when transferred to the real world, handling diverse physical and visual conditions. Regardless of its affordability and convenience in data collection, CyberDemo outperforms baseline methods in terms of success rates across various tasks and exhibits generalizability with previously unseen objects. For example, it can rotate novel tetra-valve and penta-valve, despite human demonstrations only involving tri-valves. Our research demonstrates the significant potential of simulated human demonstrations for real-world dexterous manipulation tasks. More details can be found at https://cyber-demo.github.io
翻訳日:2024-03-05 19:32:39 公開日:2024-03-01
# amplified amplitude estimation: 事前知識を活用して期待値の推定を改善する

Amplified Amplitude Estimation: Exploiting Prior Knowledge to Improve Estimates of Expectation Values ( http://arxiv.org/abs/2402.14791v2 )

ライセンス: Link先を確認
Sophia Simon, Matthias Degroote, Nikolaj Moll, Raffaele Santagati, Michael Streif, Nathan Wiebe(参考訳) 量子コンピュータ上での学習プロセスを高速化するために、事前知識を活用できるオペレータの期待値を推定する方法を提供する。 具体的には、プリオリティが$o(\epsilon)$であるような期待値を持つプロジェクタの簡潔な和として表現できる演算子があると仮定する。 この場合、演算子全体の期待値は、$o(1/\sqrt{\epsilon})$とスケールする多くの量子演算を使用して、エラー$\epsilon$で見積もることができる。 次に、量子化学応用におけるポテンシャルエネルギー面の学習コストを、近傍の点におけるエネルギーから得られる情報を利用して削減する方法を示す。 さらに,newton-cotes法を用いて,先行知識を用いて推定できる導関数の統合により,これらのアイデアをどのように活用してエネルギーを学習するかを示す。 これにより、方向微分作用素のブロックエンコーディングがシステムのハミルトニアンよりも小さい正規化定数を持つ場合、エネルギー推定のコストを削減できる。

We provide a method for estimating the expectation value of an operator that can utilize prior knowledge to accelerate the learning process on a quantum computer. Specifically, suppose we have an operator that can be expressed as a concise sum of projectors whose expectation values we know a priori to be $O(\epsilon)$. In that case, we can estimate the expectation value of the entire operator within error $\epsilon$ using a number of quantum operations that scales as $O(1/\sqrt{\epsilon})$. We then show how this can be used to reduce the cost of learning a potential energy surface in quantum chemistry applications by exploiting information gained from the energy at nearby points. Furthermore, we show, using Newton-Cotes methods, how these ideas can be exploited to learn the energy via integration of derivatives that we can estimate using a priori knowledge. This allows us to reduce the cost of energy estimation if the block-encodings of directional derivative operators have a smaller normalization constant than the Hamiltonian of the system.
翻訳日:2024-03-05 19:32:23 公開日:2024-03-01
# 牛を角から離す:ハードサンプル強調連続訓練はllm一般化を改善する

Take the Bull by the Horns: Hard Sample-Reweighted Continual Training Improves LLM Generalization ( http://arxiv.org/abs/2402.14270v2 )

ライセンス: Link先を確認
Xuxi Chen, Zhendong Wang, Daouda Sow, Junjie Yang, Tianlong Chen, Yingbin Liang, Mingyuan Zhou, Zhangyang Wang(参考訳) 大規模言語モデル(llm)の急速に進展する分野において、高品質なトレーニングデータが不足している中で、その能力を高めることが重要な課題である。 本研究は,従来の事前学習データセットを用いたLCMの光連続的トレーニングの実証的戦略から始まり,中等度に高い損失を被るサンプルの選択的保持に着目した。 これらのサンプルは、データノイズや複雑性との相関から廃棄される最も損失の多いサンプルとは対照的に、モデルの改良に有益で有益であると考えられている。 次に、この戦略をインスタンス重み付け分散ロバスト最適化(IR-DRO)の原則的なフレームワークに定式化する。 IR-DROは、既存のトレーニングプロトコルに簡単に統合するためのクローズドフォームソリューションによって合理化されたインスタンス再重み付け機構を通じて、インフォメーションサンプルのトレーニングフォーカスを動的に優先順位付けするように設計されている。 様々なモデルとデータセットを厳密に実験した結果,本手法は連続的な事前学習と命令チューニングのシナリオにおいて,複数のベンチマークにおけるllm性能を著しく改善することが示唆された。 私たちのコードはhttps://github.com/vita-group/hardfocustrainingで利用できます。

In the rapidly advancing arena of large language models (LLMs), a key challenge is to enhance their capabilities amid a looming shortage of high-quality training data. Our study starts from an empirical strategy for the light continual training of LLMs using their original pre-training data sets, with a specific focus on selective retention of samples that incur moderately high losses. These samples are deemed informative and beneficial for model refinement, contrasting with the highest-loss samples, which would be discarded due to their correlation with data noise and complexity. We then formalize this strategy into a principled framework of Instance-Reweighted Distributionally Robust Optimization (IR-DRO). IR-DRO is designed to dynamically prioritize the training focus on informative samples through an instance reweighting mechanism, streamlined by a closed-form solution for straightforward integration into established training protocols. Through rigorous experimentation with various models and datasets, our findings indicate that our sample-targeted methods significantly improve LLM performance across multiple benchmarks, in both continual pre-training and instruction tuning scenarios. Our codes are available at https://github.com/VITA-Group/HardFocusTraining.
翻訳日:2024-03-05 19:32:08 公開日:2024-03-01
# AXOLOTL:大規模言語モデル出力の自己バイアスによる公平性

AXOLOTL: Fairness through Assisted Self-Debiasing of Large Language Model Outputs ( http://arxiv.org/abs/2403.00198v1 )

ライセンス: Link先を確認
Sana Ebrahimi, Kaiwen Chen, Abolfazl Asudeh, Gautam Das, Nick Koudas(参考訳) 事前学習された大規模言語モデル(llm)は、高度な自然言語処理能力を持つが、トレーニングデータに存在するバイアスに影響を受けやすく、様々なアプリケーションで不公平な結果をもたらす。 バイアスを軽減するために多くの戦略が提案されているが、それらはしばしば広範な計算資源を必要とし、モデルの性能を損なう可能性がある。 本稿では,タスクやモデルに対して非依存的に動作する新しいポストプロセッシングフレームワークであるaxolotlを紹介し,内部パラメータに直接アクセスすることなく,公開apiを利用してllmと対話する。 ゼロショット学習に似た3段階のプロセスを通じて、AXOLOTLはバイアスを特定し、解像度を提案し、モデルを自己バイアスに導く。 このアプローチは計算コストを最小化し、モデル性能を保ち、AXOLOTLは広い適用性と使いやすさでLCM出力を劣化させる有望なツールとなる。

Pre-trained Large Language Models (LLMs) have significantly advanced natural language processing capabilities but are susceptible to biases present in their training data, leading to unfair outcomes in various applications. While numerous strategies have been proposed to mitigate bias, they often require extensive computational resources and may compromise model performance. In this work, we introduce AXOLOTL, a novel post-processing framework, which operates agnostically across tasks and models, leveraging public APIs to interact with LLMs without direct access to internal parameters. Through a three-step process resembling zero-shot learning, AXOLOTL identifies biases, proposes resolutions, and guides the model to self-debias its outputs. This approach minimizes computational costs and preserves model performance, making AXOLOTL a promising tool for debiasing LLM outputs with broad applicability and ease of use.
翻訳日:2024-03-05 18:48:49 公開日:2024-03-01
# 衝突モデルとモンテカルロ・メトロポリス法の統合:開量子系のダイナミクスのためのアルゴリズム

Unifying Collisional Models and the Monte Carlo Metropolis Method: Algorithms for Dynamics of Open Quantum Systems ( http://arxiv.org/abs/2403.00197v1 )

ライセンス: Link先を確認
Nathan M. Myers, Hrushikesh Sable, and Vito W. Scarola(参考訳) 熱浴に接触した古典的なシステムは、必然的に浴温度で熱状態と平衡する。 一般には、浴槽の構造や熱分解が起こる場合のシステム・バス相互作用に追加条件を置く開量子系では、同じことが当てはまらない。 衝突モデル(英: collisional model)または反復的相互作用スキーム(英: repeat interaction schemes)は、量子熱化の研究で広く使われている微視的開量子系モデルの一種であり、浴場はシステムとシーケンシャルに相互作用する同じアンシラ系の大きなアンサンブルとしてモデル化されている。 各浴槽のアシラが、システムのエネルギー固有状態遷移に一致する離散スペクトルを持つ熱状態で調製されると、衝突モデルフレームワークによって生成された系のダイナミクスは、メトロポリスアルゴリズムで生成されたものと同一であることが示されている。 この等価性は定常的な状態体制だけでなく、過渡的な体制においても維持される。 メトロポリス・スキームはシステムとバスの相互作用を明示的にモデル化する必要がないため、衝突モデルダイナミクスをシミュレートするための計算効率の高い代替手段として使用できる。

Classical systems placed in contact with a thermal bath will inevitably equilibrate to a thermal state at the bath temperature. The same is not generally true for open quantum systems, which place additional conditions on the structure of the bath and system-bath interaction if thermalization is to occur. Collisional models, or repeated interaction schemes, are a category of microscopic open quantum system models that have seen growing use in studying quantum thermalization, in which the bath is modeled as a large ensemble of identical ancilla systems that sequentially interact with the system. We demonstrate that, when each bath ancilla is prepared in a thermal state with a discrete spectrum that matches the energy eigenstate transitions of the system, the system dynamics generated by the collisional model framework are identical to those generated under the Metropolis algorithm. This equivalence holds not just in the steady state regime, but also in the transient regime. As the Metropolis scheme does not require explicitly modeling the system-bath interaction, this allows it to be used as a computationally efficient alternative for simulating collisional model dynamics.
翻訳日:2024-03-05 18:48:33 公開日:2024-03-01
# 幾何モデル支援深層学習による回折・散乱対応ラジオマップと環境再構成

Diffraction and Scattering Aware Radio Map and Environment Reconstruction using Geometry Model-Assisted Deep Learning ( http://arxiv.org/abs/2403.00229v1 )

ライセンス: Link先を確認
Wangqian Chen and Junting Chen(参考訳) 機械学習(ML)は、5Gおよび無線通信システム以上の高速チャネルモデリングを容易にする。 既存のML技術の多くは、ラジオマップを構築するためにシティマップを使用しているが、更新されたシティマップは必ずしも利用できるとは限らない。 本稿では,受信信号強度(rss)データを用いて,環境の幾何構造を利用して無線地図と仮想環境を共同で構築する手法を提案する。 環境モデルが欠如している既存のMLアプローチとは対照的に,仮想障害物モデルを開発し,伝搬経路と仮想障害物との幾何学的関係を特徴付ける。 キー回折特性を抽出するためにマルチスクリーンナイフエッジモデルが採用され、これらの特徴は回折表現のためにニューラルネットワーク(nn)に供給される。 この散乱を説明するために, 都市地図全体を直接入力する既存の手法とは対照的に, モデルではtx-rx対を囲む局所領域からの幾何学構造に着目し, 局所幾何学構造の空間不変性を利用する。 数値実験により, 3次元仮想環境の再構築に加えて, 提案モデルは, 精度10%-18%向上した無線地図構築における最先端手法よりも優れていた。 また、新しい環境に移行する際に20%のデータと50%のトレーニングエポックを削減できる。

Machine learning (ML) facilitates rapid channel modeling for 5G and beyond wireless communication systems. Many existing ML techniques utilize a city map to construct the radio map; however, an updated city map may not always be available. This paper proposes to employ the received signal strength (RSS) data to jointly construct the radio map and the virtual environment by exploiting the geometry structure of the environment. In contrast to many existing ML approaches that lack of an environment model, we develop a virtual obstacle model and characterize the geometry relation between the propagation paths and the virtual obstacles. A multi-screen knife-edge model is adopted to extract the key diffraction features, and these features are fed into a neural network (NN) for diffraction representation. To describe the scattering, as oppose to most existing methods that directly input an entire city map, our model focuses on the geometry structure from the local area surrounding the TX-RX pair and the spatial invariance of such local geometry structure is exploited. Numerical experiments demonstrate that, in addition to reconstructing a 3D virtual environment, the proposed model outperforms the state-of-the-art methods in radio map construction with 10%-18% accuracy improvements. It can also reduce 20% data and 50% training epochs when transferred to a new environment.
翻訳日:2024-03-05 18:37:58 公開日:2024-03-01
# DISORF: 移動ロボットのための分散オンラインNeRFトレーニングおよびレンダリングフレームワーク

DISORF: A Distributed Online NeRF Training and Rendering Framework for Mobile Robots ( http://arxiv.org/abs/2403.00228v1 )

ライセンス: Link先を確認
Chunlin Li, Ruofan Liang, Hanrui Fan, Zhengen Zhang, Sankeerth Durvasula, Nandita Vijaykumar(参考訳) 本稿では,リソースに制約のある移動ロボットやエッジデバイスで撮影されたシーンのオンライン3次元再構成と可視化を実現するためのフレームワークdisorfを提案する。 エッジデバイスの限られた計算能力と潜在的に限られたネットワーク可用性に対処するため,エッジデバイスとリモートサーバ間で効率的に計算を分散するフレームワークを設計する。 デバイス上でのSLAMシステムを活用してキーフレームを生成し,NeRFモデルを利用して,高品質な3D再構成と可視化を実現する遠隔サーバに送信する。 オンラインNeRFトレーニングにおける重要な課題は、画像サンプリング戦略がレンダリング品質を著しく低下させる可能性があることだ。 オンラインNeRFトレーニングにおいて,この課題に対処する新しい指数関数型フレームサンプリング手法を提案する。 移動ロボットやエッジデバイスのカメラから撮影・ストリームされる未知のシーンの高品位なリアルタイム復元と可視化を実現するためのフレームワークの有効性を実証する。

We present a framework, DISORF, to enable online 3D reconstruction and visualization of scenes captured by resource-constrained mobile robots and edge devices. To address the limited compute capabilities of edge devices and potentially limited network availability, we design a framework that efficiently distributes computation between the edge device and remote server. We leverage on-device SLAM systems to generate posed keyframes and transmit them to remote servers that can perform high quality 3D reconstruction and visualization at runtime by leveraging NeRF models. We identify a key challenge with online NeRF training where naive image sampling strategies can lead to significant degradation in rendering quality. We propose a novel shifted exponential frame sampling method that addresses this challenge for online NeRF training. We demonstrate the effectiveness of our framework in enabling high-quality real-time reconstruction and visualization of unknown scenes as they are captured and streamed from cameras in mobile robots and edge devices.
翻訳日:2024-03-05 18:37:36 公開日:2024-03-01
# 語彙的意味変化検出のための意味距離メトリック学習手法

A Semantic Distance Metric Learning approach for Lexical Semantic Change Detection ( http://arxiv.org/abs/2403.00226v1 )

ライセンス: Link先を確認
Taichi Aida, Danushka Bollegala(参考訳) 単語の時間的意味変化を検出することは、時間に敏感な予測をしなければならない様々なNLPアプリケーションにとって重要なタスクである。 Lexical Semantic Change Detection (SCD)タスクは、与えられたターゲット語である$w$が2つの異なるテキストコーパスである$C_1$と$C_2$の間で意味を変えるかどうかを予測する問題を考える。 本研究では,既存のWord-in-Context(WiC)データセットを用いた教師付き2段階SCD手法を提案する。 最初の段階では、ターゲット語である$w$に対して、コーパスから選択した所定の文で$w$の意味を表す2つの感覚認識エンコーダを学習する。 次に、第2段階では、対象語の意味表現を、その発生のすべてに対して$c_1$と$c_2$で比較する感覚認識距離メトリクスを学習する。 SCDのための複数のベンチマークデータセットによる実験結果から,提案手法は従来提案されていた複数の言語に対するSCD手法よりも一貫して優れており,新しいSCDの現状が確立されている。 興味深いことに,感覚認識埋め込み空間における単語の意味的変化に関連する情報を運ぶ特殊次元が存在することを示唆する。 ソースコードはhttps://github.com/a1da4/svp-sdml で入手できる。

Detecting temporal semantic changes of words is an important task for various NLP applications that must make time-sensitive predictions. Lexical Semantic Change Detection (SCD) task considers the problem of predicting whether a given target word, $w$, changes its meaning between two different text corpora, $C_1$ and $C_2$. For this purpose, we propose a supervised two-staged SCD method that uses existing Word-in-Context (WiC) datasets. In the first stage, for a target word $w$, we learn two sense-aware encoder that represents the meaning of $w$ in a given sentence selected from a corpus. Next, in the second stage, we learn a sense-aware distance metric that compares the semantic representations of a target word across all of its occurrences in $C_1$ and $C_2$. Experimental results on multiple benchmark datasets for SCD show that our proposed method consistently outperforms all previously proposed SCD methods for multiple languages, establishing a novel state-of-the-art for SCD. Interestingly, our findings imply that there are specialised dimensions that carry information related to semantic changes of words in the sense-aware embedding space. Source code is available at https://github.com/a1da4/svp-sdml .
翻訳日:2024-03-05 18:37:20 公開日:2024-03-01
# オフラインスキル拡散によるロバスト政策学習

Robust Policy Learning via Offline Skill Diffusion ( http://arxiv.org/abs/2403.00225v1 )

ライセンス: Link先を確認
Woo Kyung Kim, Minjong Yoo, Honguk Woo(参考訳) スキルベース強化学習(RL)アプローチは,特に階層構造による長期タスクの解決において,大きな可能性を秘めている。 これらのスキルは、オフラインデータセットからタスク非依存に学習され、新しいタスクのポリシー学習プロセスを加速することができる。 しかし、これらのスキルを異なるドメインに適用することは、データセットに固有の依存関係があるため制限されているため、データセットのドメインとは異なるターゲットドメインに対してRLを介してスキルベースのポリシーを学習しようとする場合、課題となる。 本稿では,データセット内の限られたスキルから拡張された多用途なスキルを生成するための指導拡散モデルを用いて,異なる領域のタスクに対するポリシ学習の堅牢性を高める,オフラインスキル学習フレームワークduskillを提案する。 具体的には、階層的エンコーディングと連動して、ドメイン不変の振る舞いをカプセル化するための2つの異なる表現と、ドメイン変動を誘導する要因を記述するための2つの異なる表現に、スキル埋め込み空間を分散させる。 我々のDuSkillフレームワークはオフラインで学んだスキルの多様性を高め、異なるドメインの高レベルポリシーの学習手順を高速化する。 実験により、DuSkillは他のスキルベースの模倣学習やRLアルゴリズムよりも長軸タスクの方が優れており、その利点は数発の模倣やオンラインRLで実証されている。

Skill-based reinforcement learning (RL) approaches have shown considerable promise, especially in solving long-horizon tasks via hierarchical structures. These skills, learned task-agnostically from offline datasets, can accelerate the policy learning process for new tasks. Yet, the application of these skills in different domains remains restricted due to their inherent dependency on the datasets, which poses a challenge when attempting to learn a skill-based policy via RL for a target domain different from the datasets' domains. In this paper, we present a novel offline skill learning framework DuSkill which employs a guided Diffusion model to generate versatile skills extended from the limited skills in datasets, thereby enhancing the robustness of policy learning for tasks in different domains. Specifically, we devise a guided diffusion-based skill decoder in conjunction with the hierarchical encoding to disentangle the skill embedding space into two distinct representations, one for encapsulating domain-invariant behaviors and the other for delineating the factors that induce domain variations in the behaviors. Our DuSkill framework enhances the diversity of skills learned offline, thus enabling to accelerate the learning procedure of high-level policies for different domains. Through experiments, we show that DuSkill outperforms other skill-based imitation learning and RL algorithms for several long-horizon tasks, demonstrating its benefits in few-shot imitation and online RL.
翻訳日:2024-03-05 18:36:57 公開日:2024-03-01
# 局所エージェントの存在下でのグローバル意思決定のための効率的強化学習

Efficient Reinforcement Learning for Global Decision Making in the Presence of Local Agents at Scale ( http://arxiv.org/abs/2403.00222v1 )

ライセンス: Link先を確認
Emile Anand, Guannan Qu(参考訳) 我々は,グローバル意思決定者がすべてのローカルエージェントに影響を与える意思決定を行う地域エージェントの存在下で,グローバル意思決定のための強化学習について検討し,グローバルエージェントとローカルエージェントの両方の報酬を最大化する政策を学ぶことを目的とする。 このような問題は、需要応答、EV充電、キューなど、多くのアプリケーションを見つけます。 この環境では、エージェント数で指数関数的な状態/アクション空間のサイズのため、スケーラビリティは長年にわたる課題であった。 この研究は、グローバルエージェントが$k\leq n$ローカルエージェントをサブサンプリングして、$k$の指数関数のみの最適なポリシーを計算するサブサンプルqアルゴリズムを提案し、$n$の指数関数的な標準メソッドからの指数関数的なスピードアップを提供する。 我々は、学習されたポリシーが$\tilde{O}(1/\sqrt{k}+\epsilon_{k,m})$の順序で最適ポリシーに収束することを示し、サブサンプルエージェントの数が$k$増加すると、$\epsilon_{k,m}$はベルマンノイズである。 また,要求応答設定と待ち行列設定において数値シミュレーションを行う。

We study reinforcement learning for global decision-making in the presence of many local agents, where the global decision-maker makes decisions affecting all local agents, and the objective is to learn a policy that maximizes the rewards of both the global and the local agents. Such problems find many applications, e.g. demand response, EV charging, queueing, etc. In this setting, scalability has been a long-standing challenge due to the size of the state/action space which can be exponential in the number of agents. This work proposes the SUB-SAMPLE-Q algorithm where the global agent subsamples $k\leq n$ local agents to compute an optimal policy in time that is only exponential in $k$, providing an exponential speedup from standard methods that are exponential in $n$. We show that the learned policy converges to the optimal policy in the order of $\tilde{O}(1/\sqrt{k}+\epsilon_{k,m})$ as the number of sub-sampled agents $k$ increases, where $\epsilon_{k,m}$ is the Bellman noise. We also conduct numerical simulations in a demand-response setting and a queueing setting.
翻訳日:2024-03-05 18:36:32 公開日:2024-03-01
# 視覚言語モデルのためのマルチモーダル属性プロンプト

Multi-modal Attribute Prompting for Vision-Language Models ( http://arxiv.org/abs/2403.00219v1 )

ライセンス: Link先を確認
Xin Liu and Jiamin Wu and Tianzhu Zhang(参考訳) CLIPのように、トレーニング済みの大規模なビジョンランゲージモデル(VLM)は、ダウンストリームタスクに対する強力な一般化能力を示すが、数ショットシナリオでは苦労する。 既存のプロンプト技術は主にグローバルテキストと画像表現に重点を置いているが、マルチモーダル属性の特徴を見落としている。 この制限は、モデルがきめ細かな視覚的詳細を知覚する能力を妨げ、その一般化能力をより広範囲の未確認クラスに制限する。 この問題を解決するために,テキスト属性プロンプト,視覚属性プロンプト,属性レベルのアライメントを共同で探索し,マルチモーダル属性プロンプト法(MAP)を提案する。 提案されたMAPにはいくつかのメリットがある。 まず,テキスト属性セマンティクスによって強化された学習可能なビジュアル属性プロンプトを導入し,未知のカテゴリから画像の視覚的属性を適応的にキャプチャし,クリップのきめ細かい視覚知覚能力を高める。 第2に,提案する属性レベルアライメントはグローバルアライメントを補完し,オープンボキャブラリーオブジェクトのクロスモーダルアライメントのロバスト性を高める。 私たちの知る限り、これはCLIPベースの少数ショット適応のためのクロスモーダル属性レベルのアライメントを確立する最初の作業です。 11のデータセットに関する広範な実験結果から,本手法は最先端のアプローチに好適に機能することが示された。

Large pre-trained Vision-Language Models (VLMs), like CLIP, exhibit strong generalization ability to downstream tasks but struggle in few-shot scenarios. Existing prompting techniques primarily focus on global text and image representations, yet overlooking multi-modal attribute characteristics. This limitation hinders the model's ability to perceive fine-grained visual details and restricts its generalization ability to a broader range of unseen classes. To address this issue, we propose a Multi-modal Attribute Prompting method (MAP) by jointly exploring textual attribute prompting, visual attribute prompting, and attribute-level alignment. The proposed MAP enjoys several merits. First, we introduce learnable visual attribute prompts enhanced by textual attribute semantics to adaptively capture visual attributes for images from unknown categories, boosting fine-grained visual perception capabilities for CLIP. Second, the proposed attribute-level alignment complements the global alignment to enhance the robustness of cross-modal alignment for open-vocabulary objects. To our knowledge, this is the first work to establish cross-modal attribute-level alignment for CLIP-based few-shot adaptation. Extensive experimental results on 11 datasets demonstrate that our method performs favorably against state-of-the-art approaches.
翻訳日:2024-03-05 18:36:09 公開日:2024-03-01
# カスタムデータセットとmBARTを用いた微調整XLSR Wav2Vec2によるビデオの転写と翻訳

Transcription and translation of videos using fine-tuned XLSR Wav2Vec2 on custom dataset and mBART ( http://arxiv.org/abs/2403.00212v1 )

ライセンス: Link先を確認
Aniket Tathe, Anand Kamble, Suyash Kumbharkar, Atharva Bhandare, Anirban C. Mitra(参考訳) 本研究は、最小データを用いたパーソナライズ音声のためのasrモデルをトレーニングすることの課題に対処する。 YouTubeビデオからの14分間のカスタムオーディオを利用して、Retrieval-Based Voice Conversion (RVC)を使用して、カスタムのCommon Voice 16.0コーパスを作成します。 その後、このデータセット上で、言語間自己監督表現(XLSR)のWav2Vec2モデルを微調整する。 開発したWebベースのGUIは、入力されたヒンディー語ビデオを効率よく書き起こし、翻訳する。 XLSR Wav2Vec2とmBARTを統合することで、翻訳されたテキストとビデオタイムラインを一致させ、パーソナライズされた音声のための多言語ビデオコンテンツの書き起こしと翻訳のためのアクセス可能なソリューションを提供する。

This research addresses the challenge of training an ASR model for personalized voices with minimal data. Utilizing just 14 minutes of custom audio from a YouTube video, we employ Retrieval-Based Voice Conversion (RVC) to create a custom Common Voice 16.0 corpus. Subsequently, a Cross-lingual Self-supervised Representations (XLSR) Wav2Vec2 model is fine-tuned on this dataset. The developed web-based GUI efficiently transcribes and translates input Hindi videos. By integrating XLSR Wav2Vec2 and mBART, the system aligns the translated text with the video timeline, delivering an accessible solution for multilingual video content transcription and translation for personalized voice.
翻訳日:2024-03-05 18:35:42 公開日:2024-03-01
# 信頼できる自己注意:ネットワークを最も関連性の高い参照のみにフォーカスさせる

Trustworthy Self-Attention: Enabling the Network to Focus Only on the Most Relevant References ( http://arxiv.org/abs/2403.00211v1 )

ライセンス: Link先を確認
Yu Jing, Tan Yujuan, Ren Ao, Liu Duo(参考訳) occluded pointに対する光学的流れの予測は、まだ解決されていない難しい問題である。 近年の手法では, 自己同一性の仮定に基づくオクルード点の光学的流れを推定するための参考として, 関連する非オクルード点を求めるためにセルフアテンションを用いる。 しかし、それらは単一の画像の視覚的特徴と弱い制約に依存しており、トレーニングされたネットワークが誤った参照ポイントに焦点を合わせるように制約するには不十分である。 オンラインオクルージョン認識情報を活用し、オクルージョンの拡張視覚特徴と2つの強い制約を構築することにより、オクルージョン基盤の真理を必要とせず、最も関連する参照のみに焦点を合わせ、ネットワークのトレーニングに参加することができる。 このメソッドは、元のフレームワークに非常に少ないネットワークパラメータを追加し、非常に軽量にします。 広範な実験により、我々のモデルは最大のクロスデータセット一般化を持つことが示された。 本手法は,sintelアルベドパスにおける最先端gmaベース法matchflow(gma)から,全点,非閉塞点,オクルード点に対して18.6%,16.2%,20.1%の誤差低減を実現する。 さらに,本モデルでは,Sintel のベンチマーク上での最先端性能を達成し,Sintel のクリーンパスに関する全手法のうち,#1 にランク付けした。 コードはオープンソースになる。

The prediction of optical flow for occluded points is still a difficult problem that has not yet been solved. Recent methods use self-attention to find relevant non-occluded points as references for estimating the optical flow of occluded points based on the assumption of self-similarity. However, they rely on visual features of a single image and weak constraints, which are not sufficient to constrain the trained network to focus on erroneous and weakly relevant reference points. We make full use of online occlusion recognition information to construct occlusion extended visual features and two strong constraints, allowing the network to learn to focus only on the most relevant references without requiring occlusion ground truth to participate in the training of the network. Our method adds very few network parameters to the original framework, making it very lightweight. Extensive experiments show that our model has the greatest cross-dataset generalization. Our method achieves much greater error reduction, 18.6%, 16.2%, and 20.1% for all points, non-occluded points, and occluded points respectively from the state-of-the-art GMA-base method, MATCHFlow(GMA), on Sintel Albedo pass. Furthermore, our model achieves state-of-the-art performance on the Sintel bench-marks, ranking \#1 among all published methods on Sintel clean pass. The code will be open-source.
翻訳日:2024-03-05 18:35:27 公開日:2024-03-01
# 中性原子に対する高次元GHZ状態の散逸安定化

Dissipative stabilization of high-dimensional GHZ states for neutral atoms ( http://arxiv.org/abs/2403.00210v1 )

ライセンス: Link先を確認
Yue Zhao, Yu-Qing Yang, Weibin Li, Xiao-Qiang Shao(参考訳) 高次元量子絡み合いは、より大きなヒルベルト空間内の量子系の絡み合いを特徴づけ、絡み合った粒子の状態の間により複雑で複雑な相関をもたらす。 高次元グリーンベルガー・ホルン・ザイリンガー状態(GHZ)は、このタイプの絡み合いの象徴であり、様々な量子情報処理アプリケーションにおいて重要である。 本研究では,中性原子プラットフォームと量子貯留層工学を統合し,高次元ghz状態を生成することを提案する。 改良型非慣習型リドバーグポンプ機構における中性原子の利点と制御された散逸を組み合わせることで、複数のポンプと散逸サイクルを通じて99\%を超える忠実性を持つ3次元ghz状態を達成する。 この革新的なアプローチは、Rydberg原子系の高次元GHZ状態の実験的に実現可能な決定論的準備の道を開き、量子情報処理の能力を向上させる。

High-dimensional quantum entanglement characterizes the entanglement of quantum systems within a larger Hilbert space, introducing more intricate and complex correlations among the entangled particles' states. The high-dimensional Greenberger-Horne-Zeilinger (GHZ) state, symbolic of this type of entanglement, is of significant importance in various quantum information processing applications. This study proposes integrating a neutral atom platform with quantum reservoir engineering to generate a high-dimensional GHZ state deterministically. Leveraging the advantages of neutral atoms in a modified unconventional Rydberg pumping mechanism, combined with controlled dissipation, we achieve a three-dimensional GHZ state with a fidelity surpassing 99\% through multiple pump and dissipation cycles. This innovative approach paves the way for experimentally feasible, deterministic preparation of high-dimensional GHZ states in Rydberg atom systems, thereby advancing the capabilities of quantum information processing.
翻訳日:2024-03-05 18:35:00 公開日:2024-03-01
# ChartReformer: 自然言語駆動のチャートイメージ編集

ChartReformer: Natural Language-Driven Chart Image Editing ( http://arxiv.org/abs/2403.00209v1 )

ライセンス: Link先を確認
Pengyu Yan, Mahesh Bhosale, Jay Lal, Bikhyat Adhikari, David Doermann(参考訳) チャートの可視化はデータ解釈と通信に不可欠であるが、ほとんどのチャートは画像フォーマットでのみアクセス可能であり、対応するデータテーブルと補足情報がないため、異なるアプリケーションシナリオでその外観を変更することは困難である。 そこで本研究では,入力画像からチャートを直接編集する自然言語駆動のチャート画像編集ソリューションであるChartReformerを提案する。 この手法の鍵となるのは、モデルがチャートを理解でき、プロンプトを判断して対応するデータテーブルと新しいチャートの視覚属性を生成し、正確な編集を可能にすることである。 さらに、ChartReformerを一般化するために、様々な種類のチャート編集、スタイル、レイアウト、フォーマット、データ中心の編集を定義し、標準化する。 この実験は自然言語によるチャート画像編集に有望な結果をもたらす。

Chart visualizations are essential for data interpretation and communication; however, most charts are only accessible in image format and lack the corresponding data tables and supplementary information, making it difficult to alter their appearance for different application scenarios. To eliminate the need for original underlying data and information to perform chart editing, we propose ChartReformer, a natural language-driven chart image editing solution that directly edits the charts from the input images with the given instruction prompts. The key in this method is that we allow the model to comprehend the chart and reason over the prompt to generate the corresponding underlying data table and visual attributes for new charts, enabling precise edits. Additionally, to generalize ChartReformer, we define and standardize various types of chart editing, covering style, layout, format, and data-centric edits. The experiments show promising results for the natural language-driven chart image editing.
翻訳日:2024-03-05 18:34:43 公開日:2024-03-01
# 量子コンピューティングのための多接合表面イオントラップ

Multi-junction surface ion trap for quantum computing ( http://arxiv.org/abs/2403.00208v1 )

ライセンス: Link先を確認
J.D. Sterk, M.G. Blain, M. Delaney, R. Haltli, E. Heller, A.L. Holterhoff, T. Jennings, N. Jimenez, A. Kozhanov, Z. Meinelt, E. Ou, J. Van Der Wall, C. Noel, D. Stick(参考訳) トラップ領域の二次元配置を持つ表面イオントラップは、大量のイオンを保存し、量子アルゴリズムを実装するのに必要な接続をサポートする自然なアーキテクチャである。 このアーキテクチャを完全に活用するために必要な多くのコンポーネントや操作がすでに実証されており、低温での低温での低温加熱、低励起輸送、イオン制御と光合成による検出が含まれる。 ここでは,rf電極が大きくなるにつれて電力散逸が増加するというスケーリング課題に対処するトラップを示す。 RF電極を上昇させ、絶縁誘電体層の大部分を下方に除去することにより、オーミックおよび誘電体の消散を減少させる。 また, RF電極を昇圧させたトラップにおいて, 動作周波数や電圧源の異なる範囲の加熱速度も測定した。

Surface ion traps with two-dimensional layouts of trapping regions are natural architectures for storing large numbers of ions and supporting the connectivity needed to implement quantum algorithms. Many of the components and operations needed to fully exploit this architecture have already been demonstrated, including operation at cryogenic temperatures with low heating, low excitation transport, and ion control and detection with integrated photonics. Here we demonstrate a trap that addresses the scaling challenge of increasing power dissipation as the RF electrode increases in size. By raising the RF electrode and removing most of the insulating dielectric layer below it we reduce both ohmic and dielectric power dissipation. We also measure heating rates across a range of motional frequencies and for different voltage sources in a trap with a raised RF electrode but solid dielectric.
翻訳日:2024-03-05 18:34:27 公開日:2024-03-01
# MaskLRF:回転不変3次元点解析のための局所参照フレームの自動符号化による自己教師付き事前学習

MaskLRF: Self-supervised Pretraining via Masked Autoencoding of Local Reference Frames for Rotation-invariant 3D Point Set Analysis ( http://arxiv.org/abs/2403.00206v1 )

ライセンス: Link先を確認
Takahiko Furuya(参考訳) 視覚・言語分野での成功に続いて、マスク付き3次元点集合データによる自己教師付き事前学習(Masked Point Modeling (MPM))は、様々な下流タスクにおいて最先端の精度を達成した。 しかし、現在のMPM法は3次元点集合解析、すなわち3次元オブジェクト/シーンの回転に対する不変性に欠如している。 したがって既存の MPM 法は、3次元点集合が矛盾する向きを持つような実世界の応用には必ずしも適していない。 本稿では, 3次元点集合解析のための回転不変自己教師付き事前学習フレームワークを初めて開発した。 提案アルゴリズムは,3次元点集合の回転の影響を受けない局所参照フレーム(LRF)内の3次元点の自動符号化により,回転不変かつ高一般化可能な潜在特徴を学習する。 MaskLRFは、相対的なポーズエンコーディングと低レベルだがリッチな3D幾何を用いた特徴再構成を併用することで、潜在特徴の品質を向上させる。 MaskLRFの有効性は、分類、セグメンテーション、登録、ドメイン適応を含む様々な下流タスクに関する広範な実験を通じて検証される。 masklrfは、一貫性のない向きを持つ3dポイント集合の分析において、新たな最先端のアキュラティシティを実現することを確認します。 コードは、https://github.com/takahikof/MaskLRFで入手できる。

Following the successes in the fields of vision and language, self-supervised pretraining via masked autoencoding of 3D point set data, or Masked Point Modeling (MPM), has achieved state-of-the-art accuracy in various downstream tasks. However, current MPM methods lack a property essential for 3D point set analysis, namely, invariance against rotation of 3D objects/scenes. Existing MPM methods are thus not necessarily suitable for real-world applications where 3D point sets may have inconsistent orientations. This paper develops, for the first time, a rotation-invariant self-supervised pretraining framework for practical 3D point set analysis. The proposed algorithm, called MaskLRF, learns rotation-invariant and highly generalizable latent features via masked autoencoding of 3D points within Local Reference Frames (LRFs), which are not affected by rotation of 3D point sets. MaskLRF enhances the quality of latent features by integrating feature refinement using relative pose encoding and feature reconstruction using low-level but rich 3D geometry. The efficacy of MaskLRF is validated via extensive experiments on diverse downstream tasks including classification, segmentation, registration, and domain adaptation. I confirm that MaskLRF achieves new state-of-the-art accuracies in analyzing 3D point sets having inconsistent orientations. Code will be available at: https://github.com/takahikof/MaskLRF
翻訳日:2024-03-05 18:34:11 公開日:2024-03-01
# 潜在変数の回復による置換調整

Substitute adjustment via recovery of latent variables ( http://arxiv.org/abs/2403.00202v1 )

ライセンス: Link先を確認
Jeffrey Adams, Niels Richard Hansen(参考訳) 因果パラメータを複数の原因と観測不能なコンバウンディングで推定する手法として提案した。 これは観測された原因から潜在変数の回復に基づいている。 我々は、因果解釈を統計的推定問題から切り離し、一般に回帰目標パラメータを調整した回帰推定を行う。 これにより、回復した潜在変数に対して結果回帰が調整され、代用(result)と呼ばれる。 因果仮定を除いた一般アルゴリズムを代用調整として参照する。 本稿では, 回帰変数が条件独立である場合, 回帰パラメータを調整した補正推定値を支持する理論的結果を与える。 また,最小モデル仮定を用いた仮定-リーン目標パラメータを推定する代用調整アルゴリズムの変種についても紹介する。 次に, 潜在変数が有限集合の値を取る場合の代用調整推定を支援する有限標本境界と漸近結果を与える。 シミュレーション研究は置換調整の有限サンプル特性を示す。 その結果, 回帰器の潜在変数モデルが保たれた場合, 代用調整は回帰の調整に有効な方法であることがわかった。

The deconfounder was proposed as a method for estimating causal parameters in a context with multiple causes and unobserved confounding. It is based on recovery of a latent variable from the observed causes. We disentangle the causal interpretation from the statistical estimation problem and show that the deconfounder in general estimates adjusted regression target parameters. It does so by outcome regression adjusted for the recovered latent variable termed the substitute. We refer to the general algorithm, stripped of causal assumptions, as substitute adjustment. We give theoretical results to support that substitute adjustment estimates adjusted regression parameters when the regressors are conditionally independent given the latent variable. We also introduce a variant of our substitute adjustment algorithm that estimates an assumption-lean target parameter with minimal model assumptions. We then give finite sample bounds and asymptotic results supporting substitute adjustment estimation in the case where the latent variable takes values in a finite set. A simulation study illustrates finite sample properties of substitute adjustment. Our results support that when the latent variable model of the regressors hold, substitute adjustment is a viable method for adjusted regression.
翻訳日:2024-03-05 18:33:46 公開日:2024-03-01
# 小光子数コヒーレントイジング機のスキュー・ガウシアンモデル

Skew-Gaussian model of small-photon-number coherent Ising machines ( http://arxiv.org/abs/2403.00200v1 )

ライセンス: Link先を確認
Yoshitaka Inui, Edwin Ng, and Yoshihisa Yamamoto(参考訳) ボソニックモードのガウス量子論は量子光学系を記述するために広く用いられており、例えばコヒーレントイジングマシン(CIM)は$\chi^{(2)}=退化光学パラメトリック発振器(DOPO)を非線形要素として含む。 しかし、ガウスモデルは極端に強いゲイン飽和限界において無効であると考えられている。 ここでは,3次ゆらぎ積である $\langle \delta \hat{X}^3\rangle$ と $\langle \delta \hat{X}\delta \hat{P}^2\rangle$ を含む拡張ガウスモデルを構築し,それぞれ自己歪性およびクロススキューネスと呼ぶ。 このスキュー・ガウスモデルと呼ばれる新しいモデルは、ガウスモデルと比較して量子マスター方程式(QME)によって予測される成功確率をより正確に再現する。 また、スキュー変数がCIMの性能に与える影響についても論じる。

A Gaussian quantum theory of bosonic modes has been widely used to describe quantum optical systems, including coherent Ising machines (CIMs) that consist of $\chi^{(2)}$ degenerate optical parametric oscillators (DOPOs) as nonlinear elements. However, Gaussian models have been thought to be invalid in the extremely strong-gain-saturation limit. Here, we develop an extended Gaussian model including two third-order fluctuation products, $\langle \delta \hat{X}^3\rangle$ and $\langle \delta \hat{X}\delta \hat{P}^2\rangle$, which we call self-skewness and cross-skewness, respectively. This new model which we call skew-Gaussian model more precisely replicates the success probability predicted by the quantum master equation (QME), relative to Gaussian models. We also discuss the impact of skew variables on the performance of CIMs.
翻訳日:2024-03-05 18:33:27 公開日:2024-03-01
# データ拡張と優先最適化によるソクラテス質問生成の改善

Improving Socratic Question Generation using Data Augmentation and Preference Optimization ( http://arxiv.org/abs/2403.00199v1 )

ライセンス: Link先を確認
Nischal Ashok Kumar, Andrew Lan(参考訳) ソクラテス法(ソクラテスほう、socratic method)は、問題を解き明かすことなく、学生を独立して問題解決へと導く方法である。 この方法は学生の学習成果を著しく改善することが示されているが、インストラクターにとって複雑な労働集約作業である。 大規模言語モデル(LLM)は、学生のためのソクラテス的質問を自動的に生成することにより、人間の努力を強化するために使用できる。 しかし、これらのLSMの推進に関わる既存の手法は、しばしば不正なアウトプットを生成し、例えば、問題の解を直接明らかにしたり、無関係または未熟な質問を与える。 本稿では,aiフィードバックによる強化学習(rlaif)に着想を得て,まず,既存のソクラテス的質問データセットを,特定の方法で無効な質問で強化するためのデータ拡張手法を提案する。 次に,dpo (direct preference optimization) を用いて,llama 2 のようなオープンソース llm を最適化する手法を提案する。 学生コードデバッグのためのソクラティック質問データセットの実験では、DPO最適化 7B LLama 2 モデルでは、不正な質問の発生を効果的に回避でき、その結果、既存の最先端のプロンプト手法よりも優れていることが示された。

The Socratic method is a way of guiding students toward solving a problem independently without directly revealing the solution to the problem. Although this method has been shown to significantly improve student learning outcomes, it remains a complex labor-intensive task for instructors. Large language models (LLMs) can be used to augment human effort by automatically generating Socratic questions for students. However, existing methods that involve prompting these LLMs sometimes produce invalid outputs, e.g., those that directly reveal the solution to the problem or provide irrelevant or premature questions. To alleviate this problem, inspired by reinforcement learning with AI feedback (RLAIF), we first propose a data augmentation method to enrich existing Socratic questioning datasets with questions that are invalid in specific ways. Next, we propose a method to optimize open-source LLMs such as LLama 2 to prefer ground-truth questions over generated invalid ones, using direct preference optimization (DPO). Our experiments on a Socratic questions dataset for student code debugging show that a DPO-optimized 7B LLama 2 model can effectively avoid generating invalid questions, and as a result, outperforms existing state-of-the-art prompting methods.
翻訳日:2024-03-05 18:33:06 公開日:2024-03-01
# ディープニューラルネットワークの"ロスレス"圧縮--高次元神経接核アプローチ

"Lossless" Compression of Deep Neural Networks: A High-dimensional Neural Tangent Kernel Approach ( http://arxiv.org/abs/2403.00258v1 )

ライセンス: Link先を確認
Lingyu Gu, Yongqi Du, Yuan Zhang, Di Xie, Shiliang Pu, Robert C. Qiu, Zhenyu Liao(参考訳) 現代のディープニューラルネットワーク(DNN)は非常に強力だが、これは深度の増加と層毎のパラメータの増大によって実現され、トレーニングと推論がより計算的に困難になる。 この重要な制限に対処するために、これらの大規模機械学習モデルの圧縮(例えば、スペーシフィケーションと/または量子化)に努力が注がれており、低消費電力のIoTデバイスにデプロイできる。 本稿では,神経接核 (ntk) とランダム行列理論 (rmt) の最近の進歩に基づき,広大かつ完全連結な \emph{deep} ニューラルネットに対する新しい圧縮手法を提案する。 具体的には、データ点数$n$とその次元$p$が共に大きい高次元状態において、データに対するガウス混合モデルの下では、多数のDNNモデルに対してNTK行列間で 'emph{asymsymotic spectrum equivalence' が存在することを示す。 この理論的な結果は、圧縮されたネットワークが元の (dense and unquantized) ネットワークと同じ ntk を漸近的に得るという意味で、与えられた dnn の "lossless" 圧縮を可能とし、その重みとアクティベーションが $\{0, \pm 1 \}$ で \emph{only} 値を取る。 合成データと実世界のデータの両方の実験は、提案された圧縮スキームの利点をサポートするために行われ、コードには \url{https://github.com/Model-Compression/Lossless_Compression} がある。

Modern deep neural networks (DNNs) are extremely powerful; however, this comes at the price of increased depth and having more parameters per layer, making their training and inference more computationally challenging. In an attempt to address this key limitation, efforts have been devoted to the compression (e.g., sparsification and/or quantization) of these large-scale machine learning models, so that they can be deployed on low-power IoT devices. In this paper, building upon recent advances in neural tangent kernel (NTK) and random matrix theory (RMT), we provide a novel compression approach to wide and fully-connected \emph{deep} neural nets. Specifically, we demonstrate that in the high-dimensional regime where the number of data points $n$ and their dimension $p$ are both large, and under a Gaussian mixture model for the data, there exists \emph{asymptotic spectral equivalence} between the NTK matrices for a large family of DNN models. This theoretical result enables "lossless" compression of a given DNN to be performed, in the sense that the compressed network yields asymptotically the same NTK as the original (dense and unquantized) network, with its weights and activations taking values \emph{only} in $\{ 0, \pm 1 \}$ up to a scaling. Experiments on both synthetic and real-world data are conducted to support the advantages of the proposed compression scheme, with code available at \url{https://github.com/Model-Compression/Lossless_Compression}.
翻訳日:2024-03-05 18:28:09 公開日:2024-03-01
# 圧迫・励起畳み込みニューラルネットワークを用いた放射線気腫サブタイプのロバストディープラベリング:MESA LungとSPIROMICS研究

Robust deep labeling of radiological emphysema subtypes using squeeze and excitation convolutional neural networks: The MESA Lung and SPIROMICS Studies ( http://arxiv.org/abs/2403.00257v1 )

ライセンス: Link先を確認
Artur Wysoczanski, Nabil Ettehadi, Soroush Arabshahi, Yifei Sun, Karen Hinkley Stukovsky, Karol E. Watson, MeiLan K. Han, Erin D Michos, Alejandro P. Comellas, Eric A. Hoffman, Andrew F. Laine, R. Graham Barr, and Elsa D. Angelini(参考訳) 肺気腫は進行性で可逆的な肺組織の消失であり、病理組織と肺ct画像で識別できる3つのサブタイプに分類される。 最近の研究は、肺CT上の10の空間的インフォームド肺テクスチャパターン(sLTP)の教師なし学習につながり、肺のテクスチャと空間的位置の両方に基づいて、肺気腫の異なるパターンを表現し、6つの頑健で再現可能なCT肺気腫サブタイプ(CTES)に集約する。 しかし、既存のsLTPセグメンテーション法は、CT取得プロトコルの変更に対して遅く、非常に敏感である。 本研究では,肺CTにおけるsLTPsとCTESの教師付き分類のための3次元圧縮励起CNNを提案する。 その結果, 本モデルは, スキャナーメーカーやモデルとは独立に, 2つの独立したコホートをまたいで, 肺ctscan上で高精度かつ再現可能なsltpセグメンテーションを実現する。

Pulmonary emphysema, the progressive, irreversible loss of lung tissue, is conventionally categorized into three subtypes identifiable on pathology and on lung computed tomography (CT) images. Recent work has led to the unsupervised learning of ten spatially-informed lung texture patterns (sLTPs) on lung CT, representing distinct patterns of emphysematous lung parenchyma based on both textural appearance and spatial location within the lung, and which aggregate into 6 robust and reproducible CT Emphysema Subtypes (CTES). Existing methods for sLTP segmentation, however, are slow and highly sensitive to changes in CT acquisition protocol. In this work, we present a robust 3-D squeeze-and-excitation CNN for supervised classification of sLTPs and CTES on lung CT. Our results demonstrate that this model achieves accurate and reproducible sLTP segmentation on lung CTscans, across two independent cohorts and independently of scanner manufacturer and model.
翻訳日:2024-03-05 18:27:37 公開日:2024-03-01
# mriセグメンテーションのためのクラウドベースの連合学習フレームワーク

Cloud-based Federated Learning Framework for MRI Segmentation ( http://arxiv.org/abs/2403.00254v1 )

ライセンス: Link先を確認
Rukesh Prajapati and Amr S. El-Wakeel(参考訳) 現代の田舎の医療環境では、脳画像の診断における主な課題は、利用可能なデータの不足である。既存のディープラーニングモデルの多くは、パフォーマンスを最適化するために広範囲なトレーニングデータを必要としており、データのプライバシーを侵害する可能性のある集中処理方法を必要としているからだ。 本稿では,農村医療施設における脳組織分割のための新しい枠組みを提案する。 このフレームワークは深層強化学習(drl)環境を採用しており、農村医療現場にローカルに展開するリファインメントモデル(rm)が組み込まれている。 提案するdrlモデルは,分布する農村部におけるパラメータ数と実用性を低減した。 データプライバシを保ち、プライバシー制約を超越することなくモデル一般化を強化するために、協調モデルトレーニングにフェデレートラーニング(FL)を採用する。 提案手法は,限られたデータセットでネットワークを訓練し,実質的な性能向上を観測し,多様なサイト間でのセグメンテーションの不正確性と不規則さを軽減し,その効果を実証する。 注目すべきは、DRLモデルが最大80%の精度に達し、データ不足に直面した場合の従来の畳み込みニューラルネットワークの能力を上回ることだ。 RMを組み込むと、少なくとも10%の精度向上が得られ、FLは最大5%の精度向上に寄与する。 このフレームワークは、データ制約を特徴とする農村医療における平均92%の精度を達成する。

In contemporary rural healthcare settings, the principal challenge in diagnosing brain images is the scarcity of available data, given that most of the existing deep learning models demand extensive training data to optimize their performance, necessitating centralized processing methods that potentially compromise data privacy. This paper proposes a novel framework tailored for brain tissue segmentation in rural healthcare facilities. The framework employs a deep reinforcement learning (DRL) environment in tandem with a refinement model (RM) deployed locally at rural healthcare sites. The proposed DRL model has a reduced parameter count and practicality for implementation across distributed rural sites. To uphold data privacy and enhance model generalization without transgressing privacy constraints, we employ federated learning (FL) for cooperative model training. We demonstrate the efficacy of our approach by training the network with a limited data set and observing a substantial performance enhancement, mitigating inaccuracies and irregularities in segmentation across diverse sites. Remarkably, the DRL model attains an accuracy of up to 80%, surpassing the capabilities of conventional convolutional neural networks when confronted with data insufficiency. Incorporating our RM results in an additional accuracy improvement of at least 10%, while FL contributes to a further accuracy enhancement of up to 5%. Collectively, the framework achieves an average 92% accuracy rate within rural healthcare settings characterized by data constraints.
翻訳日:2024-03-05 18:27:14 公開日:2024-03-01
# europa: 法的多言語キーフレーズ生成データセット

EUROPA: A Legal Multilingual Keyphrase Generation Dataset ( http://arxiv.org/abs/2403.00252v1 )

ライセンス: Link先を確認
Olivier Sala\"un, Fr\'ed\'eric Piedboeuf, Guillaume Le Berre, David Alfonso Hermelo and Philippe Langlais(参考訳) キーフレーズの生成は主に学術論文の文脈で研究され、特に科学的領域と英語に焦点が当てられている。 本稿では,法律領域における多言語キーフレーズ生成のためのデータセットであるeuropaを提案する。 欧州連合司法裁判所(eu)の法的判断から派生したもので、24のeu公式言語に全て含まれている。 我々は、コーパス上で多言語モデルを実行し、その結果を分析し、現在のようなドメイン固有の多言語コーパスを改善する余地を示す。

Keyphrase generation has primarily been explored within the context of academic research articles, with a particular focus on scientific domains and the English language. In this work, we present EUROPA, a dataset for multilingual keyphrase generation in the legal domain. It is derived from legal judgments from the Court of Justice of the European Union (EU), and contains instances in all 24 EU official languages. We run multilingual models on our corpus and analyze the results, showing room for improvement on a domain-specific multilingual corpus such as the one we present.
翻訳日:2024-03-05 18:26:54 公開日:2024-03-01
# あなたのコメントは時代遅れですか? コードコミットの一貫性を自動検出する

Are your comments outdated? Towards automatically detecting code-comment consistency ( http://arxiv.org/abs/2403.00251v1 )

ライセンス: Link先を確認
Yuan Huang, Yinan Chen, Xiangping Chen, Xiaocong Zhou(参考訳) ソフトウェア開発とメンテナンスにおいて、コードコメントは開発者がソースコードを理解し、開発者間のコミュニケーションを改善するのに役立つ。 しかし、開発者はコードを変更する際に対応するコメントを更新することを怠り、古いコメント(すなわち一貫性のないコードとコメント)が発生することがある。 古いコメントは危険で有害であり、その後の開発者を誤解させる可能性がある。 さらに本気で言うと、時代遅れのコメントは将来致命的な欠陥につながるかもしれない。 ソースコード中の古いコメントを自動的に識別するために,コードとコメントの一貫性を検出するためのCoCCという学習手法を提案した。 古いコメントを効率的に識別するために、変更前後にコードとコメントの両方から複数の機能を抽出する。 さらに、私たちのモデルでは、コードとコメントの関係も検討しています。 実験の結果,COCCは90%以上の精度で古いコメントを効果的に検出できることがわかった。 さらに、古いコメントの原因となる15の最も重要な要素を特定し、異なるプログラミング言語におけるCOCCの適用性を検証する。 我々はまた、COCCを使ってオープンソースプロジェクトの最新コミットの古いコメントを見つけ、提案手法の有効性をさらに証明した。

In software development and maintenance, code comments can help developers understand source code, and improve communication among developers. However, developers sometimes neglect to update the corresponding comment when changing the code, resulting in outdated comments (i.e., inconsistent codes and comments). Outdated comments are dangerous and harmful and may mislead subsequent developers. More seriously, the outdated comments may lead to a fatal flaw sometime in the future. To automatically identify the outdated comments in source code, we proposed a learning-based method, called CoCC, to detect the consistency between code and comment. To efficiently identify outdated comments, we extract multiple features from both codes and comments before and after they change. Besides, we also consider the relation between code and comment in our model. Experiment results show that CoCC can effectively detect outdated comments with precision over 90%. In addition, we have identified the 15 most important factors that cause outdated comments, and verified the applicability of CoCC in different programming languages. We also used CoCC to find outdated comments in the latest commits of open source projects, which further proves the effectiveness of the proposed method.
翻訳日:2024-03-05 18:26:44 公開日:2024-03-01
# 長期音声認識における分類器再訓練の再考 : 簡単なログ再ターゲティングアプローチ

Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple Logits Retargeting Approach ( http://arxiv.org/abs/2403.00250v1 )

ライセンス: Link先を確認
Han Lu, Siyu Sun, Yichen Xie, Liqing Zhang, Xiaokang Yang, Junchi Yan(参考訳) 長い尾の認識領域では、デカップリング訓練パラダイムは様々な手法で顕著な能力を示した。 このパラダイムは、トレーニングプロセスを別々の表現学習と分類器再学習に分離する。 従来の研究は両方の段階を同時に改善しようと試みており、分類器の再訓練の効果を分離することは困難である。 さらに、最近の実証研究は、単純な正規化が強力な特徴表現をもたらすことを実証し、既存の分類器の再訓練方法を再評価する必要性を強調している。 本研究では,統一的な特徴表現に基づく分類器の再学習法を再検討し,その性能を再評価する。 我々は、一般的なウェイトノルムの代わりに、モデル性能の優れた尺度として、ロジッツ・マグニチュードと呼ばれる新しい指標を提案する。 しかし、トレーニング中に新しいメトリックを直接最適化することは困難であるため、正規化標準偏差と呼ばれる適切な近似不変量を導入する。 新たに提案した2つの指標から,ほぼバランスの取れた場合のログの絶対値の低減は,トレーニング中のエラーや障害を効果的に低減し,モデル性能の向上につながることを証明した。 本研究の目的は,クラスごとのサンプル数に関する事前知識を必要とせず,簡単なロジット再ターゲティングアプローチ(LORT)を開発することである。 LORTは、元の1ホットラベルを小さな真のラベル確率と、各クラスに分散した大きな負のラベル確率に分割する。 CIFAR100-LT, ImageNet-LT, iNaturalist2018 など,様々な不均衡データセットの最先端性能を実現する。

In the long-tailed recognition field, the Decoupled Training paradigm has demonstrated remarkable capabilities among various methods. This paradigm decouples the training process into separate representation learning and classifier re-training. Previous works have attempted to improve both stages simultaneously, making it difficult to isolate the effect of classifier re-training. Furthermore, recent empirical studies have demonstrated that simple regularization can yield strong feature representations, emphasizing the need to reassess existing classifier re-training methods. In this study, we revisit classifier re-training methods based on a unified feature representation and re-evaluate their performances. We propose a new metric called Logits Magnitude as a superior measure of model performance, replacing the commonly used Weight Norm. However, since it is hard to directly optimize the new metric during training, we introduce a suitable approximate invariant called Regularized Standard Deviation. Based on the two newly proposed metrics, we prove that reducing the absolute value of Logits Magnitude when it is nearly balanced can effectively decrease errors and disturbances during training, leading to better model performance. Motivated by these findings, we develop a simple logits retargeting approach (LORT) without the requirement of prior knowledge of the number of samples per class. LORT divides the original one-hot label into small true label probabilities and large negative label probabilities distributed across each class. Our method achieves state-of-the-art performance on various imbalanced datasets, including CIFAR100-LT, ImageNet-LT, and iNaturalist2018.
翻訳日:2024-03-05 18:26:29 公開日:2024-03-01
# 視覚言語事前学習のためのセマンティクス強調クロスモーダルマスク画像モデリング

Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training ( http://arxiv.org/abs/2403.00249v1 )

ライセンス: Link先を確認
Haowei Liu, Yaya Shi, Haiyang Xu, Chunfeng Yuan, Qinghao Ye, Chenliang Li, Ming Yan, Ji Zhang, Fei Huang, Bing Li, Weiming Hu(参考訳) 視覚言語事前学習(VLP)において、マスク付き画像モデリング(MIM)が最近導入されている。 しかし、ほとんどの既存の手法では、mimの再構築対象は高レベルセマンティクスが欠如しており、テキストはマスキングモデリングに十分に関与していない。 これらの2つの欠点は、モーダル間のセマンティックアライメントを促進するMIMの効果を制限する。 本研究では,視覚言語表現学習のためのセマンティックス強化型クロスモーダルMIMフレームワーク(SemMIM)を提案する。 具体的には,mimに対してより意味的に意味のある監督を提供するために,自己教師付き合意学習を通じてグローバル画像特徴からハイレベルな意味を抽出し,符号化空間を共有して局所パッチエンコーディングに転送する,局所的意味論拡張手法を提案する。 さらに,MIMプロセス全体におけるテキストの深い関与を実現するために,テキスト誘導型マスキング戦略を提案し,マスク付きモデリングと再構築ターゲット獲得の両方においてテキスト情報を効率的に注入する方法を考案した。 実験により,mimタスクの有効性が向上し,クロスモーダルセマンティクスアライメントが容易になることを確認した。 類似したモデルサイズとデータスケールを持つ従来のVLPモデルと比較して、SemMIMモデルは、複数の下流視覚言語タスクで最先端または競合的なパフォーマンスを達成する。

In vision-language pre-training (VLP), masked image modeling (MIM) has recently been introduced for fine-grained cross-modal alignment. However, in most existing methods, the reconstruction targets for MIM lack high-level semantics, and text is not sufficiently involved in masked modeling. These two drawbacks limit the effect of MIM in facilitating cross-modal semantic alignment. In this work, we propose a semantics-enhanced cross-modal MIM framework (SemMIM) for vision-language representation learning. Specifically, to provide more semantically meaningful supervision for MIM, we propose a local semantics enhancing approach, which harvest high-level semantics from global image features via self-supervised agreement learning and transfer them to local patch encodings by sharing the encoding space. Moreover, to achieve deep involvement of text during the entire MIM process, we propose a text-guided masking strategy and devise an efficient way of injecting textual information in both masked modeling and reconstruction target acquisition. Experimental results validate that our method improves the effectiveness of the MIM task in facilitating cross-modal semantic alignment. Compared to previous VLP models with similar model size and data scale, our SemMIM model achieves state-of-the-art or competitive performance on multiple downstream vision-language tasks.
翻訳日:2024-03-05 18:26:03 公開日:2024-03-01
# 高次元量子状態に対するシュミット数証人の家族

Families of Schmidt-number witnesses for high dimensional quantum states ( http://arxiv.org/abs/2403.00248v1 )

ライセンス: Link先を確認
Xian Shi(参考訳) 高次元の絡み合った状態は、量子情報処理タスクにおいて大きな利点を示す。 シュミット数(schmidt number)は、二成分状態の絡み合い次元の量である。 ここでは、対称情報完全正の作用素値測定と相互に偏りのない基底からk-正写像の族を構築し、それに対応するシュミット数証人も提示する。 最後に、相互に偏りのない基底から得られた証人に基づいて、シュミット数 k 未満の2成分状態と状態の集合との間の距離を示す。

Higher dimensional entangled states demonstrate significant advantages in quantum information processing tasks. Schmidt number is a quantity on the entanglement dimension of a bipartite state. Here we build families of k-positive maps from the symmetric information complete positive operator-valued measurements and mutually unbiased bases, and we also present the Schmidt number witnesses, correspondingly. At last, based on the witnesses obtained from mutually unbiased bases, we show the distance between a bipartite state and the set of states with Schmidt number less than k.
翻訳日:2024-03-05 18:25:41 公開日:2024-03-01
# バイオメディカル画像のためのマルチタスクインタラクションネットワークYOLO-MED

YOLO-MED : Multi-Task Interaction Network for Biomedical Images ( http://arxiv.org/abs/2403.00245v1 )

ライセンス: Link先を確認
Suizhi Huang, Shalayiding Sirejiding, Yuxiang Lu, Yue Ding, Leheng Liu, Hui Zhou, Hongtao Lu(参考訳) オブジェクト検出とセマンティックセグメンテーションは、バイオメディカル画像解析において重要な要素である。 現在のシングルタスクネットワークは、検出タスクとセグメンテーションタスクの両方において有望な結果を示す。 マルチタスクネットワークは、セグメンテーションと検出タスクを同時に取り扱う能力と、セグメンテーション推論の高速化によって、注目を集めている。 しかし、近年のマルチタスクネットワークは、精度と推論速度のバランスを崩すことの難しさなど、明確な制限に直面している。 さらに、バイオメディカル画像解析において特に重要なクロススケール機能の統合を見落としていることが多い。 本研究では,オブジェクト検出と意味セマンティクスセグメンテーションを同時に行うことができる効率的なエンドツーエンドマルチタスクネットワークであるyolo-medを提案する。 本モデルは,2つのタスク固有デコーダを組み込んだマルチスケール特徴抽出にバックボーンとネックを用いる。 様々なタスク間の情報融合を容易にするために、クロススケールなタスク-インタラクションモジュールが使用される。 Kvasir-segデータセットとプライベートバイオメディカルイメージデータセットで評価すると,精度と速度のバランスが期待できる結果が得られた。

Object detection and semantic segmentation are pivotal components in biomedical image analysis. Current single-task networks exhibit promising outcomes in both detection and segmentation tasks. Multi-task networks have gained prominence due to their capability to simultaneously tackle segmentation and detection tasks, while also accelerating the segmentation inference. Nevertheless, recent multi-task networks confront distinct limitations such as the difficulty in striking a balance between accuracy and inference speed. Additionally, they often overlook the integration of cross-scale features, which is especially important for biomedical image analysis. In this study, we propose an efficient end-to-end multi-task network capable of concurrently performing object detection and semantic segmentation called YOLO-Med. Our model employs a backbone and a neck for multi-scale feature extraction, complemented by the inclusion of two task-specific decoders. A cross-scale task-interaction module is employed in order to facilitate information fusion between various tasks. Our model exhibits promising results in balancing accuracy and speed when evaluated on the Kvasir-seg dataset and a private biomedical image dataset.
翻訳日:2024-03-05 18:25:32 公開日:2024-03-01
# CASIMIR:複数著者による改訂による科学論文のコーパス

CASIMIR: A Corpus of Scientific Articles enhanced with Multiple Author-Integrated Revisions ( http://arxiv.org/abs/2403.00241v1 )

ライセンス: Link先を確認
Leane Jourdan, Florian Boudin, Nicolas Hernandez, Richard Dufour(参考訳) 科学的論文を書くことは、高度に体系化された特定のジャンルであるため、研究成果やアイデアを効果的に伝達するためには、文章によるコミュニケーションの熟練が不可欠である。 本稿では,学術論文の執筆過程の改訂段階における原文資源を提案する。 この新しいデータセットはCASIMIRと呼ばれ、OpenReviewの15,646の科学論文の改訂版とピアレビューを含んでいる。 談話レベルでの今後の改訂研究を支援するメタデータとして、段落位置情報を保持しつつ、記事の連続バージョンを文レベルで整列する。 各改訂文は、自動的に抽出された編集と関連する修正意図で濃縮される。 データセットの初期品質を評価するために,いくつかの最先端テキストリビジョン手法の質的研究を行い,様々な評価指標を比較した。 実験の結果,テキスト改訂作業における現在の評価手法の妥当性が疑問視された。

Writing a scientific article is a challenging task as it is a highly codified and specific genre, consequently proficiency in written communication is essential for effectively conveying research findings and ideas. In this article, we propose an original textual resource on the revision step of the writing process of scientific articles. This new dataset, called CASIMIR, contains the multiple revised versions of 15,646 scientific articles from OpenReview, along with their peer reviews. Pairs of consecutive versions of an article are aligned at sentence-level while keeping paragraph location information as metadata for supporting future revision studies at the discourse level. Each pair of revised sentences is enriched with automatically extracted edits and associated revision intention. To assess the initial quality on the dataset, we conducted a qualitative study of several state-of-the-art text revision approaches and compared various evaluation metrics. Our experiments led us to question the relevance of the current evaluation methods for the text revision task.
翻訳日:2024-03-05 18:25:14 公開日:2024-03-01
# FlanT5-XXLによるゼロショットスタンス検出のベンチマーク:トレーニングデータ、プロンプト、デコード戦略からSoTAに近いパフォーマンスへの洞察

Benchmarking zero-shot stance detection with FlanT5-XXL: Insights from training data, prompting, and decoding strategies into its near-SoTA performance ( http://arxiv.org/abs/2403.00236v1 )

ライセンス: Link先を確認
Rachith Aiyappa, Shruthi Senthilmani, Jisun An, Haewoon Kwak, Yong-Yeol Ahn(参考訳) ツイートにおけるLDMに基づくゼロショット位置検出の性能について検討する。 SemEval 2016 Tasks 6A, 6B, P-Stance データセットを用いた, 命令調整型オープンソース LLM である FlanT5-XXL を用いて, 異なるプロンプトおよびデコード戦略の下での性能とその変動, およびモデルの潜在的なバイアスについて検討した。 ゼロショットアプローチは、微調整されたモデルを含む最先端のベンチマークと一致または性能が良くなることを示す。 我々は,指示やプロンプトに対する感受性,デコード戦略,プロンプトの複雑度,プロンプトに存在する否定や反対点など,パフォーマンスに関するさまざまな洞察を提供する。 最後に、LLMがテストデータセットでトレーニングされていないことを保証し、デコード戦略間の性能差を部分的に説明できる肯定バイアスを特定する。

We investigate the performance of LLM-based zero-shot stance detection on tweets. Using FlanT5-XXL, an instruction-tuned open-source LLM, with the SemEval 2016 Tasks 6A, 6B, and P-Stance datasets, we study the performance and its variations under different prompts and decoding strategies, as well as the potential biases of the model. We show that the zero-shot approach can match or outperform state-of-the-art benchmarks, including fine-tuned models. We provide various insights into its performance including the sensitivity to instructions and prompts, the decoding strategies, the perplexity of the prompts, and to negations and oppositions present in prompts. Finally, we ensure that the LLM has not been trained on test datasets, and identify a positivity bias which may partially explain the performance differences across decoding strategie
翻訳日:2024-03-05 18:24:58 公開日:2024-03-01
# 剛ヒルベルト空間アプローチにおける Identical Particle Systems のための Bra-Ket Formalism の一般構築

General Construction of Bra-Ket Formalism for Identical Particle Systems in Rigged Hilbert Space Approach ( http://arxiv.org/abs/2403.00234v1 )

ライセンス: Link先を確認
S. Ohmori and J. Takahashi(参考訳) 本研究は、R. Madrid (J. Phys. A:Math. Gen. 37, 8129 (2004)) によって修正されたリップされたヒルベルト空間を拡張する同一粒子系に対するディラックのブラケット形式について論じる。 同一粒子系の基礎を形成する複合系のブラベクトルとケトベクトルは、厳密なヒルベルト空間のテンソル積を用いて再構成され、それらは核空間のテンソル積の双対空間で特徴づけられた。 この論文で活用される証明は、物理学で用いられる形式と似ているが、数学的には厳密である。 この定式化は、量子統計力学や量子場理論のような摂動理論に基づく現代の量子理論の基礎を築いた。

This study discussed Dirac's bra-ket formalism for the identical particles system to extend the rigged Hilbert space reformulated by R. Madrid [J. Phys. A:Math. Gen. 37, 8129 (2004)]. The bra and ket vectors for a composite system that form the basis of an identical particle system were reconstructed using the tensor product of rigged Hilbert space.They were found to be characterized in the dual spaces of the tensor product of nuclear spaces. The proofs utilized in this paper adopt a format similar to that used in physics, yet they will be mathematically rigorous. This formulation lays the foundation for modern quantum theories based on perturbation theory, such as quantum statistical mechanics and quantum field theory.
翻訳日:2024-03-05 18:24:38 公開日:2024-03-01
# 一般因果モデルと介入による因果帯域

Causal Bandits with General Causal Models and Interventions ( http://arxiv.org/abs/2403.00233v1 )

ライセンス: Link先を確認
Zirui Yan, Dennis Wei, Dmitriy Katz-Rogozhnikov, Prasanna Sattigeri, Ali Tajer(参考訳) 本稿では,因果システムにおける介入の逐次設計のための因果的バンディット(cbs)について考察する。 報酬関数の最適化は、後ろ向きの介入の最良の順序に関して、累積的後悔の尺度を最小化することで行う。 論文はcbsの成果を3方向に前進させる。 まず、構造因果モデル(scms)は未知であると仮定され、リプシッツ連続関数の一般クラス $\mathcal{f}$ から任意に引き出される。 既存の結果は、しばしば(一般化された)線形SCMに焦点を当てる。 第二に、介入は任意の所望の粒度で軟らかく一般化され、無限に多くの介入が可能となると仮定される。 対照的に、既存の文献は一般に原子とハードの介入を採用する。 第3に、後悔の一般的な上層部と下層部を提供する。 上限は特別な場合の既知の境界を補う(そして改良する)。 下限は一般に不明である。 これらの境界は関数として特徴づけられる (i)グラフパラメータ。 (ii)scmの空間のeluder次元、$\operatorname{dim}(\mathcal{f})$、および (iii) 関数空間の被覆数は、${\rm cn}(\mathcal{f})$ で表される。 具体的には、水平線上の累積的達成可能な後悔は$T$が$\mathcal{O}(K d^{L-1}\sqrt{T\operatorname{dim}(\mathcal{F}) \log({\rm cn}(\mathcal{F}))}$である。 上界は、SCM(神経ネットワーク、多項式、線形)の特殊クラスに対してさらに洗練され、対応する下界が提供される。

This paper considers causal bandits (CBs) for the sequential design of interventions in a causal system. The objective is to optimize a reward function via minimizing a measure of cumulative regret with respect to the best sequence of interventions in hindsight. The paper advances the results on CBs in three directions. First, the structural causal models (SCMs) are assumed to be unknown and drawn arbitrarily from a general class $\mathcal{F}$ of Lipschitz-continuous functions. Existing results are often focused on (generalized) linear SCMs. Second, the interventions are assumed to be generalized soft with any desired level of granularity, resulting in an infinite number of possible interventions. The existing literature, in contrast, generally adopts atomic and hard interventions. Third, we provide general upper and lower bounds on regret. The upper bounds subsume (and improve) known bounds for special cases. The lower bounds are generally hitherto unknown. These bounds are characterized as functions of the (i) graph parameters, (ii) eluder dimension of the space of SCMs, denoted by $\operatorname{dim}(\mathcal{F})$, and (iii) the covering number of the function space, denoted by ${\rm cn}(\mathcal{F})$. Specifically, the cumulative achievable regret over horizon $T$ is $\mathcal{O}(K d^{L-1}\sqrt{T\operatorname{dim}(\mathcal{F}) \log({\rm cn}(\mathcal{F}))})$, where $K$ is related to the Lipschitz constants, $d$ is the graph's maximum in-degree, and $L$ is the length of the longest causal path. The upper bound is further refined for special classes of SCMs (neural network, polynomial, and linear), and their corresponding lower bounds are provided.
翻訳日:2024-03-05 18:24:21 公開日:2024-03-01
# 循環型MCMCサンプリングについて

On Cyclical MCMC Sampling ( http://arxiv.org/abs/2403.00230v1 )

ライセンス: Link先を確認
Liwei Wang, Xinru Liu, Aaron Smith, Yves Atchade(参考訳) Cyclical MCMC は Zhang et al. (2019) によって最近提案された新しいMCMCフレームワークで、深層学習で発生するような高次元の多モード後部分布による課題に対処する。 このアルゴリズムは、ターゲット分布の時間的テンパリングバージョンを追跡する非均質なマルコフ連鎖を生成することで動作する。 この研究において、マルコフ核が高速混合であり、十分に長いサイクルが用いられる設定において、循環MCMCが所望の確率分布に収束することを示す。 しかし、遅い混合カーネルのより一般的な設定では、アルゴリズムは所望の分布からサンプルを生成することができない。 特に、不等分散を伴う単純な混合例では、循環MCMCが所望の極限に収束しないことを示すシミュレーションによって示される。 最後に、循環型MCMCは、通常、目標に収束していない場合でも、各モードの周囲の目標分布の局所的な形状をよく推定する。

Cyclical MCMC is a novel MCMC framework recently proposed by Zhang et al. (2019) to address the challenge posed by high-dimensional multimodal posterior distributions like those arising in deep learning. The algorithm works by generating a nonhomogeneous Markov chain that tracks -- cyclically in time -- tempered versions of the target distribution. We show in this work that cyclical MCMC converges to the desired probability distribution in settings where the Markov kernels used are fast mixing, and sufficiently long cycles are employed. However in the far more common settings of slow mixing kernels, the algorithm may fail to produce samples from the desired distribution. In particular, in a simple mixture example with unequal variance, we show by simulation that cyclical MCMC fails to converge to the desired limit. Finally, we show that cyclical MCMC typically estimates well the local shape of the target distribution around each mode, even when we do not have convergence to the target.
翻訳日:2024-03-05 18:23:21 公開日:2024-03-01
# 微分プライバシーのためのシフト補間

Shifted Interpolation for Differential Privacy ( http://arxiv.org/abs/2403.00278v1 )

ライセンス: Link先を確認
Jinho Bok, Weijie Su, Jason M. Altschuler(参考訳) 雑音勾配勾配とその変種は、微分プライベート機械学習の主要なアルゴリズムである。 プライバシー漏洩の定量化は基本的な問題だが、凸損失の基本的な設定においても、厳密な特徴が残っている。 本稿では,プライバシ損失のすべての側面を厳密に把握し,差分プライバシーの他の概念(例えば$(\varepsilon,\delta)$-DP,Renyi DPなど)において,より厳密なプライバシ会計を示唆する,$f$差分プライバシの統一フレームワークにおける"プライバシ・アンプリフィケーション・バイ・イテレーション(privacy amplification by iteration)"現象の確立(および改善)により,従来の分析よりも改善する。 我々の重要な技術的洞察は、人気のあるシフト分岐の議論を解き、DPの発散に基づく緩和以上の一般化を可能にする、シフト補間プロセスの構築である。 これは、強い凸最適化の基本的な設定において、最初の正確なプライバシー分析につながる。 当社の手法は,凸/強凸,拘束/非拘束,完全/周期/確率バッチ,およびそれらの組み合わせなど,多くの設定に拡張されている。 直近の系として、Gopi et al. (2022) における強い凸最適化のための指数的メカニズムの$f$-DP特性を回復し、さらにこの結果をより一般的な設定にまで拡張する。

Noisy gradient descent and its variants are the predominant algorithms for differentially private machine learning. It is a fundamental question to quantify their privacy leakage, yet tight characterizations remain open even in the foundational setting of convex losses. This paper improves over previous analyses by establishing (and refining) the "privacy amplification by iteration" phenomenon in the unifying framework of $f$-differential privacy--which tightly captures all aspects of the privacy loss and immediately implies tighter privacy accounting in other notions of differential privacy, e.g., $(\varepsilon,\delta)$-DP and Renyi DP. Our key technical insight is the construction of shifted interpolated processes that unravel the popular shifted-divergences argument, enabling generalizations beyond divergence-based relaxations of DP. Notably, this leads to the first exact privacy analysis in the foundational setting of strongly convex optimization. Our techniques extend to many settings: convex/strongly convex, constrained/unconstrained, full/cyclic/stochastic batches, and all combinations thereof. As an immediate corollary, we recover the $f$-DP characterization of the exponential mechanism for strongly convex optimization in Gopi et al. (2022), and moreover extend this result to more general settings.
翻訳日:2024-03-05 18:19:33 公開日:2024-03-01
# 複数の言語にわたる大規模言語モデルにおけるジェンダーバイアス

Gender Bias in Large Language Models across Multiple Languages ( http://arxiv.org/abs/2403.00277v1 )

ライセンス: Link先を確認
Jinman Zhao, Yitian Ding, Chen Jia, Yining Wang, Zifan Qian(参考訳) 様々なアプリケーションにまたがる大規模言語モデル(LLM)の展開が進み、LLMに埋め込まれた性別バイアスの影響を評価することが重要である。 自然言語処理(NLP)の領域におけるジェンダーバイアスの話題は、特に英語の文脈において、かなり注目されている。 それでも、英語以外の言語における性バイアスの調査は、いまだに未調査であり、不十分に分析されている。 本研究では,異なる言語に対するLPMの生成する出力の性別バイアスについて検討する。 3つの測定値を使います 1) 性別関連文脈から記述的単語を選択する際の性別バイアス。 2)性別関連代名詞の選択における性別バイアス(she/he) 3)llm生成対話の話題におけるジェンダーバイアス 3つの測定方法を用いて,各種言語における llm の gpt 系列の出力について検討した。 その結果,全言語に有意な男女差が認められた。

With the growing deployment of large language models (LLMs) across various applications, assessing the influence of gender biases embedded in LLMs becomes crucial. The topic of gender bias within the realm of natural language processing (NLP) has gained considerable focus, particularly in the context of English. Nonetheless, the investigation of gender bias in languages other than English is still relatively under-explored and insufficiently analyzed. In this work, We examine gender bias in LLMs-generated outputs for different languages. We use three measurements: 1) gender bias in selecting descriptive words given the gender-related context. 2) gender bias in selecting gender-related pronouns (she/he) given the descriptive words. 3) gender bias in the topics of LLM-generated dialogues. We investigate the outputs of the GPT series of LLMs in various languages using our three measurement methods. Our findings revealed significant gender biases across all the languages we examined.
翻訳日:2024-03-05 18:19:00 公開日:2024-03-01
# 交通需要予測のためのフレキシブルノードを用いたグラフ構築

Graph Construction with Flexible Nodes for Traffic Demand Prediction ( http://arxiv.org/abs/2403.00276v1 )

ライセンス: Link先を確認
Jinyan Hou, Shan Liu, Ya Zhang and Haotong Qin(参考訳) グラフニューラルネットワーク(GNN)は交通需要予測に広く適用されており、輸送モードはステーションベースモードとフリーフローティングトラフィックモードに分けることができる。 既存のトラヒックグラフ構築の研究は、主に道路ネットワークに基づくグラフ構築のためのマップマッチングに依存している。 しかし、自由浮遊交通需要予測におけるデータ分布の複雑さと不均一性は、道路網の柔軟性を損なう。 これらの課題に対処するために,自由フロート交通モードに適したグラフ構築手法を提案する。 本稿では,従来のクラスタリングアルゴリズムの計算ボトルネックを克服し,大規模データセットの効率的な処理を可能にする,新しい密度ベースクラスタリングアルゴリズム(hdpc-l)を提案する。 さらに,GNNのエッジ重みを初期化するために,乗客データから貴重な情報を抽出する。 深セン自転車シェアリングデータセットとハイコウライドシェアリングデータセットの2つの実世界のデータセットに関する総合的な実験は、この手法がモデルの性能を大幅に改善することを示している。 平均すると、2つのデータセットで約25\%と19.5\%の精度が向上している。 さらに、計算効率を大幅に向上させ、トレーニング時間を2つのデータセットで約12%、32.5%削減する。 コードはhttps://github.com/houjinyan/HDPC-L-ODInit.comで公開しています。

Graph neural networks (GNNs) have been widely applied in traffic demand prediction, and transportation modes can be divided into station-based mode and free-floating traffic mode. Existing research in traffic graph construction primarily relies on map matching to construct graphs based on the road network. However, the complexity and inhomogeneity of data distribution in free-floating traffic demand forecasting make road network matching inflexible. To tackle these challenges, this paper introduces a novel graph construction method tailored to free-floating traffic mode. We propose a novel density-based clustering algorithm (HDPC-L) to determine the flexible positioning of nodes in the graph, overcoming the computational bottlenecks of traditional clustering algorithms and enabling effective handling of large-scale datasets. Furthermore, we extract valuable information from ridership data to initialize the edge weights of GNNs. Comprehensive experiments on two real-world datasets, the Shenzhen bike-sharing dataset and the Haikou ride-hailing dataset, show that the method significantly improves the performance of the model. On average, our models show an improvement in accuracy of around 25\% and 19.5\% on the two datasets. Additionally, it significantly enhances computational efficiency, reducing training time by approximately 12% and 32.5% on the two datasets. We make our code available at https://github.com/houjinyan/HDPC-L-ODInit.
翻訳日:2024-03-05 18:18:48 公開日:2024-03-01
# 多モードボソニック系におけるクロストークロバスト量子制御

Crosstalk-Robust Quantum Control in Multimode Bosonic Systems ( http://arxiv.org/abs/2403.00275v1 )

ライセンス: Link先を確認
Xinyuan You, Yunwei Lu, Taeyoon Kim, Doga Murat Kurkcuoglu, Shaojiang Zhu, David van Zanten, Tanay Roy, Yao Lu, Srivatsan Chakram, Anna Grassellino, Alexander Romanenko, Jens Koch, and Silvia Zorzetti(参考訳) 高コヒーレンス超伝導キャビティは、量子情報処理のためのハードウェア効率の良いプラットフォームを提供する。 これらのボソニックモードの普遍的な操作を実現するために、トランスモンアンシラに結合することで、必要な非線形性を実現する。 しかし、この構成は、結合したボソニックモードの状態によってアンシラ周波数が極端にシフトする分散状態において、クロストークエラーに影響を受けやすい。 これにより、アンシラドライブの周波数ミスマッチが発生し、ゲート密度が低下する。 このようなコヒーレントな誤差を軽減するため、周波数シフトにロバストなアンシラパルスを設計するために量子最適制御を用いる。 これらの最適化パルスはその後、単一モードと2モードの操作を実行するために最近開発されたエコー条件変位(ECD)プロトコルに統合される。 数値シミュレーションにより,スペクタモードの存在下での単一モードフォック状態の生成と2モードのベルキャット状態の生成の2つの代表的なシナリオについて検討した。 提案手法はクロストークの誤りを著しく抑制し,従来のアンシラ制御法を桁違いに向上させる。 これらの結果は、高忠実度マルチモード演算を実験的に達成するためのガイダンスを提供し、高性能なボソニック量子情報プロセッサの開発への道を開く。

High-coherence superconducting cavities offer a hardware-efficient platform for quantum information processing. To achieve universal operations of these bosonic modes, the requisite nonlinearity is realized by coupling them to a transmon ancilla. However, this configuration is susceptible to crosstalk errors in the dispersive regime, where the ancilla frequency is Stark-shifted by the state of each coupled bosonic mode. This leads to a frequency mismatch of the ancilla drive, lowering the gate fidelities. To mitigate such coherent errors, we employ quantum optimal control to engineer ancilla pulses that are robust to the frequency shifts. These optimized pulses are subsequently integrated into a recently developed echoed conditional displacement (ECD) protocol for executing single- and two-mode operations. Through numerical simulations, we examine two representative scenarios: the preparation of single-mode Fock states in the presence of spectator modes and the generation of two-mode entangled Bell-cat states. Our approach markedly suppresses crosstalk errors, outperforming conventional ancilla control methods by orders of magnitude. These results provide guidance for experimentally achieving high-fidelity multimode operations and pave the way for developing high-performance bosonic quantum information processors.
翻訳日:2024-03-05 18:18:24 公開日:2024-03-01
# customlistener: ユーザフレンドリーなリスニングヘッド生成のためのテキストガイドレスポンシブインタラクション

CustomListener: Text-guided Responsive Interaction for User-friendly Listening Head Generation ( http://arxiv.org/abs/2403.00274v1 )

ライセンス: Link先を確認
Xi Liu, Ying Guo, Cheng Zhen, Tong Li, Yingying Ao, Pengfei Yan(参考訳) 動的変換における話者とリスナーの相関をモデル化し,非言語対応型リスナーヘッドを合成することを目的として,仮想対話におけるリスナーエージェント生成の適用により,多種多様かつきめ細かな動作生成を実現する多くの作業が促進されている。 しかし、単純な感情ラベルによってのみ動作を操作できるが、聴取者の動作を自由に制御することはできない。 リスナーエージェントは、ユーザーが自由にカスタマイズできる人間のような属性(アイデンティティ、パーソナリティなど)を持つべきであるため、現実主義は制限される。 本稿では,自由形式のテキスト先行ガイドリスナ生成を実現するために,customlistenerと呼ばれるユーザフレンドリーなフレームワークを提案する。 話者-リスナー調整を実現するため,話者情報と対話する静的・ダイナミック・ポートレート・モジュール (SDP) を設計し,完成リズムと振幅情報を用いて静的テキストを動的ポートレートトークンに変換する。 セグメント間のコヒーレンスを実現するために,先行動作によるカスタマイズされたリスナ属性の整合性を維持するために過去のガイド生成モジュール(PGG)を設計し,その制御可能な生成を実現する前に,ポートレートトークンとモーションに条件付けられた拡散に基づく構造を利用する。 我々のモデルをトレーニングし評価するために、テキストとビデオのペアラベルを提供するViCoとRealTalkに基づく2つのテキストアノテートヘッドデータセットを構築した。 広範な実験により,本モデルの有効性が検証された。

Listening head generation aims to synthesize a non-verbal responsive listener head by modeling the correlation between the speaker and the listener in dynamic conversion.The applications of listener agent generation in virtual interaction have promoted many works achieving the diverse and fine-grained motion generation. However, they can only manipulate motions through simple emotional labels, but cannot freely control the listener's motions. Since listener agents should have human-like attributes (e.g. identity, personality) which can be freely customized by users, this limits their realism. In this paper, we propose a user-friendly framework called CustomListener to realize the free-form text prior guided listener generation. To achieve speaker-listener coordination, we design a Static to Dynamic Portrait module (SDP), which interacts with speaker information to transform static text into dynamic portrait token with completion rhythm and amplitude information. To achieve coherence between segments, we design a Past Guided Generation Module (PGG) to maintain the consistency of customized listener attributes through the motion prior, and utilize a diffusion-based structure conditioned on the portrait token and the motion prior to realize the controllable generation. To train and evaluate our model, we have constructed two text-annotated listening head datasets based on ViCo and RealTalk, which provide text-video paired labels. Extensive experiments have verified the effectiveness of our model.
翻訳日:2024-03-05 18:17:53 公開日:2024-03-01
# ARED:アルゼンチンの不動産データ

ARED: Argentina Real Estate Dataset ( http://arxiv.org/abs/2403.00273v1 )

ライセンス: Link先を確認
Iv\'an Belenky(参考訳) アルゼンチンの不動産市場は、不安定で急速なマクロ経済の状況の変化を特徴とするユニークなケーススタディを提示している。 価格予測用のデータセットはいくつか存在するが、アルゼンチンに特化している混合モダリティデータセットは存在しない。 本稿では,AREDの第1版を紹介する。 アルゼンチン市場向けに設計された総合不動産価格予測データセットシリーズ。 この版はjan-feb 2024のみの情報を含んでいる。 このゼロ版(44日)で捉えられた短い時間範囲にもかかわらず、時間依存現象は市場レベル(市場全体)でほとんど起きていることが判明した。 それでも、このデータセットの将来版は、おそらく歴史的データを含んでいるだろう。 AREDの各リストは、記述的な特徴と可変長のイメージからなる。

The Argentinian real estate market presents a unique case study characterized by its unstable and rapidly shifting macroeconomic circumstances over the past decades. Despite the existence of a few datasets for price prediction, there is a lack of mixed modality datasets specifically focused on Argentina. In this paper, the first edition of ARED is introduced. A comprehensive real estate price prediction dataset series, designed for the Argentinian market. This edition contains information solely for Jan-Feb 2024. It was found that despite the short time range captured by this zeroth edition (44 days), time dependent phenomena has been occurring mostly on a market level (market as a whole). Nevertheless future editions of this dataset, will most likely contain historical data. Each listing in ARED comprises descriptive features, and variable-length sets of images.
翻訳日:2024-03-05 18:17:07 公開日:2024-03-01
# Dual Pose-invariant Embeddings:認識と検索のための学習カテゴリーとオブジェクト固有の識別表現

Dual Pose-invariant Embeddings: Learning Category and Object-specific Discriminative Representations for Recognition and Retrieval ( http://arxiv.org/abs/2403.00272v1 )

ライセンス: Link先を確認
Rohan Sarkar, Avinash Kak(参考訳) ポーズ不変オブジェクト認識と検索の文脈において,学習中にカテゴリベースとオブジェクトidベースの両方が同時に学習された場合,性能が大幅に向上することを示す。 なぜなら、カテゴリについて学ぶことは、カテゴリに対応する個々のオブジェクトについて学ぶことよりも、より基本的なことです。 しかしながら、我々が知る限りでは、ポーズ不変学習における先行研究がこの効果を証明していない。 本稿では,2つの異なる埋め込み空間においてクラス間距離とクラス内距離を同時に最適化する,特別に設計された損失関数を備えた注意に基づくデュアルエンコーダアーキテクチャを提案する。 私たちが提案した損失関数は、クラス内距離を最小化し、双対表現空間におけるクラス間距離を最大化するために設計された、ポーズ不変ランキング損失である。 我々は、ModelNet-40、ObjectPI、FG3Dという3つの挑戦的なマルチビューデータセットを用いて、このアプローチのパワーを実証する。 シングルビューのオブジェクト認識では、ModelNet40では20.0%、ObjectPIでは2.0%、FG3Dでは46.5%を上回りました。 一方、シングルビューのオブジェクト検索では、ModelNet40では33.7%、ObjectPIでは18.8%、FG3Dでは56.9%で前年より優れていた。

In the context of pose-invariant object recognition and retrieval, we demonstrate that it is possible to achieve significant improvements in performance if both the category-based and the object-identity-based embeddings are learned simultaneously during training. In hindsight, that sounds intuitive because learning about the categories is more fundamental than learning about the individual objects that correspond to those categories. However, to the best of what we know, no prior work in pose-invariant learning has demonstrated this effect. This paper presents an attention-based dual-encoder architecture with specially designed loss functions that optimize the inter- and intra-class distances simultaneously in two different embedding spaces, one for the category embeddings and the other for the object-level embeddings. The loss functions we have proposed are pose-invariant ranking losses that are designed to minimize the intra-class distances and maximize the inter-class distances in the dual representation spaces. We demonstrate the power of our approach with three challenging multi-view datasets, ModelNet-40, ObjectPI, and FG3D. With our dual approach, for single-view object recognition, we outperform the previous best by 20.0% on ModelNet40, 2.0% on ObjectPI, and 46.5% on FG3D. On the other hand, for single-view object retrieval, we outperform the previous best by 33.7% on ModelNet40, 18.8% on ObjectPI, and 56.9% on FG3D.
翻訳日:2024-03-05 18:16:51 公開日:2024-03-01
# スパイクニューラルネットワークのためのイベント駆動学習

Event-Driven Learning for Spiking Neural Networks ( http://arxiv.org/abs/2403.00270v1 )

ライセンス: Link先を確認
Wenjie Wei, Malu Zhang, Jilin Zhang, Ammar Belatreche, Jibin Wu, Zijing Xu, Xuerui Qiu, Hong Chen, Yang Yang, Haizhou Li(参考訳) 脳にインスパイアされたスパイクニューラルネットワーク(SNN)は、ニューロモルフィックハードウェアのフィードフォワード推論中に低エネルギー消費のため、ニューロモルフィックコンピューティングの分野で注目されている。 しかし、バックプロパゲーション学習コストを最小限に抑えるために、SNNのスパースなイベント駆動特性を効果的に活用する方法は、依然としてオープンな課題である。 本稿では,既存のイベント駆動学習アルゴリズムの包括的検証を行い,その限界を明らかにし,その克服のための新しい解を提案する。 具体的には、スパイクタイミング依存イベント駆動(STD-ED)と膜電位依存イベント駆動(MPD-ED)の2つの新しい学習手法を紹介する。 これらのアルゴリズムは、それぞれ正確な神経スパイクタイミングと膜電位を有効学習に活用する。 2つの手法は静的データセットとニューロモルフィックデータセット上で広範囲に評価され、その優れた性能を確認している。 std-edでは最大2.51%、cifar-100データセットではmpd-edでは6.79%となっている。 さらに,本手法のニューロモルフィックハードウェアにおけるエネルギー効率を理論的,実験的に検証した。 オンチップ学習実験は、時間ステップベースの代理勾配法よりも30倍のエネルギー消費削減を実現した。 提案したイベント駆動学習手法の有効性と有効性は、ニューロモルフィックコンピューティングの分野を著しく進歩させる可能性を強調し、エネルギー効率の応用に期待できる道を提供する。

Brain-inspired spiking neural networks (SNNs) have gained prominence in the field of neuromorphic computing owing to their low energy consumption during feedforward inference on neuromorphic hardware. However, it remains an open challenge how to effectively benefit from the sparse event-driven property of SNNs to minimize backpropagation learning costs. In this paper, we conduct a comprehensive examination of the existing event-driven learning algorithms, reveal their limitations, and propose novel solutions to overcome them. Specifically, we introduce two novel event-driven learning methods: the spike-timing-dependent event-driven (STD-ED) and membrane-potential-dependent event-driven (MPD-ED) algorithms. These proposed algorithms leverage precise neuronal spike timing and membrane potential, respectively, for effective learning. The two methods are extensively evaluated on static and neuromorphic datasets to confirm their superior performance. They outperform existing event-driven counterparts by up to 2.51% for STD-ED and 6.79% for MPD-ED on the CIFAR-100 dataset. In addition, we theoretically and experimentally validate the energy efficiency of our methods on neuromorphic hardware. On-chip learning experiments achieved a remarkable 30-fold reduction in energy consumption over time-step-based surrogate gradient methods. The demonstrated efficiency and efficacy of the proposed event-driven learning methods emphasize their potential to significantly advance the fields of neuromorphic computing, offering promising avenues for energy-efficiency applications.
翻訳日:2024-03-05 18:16:06 公開日:2024-03-01
# 大規模畳み込みモデルのパラメータ効率調整

Parameter-Efficient Tuning of Large Convolutional Models ( http://arxiv.org/abs/2403.00269v1 )

ライセンス: Link先を確認
Wei Chen, Zichen Miao, Qiang Qiu(参考訳) 微調整された大規模な事前学習モデルに関連する高い計算量とパラメータの複雑さに対処するため、研究者は下流タスクのために部分パラメータのみを更新するパラメータ効率の手法を開発した。 しかし、これらの研究はしばしば、安定拡散のような多くの大きなモデルにおいて依然として必須の要素である畳み込み核の異なる性質を見落としている。 本研究では,まず,各ネットワーク層内の畳み込みカーネルをフィルタ原子と呼ばれる小さなフィルタ部分空間要素の集合上に分解してフィルタ部分空間を導入する。 次に、これらのモデルを微調整して、一般に数百のパラメータであるフィルタ原子のみを適応させることで、タスク固有の表現を抽出する。 チューニングのためのパラメータ空間を潜在的に拡大するために、各フィルタ原子を別のフィルタ原子のセットで再帰的に分解することにより、オーバーコンプリートフィルタサブスペースを生成するための簡単なアプローチを示す。 フィルタ原子の微調整はフィルタ部分空間を再調整し、畳み込み層が様々な下流タスクに効率的に適応できるようにする。 広範な実験により、このような単純なスキームは、判別タスクと生成タスクの両方の以前のチューニングベースラインを超えることが示されている。 我々のアプローチは多くの既存の微調整手法を補完する可能性がある。

To address the high computational and parameter complexity associated with fine-tuning large pre-trained models, researchers have developed parameter-efficient methods, where only partial parameters are updated for downstream tasks. However, these works often overlook the distinct properties of convolutional kernels, which still remain essential elements in many large models, such as Stable Diffusion. In this study, we first introduce filter subspace by decomposing convolutional kernels within each network layer over a small set of filter subspace elements, referred to as filter atoms. We then fine-tune these models to extract task-specific representation by only adapting the filter atoms, a few hundred parameters typically. To potentially expand the parameter space for tuning, we further show a simple approach to generate an overcomplete filter subspace by recursively decomposing each filter atom over another set of filter atoms. The fine-tuning of filter atoms reshapes the filter subspace, enabling convolutional layers to adapt to diverse downstream tasks efficiently. Extensive experiments show that such a simple scheme surpasses previous tuning baselines for both discriminate and generative tasks. Our approach can potentially be complementary to many existing fine-tuning methods.
翻訳日:2024-03-05 18:15:19 公開日:2024-03-01
# ラベル分布平滑化によるacne画像グレーティングの改善

Improving Acne Image Grading with Label Distribution Smoothing ( http://arxiv.org/abs/2403.00268v1 )

ライセンス: Link先を確認
Kirill Prokhorov, Alexandr A. Kalinin(参考訳) 皮膚疾患であるAcneは、有効治療のための正確な重症度評価を必要とする。 acneの重症度評価には、通常、病変数とグローバルアセスメントが含まれる。 しかし、手動のグレーディングは可変性と非効率に苦しめられ、自動化ツールの必要性を強調している。 近年,アシネ画像グレーディングの有効なフレームワークとしてラベル分布学習 (LDL) が提案されているが,その有効性は,病変数を異なる重症度に割り当てる重度尺度によって阻害されている。 これらの制約に対処するため,LCLとラベルスムースメントを組み合わせた病変カウントに重度尺度情報を導入し,グローバルアセスメントから切り離すことを提案した。 本手法における新しい重み付け方式は,重み付け尺度に基づいてラベル平滑化の程度を調節する。 この手法はクラス識別性を損なうことなくラベルの不確かさを効果的に管理するのに役立つ。 ベンチマーク acne04 データセットに適用し, acne 自動評価の性能向上を実証し, acne 診断能力向上の可能性を示した。 ソースコードはhttp://github.com/openface-io/acne-ldsで公開されている。

Acne, a prevalent skin condition, necessitates precise severity assessment for effective treatment. Acne severity grading typically involves lesion counting and global assessment. However, manual grading suffers from variability and inefficiency, highlighting the need for automated tools. Recently, label distribution learning (LDL) was proposed as an effective framework for acne image grading, but its effectiveness is hindered by severity scales that assign varying numbers of lesions to different severity grades. Addressing these limitations, we proposed to incorporate severity scale information into lesion counting by combining LDL with label smoothing, and to decouple if from global assessment. A novel weighting scheme in our approach adjusts the degree of label smoothing based on the severity grading scale. This method helped to effectively manage label uncertainty without compromising class distinctiveness. Applied to the benchmark ACNE04 dataset, our model demonstrated improved performance in automated acne grading, showcasing its potential in enhancing acne diagnostics. The source code is publicly available at http://github.com/openface-io/acne-lds.
翻訳日:2024-03-05 18:14:55 公開日:2024-03-01
# ハームリダクションのための設計:多文化ユーザの音声対話のためのコミュニケーション修復

Designing for Harm Reduction: Communication Repair for Multicultural Users' Voice Interactions ( http://arxiv.org/abs/2403.00265v1 )

ライセンス: Link先を確認
Kimi Wenzel and Geoff Kaufman(参考訳) ボイスアシスタントが有色・非ネイティブの英語話者に提供できないことは、主にサービス品質の害として記録されている。 しかし、この貧弱なサービスから下流の被害が伝播するかを調査する研究はほとんどない。 ユーザビリティの低下はユーザの生活にどのように影響するのか? そして、ユーザーがこれらの効果から回復するのに役立つインタラクションデザインは何か? 音声アシスタントにおけるサービス品質の害から伝播する6つの下流の害を識別する。 16人の多文化的参加者によるインタビューやデザイン活動を通じて、これらの6つの害について明らかにし、多文化的ユーザが音声アシスタントをユニークにパーソナライズする方法を概説し、これらの害とパーソナライズが相互作用に与える影響を示唆する。 最後に, コミュニケーション修復に関する心理学的手法を用いて, 音声技術に実装可能な有害修復の提案を行う。 我々のコミュニケーション修復戦略は、アイデンティティ確認(断続周波数)、文化的感受性、非難のリダイレクトである。 この研究は、音声の相互作用に肯定的な影響を与える調和修復フレームワークの可能性を示している。

Voice assistants' inability to serve people-of-color and non-native English speakers has largely been documented as a quality-of-service harm. However, little work has investigated what downstream harms propagate from this poor service. How does poor usability materially manifest and affect users' lives? And what interaction designs might help users recover from these effects? We identify 6 downstream harms that propagate from quality-of-service harms in voice assistants. Through interviews and design activities with 16 multicultural participants, we unveil these 6 harms, outline how multicultural users uniquely personify their voice assistant, and suggest how these harms and personifications may affect their interactions. Lastly, we employ techniques from psychology on communication repair to contribute suggestions for harm-reducing repair that may be implemented in voice technologies. Our communication repair strategies include: identity affirmations (intermittent frequency), cultural sensitivity, and blame redirection. This work shows potential for a harm-repair framework to positively influence voice interactions.
翻訳日:2024-03-05 18:14:31 公開日:2024-03-01
# スピンキャビティに冷間結合した巨大原子間の絡み合いの生成と最適化

Generation and optimization of entanglement between giant atoms chirally coupled to spin cavities ( http://arxiv.org/abs/2403.00264v1 )

ライセンス: Link先を確認
Jia-Bin You, Jian Feng Kong, Davit Aghamalyan, Wai-Keong Mok, Kian Hwee Lim, Jun Ye, Ching Eng Png, and Francisco J. Garc\'ia-Vidal(参考訳) キャビティとして振る舞う有限1次元スピン配列に結合することで、巨大原子の絡み合いの発生と最適化のスキームを検討する。 小型キャビティでは, コンカレンスに対する高い値が得られ, 生成時間が極めて短いことが判明した。 外部手段でシステムに刺激を与えると、非常に弱い駆動に最適なコンカレンスが得られる。 また,これらのシステムにおける障害の影響を解析した結果,強い障害を呈するシナリオにおいても,平均的コンカレンスは障害とともに減少するが,高いコンカレンスが得られることが示された。 この結果から, 空洞内のエネルギーやホッピングを工学的に設計することにより, 1 に近いコンカレンスを極端に短時間で到達できる最適化手法が提案された。

We explore a scheme for entanglement generation and optimization in giant atoms by coupling them to finite one-dimensional arrays of spins that behave as cavities. We find that high values for the concurrence can be achieved in small-sized cavities, being the generation time very short. When exciting the system by external means, optimal concurrence is obtained for very weak drivings. We also analyze the effect of disorder in these systems, showing that although the average concurrence decreases with disorder, high concurrences can still be obtained even in scenarios presenting strong disorder. This result leads us to propose an optimization procedure in which by engineering the on-site energies or hoppings in the cavity, concurrences close to 1 can be reached within an extremely short period of time.
翻訳日:2024-03-05 18:14:13 公開日:2024-03-01
# 教師なし人物再識別のための空間カスケードクラスタリングと軽量メモリ

Spatial Cascaded Clustering and Weighted Memory for Unsupervised Person Re-identification ( http://arxiv.org/abs/2403.00261v1 )

ライセンス: Link先を確認
Jiahao Hong, Jialong Zuo, Chuchu Han, Ruochen Zheng, Ming Tian, Changxin Gao, Nong Sang(参考訳) 近年の非教師なし人物再識別(re-ID)手法は, きめ細かい局所的コンテキストを利用して高い性能を実現する。 これらの手法は部分法と呼ばれる。 しかし、ほとんどの部分的手法は、様々な人間のポーズによって誤認に苦しむ水平分割によって局所的な文脈を得る。 さらに、部分的特徴における意味情報の誤用は、計量学習の使用を制限するため、部分的手法の有効性に影響を及ぼす。 上述の2つの問題は、パートベースのメソッドにおける部分的特徴の未利用に繋がる。 本稿では,これらの課題に対処するため,空間カスケードクラスタリングと重み付けメモリ(SCWM)手法を提案する。 SCWMは、メモリモジュールがハードサンプルマイニングとノイズ抑制のバランスを保ちながら、異なる人体部分のより正確なローカルコンテキストを解析、調整することを目的としている。 具体的には,前景の欠落問題と空間的混乱問題について,まず最初に分析を行った。 次に,人間の解析結果の完全性と合理性を高めるために,前景と空間の補正を提案する。 次に重み付けメモリを導入し,重み付け戦略を2つ活用する。 これらの戦略は、グローバルな特徴に対するハードサンプルマイニングに対処し、部分的特徴に対する耐雑音性を高め、グローバルな特徴と部分的特徴の両方をより良い利用を可能にする。 Market-1501とMSMT17の大規模な実験は、提案手法が多くの最先端手法に対して有効であることを検証する。

Recent unsupervised person re-identification (re-ID) methods achieve high performance by leveraging fine-grained local context. These methods are referred to as part-based methods. However, most part-based methods obtain local contexts through horizontal division, which suffer from misalignment due to various human poses. Additionally, the misalignment of semantic information in part features restricts the use of metric learning, thus affecting the effectiveness of part-based methods. The two issues mentioned above result in the under-utilization of part features in part-based methods. We introduce the Spatial Cascaded Clustering and Weighted Memory (SCWM) method to address these challenges. SCWM aims to parse and align more accurate local contexts for different human body parts while allowing the memory module to balance hard example mining and noise suppression. Specifically, we first analyze the foreground omissions and spatial confusions issues in the previous method. Then, we propose foreground and space corrections to enhance the completeness and reasonableness of the human parsing results. Next, we introduce a weighted memory and utilize two weighting strategies. These strategies address hard sample mining for global features and enhance noise resistance for part features, which enables better utilization of both global and part features. Extensive experiments on Market-1501 and MSMT17 validate the proposed method's effectiveness over many state-of-the-art methods.
翻訳日:2024-03-05 18:13:58 公開日:2024-03-01
# 長大文書からの高分子ナノコンポジット試料の抽出

Extracting Polymer Nanocomposite Samples from Full-Length Documents ( http://arxiv.org/abs/2403.00260v1 )

ライセンス: Link先を確認
Ghazal Khalighinejad, Defne Circi, L.C. Brinson, Bhuwan Dhingra(参考訳) 本稿では, 高分子ナノコンポジット (PNC) のサンプルリストの抽出に大規模言語モデル (LLM) を用いることを検討した。 この課題は、テキスト中に多くの属性が散在するPNCサンプルの複雑な性質にある。 PNCの詳細な情報を注釈付けすることの複雑さはデータの可用性を制限し、従来の文書レベルの関係抽出技術は、包括的なエンティティスパンアノテーションを作成することの難しさから実用的ではない。 そこで本研究では,この課題に対する新しいベンチマークと評価手法を導入し,ゼロショット方式で異なるプロンプト戦略を検討する。 パフォーマンス向上のために自己整合性も取り入れています。 以上の結果から,先進的なLSMでさえ,記事からすべてのサンプルを抽出するのに苦労していることがわかった。 最後に、このプロセスで発生したエラーを分析し、それらを3つの主な課題に分類し、それらを克服するための今後の研究のための潜在的な戦略について論じる。

This paper investigates the use of large language models (LLMs) for extracting sample lists of polymer nanocomposites (PNCs) from full-length materials science research papers. The challenge lies in the complex nature of PNC samples, which have numerous attributes scattered throughout the text. The complexity of annotating detailed information on PNCs limits the availability of data, making conventional document-level relation extraction techniques impractical due to the challenge in creating comprehensive named entity span annotations. To address this, we introduce a new benchmark and an evaluation technique for this task and explore different prompting strategies in a zero-shot manner. We also incorporate self-consistency to improve the performance. Our findings show that even advanced LLMs struggle to extract all of the samples from an article. Finally, we analyze the errors encountered in this process, categorizing them into three main challenges, and discuss potential strategies for future research to overcome them.
翻訳日:2024-03-05 18:13:35 公開日:2024-03-01
# 機械学習による拡散散乱の解読と同変基礎モデル:溶融FeOの場合

Deciphering diffuse scattering with machine learning and the equivariant foundation model: The case of molten FeO ( http://arxiv.org/abs/2403.00259v1 )

ライセンス: Link先を確認
Ganesh Sivaraman and Chris J. Benmore(参考訳) 拡散x線または中性子散乱測定と乱れた物質の原子-原子対ポテンシャルに由来する予測構造の間のギャップを橋渡しすることは、凝縮物質物理学における長年の課題である。 この視点は、過去数十年で採用されてきた伝統的なアプローチの概要を示している。 すなわち、3次元構造モデルと測定された構造因子とその関連する対分布関数を関連付ける近似原子間対ポテンシャルを用いる。 機械学習による原子間ポテンシャルの利用はここ数年で増加しており、特にイオン系や酸化物系では成功している。 大規模サンプリングの最近の進歩と, モデル開発への散乱測定の直接統合により, 量子力学的精度で計算した大規模モデルと実験の一致性が向上した。 しかし、局所多面体結合と準安定不規則系における接続の詳細は改善を必要とする。 ここでは、新たに導入された同変基礎モデルであるMACE-MP-0を活用し、溶融鉄(II)酸化物(FeO)の場合の高品質な実験散乱データに対して結果を検証する。 これらの予備的な結果は、新しい基礎モデルが古典的原子間ポテンシャルの伝統的な限界を超える可能性を示唆している。

Bridging the gap between diffuse x-ray or neutron scattering measurements and predicted structures derived from atom-atom pair potentials in disordered materials, has been a longstanding challenge in condensed matter physics. This perspective gives a brief overview of the traditional approaches employed over the past several decades. Namely, the use of approximate interatomic pair potentials that relate 3-dimensional structural models to the measured structure factor and its associated pair distribution function. The use of machine learned interatomic potentials has grown in the past few years, and has been particularly successful in the cases of ionic and oxide systems. Recent advances in large scale sampling, along with a direct integration of scattering measurements into the model development, has provided improved agreement between experiments and large-scale models calculated with quantum mechanical accuracy. However, details of local polyhedral bonding and connectivity in meta-stable disordered systems still require improvement. Here we leverage MACE-MP-0; a newly introduced equivariant foundation model and validate the results against high-quality experimental scattering data for the case of molten iron(II) oxide (FeO). These preliminary results suggest that the emerging foundation model has the potential to surpass the traditional limitations of classical interatomic potentials.
翻訳日:2024-03-05 18:13:19 公開日:2024-03-01
# 管理問題を解決するための深層強化学習--大規模管理に向けて

Deep Reinforcement Learning for Solving Management Problems: Towards A Large Management Mode ( http://arxiv.org/abs/2403.00318v1 )

ライセンス: Link先を確認
Jinyang Jiang, Xiaotian Liu, Tao Ren, Qinghao Wang, Yi Zheng, Yufu Du, Yijie Peng and Cheng Zhang(参考訳) 本稿では,在庫管理や動的価格設定,レコメンデーションといった管理問題を解決するために,深層強化学習(DRL)アプローチを導入する。 このDRLアプローチは、特定のトランスフォーマーニューラルネットワーク構造に基づく大規模な管理モデルにつながる可能性があり、様々な管理タスクのための汎用的なパラダイムをもたらす。 従来の手法は複雑な現実世界の問題を解決するのに限界があり、DRLが既存のヒューリスティックな手法を超越して管理タスクを解く方法を示す。 我々は,異なるタスク間の相互接続を考慮した統一的なフレームワークで問題を解決することを目的とする。 我々の方法論の中心は、生成的意思決定を通じて異なる領域にわたる意思決定を協調する基盤的決定モデルの開発である。 複雑・動的ビジネス環境におけるDRLベースのフレームワークの有効性を実験的に検証した。 この作業は、従来のビジネスマネジメントに革命をもたらす可能性を強調し、DRLをマネジメント問題に適用するための新たな経路を開く。

We introduce a deep reinforcement learning (DRL) approach for solving management problems including inventory management, dynamic pricing, and recommendation. This DRL approach has the potential to lead to a large management model based on certain transformer neural network structures, resulting in an artificial general intelligence paradigm for various management tasks. Traditional methods have limitations for solving complex real-world problems, and we demonstrate how DRL can surpass existing heuristic approaches for solving management tasks. We aim to solve the problems in a unified framework, considering the interconnections between different tasks. Central to our methodology is the development of a foundational decision model coordinating decisions across the different domains through generative decision-making. Our experimental results affirm the effectiveness of our DRL-based framework in complex and dynamic business environments. This work opens new pathways for the application of DRL in management problems, highlighting its potential to revolutionize traditional business management.
翻訳日:2024-03-05 18:08:26 公開日:2024-03-01
# XAIのAxe the X: 理解可能なAIのための準備

Axe the X in XAI: A Plea for Understandable AI ( http://arxiv.org/abs/2403.00315v1 )

ライセンス: Link先を確認
Andr\'es P\'aez(参考訳) 近年の論文Erasmus et al. (2021)では、説明可能なAI(XAI)における「説明」という用語の曖昧さは、科学哲学における説明の4つの異なる説明のどれでも採用することで解決できるという考えを擁護している。 この章では、これらのアカウントはどんな自然現象にも当てはまるため、ディープニューラルネットワークに適用できるという著者の主張が誤りであることを示す。 また、XAI文献で現在使われている説明可能性の概念が、従来の科学的説明概念とほとんど類似していない理由についても、より一般的な議論をおこなっている。 XAIの目標と目的を取り巻く混乱を避けるために、"理解可能なAI"というラベルを使用することは、より実りあることでしょう。 第2章の後半では、xaiの説明による中心的役割を演じるのに適した理解の実用的概念を論じている。 Kuorikoski & Ylikoski (2015) に続いて、MLシステムを理解するための満足度条件は、エージェントがシステムを使用することで成功し、正しい推論を引き出すという点で具体化されている。

In a recent paper, Erasmus et al. (2021) defend the idea that the ambiguity of the term "explanation" in explainable AI (XAI) can be solved by adopting any of four different extant accounts of explanation in the philosophy of science: the Deductive Nomological, Inductive Statistical, Causal Mechanical, and New Mechanist models. In this chapter, I show that the authors' claim that these accounts can be applied to deep neural networks as they would to any natural phenomenon is mistaken. I also provide a more general argument as to why the notion of explainability as it is currently used in the XAI literature bears little resemblance to the traditional concept of scientific explanation. It would be more fruitful to use the label "understandable AI" to avoid the confusion that surrounds the goal and purposes of XAI. In the second half of the chapter, I argue for a pragmatic conception of understanding that is better suited to play the central role attributed to explanation in XAI. Following Kuorikoski & Ylikoski (2015), the conditions of satisfaction for understanding an ML system are fleshed out in terms of an agent's success in using the system, in drawing correct inferences from it.
翻訳日:2024-03-05 18:08:13 公開日:2024-03-01
# 直交回帰による埋め込みマルチラベル特徴選択

Embedded Multi-label Feature Selection via Orthogonal Regression ( http://arxiv.org/abs/2403.00307v1 )

ライセンス: Link先を確認
Xueyuan Xu, Fulin Wei, Tianyuan Jia, Li Zhuo, Feiping Nie, Xia Wu(参考訳) 過去10年間、機能サブセットの探索をモデル最適化に組み込んだ組込みマルチラベル特徴選択手法は、マルチラベル分類タスクにおける機能の重要性を正確に評価する上で、かなりの注目を集めてきた。 それでも、最小二乗回帰に基づく最先端の組込みマルチラベル特徴選択アルゴリズムは、通常、マルチラベルデータにおいて十分な識別情報を保存できない。 この課題に対処するため, 直交回帰(GRROOR)におけるグローバル冗長性と関連性最適化と呼ばれる, 組込みマルチラベル特徴選択法を提案し, マルチラベル特徴選択を容易にする。 特徴重み付けによる直交回帰を用いて、特徴学習過程における多ラベルデータの局所的ラベル相関に関する十分な統計的および構造的情報を保持する。 さらに、直交回帰モデルでは、グローバル特徴冗長性とグローバルラベル関連情報の両方が考慮されており、マルチラベルデータにおける識別的かつ非冗長な特徴サブセットの探索に寄与する可能性がある。 grroor のコスト関数は、スティフェル多様体上の非平衡直交凸問題である。 単純で効果的なスキームを用いて最適解を得る。 10個のマルチラベルデータセットの広範な実験結果から,grroorの有効性が示された。

In the last decade, embedded multi-label feature selection methods, incorporating the search for feature subsets into model optimization, have attracted considerable attention in accurately evaluating the importance of features in multi-label classification tasks. Nevertheless, the state-of-the-art embedded multi-label feature selection algorithms based on least square regression usually cannot preserve sufficient discriminative information in multi-label data. To tackle the aforementioned challenge, a novel embedded multi-label feature selection method, termed global redundancy and relevance optimization in orthogonal regression (GRROOR), is proposed to facilitate the multi-label feature selection. The method employs orthogonal regression with feature weighting to retain sufficient statistical and structural information related to local label correlations of the multi-label data in the feature learning process. Additionally, both global feature redundancy and global label relevancy information have been considered in the orthogonal regression model, which could contribute to the search for discriminative and non-redundant feature subsets in the multi-label data. The cost function of GRROOR is an unbalanced orthogonal Procrustes problem on the Stiefel manifold. A simple yet effective scheme is utilized to obtain an optimal solution. Extensive experimental results on ten multi-label data sets demonstrate the effectiveness of GRROOR.
翻訳日:2024-03-05 18:07:48 公開日:2024-03-01
# ODM:シーンテキスト検出とスポッティングのためのテキスト画像追加事前学習手法

ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting ( http://arxiv.org/abs/2403.00303v1 )

ライセンス: Link先を確認
Chen Duan and Pei Fu and Shan Guo and Qianyi Jiang and Xiaoming Wei(参考訳) 近年,テキストイメージ共同学習技術は様々なタスクにおいて有望な成果を上げている。 しかし、ocrタスクでは、全体の画像内容の全体的理解ではなく、テキストとocrテキスト(画像中のテキストをocrテキストとして参照して自然言語でテキストと区別する)の効果的なアライメントを必要とするため、画像内のテキストインスタンスと対応するテキスト領域を整合させることが課題となる。 本稿では,ocr-text destylization modeling (odm) と呼ばれる,画像中の多様なテキストスタイルをテキストプロンプトに基づいて均一なスタイルに転送する新しい事前学習手法を提案する。 ODMにより、テキストとOCR-Textの整合性が向上し、事前学習されたモデルがシーンテキストの検出やスポッティングタスクの複雑なスタイルに適応できるようにする。 さらに、ODM専用の新しいラベル生成手法を設計し、提案したText-Controllerモジュールと組み合わせて、OCRタスクのアノテーションコストの課題に対処し、大量のラベル付きデータが事前学習に参加できるようにする。 複数の公開データセットに対する大規模な実験により,本手法は性能を著しく向上し,シーンテキストの検出やスポッティングタスクにおける現在の事前学習方法より優れていることが示された。 コードは、https://github.com/PriNing/ODM}で入手できる。

In recent years, text-image joint pre-training techniques have shown promising results in various tasks. However, in Optical Character Recognition (OCR) tasks, aligning text instances with their corresponding text regions in images poses a challenge, as it requires effective alignment between text and OCR-Text (referring to the text in images as OCR-Text to distinguish from the text in natural language) rather than a holistic understanding of the overall image content. In this paper, we propose a new pre-training method called OCR-Text Destylization Modeling (ODM) that transfers diverse styles of text found in images to a uniform style based on the text prompt. With ODM, we achieve better alignment between text and OCR-Text and enable pre-trained models to adapt to the complex and diverse styles of scene text detection and spotting tasks. Additionally, we have designed a new labeling generation method specifically for ODM and combined it with our proposed Text-Controller module to address the challenge of annotation costs in OCR tasks, allowing a larger amount of unlabeled data to participate in pre-training. Extensive experiments on multiple public datasets demonstrate that our method significantly improves performance and outperforms current pre-training methods in scene text detection and spotting tasks. Code is available at {https://github.com/PriNing/ODM}.
翻訳日:2024-03-05 18:07:31 公開日:2024-03-01
# MIMO CSIフィードバックのためのユニバーサルオートエンコーダフレームワーク

Universal Auto-encoder Framework for MIMO CSI Feedback ( http://arxiv.org/abs/2403.00299v1 )

ライセンス: Link先を確認
Jinhyun So, Hyukjoon Kwon(参考訳) 既存の自動エンコーダ(AE)ベースのチャネル状態情報(CSI)フレームワークは、ユーザ機器(UE)と基地局(BS)の設定に重点を置いており、AEの入力および出力サイズが固定されている。 しかし、実世界のシナリオでは、入力と出力のサイズは、BSとUEのアンテナ数と周波数次元におけるリソースブロックの割り当て数によって異なる可能性がある。 異なる入力サイズと出力サイズをサポートする単純なアプローチは複数のAEモデルを使用することであり、これは限られたHWリソースのためにUEにとって実用的ではない。 本稿では,異なる入力サイズと複数圧縮比をサポート可能な汎用AEフレームワークを提案する。 提案するAEフレームワークは, 圧縮比歪みトレードオフの点で, 単純かつ最先端のアプローチと比較して, HW の複雑性を著しく低減する。

Existing auto-encoder (AE)-based channel state information (CSI) frameworks have focused on a specific configuration of user equipment (UE) and base station (BS), and thus the input and output sizes of the AE are fixed. However, in the real-world scenario, the input and output sizes may vary depending on the number of antennas of the BS and UE and the allocated resource block in the frequency dimension. A naive approach to support the different input and output sizes is to use multiple AE models, which is impractical for the UE due to the limited HW resources. In this paper, we propose a universal AE framework that can support different input sizes and multiple compression ratios. The proposed AE framework significantly reduces the HW complexity while providing comparable performance in terms of compression ratio-distortion trade-off compared to the naive and state-of-the-art approaches.
翻訳日:2024-03-05 18:07:05 公開日:2024-03-01
# 多目的ロバスト量子最適制御による複数古典雑音低減

Multiple Classical Noise Mitigation by Multiobjective Robust Quantum Optimal Control ( http://arxiv.org/abs/2403.00298v1 )

ライセンス: Link先を確認
Bowen Shao, Xiaodong Yang, Ran Liu, Yue Zhai, Dawei Lu, Tao Xin, and Jun Li(参考訳) 高品質な制御は量子計算の基本的な要件であるが、実際には静的または時間依存の様々なノイズの存在によって妨げられることが多い。 多くの現実的なシナリオでは、複数のノイズ源が共存し、結果として生じるノイズ効果を十分な順序で修正する必要がある。 本稿では,複雑な雑音環境から複数の雑音に抵抗する問題を一般に解決するために,ロバストな量子最適制御法を検討する。 具体的には、古典的ノイズモデルによって記述できるユニタリノイズに分析を限定する。 本手法は,利点の制御係数を最大化し,一方,許容される雑音の摂動効果を最小限に抑えるために,勾配に基づく多目的最適化アルゴリズムを用いる。 本手法の有効性を検証するために,固体イオン系におけるルーバスト絡みゲート,超伝導量子ビットにおけるロバスト制御zゲートなど,静的・時間依存ノイズに遭遇する多くの例に適用する。 シミュレーションの結果,頑健な最適制御は,複数のノイズに同時に抵抗し,高忠実度ゲートを実現するスムーズでロバストなパルスを見つけることができることがわかった。 そこで本手法は,現在の雑音量子コンピューティングデバイスに広く応用されることが期待できる。

High-quality control is a fundamental requirement for quantum computation, but practically it is often hampered by the presence of various types of noises, which can be static or time-dependent. In many realistic scenarios, multiple noise sources coexist, and their resulting noise effects need be corrected to a sufficient order, posing significant challenges for the design of effective robust control methods. Here, we explore the method of robust quantum optimal control to generally tackle the problem of resisting multiple noises from a complicated noise environment. Specifically, we confine our analysis to unitary noises that can be described by classical noise models. This method employs a gradient-based multiobjective optimization algorithm to maximize the control figure of merit, and meanwhile to minimize the perturbative effects of the noises that are allowed for. To verify its effectiveness, we apply this method to a number of examples, including roubust entangling gate in trapped ion system and robust controlled-Z gate in superconducting qubits, under commonly encountered static and time-dependent noises. Our simulation results reveal that robust optimal control can find smooth, robust pulses that can simultaneously resist several noises and thus achieve high-fidelity gates. Therefore, we expect that this method will find wide applications on current noisy quantum computing devices.
翻訳日:2024-03-05 18:06:50 公開日:2024-03-01
# 話者自動検証のための事前学習音声モデルの適応調整

Efficient Adapter Tuning of Pre-trained Speech Models for Automatic Speaker Verification ( http://arxiv.org/abs/2403.00293v1 )

ライセンス: Link先を確認
Mufan Sang, John H.L. Hansen(参考訳) 一般化能力に優れた自己教師付き音声モデルは,事前学習と微調整のパラダイムにおいて,下流の様々な音声タスクにおいて印象的な性能を示した。 しかし、事前訓練されたモデルのサイズが大きくなるにつれて、過度な計算とストレージのオーバーヘッドと過度な適合のリスクにより、微調整は事実上不可能になる。 アダプタは、パラメータ効率の適応を容易にするために、事前訓練されたモデルに挿入される軽量モジュールである。 本稿では,話者検証タスクに自己教師付き音声モデルを適用するための効果的なアダプタフレームワークを提案する。 並列アダプタ設計により,提案フレームワークは2種類のアダプタを事前学習したモデルに挿入し,中間トランスフォーマー層内の潜在機能を適応させ,すべてのトランスフォーマー層から出力埋め込みを可能にする。 提案手法の有効性と有効性を検証するための総合的な実験を行った。 VoxCeleb1データセットの実験結果から,提案したアダプタは微調整や他のパラメータ効率のよい変換学習手法を超越し,パラメータの5%を更新しながら優れた性能を実現していることがわかった。

With excellent generalization ability, self-supervised speech models have shown impressive performance on various downstream speech tasks in the pre-training and fine-tuning paradigm. However, as the growing size of pre-trained models, fine-tuning becomes practically unfeasible due to heavy computation and storage overhead, as well as the risk of overfitting. Adapters are lightweight modules inserted into pre-trained models to facilitate parameter-efficient adaptation. In this paper, we propose an effective adapter framework designed for adapting self-supervised speech models to the speaker verification task. With a parallel adapter design, our proposed framework inserts two types of adapters into the pre-trained model, allowing the adaptation of latent features within intermediate Transformer layers and output embeddings from all Transformer layers. We conduct comprehensive experiments to validate the efficiency and effectiveness of the proposed framework. Experimental results on the VoxCeleb1 dataset demonstrate that the proposed adapters surpass fine-tuning and other parameter-efficient transfer learning methods, achieving superior performance while updating only 5% of the parameters.
翻訳日:2024-03-05 18:06:27 公開日:2024-03-01
# DPPに基づくラウンジモデルの逆数プロンプト探索

DPP-Based Adversarial Prompt Searching for Lanugage Models ( http://arxiv.org/abs/2403.00292v1 )

ライセンス: Link先を確認
Xu Zhang and Xiaojun Wan(参考訳) 言語モデルは、マインドレスで攻撃的なコンテンツを生成するリスクがあり、安全なデプロイメントを妨げる。 したがって、事前訓練された言語モデルの潜在的有害な出力を発見し、修正することが重要である。 本研究では,事前学習した言語モデルから特定の目標出力を生成するプロンプトを自動検索することで有害コンテンツを抽出する。 この問題は、テキストデータの離散的な性質と、言語モデルの1つの前方通過に必要なかなりの計算資源のためである。 これらの課題に対処するために,DPP(Determinantal Point Process)と品質および類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムであるAuto-Regressive Selective Replacement Ascent(ASRA)を導入する。 6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。 さらに,ASRA攻撃の成功率と目標出力の難易度との間には強い相関関係がみられ,モデルパラメータの量と限られた相関関係を示す。

Language models risk generating mindless and offensive content, which hinders their safe deployment. Therefore, it is crucial to discover and modify potential toxic outputs of pre-trained language models before deployment. In this work, we elicit toxic content by automatically searching for a prompt that directs pre-trained language models towards the generation of a specific target output. The problem is challenging due to the discrete nature of textual data and the considerable computational resources required for a single forward pass of the language model. To combat these challenges, we introduce Auto-regressive Selective Replacement Ascent (ASRA), a discrete optimization algorithm that selects prompts based on both quality and similarity with determinantal point process (DPP). Experimental results on six different pre-trained language models demonstrate the efficacy of ASRA for eliciting toxic content. Furthermore, our analysis reveals a strong correlation between the success rate of ASRA attacks and the perplexity of target outputs, while indicating limited association with the quantity of model parameters.
翻訳日:2024-03-05 18:06:07 公開日:2024-03-01
# 単一光子損失検出機能を有するハードウェア効率の良いボソニック量子コンピューティング

Hardware-Efficient Bosonic Quantum Computing with Detection Capability of Single Photon Loss ( http://arxiv.org/abs/2403.00291v1 )

ライセンス: Link先を確認
Yuichiro Mori and Yuichiro Matsuzaki and Suguru Endo and Shiro Kawabata(参考訳) 内部自由度が大きいボソニック系は、エラー検出と誤り訂正機能を備えた量子ビットを作成する可能性を秘めている。 この性質は、量子ビット数が非常に制限されている短期量子コンピュータにとって特に有利である。 しかし、ハードウェアの効率性に関してはまだ改善の余地がある。 依然として、ゲート操作を含む様々な状態操作のための補助キュービットの使用が伴う。 さらに、複雑な操作は、多くの操作を実行するためにしばしば必要となる。 そこで本研究では,単光子損失を検出する能力を備えた近距離ボソニック量子計算にKerr非線形共振器を用いる手法を提案する。 02$のコードを採用することで、論理量子ビットに対して$X$回転、$Z$回転、および制御相ゲートを実行することができる。 その結果,実用的なボソニック量子計算への道が開けた。

Bosonic systems, which have large internal degrees of freedom, offer the potential to create quantum bits with error detection and error correction capabilities. This property is particularly advantageous for near-term quantum computers, where the number of qubits is severely constrained. However, there is still room for improvement in terms of hardware efficiency. They still entail the use of ancillary qubits for various state manipulations, including gate operations. Additionally, complex operations are often required to perform a number of operations. Here, we propose a method to use Kerr non-linear resonators for near-term bosonic quantum computation with the capability of detecting single-photon loss, which requires simple pulse operations without ancillary qubits. By adopting the $02$ code, and we can perform the $X$ rotation, $Z$ rotation, and controlled-phase gate for logical qubits. Our results pave the way for practical bosonic quantum computation.
翻訳日:2024-03-05 18:05:48 公開日:2024-03-01
# 小さな言語モデルによる予測による意味的テキスト伝達:コスト相似性トレードオフ

Semantic Text Transmission via Prediction with Small Language Models: Cost-Similarity Trade-off ( http://arxiv.org/abs/2403.00290v1 )

ライセンス: Link先を確認
Bhavani A Madhabhavi, Gangadhar Karevvanavar, Rajshekhar V Bhat and Nikolaos Pappas(参考訳) 音源から目的地への自然言語テキストの無雑音・文字消去チャネル上での通信について検討する。 我々は、言語固有の相関性と予測可能性を利用して、送信先がソーステキストと潜在的に類似性のある単語を予測または完成させることにより、送信コストを制約する。 具体的には、取得可能な$(\bar{c}, \bar{s})$ペアを得るのが目的であり、$\bar{c}$はソースにおける平均送信コストであり、$\bar{s}$はソースにおける単語のベクトル埋め込みと目的地で予測/完了された単語のコサイン類似性によって測定される平均意味的類似性である。 我々は,ニューラルネットワークと一階マルコフ連鎖に基づく小言語モデル(SLM)のペアを,目的地で予測/完了した単語と類似性のある単語がしきい値以下であれば,その単語を送信するしきい値ポリシと,特定の間隔の後に単語を送信し,目的地で単語を予測/補完する周期ポリシの両方を用いて,予測を行う。 我々は単語補完にSLMを採用する。 我々は、ノイズのないチャネル上で通信を行う場合、閾値ポリシが与えられた$\bar{c}$に対して、周期ポリシーよりも高い$\bar{s}$を達成し、ニューラルSLMで達成される$\bar{s}$が、同じ$\bar{c}$に対してマルコフ連鎖に基づくアルゴリズムのそれより大きいか等しいことを実証する。 パフォーマンスの向上は、時間とコンピューティング要件の点で、より高い複雑さを伴う。 しかし、文字消去チャネル上で通信を行う場合、全ての予測アルゴリズムとスケジューリングポリシーは不十分である。 さらに、文字レベルのハフマン符号を使用する場合、与えられた$\bar{s}$を達成するために必要な$\bar{c}$は減少するが、上記の観測は引き続き適用される。

We consider the communication of natural language text from a source to a destination over noiseless and character-erasure channels. We exploit language's inherent correlations and predictability to constrain transmission costs by allowing the destination to predict or complete words with potential dissimilarity with the source text. Concretely, our objective is to obtain achievable $(\bar{c}, \bar{s})$ pairs, where $\bar{c}$ is the average transmission cost at the source and $\bar{s}$ is the average semantic similarity measured via cosine similarity between vector embedding of words at the source and those predicted/completed at the destination. We obtain $(\bar{c}, \bar{s})$ pairs for neural language and first-order Markov chain-based small language models (SLM) for prediction, using both a threshold policy that transmits a word if its cosine similarity with that predicted/completed at the destination is below a threshold, and a periodic policy, which transmits words after a specific interval and predicts/completes the words in between, at the destination. We adopt an SLM for word completion. We demonstrate that, when communication occurs over a noiseless channel, the threshold policy achieves a higher $\bar{s}$ for a given $\bar{c}$ than the periodic policy and that the $\bar{s}$ achieved with the neural SLM is greater than or equal to that of the Markov chain-based algorithm for the same $\bar{c}$. The improved performance comes with a higher complexity in terms of time and computing requirements. However, when communication occurs over a character-erasure channel, all prediction algorithms and scheduling policies perform poorly. Furthermore, if character-level Huffman coding is used, the required $\bar{c}$ to achieve a given $\bar{s}$ is reduced, but the above observations still apply.
翻訳日:2024-03-05 18:05:34 公開日:2024-03-01
# 超音波イメージングのためのアレイ符号化の最適化

Optimization of Array Encoding for Ultrasound Imaging ( http://arxiv.org/abs/2403.00289v1 )

ライセンス: Link先を確認
Jacob Spainhour, Korben Smart, Stephen Becker, Nick Bottenus(参考訳) 目的: 合成開口画像の伝送符号化モデルは, 超音波画像再構成における音響透過の影響を理解するための頑健で柔軟な枠組みである。 本研究の目的は、機械学習(ml)を用いて、高画質のbモード画像を生成する時間遅延と脚化重みによってパラメータ化される走査シーケンスを構築することである。 アプローチ:PyTorchのMLモデルを用いてフィールドIIからのRFデータをシミュレートし,画像品質を記述する損失関数を最小限に抑えた符号化シーケンスの空間を探索する。 このアプローチは、遅延およびサマービームフォーミングのための微分の新規な定式化によって計算可能となる。 これらの結果は,ワイヤターゲットと組織模倣ファントムで実験的に実証された。 主な結果: 所定の撮像パラメータ(画像領域、ハードウェア制限)に従ってトレーニングされた場合、mlイメージングモデルは、従来のシーケンスよりも解像度、視野、コントラストなど、多くの標準品質指標を改善する最適化されたエンコーディングシーケンスを生成します。 意義: この研究は、一般的に使用される符号化スキームの集合が利用可能な部分集合の狭い部分集合のみを表すことを示している。 さらに、モデル内のビームフォーマーを純粋に後処理ではなく、合成透過開口イメージングにおけるMLタスクの価値を示す。

Objective: The transmit encoding model for synthetic aperture imaging is a robust and flexible framework for understanding the effect of acoustic transmission on ultrasound image reconstruction. Our objective is to use machine learning (ML) to construct scanning sequences, parameterized by time delays and apodization weights, that produce high quality B-mode images. Approach: We use an ML model in PyTorch and simulated RF data from Field II to probe the space of possible encoding sequences for those that minimize a loss function that describes image quality. This approach is made computationally feasible by a novel formulation of the derivative for delay-and-sum beamforming. We demonstrate these results experimentally on wire targets and a tissue-mimicking phantom. Main Results: When trained according to a given set of imaging parameters (imaging domain, hardware restrictions), our ML imaging model produces optimized encoding sequences that improve a number of standard quality metrics including resolution, field of view, and contrast, over conventional sequences. Significance: This work demonstrates that the set of encoding schemes that are commonly used represent only a narrow subset of those available. Additionally, it demonstrates the value for ML tasks in synthetic transmit aperture imaging to consider the beamformer within the model, instead of as purely post-processing.
翻訳日:2024-03-05 18:04:55 公開日:2024-03-01
# 回路量子力学における内部品質因子が15億を超えるニオブ同軸キャビティ

Niobium coaxial cavities with internal quality factors exceeding 1.5 billion for circuit quantum electrodynamics ( http://arxiv.org/abs/2403.00286v1 )

ライセンス: Link先を確認
Andrew E. Oriani, Fang Zhao, Tanay Roy, Alexander Anferov, Kevin He, Ankur Agrawal, Riju Banerjee, Srivatsan Chakram, and David I. Schuster(参考訳) ニオブやタンタルといったグループvの材料は、回路量子電磁力学(cqed)プラットフォームの性能を延ばすことで、エラーレートの低減やモードの増大が可能な量子プロセッサやメモリを可能にする。 しかし、ニオブの複雑な表面化学は、ミリケルビン温度と単光子パワーで脱コヒーレンスの主要なモードを特定することを困難にする。 我々は, ニオブ同軸準波キャビティを用いて, エッチング化学, 大気暴露の長期化, 冷却前後の空洞環境, 特に水酸化ニオブの進化が単一光子コヒーレンスに与える影響について検討した。 単一光子状態でq_{\rm int}\gtrsim 1.4\times10^{9}$という品質因子を持つキャビティを実演し、同じ形状のアルミニウムキャビティを15ドル改善した。 我々は, 製造プロセスの感度を様々な損失機構に厳密に定量化し, 従来のBCPエッチング技術よりも2レベル損失タンジェント (TLS) の2~4倍の低減と3~5倍の残留抵抗率の改善を実証した。 最後に,si{11.3}{ms}のキャビティコヒーレンスを維持しながら,トランスモン積分とコヒーレントキャビティ制御を示す。 学術的な環境下で容易に再現できる手法のアクセシビリティと,その性能の実証は,3D cQEDの進歩を示している。

Group-V materials such as niobium and tantalum have become popular choices for extending the performance of circuit quantum electrodynamics (cQED) platforms allowing for quantum processors and memories with reduced error rates and more modes. The complex surface chemistry of niobium however makes identifying the main modes of decoherence difficult at millikelvin temperatures and single-photon powers. We use niobium coaxial quarter-wave cavities to study the impact of etch chemistry, prolonged atmospheric exposure, and the significance of cavity conditions prior to and during cooldown, in particular niobium hydride evolution, on single-photon coherence. We demonstrate cavities with quality factors of $Q_{\rm int}\gtrsim 1.4\times10^{9}$ in the single-photon regime, a $15$ fold improvement over aluminum cavities of the same geometry. We rigorously quantify the sensitivity of our fabrication process to various loss mechanisms and demonstrate a $2-4\times$ reduction in the two-level system (TLS) loss tangent and a $3-5\times$ improvement in the residual resistivity over traditional BCP etching techniques. Finally, we demonstrate transmon integration and coherent cavity control while maintaining a cavity coherence of \SI{11.3}{ms}. The accessibility of our method, which can easily be replicated in academic-lab settings, and the demonstration of its performance mark an advancement in 3D cQED.
翻訳日:2024-03-05 18:04:32 公開日:2024-03-01
# フリップチップ量子プロセッサにおける信号クロストーク

Signal crosstalk in a flip-chip quantum processor ( http://arxiv.org/abs/2403.00285v1 )

ライセンス: Link先を確認
Sandoko Kosen, Hang-Xi Li, Marcus Rommel, Robert Rehammar, Marco Caputo, Leif Gr\"onberg, Jorge Fern\'andez-Pend\'as, Anton Frisk Kockum, Janka Bizn\'arov\'a, Liangyu Chen, Christian Kri\v{z}an, Andreas Nylander, Amr Osman, Anita Fadavi Roudsari, Daryoush Shiri, Giovanna Tancredi, Joonas Govenius, Jonas Bylander(参考訳) 量子プロセッサは、数十キュービットのスケールで既に高い性能を保証するために、高アドレス性(低クロストーク)の信号配信アーキテクチャを必要とする。 信号クロストークは量子ゲートを不注意に駆動し、スケールアップデバイスにおける量子ゲートのフィパリティに悪影響を及ぼす。 ここでは、他のプラットフォームで報告されているものと競合する信号クロストーク性能を持つ、パッケージ化されたフリップチップ超伝導量子プロセッサを実演する。 容量結合したqubit-drive線では、-27dB(平均-37dB)よりも共振クロストークが優れている。 誘導結合型磁束駆動線の場合、直流フラックスクロストーク(平均0.05%)は0.13%未満である。 これらの観測されたクロストークレベルは十分に小さく、距離が大きくなるにつれて傾向が減少し、より多くの量子ビットまで拡大することが期待できる。 大規模量子プロセッサにおける遮蔽トンネル構造の影響,クロストークの電位源,およびクロストークによるクビットゲート誤差の推定などを含む,低クロストーク,オンチップ信号配信アーキテクチャの設計に対する我々の結果の影響について論じる。

Quantum processors require a signal-delivery architecture with high addressability (low crosstalk) to ensure high performance already at the scale of dozens of qubits. Signal crosstalk causes inadvertent driving of quantum gates, which will adversely affect quantum-gate fidelities in scaled-up devices. Here, we demonstrate packaged flip-chip superconducting quantum processors with signal-crosstalk performance competitive with those reported in other platforms. For capacitively coupled qubit-drive lines, we find on-resonant crosstalk better than -27 dB (average -37 dB). For inductively coupled magnetic-flux-drive lines, we find less than 0.13 % direct-current flux crosstalk (average 0.05 %). These observed crosstalk levels are adequately small and indicate a decreasing trend with increasing distance, which is promising for further scaling up to larger numbers of qubits. We discuss the implication of our results for the design of a low-crosstalk, on-chip signal delivery architecture, including the influence of a shielding tunnel structure, potential sources of crosstalk, and estimation of crosstalk-induced qubit-gate error in scaled-up quantum processors.
翻訳日:2024-03-05 18:04:05 公開日:2024-03-01
# 経路勧告に関する調査:方法・応用・選択肢

A Survey of Route Recommendations: Methods, Applications, and Opportunities ( http://arxiv.org/abs/2403.00284v1 )

ライセンス: Link先を確認
Shiming Zhang, Zhipeng Luo, Li Yang, Fei Teng, Tianrui Li(参考訳) 現在、都市全域に展開する先進的な情報技術により、大規模なデータボリュームと強力な計算資源が現代の都市開発をインテリジェント化している。 インテリジェント交通の重要な部分として、ルートレコメンデーションとその応用が広く使われ、市民の旅行習慣に直接影響を与えている。 ビッグデータ(マルチモーダル)に基づくスマートで効率的な旅行経路の開発は、ルートレコメンデーション研究の中心的な課題となっている。 本調査は,都市コンピューティングに基づく経路推薦作業の包括的レビューを提供する。 以下の3部で構成されている。 1)方法論について。 私たちは、伝統的な機械学習と現代のディープラーニングの方法の多くを分類します。 また, 歴史的関係を議論し, 最先端の進展を明らかにする。 2) 申請書を交付する。 本稿では,都市コンピューティングシナリオにおける経路推薦に関する多くの新しい応用について述べる。 3) 今後の課題と課題について検討し, 有望な研究の方向性を示唆する。 この調査は、関連する研究者がルートレコメンデーション研究の現状を迅速に把握し、今後の研究動向に導くのに役立つと信じています。

Nowadays, with advanced information technologies deployed citywide, large data volumes and powerful computational resources are intelligentizing modern city development. As an important part of intelligent transportation, route recommendation and its applications are widely used, directly influencing citizens` travel habits. Developing smart and efficient travel routes based on big data (possibly multi-modal) has become a central challenge in route recommendation research. Our survey offers a comprehensive review of route recommendation work based on urban computing. It is organized by the following three parts: 1) Methodology-wise. We categorize a large volume of traditional machine learning and modern deep learning methods. Also, we discuss their historical relations and reveal the edge-cutting progress. 2) Application\-wise. We present numerous novel applications related to route commendation within urban computing scenarios. 3) We discuss current problems and challenges and envision several promising research directions. We believe that this survey can help relevant researchers quickly familiarize themselves with the current state of route recommendation research and then direct them to future research trends.
翻訳日:2024-03-05 18:03:47 公開日:2024-03-01
# 制約付き多目的強化学習のためのスケール不変勾配アグリゲーション

Scale-Invariant Gradient Aggregation for Constrained Multi-Objective Reinforcement Learning ( http://arxiv.org/abs/2403.00282v1 )

ライセンス: Link先を確認
Dohyeong Kim, Mineui Hong, Jeongho Park, Songhwai Oh(参考訳) 多目的強化学習(morl:multi-objective reinforcement learning)は、様々な好みをカバーするためのパレート最適ポリシーのセットを見つけることを目的としている。 しかしながら、実世界のアプリケーションに適用するには、パレート最適であるだけでなく、安全のための事前定義された制約を満たすポリシーを見つけることが重要である。 この目的のために,制約付きMORL(CMORL)アルゴリズム(Constrained Multi-Objective Gradient Aggregator, CoMOGA)を提案する。 複数の目的と制約を同時に扱うことの難しさを認識したCoMOGAは、目的を新たな制約に変換することにより、元のCMORL問題を制約付き最適化問題に緩和する。 この新しい変換プロセスは、変換された制約が、元の目的と同じ効果を持ちながら、目的スケールに不変であることを保証する。 提案手法は,事前定義された制約を満たしながら,局所パレート最適方針に収束することを示す。 種々の課題に対する実証的な評価は,提案手法が制約を一貫して満たし,目的尺度に不変性を示すことによって,他の基準よりも優れていることを示す。

Multi-objective reinforcement learning (MORL) aims to find a set of Pareto optimal policies to cover various preferences. However, to apply MORL in real-world applications, it is important to find policies that are not only Pareto optimal but also satisfy pre-defined constraints for safety. To this end, we propose a constrained MORL (CMORL) algorithm called Constrained Multi-Objective Gradient Aggregator (CoMOGA). Recognizing the difficulty of handling multiple objectives and constraints concurrently, CoMOGA relaxes the original CMORL problem into a constrained optimization problem by transforming the objectives into additional constraints. This novel transformation process ensures that the converted constraints are invariant to the objective scales while having the same effect as the original objectives. We show that the proposed method converges to a local Pareto optimal policy while satisfying the predefined constraints. Empirical evaluations across various tasks show that the proposed method outperforms other baselines by consistently meeting constraints and demonstrating invariance to the objective scales.
翻訳日:2024-03-05 18:03:32 公開日:2024-03-01
# 大規模低温vqeマシンのためのsfqカウンタベースプリコンピューティング

SFQ counter-based precomputation for large-scale cryogenic VQE machines ( http://arxiv.org/abs/2403.00363v1 )

ライセンス: Link先を確認
Yosuke Ueno, Satoshi Imamura, Yuna Tomida, Teruo Tanimoto, Masamitsu Tanaka, Yutaka Tabuchi, Koji Inoue, Hiroshi Nakamura(参考訳) 変分量子固有解法(VQE)は量子コンピューティングの実用的な利点をもたらす有望な候補である。 しかし、クライオスタットの帯域幅は、低温量子コンピュータをスケールするための制限要因である。 本稿では,VQE計算の一部をプリコンプリートし,温度間通信の量を削減する,単一の量子回路を4-K段階に設定した対向モジュールを提案する。 評価の結果,100,000量子ビットマシン上で277vqeプログラムを並列に実行した場合,本システムは要求帯域幅を97%削減し,消費電力を93%削減した。

The variational quantum eigensolver (VQE) is a promising candidate that brings practical benefits from quantum computing. However, the required bandwidth in/out of a cryostat is a limiting factor to scale cryogenic quantum computers. We propose a tailored counter-based module with single flux quantum circuits in 4-K stage which precomputes a part of VQE calculation and reduces the amount of inter-temperature communication. The evaluation shows that our system reduces the required bandwidth by 97%, and with this drastic reduction, total power consumption is reduced by 93% in the case where 277 VQE programs are executed in parallel on a 10000-qubit machine.
翻訳日:2024-03-05 17:57:39 公開日:2024-03-01
# extract-then-assign 戦略を用いた自己整合推論に基づくアスペクト強調4次予測

Self-Consistent Reasoning-based Aspect-Sentiment Quad Prediction with Extract-Then-Assign Strategy ( http://arxiv.org/abs/2403.00354v1 )

ライセンス: Link先を確認
Jieyong Kim, Ryang Heo, Yongsik Seo, SeongKu Kang, Jinyoung Yeo, Dongha Lee(参考訳) アスペクト感情クワッド予測(asqp)では、感情クワッドを予測する生成的手法が有望な結果を示している。 しかし、データ不足と四重項合成プロセスの不十分なモデリングによって引き起こされる不正確な予測と限定的な解釈に苦しむ。 本稿では,自己整合推論に基づくアスペクト強調4重項予測(scrap)を提案し,そのモデルを最適化して推論とそれに対応する感情4重項を逐次生成する。 SCRAPは、人間の認知を忠実に模倣するExtract-Then-Assign推論戦略を採用している。 最終的に、SCRAPは複雑な推論タスクを処理し、一貫性投票によって四重項を正確に予測する能力を大幅に改善し、ASQPの解釈可能性と精度が向上する。

In the task of aspect sentiment quad prediction (ASQP), generative methods for predicting sentiment quads have shown promising results. However, they still suffer from imprecise predictions and limited interpretability, caused by data scarcity and inadequate modeling of the quadruplet composition process. In this paper, we propose Self-Consistent Reasoning-based Aspect-sentiment quadruple Prediction (SCRAP), optimizing its model to generate reasonings and the corresponding sentiment quadruplets in sequence. SCRAP adopts the Extract-Then-Assign reasoning strategy, which closely mimics human cognition. In the end, SCRAP significantly improves the model's ability to handle complex reasoning tasks and correctly predict quadruplets through consistency voting, resulting in enhanced interpretability and accuracy in ASQP.
翻訳日:2024-03-05 17:57:28 公開日:2024-03-01
# ms-net:マルチシーン動作予測のためのマルチパススパースモデル

MS-Net: A Multi-Path Sparse Model for Motion Prediction in Multi-Scenes ( http://arxiv.org/abs/2403.00353v1 )

ライセンス: Link先を確認
Xiaqiang Tang, Weigao Sun, Siyuan Hu, Yiyang Sun, Yafeng Guo(参考訳) 人間の行動のマルチモーダル性や確率的特性は、自律運転に欠かせない動作予測を極めて困難にしている。 ディープラーニングアプローチはこの分野で大きな可能性を証明しているが、複数の駆動シーン(例えば、マージ、ラウンドアバウンド、交差点)とディープラーニングモデルの設計との接続を確立することは未だに未解決である。 現在の学習ベースの手法では、通常、1つの統一モデルを使用して異なるシナリオの軌跡を予測する。 この問題を解決するために,進化過程によって訓練されたマルチパススパースモデルであるMulti-Scenes Network(MS-Net)を提案する。 ms-netは推論段階でパラメータのサブセットを選択的に活性化し、各シーンの予測結果を生成する。 トレーニング段階では、異なるシーン間の共通知識を共有しながら、各シーンの最適パラメータのネットワーク探索を促進する進化的アルゴリズムを設計し、異なるシーンの動作予測タスクをマルチタスク学習問題として抽象化する。 実験の結果,MS-Netはパラメータを大幅に削減し,既存の歩行者行動予測データセット(例えばETHやUCY)の最先端手法よりも優れており,インターアクションチャレンジでは2位であることがわかった。

The multi-modality and stochastic characteristics of human behavior make motion prediction a highly challenging task, which is critical for autonomous driving. While deep learning approaches have demonstrated their great potential in this area, it still remains unsolved to establish a connection between multiple driving scenes (e.g., merging, roundabout, intersection) and the design of deep learning models. Current learning-based methods typically use one unified model to predict trajectories in different scenarios, which may result in sub-optimal results for one individual scene. To address this issue, we propose Multi-Scenes Network (aka. MS-Net), which is a multi-path sparse model trained by an evolutionary process. MS-Net selectively activates a subset of its parameters during the inference stage to produce prediction results for each scene. In the training stage, the motion prediction task under differentiated scenes is abstracted as a multi-task learning problem, an evolutionary algorithm is designed to encourage the network search of the optimal parameters for each scene while sharing common knowledge between different scenes. Our experiment results show that with substantially reduced parameters, MS-Net outperforms existing state-of-the-art methods on well-established pedestrian motion prediction datasets, e.g., ETH and UCY, and ranks the 2nd place on the INTERACTION challenge.
翻訳日:2024-03-05 17:57:12 公開日:2024-03-01
# 下流作業におけるゆがみの再検討 : 抽象的な視覚的推論の必要性について

Revisiting Disentanglement in Downstream Tasks: A Study on Its Necessity for Abstract Visual Reasoning ( http://arxiv.org/abs/2403.00352v1 )

ライセンス: Link先を確認
Ruiqian Nai, Zixin Wen, Ji Li, Yuanzhi Li, Yang Gao(参考訳) 表現学習では、分離可能かつコンパクトなパターンでデータの生成因子を符号化するため、非絡み合い表現が極めて望ましい。 研究者は、経験的な証拠を奨励しながら下流のタスクを完遂するために、絡み合った表現を活用することを提唱している。 本稿では,下流アプリケーションにおける異種表現の必要性について検討する。 具体的には,基本的な下流課題である抽象的視覚的推論では,次元的不等角表現が不要であることを示す。 我々は、複数のデータセット、表現学習方法、下流ネットワークアーキテクチャを網羅する、絡み合いの必要性に対する広範な実証的証拠を提供する。 さらに,表現のインフォマティビティは,歪みよりも下流性能の指標であることが示唆された。 最後に, 情報性と絡み合いの正の相関から, 先行研究における絡み合い表現の有用性が説明できる。 ソースコードはhttps://github.com/richard-coder-nai/disentanglement-lib-necessity.gitで入手できる。

In representation learning, a disentangled representation is highly desirable as it encodes generative factors of data in a separable and compact pattern. Researchers have advocated leveraging disentangled representations to complete downstream tasks with encouraging empirical evidence. This paper further investigates the necessity of disentangled representation in downstream applications. Specifically, we show that dimension-wise disentangled representations are unnecessary on a fundamental downstream task, abstract visual reasoning. We provide extensive empirical evidence against the necessity of disentanglement, covering multiple datasets, representation learning methods, and downstream network architectures. Furthermore, our findings suggest that the informativeness of representations is a better indicator of downstream performance than disentanglement. Finally, the positive correlation between informativeness and disentanglement explains the claimed usefulness of disentangled representations in previous works. The source code is available at https://github.com/Richard-coder-Nai/disentanglement-lib-necessity.git.
翻訳日:2024-03-05 17:56:47 公開日:2024-03-01
# 静磁モードと可変光キャビティを用いたマイクロ波-光変換

Microwave-to-optics conversion using magnetostatic modes and a tunable optical cavity ( http://arxiv.org/abs/2403.00345v1 )

ライセンス: Link先を確認
Wei-Jiang Wu, Yi-Pu Wang, Jie Li, Gang Li, and J. Q. You(参考訳) 量子コンピューティング、量子通信、量子ネットワークは異なる周波数範囲で動作するハイブリッド量子システムに依存している。 例えば、超伝導量子ビットはギガヘルツの範囲で動作し、通信に用いられる光光子は数百テラヘルツの範囲内である。 大きな周波数ミスマッチのため、情報キャリア間の直接結合と情報交換を実現することは一般的に困難である。 そのため、異なる周波数で動作する異なる量子システム間の情報リンクを確立するブリッジとして機能する量子インタフェースが要求される。 近年,強磁性スピン系のマグノンモードが注目されている。 固有の弱光子結合強度は、マグノンを用いたマイクロ波-光子変換効率を制限するが、マグノンモードの汎用性は他の量子系と容易に達成可能な強い結合性とともに、多くの異なる利点を持つ。 本稿では,自由スペクトル範囲を調整可能な光学キャビティと,2つのマイクロ波キャビティ構成の異なる磁気静磁場モードを採用することで,マグノンベースのマイクロ波光界面を実現する。 パラメータを最適化することにより、内部変換効率が 1.28 x 10^-7 となる。 各種パラメータがマイクロ波-光学変換に与える影響を解析した。 この研究は、マグノンを用いたマイクロ波-光学変換効率をさらに高めるための有用なガイダンスと洞察を提供する。

Quantum computing, quantum communication and quantum networks rely on hybrid quantum systems operating in different frequency ranges. For instance, the superconducting qubits work in the gigahertz range, while the optical photons used in communication are in the range of hundreds of terahertz. Due to the large frequency mismatch, achieving the direct coupling and information exchange between different information carriers is generally difficult. Accordingly, a quantum interface is demanded, which serves as a bridge to establish information linkage between different quantum systems operating at distinct frequencies. Recently, the magnon mode in ferromagnetic spin systems has received significant attention. While the inherent weak optomagnonic coupling strength restricts the microwave-to-optical photon conversion efficiency using magnons, the versatility of the magnon modes, together with their readily achievable strong coupling with other quantum systems, endow them with many distinct advantages. Here, we realize the magnon-based microwave-light interface by adopting an optical cavity with adjustable free spectrum range and different kinds of magnetostatic modes in two microwave cavity configurations. By optimizing the parameters, an internal conversion efficiency of 1.28 x 10^-7 is achieved. We analyze the impact of various parameters on the microwave-to-optics conversion. The study provides useful guidance and insights to further enhancing the microwave-to-optics conversion efficiency using magnons.
翻訳日:2024-03-05 17:56:32 公開日:2024-03-01
# 異種協調行動をもつ多エージェントRLのロバスト化と補助課題に対する対角的スタイルサンプリング

Robustifying a Policy in Multi-Agent RL with Diverse Cooperative Behavior and Adversarial Style Sampling for Assistive Tasks ( http://arxiv.org/abs/2403.00344v1 )

ライセンス: Link先を確認
Tayuki Osa and Tatsuya Harada(参考訳) 運動障害を持つ人々の自律支援は、自律ロボットシステムの最も有望な応用の1つである。 最近の研究は、医療領域における深層強化学習(RL)による奨励効果を報告している。 従来の研究では、アシストタスクはマルチエージェントrlとして定式化でき、介護者と介護者という2つのエージェントが存在する。 しかし、マルチエージェントRLで訓練されたポリシーは、しばしば他のエージェントのポリシーに敏感である。 このような場合、訓練された介護者の政策は、異なる介護者のためには機能しない。 この問題を軽減するために,多様な介護者対応を訓練し,ロバストな介護者の政策を学習する枠組みを提案する。 この枠組みでは,様々な介護者対応が試行錯誤によって自律的に学習される。 また,介護者の政策を強固にするために,研修中に相手方で介護者の反応をサンプリングする手法を提案する。 Assistive Gym におけるタスクを用いた提案手法の評価を行った。 我々は,一般的な深層RL法で訓練されたポリシが,他のエージェントのポリシの変更に対して脆弱であること,提案手法がこのような変更に対する堅牢性を向上させることを実証する。

Autonomous assistance of people with motor impairments is one of the most promising applications of autonomous robotic systems. Recent studies have reported encouraging results using deep reinforcement learning (RL) in the healthcare domain. Previous studies showed that assistive tasks can be formulated as multi-agent RL, wherein there are two agents: a caregiver and a care-receiver. However, policies trained in multi-agent RL are often sensitive to the policies of other agents. In such a case, a trained caregiver's policy may not work for different care-receivers. To alleviate this issue, we propose a framework that learns a robust caregiver's policy by training it for diverse care-receiver responses. In our framework, diverse care-receiver responses are autonomously learned through trials and errors. In addition, to robustify the care-giver's policy, we propose a strategy for sampling a care-receiver's response in an adversarial manner during the training. We evaluated the proposed method using tasks in an Assistive Gym. We demonstrate that policies trained with a popular deep RL method are vulnerable to changes in policies of other agents and that the proposed framework improves the robustness against such changes.
翻訳日:2024-03-05 17:56:11 公開日:2024-03-01
# semi-instruct: コード大規模言語モデルのための自然命令と自己指示のブリッジ

Semi-Instruct: Bridging Natural-Instruct and Self-Instruct for Code Large Language Models ( http://arxiv.org/abs/2403.00338v1 )

ライセンス: Link先を確認
Xianzhen Luo, Qingfu Zhu, Zhiming Zhang, Xu Wang, Qing Yang, Dongliang Xu, Wanxiang Che(参考訳) 命令チューニングは、プログラム合成のタスクにおいて、Code Large Language Models (Code LLM) において重要な役割を果たす。 現在、チューニングデータを収集する2つの主要なパラダイムは、自然命令(人間書き)と自己命令(自動生成)である。 natural-instructは多種多様な正しいコードを含んでいるが、命令と命令のペアがなく、ネストされたシングルラインコードのような不適切なコード形式が存在する。 対照的に、自己指示は適切なペアデータを自動的に生成する。 しかし、重複を生成するため多様性が低く、コードの正確性を保証することができない。 両パラダイムをブリッジするために, textbf{Semi-Instruct}を提案する。 最初は多様だが不適切なコードを自然命令から適切な命令コードペアに変換する。 生成した符号の正当性を検証するために,ケースの入力を生成し,自然な命令から正しい符号を実行して出力を得る,新たなテストケース構築手法を設計する。 最後に、命令チューニングのために、多様で正しい命令コードペアが保持される。 実験により、セミインストラクションは自然インストラクションや自己インストラクションよりも著しく優れていることが示された。 さらに、データスケールが大きくなるにつれて、パフォーマンスが着実に向上する。

Instruction tuning plays a pivotal role in Code Large Language Models (Code LLMs) for the task of program synthesis. Presently, two dominant paradigms for collecting tuning data are natural-instruct (human-written) and self-instruct (automatically generated). Natural-instruct includes diverse and correct codes but lacks instruction-code pairs, and exists improper code formats like nested single-line codes. In contrast, self-instruct automatically generates proper paired data. However, it suffers from low diversity due to generating duplicates and cannot ensure the correctness of codes. To bridge the both paradigms, we propose \textbf{Semi-Instruct}. It first converts diverse but improper codes from natural-instruct into proper instruction-code pairs through a method similar to self-instruct. To verify the correctness of generated codes, we design a novel way to construct test cases by generating cases' inputs and executing correct codes from natural-instruct to get outputs. Finally, diverse and correct instruction-code pairs are retained for instruction tuning. Experiments show that semi-instruct is significantly better than natural-instruct and self-instruct. Furthermore, the performance steadily improves as data scale increases.
翻訳日:2024-03-05 17:55:51 公開日:2024-03-01
# グラフニューラルネットワークにおける非線形せん断拡散

Nonlinear Sheaf Diffusion in Graph Neural Networks ( http://arxiv.org/abs/2403.00337v1 )

ライセンス: Link先を確認
Olga Zaghen(参考訳) 本研究は、グラフ関連タスクのための層ニューラルネットワークに非線形ラプラシアンを導入することの潜在的な利点を探ることに焦点を当てている。 主な目的は、離散時間設定における拡散力学、信号伝搬、ニューラルネットワークアーキテクチャの性能に対するそのような非線形性の影響を理解することである。 この研究は主に実験的な分析に重点を置いており、実世界と合成データセットを用いて異なるバージョンのモデルの実用性を検証する。 このアプローチは、最初の理論的探究から提案モデルの実用性実証へと焦点を移す。

This work focuses on exploring the potential benefits of introducing a nonlinear Laplacian in Sheaf Neural Networks for graph-related tasks. The primary aim is to understand the impact of such nonlinearity on diffusion dynamics, signal propagation, and performance of neural network architectures in discrete-time settings. The study primarily emphasizes experimental analysis, using real-world and synthetic datasets to validate the practical effectiveness of different versions of the model. This approach shifts the focus from an initial theoretical exploration to demonstrating the practical utility of the proposed model.
翻訳日:2024-03-05 17:55:34 公開日:2024-03-01
# ノーエンディング型ロボット学習

Never-Ending Embodied Robot Learning ( http://arxiv.org/abs/2403.00336v1 )

ライセンス: Link先を確認
Wenqi Liang, Gan Sun, Qian He, Yu Ren, Jiahua Dong and Yang Cong(参考訳) 大型言語モデル(llm)に依存することで、身体化されたロボットは、強力な一般化能力を持つ視覚観察から複雑なマルチモーダルロボット操作タスクを実行することができる。 しかし、ほとんどの視覚行動閉鎖エージェントは、一連の難解なタスクに適応する際に、操作性能劣化とスキル知識を忘れてしまう。 本研究は,新たなロボット操作スキルの観察知識を,スキル特性とスキル共有属性から継続的に学習できる言語条件付き永遠行動遮蔽剤であるembodied robotsにおけるnbcagentの課題について検討する。 具体的には,nbcagentエージェントに潜伏空間と低ランク空間から新たなスキル特化知識を継続的に組み込むことのできる,知識分離を行うスキル特化プランナーを構築した。 一方,我々は,スキル共有型意味表現モジュールとスキル共有型表現蒸留モジュールを提案し,スキル共有型知識を効果的に伝達する。 最後に,ロボット操作を連続的に実施するベンチマークを設計し,提案手法の有効性を実証する高価な実験を行った。 視覚的な結果、コード、データセットは、https://neragent.github.io.org/で提供される。

Relying on large language models (LLMs), embodied robots could perform complex multimodal robot manipulation tasks from visual observations with powerful generalization ability. However, most visual behavior-cloning agents suffer from manipulation performance degradation and skill knowledge forgetting when adapting into a series of challenging unseen tasks. We here investigate the above challenge with NBCagent in embodied robots, a pioneering language-conditioned Never-ending Behavior-Cloning agent, which can continually learn observation knowledge of novel robot manipulation skills from skill-specific and skill-shared attributes. Specifically, we establish a skill-specific evolving planner to perform knowledge decoupling, which can continually embed novel skill-specific knowledge in our NBCagent agent from latent and low-rank space. Meanwhile, we propose a skill-shared semantics rendering module and a skill-shared representation distillation module to effectively transfer anti-forgetting skill-shared knowledge, further tackling catastrophic forgetting on old skills from semantics and representation aspects. Finally, we design a continual embodied robot manipulation benchmark, and several expensive experiments demonstrate the significant performance of our method. Visual results, code, and dataset are provided at: https://neragent.github.io.
翻訳日:2024-03-05 17:55:25 公開日:2024-03-01
# 論理的制約による学習 : 短命な満足感を伴わない

Learning with Logical Constraints but without Shortcut Satisfaction ( http://arxiv.org/abs/2403.00329v1 )

ライセンス: Link先を確認
Zenan Li, Zehua Liu, Yuan Yao, Jingwei Xu, Taolue Chen, Xiaoxing Ma, Jian L\"u(参考訳) ニューロシンボリック学習における最近の研究は、論理的な制約を追加損失関数としてエンコードすることで、論理知識とディープラーニングの統合を探求している。 しかし、既存のアプローチは近道を通じて論理的制約をうまく満たし、知識を十分に活用できない傾向がある。 本稿では,論理制約による学習のための新しいフレームワークを提案する。 具体的には,論理接続に対する双対変数を導入し,制約の満足度を符号化することで,近道満足度問題に対処する。 さらに,エンコードされた論理制約を,モデルの本来のトレーニング損失と適合する分布的損失として表現する変分フレームワークを提案する。 理論解析の結果,提案手法は有意な特性を有し,実験によりモデル一般化性と制約満足度の両方において優れた性能を示すことがわかった。

Recent studies in neuro-symbolic learning have explored the integration of logical knowledge into deep learning via encoding logical constraints as an additional loss function. However, existing approaches tend to vacuously satisfy logical constraints through shortcuts, failing to fully exploit the knowledge. In this paper, we present a new framework for learning with logical constraints. Specifically, we address the shortcut satisfaction issue by introducing dual variables for logical connectives, encoding how the constraint is satisfied. We further propose a variational framework where the encoded logical constraint is expressed as a distributional loss that is compatible with the model's original training loss. The theoretical analysis shows that the proposed approach bears salient properties, and the experimental evaluations demonstrate its superior performance in both model generalizability and constraint satisfaction.
翻訳日:2024-03-05 17:55:03 公開日:2024-03-01
# タスク条件密度予測のためのタスク指示トランス

Task Indicating Transformer for Task-conditional Dense Predictions ( http://arxiv.org/abs/2403.00327v1 )

ライセンス: Link先を確認
Yuxiang Lu, Shalayiding Sirejiding, Bayram Bayramli, Suizhi Huang, Yue Ding, Hongtao Lu(参考訳) タスク条件モデルは、効率的なマルチタスク学習のための特異なストリームである。 既存の作業は、CNNベースのアーキテクチャから生じるグローバルコンテキストモデリングの欠点や、デコーダ内のマルチスケール機能相互作用の欠如によって、タスク非依存およびタスク固有表現の学習において重要な制限に直面している。 本稿では,タスク適応変換器(TIT)と呼ばれる新しいタスク条件フレームワークを紹介し,その課題に対処する。 本手法は,行列分解によるタスク指示行列を組み込んだ変圧器ブロック内のミックスタスクアダプタモジュールを設計し,タスク内およびタスク間機能をキャプチャすることで,長距離依存性モデリングとパラメータ効率の高い機能適応を実現する。 さらに,タスク指示ベクターとゲーティング機構を活用したタスクゲートデコーダモジュールを提案する。 2つの公開マルチタスク高密度予測ベンチマーク(NYUD-v2とPASCAL-Context)の実験は、我々のアプローチが最先端のタスク条件法を上回ることを示した。

The task-conditional model is a distinctive stream for efficient multi-task learning. Existing works encounter a critical limitation in learning task-agnostic and task-specific representations, primarily due to shortcomings in global context modeling arising from CNN-based architectures, as well as a deficiency in multi-scale feature interaction within the decoder. In this paper, we introduce a novel task-conditional framework called Task Indicating Transformer (TIT) to tackle this challenge. Our approach designs a Mix Task Adapter module within the transformer block, which incorporates a Task Indicating Matrix through matrix decomposition, thereby enhancing long-range dependency modeling and parameter-efficient feature adaptation by capturing intra- and inter-task features. Moreover, we propose a Task Gate Decoder module that harnesses a Task Indicating Vector and gating mechanism to facilitate adaptive multi-scale feature refinement guided by task embeddings. Experiments on two public multi-task dense prediction benchmarks, NYUD-v2 and PASCAL-Context, demonstrate that our approach surpasses state-of-the-art task-conditional methods.
翻訳日:2024-03-05 17:54:49 公開日:2024-03-01
# small, versatile and mighty: レンジビュー知覚フレームワーク

Small, Versatile and Mighty: A Range-View Perception Framework ( http://arxiv.org/abs/2403.00325v1 )

ライセンス: Link先を確認
Qiang Meng, Xiao Wang, JiaBao Wang, Liujiang Yan, Ke Wang(参考訳) コンパクトさと情報の整合性にもかかわらず、LiDARデータのレンジビュー表現が3D知覚タスクの最初の選択として発生することは滅多にない。 本研究では,新しいマルチタスクフレームワークによるレンジビュー表現の展開をさらに進め,前例のない3次元検出性能を実現する。 提案するsvm(small, versatile, and mighty)ネットワークは,純粋に畳み込み型アーキテクチャを用いて,範囲ビュー表現の効率性とマルチタスクポテンシャルを完全に解き放つ。 検出性能を向上させるために,まず,pcla(range-view specific perspective centric label assignment)戦略と,予測の難しいボックス特性をさらに洗練するための新しいview adaptive regression(var)モジュールを提案する。 さらに,我々のフレームワークは,余分なモジュールを使わずに,LiDARポイントクラウドのセグメンテーションとパノプティックセグメンテーションタスクをシームレスに統合する。 範囲ビューに基づく手法では,waymo open dataset上で新たな最先端検出性能を実現する。 特に、車両のクラスでは、畳み込み式よりも10mAP以上の改善が得られる。 また,提案する小規模だが強力なフレームワークのマルチタスク機能についても検討した。

Despite its compactness and information integrity, the range view representation of LiDAR data rarely occurs as the first choice for 3D perception tasks. In this work, we further push the envelop of the range-view representation with a novel multi-task framework, achieving unprecedented 3D detection performances. Our proposed Small, Versatile, and Mighty (SVM) network utilizes a pure convolutional architecture to fully unleash the efficiency and multi-tasking potentials of the range view representation. To boost detection performances, we first propose a range-view specific Perspective Centric Label Assignment (PCLA) strategy, and a novel View Adaptive Regression (VAR) module to further refine hard-to-predict box properties. In addition, our framework seamlessly integrates semantic segmentation and panoptic segmentation tasks for the LiDAR point cloud, without extra modules. Among range-view-based methods, our model achieves new state-of-the-art detection performances on the Waymo Open Dataset. Especially, over 10 mAP improvement over convolutional counterparts can be obtained on the vehicle class. Our presented results for other tasks further reveal the multi-task capabilities of the proposed small but mighty framework.
翻訳日:2024-03-05 17:54:09 公開日:2024-03-01
# ニューロシンボリックシステムのためのソフトドシンボルグラウンド

Softened Symbol Grounding for Neuro-symbolic Systems ( http://arxiv.org/abs/2403.00323v1 )

ライセンス: Link先を確認
Zenan Li, Yuan Yao, Taolue Chen, Jingwei Xu, Chun Cao, Xiaoxing Ma, Jian L\"u(参考訳) ニューロ・シンボリック・ラーニング(Neuro-symbolic learning)は、一般的に、ニューラルネットワークのトレーニングとシンボリック・制約解決という2つの世界から成り立っている。 本稿では,2つの世界間のギャップを埋める,新しい,軟化されたシンボル接地プロセスを提案し,効果的かつ効率的なニューロシンボリック学習の枠組みを提示する。 本フレームワークは,(1)高コストな状態探索を回避し,ネットワークトレーニングとシンボル推論の相互に有益な相互作用を促進するBoltzmann分布としてのシンボル解状態のモデリング,(2)非連結なシンボル解空間から効率的にサンプリングするプロジェクションとSMTソルバを利用した新しいMCMC技術,(3)準最適シンボルグラウンドに閉じ込められた%から逃れられるアニーリング機構を特徴とする。 3つの代表的なニューロシンボリック・ラーニング・タスクを用いた実験では,その優れたシンボルグラウンドリング能力により,既存の提案のフロンティアを越えた問題解決に成功している。

Neuro-symbolic learning generally consists of two separated worlds, i.e., neural network training and symbolic constraint solving, whose success hinges on symbol grounding, a fundamental problem in AI. This paper presents a novel, softened symbol grounding process, bridging the gap between the two worlds, and resulting in an effective and efficient neuro-symbolic learning framework. Technically, the framework features (1) modeling of symbol solution states as a Boltzmann distribution, which avoids expensive state searching and facilitates mutually beneficial interactions between network training and symbolic reasoning;(2) a new MCMC technique leveraging projection and SMT solvers, which efficiently samples from disconnected symbol solution spaces; (3) an annealing mechanism that can escape from %being trapped into sub-optimal symbol groundings. Experiments with three representative neuro symbolic learning tasks demonstrate that, owining to its superior symbol grounding capability, our framework successfully solves problems well beyond the frontier of the existing proposals.
翻訳日:2024-03-05 17:53:47 公開日:2024-03-01
# DEEP-IoT: ダウンリンク強化された効率的なモノのインターネット

DEEP-IoT: Downlink-Enhanced Efficient-Power Internet of Things ( http://arxiv.org/abs/2403.00321v1 )

ライセンス: Link先を確認
Yulin Shao(参考訳) 爆発的な成長を目の当たりにしているiot(internet of things, モノのインターネット)の心臓部では、エネルギー効率とデバイスの寿命の延長が求められている。 本稿では,IoTデバイスの通信方法を再定義するための,革新的な通信パラダイムであるDEEP-IoTを提案する。 DEEP-IoTは、先駆的な"より多く、より少ない送信"戦略を通じて、従来の送信機(IoTデバイス)中心の通信モデルに挑戦し、レシーバ(アクセスポイント)が中心的な役割を果たすものに変換することで、エネルギー使用を削減し、デバイス長寿を向上する。 私たちはDEEP-IoTを概念化するだけでなく、学習の強化したフィードバックチャネルコードを狭帯域システムに統合することで実現します。 シミュレーションの結果、IoTセルの運用寿命は、TurboおよびPolarコードを使用した従来のシステムよりも52.71%も大きく向上している。 この飛躍は、IoT通信におけるパラダイムシフトを意味し、IoTデバイスが前例のない効率性と耐久性を誇示する未来へのステージを設定している。

At the heart of the Internet of Things (IoT) -- a domain witnessing explosive growth -- the imperative for energy efficiency and the extension of device lifespans has never been more pressing. This paper presents DEEP-IoT, a revolutionary communication paradigm poised to redefine how IoT devices communicate. Through a pioneering "listen more, transmit less" strategy, DEEP-IoT challenges and transforms the traditional transmitter (IoT devices)-centric communication model to one where the receiver (the access point) play a pivotal role, thereby cutting down energy use and boosting device longevity. We not only conceptualize DEEP-IoT but also actualize it by integrating deep learning-enhanced feedback channel codes within a narrow-band system. Simulation results show a significant enhancement in the operational lifespan of IoT cells -- surpassing traditional systems using Turbo and Polar codes by up to 52.71%. This leap signifies a paradigm shift in IoT communications, setting the stage for a future where IoT devices boast unprecedented efficiency and durability.
翻訳日:2024-03-05 17:53:24 公開日:2024-03-01
# トークン化を再考する - 大規模言語モデルのためのより良いトークン作成

Rethinking Tokenization: Crafting Better Tokenizers for Large Language Models ( http://arxiv.org/abs/2403.00417v1 )

ライセンス: Link先を確認
Jinbiao Yang(参考訳) トークン化は言語モデル(LM)のパフォーマンスに大きく影響する。 本論文は,トークン化器の単語レベルからサブワードレベルへの進化をトレースし,複雑度を制御しながら,モデルの適応性を高めるためにトークンと型のバランスをとる方法を分析する。 バイトペアエンコーディング(bpe)のようなサブワードトークンは、多くの単語トークンライザの制限を克服するが、非ラテン言語を扱うことが困難であり、多語式(mwes)のニュアンスを理解するために、広範なトレーニングデータと計算リソースに大きく依存している。 この記事では、トークン化ツールは単なる技術ツール以上のもので、人間の言語処理に関する認知科学からインスピレーションを得るべきだ、と論じる。 この研究は、人間が自然に認知的努力を減らそうとする認知科学の「最小の努力の原理」を導入し、トークン化剤開発におけるこの原理の利点について論じる。 この原理に基づいて、LLMトークンーの新しいアプローチとしてLiB(Les-is-Better)モデルを提案する。 LiBモデルは、サブワード、単語、MWEからなる統合語彙を自律的に学習することができ、トークンの数と型の両方を効果的に削減できる。 比較評価により、libトークン化器は既存のwordおよびbpeトークン化器よりも優れており、トークン化器開発のための革新的な方法を示し、将来の認知科学ベースのトークン化器がより効率的になる可能性を示唆している。

Tokenization significantly influences language models(LMs)' performance. This paper traces the evolution of tokenizers from word-level to subword-level, analyzing how they balance tokens and types to enhance model adaptability while controlling complexity. Despite subword tokenizers like Byte Pair Encoding (BPE) overcoming many word tokenizer limitations, they encounter difficulties in handling non-Latin languages and depend heavily on extensive training data and computational resources to grasp the nuances of multiword expressions (MWEs). This article argues that tokenizers, more than mere technical tools, should drawing inspiration from the cognitive science about human language processing. This study then introduces the "Principle of Least Effort" from cognitive science, that humans naturally seek to reduce cognitive effort, and discusses the benefits of this principle for tokenizer development. Based on this principle, the paper proposes that the Less-is-Better (LiB) model could be a new approach for LLM tokenizer. The LiB model can autonomously learn an integrated vocabulary consisting of subwords, words, and MWEs, which effectively reduces both the numbers of tokens and types. Comparative evaluations show that the LiB tokenizer outperforms existing word and BPE tokenizers, presenting an innovative method for tokenizer development, and hinting at the possibility of future cognitive science-based tokenizers being more efficient.
翻訳日:2024-03-05 17:50:34 公開日:2024-03-01
# アンタングル型マスケッドモデリングによるデータ効率の良いイベントカメラ事前訓練

Data-efficient Event Camera Pre-training via Disentangled Masked Modeling ( http://arxiv.org/abs/2403.00416v1 )

ライセンス: Link先を確認
Zhenpeng Huang, Chao Li, Hao Chen, Yongjian Deng, Yifeng Geng, Limin Wang(参考訳) 本稿では,イベントカメラのための新しいデータ効率の高いvoxelベースの自己教師付き学習手法を提案する。 事前学習は,事前学習された画像モデルを利用した2次元画像にイベントシーケンスを変換したり,知識蒸留にペア画像データを直接使用してイベントストリームの学習を強化するといった,それまでの手法の限界を克服する。 事前学習データを効率よくするために,ランダムマスキングを用いた場合,非一様データの異なる領域の再構成困難に起因する学習不均衡に対処する意味一様マスキング法を設計する。 さらに,局所的時空間再構成と大域的意味再構築という2つの分野に明確に分解することで,従来のハイブリッドマスクモデリングプロセスを容易にし,局所的相関と大域的意味論の獲得を促す。 この分解により, 自己教師あり学習法は, 最小限の事前学習データでより高速に収束できる。 従来の手法と比較して, 自己教師付き学習法は対のrgb画像に依存しないが, 時間的手がかりと時間的手がかりを同時に複数スケールで探索できる。 一般化性能は優れており、パラメータが少なく計算コストも低い様々なタスクで大幅に改善されている。

In this paper, we present a new data-efficient voxel-based self-supervised learning method for event cameras. Our pre-training overcomes the limitations of previous methods, which either sacrifice temporal information by converting event sequences into 2D images for utilizing pre-trained image models or directly employ paired image data for knowledge distillation to enhance the learning of event streams. In order to make our pre-training data-efficient, we first design a semantic-uniform masking method to address the learning imbalance caused by the varying reconstruction difficulties of different regions in non-uniform data when using random masking. In addition, we ease the traditional hybrid masked modeling process by explicitly decomposing it into two branches, namely local spatio-temporal reconstruction and global semantic reconstruction to encourage the encoder to capture local correlations and global semantics, respectively. This decomposition allows our selfsupervised learning method to converge faster with minimal pre-training data. Compared to previous approaches, our self-supervised learning method does not rely on paired RGB images, yet enables simultaneous exploration of spatial and temporal cues in multiple scales. It exhibits excellent generalization performance and demonstrates significant improvements across various tasks with fewer parameters and lower computational costs.
翻訳日:2024-03-05 17:49:50 公開日:2024-03-01
# 言語横断学習と低リソースファインチューニング--トルコ語 Fact-Checking を事例として

Cross-Lingual Learning vs. Low-Resource Fine-Tuning: A Case Study with Fact-Checking in Turkish ( http://arxiv.org/abs/2403.00411v1 )

ライセンス: Link先を確認
Recep Firat Cekinel, Pinar Karagoz, Cagri Coltekin(参考訳) ソーシャルメディアプラットフォームを通じた誤報の急速な拡散は、世論への影響を懸念している。 誤報は他の言語で広く見られるが、この分野の研究の大部分は英語に集中している。 そのため、トルコ語を含む他の言語向けのデータセットが不足している。 この問題に対処するため,実世界3238件からなるFCTRデータセットを導入した。 このデータセットは複数のドメインにまたがり、3つのトルコのファクトチェック組織から収集された証拠を含んでいる。 さらに,低リソース言語における言語間トランスファー学習の有効性を評価し,特にトルコ語に焦点をあてた。 この文脈では、大規模言語モデルの文脈内学習(ゼロショットと少数ショット)のパフォーマンスを示す。 実験結果は、このデータセットがトルコ語の研究を前進させる可能性を示唆している。

The rapid spread of misinformation through social media platforms has raised concerns regarding its impact on public opinion. While misinformation is prevalent in other languages, the majority of research in this field has concentrated on the English language. Hence, there is a scarcity of datasets for other languages, including Turkish. To address this concern, we have introduced the FCTR dataset, consisting of 3238 real-world claims. This dataset spans multiple domains and incorporates evidence collected from three Turkish fact-checking organizations. Additionally, we aim to assess the effectiveness of cross-lingual transfer learning for low-resource languages, with a particular focus on Turkish. We demonstrate in-context learning (zero-shot and few-shot) performance of large language models in this context. The experimental results indicate that the dataset has the potential to advance research in the Turkish language.
翻訳日:2024-03-05 17:49:13 公開日:2024-03-01
# 多分ロバストなDPO:ノイズフィードバックを伴う言語モデルの調整

Provably Robust DPO: Aligning Language Models with Noisy Feedback ( http://arxiv.org/abs/2403.00409v1 )

ライセンス: Link先を確認
Sayak Ray Chowdhury, Anush Kini, Nagarajan Natarajan(参考訳) 嗜好に基づくフィードバックから学ぶことは、言語モデルと人間の関心を結びつけるための有望なアプローチとして、最近注目を集めている。 これらの整列した生成モデルは様々なタスクで印象的な能力を発揮してきたが、高品質な人間の好みデータへの依存は実用的な応用においてボトルネックとなる。 具体的には、データセット内のノイズ(不正で曖昧な)選好ペアは、言語モデルが人間の意図を正確にキャプチャすることを制限する可能性がある。 実践者は近年、雑音の好みの影響を緩和するヒューリスティックスを提案しているが、彼らの仕事に関する完全な理論的理解はいまだに解明されていない。 本研究は,ランダムな選好フリップの存在下での政策最適化のための汎用フレームワークの導入により,このギャップを埋めることを目的とする。 特に、Bradley-Terry-Luce (BTL) モデルに優先権が従うことを前提としたDPOアルゴリズムに注目し、ノイズの多いデータが学習ポリシーに与える影響に関する懸念を提起する。 本研究では,雑音の影響を平均値に偏らせる新しい損失関数を設計し,雑音に対して頑健な損失を最小化する政策を実践する。 政策クラスのログ線形パラメータ化と、SFTポリシーの優れた特徴カバレッジを仮定すると、提案されたロバストDPO(rDPO)ポリシーの最適ポリシーに対する準最適ギャップは、$O(\frac{1}{1-2\epsilon}\sqrt {\frac{d}{n}})$、$\epsilon < 1/2$はラベルのフリップレート、$d$はポリシーパラメータ寸法、$n$はデータセットのサイズである。 IMDb 感情生成と Anthropic's useful-harmless データセットを用いた実験により,rDPO はバニラ DPO や実践者が提案した他のヒューリスティックと比較して,選好ラベルのノイズに対して頑健であることが示された。

Learning from preference-based feedback has recently gained traction as a promising approach to align language models with human interests. While these aligned generative models have demonstrated impressive capabilities across various tasks, their dependence on high-quality human preference data poses a bottleneck in practical applications. Specifically, noisy (incorrect and ambiguous) preference pairs in the dataset might restrict the language models from capturing human intent accurately. While practitioners have recently proposed heuristics to mitigate the effect of noisy preferences, a complete theoretical understanding of their workings remain elusive. In this work, we aim to bridge this gap by by introducing a general framework for policy optimization in the presence of random preference flips. We focus on the direct preference optimization (DPO) algorithm in particular since it assumes that preferences adhere to the Bradley-Terry-Luce (BTL) model, raising concerns about the impact of noisy data on the learned policy. We design a novel loss function, which de-bias the effect of noise on average, making a policy trained by minimizing that loss robust to the noise. Under log-linear parameterization of the policy class and assuming good feature coverage of the SFT policy, we prove that the sub-optimality gap of the proposed robust DPO (rDPO) policy compared to the optimal policy is of the order $O(\frac{1}{1-2\epsilon}\sqrt{\frac{d}{n}})$, where $\epsilon < 1/2$ is flip rate of labels, $d$ is policy parameter dimension and $n$ is size of dataset. Our experiments on IMDb sentiment generation and Anthropic's helpful-harmless dataset show that rDPO is robust to noise in preference labels compared to vanilla DPO and other heuristics proposed by practitioners.
翻訳日:2024-03-05 17:48:52 公開日:2024-03-01
# 予測精度最適化の文脈におけるフラクタル補間

Fractal interpolation in the context of prediction accuracy optimization ( http://arxiv.org/abs/2403.00403v1 )

ライセンス: Link先を確認
Alexandra Baicoianu, Cristina Gabriela Gavril\u{a}, Cristina Maria Pacurar, Victor Dan Pacurar(参考訳) 本稿ではフラクタル補間法を用いて時系列予測を最適化する仮説に焦点をあてる。 一般に、機械学習モデル予測の精度は、textit{garbage-in, garbage-out}の原則に従って使用されるデータの質と量的側面と密接に関連している。 データセットを定量的かつ定性的に拡張するために、データサイエンティストの最も一般的な関心事の1つは合成データを生成することである。 本研究では,フラクタル補間に基づく3つの異なるデータ拡張戦略,すなわち \textit{Closest Hurst Strategy}, \textit{Closest Values Strategy} と \textit{Formula Strategy を提案する。 この戦略を検証するために,文献から得られた4つの公開データセットと,ルーマニアのブラソフ市の気象記録から得られたプライベートデータセットを用いた。 提案する補間戦略を用いてlstmモデルにより得られた予測結果は, 生データセットと比較して有意に精度が向上し, リモートセンシングとセンサ感度の分野における実用的問題に対する答えとなりうる。 さらに,この手法は,フラクタル補間ステップに対して, \textit{optuna} フレームワークを用いた最適化に関連するオープン質問に答える。

This paper focuses on the hypothesis of optimizing time series predictions using fractal interpolation techniques. In general, the accuracy of machine learning model predictions is closely related to the quality and quantitative aspects of the data used, following the principle of \textit{garbage-in, garbage-out}. In order to quantitatively and qualitatively augment datasets, one of the most prevalent concerns of data scientists is to generate synthetic data, which should follow as closely as possible the actual pattern of the original data. This study proposes three different data augmentation strategies based on fractal interpolation, namely the \textit{Closest Hurst Strategy}, \textit{Closest Values Strategy} and \textit{Formula Strategy}. To validate the strategies, we used four public datasets from the literature, as well as a private dataset obtained from meteorological records in the city of Brasov, Romania. The prediction results obtained with the LSTM model using the presented interpolation strategies showed a significant accuracy improvement compared to the raw datasets, thus providing a possible answer to practical problems in the field of remote sensing and sensor sensitivity. Moreover, our methodologies answer some optimization-related open questions for the fractal interpolation step using \textit{Optuna} framework.
翻訳日:2024-03-05 17:47:47 公開日:2024-03-01
# multi-spectral magnetic resonance spectroscopic imagingにおける圧縮センシングによる物質動態の時空間的再構成

Spatio-temporal reconstruction of substance dynamics using compressed sensing in multi-spectral magnetic resonance spectroscopic imaging ( http://arxiv.org/abs/2403.00402v1 )

ライセンス: Link先を確認
Utako Yamamoto, Hirohiko Imai, Kei Sano, Masayuki Ohzeki, Tetsuya Matsuda and Toshiyuki Tanaka(参考訳) 本研究の目的は、多スペクトル磁気共鳴分光画像(MRSI)データから高時間分解能の複数の物質をin vivoで観察することである。 多スペクトルMRSIは、複数の物質のスペクトルピークを効果的に分離することができ、物質の空間分布を測定するのに有用である。 しかし, 測定に要する時間が長いため, 経時変化物質分布を通常のフルサンプリングで直接測定することは困難である。 本研究では, ランダムにアンサンプされたマルチスペクトルMRSIデータから, 物質の時空間分布を圧縮センシング(CS)と, 物質の基底スペクトルを用いた部分分離関数モデルに基づいて再構成する手法を提案する。 提案手法では, csを行うための事前知識として, 時空間的スパース性と物質分布の時間的平滑さを用いた。 本法の有効性は, グルコースまたは乳酸溶液を充填したガラス管のファントムデータセットと, 腫瘍を有するマウスの動物データセットを用いて評価し, ワーブルグ効果に関与する代謝動態をin vivoで観察した。 その結果,本手法は時間分解能4秒の物質の時空間分布を全サンプリングに比べて非常に短い時間スケールで再現できることがわかった。 本手法は, 物質の時空間分布に自然に仮定される事前知識のみを利用し, スペクトル次元や空間次元の個数やMRSIの取得順序に依存しないため, MRSIデータの基盤となる物質動態を明らかにすることに寄与することが期待される。

The objective of our study is to observe dynamics of multiple substances in vivo with high temporal resolution from multi-spectral magnetic resonance spectroscopic imaging (MRSI) data. The multi-spectral MRSI can effectively separate spectral peaks of multiple substances and is useful to measure spatial distributions of substances. However it is difficult to measure time-varying substance distributions directly by ordinary full sampling because the measurement requires a significantly long time. In this study, we propose a novel method to reconstruct the spatio-temporal distributions of substances from randomly undersampled multi-spectral MRSI data on the basis of compressed sensing (CS) and the partially separable function model with base spectra of substances. In our method, we have employed spatio-temporal sparsity and temporal smoothness of the substance distributions as prior knowledge to perform CS. The effectiveness of our method has been evaluated using phantom data sets of glass tubes filled with glucose or lactate solution in increasing amounts over time and animal data sets of a tumor-bearing mouse to observe the metabolic dynamics involved in the Warburg effect in vivo. The reconstructed results are consistent with the expected behaviors, showing that our method can reconstruct the spatio-temporal distribution of substances with a temporal resolution of four seconds which is extremely short time scale compared with that of full sampling. Since this method utilizes only prior knowledge naturally assumed for the spatio-temporal distributions of substances and is independent of the number of the spectral and spatial dimensions or the acquisition sequence of MRSI, it is expected to contribute to revealing the underlying substance dynamics in MRSI data already acquired or to be acquired in the future.
翻訳日:2024-03-05 17:47:03 公開日:2024-03-01
# glfnet: 医用画像セグメンテーションのためのグローバル局所(周波数)フィルタネットワーク

GLFNET: Global-Local (frequency) Filter Networks for efficient medical image segmentation ( http://arxiv.org/abs/2403.00396v1 )

ライセンス: Link先を確認
Athanasios Tragakis, Qianying Liu, Chaitanya Kaul, Swalpa Kumar Roy, Hang Dai, Fani Deligianni, Roderick Murray-Smith, Daniele Faccio(参考訳) 本稿では,医用画像セグメンテーションのためのグローバルローカルフィルタネットワーク (glfnet) と呼ばれる新しいトランスフォーマー方式のアーキテクチャを提案する。 モデル効率を最適化するために,自己認識機構をグローバルローカルフィルタブロックの組み合わせに置き換える。 グローバルフィルタはフィーチャーマップ全体から特徴を抽出し、ローカルフィルタは同じフィーチャーマップの4x4パッチとして適応的に作成され、制限されたスケール情報を追加する。 特に、特徴抽出は、より高速な計算を容易にするために一般的に使用される空間(画像)領域ではなく周波数領域で行われる。 空間空間と周波数空間の両方からの情報の融合は、複雑さ、必要なデータ、性能に関する効率的なモデルを生み出す。 GLFNetを3つのベンチマークデータセットでテストし、GFLOP操作の約2倍の効率を保ちながら、最先端のパフォーマンスを実現した。

We propose a novel transformer-style architecture called Global-Local Filter Network (GLFNet) for medical image segmentation and demonstrate its state-of-the-art performance. We replace the self-attention mechanism with a combination of global-local filter blocks to optimize model efficiency. The global filters extract features from the whole feature map whereas the local filters are being adaptively created as 4x4 patches of the same feature map and add restricted scale information. In particular, the feature extraction takes place in the frequency domain rather than the commonly used spatial (image) domain to facilitate faster computations. The fusion of information from both spatial and frequency spaces creates an efficient model with regards to complexity, required data and performance. We test GLFNet on three benchmark datasets achieving state-of-the-art performance on all of them while being almost twice as efficient in terms of GFLOP operations.
翻訳日:2024-03-05 17:46:35 公開日:2024-03-01
# Dykstra-like Splitting を用いたリストモードPET画像再構成

List-Mode PET Image Reconstruction Using Dykstra-Like Splitting ( http://arxiv.org/abs/2403.00394v1 )

ライセンス: Link先を確認
Kibo Ote, Fumio Hashimoto, Yuya Onishi, Yasuomi Ouchi(参考訳) ポジトロン断層撮影(PET)の画像再構成におけるブロック反復法を収束させるためには, 緩和パラメータの注意深く制御する必要がある。 リストモード再構築における緩和パラメータの自動決定も困難である。 したがって、リストモードPET再構成では緩和パラメータの制御とは異なるアプローチが望まれる。 本研究では,Dykstra-like splitting PET reconstruction (LM-MLDS)を提案する。 LM-MLDSは、初期画像からペナルティ項としての距離を目的関数に付加することにより、リストモードブロック反復法を収束させる。 LM-MLDSは、初期画像の品質に依存するため、2段階のアプローチをとる。 第1ステップは、初期画像として一様画像を使用し、その後、第2ステップは、1つのメインイテレーション後の再構成イメージを初期画像として使用する。 シミュレーションと臨床データを用いたLM-MLDSの評価を行った。 LM-MLDSは高いピーク信号対雑音比を提供し、ノイズとコントラストのトレードオフ曲線の振動を他のブロック反復法よりも抑制した。 臨床研究において、LM-MLDSは軸方向視野の端にある偽ホットスポットを除去し、頭頂部から小脳までを覆うスライスの画像品質を改善した。 LM-MLDSは近接演算子によって誘導されるガウス雑音による他の手法とは異なるノイズ特性を示した。 リストモード近位分割PET再構成は、全変動などの非微分関数を最適化するだけでなく、緩和パラメータを制御せずにブロック反復法の収束にも有用である。

To converge the block iterative method in image reconstruction for positron emission tomography (PET), careful control of relaxation parameters is required, which is a challenging task. The automatic determination of relaxation parameters for list-mode reconstructions also remains challenging. Therefore, a different approach than controlling relaxation parameters would be desired by list-mode PET reconstruction. In this study, we propose a list-mode maximum likelihood Dykstra-like splitting PET reconstruction (LM-MLDS). LM-MLDS converges the list-mode block iterative method by adding the distance from an initial image as a penalty term into an objective function. LM-MLDS takes a two-step approach because its performance depends on the quality of the initial image. The first step uses a uniform image as the initial image, and then the second step uses a reconstructed image after one main iteration as the initial image. We evaluated LM-MLDS using simulation and clinical data. LM-MLDS provided a higher peak signal-to-noise ratio and suppressed an oscillation of tradeoff curves between noise and contrast than the other block iterative methods. In a clinical study, LM-MLDS removed the false hotspots at the edge of the axial field of view and improved the image quality of slices covering the top of the head to the cerebellum. LM-MLDS showed different noise properties than the other methods due to Gaussian denoising induced by the proximity operator. The list-mode proximal splitting PET reconstruction is useful not only for optimizing nondifferentiable functions such as total variation but also for converging block iterative methods without controlling relaxation parameters.
翻訳日:2024-03-05 17:46:18 公開日:2024-03-01
# 汚染防止とllmsの比較評価改善のためのプライベートベンチマーク

Private Benchmarking to Prevent Contamination and Improve Comparative Evaluation of LLMs ( http://arxiv.org/abs/2403.00393v1 )

ライセンス: Link先を確認
Nishanth Chandran, Sunayana Sitaram, Divya Gupta, Rahul Sharma, Kashish Mittal, Manohar Swaminathan(参考訳) ベンチマークは LLM を評価するためのデファクト標準であり、その速度、複製性、低コストのためである。 しかし、最近の研究によると、現在入手可能なオープンソースベンチマークの大部分は汚染されたり、llmにリークされたりしており、llmは事前トレーニングや微調整中にテストデータにアクセスすることができる。 これは、これまで行われたベンチマーク研究の妥当性と、ベンチマークを用いた評価の将来について深刻な懸念を提起する。 この問題を解決するために、テストデータセットをプライベートに保持し、モデルにテストデータを公開することなくモデルを評価するソリューションであるPrivate Benchmarkingを提案する。 我々は,様々なシナリオ(モデルオーナやデータセットオーナの信頼度に依存する)について記述し,プライベートベンチマークによるデータ汚染を回避するソリューションを提案する。 モデルウェイトをプライベートにしておく必要があるシナリオでは、秘密コンピューティングとプライベートベンチマークに役立つ暗号のソリューションを説明します。 最後に、プライベートベンチマークが十分に高品質であることを保証するため、ベンチマークデータセット監査の問題を提案する。

Benchmarking is the de-facto standard for evaluating LLMs, due to its speed, replicability and low cost. However, recent work has pointed out that the majority of the open source benchmarks available today have been contaminated or leaked into LLMs, meaning that LLMs have access to test data during pretraining and/or fine-tuning. This raises serious concerns about the validity of benchmarking studies conducted so far and the future of evaluation using benchmarks. To solve this problem, we propose Private Benchmarking, a solution where test datasets are kept private and models are evaluated without revealing the test data to the model. We describe various scenarios (depending on the trust placed on model owners or dataset owners), and present solutions to avoid data contamination using private benchmarking. For scenarios where the model weights need to be kept private, we describe solutions from confidential computing and cryptography that can aid in private benchmarking. Finally, we present solutions the problem of benchmark dataset auditing, to ensure that private benchmarks are of sufficiently high quality.
翻訳日:2024-03-05 17:45:53 公開日:2024-03-01
# 構造化深層ニューラルネットワークによるラグランジアン系のバックステッピング軌道追跡制御

Structured Deep Neural Networks-Based Backstepping Trajectory Tracking Control for Lagrangian Systems ( http://arxiv.org/abs/2403.00381v1 )

ライセンス: Link先を確認
Jiajun Qian, Liang Xu, Xiaoqiang Ren, Xiaofan Wang(参考訳) 深いニューラルネットワーク(DNN)は、優れた近似能力のため、コントローラの学習にますます利用されている。 しかしながら、ブラックボックスの性質は閉ループ安定性保証と性能解析に重大な課題をもたらす。 本稿では,ラグランジアン系の軌道追従制御のためのバッキング技術を用いた構造化dnnベースの制御器を提案する。 ニューラルネットワーク構造を適切に設計することにより、ニューラルネットワークパラメータのクローズループ安定性を確保することができる。 さらに、ニューラルネットワークパラメータをさらに最適化することで、制御性能を向上させることができる。 また、制御パラメータの観点でトラッキングエラーの明示的な上限を提供することにより、制御パラメータを適切に選択することで、所望のトラッキング性能を達成することができる。 さらに,システムモデルが未知の場合,システムダイナミクスを学習し,コントローラの設計を行うために,改良されたラグランジアンニューラルネットワーク(LNN)構造を提案する。 モデル近似誤差や外乱の存在下では、閉ループ安定性と追従制御性能が保証されることが示されている。 提案手法の有効性をシミュレーションにより実証した。

Deep neural networks (DNN) are increasingly being used to learn controllers due to their excellent approximation capabilities. However, their black-box nature poses significant challenges to closed-loop stability guarantees and performance analysis. In this paper, we introduce a structured DNN-based controller for the trajectory tracking control of Lagrangian systems using backing techniques. By properly designing neural network structures, the proposed controller can ensure closed-loop stability for any compatible neural network parameters. In addition, improved control performance can be achieved by further optimizing neural network parameters. Besides, we provide explicit upper bounds on tracking errors in terms of controller parameters, which allows us to achieve the desired tracking performance by properly selecting the controller parameters. Furthermore, when system models are unknown, we propose an improved Lagrangian neural network (LNN) structure to learn the system dynamics and design the controller. We show that in the presence of model approximation errors and external disturbances, the closed-loop stability and tracking control performance can still be guaranteed. The effectiveness of the proposed approach is demonstrated through simulations.
翻訳日:2024-03-05 17:45:38 公開日:2024-03-01
# 視覚言語モデル一般化のための不変テスト時間適応

Invariant Test-Time Adaptation for Vision-Language Model Generalization ( http://arxiv.org/abs/2403.00376v1 )

ライセンス: Link先を確認
Huan Ma, Yan Zhu, Changqing Zhang, Peilin Zhao, Baoyuan Wu, Long-Kai Huang, Qinghua Hu, Bingzhe Wu(参考訳) ビジョン言語の基礎モデルは、広範な画像テキストペアデータセットのスケーラビリティのため、多くのダウンストリームタスクで顕著な成功を収めています。 しかし、これらのモデルは、その一般化能力を阻害する「決定的ショートカット」の結果、細粒度画像分類などの長いタスクに適用する場合に重大な制限を呈する。 本研究では,CLIPモデルには,<textit{desired invariant causal features} と \textit{undesired decision shortcuts} の両方を含む,豊富な特徴セットが存在することがわかった。 さらに、下流タスクにおけるCLIPの過小評価は、特定のタスク要求に応じてトレーニング済みの機能を有効に活用できないことに起因する。 そこで本研究では,学習可能なプロンプトを最適化し,推論フェーズにおける決定近道を無視しながら,真正の因果的不変特徴を活用させるテストタイムプロンプトチューニングパラダイムを提案する。 提案手法は,タスク関連の視覚的手がかりを強調すると同時に,潜在的に誤解を招く,タスクに無関係な文脈情報への過度な依存を効果的に緩和する。 提案手法は,提案手法の有効性を検証する様々な手法に対して比較分析を行う。

Vision-language foundation models have exhibited remarkable success across a multitude of downstream tasks due to their scalability on extensive image-text paired datasets. However, these models display significant limitations when applied to long-tail tasks, such as fine-grained image classification, as a result of "decision shortcuts" that hinders their generalization capabilities. In this work, we find that the CLIP model possesses a rich set of features, encompassing both \textit{desired invariant causal features} and \textit{undesired decision shortcuts}. Moreover, the underperformance of CLIP on downstream tasks originates from its inability to effectively utilize pre-trained features in accordance with specific task requirements. To address this challenge, this paper introduces a test-time prompt tuning paradigm that optimizes a learnable prompt, thereby compelling the model to exploit genuine causal invariant features while disregarding decision shortcuts during the inference phase. The proposed method effectively alleviates excessive dependence on potentially misleading, task-irrelevant contextual information, while concurrently emphasizing critical, task-related visual cues. We conduct comparative analysis of the proposed method against various approaches which validates its effectiveness.
翻訳日:2024-03-05 17:45:24 公開日:2024-03-01
# HyperSDFusion:3次元テキスト2形状生成のための言語と幾何学の階層構造をブリッジする

HyperSDFusion: Bridging Hierarchical Structures in Language and Geometry for Enhanced 3D Text2Shape Generation ( http://arxiv.org/abs/2403.00372v1 )

ライセンス: Link先を確認
Zhiying Leng, Tolga Birdal, Xiaohui Liang and Federico Tombari(参考訳) テキストからの3次元形状生成は,3次元表現学習における基本課題である。 テキスト形状のペアは階層構造を持ち、椅子のような一般的なテキストは椅子のすべての3次元形状をカバーし、より詳細なプロンプトはより具体的な形状を参照する。 さらに、テキストと3d形状は本質的に階層構造である。 しかし、SDFusionのような既存のText2Shapeメソッドはそれを利用しない。 本研究では,与えられたテキストから3次元形状を生成する2分岐拡散モデルHyperSDFusionを提案する。 双曲空間は階層データを扱うのに適したため,双曲空間におけるテキストと3次元形状の階層表現を学習することを提案する。 まず、双曲的テキスト画像エンコーダを導入し、双曲的空間におけるテキストのシーケンシャルかつマルチモーダルな階層的特徴を学習する。 さらに,双曲的テキストグラフ畳み込みモジュールを設計し,双曲的空間におけるテキストの階層的特徴を学習する。 テキスト機能を完全に活用するために,テキスト機能を3次元特徴空間に埋め込むデュアルブランチ構造を導入する。 最後に、生成された3d形状に階層構造を与えるため、双曲的階層的損失を考案する。 本手法は,テキスト対形状生成のための双曲的階層表現を初めて検討した。 既存のテキスト対形状のペアデータセットであるText2Shapeの実験結果は、最先端の結果を得た。

3D shape generation from text is a fundamental task in 3D representation learning. The text-shape pairs exhibit a hierarchical structure, where a general text like "chair" covers all 3D shapes of the chair, while more detailed prompts refer to more specific shapes. Furthermore, both text and 3D shapes are inherently hierarchical structures. However, existing Text2Shape methods, such as SDFusion, do not exploit that. In this work, we propose HyperSDFusion, a dual-branch diffusion model that generates 3D shapes from a given text. Since hyperbolic space is suitable for handling hierarchical data, we propose to learn the hierarchical representations of text and 3D shapes in hyperbolic space. First, we introduce a hyperbolic text-image encoder to learn the sequential and multi-modal hierarchical features of text in hyperbolic space. In addition, we design a hyperbolic text-graph convolution module to learn the hierarchical features of text in hyperbolic space. In order to fully utilize these text features, we introduce a dual-branch structure to embed text features in 3D feature space. At last, to endow the generated 3D shapes with a hierarchical structure, we devise a hyperbolic hierarchical loss. Our method is the first to explore the hyperbolic hierarchical representation for text-to-shape generation. Experimental results on the existing text-to-shape paired dataset, Text2Shape, achieved state-of-the-art results.
翻訳日:2024-03-05 17:45:01 公開日:2024-03-01
# マルチターン医療インタビューにおけるエンドツーエンド音声認識のためのポストデコーダ

Post-decoder Biasing for End-to-End Speech Recognition of Multi-turn Medical Interview ( http://arxiv.org/abs/2403.00370v1 )

ライセンス: Link先を確認
Heyang Liu, Yu Wang and Yanfeng Wang(参考訳) エンドツーエンド(E2E)アプローチは、自動音声認識(ASR)タスクのハイブリッドモデルを徐々に置き換えている。 しかし、e2eモデルの最適化は、特に特定の重要な意味を持つ多くのドメイン固有のまれな単語を持つシナリオにおいて、デコードシフトを扱うための直感的な手法を欠いている。 さらに,アカデミアにおける知識集約型音声データセットの欠如は重要な制限要因であり,一般的に使用されている音声コーパスは,現実的な会話と大きな相違が見られる。 これらの課題に対処するため,多数の知識集約型エンティティを含むマルチターンコンサルティング音声データセットであるメディカルインタビュー(MED-IT)を提示する。 E2Eモデルにおけるレアワードの認識性能を向上させる手法についても検討する。 そこで本研究では,トレーニング文字の分布に基づいて変換確率行列を構成する,新しい手法であるポストデコーダバイアスを提案する。 これにより、バイアスリスト内の単語の認識を優先するモデルが導かれる。 実験では,訓練音声に含まれるまれな単語のサブセットを10回,20回,および1回,5回に分けて,それぞれ9.3%,5.1%の相対的な改善を実現した。

End-to-end (E2E) approach is gradually replacing hybrid models for automatic speech recognition (ASR) tasks. However, the optimization of E2E models lacks an intuitive method for handling decoding shifts, especially in scenarios with a large number of domain-specific rare words that hold specific important meanings. Furthermore, the absence of knowledge-intensive speech datasets in academia has been a significant limiting factor, and the commonly used speech corpora exhibit significant disparities with realistic conversation. To address these challenges, we present Medical Interview (MED-IT), a multi-turn consultation speech dataset that contains a substantial number of knowledge-intensive named entities. We also explore methods to enhance the recognition performance of rare words for E2E models. We propose a novel approach, post-decoder biasing, which constructs a transform probability matrix based on the distribution of training transcriptions. This guides the model to prioritize recognizing words in the biasing list. In our experiments, for subsets of rare words appearing in the training speech between 10 and 20 times, and between 1 and 5 times, the proposed method achieves a relative improvement of 9.3% and 5.1%, respectively.
翻訳日:2024-03-05 17:44:40 公開日:2024-03-01
# アリコロニー最適化のための新しい量子アルゴリズム

A Novel Quantum Algorithm for Ant Colony Optimization ( http://arxiv.org/abs/2403.00367v1 )

ライセンス: Link先を確認
Qian Qiu, Mohan Wu, Qichun Sun, Xiaogang Li, Hua Xu(参考訳) 量子アントコロニー最適化(QACO)は、量子コンピューティングとアリコロニー最適化(ACO)アルゴリズムの利点を組み合わせ、従来のACOアルゴリズムのいくつかの制限を克服するため、多くの注目を集めている。 しかし、現在利用可能な量子コンピュータのハードウェアリソースの制限、例えば量子ビット数の制限、高忠実性ゲーティング演算の欠如、雑音耐性の低さなどにより、QACOの実用化は非常に困難である。 本稿では,クラスタリングアルゴリズムとQACOアルゴリズムを組み合わせたハイブリッド量子古典アルゴリズムを提案する。 提案アルゴリズムの有効性と性能を検証するため,TSP(Traveling Salesman Problem)をベンチマークとして,開発したQACOアルゴリズムを検証した。 開発したQACOアルゴリズムは、複数のデータセットにおいてより良い性能を示す。 さらに、QACOアルゴリズムは計算処理のノイズに対する堅牢性も示しており、これは一般に量子コンピュータの実用化における主要な障壁である。 我々の研究は、クラスタリングアルゴリズムとQACOの組み合わせが、現在のNISQ時代の量子コンピューティングにおけるQACOの適用シナリオを効果的に拡張したことを示している。

Quantum ant colony optimization (QACO) has drew much attention since it combines the advantages of quantum computing and ant colony optimization (ACO) algorithms and overcomes some limitations of the traditional ACO algorithm. However, due to the hardware resource limitations of currently available quantum computers, such as the limited number of qubits, lack of high-fidelity gating operation, and low noisy tolerance, the practical application of the QACO is quite challenging. In this paper, we introduce a hybrid quantum-classical algorithm by combining the clustering algorithm with QACO algorithm, so that this extended QACO can handle large-scale optimization problems, which makes the practical application of QACO based on available quantum computation resource possible. To verify the effectiveness and performance of the algorithm, we tested the developed QACO algorithm with the Travelling Salesman Problem (TSP) as benchmarks. The developed QACO algorithm shows better performance under multiple data set. In addition, the developed QACO algorithm also manifests the robustness to noise of calculation process, which is typically a major barrier for practical application of quantum computers. Our work shows that the combination of the clustering algorithm with QACO has effectively extended the application scenario of QACO in current NISQ era of quantum computing.
翻訳日:2024-03-05 17:44:18 公開日:2024-03-01
# マルチモーダル測定による認知負荷の動的相互作用と感情覚醒の探索--情緒的なタスクにおける瞳孔径と感情覚醒の相関

Exploring the dynamic interplay of cognitive load and emotional arousal by using multimodal measurements: Correlation of pupil diameter and emotional arousal in emotionally engaging tasks ( http://arxiv.org/abs/2403.00366v1 )

ライセンス: Link先を確認
C. Kosel, S. Michel, T. Seidel, M. Foerster(参考訳) 深層学習を用いた顔面行動符号化システム(FACT)を用いた眼球追跡や感情認識などの最先端センサ技術のストリームに基づくマルチモーダルデータ分析と検証により、教育研究者は多面的学習と問題解決過程を研究し、教育経験を向上させることができる。 本研究では,認知作業負荷の指標としての瞳孔径と,感情的覚醒(RQ 1a)の指標としての深層学習(FACT)の相関について検討し,特に高,中,低覚醒(RQ 1b)のエポックについて検討した。 さらに、感情的覚醒データと瞳孔径データとの時間ラグを分析する(RQ2)。 28名の被験者が3つの認知的要求と感情的な日常的道徳的ジレンマに取り組み,視線追跡と感情認識データを収集した。 データはphyton (synchronization, blink control, downsampling) で事前処理され、相関分析とグランジャー因果関係テストを用いて分析された。 その結果,感情刺激と瞳孔径のデータストリームの負の相関が統計的に有意な相関を示した。 しかし,この相関は,高覚醒のエポックに対してのみ有意であり,中低覚醒のエポックには陽性だが非有意な関係がみられた。 覚醒と瞳孔径の関係に関する平均時間差は2.8ミリ秒であり, 構成物間の正の相関を示唆するマルチモーダルアプローチを伴わない先行研究とは対照的に, マルチモーダルデータ検証の重要性と収束率に関する研究を強調することにより, 研究の現状に寄与した。 今後の研究は、感情制御戦略と感情的価値を考えるべきである。

Multimodal data analysis and validation based on streams from state-of-the-art sensor technology such as eye-tracking or emotion recognition using the Facial Action Coding System (FACTs) with deep learning allows educational researchers to study multifaceted learning and problem-solving processes and to improve educational experiences. This study aims to investigate the correlation between two continuous sensor streams, pupil diameter as an indicator of cognitive workload and FACTs with deep learning as an indicator of emotional arousal (RQ 1a), specifically for epochs of high, medium, and low arousal (RQ 1b). Furthermore, the time lag between emotional arousal and pupil diameter data will be analyzed (RQ 2). 28 participants worked on three cognitively demanding and emotionally engaging everyday moral dilemmas while eye-tracking and emotion recognition data were collected. The data were pre-processed in Phyton (synchronization, blink control, downsampling) and analyzed using correlation analysis and Granger causality tests. The results show negative and statistically significant correlations between the data streams for emotional arousal and pupil diameter. However, the correlation is negative and significant only for epochs of high arousal, while positive but non-significant relationships were found for epochs of medium or low arousal. The average time lag for the relationship between arousal and pupil diameter was 2.8 ms. In contrast to previous findings without a multimodal approach suggesting a positive correlation between the constructs, the results contribute to the state of research by highlighting the importance of multimodal data validation and research on convergent vagility. Future research should consider emotional regulation strategies and emotional valence.
翻訳日:2024-03-05 17:43:58 公開日:2024-03-01
# 大規模言語モデルがレポジトリレベルの自動プログラム修復に先行する時: どのようにうまくいったか?

When Large Language Models Confront Repository-Level Automatic Program Repair: How Well They Done? ( http://arxiv.org/abs/2403.00448v1 )

ライセンス: Link先を確認
Yuxiao Chen, Jingzheng Wu, Xiang Ling, Changjiang Li, Zhiqing Rui, Tianyue Luo, Yanjun Wu(参考訳) 近年,大規模言語モデル (LLM) は,自動プログラム修復 (APR) タスクに対処する大きな可能性を示している。 しかし、現在のAPRタスクに対するこれらのモデルの評価は、リポジトリレベルのコンテキストで貴重な情報を見越して、バグがある単一機能やファイルの限られたコンテキストにのみ焦点を当てている。 本稿では,レポジトリレベルの修復作業におけるLLMの性能について検討する。 オープンソースリポジトリから124の典型的なリポジトリレベルのバグで構成される新しいベンチマークであるRepoBugsを紹介します。 GPT3.5を用いた予備実験では,RepoBugsの修復率は22.58%に過ぎず,機能レベルのバグに対するGPT3.5の性能は著しく変化していることがわかった。 これは、このレベルでバグに対処する際にリポジトリレベルのコンテキストを提供することの重要性を強調する。 しかし、プリミティブメソッドによって提供されるリポジトリレベルのコンテキストは、しばしば冗長で不正確であり、容易にllmのプロンプト長の制限を超える。 そこで本研究では,リポジトリレベルのコード修復タスクに対して,より正確なコンテキストを提供するために,シンプルで普遍的なリポジトリレベルのコンテキスト抽出手法(RLCE)を提案する。 3つの主要なLCMの評価は、RLCEがリポジトリレベルのバグを修復する能力を著しく向上させることを示している。 この改善は、予備的な方法と比較して最大で160%に達する。 さらに,レポジトリレベルのバグに対処するLLMの能力とともに,RLCEの有効性と限界を包括的に分析し,今後の研究に有用な洞察を提供する。

In recent years, large language models (LLMs) have demonstrated substantial potential in addressing automatic program repair (APR) tasks. However, the current evaluation of these models for APR tasks focuses solely on the limited context of the single function or file where the bug is located, overlooking the valuable information in the repository-level context. This paper investigates the performance of popular LLMs in handling repository-level repair tasks. We introduce RepoBugs, a new benchmark comprising 124 typical repository-level bugs from open-source repositories. Preliminary experiments using GPT3.5 based on the function where the error is located, reveal that the repair rate on RepoBugs is only 22.58%, significantly diverging from the performance of GPT3.5 on function-level bugs in related studies. This underscores the importance of providing repository-level context when addressing bugs at this level. However, the repository-level context offered by the preliminary method often proves redundant and imprecise and easily exceeds the prompt length limit of LLMs. To solve the problem, we propose a simple and universal repository-level context extraction method (RLCE) designed to provide more precise context for repository-level code repair tasks. Evaluations of three mainstream LLMs show that RLCE significantly enhances the ability to repair repository-level bugs. The improvement reaches a maximum of 160% compared to the preliminary method. Additionally, we conduct a comprehensive analysis of the effectiveness and limitations of RLCE, along with the capacity of LLMs to address repository-level bugs, offering valuable insights for future research.
翻訳日:2024-03-05 17:38:53 公開日:2024-03-01
# 安全なハイブリッド・アクション強化学習に基づく離散レーン変更のための決定と制御

Safe Hybrid-Action Reinforcement Learning-Based Decision and Control for Discretionary Lane Change ( http://arxiv.org/abs/2403.00446v1 )

ライセンス: Link先を確認
Ruichen Xu, Xiao Liu, Jinming Xu, Yuan Lin(参考訳) 高度な運転支援システムの重要な特徴である自律車線変更は、交通効率を高め、事故の発生率を低減する。 しかし、複雑な環境では、自動運転車の安全な運転は困難である。 安全かつ適切な車線変更の実施方法は、自動運転分野における研究の一般的なトピックである。 現在、自律車線変更シナリオにおける強化学習の安全性を考える論文は少ない。 PIDラグランジアン (PASAC-PIDLag) アルゴリズムを用いたパラメタライズド・ソフト・アクター・クリティカルを提案する。 さらに,PASAC-PIDLagの安全でないバージョンであるパラメータ化ソフトアクタークリティカル(PASAC)の比較分析を行った。 両アルゴリズムは、自動運転車の車線変更戦略を訓練し、離散車線変更決定と縦方向車両加速度を出力する。 シミュレーションの結果,PASAC-PIDLagアルゴリズムは,1kmあたり15両の交通密度(15 veh/km)において,衝突速度0%で良好な安全性を示し,衝突速度1%のPASACアルゴリズムを上回った。 一般化評価の結果,PASAC-PIDLagアルゴリズムとPASACアルゴリズムは,低トラフィック密度レベルでは,衝突速度が0%に達するのに十分であることがわかった。 高トラフィックフロー密度の条件下では、PASAC-PIDLagアルゴリズムは安全性と最適性の両方の観点からPASACを上回る。

Autonomous lane-change, a key feature of advanced driver-assistance systems, can enhance traffic efficiency and reduce the incidence of accidents. However, safe driving of autonomous vehicles remains challenging in complex environments. How to perform safe and appropriate lane change is a popular topic of research in the field of autonomous driving. Currently, few papers consider the safety of reinforcement learning in autonomous lane-change scenarios. We introduce safe hybrid-action reinforcement learning into discretionary lane change for the first time and propose Parameterized Soft Actor-Critic with PID Lagrangian (PASAC-PIDLag) algorithm. Furthermore, we conduct a comparative analysis of the Parameterized Soft Actor-Critic (PASAC), which is an unsafe version of PASAC-PIDLag. Both algorithms are employed to train the lane-change strategy of autonomous vehicles to output discrete lane-change decision and longitudinal vehicle acceleration. Our simulation results indicate that at a traffic density of 15 vehicles per kilometer (15 veh/km), the PASAC-PIDLag algorithm exhibits superior safety with a collision rate of 0%, outperforming the PASAC algorithm, which has a collision rate of 1%. The outcomes of the generalization assessments reveal that at low traffic density levels, both the PASAC-PIDLag and PASAC algorithms are proficient in attaining a 0% collision rate. Under conditions of high traffic flow density, the PASAC-PIDLag algorithm surpasses PASAC in terms of both safety and optimality.
翻訳日:2024-03-05 17:38:28 公開日:2024-03-01
# 創造的言語芸術のスケーラブルなパーソナライゼーションに向けた著者の価値と態度

Authors' Values and Attitudes Towards AI-bridged Scalable Personalization of Creative Language Arts ( http://arxiv.org/abs/2403.00439v1 )

ライセンス: Link先を確認
Taewook Kim, Hyomin Han, Eytan Adar, Matthew Kay, John Joon Young Chung(参考訳) ジェネレイティブaiは、新たな形式のインタラクティブメディアを生み出す可能性を持っている: ai-bridged creative language arts (cla)は、著者と聴衆を橋渡しし、著者のビジョンを聴衆のコンテキストとスケールの好みにパーソナライズする。 しかし、著者のCLAに対する価値観や態度は明らかになっていない。 これらの価値観と態度を明らかにするため,我々は8つのジャンル(詩,漫画など)の18人の著者を対象に,投機的だが現実的なAIブリッジ型CLAシナリオを提示し,インタビュー調査を行った。 著者,アーティファクト,オーディエンス間のダイナミクスから得られた3つのメリットを特定した。 1)著者は、その過程から得る。 2) オーディエンスは人工物から得られ、そして 3)著者は聴衆から得ます。 AIでブリッジされたCLAは、著者の懸念とともに、これらのメリットを促進または削減する方法を見つけました。 私たちは、AIがCLAのオーディエンスに興味深い体験を提供しながら、著者の価値観を促進することができることを示唆する調査を望んでいます。

Generative AI has the potential to create a new form of interactive media: AI-bridged creative language arts (CLA), which bridge the author and audience by personalizing the author's vision to the audience's context and taste at scale. However, it is unclear what the authors' values and attitudes would be regarding AI-bridged CLA. To identify these values and attitudes, we conducted an interview study with 18 authors across eight genres (e.g., poetry, comics) by presenting speculative but realistic AI-bridged CLA scenarios. We identified three benefits derived from the dynamics between author, artifact, and audience: those that 1) authors get from the process, 2) audiences get from the artifact, and 3) authors get from the audience. We found how AI-bridged CLA would either promote or reduce these benefits, along with authors' concerns. We hope our investigation hints at how AI can provide intriguing experiences to CLA audiences while promoting authors' values.
翻訳日:2024-03-05 17:38:02 公開日:2024-03-01
# あなたのモデルはうつ病をよく予測していない。その理由:PRIMATEデータセットのケーススタディ

Your Model Is Not Predicting Depression Well And That Is Why: A Case Study of PRIMATE Dataset ( http://arxiv.org/abs/2403.00438v1 )

ライセンス: Link先を確認
Kirill Milintsevich (1 and 2), Kairit Sirts (2), Ga\"el Dias (1) ((1) University of Caen Normandy, (2) University of Tartu)(参考訳) ソーシャルメディアのテキストからNLPに基づく抑うつレベル推定に用いるメンタルヘルスデータセットのアノテーションの品質について検討する。 以前の研究では、二項分類に注釈付けされたソーシャルメディアベースのデータセット、すなわち、うつ病または非うつ病のデータセットに依存していたが、D2SやPRIMATEといった最近のデータセットは、PHQ-9の症状を用いたニュアンスドアノテーションを目指している。 しかし、これらのデータセットのほとんどは、アノテーションのドメイン知識のないクラウドワーカーに依存している。 本研究は,PRIMATEデータセットに着目し,特に関心の欠如や快楽症状に対するアノテーションの妥当性に関する懸念を明らかにする。 メンタルヘルスの専門家による再注釈を通して、より細かいラベルやテキストスパンを証拠として紹介し、注目すべき偽陽性数を識別する。 データ使用契約の下でリリース予定の洗練されたアノテーションは、anhedonia検出のための高品質なテストセットを提供します。 本研究は、メンタルヘルスデータセットにおけるアノテーションの品質問題に対処する必要性を強調し、メンタルヘルスアセスメントにおけるNLPモデルの信頼性を高める方法の改善を提唱する。

This paper addresses the quality of annotations in mental health datasets used for NLP-based depression level estimation from social media texts. While previous research relies on social media-based datasets annotated with binary categories, i.e. depressed or non-depressed, recent datasets such as D2S and PRIMATE aim for nuanced annotations using PHQ-9 symptoms. However, most of these datasets rely on crowd workers without the domain knowledge for annotation. Focusing on the PRIMATE dataset, our study reveals concerns regarding annotation validity, particularly for the lack of interest or pleasure symptom. Through reannotation by a mental health professional, we introduce finer labels and textual spans as evidence, identifying a notable number of false positives. Our refined annotations, to be released under a Data Use Agreement, offer a higher-quality test set for anhedonia detection. This study underscores the necessity of addressing annotation quality issues in mental health datasets, advocating for improved methodologies to enhance NLP model reliability in mental health assessments.
翻訳日:2024-03-05 17:37:46 公開日:2024-03-01
# LoMOE: マルチ拡散による局所的マルチオブジェクト編集

LoMOE: Localized Multi-Object Editing via Multi-Diffusion ( http://arxiv.org/abs/2403.00437v1 )

ライセンス: Link先を確認
Goirik Chakrabarty, Aditya Chandrasekar, Ramya Hebbalaguppe, Prathosh AP(参考訳) 近年の拡散モデルの発展は、高品質のプロンプトコンディショニング画像編集を生成できることを実証している。 それにもかかわらず、以前のアプローチは、主に画像編集のテキストプロンプトに依存しており、単一の/複数のオブジェクトを含むシーン内の特定のオブジェクトやきめ細かい領域に対して正確な編集を行う場合、効果が低い傾向にある。 この課題を克服するために,マルチディフフュージョンプロセスによるゼロショットローカライズマルチオブジェクト編集のための新しいフレームワークを提案する。 このフレームワークは、複雑なシーンの$\textbf{in one pass}$のような$\textbf{many}$オブジェクトの追加、置換、編集など、画像内のオブジェクトの様々な操作をユーザが実行できるようにする。 提案手法では,前景マスクとそれに対応する簡易テキストプロンプトを利用し,対象領域に局所的な影響を及ぼし,高忠実度画像編集を実現する。 潜在空間におけるクロス・アテンションと背景保存損失の組み合わせにより、編集対象の特性が保存されると同時に、現在の方法に比べて少ないアーティファクトで高品質でシームレスな背景復元を実現する。 また、マルチオブジェクト編集専用のデータセットである$\texttt{LoMOE}$-Benchをキュレートしてリリースします。 既存の最先端手法に対する実験は,画像編集品質と推論速度の両面で,提案手法の有効性が向上したことを示す。

Recent developments in the field of diffusion models have demonstrated an exceptional capacity to generate high-quality prompt-conditioned image edits. Nevertheless, previous approaches have primarily relied on textual prompts for image editing, which tend to be less effective when making precise edits to specific objects or fine-grained regions within a scene containing single/multiple objects. We introduce a novel framework for zero-shot localized multi-object editing through a multi-diffusion process to overcome this challenge. This framework empowers users to perform various operations on objects within an image, such as adding, replacing, or editing $\textbf{many}$ objects in a complex scene $\textbf{in one pass}$. Our approach leverages foreground masks and corresponding simple text prompts that exert localized influences on the target regions resulting in high-fidelity image editing. A combination of cross-attention and background preservation losses within the latent space ensures that the characteristics of the object being edited are preserved while simultaneously achieving a high-quality, seamless reconstruction of the background with fewer artifacts compared to the current methods. We also curate and release a dataset dedicated to multi-object editing, named $\texttt{LoMOE}$-Bench. Our experiments against existing state-of-the-art methods demonstrate the improved effectiveness of our approach in terms of both image editing quality and inference speed.
翻訳日:2024-03-05 17:37:27 公開日:2024-03-01
# 安全運転知覚のためのアブダプティブ・エゴビュー事故映像理解

Abductive Ego-View Accident Video Understanding for Safe Driving Perception ( http://arxiv.org/abs/2403.00436v1 )

ライセンス: Link先を確認
Jianwu Fang, Lei-lei Li, Junfei Zhou, Junbin Xiao, Hongkai Yu, Chen Lv, Jianru Xue, and Tat-Seng Chua(参考訳) マルチモーダル・アクシデント・ビデオ理解のための新しいデータセットMM-AUを提案する。 MM-AUには1,727件の映像が収録されている。 我々は223万件以上のオブジェクトボックスと58,650対の動画ベースの事故理由を注釈し、58の事故カテゴリをカバーした。 MM-AUは、安全運転のための事故原因連鎖を理解するために、様々な事故理解タスク、特にマルチモーダルビデオ拡散をサポートする。 MM-AUでは,安全運転認識のための事故映像理解フレームワーク(AdVersa-SD)を提案する。 AdVersa-SDは、Abductive CLIPモデルによって駆動されるOAVD(Object-Centric Video Diffusion)メソッドを介してビデオ拡散を行う。 このモデルは対照的な相互作用損失を伴い、通常、近発事故、事故原因、予防アドバイス、事故カテゴリーといった対応するテキスト記述と事故フレームのペア共起を学習する。 OAVDは、ビデオ生成において元のフレーム背景の内容を修正しながら因果領域の学習を強制し、特定の事故の原因連鎖を見つける。 広汎な実験により,AdVersa-SDの誘導能力と,最先端拡散モデルに対するOAVDの優位性が検証された。 また,AdVersa-SDは正確なオブジェクトと事故原因情報に依存しているため,オブジェクト検出と事故原因応答のベンチマーク評価を行う。

We present MM-AU, a novel dataset for Multi-Modal Accident video Understanding. MM-AU contains 11,727 in-the-wild ego-view accident videos, each with temporally aligned text descriptions. We annotate over 2.23 million object boxes and 58,650 pairs of video-based accident reasons, covering 58 accident categories. MM-AU supports various accident understanding tasks, particularly multimodal video diffusion to understand accident cause-effect chains for safe driving. With MM-AU, we present an Abductive accident Video understanding framework for Safe Driving perception (AdVersa-SD). AdVersa-SD performs video diffusion via an Object-Centric Video Diffusion (OAVD) method which is driven by an abductive CLIP model. This model involves a contrastive interaction loss to learn the pair co-occurrence of normal, near-accident, accident frames with the corresponding text descriptions, such as accident reasons, prevention advice, and accident categories. OAVD enforces the causal region learning while fixing the content of the original frame background in video generation, to find the dominant cause-effect chain for certain accidents. Extensive experiments verify the abductive ability of AdVersa-SD and the superiority of OAVD against the state-of-the-art diffusion models. Additionally, we provide careful benchmark evaluations for object detection and accident reason answering since AdVersa-SD relies on precise object and accident reason information.
翻訳日:2024-03-05 17:37:04 公開日:2024-03-01
# Retrieval-Augmented Opinion Summarizationのための階層的索引付け

Hierarchical Indexing for Retrieval-Augmented Opinion Summarization ( http://arxiv.org/abs/2403.00435v1 )

ライセンス: Link先を確認
Tom Hosking, Hao Tang, Mirella Lapata(参考訳) 本稿では,抽出アプローチの帰属性と拡張性と,Large Language Models (LLMs) のコヒーレンスとフラレンシを組み合わせた,教師なし抽象的意見要約手法を提案する。 提案手法は,意味的に整理された離散階層を通して文を経路にマッピングするインデックス構造を学習する。 推測時には、インデックスを投入して、入力レビューから人気のある意見を含む文のクラスタを識別し、検索します。 そして, 抽出した露光クラスターに接地した読みやすい要約を生成するために, 予め訓練したLCMを用いる。 このアプローチのモジュラリティにより、各段階での有効性を評価することができます。 HIROは,従来の作業よりも意味的に構造化された符号化空間を学習し,入力レビューの意見を代表する要約を生成する。 人間による評価では、HIROは前作に比べてアノテーターに好まれるコヒーレントで詳細で正確な要約を生成する。

We propose a method for unsupervised abstractive opinion summarization, that combines the attributability and scalability of extractive approaches with the coherence and fluency of Large Language Models (LLMs). Our method, HIRO, learns an index structure that maps sentences to a path through a semantically organized discrete hierarchy. At inference time, we populate the index and use it to identify and retrieve clusters of sentences containing popular opinions from input reviews. Then, we use a pretrained LLM to generate a readable summary that is grounded in these extracted evidential clusters. The modularity of our approach allows us to evaluate its efficacy at each stage. We show that HIRO learns an encoding space that is more semantically structured than prior work, and generates summaries that are more representative of the opinions in the input reviews. Human evaluation confirms that HIRO generates more coherent, detailed and accurate summaries that are significantly preferred by annotators compared to prior work.
翻訳日:2024-03-05 17:36:43 公開日:2024-03-01
# 持続可能なイノベーションと起業家としてのロボットプロセス自動化

Robotic Process Automation as a Driver for Sustainable Innovation and Entrepreneurship ( http://arxiv.org/abs/2403.00431v1 )

ライセンス: Link先を確認
Petr Prucha(参考訳) 技術革新は経済成長と発展を促進する上で重要な役割を果たしている。 本研究では,技術革新がより持続可能な未来にどの程度貢献するかを調査し,起業家精神を育成する。 これを調べるために,ロボットプロセス自動化(RPA)の高関連技術に注目した。 RPAの利用状況と環境・社会・ガバナンス(ESG)要因への影響を総合的に分析した。 私たちの調査では、市場資本化の観点から、300の大企業からデータを集めました。 これらの企業がRPAを使用してESG評価を得たかどうかを評価した。 RPAとESGの関係を調査するために,ESG評価に基づくデータの分類を含む並行テーブル分析を適用した。 さらに,pearson の chi-square test of independence を用いて esg に対する rpa の影響評価を行った。 RPAとESGの相関は統計的に有意な相関を示した。 PearsonのChi-square Test of Independenceの計算値は6.54で、対応するp値0.0381である。 これは、重要なレベルである5%において、rpaとesgの変数は互いに依存していることを示している。 これらの結果から,現代技術を代表するRPAが,持続可能な未来の実現と起業促進に影響を及ぼす可能性が示唆された。 結論として, RPAのような技術革新は, 持続可能性努力や起業努力を肯定的に形成する可能性を秘めた実証的証拠を提供する。

Technological innovation plays a crucial role in driving economic growth and development. In this study, we investigate the extent to which technological innovation contributes to a more sustainable future and fosters entrepreneurship. To examine this, we focus on robotic process automation (RPA) highly relevant technology. We conducted a comprehensive analysis by examining the usage of RPA and its impact on environmental, social, and governance (ESG) factors. Our research involved gathering data from the 300 largest companies in terms of market capitalization. We assessed whether these companies used RPA and obtained their corresponding ESG ratings. To investigate the relationship between RPA and ESG, we employed a contingency table analysis, which involved categorizing the data based on ESG ratings. We further used Pearson's Chi-square Test of Independence to assess the impact of RPA on ESG. Our findings revealed a statistically significant association between RPA and ESG ratings, indicating their interconnection. The calculated value for Pearson's Chi-square Test of Independence was 6.54, with a corresponding p-value of 0.0381. This indicates that at a significance level of five percent, the RPA and ESG variables depend on each other. These results suggest that RPA, representative of modern technologies, likely influences the achievement of a sustainable future and the promotion of entrepreneurship. In conclusion, our study provides empirical evidence supporting the notion that technological innovations such as RPA have the potential to positively shape sustainability efforts and entrepreneurial endeavours.
翻訳日:2024-03-05 17:36:26 公開日:2024-03-01
# defrise and clackアルゴリズムに基づくディープラーニングct

Deep Learning Computed Tomography based on the Defrise and Clack Algorithm ( http://arxiv.org/abs/2403.00426v1 )

ライセンス: Link先を確認
Chengze Ye, Linda-Sophie Schneider, Yipeng Sun, Andreas Maier(参考訳) 本研究では、既知の演算子学習を用いて、特定の軌道に対するコーンビーム計算トモグラフィー(CBCT)を再構成する新しい手法を提案する。 従来の手法とは異なり、この手法では独自の適応フィルタリングプロセスを統合するフィルタバックプロジェクション型(FBP型)アルゴリズムを採用している。 このプロセスは、重み付け、微分、2次元ラドン変換、バックプロジェクションを含む一連の操作を含む。 このフィルタは、特定の軌道幾何学のために設計され、深層学習に基づくデータ駆動アプローチを用いて得られる。 このアプローチは、フィルタの軌道関連コンポーネントを効率的に学習し、最適化する。 この方法は、円軌道投影データからパラメータをうまく学習することで実験を通じてその能力を実証した。 その後、最適化されたパラメータを用いて画像の再構成を行い、解析解によく似た結果が得られる。 これは、特定の軌道投影データから適切なパラメータを学習し、再構成を実現する方法の可能性を示す。 このアルゴリズムは、特に再構成速度の向上と、特定の軌道再構成を扱うためのメモリ使用量の削減を実証している。

This study presents a novel approach for reconstructing cone beam computed tomography (CBCT) for specific orbits using known operator learning. Unlike traditional methods, this technique employs a filtered backprojection type (FBP-type) algorithm, which integrates a unique, adaptive filtering process. This process involves a series of operations, including weightings, differentiations, the 2D Radon transform, and backprojection. The filter is designed for a specific orbit geometry and is obtained using a data-driven approach based on deep learning. The approach efficiently learns and optimizes the orbit-related component of the filter. The method has demonstrated its ability through experimentation by successfully learning parameters from circular orbit projection data. Subsequently, the optimized parameters are used to reconstruct images, resulting in outcomes that closely resemble the analytical solution. This demonstrates the potential of the method to learn appropriate parameters from any specific orbit projection data and achieve reconstruction. The algorithm has demonstrated improvement, particularly in enhancing reconstruction speed and reducing memory usage for handling specific orbit reconstruction.
翻訳日:2024-03-05 17:36:03 公開日:2024-03-01
# HALC:Adaptive Focal-Contrast Decodingによる物体幻覚の低減

HALC: Object Hallucination Reduction via Adaptive Focal-Contrast Decoding ( http://arxiv.org/abs/2403.00425v1 )

ライセンス: Link先を確認
Zhaorun Chen, Zhuokai Zhao, Hongyin Luo, Huaxiu Yao, Bo Li, Jiawei Zhou(参考訳) 大規模視覚言語モデル(lvlms)はマルチモーダル文脈の解釈において印象的な能力を示しているが、それらは必ずオブジェクト幻覚(oh)に苦しむ。 本稿では,LVLMにおけるOH低減のための新しい復号アルゴリズムHALCを紹介する。 halcは視覚言語タスクで異なる細かな最適な視覚情報を活用し、ローカルとグローバルの両方で同時に動作する。 具体的には、halcは(局所的に)ロバストな自己焦点接地機構と、テキスト生成品質を維持しながらohを大幅に削減する特殊なビーム探索アルゴリズム(グローバル)を統合している。 加えて、HALCは任意のLVLMにプラグイン・アンド・プレイモジュールとして組み込むことができる。 広範囲な実験により、halcが4つのベンチマークでohを減少させ、最先端技術を上回る効果を示した。

While large vision-language models (LVLMs) have demonstrated impressive capabilities in interpreting multi-modal contexts, they invariably suffer from object hallucinations (OH). We introduce HALC, a novel decoding algorithm designed to mitigate OH in LVLMs. HALC leverages distinct fine-grained optimal visual information in vision-language tasks and operates on both local and global contexts simultaneously. Specifically, HALC integrates a robust auto-focal grounding mechanism (locally) to correct hallucinated tokens on the fly, and a specialized beam search algorithm (globally) to significantly reduce OH while preserving text generation quality. Additionally, HALC can be integrated into any LVLMs as a plug-and-play module without extra training. Extensive experimental studies demonstrate the effectiveness of HALC in reducing OH, outperforming state-of-the-arts across four benchmarks.
翻訳日:2024-03-05 17:35:46 公開日:2024-03-01
# シミュレーション基準値を用いたml-uq校正統計の検証:感度解析

Validation of ML-UQ calibration statistics using simulated reference values: a sensitivity analysis ( http://arxiv.org/abs/2403.00423v1 )

ライセンス: Link先を確認
Pascal Pernot(参考訳) いくつかの一般的な機械学習不確実量化(ML-UQ)キャリブレーション統計は、予め定義された基準値を持っておらず、主に比較研究で使われている。 その結果、キャリブレーションはほとんど検証されず、診断は読者の理解に委ねられる。 実際の不確実性から導出される合成校正データセットに基づくシミュレーション参照値は,この問題を緩和するために提案されている。 合成誤差のシミュレーションのための生成確率分布はしばしば制限されないため、生成分布の選択に対するシミュレーションされた基準値の感度が問題となり、校正診断に疑問が生じる可能性がある。 本研究は,この問題の様々な側面を考察し,生成分布が不明な場合の検証に用いる生成分布の選択に過度に敏感な統計値が存在することを示す。 これは例えば、絶対誤差と不確実性(CC)の相関係数と、期待される正規化校正誤差(ENCE)の相関係数である。 シミュレーションされた参照値を扱う堅牢な検証ワークフローを提案する。

Some popular Machine Learning Uncertainty Quantification (ML-UQ) calibration statistics do not have predefined reference values and are mostly used in comparative studies. In consequence, calibration is almost never validated and the diagnostic is left to the appreciation of the reader. Simulated reference values, based on synthetic calibrated datasets derived from actual uncertainties, have been proposed to palliate this problem. As the generative probability distribution for the simulation of synthetic errors is often not constrained, the sensitivity of simulated reference values to the choice of generative distribution might be problematic, shedding a doubt on the calibration diagnostic. This study explores various facets of this problem, and shows that some statistics are excessively sensitive to the choice of generative distribution to be used for validation when the generative distribution is unknown. This is the case, for instance, of the correlation coefficient between absolute errors and uncertainties (CC) and of the expected normalized calibration error (ENCE). A robust validation workflow to deal with simulated reference values is proposed.
翻訳日:2024-03-05 17:35:28 公開日:2024-03-01
# 長距離相互作用を有する量子磁石のためのモンテカルロ法

Monte Carlo based techniques for quantum magnets with long-range interactions ( http://arxiv.org/abs/2403.00421v1 )

ライセンス: Link先を確認
P. Adelhardt, J. A. Koziol, A. Langheld, and K. P. Schmidt(参考訳) 長距離相互作用は、量子光学や凝縮物質物理学における様々な量子系に関係している。 特に、量子光学プラットフォームの制御は、相互作用の長距離の性質によって引き起こされる量子臨界特性の深い洞察を得ることを約束する。 理論的には、長距離相互作用は扱いが複雑である。 本稿では,モンテカルロ積分に基づく2つの手法に着目した長距離相互作用を持つ量子磁石の最近の進歩について概説する。 第一に、古典モンテカルロ積分がホワイトグラフの埋め込みスキームに適用される摂動的連続ユニタリ変換の方法である。 この連結クラスター展開は、熱力学限界におけるエネルギーと観測可能な高次級数展開を抽出することができる。 第二に、大きな有限系の計算を可能にする確率級数展開量子モンテカルロである。 有限サイズのスケーリングは無限系の物理的性質を決定するのに使うことができる。 近年、どちらの手法も長距離イジング、XY、ハイゼンベルク相互作用を含む1次元および2次元の量子磁石に様々な二部格子および非二部格子上でうまく適用されている。 ここでは、これら全ての系の臨界指数を含む、得られた量子臨界特性をコヒーレントな方法で要約する。 さらに,超臨界次元上の量子相転移と,これらの量子臨界特性を数値計算から抽出するスケーリング技術について,長距離相互作用を用いて検討する。

Long-range interactions are relevant for a large variety of quantum systems in quantum optics and condensed matter physics. In particular, the control of quantum-optical platforms promises to gain deep insights in quantum-critical properties induced by the long-range nature of interactions. From a theoretical perspective, long-range interactions are notoriously complicated to treat. Here, we give an overview of recent advancements to investigate quantum magnets with long-range interactions focusing on two techniques based on Monte Carlo integration. First, the method of perturbative continuous unitary transformations where classical Monte Carlo integration is applied within the embedding scheme of white graphs. This linked-cluster expansion allows to extract high-order series expansions of energies and observables in the thermodynamic limit. Second, stochastic series expansion quantum Monte Carlo which enables calculations on large finite systems. Finite-size scaling can then be used to determine physical properties of the infinite system. In recent years, both techniques have been applied successfully to one- and two-dimensional quantum magnets involving long-range Ising, XY, and Heisenberg interactions on various bipartite and non-bipartite lattices. Here, we summarise the obtained quantum-critical properties including critical exponents for all these systems in a coherent way. Further, we review how long-range interactions are used to study quantum phase transitions above the upper critical dimension and the scaling techniques to extract these quantum critical properties from the numerical calculations.
翻訳日:2024-03-05 17:35:09 公開日:2024-03-01
# 敵対的攻撃と訓練によるロバストな深層強化学習 : 調査

Robust Deep Reinforcement Learning Through Adversarial Attacks and Training : A Survey ( http://arxiv.org/abs/2403.00420v1 )

ライセンス: Link先を確認
Lucas Schott, Josephine Delas, Hatem Hajri, Elies Gherbi, Reda Yaich, Nora Boulahia-Cuppens, Frederic Cuppens, Sylvain Lamprier(参考訳) Deep Reinforcement Learning (DRL)は、さまざまな複雑な環境で自律エージェントを訓練するためのアプローチである。 良く知られた環境での大幅な性能にもかかわらず、小さな条件の変化の影響を受け、現実世界のアプリケーションにおける信頼性への懸念が高まる。 ユーザビリティを向上させるためには、DRLは信頼性と堅牢性を示す必要がある。 DRLの無条件変化に対するロバスト性を改善する方法は、環境の力学に対する適切な敵攻撃に対してエージェントを訓練することにより、敵訓練によって行われる。 本研究は,現代の敵対的攻撃方法論を深く分析し,それらを体系的に分類し,その目的と運用メカニズムを比較した。 この分類は、DRL剤の弾力性を評価するために敵の攻撃がどのように効果的に作用するかを詳細に把握し、それによってその堅牢性を高める道を開く。

Deep Reinforcement Learning (DRL) is an approach for training autonomous agents across various complex environments. Despite its significant performance in well known environments, it remains susceptible to minor conditions variations, raising concerns about its reliability in real-world applications. To improve usability, DRL must demonstrate trustworthiness and robustness. A way to improve robustness of DRL to unknown changes in the conditions is through Adversarial Training, by training the agent against well suited adversarial attacks on the dynamics of the environment. Addressing this critical issue, our work presents an in-depth analysis of contemporary adversarial attack methodologies, systematically categorizing them and comparing their objectives and operational mechanisms. This classification offers a detailed insight into how adversarial attacks effectively act for evaluating the resilience of DRL agents, thereby paving the way for enhancing their robustness.
翻訳日:2024-03-05 17:34:46 公開日:2024-03-01
# 散逸ラシュバナノワイヤにおけるマヨラナ零モード

Majorana zero-modes in a dissipative Rashba nanowire ( http://arxiv.org/abs/2403.00419v1 )

ライセンス: Link先を確認
Arnob Kumar Ghosh, Annica M. Black-Schaffer(参考訳) 凝縮物質系は連続的に散逸し、しばしば量子現象に悪影響を及ぼす。 超伝導ラシュバナノワイヤにおける散逸の影響に注目した。 このシステムは、散逸の存在下では、有限寿命でマヨラナゼロモード(MZM)をホストできる。 最も興味深いことに、散逸は、非散逸系が位相的に自明な状態で、4つのロバストなゼロモード(rzm)と2つのmzmという2種類の散逸境界状態を生成することができる。 MZMはバルクギャップ閉鎖によって出現し、トポロジカルに巻数によって特徴づけられる。 RZMはバルク状態とは関連がなく、巻く数を持たないが、その出現は例外的な点と結びついている。 さらに,無作為障害の存在下での散逸誘発rzmとmzmの安定性を確認した。 本研究は,MZMを消散によって駆動される実験装置で実現し,安定化させる方法である。

Condensed matter systems are continuously subjected to dissipation, which often has adverse effects on quantum phenomena. We focus on the impact of dissipation on a superconducting Rashba nanowire. We reveal that the system can still host Majorana zero-modes (MZMs) with a finite lifetime in the presence of dissipation. Most interestingly, dissipation can also generate two kinds of dissipative boundary states: four robust zero-modes (RZMs) and two MZMs, in the regime where the non-dissipative system is topologically trivial. The MZMs appear via bulk gap closing and are topologically characterized by a winding number. The RZMs are not associated with any bulk states and possess no winding number, but their emergence is instead tied to exceptional points. Further, we confirm the stability of the dissipation-induced RZMs and MZMs in the presence of random disorder. Our study paves the way for both realizing and stabilizing MZMs in an experimental setup, driven by dissipation.
翻訳日:2024-03-05 17:34:31 公開日:2024-03-01
# ニュース見出しにおける目標知覚のためのLLM:プロンプト規範性の異なるレベルを探る

LLMs for Targeted Sentiment in News Headlines: Exploring Different Levels of Prompt Prescriptiveness ( http://arxiv.org/abs/2403.00418v1 )

ライセンス: Link先を確認
Jana Juro\v{s}, Laura Majer, Jan \v{S}najder(参考訳) ニュースの見出しは、特定の方法でエンティティを意図的に描写することで感情を喚起し、見出しのターゲット感情分析(TSA)を価値はあるが難しいタスクにする。 微調整エンコーダモデルは良好なTSA性能を示すが、その背景知識は限られており、ラベル付きデータセットが必要である。 LLMは、幅広い言語的・世界的知識と文脈内学習能力により、TSAに潜在的に普遍的なソリューションを提供するが、それらの性能は、迅速な設計に大きく影響されている。 主観的タスクのためのアノテーションパラダイムと平行に描画し、ニュース見出しのTSAのためのLCMの性能に及ぼすプロンプトデザインの影響を考察する。 我々は,平易なゼロショットから精巧な少数ショットのプロンプトマッチングガイドラインまで,説明性の異なるプロンプトを用いて,最先端LPMの予測精度を評価する。 TSAの主観的性質を認識し,キャリブレーション誤差による予測不確かさの定量化と,アノテータ間の合意との相関性を評価する。 少ないプロンプト,キャリブレーション,f1-scoreを除くと,規範性が向上するが,最適レベルはモデルに依存する。

News headlines often evoke sentiment by intentionally portraying entities in particular ways, making targeted sentiment analysis (TSA) of headlines a worthwhile but difficult task. Fine-tuned encoder models show satisfactory TSA performance, but their background knowledge is limited, and they require a labeled dataset. LLMs offer a potentially universal solution for TSA due to their broad linguistic and world knowledge along with in-context learning abilities, yet their performance is heavily influenced by prompt design. Drawing parallels with annotation paradigms for subjective tasks, we explore the influence of prompt design on the performance of LLMs for TSA of news headlines. We evaluate the predictive accuracy of state-of-the-art LLMs using prompts with different levels of prescriptiveness, ranging from plain zero-shot to elaborate few-shot prompts matching annotation guidelines. Recognizing the subjective nature of TSA, we evaluate the ability of LLMs to quantify predictive uncertainty via calibration error and correlation to human inter-annotator agreement. We find that, except for few-shot prompting, calibration and F1-score improve with increased prescriptiveness, but the optimal level depends on the model.
翻訳日:2024-03-05 17:34:14 公開日:2024-03-01
# PoTeC:ドイツの自然主義的視線追跡対応コーパス

PoTeC: A German Naturalistic Eye-tracking-while-reading Corpus ( http://arxiv.org/abs/2403.00506v1 )

ライセンス: Link先を確認
Deborah N. Jakobi and Thomas Kern and David R. Reich and Patrick Haller and Lena A. J\"ager(参考訳) Potsdam Textbook Corpus(ポツダムテキストブックコーパス、PoTeC)は、自然主義的な視線追跡読影コーパスで、75人の参加者が12の科学テキストを読んでいる。 potecは、ドメインの専門家や初心者の目の動きを含む最初の自然主義的なアイトラッキング・ツー・リーディングコーパスであり、参加者の学習レベルと参加者の学習規律を主観的要素として含む2x2x2の完全交叉型因子デザインに基づいている。 参加者の読書理解は一連のテキスト理解質問によって評価され,そのドメイン知識はテキストに依存しない背景質問によって検証された。 資料は様々なレベルで様々な言語的特徴に注釈がつけられている。 我々は,PoTeCを専門家および非専門家の読解戦略の分析に限らず,幅広い研究に活用することを期待している。 プリプロセッシングパイプラインのすべてのステージにおけるコーパスと付随するすべてのデータと、データをプリプロセッシングするために使用されるすべてのコードは、GitHubから入手できる。

The Potsdam Textbook Corpus (PoTeC) is a naturalistic eye-tracking-while-reading corpus containing data from 75 participants reading 12 scientific texts. PoTeC is the first naturalistic eye-tracking-while-reading corpus that contains eye-movements from domain-experts as well as novices in a within-participant manipulation: It is based on a 2x2x2 fully-crossed factorial design which includes the participants' level of study and the participants' discipline of study as between-subject factors and the text domain as a within-subject factor. The participants' reading comprehension was assessed by a series of text comprehension questions and their domain knowledge was tested by text-independent background questions for each of the texts. The materials are annotated for a variety of linguistic features at different levels. We envision PoTeC to be used for a wide range of studies including but not limited to analyses of expert and non-expert reading strategies. The corpus and all the accompanying data at all stages of the preprocessing pipeline and all code used to preprocess the data are made available via GitHub: https://github.com/DiLi-Lab/PoTeC.
翻訳日:2024-03-05 17:28:18 公開日:2024-03-01
# 視覚表現学習における世界モデルの学習と活用

Learning and Leveraging World Models in Visual Representation Learning ( http://arxiv.org/abs/2403.00504v1 )

ライセンス: Link先を確認
Quentin Garrido, Mahmoud Assran, Nicolas Ballas, Adrien Bardes, Laurent Najman, Yann LeCun(参考訳) JEPA(Joint-Embedding Predictive Architecture)は,世界モデルを活用することで学ぶ,有望な自己教師型アプローチとして登場した。 これまでは入力の欠落部分の予測に限られていたが、JEPA予測タスクをより広範な汚職の集合に一般化する方法を探る。 我々は,マスク付き画像モデリングを超えるアプローチであるイメージワールドモデルを導入し,潜在空間におけるグローバルな測光変換の効果を予測する。 IWMの学習方法について検討し, 条件づけ, 予測困難, キャパシティの3つの重要な側面に依存していることを示す。 さらに、IWMが学習した予測的世界モデルは、様々なタスクを解決するために微調整によって適応可能であることを示し、微調整されたIWM世界モデルは、従来の自己監督手法の性能に適合するか、超越するかを示す。 最後に、IWMを用いて学習することで、学習した表現の抽象化レベル、コントラスト法などの不変表現の学習、マスク画像モデリングのような同変表現の制御が可能になることを示す。

Joint-Embedding Predictive Architecture (JEPA) has emerged as a promising self-supervised approach that learns by leveraging a world model. While previously limited to predicting missing parts of an input, we explore how to generalize the JEPA prediction task to a broader set of corruptions. We introduce Image World Models, an approach that goes beyond masked image modeling and learns to predict the effect of global photometric transformations in latent space. We study the recipe of learning performant IWMs and show that it relies on three key aspects: conditioning, prediction difficulty, and capacity. Additionally, we show that the predictive world model learned by IWM can be adapted through finetuning to solve diverse tasks; a fine-tuned IWM world model matches or surpasses the performance of previous self-supervised methods. Finally, we show that learning with an IWM allows one to control the abstraction level of the learned representations, learning invariant representations such as contrastive methods, or equivariant representations such as masked image modelling.
翻訳日:2024-03-05 17:27:57 公開日:2024-03-01
# ゾンビは分かるか? 機械認知の2年間の進化的探索

Do Zombies Understand? A Choose-Your-Own-Adventure Exploration of Machine Cognition ( http://arxiv.org/abs/2403.00499v1 )

ライセンス: Link先を確認
Ariel Goldstein, Gabriel Stanovsky(参考訳) LLMの最近の進歩は、それらがテキストを理解するかどうかについての議論を引き起こしている。 本論文では,この議論の反対者は理解する上での異なる定義を持ち,特に意識の役割に対する見解が異なっていることを論じる。 この主張を裏付けるために,オープンソースのチャットボットである$Z$が,主観的な経験を伴わずに,可能なすべてのベンチマークに優れる思考実験を提案する。 我々は、$z$が理解できるかどうかを問うとともに、セナルai研究における異なる思考学派が、この疑問に異なる答えを示し、彼らの用語の相違を明らかにする。 今後,意識の問題を明確に認め,哲学,心理学,神経科学の豊かな文学と結びついた理解のための2つの異なる作業定義を提案する。

Recent advances in LLMs have sparked a debate on whether they understand text. In this position paper, we argue that opponents in this debate hold different definitions for understanding, and particularly differ in their view on the role of consciousness. To substantiate this claim, we propose a thought experiment involving an open-source chatbot $Z$ which excels on every possible benchmark, seemingly without subjective experience. We ask whether $Z$ is capable of understanding, and show that different schools of thought within seminal AI research seem to answer this question differently, uncovering their terminological disagreement. Moving forward, we propose two distinct working definitions for understanding which explicitly acknowledge the question of consciousness, and draw connections with a rich literature in philosophy, psychology and neuroscience.
翻訳日:2024-03-05 17:27:39 公開日:2024-03-01
# ステレオマッチングのための適応的周波数情報選択

Selective-Stereo: Adaptive Frequency Information Selection for Stereo Matching ( http://arxiv.org/abs/2403.00486v1 )

ライセンス: Link先を確認
Xianqi Wang, Gangwei Xu, Hao Jia, Xin Yang(参考訳) RAFT-StereoやIGEV-Stereoのような反復的最適化に基づくステレオマッチング法は、ステレオマッチングの分野における基盤として発展してきた。 しかし,これらの手法では,エッジの高周波情報と平滑な領域の低周波情報を同時に捕捉することが困難である。 その結果、細部をなくし、縁をぼやかし、テクスチャのない地域で偽の一致を生み出す傾向にある。 本稿では,ステレオマッチングのための新しい反復更新演算子である選択リカレントユニット(SRU)を提案する。 SRUモジュールは、エッジとスムーズな領域の複数の周波数で隠された不均一情報を適応的にフューズすることができる。 適応的な融合を実現するために,新しいコンテキスト空間注意(CSA)モジュールを導入し,融合重みとして注目マップを生成する。 SRUは、複数の周波数にわたって隠された不均質情報を集約し、反復処理中に重要な隠された不均質情報損失のリスクを軽減する。 SRUの普遍性を検証するために、Selective-Stereoと呼ばれる反復ステレオマッチング法を代表的に適用する。 我々のSelective-StereoはKITTI 2012、KITTI 2015、ETH3D、およびミドルベリーのリーダーボードに$1^{st}をランク付けしている。 コードはhttps://github.com/Windsrain/Selective-Stereoで入手できる。

Stereo matching methods based on iterative optimization, like RAFT-Stereo and IGEV-Stereo, have evolved into a cornerstone in the field of stereo matching. However, these methods struggle to simultaneously capture high-frequency information in edges and low-frequency information in smooth regions due to the fixed receptive field. As a result, they tend to lose details, blur edges, and produce false matches in textureless areas. In this paper, we propose Selective Recurrent Unit (SRU), a novel iterative update operator for stereo matching. The SRU module can adaptively fuse hidden disparity information at multiple frequencies for edge and smooth regions. To perform adaptive fusion, we introduce a new Contextual Spatial Attention (CSA) module to generate attention maps as fusion weights. The SRU empowers the network to aggregate hidden disparity information across multiple frequencies, mitigating the risk of vital hidden disparity information loss during iterative processes. To verify SRU's universality, we apply it to representative iterative stereo matching methods, collectively referred to as Selective-Stereo. Our Selective-Stereo ranks $1^{st}$ on KITTI 2012, KITTI 2015, ETH3D, and Middlebury leaderboards among all published methods. Code is available at https://github.com/Windsrain/Selective-Stereo.
翻訳日:2024-03-05 17:27:26 公開日:2024-03-01
# 幾何学的グラフニューラルネットワークに関するサーベイ:データ構造,モデル,応用

A Survey of Geometric Graph Neural Networks: Data Structures, Models and Applications ( http://arxiv.org/abs/2403.00485v1 )

ライセンス: Link先を確認
Jiaqi Han, Jiacheng Cen, Liming Wu, Zongzhao Li, Xiangzhe Kong, Rui Jiao, Ziyang Yu, Tingyang Xu, Fandi Wu, Zihe Wang, Hongteng Xu, Zhewei Wei, Yang Liu, Yu Rong, Wenbing Huang(参考訳) 幾何学グラフは幾何学的特徴を持つ特殊なグラフであり、多くの科学的問題をモデル化するのに不可欠である。 ジェネリックグラフとは異なり、幾何グラフはしばしば翻訳、回転、反射の物理的対称性を示し、現在のグラフニューラルネットワーク(gnn)によって効果的に処理される。 この問題に対処するために、幾何グラフの幾何学的トポロジをより正確に特徴付けるために、不変・同変特性を備えた幾何グラフニューラルネットワークを提案した。 この分野での現在の進歩を考えると、幾何学的GNNに関連するデータ構造、モデル、アプリケーションに関する包括的な調査を行うことが不可欠である。 本稿では,必要だが簡潔な数学的前提に基づいて,幾何学的メッセージパッシングの観点から既存モデルの統一的なビューを提供する。 さらに,方法論開発と実験評価の今後の研究を促進するために,アプリケーションと関連するデータセットを要約する。 また,本調査の終了時にGeometric GNNの課題と今後の方向性についても論じる。

Geometric graph is a special kind of graph with geometric features, which is vital to model many scientific problems. Unlike generic graphs, geometric graphs often exhibit physical symmetries of translations, rotations, and reflections, making them ineffectively processed by current Graph Neural Networks (GNNs). To tackle this issue, researchers proposed a variety of Geometric Graph Neural Networks equipped with invariant/equivariant properties to better characterize the geometry and topology of geometric graphs. Given the current progress in this field, it is imperative to conduct a comprehensive survey of data structures, models, and applications related to geometric GNNs. In this paper, based on the necessary but concise mathematical preliminaries, we provide a unified view of existing models from the geometric message passing perspective. Additionally, we summarize the applications as well as the related datasets to facilitate later research for methodology development and experimental evaluation. We also discuss the challenges and future potential directions of Geometric GNNs at the end of this survey.
翻訳日:2024-03-05 17:27:00 公開日:2024-03-01
# RealCustom: リアルタイムオープンドメインテキスト画像カスタマイズのためのリアルテキストワード

RealCustom: Narrowing Real Text Word for Real-Time Open-Domain Text-to-Image Customization ( http://arxiv.org/abs/2403.00483v1 )

ライセンス: Link先を確認
Mengqi Huang, Zhendong Mao, Mingcong Liu, Qian He, Yongdong Zhang(参考訳) テキスト・ツー・イメージのカスタマイズ(テキスト・ツー・イメージのカスタマイズ)は、最近コンテンツ作成に革命をもたらした。 既存の作品は擬似語パラダイム、すなわち、与えられた主題を擬似語として表現し、与えられたテキストで合成する。 しかし、擬似単語と与えられたテキストとの固有の絡み合った影響範囲は、二つの最適パラドックス(すなわち、与えられた主題の類似性と与えられたテキストの制御可能性)をもたらす。 本論では,本論文において,主語の影響を関連部分のみに正確に限定することにより,制御性から類似性を初めて解き放つとともに,対象語を一般意味から特定の対象に徐々に絞り込み,関連性を識別するためにその横断的意図を用いることによって実現した。 具体的には、RealCustomは、(1)トレーニング中に、新しい適応スコアリングモジュールによって、視覚条件と原文条件との一般的な整合性を学び、その影響量を適応的に調整し、(2)推論中に、与えられた被験者の影響範囲と影響量を反復的に更新し、実際のテキスト語の生成を徐々に狭める新しい適応マスクガイダンス戦略を提案する。 包括的実験は、オープンドメインにおけるRealCustomのより優れたリアルタイムカスタマイズ能力を示し、与えられた主題の前例のない類似性と、与えられたテキストの制御性の両方を初めて達成した。 プロジェクトページはhttps://corleone-huang.github.io/realcustom/。

Text-to-image customization, which aims to synthesize text-driven images for the given subjects, has recently revolutionized content creation. Existing works follow the pseudo-word paradigm, i.e., represent the given subjects as pseudo-words and then compose them with the given text. However, the inherent entangled influence scope of pseudo-words with the given text results in a dual-optimum paradox, i.e., the similarity of the given subjects and the controllability of the given text could not be optimal simultaneously. We present RealCustom that, for the first time, disentangles similarity from controllability by precisely limiting subject influence to relevant parts only, achieved by gradually narrowing real text word from its general connotation to the specific subject and using its cross-attention to distinguish relevance. Specifically, RealCustom introduces a novel "train-inference" decoupled framework: (1) during training, RealCustom learns general alignment between visual conditions to original textual conditions by a novel adaptive scoring module to adaptively modulate influence quantity; (2) during inference, a novel adaptive mask guidance strategy is proposed to iteratively update the influence scope and influence quantity of the given subjects to gradually narrow the generation of the real text word. Comprehensive experiments demonstrate the superior real-time customization ability of RealCustom in the open domain, achieving both unprecedented similarity of the given subjects and controllability of the given text for the first time. The project page is https://corleone-huang.github.io/realcustom/.
翻訳日:2024-03-05 17:26:44 公開日:2024-03-01
# 多重グラフにおける量子対称性(その2)

Quantum symmetry in multigraphs (part II) ( http://arxiv.org/abs/2403.00481v1 )

ライセンス: Link先を確認
Debashish Goswami and Sk Asfaq Hossain(参考訳) この記事は、"quantum symmetry in multigraphs (part i)"の続きである。 本稿では,非ビコン型共振器の多グラフ上の明示的な構成,すなわち,我々の意味では (V,E) の量子対称性を保っているが,必ずしもビコンの意味ではそうではない。 この構成そのものは量子グラフの自己同型から動機づけられている。

This article is a continuation of "Quantum symmetry in multigraphs (part I)". In this article, we give an explicit construction of a non-Bichon type co-action on a multigraph that is, it preserves quantum symmetry of (V,E) in our sense but not always in Bichon's sense. This construction itself is motivated from automorphisms of quantum graphs.
翻訳日:2024-03-05 17:26:13 公開日:2024-03-01
# TempCompass:ビデオのLLMは本当にビデオの理解度が高いか?

TempCompass: Do Video LLMs Really Understand Videos? ( http://arxiv.org/abs/2403.00476v1 )

ライセンス: Link先を確認
Yuanxin Liu, Shicheng Li, Yi Liu, Yuxiang Wang, Shuhuai Ren, Lei Li, Sishuo Chen, Xu Sun, Lu Hou(参考訳) 近年,ビデオ大言語モデル(ビデオLLM)に関する関心が高まっている。 しかし、既存のベンチマークではビデオllmの時間知覚能力に関する包括的なフィードバックが得られていない。 一方、それらのほとんどは、異なる時間的側面(例えば、速度、方向)を区別できないため、これらの特定の側面におけるニュアンスのパフォーマンスを反映できない。 一方、タスク形式(例えば、複数選択QAのみ)の多様性に制限があり、時間的知覚性能がタスクの種類によってどのように異なるかを理解するのを妨げている。 これらの2つの問題に動機づけられ、時間的側面とタスク形式に多様性をもたらす \textbf{tempcompass} ベンチマークを提案する。 高品質なテストデータを集めるためには,(1)ビデオコレクションにおいて,同一の静的コンテンツを共有するが,特定の時間的側面で異なるコンフリクトのあるビデオを構築することで,ビデオLLMが単一フレームバイアスや言語優先の活用を妨げている。 2)タスク命令を収集するために,人間がまずビデオのメタ情報にアノテートし,次にLCMが命令を生成するパラダイムを提案する。 また、ビデオLLMからの応答を自動的かつ正確に評価するLLMベースのアプローチを設計する。 TempCompassをベースとして,8つの最先端(SOTA)ビデオLLMと3つの画像LLMを総合的に評価し,これらのモデルが時間知覚能力に劣ることを示す。 我々のデータは \url{https://github.com/llyx97/TempCompass} で利用可能です。

Recently, there is a surge in interest surrounding video large language models (Video LLMs). However, existing benchmarks fail to provide a comprehensive feedback on the temporal perception ability of Video LLMs. On the one hand, most of them are unable to distinguish between different temporal aspects (e.g., speed, direction) and thus cannot reflect the nuanced performance on these specific aspects. On the other hand, they are limited in the diversity of task formats (e.g., only multi-choice QA), which hinders the understanding of how temporal perception performance may vary across different types of tasks. Motivated by these two problems, we propose the \textbf{TempCompass} benchmark, which introduces a diversity of temporal aspects and task formats. To collect high-quality test data, we devise two novel strategies: (1) In video collection, we construct conflicting videos that share the same static content but differ in a specific temporal aspect, which prevents Video LLMs from leveraging single-frame bias or language priors. (2) To collect the task instructions, we propose a paradigm where humans first annotate meta-information for a video and then an LLM generates the instruction. We also design an LLM-based approach to automatically and accurately evaluate the responses from Video LLMs. Based on TempCompass, we comprehensively evaluate 8 state-of-the-art (SOTA) Video LLMs and 3 Image LLMs, and reveal the discerning fact that these models exhibit notably poor temporal perception ability. Our data will be available at \url{https://github.com/llyx97/TempCompass}.
翻訳日:2024-03-05 17:26:06 公開日:2024-03-01
# 因果機械学習を用いた惑星ミッションのための自律ロボットアーム操作

Autonomous Robotic Arm Manipulation for Planetary Missions using Causal Machine Learning ( http://arxiv.org/abs/2403.00470v1 )

ライセンス: Link先を確認
C. McDonnell, M. Arana-Catania, S. Upadhyay(参考訳) 自律型ロボットアームマニピュレータは、惑星探査や資源利用ミッションをより効率的に、生産的にするための可能性を秘めている。 我々は、惑星の岩石などの事前知識を持たない物体を自律的に研究するためにマニピュレータを訓練する。 これは、シミュレーションされた惑星環境で因果機械学習を用いて達成される。 ここで、マニピュレータはオブジェクトと相互作用し、異なる因果要因に基づいてそれらを分類する。 これらは質量や摩擦係数などのパラメータであり、相互作用の結果を因果的に決定する。 強化学習を通じて、マニピュレータは根底にある因果関係を明らかにする方法を学ぶ。 本手法は,オブジェクトの事前知識や事前収集したトレーニングデータなしでも有効であることを示す。 我々は、現実的なマニピュレータモデルを用いて惑星探査の訓練を行う。

Autonomous robotic arm manipulators have the potential to make planetary exploration and in-situ resource utilization missions more time efficient and productive, as the manipulator can handle the objects itself and perform goal-specific actions. We train a manipulator to autonomously study objects of which it has no prior knowledge, such as planetary rocks. This is achieved using causal machine learning in a simulated planetary environment. Here, the manipulator interacts with objects, and classifies them based on differing causal factors. These are parameters, such as mass or friction coefficient, that causally determine the outcomes of its interactions. Through reinforcement learning, the manipulator learns to interact in ways that reveal the underlying causal factors. We show that this method works even without any prior knowledge of the objects, or any previously-collected training data. We carry out the training in planetary exploration conditions, with realistic manipulator models.
翻訳日:2024-03-05 17:25:37 公開日:2024-03-01
# ControlNetが不明瞭なマスクと出会う:ControlNetの輪郭追従能力に関する事例研究

When ControlNet Meets Inexplicit Masks: A Case Study of ControlNet on its Contour-following Ability ( http://arxiv.org/abs/2403.00467v1 )

ライセンス: Link先を確認
Wenjie Xuan, Yufei Xu, Shanshan Zhao, Chaoyue Wang, Juhua Liu, Bo Du, Dacheng Tao(参考訳) controlnetは、ユーザーが提供するマスクの正確な輪郭にぴったり合うコンテンツを作るのに優れている。 しかし、これらのマスクがノイズを含む場合、専門家でないユーザーが頻繁に発生するため、出力には望ましくないアーティファクトが含まれる。 本稿では,まず,これらの不明瞭なマスクの影響を深く分析することで,様々な劣化レベルで制御する重要な役割について述べる。 その後、不特定マスクによる制御性を高めるため、劣化推定器と形状優先変調ブロックからなる高度な形状認識制御ネットを考案した。 劣化推定器は、提供されたマスクの劣化係数を評価する。 そして、この因子を変調ブロックで活用し、モデルの輪郭追従能力を適応的に変調し、無論マスクのノイズ部分の除去を支援する。 広範な実験により、制御網が与えられた輪郭を盲目的に追従するのではなく、不正確な空間条件をロバストに解釈することを奨励する効果が証明された。 形状の事前変更や構成可能な形状制御生成といったアプリケーションシナリオを紹介します。 コードは間もなく利用可能になる。

ControlNet excels at creating content that closely matches precise contours in user-provided masks. However, when these masks contain noise, as a frequent occurrence with non-expert users, the output would include unwanted artifacts. This paper first highlights the crucial role of controlling the impact of these inexplicit masks with diverse deterioration levels through in-depth analysis. Subsequently, to enhance controllability with inexplicit masks, an advanced Shape-aware ControlNet consisting of a deterioration estimator and a shape-prior modulation block is devised. The deterioration estimator assesses the deterioration factor of the provided masks. Then this factor is utilized in the modulation block to adaptively modulate the model's contour-following ability, which helps it dismiss the noise part in the inexplicit masks. Extensive experiments prove its effectiveness in encouraging ControlNet to interpret inaccurate spatial conditions robustly rather than blindly following the given contours. We showcase application scenarios like modifying shape priors and composable shape-controllable generation. Codes are soon available.
翻訳日:2024-03-05 17:25:26 公開日:2024-03-01
# LUCID:複雑・興味のある対話のためのLLM生成発話

LUCID: LLM-Generated Utterances for Complex and Interesting Dialogues ( http://arxiv.org/abs/2403.00462v1 )

ライセンス: Link先を確認
Joe Stacey, Jianpeng Cheng, John Torr, Tristan Guigue, Joris Driesen, Alexandru Coca, Mark Gaynor, Anders Johannsen(参考訳) バーチャルアシスタントは、トランスフォーマーベースの大規模言語モデル(llms)の最近の進歩によって、対話能力の面で劇的な進歩を遂げようとしている。 しかし、真にトランスフォーメーションなタスク指向の対話能力を達成するための大きなボトルネックは、高品質で言語的に洗練されたデータの不足である。 既存のデータセットは、スケール的に印象的ではあるが、ドメインカバレッジが限られており、真に困難な会話現象はほとんど含まれていない。 さらに、これまで高品質な対話データの作成には、これらのデータセットのスケールと、新しいターゲットドメインのためのデータの迅速なブートストラップ機能の両方を制限し、かなりの人的入力が必要だった。 LUCIDはモジュール化され,高度に自動化されたLCM駆動型データ生成システムであり,現実的で多様性があり,困難な対話を生成する。 LUCIDを使用して、100のインテントにまたがる4,277のマルチドメイン、マルチインテリジェントな会話のシードデータセットを生成し、その能力を実証しています。 生成された会話には、幅広い困難な現象と多様なユーザ行動が含まれており、ターンレベルのタグセットを通じて便利に識別できる。 最後に,未発見のインテントに対して別々にテストセットを提供し,簡便な分散評価を可能にした。 私たちは、データ生成コードとデータセット自身の両方をリリースします。

Virtual assistants are poised to take a dramatic leap forward in terms of their dialogue capabilities, spurred by recent advances in transformer-based Large Language Models (LLMs). Yet a major bottleneck to achieving genuinely transformative task-oriented dialogue capabilities remains the scarcity of high quality and linguistically sophisticated data. Existing datasets, while impressive in scale, have limited domain coverage and contain few genuinely challenging conversational phenomena; those which are present are typically unlabelled, making it difficult to assess the strengths and weaknesses of models without time-consuming and costly human evaluation. Moreover, creating high quality dialogue data has until now required considerable human input, limiting both the scale of these datasets and the ability to rapidly bootstrap data for a new target domain. We aim to overcome these issues with LUCID, a modularised and highly automated LLM-driven data generation system that produces realistic, diverse and challenging dialogues. We use LUCID to generate a seed dataset of 4,277 multi-domain, multi-intent conversations across 100 intents to demonstrate its capabilities. The generated conversations include a wide range of challenging phenomena and diverse user behaviour, conveniently identifiable via a set of turn-level tags. Finally, we provide separate test sets for seen and unseen intents, allowing for convenient out-of-distribution evaluation. We release both the data generation code and the dataset itself.
翻訳日:2024-03-05 17:25:07 公開日:2024-03-01
# 自己修復型ソフトウェアシステムに関する調査

A Survey on Self-healing Software System ( http://arxiv.org/abs/2403.00455v1 )

ライセンス: Link先を確認
Zahra Yazdanparast(参考訳) ソフトウェアシステムの複雑さが増すにつれて、インストール、設定、調整、保守が非常に困難になる。 システムがより相互接続され多様になるにつれて、システムアーキテクトはコンポーネント間の相互作用を予測し、設計することができなくなり、これらの問題の処理をランタイムに延期する。 実行中に発生する重要な問題のひとつは、自己修復システムの必要性を高めるシステム障害である。 自己修復の主な目的は、人間の介入なしに自己修復できる自動システムを持つことである。 システムには、さまざまな障害モードからシステムを取り戻すのに適した、事前定義されたアクションと手順がある。 本研究では,異なる自己修復法を分類し,その概要を述べる。

With the increasing complexity of software systems, it becomes very difficult to install, configure, adjust, and maintain them. As systems become more interconnected and diverse, system architects are less able to predict and design the interaction between components, deferring the handling of these issues to runtime. One of the important problems that occur during execution is system failures, which increase the need for self-healing systems. The main purpose of self-healing is to have an automatic system that can heal itself without human intervention. This system has predefined actions and procedures that are suitable for recovering the system from different failure modes. In this study, different self-healing methods are categorized and a summary of them is presented.
翻訳日:2024-03-05 17:24:20 公開日:2024-03-01
# 重症度の異なる医用画像生成のための順序拡散モデル

An Ordinal Diffusion Model for Generating Medical Images with Different Severity Levels ( http://arxiv.org/abs/2403.00452v1 )

ライセンス: Link先を確認
Shumpei Takezaki and Seiichi Uchida(参考訳) 拡散モデルは最近、高い画像品質のために医療画像生成に使われている。 本研究では,重症度レベルなどの順序関係を持つ順序クラスで医用画像を生成することに焦点を当てた。 クラス間における推定ノイズ画像の順序関係を制御できる順序拡散モデル(ODM)を提案する。 本モデルは,複数の重症度クラスの網膜および内視鏡画像を用いて実験的に評価した。 ODMは実写画像を生成することで従来の生成モデルよりも高い性能を実現した。

Diffusion models have recently been used for medical image generation because of their high image quality. In this study, we focus on generating medical images with ordinal classes, which have ordinal relationships, such as severity levels. We propose an Ordinal Diffusion Model (ODM) that controls the ordinal relationships of the estimated noise images among the classes. Our model was evaluated experimentally by generating retinal and endoscopic images of multiple severity classes. ODM achieved higher performance than conventional generative models by generating realistic images, especially in high-severity classes with fewer training samples.
翻訳日:2024-03-05 17:24:08 公開日:2024-03-01
# スパイクニューラルネットワークの並列ハイパーパラメータ最適化

Parallel Hyperparameter Optimization Of Spiking Neural Network ( http://arxiv.org/abs/2403.00450v1 )

ライセンス: Link先を確認
Thomas Firmin, Pierre Boulet, El-Ghazali Talbi(参考訳) Spiking Neural Networks (SNN) の略。 SNNは、通常の人工ニューラルネットワークよりも生物学的にインスパイアされたアプローチに基づいている。 このようなモデルはニューロンとスパイクの間の複雑なダイナミクスによって特徴づけられる。 これらはハイパーパラメータに非常に敏感であり、最適化が難しい。 SNNのハイパーパラメータ最適化に取り組み、SNNの信号損失問題をサイレントネットワークと呼ぶものに拡張した。 これらのネットワークは、不調なハイパーパラメータやアーキテクチャのため、出力に十分なスパイクを発生させることができない。 一般に、探索空間は、そのようなネットワークのサンプリングを防ぐために、しばしば離散化される。 サイレントネットワークを検出する早期停止基準を定義し、特定の制約を設計することで、より大きく柔軟な検索空間をインスタンス化することができた。 我々は,SNNの評価時間が非常に確率的であるため,非同期並列化された制約付きベイズ最適化手法を適用した。 大規模実験はマルチGPUペタスケールアーキテクチャで実施された。 サイレントネットワークを活用することで,最適化アルゴリズムと最良解の両方の性能を維持しつつ,検索の高速化が図れる。 この手法をスパイクタイミング依存塑性と代理勾配と呼ばれる2つの一般的なトレーニングアルゴリズムに適用することができた。 早期検出により, 有望なハイパーパラメータの組み合わせへの探索を指示し, 無価値で費用のかかる計算を防止できた。 本手法は, スパイク活性を最小化してエネルギー消費を減少させる多目的問題に適用できる。 このシナリオでは、低スパイクとサイレントネットワークの間の繊細なフロンティアを見つけることが不可欠となる。 最後に、我々のアプローチは神経アーキテクチャ探索、特に適切なスパイクアーキテクチャの定義に影響を及ぼす可能性がある。

Spiking Neural Networks (SNN). SNNs are based on a more biologically inspired approach than usual artificial neural networks. Such models are characterized by complex dynamics between neurons and spikes. These are very sensitive to the hyperparameters, making their optimization challenging. To tackle hyperparameter optimization of SNNs, we initially extended the signal loss issue of SNNs to what we call silent networks. These networks fail to emit enough spikes at their outputs due to mistuned hyperparameters or architecture. Generally, search spaces are heavily restrained, sometimes even discretized, to prevent the sampling of such networks. By defining an early stopping criterion detecting silent networks and by designing specific constraints, we were able to instantiate larger and more flexible search spaces. We applied a constrained Bayesian optimization technique, which was asynchronously parallelized, as the evaluation time of a SNN is highly stochastic. Large-scale experiments were carried-out on a multi-GPU Petascale architecture. By leveraging silent networks, results show an acceleration of the search, while maintaining good performances of both the optimization algorithm and the best solution obtained. We were able to apply our methodology to two popular training algorithms, known as spike timing dependent plasticity and surrogate gradient. Early detection allowed us to prevent worthless and costly computation, directing the search toward promising hyperparameter combinations. Our methodology could be applied to multi-objective problems, where the spiking activity is often minimized to reduce the energy consumption. In this scenario, it becomes essential to find the delicate frontier between low-spiking and silent networks. Finally, our approach may have implications for neural architecture search, particularly in defining suitable spiking architectures.
翻訳日:2024-03-05 17:23:59 公開日:2024-03-01
# SURE: 信頼性と堅牢なディープネットワーク構築のためのSurvey Recipes

SURE: SUrvey REcipes for building reliable and robust deep networks ( http://arxiv.org/abs/2403.00543v1 )

ライセンス: Link先を確認
Yuting Li, Yingyi Chen, Xuanlong Yu, Dexiong Chen, Xi Shen(参考訳) 本稿では,深層ニューラルネットワークにおける不確実性推定手法を再検討し,信頼性を高めるために一連の手法を統合する。 本研究では,画像分類タスクにおける不確かさ予測の精度を,スパンニングモデル正規化,分類,最適化といった多種多様な手法の統合的応用により向上することを示す。 これらの技法の相乗効果は、我々の新しい確実なアプローチに結実する。 不確実性推定の有効性に関する重要なテストベッドである,障害予測のベンチマークに対する信頼性を厳格に評価する。 我々の結果は、さまざまなデータセットやモデルアーキテクチャにまたがって、各テクニックを個別にデプロイするモデルよりも一貫して優れたパフォーマンスを示します。 データ破損、ラベルノイズ、長い尾のクラス分布といった現実世界の課題に適用した場合、SUREは顕著な堅牢性を示し、現在の最先端の特殊手法と同等あるいは同等な結果をもたらす。 特にノイズラベルで学習するためのAnimal-10NとFood-101Nでは、SUREはタスク固有の調整なしに最先端のパフォーマンスを達成する。 この作業は、ロバストな不確実性推定のための新しいベンチマークを設定するだけでなく、信頼性が最重要となるさまざまな実世界のシナリオにおいて、その応用の道を開く。 私たちのコードは \url{https://yutingli0606.github.io/SURE/} で利用可能です。

In this paper, we revisit techniques for uncertainty estimation within deep neural networks and consolidate a suite of techniques to enhance their reliability. Our investigation reveals that an integrated application of diverse techniques--spanning model regularization, classifier and optimization--substantially improves the accuracy of uncertainty predictions in image classification tasks. The synergistic effect of these techniques culminates in our novel SURE approach. We rigorously evaluate SURE against the benchmark of failure prediction, a critical testbed for uncertainty estimation efficacy. Our results showcase a consistently better performance than models that individually deploy each technique, across various datasets and model architectures. When applied to real-world challenges, such as data corruption, label noise, and long-tailed class distribution, SURE exhibits remarkable robustness, delivering results that are superior or on par with current state-of-the-art specialized methods. Particularly on Animal-10N and Food-101N for learning with noisy labels, SURE achieves state-of-the-art performance without any task-specific adjustments. This work not only sets a new benchmark for robust uncertainty estimation but also paves the way for its application in diverse, real-world scenarios where reliability is paramount. Our code is available at \url{https://yutingli0606.github.io/SURE/}.
翻訳日:2024-03-05 17:19:11 公開日:2024-03-01
# barycentric correction procedureを用いた機械学習トレーニング最適化

Machine Learning Training Optimization using the Barycentric Correction Procedure ( http://arxiv.org/abs/2403.00542v1 )

ライセンス: Link先を確認
Sofia Ramos-Pulido, Neil Hernandez-Gress and Hector G. Ceballos-Cancino (Tecnologico de Monterrey, Mexico)(参考訳) 機械学習(ML)アルゴリズムは、予測的に競合するアルゴリズムである。 しかし、長い実行時間の問題は高次元空間に関する文献では未解決である。 本研究では,MLアルゴリズムとBCP(Barycentric correct procedure)と呼ばれる効率的な手法を組み合わせることでこの問題に対処する。 本研究は, 私立大学における合成データと学習データセットを用いて, 提案手法の利点を示す。 この組み合わせは、インスタンス数と寸法が増加すると精度を損なうことなく、合成データと実データにおける時間に関する大きな利点をもたらすことが判明した。 さらに, 高次元空間において, ガウス半径基底関数(RBF)カーネルに対する推定特徴写像の後に, BCPと線形支持ベクトル分類(LinearSVC)が計算時間と精度で実現不可能であることが証明された。

Machine learning (ML) algorithms are predictively competitive algorithms with many human-impact applications. However, the issue of long execution time remains unsolved in the literature for high-dimensional spaces. This study proposes combining ML algorithms with an efficient methodology known as the barycentric correction procedure (BCP) to address this issue. This study uses synthetic data and an educational dataset from a private university to show the benefits of the proposed method. It was found that this combination provides significant benefits related to time in synthetic and real data without losing accuracy when the number of instances and dimensions increases. Additionally, for high-dimensional spaces, it was proved that BCP and linear support vector classification (LinearSVC), after an estimated feature map for the gaussian radial basis function (RBF) kernel, were unfeasible in terms of computational time and accuracy.
翻訳日:2024-03-05 17:18:29 公開日:2024-03-01
# ベイズ最適化のためのEpsilon-Greedy Thompsonサンプリング

Epsilon-Greedy Thompson Sampling to Bayesian Optimization ( http://arxiv.org/abs/2403.00540v1 )

ライセンス: Link先を確認
Bach Do and Ruda Zhang(参考訳) トンプソンサンプリング (TS) はベイズ最適化 (BO) における搾取探索ジレンマに対処するための解である。 ガウス過程(GP)の後部のサンプルパスをランダムに生成し、最大化することで探索を優先するが、TSは各探索の後に真の目的関数に関する情報を収集することでその利用を弱く管理する。 本研究では,強化学習における確立された選択戦略であるepsilon-greedy(\varepsilon$-greedy)ポリシーをtsに組み込んで,その活用方法を改善する。 まず,BOに適用された2つの極端なTS,すなわちジェネリックTSとサンプル平均TSについて述べる。 前者および後者は、それぞれ探検と搾取を促進する。 次に$\varepsilon$-greedyポリシーを使用して、2つの極端をランダムに切り替えます。 $\varepsilon \in (0,1)$の小さな値は、搾取を優先する。 我々は、$\varepsilon$-greedy TSが適切な$\varepsilon$の2つのエクササイズのうちの1つよりも優れていることを実証的に示す。

Thompson sampling (TS) serves as a solution for addressing the exploitation-exploration dilemma in Bayesian optimization (BO). While it prioritizes exploration by randomly generating and maximizing sample paths of Gaussian process (GP) posteriors, TS weakly manages its exploitation by gathering information about the true objective function after each exploration is performed. In this study, we incorporate the epsilon-greedy ($\varepsilon$-greedy) policy, a well-established selection strategy in reinforcement learning, into TS to improve its exploitation. We first delineate two extremes of TS applied for BO, namely the generic TS and a sample-average TS. The former and latter promote exploration and exploitation, respectively. We then use $\varepsilon$-greedy policy to randomly switch between the two extremes. A small value of $\varepsilon \in (0,1)$ prioritizes exploitation, and vice versa. We empirically show that $\varepsilon$-greedy TS with an appropriate $\varepsilon$ is better than one of its two extremes and competes with the other.
翻訳日:2024-03-05 17:18:03 公開日:2024-03-01
# DyPyBench: 実行可能なPythonソフトウェアのベンチマーク

DyPyBench: A Benchmark of Executable Python Software ( http://arxiv.org/abs/2403.00539v1 )

ライセンス: Link先を確認
Islem Bouzenia, Bajaj Piyush Krishan, Michael Pradel(参考訳) Pythonは最も人気のあるプログラミング言語の1つとして現れ、機械学習、データ分析、Webアプリケーションなどの分野で広く利用されている。 pythonの動的性質と広範囲な利用は、動的プログラム解析の魅力的な候補となる。 しかし、他の人気のある言語とは異なり、現在実行可能なPythonプロジェクトの包括的なベンチマークスイートはなく、動的解析の開発を妨げる。 dypybenchは、大規模で多様で、実行準備ができているpythonプロジェクトの最初のベンチマーク(完全な構成とテストスイート)で、分析の準備ができている(dynapyt動的解析フレームワークとの統合によって)。 ベンチマークには、さまざまなアプリケーションドメインの50の人気のあるオープンソースプロジェクトが含まれており、合計681万行のpythonコードと30万のテストケースがある。 DyPyBenchは、テストと動的解析の様々なアプリケーションを可能にします。 (i)動的なコールグラフを収集し、静的に計算されたコールグラフと比較し、pythonの既存のコールグラフ構築技術の制限を公開し、定量化する。 (ii) DyPyBenchを使用してLExecutorのトレーニングデータセットを構築する。 (iii) 動的に収集された実行トレースを使用してAPI使用法仕様をマイニングし、Pythonの仕様マイニングに関する将来の作業のベースラインを確立する。 我々は、DyPyBenchが他の動的解析の基礎を提供し、Pythonコードの実行時の振る舞いを研究することを想定する。

Python has emerged as one of the most popular programming languages, extensively utilized in domains such as machine learning, data analysis, and web applications. Python's dynamic nature and extensive usage make it an attractive candidate for dynamic program analysis. However, unlike for other popular languages, there currently is no comprehensive benchmark suite of executable Python projects, which hinders the development of dynamic analyses. This work addresses this gap by presenting DyPyBench, the first benchmark of Python projects that is large scale, diverse, ready to run (i.e., with fully configured and prepared test suites), and ready to analyze (by integrating with the DynaPyt dynamic analysis framework). The benchmark encompasses 50 popular opensource projects from various application domains, with a total of 681k lines of Python code, and 30k test cases. DyPyBench enables various applications in testing and dynamic analysis, of which we explore three in this work: (i) Gathering dynamic call graphs and empirically comparing them to statically computed call graphs, which exposes and quantifies limitations of existing call graph construction techniques for Python. (ii) Using DyPyBench to build a training data set for LExecutor, a neural model that learns to predict values that otherwise would be missing at runtime. (iii) Using dynamically gathered execution traces to mine API usage specifications, which establishes a baseline for future work on specification mining for Python. We envision DyPyBench to provide a basis for other dynamic analyses and for studying the runtime behavior of Python code.
翻訳日:2024-03-05 17:17:41 公開日:2024-03-01
# 凍結コア電子を用いたN表現可能な1電子還元密度行列再構成

N-representable one-electron reduced density matrix reconstruction with frozen core electrons ( http://arxiv.org/abs/2403.00534v1 )

ライセンス: Link先を確認
Sizhuo Yu, Jean-Michel Gillet(参考訳) 量子結晶学の最近の進歩は、従来の電荷密度の微細化を超えて、N-表現性条件を満たす1電子還元密度行列 (1-RDM) が半定値プログラミングにより共同実験X線構造因子 (XSF) と方向コンプトンプロファイル (DCP) を用いて再構成可能であることを示している。 これまでの1-RDMの再構成方法は, 玩具モデルシステム(CO$_2$)でのみ試験されていた。 本研究では, 静的 (0K) および動的 (50K) 人工実験データを用いて, 結晶性尿素 (CO(NH$_2$)$_2$) を用いて新しい方法を評価する。 対称性制約や凍結コア電子寄与を含む改良されたモデルを導入し、システムの複雑さの増大に対処する。 再構成された1-rdm, 変形密度, およびdcp異方性を分析し, モデルの変化が情報不足やデータ破損に対する再構成品質を大幅に改善することを示した。 このモデルと戦略のロバスト性は, 実際の実験散乱データから再構成問題に適応することが示されている。

Recent advances in quantum crystallography have shown that, beyond conventional charge density refinement, a one-electron reduced density matrix (1-RDM) satisfying N-representability conditions can be reconstructed using jointly experimental X-ray structure factors (XSF) and directional Compton profiles (DCP) through semi-definite programming. So far, such reconstruction methods for 1-RDM, not constrained to idempotency, had been tested only on a toy model system (CO$_2$). In this work, a new method is assessed on crystalline urea (CO(NH$_2$)$_2$) using static (0 K) and dynamic (50 K) artificial-experimental data. An improved model, including symmetry constraints and frozen-core electron contribution, is introduced to better handle the increasing system complexity. Reconstructed 1-RDMs, deformation densities and DCP anisotropy are analyzed, and it is demonstrated that the changes in the model significantly improve the reconstruction's quality against insufficient information and data corruption. The robustness of the model and the strategy are thus shown to be well-adapted to address the reconstruction problem from actual experimental scattering data.
翻訳日:2024-03-05 17:17:16 公開日:2024-03-01
# 量子最適制御の理論的・実験的側面の紹介

Introduction to Theoretical and Experimental aspects of Quantum Optimal Control ( http://arxiv.org/abs/2403.00532v1 )

ライセンス: Link先を確認
Q. Ansel, E. Dionis, F. Arrouas, B. Peaudecerf, S. Gu\'erin, D. Gu\'ery-Odelin and D. Sugny(参考訳) 量子最適制御 (quantum optimal control) は、量子技術における演算を行う時変電磁場を設計するための一連の方法である。 本稿では,ポントリャーギン最大原理に基づく理論の基本要素を物理学者に親しみやすい方法で紹介する。 古典ラグランジュ力学とハミルトン力学の類似性は、この分野で使われる主な結果を示すために提案されている。 量子最適制御問題を解くために、異なる数値アルゴリズムに重点が置かれている。 2レベル量子系の制御から1次元光学格子におけるボース・アインシュタイン凝縮体(BEC)の制御まで、解析的および数値的手法の両方を用いて詳細に研究されている。 射撃法に基づくコードと勾配に基づくアルゴリズムを提供する。 最適過程と量子速度限界との関係は、2レベル量子システムでも議論されている。 becの場合、最適な制御プロトコルを実験的に実装し、2レベルおよび多レベルの場合の両方について記述する。 このプレゼンテーションは、対応する実験結果によって示される。

Quantum optimal control is a set of methods for designing time-varying electromagnetic fields to perform operations in quantum technologies. This tutorial paper introduces the basic elements of this theory based on the Pontryagin maximum principle, in a physicist-friendly way. An analogy with classical Lagrangian and Hamiltonian mechanics is proposed to present the main results used in this field. Emphasis is placed on the different numerical algorithms to solve a quantum optimal control problem. Several examples ranging from the control of two-level quantum systems to that of Bose-Einstein Condensates (BEC) in a one-dimensional optical lattice are studied in detail, using both analytical and numerical methods. Codes based on shooting method and gradient-based algorithms are provided. The connection between optimal processes and the quantum speed limit is also discussed in two-level quantum systems. In the case of BEC, the experimental implementation of optimal control protocols is described, both for two-level and many-level cases, with the current constraints and limitations of such platforms. This presentation is illustrated by the corresponding experimental results.
翻訳日:2024-03-05 17:16:52 公開日:2024-03-01
# VoxGenesis:音声合成のための潜在話者マニフォールドの教師なし発見

VoxGenesis: Unsupervised Discovery of Latent Speaker Manifold for Speech Synthesis ( http://arxiv.org/abs/2403.00529v1 )

ライセンス: Link先を確認
Weiwei Lin, Chenhang He, Man-Wai Mak, Jiachen Lian and Kong Aik Lee(参考訳) 人間の声のニュアンスと正確なエミュレーションを達成することは、人工知能の長年の目標だった。 近年は大きな進歩を遂げているが、音声合成モデルの主流は、教師付き話者モデリングと明示的な参照発話に依存している。 しかし、人間の声には感情、イントネーション、話し方など様々な側面があり、正確なラベルを得ることは困難である。 本稿では,潜在話者多様体と有意義な音声編集方向を教師なしで発見できる,新しい教師なし音声合成フレームワークvoxgenesisを提案する。 VoxGenesisは概念的には単純です。 音声特徴を波形に決定論的にマッピングする代わりに、VoxGenesisはガウス分布を意味トークンで条件付きおよび整列された音声分布に変換する。 これにより、モデルはセマンティックコンテンツから切り離された話者分布を学習せざるを得なくなる。 推定中、ガウス分布からのサンプリングにより、異なる特徴を持つ新規話者の作成が可能となる。 より重要なことに、潜在空間の探索は、性別属性、ピッチ、トーン、感情などの特定の話者特性に関連する人間の解釈可能な方向を明らかにし、これらの特定された方向に沿って潜在コードを操作して音声編集を可能にする。 主観的指標と客観的指標の両方を用いて,提案するボクセシスの評価実験を行い,従来のアプローチと異なる特徴を持つ,より多様で現実的な話者を生成できることを見いだした。 また,従来の手法では不可能であった音声品質に悪影響を及ぼさない,一貫した人間同定可能な効果が生じることを示す。 voxgenesis のオーディオサンプルは \url{https://bit.ly/voxgenesis} で見ることができる。

Achieving nuanced and accurate emulation of human voice has been a longstanding goal in artificial intelligence. Although significant progress has been made in recent years, the mainstream of speech synthesis models still relies on supervised speaker modeling and explicit reference utterances. However, there are many aspects of human voice, such as emotion, intonation, and speaking style, for which it is hard to obtain accurate labels. In this paper, we propose VoxGenesis, a novel unsupervised speech synthesis framework that can discover a latent speaker manifold and meaningful voice editing directions without supervision. VoxGenesis is conceptually simple. Instead of mapping speech features to waveforms deterministically, VoxGenesis transforms a Gaussian distribution into speech distributions conditioned and aligned by semantic tokens. This forces the model to learn a speaker distribution disentangled from the semantic content. During the inference, sampling from the Gaussian distribution enables the creation of novel speakers with distinct characteristics. More importantly, the exploration of latent space uncovers human-interpretable directions associated with specific speaker characteristics such as gender attributes, pitch, tone, and emotion, allowing for voice editing by manipulating the latent codes along these identified directions. We conduct extensive experiments to evaluate the proposed VoxGenesis using both subjective and objective metrics, finding that it produces significantly more diverse and realistic speakers with distinct characteristics than the previous approaches. We also show that latent space manipulation produces consistent and human-identifiable effects that are not detrimental to the speech quality, which was not possible with previous approaches. Audio samples of VoxGenesis can be found at: \url{https://bit.ly/VoxGenesis}.
翻訳日:2024-03-05 17:16:34 公開日:2024-03-01
# 名前付きエンティティ抽出とスペル補正を同時に行う大規模言語モデル

Large Language Models for Simultaneous Named Entity Extraction and Spelling Correction ( http://arxiv.org/abs/2403.00528v1 )

ライセンス: Link先を確認
Edward Whittaker and Ikuo Kitagishi(参考訳) BERTのような言語モデル(LM)は、テキスト中の名前付きエンティティ(NE)を識別するタスクでうまく機能することが示されている。 bert lm は典型的には、入力テキスト内の個々のトークンを分類したり、トークンのスパンを分類する分類器として用いられる。 本稿では,入力テキストに存在する綴り誤りが自動的に訂正されるneの正しい表面形態を復元するだけでなく,neの双方を抽出するためにデコーダのみの大規模言語モデル(llm)も生成的に使用できると仮定する。 本研究は,日本語ショップレシートの画像にocr(optical character recognition)を適用することで得られたテキストからnesを生成する作業において,2つのbert lmsと8つのオープンソースllmをベースラインとして微調整し,テキスト中のnesの位置を検索・評価しようとはしない。 我々は、最良の微調整された llm が、最高の微調整された bert lm と同様に、あるいはわずかに優れた性能を示すが、違いは重要ではない。 しかし、最も優れたLCMは、当初仮説されていたOCRエラーを修正することも示される。

Language Models (LMs) such as BERT, have been shown to perform well on the task of identifying Named Entities (NE) in text. A BERT LM is typically used as a classifier to classify individual tokens in the input text, or to classify spans of tokens, as belonging to one of a set of possible NE categories. In this paper, we hypothesise that decoder-only Large Language Models (LLMs) can also be used generatively to extract both the NE, as well as potentially recover the correct surface form of the NE, where any spelling errors that were present in the input text get automatically corrected. We fine-tune two BERT LMs as baselines, as well as eight open-source LLMs, on the task of producing NEs from text that was obtained by applying Optical Character Recognition (OCR) to images of Japanese shop receipts; in this work, we do not attempt to find or evaluate the location of NEs in the text. We show that the best fine-tuned LLM performs as well as, or slightly better than, the best fine-tuned BERT LM, although the differences are not significant. However, the best LLM is also shown to correct OCR errors in some cases, as initially hypothesised.
翻訳日:2024-03-05 17:16:08 公開日:2024-03-01
# 「私には仕事がある」--中国におけるショートビデオとライブストリーミングプラットフォームがいかに高齢の求職者に与えているかを理解する

"There is a Job Prepared for Me Here": Understanding How Short Video and Live-streaming Platforms Empower Ageing Job Seekers in China ( http://arxiv.org/abs/2403.00527v1 )

ライセンス: Link先を確認
PiaoHong Wang, Siying Hu, Bo Wen, Zhicong Lu(参考訳) 近年、世界的な失業率は引き続き高い水準を維持している。 この問題を加味すると、中国の高齢化人口はしばしば日常生活における年齢の差別のために雇用を見つけることの難しさに遭遇する。 しかし、ソーシャルメディアの出現とともに、高齢労働者を募集するショートビデオやライブストリームの人気が高まっている。 そこで本研究では,これらの短いリクルートビデオやライブ・ストリーミング・チャンネルに没頭した高齢者の求職者を対象に,ビデオベースのリクルート手法を身につけることのモチベーションをよりよく理解し,そのプラットフォームがいかに活用できるかを検討するため,インタビューベースの調査を行った。 以上の結果から,これらのプラットフォームは,特に高齢の求職者にとって好都合な就職選択を可能とし,不利な状況を効果的に改善できることが判明した。

In recent years, the global unemployment rate has remained persistently high. Compounding this issue, the ageing population in China often encounters additional challenges in finding employment due to prevalent age discrimination in daily life. However, with the advent of social media, there has been a rise in the popularity of short videos and live-streams for recruiting ageing workers. To better understand the motivations of ageing job seekers to engage with these video-based recruitment methods and to explore the extent to which such platforms can empower them, we conducted an interview-based study with ageing job seekers who have had exposure to these short recruitment videos and live-streaming channels. Our findings reveal that these platforms can provide a job-seeking choice that is particularly friendly to ageing job seekers, effectively improving their disadvantaged situation.
翻訳日:2024-03-05 17:15:44 公開日:2024-03-01
# VisionLLaMA: ビジョンタスクのための統一LLaMAインターフェース

VisionLLaMA: A Unified LLaMA Interface for Vision Tasks ( http://arxiv.org/abs/2403.00522v1 )

ライセンス: Link先を確認
Xiangxiang Chu and Jianlin Su and Bo Zhang and Chunhua Shen(参考訳) 大規模な言語モデルは、テキスト入力を処理するトランスフォーマティブベースのアーキテクチャ上に構築されている。 例えば、LLaMAは多くのオープンソース実装の中でも際立っている。 同じトランスを使って2D画像を処理できますか? 本稿では,LLaMAライクな視覚変換器を平面およびピラミッド形状で発表し,その目的に合わせた視覚変換器であるVisionLLaMAについて述べる。 VisionLLaMAは、ほとんどのビジョンタスクを解決するための統一的で汎用的なモデリングフレームワークである。 画像認識の下流タスク,特に画像生成において,典型的な事前学習パラダイムを用いてその効果を広く評価する。 多くの場合、VisionLLaMAは以前の最先端のビジョントランスよりも大幅に向上している。 VisionLLaMAは、視覚生成と理解のための強力なベースラインモデルとして機能すると考えています。 私たちのコードはhttps://github.com/Meituan-AutoML/VisionLLaMAでリリースされます。

Large language models are built on top of a transformer-based architecture to process textual inputs. For example, the LLaMA stands out among many open-source implementations. Can the same transformer be used to process 2D images? In this paper, we answer this question by unveiling a LLaMA-like vision transformer in plain and pyramid forms, termed VisionLLaMA, which is tailored for this purpose. VisionLLaMA is a unified and generic modelling framework for solving most vision tasks. We extensively evaluate its effectiveness using typical pre-training paradigms in a good portion of downstream tasks of image perception and especially image generation. In many cases, VisionLLaMA have exhibited substantial gains over the previous state-of-the-art vision transformers. We believe that VisionLLaMA can serve as a strong new baseline model for vision generation and understanding. Our code will be released at https://github.com/Meituan-AutoML/VisionLLaMA.
翻訳日:2024-03-05 17:15:27 公開日:2024-03-01
# 超伝導導波路を用いたダイヤモンド中の薄膜スピンクビットのマイクロ波制御

Microwave Control of the Tin-Vacancy Spin Qubit in Diamond with a Superconducting Waveguide ( http://arxiv.org/abs/2403.00521v1 )

ライセンス: Link先を確認
Ioannis Karapatzakis, Jeremias Resch, Marcel Schrodin, Philipp Fuchs, Michael Kieschnick, Julia Heupel, Luis Kussi, Christoph S\"urgers, Cyril Popov, Jan Meijer, Christoph Becher, Wolfgang Wernsdorfer, David Hunger(参考訳) ダイヤモンド中のグループIV色中心は、支配的なゼロフォノン線とコヒーレントスピンレベルに結合する対称性で保護された光遷移のために量子ネットワークの候補となる。 負電荷のスズ空孔(SnV)中心は、大きなスピン軌道分裂のために長い電子スピン寿命を持つ。 しかし、マイクロ波スピン制御に必要な磁気双極子遷移は抑制され、これらの遷移を可能にするにはひずみが必要である。 近年の研究では、熱によるコヒーレンスを制限し、オーミック損失に苦しむマイクロ波線を用いて歪んだエミッタのスピン制御が示されている。 超伝導コプラナー導波路を用いてひずみを受けるsnv中心を測定し、大幅な改善を観測した。 地盤の角度依存性の分裂と励起状態に基づくSnV中心電子スピンハミルトニアンの詳細な解析を行う。 我々はコヒーレントなスピン操作を示し、最大$t_2 = 430\,\mu$s のハーンエコーコヒーレンス時間を得る。 動的デカップリングにより、より長いコヒーレンスを$T_2 = 10\,$msとすることができる。 また、近傍のカップリング $^{13}\mathrm{c}$ spin も観測し、量子メモリとして機能するかもしれない。 これはダイヤモンド中のSnV中心のポテンシャルを裏付け、超伝導マイクロ波構造の利点を示す。

Group-IV color centers in diamond are promising candidates for quantum networks due to their dominant zero-phonon line and symmetry-protected optical transitions that connect to coherent spin levels. The negatively charged tin-vacancy (SnV) center possesses long electron spin lifetimes due to its large spin-orbit splitting. However, the magnetic dipole transitions required for microwave spin control are suppressed, and strain is necessary to enable these transitions. Recent work has shown spin control of strained emitters using microwave lines that suffer from Ohmic losses, restricting coherence through heating. We utilize a superconducting coplanar waveguide to measure SnV centers subjected to strain, observing substantial improvement. A detailed analysis of the SnV center electron spin Hamiltonian based on the angle-dependent splitting of the ground and excited states is performed. We demonstrate coherent spin manipulation and obtain a Hahn echo coherence time of up to $T_2 = 430\,\mu$s. With dynamical decoupling, we can prolong coherence to $T_2 = 10\,$ms, about six-fold improved compared to earlier works. We also observe a nearby coupling $^{13}\mathrm{C}$ spin which may serve as a quantum memory. This substantiates the potential of SnV centers in diamond and demonstrates the benefit of superconducting microwave structures.
翻訳日:2024-03-05 17:15:15 公開日:2024-03-01
# アクタークリティカルにおける過大評価, 過大適合, 塑性:強化学習の分岐授業

Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning ( http://arxiv.org/abs/2403.00514v1 )

ライセンス: Link先を確認
Michal Nauman, Micha{\l} Bortkiewicz, Mateusz Ostaszewski, Piotr Mi{\l}o\'s, Tomasz Trzci\'nski, Marek Cygan(参考訳) オフ・ポリティクス強化学習(RL)の最近の進歩は、主に従来のエージェントよりも勾配更新のステップを増やせるような様々な形態の正規化の導入により、サンプル効率を著しく改善している。 しかし、これらの技法の多くは限定的な設定でテストされ、しばしばシングルシミュレーションベンチマークのタスクや、様々な正規化アプローチではなくよく知られたアルゴリズムに対してテストされている。 これにより、RLの改善を促進する特定のメカニズムの理解が制限されます。 これを解決するために60以上のオフポリシーエージェントを実装し、それぞれが最新の最先端アルゴリズムから確立された正規化技術を統合する。 2つのシミュレーションベンチマークから14のタスクでこれらのエージェントをテストしました。 その結果、特定の正規化設定の有効性はタスクによって異なるが、特定の組み合わせは一貫して堅牢で優れた性能を示すことがわかった。 特に、適切な正規化がなされた単純なソフトアクタ-クリティックエージェントは、主にモデルベースのアプローチによって解決された犬のタスクを確実に解決します。

Recent advancements in off-policy Reinforcement Learning (RL) have significantly improved sample efficiency, primarily due to the incorporation of various forms of regularization that enable more gradient update steps than traditional agents. However, many of these techniques have been tested in limited settings, often on tasks from single simulation benchmarks and against well-known algorithms rather than a range of regularization approaches. This limits our understanding of the specific mechanisms driving RL improvements. To address this, we implemented over 60 different off-policy agents, each integrating established regularization techniques from recent state-of-the-art algorithms. We tested these agents across 14 diverse tasks from 2 simulation benchmarks. Our findings reveal that while the effectiveness of a specific regularization setup varies with the task, certain combinations consistently demonstrate robust and superior performance. Notably, a simple Soft Actor-Critic agent, appropriately regularized, reliably solves dog tasks, which were previously solved mainly through model-based approaches.
翻訳日:2024-03-05 17:14:55 公開日:2024-03-01
# デッドマインドの調査:古典中国語の文脈的構成表現(CCR)を用いた歴史的・心理学的テキスト分析

Surveying the Dead Minds: Historical-Psychological Text Analysis with Contextualized Construct Representation (CCR) for Classical Chinese ( http://arxiv.org/abs/2403.00509v1 )

ライセンス: Link先を確認
Yuqi Chen, Sixuan Li, Ying Li and Mohammad Atari(参考訳) 本研究では,古典中国語の歴史的・心理学的テキスト分析のためのパイプラインを開発した。 人間は何千年もの間、様々な言語でテキストを制作してきたが、計算文学の大部分は現代言語とコーパスに焦点を当てている。 歴史心理学の新たな分野は、自然言語処理(NLP)で開発された新しい手法を用いて、歴史コーパスから心理学の側面を抽出する計算技術に依存している。 現在のパイプラインはccr(contextized construct representations)と呼ばれ、心理学的調査(psychological surveys)の専門知識とトランスフォーマティブに基づく言語モデルによって生成されたテキスト表現を組み合わせることで、古典中国のコーパスにおける伝統主義、規範的強さ、集合主義などの心理的構成を計測している。 利用可能なデータが少ないことを考慮し、間接的に教師付きコントラスト学習手法を提案し、事前学習モデルに中国初の歴史心理学コーパス(c-hi-psy)を構築する。 他のアプローチと比べて優れたパフォーマンスを示すためにパイプラインを評価します。 CCR法は,全てのタスクにおいて単語埋め込みに基づくアプローチよりも優れており,ほとんどのタスクにおいて GPT-4 よりも優れている。 最後に、パイプラインを客観的な外部データに対してベンチマークし、その妥当性をさらに検証する。

In this work, we develop a pipeline for historical-psychological text analysis in classical Chinese. Humans have produced texts in various languages for thousands of years; however, most of the computational literature is focused on contemporary languages and corpora. The emerging field of historical psychology relies on computational techniques to extract aspects of psychology from historical corpora using new methods developed in natural language processing (NLP). The present pipeline, called Contextualized Construct Representations (CCR), combines expert knowledge in psychometrics (i.e., psychological surveys) with text representations generated via transformer-based language models to measure psychological constructs such as traditionalism, norm strength, and collectivism in classical Chinese corpora. Considering the scarcity of available data, we propose an indirect supervised contrastive learning approach and build the first Chinese historical psychology corpus (C-HI-PSY) to fine-tune pre-trained models. We evaluate the pipeline to demonstrate its superior performance compared with other approaches. The CCR method outperforms word-embedding-based approaches across all of our tasks and exceeds prompting with GPT-4 in most tasks. Finally, we benchmark the pipeline against objective, external data to further verify its validity.
翻訳日:2024-03-05 17:14:10 公開日:2024-03-01
# 量子アニールによる分子展開の定式化

Molecular unfolding formulation with enhanced quantum annealing approach ( http://arxiv.org/abs/2403.00507v1 )

ライセンス: Link先を確認
Arit Kumar Bishwas, Arish Pitchai, Anuraj Som(参考訳) 分子ドッキングは薬物発見の重要な段階であり、2つの分子が結合するときの最適な空間配置を正確に決定する。 このような分子の3次元構造は、分子が互いに結合するときに好ましい空間配置を決定するために、強固なロトトランスレーションや断片的回転を含む、分子の自由度に基づく分子表現の操作を含む基本的な考察である。 本稿では,分子ドッキングにおける特定の位相である分子展開問題(MU)を解決するための量子アニール法を,最新の古典的アルゴリズムであるGeoDockと比較した。 分子展開は、分子を展開状態に拡張することに焦点を当て、ターゲット空洞内の操作を単純化し、その構成を最適化する。 分子展開問題(英: molecular unfolding problem)は、分子内の原子間距離を増加させるねじれ構造を見つけることを目的としている。 量子アニーリング(quantum annealing, 量子アニーリング)のアプローチは、まず問題を任意のパーセンテージにプルーピングされ、時間効率が向上し、任意の量子アニーラを用いて解くことができる高次非拘束二進最適化(hubo, higher-order unconstrained binary optimization)方程式に符号化する。 結果のHUBOは、D波アニーリング量子プロセッサに簡単に埋め込まれる擬似非拘束バイナリ最適化方程式(QUBO)に変換される。

Molecular docking is a crucial phase in drug discovery, involving the precise determination of the optimal spatial arrangement between two molecules when they bind. The such analysis, the 3D structure of molecules is a fundamental consideration, involving the manipulation of molecular representations based on their degrees of freedom, including rigid roto-translation and fragment rotations along rotatable bonds, to determine the preferred spatial arrangement when molecules bind to each other. In this paper, quantum annealing based solution to solve Molecular unfolding (MU) problem, a specific phase within molecular docking, is explored and compared with a state-of-the-art classical algorithm named "GeoDock". Molecular unfolding focuses on expanding a molecule to an unfolded state to simplify manipulation within the target cavity and optimize its configuration, typically by maximizing molecular area or internal atom distances. Molecular unfolding problem aims to find the torsional configuration that increases the inter-atomic distance within a molecule, which also increases the molecular area. Quantum annealing approach first encodes the problem into a Higher-order Unconstrained Binary Optimization (HUBO) equation which is pruned to an arbitrary percentage to improve the time efficiency and to be able to solve the equation using any quantum annealer. The resultant HUBO is then converted to a Quadratic Unconstrained Binary Optimization equation (QUBO), which is easily embedded on a D-wave annealing Quantum processor.
翻訳日:2024-03-05 17:13:46 公開日:2024-03-01
# 転送学習のための一般化されたユーザ表現

Generalized User Representations for Transfer Learning ( http://arxiv.org/abs/2403.00584v1 )

ライセンス: Link先を確認
Ghazal Fazelnia, Sanket Gupta, Claire Keum, Mark Koh, Ian Anderson, and Mounia Lalmas(参考訳) 本稿では,多様なユーザの嗜好を汎用的に表現することを目的とした,大規模レコメンダシステムにおけるユーザ表現のための新しいフレームワークを提案する。 提案手法は,表現学習と伝達学習を組み合わせた2段階の手法を用いる。 表現学習モデルは、様々なユーザ特徴を表現空間に圧縮するオートエンコーダを使用する。 第2段階では、ダウンストリームタスク固有のモデルは、ユーザ機能を個別にキュレートする代わりに、転送学習を通じてユーザ表現を活用する。 さらに,表現の入力機能に関するこの方法論をさらに強化し,柔軟性を高め,新たなユーザエクスペリエンスを含むユーザイベントへの反応をほぼリアルタイムに実現します。 さらに,このフレームワークの運用モデルへのデプロイを管理するための新しいソリューションを提案し,下流モデルが独立して動作するようにした。 大規模システムにおける厳密なオフラインおよびオンライン実験を通じて,フレームワークの性能を検証し,複数の評価タスクにまたがる顕著な効果を示す。 最後に,提案するフレームワークが,代替手法と比較してインフラコストを大幅に削減できることを示す。

We present a novel framework for user representation in large-scale recommender systems, aiming at effectively representing diverse user taste in a generalized manner. Our approach employs a two-stage methodology combining representation learning and transfer learning. The representation learning model uses an autoencoder that compresses various user features into a representation space. In the second stage, downstream task-specific models leverage user representations via transfer learning instead of curating user features individually. We further augment this methodology on the representation's input features to increase flexibility and enable reaction to user events, including new user experiences, in Near-Real Time. Additionally, we propose a novel solution to manage deployment of this framework in production models, allowing downstream models to work independently. We validate the performance of our framework through rigorous offline and online experiments within a large-scale system, showcasing its remarkable efficacy across multiple evaluation tasks. Finally, we show how the proposed framework can significantly reduce infrastructure costs compared to alternative approaches.
翻訳日:2024-03-05 17:07:46 公開日:2024-03-01
# SINDy vs Hard linearities and Hidden Dynamics: ベンチマークによる検討

SINDy vs Hard Nonlinearities and Hidden Dynamics: a Benchmarking Study ( http://arxiv.org/abs/2403.00578v1 )

ライセンス: Link先を確認
Aurelio Raffa Ugolini and Valentina Breschi and Andrea Manzoni and Mara Tanelli(参考訳) 本研究では,非線形同定のための3つのベンチマークデータセットにおけるsparse identification of nonlinear dynamics (sindy) 手法の有効性を分析し,実力学系に取り組む際の適合性をよりよく理解する。 SINDyは、物理学に基づく学習を追求する上で魅力的な戦略であるが、我々の分析は、観測されていない状態や非滑らかなダイナミクスを扱う際の難しさを強調している。 実システムにおけるこれらの特徴の多様さ,特に制御アプリケーションにより,これらの問題に対処するための手持ちのアプローチで解析を補完し,SINDyをこれらの困難な状況でも活用する。

In this work we analyze the effectiveness of the Sparse Identification of Nonlinear Dynamics (SINDy) technique on three benchmark datasets for nonlinear identification, to provide a better understanding of its suitability when tackling real dynamical systems. While SINDy can be an appealing strategy for pursuing physics-based learning, our analysis highlights difficulties in dealing with unobserved states and non-smooth dynamics. Due to the ubiquity of these features in real systems in general, and control applications in particular, we complement our analysis with hands-on approaches to tackle these issues in order to exploit SINDy also in these challenging contexts.
翻訳日:2024-03-05 17:07:31 公開日:2024-03-01
# Hagedorn Wavepacket ダイナミックスからの単一ビブロニックレベル蛍光スペクトル

Single vibronic level fluorescence spectra from Hagedorn wavepacket dynamics ( http://arxiv.org/abs/2403.00577v1 )

ライセンス: Link先を確認
Zhan Tong Zhang, Ji\v{r}\'i J. L. Van\'i\v{c}ek(参考訳) 単一振動レベル(svl)蛍光実験では、電子励起初期状態も1つまたは複数の振動モードで励起される。 フランク・コンドン因子の計算の時間に依存しないアプローチは大規模システムでは実用的でないが、任意の初期振動レベルからの放出をシミュレートする時間依存形式は適用されていない。 ここでは、ガウス多項式と慎重に生成された多項式の積であるHagedorn関数をSVL初期状態を表すために適用する。 最も大きい二次ポテンシャルの下では、ハゲドルン関数は時間依存のschr\"{o}dinger方程式の厳密な解であり、単純なガウス波束と同じ運動方程式を用いて伝播することができる。 2つのHagedorn波束間の重なり合いを計算する効率的な再帰的アルゴリズムを開発し、任意の振動レベルからの放射スペクトルを1つの軌道で評価できるようになった。 本研究では,2次元大域調和モデルを用いて,量子分割演算子計算との比較を行い,svlスペクトルに対する変位,歪み(スケーズ),デュシンスキー回転の影響を検証した。 さらに,100自由度の変位・歪・デュシャンスキー回転調和モデルを用いた高次元システムにおいて,ハゲドルンアプローチの実用性を示す。

In single vibronic level (SVL) fluorescence experiments, the electronically excited initial state is also excited in one or several vibrational modes. Whereas the time-independent approach of computing all contributing Franck-Condon factors becomes impractical in large systems, a time-dependent formalism has not been applied to simulate emission from arbitrary initial vibrational levels. Here, we apply Hagedorn functions, which are products of a Gaussian and carefully generated polynomials, to represent SVL initial states. Under an at most quadratic potential, the Hagedorn functions are exact solutions to the time-dependent Schr\"{o}dinger equation and can be propagated using the same equations of motion as a simple Gaussian wavepacket. Having developed an efficient recursive algorithm to compute the overlaps between two Hagedorn wavepackets, we can now evaluate emission spectra from arbitrary vibronic levels using a single trajectory. Here, we use two-dimensional global harmonic models to validate the method by comparing it with quantum split-operator calculations and to demonstrate the effects of displacement, distortion (squeezing), and Duschinsky rotation on SVL spectra. Additionally, we show the practicality of the Hagedorn approach in a high-dimensional system on a displaced, distorted, and Duschinsky-rotated harmonic model with 100 degrees of freedom.
翻訳日:2024-03-05 17:07:19 公開日:2024-03-01
# ディープラーニングのための単一モデルビューを超えて:確率最適化アルゴリズムの最適化と一般化可能性

Beyond Single-Model Views for Deep Learning: Optimization versus Generalizability of Stochastic Optimization Algorithms ( http://arxiv.org/abs/2403.00574v1 )

ライセンス: Link先を確認
Toki Tahmid Inan, Mingrui Liu, Amarda Shehu(参考訳) ディープラーニングの最適化に関する広範な文献にもかかわらず、最適化アルゴリズムの有効性に関する現在の理解は断片化されている。 特に,拡張最適化が一般化可能性の向上に寄与するか否かはよく分かっていない。 現在の研究では、確率勾配降下(SGD)とその変種の本質的な確率的性質を見落としており、総合的なベンチマークや統計的性能に関する洞察が欠如している。 本稿では,新しいアプローチを採用することで,このギャップに対処することを目的とする。 個別最適化トラジェクタのエンドポイントを単に評価するのではなく、確率最適化器の定常分布を推定するために軌道のアンサンブルから引き出す。 本研究は,sgdとその変種,フラットミニマオプティマイザ,およびベースラインホッピングフレームワークで提案する新しいアルゴリズムを含む,幅広い手法を包含する。 コンピュータビジョンと自然言語処理において, 合成関数と既知のミニマおよび実世界の問題を包含する評価を通じて, 定常分布の比較と統計的意義の確立という, 統計的枠組みの下での公正なベンチマークを強調する。 本研究は, トレーニング損失とホールドアウト精度の関係, SGD, ノイズ対応変種, およびBHフレームワークを利用した新規オプティマイザについて検討した。 注目すべきは、これらのアルゴリズムがSAMのような平らな最小値オプティマイザと同等の性能を示すことだ。 我々の研究は、ディープラーニング最適化のさらなる探求を触媒し、オプティマイザの確率的性質を認識し、活用する方法論への単一モデルアプローチから移行を促すことを期待する。

Despite an extensive body of literature on deep learning optimization, our current understanding of what makes an optimization algorithm effective is fragmented. In particular, we do not understand well whether enhanced optimization translates to improved generalizability. Current research overlooks the inherent stochastic nature of stochastic gradient descent (SGD) and its variants, resulting in a lack of comprehensive benchmarking and insight into their statistical performance. This paper aims to address this gap by adopting a novel approach. Rather than solely evaluating the endpoint of individual optimization trajectories, we draw from an ensemble of trajectories to estimate the stationary distribution of stochastic optimizers. Our investigation encompasses a wide array of techniques, including SGD and its variants, flat-minima optimizers, and new algorithms we propose under the Basin Hopping framework. Through our evaluation, which encompasses synthetic functions with known minima and real-world problems in computer vision and natural language processing, we emphasize fair benchmarking under a statistical framework, comparing stationary distributions and establishing statistical significance. Our study uncovers several key findings regarding the relationship between training loss and hold-out accuracy, as well as the comparable performance of SGD, noise-enabled variants, and novel optimizers utilizing the BH framework. Notably, these algorithms demonstrate performance on par with flat-minima optimizers like SAM, albeit with half the gradient evaluations. We anticipate that our work will catalyze further exploration in deep learning optimization, encouraging a shift away from single-model approaches towards methodologies that acknowledge and leverage the stochastic nature of optimizers.
翻訳日:2024-03-05 17:06:55 公開日:2024-03-01
# IDTrust:バンドパスフィルタを用いた深部文書品質検出

IDTrust: Deep Identity Document Quality Detection with Bandpass Filtering ( http://arxiv.org/abs/2403.00573v1 )

ライセンス: Link先を確認
Musab Al-Ghadi, Joris Voerman, Souhail Bakkali, Micka\"el Coustaty, Nicolas Sidere, Xavier St-Georges(参考訳) デジタル技術の利用の増加とモバイルベースの登録手続きは、ユーザ認証と機密情報の保護において、個人識別文書(ID)の重要性を強調している。 しかし、偽造ID生産の増加は重大な課題となり、信頼性と効率的な自動検証手法の開発が必要である。 本稿では,IDの品質を評価するためのディープラーニングフレームワーク IDTrust を紹介する。 IDTrustは深層学習に基づく手法を用いて識別文書の品質を向上させるシステムである。 この方法では、品質チェックやアライメントのための前処理ステップにオリジナルのドキュメントパターンに頼る必要がなくなる。 その結果、データセットの適用性が大幅に向上した。 バンドパスフィルタリングに基づく手法により,IDの品質を効果的に検出し,識別することを目的とする。 MIDV-2020とL3i-IDデータセットの総合的な実験は、最適なパラメータを特定し、識別性能を著しく改善し、元のID文書とスキャンされたID文書を効果的に区別する。

The increasing use of digital technologies and mobile-based registration procedures highlights the vital role of personal identity documents (IDs) in verifying users and safeguarding sensitive information. However, the rise in counterfeit ID production poses a significant challenge, necessitating the development of reliable and efficient automated verification methods. This paper introduces IDTrust, a deep-learning framework for assessing the quality of IDs. IDTrust is a system that enhances the quality of identification documents by using a deep learning-based approach. This method eliminates the need for relying on original document patterns for quality checks and pre-processing steps for alignment. As a result, it offers significant improvements in terms of dataset applicability. By utilizing a bandpass filtering-based method, the system aims to effectively detect and differentiate ID quality. Comprehensive experiments on the MIDV-2020 and L3i-ID datasets identify optimal parameters, significantly improving discrimination performance and effectively distinguishing between original and scanned ID documents.
翻訳日:2024-03-05 17:06:27 公開日:2024-03-01
# クラスター条件拡散モデルの再考

Rethinking cluster-conditioned diffusion models ( http://arxiv.org/abs/2403.00570v1 )

ライセンス: Link先を確認
Nikolas Adaloglou and Tim Kaiser and Felix Michels and Markus Kollmann(参考訳) 本稿では,クラスタ割り当てを用いた拡散モデルの画像レベル条件付けに関する包括的実験を行う。 画像クラスタリングに関する個々のコンポーネントが3つのデータセット間の画像合成にどのように影響するかを明らかにする。 画像クラスタリングと拡散モデルの最近の進歩を組み合わせることで、画像合成(視覚群)に関して最適なクラスタ粒度を考慮すれば、クラスタコンディショニングは最先端のFID(CIFAR10では1.67、CIFAR100では2.17)を達成でき、強力なトレーニングサンプル効率が得られることを示す。 最後に,機能ベースのクラスタリングのみを用いて,視覚群の探索空間を減少させる上層クラスタ境界を導出する新しい手法を提案する。 既存のアプローチと異なり、クラスタリングとクラスタ条件画像生成の間には大きな関係がない。 コードとクラスタの割り当てがリリースされる。

We present a comprehensive experimental study on image-level conditioning for diffusion models using cluster assignments. We elucidate how individual components regarding image clustering impact image synthesis across three datasets. By combining recent advancements from image clustering and diffusion models, we show that, given the optimal cluster granularity with respect to image synthesis (visual groups), cluster-conditioning can achieve state-of-the-art FID (i.e. 1.67, 2.17 on CIFAR10 and CIFAR100 respectively), while attaining a strong training sample efficiency. Finally, we propose a novel method to derive an upper cluster bound that reduces the search space of the visual groups using solely feature-based clustering. Unlike existing approaches, we find no significant connection between clustering and cluster-conditional image generation. The code and cluster assignments will be released.
翻訳日:2024-03-05 17:06:11 公開日:2024-03-01
# クロスドメイン・ファウショット学習のための平坦長距離ロスランドスケープ

Flatten Long-Range Loss Landscapes for Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2403.00567v1 )

ライセンス: Link先を確認
Yixiong Zou, Yicong Liu, Yiman Hu, Yuhua Li, Ruixuan Li(参考訳) クロスドメイン少ショットラーニング(CDFSL)は、ソースドメインから移行した事前知識を豊富なトレーニングサンプルで活用することにより、ターゲットドメイン内の限られたトレーニングデータから知識を取得することを目的としている。 cdfslは、異なるドメイン間の知識の転送や、トレーニングデータに制限のある微調整モデルに直面している。 これらの課題に対処するため、まずパラメータ空間から表現空間への損失景観の解析を拡張し、CDFSLモデルの伝達と微調整の難しさを同時に解釈する。 表現空間のロスランドスケープにおけるシャープなミニマは、転送が困難で微調整が難しい表現をもたらすことを観察する。 さらに、既存の平坦性に基づく方法は、その短距離平坦性のため一般化能力が限られている。 移動性を高め, 微調整を容易にするため, ロスランドスケープにおけるミニマの長距離平坦化を実現するための簡易かつ効果的なアプローチを提案する。 このアプローチでは、ロスランドスケープにおいてミニマと異なる正規化された表現を考慮し、中間の高損失領域をランダムに補間された表現をサンプリングすることで平坦化する。 我々はこの手法をcnnとvitsの両方で元のものと置き換える新しい正規化層として実装する。 このレイヤはシンプルで軽量で、最小限のパラメータのみを導入している。 8つのデータセットに対する実験結果から,提案手法は平均精度で最先端の手法より優れていることが示された。 さらに,本手法は,個々のデータセットに対する現在の最善のアプローチと比較して,最大9\%の性能向上を実現する。 私たちのコードはリリースされます。

Cross-domain few-shot learning (CDFSL) aims to acquire knowledge from limited training data in the target domain by leveraging prior knowledge transferred from source domains with abundant training samples. CDFSL faces challenges in transferring knowledge across dissimilar domains and fine-tuning models with limited training data. To address these challenges, we initially extend the analysis of loss landscapes from the parameter space to the representation space, which allows us to simultaneously interpret the transferring and fine-tuning difficulties of CDFSL models. We observe that sharp minima in the loss landscapes of the representation space result in representations that are hard to transfer and fine-tune. Moreover, existing flatness-based methods have limited generalization ability due to their short-range flatness. To enhance the transferability and facilitate fine-tuning, we introduce a simple yet effective approach to achieve long-range flattening of the minima in the loss landscape. This approach considers representations that are differently normalized as minima in the loss landscape and flattens the high-loss region in the middle by randomly sampling interpolated representations. We implement this method as a new normalization layer that replaces the original one in both CNNs and ViTs. This layer is simple and lightweight, introducing only a minimal number of additional parameters. Experimental results on 8 datasets demonstrate that our approach outperforms state-of-the-art methods in terms of average accuracy. Moreover, our method achieves performance improvements of up to 9\% compared to the current best approaches on individual datasets. Our code will be released.
翻訳日:2024-03-05 17:05:57 公開日:2024-03-01
# Lincoln's Annotated Spatio-Temporal Strawberry Dataset (LAST-Straw)

Lincoln's Annotated Spatio-Temporal Strawberry Dataset (LAST-Straw) ( http://arxiv.org/abs/2403.00566v1 )

ライセンス: Link先を確認
Katherine Margaret Frances James and Karoline Heiwolt and Daniel James Sargent and Grzegorz Cielniak(参考訳) 育種と植物研究のための植物の自動表現型付けは、植物特性を以前に達成不可能な観察頻度で定量的に測定することを約束する。 しかし、高スループット表現型化を行うツールの開発は、検証を行うための関連するデータセットの可用性に制約されている。 そこで本研究では,イチゴの3次元点雲の時空間データセットを,84個の個別点雲の2種類に分けて提示する。 このようなツール – 生物学的に関連のある表現型の抽出 – のエンドユースに注目し,データセット上で表現型パイプラインを実証する。 これは、セグメンテーション、骨格化、追跡を含むステップで構成され、各ステージがどのように異なる表現型の抽出やデータインサイトの提供を促進するかを詳述する。 特に,評価は,パイプラインの各ステップで獲得した表現から抽出された表現型の検証に重点を置いている。 したがって,可能であれば,各ステップで抽出した表現型に対して,<textit{in silico} 基底真理ベースラインを提供し,骨格化の定量的評価法とその抽出した長さ特性について紹介する。 このデータセットは、次世代表現型ツールの開発のための、自由に利用可能な農業/園芸時空間データのコーパスに貢献し、この分野で研究できる植物品種の数を増やし、新しい表現型方法論を真に比較するための基盤を提供する。

Automated phenotyping of plants for breeding and plant studies promises to provide quantitative metrics on plant traits at a previously unattainable observation frequency. Developers of tools for performing high-throughput phenotyping are, however, constrained by the availability of relevant datasets on which to perform validation. To this end, we present a spatio-temporal dataset of 3D point clouds of strawberry plants for two varieties, totalling 84 individual point clouds. We focus on the end use of such tools - the extraction of biologically relevant phenotypes - and demonstrate a phenotyping pipeline on the dataset. This comprises of the steps, including; segmentation, skeletonisation and tracking, and we detail how each stage facilitates the extraction of different phenotypes or provision of data insights. We particularly note that assessment is focused on the validation of phenotypes, extracted from the representations acquired at each step of the pipeline, rather than singularly focusing on assessing the representation itself. Therefore, where possible, we provide \textit{in silico} ground truth baselines for the phenotypes extracted at each step and introduce methodology for the quantitative assessment of skeletonisation and the length trait extracted thereof. This dataset contributes to the corpus of freely available agricultural/horticultural spatio-temporal data for the development of next-generation phenotyping tools, increasing the number of plant varieties available for research in this field and providing a basis for genuine comparison of new phenotyping methodology.
翻訳日:2024-03-05 17:05:30 公開日:2024-03-01
# UAV型予測:時系列分類のためのサンプリングとデータ拡張の探索

Predicting UAV Type: An Exploration of Sampling and Data Augmentation for Time Series Classification ( http://arxiv.org/abs/2403.00565v1 )

ライセンス: Link先を確認
Tarik Crnovrsanin, Calvin Yu, Dane Hankamer, and Cody Dunne(参考訳) 無人航空機は一般的になり、多くの生産的用途がある。 しかし、その頻度の増加は、安全上の懸念を喚起する -- 制限空域をどうやって保護できるのか? 無人航空機の種類を知ることは、それが持つ潜在的なリスクを決定する上で、長い道のりを歩むことになる。 例えば、固定翼機は長い距離でより多くの重量を運ぶことができるため、より重大な脅威をもたらす可能性がある。 本稿では,無人航空機をクワッドローター,ヘキサローター,固定翼に分類する機械学習モデルを提案する。 本手法は時系列分類のためにLong-Short Term Memory(LSTM)ニューラルネットワークを効果的に適用する。 我々は,タイムスタンプサンプリング手法の変更とクラス分布の不均衡に対処する効果を検証する実験を行った。 これらの実験により,トップパフォーマンスサンプリング法とクラス不均衡固定法を同定した。 マクロf-scoreを10倍のデータで平均すると、大多数のクワッドロータークラスは98.16%と予測され、極端なクラス不均衡にもかかわらず、固定翼飛行の大多数(73.15%)を正しく予測できた。 ヘキサローターのインスタンスは、一般的にはマルチローターの類似性(42.15%)のため、しばしば四重項として誤分類された。 しかし、結果は特定の手法で比較的安定しており、その結果、私たちはそれらのトレードオフを分析し報告しました。 実験を全て実行し、結果表を生成するためのコードとデータを含む、この論文の補足資料はhttps://osf.io/mnsgk/で入手できる。

Unmanned aerial vehicles are becoming common and have many productive uses. However, their increased prevalence raises safety concerns -- how can we protect restricted airspace? Knowing the type of unmanned aerial vehicle can go a long way in determining any potential risks it carries. For instance, fixed-wing craft can carry more weight over longer distances, thus potentially posing a more significant threat. This paper presents a machine learning model for classifying unmanned aerial vehicles as quadrotor, hexarotor, or fixed-wing. Our approach effectively applies a Long-Short Term Memory (LSTM) neural network for the purpose of time series classification. We performed experiments to test the effects of changing the timestamp sampling method and addressing the imbalance in the class distribution. Through these experiments, we identified the top-performing sampling and class imbalance fixing methods. Averaging the macro f-scores across 10 folds of data, we found that the majority quadrotor class was predicted well (98.16%), and, despite an extreme class imbalance, the model could also predicted a majority of fixed-wing flights correctly (73.15%). Hexarotor instances were often misclassified as quadrotors due to the similarity of multirotors in general (42.15%). However, results remained relatively stable across certain methods, which prompted us to analyze and report on their tradeoffs. The supplemental material for this paper, including the code and data for running all the experiments and generating the results tables, is available at https://osf.io/mnsgk/.
翻訳日:2024-03-05 17:05:03 公開日:2024-03-01
# EfficientZero V2: 限定データによる離散化と連続制御

EfficientZero V2: Mastering Discrete and Continuous Control with Limited Data ( http://arxiv.org/abs/2403.00564v1 )

ライセンス: Link先を確認
Shengjie Wang, Shaohuai Liu, Weirui Ye, Jiacheng You and Yang Gao(参考訳) 実世界のタスクに強化学習(RL)を適用する上で、サンプル効率は依然として重要な課題である。 最近のアルゴリズムはサンプル効率の改善に大きく貢献しているが、様々な領域で一貫して優れたパフォーマンスを達成しているものはない。 本稿では,サンプル効率のよいRLアルゴリズムのための汎用フレームワークであるEfficientZero V2を紹介する。 我々はEfficientZeroの性能を複数の領域に拡張し、連続的かつ離散的な動作と視覚的および低次元的な入力を包含した。 私たちが提案する一連の改善により、EfficientZero V2は、制限されたデータ設定下での多様なタスクにおいて、現在の最先端(SOTA)よりも大幅にパフォーマンスが向上します。 efficientzero v2は、一般的な一般的なアルゴリズムであるdreamerv3よりも顕著な進歩を示し、atari 100k、proprio control、vision controlといった様々なベンチマークで評価された66のタスクのうち50で優れた結果を達成している。

Sample efficiency remains a crucial challenge in applying Reinforcement Learning (RL) to real-world tasks. While recent algorithms have made significant strides in improving sample efficiency, none have achieved consistently superior performance across diverse domains. In this paper, we introduce EfficientZero V2, a general framework designed for sample-efficient RL algorithms. We have expanded the performance of EfficientZero to multiple domains, encompassing both continuous and discrete actions, as well as visual and low-dimensional inputs. With a series of improvements we propose, EfficientZero V2 outperforms the current state-of-the-art (SOTA) by a significant margin in diverse tasks under the limited data setting. EfficientZero V2 exhibits a notable advancement over the prevailing general algorithm, DreamerV3, achieving superior outcomes in 50 of 66 evaluated tasks across diverse benchmarks, such as Atari 100k, Proprio Control, and Vision Control.
翻訳日:2024-03-05 17:04:39 公開日:2024-03-01
# 間接パラメータ化コンクリートオートエンコーダ

Indirectly Parameterized Concrete Autoencoders ( http://arxiv.org/abs/2403.00563v1 )

ライセンス: Link先を確認
Alfred Nilsson, Klas Wijk, Sai bharath chandra Gutha, Erik Englesson, Alexandra Hotti, Carlo Saccardi, Oskar Kviman, Jens Lagergren, Ricardo Vinuesa, Hossein Azizpour(参考訳) データの高次元化や機能の完全な取得にコストがかかる設定において、機能選択は重要なタスクである。 ニューラルネットワークに基づく組み込み機能選択の最近の進歩は、幅広いアプリケーションで有望な結果を示している。 コンクリートオートエンコーダ(CAE)は組込み機能選択の最先端と見なされ、安定した関節最適化を達成するのに苦労し、訓練時間と一般化を損なう可能性がある。 本研究では,この不安定性がCAE学習重複選択と相関していることを明らかにする。 そこで我々は, 間接パラメータ化CAE (IP-CAEs) という, 単純かつ効果的な改良を提案する。 IP-CAEは埋め込みとそこからGumbel-Softmax分布のパラメータへのマッピングを学ぶ。 実装は簡単だが、IP-CAEは、再構築と分類のためのいくつかのデータセットにわたる一般化とトレーニング時間の両方において、CAEよりも大幅に、一貫した改善を示している。 CAEとは異なり、IP-CAEは非線形関係を効果的に利用し、共同最適化されたデコーダの再訓練を必要としない。 さらに,本手法は原則として,機能選択を超えたgumbel-softmax分布に一般化できる。

Feature selection is a crucial task in settings where data is high-dimensional or acquiring the full set of features is costly. Recent developments in neural network-based embedded feature selection show promising results across a wide range of applications. Concrete Autoencoders (CAEs), considered state-of-the-art in embedded feature selection, may struggle to achieve stable joint optimization, hurting their training time and generalization. In this work, we identify that this instability is correlated with the CAE learning duplicate selections. To remedy this, we propose a simple and effective improvement: Indirectly Parameterized CAEs (IP-CAEs). IP-CAEs learn an embedding and a mapping from it to the Gumbel-Softmax distributions' parameters. Despite being simple to implement, IP-CAE exhibits significant and consistent improvements over CAE in both generalization and training time across several datasets for reconstruction and classification. Unlike CAE, IP-CAE effectively leverages non-linear relationships and does not require retraining the jointly optimized decoder. Furthermore, our approach is, in principle, generalizable to Gumbel-Softmax distributions beyond feature selection.
翻訳日:2024-03-05 17:04:23 公開日:2024-03-01
# 不確実性を用いたマルチタスク学習による不均一顔属性推定

Multi-Task Learning Using Uncertainty to Weigh Losses for Heterogeneous Face Attribute Estimation ( http://arxiv.org/abs/2403.00561v1 )

ライセンス: Link先を確認
Huaqing Yuan and Yi He and Peng Du and Lu Song(参考訳) 顔画像には様々な属性情報が含まれている。 本稿では,情報共有に基づく順序属性と名義属性の同時推定のための一般化フレームワークを提案する。 本研究では,浅度特徴量のパラメータ共有による異種属性の相関問題と,各属性推定タスクの相似不確実性を考慮したトレードオフ多重損失関数に対処する。 これにより、顔の複数の属性を最適に推定し、マルチタスク学習のトレーニングコストを削減できる。 複数の顔属性を持つベンチマーク実験の結果,提案手法は最先端技術よりも優れた性能を示した。 最後に、顔属性推定における提案手法から生じるバイアス問題を議論し、エッジシステムにおけるその実現可能性を検証する。

Face images contain a wide variety of attribute information. In this paper, we propose a generalized framework for joint estimation of ordinal and nominal attributes based on information sharing. We tackle the correlation problem between heterogeneous attributes using hard parameter sharing of shallow features, and trade-off multiple loss functions by considering homoskedastic uncertainty for each attribute estimation task. This leads to optimal estimation of multiple attributes of the face and reduces the training cost of multitask learning. Experimental results on benchmarks with multiple face attributes show that the proposed approach has superior performance compared to state of the art. Finally, we discuss the bias issues arising from the proposed approach in face attribute estimation and validate its feasibility on edge systems.
翻訳日:2024-03-05 17:04:06 公開日:2024-03-01
# テキスト多様性の測定の標準化 : ツールとスコアの比較分析

Standardizing the Measurement of Text Diversity: A Tool and a Comparative Analysis of Scores ( http://arxiv.org/abs/2403.00553v1 )

ライセンス: Link先を確認
Chantal Shaib, Joe Barrow, Jiuding Sun, Alexa F. Siu, Byron C. Wallace, Ani Nenkova(参考訳) 大きな言語モデルによって生成される出力の多様性は、その品質と実用性に対する認識を形作る。 プロンプトリーク、テンプレート化された回答構造、さまざまなインタラクションにまたがる缶詰の応答は、人々が容易に気付くが、モデルの振る舞いのこの側面を測定する標準的なスコアはない。 本研究は,英文の多様性スコアを実証的に調査する。 計算効率のよい圧縮アルゴリズムは,n$-gramの重なり合わさったスコアの計算を遅くすることで,測定値に類似した情報を取得する。 さらに、圧縮比率、長いn$-gramの自己反復、セルフブルーとbertscoreの組み合わせは、互いに相関関係が低いため、報告するのに十分である。 スコアの適用性は生成モデルの分析に留まらず、例えば命令チューニングデータセットや人間が生成したテキストの応用を強調する。 調査を容易にし、レポート間の一貫性を招待するための多様性スコアパッケージをリリースする。

The diversity across outputs generated by large language models shapes the perception of their quality and utility. Prompt leaks, templated answer structure, and canned responses across different interactions are readily noticed by people, but there is no standard score to measure this aspect of model behavior. In this work we empirically investigate diversity scores on English texts. We find that computationally efficient compression algorithms capture information similar to what is measured by slow to compute $n$-gram overlap homogeneity scores. Further, a combination of measures -- compression ratios, self-repetition of long $n$-grams and Self-BLEU and BERTScore -- are sufficient to report, as they have low mutual correlation with each other. The applicability of scores extends beyond analysis of generative models; for example, we highlight applications on instruction-tuning datasets and human-produced texts. We release a diversity score package to facilitate research and invite consistency across reports.
翻訳日:2024-03-05 17:03:53 公開日:2024-03-01
# imitation Learning Datasets: データセットの作成、トレーニングエージェント、ベンチマークのためのツールキット

Imitation Learning Datasets: A Toolkit For Creating Datasets, Training Agents and Benchmarking ( http://arxiv.org/abs/2403.00550v1 )

ライセンス: Link先を確認
Nathan Gavenski, Michael Luck, Odinaldo Rodrigues(参考訳) 模倣学習分野は、タスク内のエージェントを訓練するために専門家データを必要とする。 多くの場合、この学習アプローチは利用可能なデータの欠如に悩まされ、その結果、データセット上でテストされるテクニックが生まれる。 データセットの作成は、研究者が専門家エージェントをゼロからトレーニングし、インタラクションを記録し、新しく作成されたデータで各ベンチマークメソッドをテストするという面倒なプロセスである。 さらに、新しいテクニックごとに新しいデータセットを作成すると、各データセットが状態とアクションの分布で大きく変化するため、評価プロセスの一貫性が失われる。 これに応えて、本研究はImitation Learning Datasetsを作成することで、これらの問題に対処することを目指している。 (i)より高速なデータセット作成のためのマルチスレッドサポートを備えた専門家ポリシーのキュレーション (ii)正確な測定を行うための容易に利用可能なデータセット及び技術 (iii)共通模倣学習手法の実装の共有 デモリンク: https://nathangavenski.github.io/#/il-datasets-video

Imitation learning field requires expert data to train agents in a task. Most often, this learning approach suffers from the absence of available data, which results in techniques being tested on its dataset. Creating datasets is a cumbersome process requiring researchers to train expert agents from scratch, record their interactions and test each benchmark method with newly created data. Moreover, creating new datasets for each new technique results in a lack of consistency in the evaluation process since each dataset can drastically vary in state and action distribution. In response, this work aims to address these issues by creating Imitation Learning Datasets, a toolkit that allows for: (i) curated expert policies with multithreaded support for faster dataset creation; (ii) readily available datasets and techniques with precise measurements; and (iii) sharing implementations of common imitation learning techniques. Demonstration link: https://nathangavenski.github.io/#/il-datasets-video
翻訳日:2024-03-05 17:03:36 公開日:2024-03-01
# 定量的心磁気共鳴画像再構成法

Relaxometry Guided Quantitative Cardiac Magnetic Resonance Image Reconstruction ( http://arxiv.org/abs/2403.00549v1 )

ライセンス: Link先を確認
Yidong Zhao, Yi Zhang, Qian Tao(参考訳) 深層学習に基づく磁気共鳴画像再構成法(mri)は著名であり,多くの臨床応用において高速イメージングが可能となっている。 従来の手法では畳み込みネットワークを用いて正規化項に先立って画像を学習していた。 定量的mriでは、核磁気共鳴ゆらぎの物理モデルが知られ、画像再構成の事前知識を提供する。 しかし、従来の再構成ネットワークは空間領域の事前知識の学習に限られており、事前の緩和は無視されている。 そこで本研究では,MRI物理の空間的事前学習のためのリラクソメトリー誘導定量的MRI再構成フレームワークを提案する。 さらに,u-netを用いたrecurrent variational networks (rvn) と variational networks (vn) という2つの一般的なリコンストラクションバックボーンの性能評価を行った。 実験により,提案手法は定量的MRI再構成において高い有望な結果が得られることが示された。

Deep learning-based methods have achieved prestigious performance for magnetic resonance imaging (MRI) reconstruction, enabling fast imaging for many clinical applications. Previous methods employ convolutional networks to learn the image prior as the regularization term. In quantitative MRI, the physical model of nuclear magnetic resonance relaxometry is known, providing additional prior knowledge for image reconstruction. However, traditional reconstruction networks are limited to learning the spatial domain prior knowledge, ignoring the relaxometry prior. Therefore, we propose a relaxometry-guided quantitative MRI reconstruction framework to learn the spatial prior from data and the relaxometry prior from MRI physics. Additionally, we also evaluated the performance of two popular reconstruction backbones, namely, recurrent variational networks (RVN) and variational networks (VN) with U- Net. Experiments demonstrate that the proposed method achieves highly promising results in quantitative MRI reconstruction.
翻訳日:2024-03-05 17:03:21 公開日:2024-03-01
# 対話的説明の質のモデル化

Modeling the Quality of Dialogical Explanations ( http://arxiv.org/abs/2403.00662v1 )

ライセンス: Link先を確認
Milad Alshomary, Felix Lange, Meisam Booshehri, Meghdut Sengupta, Philipp Cimiano, Henning Wachsmuth(参考訳) 説明は私たちの生活に広まります。 多くの場合、それらは対話形式で発生し、そこでは「説明者」が「説明者」と興味のある概念や現象について議論する。 説明者に明確な理解を与えるのは、両者の知識のギャップのため簡単ではない。 従来の研究では、専門家による対話の成功における説明行動、対話行為、トピックの相互作用について検討していた。 しかし、日常的な説明はしばしば失敗し、なぜ対話が成功するのかという疑問を提起する。 本研究は,説明者と説明者との相互作用の観点で説明対話を考察し,説明者の側における理解の成功の観点で説明の質とどのように相関するかについて検討する。 特に,まずRedditフォーラムから399の対話コーパスを構築し,対話フローや説明品質に注釈を付ける。 そして、対話の流れを分析し、専門家の対話に現れるものと比較する。 最後に、長い入力を処理できる2つの言語モデルを用いて相互作用の流れを符号化し、説明対話の成功を予測するエンコーディングによって得られる効果の実証的な証拠を提供する。

Explanations are pervasive in our lives. Mostly, they occur in dialogical form where an {\em explainer} discusses a concept or phenomenon of interest with an {\em explainee}. Leaving the explainee with a clear understanding is not straightforward due to the knowledge gap between the two participants. Previous research looked at the interaction of explanation moves, dialogue acts, and topics in successful dialogues with expert explainers. However, daily-life explanations often fail, raising the question of what makes a dialogue successful. In this work, we study explanation dialogues in terms of the interactions between the explainer and explainee and how they correlate with the quality of explanations in terms of a successful understanding on the explainee's side. In particular, we first construct a corpus of 399 dialogues from the Reddit forum {\em Explain Like I am Five} and annotate it for interaction flows and explanation quality. We then analyze the interaction flows, comparing them to those appearing in expert dialogues. Finally, we encode the interaction flows using two language models that can handle long inputs, and we provide empirical evidence for the effectiveness boost gained through the encoding in predicting the success of explanation dialogues.
翻訳日:2024-03-05 16:58:34 公開日:2024-03-01
# 二次非線形性をもつ制御系の安定性認定学習

Stability-Certified Learning of Control Systems with Quadratic Nonlinearities ( http://arxiv.org/abs/2403.00646v1 )

ライセンス: Link先を確認
Igor Pontes Duff and Pawan Goyal and Peter Benner(参考訳) 本研究は主に、その構造に関する事前仮説に基づく低次元力学モデルを構築することを目的とした演算子推論手法に焦点をあて、しばしば確立された物理学や専門家の洞察から知らされる。 安定性は力学系の基本的な特性であるが、推論によって導かれるモデルでは必ずしも保証されない。 本研究の目的は,自在な安定性保証を持つ二次制御力学系の推論を容易にする手法を開発することである。 そこで本研究では, エネルギー保存非線形性を有する制御系の安定性特性を調査し, 有界入力有界状態が安定である条件を同定する。 これらの知見はその後学習プロセスに適用され、設計によって本質的に安定な推論モデルが得られる。 提案手法の有効性は,いくつかの数値例を通して検証した。

This work primarily focuses on an operator inference methodology aimed at constructing low-dimensional dynamical models based on a priori hypotheses about their structure, often informed by established physics or expert insights. Stability is a fundamental attribute of dynamical systems, yet it is not always assured in models derived through inference. Our main objective is to develop a method that facilitates the inference of quadratic control dynamical systems with inherent stability guarantees. To this aim, we investigate the stability characteristics of control systems with energy-preserving nonlinearities, thereby identifying conditions under which such systems are bounded-input bounded-state stable. These insights are subsequently applied to the learning process, yielding inferred models that are inherently stable by design. The efficacy of our proposed framework is demonstrated through a couple of numerical examples.
翻訳日:2024-03-05 16:58:16 公開日:2024-03-01
# Diff-Plugin:拡散に基づく低レベルタスクの再現

Diff-Plugin: Revitalizing Details for Diffusion-based Low-level Tasks ( http://arxiv.org/abs/2403.00644v1 )

ライセンス: Link先を確認
Yuhao Liu, Fang Liu, Zhanghan Ke, Nanxuan Zhao, Rynson W.H. Lau(参考訳) 大規模データセットでトレーニングされた拡散モデルは、画像合成において著しく進歩した。 しかし拡散過程のランダム性のため、細部保存を必要とする多様な低レベルのタスクを扱うのにしばしば苦労する。 この制限を克服するために,1つの事前学習された拡散モデルが様々な低レベルタスクで高忠実度結果を生成するための新しいdiff-pluginフレームワークを提案する。 具体的には,まず,画像コンテンツ保存における拡散過程を導くタスク固有のプリエントを提供するために,デュアルブランチ設計の軽量タスクプラグインモジュールを提案する。 次に、テキスト命令に基づいて異なるタスクを自動選択できるプラグインセレクタを提案し、複数の低レベルタスクを自然言語で示すことで画像を編集できる。 我々は8つの低レベル視覚タスクについて広範な実験を行った。 その結果,実世界のシナリオにおいて,既存手法よりもdiff-pluginが優れていることが示された。 Diff-Pluginは安定していて、スケジューリング可能で、さまざまなデータセットサイズにわたる堅牢なトレーニングをサポートしています。

Diffusion models trained on large-scale datasets have achieved remarkable progress in image synthesis. However, due to the randomness in the diffusion process, they often struggle with handling diverse low-level tasks that require details preservation. To overcome this limitation, we present a new Diff-Plugin framework to enable a single pre-trained diffusion model to generate high-fidelity results across a variety of low-level tasks. Specifically, we first propose a lightweight Task-Plugin module with a dual branch design to provide task-specific priors, guiding the diffusion process in preserving image content. We then propose a Plugin-Selector that can automatically select different Task-Plugins based on the text instruction, allowing users to edit images by indicating multiple low-level tasks with natural language. We conduct extensive experiments on 8 low-level vision tasks. The results demonstrate the superiority of Diff-Plugin over existing methods, particularly in real-world scenarios. Our ablations further validate that Diff-Plugin is stable, schedulable, and supports robust training across different dataset sizes.
翻訳日:2024-03-05 16:58:01 公開日:2024-03-01
# 自己指導型学習における一様性メトリクスの再考

Rethinking The Uniformity Metric in Self-Supervised Learning ( http://arxiv.org/abs/2403.00642v1 )

ライセンス: Link先を確認
Xianghong Fang, Jian Li, Qiang Sun, Benyou Wang(参考訳) 統一性は学習された表現を評価する上で重要な役割を担い、自己指導型学習の深い理解に寄与する。 \citet{Wang2020UnderstandingCR} によるセミナルな研究は、学習された表現の崩壊度を定量的に測定する一様性計量を導入した。 この計量をアライメントと共に直接最適化することは、一定の崩壊を防ぐのに有効であることが証明される。 しかし、この計量が次元の崩壊に対する感受性を欠き、その限界を浮き彫りにする理論的証拠と経験的証拠の両方を示す。 この制限に対処し、より効果的な均一度計量を設計するために、本論文は、既存の均一度計量が満たさない5つの基本特性を同定する。 その後,これらのデシデラタをすべて満たし,次元崩壊に対する感受性を示す新しい一様性計量を導入する。 確立された様々な自己監督メソッドにおける補助的損失として適用すると、提案する一様度メトリクスは、下流タスクにおけるパフォーマンスを一貫して向上させる。

Uniformity plays a crucial role in the assessment of learned representations, contributing to a deeper comprehension of self-supervised learning. The seminal work by \citet{Wang2020UnderstandingCR} introduced a uniformity metric that quantitatively measures the collapse degree of learned representations. Directly optimizing this metric together with alignment proves to be effective in preventing constant collapse. However, we present both theoretical and empirical evidence revealing that this metric lacks sensitivity to dimensional collapse, highlighting its limitations. To address this limitation and design a more effective uniformity metric, this paper identifies five fundamental properties, some of which the existing uniformity metric fails to meet. We subsequently introduce a novel uniformity metric that satisfies all of these desiderata and exhibits sensitivity to dimensional collapse. When applied as an auxiliary loss in various established self-supervised methods, our proposed uniformity metric consistently enhances their performance in downstream tasks.Our code was released at https://github.com/sunset-clouds/WassersteinUniformityMetric.
翻訳日:2024-03-05 16:57:45 公開日:2024-03-01
# アルツハイマー病の進行にともなう脳病変の地形的組織を解明するためのグラフ理論とGNN

Graph Theory and GNNs to Unravel the Topographical Organization of Brain Lesions in Variants of Alzheimer's Disease Progression ( http://arxiv.org/abs/2403.00636v1 )

ライセンス: Link先を確認
Leopold Hebert-Stevens, Gabriel Jimenez, Benoit Delatour, Lev Stimmer, Daniel Racoceanu(参考訳) 本研究は,古典的(cAD)および急激な(rpAD)進行様式に着目し,アルツハイマー病(AD)神経病理の変動を評価するためにグラフ理論と深層学習を利用する。 死後脳組織におけるアミロイドプラークとタウタングルの分布を解析した。 病理像はタウ病理図に変換され、統計解析や機械学習分類に導出した指標が用いられる。 これらの分類器は、cADとrpADを区別するためにSHAP値の説明可能性を含んでいる。 グラフニューラルネットワーク(GNN)は、このデータを解析し、空間病理コンテキストを保存する際に、従来のCNN手法よりも高い効率を示す。 さらに、GNNは説明可能なAI技術を通じて重要な洞察を提供する。 rpADは中層に大きく影響し、cADは同じ皮質領域の表層層と深層の両方に影響を及ぼす。 これらの結果は,各広告変種に対する特異な神経病理学的ネットワーク構成を示唆する。

This study utilizes graph theory and deep learning to assess variations in Alzheimer's disease (AD) neuropathologies, focusing on classic (cAD) and rapid (rpAD) progression forms. It analyses the distribution of amyloid plaques and tau tangles in postmortem brain tissues. Histopathological images are converted into tau-pathology-based graphs, and derived metrics are used for statistical analysis and in machine learning classifiers. These classifiers incorporate SHAP value explainability to differentiate between cAD and rpAD. Graph neural networks (GNNs) demonstrate greater efficiency than traditional CNN methods in analyzing this data, preserving spatial pathology context. Additionally, GNNs provide significant insights through explainable AI techniques. The analysis shows denser networks in rpAD and a distinctive impact on brain cortical layers: rpAD predominantly affects middle layers, whereas cAD influences both superficial and deep layers of the same cortical regions. These results suggest a unique neuropathological network organization for each AD variant.
翻訳日:2024-03-05 16:57:26 公開日:2024-03-01
# クラウドネイティブマイクロサービスアプリケーションにおけるインフォームドで評価可能な可観測性設計決定

Informed and Assessable Observability Design Decisions in Cloud-native Microservice Applications ( http://arxiv.org/abs/2403.00633v1 )

ライセンス: Link先を確認
Maria C. Borges, Joshua Bauer, Sebastian Werner, Michael Gebauer, Stefan Tai(参考訳) 可観測性は、マイクロサービスアプリケーションの信頼性を確保する上で重要である。 これらのアプリケーションは、異種環境にデプロイされる多くの独立したサービスがあるため、しばしば障害を起こしやすい。 正しく"採用された場合、オブザーバビリティは、開発者が迅速に障害を特定し、トラブルシュートするのに役立つ。 しかしながら、マイクロサービスアプリケーションの可観測性の測定と設定は簡単ではなく、ツールに依存し、コストに結びついている。 アーキテクトは、異なる可観測性設計の選択肢を重ねるには、可観測性に関連したトレードオフを理解する必要がある。 それでも、これらのアーキテクチャ設計決定は体系的な手法ではサポートされず、通常単に「専門的な直観」に依存している。 本稿では,情報的かつ継続的な可観測性設計決定を行うための体系的手法について議論する。 具体的には、クラウドネイティブなマイクロサービスアプリケーションのフォールトオブザーバビリティに注目して、これをテスト可能な定量化可能なプロパティにします。 目標に向かって、私たちはまず、クラウドネイティブスタック全体の可観測性設計決定の規模とスコープをモデル化します。 次に、いわゆる可観測性実験を通じて、マイクロサービスアプリケーションで決定できる可観測性メトリクスを提案する。 実験ツールOXNの概念実証実装について述べる。 OXNはChaos Engineeringに似た任意のフォールトをアプリケーションに注入することができるが、可観測性の設定を変更するユニークな機能を備えており、以前は探索されていなかった設計上の決定を評価できる。 一般的なオープンソースのマイクロサービスアプリケーションを使って、私たちのアプローチを実演し、さまざまな可観測性設計決定に関わるトレードオフを示しています。

Observability is important to ensure the reliability of microservice applications. These applications are often prone to failures, since they have many independent services deployed on heterogeneous environments. When employed "correctly", observability can help developers identify and troubleshoot faults quickly. However, instrumenting and configuring the observability of a microservice application is not trivial but tool-dependent and tied to costs. Architects need to understand observability-related trade-offs in order to weigh between different observability design alternatives. Still, these architectural design decisions are not supported by systematic methods and typically just rely on "professional intuition". In this paper, we argue for a systematic method to arrive at informed and continuously assessable observability design decisions. Specifically, we focus on fault observability of cloud-native microservice applications, and turn this into a testable and quantifiable property. Towards our goal, we first model the scale and scope of observability design decisions across the cloud-native stack. Then, we propose observability metrics which can be determined for any microservice application through so-called observability experiments. We present a proof-of-concept implementation of our experiment tool OXN. OXN is able to inject arbitrary faults into an application, similar to Chaos Engineering, but also possesses the unique capability to modify the observability configuration, allowing for the assessment of design decisions that were previously left unexplored. We demonstrate our approach using a popular open source microservice application and show the trade-offs involved in different observability design decisions.
翻訳日:2024-03-05 16:57:08 公開日:2024-03-01
# 画像圧縮に先立って分割した領域適応変換

Region-Adaptive Transform with Segmentation Prior for Image Compression ( http://arxiv.org/abs/2403.00628v1 )

ライセンス: Link先を確認
Yuxi Liu, Wenhan Yang, Huihui Bai, Yunchao Wei, and Yao Zhao(参考訳) Learned Image Compression (LIC)は近年顕著な進歩を見せている。 既存の作業では、圧縮の変換方法としてCNNベースのモジュールや自己アテンションベースのモジュールが一般的である。 しかし、特定の領域に焦点を当てた神経変換に関する先行研究は存在しない。 そこで本研究では,地域適応型文脈情報抽出のための分類非依存セグメンテーションマスク(セグメンテーションマスク)を提案する。 提案する領域適応変換モジュールは,マスクが誘導する異なる領域に適応畳み込みを適用する。 さらに,様々な領域のリッチなコンテキストを組み込むために,Scale Affine Layerというプラグイン・アンド・プレイモジュールを導入する。 セグメンテーションマスクを追加の中間入力として用いた画像圧縮作業は以前から行われているが,本手法とは大きく異なる。 我々の利点は、余分なビットレートオーバーヘッドを避けるために、これらのマスクを特権情報として扱い、モデルトレーニング段階ではアクセス可能であるが、推論フェーズでは不要である。 我々の知る限り、我々は初めて特権情報としてクラス非依存マスクを採用し、Pak Signal to Noise Ratio (PSNR) などの画素忠実度測定において優れた性能を達成した。 実験の結果,VTM-17.0に比べて約8.2%のビットレート保存が可能であった。 コードはhttps://github.com/GityuxiLiu/Region-Adaptive-Transform-with-Segmentation-Prior-for-Image-Compressio nでリリースされる。

Learned Image Compression (LIC) has shown remarkable progress in recent years. Existing works commonly employ CNN-based or self-attention-based modules as transform methods for compression. However, there is no prior research on neural transform that focuses on specific regions. In response, we introduce the class-agnostic segmentation masks (i.e. semantic masks without category labels) for extracting region-adaptive contextual information. Our proposed module, Region-Adaptive Transform, applies adaptive convolutions on different regions guided by the masks. Additionally, we introduce a plug-and-play module named Scale Affine Layer to incorporate rich contexts from various regions. While there have been prior image compression efforts that involve segmentation masks as additional intermediate inputs, our approach differs significantly from them. Our advantages lie in that, to avoid extra bitrate overhead, we treat these masks as privilege information, which is accessible during the model training stage but not required during the inference phase. To the best of our knowledge, we are the first to employ class-agnostic masks as privilege information and achieve superior performance in pixel-fidelity metrics, such as Peak Signal to Noise Ratio (PSNR). The experimental results demonstrate our improvement compared to previously well-performing methods, with about 8.2% bitrate saving compared to VTM-17.0. The code will be released at https://github.com/GityuxiLiu/Region-Adaptive-Transform-with-Segmentation-Prior-for-Image-Compressio n.
翻訳日:2024-03-05 16:56:45 公開日:2024-03-01
# 微調整プレトレーニングモデルにおけるバイアス低減による公正性と効率の向上

Bias Mitigation in Fine-tuning Pre-trained Models for Enhanced Fairness and Efficiency ( http://arxiv.org/abs/2403.00625v1 )

ライセンス: Link先を確認
Yixuan Zhang and Feng Zhou(参考訳) 微調整事前学習モデルは多くの実世界のアプリケーションで広く使われている技術である。 しかし、これらのモデルを新しいタスクで微調整することは不公平な結果をもたらす可能性がある。 これは、本来の事前学習モデルがフェアネスを考慮した開発であったかどうかに関わらず、フェアネス特性の一般化保証がないためである。 この問題に取り組むために,新しいタスクにおけるバイアスを軽減するために特別に設計された効率的でロバストな微調整フレームワークを提案する。 本研究は, 群集の予測に影響を与える事前学習モデルにおけるパラメータが異なることを示し, 群集間でのフィッシャー情報を用いて決定されるこれらの影響重みの重要性を中和する伝達学習戦略を用いる。 さらに,この重み付け重要度中立化戦略を行列因子化手法と統合し,より少ないパラメータを用いて重み付け行列の低ランク近似を行い,計算量を削減する。 複数の事前学習モデルと新しいタスクの実験により,本手法の有効性が示された。

Fine-tuning pre-trained models is a widely employed technique in numerous real-world applications. However, fine-tuning these models on new tasks can lead to unfair outcomes. This is due to the absence of generalization guarantees for fairness properties, regardless of whether the original pre-trained model was developed with fairness considerations. To tackle this issue, we introduce an efficient and robust fine-tuning framework specifically designed to mitigate biases in new tasks. Our empirical analysis shows that the parameters in the pre-trained model that affect predictions for different demographic groups are different, so based on this observation, we employ a transfer learning strategy that neutralizes the importance of these influential weights, determined using Fisher information across demographic groups. Additionally, we integrate this weight importance neutralization strategy with a matrix factorization technique, which provides a low-rank approximation of the weight matrix using fewer parameters, reducing the computational demands. Experiments on multiple pre-trained models and new tasks demonstrate the effectiveness of our method.
翻訳日:2024-03-05 16:56:23 公開日:2024-03-01
# ダイヤモンド中の窒素空洞中心アンサンブルの閉ループ最適制御のためのゲートセット評価指標

Gate-set evaluation metrics for closed-loop optimal control on nitrogen-vacancy center ensembles in diamond ( http://arxiv.org/abs/2403.00616v1 )

ライセンス: Link先を確認
Philipp J. Vetter, Thomas Reisser, Maximilian G. Hirsch, Tommaso Calarco, Felix Motzoi, Fedor Jelezko and Matthias M. M\"uller(参考訳) 量子科学と技術における繰り返し発生する課題は、所望の量子演算に繋がる基礎となる力学の正確な制御であり、しばしば量子ゲートのセットによって記述される。 これらのゲートはアプリケーション固有のエラーの対象となり、選択された回路、品質指標、ゲートセット自体への制御に依存する。 自然な解決策は、アプリケーション指向の方法で量子最適制御を適用することである。 逆に、コンテキストゲートセットのパフォーマンスの有意義な尺度を定義する必要がある。 そこで我々は,ダイヤモンド中の窒素空孔中心のマクロアンサンブルを用いて,量子プロセストモグラフィ,線形逆ゲートセットトモグラフィ,ランダム化線形ゲートセットトモグラフィ,ランダム化ベンチマークの適用性をクローズドループ量子最適制御実験の尺度として検討し,比較した。 本研究は,これらの対策の相対的なトレードオフとゲートセット性能の大幅な向上を実証し,すべての調査方法の改善につながった。

A recurring challenge in quantum science and technology is the precise control of their underlying dynamics that lead to the desired quantum operations, often described by a set of quantum gates. These gates can be subject to application-specific errors, leading to a dependence of their controls on the chosen circuit, the quality measure and the gate-set itself. A natural solution would be to apply quantum optimal control in an application-oriented fashion. In turn, this requires the definition of a meaningful measure of the contextual gate-set performance. Therefore, we explore and compare the applicability of quantum process tomography, linear inversion gate-set tomography, randomized linear gate-set tomography, and randomized benchmarking as measures for closed-loop quantum optimal control experiments, using a macroscopic ensemble of nitrogen-vacancy centers in diamond as a test-bed. Our work demonstrates the relative trade-offs between those measures and how to significantly enhance the gate-set performance, leading to an improvement across all investigated methods.
翻訳日:2024-03-05 16:56:06 公開日:2024-03-01
# 進行性皮膚科診断:高スペクトル皮膚内視鏡による皮膚画像診断の開発

Advancing dermatological diagnosis: Development of a hyperspectral dermatoscope for enhanced skin imaging ( http://arxiv.org/abs/2403.00612v1 )

ライセンス: Link先を確認
Martin J. Hetz, Carina Nogueira Garcia, Sarah Haggenm\"uller, Titus J. Brinker(参考訳) 皮膚科は、様々な皮膚疾患の効率的な診断と治療のための精度と革新を必要とする。 本稿では,ヒト皮膚分析に適した近縁型ハイパースペクトル皮膚内視鏡(Hyperscope)の開発について紹介する。 このようなデバイスに対する要求事項と、光学的構成からセンサ選択まで、高い忠実度で広いスペクトル範囲を捉えるために必要な設計上の考慮事項を詳述する。 15人の個人と160枚の皮膚画像から得られた予備結果は、様々な皮膚の状態の同定と特徴付けにおけるハイパースコープの可能性を示し、非侵襲的な皮膚評価に有望な道を提供し、皮膚科関連ハイパースペクトラルイメージングの将来の研究のためのプラットフォームを提供する。

Clinical dermatology necessitates precision and innovation for efficient diagnosis and treatment of various skin conditions. This paper introduces the development of a cutting-edge hyperspectral dermatoscope (the Hyperscope) tailored for human skin analysis. We detail the requirements to such a device and the design considerations, from optical configurations to sensor selection, necessary to capture a wide spectral range with high fidelity. Preliminary results from 15 individuals and 160 recorded skin images demonstrate the potential of the Hyperscope in identifying and characterizing various skin conditions, offering a promising avenue for non-invasive skin evaluation and a platform for future research in dermatology-related hyperspectral imaging.
翻訳日:2024-03-05 16:55:47 公開日:2024-03-01
# 医用画像における因子化畳み込みの平滑化特異値

Flattening Singular Values of Factorized Convolution for Medical Images ( http://arxiv.org/abs/2403.00606v1 )

ライセンス: Link先を確認
Zexin Feng, Na Zeng, Jiansheng Fang, Xingyue Wang, Xiaoxi Lu, Heng Meng, Jiang Liu(参考訳) 畳み込みニューラルネットワーク(CNN)は、長い間、堅牢な医療画像処理(MIP)のパラダイムとして選択されてきた。 したがって、コンピュータ支援診断をサポートするために、異なる計算能力を持つデバイスにcnnを効果的かつ効率的にデプロイすることが重要である。 多くの方法は、表現性を犠牲にして限られた計算資源の負担を軽減するために、分解畳み込み層を用いる。 そこで, 医用画像駆動型CNNモデル最適化により, MIPモデルにおける因子化畳み込みの表現力を向上させるために, Singular value equalization generalizer-induced Factorized Convolution (SFConv)を提案する。 まず, 畳み込みフィルタの重み行列を2つの低ランク行列に分解し, モデル還元を実現する。 そして、2つの低ランク重み行列と均一分布の間のKLのばらつきを最小化し、大きなばらつきを伴う特異値方向の数を減らす。 ファンドスとOCTAデータセットの大規模な実験により、SFConvはバニラの畳み込みよりも競争力のある表現力を持ち、複雑さを低減します。

Convolutional neural networks (CNNs) have long been the paradigm of choice for robust medical image processing (MIP). Therefore, it is crucial to effectively and efficiently deploy CNNs on devices with different computing capabilities to support computer-aided diagnosis. Many methods employ factorized convolutional layers to alleviate the burden of limited computational resources at the expense of expressiveness. To this end, given weak medical image-driven CNN model optimization, a Singular value equalization generalizer-induced Factorized Convolution (SFConv) is proposed to improve the expressive power of factorized convolutions in MIP models. We first decompose the weight matrix of convolutional filters into two low-rank matrices to achieve model reduction. Then minimize the KL divergence between the two low-rank weight matrices and the uniform distribution, thereby reducing the number of singular value directions with significant variance. Extensive experiments on fundus and OCTA datasets demonstrate that our SFConv yields competitive expressiveness over vanilla convolutions while reducing complexity.
翻訳日:2024-03-05 16:55:35 公開日:2024-03-01
# 高忠実なシングルキュービットゲートを実現する大型スピンシャットリング振動

Large spin shuttling oscillations enabling high-fidelity single qubit gates ( http://arxiv.org/abs/2403.00601v1 )

ライセンス: Link先を確認
Akshay Menon Pazhedath, Alessandro David, Max Oberl\"ander, Matthias M. M\"uller, Tommaso Calarco, Hendrik Bluhm and Felix Motzoi(参考訳) 半導体量子ドットは過去数年間で画期的なブレークスルーを示しており、単一と2つのキュービットゲートのフィデリティは他の主要なプラットフォームと一致しており、スケーラビリティは依然として相対的な強さを保っている。 しかし、クビット配線の考慮により、上向きのスケーリングを容易にするために移動電子アーキテクチャが提案されている。 本研究では、より広い空間移動性を利用して、より大きなrabi周波数を実現し、帯電ノイズの影響を低減することにより、静的edsr型シングルキュービット脈動を著しく上回る可能性を検証し、実証する。 量子最適制御を用いることで抑制できるスピンバレー物理によって、フィデリティが最終的にボトルネックとなることを理論的に示し、様々な潜在的な状態や競合する物理モデルにおいて、既存の代替よりも大きな優位性を保っていることを示す。

Semiconductor quantum dots have shown impressive breakthroughs in the last years, with single and two qubit gate fidelities matching other leading platforms and scalability still remaining a relative strength. However, due to qubit wiring considerations, mobile electron architectures have been proposed to facilitate upward scaling. In this work, we examine and demonstrate the possibility of significantly outperforming static EDSR-type single-qubit pulsing by taking advantage of the larger spatial mobility to achieve larger Rabi frequencies and reduce the effect of charge noise. Our theoretical results indicate that fidelities are ultimately bottlenecked by spin-valley physics, which can be suppressed through the use of quantum optimal control, and we demonstrate that, across different potential regimes and competing physical models, shuttling based single-qubit gates retain significant advantage over existing alternatives.
翻訳日:2024-03-05 16:55:16 公開日:2024-03-01
# ゼロショット3dポイントクラウドセマンティクスセグメンテーションの再考

Rethinking Few-shot 3D Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2403.00592v1 )

ライセンス: Link先を確認
Zhaochong An, Guolei Sun, Yun Liu, Fayao Liu, Zongwei Wu, Dan Wang, Luc Van Gool, Serge Belongie(参考訳) 本稿では,フォアグラウンドリークとスパースポイント分散という,最先端の2つの重要な課題に着目した3dポイントクラウドセマンティクスセグメンテーション(fs-pcs)について再検討する。 前者は一様でない点サンプリングから発生し、モデルが前景と背景の間の密度格差を区別し、セグメンテーションを容易にする。 後者は2,048点のみをサンプリングし、意味情報を制限し、現実の実践から逸脱する結果である。 これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。 さらに,新しいFS-PCSモデルを提案する。 従来の手法は,主にサポート機能の改良による機能最適化を基本としているが,本手法は相関最適化を基本とし,相関最適化セグメンテーション (coseg) と呼ぶ。 具体的には,各問合せ点に対するクラス固有多型相関(cmc)を計算し,そのカテゴリープロトタイプとの相関を表す。 次に,CMCを強化するためのハイパー相関拡張(HCA)モジュールを提案する。 さらに, モデルに対するベース・サセプティビリティの低下を抑えるため, 訓練中のベース・クラスに対する非パラメトリック・プロトタイプを学習することを提案する。 学習されたベースプロトタイプは、Base Prototypes Calibration (BPC)モジュールを介してバックグラウンドクラスの相関を校正するために使用される。 一般的なデータセットの実験は、既存のメソッドよりもCOSegの方が優れていることを示している。 コードは、https://github.com/ZhaochongAn/COSegで入手できる。

This paper revisits few-shot 3D point cloud semantic segmentation (FS-PCS), with a focus on two significant issues in the state-of-the-art: foreground leakage and sparse point distribution. The former arises from non-uniform point sampling, allowing models to distinguish the density disparities between foreground and background for easier segmentation. The latter results from sampling only 2,048 points, limiting semantic information and deviating from the real-world practice. To address these issues, we introduce a standardized FS-PCS setting, upon which a new benchmark is built. Moreover, we propose a novel FS-PCS model. While previous methods are based on feature optimization by mainly refining support features to enhance prototypes, our method is based on correlation optimization, referred to as Correlation Optimization Segmentation (COSeg). Specifically, we compute Class-specific Multi-prototypical Correlation (CMC) for each query point, representing its correlations to category prototypes. Then, we propose the Hyper Correlation Augmentation (HCA) module to enhance CMC. Furthermore, tackling the inherent property of few-shot training to incur base susceptibility for models, we propose to learn non-parametric prototypes for the base classes during training. The learned base prototypes are used to calibrate correlations for the background class through a Base Prototypes Calibration (BPC) module. Experiments on popular datasets demonstrate the superiority of COSeg over existing methods. The code is available at: https://github.com/ZhaochongAn/COSeg
翻訳日:2024-03-05 16:54:59 公開日:2024-03-01
# インクリメンタル物体検出のための因果的特徴の学習

Learning Causal Features for Incremental Object Detection ( http://arxiv.org/abs/2403.00591v1 )

ライセンス: Link先を確認
Zhenwei He, Lei Zhang(参考訳) オブジェクト検出は、ユーザが関心を持つすべてのオブジェクトをカバーできないトレーニングフェーズ中に、認識可能なカテゴリを制限する。 実用的ニーズを満たすために、検出器のインクリメンタルな学習能力は実世界のアプリケーションにとって重要な要素となる。 残念なことに、ニューラルネットワークは、新しいタスクに実装されたときに壊滅的な忘れる問題に耐えられない。 この目的のために、多くのインクリメンタルオブジェクト検出モデルは、以前のモデルからサンプルや蒸留を再生することで、以前のタスクの知識を保存する。 しかし、彼らはモデルの性能が主にその特徴に依存する重要な要素を無視します。 これらのモデルは、ニューラルネットワークのメモリを以前のサンプルでロースしようとするが、忘れないようにする。 そこで本稿では,より多くのタスクに適応可能な因果特徴を学習することで,漸進的因果オブジェクト検出(icod)モデルを提案する。 従来のオブジェクト検出モデルは、検出結果を得るためにデータバイアスやデータ固有の機能に依存するため、新しいタスクに適応できない。 モデルがインクリメンタル学習の要件を満たす場合、データバイアス情報は新しいタスクにとって有益ではなく、インクリメンタル学習はこれらの機能を取り除き、忘れてしまう可能性がある。 この目的のために、ICODは、検出器を訓練する際のデータバイアスの特徴よりも、因果的特徴を学習するために導入された。 したがって、モデルが新しいタスクに実装されると、古いタスクの因果的特徴は、破滅的な忘れる問題を緩和するインクリメンタルな学習プロセスを支援することができる。 我々は,データバイアスのない因果的特徴が,モデルが新たなタスクに適応できることを示すために,いくつかの実験を行った。 キーワード{オブジェクト検出、インクリメンタル学習、因果機能。

Object detection limits its recognizable categories during the training phase, in which it can not cover all objects of interest for users. To satisfy the practical necessity, the incremental learning ability of the detector becomes a critical factor for real-world applications. Unfortunately, neural networks unavoidably meet catastrophic forgetting problem when it is implemented on a new task. To this end, many incremental object detection models preserve the knowledge of previous tasks by replaying samples or distillation from previous models. However, they ignore an important factor that the performance of the model mostly depends on its feature. These models try to rouse the memory of the neural network with previous samples but not to prevent forgetting. To this end, in this paper, we propose an incremental causal object detection (ICOD) model by learning causal features, which can adapt to more tasks. Traditional object detection models, unavoidably depend on the data-bias or data-specific features to get the detection results, which can not adapt to the new task. When the model meets the requirements of incremental learning, the data-bias information is not beneficial to the new task, and the incremental learning may eliminate these features and lead to forgetting. To this end, our ICOD is introduced to learn the causal features, rather than the data-bias features when training the detector. Thus, when the model is implemented to a new task, the causal features of the old task can aid the incremental learning process to alleviate the catastrophic forgetting problem. We conduct our model on several experiments, which shows a causal feature without data-bias can make the model adapt to new tasks better. \keywords{Object detection, incremental learning, causal feature.
翻訳日:2024-03-05 16:54:31 公開日:2024-03-01
# 自動導出データセットによるテキスト・画像生成における空間関係の改善

Improving Explicit Spatial Relationships in Text-to-Image Generation through an Automatically Derived Dataset ( http://arxiv.org/abs/2403.00587v1 )

ライセンス: Link先を確認
Ander Salaberria, Gorka Azkune, Oier Lopez de Lacalle, Aitor Soroa, Eneko Agirre and Frank Keller(参考訳) 既存の研究では、現在のテキスト・画像システムは「左」や「下」のような対象間の空間的関係を正確に反映していない。 これは、これらのモデルを訓練するために使用される画像キャプションに明示的な空間関係がほとんど現れないためである。 既存の画像から、14の明示的な空間関係を含む合成キャプションを生成する自動手法を提案する。 本研究では,990万のイメージキャプチャペアと6万以上のキャプションを含むSR4Gデータセットを紹介する。 一般化をテストするために、列車内のオブジェクトのセットとテストキャプションが分離する'unseen'スプリットも提供します。 SR4Gは空間的に微調整できる最初のデータセットである。 SD$_{SR4G}$と表記される)2つの異なる安定拡散モデルの微調整により、VISOR測定値の最大9ポイントの改善が得られることを示す。 この改善は'unseen'分割に留まり、sd$_{sr4g}$が非seenオブジェクトに一般化できることを示している。 sd$_{sr4g}$はより少ないパラメータで最先端を改善し、複雑なアーキテクチャを避ける。 我々の分析によると、改善はすべての関係に一貫性がある。 データセットとコードは公開される予定だ。

Existing work has observed that current text-to-image systems do not accurately reflect explicit spatial relations between objects such as 'left of' or 'below'. We hypothesize that this is because explicit spatial relations rarely appear in the image captions used to train these models. We propose an automatic method that, given existing images, generates synthetic captions that contain 14 explicit spatial relations. We introduce the Spatial Relation for Generation (SR4G) dataset, which contains 9.9 millions image-caption pairs for training, and more than 60 thousand captions for evaluation. In order to test generalization we also provide an 'unseen' split, where the set of objects in the train and test captions are disjoint. SR4G is the first dataset that can be used to spatially fine-tune text-to-image systems. We show that fine-tuning two different Stable Diffusion models (denoted as SD$_{SR4G}$) yields up to 9 points improvements in the VISOR metric. The improvement holds in the 'unseen' split, showing that SD$_{SR4G}$ is able to generalize to unseen objects. SD$_{SR4G}$ improves the state-of-the-art with fewer parameters, and avoids complex architectures. Our analysis shows that improvement is consistent for all relations. The dataset and the code will be publicly available.
翻訳日:2024-03-05 16:53:43 公開日:2024-03-01
# より現実的なオープン応答のための自己整合デコーディング

Self-Consistent Decoding for More Factual Open Responses ( http://arxiv.org/abs/2403.00696v1 )

ライセンス: Link先を確認
Christopher Malon and Xiaodan Zhu(参考訳) 自己整合性は、大規模言語モデルによって生成される短い回答の精度を向上させる強力な方法として登場した。 前述したように、生成されたテキストからパースされた最終回答の正確さにのみ関係している。 本研究では,デコード手法に投票を組み込むことにより,そのアイデアをオープン応答生成に拡張する。 各出力文は、単純なトークンオーバーラップスコアに基づいて、前の選択に基づいて複数のサンプルの中から選択される。 我々はこの"Sample & Select"法を、グリージーデコード、ビームサーチ、核サンプリング、最近導入された幻覚によるDoLA、P-CRR、S-CRRのデコーダを避けるために比較した。 FRANKベンチマークで使用されるCNN/DMとXSumのサブセットに対するNLIに基づく評価において、サンプルとセレクトは、参照サマリーに対するROUGE-1 F1スコアと同等のスコアを維持しながら、これらのデコーダに対して30%のマージンで現実性を向上することを示す。 生成した要約の人間による検証を収集し,本手法の実際的優位性を確認する。

Self-consistency has emerged as a powerful method for improving the accuracy of short answers generated by large language models. As previously defined, it only concerns the accuracy of a final answer parsed from generated text. In this work, we extend the idea to open response generation, by integrating voting into the decoding method. Each output sentence is selected from among multiple samples, conditioning on the previous selections, based on a simple token overlap score. We compare this "Sample & Select" method to greedy decoding, beam search, nucleus sampling, and the recently introduced hallucination avoiding decoders of DoLA, P-CRR, and S-CRR. We show that Sample & Select improves factuality by a 30% relative margin against these decoders in NLI-based evaluation on the subsets of CNN/DM and XSum used in the FRANK benchmark, while maintaining comparable ROUGE-1 F1 scores against reference summaries. We collect human verifications of the generated summaries, confirming the factual superiority of our method.
翻訳日:2024-03-05 16:47:42 公開日:2024-03-01
# 専門知識の定義:治療効果推定への応用

Defining Expertise: Applications to Treatment Effect Estimation ( http://arxiv.org/abs/2403.00694v1 )

ライセンス: Link先を確認
Alihan H\"uy\"uk, Qiyao Wei, Alicia Curth, Mihaela van der Schaar(参考訳) 意思決定者はドメインの専門家であり、ドメインの知識に基づいて行動することが多い。 例えば、医師は治療の結果を予測することで治療を処方することができる。 したがって、専門家の行動はドメインの知識の一部を自然に符号化し、同じドメイン内で推論を行うのに役立つ: 医師が患者に対して最善の治療を処方しようとすることを知ると、より頻繁に処方された治療がより効果的であることを示すことができる。 しかし機械学習では、ほとんどの意思決定者が専門家であるという事実はしばしば見過ごされ、"専門家"は帰納的バイアスとしてほとんど活用されない。 これは治療効果の推定に関する文献において特に当てはまり、アクションについてなされる唯一の仮定は重複であることが多い。 本稿では、専門知識(特にドメインの意思決定者が持つであろう専門知識の種類)が、治療効果の評価方法の設計と選択において有益であると論じる。 予測と予測の2つの専門知識を正式に定義し,それを実証的に示す。 (i)治療効果推定における異なる方法の性能に大きく影響する分野における特筆すべき専門知識の種類 (ii)データセットに存在する専門知識の種類を予測することは可能であり、モデル選択の定量的基礎を提供することができる。

Decision-makers are often experts of their domain and take actions based on their domain knowledge. Doctors, for instance, may prescribe treatments by predicting the likely outcome of each available treatment. Actions of an expert thus naturally encode part of their domain knowledge, and can help make inferences within the same domain: Knowing doctors try to prescribe the best treatment for their patients, we can tell treatments prescribed more frequently are likely to be more effective. Yet in machine learning, the fact that most decision-makers are experts is often overlooked, and "expertise" is seldom leveraged as an inductive bias. This is especially true for the literature on treatment effect estimation, where often the only assumption made about actions is that of overlap. In this paper, we argue that expertise - particularly the type of expertise the decision-makers of a domain are likely to have - can be informative in designing and selecting methods for treatment effect estimation. We formally define two types of expertise, predictive and prognostic, and demonstrate empirically that: (i) the prominent type of expertise in a domain significantly influences the performance of different methods in treatment effect estimation, and (ii) it is possible to predict the type of expertise present in a dataset, which can provide a quantitative basis for model selection.
翻訳日:2024-03-05 16:47:21 公開日:2024-03-01
# 共同埋め込み空間の学習による3モード運動検索

Tri-Modal Motion Retrieval by Learning a Joint Embedding Space ( http://arxiv.org/abs/2403.00691v1 )

ライセンス: Link先を確認
Kangning Yin, Shihao Zou, Yuxuan Ge, Zheng Tian(参考訳) 情報検索は進化途上かつ重要な研究領域である。 オンライン取得における高品質な人体運動データに対する需要は、人体運動研究の急増につながっている。 先行研究は主にテキストや運動タスクなどの二モーダリティ学習に集中しているが、3モーダリティ学習はめったに研究されていない。 直感的には、追加導入されたモダリティはモデルのアプリケーションシナリオを豊かにすることができ、さらに重要なことに、追加モダリティの適切な選択が仲介役となり、他の2つの異なるモダリティ間のアライメントを強化することができる。 本研究では,人間中心の動画を付加的なモダリティとして統合した3つのモダリティ学習のための新しいフレームワークであるLAVIMO(LAnguage-VIdeo-Motion alignment)を紹介する。 さらに,本手法では,テキスト・ビデオ・モーション・モダリティ間のアライメントと相乗効果を高めるために,特別に設計された注意機構を活用する。 humanml3dとkit-mlデータセットを用いた実験結果から,lavimoはテキスト対モーション,モーション対テキスト,ビデオ対モーション,モーション対ビデオなど,さまざまなモーション関連クロスモーダル検索タスクにおいて最先端のパフォーマンスを達成していることが示された。

Information retrieval is an ever-evolving and crucial research domain. The substantial demand for high-quality human motion data especially in online acquirement has led to a surge in human motion research works. Prior works have mainly concentrated on dual-modality learning, such as text and motion tasks, but three-modality learning has been rarely explored. Intuitively, an extra introduced modality can enrich a model's application scenario, and more importantly, an adequate choice of the extra modality can also act as an intermediary and enhance the alignment between the other two disparate modalities. In this work, we introduce LAVIMO (LAnguage-VIdeo-MOtion alignment), a novel framework for three-modality learning integrating human-centric videos as an additional modality, thereby effectively bridging the gap between text and motion. Moreover, our approach leverages a specially designed attention mechanism to foster enhanced alignment and synergistic effects among text, video, and motion modalities. Empirically, our results on the HumanML3D and KIT-ML datasets show that LAVIMO achieves state-of-the-art performance in various motion-related cross-modal retrieval tasks, including text-to-motion, motion-to-text, video-to-motion and motion-to-video.
翻訳日:2024-03-05 16:46:43 公開日:2024-03-01
# LLMでNetHackをプレイする:ゼロショットエージェントとしてのポテンシャルと限界

Playing NetHack with LLMs: Potential & Limitations as Zero-Shot Agents ( http://arxiv.org/abs/2403.00690v1 )

ライセンス: Link先を確認
Dominik Jeurissen and Diego Perez-Liebana and Jeremy Gow and Duygu Cakmak and James Kwan(参考訳) 大規模言語モデル(llm)はゼロショットゲームプレイエージェントの高レベルプランナーとして大きな成功を収めている。 しかし、これらのエージェントは主に、長期計画が比較的単純であるMinecraftで評価されている。 対照的に、動的ロボット環境でテストされたエージェントは、少数のオブジェクトとインタラクションしか持たない単純な環境のために制限に直面します。 文献のこのギャップを埋めるために、我々は、挑戦的なローグ的なNetHackのための最初のLCMベースのゼロショットエージェントであるNetPlayを紹介した。 nethackは、さまざまなアイテムやモンスターのセット、複雑なインタラクション、そして多くの死の方法によって、特に難しい環境です。 NetPlayは、NetHack用に修正された動的ロボット環境用に設計されたアーキテクチャを使用する。 従来のアプローチと同様に、LCMは事前に定義されたスキルから選択し、過去のインタラクションを追跡して意思決定を強化する。 NetHackの予測不能な性質を考慮すると、NetPlayは重要なゲームイベントを検出してランニングスキルを中断し、予期せぬ状況に対応する。 NetPlayはNetHackのメカニクスと対話する際の柔軟性と習熟度を示すが、あいまいなタスク記述と明示的なフィードバックの欠如に苦慮している。 以上の結果から,NetPlay は,NetHack などの複雑なゲームに対して,コンテキスト情報を提供するための動的手法の必要性が示唆された。

Large Language Models (LLMs) have shown great success as high-level planners for zero-shot game-playing agents. However, these agents are primarily evaluated on Minecraft, where long-term planning is relatively straightforward. In contrast, agents tested in dynamic robot environments face limitations due to simplistic environments with only a few objects and interactions. To fill this gap in the literature, we present NetPlay, the first LLM-powered zero-shot agent for the challenging roguelike NetHack. NetHack is a particularly challenging environment due to its diverse set of items and monsters, complex interactions, and many ways to die. NetPlay uses an architecture designed for dynamic robot environments, modified for NetHack. Like previous approaches, it prompts the LLM to choose from predefined skills and tracks past interactions to enhance decision-making. Given NetHack's unpredictable nature, NetPlay detects important game events to interrupt running skills, enabling it to react to unforeseen circumstances. While NetPlay demonstrates considerable flexibility and proficiency in interacting with NetHack's mechanics, it struggles with ambiguous task descriptions and a lack of explicit feedback. Our findings demonstrate that NetPlay performs best with detailed context information, indicating the necessity for dynamic methods in supplying context information for complex games such as NetHack.
翻訳日:2024-03-05 16:46:16 公開日:2024-03-01
# Hydra: データ品質モニタリングのためのコンピュータビジョン

Hydra: Computer Vision for Data Quality Monitoring ( http://arxiv.org/abs/2403.00689v1 )

ライセンス: Link先を確認
Thomas Britton, Torri Jeske, David Lawrence, Kishansingh Rajput(参考訳) Hydraはコンピュータビジョンを利用して、2019年にホールD向けに開発されたほぼリアルタイムのデータ品質管理を行うシステムである。 それ以来、ジェファーソン研究所のすべての実験ホールに展開され、ホールBでのCLAS12コラボレーションは、Hydraをフル活用した最初のGlueXの外部である。 システムは、モデル、推論、データフローを管理するバックエンドプロセスで構成されている。 フロントエンドコンポーネントはWebページからアクセスでき、検出器の専門家やシフトクルーがシステムを見たり操作したりできる。 この講演では、hydraシステムの概要と、hydraの機能セットの重要な進展、すべてのホールでhydraを運用する上での課題、その過程で学んだ教訓について紹介する。

Hydra is a system which utilizes computer vision to perform near real time data quality management, initially developed for Hall-D in 2019. Since then, it has been deployed across all experimental halls at Jefferson Lab, with the CLAS12 collaboration in Hall-B being the first outside of GlueX to fully utilize Hydra. The system comprises back end processes that manage the models, their inferences, and the data flow. The front-end components, accessible via web pages, allow detector experts and shift crews to view and interact with the system. This talk will give an overview of the Hydra system as well as highlight significant developments in Hydra's feature set, acute challenges with operating Hydra in all halls, and lessons learned along the way.
翻訳日:2024-03-05 16:45:54 公開日:2024-03-01
# 問題:言語間のデータセットサイズにおけるばらつきの測定

A Bit of a Problem: Measurement Disparities in Dataset Sizes Across Languages ( http://arxiv.org/abs/2403.00686v1 )

ライセンス: Link先を確認
Catherine Arnett, Tyler A. Chang, Benjamin K. Bergen(参考訳) 言語間でテキストデータセットのサイズを比較するには? コンテントマッチング(並列)コーパスであっても、utf-8エンコードされたテキストは、異なる言語で劇的に異なるバイト数を必要とする。 本研究では,2言語間のバイトプレミアムを,コンテンツマッチングテキストのエンコードに使用するバイトの比率として定義する。 1155言語でバイトプレミアムを計算し,線形回帰を用いて他の言語でバイトプレミアムを推定する。 我々は、任意の2つの言語のバイトプレミアムを取得するツールをリリースし、より公平な多言語モデル開発とデータプラクティスのために、言語間のデータセットサイズの比較を可能にする。

How should text dataset sizes be compared across languages? Even for content-matched (parallel) corpora, UTF-8 encoded text can require a dramatically different number of bytes for different languages. In our work, we define the byte premium between two languages as the ratio of bytes used to encode content-matched text in those languages. We compute byte premiums for 1155 languages, and we use linear regressions to estimate byte premiums for other languages. We release a tool to obtain byte premiums for any two languages, enabling comparisons of dataset sizes across languages for more equitable multilingual model development and data practices.
翻訳日:2024-03-05 16:45:40 公開日:2024-03-01
# 例外を知る: 知識表現における例外のオントロジーに向けて

Know your exceptions: Towards an Ontology of Exceptions in Knowledge Representation ( http://arxiv.org/abs/2403.00685v1 )

ライセンス: Link先を確認
Gabriele Sacco, Loris Bozzato, Oliver Kutz(参考訳) 難解な推論は、ある一般化があらゆる状況において有効でない場合があり、その場合の一般的な結論が失敗するような推論の一種である。 この種の推論をモデル化するために様々な形式主義が開発されてきた。 しかし、モデルラーがこれらのシステムの中から、オントロジの観点からそのドメインに合致するものを選択することは容易ではない。 本稿ではまず,形式主義を比較し,その存在論的コミットメントを明らかにするために,例外性とデファシビリティの概念に基づく枠組みを提案する。 そして,この枠組みを用いて4つのシステムを比較し,存在論的観点から生じる相違点を示す。

Defeasible reasoning is a kind of reasoning where some generalisations may not be valid in all circumstances, that is general conclusions may fail in some cases. Various formalisms have been developed to model this kind of reasoning, which is characteristic of common-sense contexts. However, it is not easy for a modeller to choose among these systems the one that better fits its domain from an ontological point of view. In this paper we first propose a framework based on the notions of exceptionality and defeasibility in order to be able to compare formalisms and reveal their ontological commitments. Then, we apply this framework to compare four systems, showing the differences that may occur from an ontological perspective.
翻訳日:2024-03-05 16:45:30 公開日:2024-03-01
# 量子平面回転子を用いたオットーサイクル

Otto cycles with a quantum planar rotor ( http://arxiv.org/abs/2403.00684v1 )

ライセンス: Link先を確認
Michael Gaida and Stefan Nimmrichter(参考訳) 外部場によって制御される作業媒体として、量子平面ローターを用いたオットーサイクルの2つの実現法を提案する。 計算媒体の量子と古典的記述を比較することで,オットーサイクルの性能,エンジンモード,冷蔵庫モードに関して,真の量子効果を抽出した。 最初の例は、量子振り子に相当する制御された電場に従属する回転電気双極子である。 ここでは、量子ローターの体系的な欠点を古典的ローターと比較する。 対照的に、真の量子アドバンテージは、制御された磁場を受ける磁気モーメントを生成する荷電ローターで観察することができる。 ここでは,古典回転子をパラメータ選択のための動作媒体として動作不能であることを証明する一方,量子回転子ではエンジンと冷凍機モードをサポートし,サイクルの冷間ストローク中に量子統計を利用する。

We present two realizations of an Otto cycle with a quantum planar rotor as the working medium controlled by means of external fields. By comparing the quantum and the classical description of the working medium, we single out genuine quantum effects with regards to the performance and the engine and refrigerator modes of the Otto cycle. The first example is a rotating electric dipole subjected to a controlled electric field, equivalent to a quantum pendulum. Here we find a systematic disadvantage of the quantum rotor compared to its classical counterpart. In contrast, a genuine quantum advantage can be observed with a charged rotor generating a magnetic moment that is subjected to a controlled magnetic field. Here, we prove that the classical rotor is inoperable as a working medium for any choice of parameters, whereas the quantum rotor supports an engine and a refrigerator mode, exploiting the quantum statistics during the cold strokes of the cycle.
翻訳日:2024-03-05 16:45:19 公開日:2024-03-01
# アイテム応答理論モデルのスケーラブルな学習

Scalable Learning of Item Response Theory Models ( http://arxiv.org/abs/2403.00680v1 )

ライセンス: Link先を確認
Susanne Frick and Amer Krivo\v{s}ija and Alexander Munteanu(参考訳) 項目応答理論(IRT)モデルは、応答の質を示す分類データから、$m$テスト項目の潜時難易度特性とともに、$n$試験の潜時能力を評価することを目的としている。 古典的な心理測定評価は、比較的少数の試験員と項目に基づいており、例えば、200ドルの学生が10ドルの問題からなる試験を解く。 PISAやインターネット研究のような近年のグローバルな大規模評価は、参加者を著しく増加させる可能性がある。 さらに、アルゴリズムが検査とデータ分析の役割を果たす機械学習のコンテキストでは、$n$と$m$の両方が非常に大きくなり、計算の効率とスケーラビリティに挑戦する可能性がある。 大規模データからirtモデルの潜在変数を学ぶために、これらのモデルの類似性を利用してロジスティック回帰を行い、コアセットと呼ばれる小さな重み付き部分集合を用いて正確に近似する。 大規模データからのスケーラブルな学習を容易にするために,irtトレーニングアルゴリズムを交互に使用するコアセットを開発した。

Item Response Theory (IRT) models aim to assess latent abilities of $n$ examinees along with latent difficulty characteristics of $m$ test items from categorical data that indicates the quality of their corresponding answers. Classical psychometric assessments are based on a relatively small number of examinees and items, say a class of $200$ students solving an exam comprising $10$ problems. More recent global large scale assessments such as PISA, or internet studies, may lead to significantly increased numbers of participants. Additionally, in the context of Machine Learning where algorithms take the role of examinees and data analysis problems take the role of items, both $n$ and $m$ may become very large, challenging the efficiency and scalability of computations. To learn the latent variables in IRT models from large data, we leverage the similarity of these models to logistic regression, which can be approximated accurately using small weighted subsets called coresets. We develop coresets for their use in alternating IRT training algorithms, facilitating scalable learning from large data.
翻訳日:2024-03-05 16:45:03 公開日:2024-03-01
# 重要度サンプリングによる自然政策勾配における歴史的軌跡の再利用:収束率と収束率

Reusing Historical Trajectories in Natural Policy Gradient via Importance Sampling: Convergence and Convergence Rate ( http://arxiv.org/abs/2403.00675v1 )

ライセンス: Link先を確認
Yifan Lin, Yuhao Wang, Enlu Zhou(参考訳) 強化学習は、学習に基づく制御のための数学的枠組みを提供する。 政策最適化の迅速化には,過去の政策から得られた歴史的軌道の効率的な利用が不可欠である。 実証的な証拠は、重要度サンプリングに基づく政策勾配手法がうまく機能することを示している。 しかし、既存の文献はしばしば異なる反復からの軌跡間の相互依存を無視し、優れた経験的性能は厳密な理論上の正当化を欠いている。 本稿では,重要度サンプリングによる歴史的軌跡の再利用による自然政策勾配法の変種について検討する。 提案した勾配推定器のバイアスは漸近的に無視され,結果のアルゴリズムは収束し,過去の軌道の再利用は収束率の向上に役立つことを示す。 さらに,信頼領域政策最適化などの一般的なポリシー最適化アルゴリズムに提案手法を適用する。 我々の理論結果は古典的ベンチマークで検証される。

Reinforcement learning provides a mathematical framework for learning-based control, whose success largely depends on the amount of data it can utilize. The efficient utilization of historical trajectories obtained from previous policies is essential for expediting policy optimization. Empirical evidence has shown that policy gradient methods based on importance sampling work well. However, existing literature often neglect the interdependence between trajectories from different iterations, and the good empirical performance lacks a rigorous theoretical justification. In this paper, we study a variant of the natural policy gradient method with reusing historical trajectories via importance sampling. We show that the bias of the proposed estimator of the gradient is asymptotically negligible, the resultant algorithm is convergent, and reusing past trajectories helps improve the convergence rate. We further apply the proposed estimator to popular policy optimization algorithms such as trust region policy optimization. Our theoretical results are verified on classical benchmarks.
翻訳日:2024-03-05 16:44:47 公開日:2024-03-01
# スナップショット強化学習 - 事前トラジェクトリを有効活用する

Snapshot Reinforcement Learning: Leveraging Prior Trajectories for Efficiency ( http://arxiv.org/abs/2403.00673v1 )

ライセンス: Link先を確認
Yanxiao Zhao, Yangge Qian, Tianyi Wang, Jingyang Shan, Xiaolin Qin(参考訳) 深層強化学習(DRL)アルゴリズムは、高い性能を達成するために、かなりのサンプルと計算資源を必要とするため、実用的応用を制限し、さらなる開発に挑戦する。 限られた資源の制約を考えると、サンプル効率を高め、DRLアルゴリズムの計算資源消費を減らすために既存の計算作業(例えば、学習済みのポリシーやサンプル)を活用することが不可欠である。 既存の計算処理を活用するためには、柔軟性と普遍性に欠ける特定のアルゴリズムのために設計された既存のアルゴリズムとモデルに侵入的な修正が必要である。 本稿では,スナップショット強化学習(snapshotrl)フレームワークを提案する。このフレームワークは,単に環境を変更するだけで,アルゴリズムやモデルを変更することなくサンプル効率を向上させる。 スナップショットRLは、教師の軌跡の状態を初期状態として選択することで、教師の軌跡を効果的に活用し、訓練中の生徒のエージェントを支援することにより、学生のエージェントは早期訓練段階でより大きな状態空間を探索することができる。 本稿では,既存のDRLアルゴリズムとよく統合された,シンプルで効果的なSnapshotRLベースラインアルゴリズムS3RLを提案する。 実験により,S3RLとTD3,SAC,PPOのアルゴリズムをMuJoCoベンチマークに組み込むことで,余分なサンプルや計算資源を必要とせず,サンプル効率と平均戻り率を大幅に向上することが示された。

Deep reinforcement learning (DRL) algorithms require substantial samples and computational resources to achieve higher performance, which restricts their practical application and poses challenges for further development. Given the constraint of limited resources, it is essential to leverage existing computational work (e.g., learned policies, samples) to enhance sample efficiency and reduce the computational resource consumption of DRL algorithms. Previous works to leverage existing computational work require intrusive modifications to existing algorithms and models, designed specifically for specific algorithms, lacking flexibility and universality. In this paper, we present the Snapshot Reinforcement Learning (SnapshotRL) framework, which enhances sample efficiency by simply altering environments, without making any modifications to algorithms and models. By allowing student agents to choose states in teacher trajectories as the initial state to sample, SnapshotRL can effectively utilize teacher trajectories to assist student agents in training, allowing student agents to explore a larger state space at the early training phase. We propose a simple and effective SnapshotRL baseline algorithm, S3RL, which integrates well with existing DRL algorithms. Our experiments demonstrate that integrating S3RL with TD3, SAC, and PPO algorithms on the MuJoCo benchmark significantly improves sample efficiency and average return, without extra samples and additional computational resources.
翻訳日:2024-03-05 16:44:34 公開日:2024-03-01
# 深層学習による添加物製造の進歩:現状と今後の課題の包括的考察

Advancing Additive Manufacturing through Deep Learning: A Comprehensive Review of Current Progress and Future Challenges ( http://arxiv.org/abs/2403.00669v1 )

ライセンス: Link先を確認
Amirul Islam Saimon, Emmanuel Yangue, Xiaowei Yue, Zhenyu (James) Kong, Chenang Liu(参考訳) 添加性製造(AM)は、材料の無駄を最小限に抑えた高度にカスタマイズされた製品を製造するという異常な能力のため、広く使われている減量製造の代替品として既に実証されている。 それでも、画像や点雲、ボクセルといった高次元のデータが関与しているため、従来の機械学習でさえ完全に理解することが難しい、複雑なプロセスインタラクションや動的なプロセスインタラクションなど、業界の主要な課題があるため、業界の主要な選択肢とは見なされていない。 しかし,近年の深層学習(DL)の出現は,手作業による特徴抽出を伴わずに,高次元データから複雑な関係を自動的に抽出できることから,これらの課題の多くを克服する大きな可能性を秘めている。 そのため、AMとDLの交点における研究の量は毎年指数関数的に増加しており、研究者がその傾向や将来的な方向性を追跡することは困難である。 さらに,本研究の知見を最大限に活用するために,近年の研究を要約した総合的なレビュー論文は存在しない。 そこで本稿では,AMプロセスの改善にDLを適用した最近の研究を,その貢献と限界を高レベルにまとめてレビューする。 最後に、現状の課題を要約し、この領域における有望な機会のいくつかを、幅広い幾何学型のDLモデルを一般化すること、AMデータとDLモデルの両方の不確実性を管理し、生成モデルを組み込むことで制限された、騒々しいAMデータ問題を克服し、AMのためのDLの解釈の可能性を明らかにすることに焦点を当てて、さらなる調査を推奨する。

Additive manufacturing (AM) has already proved itself to be the potential alternative to widely-used subtractive manufacturing due to its extraordinary capacity of manufacturing highly customized products with minimum material wastage. Nevertheless, it is still not being considered as the primary choice for the industry due to some of its major inherent challenges, including complex and dynamic process interactions, which are sometimes difficult to fully understand even with traditional machine learning because of the involvement of high-dimensional data such as images, point clouds, and voxels. However, the recent emergence of deep learning (DL) is showing great promise in overcoming many of these challenges as DL can automatically capture complex relationships from high-dimensional data without hand-crafted feature extraction. Therefore, the volume of research in the intersection of AM and DL is exponentially growing each year which makes it difficult for the researchers to keep track of the trend and future potential directions. Furthermore, to the best of our knowledge, there is no comprehensive review paper in this research track summarizing the recent studies. Therefore, this paper reviews the recent studies that apply DL for making the AM process better with a high-level summary of their contributions and limitations. Finally, it summarizes the current challenges and recommends some of the promising opportunities in this domain for further investigation with a special focus on generalizing DL models for wide-range of geometry types, managing uncertainties both in AM data and DL models, overcoming limited and noisy AM data issues by incorporating generative models, and unveiling the potential of interpretable DL for AM.
翻訳日:2024-03-05 16:44:07 公開日:2024-03-01
# 最大スライスワッサーシュタイン距離に対するシャープ境界

Sharp bounds for the max-sliced Wasserstein distance ( http://arxiv.org/abs/2403.00666v1 )

ライセンス: Link先を確認
March T. Boedihardjo(参考訳) 分離可能なヒルベルト空間上の確率測度と、$n$サンプルからの経験的分布の間の予想最大スライス1-ワッサーシュタイン距離について、鋭い上と下の境界を求める。 バナッハ空間上の確率測度に対するこの結果の版も得られる。

We obtain sharp upper and lower bounds for the expected max-sliced 1-Wasserstein distance between a probability measure on a separable Hilbert space and its empirical distribution from $n$ samples. A version of this result for probability measures on Banach spaces is also obtained.
翻訳日:2024-03-05 16:43:38 公開日:2024-03-01
# COLON: 最大規模のコロノスコープLONgシークエンスデータベース

COLON: The largest COlonoscopy LONg sequence public database ( http://arxiv.org/abs/2403.00663v1 )

ライセンス: Link先を確認
Lina Ruiz, Franklin Sierra-Jerez, Jair Ruiz, Fabio Martinez(参考訳) 大腸癌は世界で3番目に攻撃的ながんである。 この疾患の主要なバイオマーカーであるポリープは、大腸内視鏡検査により検出され、局在し、特徴付けられる。 それにもかかわらず、検査中、ポリープの25%は、困難な状況(カメラの動き、照明の変化)とポリープと腸の折りたたみの密接な類似性のため、欠落している。 また,消化管の異常領域を観察・検出するための主観性と専門的依存性が指摘されている。 現在、一般に入手可能なポリプデータセットは、非パラメトリックポリプ形状を特徴付けるための計算戦略の大幅な進歩を可能にしている。 これらの計算戦略は、最大90%のセグメンテーションタスクの顕著なスコアを達成した。 それでもこれらの戦略は、常にポリプを観察する切り株と専門家が選択したフレームで動作する。 結果として、これらの計算近似は臨床シナリオや実際の応用とはかけ離れたものであり、大腸は、高いテクスチュラル変数を持つ腸内背景において冗長である。 実際、ポリプは一般的に完全な大腸内視鏡記録における全観測の1%以下である。 約3万のポリプのラベル付きフレームと4万の背景フレームからなる、最大の大腸内視鏡の長いシーケンスデータセットです。 このデータセットは, 異なる段階のポリープによる全大腸全摘, 準備手順のバリエーション, 手術器具の観察例から収集した。 また,ポリープ・バックグラウンドのフレーム分化を実現するため,全腸背景ビデオコントロール10本を統合した。 COLONデータセットは科学コミュニティに公開されており、ポリプの検出と長いシーケンス上のセグメンテーションに特化した計算ツールを提案するための新しいシナリオを提供する。

Colorectal cancer is the third most aggressive cancer worldwide. Polyps, as the main biomarker of the disease, are detected, localized, and characterized through colonoscopy procedures. Nonetheless, during the examination, up to 25% of polyps are missed, because of challenging conditions (camera movements, lighting changes), and the close similarity of polyps and intestinal folds. Besides, there is a remarked subjectivity and expert dependency to observe and detect abnormal regions along the intestinal tract. Currently, publicly available polyp datasets have allowed significant advances in computational strategies dedicated to characterizing non-parametric polyp shapes. These computational strategies have achieved remarkable scores of up to 90% in segmentation tasks. Nonetheless, these strategies operate on cropped and expert-selected frames that always observe polyps. In consequence, these computational approximations are far from clinical scenarios and real applications, where colonoscopies are redundant on intestinal background with high textural variability. In fact, the polyps typically represent less than 1% of total observations in a complete colonoscopy record. This work introduces COLON: the largest COlonoscopy LONg sequence dataset with around of 30 thousand polyp labeled frames and 400 thousand background frames. The dataset was collected from a total of 30 complete colonoscopies with polyps at different stages, variations in preparation procedures, and some cases the observation of surgical instrumentation. Additionally, 10 full intestinal background video control colonoscopies were integrated in order to achieve a robust polyp-background frame differentiation. The COLON dataset is open to the scientific community to bring new scenarios to propose computational tools dedicated to polyp detection and segmentation over long sequences, being closer to real colonoscopy scenarios.
翻訳日:2024-03-05 16:43:32 公開日:2024-03-01
# セマンティクス・アウェア・置換訓練による逆転的呪いの軽減

Mitigating Reversal Curse via Semantic-aware Permutation Training ( http://arxiv.org/abs/2403.00758v1 )

ライセンス: Link先を確認
Qingyan Guo, Rui Wang, Junliang Guo, Xu Tan, Jiang Bian, Yujiu Yang(参考訳) 大規模言語モデル(LLM)は様々なタスクにまたがって顕著なパフォーマンスを達成したが、最近の研究では、因果LLMが「逆の呪い」に苦しむことが示されている。 モデルが「Aの父親はB」を知っているのが典型例であるが、「Bの子はA」と説明できない。 この制限は、モデルが双方向の推論を理解し、適用する能力のギャップを示唆するため、人工知能(AGI)の発展に挑戦する。 本稿では,まず,学習段階と推論段階の異なる単語順,すなわち,学習データ内の先行する単語を予測できる因果的言語モデルの能力の低下が,反逆的呪いの根本原因であることを示す。 したがって、トレーニングデータの順列化は、先行する単語やトークンを予測できるため、潜在的な解決策であると考えられる。 しかし、以前の置換法は完全な句や実体を乱す可能性があるため、モデルが理解し、トレーニングデータから学ぶことが困難となる。 この問題に対処するために,SPT (Semantic-Aware Permutation Training) を提案する。これは,学習文をセマンティック単位(エンティティやフレーズなど)に分割し,それらの単位をモデルに入力する前に置換することでこの問題に対処する。 広範囲な実験により,SPTは逆問題のパフォーマンスが前方に近似していることから,逆の呪いを効果的に軽減し,既存の作品の性能を著しく向上させることが示されている。

While large language models (LLMs) have achieved impressive performance across diverse tasks, recent studies showcase that causal LLMs suffer from the "reversal curse". It is a typical example that the model knows "A's father is B", but is unable to reason "B's child is A". This limitation poses a challenge to the advancement of artificial general intelligence (AGI), as it suggests a gap in the models' ability to comprehend and apply bidirectional reasoning. In this paper, we first conduct substantial evaluation and identify that the root cause of the reversal curse lies in the different word order between the training and inference stage, namely, the poor ability of causal language models to predict antecedent words within the training data. Accordingly, permutation on the training data is considered as a potential solution, since this can make the model predict antecedent words or tokens. However, previous permutation methods may disrupt complete phrases or entities, thereby posing challenges for the model to comprehend and learn from training data. To address this issue, we propose Semantic-aware Permutation Training (SPT), which addresses this issue by segmenting the training sentences into semantic units (i.e., entities or phrases) with an assistant language model and permuting these units before feeding into the model. Extensive experiments demonstrate that SPT effectively mitigates the reversal curse since the performance on reversed questions approximates that on the forward ones, and significantly advances the performance of existing works.
翻訳日:2024-03-05 16:38:32 公開日:2024-03-01
# 格子型表面電極トラップにおけるスケーラブル多種イオン輸送

Scalable Multispecies Ion Transport in a Grid Based Surface-Electrode Trap ( http://arxiv.org/abs/2403.00756v1 )

ライセンス: Link先を確認
Robert D. Delaney, Lucas R. Sletten, Matthew J. Cich, Brian Estey, Maya Fabrikant, David Hayes, Ian M. Hoffman, James Hostetter, Christopher Langer, Steven A. Moses, Abigail R. Perry, Timothy A. Peterson, Andrew Schaffer, Curtis Volin, Grahame Vittorini, William Cody Burton(参考訳) 本稿では, 格子状表面電極ポールトラップにおけるイオン結晶の制御のためのスケーラブルな手法を提案し, 多種結晶を並べ替え, 並べ替える輸送操作の文脈で特徴付ける。 各グリッドサイトの翻訳対称位置における制御電極の共配線と、バイナリ入力でゲートされた2つの特殊電極に印加される電圧を交換するサイトワイズ機能を組み合わせることにより、サイト依存動作は、固定数のアナログ電圧信号とサイト毎のデジタル入力のみを用いて達成される。 固有に同一の格子トラップを含む2つの実験系において、それぞれ$^{171}\mathrm{Yb}^{+}$-$^{138}\mathrm{Ba}^{+}$クリスタルと他の$^{137}\mathrm{Ba}^{+}$-$^{88}\mathrm{Sr}^{+}$を使用する。 興味のある多点領域を平均して,これらの操作後の結晶の軸内および外相モードにおける準量子運動励起を2.5kHzで測定した。 これらの条件輸送操作はキュービットのソートに必要な全てのコンポーネントを表示し、ゲート、初期化、測定などの制御フィールドを含む他の条件演算を実装するように拡張できる。

We present a scalable method for the control of ion crystals in a grid-based surface electrode Paul trap and characterize it in the context of transport operations that sort and reorder multispecies crystals. By combining co-wiring of control electrodes at translationally symmetric locations in each grid site with the site-wise ability to exchange the voltages applied to two special electrodes gated by a binary input, site-dependent operations are achieved using only a fixed number of analog voltage signals and a single digital input per site. In two separate experimental systems containing nominally identical grid traps, one using $^{171}\mathrm{Yb}^{+}$-$^{138}\mathrm{Ba}^{+}$ crystals and the other $^{137}\mathrm{Ba}^{+}$-$^{88}\mathrm{Sr}^{+}$, we demonstrate this method by characterizing the conditional intra-site crystal reorder and the conditional exchange of ions between adjacent sites on the grid. Averaged across a multi-site region of interest, we measure sub-quanta motional excitation in the axial in-phase and out-of-phase modes of the crystals following these operations at exchange rates of 2.5 kHz. These conditional transport operations display all necessary components for sorting qubits, and could be extended to implement other conditional operations involving control fields such as gates, initialization, and measurement.
翻訳日:2024-03-05 16:38:01 公開日:2024-03-01
# rough拡散モデルにおけるオプション価格決定のための時間ステップ深勾配流れ法

A time-stepping deep gradient flow method for option pricing in (rough) diffusion models ( http://arxiv.org/abs/2403.00746v1 )

ライセンス: Link先を確認
Antonis Papapantoleon and Jasper Rou(参考訳) 拡散モデルにおけるヨーロッパオプションの価格設定のための新しい深層学習手法を開発し,ラフボラティリティモデルのマルコフ近似から生じる高次元問題に対して効率的に対処する。 オプション価格の偏微分方程式はエネルギー最小化問題として再構成され、ディープニューラルネットワークによって時間ステップ方式で近似される。 提案手法は,オプション価格の高水準に対する漸近的振る舞いを尊重し,オプション価格の既知境界に固執する。 提案手法の精度と効率を一連の数値例で評価し,特に揚力ヘストンモデルに着目した。

We develop a novel deep learning approach for pricing European options in diffusion models, that can efficiently handle high-dimensional problems resulting from Markovian approximations of rough volatility models. The option pricing partial differential equation is reformulated as an energy minimization problem, which is approximated in a time-stepping fashion by deep artificial neural networks. The proposed scheme respects the asymptotic behavior of option prices for large levels of moneyness, and adheres to a priori known bounds for option prices. The accuracy and efficiency of the proposed method is assessed in a series of numerical examples, with particular focus in the lifted Heston model.
翻訳日:2024-03-05 16:37:30 公開日:2024-03-01
# AtP*: LLM動作をコンポーネントにローカライズするための効率的でスケーラブルな方法

AtP*: An efficient and scalable method for localizing LLM behaviour to components ( http://arxiv.org/abs/2403.00745v1 )

ライセンス: Link先を確認
J\'anos Kram\'ar, Tom Lieberum, Rohin Shah, Neel Nanda (Google DeepMind)(参考訳) アクティベーション・パッチング(Activation Patching)は、モデルコンポーネントに対する振る舞いの因果関係を直接計算する手法である。 しかし、それを徹底的に適用するには、モデルコンポーネントの数を線形にスケーリングするコストの削減が必要であり、これはSoTA Large Language Models (LLMs) にとって違法にコストがかかる可能性がある。 アトリビューションパッチ(attribution patching, atp)は、アクティベーションパッチングに対する高速勾配に基づく近似である。 我々は、スケーラビリティを維持しながらこれらの障害モードに対処するために2つの変更を加えたatp*と呼ばれるatpの変種を提案する。 本稿では, アクティベーションパッチの高速化のためのAtPおよび代替手法に関する最初の体系的研究を行い, AtPが他の調査方法よりも優れており, AtP*はさらなる大幅な改善をもたらすことを示す。 最後に、AtP*推定の残りの偽陰性の確率を限定する手法を提案する。

Activation Patching is a method of directly computing causal attributions of behavior to model components. However, applying it exhaustively requires a sweep with cost scaling linearly in the number of model components, which can be prohibitively expensive for SoTA Large Language Models (LLMs). We investigate Attribution Patching (AtP), a fast gradient-based approximation to Activation Patching and find two classes of failure modes of AtP which lead to significant false negatives. We propose a variant of AtP called AtP*, with two changes to address these failure modes while retaining scalability. We present the first systematic study of AtP and alternative methods for faster activation patching and show that AtP significantly outperforms all other investigated methods, with AtP* providing further significant improvement. Finally, we provide a method to bound the probability of remaining false negatives of AtP* estimates.
翻訳日:2024-03-05 16:37:19 公開日:2024-03-01
# 方言偏見は、人々の性格、雇用性、犯罪に関するAIの決定を予測する

Dialect prejudice predicts AI decisions about people's character, employability, and criminality ( http://arxiv.org/abs/2403.00742v1 )

ライセンス: Link先を確認
Valentin Hofmann, Pratyusha Ria Kalluri, Dan Jurafsky, Sharese King(参考訳) 何十万人もの人々が現在、言語モデルと対話しており、採用決定を伝えるための執筆支援としての利用も行われている。 しかし、これらの言語モデルは体系的な人種的偏見を永続させることで知られており、彼らの判断はアフリカ系アメリカ人のような集団に関する問題的な方法に偏っている。 以前の研究は言語モデルの過度な人種差別に焦点を当ててきたが、社会科学者は、より微妙な性格を持つ人種差別は時間とともに発展してきたと主張している。 この隠密な人種差別が言語モデルに現れるかどうかは不明である。 ここでは、言語モデルが方言偏見の形で隠蔽的人種差別を具現化していることを示す。我々は、アメリカ人がアフリカ系アメリカ人の話者について人種差別的ステレオタイプを持っていることを示す研究を拡張し、言語モデルが同じ偏見を持っていることを発見し、アフリカ系アメリカ人が実験的に記録したどの人間のステレオタイプよりも否定的な隠蔽的ステレオタイプを示す。 対照的に、アフリカ系アメリカ人に関する言語モデルの過剰なステレオタイプの方がずっと肯定的である。 本研究では,方言の偏見が言語モデルに人に関する仮説的判断を求めることによって有害な結果をもたらす可能性を実証する。 言語モデルは、アフリカ系アメリカ人の英語話者は、権威ある職を割り当てられず、犯罪で有罪となり、死刑に処されることを示唆する可能性が高い。 最後に、人間のフィードバックトレーニングのような言語モデルにおける人種差別バイアスを軽減する既存の手法は、方言偏見を緩和するものではなく、より深いレベルで維持する人種差別を表面的に隠蔽する言語モデルを教えることによって、隠蔽とオーバートステレオタイプとの相違を悪化させる可能性があることを示す。 我々の発見は、言語技術の公正で安全な雇用に広く影響している。

Hundreds of millions of people now interact with language models, with uses ranging from serving as a writing aid to informing hiring decisions. Yet these language models are known to perpetuate systematic racial prejudices, making their judgments biased in problematic ways about groups like African Americans. While prior research has focused on overt racism in language models, social scientists have argued that racism with a more subtle character has developed over time. It is unknown whether this covert racism manifests in language models. Here, we demonstrate that language models embody covert racism in the form of dialect prejudice: we extend research showing that Americans hold raciolinguistic stereotypes about speakers of African American English and find that language models have the same prejudice, exhibiting covert stereotypes that are more negative than any human stereotypes about African Americans ever experimentally recorded, although closest to the ones from before the civil rights movement. By contrast, the language models' overt stereotypes about African Americans are much more positive. We demonstrate that dialect prejudice has the potential for harmful consequences by asking language models to make hypothetical decisions about people, based only on how they speak. Language models are more likely to suggest that speakers of African American English be assigned less prestigious jobs, be convicted of crimes, and be sentenced to death. Finally, we show that existing methods for alleviating racial bias in language models such as human feedback training do not mitigate the dialect prejudice, but can exacerbate the discrepancy between covert and overt stereotypes, by teaching language models to superficially conceal the racism that they maintain on a deeper level. Our findings have far-reaching implications for the fair and safe employment of language technology.
翻訳日:2024-03-05 16:36:59 公開日:2024-03-01
# 電磁気材料間の反発力探索のためのユニバーサルロードマップ

A Universal Roadmap For Searching Repulsive Casimir Forces Between Magneto-Electric Materials ( http://arxiv.org/abs/2403.00740v1 )

ライセンス: Link先を確認
Zixuan Dai, Qing-Dong Jiang(参考訳) 真空量子揺らぎから生じるカシミール効果は、現代の量子電磁力学の発展において基本的な役割を担っている。 平行して、凝縮物の磁場は、しばしばトポロジーと結びつき、磁気-誘電結合によって特徴づけられる、壊れた対称性を示す様々な物質の発見によって繁栄してきた。 ここでは, 時間反転対称性とパリティ対称性の破れを伴う物質間のカシミール力を計算する。 顕著なことに、対称破砕誘起カシミール力のサインを定式化する普遍位相図が得られ、線形光学材料に対するカシミール力のサインに関する包括的理解に寄与する。 発見された位相図は、理論的な関心と実用的意義の両方を持つ、反発的なカシミール力の探索のロードマップとして機能する。

The Casimir effect, arising from vacuum quantum fluctuations, plays a fundamental role in the development of modern quantum electrodynamics. In parallel, the field of condensed matter has flourished through the discovery of various materials exhibiting broken symmetries, often connected to topology and characterized by magneto-electric coupling. Here, we calculate the Casimir forces between materials with time-reversal symmetry and/or parity symmetry breaking. Remarkably, we obtain a universal phase diagram governing the sign of symmetry-breaking-induced Casimir forces, contributing to a comprehensive understanding on the sign of Casimir force for linear optical materials. The discovered phase diagram serves as a roadmap for searching repulsive Casimir forces, a subject bearing both theoretical interest and practical significance.
翻訳日:2024-03-05 16:36:26 公開日:2024-03-01
# 変換器は物体間の空間的関係をキャプチャできるか?

Can Transformers Capture Spatial Relations between Objects? ( http://arxiv.org/abs/2403.00729v1 )

ライセンス: Link先を確認
Chuan Wen, Dinesh Jayaraman, Yang Gao(参考訳) オブジェクト間の空間的関係は、人間が世界を理解し、対話するための重要なシーン情報を表す。 物理的に接地した空間関係を認識できる現在のコンピュータビジョンシステムの能力を調べるために、ベンチマークデータセットに一貫した注釈を付与する正確な関係定義を提案することから始める。 認識文献におけるタスクの単純さは明らかでありながら,既存の手法ではこのベンチマークでは性能が低かった。 本稿では,この課題に対するトランスフォーマーの長期的注意力を活用した新しいアプローチを提案し,重要な設計原理を評価する。 単純な"RelatiViT"アーキテクチャを特定し、現在のアプローチよりも優れていることを示す。 本手法は,実環境における空間関係予測におけるナイーブなベースラインを説得する最初の手法である。 コードとデータセットは \url{https://sites.google.com/view/spatial-relation} で利用可能である。

Spatial relationships between objects represent key scene information for humans to understand and interact with the world. To study the capability of current computer vision systems to recognize physically grounded spatial relations, we start by proposing precise relation definitions that permit consistently annotating a benchmark dataset. Despite the apparent simplicity of this task relative to others in the recognition literature, we observe that existing approaches perform poorly on this benchmark. We propose new approaches exploiting the long-range attention capabilities of transformers for this task, and evaluating key design principles. We identify a simple "RelatiViT" architecture and demonstrate that it outperforms all current approaches. To our knowledge, this is the first method to convincingly outperform naive baselines on spatial relation prediction in in-the-wild settings. The code and datasets are available in \url{https://sites.google.com/view/spatial-relation}.
翻訳日:2024-03-05 16:36:11 公開日:2024-03-01
# ハイブリッドビジュアルエビデンスを用いたFew-Shot関係抽出

Few-Shot Relation Extraction with Hybrid Visual Evidence ( http://arxiv.org/abs/2403.00724v1 )

ライセンス: Link先を確認
Jiaying Gong and Hoda Eldardiry(参考訳) 少数ショット関係抽出の目標は、トレーニングにラベル付きインスタンスしか利用できない場合、文内の名前エンティティ間の関係を予測することである。 既存の少数ショット関係抽出手法は、テキストのみのような一様情報に重点を置いている。 これにより、テキストで記述された名前エンティティ間の明確なコンテキストがない場合、パフォーマンスが低下する。 テキストと視覚のセマンティック情報を利用してマルチモーダル表現を共同で学習するマルチモーダルスショット関係抽出モデル(MFS-HVE)を提案する。 MFS-HVEは意味的特徴抽出器と多モード融合部品を含む。 MFS-HVEセマンティック特徴抽出器はテキスト特徴と視覚特徴の両方を抽出するために開発された。 ビジュアル機能には、グローバルイメージ機能と画像内のローカルオブジェクト機能が含まれる。 MFS-HVEマルチモーダル融合ユニットは、画像誘導注意、オブジェクト誘導注意、ハイブリッド特徴注意を用いて様々なモダリティからの情報を統合し、画像の視覚領域と関連するテキスト間のセマンティックな相互作用を完全にキャプチャする。 2つの公開データセットで実施された大規模な実験は、意味的な視覚情報が数発の関係予測の性能を大幅に改善することを示した。

The goal of few-shot relation extraction is to predict relations between name entities in a sentence when only a few labeled instances are available for training. Existing few-shot relation extraction methods focus on uni-modal information such as text only. This reduces performance when there are no clear contexts between the name entities described in text. We propose a multi-modal few-shot relation extraction model (MFS-HVE) that leverages both textual and visual semantic information to learn a multi-modal representation jointly. The MFS-HVE includes semantic feature extractors and multi-modal fusion components. The MFS-HVE semantic feature extractors are developed to extract both textual and visual features. The visual features include global image features and local object features within the image. The MFS-HVE multi-modal fusion unit integrates information from various modalities using image-guided attention, object-guided attention, and hybrid feature attention to fully capture the semantic interaction between visual regions of images and relevant texts. Extensive experiments conducted on two public datasets demonstrate that semantic visual information significantly improves the performance of few-shot relation prediction.
翻訳日:2024-03-05 16:35:57 公開日:2024-03-01
# 共振器マイクロ波測定, 材料分析, イメージングによるアルミニウム・オン・シリコン中のプロセス関連界面誘電損失のキャラクタリゼーション

Characterization of process-related interfacial dielectric loss in aluminum-on-silicon by resonator microwave measurements, materials analysis, and imaging ( http://arxiv.org/abs/2403.00723v1 )

ライセンス: Link先を確認
Lert Chayanun, Janka Bizn\'arov\'a, Lunjie Zeng, Per Malmberg, Andreas Nylander, Amr Osman, Marcus Rommel, Pui Lam Tam, Eva Olsson, August Yurgens, Jonas Bylander, Anita Fadavi Roudsari(参考訳) 単光子レベルの内部品質係数(q_i$)が約100万であるアルミニウム-シリコン超伝導導波路共振器の誘電損失に及ぼす製造過程の影響を系統的に検討した。 これらのデバイスは超伝導量子プロセッサの重要な構成要素であり、超伝導量子ビットのエネルギー損失を理解するためのプロキシとしても機能する。 製造工程を系統的に変化させることで,基板-金属界面および基板-空気界面における損失低減の相対的重要性を同定する。 アルミニウムの析出に先立ってフッ化水素 (HF) のシリコン基板を洗浄することが不可欠であることがわかった。 hf浸漬によるシリコン基板およびアルミニウム膜表面の酸化物の加工後除去により、さらに$q_i$が向上する。 標準洗浄 (SC1) , 基板の300$\deg$Cへの析出前加熱, フィルム上面のその場酸化を省略することにより, 損失に対する小さいが顕著な悪影響を観察した。 6{\times} 10^{-8}$ mbar以下のバックグラウンドプレッシャーに達するための過剰なポンプによる改善は見られない。 我々は、X線光電子分光法(XPS)、時空二次イオン質量分析法(ToF-SIMS)、透過電子顕微鏡法(TEM)、エネルギー分散X線分光法(EDS)、原子間力顕微鏡法(AFM)を用いて、基板界面の顕微鏡特性と測定損失を相関させた。

We systematically investigate the influence of the fabrication process on dielectric loss in aluminum-on-silicon superconducting coplanar waveguide resonators with internal quality factors ($Q_i$) of about one million at the single-photon level. These devices are essential components in superconducting quantum processors; they also serve as proxies for understanding the energy loss of superconducting qubits. By systematically varying several fabrication steps, we identify the relative importance of reducing loss at the substrate-metal and the substrate-air interfaces. We find that it is essential to clean the silicon substrate in hydrogen fluoride (HF) prior to aluminum deposition. A post-fabrication removal of the oxides on the surface of the silicon substrate and the aluminum film by immersion in HF further improves the $Q_i$. We observe a small, but noticeable, adverse effect on the loss by omitting either standard cleaning (SC1), pre-deposition heating of the substrate to 300$\deg$C, or in-situ post-deposition oxidation of the film's top surface. We find no improvement due to excessive pumping meant to reach a background pressure below $6{\times} 10^{-8}$ mbar. We correlate the measured loss with microscopic properties of the substrate-metal interface through characterization with X-ray photoelectron spectroscopy (XPS), time-of-flight secondary ion mass spectroscopy (ToF-SIMS), transmission electron microscopy (TEM), energy-dispersive X-ray spectroscopy (EDS), and atomic force microscopy (AFM).
翻訳日:2024-03-05 16:35:37 公開日:2024-03-01
# 準同次深部平衡モデル

Subhomogeneous Deep Equilibrium Models ( http://arxiv.org/abs/2403.00720v1 )

ライセンス: Link先を確認
Pietro Sittoni, Francesco Tudisco(参考訳) 近年,様々なアプリケーションにおいて,従来のネットワークに代わる強力な代替手段として,暗黙のニューラルネットワークが成長している。 しかしながら、これらのモデルは、しばしば存在と独自性の保証を欠き、安定性、性能、再現性の問題を提起する。 本稿では,非一様作用素の概念と非線形ペロン・フロベニウス理論に基づく,暗黙的深層ニューラルネットワークにおける不動点の存在と一意性に関する新しい解析を行う。 従来の類似解析と比較して、この理論はパラメータ行列の弱い仮定を可能にするため、よく定義された暗黙的ネットワークに対するより柔軟なフレームワークとなる。 本稿では, フィードフォワード, 畳み込み, グラフニューラルネットワークの例において, 結果の同次ネットワークの性能について述べる。

Implicit-depth neural networks have grown as powerful alternatives to traditional networks in various applications in recent years. However, these models often lack guarantees of existence and uniqueness, raising stability, performance, and reproducibility issues. In this paper, we present a new analysis of the existence and uniqueness of fixed points for implicit-depth neural networks based on the concept of subhomogeneous operators and the nonlinear Perron-Frobenius theory. Compared to previous similar analyses, our theory allows for weaker assumptions on the parameter matrices, thus yielding a more flexible framework for well-defined implicit networks. We illustrate the performance of the resulting subhomogeneous networks on feed-forward, convolutional, and graph neural network examples.
翻訳日:2024-03-05 16:35:05 公開日:2024-03-01
# 追従型リーダの適応学習速度:競争率分析とベスト・オブ・ボス・ワールド

Adaptive Learning Rate for Follow-the-Regularized-Leader: Competitive Ratio Analysis and Best-of-Both-Worlds ( http://arxiv.org/abs/2403.00715v1 )

ライセンス: Link先を確認
Shinji Ito, Taira Tsuchiya, Junya Honda(参考訳) FTRL(Follow-The-Regularized-Leader)は、オンライン学習において効果的で汎用的なアプローチとして知られている。 そこで我々は、FTRLの学習率を逐次決定問題として調整する問題を定式化し、競合分析の枠組みを導入する。 我々は,競争比率の下限を設定し,この下限の定数係数内で上限を達成する学習率の更新ルールを提案する。 具体的には、ペナルティ項の成分の(近似的な)単調性により最適競争比が特徴づけられ、ペナルティ項の成分が単調に非増加列を形成し、ペナルティ項が$\xi$-aqua monotone non-increasing であるときに厳密な競争比が導出される場合、一定の競争比が達成可能であることを示す。 提案した更新ルールは,確率的および対向的環境のためのBest-Of-Both-Worlds (BOBW)アルゴリズムの構築を容易にする。 これらの環境下では, より厳密な後悔と, マルチアームバンド, グラフバンド, 線形バンディット, コンテキストバンドディットなどの様々な設定に対するアルゴリズムの適用性の向上に寄与する。

Follow-The-Regularized-Leader (FTRL) is known as an effective and versatile approach in online learning, where appropriate choice of the learning rate is crucial for smaller regret. To this end, we formulate the problem of adjusting FTRL's learning rate as a sequential decision-making problem and introduce the framework of competitive analysis. We establish a lower bound for the competitive ratio and propose update rules for learning rate that achieves an upper bound within a constant factor of this lower bound. Specifically, we illustrate that the optimal competitive ratio is characterized by the (approximate) monotonicity of components of the penalty term, showing that a constant competitive ratio is achievable if the components of the penalty term form a monotonically non-increasing sequence, and derive a tight competitive ratio when penalty terms are $\xi$-approximately monotone non-increasing. Our proposed update rule, referred to as \textit{stability-penalty matching}, also facilitates constructing the Best-Of-Both-Worlds (BOBW) algorithms for stochastic and adversarial environments. In these environments our result contributes to achieve tighter regret bound and broaden the applicability of algorithms for various settings such as multi-armed bandits, graph bandits, linear bandits, and contextual bandits.
翻訳日:2024-03-05 16:34:52 公開日:2024-03-01
# 表面正規化のための誘導バイアスの再考

Rethinking Inductive Biases for Surface Normal Estimation ( http://arxiv.org/abs/2403.00712v1 )

ライセンス: Link先を確認
Gwangbin Bae and Andrew J. Davison(参考訳) 正確な表面正規推定モデルに対する需要が高まっているにもかかわらず、既存の手法では汎用的な密度予測モデルを使用し、他のタスクと同じ帰納バイアスを採用する。 本稿では,表面正規化に必要なインダクティブバイアスについて検討し,(1)画素毎の光線方向の利用,(2)相対回転を学習して近傍の面正規化の関係をエンコードすることを提案する。 提案手法は,任意の解像度とアスペクト比の画素内画像に挑戦する際の,クリップかつスムーズな予測を生成できる。 最近のViTベースの最先端モデルと比較して、我々の手法は桁違いに小さなデータセットで訓練されているにもかかわらず、より強力な一般化能力を示す。 コードはhttps://github.com/baegwangbin/dsineで入手できる。

Despite the growing demand for accurate surface normal estimation models, existing methods use general-purpose dense prediction models, adopting the same inductive biases as other tasks. In this paper, we discuss the inductive biases needed for surface normal estimation and propose to (1) utilize the per-pixel ray direction and (2) encode the relationship between neighboring surface normals by learning their relative rotation. The proposed method can generate crisp - yet, piecewise smooth - predictions for challenging in-the-wild images of arbitrary resolution and aspect ratio. Compared to a recent ViT-based state-of-the-art model, our method shows a stronger generalization ability, despite being trained on an orders of magnitude smaller dataset. The code is available at https://github.com/baegwangbin/DSINE.
翻訳日:2024-03-05 16:34:23 公開日:2024-03-01
# アンドレーフスピン量子ビットにおけるデコヒーレンス

Decoherence in Andreev spin qubits ( http://arxiv.org/abs/2403.00710v1 )

ライセンス: Link先を確認
Silas Hoffman, Max Hays, Kyle Serniak, Thomas Hazard, Charles Tahan(参考訳) 理論上, andreevスピン量子ビット(asq)の電気的及び磁気的ノイズによる劣化について検討する。 タイト結合モデルを用いて、リンクが強いスピン軌道相互作用を持つ半導体であるジョセフソン接合で形成されるアンドレフ状態を計算する。 スピン軌道相互作用と誘起超伝導の両方の結果、これらの状態の局所電荷とスピンは外部制御可能なパラメータの関数として変化し、超伝導リード間の位相差、印加された磁場、基礎となる半導体の充填である。 同時に、電気的または磁気的環境のゆらぎへの結合は変化し、デファス化の速さを知らせる。 我々は, 環境, 磁場, 接合部間の位相差, 半導体の充填に対するデファージングの依存性を定性的に予測する。 模擬電気および磁気ノイズ誘起脱落速度を実験と比較すると、ノイズの主源が磁性であることを示唆している。 さらに,これらの外部パラメータを適切に調整することで,asqコヒーレンス時間の増大を予測できるスイートスポットを見つける。

We theoretically study the dephasing of an Andreev spin qubit (ASQ) due to electric and magnetic noise. Using a tight-binding model, we calculate the Andreev states formed in a Josephson junction where the link is a semiconductor with strong spin-orbit interaction. As a result of both the spin-orbit interaction and induced superconductivity, the local charge and spin of these states varies as a function of externally controllable parameters: the phase difference between the superconducting leads, an applied magnetic field, and filling of the underlying semiconductor. Concomitantly, coupling to fluctuations of the electric or magnetic environment will vary, which informs the rate of dephasing. We qualitatively predict the dependence of dephasing on the nature of the environment, magnetic field, phase difference between the junction, and filling of the semiconductor. Comparing the simulated electric- and magnetic-noise-induced dephasing rate to experiment suggests that the dominant source of noise is magnetic. Moreover, by appropriately tuning these external parameters, we find sweet-spots at which we predict an enhancement in ASQ coherence times.
翻訳日:2024-03-05 16:34:08 公開日:2024-03-01
# アナログ読み出し情報を用いた超伝導論理量子ビットの誤り率の低減

Reducing the error rate of a superconducting logical qubit using analog readout information ( http://arxiv.org/abs/2403.00706v1 )

ライセンス: Link先を確認
Hany Ali, Jorge Marques, Ophelia Crawford, Joonas Majaniemi, Marc Serra-Peralta, David Byfield, Boris Varbanov, Barbara M. Terhal, Leonardo DiCarlo, and Earl T. Campbell(参考訳) 量子誤り訂正により、物理誤り率よりも低い論理誤り率を持つ論理量子ビットの保存が可能となり、復号法により性能が向上する。 従来のエラー復号法は、読み出しデータのバイナリ化(`hardening')に依存するが、しばしばアナログ(`soft')読み出し信号に埋め込まれた貴重な情報を無視する。 トランスモンを用いた距離3 (d=3$) ビットフリップ符号の復号処理にソフト情報を組み込むことの利点を示す実験結果を示す。 この目的のために、私たちは$\times3$データキュービットアレイを使用して、論理状態$\ket{0_{\mathrm{l}}}$を構成する16ドルの計算状態のそれぞれをエンコードし、繰り返し$z$-basis安定化器測定を行うことで、ビットフリップエラーからそれらを保護します。 $\ket{0_{\mathrm{L}}}$状態の論理的忠実さを推定するために、我々は16ドルの計算状態を平均化し、最小ウェイト完全マッチングとリカレントニューラルネットワークという2つの復号戦略を採用する。 その結果,ソフト情報を用いて抽出した論理誤差率を最大6.8 %まで下げることができた。 ソフト情報によるデコーディングは、物理キュービットプラットフォームとは無関係に広く適用され、読み出し期間を短縮し、論理エラー率をさらに最小化することができる。

Quantum error correction enables the preservation of logical qubits with a lower logical error rate than the physical error rate, with performance depending on the decoding method. Traditional error decoding approaches, relying on the binarization (`hardening') of readout data, often ignore valuable information embedded in the analog (`soft') readout signal. We present experimental results showcasing the advantages of incorporating soft information into the decoding process of a distance-three ($d=3$) bit-flip surface code with transmons. To this end, we use the $3\times3$ data-qubit array to encode each of the $16$ computational states that make up the logical state $\ket{0_{\mathrm{L}}}$, and protect them against bit-flip errors by performing repeated $Z$-basis stabilizer measurements. To infer the logical fidelity for the $\ket{0_{\mathrm{L}}}$ state, we average across the $16$ computational states and employ two decoding strategies: minimum weight perfect matching and a recurrent neural network. Our results show a reduction of up to $6.8\%$ in the extracted logical error rate with the use of soft information. Decoding with soft information is widely applicable, independent of the physical qubit platform, and could reduce the readout duration, further minimizing logical error rates.
翻訳日:2024-03-05 16:33:51 公開日:2024-03-01
# Point Could Mamba:状態空間モデルによるポイントクラウド学習

Point Could Mamba: Point Cloud Learning via State Space Model ( http://arxiv.org/abs/2403.00762v1 )

ライセンス: Link先を確認
Tao Zhang, Xiangtai Li, Haobo Yuan, Shunping Ji, Shuicheng Yan(参考訳) 本研究では,マンバをベースとしたポイントクラウド手法がポイントベースの手法より優れていることを示す。 mambaは強力なグローバルモデリング能力と線形計算複雑性を示し、ポイントクラウド分析に非常に魅力的である。 本研究では,mambaによる3次元点雲データのより効率的な処理を実現するために,隣接点が空間的に隣接していることを確保しつつ,点雲を1次元点列に変換するための新しい一貫性のあるトラバースシリアライズを提案する。 一貫性のあるトラバース直列化は、x、y、z座標の順序を置換することで6つの変種を生じさせ、これらの変種を相乗的に使用することで、mmbaを包括的に観測する点雲データを助ける。 さらに、異なる順序のポイントシーケンスを扱う際に、mambaをより効果的に支援するために、シーケンスの配置規則をmambaに通知するためのポイントプロンプトを導入する。 最後に,空間座標マッピングに基づく位置符号化を提案し,位置情報を点雲列によりよく注入する。 これらの改善に基づいて,ローカルモデルとグローバルモデルを組み合わせたpoint cloud mambaと呼ばれるポイントクラウドネットワークを構築した。 Point Cloud Mambaは、SOTAポイントベースのPointNeXtを超え、ScanObjectNN、ModelNet40、ShapeNetPartデータセットで新しいSOTAパフォーマンスを達成する。

In this work, for the first time, we demonstrate that Mamba-based point cloud methods can outperform point-based methods. Mamba exhibits strong global modeling capabilities and linear computational complexity, making it highly attractive for point cloud analysis. To enable more effective processing of 3-D point cloud data by Mamba, we propose a novel Consistent Traverse Serialization to convert point clouds into 1-D point sequences while ensuring that neighboring points in the sequence are also spatially adjacent. Consistent Traverse Serialization yields six variants by permuting the order of x, y, and z coordinates, and the synergistic use of these variants aids Mamba in comprehensively observing point cloud data. Furthermore, to assist Mamba in handling point sequences with different orders more effectively, we introduce point prompts to inform Mamba of the sequence's arrangement rules. Finally, we propose positional encoding based on spatial coordinate mapping to inject positional information into point cloud sequences better. Based on these improvements, we construct a point cloud network named Point Cloud Mamba, which combines local and global modeling. Point Cloud Mamba surpasses the SOTA point-based method PointNeXt and achieves new SOTA performance on the ScanObjectNN, ModelNet40, and ShapeNetPart datasets.
翻訳日:2024-03-05 16:24:49 公開日:2024-03-01
# 語順と世界知識

Word Order and World Knowledge ( http://arxiv.org/abs/2403.00876v1 )

ライセンス: Link先を確認
Qinghua Zhao, Vinit Ravishankar, Nicolas Garneau and Anders S{\o}gaard(参考訳) 語順は自然言語において重要な概念であり,本研究では,語順が原文からの世界知識の誘導にどう影響するかを言語モデルを用いて検討する。 このような知識を探究するために単語アナロジーを用いる。 具体的には、自然語順に加えて、5つの言語から6つの固定語順のテキストを抽出し、これらのテキスト上で言語モデルを事前訓練する。 最後に,単語類似語に対する固定語順の実験結果を分析し,そのことを示す。 一 特定の固定語順が、言語によって異なるが、一貫して他より優れ、又は劣る ii)wov2lex仮説は、事前学習された言語モデルでは成立せず、典型的には自然語順は中途半端な結果をもたらす。 ソースコードはhttps://github.com/lshowway/probing_by_analogyで公開されている。

Word order is an important concept in natural language, and in this work, we study how word order affects the induction of world knowledge from raw text using language models. We use word analogies to probe for such knowledge. Specifically, in addition to the natural word order, we first respectively extract texts of six fixed word orders from five languages and then pretrain the language models on these texts. Finally, we analyze the experimental results of the fixed word orders on word analogies and show that i) certain fixed word orders consistently outperform or underperform others, though the specifics vary across languages, and ii) the Wov2Lex hypothesis is not hold in pre-trained language models, and the natural word order typically yields mediocre results. The source code will be made publicly available at https://github.com/lshowway/probing_by_analogy.
翻訳日:2024-03-05 16:19:37 公開日:2024-03-01
# タンパク質データ拡張によるタンパク質予測モデルの強化:ベンチマークと新しい方向性

Enhancing Protein Predictive Models via Proteins Data Augmentation: A Benchmark and New Directions ( http://arxiv.org/abs/2403.00875v1 )

ライセンス: Link先を確認
Rui Sun, Lirong Wu, Haitao Lin, Yufei Huang, Stan Z. Li(参考訳) 増強は、少量のラベル付きタンパク質データを利用する効果的な代替手段である。 しかし、既存の研究のほとんどは新しいアーキテクチャや事前訓練タスクの設計に重点を置いており、タンパク質のデータ拡張の研究は比較的少ない。 本稿では,これまでタンパク質に画像やテキストに用いたデータ拡張技術を拡張し,タンパク質関連タスクのベンチマークを行い,タンパク質増量に関する総合的な評価を行った。 さらに, 塩分検出と生物学的知識によるタンパク質意味認識の増強を可能にする, 統合的勾配置換法と逆変換置換法という2つの新しい意味レベルのタンパク質増強法を提案する。 最後に、拡張および提案された拡張を拡張プールに統合し、異なるタスクに最適な拡張組み合わせを適応的に選択できる、シンプルで効果的なフレームワークであるAutomated Protein Augmentation (APA)を提案する。 大規模な実験により、APAは拡張のないバニラ実装と比較して、3つのアーキテクチャで平均10.55%の5つのタンパク質関連タスクのパフォーマンスを向上し、この分野に大きな影響を与える可能性を示している。

Augmentation is an effective alternative to utilize the small amount of labeled protein data. However, most of the existing work focuses on design-ing new architectures or pre-training tasks, and relatively little work has studied data augmentation for proteins. This paper extends data augmentation techniques previously used for images and texts to proteins and then benchmarks these techniques on a variety of protein-related tasks, providing the first comprehensive evaluation of protein augmentation. Furthermore, we propose two novel semantic-level protein augmentation methods, namely Integrated Gradients Substitution and Back Translation Substitution, which enable protein semantic-aware augmentation through saliency detection and biological knowledge. Finally, we integrate extended and proposed augmentations into an augmentation pool and propose a simple but effective framework, namely Automated Protein Augmentation (APA), which can adaptively select the most suitable augmentation combinations for different tasks. Extensive experiments have shown that APA enhances the performance of five protein related tasks by an average of 10.55% across three architectures compared to vanilla implementations without augmentation, highlighting its potential to make a great impact on the field.
翻訳日:2024-03-05 16:19:22 公開日:2024-03-01
# ブロックチェーンによる連合学習: メリット、課題、ソリューション

Blockchain-empowered Federated Learning: Benefits, Challenges, and Solutions ( http://arxiv.org/abs/2403.00873v1 )

ライセンス: Link先を確認
Zeju Cai, Jianguo Chen, Yuting Fan, Zibin Zheng and Keqin Li(参考訳) Federated Learning(FL)は、クライアント上でモデルをトレーニングし、パラメータサーバ上でそれらを集約することによって、ユーザのデータプライバシを保護する分散機械学習アプローチである。 プライバシーの保護には有効だが、FLシステムは単一障害点、インセンティブの欠如、セキュリティの不十分といった制限に直面している。 これらの課題に対処するため、ブロックチェーン技術はFLシステムに統合され、より強力なセキュリティ、公正性、スケーラビリティを提供する。 しかしながら、ブロックチェーンを利用したFL(BC-FL)システムは、ネットワーク、コンピューティング、ストレージリソースにさらなる要求をもたらす。 この調査は、BC-FLシステムに関する最近の調査を包括的にレビューし、ブロックチェーン統合に関連するメリットと課題を分析します。 ブロックチェーンがFLに適用可能な理由、実装方法、その統合における課題と既存のソリューションについて検討する。 さらに,BC-FLシステムの今後の研究方向性について考察する。

Federated learning (FL) is a distributed machine learning approach that protects user data privacy by training models locally on clients and aggregating them on a parameter server. While effective at preserving privacy, FL systems face limitations such as single points of failure, lack of incentives, and inadequate security. To address these challenges, blockchain technology is integrated into FL systems to provide stronger security, fairness, and scalability. However, blockchain-empowered FL (BC-FL) systems introduce additional demands on network, computing, and storage resources. This survey provides a comprehensive review of recent research on BC-FL systems, analyzing the benefits and challenges associated with blockchain integration. We explore why blockchain is applicable to FL, how it can be implemented, and the challenges and existing solutions for its integration. Additionally, we offer insights on future research directions for the BC-FL system.
翻訳日:2024-03-05 16:19:00 公開日:2024-03-01
# DFIN-SQL:DIN-SQLと集中型スキーマの統合による大規模データベースの高精度化

DFIN-SQL: Integrating Focused Schema with DIN-SQL for Superior Accuracy in Large-Scale Databases ( http://arxiv.org/abs/2403.00872v1 )

ライセンス: Link先を確認
Shai Volvovsky, Marco Marcassa, Mustafa Panbiharwala(参考訳) 自然言語クエリをsqlクエリに変換するタスクは複雑で、正確な翻訳のための正確なテクニックをブレンドする必要がある。 DIN-SQL (Decomposed-In-Context SQL) の方法論は、この領域における重要な発展を示している。 本稿では,dfin (decomposed focused-in-context) について紹介する。din-sqlの革新的な拡張であり,不正確性の主要な原因であるスキーマリンクエラーに対処することで,テキストからsqlへの変換を強化する。 DFINはプロンプト技術とRAG(Retrieval-Augmented Generation)を一意に交互に置き換え、データベーススキーマのサイズと複雑さに適応する。 事前処理フェーズはデータベース定義を埋め込んで、BIRDデータセットに似たアノテーション付きファイルを活用することで、関連するスキーマ情報のランタイム検索を容易にする。 この戦略は、スキーマリンクプロンプトのトークン数を著しく減らし、より大きなコンテキストのバリエーションに標準のGPT-4モデルを使用することで、大規模データベースをより効果的かつ経済的に扱うことができる。 実世界の挑戦的なベンチマークであるBIRDデータセットの評価は、DFINが効率よくスケールするだけでなく、精度も向上し、51.69のスコアを得ることを示した。 この改善は、以前50.72点だった微調整ではなく、コンテキスト内学習を用いた最高ランクのモデルであるdin-sql法(現在の第3位)を上回っている。 DFINの進歩は、先進的な言語モデルと組み合わされた文脈内学習方法論の進化的能力を強調し、複雑なテキストからSQLへの変換タスクにおける将来的な研究の道筋を提供する。

The task of converting natural language queries into SQL queries is intricate, necessitating a blend of precise techniques for an accurate translation. The DIN-SQL (Decomposed-In-Context SQL) methodology represents a significant development in this domain. This paper introduces DFIN (Decomposed Focused-In-Context), an innovative extension of DIN-SQL that enhances Text-to-SQL conversion by addressing schema linking errors, which are a major source of inaccuracies. DFIN uniquely alternates between prompting techniques and Retrieval-Augmented Generation (RAG), adapting to the size and complexity of the database schema. A preprocessing phase embeds database definitions and leverages annotated files, akin to those in the BIRD dataset, facilitating the runtime retrieval of pertinent schema information. This strategy significantly reduces the token count for schema linking prompts, enabling the use of a standard GPT-4 model over its larger context variant, thus handling large-scale databases more effectively and economically. Our evaluation on the BIRD dataset, a challenging real-world benchmark, demonstrates that DFIN not only scales efficiently but also improves accuracy, achieving a score of 51.69. This improvement surpasses DIN-SQL method (the current third-place), which is the highest-ranked model employing in-context learning rather than fine-tuning, previously scoring 50.72. The advancement of DFIN underscores the evolving capabilities of in-context learning methodologies combined with advanced language models, offering a promising avenue for future research in complex Text-to-SQL conversion tasks.
翻訳日:2024-03-05 16:18:46 公開日:2024-03-01
# LLMをフィッシュに教える - 言語モデルから個人情報を盗む

Teach LLMs to Phish: Stealing Private Information from Language Models ( http://arxiv.org/abs/2403.00871v1 )

ライセンス: Link先を確認
Ashwinee Panda, Christopher A. Choquette-Choo, Zhengming Zhang, Yaoqing Yang, Prateek Mittal(参考訳) 大規模言語モデルがプライベートデータ上でトレーニングされる場合、機密情報を記憶し、再現する上で重要なプライバシーリスクとなる可能性がある。 本研究では,ニューラルフィッシング(neural phishing)と呼ばれる新しい実用的なデータ抽出攻撃を提案する。 この攻撃により、攻撃成功率10%以上のユーザーデータに基づいてトレーニングされたモデルから、悪意のある個人識別情報(例えばクレジットカード番号)を50%までターゲットして抽出することができる。 攻撃は,ユーザデータの構造上の曖昧な事前情報のみを使用して,数十回程度の良質な文をトレーニングデータセットに挿入できると仮定する。

When large language models are trained on private data, it can be a significant privacy risk for them to memorize and regurgitate sensitive information. In this work, we propose a new practical data extraction attack that we call "neural phishing". This attack enables an adversary to target and extract sensitive or personally identifiable information (PII), e.g., credit card numbers, from a model trained on user data with upwards of 10% attack success rates, at times, as high as 50%. Our attack assumes only that an adversary can insert as few as 10s of benign-appearing sentences into the training dataset using only vague priors on the structure of the user data.
翻訳日:2024-03-05 16:18:16 公開日:2024-03-01
# 相互情報駆動型クロス変数と時間モデルによる多変量時系列予測の強化

Enhancing Multivariate Time Series Forecasting with Mutual Information-driven Cross-Variable and Temporal Modeling ( http://arxiv.org/abs/2403.00869v1 )

ライセンス: Link先を確認
Shiyi Qi, Liangjian Wen, Yiduo Li, Yuanhang Yang, Zhe Li, Zhongwen Rao, Lujia Pan, Zenglin Xu(参考訳) 近年の進歩は,多変量時系列予測(MTSF)における深層学習の影響を裏付けている。 一般に、これらの技術はチャネル独立性とチャネル混合アプローチの2つのカテゴリに分けられる。 Channel-independence法は一般的により良い結果をもたらすが、Channel-mixingは、変数間の相関を利用して理論的に改善を提供する。 しかし,チャネル混合手法における非相関情報の統合は,MTSFモデルの性能向上を阻害する可能性がある。 この主張を裏付けるために、チャンネル間の冗長な情報を最小化し、関連する相互情報を高めながらチャネル混在を改善すべく、チャネル混在アプローチのためのCDAM(Cross-variable Decorrelation Aware Feature Modeling)を導入する。 さらに,従来の単段予測法を超越した時間相関を活用すべく,時間相関認識モデル(tam)を提案する。 この戦略は、予測されたシリーズと目標シリーズの両方の隣接サブシーケンス間の相互情報を最大化する。 CDAMとTAMを組み合わせることで、従来最先端と考えられていたような包括的テストを含む既存のモデルを大幅に上回っている。

Recent advancements have underscored the impact of deep learning techniques on multivariate time series forecasting (MTSF). Generally, these techniques are bifurcated into two categories: Channel-independence and Channel-mixing approaches. Although Channel-independence methods typically yield better results, Channel-mixing could theoretically offer improvements by leveraging inter-variable correlations. Nonetheless, we argue that the integration of uncorrelated information in channel-mixing methods could curtail the potential enhancement in MTSF model performance. To substantiate this claim, we introduce the Cross-variable Decorrelation Aware feature Modeling (CDAM) for Channel-mixing approaches, aiming to refine Channel-mixing by minimizing redundant information between channels while enhancing relevant mutual information. Furthermore, we introduce the Temporal correlation Aware Modeling (TAM) to exploit temporal correlations, a step beyond conventional single-step forecasting methods. This strategy maximizes the mutual information between adjacent sub-sequences of both the forecasted and target series. Combining CDAM and TAM, our novel framework significantly surpasses existing models, including those previously considered state-of-the-art, in comprehensive tests.
翻訳日:2024-03-05 16:18:06 公開日:2024-03-01
# SoftTiger:医療ワークフローのための臨床基礎モデル

SoftTiger: A Clinical Foundation Model for Healthcare Workflows ( http://arxiv.org/abs/2403.00868v1 )

ライセンス: Link先を確認
Ye Chen, Igor Couto, Wei Cai, Cong Fu, Bruno Dorneles(参考訳) 医療ワークフローの基礎モデルとして設計された臨床用大規模言語モデル(CLaM)であるSoftTigerをリリースし紹介する。 臨床ノートの物語と非構造化の性質は、医療の知的化の大きな障害である。 我々は,国際インターオペラビリティ基準に基づき,臨床記録を臨床データに構造化するという重大な問題に対処している。 我々は,3つの重要なサブタスク,すなわち国際患者要約,臨床印象,医療的出会いのデータを収集し,注釈する。 その後,公立および認証された臨床データを用いて,最先端のLCMを微調整した。 トレーニングは、ターゲットモデルが最初に短縮拡張や時間情報抽出などの基本的な臨床タスクをサポートし、次に印象や遭遇要約といったより複雑な下流臨床タスクを実行することを学ぶように編成される。 さらに、医療コンテキストにおけるいくつかのモデリング課題、例えば、余分な長いコンテキストウィンドウに対処する。 我々の盲目的評価は、SoftTigerが他の人気のあるオープンソースモデルとGPT-3.5より優れていることを示している。 LLMは医療のデジタル化と民主化の足掛かりになるかもしれない。 ですから私たちは,130億から70億のパラメータのスケールでsofttigerモデルを公開するとともに,革新的なスケーラブルな評価のためのデータセットやコードを公開しています。

We release and introduce SoftTiger, a clinical large language model (CLaM) designed as a foundation model for healthcare workflows. The narrative and unstructured nature of clinical notes is a major obstacle for healthcare intelligentization. We address a critical problem of structuring clinical notes into clinical data, according to international interoperability standards. We collect and annotate data for three critical subtasks, namely, international patient summary, clinical impression and medical encounter. We then supervised fine-tuned a state-of-the-art LLM using public and credentialed clinical data. The training is orchestrated in a way that the target model can first support basic clinical tasks such as abbreviation expansion and temporal information extraction, and then learn to perform more complex downstream clinical tasks such as impression and encounter summary. Moreover, we address, several modeling challenges in the healthcare context, e.g., extra long context window. Our blind pairwise evaluation shows that SoftTiger outperforms other popular open-source models and GPT-3.5, comparable to Gemini-pro, and only has a mild gap from GPT-4. We believe that LLMs may become a step-stone towards healthcare digitalization and democratization. Therefore, we publicly release SoftTiger models at scales of 13 billion and 70 billion parameters, as well as datasets and code for our innovative scalable evaluation, hopefully, making a significant contribution to the healthcare industry.
翻訳日:2024-03-05 16:17:46 公開日:2024-03-01
# gradient cuff: 大規模な言語モデルにおける脱獄攻撃の拒否的損失状況の検討

Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes ( http://arxiv.org/abs/2403.00867v1 )

ライセンス: Link先を確認
Xiaomeng Hu, Pin-Yu Chen, Tsung-Yi Ho(参考訳) 大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。 害と誤用を減らすため、Reinforcement Learning from Human Feedback (RLHF)のような高度なトレーニング技術を用いて、これらのLCMを人間の価値に合わせる努力がなされている。 しかし、最近の研究は、組込み安全ガードレールを覆い隠そうとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。 この課題に対処するために,本論文では,LLMの拒絶損失を定義し,次に脱獄を検知するためのGradient Cuffと呼ばれる手法を提案する。 勾配カフは、機能値とその滑らかさを含む拒絶損失景観で観察されるユニークな特性を利用して、効果的な2段階検出戦略を設計する。 2種類のLLM(LLaMA-2-7B-ChatとVicuna-7B-V1.5)と6種類のJailbreak攻撃(GCG, AutoDAN, PAIR, TAP, Base64, LRL)による実験結果から,Gradient Cuffは検出しきい値を調整することによって良質なユーザクエリに対するモデルの性能を維持しつつ、悪質なJailbreakクエリに対するLLMの拒否能力を著しく改善できることが示された。

Large Language Models (LLMs) are becoming a prominent generative AI tool, where the user enters a query and the LLM generates an answer. To reduce harm and misuse, efforts have been made to align these LLMs to human values using advanced training techniques such as Reinforcement Learning from Human Feedback (RLHF). However, recent studies have highlighted the vulnerability of LLMs to adversarial jailbreak attempts aiming at subverting the embedded safety guardrails. To address this challenge, this paper defines and investigates the Refusal Loss of LLMs and then proposes a method called Gradient Cuff to detect jailbreak attempts. Gradient Cuff exploits the unique properties observed in the refusal loss landscape, including functional values and its smoothness, to design an effective two-step detection strategy. Experimental results on two aligned LLMs (LLaMA-2-7B-Chat and Vicuna-7B-V1.5) and six types of jailbreak attacks (GCG, AutoDAN, PAIR, TAP, Base64, and LRL) show that Gradient Cuff can significantly improve the LLM's rejection capability for malicious jailbreak queries, while maintaining the model's performance for benign user queries by adjusting the detection threshold.
翻訳日:2024-03-05 16:17:23 公開日:2024-03-01
# 遺伝的プログラミングに基づく損失関数学習のための高速かつ効率的な局所探索

Fast and Efficient Local Search for Genetic Programming Based Loss Function Learning ( http://arxiv.org/abs/2403.00865v1 )

ライセンス: Link先を確認
Christian Raymond, Qi Chen, Bing Xue, and Mengjie Zhang(参考訳) 本稿では,学習したモデルの性能を著しく向上する損失関数の学習を目的とした,創発的メタ学習パラダイムである損失関数学習のトピックを考案する。 具体的には,ハイブリッド検索によるタスクとモデルに依存しない損失関数学習のための新しいメタ学習フレームワークを提案する。 このフレームワークはまず、遺伝プログラミングを使用してシンボル損失関数のセットを見つける。 第二に、学習損失関数の集合は次にパラメータ化され、未ロール微分によって最適化される。 提案するフレームワークの汎用性と性能は、様々な教師付き学習タスクで実証的に検証される。 その結果、学習損失関数は、様々なタスク固有のニューラルネットワークアーキテクチャを用いて、集計、コンピュータビジョン、自然言語処理の問題において、収束性、サンプル効率、推論性能の向上をもたらすことがわかった。

In this paper, we develop upon the topic of loss function learning, an emergent meta-learning paradigm that aims to learn loss functions that significantly improve the performance of the models trained under them. Specifically, we propose a new meta-learning framework for task and model-agnostic loss function learning via a hybrid search approach. The framework first uses genetic programming to find a set of symbolic loss functions. Second, the set of learned loss functions is subsequently parameterized and optimized via unrolled differentiation. The versatility and performance of the proposed framework are empirically validated on a diverse set of supervised learning tasks. Results show that the learned loss functions bring improved convergence, sample efficiency, and inference performance on tabulated, computer vision, and natural language processing problems, using a variety of task-specific neural network architectures.
翻訳日:2024-03-05 16:16:52 公開日:2024-03-01
# 高精度レコメンデーションのためのエンドツーエンドグラフ系列表現学習

End-to-end Graph-Sequential Representation Learning for Accurate Recommendations ( http://arxiv.org/abs/2403.00895v1 )

ライセンス: Link先を確認
Vladimir Baikalov, Evgeny Frolov(参考訳) 近年のレコメンダシステムの進歩は、シーケンスベースおよびグラフベースのアプローチの開発に重点を置いている。 どちらのアプローチも行動データ内の複雑な関係をモデル化するのに有用であり、優れたスケーラビリティを維持しながら、パーソナライズされたランキングと次項目のレコメンデーションタスクにおいて有望な結果をもたらす。 しかし、彼らはデータから非常に異なる信号を捉える。 前者のアプローチは、最近のアイテムと順序づけられたインタラクションを通じてユーザを直接表現するが、後者は、インタラクショングラフ間の間接的な依存関係をキャプチャすることを目的としている。 本稿では,この2つのパラダイム間の相乗効果を利用する,新しい多表現学習フレームワークを提案する。 いくつかのデータセットに対する実験的な評価から,提案フレームワークによる逐次的およびグラフ的コンポーネントの相互学習が推奨性能を大幅に向上させることが示された。

Many recent advancements in recommender systems have focused on developing sequence-based and graph-based approaches. Both approaches proved useful in modeling intricate relationships within behavioral data, leading to promising outcomes in personalized ranking and next-item recommendation tasks while maintaining good scalability. However, they capture very different signals from data. While the former approach represents users directly through ordered interactions with recent items, the latter one aims to capture indirect dependencies across the interactions graph. This paper presents a novel multi-representational learning framework that exploits the synergies between these two paradigms. Our empirical evaluation on several datasets demonstrates that mutual training of sequential and graph components with the proposed framework significantly improves recommendations performance.
翻訳日:2024-03-05 16:08:53 公開日:2024-03-01
# プログラミング言語生成のための大規模言語モデルの系統的評価

A systematic evaluation of large language models for generating programming code ( http://arxiv.org/abs/2403.00894v1 )

ライセンス: Link先を確認
Wenpin Hou and Zhicheng Ji(参考訳) 様々なプロンプト戦略,プログラミング言語,タスク難易度を用いて,7つの大規模言語モデルの性能を体系的に評価した。 GPT-4は、Gemini UltraやClaude 2など、他の大きな言語モデルよりも大幅に優れている。 GPT-4の符号化性能は、異なるプロンプト戦略で大きく異なる。 leetcodeやgeeksforgeeksのコーディングコンテストでは、最適なプロンプト戦略を採用したgpt-4が85%を上回っている。 さらに、GPT-4は、異なるプログラミング言語間のコード翻訳や過去のエラーからの学習において、強力な機能を示している。 gpt-4が生成するコードの計算効率は、人間のプログラマと同等である。 これらの結果は、gpt-4がプログラミングコードの生成とソフトウェア開発において信頼できるアシスタントとなる可能性を示唆している。

We systematically evaluated the performance of seven large language models in generating programming code using various prompt strategies, programming languages, and task difficulties. GPT-4 substantially outperforms other large language models, including Gemini Ultra and Claude 2. The coding performance of GPT-4 varies considerably with different prompt strategies. In most LeetCode and GeeksforGeeks coding contests evaluated in this study, GPT-4 employing the optimal prompt strategy outperforms 85 percent of human participants. Additionally, GPT-4 demonstrates strong capabilities in translating code between different programming languages and in learning from past errors. The computational efficiency of the code generated by GPT-4 is comparable to that of human programmers. These results suggest that GPT-4 has the potential to serve as a reliable assistant in programming code generation and software development.
翻訳日:2024-03-05 16:08:39 公開日:2024-03-01
# PowerFlowMultiNet:不均衡三相分散システムのためのマルチグラフニューラルネットワーク

PowerFlowMultiNet: Multigraph Neural Networks for Unbalanced Three-Phase Distribution Systems ( http://arxiv.org/abs/2403.00892v1 )

ライセンス: Link先を確認
Salah Ghamizi, Jun Cao, Aoxiang Ma, Pedro Rodriguez(参考訳) 配電系統における非平衡三相流の効率的な解法は, グリッド解析とシミュレーションにおいて重要である。 高精度で高速なソリューションを提供する大規模なアンバランスな電力グリッドを処理できるスケーラブルなアルゴリズムが求められている。 これを解決するために、ディープラーニング技術、特にグラフニューラルネットワーク(GNN)が登場した。 しかし、既存の文献は主にバランスのとれたネットワークに焦点を当てており、バランスのとれない三相電力網を支える上で重要なギャップを残している。 このレターでは、非平衡三相電力グリッド用に明示的に設計された新しいマルチグラフGNNフレームワークであるPowerFlowMultiNetを紹介する。 提案手法は,各位相をマルチグラフ表現で個別にモデル化し,不平衡格子の固有非対称性を効果的に捉える。 メッセージパッシングを利用したグラフ埋め込み機構を導入し、電力系統網内の空間依存性を捕捉する。 PowerFlowMultiNetは、精度と計算速度の点で従来の手法や他のディープラーニングアプローチよりも優れています。 厳密なテストは、モデルベースの手法と比較して、大きな電力ネットワークにおけるエラー率と計算速度の顕著な増加を示す。

Efficiently solving unbalanced three-phase power flow in distribution grids is pivotal for grid analysis and simulation. There is a pressing need for scalable algorithms capable of handling large-scale unbalanced power grids that can provide accurate and fast solutions. To address this, deep learning techniques, especially Graph Neural Networks (GNNs), have emerged. However, existing literature primarily focuses on balanced networks, leaving a critical gap in supporting unbalanced three-phase power grids. This letter introduces PowerFlowMultiNet, a novel multigraph GNN framework explicitly designed for unbalanced three-phase power grids. The proposed approach models each phase separately in a multigraph representation, effectively capturing the inherent asymmetry in unbalanced grids. A graph embedding mechanism utilizing message passing is introduced to capture spatial dependencies within the power system network. PowerFlowMultiNet outperforms traditional methods and other deep learning approaches in terms of accuracy and computational speed. Rigorous testing reveals significantly lower error rates and a notable hundredfold increase in computational speed for large power networks compared to model-based methods.
翻訳日:2024-03-05 16:08:25 公開日:2024-03-01
# 指示付きグラフデコーダによる情報抽出のための正規化に基づく転送学習法

A Regularization-based Transfer Learning Method for Information Extraction via Instructed Graph Decoder ( http://arxiv.org/abs/2403.00891v1 )

ライセンス: Link先を確認
Kedi Chen and Jie Zhou and Qin Chen and Shunyu Liu and Liang He(参考訳) 情報抽出(IE)は、テキストから複雑な構造化情報を抽出することを目的としている。 様々なIEタスクのために多くのデータセットが構築されており、時間と労力のかかるデータアノテーションにつながっている。 しかしながら、ほとんどの一般的な方法はタスク固有のモデルのトレーニングに重点を置いているが、異なるIEタスク間の共通知識は明示的にモデル化されていない。 さらに、同じフレーズが異なるタスクで一貫性のないラベルを持つ可能性があるため、統一モデルを用いた知識伝達には大きな課題がある。 本研究では,指示付きグラフデコーダを用いたie(tie)のための正規化に基づく転送学習手法を提案する。 具体的には、まず、よく知られたすべてのieタスクからデータセットの命令プールを構築し、次に、様々な複雑な構造を対応する命令に基づいて一様にグラフにデコードする指示付きグラフデコーダを示す。 このようにして、既存のデータセットと共有される共通知識を学び、新しいラベルを持つ新しいデータセットに転送することができる。 さらに,ieタスク間のラベル不整合問題を緩和するために,二つのタスクの勾配を「指示方向」で更新しないタスク固有正規化戦略を導入する。 4つのieタスクにまたがる12のデータセットについて広範な実験を行い,提案手法の利点を実証した。

Information extraction (IE) aims to extract complex structured information from the text. Numerous datasets have been constructed for various IE tasks, leading to time-consuming and labor-intensive data annotations. Nevertheless, most prevailing methods focus on training task-specific models, while the common knowledge among different IE tasks is not explicitly modeled. Moreover, the same phrase may have inconsistent labels in different tasks, which poses a big challenge for knowledge transfer using a unified model. In this study, we propose a regularization-based transfer learning method for IE (TIE) via an instructed graph decoder. Specifically, we first construct an instruction pool for datasets from all well-known IE tasks, and then present an instructed graph decoder, which decodes various complex structures into a graph uniformly based on corresponding instructions. In this way, the common knowledge shared with existing datasets can be learned and transferred to a new dataset with new labels. Furthermore, to alleviate the label inconsistency problem among various IE tasks, we introduce a task-specific regularization strategy, which does not update the gradients of two tasks with 'opposite direction'. We conduct extensive experiments on 12 datasets spanning four IE tasks, and the results demonstrate the great advantages of our proposed method
翻訳日:2024-03-05 16:08:09 公開日:2024-03-01
# Wasserstein生成逆数ネットワークを用いたデータ拡張によるAndroidマルウェア検出の改善

Improving Android Malware Detection Through Data Augmentation Using Wasserstein Generative Adversarial Networks ( http://arxiv.org/abs/2403.00890v1 )

ライセンス: Link先を確認
Kawana Stalin, Mikias Berhanu Mekoya(参考訳) Generative Adversarial Networks (GAN) は、データ拡張やマルウェア検出など、様々なアプリケーションでその汎用性を実証している。 本研究は,GAN生成データを用いたAndroidマルウェア検出モデルのトレーニングの有効性について検討する。 この研究は,Androidアプリケーションの相当なストレージ要件を考慮し,GANを用いてデータを合成的に表現し,ストレージ要求を低減させる手法を提案する。 提案手法では,既存のデータセットから抽出した特徴のイメージ表現を作成する。 GANモデルを使用して、現実的な合成グレースケール画像からなるより広範なデータセットを生成する。 その後、この合成データセットを使用して、これまで目に見えないAndroidマルウェアアプリケーションを特定するように設計された畳み込みニューラルネットワーク(CNN)をトレーニングする。 本研究は,ganが生成する合成画像と実画像で訓練したcnnの性能の比較分析を含む。 さらに,Wasserstein Generative Adversarial Network (WGAN)とDeep Convolutional Generative Adversarial Network (DCGAN)のパフォーマンスの変動について検討した。 この調査は、画像サイズとマルウェアの難読化が分類モデルの有効性に与える影響について研究している。 この研究で実装されたデータ拡張アプローチは、データセットに依存する1.5%から7%までの分類モデルの顕著な性能向上をもたらした。 F1得点は97.5%に達した。 キーワード--生成型adversarial network、androidマルウェア、データ拡張、wasserstein生成型adversarial network

Generative Adversarial Networks (GANs) have demonstrated their versatility across various applications, including data augmentation and malware detection. This research explores the effectiveness of utilizing GAN-generated data to train a model for the detection of Android malware. Given the considerable storage requirements of Android applications, the study proposes a method to synthetically represent data using GANs, thereby reducing storage demands. The proposed methodology involves creating image representations of features extracted from an existing dataset. A GAN model is then employed to generate a more extensive dataset consisting of realistic synthetic grayscale images. Subsequently, this synthetic dataset is utilized to train a Convolutional Neural Network (CNN) designed to identify previously unseen Android malware applications. The study includes a comparative analysis of the CNN's performance when trained on real images versus synthetic images generated by the GAN. Furthermore, the research explores variations in performance between the Wasserstein Generative Adversarial Network (WGAN) and the Deep Convolutional Generative Adversarial Network (DCGAN). The investigation extends to studying the impact of image size and malware obfuscation on the classification model's effectiveness. The data augmentation approach implemented in this study resulted in a notable performance enhancement of the classification model, ranging from 1.5% to 7%, depending on the dataset. The achieved F1 score reached 97.5%. Keywords--Generative Adversarial Networks, Android Malware, Data Augmentation, Wasserstein Generative Adversarial Network
翻訳日:2024-03-05 16:07:50 公開日:2024-03-01
# ミニマリストウェアラブルのための時間境界バイオID生成

Time-bound Contextual Bio-ID Generation for Minimalist Wearables ( http://arxiv.org/abs/2403.00889v1 )

ライセンス: Link先を確認
Adiba Orzikulova, Diana A. Vasile, Fahim Kawsar, Chulhong Min(参考訳) ウェアラブルデバイスの小型化と強力化が進む中、デバイス間コラボレーションとデバイス間インタラクションに新たな機会が生まれている。 これらの最小限のウェアラブルは、リアルタイム認証に固有のメカニズムを欠いているため、データのプライバシと全体的なセキュリティに重大なリスクが生じる。 そこで本研究では,デバイス上のセンサデータから生成され,一般的な潜伏空間に埋め込まれる時間境界型バイオIDの革新的な概念を実現するProteusを紹介する。 これらのバイオIDは、特定のコンテキストにおける着用者の識別に使用できる、タイムバウンドのユニークなユーザ識別子として機能する。 Proteusは、動的かつコンテキストのデバイスコラボレーションと、堅牢なデバイス間インタラクションを可能にする。 また,本手法の有効性,特にミニマリストウェアラブルの文脈において評価を行った。

As wearable devices become increasingly miniaturized and powerful, a new opportunity arises for instant and dynamic device-to-device collaboration and human-to-device interaction. However, this progress presents a unique challenge: these minimalist wearables lack inherent mechanisms for real-time authentication, posing significant risks to data privacy and overall security. To address this, we introduce Proteus that realizes an innovative concept of time-bound contextual bio-IDs, which are generated from on-device sensor data and embedded into a common latent space. These bio-IDs act as a time-bound unique user identifier that can be used to identify the wearer in a certain context. Proteus enables dynamic and contextual device collaboration as well as robust human-to-device interaction. Our evaluations demonstrate the effectiveness of our method, particularly in the context of minimalist wearables.
翻訳日:2024-03-05 16:07:25 公開日:2024-03-01
# 多領域テキスト分類のためのマージン偏差に基づく逆行訓練

Margin Discrepancy-based Adversarial Training for Multi-Domain Text Classification ( http://arxiv.org/abs/2403.00888v1 )

ライセンス: Link先を確認
Yuan Wu(参考訳) マルチドメインテキスト分類(MDTC)は、対象ドメインの分類精度を高めるために、関連ドメインから利用可能なリソースを活用する。 現在、敵対的トレーニングと共有プライベートパラダイムを取り入れているmdtcのアプローチの多くは最先端のパフォーマンスを示している。 残念ながらこれらの手法は、mdtcアルゴリズムの設計に理論的保証がないという、無視できない課題に直面している。 理論的基盤の喪失はMDTCアルゴリズムの進歩に重大な障害をもたらす。 この問題に対処するため,MDTCタスクを複数のドメイン適応タスクに分解することでMDTCの理論的解析を行う。 領域分割の尺度としてマージン差を組み込んで、Radecher複雑性に基づいた新しい一般化を確立する。 その後,MDTC に対する差分差に基づく対位法 (MDAT) のアプローチを理論的解析に基づいて提案する。 提案手法の有効性を検証するため,2つのMDTCベンチマークを用いて実験を行った。 実験の結果,MDATアプローチは両データセットの最先端ベースラインを超えていることがわかった。

Multi-domain text classification (MDTC) endeavors to harness available resources from correlated domains to enhance the classification accuracy of the target domain. Presently, most MDTC approaches that embrace adversarial training and the shared-private paradigm exhibit cutting-edge performance. Unfortunately, these methods face a non-negligible challenge: the absence of theoretical guarantees in the design of MDTC algorithms. The dearth of theoretical underpinning poses a substantial impediment to the advancement of MDTC algorithms. To tackle this problem, we first provide a theoretical analysis of MDTC by decomposing the MDTC task into multiple domain adaptation tasks. We incorporate the margin discrepancy as the measure of domain divergence and establish a new generalization bound based on Rademacher complexity. Subsequently, we propose a margin discrepancy-based adversarial training (MDAT) approach for MDTC, in accordance with our theoretical analysis. To validate the efficacy of the proposed MDAT method, we conduct empirical studies on two MDTC benchmarks. The experimental results demonstrate that our MDAT approach surpasses state-of-the-art baselines on both datasets.
翻訳日:2024-03-05 16:07:13 公開日:2024-03-01
# SEGAA: 音声における年齢・性別・感情の統一的予測手法

SEGAA: A Unified Approach to Predicting Age, Gender, and Emotion in Speech ( http://arxiv.org/abs/2403.00887v1 )

ライセンス: Link先を確認
Aron R, Indra Sigicharla, Chirag Periwal, Mohanaprasad K, Nithya Darisini P S, Sourabh Tiwari, Shivani Arora(参考訳) 人間の声の解釈は様々な応用において重要である。 この研究は、膨大な応用分野である声道の年齢、性別、感情を予測することを目的としている。 音声分析技術の進歩は、顧客のインタラクションの改善から、ヘルスケアや小売エクスペリエンスの向上まで、ドメインにまたがる。 認知的感情は精神的な健康に役立ち、年齢や性別の検出は様々な文脈で不可欠である。 これらの予測のためのディープラーニングモデルの探索は、本論文で強調されたシングル、マルチアウトプット、シーケンシャルモデルの比較を含む。 適切なデータのソーシングが課題となり、CREMA-DとEMO-DBデータセットが融合した。 以前の研究は個々の予測に有望性を示したが、限定的な研究は3つの変数を同時に考慮した。 本稿では、個別モデルアプローチにおける欠陥を特定し、新しいマルチアウトプット学習アーキテクチャである音声ベース感情性分析(SEGAA)モデルを提案する。 実験により,複数出力モデルが個々のモデルと相容れない性能を示し,変数と音声入力の複雑な関係を効率よく把握し,実行環境の改善を実現している。

The interpretation of human voices holds importance across various applications. This study ventures into predicting age, gender, and emotion from vocal cues, a field with vast applications. Voice analysis tech advancements span domains, from improving customer interactions to enhancing healthcare and retail experiences. Discerning emotions aids mental health, while age and gender detection are vital in various contexts. Exploring deep learning models for these predictions involves comparing single, multi-output, and sequential models highlighted in this paper. Sourcing suitable data posed challenges, resulting in the amalgamation of the CREMA-D and EMO-DB datasets. Prior work showed promise in individual predictions, but limited research considered all three variables simultaneously. This paper identifies flaws in an individual model approach and advocates for our novel multi-output learning architecture Speech-based Emotion Gender and Age Analysis (SEGAA) model. The experiments suggest that Multi-output models perform comparably to individual models, efficiently capturing the intricate relationships between variables and speech inputs, all while achieving improved runtime.
翻訳日:2024-03-05 16:06:57 公開日:2024-03-01
# 因果領域シフトによる意思決定支援システムの性能評価と補正

Evaluating and Correcting Performative Effects of Decision Support Systems via Causal Domain Shift ( http://arxiv.org/abs/2403.00886v1 )

ライセンス: Link先を確認
Philip Boeken, Onno Zoeter, Joris M. Mooij(参考訳) 対象変数 $y$ を機能 $x$ から予測する場合、予測 $\hat{y}$ は実行可能である。 アルゴリズム的意思決定支援システム(dss)は、対象変数の値に影響を与えるエージェントの予測を提供する。 ハイテイク環境でDSSをデプロイする場合(例えば、医療、法律、予測警察、児童福祉スクリーニングなど)、DSSのパフォーマンス効果を慎重に評価することが不可欠である。 予測された負の結果のアラームとしてDSSが機能する場合、予測モデルのナイーブ再トレーニングは、前モデルの効果的な動作によりリスクを過小評価するモデルに拘束される。 本研究では,DSSの展開を因果領域シフトとしてモデル化し,条件付き期待値$E[Y | X]$に対して新たなクロスドメイン識別結果を提供することを提案する。 サンプル選択バイアスと選択的ラベリングによってデータが影響を受ける場合でも,反復回帰法がこれらの量を推定するための実用的な枠組みを提供し,複数の形態のターゲット変数バイアスに対して実用的で統一的なソリューションを提供することを示す。

When predicting a target variable $Y$ from features $X$, the prediction $\hat{Y}$ can be performative: an agent might act on this prediction, affecting the value of $Y$ that we eventually observe. Performative predictions are deliberately prevalent in algorithmic decision support, where a Decision Support System (DSS) provides a prediction for an agent to affect the value of the target variable. When deploying a DSS in high-stakes settings (e.g. healthcare, law, predictive policing, or child welfare screening) it is imperative to carefully assess the performative effects of the DSS. In the case that the DSS serves as an alarm for a predicted negative outcome, naive retraining of the prediction model is bound to result in a model that underestimates the risk, due to effective workings of the previous model. In this work, we propose to model the deployment of a DSS as causal domain shift and provide novel cross-domain identification results for the conditional expectation $E[Y | X]$, allowing for pre- and post-hoc assessment of the deployment of the DSS, and for retraining of a model that assesses the risk under a baseline policy where the DSS is not deployed. Using a running example, we empirically show that a repeated regression procedure provides a practical framework for estimating these quantities, even when the data is affected by sample selection bias and selective labelling, offering for a practical, unified solution for multiple forms of target variable bias.
翻訳日:2024-03-05 16:06:38 公開日:2024-03-01
# ハイブリッド量子古典コンピューティングの課題とコンピュータ科学者の育成

Training Computer Scientists for the Challenges of Hybrid Quantum-Classical Computing ( http://arxiv.org/abs/2403.00885v1 )

ライセンス: Link先を確認
Vincenzo De Maio, Meerzhan Kanatbekova, Felix Zilk, Nicolai Friis, Tobias Guggemos, Ivona Brandic(参考訳) ムーア時代に入ると、現代のアプリケーションに対する計算需要の増加に対処するために、様々な非ノイマンアーキテクチャーが出現し、量子コンピューティングは最も有名で有望な技術である。 しかし、この発展は、ほとんどの量子コンピューティング講義は物理学指向であり、コンピュータ科学の残りのカリキュラムとほとんど交わらないため、現在のコンピュータ科学カリキュラムのギャップを生んでいる。 この事実は、特に非物理学者にとって、魅力的なコースの設計を非常に困難にしている。 さらに、学術コミュニティでは、量子コンピュータは特定の計算タスク(例えば計算科学において)にのみ使用されるだろうというコンセンサスがある。 したがって、ハイブリッドシステムは、量子マシン上でアプリケーションの特定の適切な部分のみを実行し、他の部分はシステムの古典的コンポーネント上で実行される。 ハイブリッドシステムの能力をフル活用し、この新興分野における将来の要件を満たすためには、分散コンピューティングと量子コンピューティングの両方のスキルを持つ新しい世代のコンピュータ科学者を準備する必要がある。 このギャップを埋めるために,我々は,ハイブリッド量子古典システムに関する新しい講義および演習シリーズを設計し,学生がアプリケーション分解法を学び,ハイブリッド量子古典計算連続体上で計算タスクを実行する。 量子システムの根底にある概念を学習している間、学生は慣れ親しんだ技術や方法を適用することを余儀なくされ、量子コンピューティングの分野への入り口は包括的で魅力的で、コンピュータ科学の学生にもアクセスしやすくなっている。

As we enter the post-Moore era, we experience the rise of various non-von-Neumann-architectures to address the increasing computational demand for modern applications, with quantum computing being among the most prominent and promising technologies. However, this development creates a gap in current computer science curricula since most quantum computing lectures are strongly physics-oriented and have little intersection with the remaining curriculum of computer science. This fact makes designing an appealing course very difficult, in particular for non-physicists. Furthermore, in the academic community, there is consensus that quantum computers are going to be used only for specific computational tasks (e.g., in computational science), where hybrid systems - combined classical and quantum computers - facilitate the execution of an application on both quantum and classical computing resources. A hybrid system thus executes only certain suitable parts of an application on the quantum machine, while other parts are executed on the classical components of the system. To fully exploit the capabilities of hybrid systems and to meet future requirements in this emerging field, we need to prepare a new generation of computer scientists with skills in both distributed computing and quantum computing. To bridge this existing gap in standard computer science curricula, we designed a new lecture and exercise series on Hybrid Quantum-Classical Systems, where students learn how to decompose applications and implement computational tasks on a hybrid quantum-classical computational continuum. While learning the inherent concepts underlying quantum systems, students are obligated to apply techniques and methods they are already familiar with, making the entrance to the field of quantum computing comprehensive yet appealing and accessible to students of computer science.
翻訳日:2024-03-05 16:06:11 公開日:2024-03-01
# 制御語彙を持つ列ヘッダのテキスト分類-メタデータの充実にLLMを活用する

Text classification of column headers with a controlled vocabulary: leveraging LLMs for metadata enrichment ( http://arxiv.org/abs/2403.00884v1 )

ライセンス: Link先を確認
Margherita Martorana, Tobias Kuhn, Lise Stork, Jacco van Ossenbruggen(参考訳) 従来のデータセット検索システムは、データ値ではなくメタデータ情報をインデックスする。 したがって、主に手動のアノテーションと高品質なメタデータに依存し、労働集約的で自動化が難しいことが知られているプロセスである。 本稿では,3つのLarge Language Model (LLM) を用いた列ヘッダのトピックアノテーションによるメタデータの充実を支援する手法を提案する。 制御語彙からドメイン固有のトピックに基づいて列ヘッダを分類するLLM機能について検討する。 本研究では, LLMの内部整合性, マシン間アライメント, トピック分類タスクに対する人間と機械の合意性を評価することによって, アプローチを評価する。 さらに,文脈情報(データセット記述)が分類結果に与える影響についても検討する。 以上の結果から,ChatGPTとGoogleGeminiは内部整合性およびLLMアライメントでGoogleBardを上回ったことが示唆された。 興味深いことに、LLMのパフォーマンスに文脈が影響を与えないことがわかりました。 本研究では,制御された話題語彙を用いたテキスト分類に LLM を活用する手法を提案する。この手法は,自動メタデータの充実を促進する可能性を秘め,Web 上の研究データのデータセット検索とFinderability, Accessibility, Interoperability and Reusability (FAIR) を向上する。

Traditional dataset retrieval systems index on metadata information rather than on the data values. Thus relying primarily on manual annotations and high-quality metadata, processes known to be labour-intensive and challenging to automate. We propose a method to support metadata enrichment with topic annotations of column headers using three Large Language Models (LLMs): ChatGPT-3.5, GoogleBard and GoogleGemini. We investigate the LLMs ability to classify column headers based on domain-specific topics from a controlled vocabulary. We evaluate our approach by assessing the internal consistency of the LLMs, the inter-machine alignment, and the human-machine agreement for the topic classification task. Additionally, we investigate the impact of contextual information (i.e. dataset description) on the classification outcomes. Our results suggest that ChatGPT and GoogleGemini outperform GoogleBard for internal consistency as well as LLM-human-alignment. Interestingly, we found that context had no impact on the LLMs performances. This work proposes a novel approach that leverages LLMs for text classification using a controlled topic vocabulary, which has the potential to facilitate automated metadata enrichment, thereby enhancing dataset retrieval and the Findability, Accessibility, Interoperability and Reusability (FAIR) of research data on the Web.
翻訳日:2024-03-05 16:05:42 公開日:2024-03-01
# FedRDMA: チャンクRDMA伝送による通信効率の良いクロスサイロフェデレーションLLM

FedRDMA: Communication-Efficient Cross-Silo Federated LLM via Chunked RDMA Transmission ( http://arxiv.org/abs/2403.00881v1 )

ライセンス: Link先を確認
Zeling Zhang, Dongqi Cai, Yiran Zhang, Mengwei Xu, Shangguang Wang, Ao Zhou(参考訳) コミュニケーションのオーバーヘッドは、aiモデルの増大によって誇張されているフェデレーション学習(fl)において重要なボトルネックである。 本稿では,RF通信プロトコルにRDMAを統合する通信効率の高いクロスサイロFLシステムであるFedRDMAを提案する。 広域ネットワーク(WAN)におけるRDMAの限界を克服するため、FedRDMAは更新されたモデルをチャンクに分割し、RDMAベースの通信の効率性と堅牢性を改善するための一連の最適化手法を設計する。 我々は,産業連携学習フレームワーク上にFedRDMAを実装し,実世界のクロスサイロFLシナリオで評価する。 実験の結果、従来のTCP/IPベースのFLシステムと比較して通信効率が最大3.8$\times$スピードアップできることがわかった。

Communication overhead is a significant bottleneck in federated learning (FL), which has been exaggerated with the increasing size of AI models. In this paper, we propose FedRDMA, a communication-efficient cross-silo FL system that integrates RDMA into the FL communication protocol. To overcome the limitations of RDMA in wide-area networks (WANs), FedRDMA divides the updated model into chunks and designs a series of optimization techniques to improve the efficiency and robustness of RDMA-based communication. We implement FedRDMA atop the industrial federated learning framework and evaluate it on a real-world cross-silo FL scenario. The experimental results show that \sys can achieve up to 3.8$\times$ speedup in communication efficiency compared to traditional TCP/IP-based FL systems.
翻訳日:2024-03-05 16:05:21 公開日:2024-03-01
# 因果推論に基づく二重粒度メディケーション勧告

Dual-Granularity Medication Recommendation Based on Causal Inference ( http://arxiv.org/abs/2403.00880v1 )

ライセンス: Link先を確認
Shunpan Liang, Xiang Li, Xiang Li, Chen Li, Yu Lei, Yulei Hou, Tengfei Ma(参考訳) 医療需要が増加し、機械学習技術が進歩するにつれ、AIベースの診断・治療システムが注目を集めている。 医療勧告は、患者の長期医療記録と医療知識を統合することを目的としており、特定の疾患に対する正確性と安全な薬剤の組み合わせを推奨している。 しかし、既存の研究の多くは、薬と疾患の多様性を見越して、従来の推奨システムの変種としてのみ薬の推奨システムを扱っている。 この課題に対処するため,我々は薬剤推奨フレームワークであるdgmedを提案する。 dgmedは因果推論を利用して医療機関間のつながりを解明し、異質性問題に取り組むための革新的な特徴アライメント手法を提案する。 本研究は、まず因果推論を応用して、特定の疾患に対する薬物の定量化による治療効果を分析し、医療機関間の潜在的な関連を明らかにする。 その後、分子レベルの知識を統合し、薬物や疾患の分子空間への埋め込みを調整し、その多様性に効果的に取り組む。 究極的には,エンティティレベルでの関係性に基づき,薬の推奨確率を適応的に調整し,患者の現在の健康状態に応じて薬の組み合わせを推奨する。 実世界のデータセットを用いた実験結果から,提案手法は4つの評価指標において既存の最先端基準を超越し,精度と安全性の両面において優れた性能を示した。 サブ最適モデルと比較して精度は4.40%向上し,副作用のリスクは6.14%減少し,時間効率は47.15%向上した。

As medical demands grow and machine learning technology advances, AI-based diagnostic and treatment systems are garnering increasing attention. Medication recommendation aims to integrate patients' long-term health records with medical knowledge, recommending accuracy and safe medication combinations for specific conditions. However, most existing researches treat medication recommendation systems merely as variants of traditional recommendation systems, overlooking the heterogeneity between medications and diseases. To address this challenge, we propose DGMed, a framework for medication recommendation. DGMed utilizes causal inference to uncover the connections among medical entities and presents an innovative feature alignment method to tackle heterogeneity issues. Specifically, this study first applies causal inference to analyze the quantified therapeutic effects of medications on specific diseases from historical records, uncovering potential links between medical entities. Subsequently, we integrate molecular-level knowledge, aligning the embeddings of medications and diseases within the molecular space to effectively tackle their heterogeneity. Ultimately, based on relationships at the entity level, we adaptively adjust the recommendation probabilities of medication and recommend medication combinations according to the patient's current health condition. Experimental results on a real-world dataset show that our method surpasses existing state-of-the-art baselines in four evaluation metrics, demonstrating superior performance in both accuracy and safety aspects. Compared to the sub-optimal model, our approach improved accuracy by 4.40%, reduced the risk of side effects by 6.14%, and increased time efficiency by 47.15%.
翻訳日:2024-03-05 16:05:08 公開日:2024-03-01
# Crimson: 大規模言語モデルによるサイバーセキュリティにおける戦略的推論の強化

Crimson: Empowering Strategic Reasoning in Cybersecurity through Large Language Models ( http://arxiv.org/abs/2403.00878v1 )

ライセンス: Link先を確認
Jiandong Jin, Bowen Tang, Mingxuan Ma, Xiao Liu, Yunfei Wang, Qingnan Lai, Jia Yang, Changling Zhou(参考訳) サイバーセキュリティの分野では,大規模言語モデル(llm)の戦略的推論能力を高めるシステムであるcrimsonを紹介する。 CVEとMITRE ATT&CK技術とを関連付けることで、クリムソンは脅威予測と戦略的防衛活動を進めた。 我々のアプローチは、CVE-to-ATT&CKマッピング(CVEM)データセットを開発するための包括的なヒューマン・イン・ザ・ループデータ合成ワークフローの実装とともに、サイバーセキュリティ戦略タスクの定義と評価を含む。 我々は,新たな検索・認識訓練(RAT)プロセスと改良された反復RAT-Rにより,LLMの推論能力をさらに向上する。 以上の結果から,70億のパラメータを持つLPMがGPT-4の性能レベルに近づき,幻覚やエラーの頻度が著しく低く,戦略的推論タスクにおいて他のモデルを上回ることが示唆された。 さらに、ドメイン固有の埋め込みモデルの微調整により、サイバーセキュリティの文脈におけるパフォーマンスが著しく向上し、我々の方法論の有効性が強調される。 crimsonを利用して生の脆弱性データを構造化され実行可能な洞察に変換することで、私たちは積極的なサイバーセキュリティ防御を強化します。

We introduces Crimson, a system that enhances the strategic reasoning capabilities of Large Language Models (LLMs) within the realm of cybersecurity. By correlating CVEs with MITRE ATT&CK techniques, Crimson advances threat anticipation and strategic defense efforts. Our approach includes defining and evaluating cybersecurity strategic tasks, alongside implementing a comprehensive human-in-the-loop data-synthetic workflow to develop the CVE-to-ATT&CK Mapping (CVEM) dataset. We further enhance LLMs' reasoning abilities through a novel Retrieval-Aware Training (RAT) process and its refined iteration, RAT-R. Our findings demonstrate that an LLM fine-tuned with our techniques, possessing 7 billion parameters, approaches the performance level of GPT-4, showing markedly lower rates of hallucination and errors, and surpassing other models in strategic reasoning tasks. Moreover, domain-specific fine-tuning of embedding models significantly improves performance within cybersecurity contexts, underscoring the efficacy of our methodology. By leveraging Crimson to convert raw vulnerability data into structured and actionable insights, we bolster proactive cybersecurity defenses.
翻訳日:2024-03-05 16:04:40 公開日:2024-03-01
# 分散型マルチTower:高効率大規模レコメンデーションのためのトポロジー・アウェア・モデリング技術

Disaggregated Multi-Tower: Topology-aware Modeling Technique for Efficient Large-Scale Recommendation ( http://arxiv.org/abs/2403.00877v1 )

ライセンス: Link先を確認
Liang Luo, Buyun Zhang, Michael Tsang, Yinbin Ma, Ching-Hsiang Chu, Yuxin Chen, Shen Li, Yuchen Hao, Yanli Zhao, Guna Lakshminarayanan, Ellie Dingqiao Wen, Jongsoo Park, Dheevatsa Mudigere, Maxim Naumov(参考訳) 本研究では,ディープラーニングレコメンデーションモデルのフラットアーキテクチャ,共通分散トレーニングパラダイム,階層型データセンタトポロジのミスマッチについて検討する。 To address the associated inefficiencies, we propose Disaggregated Multi-Tower (DMT), a modeling technique that consists of (1) Semantic-preserving Tower Transform (SPTT), a novel training paradigm that decomposes the monolithic global embedding lookup process into disjoint towers to exploit data center locality; (2) Tower Module (TM), a synergistic dense component attached to each tower to reduce model complexity and communication volume through hierarchical feature interaction; and (3) Tower Partitioner (TP), a feature partitioner to systematically create towers with meaningful feature interactions and load balanced assignments to preserve model quality and training throughput via learned embeddings. 大規模データセンターにおける複数世代のハードウェアの精度を損なうことなく,最先端のベースラインと比較して,dmtは最大1.9倍のスピードアップを達成できることを示した。

We study a mismatch between the deep learning recommendation models' flat architecture, common distributed training paradigm and hierarchical data center topology. To address the associated inefficiencies, we propose Disaggregated Multi-Tower (DMT), a modeling technique that consists of (1) Semantic-preserving Tower Transform (SPTT), a novel training paradigm that decomposes the monolithic global embedding lookup process into disjoint towers to exploit data center locality; (2) Tower Module (TM), a synergistic dense component attached to each tower to reduce model complexity and communication volume through hierarchical feature interaction; and (3) Tower Partitioner (TP), a feature partitioner to systematically create towers with meaningful feature interactions and load balanced assignments to preserve model quality and training throughput via learned embeddings. We show that DMT can achieve up to 1.9x speedup compared to the state-of-the-art baselines without losing accuracy across multiple generations of hardware at large data center scales.
翻訳日:2024-03-05 16:04:19 公開日:2024-03-01
# 分散ニューラルネットワークにおけるエントロピーモデルのレジリエンス

Resilience of Entropy Model in Distributed Neural Networks ( http://arxiv.org/abs/2403.00942v1 )

ライセンス: Link先を確認
Milin Zhang, Mohammad Abdi, Shahriar Rifat, Francesco Restuccia(参考訳) 分散ディープニューラルネットワーク(dnn)は、エッジコンピューティングシステムのパフォーマンスを犠牲にすることなく通信オーバーヘッドを削減する重要な技術として登場した。 近年,エントロピー符号化により通信オーバーヘッドがさらに低減されている。 鍵となる考え方は、分散DNNをエントロピーモデルと共同でトレーニングすることであり、これは推論時間中にサイド情報として使われ、遅延表現を可変長ビットストリームに適応的にエンコードする。 私たちの知る限りでは、エントロピーモデルの弾力性はまだ調査されていない。 そこで本論文では,エントロピーモデルが意図的干渉(例えば,敵攻撃)や意図的干渉(例えば,天候変化や動きのぼかし)に対するレジリエンスを定式化し,検討する。 3つの異なるDNNアーキテクチャ、2つのエントロピーモデル、4つのレート歪曲トレードオフ因子による広範な実験的キャンペーンを通じて、エントロピー攻撃は通信オーバーヘッドを最大95%増加させることができることを示した。 周波数領域と空間領域における圧縮特性を分離することにより,攻撃入力の送信オーバーヘッドを約9%削減できる新しい防御機構を提案する。 提案する防御機構は, 対人訓練などの手法と併用して, 強靭性の向上を図る, 独立的なアプローチである。 コードは再現性のために共有される。

Distributed deep neural networks (DNNs) have emerged as a key technique to reduce communication overhead without sacrificing performance in edge computing systems. Recently, entropy coding has been introduced to further reduce the communication overhead. The key idea is to train the distributed DNN jointly with an entropy model, which is used as side information during inference time to adaptively encode latent representations into bit streams with variable length. To the best of our knowledge, the resilience of entropy models is yet to be investigated. As such, in this paper we formulate and investigate the resilience of entropy models to intentional interference (e.g., adversarial attacks) and unintentional interference (e.g., weather changes and motion blur). Through an extensive experimental campaign with 3 different DNN architectures, 2 entropy models and 4 rate-distortion trade-off factors, we demonstrate that the entropy attacks can increase the communication overhead by up to 95%. By separating compression features in frequency and spatial domain, we propose a new defense mechanism that can reduce the transmission overhead of the attacked input by about 9% compared to unperturbed data, with only about 2% accuracy loss. Importantly, the proposed defense mechanism is a standalone approach which can be applied in conjunction with approaches such as adversarial training to further improve robustness. Code will be shared for reproducibility.
翻訳日:2024-03-05 16:00:32 公開日:2024-03-01
# 雑音量子コンピュータのためのスケーラブル量子アルゴリズム

Scalable Quantum Algorithms for Noisy Quantum Computers ( http://arxiv.org/abs/2403.00940v1 )

ライセンス: Link先を確認
Julien Gacon(参考訳) 量子コンピューティングは、量子物理学における長年の問題を解決するだけでなく、他の幅広い分野のスピードアップを提供する可能性を持っている。 しかし、現在の量子コンピュータのノイズと限られたスケールのため、目立った量子アルゴリズムは、実際的な関心を持つ問題のサイズに対して実行できない可能性がある。 この博士論文は、現在の量子プロセッサ上のアプリケーションサイズをスケールアップすることを目的として、量子計算リソースの要求を減らす2つの主要な技術を開発した。 最初のアプローチは、量子回路勾配や量子幾何テンソル(qgt)のような計算コストの高い量の確率的近似に基づいている。 第2の方法はQGTの見方が異なるため、現在の量子コンピュータ上での時間進化をより効率的に記述することができる。 我々のアルゴリズムの応用の主な焦点は量子システムのシミュレーションであるが、開発されたサブルーチンは最適化や機械学習の分野においてさらに活用することができる。 我々のアルゴリズムは、数値シミュレーションとハードウェア実験の両方において、イジングやハイゼンベルクスピンモデルのような様々な代表的なモデル上でベンチマークされている。 誤差緩和技術と組み合わせることで、後者は最大27量子ビットまでスケールし、変分量子アルゴリズムはアルゴリズムを使わずにノイズの多い量子コンピュータにスケールすることを難しくしている。

Quantum computing not only holds the potential to solve long-standing problems in quantum physics, but also to offer speed-ups across a broad spectrum of other fields. However, due to the noise and the limited scale of current quantum computers, may prominent quantum algorithms are currently infeasible to run for problem sizes of practical interest. This doctoral thesis develops two main techniques to reduce the quantum computational resource requirements, with the goal of scaling up application sizes on current quantum processors. The first approach is based on stochastic approximations of computationally costly quantities, such as quantum circuit gradients or the quantum geometric tensor (QGT). The second method takes a different perspective on the QGT, leading to a potentially more efficient description of time evolution on current quantum computers. While the main focus of application for our algorithms is the simulation of quantum systems, the developed subroutines can further be utilized in the fields of optimization or machine learning. Our algorithms are benchmarked on a range of representative models, such as Ising or Heisenberg spin models, both in numerical simulations and experiments on the hardware. In combination with error mitigation techniques, the latter is scaled up to 27 qubits; into a regime that variational quantum algorithms are challenging to scale to on noisy quantum computers without our algorithms.
翻訳日:2024-03-05 16:00:07 公開日:2024-03-01
# G3DR: ImageNetで生成した3D再構成

G3DR: Generative 3D Reconstruction in ImageNet ( http://arxiv.org/abs/2403.00939v1 )

ライセンス: Link先を確認
Pradyumna Reddy, Ismail Elezi, Jiankang Deng(参考訳) 本稿では,画像から多種多様な高品質な3Dオブジェクトを生成できる新しい3D生成手法であるG3DRを紹介し,既存の手法の限界に対処する。 我々の枠組みの核心は、高幾何学的忠実度でシーンを生成できる新しい奥行き正規化技術である。 G3DRはまた、CLIPのような事前訓練された言語ビジョンモデルを活用して、新しいビューの再構築を可能にし、世代のビジュアルリアリズムを改善する。 さらに、g3drは、世代の品質をさらに向上させるために、シンプルで効果的なサンプリング手順を設計する。 G3DRはクラスやテキストコンディショニングに基づいた多種多様な効率的な3Dアセット生成を提供する。 その単純さにもかかわらず、G3DRは最先端の手法に勝ることができ、知覚的メトリクスで最大22%、幾何学的スコアで最大90%向上し、トレーニング時間の半分しか必要としない。 コードはhttps://github.com/preddy5/G3DRで入手できる。

We introduce a novel 3D generative method, Generative 3D Reconstruction (G3DR) in ImageNet, capable of generating diverse and high-quality 3D objects from single images, addressing the limitations of existing methods. At the heart of our framework is a novel depth regularization technique that enables the generation of scenes with high-geometric fidelity. G3DR also leverages a pretrained language-vision model, such as CLIP, to enable reconstruction in novel views and improve the visual realism of generations. Additionally, G3DR designs a simple but effective sampling procedure to further improve the quality of generations. G3DR offers diverse and efficient 3D asset generation based on class or text conditioning. Despite its simplicity, G3DR is able to beat state-of-theart methods, improving over them by up to 22% in perceptual metrics and 90% in geometry scores, while needing only half of the training time. Code is available at https://github.com/preddy5/G3DR
翻訳日:2024-03-05 15:59:29 公開日:2024-03-01
# 超伝導量子プロセッサにおける計測誘起相転移検出のためのスケーラブルクロスエントロピーベンチマークの実験的検討

Experimental demonstration of scalable cross-entropy benchmarking to detect measurement-induced phase transitions on a superconducting quantum processor ( http://arxiv.org/abs/2403.00938v1 )

ライセンス: Link先を確認
Hirsh Kamakari, Jiace Sun, Yaodong Li, Jonathan J. Thio, Tanvi P. Gujarati, Matthew P. A. Fisher, Mario Motta, Austin J. Minnich(参考訳) ランダムユニタリ進化と時空のランダム点における測定は、これらの測定の周波数に依存するエンタングルメント位相遷移を示す。 過去の研究は、短期量子コンピュータ上でのエンタングルメント相転移を実験的に観察してきたが、量子状態トモグラフィーとポストセレクションの指数的オーバーヘッドのため、エンタングルメントエントロピーを用いたキャラクタリゼーションアプローチはスケーラブルではない。 近年,線形クロスエントロピーを用いた絡み合い相転移検出のための代替プロトコルが提案されている。 本稿では,IBMの量子ハードウェア上で,最大22量子ビットの1次元および全対全接続性を持つシステムにおいて,このプロトコルの実証を報告する。 我々は、不確実性内の理論に一致する臨界指数を持つスケール不変形式にデータの崩壊を示す。 我々の実証は、測定誘起絡み合い相転移と関連する臨界現象の研究の道を開くものである。

Quantum systems subject to random unitary evolution and measurements at random points in spacetime exhibit entanglement phase transitions which depend on the frequency of these measurements. Past work has experimentally observed entanglement phase transitions on near-term quantum computers, but the characterization approach using entanglement entropy is not scalable due to exponential overhead of quantum state tomography and post selection. Recently, an alternative protocol to detect entanglement phase transitions using linear cross-entropy was proposed which eliminates both bottlenecks. Here, we report the demonstration of this protocol in systems with one-dimensional and all-to-all connectivities on IBM's quantum hardware on up to 22 qubits, a regime which is presently inaccessible if post-selection is required. We demonstrate a collapse of the data into a scale-invariant form with critical exponents agreeing with theory within uncertainty. Our demonstration paves the way for studies of measurement-induced entanglement phase transitions and associated critical phenomena on larger near-term quantum systems.
翻訳日:2024-03-05 15:59:02 公開日:2024-03-01
# セキュリティのためのトランスファーラーニング : 課題と今後の方向性

Transfer Learning for Security: Challenges and Future Directions ( http://arxiv.org/abs/2403.00935v1 )

ライセンス: Link先を確認
Adrian Shuai Li, Arun Iyengar, Ashish Kundu, Elisa Bertino(参考訳) 多くの機械学習とデータマイニングアルゴリズムは、トレーニングとテストのデータが同じ特徴空間と分散を共有するという仮定に依存している。 しかし、この仮定は常に成り立つとは限らない。 例えば、ひとつのドメインでデータを分類する必要がある状況がありますが、異なるドメインから利用可能な十分なトレーニングデータしかありません。 後者のデータは異なる分布に従うことができる。 このような場合、ドメイン間での知識の伝達に成功すれば、学習性能が大幅に向上し、広範なデータラベリング作業の必要性が軽減される。 転送学習(tl)は、特にセキュリティ関連のタスクにおいて、この課題に取り組むための有望なフレームワークとして登場してきた。 本稿では,TL技術を活用したセキュリティの最近の進歩を概観する。 この論文は、tlをセキュリティドメインに適用する際の既存の研究のギャップに関する議論と、tl支援セキュリティソリューションの文脈で生じる将来的な研究の方向性と課題について述べている。

Many machine learning and data mining algorithms rely on the assumption that the training and testing data share the same feature space and distribution. However, this assumption may not always hold. For instance, there are situations where we need to classify data in one domain, but we only have sufficient training data available from a different domain. The latter data may follow a distinct distribution. In such cases, successfully transferring knowledge across domains can significantly improve learning performance and reduce the need for extensive data labeling efforts. Transfer learning (TL) has thus emerged as a promising framework to tackle this challenge, particularly in security-related tasks. This paper aims to review the current advancements in utilizing TL techniques for security. The paper includes a discussion of the existing research gaps in applying TL in the security domain, as well as exploring potential future research directions and issues that arise in the context of TL-assisted security solutions.
翻訳日:2024-03-05 15:58:29 公開日:2024-03-01
# 合成テキスト生成による微分的私的知識蒸留

Differentially Private Knowledge Distillation via Synthetic Text Generation ( http://arxiv.org/abs/2403.00932v1 )

ライセンス: Link先を確認
James Flemings and Murali Annavaram(参考訳) 大規模言語モデル(LLM)は多くの下流タスクで最先端のパフォーマンスを実現している。 しかし、データプライバシの緊急性の高まりにより、LLMはプライベートデータ上で差分プライバシー(DP)をトレーニングする必要がある。 同時に、リソース制約のあるデバイスや遅延に敏感なアプリケーション上でのリアルタイムデプロイメントのために、LSMを圧縮する必要がある。 ディファレンシャルプライバシとモデル圧縮は通常、目的を達成するためにユーティリティ損失をトレードオフしなければならない。 さらに、両方を同時に達成すれば、さらに実用性を失う可能性がある。 そこで本研究では, 微分プライベートllmで生成された合成データを活用した, 微分プライベート知識蒸留アルゴリズムを提案する。 教師モデルの知識は、合成データ自体からの1つの方法、ハードラベルからの1つの方法、および、合成データに基づいて評価された教師モデルの出力分布、ソフトラベルの2つの方法で学生に伝達される。 さらに,教師と生徒が類似のアーキテクチャ構造を共有している場合,隠れた表現を利用して知識を抽出することができる。 その結果,既存のベースラインに対して,epsilon = 2という強力なプライバシパラメータを用いて,トレーニングデータのプライバシを保ちながら,自己回帰型llmを効果的に圧縮できることを検証した。

Large Language models (LLMs) are achieving state-of-the-art performance in many different downstream tasks. However, the increasing urgency of data privacy requires LLMs to train with Differential Privacy (DP) on private data. Concurrently it is also necessary to compress LLMs for real-life deployments on resource-constrained devices or latency-sensitive applications. Differential privacy and model compression generally must trade off utility loss to achieve their objectives. Moreover, concurrently achieving both can result in even more utility loss. To this end, we propose a novel differentially private knowledge distillation algorithm that exploits synthetic data generated by a differentially private LLM. The knowledge of a teacher model is transferred onto the student in two ways: one way from the synthetic data itself, the hard labels, and the other way by the output distribution of the teacher model evaluated on the synthetic data, the soft labels. Furthermore, if the teacher and student share a similar architectural structure, we can further distill knowledge by exploiting hidden representations. Our results show that our framework substantially improves the utility over existing baselines with strong privacy parameters, {\epsilon} = 2, validating that we can successfully compress autoregressive LLMs while preserving the privacy of training data.
翻訳日:2024-03-05 15:58:02 公開日:2024-03-01
# スケールフリーadversarial reinforcement learning

Scale-free Adversarial Reinforcement Learning ( http://arxiv.org/abs/2403.00930v1 )

ライセンス: Link先を確認
Mingyu Chen, Xuezhou Zhang(参考訳) 本稿では,マルコフ決定過程(MDP)において,報酬/損失のスケールが未知なスケールフリー学習の研究を開始する。 我々は、汎用アルゴリズムフレームワークである \underline{S}cale \underline{C}lipping \underline{B}ound (\texttt{SCB})を設計し、このフレームワークを、敵対的マルチアームバンド(MAB)設定と敵対的MDP設定の両方でインスタンス化する。 この枠組みにより,第1のミニマックス最適期待後悔境界と,スケールフリーな逆マブに束縛された最初の高確率後悔を達成し, \cite{hadiji2023adaptation} で提起されたオープン問題を解く。 逆mdpにおいて、我々のフレームワークは、$\tilde{\mathcal{o}}(\sqrt{t})$ high-probability regret guaranteeを持つ最初のスケールフリーなrlアルゴリズムも生み出す。

This paper initiates the study of scale-free learning in Markov Decision Processes (MDPs), where the scale of rewards/losses is unknown to the learner. We design a generic algorithmic framework, \underline{S}cale \underline{C}lipping \underline{B}ound (\texttt{SCB}), and instantiate this framework in both the adversarial Multi-armed Bandit (MAB) setting and the adversarial MDP setting. Through this framework, we achieve the first minimax optimal expected regret bound and the first high-probability regret bound in scale-free adversarial MABs, resolving an open problem raised in \cite{hadiji2023adaptation}. On adversarial MDPs, our framework also give birth to the first scale-free RL algorithm with a $\tilde{\mathcal{O}}(\sqrt{T})$ high-probability regret guarantee.
翻訳日:2024-03-05 15:57:26 公開日:2024-03-01
# PRIME:データ効率な模倣学習のための行動プリミティブを用いた操作タスクの共有

PRIME: Scaffolding Manipulation Tasks with Behavior Primitives for Data-Efficient Imitation Learning ( http://arxiv.org/abs/2403.00929v1 )

ライセンス: Link先を確認
Tian Gao, Soroush Nasiriany, Huihan Liu, Quantao Yang, Yuke Zhu(参考訳) 模倣学習は、ロボットが複雑な操作行動を得るための大きな可能性を示している。 しかし、これらのアルゴリズムは、タスクの水平線上に複合エラーが蓄積する長いホリゾンタスクにおいて、高いサンプル複雑性に苦しむ。 我々は、模倣学習のデータ効率を向上させるために設計された行動原始型フレームワークであるprime(primitive-based imitation with data efficiency)を提案する。 PRIMEは、タスクデモをプリミティブシーケンスに分解し、続いて模倣学習を通じてプリミティブをシーケンスするハイレベルな制御ポリシーを学ぶ。 実験の結果,PRIMEは多段階操作タスクにおいて,最先端ベースラインのシミュレーションにおいて10~34%,物理ハードウェアでは20~48%,大幅な性能向上を実現していることがわかった。

Imitation learning has shown great potential for enabling robots to acquire complex manipulation behaviors. However, these algorithms suffer from high sample complexity in long-horizon tasks, where compounding errors accumulate over the task horizons. We present PRIME (PRimitive-based IMitation with data Efficiency), a behavior primitive-based framework designed for improving the data efficiency of imitation learning. PRIME scaffolds robot tasks by decomposing task demonstrations into primitive sequences, followed by learning a high-level control policy to sequence primitives through imitation learning. Our experiments demonstrate that PRIME achieves a significant performance improvement in multi-stage manipulation tasks, with 10-34% higher success rates in simulation over state-of-the-art baselines and 20-48% on physical hardware.
翻訳日:2024-03-05 15:56:52 公開日:2024-03-01
# Eコマースにおける検索関連性向上のためのグラフと言語モデルの解釈可能なアンサンブル

An Interpretable Ensemble of Graph and Language Models for Improving Search Relevance in E-Commerce ( http://arxiv.org/abs/2403.00923v1 )

ライセンス: Link先を確認
Nurendra Choudhary, Edward W Huang, Karthik Subbian, Chandan K. Reddy(参考訳) 電子商取引領域における検索関連性の問題は、ユーザの短いニュアンスクエリの意図を理解し、カタログ内の適切な製品とマッチングすることに関わるため、難しい問題である。 この問題は伝統的に言語モデル(LM)とグラフニューラルネットワーク(GNN)を使用して、それぞれ意味的行動信号と製品間行動信号をキャプチャすることで解決されてきた。 しかし、新しいアーキテクチャの急速な発展は、研究とこれらの技術の実践的採用の間にギャップを生んでいる。 これらのモデルのデプロイに対する一般化性を評価するには、複雑で現実的なデータセットに対する広範な実験が必要である。 さらに、そのようなモデルはしばしば人間には理解できない潜在空間表現で動作し、異なるモデルの有効性を評価し比較することは困難である。 この解釈性の欠如は、この分野における新しい技術の開発と採用を妨げる。 このギャップを埋めるために,プラグ・アンド・プレイ・グラフ言語モデル(pp-glam)を提案する。 このアプローチでは、均一なデータ処理パイプラインを備えたモジュラーフレームワークを使用する。 追加的な説明指標を使用して、含めるかどうかを独立に決定する。 (i)言語モデル候補 (二)GNNモデル候補、及び (iii)製品間行動信号。 検索の関連性の課題として,pp-glamが実世界の多言語多地域eコマースデータセットのプロプライエタリモデルと同様に,最先端のベースライン数を上回っていることを示す。 モデル理解性の向上と導入を促進するため,モデルの説明可能性や計算複雑性の解析も行う。 また、公開コードベースを提供し、実用的な実装のためのデプロイメント戦略を提供します。

The problem of search relevance in the E-commerce domain is a challenging one since it involves understanding the intent of a user's short nuanced query and matching it with the appropriate products in the catalog. This problem has traditionally been addressed using language models (LMs) and graph neural networks (GNNs) to capture semantic and inter-product behavior signals, respectively. However, the rapid development of new architectures has created a gap between research and the practical adoption of these techniques. Evaluating the generalizability of these models for deployment requires extensive experimentation on complex, real-world datasets, which can be non-trivial and expensive. Furthermore, such models often operate on latent space representations that are incomprehensible to humans, making it difficult to evaluate and compare the effectiveness of different models. This lack of interpretability hinders the development and adoption of new techniques in the field. To bridge this gap, we propose Plug and Play Graph LAnguage Model (PP-GLAM), an explainable ensemble of plug and play models. Our approach uses a modular framework with uniform data processing pipelines. It employs additive explanation metrics to independently decide whether to include (i) language model candidates, (ii) GNN model candidates, and (iii) inter-product behavioral signals. For the task of search relevance, we show that PP-GLAM outperforms several state-of-the-art baselines as well as a proprietary model on real-world multilingual, multi-regional e-commerce datasets. To promote better model comprehensibility and adoption, we also provide an analysis of the explainability and computational complexity of our model. We also provide the public codebase and provide a deployment strategy for practical implementation.
翻訳日:2024-03-05 15:56:31 公開日:2024-03-01
# ニューラルネットワークによる非安定化性回復

Retrieving non-stabilizerness with Neural Networks ( http://arxiv.org/abs/2403.00919v1 )

ライセンス: Link先を確認
Antonio Francesco Mello, Guglielmo Lami, Mario Collura(参考訳) 量子コンピューティングの約束は、その本質的な複雑さにあり、当初は絡み合いが特徴とされていた。 しかし、量子アドバンテージの探求は絡み合いを超えて、非安定化(魔法)状態の領域を包含する。 その重要性にもかかわらず、これらの状態の定量化と特徴付けは恐ろしい課題となる。 本稿では,畳み込みニューラルネットワーク(cnns)を用いて,その魔法の内容に基づいて量子状態の分類を行う新しい手法を提案する。 状態の完全な知識を頼らずに,測定スナップショットから得られた部分情報を利用してcnnを訓練し,安定状態と非安定状態の区別を行う。 重要なこととして,本手法はフルステートトモグラフィーの限界を回避し,実世界の量子実験に実用的な解決策を提供する。 さらに、安定化器R'enyiエントロピー(SRE)と純量子状態に対するパウリ行列の期待値との理論的関係を明らかにする。 我々の発見は、量子資源の複雑な風景を解読する堅牢でアクセスしやすいツールを提供する、実験的な応用の道を開いた。

Quantum computing's promise lies in its intrinsic complexity, with entanglement initially heralded as its hallmark. However, the quest for quantum advantage extends beyond entanglement, encompassing the realm of nonstabilizer (magic) states. Despite their significance, quantifying and characterizing these states pose formidable challenges. Here, we introduce a novel approach leveraging Convolutional Neural Networks (CNNs) to classify quantum states based on their magic content. Without relying on a complete knowledge of the state, we utilize partial information acquired from measurement snapshots to train the CNN in distinguishing between stabilizer and nonstabilizer states. Importantly, our methodology circumvents the limitations of full state tomography, offering a practical solution for real-world quantum experiments. In addition, we unveil a theoretical connection between Stabilizer R\'enyi Entropies (SREs) and the expectation value of Pauli matrices for pure quantum states. Our findings pave the way for experimental applications, providing a robust and accessible tool for deciphering the intricate landscape of quantum resources.
翻訳日:2024-03-05 15:56:03 公開日:2024-03-01
# 信号の特徴付け:因果推論と時空間幾何の関連

Characterizing Signalling: Connections between Causal Inference and Space-time Geometry ( http://arxiv.org/abs/2403.00916v1 )

ライセンス: Link先を確認
Maarten Grothus, V. Vilasini(参考訳) 因果性は世界を理解する上で重要であり、情報理論と相対論的、前者は情報の流れにつながり、後者は時空の構造である。 PRA 106, 032204 (2022) で導入されたフレームワークを利用して、これらの2つの概念を一般の物理理論で正式に結合し、それらの相互作用を研究する。 ここで、情報理論的因果関係は因果モデルアプローチによって定義される。 まず、いわゆる影響関係によって定義された情報理論信号のキャラクタリゼーションを改善する。 具体的には、そのような関係の異なる部分における冗長性を特定する条件を提供し、不誠実な因果モデル(観測可能なデータが因果依存性を「忠実に」反映しない)における因果推論の手法を導入する。 特に、特定のノード間のシグナルの欠如を利用した因果推論の可能性を示す。 第2に、コニカリティ(conicality)と呼ばれる順序理論的な性質を定義し、d>1$空間次元のミンコフスキー時空における光円錐に対して、d=1$ で違反していることを示す。 最後に,スーパールミナルシグナリング(NSS)を含まないような相対論的原理に違反することなく,時空における情報理論因果モデルの埋め込みについて検討する。 一般に、時空におけるNASによる制約と純粋に情報理論的因果推論による制約は異なる振る舞いをする。 次に、円錐空間時間と忠実因果モデルの間の対応を証明し、どちらの場合も、これらの2種類の制約の間に平行な関係が現れる。 これは因果関係の情報的概念と幾何学的概念の関連性を示し、NASの原理と異なる時空測地における因果ループや情報処理の理論の関係を研究するための新たな洞察を提供する。

Causality is pivotal to our understanding of the world, presenting itself in different forms: information-theoretic and relativistic, the former linked to the flow of information, the latter to the structure of space-time. Leveraging a framework introduced in PRA, 106, 032204 (2022), which formally connects these two notions in general physical theories, we study their interplay. Here, information-theoretic causality is defined through a causal modelling approach. First, we improve the characterization of information-theoretic signalling as defined through so-called affects relations. Specifically, we provide conditions for identifying redundancies in different parts of such a relation, introducing techniques for causal inference in unfaithful causal models (where the observable data does not "faithfully" reflect the causal dependences). In particular, this demonstrates the possibility of causal inference using the absence of signalling between certain nodes. Second, we define an order-theoretic property called conicality, showing that it is satisfied for light cones in Minkowski space-times with $d>1$ spatial dimensions but violated for $d=1$. Finally, we study the embedding of information-theoretic causal models in space-time without violating relativistic principles such as no superluminal signalling (NSS). In general, we observe that constraints imposed by NSS in a space-time and those imposed by purely information-theoretic causal inference behave differently. We then prove a correspondence between conical space-times and faithful causal models: in both cases, there emerges a parallel between these two types of constraints. This indicates a connection between informational and geometric notions of causality, and offers new insights for studying the relations between the principles of NSS and no causal loops in different space-time geometries and theories of information processing.
翻訳日:2024-03-05 15:55:46 公開日:2024-03-01
# 量子シミュレーションにおける計算超越性

Computational supremacy in quantum simulation ( http://arxiv.org/abs/2403.00910v1 )

ライセンス: Link先を確認
Andrew D. King, Alberto Nocera, Marek M. Rams, Jacek Dziarmaga, Roeland Wiersema, William Bernoudy, Jack Raymond, Nitin Kaushal, Niclas Heinsdorf, Richard Harris, Kelly Boothby, Fabio Altomare, Andrew J. Berkley, Martin Boschnak, Kevin Chern, Holly Christiani, Samantha Cibere, Jake Connor, Martin H. Dehn, Rahul Deshpande, Sara Ejtemaee, Pau Farr\'e, Kelsey Hamer, Emile Hoskinson, Shuiyuan Huang, Mark W. Johnson, Samuel Kortas, Eric Ladizinsky, Tony Lai, Trevor Lanting, Ryan Li, Allison J.R. MacDonald, Gaelen Marsden, Catherine C. McGeoch, Reza Molavi, Richard Neufeld, Mana Norouzpour, Travis Oh, Joel Pasvolsky, Patrick Poitras, Gabriel Poulin-Lamarre, Thomas Prescott, Mauricio Reis, Chris Rich, Mohammad Samani, Benjamin Sheldan, Anatoly Smirnov, Edward Sterpka, Berta Trullas Clavera, Nicholas Tsai, Mark Volkmann, Alexander Whiticar, Jed D. Whittaker, Warren Wilkinson, Jason Yao, T.J. Yi, Anders W. Sandvik, Gonzalo Alvarez, Roger G. Melko, Juan Carrasquilla, Marcel Franz and Mohammad H. Amin(参考訳) 量子コンピュータは、従来のコンピュータの範囲を超えてある問題を解決するという約束を持っている。 この能力を確立することは、特に影響があり有意義な問題に対して、依然として大きな課題である。 そのような問題の1つは、量子相転移を経た磁気スピン系の非平衡ダイナミクスのシミュレーションである。 最先端の古典的シミュレーションは、システム規模で指数関数的に成長するリソースを要求する。 ここでは、超伝導量子アニールプロセッサがシュリンガー方程式の解と密に一致して試料を迅速に生成できることを示す。 本研究では,2次元,3次元,無限次元のスピングラスにおけるモデルクエンチの絡み合いの領域内スケーリングを実証し,古典的アプローチの努力の伸張指数スケーリングをサポートする。 テンソルネットワークとニューラルネットワークに基づく近似手法の評価を行い、合理的な時間枠内で量子アニールと同じ精度を達成できるアプローチは存在しないと結論付けた。 したがって、量子アニーラーは古典的コンピュータではできないような実用的重要性の質問に答えることができる。

Quantum computers hold the promise of solving certain problems that lie beyond the reach of conventional computers. Establishing this capability, especially for impactful and meaningful problems, remains a central challenge. One such problem is the simulation of nonequilibrium dynamics of a magnetic spin system quenched through a quantum phase transition. State-of-the-art classical simulations demand resources that grow exponentially with system size. Here we show that superconducting quantum annealing processors can rapidly generate samples in close agreement with solutions of the Schr\"odinger equation. We demonstrate area-law scaling of entanglement in the model quench in two-, three- and infinite-dimensional spin glasses, supporting the observed stretched-exponential scaling of effort for classical approaches. We assess approximate methods based on tensor networks and neural networks and conclude that no known approach can achieve the same accuracy as the quantum annealer within a reasonable timeframe. Thus quantum annealers can answer questions of practical importance that classical computers cannot.
翻訳日:2024-03-05 15:55:12 公開日:2024-03-01
# アルゴリズム構成問題

The Algorithm Configuration Problem ( http://arxiv.org/abs/2403.00898v1 )

ライセンス: Link先を確認
Gabriele Iommazzo, Claudia D'Ambrosio, Antonio Frangioni, Leo Liberti(参考訳) アルゴリズム最適化の分野はアルゴリズムパラメータの自動設定手法の開発により大きく進歩している。 本稿では、決定/最適化問題の特定の事例を解決するためのパラメータ化アルゴリズムの最適化に焦点を当てたアルゴリズム構成問題について述べる。 本稿では,アルゴリズム構成問題を定式化するだけでなく,機械学習モデルとヒューリスティック戦略を活用し,その解決のための異なるアプローチを概説する包括的フレームワークを提案する。 この記事では、既存の方法論をインスタンス単位とプロブレム単位のアプローチに分類し、モデル構築とデプロイのためのオフラインとオンラインの戦略を区別する。 これらのアプローチを合成することにより、アルゴリズムの構成に固有の複雑さを理解し、対処するための明確な経路を提供することを目指している。

The field of algorithmic optimization has significantly advanced with the development of methods for the automatic configuration of algorithmic parameters. This article delves into the Algorithm Configuration Problem, focused on optimizing parametrized algorithms for solving specific instances of decision/optimization problems. We present a comprehensive framework that not only formalizes the Algorithm Configuration Problem, but also outlines different approaches for its resolution, leveraging machine learning models and heuristic strategies. The article categorizes existing methodologies into per-instance and per-problem approaches, distinguishing between offline and online strategies for model construction and deployment. By synthesizing these approaches, we aim to provide a clear pathway for both understanding and addressing the complexities inherent in algorithm configuration.
翻訳日:2024-03-05 15:54:55 公開日:2024-03-01
# visrec:電波干渉データ再構成のための半教師ありアプローチ

VisRec: A Semi-Supervised Approach to Radio Interferometric Data Reconstruction ( http://arxiv.org/abs/2403.00897v1 )

ライセンス: Link先を確認
Ruoqi Wang, Haitao Wang, Qiong Luo, Feng Wang and Hejun Wu(参考訳) 電波望遠鏡は天体の可視性データを生成するが、これらのデータはばらばらでノイズが多い。 その結果、生の可視性データ上に作成された画像の品質が低下する。 近年の研究では、よりクリーンな画像を得るために、深層学習モデルを用いて可視性データを再構築している。 しかし、これらの手法は大量のラベル付きトレーニングデータに依存しており、電波天文学者によるかなりのラベル付けの努力を必要とする。 この課題に対処するため、可視化データの再構築のためのモデルに依存しない半教師あり学習手法VisRecを提案する。 具体的には、VisRecは教師なし学習モジュールと教師なし学習モジュールの両方で構成されている。 教師付き学習モジュールでは,様々な学習例を生成するために,データ拡張関数のセットを導入する。 比較として、visrecの教師なし学習モジュールはラベルなしのデータを強化し、教師なし視認性データからの再構成をトレーニング用の擬似ラベルとして使用する。 このハイブリッドアプローチにより、VisRecはラベル付きデータとラベルなしデータの両方を効果的に活用できる。 このように、ラベル付きデータが不足している場合でも、VisRecはうまく機能する。 評価の結果, VisRecは, 再現性, 共通の観測摂動に対する頑健性, 望遠鏡構成の一般化性などにおいて, 基本手法のすべてに優れることがわかった。

Radio telescopes produce visibility data about celestial objects, but these data are sparse and noisy. As a result, images created on raw visibility data are of low quality. Recent studies have used deep learning models to reconstruct visibility data to get cleaner images. However, these methods rely on a substantial amount of labeled training data, which requires significant labeling effort from radio astronomers. Addressing this challenge, we propose VisRec, a model-agnostic semi-supervised learning approach to the reconstruction of visibility data. Specifically, VisRec consists of both a supervised learning module and an unsupervised learning module. In the supervised learning module, we introduce a set of data augmentation functions to produce diverse training examples. In comparison, the unsupervised learning module in VisRec augments unlabeled data and uses reconstructions from non-augmented visibility data as pseudo-labels for training. This hybrid approach allows VisRec to effectively leverage both labeled and unlabeled data. This way, VisRec performs well even when labeled data is scarce. Our evaluation results show that VisRec outperforms all baseline methods in reconstruction quality, robustness against common observation perturbation, and generalizability to different telescope configurations.
翻訳日:2024-03-05 15:54:43 公開日:2024-03-01
# diahalu: 大きな言語モデルのための対話レベルの幻覚評価ベンチマーク

DiaHalu: A Dialogue-level Hallucination Evaluation Benchmark for Large Language Models ( http://arxiv.org/abs/2403.00896v1 )

ライセンス: Link先を確認
Kedi Chen and Qin Chen and Jie Zhou and Yishen He and Liang He(参考訳) 近年, 大規模言語モデル (LLM) が大きな成功を収めているため, 幻覚の問題は依然として課題であり, 幻覚を検出するためのベンチマークが多数提案されている。 しかしながら、これらのベンチマークの一部はLLMによって自然に生成されるものではなく、意図的に誘導される。 また、単に事実性幻覚に焦点を合わせながら、忠実性幻覚を無視する者も多い。 さらに,LLMの時代には,対話パターンが広く利用されているが,現在のベンチマークでは文レベルと通過レベルの幻覚のみに焦点を当てている。 本研究では,対話レベルの幻覚評価ベンチマークとして最初のdiahaluを提案する。 まず、収集したトピックをシステムプロンプトに統合し、2つのChatGPT3.5間の対話を促進する。 その後、人間の言語規則に従わない内容を手動で修正し、LLMを再生させ、人間と機械の相互作用シナリオをシミュレートする。 最後に、プロの学者はデータセットのすべてのサンプルに注釈を付ける。 DiaHaluは4つの共通多ターン対話ドメインと5つの幻覚サブタイプをカバーしている。 データセット上のよく知られたLCMと検出方法による実験は、DiaHaluが挑戦的なベンチマークであり、さらなる研究に重要な価値を持っていることを示している。

Since large language models (LLMs) achieve significant success in recent years, the hallucination issue remains a challenge, numerous benchmarks are proposed to detect the hallucination. Nevertheless, some of these benchmarks are not naturally generated by LLMs but are intentionally induced. Also, many merely focus on the factuality hallucination while ignoring the faithfulness hallucination. Additionally, although dialogue pattern is more widely utilized in the era of LLMs, current benchmarks only concentrate on sentence-level and passage-level hallucination. In this study, we propose DiaHalu, the first dialogue-level hallucination evaluation benchmark to our knowledge. Initially, we integrate the collected topics into system prompts and facilitate a dialogue between two ChatGPT3.5. Subsequently, we manually modify the contents that do not adhere to human language conventions and then have LLMs re-generate, simulating authentic human-machine interaction scenarios. Finally, professional scholars annotate all the samples in the dataset. DiaHalu covers four common multi-turn dialogue domains and five hallucination subtypes, extended from factuality and faithfulness hallucination. Experiments through some well-known LLMs and detection methods on the dataset show that DiaHalu is a challenging benchmark, holding significant value for further research.
翻訳日:2024-03-05 15:54:23 公開日:2024-03-01
# LLMを用いたタイムライン構築の定式化比較

Formulation Comparison for Timeline Construction using LLMs ( http://arxiv.org/abs/2403.00990v1 )

ライセンス: Link先を確認
Kimihiro Hasegawa, Nikhil Kandukuri, Susan Holm, Yukari Yamakawa, Teruko Mitamura(参考訳) タイムラインを構築するには、記事中のイベントの時系列順を特定する必要がある。 以前のタイムライン構築データセットでは、時間的順序は通常、イベント間アンカーまたはイベント間ペアの順序付けによって注釈付けされる。 この問題を軽減するため,文書レベルのアノテーション付き単一文書タイムラインからなる評価データセットTimeSETを開発した。 timesetは、サリエンシーベースのイベント選択と部分順序付けを特徴とし、実用的なアノテーションワークロードを可能にする。 より優れた自動タイムライン構築システムの構築を目的として,Llama 2 と Flan-T5 のオープン LLM を誘導することにより,複数のタスクの定式化を TimeSET と比較する新しい評価フレームワークを提案する。 イベントの時間順序を特定することは、タイムライン構築におけるコアサブタスクであると考え、既存のイベント時間順序データセットのllmをベンチマークして、それらの能力の堅牢な理解を得る。 実験の結果,(1) Flan-T5によるNLIの定式化は互いに強い性能を示し,(2)タイムライン構築とイベント時間順序付けは,まだ数発のLLMでは難しい課題であることがわかった。 私たちのコードとデータはhttps://github.com/kimihiroh/timesetで入手できます。

Constructing a timeline requires identifying the chronological order of events in an article. In prior timeline construction datasets, temporal orders are typically annotated by either event-to-time anchoring or event-to-event pairwise ordering, both of which suffer from missing temporal information. To mitigate the issue, we develop a new evaluation dataset, TimeSET, consisting of single-document timelines with document-level order annotation. TimeSET features saliency-based event selection and partial ordering, which enable a practical annotation workload. Aiming to build better automatic timeline construction systems, we propose a novel evaluation framework to compare multiple task formulations with TimeSET by prompting open LLMs, i.e., Llama 2 and Flan-T5. Considering that identifying temporal orders of events is a core subtask in timeline construction, we further benchmark open LLMs on existing event temporal ordering datasets to gain a robust understanding of their capabilities. Our experiments show that (1) NLI formulation with Flan-T5 demonstrates a strong performance among others, while (2) timeline construction and event temporal ordering are still challenging tasks for few-shot LLMs. Our code and data are available at https://github.com/kimihiroh/timeset.
翻訳日:2024-03-05 15:50:24 公開日:2024-03-01
# 異なる初期化によるテキストトランスモデルの融合

Merging Text Transformer Models from Different Initializations ( http://arxiv.org/abs/2403.00986v1 )

ライセンス: Link先を確認
Neha Verma, Maha Elbayad(参考訳) 最近の1ショットの置換に基づくモデルマージの研究は、全く異なる初期化からモデル間の顕著な低またはゼロバリアモード接続を示している。 しかし、言語領域での主要な人気にもかかわらず、この一連の作業はまだTransformerアーキテクチャにまで拡張されていない。 そこで本研究では,トランスフォーマー・ミニマが類似した特徴を学習する程度について検討し,損失景観におけるこれらのミニマの関係を調べるためのモデルマージ手法を提案する。 アーキテクチャの特異性、例えば残差接続、マルチヘッドの注意、離散的な逐次入力は、同じ関数同値クラスに属するモデル置換を計算するために特定の介入を必要とする。 これらのモデルと手法をマージすると、マスク付き言語モデリングタスクや言語理解ベンチマークで微調整された複数のモデルに対して、モデル平均化よりもミニマ間の損失障壁が小さくなる。 以上の結果から,これらのモデルのミニマは従来よりシャープで孤立度が低く,今後は個別に訓練したTransformerモデルを統合するための基盤となることが示唆された。

Recent work on one-shot permutation-based model merging has shown impressive low- or zero-barrier mode connectivity between models from completely different initializations. However, this line of work has not yet extended to the Transformer architecture, despite its dominant popularity in the language domain. Therefore, in this work, we investigate the extent to which separate Transformer minima learn similar features, and propose a model merging technique to investigate the relationship between these minima in the loss landscape. The specifics of the architecture, like its residual connections, multi-headed attention, and discrete, sequential input, require specific interventions in order to compute model permutations that remain within the same functional equivalence class. In merging these models with our method, we consistently find lower loss barriers between minima compared to model averaging for several models trained on a masked-language modeling task or fine-tuned on a language understanding benchmark. Our results show that the minima of these models are less sharp and isolated than previously understood, and provide a basis for future work on merging separately trained Transformer models.
翻訳日:2024-03-05 15:49:59 公開日:2024-03-01
# localrqa: データ生成からローカルトレーニング、テスト、検索可能なqaシステムのデプロイまで

LocalRQA: From Generating Data to Locally Training, Testing, and Deploying Retrieval-Augmented QA Systems ( http://arxiv.org/abs/2403.00982v1 )

ライセンス: Link先を確認
Xiao Yu, Yunan Lu, Zhou Yu(参考訳) Retrieval-augmented question-anwering systemは、検索技術と大きな言語モデルを組み合わせて、より正確で情報的な回答を提供する。 多くの既存のツールキットは、既製のモデルを使って、すぐにそのようなシステムを構築することができるが、研究者や開発者がモデルトレーニング、テスト、デプロイメントプロセスのカスタマイズを支援するには不足している。 提案するLocalRQAは,最新の研究から得られたモデルトレーニングアルゴリズム,評価手法,デプロイメントツールを幅広く選択したオープンソースツールキットである。 例として、DatabricksとFaireのWebサイトから得られたオンラインドキュメントを使って、QAシステムを構築します。 OpenAIのtext-ada-002 や GPT-4-turbo と比較すると,LocalRQA を用いてトレーニングおよびデプロイした 7B モデルは同様の性能に達する。

Retrieval-augmented question-answering systems combine retrieval techniques with large language models to provide answers that are more accurate and informative. Many existing toolkits allow users to quickly build such systems using off-the-shelf models, but they fall short in supporting researchers and developers to customize the model training, testing, and deployment process. We propose LocalRQA, an open-source toolkit that features a wide selection of model training algorithms, evaluation methods, and deployment tools curated from the latest research. As a showcase, we build QA systems using online documentation obtained from Databricks and Faire's websites. We find 7B-models trained and deployed using LocalRQA reach a similar performance compared to using OpenAI's text-ada-002 and GPT-4-turbo.
翻訳日:2024-03-05 15:49:41 公開日:2024-03-01
# If-Onlysの偶像: カウンターファクチュアルをガイドとして、最良の半実像説明法が見つかるか?

Even-Ifs From If-Onlys: Are the Best Semi-Factual Explanations Found Using Counterfactuals As Guides? ( http://arxiv.org/abs/2403.00980v1 )

ライセンス: Link先を確認
Saugat Aryal, Mark T. Keane(参考訳) 近年,eXplainable AI(XAI)では,ブラックボックスAIシステムの特徴入力の変更が,(通常は否定的な)意思決定結果にどのような変化をもたらすかを説明するために,"if-only"説明を用いたファクトファクトファクトが広く普及している。 さらに最近では、"even-if"の説明を用いた半事実が注目を集めている。 彼らは、AIシステムの意思決定結果を変える機能インプットの変更を解明し、より有益な会話を提案する可能性がある。 いくつかのセミファクトリアルメソッドは、クエリインスティスタンスに反ファクトリアルを使用してセミファクトリアル生産(いわゆる反ファクトリアルガイド方式)を導くが、他のメソッド(いわゆる反ファクトフリー方式)はそうではない。 そこで本研究では,5つの主要な指標を用いて7つのデータセット上で8つの半実数法を総合的にテストし,最善の半実数を求めるために逆実数指導が必要かどうかを判定する。 これらのテストの結果は、決定領域の他の側面の計算は、より優れた半現実的XAIをもたらすことを示唆している。

Recently, counterfactuals using "if-only" explanations have become very popular in eXplainable AI (XAI), as they describe which changes to feature-inputs of a black-box AI system result in changes to a (usually negative) decision-outcome. Even more recently, semi-factuals using "even-if" explanations have gained more attention. They elucidate the feature-input changes that do \textit{not} change the decision-outcome of the AI system, with a potential to suggest more beneficial recourses. Some semi-factual methods use counterfactuals to the query-instance to guide semi-factual production (so-called counterfactual-guided methods), whereas others do not (so-called counterfactual-free methods). In this work, we perform comprehensive tests of 8 semi-factual methods on 7 datasets using 5 key metrics, to determine whether counterfactual guidance is necessary to find the best semi-factuals. The results of these tests suggests not, but rather that computing other aspects of the decision space lead to better semi-factual XAI.
翻訳日:2024-03-05 15:49:27 公開日:2024-03-01
# カメラとグローバルポーズセンサの空間時空間校正

Joint Spatial-Temporal Calibration for Camera and Global Pose Sensor ( http://arxiv.org/abs/2403.00976v1 )

ライセンス: Link先を確認
Junlin Song, Antoine Richard, Miguel Olivares-Mendez(参考訳) ロボット工学において、モーションキャプチャシステムはローカライゼーションアルゴリズムの精度を測定するために広く使われている。 さらに、このインフラストラクチャは、視覚的な(慣性的な)slam動的初期化の評価、マルチオブジェクト追跡、自動アノテーションなど、他のコンピュータビジョンタスクにも使用することができる。 しかし、最適に機能するためには、カメラとグローバルポーズセンサーの間に正確で信頼性の高い時空間キャリブレーションパラメータが必要である。 本研究では,これらのキャリブレーションパラメータを推定する新しい2つの手法を提案する。 まず,高い精度と一貫性を備えたオフラインターゲットベース手法を設計する。 空間時間パラメータ、カメラ固有のパラメータ、軌跡を同時に最適化する。 そこで本研究では,キャリブレーション対象を不要とし,時変空間-時間パラメータの推定を可能にするオンラインターゲットレス手法を提案する。 さらに,ターゲットレス手法の詳細な可観測性解析を行う。 観測可能性に関する理論的知見をシミュレーション実験により検証し,キャリブレーションのガイドラインを提供する。 最後に,従来のハンドアイキャリブレーション手法が動作しないハンドヘルド実世界データセットを用いて,提案手法の精度と一貫性を評価する。

In robotics, motion capture systems have been widely used to measure the accuracy of localization algorithms. Moreover, this infrastructure can also be used for other computer vision tasks, such as the evaluation of Visual (-Inertial) SLAM dynamic initialization, multi-object tracking, or automatic annotation. Yet, to work optimally, these functionalities require having accurate and reliable spatial-temporal calibration parameters between the camera and the global pose sensor. In this study, we provide two novel solutions to estimate these calibration parameters. Firstly, we design an offline target-based method with high accuracy and consistency. Spatial-temporal parameters, camera intrinsic, and trajectory are optimized simultaneously. Then, we propose an online target-less method, eliminating the need for a calibration target and enabling the estimation of time-varying spatial-temporal parameters. Additionally, we perform detailed observability analysis for the target-less method. Our theoretical findings regarding observability are validated by simulation experiments and provide explainable guidelines for calibration. Finally, the accuracy and consistency of two proposed methods are evaluated with hand-held real-world datasets where traditional hand-eye calibration method do not work.
翻訳日:2024-03-05 15:49:04 公開日:2024-03-01
# 設備ヘルスアセスメント:風力タービンの性能の時系列分析

Equipment Health Assessment: Time Series Analysis for Wind Turbine Performance ( http://arxiv.org/abs/2403.00975v1 )

ライセンス: Link先を確認
Jana Backhus, Aniruddha Rajendra Rao, Chandrasekar Venkatraman, Abhishek Padmanabhan, A.Vinoth Kumar, Chetan Gupta(参考訳) 本研究では,各種風力タービンのSCADAデータを用いて出力予測を行い,特に関数型ニューラルネットワーク(FNN)とLong Short-Term Memory(LSTM)ネットワークを用いる。 重要なイノベーションは、FNNとLSTMモデルのアンサンブルであり、それらの集合的学習に乗じている。 このアンサンブルアプローチは個々のモデルより優れ、安定かつ正確な出力予測を保証する。 さらに,風力タービンの性能劣化を検出する機械学習技術を適用し,積極的メンテナンス戦略と健康評価を可能にする。 その結果,各風力タービンの固有性が明らかとなり,最適予測のために調整モデルが必要となった。 これらの洞察は、人間のモデリングの労力を低く抑えるために、異なるタービンに自動化されたカスタマイズを提供することの重要性を強調している。 この分析で開発された手法は風力タービンに限らず、様々な機械の性能を予測し最適化するために拡張することができ、様々な産業分野における我々の研究の汎用性と適用性を強調している。

In this study, we leverage SCADA data from diverse wind turbines to predict power output, employing advanced time series methods, specifically Functional Neural Networks (FNN) and Long Short-Term Memory (LSTM) networks. A key innovation lies in the ensemble of FNN and LSTM models, capitalizing on their collective learning. This ensemble approach outperforms individual models, ensuring stable and accurate power output predictions. Additionally, machine learning techniques are applied to detect wind turbine performance deterioration, enabling proactive maintenance strategies and health assessment. Crucially, our analysis reveals the uniqueness of each wind turbine, necessitating tailored models for optimal predictions. These insight underscores the importance of providing automatized customization for different turbines to keep human modeling effort low. Importantly, the methodologies developed in this analysis are not limited to wind turbines; they can be extended to predict and optimize performance in various machinery, highlighting the versatility and applicability of our research across diverse industrial contexts.
翻訳日:2024-03-05 15:48:47 公開日:2024-03-01
# スパースディープニューラルネットワークのモチーフ分布と機能

Motif distribution and function of sparse deep neural networks ( http://arxiv.org/abs/2403.00974v1 )

ライセンス: Link先を確認
Olivia T. Zahn, Thomas L. Daniel, J. Nathan Kutz(参考訳) 我々は,ネットワークモチーフ理論を用いて,フィードフォワード,ディープニューラルネットワーク(DNN)の接続構造を特徴付ける。 トレーニングタスクやDNNの機能の特定のモチーフ分布が特徴的であるか,あるいはDNNの機能に対処するために,異なるパラメータで生体機械飛行制御系をシミュレートするために訓練された350個のDNNの接続構造を比較した。 第2次および第3次モチーフを数えるアルゴリズムを開発し,その有効性をz-scoreを用いて計算する。 dnnは、bustamante, et al. (2022) (すなわち、初期および最終状態空間入力から制御飛行に必要な制御を予測)における飛行ダイナミクスモデルの逆問題を解くために訓練され、反復的な刈り取りおよび再訓練アルゴリズムzahn, et al. (2022)によってスパース化される。 ネットワークパラメータのランダムな初期化にもかかわらず、強制された疎結合により、DNNはモチーフ分布によって特徴付けられる類似の接続パターンに収束する。 その結果,モチーフ分布にニューラルネットワーク関数をエンコードする方法が示唆され,機能や制御を知らせるための様々な実験が示唆された。

We characterize the connectivity structure of feed-forward, deep neural networks (DNNs) using network motif theory. To address whether a particular motif distribution is characteristic of the training task, or function of the DNN, we compare the connectivity structure of 350 DNNs trained to simulate a bio-mechanical flight control system with different randomly initialized parameters. We develop and implement algorithms for counting second- and third-order motifs and calculate their significance using their Z-score. The DNNs are trained to solve the inverse problem of the flight dynamics model in Bustamante, et al. (2022) (i.e., predict the controls necessary for controlled flight from the initial and final state-space inputs) and are sparsified through an iterative pruning and retraining algorithm Zahn, et al. (2022). We show that, despite random initialization of network parameters, enforced sparsity causes DNNs to converge to similar connectivity patterns as characterized by their motif distributions. The results suggest how neural network function can be encoded in motif distributions, suggesting a variety of experiments for informing function and control.
翻訳日:2024-03-05 15:48:28 公開日:2024-03-01
# 二元ガウスコプラ合成法 : CKD患者の早期透析予測のためのMLに基づく臨床診断支援システムのための新しいデータ拡張法

Binary Gaussian Copula Synthesis: A Novel Data Augmentation Technique to Advance ML-based Clinical Decision Support Systems for Early Prediction of Dialysis Among CKD Patients ( http://arxiv.org/abs/2403.00965v1 )

ライセンス: Link先を確認
Hamed Khosravi, Srinjoy Das, Abdullah Al-Mamun, Imtiaz Ahmed(参考訳) 疾病管理センターは、米国の成人3700万人以上が慢性腎臓病(CKD)に罹患していると推定している。 特に透析の必要性が増すと、患者の生活の質に大きな影響を及ぼす。 透析の早期予測は、患者の成果を大幅に改善し、医療提供者の時間的および情報的意思決定を支援するため、重要である。 しかし、早期透析予測のための効果的な機械学習(ML)ベースの臨床決定支援システム(CDSS)の開発は、データの不均衡性のために重要な課題となっている。 この課題に対処するため,本研究では,実世界のデータセット上での有効性を理解するために,様々なデータ拡張手法を評価する。 本稿では,BGCS (Binary Gaussian Copula Synthesis) という新しい手法を提案する。 BGCSはバイナリ医療データセット用に調整されており、元のデータの分布を反映した合成マイノリティデータの生成に優れています。 bgcsは、従来の透析患者検出法を上回ることで、早期透析予測を促進する。 最高のMLモデルであるRandom Forestでは、BCGSは72%の改善を達成し、最先端のAugmentationアプローチを上回った。 また,臨床医の意思決定支援を目的としたMLベースのCDSSを提案する。 決定木モデルを用いたCDSSは、患者の結果を改善し、重要な変数を特定し、臨床医が積極的に意思決定できるようにし、近い将来透析を必要とする可能性の高いCKD患者に対して効果的に治療計画を策定する。 包括的特徴分析と綿密なデータ準備を通じて,CDSSの透析予測が正確であるだけでなく,有効であることを確認し,CKDの管理と治療に有用なツールを提供する。

The Center for Disease Control estimates that over 37 million US adults suffer from chronic kidney disease (CKD), yet 9 out of 10 of these individuals are unaware of their condition due to the absence of symptoms in the early stages. It has a significant impact on patients' quality of life, particularly when it progresses to the need for dialysis. Early prediction of dialysis is crucial as it can significantly improve patient outcomes and assist healthcare providers in making timely and informed decisions. However, developing an effective machine learning (ML)-based Clinical Decision Support System (CDSS) for early dialysis prediction poses a key challenge due to the imbalanced nature of data. To address this challenge, this study evaluates various data augmentation techniques to understand their effectiveness on real-world datasets. We propose a new approach named Binary Gaussian Copula Synthesis (BGCS). BGCS is tailored for binary medical datasets and excels in generating synthetic minority data that mirrors the distribution of the original data. BGCS enhances early dialysis prediction by outperforming traditional methods in detecting dialysis patients. For the best ML model, Random Forest, BCGS achieved a 72% improvement, surpassing the state-of-the-art augmentation approaches. Also, we present a ML-based CDSS, designed to aid clinicians in making informed decisions. CDSS, which utilizes decision tree models, is developed to improve patient outcomes, identify critical variables, and thereby enable clinicians to make proactive decisions, and strategize treatment plans effectively for CKD patients who are more likely to require dialysis in the near future. Through comprehensive feature analysis and meticulous data preparation, we ensure that the CDSS's dialysis predictions are not only accurate but also actionable, providing a valuable tool in the management and treatment of CKD.
翻訳日:2024-03-05 15:48:05 公開日:2024-03-01
# MALTO at SemEval-2024 Task 6: Leveraging Synthetic Data for LLM Hallucination Detection

MALTO at SemEval-2024 Task 6: Leveraging Synthetic Data for LLM Hallucination Detection ( http://arxiv.org/abs/2403.00964v1 )

ライセンス: Link先を確認
Federico Borra, Claudio Savelli, Giacomo Rosso, Alkis Koudounas, Flavio Giobergia(参考訳) 自然言語生成(NLG)において、現代Large Language Models(LLM)は、流動的で不正確なアウトプットの生成や、流派中心のメトリクスへの依存など、いくつかの課題に直面している。 これはしばしば「幻覚」を示すニューラルネットワークにつながる。 SHROOMチャレンジは、生成されたテキストでこれらの幻覚を自動的に識別することに焦点を当てている。 そこで本研究では,自然言語推論 (nli) タスクに事前学習し,様々なデータセットに微調整された3つのモデルから,llm による疑似ラベルと文の再構成を組み込んだデータ拡張パイプラインと,投票アンサンブルという2つの重要なコンポーネントを導入する。

In Natural Language Generation (NLG), contemporary Large Language Models (LLMs) face several challenges, such as generating fluent yet inaccurate outputs and reliance on fluency-centric metrics. This often leads to neural networks exhibiting "hallucinations". The SHROOM challenge focuses on automatically identifying these hallucinations in the generated text. To tackle these issues, we introduce two key components, a data augmentation pipeline incorporating LLM-assisted pseudo-labelling and sentence rephrasing, and a voting ensemble from three models pre-trained on Natural Language Inference (NLI) tasks and fine-tuned on diverse datasets.
翻訳日:2024-03-05 15:47:34 公開日:2024-03-01
# 木レギュラー化管内埋め込み

Tree-Regularized Tabular Embeddings ( http://arxiv.org/abs/2403.00963v1 )

ライセンス: Link先を確認
Xuan Li, Yun Wang, Bo Li(参考訳) タブラルニューラルネットワーク(NN)は注目を浴びており、近年の進歩により、多くの公開データセット上のツリーベースモデルに対するパフォーマンスギャップが徐々に狭まりつつある。 メインストリームは、表層データに適合するNNの校正に重点を置いているが、同質な埋め込みの重要性を強調し、教師付き事前学習による表層入力の正規化に集中している。 具体的には、最近の研究(DeepTLF)を拡張し、事前訓練された木のアンサンブルの構造を利用して、生変数を単一のベクトル(T2V)またはトークンの配列(T2T)に変換する。 空間効率を損なうことなく、これらの双対埋め込みは、完全に接続されたまたは注意に基づくビルディングブロックを持つ標準的な表式NNによって消費される。 分岐分類タスクを用いた88個のOpenMLデータセットの定量的実験により,提案手法がツリーベースモデルとの違いをテーパーするだけでなく,先進的なNNモデルと比較した場合の性能と性能も向上することを確認した。 最も重要なのは、より堅牢性が向上し、テーブル型モダリティのためのスタンドアロンエンコーダとして簡単にスケールし、一般化することができることです。 コード: https://github.com/milanlx/tree-regularized-embedding。

Tabular neural network (NN) has attracted remarkable attentions and its recent advances have gradually narrowed the performance gap with respect to tree-based models on many public datasets. While the mainstreams focus on calibrating NN to fit tabular data, we emphasize the importance of homogeneous embeddings and alternately concentrate on regularizing tabular inputs through supervised pretraining. Specifically, we extend a recent work (DeepTLF) and utilize the structure of pretrained tree ensembles to transform raw variables into a single vector (T2V), or an array of tokens (T2T). Without loss of space efficiency, these binarized embeddings can be consumed by canonical tabular NN with fully-connected or attention-based building blocks. Through quantitative experiments on 88 OpenML datasets with binary classification task, we validated that the proposed tree-regularized representation not only tapers the difference with respect to tree-based models, but also achieves on-par and better performance when compared with advanced NN models. Most importantly, it possesses better robustness and can be easily scaled and generalized as standalone encoder for tabular modality. Codes: https://github.com/milanlx/tree-regularized-embedding.
翻訳日:2024-03-05 15:47:18 公開日:2024-03-01
# 物理科におけるデータサイエンス教育 : 実践コミュニティから学んだ教訓

Data Science Education in Undergraduate Physics: Lessons Learned from a Community of Practice ( http://arxiv.org/abs/2403.00961v1 )

ライセンス: Link先を確認
Karan Shah, Julie Butler, Alexis Knaub, An{\i}l Zengino\u{g}lu, William Ratcliff, Mohammad Soltanieh-ha(参考訳) 小規模な実験データポイントから、大規模で複雑なデータリポジトリや強力なデータ分析ツールに至るまで、多様なデータセットが利用可能になるにつれて、物理教育者が学生にデータを扱う能力を持たせることがますます重要になっている。 しかし、多くの教育者はこれらのスキルを教えるためにデータサイエンスに必要な訓練や専門知識を欠いている。 データサイエンス教育実践コミュニティ(data science education community of practice, dsecop)を創設し、さまざまな機関やバックグラウンドの大学院生や物理教育者を集めて、データサイエンスを学部物理学教育に統合する上で学んだベストプラクティスや教訓を共有しました。 本稿では,本実践コミュニティからの洞察と経験について紹介し,初等物理学カリキュラムにデータサイエンスを組み込むための重要な戦略と課題について述べる。 我々の目標は、データサイエンスを教育に統合し、次世代の物理学者をデータ駆動の世界に向けて準備する教育者へのガイダンスとインスピレーションを提供することです。

With the increasing availability of diverse datasets, ranging from small-scale experimental data points to large and complex data repositories and powerful data analysis tools, it is increasingly important that physics educators equip their students with the skills to work with data effectively. However, many educators may lack the necessary training and expertise in data science to teach these skills. To address this gap, we created the Data Science Education Community of Practice (DSECOP), bringing together graduate students and physics educators from different institutions and backgrounds to share best practices and lessons learned in integrating data science into undergraduate physics education. In this article, we present insights and experiences from this community of practice, highlighting key strategies and challenges in incorporating data science into the introductory physics curriculum. Our goal is to provide guidance and inspiration to educators who seek to integrate data science into their teaching, helping to prepare the next generation of physicists for a data-driven world.
翻訳日:2024-03-05 15:46:57 公開日:2024-03-01
# ブラジルの産業におけるソフトウェアアーキテクトの存在と実践 - 調査より

The Presence and the State-of-Practice of Software Architects in the Brazilian Industry - A Survey ( http://arxiv.org/abs/2403.00955v1 )

ライセンス: Link先を確認
Valdemar Vicente Graciano Neto, Diana Lorena Santos, Andrey Gon\c{c}alves Fran\c{c}a, Rafael Z. Frantz, Edson de Oliveira-Jr, Ahmad Mohsin, Mohamad Kassab(参考訳) コンテキスト: ソフトウェアアーキテクチャはソフトウェア品質に大きな影響を与えます。 したがって、アーキテクチャの設計、保守、進化を行うために割り当てられた専門家は、結果のアプリケーションに妥協しないように、特定の知識とスキルを持つ必要がある。 目的: 本研究の目的は,ブラジルにおけるソフトウェアアーキテクトの有無に関する企業の特性を理解することである。 方法:本研究では,ソフトウェアアーキテクトのプロファイルを持つ専門家のエビデンスを収集する手段として,説明統計とテーマ分析を用いて結果を分析する。 結果: 調査はブラジル24州に分布する105人の専門家のデータを収集した。 結果は明らかです (i)すべての企業がソフトウェアアーキテクトを持っているわけではない。 (二) ソフトウェアアーキテクトの活動を他の専門家が行う場合もある。 (iii)ソフトウェアアーキテクチャの専門家であっても、そのような専門家の職務を果たす他の役割を持つ企業がある。 結論: ソフトウェアアーキテクトとして雇用される専門家は、そのような活動を行う他の役割で雇用される者よりも高い給与を持つが、他の専門家の多くはソフトウェアアーキテクトに典型的な職務を担っている。

Context: Software architecture intensely impacts the software quality. Therefore, the professional assigned to carry out the design, maintenance and evolution of architectures needs to have certain knowledge and skills in order not to compromise the resulting application. Objective: The aim of this work is to understand the characteristics of the companies regarding the presence or absence of software architects in Brazil. Method: This work uses the Survey research as a means to collect evidence from professionals with the software architect profile, besides descriptive statistics and thematic analysis to analyze the results. Results: The study collected data from 105 professionals distributed in 24 Brazilian states. Results reveal that (i) not all companies have a software architect, (ii) in some cases, other professionals perform the activities of a software architect and (iii) there are companies that, even having a software architecture professional, have other roles also performing the duties of such a professional. Conclusions: Professionals hired as software architects have higher salaries than those hired in other roles that carry out such activity, although many of those other professionals still have duties that are typical of software architects.
翻訳日:2024-03-05 15:46:40 公開日:2024-03-01
# AutoRD:オントロジー強化大言語モデルに基づく希少疾患知識グラフ構築のための自動エンドツーエンドシステム

AutoRD: An Automatic and End-to-End System for Rare Disease Knowledge Graph Construction Based on Ontologies-enhanced Large Language Models ( http://arxiv.org/abs/2403.00953v1 )

ライセンス: Link先を確認
Lang Cao, Jimeng Sun, Adam Cross(参考訳) 目的:本研究の目的は,まれな疾患に関する臨床テキストから情報を自動的に抽出するAutoRDというエンドツーエンドシステムを作ることである。 本稿では,autordの性能評価のために様々な試験を行い,その強みと限界を強調した。 Materials and Methods: 私たちのシステムであるAutoRDは、データ前処理、エンティティ抽出、関係抽出、エンティティキャリブレーション、知識グラフ構築を含むソフトウェアパイプラインです。 我々はこれを、オープンソースの医療オントロジーから開発された大規模言語モデルと医療知識グラフを用いて実装する。 本システムは,知識グラフ構築におけるエンティティ抽出,関係抽出,および性能を定量的に評価する。 結果: AutoRD は F1 総合スコア 47.3% を獲得し、ベース LLM よりも 14.4% 向上した。 具体的には、総体抽出f1スコアが56.1%(rare_disease: 83.5%, disease: 35.8%, symptoms_and_sign: 46.1%, anaphor: 67.5%)、全体関係抽出f1スコアが38.6%(produces: 34.7%, increases_risk_of: 12.4%, is_acronym: 44.1%, is_synonym: 16.3%, anaphora: 57.5%)である。 定性的実験により,知識グラフ構築の性能が信頼できることを示した。 議論: AutoRD は希少な疾患検出における LLM の応用の可能性を示した。 この改善はontologies-enhanced llmの統合を含むいくつかの設計に起因している。 結論: AutoRD はテキストから稀な疾患情報を抽出して知識グラフを構築する自動エンドツーエンドシステムである。 オントロジ強化LSMを堅牢な医療知識基盤として使用する。 AutoRDの優れた性能は、医療におけるLSMの可能性を示す実験的評価によって検証されている。

Objectives: Our objective is to create an end-to-end system called AutoRD, which automates extracting information from clinical text about rare diseases. We have conducted various tests to evaluate the performance of AutoRD and highlighted its strengths and limitations in this paper. Materials and Methods: Our system, AutoRD, is a software pipeline involving data preprocessing, entity extraction, relation extraction, entity calibration, and knowledge graph construction. We implement this using large language models and medical knowledge graphs developed from open-source medical ontologies. We quantitatively evaluate our system on entity extraction, relation extraction, and the performance of knowledge graph construction. Results: AutoRD achieves an overall F1 score of 47.3%, a 14.4% improvement compared to the base LLM. In detail, AutoRD achieves an overall entity extraction F1 score of 56.1% (rare_disease: 83.5%, disease: 35.8%, symptom_and_sign: 46.1%, anaphor: 67.5%) and an overall relation extraction F1 score of 38.6% (produces: 34.7%, increases_risk_of: 12.4%, is_a: 37.4%, is_acronym: 44.1%, is_synonym: 16.3%, anaphora: 57.5%). Our qualitative experiment also demonstrates that the performance in constructing the knowledge graph is commendable. Discussion: AutoRD demonstrates the potential of LLM applications in rare disease detection. This improvement is attributed to several design, including the integration of ontologies-enhanced LLMs. Conclusion: AutoRD is an automated end-to-end system for extracting rare disease information from text to build knowledge graphs. It uses ontologies-enhanced LLMs for a robust medical knowledge base. The superior performance of AutoRD is validated by experimental evaluations, demonstrating the potential of LLMs in healthcare.
翻訳日:2024-03-05 15:46:22 公開日:2024-03-01
# MediSwift: 十分に訓練されたバイオメディカル言語モデル

MediSwift: Efficient Sparse Pre-trained Biomedical Language Models ( http://arxiv.org/abs/2403.00952v1 )

ライセンス: Link先を確認
Vithursan Thangarasa, Mahmoud Salem, Shreyas Saxena, Kevin Leong, Joel Hestness, Sean Lie(参考訳) 大規模言語モデル(LLM)は、通常、様々なドメインの一般的なソースデータに基づいて訓練されるが、近年のドメイン固有のLSMの急増により、ドメイン固有のタスク(例えばバイオメディシン)において汎用モデルより優れている可能性が示されている。 ドメイン固有の事前学習は効率を高め、より小さなモデルを生み出すが、これらのLSMを訓練する際の計算コストは高いままであり、予算の課題を呈している。 我々は、ドメイン固有のバイオメディカルテキストデータに対するスパース事前トレーニングを利用するバイオメディカルLMのスイートであるMediSwiftを紹介する。 トレーニング前段階で最大75%の重量幅を誘導することにより、トレーニングFLOPの2-2.5倍の削減を実現している。 特筆すべきは、全てのスパース事前訓練は、非構造的な重みのスパース性による加速効果を実現するために特別に設計されたcerebras cs-2システムで実行され、メディスウィフトモデルの効率が著しく向上したことである。 その後の密集した微調整と戦略的なソフトプロンプトにより、MediSwiftモデルは、バイオメディカルタスクにおいて、既存のLLMの最大7Bパラメータを上回り、PubMedQAのようなタスクにおける効率の正確さに関する新しいベンチマークを設定した。 この結果から,スパース事前学習と高密度微調整およびソフトプロンプトが,特殊領域における高性能で計算効率の良いモデル作成に有効であることがわかった。

Large language models (LLMs) are typically trained on general source data for various domains, but a recent surge in domain-specific LLMs has shown their potential to outperform general-purpose models in domain-specific tasks (e.g., biomedicine). Although domain-specific pre-training enhances efficiency and leads to smaller models, the computational costs of training these LLMs remain high, posing budgeting challenges. We introduce MediSwift, a suite of biomedical LMs that leverage sparse pre-training on domain-specific biomedical text data. By inducing up to 75% weight sparsity during the pre-training phase, MediSwift achieves a 2-2.5x reduction in training FLOPs. Notably, all sparse pre-training was performed on the Cerebras CS-2 system, which is specifically designed to realize the acceleration benefits from unstructured weight sparsity, thereby significantly enhancing the efficiency of the MediSwift models. Through subsequent dense fine-tuning and strategic soft prompting, MediSwift models outperform existing LLMs up to 7B parameters on biomedical tasks, setting new benchmarks w.r.t efficiency-accuracy on tasks such as PubMedQA. Our results show that sparse pre-training, along with dense fine-tuning and soft prompting, offers an effective method for creating high-performing, computationally efficient models in specialized domains.
翻訳日:2024-03-05 15:45:40 公開日:2024-03-01
# 非常に大きなドロップアウトで微調整する

Fine-tuning with Very Large Dropout ( http://arxiv.org/abs/2403.00946v1 )

ライセンス: Link先を確認
Jianyu Zhang, L\'eon Bottou(参考訳) 今日では、機械学習の実践が、トレーニングデータとテストデータが同じ分布に従うという考えと互換性があるというふりは不可能である。 何人かの著者が最近アンサンブル手法を用いて、複数のデータ分布を包含するシナリオが、最適な分配性能のために正規化して得られるものよりもリッチで、一般的な確率勾配手順の暗黙の空間バイアスの影響下で得られるものよりもリッチであることを示す。 この貢献は、このような豊かな表現を得るためにアンサンブルの代わりに非常に高いドロップアウト率の使用を調査している。 このような脱落率を用いてスクラッチから深層ネットワークを訓練することは事実上不可能であるが、そのような条件下での大規模事前学習モデルによる微調整は可能であるだけでなく、アンサンブルやモデルスープなどの重量平均法を超越した分配性能も達成できる。 この結果は,近年,微調整シナリオの重要性が著しく増しているため,実際的な意義がある。 この結果はまた、リッチ表現の性質と、比較的小さなデータセットを用いて大規模ネットワークを微調整する本質的に線形性に関する興味深い洞察を与える。

It is impossible today to pretend that the practice of machine learning is compatible with the idea that training and testing data follow the same distribution. Several authors have recently used ensemble techniques to show how scenarios involving multiple data distributions are best served by representations that are both richer than those obtained by regularizing for the best in-distribution performance, and richer than those obtained under the influence of the implicit sparsity bias of common stochastic gradient procedures. This contribution investigates the use of very high dropout rates instead of ensembles to obtain such rich representations. Although training a deep network from scratch using such dropout rates is virtually impossible, fine-tuning a large pre-trained model under such conditions is not only possible but also achieves out-of-distribution performances that exceed those of both ensembles and weight averaging methods such as model soups. This result has practical significance because the importance of the fine-tuning scenario has considerably grown in recent years. This result also provides interesting insights on the nature of rich representations and on the intrinsically linear nature of fine-tuning a large network using a comparatively small dataset.
翻訳日:2024-03-05 15:45:10 公開日:2024-03-01
# peacock: アラビア語のマルチモーダル大規模言語モデルとベンチマークのファミリー

Peacock: A Family of Arabic Multimodal Large Language Models and Benchmarks ( http://arxiv.org/abs/2403.01031v1 )

ライセンス: Link先を確認
Fakhraddin Alwajih, El Moatez Billah Nagoudi, Gagan Bhatia, Abdelrahman Mohamed, Muhammad Abdul-Mageed(参考訳) MLLM(Multimodal large language model)は、複雑な推論と言語理解を必要とする幅広いタスクにおいて有効であることが証明されている。 しかし、英語以外の言語では高品質なマルチモーダルリソースが不足しているため、MLLMの成功は英語ベースの設定に限られている。 これは、アラビア語のような大きな話者人口を持つ言語を含む、他の言語に匹敵するモデルを開発する上で大きな課題となる。 この課題を緩和するために、強いビジョンと言語能力を備えた、アラビア語のmllmの包括的ファミリーである \textit{peacock} を導入する。 総合的定性的・定量的解析により,様々な視覚的推論タスクにおけるモデルの性能を実証し,その新たな方言的可能性を示す。 さらに、アラビア語文化に関するmllmを評価するために特別に設計された新しいベンチマークである~\textit{henna}を紹介し、文化的に認識されたアラビア語mllmsの最初のストーンを設定します。

Multimodal large language models (MLLMs) have proven effective in a wide range of tasks requiring complex reasoning and linguistic comprehension. However, due to a lack of high-quality multimodal resources in languages other than English, success of MLLMs remains relatively limited to English-based settings. This poses significant challenges in developing comparable models for other languages, including even those with large speaker populations such as Arabic. To alleviate this challenge, we introduce a comprehensive family of Arabic MLLMs, dubbed \textit{Peacock}, with strong vision and language capabilities. Through comprehensive qualitative and quantitative analysis, we demonstrate the solid performance of our models on various visual reasoning tasks and further show their emerging dialectal potential. Additionally, we introduce ~\textit{Henna}, a new benchmark specifically designed for assessing MLLMs on aspects related to Arabic culture, setting the first stone for culturally-aware Arabic MLLMs.The GitHub repository for the \textit{Peacock} project is available at \url{https://github.com/UBC-NLP/peacock}.
翻訳日:2024-03-05 15:39:16 公開日:2024-03-01
# 測定制御量子ダイナミクスを用いた貯留層計算

Reservoir Computing Using Measurement-Controlled Quantum Dynamics ( http://arxiv.org/abs/2403.01024v1 )

ライセンス: Link先を確認
A.H.Abbas and Ivan S.Maksymov(参考訳) 物理貯留層計算(英: physical reservoir computing、rc)は、高度に非線形なカオス現象を予測するために物理システムのダイナミクスを用いる機械学習アルゴリズムである。 本稿では,キャビティ内のプローブ原子のダイナミクスを利用した量子rcシステムを提案する。 原子は特定の速度でコヒーレント駆動を経験し、測定制御された量子進化に繋がる。 提案する量子貯水池は,従来のrcアルゴリズムと比較して,少数の人工ニューロンを用いて高速かつ信頼性の高い予測を行うことができる。 計算量やエネルギー資源の限られた条件下での予測に近似計算手法が用いられる可能性があるため、理論上は貯水池の運用を検証し、エラー耐性アプリケーションで使用される可能性を示している。

Physical reservoir computing (RC) is a machine learning algorithm that employs the dynamics of a physical system to forecast highly nonlinear and chaotic phenomena. In this paper, we introduce a quantum RC system that employs the dynamics of a probed atom in a cavity. The atom experiences coherent driving at a particular rate, leading to a measurement-controlled quantum evolution. The proposed quantum reservoir can make fast and reliable forecasts using a small number of artificial neurons compared with the traditional RC algorithm. We theoretically validate the operation of the reservoir, demonstrating its potential to be used in error-tolerant applications, where approximate computing approaches may be used to make feasible forecasts in conditions of limited computational and energy resources.
翻訳日:2024-03-05 15:38:55 公開日:2024-03-01
# 格子ジョイントソースチャネル符号化によるフェデレーション学習

Federated Learning via Lattice Joint Source-Channel Coding ( http://arxiv.org/abs/2403.01023v1 )

ライセンス: Link先を確認
Seyed Mohammad Azimi-Abarghouyi, Lav R. Varshney(参考訳) 本稿では,デジタル通信による遠隔計算を実現するための汎用的なフェデレーション学習フレームワークについて紹介する。 デバイスでのチャネル状態情報に頼ることなく、このスキームはモデルパラメータの定量化とデバイスからの干渉の悪用の両方に格子符号を用いる。 サーバにおける新しい2層レシーバ構造は、集約のための格子点として量子化モデルパラメータの整数結合を確実に復号するように設計されている。 数値実験により提案手法の有効性が検証された。 チャネル条件とデバイスの不均一性によって生じる課題にもかかわらず、提案されたスキームは他の空中fl戦略を大きく上回っている。

This paper introduces a universal federated learning framework that enables over-the-air computation via digital communications, using a new joint source-channel coding scheme. Without relying on channel state information at devices, this scheme employs lattice codes to both quantize model parameters and exploit interference from the devices. A novel two-layer receiver structure at the server is designed to reliably decode an integer combination of the quantized model parameters as a lattice point for the purpose of aggregation. Numerical experiments validate the effectiveness of the proposed scheme. Even with the challenges posed by channel conditions and device heterogeneity, the proposed scheme markedly surpasses other over-the-air FL strategies.
翻訳日:2024-03-05 15:38:44 公開日:2024-03-01
# 対テロミッションのための自律ストライクUAV:課題と予備的解決

Autonomous Strike UAVs for Counterterrorism Missions: Challenges and Preliminary Solutions ( http://arxiv.org/abs/2403.01022v1 )

ライセンス: Link先を確認
Meshari Aljohani, Ravi Mukkamalai and Stephen Olariu(参考訳) 無人航空機(UAV)は、主にコスト効率、リスク低減、幅広い活動を行う能力のために、現代の戦争において重要な道具となっている。 この研究の焦点は、自律型UAVによる高度に価値の高い目標に対するストライキミッションの実施である。 台帳技術、スマートコントラクト、機械学習の発展により、これまで専門家や遠隔飛行型UAVが行っていた活動が実現可能になった。 本研究は,自律型UAVミッションの実施を成功させるために,課題の詳細な分析と予備的ソリューションを提供する。 具体的には、克服すべき課題を特定し、特定すべき課題に対する技術的解決策を提案する。 また、自律型UAVミッションの成功確率に関する分析式を導出し、UAVを訓練するための機械学習モデルを記述する。

Unmanned Aircraft Vehicles (UAVs) are becoming a crucial tool in modern warfare, primarily due to their cost-effectiveness, risk reduction, and ability to perform a wider range of activities. The use of autonomous UAVs to conduct strike missions against highly valuable targets is the focus of this research. Due to developments in ledger technology, smart contracts, and machine learning, such activities formerly carried out by professionals or remotely flown UAVs are now feasible. Our study provides the first in-depth analysis of challenges and preliminary solutions for successful implementation of an autonomous UAV mission. Specifically, we identify challenges that have to be overcome and propose possible technical solutions for the challenges identified. We also derive analytical expressions for the success probability of an autonomous UAV mission, and describe a machine learning model to train the UAV.
翻訳日:2024-03-05 15:38:33 公開日:2024-03-01
# 最適量子回路切断とクラスターハミルトニアンシミュレーションへの応用

Optimal quantum circuit cuts with application to clustered Hamiltonian simulation ( http://arxiv.org/abs/2403.01018v1 )

ライセンス: Link先を確認
Aram W. Harrow, Angus Lowe(参考訳) 量子計算におけるランダムな局所演算に絡み合う演算を置き換える手法について検討し,必要な実行数を増やすコストを生かした。 まず、絡み合うユニタリをランダムな局所ユニタリに置き換える「空間的切断」を考える。 本研究では,量子力学の絡み合い尺度である積範囲を提案し,ハダマール検定の2つのコピーに基づいて,この置換手順のコストを制限した。 先行研究の用語では、この手順は、Piveteau と Sutter の開問題に対処するいくつかのケースにおいて、最小 1-ノルムで準確率分解をもたらす。 応用として,クラスタ化されたハミルトニアンシミュレーションの限界を劇的に改善する。 具体的には、進化時間の強さの合計で、コスト指数で相互作用を除去できることを示す。 また,電線を「タイムライクカット」を用いて計測・前処理チャネルに置き換えるコストの上限も改善した。 出力確率を推定する際、一致した情報理論の下界を証明する。

We study methods to replace entangling operations with random local operations in a quantum computation, at the cost of increasing the number of required executions. First, we consider "space-like cuts" where an entangling unitary is replaced with random local unitaries. We propose an entanglement measure for quantum dynamics, the product extent, which bounds the cost in a procedure for this replacement based on two copies of the Hadamard test. In the terminology of prior work, this procedure yields a quasiprobability decomposition with minimal 1-norm in a number of cases, which addresses an open question of Piveteau and Sutter. As an application, we give dramatically improved bounds on clustered Hamiltonian simulation. Specifically we show that interactions can be removed at a cost exponential in the sum of their strengths times the evolution time. We also give an improved upper bound on the cost of replacing wires with measure-and-prepare channels using "time-like cuts". We prove a matching information-theoretic lower bound when estimating output probabilities.
翻訳日:2024-03-05 15:38:19 公開日:2024-03-01
# ピアレビュー討論におけるレビュアーの匿名化に関するランダム化比較試験

A Randomized Controlled Trial on Anonymizing Reviewers to Each Other in Peer Review Discussions ( http://arxiv.org/abs/2403.01015v1 )

ライセンス: Link先を確認
Charvi Rastogi, Xiangchen Song, Zhijing Jin, Ivan Stelmakh, Hal Daum\'e III, Kun Zhang, and Nihar B. Shah(参考訳) ピアレビューは、しばしばレビュアーが独立したレビューを提出し、続いて各論文のレビュアーの間で議論が行われる。 政策立案者の間での疑問は、論文のレビュアーが議論中に互いに匿名であるべきかどうかである。 私たちは、uai 2022カンファレンスでランダムに制御された試験を行うことで、この点に光を当てた。 匿名の議論と匿名の議論の2つに無作為にレビュアーと論文をランダムに分割し、すべてのレビュアーを匿名で調査し、以下の質問に答える。 1.レビュアーは条件の1つでもっと議論するだろうか。 匿名 (n = 2281, p = 0.051)。 2. 高齢者は非匿名の場合に最終決定に影響を及ぼすか。 そう、決定は匿名の状態での上級審査官のスコアに近い(n = 484, p = 0.04)。 3.レビュアーは条件の1つでより礼儀正しいか? 評論者の文章に基づく反応の丁寧さに有意な差はない(n = 1125, p = 0.72)。 4.レビュアーの自己報告体験は2つの条件で異なるか? 5問それぞれに有意差は認められなかった(n = 132, p > 0.3)。 5.レビュアーは一方の条件を他方よりも好むか? そう、匿名の議論には弱い選好がある(n = 159 と cohen の d = 0.25)。 6.レビュアー間で匿名性に関するポリシーを作る上で、レビュアーは何を重要と考えるか? 評論者の意見を述べる際の安心感は最も重要視され、評論者間の丁寧なコミュニケーションは最重要視された(n = 159)。 7. 議論における匿名性による不正行為は経験されているか? 回答者の約7%が肯定的に答えた(n = 167)。 本実験は, 評価基準の観点から, ピアレビュープロセスにおける匿名の議論設定を支持する証拠を明らかにする。

Peer review often involves reviewers submitting their independent reviews, followed by a discussion among reviewers of each paper. A question among policymakers is whether the reviewers of a paper should be anonymous to each other during the discussion. We shed light on this by conducting a randomized controlled trial at the UAI 2022 conference. We randomly split the reviewers and papers into two conditions--one with anonymous discussions and the other with non-anonymous discussions, and conduct an anonymous survey of all reviewers, to address the following questions: 1. Do reviewers discuss more in one of the conditions? Marginally more in anonymous (n = 2281, p = 0.051). 2. Does seniority have more influence on final decisions when non-anonymous? Yes, the decisions are closer to senior reviewers' scores in the non-anonymous condition than in anonymous (n = 484, p = 0.04). 3. Are reviewers more polite in one of the conditions? No significant difference in politeness of reviewers' text-based responses (n = 1125, p = 0.72). 4. Do reviewers' self-reported experiences differ across the two conditions? No significant difference for each of the five questions asked (n = 132 and p > 0.3). 5. Do reviewers prefer one condition over the other? Yes, there is a weak preference for anonymous discussions (n = 159 and Cohen's d= 0.25). 6. What do reviewers consider important to make policy on anonymity among reviewers? Reviewers' feeling of safety in expressing their opinions was rated most important, while polite communication among reviewers was rated least important (n = 159). 7. Have reviewers experienced dishonest behavior due to non-anonymity in discussions? Yes, roughly 7% of respondents answered affirmatively (n = 167). Overall, this experiment reveals evidence supporting an anonymous discussion setup in the peer-review process, in terms of the evaluation criteria considered.
翻訳日:2024-03-05 15:38:01 公開日:2024-03-01
# 悲観的アクタ批判におけるバリデーションバッファの1例

A Case for Validation Buffer in Pessimistic Actor-Critic ( http://arxiv.org/abs/2403.01014v1 )

ライセンス: Link先を確認
Michal Nauman, Mateusz Ostaszewski and Marek Cygan(参考訳) 本稿では,悲観的時間差目標を用いて更新された批評家ネットワークにおけるエラー蓄積問題について検討する。 本稿では,ベルマン値に類似した再帰的不動点モデルを用いて,評価誤差を近似できることを示す。 このような再帰的定義を用いて、悲観的批判が偏りのない条件を抽出する。 これらの知見に基づいて,検証ペシミズム学習(VPL)アルゴリズムを提案する。 VPLは、エージェントトレーニングを通してペシミズムのレベルを調整するために小さなバリデーションバッファを使用し、批判対象の近似誤差を最小限に抑えるように悲観的セットをセットする。 様々な動作・操作タスクに対する提案手法について検討し,サンプル効率と性能の改善について報告する。

In this paper, we investigate the issue of error accumulation in critic networks updated via pessimistic temporal difference objectives. We show that the critic approximation error can be approximated via a recursive fixed-point model similar to that of the Bellman value. We use such recursive definition to retrieve the conditions under which the pessimistic critic is unbiased. Building on these insights, we propose Validation Pessimism Learning (VPL) algorithm. VPL uses a small validation buffer to adjust the levels of pessimism throughout the agent training, with the pessimism set such that the approximation error of the critic targets is minimized. We investigate the proposed approach on a variety of locomotion and manipulation tasks and report improvements in sample efficiency and performance.
翻訳日:2024-03-05 15:37:31 公開日:2024-03-01
# 温暖化開始を考慮したPDE制御の政策最適化

Policy Optimization for PDE Control with a Warm Start ( http://arxiv.org/abs/2403.01005v1 )

ライセンス: Link先を確認
Xiangyuan Zhang, Saviz Mowlavi, Mouhacine Benosman, Tamer Ba\c{s}ar(参考訳) 次元の縮小は、減数次モデルを特定し、モデルベースの制御ソリューションを実装する"reduce-then-design"戦略を通じて非線形偏微分方程式(pde)を制御するのに不可欠である。 しかし、低次モデリングの不正確さは、特にカオスな振る舞いを持つPDEにおいて、制御性能を著しく低下させる可能性がある。 この問題に対処するために、ポリシー最適化(PO)ステップで省エネ設計手順を強化する。 POステップはモデルベースのコントローラを微調整し、次元減少からモデリングエラーを補う。 この拡張により、全体戦略がreduce-then-design-then-adaptに移行し、モデルベースのコントローラがpoのウォームスタートとして機能する。 具体的には,PDE状態と特定の一定目標を線形2次コストで整列することを目的としたPDEの状態フィードバックトラッキング制御について検討する。 広範にわたる実験により,POのいくつかのイテレーションは,モデルベースコントローラの性能を大幅に向上させることができることを示す。 我々の手法は、エンドツーエンドの強化学習を用いたPDE制御に代わる費用対効果を提供する。

Dimensionality reduction is crucial for controlling nonlinear partial differential equations (PDE) through a "reduce-then-design" strategy, which identifies a reduced-order model and then implements model-based control solutions. However, inaccuracies in the reduced-order modeling can substantially degrade controller performance, especially in PDEs with chaotic behavior. To address this issue, we augment the reduce-then-design procedure with a policy optimization (PO) step. The PO step fine-tunes the model-based controller to compensate for the modeling error from dimensionality reduction. This augmentation shifts the overall strategy into reduce-then-design-then-adapt, where the model-based controller serves as a warm start for PO. Specifically, we study the state-feedback tracking control of PDEs that aims to align the PDE state with a specific constant target subject to a linear-quadratic cost. Through extensive experiments, we show that a few iterations of PO can significantly improve the model-based controller performance. Our approach offers a cost-effective alternative to PDE control using end-to-end reinforcement learning.
翻訳日:2024-03-05 15:37:19 公開日:2024-03-01
# FlaKat: フレキテストのための機械学習ベースの分類フレームワーク

FlaKat: A Machine Learning-Based Categorization Framework for Flaky Tests ( http://arxiv.org/abs/2403.01003v1 )

ライセンス: Link先を確認
Shizhe Lin, Ryan Zheng He Liu, Ladan Tahvildari(参考訳) 不安定なテストは、ソフトウェアシステムに変更を加えることなく、非決定的に通過または失敗する可能性がある。 このようなテストは開発者が頻繁に遭遇し、テストスイートの信頼性を妨げる。 State-of-the-art Researchは、機械学習ソリューションを不安定なテスト検出に取り入れ、合理的に優れた精度を達成する。 さらに、自動化フレークテスト修理ソリューションの大部分は、特定の種類のフレークテスト用に設計されている。 この研究は、機械学習分類器を使用して、その根本原因を反映したフレキテストのカテゴリを高速かつ正確に予測する新しい分類フレームワークであるFraKatを提案する。 IFT(International Dataset of Flaky Test)におけるフレキテストカテゴリ間の不均衡に,サンプリング手法を適用した。 情報理論の観点から分類器の精度を測定するためにfdc(flakiness detection capacity)と呼ばれる新しい評価指標を提案し,その有効性の証明を提供する。 最終FDC結果は、どの分類器が最良のフレキネス分類をもたらすかに関するF1スコアとも一致している。

Flaky tests can pass or fail non-deterministically, without alterations to a software system. Such tests are frequently encountered by developers and hinder the credibility of test suites. State-of-the-art research incorporates machine learning solutions into flaky test detection and achieves reasonably good accuracy. Moreover, the majority of automated flaky test repair solutions are designed for specific types of flaky tests. This research work proposes a novel categorization framework, called FlaKat, which uses machine-learning classifiers for fast and accurate prediction of the category of a given flaky test that reflects its root cause. Sampling techniques are applied to address the imbalance between flaky test categories in the International Dataset of Flaky Test (IDoFT). A new evaluation metric, called Flakiness Detection Capacity (FDC), is proposed for measuring the accuracy of classifiers from the perspective of information theory and provides proof for its effectiveness. The final FDC results are also in agreement with F1 score regarding which classifier yields the best flakiness classification.
翻訳日:2024-03-05 15:36:59 公開日:2024-03-01
# llmに基づく臨床テキスト要約の評価を改善する属性構造化

Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries ( http://arxiv.org/abs/2403.01002v1 )

ライセンス: Link先を確認
Zelalem Gero, Chandan Singh, Yiqing Xie, Sheng Zhang, Tristan Naumann, Jianfeng Gao, Hoifung Poon(参考訳) 臨床テキストの要約は、健康決定と臨床研究において重要である。 大規模言語モデル(llm)は、正確な臨床テキスト要約を生成する可能性を示したが、特に健康などの安全クリティカルな領域において、接地と評価に関する問題に苦慮している。 テキスト要約を断続的に評価するのは困難である。 本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。 評価プロセスを,全体的要約評価の全タスクではなく,比較的単純な構成およびスコアリングタスクにLLMを使用する接地手順に分解する。 実験の結果,ASは臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善していることがわかった。 さらに、各アウトプットに対応する短いテキストスパンの形で解釈し、効率的な人間の監査を可能にし、リソース制約されたシナリオにおける臨床情報の信頼できる評価への道を開く。 コード、プロンプト、オープンソースベンチマークをhttps://github.com/microsoft/attribute-structuring.comでリリースしています。

Summarizing clinical text is crucial in health decision-support and clinical research. Large language models (LLMs) have shown the potential to generate accurate clinical text summaries, but still struggle with issues regarding grounding and evaluation, especially in safety-critical domains such as health. Holistically evaluating text summaries is challenging because they may contain unsubstantiated information. Here, we explore a general mitigation framework using Attribute Structuring (AS), which structures the summary evaluation process. It decomposes the evaluation process into a grounded procedure that uses an LLM for relatively simple structuring and scoring tasks, rather than the full task of holistic summary evaluation. Experiments show that AS consistently improves the correspondence between human annotations and automated metrics in clinical text summarization. Additionally, AS yields interpretations in the form of a short text span corresponding to each output, which enables efficient human auditing, paving the way towards trustworthy evaluation of clinical information in resource-constrained scenarios. We release our code, prompts, and an open-source benchmark at https://github.com/microsoft/attribute-structuring.
翻訳日:2024-03-05 15:36:45 公開日:2024-03-01
# サブタスク分解を伴う分散データセット蒸留

Distributional Dataset Distillation with Subtask Decomposition ( http://arxiv.org/abs/2403.00999v1 )

ライセンス: Link先を確認
Tian Qin, Zhiwei Deng, David Alvarez-Melis(参考訳) タスク固有のデータセットからトレーニングすると、ニューラルネットワークは何を学ぶのか? この知識を合成することは、データセット蒸留(Dataset Distillation)の背景にある中心的なアイデアであり、これは、大規模なデータセットを小さなインプットラベルのペア($\textit{prototypes}$)に圧縮するために使用することができる。 本稿では, 既存の試薬を蒸留する方法は, 蒸留ラベルから予期せぬ貯蔵コストを発生させるため, しばしば準最適であることを示す。 そこで我々は,最小限のクラスごとの統計量を用いてデータをエンコードし,デコーダと組み合わせてデータセットをコンパクトな分散表現に変換する$\textit{Distributional Dataset Distillation}$ (D3)を提案する。 これらの表現を学習するプロセスをスケールアップするために、データセットをサブセットに分解し、サブタスクの専門家を使って並列に蒸留し、それらを再集約する$\textit{Federated distillation}$を提案する。 提案手法は,TinyImageNet と ImageNet-1K の3次元計測値を用いて精度よく評価し,解析結果が得られたことを示す。 具体的には、クラスの2つのイメージのストレージ予算の下で、ImageNet-1Kで6.9\%の先行技術より優れています。

What does a neural network learn when training from a task-specific dataset? Synthesizing this knowledge is the central idea behind Dataset Distillation, which recent work has shown can be used to compress large datasets into a small set of input-label pairs ($\textit{prototypes}$) that capture essential aspects of the original dataset. In this paper, we make the key observation that existing methods distilling into explicit prototypes are very often suboptimal, incurring in unexpected storage cost from distilled labels. In response, we propose $\textit{Distributional Dataset Distillation}$ (D3), which encodes the data using minimal sufficient per-class statistics and paired with a decoder, we distill dataset into a compact distributional representation that is more memory-efficient compared to prototype-based methods. To scale up the process of learning these representations, we propose $\textit{Federated distillation}$, which decomposes the dataset into subsets, distills them in parallel using sub-task experts and then re-aggregates them. We thoroughly evaluate our algorithm on a three-dimensional metric and show that our method achieves state-of-the-art results on TinyImageNet and ImageNet-1K. Specifically, we outperform the prior art by $6.9\%$ on ImageNet-1K under the storage budget of 2 images per class.
翻訳日:2024-03-05 15:36:27 公開日:2024-03-01
# 複数選択タスクのための言語モデルからの予測は、スコアリング法の違い下では堅牢ではない

Predictions from language models for multiple-choice tasks are not robust under variation of scoring methods ( http://arxiv.org/abs/2403.00998v1 )

ライセンス: Link先を確認
Polina Tsvilodub, Hening Wang, Sharon Grosch and Michael Franke(参考訳) 本稿では,複数選択タスクに対する言語モデルの項目レベルの予測を系統的に比較する。 応答の自由生成に基づく解答オプションのスコアリング方法,様々な確率ベースのスコア,Quat-scaleスタイルの評価方法,および類似点の埋め込みを比較した。 実用的な言語解釈のケーススタディでは、LLM予測は単一のLLM内と異なるLLM内の両方において、メソッド選択のバリエーションの下では堅牢ではないことが判明した。 この変動性は、報告結果における研究者の自由度を示すため、その変動性に関する知識は、結果の堅牢性と研究の完全性を確保するために不可欠である。

This paper systematically compares different methods of deriving item-level predictions of language models for multiple-choice tasks. It compares scoring methods for answer options based on free generation of responses, various probability-based scores, a Likert-scale style rating method, and embedding similarity. In a case study on pragmatic language interpretation, we find that LLM predictions are not robust under variation of method choice, both within a single LLM and across different LLMs. As this variability entails pronounced researcher degrees of freedom in reporting results, knowledge of the variability is crucial to secure robustness of results and research integrity.
翻訳日:2024-03-05 15:36:02 公開日:2024-03-01
# プロンプト型大規模言語モデルの活用:ソーシャルメディア言語によるパンデミックの健康判断と成果の予測

Leveraging Prompt-Based Large Language Models: Predicting Pandemic Health Decisions and Outcomes Through Social Media Language ( http://arxiv.org/abs/2403.00994v1 )

ライセンス: Link先を確認
Xiaohan Ding, Buse Carik, Uma Sushmitha Gunturi, Valerie Reyna, and Eugenia H. Rho(参考訳) 我々は,ソーシャルメディア言語パターンと全国保健結果の傾向との関連性を検討するために,プロンプトベースのLCMを用いた多段階推論フレームワークを提案する。 効果的な健康コミュニケーションにおける因果的コヒーレンスの重要性を強調するファジィ・トラス理論を基礎として,プロンプトベースのLCMフレームワークであるRole-Based Incremental Coaching(RBIC)を導入する。 RBICを用いて、新型コロナウイルスの健康対策に反対するサブレディット議論からジストを系統的に抽出する(研究1)。 そして、これらのgistが重要なイベントをまたいでどのように進化するかを追跡し(study 2)、オンラインエンゲージメントに与える影響を評価します(study3)。 最後に,ジストの量とワクチン接種,入院などの国民健康の動向との関連について検討した(第4報)。 我々の研究は、ソーシャルメディアの言語パターンと実世界の公衆衛生トレンドを実証的に結びつける最初のものであり、公衆衛生コミュニケーション戦略の基礎となる重要なオンラインディスカッションパターンを特定する上で、プロンプトベースのLCMの可能性を強調している。

We introduce a multi-step reasoning framework using prompt-based LLMs to examine the relationship between social media language patterns and trends in national health outcomes. Grounded in fuzzy-trace theory, which emphasizes the importance of gists of causal coherence in effective health communication, we introduce Role-Based Incremental Coaching (RBIC), a prompt-based LLM framework, to identify gists at-scale. Using RBIC, we systematically extract gists from subreddit discussions opposing COVID-19 health measures (Study 1). We then track how these gists evolve across key events (Study 2) and assess their influence on online engagement (Study 3). Finally, we investigate how the volume of gists is associated with national health trends like vaccine uptake and hospitalizations (Study 4). Our work is the first to empirically link social media linguistic patterns to real-world public health trends, highlighting the potential of prompt-based LLMs in identifying critical online discussion patterns that can form the basis of public health communication strategies.
翻訳日:2024-03-05 15:35:47 公開日:2024-03-01
# 部分観察型シリーズチーム・ゲームにおける強化学習における情報構造の役割

On the Role of Information Structure in Reinforcement Learning for Partially-Observable Sequential Teams and Games ( http://arxiv.org/abs/2403.00993v1 )

ライセンス: Link先を確認
Awni Altabaa, Zhuoran Yang(参考訳) 逐次的意思決定問題において、情報構造は、異なる時点に発生するシステム内の事象がどのように影響するかを記述するものである。 古典的な強化学習モデル(例えば、MDP、POMDP、Dec-POMDP、POMG)は、非常に単純で非常に規則的な情報構造を仮定するが、予測状態表現のようなより一般的なモデルは、情報構造を明示的にモデル化しない。 対照的に、現実世界のシーケンシャルな意思決定問題は通常、システム変数の複雑で時間のかかる相互依存を伴い、情報構造のリッチで柔軟な表現を必要とする。 本稿では,情報構造の明示的表現が,強化学習問題を解析・解決する重要な要素である,という観点から論じる。 本稿では,情報構造を明示的に表現した新しい強化学習モデルを提案する。 これにより,逐次的意思決定問題のよりリッチな解析が可能となり,アルゴリズム設計の調整が容易になる。 特に、情報構造のDAG表現のグラフ理論的解析により、シーケンシャルな意思決定問題の観測可能なダイナミクスの「複雑さ」を特徴づける。 この分析における中心的な量は、将来の観測から過去の観測を$d$-に分離する最小の変数集合である。 さらに,予測状態表現の一般化により,強化学習アルゴリズムを提案し,サンプル複雑性が情報構造によって部分的に決定されることを示す。 これにより、既知のトラクタビリティーの結果を回復し、一般的なシーケンシャルな意思決定問題における強化学習の新たな視点を与え、新たなトラクタブルな問題のクラスを特定する体系的な方法を提供する。

In a sequential decision-making problem, the information structure is the description of how events in the system occurring at different points in time affect each other. Classical models of reinforcement learning (e.g., MDPs, POMDPs, Dec-POMDPs, and POMGs) assume a very simple and highly regular information structure, while more general models like predictive state representations do not explicitly model the information structure. By contrast, real-world sequential decision-making problems typically involve a complex and time-varying interdependence of system variables, requiring a rich and flexible representation of information structure. In this paper, we argue for the perspective that explicit representation of information structures is an important component of analyzing and solving reinforcement learning problems. We propose novel reinforcement learning models with an explicit representation of information structure, capturing classical models as special cases. We show that this leads to a richer analysis of sequential decision-making problems and enables more tailored algorithm design. In particular, we characterize the "complexity" of the observable dynamics of any sequential decision-making problem through a graph-theoretic analysis of the DAG representation of its information structure. The central quantity in this analysis is the minimal set of variables that $d$-separates the past observations from future observations. Furthermore, through constructing a generalization of predictive state representations, we propose tailored reinforcement learning algorithms and prove that the sample complexity is in part determined by the information structure. This recovers known tractability results and gives a novel perspective on reinforcement learning in general sequential decision-making problems, providing a systematic way of identifying new tractable classes of problems.
翻訳日:2024-03-05 15:35:24 公開日:2024-03-01
# SELFI:ソーシャルナビゲーションのための強化学習による自律的自己改善

SELFI: Autonomous Self-Improvement with Reinforcement Learning for Social Navigation ( http://arxiv.org/abs/2403.00991v1 )

ライセンス: Link先を確認
Noriaki Hirose, Dhruv Shah, Kyle Stachowicz, Ajay Sridhar and Sergey Levine(参考訳) 体験と対話し、改善する自律的な自己改善ロボットは、ロボットシステムの現実的な展開の鍵となる。 本稿では,オンラインロボット体験を利用したオンライン学習手法であるSELFIを提案する。 SELFIは、オフラインモデルベースの学習の上にオンラインモデルフリー強化学習を適用して、両方の学習パラダイムの最高の部分を取り出す。 特にselfiは、オフライン事前トレーニングからオンラインモデルフリー強化学習で学んだq値に同じモデルベース学習目標を組み込むことで、オンライン学習プロセスを安定化する。 我々は,SELFIを複数の実環境において評価し,衝突回避の観点から,より社会的に適合した行動について報告する。 SELFIにより、歩行者のプリエンプティブ行動、小型で透明な物体の衝突回避、不均一な床面への移動回避など、人間の介入が少なくて便利なロボット動作を素早く学習することができる。 プロジェクトページ上で、細調整されたポリシーのパフォーマンスを示すための補足ビデオを提供する。

Autonomous self-improving robots that interact and improve with experience are key to the real-world deployment of robotic systems. In this paper, we propose an online learning method, SELFI, that leverages online robot experience to rapidly fine-tune pre-trained control policies efficiently. SELFI applies online model-free reinforcement learning on top of offline model-based learning to bring out the best parts of both learning paradigms. Specifically, SELFI stabilizes the online learning process by incorporating the same model-based learning objective from offline pre-training into the Q-values learned with online model-free reinforcement learning. We evaluate SELFI in multiple real-world environments and report improvements in terms of collision avoidance, as well as more socially compliant behavior, measured by a human user study. SELFI enables us to quickly learn useful robotic behaviors with less human interventions such as pre-emptive behavior for the pedestrians, collision avoidance for small and transparent objects, and avoiding travel on uneven floor surfaces. We provide supplementary videos to demonstrate the performance of our fine-tuned policy on our project page.
翻訳日:2024-03-05 15:34:54 公開日:2024-03-01
# サイクリック量子アニーリング:5000量子ビットスピンガラスにおける深い低エネルギー状態の探索

Cyclic Quantum Annealing: Searching for Deep Low-Energy States in 5000-Qubit Spin Glass ( http://arxiv.org/abs/2403.01034v1 )

ライセンス: Link先を確認
Hao Zhang, Kelly Boothby and Alex Kamenev(参考訳) 量子コンピュータは、様々な現実の最適化問題を解くための定性的なスピードアップを約束する。 後者はスピングラスの低エネルギー状態を見つけるタスクにマッピングできるが、これは超困難であることが知られている。 d-waveの5000量子ビット量子プロセッサを用いて、最近提案されている反復循環量子アニーリングアルゴリズム[1]が、記録時間で深い低エネルギー状態を見つけることができることを実証する。 また、スピングラスの低エネルギー景観において、小さな表面エネルギーを持つ連結クラスターのパワーロー分布のような複雑な構造を見つける。 これらの観測は最適化アルゴリズムをさらに改善するためのガイダンスを提供する。

Quantum computers promise a qualitative speedup in solving a broad spectrum of real-life optimization problems. The latter can be mapped onto the task of finding low-energy states of spin glasses, which is known to be exceedingly difficult. Using D-Wave's 5000-qubit quantum processor, we demonstrate that a recently proposed iterative cyclic quantum annealing algorithm[1] can find deep low-energy states in record time. We also find intricate structures in a low-energy landscape of spin glasses, such as a power-law distribution of connected clusters with a small surface energy. These observations offer guidance for further improvement of the optimization algorithms.
翻訳日:2024-03-05 15:25:35 公開日:2024-03-01
# 超伝導量子デバイスにおける電離放射線の除去

Abatement of Ionizing Radiation for Superconducting Quantum Devices ( http://arxiv.org/abs/2403.01032v1 )

ライセンス: Link先を確認
B. Loer (1), P. M. Harrington (2), B. Archambault (1), E. Fuller (1), B. Pierson (1), I. Arnquist (1), K. Harouaka (1), T. D. Schlieder (1), D. K. Kim (c), A. J. Melville (c), B. M. Niedzielski (3), J. K. Yoder (3), K. Serniak (2 and 3), W. D. Oliver (2 and 3), J. L. Orrell (1), R. Bunker (1), B. A. VanDevender (1), M. Warner (1) ((1) Pacific Northwest National Laboratory, (2) Research Laboratory of Electronics, Massachusetts Institute of Technology, (3) MIT Lincoln Laboratory)(参考訳) 電離放射線は超伝導量子回路の性能を低下させることが示されている。 本報告では、超伝導量子ビット実験プラットフォームにおける環境放射能の異なる源の期待される寄与を評価する。 典型的なクライオスタット内での放射能評価では, 包装や電気配線など, キュービットデバイスに最も近い実験材料を選択することが重要である。 我々は,宇宙線のフラックスを減少させる浅層地下施設(30m水相当)と,自然発生の放射線発生ガンマ線フラックスを除去するための鉛遮蔽クライオスタットを提案する。 この施設で動作している超伝導量子ビットデバイスは、典型的地上非シールド施設の速度に対して約20倍の相関多ビット誤差を生じさせる可能性があると予測した。 最後に,現在発生している直接検出ダークマター実験の限界まで,残留電離放射線率の低減に必要な全体的な設計改善について概説する。

Ionizing radiation has been shown to reduce the performance of superconducting quantum circuits. In this report, we evaluate the expected contributions of different sources of ambient radioactivity for typical superconducting qubit experiment platforms. Our assessment of radioactivity inside a typical cryostat highlights the importance of selecting appropriate materials for the experiment components nearest to qubit devices, such as packaging and electrical interconnects. We present a shallow underground facility (30-meter water equivalent) to reduce the flux of cosmic rays and a lead shielded cryostat to abate the naturally occurring radiogenic gamma-ray flux in the laboratory environment. We predict that superconducting qubit devices operated in this facility could experience a reduced rate of correlated multi-qubit errors by a factor of approximately 20 relative to the rate in a typical above-ground, unshielded facility. Finally, we outline overall design improvements that would be required to further reduce the residual ionizing radiation rate, down to the limit of current generation direct detection dark matter experiments.
翻訳日:2024-03-05 15:25:23 公開日:2024-03-01
# 完全逆数検出のための(ほぼ)局所的成長速度推定

Unfolding Local Growth Rate Estimates for (Almost) Perfect Adversarial Detection ( http://arxiv.org/abs/2212.06776v5 )

ライセンス: Link先を確認
Peter Lorenz, Margret Keuper and Janis Keuper(参考訳) 畳み込みニューラルネットワーク(CNN)は、多くの知覚的タスクにおける最先端のソリューションを定義する。 しかし、現在のCNNアプローチは、人間の目に準知覚できない状態でシステムを騙すために特別に作られた入力の敵の摂動に対して脆弱なままである。 近年、モデル硬化や明示的な防御機構の追加など、CNNをこのような攻撃から守るための様々なアプローチが提案されている。 これにより、ネットワークに小さな「検出器」が含まれ、真データと逆摂動を含むデータとを区別する二分分類タスクで訓練される。 本研究では,ネットワークの局所固有次元(LID)と敵攻撃の関係について,最近の知見を生かした,シンプルで軽量な検出器を提案する。 LID測度の再解釈といくつかの単純な適応に基づいて、敵検出の最先端をかなりのマージンで超越し、複数のネットワークやデータセットのF1スコアでほぼ完璧な結果を得る。 出典: https://github.com/adverML/multiLID

Convolutional neural networks (CNN) define the state-of-the-art solution on many perceptual tasks. However, current CNN approaches largely remain vulnerable against adversarial perturbations of the input that have been crafted specifically to fool the system while being quasi-imperceptible to the human eye. In recent years, various approaches have been proposed to defend CNNs against such attacks, for example by model hardening or by adding explicit defence mechanisms. Thereby, a small "detector" is included in the network and trained on the binary classification task of distinguishing genuine data from data containing adversarial perturbations. In this work, we propose a simple and light-weight detector, which leverages recent findings on the relation between networks' local intrinsic dimensionality (LID) and adversarial attacks. Based on a re-interpretation of the LID measure and several simple adaptations, we surpass the state-of-the-art on adversarial detection by a significant margin and reach almost perfect results in terms of F1-score for several networks and datasets. Sources available at: https://github.com/adverML/multiLID
翻訳日:2024-03-04 14:50:25 公開日:2024-03-01
# 変分高速フォワードによる変分位相推定

Variational Phase Estimation with Variational Fast Forwarding ( http://arxiv.org/abs/2211.16097v2 )

ライセンス: Link先を確認
Maria-Andreea Filip, David Mu\~noz Ramo, and Nathan Fitzpatrick(参考訳) サブスペース対角化法は、量子コンピュータによって効率よく得られる小さな行列を古典的に対角化することによって、基底状態や分子ハミルトニアンの励起状態にアクセスするための有望な手段として最近出現している。 最近提案された変分量子位相推定(VQPE)アルゴリズムは実時間進化状態の基底を使い、エネルギー固有値は単位行列 U = exp(-iHt) から直接得ることができる。 本稿では、任意の分子系に対する回路ベースのVQPEの実装を報告し、H2, H3+, H6分子の性能とコストを評価する。 また、変分高速フォワード(VFF)を用いて、VQPEで使用する時間進化回路の量子深さを減少させる。 実時間発展状態への忠実度が低い場合でも、近似はハミルトニアン対角化のよい基礎となることを示す。 高忠実度の場合、近似ユニタリUは正確なVQPEの線形コストを保ち、代わりに対角化可能であることを示す。

Subspace diagonalisation methods have appeared recently as promising means to access the ground state and some excited states of molecular Hamiltonians by classically diagonalising small matrices, whose elements can be efficiently obtained by a quantum computer. The recently proposed Variational Quantum Phase Estimation (VQPE) algorithm uses a basis of real time-evolved states, for which the energy eigenvalues can be obtained directly from the unitary matrix U = exp(-iHt), which can be computed with cost linear in the number of states used. In this paper, we report a circuit-based implementation of VQPE for arbitrary molecular systems and assess its performance and costs for the H2, H3+ and H6 molecules. We also propose using Variational Fast Forwarding (VFF) to decrease to quantum depth of time-evolution circuits for use in VQPE. We show that the approximation provides a good basis for Hamiltonian diagonalisation even when its fidelity to the true time evolved states is low. In the high fidelity case, we show that the approximate unitary U can be diagonalised instead, preserving the linear cost of exact VQPE.
翻訳日:2024-03-04 14:50:06 公開日:2024-03-01
# impnet: コンパイル型ニューラルネットワークにおけるインセプタブルおよびブラックボックス検出不能バックドア

ImpNet: Imperceptible and blackbox-undetectable backdoors in compiled neural networks ( http://arxiv.org/abs/2210.00108v4 )

ライセンス: Link先を確認
Tim Clifford, Ilia Shumailov, Yiren Zhao, Ross Anderson, Robert Mullins(参考訳) 機械学習に対する初期のバックドア攻撃は、攻撃と防衛開発で武器競争を開始した。 防衛隊はその後、モデル内のバックドアを検知したり、取り除いたりできる能力を示した。 これらの防御は、訓練手順の訓練データ、モデル、または整合性を検査することで機能する。 本研究では,データ準備とモデルトレーニングの段階でのセーフガードを回避して,コンパイル中にバックドアを追加できることを示す。 攻撃者は、コンパイル中に既存の重みベースのバックドアを挿入できるだけでなく、ImpNetのような新しい重みに依存しないバックドアも挿入できる。 これらのバックドアは、まだ存在していないため、トレーニングやデータ準備プロセス中に検出できない。 次に、ImpNetを含むいくつかのバックドアが、挿入され、他の場所で削除されるステージにおいてのみ確実に検出できることを示します。 我々は、MLモデルのセキュリティには、データ、モデルアーキテクチャ、コンパイラ、ハードウェア仕様を含む、技術パイプライン全体の保証が必要であると結論付けている。

Early backdoor attacks against machine learning set off an arms race in attack and defence development. Defences have since appeared demonstrating some ability to detect backdoors in models or even remove them. These defences work by inspecting the training data, the model, or the integrity of the training procedure. In this work, we show that backdoors can be added during compilation, circumventing any safeguards in the data preparation and model training stages. The attacker can not only insert existing weight-based backdoors during compilation, but also a new class of weight-independent backdoors, such as ImpNet. These backdoors are impossible to detect during the training or data preparation processes, because they are not yet present. Next, we demonstrate that some backdoors, including ImpNet, can only be reliably detected at the stage where they are inserted and removing them anywhere else presents a significant challenge. We conclude that ML model security requires assurance of provenance along the entire technical pipeline, including the data, model architecture, compiler, and hardware specification.
翻訳日:2024-03-04 14:49:04 公開日:2024-03-01
# 大規模ネットワークシステムにおける並列MARLの分散影響強化ローカルシミュレータ

Distributed Influence-Augmented Local Simulators for Parallel MARL in Large Networked Systems ( http://arxiv.org/abs/2207.00288v2 )

ライセンス: Link先を確認
Miguel Suau, Jinke He, Mustafa Mert \c{C}elikok, Matthijs T. J. Spaan, Frans A. Oliehoek(参考訳) サンプルの複雑さが高いため、今日では強化学習を成功させるにはシミュレーションが不可欠である。 しかし、現実世界の多くの問題は非常に複雑なダイナミクスを示し、フルスケールのシミュレーションを計算的に遅くする。 本稿では,多数のエージェントからなる大規模ネットワークシステムを複数のローカルコンポーネントに分解し,独立に並列に動作するシミュレータを別々に構築する方法を示す。 異なるローカルコンポーネントが互いに与える影響を監視するため、各シミュレータは実軌道上で定期的に訓練される学習モデルを備えている。 実験の結果,シミュレーションを異なるプロセスに分散させることで,大規模なマルチエージェントシステムをわずか数時間で学習できるだけでなく,同時学習の悪影響を軽減できることがわかった。

Due to its high sample complexity, simulation is, as of today, critical for the successful application of reinforcement learning. Many real-world problems, however, exhibit overly complex dynamics, which makes their full-scale simulation computationally slow. In this paper, we show how to decompose large networked systems of many agents into multiple local components such that we can build separate simulators that run independently and in parallel. To monitor the influence that the different local components exert on one another, each of these simulators is equipped with a learned model that is periodically trained on real trajectories. Our empirical results reveal that distributing the simulation among different processes not only makes it possible to train large multi-agent systems in just a few hours but also helps mitigate the negative effects of simultaneous learning.
翻訳日:2024-03-04 14:48:30 公開日:2024-03-01
# 2次元量子スピン系における翻訳不変性から生じるSPT指標

SPT indices emerging from translation invariance in two dimensional quantum spin systems ( http://arxiv.org/abs/2202.11758v6 )

ライセンス: Link先を確認
Tijl Jappens(参考訳) 2次元量子スピン系に対するオンサイト$G$(ここで$G$は任意の有限群)対称性を持つSPT相を考える。 すると、一方向の変換不変性を課し、$H^3(G,\mathbb{T})$-valued index の上に \cite{ogata2021h3gmathbb} で構築された $H^2(G,\mathbb{T})$-valued index が出現することを観察する。 また, 2 方向の変換不変性が与えられた場合, 期待される $h^3(g,\mathbb{t})\oplus h^2(g,\mathbb{t})\oplus h^2(g,\mathbb{t})$ valued index に加えて, $h^1(g,\mathbb{t})$-valued index が出現することを示した。

We consider SPT-phases with on-site $G$ (where $G$ is any finite group) symmetry for two-dimensional quantum spin systems. We then impose translation invariance in one direction and observe that on top of the $H^3(G,\mathbb{T})$-valued index constructed in \cite{ogata2021h3gmathbb}, an additional $H^2(G,\mathbb{T})$-valued index emerges. We also show that if we impose translation invariance in two directions, on top of the expected $H^3(G,\mathbb{T})\oplus H^2(G,\mathbb{T})\oplus H^2(G,\mathbb{T})$ valued index, an additional $H^1(G,\mathbb{T})$-valued index emerges.
翻訳日:2024-03-04 14:48:17 公開日:2024-03-01
# ハイブリッドトライによるメモリ効率のよいシーケンシャルパターンマイニング

Memory-Efficient Sequential Pattern Mining with Hybrid Tries ( http://arxiv.org/abs/2202.06834v2 )

ライセンス: Link先を確認
Amin Hosseininasab, Willem-Jan van Hoeve, Andre A. Cire(参考訳) 現代のデータセットのサイズが指数関数的に増加するにつれて、このような大規模データセットを処理できる効率的なマイニングアルゴリズムの需要はますます強くなっている。 本稿では,大規模データセットのメモリボトルネックに直面する知識発見の基本的なトピックである逐次パターンマイニング(SPM)のメモリ効率向上手法を開発する。 提案手法は,再帰的パターンを活用し,データセットをメモリにコンパクトに格納する新しいハイブリッドトライデータ構造と,このコンパクト表現からパターンを効果的に抽出する対応するマイニングアルゴリズムを含む。 実生活におけるテストインスタンスの数値結果から,技術状況と比較して,メモリ消費88%,小~中規模のデータセットの計算時間41%が平均的に向上していることがわかった。 さらに,このアルゴリズムは256gbのシステムメモリ内に存在する大規模データセットに対して,唯一のspmアプローチとして注目されている。

As modern data sets continue to grow exponentially in size, the demand for efficient mining algorithms capable of handling such large data sets becomes increasingly imperative. This paper develops a memory-efficient approach for Sequential Pattern Mining (SPM), a fundamental topic in knowledge discovery that faces a well-known memory bottleneck for large data sets. Our methodology involves a novel hybrid trie data structure that exploits recurring patterns to compactly store the data set in memory; and a corresponding mining algorithm designed to effectively extract patterns from this compact representation. Numerical results on real-life test instances show an average improvement of 88% in memory consumption and 41% in computation time for small to medium-sized data sets compared to the state of the art. Furthermore, our algorithm stands out as the only capable SPM approach for large data sets within 256GB of system memory.
翻訳日:2024-03-04 14:47:54 公開日:2024-03-01
# InceptionXML: 短いテキストのエクストリーム分類のための同期負サンプリングを備えた軽量フレームワーク

InceptionXML: A Lightweight Framework with Synchronized Negative Sampling for Short Text Extreme Classification ( http://arxiv.org/abs/2109.07319v3 )

ライセンス: Link先を確認
Siddhant Kharbanda, Atmadeep Banerjee, Akash Palrecha, Devaansh Gupta, Rohit Babbar(参考訳) ショートテキスト極端分類と呼ばれる多数のターゲットラベルに対するショートテキストデータの自動アノテーションは、関連する検索の予測や製品推奨タスクなど、多くのアプリケーションを見出している。 本稿では,検索やレコメンデーションタスクで発生する短文クエリにおける単語順の欠如に対して,軽量で強力で堅牢な畳み込みアーキテクチャInceptionXMLを提案する。 従来のテキスト分類にcnnで適用される単語次元ではなく、埋め込み次元に沿って操作を再キャストすることにより畳み込みを適用する効果を示す。 また,数百万のラベルを用いたデータセットへのモデル拡張に向けて,最近提案されている動的ハードネガティブマイニング手法の欠点を改善したinceptionxml+フレームワークを提案する。 インセプションXML+は推論時間を半分に短縮するだけでなく、モデルサイズの点で従来の最先端のAstecよりも桁違いに小さい。 提案するモデルでは、一般的なベンチマークデータセットで既存のアプローチをすべて上回っています。

Automatic annotation of short-text data to a large number of target labels, referred to as Short Text Extreme Classification, has found numerous applications including prediction of related searches and product recommendation tasks. In this paper, we propose a convolutional architecture InceptionXML which is light-weight, yet powerful, and robust to the inherent lack of word-order in short-text queries encountered in search and recommendation tasks. We demonstrate the efficacy of applying convolutions by recasting the operation along the embedding dimension instead of the word dimension as applied in conventional CNNs for text classification. Towards scaling our model to datasets with millions of labels, we also propose InceptionXML+ framework which improves upon the shortcomings of the recently proposed dynamic hard-negative mining technique for label shortlisting by synchronizing the label-shortlister and extreme classifier. InceptionXML+ not only reduces the inference time to half but is also an order of magnitude smaller than previous state-of-the-art Astec in terms of model size. Through our proposed models, we outperform all existing approaches on popular benchmark datasets.
翻訳日:2024-03-04 14:47:39 公開日:2024-03-01
# アジャイルコーチの役割: アジャイルのパフォーマンスへの影響に対するコーチング

The Agile Coach Role: Coaching for Agile Performance Impact ( http://arxiv.org/abs/2010.15738v3 )

ライセンス: Link先を確認
Viktoria Stray, Anastasiia Tkalich, Nils Brede Moe(参考訳) アジャイル企業では、スピードとアドバンテージを得るためにアジャイルコーチを導入することがますます一般的になっています。 Spotifyの成功に続いて、アジャイルコーチの役割はタスクと責任の観点から分岐しているが、この役割がどのように実践されているかについての調査はほとんど行われていない。 本稿では,10社のアジャイルコーチに対する19の半構造化インタビューを通じて,アジャイルコーチの役割について検討する。 私たちは、アジャイルプロジェクトでコーチが持つタスク、価値のある特性、スキル、ツール、そしてアジャイルコーチングの実現者としての役割を説明します。 私たちの調査結果は、アジャイルコーチがチームや組織レベルで機能していることを示しています。 アジャイルチームの努力、戦略、知識、スキルに影響を与えます。 アジャイルコーチの最も重要な特徴は、強調され、人々指向で、耳を傾け、外交的、永続的であることです。 例えば、アジャイルコーチにチーム内外の必要な組織的変化を実装する権限を与えるような企業です。

It is increasingly common to introduce agile coaches to help gain speed and advantage in agile companies. Following the success of Spotify, the role of the agile coach has branched out in terms of tasks and responsibilities, but little research has been conducted to examine how this role is practiced. This paper examines the role of the agile coach through 19 semistructured interviews with agile coaches from ten different companies. We describe the role in terms of the tasks the coach has in agile projects, valuable traits, skills, tools, and the enablers of agile coaching. Our findings indicate that agile coaches perform at the team and organizational levels. They affect effort, strategies, knowledge, and skills of the agile teams. The most essential traits of an agile coach are being emphatic, people-oriented, able to listen, diplomatic, and persistent. We suggest empirically based advice for agile coaching, for example companies giving their agile coaches the authority to implement the required organizational changes within and outside the teams.
翻訳日:2024-03-04 14:47:21 公開日:2024-03-01
# シンプレクティックODE-Net:制御によるハミルトンダイナミクスの学習

Symplectic ODE-Net: Learning Hamiltonian Dynamics with Control ( http://arxiv.org/abs/1909.12077v5 )

ライセンス: Link先を確認
Yaofeng Desmond Zhong, Biswadip Dey, Amit Chakraborty(参考訳) 本稿では、観測状態軌跡から通常の微分方程式(ODE)によって与えられる物理系の力学を推論できるディープラーニングフレームワークであるSymlectic ODE-Net(SymODEN)を紹介する。 より少ないトレーニングサンプルでより良い一般化を実現するため、SymphODENは物理インフォームド方式で関連する計算グラフを設計することで、適切な帰納バイアスを組み込む。 特に、ハミルトニアンダイナミクスを制御によって強制し、その基盤となるダイナミクスを透明な方法で学習し、それを利用して、質量やポテンシャルエネルギーといったシステムの物理的側面についての洞察を得ることができる。 さらに, 一般化座標データが高次元空間に埋め込まれている場合や, 一般化運動量の代わりに速度データにアクセスする場合であっても, このハミルトン形式を強制できるパラメトリゼーションを提案する。 このフレームワークは、物理システムの解釈可能で物理的に一貫性のあるモデルを提供することによって、モデルベースの制御戦略を合成する新しい可能性を開く。

In this paper, we introduce Symplectic ODE-Net (SymODEN), a deep learning framework which can infer the dynamics of a physical system, given by an ordinary differential equation (ODE), from observed state trajectories. To achieve better generalization with fewer training samples, SymODEN incorporates appropriate inductive bias by designing the associated computation graph in a physics-informed manner. In particular, we enforce Hamiltonian dynamics with control to learn the underlying dynamics in a transparent way, which can then be leveraged to draw insight about relevant physical aspects of the system, such as mass and potential energy. In addition, we propose a parametrization which can enforce this Hamiltonian formalism even when the generalized coordinate data is embedded in a high-dimensional space or we can only access velocity data instead of generalized momentum. This framework, by offering interpretable, physically-consistent models for physical systems, opens up new possibilities for synthesizing model-based control strategies.
翻訳日:2024-03-04 14:47:08 公開日:2024-03-01
# ネットワーク監視のための多変量ビッグデータ解析における解釈可能な特徴学習

Interpretable Feature Learning in Multivariate Big Data Analysis for Network Monitoring ( http://arxiv.org/abs/1907.02677v3 )

ライセンス: Link先を確認
Jos\'e Camacho, Katarzyna Wasielewska, Rasmus Bro, David Kotz(参考訳) 通信ネットワークの性能を評価するのに有用な新しいデータ駆動モデルの開発への関心が高まっている。 ネットワーク監視やトラブルシューティングのような多くのアプリケーションでは、人間のオペレータが解釈できない場合、データモデルはほとんど使われません。 本稿では,最近提案された解釈可能なデータ解析ツールであるMultivarate Big Data Analysis(MBDA)方法論の拡張について述べる。 本拡張では,データ量が大きい場合にMBDAを適用するための基礎的なステップである特徴の自動導出の解を提案する。 ネットワーク監視のアプローチにより、解釈可能なモデルと対話的なモデルの利点と並列処理のパワーを組み合わせたデータ分析ワークフローを用いて、異なるネットワーク異常を検出して診断することができる。 拡張mbdaを2つのケーススタディに適用した: ベンチマークフローに基づく異常検出のための実トラフィックデータセット ugr'16 と、これまで知られている最長かつ最大のwi-fiトレースである dartmouth'18 である。

There is an increasing interest in the development of new data-driven models useful to assess the performance of communication networks. For many applications, like network monitoring and troubleshooting, a data model is of little use if it cannot be interpreted by a human operator. In this paper, we present an extension of the Multivariate Big Data Analysis (MBDA) methodology, a recently proposed interpretable data analysis tool. In this extension, we propose a solution to the automatic derivation of features, a cornerstone step for the application of MBDA when the amount of data is massive. The resulting network monitoring approach allows us to detect and diagnose disparate network anomalies, with a data-analysis workflow that combines the advantages of interpretable and interactive models with the power of parallel processing. We apply the extended MBDA to two case studies: UGR'16, a benchmark flow-based real-traffic dataset for anomaly detection, and Dartmouth'18, the longest and largest Wi-Fi trace known to date.
翻訳日:2024-03-04 14:46:50 公開日:2024-03-01
# 人工知能を用いたコミュニケーションの批判的評価

Critical Appraisal of Artificial Intelligence-Mediated Communication ( http://arxiv.org/abs/2305.11897v2 )

ライセンス: Link先を確認
Dara Tafazoli(参考訳) 過去20年間で、言語学習と教育における技術利用は著しく進歩し、現在はコンピュータ支援言語学習(CALL)と呼ばれている。 近年、人工知能(AI)のCALLへの統合は、教室内外での言語教育への伝統的なアプローチに大きな変化をもたらした。 この本の範囲に合わせて、言語教育におけるAIによるコミュニケーションの利点と欠点について考察する。 私は、教育におけるAIの簡単なレビューから始めます。 次に、ICALLを紹介し、AIを利用した自動音声認識(ASR)、機械翻訳(MT)、知能チューニングシステム(ITS)、AIを利用したチャットボット、拡張現実(XR)の可能性を評価した。 結論として,言語教師が CALL の教師教育や専門的開発に従事し,進化を続ける技術環境に追随し,教育効果を向上させることが重要であると論じる。

Over the last two decades, technology use in language learning and teaching has significantly advanced and is now referred to as Computer-Assisted Language Learning (CALL). Recently, the integration of Artificial Intelligence (AI) into CALL has brought about a significant shift in the traditional approach to language education both inside and outside the classroom. In line with this book's scope, I explore the advantages and disadvantages of AI-mediated communication in language education. I begin with a brief review of AI in education. I then introduce the ICALL and give a critical appraisal of the potential of AI-powered automatic speech recognition (ASR), Machine Translation (MT), Intelligent Tutoring Systems (ITSs), AI-powered chatbots, and Extended Reality (XR). In conclusion, I argue that it is crucial for language teachers to engage in CALL teacher education and professional development to keep up with the ever-evolving technology landscape and improve their teaching effectiveness.
翻訳日:2024-03-04 14:43:04 公開日:2024-03-01
# 決定図を用いたハミルトンシミュレーションに向けて

Towards Hamiltonian Simulation with Decision Diagrams ( http://arxiv.org/abs/2305.02337v2 )

ライセンス: Link先を確認
Aaron Sander, Lukas Burgholzer, Robert Wille(参考訳) 本稿では、量子状態と演算の表現における冗長性を利用した正確な表現である決定図(DD)を用いたハミルトンシミュレーションの新しい手法を提案する。 ハミルトニアンのシミュレーションは広く研究されてきたが、より大きく複雑なシステムへの拡張はしばしば困難であり、近似や新しいシミュレーション方法が必要かもしれない。 DDはハミルトンシミュレーションにはまだ適用されていない代替手段を提供する。 本研究では,この課題に対するDDの挙動について検討する。 そこで,本論文では,ddsの構成など,ddsの基本を概観し,このデータ構造にハミルトンシミュレーションの関連する操作がどのように実装されているかを述べる。 いくつかの評価と比較に基づいて、この相補的アプローチの性能に関する洞察を議論する。 これらの研究は、DDが確かに有望な新しいデータ構造を提供する可能性があることを示しています。

This paper proposes a novel approach to Hamiltonian simulation using Decision Diagrams (DDs), which are an exact representation based on exploiting redundancies in representations of quantum states and operations. While the simulation of Hamiltonians has been studied extensively, scaling these simulations to larger or more complex systems is often challenging and may require approximations or new simulation methods altogether. DDs offer such an alternative that has not yet been applied to Hamiltonian simulation. In this work, we investigate the behavior of DDs for this task. To this end, we review the basics of DDs such as their construction and present how the relevant operations for Hamiltonian simulation are implemented in this data structure -- leading to the first DD-based Hamiltonian simulation approach. Based on several series of evaluations and comparisons, we then discuss insights about the performance of this complementary approach. Overall, these studies show that DDs indeed may offer a promising new data structure which, for certain examples, can provide orders of magnitudes of improvement compared to the state-of-the-art, yet also comes with its own, fundamentally different, limitations.
翻訳日:2024-03-04 14:42:48 公開日:2024-03-01
# 一般整数線形計画法の新しい特徴と効率的な局所探索

New Characterizations and Efficient Local Search for General Integer Linear Programming ( http://arxiv.org/abs/2305.00188v4 )

ライセンス: Link先を確認
Peng Lin, Shaowei Cai, Mengchuan Zou, Jinkun Lin(参考訳) Integer linear programming (ILP) は、様々な実用的な組合せ最適化問題をモデル化し、産業や管理分野に大きな影響を及ぼす。 本研究は,境界解の概念を用いたILPの新たな特徴付けを提案する。 そこで本研究では,新しい特徴量に着目した局所探索アルゴリズムlocal-ilpを開発した。 本研究では,検索モード,改善モード,復元モードの3つのモードを切り替えるローカル検索フレームワークを提案する。 2つの新しい演算子、すなわち、適切なスコアリング関数に関連するタイト移動とリフト移動演算子を提案する。 異なるモードは異なる演算子を適用して異なる検索戦略を実現し、アルゴリズムは現在の検索状態に応じて3つのモードを切り替える。 そこで我々はローカル検索型ILPソルバであるLocal-ILPを開発した。 MIPLIBデータセットで行った実験は、大規模ハードILP問題の解法におけるアルゴリズムの有効性を示した。 優れた実現可能な解を迅速に見つけるという側面において、Local-ILPは最先端の商用解法であるGurobiと競合し相補的であり、最先端の非商用解法SCIPを著しく上回っている。 さらに,提案アルゴリズムは,MIPLIBオープンインスタンス6個に対する新しいレコードを確立する。 また,本アルゴリズムの理論的解析を行い,不要な領域への接近を回避できることを示した。

Integer linear programming (ILP) models a wide range of practical combinatorial optimization problems and significantly impacts industry and management sectors. This work proposes new characterizations of ILP with the concept of boundary solutions. Motivated by the new characterizations, we develop a new local search algorithm Local-ILP, which is efficient for solving general ILP validated on a large heterogeneous problem dataset. We propose a new local search framework that switches between three modes, namely Search, Improve, and Restore modes. Two new operators are proposed, namely the tight move and the lift move operators, which are associated with appropriate scoring functions. Different modes apply different operators to realize different search strategies and the algorithm switches between three modes according to the current search state. Putting these together, we develop a local search ILP solver called Local-ILP. Experiments conducted on the MIPLIB dataset show the effectiveness of our algorithm in solving large-scale hard ILP problems. In the aspect of finding a good feasible solution quickly, Local-ILP is competitive and complementary to the state-of-the-art commercial solver Gurobi and significantly outperforms the state-of-the-art non-commercial solver SCIP. Moreover, our algorithm establishes new records for 6 MIPLIB open instances. The theoretical analysis of our algorithm is also presented, which shows our algorithm could avoid visiting unnecessary regions.
翻訳日:2024-03-04 14:42:31 公開日:2024-03-01
# aspest: アクティブラーニングと選択的予測のギャップを埋める

ASPEST: Bridging the Gap Between Active Learning and Selective Prediction ( http://arxiv.org/abs/2304.03870v3 )

ライセンス: Link先を確認
Jiefeng Chen, Jinsung Yoon, Sayna Ebrahimi, Sercan Arik, Somesh Jha, Tomas Pfister(参考訳) 選択的予測は、不確定な場合の予測を省略する信頼できるモデルを学ぶことを目的としている。 これらの予測は、さらなる評価のために人間に延期することができる。 機械学習の永続的な課題として、多くの現実世界のシナリオでは、テストデータの分布はトレーニングデータとは異なる。 この結果、より正確な予測が得られず、しばしば人間への依存が増大し、困難で費用がかかる可能性がある。 アクティブラーニングは、最も有意義な例をクエリすることで、ラベリング全体の労力を下げることを目的としている。 選択的予測とアクティブラーニングは異なる角度からアプローチされ、それらの関係は失われている。 本研究では,移動対象領域からより有意義なサンプルをクエリし,精度とカバレッジを高めることを目的とした,新しい学習パラダイムであるactive selective predictionを提案する。 新たなパラダイムとして,モデルスナップショットのアンサンブルと,集約された出力を擬似ラベルとして自己学習する,シンプルで効果的なアプローチであるASPESTを提案する。 ドメインシフトに苦しむ多数の画像、テキスト、構造化データセットに関する大規模な実験は、ASPESTが選択的な予測とアクティブラーニング(MNIST$\to$SVHNベンチマークでは100のラベル付け予算で、ASPESTはAUACCメトリックを79.36%から88.84%に改善し、ループ内での人間のより最適な利用を可能にすることを実証している。

Selective prediction aims to learn a reliable model that abstains from making predictions when uncertain. These predictions can then be deferred to humans for further evaluation. As an everlasting challenge for machine learning, in many real-world scenarios, the distribution of test data is different from the training data. This results in more inaccurate predictions, and often increased dependence on humans, which can be difficult and expensive. Active learning aims to lower the overall labeling effort, and hence human dependence, by querying the most informative examples. Selective prediction and active learning have been approached from different angles, with the connection between them missing. In this work, we introduce a new learning paradigm, active selective prediction, which aims to query more informative samples from the shifted target domain while increasing accuracy and coverage. For this new paradigm, we propose a simple yet effective approach, ASPEST, that utilizes ensembles of model snapshots with self-training with their aggregated outputs as pseudo labels. Extensive experiments on numerous image, text and structured datasets, which suffer from domain shifts, demonstrate that ASPEST can significantly outperform prior work on selective prediction and active learning (e.g. on the MNIST$\to$SVHN benchmark with the labeling budget of 100, ASPEST improves the AUACC metric from 79.36% to 88.84%) and achieves more optimal utilization of humans in the loop.
翻訳日:2024-03-04 14:42:06 公開日:2024-03-01
# トランスフォーマー型深層学習による生後移植リスク因子の予測

A Transformer-Based Deep Learning Approach for Fairly Predicting Post-Liver Transplant Risk Factors ( http://arxiv.org/abs/2304.02780v2 )

ライセンス: Link先を確認
Can Li, Xiaoqian Jiang, Kai Zhang(参考訳) 肝移植は、末期肝疾患の患者の救命手順である。 肝移植には2つの大きな課題がある: ドナーに最適な患者を見つけることと、異なるサブポレーション間で移植株式を確保することである。 現在のMELDスコアシステムは、90日以内に臓器を受け取らなければ患者の死亡リスクを評価する。 しかし,移植後の合併症である心血管疾患や慢性拒絶反応など,移植後のリスク因子も考慮すべきである。 これらのリスクスコアの正確な予測は依然として大きな課題である。 本研究では,上記の課題を解決するために予測モデルを用いた。 具体的には,肝移植後の複数の危険因子を予測するディープラーニングモデルを提案する。 提案する深層ニューラルネットワークは,マルチタスク学習問題として定式化することにより,タスクバランス手法を活用して5つのリスクを同時に予測し,同等の性能を達成するように訓練した。 また,異なる個体群にまたがる予測的公平性を保証する新しいフェアネス・アキエビングアルゴリズムを提案した。 1987年から2018年までの米国の肝移植記録から得られた人口統計,臨床変数,検査値を含む160,360人の肝移植患者の電子健康記録を用いた。 このモデルの性能は、AUROCやAUPRCといった様々なパフォーマンス指標を用いて評価された。 実験の結果,タスクバランスを達成しつつ精度を維持しながら,マルチタスクモデルの成功を強調した。 このモデルではタスクの不一致が39%減少した。 フェアネス達成アルゴリズムのさらなる適用により、各リスクファクターにおけるすべてのセンシティブ属性(性別、年齢、人種、民族)の公平性格差が大幅に低減される。

Liver transplantation is a life-saving procedure for patients with end-stage liver disease. There are two main challenges in liver transplant: finding the best matching patient for a donor and ensuring transplant equity among different subpopulations. The current MELD scoring system evaluates a patient's mortality risk if not receiving an organ within 90 days. However, the donor-patient matching should also consider post-transplant risk factors, such as cardiovascular disease, chronic rejection, etc., which are all common complications after transplant. Accurate prediction of these risk scores remains a significant challenge. In this study, we used predictive models to solve the above challenges. Specifically, we proposed a deep-learning model to predict multiple risk factors after a liver transplant. By formulating it as a multi-task learning problem, the proposed deep neural network was trained to simultaneously predict the five post-transplant risks and achieve equal good performance by exploiting task-balancing techniques. We also proposed a novel fairness-achieving algorithm to ensure prediction fairness across different subpopulations. We used electronic health records of 160,360 liver transplant patients, including demographic information, clinical variables, and laboratory values, collected from the liver transplant records of the United States from 1987 to 2018. The model's performance was evaluated using various performance metrics such as AUROC and AUPRC. Our experiment results highlighted the success of our multitask model in achieving task balance while maintaining accuracy. The model significantly reduced the task discrepancy by 39%. Further application of the fairness-achieving algorithm substantially reduced fairness disparity among all sensitive attributes (gender, age group, and race/ethnicity) in each risk factor.
翻訳日:2024-03-04 14:41:39 公開日:2024-03-01
# DAE-Talker:拡散オートエンコーダを用いた高忠実度音声駆動音声生成

DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder ( http://arxiv.org/abs/2303.17550v5 )

ライセンス: Link先を確認
Chenpeng Du, Qi Chen, Xie Chen, Kai Yu(参考訳) 最近の研究は音声による音声音声生成に大きな進歩を遂げているが、生成したビデオの品質は実際の録音よりまだ遅れている。 この理由の1つは、人間の知識に基づいて設計され、顔の動きを正確に記述できない、顔のランドマークや3DMM係数のような手作りの中間表現を使用することである。 さらに、これらの手法には、これらの表現を抽出するための外部事前訓練モデルが必要である。 これらの制約に対処するため,拡散オートエンコーダ(DAE)から得られたデータ駆動型潜在表現を利用するDAE-Talkerを提案する。 DAEは、画像を潜伏ベクトルにエンコードする画像エンコーダと、画像から再構成するDDIM画像デコーダとを含む。 我々は,対話型ビデオフレームのdaeを訓練し,その潜在表現をコンフォーメータベースの音声2ラテントモデルの訓練対象として抽出する。 これにより、DAE-Talkerは、テンプレートビデオから所定のヘッドポーズに頼るのではなく、完全なビデオフレームを合成し、音声の内容に合わせて自然な頭部の動きを生成することができる。 また, ポーズ制御性のために, speech2latentにおけるポーズモデリングも導入する。 また,個々のフレームで訓練されたddim画像デコーダを用いて連続的な映像フレームを生成する新しい手法を提案する。 実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。 また,提案手法の有効性を分析し,DAE-Talkerのポーズ制御性を示す。

While recent research has made significant progress in speech-driven talking face generation, the quality of the generated video still lags behind that of real recordings. One reason for this is the use of handcrafted intermediate representations like facial landmarks and 3DMM coefficients, which are designed based on human knowledge and are insufficient to precisely describe facial movements. Additionally, these methods require an external pretrained model for extracting these representations, whose performance sets an upper bound on talking face generation. To address these limitations, we propose a novel method called DAE-Talker that leverages data-driven latent representations obtained from a diffusion autoencoder (DAE). DAE contains an image encoder that encodes an image into a latent vector and a DDIM image decoder that reconstructs the image from it. We train our DAE on talking face video frames and then extract their latent representations as the training target for a Conformer-based speech2latent model. This allows DAE-Talker to synthesize full video frames and produce natural head movements that align with the content of speech, rather than relying on a predetermined head pose from a template video. We also introduce pose modelling in speech2latent for pose controllability. Additionally, we propose a novel method for generating continuous video frames with the DDIM image decoder trained on individual frames, eliminating the need for modelling the joint distribution of consecutive frames directly. Our experiments show that DAE-Talker outperforms existing popular methods in lip-sync, video fidelity, and pose naturalness. We also conduct ablation studies to analyze the effectiveness of the proposed techniques and demonstrate the pose controllability of DAE-Talker.
翻訳日:2024-03-04 14:41:15 公開日:2024-03-01
# ランダムパラメータを持つ離散時間線形二次レギュレータのポリシー勾配法

Policy Gradient Methods for Discrete Time Linear Quadratic Regulator With Random Parameters ( http://arxiv.org/abs/2303.16548v2 )

ライセンス: Link先を確認
Deyue Li(参考訳) 本稿では,離散時間線形システムと二次基準に対する無限大地平線最適制御問題と,時間に対して独立かつ同一に分布するランダムパラメータについて検討する。 この一般的な設定では,強化学習手法であるポリシー勾配法を適用し,パラメータの統計情報の知識を必要とせずに最適制御を探索する。 本研究では,既存の結果よりも弱く,検証しやすい仮定に基づいて,状態プロセスの準ゲージ性を調査し,このアプローチに対する大域的線形収束保証を確立する。 この結果を示すために数値実験を行った。

This paper studies an infinite horizon optimal control problem for discrete-time linear system and quadratic criteria, both with random parameters which are independent and identically distributed with respect to time. In this general setting, we apply the policy gradient method, a reinforcement learning technique, to search for the optimal control without requiring knowledge of statistical information of the parameters. We investigate the sub-Gaussianity of the state process and establish global linear convergence guarantee for this approach based on assumptions that are weaker and easier to verify compared to existing results. Numerical experiments are presented to illustrate our result.
翻訳日:2024-03-04 14:40:45 公開日:2024-03-01
# データ拡張なしでディープオンラインクラスタリングの崩壊を防ぐ厳格な正規化

Hard Regularization to Prevent Deep Online Clustering Collapse without Data Augmentation ( http://arxiv.org/abs/2303.16521v3 )

ライセンス: Link先を確認
Louis Mahon, Thomas Lukasiewicz(参考訳) オンラインディープクラスタリング(英語: online deep clustering)とは、特徴抽出ネットワークとクラスタモデルを併用して、処理される各新しいデータポイントまたはバッチにクラスタラベルを割り当てることである。 オフラインメソッドよりも高速で汎用性は高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマップし、すべてひとつのクラスタに配置する、崩壊したソリューションに容易に到達できる。 既存のモデルの成功例では、この問題を回避するためにさまざまなテクニックを採用しており、そのほとんどがデータ拡張を必要とするか、あるいはクラスタ毎に平均的なソフト割り当てを同じものにすることを目的としている。 本研究では,データ拡張を必要とせず,既存の手法と異なり,ハード代入を規則化する手法を提案する。 ベイズフレームワークを用いることで、エンコーダネットワークのトレーニングに簡単に組み込むことができる直感的な最適化目標を導出する。 4つのイメージデータセットと1つのヒューマンアクティビティ認識データセットでテストすると、他の方法よりも一貫して崩壊を回避し、より正確なクラスタリングに繋がる。 また、ハードクラスタ割り当てを規則化する選択を正当化するさらなる実験や分析も行います。 コードはhttps://github.com/Lou1sM/online_hard_clusteringで入手できる。

Online deep clustering refers to the joint use of a feature extraction network and a clustering model to assign cluster labels to each new data point or batch as it is processed. While faster and more versatile than offline methods, online clustering can easily reach the collapsed solution where the encoder maps all inputs to the same point and all are put into a single cluster. Successful existing models have employed various techniques to avoid this problem, most of which require data augmentation or which aim to make the average soft assignment across the dataset the same for each cluster. We propose a method that does not require data augmentation, and that, differently from existing methods, regularizes the hard assignments. Using a Bayesian framework, we derive an intuitive optimization objective that can be straightforwardly included in the training of the encoder network. Tested on four image datasets and one human-activity recognition dataset, it consistently avoids collapse more robustly than other methods and leads to more accurate clustering. We also conduct further experiments and analyses justifying our choice to regularize the hard cluster assignments. Code is available at https://github.com/Lou1sM/online_hard_clustering.
翻訳日:2024-03-04 14:40:35 公開日:2024-03-01
# 特徴合成による絶対詩回帰のためのニューラルリファインメント

Neural Refinement for Absolute Pose Regression with Feature Synthesis ( http://arxiv.org/abs/2303.10087v2 )

ライセンス: Link先を確認
Shuai Chen, Yash Bhalgat, Xinghui Li, Jiawang Bian, Kejie Li, Zirui Wang, Victor Adrian Prisacariu(参考訳) APR(Absolute Pose Regression)メソッドは、ディープニューラルネットワークを使用して、RGBイメージからカメラのポーズを直接回帰する。 しかし、主要なAPRアーキテクチャは推論中にのみ2次元演算に依存するため、3次元幾何学的制約や事前制約が欠如しているため、ポーズ推定の精度が制限される。 本研究では,ロバストな特徴フィールドを用いた暗黙的な幾何学的制約を活用し,推論中に3d情報を使用するapr手法の能力を高めるテストタイムリファインメントパイプラインを提案する。 また,トレーニング中に3次元幾何学的特徴をエンコードし,テスト時に密集した新奇な特徴を直接描画してapr法を洗練する,ニューラル・フィーチャー・シンセサイザー(nefes)モデルも導入する。 モデルの堅牢性を高めるために,機能融合モジュールとプログレッシブトレーニング戦略を導入する。 提案手法は,屋内および屋外のデータセットに対して,最先端のシングルイメージAPR精度を実現する。

Absolute Pose Regression (APR) methods use deep neural networks to directly regress camera poses from RGB images. However, the predominant APR architectures only rely on 2D operations during inference, resulting in limited accuracy of pose estimation due to the lack of 3D geometry constraints or priors. In this work, we propose a test-time refinement pipeline that leverages implicit geometric constraints using a robust feature field to enhance the ability of APR methods to use 3D information during inference. We also introduce a novel Neural Feature Synthesizer (NeFeS) model, which encodes 3D geometric features during training and directly renders dense novel view features at test time to refine APR methods. To enhance the robustness of our model, we introduce a feature fusion module and a progressive training strategy. Our proposed method achieves state-of-the-art single-image APR accuracy on indoor and outdoor datasets.
翻訳日:2024-03-04 14:40:15 公開日:2024-03-01
# MuLTI: テキストガイド型マルチウェイサンプラーと複数選択モデルによる効率的なビデオ・ランゲージ理解

MuLTI: Efficient Video-and-Language Understanding with Text-Guided MultiWay-Sampler and Multiple Choice Modeling ( http://arxiv.org/abs/2303.05707v2 )

ライセンス: Link先を確認
Jiaqi Xu, Bo Liu, Yunkuo Chen, Mengli Cheng, Xing Shi(参考訳) ビデオ・アンド・言語理解は、ビデオ質問応答、テキスト・ビデオ検索、マルチラベル分類など、業界に様々な応用がある。 既存のビデオ・言語理解手法では、高計算コストを消費する重いマルチモーダルエンコーダと機能融合モジュールが一般的である。 特に、工業用途で一般的な密集したビデオフレームや長いテキストを扱うのが困難である。 本稿では,効率的な特徴融合と下流タスクへの迅速な適応を実現する,高精度かつ効率的な映像・言語理解モデル MuLTI を提案する。 具体的には, 適応プール残差マッピングと自己アテンションモジュールに基づくテキストガイド型マルチウェイサンプラーを設計し, 複数モードの特徴を抽出し, 計算コストを低減し, 従来のサンプリング器による性能劣化に対処する。 したがって、MuLTIは計算コストに制限のある長いシーケンスを処理できる。 そこで本研究では,モデルの性能をさらに向上させ,ビデオ質問応答における事前学習タスクの欠如を補うために,Multiple Choice Modelingという新たな事前学習タスクを提案する。 このタスクは、事前トレーニングと下流タスクのギャップを埋め、ビデオとテキストの機能を調整するモデルの能力を改善する。 MuLTIは効率的な機能融合モジュールと新しい事前トレーニングタスクから恩恵を受け、複数のデータセット上で最先端のパフォーマンスを達成する。 実装と事前訓練されたモデルがリリースされる。

Video-and-language understanding has a variety of applications in the industry, such as video question answering, text-video retrieval, and multi-label classification. Existing video-and-language understanding methods generally adopt heavy multi-modal encoders and feature fusion modules, which consume high computational costs. Specially, they have difficulty dealing with dense video frames or long text prevalent in industrial applications. This paper proposes MuLTI, a highly accurate and efficient video-and-language understanding model that achieves efficient and effective feature fusion and rapid adaptation to downstream tasks. Specifically, we design a Text-Guided MultiWay-Sampler based on adapt-pooling residual mapping and self-attention modules to sample long sequences and fuse multi-modal features, which reduces the computational costs and addresses performance degradation caused by previous samplers. Therefore, MuLTI can handle longer sequences with limited computational costs. Then, to further enhance the model's performance and fill in the lack of pretraining tasks in the video question answering, we propose a new pretraining task named Multiple Choice Modeling. This task bridges the gap between pretraining and downstream tasks and improves the model's ability to align video and text features. Benefiting from the efficient feature fusion module and the new pretraining task, MuLTI achieves state-of-the-art performance on multiple datasets. Implementation and pretrained models will be released.
翻訳日:2024-03-04 14:39:57 公開日:2024-03-01
# choi状態のモーメントによる非マルコフダイナミクスの評価

Assessing non-Markovian dynamics through moments of the Choi state ( http://arxiv.org/abs/2303.03615v3 )

ライセンス: Link先を確認
Bivas Mallick, Saheli Mukherjee, Ananda G. Maity, and A. S. Majumdar(参考訳) 開量子システムダイナミクスにおける非マルコフ効果は、通常、環境からシステムへの情報のバックフローを示し、ダイナミクスの完全な正の分割可能性の破れを示す。 我々は,Choi-matricesのモーメントに基づいて,情報バックフローを示す非マルコフ力学を目撃するための基準を提供する。 行列の正の半定性によって決定されるモーメント条件は、非マルコフ力学を記述するチョイ状態には成り立たない。 次に,提案する非マルコビアン性検出方式を支持する明示的な例を示す。 最後に、単位力学に対する非マルコフ性に関するモーメントに基づく測度が定式化される。

Non-Markovian effects in open quantum system dynamics usually manifest backflow of information from the environment to the system, indicating complete-positive divisibility breaking of the dynamics. We provide a criterion for witnessing such non-Markovian dynamics exhibiting information backflow, based on the moments of Choi-matrices. The moment condition determined by the positive semi-definiteness of a matrix, does not hold for a Choi-state describing non-Markovian dynamics. We then present some explicit examples in support of our proposed non-Markovianity detection scheme. Finally, a moment based measure of non-Markovianity for unital dynamics is formulated.
翻訳日:2024-03-04 14:39:02 公開日:2024-03-01
# SPEED:リニア・ヘテロセダスティックバンドの政策評価のための実験的設計

SPEED: Experimental Design for Policy Evaluation in Linear Heteroscedastic Bandits ( http://arxiv.org/abs/2301.12357v3 )

ライセンス: Link先を確認
Subhojyoti Mukherjee, Qiaomin Xie, Josiah Hanna, Robert Nowak(参考訳) 本稿では,線形帯域における政策評価のための最適データ収集の問題について検討する。 政策評価において、我々は目標ポリシーを与えられ、多武装バンディット環境で実行した場合に得られる期待報酬を見積もる。 本研究は,線形バンディット設定におけるヘテロシデスティック報酬ノイズを含む政策評価のための最適なデータ収集戦略に焦点を当てた最初の研究である。 まず,重み付き最小二乗推定の最適設計をヘテロシデスティック線形バンディット設定において定式化し,目標政策のmseを減少させる。 次に、この定式化を使用して、データ収集中のアクション毎のサンプルの最適な割り当てを導出します。 次に, 最適設計を追跡し, 最適設計に対する後悔を生じる新しいアルゴリズム速度(構造的ポリシー評価実験設計)を提案する。 最後に、oracleの戦略に匹敵する平均二乗誤差で、ターゲットのポリシーを実行するよりもかなり低い、というポリシー評価のスピードを実証的に検証します。

In this paper, we study the problem of optimal data collection for policy evaluation in linear bandits. In policy evaluation, we are given a target policy and asked to estimate the expected reward it will obtain when executed in a multi-armed bandit environment. Our work is the first work that focuses on such optimal data collection strategy for policy evaluation involving heteroscedastic reward noise in the linear bandit setting. We first formulate an optimal design for weighted least squares estimates in the heteroscedastic linear bandit setting that reduces the MSE of the value of the target policy. We then use this formulation to derive the optimal allocation of samples per action during data collection. We then introduce a novel algorithm SPEED (Structured Policy Evaluation Experimental Design) that tracks the optimal design and derive its regret with respect to the optimal design. Finally, we empirically validate that SPEED leads to policy evaluation with mean squared error comparable to the oracle strategy and significantly lower than simply running the target policy.
翻訳日:2024-03-04 14:38:52 公開日:2024-03-01
# データサイロ間のグラフ学習

Graph Learning Across Data Silos ( http://arxiv.org/abs/2301.06662v3 )

ライセンス: Link先を確認
Xiang Zhang and Qiao Wang(参考訳) データを分散クライアントに配置し,プライバシの懸念などの要因によりローカルクライアントからの離脱を禁止する,新規かつ実用的なシナリオにおいて,滑らかなグラフ信号からグラフトポロジーを推定する問題を考える。 このタスクの主な難しさは、データサイロの下で全クライアントの潜在的に異種データを利用する方法である。 そこで本研究では,まず,ローカルクライアント毎のパーソナライズグラフと,全クライアント毎のコンセンサスグラフを共同で学習する,自動重み付け型複数グラフ学習モデルを提案する。 パーソナライズされたグラフは局所的なデータ分布と一致し、データの多様性を緩和し、コンセンサスグラフはグローバル情報をキャプチャする。 さらに、モデルはコンセンサスグラフとの類似性に基づいて、局所グラフに対して適切な貢献重みを自動的に割り当てることができる。 次に,すべての生データがクライアントを離れることなくローカルに処理されるような問題を解くために,最適化アルゴリズムを考案する。 理論的には,提案するモデルとアルゴリズムに対する推定誤差境界と収束解析を定式化する。 最後に、合成データおよび実データに関する広範な実験を行い、本手法が対象シナリオにおいてグラフを効果的に学習できることを示す。

We consider the problem of inferring graph topology from smooth graph signals in a novel but practical scenario where data are located in distributed clients and prohibited from leaving local clients due to factors such as privacy concerns. The main difficulty in this task is how to exploit the potentially heterogeneous data of all clients under data silos. To this end, we first propose an auto-weighted multiple graph learning model to jointly learn a personalized graph for each local client and a single consensus graph for all clients. The personalized graphs match local data distributions, thereby mitigating data heterogeneity, while the consensus graph captures the global information. Moreover, the model can automatically assign appropriate contribution weights to local graphs based on their similarity to the consensus graph. We next devise a tailored algorithm to solve the induced problem, where all raw data are processed locally without leaving clients. Theoretically, we establish a provable estimation error bound and convergence analysis for the proposed model and algorithm. Finally, extensive experiments on synthetic and real data are carried out, and the results illustrate that our approach can learn graphs effectively in the target scenario.
翻訳日:2024-03-04 14:38:18 公開日:2024-03-01
# SureFED: 不確実性認識と外部検査によるロバストなフェデレーション学習

SureFED: Robust Federated Learning via Uncertainty-Aware Inward and Outward Inspection ( http://arxiv.org/abs/2308.02747v2 )

ライセンス: Link先を確認
Nasimeh Heydaribeni, Ruisi Zhang, Tara Javidi, Cristina Nita-Rotaru, Farinaz Koushanfar(参考訳) 本稿では,ビザンチン強固な連合学習のための新しいフレームワークであるsurefedを紹介する。 統計学的にロバストな量に依存する既存の防衛方法とは異なり、ステルスや衝突攻撃に対して脆弱であるため、SureFEDは良心的なクライアントのローカル情報を使って信頼を確立する。 surefedは不確実性を認識したモデル評価とイントロスペクションを使用して、中毒攻撃を防ぐ。 特に各クライアントは、ローカルデータセットのみを使用してクリーンなローカルモデルを独立にトレーニングし、モデル更新を評価するための参照ポイントとして機能する。 モデル不確実性を提供し、モデル評価プロセスにおいて重要な役割を果たすベイズモデルを活用する。 我々のフレームワークは、大多数のクライアントが侵入された場合でも堅牢性を示し、悪意のあるクライアントの数を知らないままであり、非IID設定に適しています。 理論上,分散線形回帰設定におけるデータに対するアルゴリズムのロバスト性およびモデル中毒攻撃を実証する。 ベンチマーク画像分類データを用いた概念実証評価は, 各種の凝固・非凝固データおよびモデル中毒攻撃下でのアートディフェンス法の現状よりも, SureFED が優れていることを示す。

In this work, we introduce SureFED, a novel framework for byzantine robust federated learning. Unlike many existing defense methods that rely on statistically robust quantities, making them vulnerable to stealthy and colluding attacks, SureFED establishes trust using the local information of benign clients. SureFED utilizes an uncertainty aware model evaluation and introspection to safeguard against poisoning attacks. In particular, each client independently trains a clean local model exclusively using its local dataset, acting as the reference point for evaluating model updates. SureFED leverages Bayesian models that provide model uncertainties and play a crucial role in the model evaluation process. Our framework exhibits robustness even when the majority of clients are compromised, remains agnostic to the number of malicious clients, and is well-suited for non-IID settings. We theoretically prove the robustness of our algorithm against data and model poisoning attacks in a decentralized linear regression setting. Proof-of Concept evaluations on benchmark image classification data demonstrate the superiority of SureFED over the state of the art defense methods under various colluding and non-colluding data and model poisoning attacks.
翻訳日:2024-03-04 14:33:26 公開日:2024-03-01
# 量子情報スクランブルの量子貯水池探索

Quantum reservoir probing of quantum information scrambling ( http://arxiv.org/abs/2308.00898v2 )

ライセンス: Link先を確認
Kaito Kobayashi and Yukitoshi Motome(参考訳) 量子情報のスクランブル(quantum information scrambling)は、初期局在化された量子情報が様々な自由度に広がるダイナミックなプロセスである。 長期の漸近的行動と早期の拡散に特に重点を置いて, 探索のための重要な指標として, アウト・オブ・タイム・オブ・オーダー・コレレータと三部情報の活用が試みられている。 オープンな質問は、スクランブルのダイナミクスの包括的明確化であり、中間時間体制をカバーしている。 本稿では,量子貯水池計算の考え方を拡張し,情報推定性能を通じて任意の時間に任意の自由度でスクランブルを統一的に診断する量子貯水池探索(qrp)を提案する。 パラダイム的な例として、一次元量子イジングチェーンについて研究する。 量子カオス系において,QRPは,自由フェルミオン系における準粒子媒介情報伝達と相関媒介情報伝達の区別に成功していることを示す。 さらに、読み出し演算子を体系的にスキャンすることにより、従来の方法よりも優れたシステム固有の情報伝達チャネルを特定できる。

Quantum information scrambling is the dynamical process where initially localized quantum information spreads over diverse degrees of freedom. Out-of-time-order correlators and tripartite mutual information have been utilized as key metrics to investigate scrambling, with a specific emphasis on the long-time asymptotic behavior and the early-time spreading. An open question is the comprehensive clarification of the dynamics of scrambling, covering the intermediate-time regime. Here, by extending the idea of quantum reservoir computing, we propose quantum reservoir probing (QRP) to diagnose scrambling in a unified manner for arbitrary degrees of freedom at arbitrary times, through information estimation performance. As a paradigmatic example, we investigate a one-dimensional quantum Ising chain. We show that the QRP successfully distinguishes between quasiparticle-mediated information propagation in a free fermion system and correlation-mediated scrambling in a quantum chaotic system. Furthermore, by systematically scanning the read-out operators, we can identify the system-specific information propagation channels, a distinct advantage over the conventional methods.
翻訳日:2024-03-04 14:32:43 公開日:2024-03-01
# 量子電池からのエネルギー抽出の究極的限界

Ultimate limits in energy extraction from quantum batteries ( http://arxiv.org/abs/2307.16746v3 )

ライセンス: Link先を確認
Aparajita Bhattacharyya, Kornikar Sen, Ujjwal Sen(参考訳) 完全正のトレース保存(cptp)マップによる量子電池からのエネルギー抽出は文献上非常によく研究されている。 CPTP-局所受動的状態の概念は自然に導かれ、CPTPマップを特定のサブシステムに適用することでエネルギーを抜き取ることができない二部体状態を特定する。 任意の次元において、ある状態がハミルトニアンに関してCPTP局所受動的であれば、同状態の任意の数のコピー(漸近的に大きいものを含む)もまたCPTP局所受動的であることを示す。 任意の二部状態が任意のハミルトニアンに対して、一方の党における NCPTP 演算を用いてエネルギーを供給できない必要十分条件を提供する。 さらに、非完全正のトレース保存(NCPTP)を用いたCPTP局所受動的状態から効率よくエネルギーを抽出できるが、CPTPマップの操作が不要な共有電池の同じ部分の物理的に実現可能であることを示す。 さらに、局所CPTP演算を用いて最大抽出可能エネルギーを提供し、次いで、物理的局所NCPTP写像を用いて最大値よりも優れた性能を持つ、明示的な状態と対応するハミルトンのクラスを示す。 我々は, 量子電池のエネルギー抽出におけるCPTPとCPTPの相対的状態と, 蒸留可能なエンタングルメントと, 漸近的な局所的なエンタングルメント操作のためのエンタングルメントコストの関連を類似して構築する。 CPTPパッシブおよびCPTP非パッシブ電池状態のためのCPTPマップで抽出可能な最大エネルギーの超過は、量子マップの非CPTP性の検出器として機能する。 さらに、任意の二成分状態とハミルトニアンが ncptp-local passive となるための独立した条件を提供する。

Energy extraction from quantum batteries by means of completely positive trace-preserving (CPTP) maps is quite well-studied in the literature. It naturally leads to the concept of CPTP-local passive states, which identify bipartite states from which no energy can be squeezed out by applying any CPTP map to a particular subsystem. We prove, for arbitrary dimension, that if a state is CPTP-local passive with respect to a Hamiltonian, then an arbitrary number of copies of the same state - including an asymptotically large one - is also CPTP-local passive. We provide a necessary and sufficient condition for an arbitrary bipartite state to be unable to supply any energy using NCPTP operations on one party with respect to an arbitrary but fixed Hamiltonian. We show further that energy can be extracted efficiently from these CPTP-local passive states employing non-completely positive trace-preserving (NCPTP) but still physically realizable maps on the same part of the shared battery on which operation of CPTP maps were useless. Moreover, we provide the maximum extractable energy using local-CPTP operations, and then, we present an explicit class of states and corresponding Hamiltonians, for which the maximum can be outperformed using physical local NCPTP maps. We build an analogy between the relative status of CPTP and NCPTP operations for energy extraction in quantum batteries, and the association of distillable entanglement with entanglement cost for asymptotic local manipulations of entanglement. The surpassing of the maximum energy extractable by NCPTP maps for CPTP passive as well as for CPTP non-passive battery states can act as detectors of non-CPTPness of quantum maps. Additionally, we provide an independent necessary condition for an arbitrary bipartite state and Hamiltonian to be NCPTP-local passive.
翻訳日:2024-03-04 14:32:21 公開日:2024-03-01
# 1次元材料中のエキシトン-ポーラロンの2次元コヒーレント分光の顕微鏡多体理論

Microscopic many-body theory of two-dimensional coherent spectroscopy of exciton-polarons in one-dimensional materials ( http://arxiv.org/abs/2306.11998v2 )

ライセンス: Link先を確認
Jia Wang, Hui Hu, Xia-Ji Liu(参考訳) 1次元(1次元)物質中のポーラロンのモデルのための二次元コヒーレント分光法(2dcs)の微視的多体理論を開発した。 我々の理論は、励起状態放出(ESE)、基底状態漂白(GSB)、励起状態吸収(ESA)の3つのプロセスからの貢献を考慮に入れている。 ESEおよびGSBコントリビューションは、1つの粒子ホール励起を持つチェビーのアンサッツを用いて正確に記述できるが、ESAプロセスは2つの不純物を含む多体固有状態に関する情報を必要とする。 これらの二重ポーラロン状態を計算するために、チェビーのアンサッツを1つの粒子ホール励起で拡張した。 この ansatz の有効性をbethe の ansatz を用いた正確な計算と比較し検証した。 以上の結果から,ESAの寄与はESEとGSBの貢献の合計をキャンセルし,スペクトル特性が低下することが明らかとなった。 しかし、強い相互作用では、ESAの寄与とESEとGSBの組み合わせは2DCSスペクトルで観測可能である。 これらの特徴は、ポーラロン間の相互作用に関する貴重な情報を提供する。 さらに,ポーラロン共鳴の量子コヒーレンスを特徴づける混合時間ダイナミクスについても検討した。 全体として、我々の理論はポーラロンの2DCSスペクトルを1次元材料で理解し解釈するための包括的な枠組みを提供し、相互作用とコヒーレントダイナミクスに光を当てている。

We have developed a microscopic many-body theory of two-dimensional coherent spectroscopy (2DCS) for a model of polarons in one-dimensional (1D) materials. Our theory accounts for contributions from all three processes: excited-state emission (ESE), ground-state bleaching (GSB), and excited-state absorption (ESA). While the ESE and GSB contributions can be accurately described using a Chevy's ansatz with one particle-hole excitation, the ESA process requires information about the many-body eigenstates involving two impurities. To calculate these double polaron states, we have extended the Chevy's ansatz with one particle-hole excitation. The validity of this ansatz was verified by comparing our results with an exact calculation using Bethe's ansatz. Our numerical results reveal that in the weak interaction limit, the ESA contribution cancels out the total ESE and GSB contributions, resulting in less significant spectral features. However, for strong interactions, the features of the ESA contribution and the combined ESE and GSB contributions remain observable in the 2DCS spectra. These features provide valuable information about the interactions between polarons. Additionally, we have investigated the mixing time dynamics, which characterize the quantum coherences of the polaron resonances. Overall, our theory provides a comprehensive framework for understanding and interpreting the 2DCS spectra of polarons in 1D materials, shedding light on their interactions and coherent dynamics.
翻訳日:2024-03-04 14:31:33 公開日:2024-03-01
# 民営化データから生成モデルを訓練する

Training generative models from privatized data ( http://arxiv.org/abs/2306.09547v2 )

ライセンス: Link先を確認
Daria Reshetova, Wei-Ning Chen, Ayfer \"Ozg\"ur(参考訳) ローカル差分プライバシーは、プライバシを保存するデータ収集の強力な方法である。 本稿では,差分民営化データに基づくGAN(Generative Adversarial Networks)の学習フレームワークを開発する。 最適輸送のエントロピー正則化 - 計算上の利点のためにしばしば活用されている文献における一般的な正則化手法 - は、民営化されたサンプルへのアクセスしか持たないにもかかわらず、ジェネレータが生のデータ分布を学習できることを示した。 同時に、これはパラメトリックレートでの高速な統計収束をもたらすことを証明している。 このことは、最適輸送のエントロピー正則化は、統計収束における民営化ノイズと次元の呪いの両方の効果を一意に緩和できることを示している。 実践における枠組みの有効性を裏付ける実験的な証拠を提供する。

Local differential privacy is a powerful method for privacy-preserving data collection. In this paper, we develop a framework for training Generative Adversarial Networks (GANs) on differentially privatized data. We show that entropic regularization of optimal transport - a popular regularization method in the literature that has often been leveraged for its computational benefits - enables the generator to learn the raw (unprivatized) data distribution even though it only has access to privatized samples. We prove that at the same time this leads to fast statistical convergence at the parametric rate. This shows that entropic regularization of optimal transport uniquely enables the mitigation of both the effects of privatization noise and the curse of dimensionality in statistical convergence. We provide experimental evidence to support the efficacy of our framework in practice.
翻訳日:2024-03-04 14:30:45 公開日:2024-03-01
# マルチモーダルaiにおけるデータ保護: クリップトレーニングにおける差分プライベートアプローチ

Safeguarding Data in Multimodal AI: A Differentially Private Approach to CLIP Training ( http://arxiv.org/abs/2306.08173v2 )

ライセンス: Link先を確認
Alyssa Huang, Peihan Liu, Ryumei Nakada, Linjun Zhang, Wanrong Zhang(参考訳) マルチモーダルAIの成功は、視覚・言語タスクにおけるデータのプライバシに関する懸念を引き起こしている。 CLIPは画像とテキストのジョイントトレーニングを通じてマルチモーダル学習に革命をもたらしたが、機密情報を意図せずに開示する可能性は、プライバシー保護機構の統合を必要とする。 本稿では,CLIP(Contrastive Language- Image Pretraining)モデルに差分的適応を導入し,精度を維持しつつ,プライバシー問題に効果的に対処する。 提案手法であるdp-clipは,画像分類や視覚的質問応答などの多様な視覚言語タスクを包含するベンチマークデータセット上で厳格に評価されている。 提案手法は標準の非プライベートCLIPモデルと同等の性能を維持していることを示す。 さらに,提案アルゴリズムを線形表現環境下で解析する。 我々は,本アルゴリズムの収束率を導出し,dp-sgd解析用文献に仮定した平滑性条件を損失関数が満たさない場合の実用性とプライバシのトレードオフを示す。

The surge in multimodal AI's success has sparked concerns over data privacy in vision-and-language tasks. While CLIP has revolutionized multimodal learning through joint training on images and text, its potential to unintentionally disclose sensitive information necessitates the integration of privacy-preserving mechanisms. We introduce a differentially private adaptation of the Contrastive Language-Image Pretraining (CLIP) model that effectively addresses privacy concerns while retaining accuracy. Our proposed method, Dp-CLIP, is rigorously evaluated on benchmark datasets encompassing diverse vision-and-language tasks such as image classification and visual question answering. We demonstrate that our approach retains performance on par with the standard non-private CLIP model. Furthermore, we analyze our proposed algorithm under linear representation settings. We derive the convergence rate of our algorithm and show a trade-off between utility and privacy when gradients are clipped per-batch and the loss function does not satisfy smoothness conditions assumed in the literature for the analysis of DP-SGD.
翻訳日:2024-03-04 14:30:32 公開日:2024-03-01
# 重み付き空間上の関数入力写像の大域的普遍近似

Global universal approximation of functional input maps on weighted spaces ( http://arxiv.org/abs/2306.03303v3 )

ライセンス: Link先を確認
Christa Cuchiero, Philipp Schmocker, Josef Teichmann(参考訳) 無限次元の重み付き空間上で定義されたいわゆる関数型入力ニューラルネットワークを導入し、無限次元の出力空間にも値を導入する。 この目的のために,入力重み付けされた空間を隠れた層にマッピングするために添加群を用い,非線形スカラー活性化関数を各ニューロンに適用し,最後にいくつかの線形読み出しによって出力を返す。 重み付き空間上のストーン・ワイエルシュトラスの定理に基づき、連続函数の重み付き空間に対する大域的普遍近似がコンパクト集合上の通常の近似を超えることを証明できる。 これは特に関数型入力ニューラルネットワークによる(予測的でない)経路空間汎関数の近似に適用される。 重み付きストーン・ワイエルシュトラスの定理のさらなる応用として、シグネチャの線型関数に対する大域的普遍近似結果が証明される。 また、ガウス過程回帰の観点をこの設定で導入し、署名核の再生核ヒルベルト空間がある種のガウス過程のキャメロン・マルティン空間であることを強調する。 これはシグネチャカーネル回帰の不確実性定量化への道を開く。

We introduce so-called functional input neural networks defined on a possibly infinite dimensional weighted space with values also in a possibly infinite dimensional output space. To this end, we use an additive family to map the input weighted space to the hidden layer, on which a non-linear scalar activation function is applied to each neuron, and finally return the output via some linear readouts. Relying on Stone-Weierstrass theorems on weighted spaces, we can prove a global universal approximation result on weighted spaces for continuous functions going beyond the usual approximation on compact sets. This then applies in particular to approximation of (non-anticipative) path space functionals via functional input neural networks. As a further application of the weighted Stone-Weierstrass theorem we prove a global universal approximation result for linear functions of the signature. We also introduce the viewpoint of Gaussian process regression in this setting and emphasize that the reproducing kernel Hilbert space of the signature kernels are Cameron-Martin spaces of certain Gaussian processes. This paves a way towards uncertainty quantification for signature kernel regression.
翻訳日:2024-03-04 14:29:36 公開日:2024-03-01
# Federated Domain Generalization: 調査

Federated Domain Generalization: A Survey ( http://arxiv.org/abs/2306.01334v2 )

ライセンス: Link先を確認
Ying Li, Xingwei Wang, Rongfei Zeng, Praveen Kumar Donta, Ilir Murturi, Min Huang, and Schahram Dustdar(参考訳) 機械学習は通常、トレーニングとテストは同一であり、データはトレーニングとテストのために中央に保存されているという仮定に依存している。 しかし、現実のシナリオでは、分布は著しく異なり、データは異なるデバイス、組織、エッジノードに分散されることが多い。 したがって、データが異なるドメインに分散する非知覚分布に効果的に一般化できるモデルを開発することが不可欠である。 この課題に対応するため、近年、フェデレーションドメイン一般化(fdg)への関心が高まっている。 FDGは、フェデレートラーニング(FL)とドメイン一般化(DG)の長所を組み合わせることで、複数のソースドメインがデータプライバシを保持しながら、目に見えないドメインに直接一般化できるモデルを協調的に学習できるようにする。 しかし、ドメインシフトの下でのフェデレーションモデルを一般化することは技術的に難しい問題であり、これまで研究領域で注目されてきた。 本稿では,この領域における最近の進歩に関する最初の調査を行う。 まず、従来の機械学習からドメイン適応やドメイン一般化までの開発プロセスについて議論し、fdgやそれに対応する形式的定義も提供する。 次に,最近の手法を,フェデレートされたドメインアライメント,データ操作,学習戦略,集約最適化の4つのクラスに分類し,各カテゴリに適したアルゴリズムを提案する。 次に、一般的に使用されるデータセット、アプリケーション、評価、ベンチマークを紹介する。 最後に,今後の研究課題について述べることで,この調査を締めくくっている。

Machine learning typically relies on the assumption that training and testing distributions are identical and that data is centrally stored for training and testing. However, in real-world scenarios, distributions may differ significantly and data is often distributed across different devices, organizations, or edge nodes. Consequently, it is imperative to develop models that can effectively generalize to unseen distributions where data is distributed across different domains. In response to this challenge, there has been a surge of interest in federated domain generalization (FDG) in recent years. FDG combines the strengths of federated learning (FL) and domain generalization (DG) techniques to enable multiple source domains to collaboratively learn a model capable of directly generalizing to unseen domains while preserving data privacy. However, generalizing the federated model under domain shifts is a technically challenging problem that has received scant attention in the research area so far. This paper presents the first survey of recent advances in this area. Initially, we discuss the development process from traditional machine learning to domain adaptation and domain generalization, leading to FDG as well as provide the corresponding formal definition. Then, we categorize recent methodologies into four classes: federated domain alignment, data manipulation, learning strategies, and aggregation optimization, and present suitable algorithms in detail for each category. Next, we introduce commonly used datasets, applications, evaluations, and benchmarks. Finally, we conclude this survey by providing some potential research topics for the future.
翻訳日:2024-03-04 14:29:19 公開日:2024-03-01
# スマートフォンデータによる社会的文脈の学習 : 各国の一般化と日常生活のモメンデーション

Learning About Social Context from Smartphone Data: Generalization Across Countries and Daily Life Moments ( http://arxiv.org/abs/2306.00919v5 )

ライセンス: Link先を確認
Aurel Ruben Mader, Lakmal Meegahapola, Daniel Gatica-Perez(参考訳) 人々の日常生活における社会的状況の展開を理解することは、ユーザの個人的目標、幸福、活動を支援するモバイルシステムの設計に関係している。 アンケートの代替として、スマートフォンのセンサデータを受動的に収集し、機械学習モデルで社会的状況(一人かどうか)を推測する研究がある。 しかし、現存する数少ない研究は、1つか2か国で特定の日常生活の機会と限られた地理的コホートに焦点を当てている。 これは、日常生活や複数の国への一般化の観点から、推論モデルがどのように機能するかの理解を制限している。 本稿では,5カ国(モンゴル,イタリア,デンマーク,イギリス,パラグアイ)の581人の若者から収集された216K以上の自己申告データを用いた,新しい大規模・マルチモーダルなスマートフォンセンシングデータセットを用いて,社会的文脈推論がセンサデータで可能かどうかを把握し,行動的・国レベルの多様性が推論に与える影響を明らかにする。 その結果、複数のセンサが社会状況に情報を与え、複数の国でパーソナライズされたモデル(すべての国のデータでトレーニングされ、テストされている)と国固有のモデル(国内でトレーニングされテストされている)が90%以上のauc以上の性能を達成できることがわかった。 これらの結果は、異なる国の社会的文脈推論モデルをよりよく理解するために、モバイルデータの多様性の重要性を裏付けるものである。

Understanding how social situations unfold in people's daily lives is relevant to designing mobile systems that can support users in their personal goals, well-being, and activities. As an alternative to questionnaires, some studies have used passively collected smartphone sensor data to infer social context (i.e., being alone or not) with machine learning models. However, the few existing studies have focused on specific daily life occasions and limited geographic cohorts in one or two countries. This limits the understanding of how inference models work in terms of generalization to everyday life occasions and multiple countries. In this paper, we used a novel, large-scale, and multimodal smartphone sensing dataset with over 216K self-reports collected from 581 young adults in five countries (Mongolia, Italy, Denmark, UK, Paraguay), first to understand whether social context inference is feasible with sensor data, and then, to know how behavioral and country-level diversity affects inferences. We found that several sensors are informative of social context, that partially personalized multi-country models (trained and tested with data from all countries) and country-specific models (trained and tested within countries) can achieve similar performance above 90% AUC, and that models do not generalize well to unseen countries regardless of geographic proximity. These findings confirm the importance of the diversity of mobile data, to better understand social context inference models in different countries.
翻訳日:2024-03-04 14:28:55 公開日:2024-03-01
# バイナリ分類におけるリコースのリスク

The Risks of Recourse in Binary Classification ( http://arxiv.org/abs/2306.00497v2 )

ライセンス: Link先を確認
Hidde Fokkema, Damien Garreau, Tim van Erven(参考訳) algorithmic recourseは、機械学習システムによって好ましくない決定を覆すのに役立つ説明を提供する。 しかし、リコースの提供が有益かどうかにはほとんど注意が払われていない。 本稿では,アルゴリズムリコースの有無に関わらず,分類のリスク(すなわち期待損失)を比較する抽象学習理論の枠組みを提案する。 これにより、人口レベルでのレコメンデーションの提供が有益か有害かという疑問に答えることができる。 意外なことに、高レベルの不確実性のあるリージョンにユーザをプッシュして、より多くのミスを引き起こすため、レコースを提供するという有害なシナリオが多数存在することがわかりました。 さらに, 分類器を展開する当事者が, リコースの提供を期待してストラテジライズするインセンティブを持つかどうかについても検討した。 したがって、アルゴリズムによる会話を提供することはシステムレベルでも有害である。 シミュレーションおよび実世界のデータ実験における理論的知見を確認した。 全体として、アルゴリズムリコースの現在の概念は確実に有益ではなく、そのため再検討が必要であると結論づける。

Algorithmic recourse provides explanations that help users overturn an unfavorable decision by a machine learning system. But so far very little attention has been paid to whether providing recourse is beneficial or not. We introduce an abstract learning-theoretic framework that compares the risks (i.e., expected losses) for classification with and without algorithmic recourse. This allows us to answer the question of when providing recourse is beneficial or harmful at the population level. Surprisingly, we find that there are many plausible scenarios in which providing recourse turns out to be harmful, because it pushes users to regions of higher class uncertainty and therefore leads to more mistakes. We further study whether the party deploying the classifier has an incentive to strategize in anticipation of having to provide recourse, and we find that sometimes they do, to the detriment of their users. Providing algorithmic recourse may therefore also be harmful at the systemic level. We confirm our theoretical findings in experiments on simulated and real-world data. All in all, we conclude that the current concept of algorithmic recourse is not reliably beneficial, and therefore requires rethinking.
翻訳日:2024-03-04 14:28:26 公開日:2024-03-01
# 縮退推論のための大規模言語モデルを実現する簡潔で組織化された知覚

Concise and Organized Perception Facilitates Large Language Models for Deductive Reasoning ( http://arxiv.org/abs/2310.03309v2 )

ライセンス: Link先を確認
Shaotian Yan, Chen Shen, Junjie Liu and Jieping Ye(参考訳) 大きな言語モデル(llm)を利用して推論に取り組み、注目を集めている。 多くの前提(すなわち事実や規則)がエンティティ間の複雑な関係を包含し、マルチホップな推論を必要とするのが特徴である。 直感的な解決策の1つは、元のタスクを小さなサブタスクに分解し、複数のカジュアルな推論ステップを前方(選択参照)または後方(ランバダなど)にまとめることである。 しかし、これらの技術は必然的に多くの全体的な段階を必要とし、計算コストのかかる操作と誤解を招くステップの可能性が高くなる。 段階分解に加えて,人間の問題解決の別の側面から着想を得ている。 人間は最も関連性の高い情報を蒸留し、体系的に思考を整理する傾向がある(例えばマインドマップの作成)。 そこで我々は,Concise and Organized Perception (COP) という新たな推論手法を提案する。 COPは与えられたステートメントを慎重に分析し、冗長性を排除しつつ、最も関連する情報を効率的に識別する。 その後、モデルの推論プロセスに適応するより組織化された形式でLLMを誘導する。 簡潔で組織化された証明を知覚することにより、llmの推論能力が向上し、過剰な推論段階に起因するエラーのリスクが軽減される。 さらに、上記のアプローチと組み合わせることで、パフォーマンスをさらに向上できます。 一般的な3つの推論ベンチマーク(例: proofwriter、prontoqa、prontoqa-ood)の広範な実験結果によると、copは以前の最先端の手法を大きく上回っている。

Exploiting large language models (LLMs) to tackle deductive reasoning has garnered growing attention. It still remains highly challenging to achieve satisfactory results in complex deductive problems, characterized by plenty of premises (i.e., facts or rules) entailing intricate relationships among entities and requiring multi-hop reasoning. One intuitive solution is to decompose the original task into smaller sub-tasks, and then chain the multiple casual reasoning steps together in a forward (e.g., Selection-Inference) or backward (e.g., LAMBADA) direction. However, these techniques inevitably necessitate a large number of overall stages, leading to computationally expensive operations and a higher possibility of making misleading steps. In addition to stage-by-stage decomposition, we draw inspiration from another aspect of human problem-solving. Humans tend to distill the most relevant information and organize their thoughts systematically (e.g., creating mind maps), which assists them in answering questions or drawing conclusions precisely and quickly. In light of this, we propose a novel reasoning approach named Concise and Organized Perception (COP). COP carefully analyzes the given statements to efficiently identify the most pertinent information while eliminating redundancy. It then prompts the LLMs in a more organized form that adapts to the model's inference process. By perceiving concise and organized proofs, the deductive reasoning abilities of LLMs can be better elicited, and the risk of acquiring errors caused by excessive reasoning stages is mitigated. Furthermore, our approach can be combined with the aforementioned ones to further boost their performance. Extensive experimental results on three popular deductive benchmarks (i.e., ProofWriter, PrOntoQA and PrOntoQA-OOD) show that COP significantly outperforms previous state-of-the-art methods.
翻訳日:2024-03-04 14:23:57 公開日:2024-03-01
# MagicDrive: 横3次元形状制御によるストリートビュー生成

MagicDrive: Street View Generation with Diverse 3D Geometry Control ( http://arxiv.org/abs/2310.02601v6 )

ライセンス: Link先を確認
Ruiyuan Gao, Kai Chen, Enze Xie, Lanqing Hong, Zhenguo Li, Dit-Yan Yeung, Qiang Xu(参考訳) 拡散モデルの最近の進歩は、2次元制御によるデータ合成を大幅に強化した。 しかし、ストリートビュー生成における正確な3d制御は、3d知覚タスクに欠かせない。 特に、Bird's-Eye View (BEV) を一次条件として利用すると、特に3次元物体検出タスクにおいて、知覚データ合成に不可欠な物体形状、閉塞パターン、路面標高の表現に影響を及ぼす幾何学的制御(高さなど)の課題につながることが多い。 本稿では,カメラポーズ,道路地図,および3dバウンディングボックスを含む多様な3次元形状制御と,テキスト記述をカスタマイズしたエンコーディング戦略によって実現した,新しいストリートビュー生成フレームワークであるmagicdriveを紹介する。 さらに、当社の設計にはクロスビューアテンションモジュールが組み込まれており、複数のカメラビュー間の一貫性を確保しています。 MagicDriveで高忠実なストリートビュー画像とビデオ合成を実現し、ニュアンスな3D幾何学とさまざまなシーン記述をキャプチャし、BEVセグメンテーションや3Dオブジェクト検出といったタスクを強化します。

Recent advancements in diffusion models have significantly enhanced the data synthesis with 2D control. Yet, precise 3D control in street view generation, crucial for 3D perception tasks, remains elusive. Specifically, utilizing Bird's-Eye View (BEV) as the primary condition often leads to challenges in geometry control (e.g., height), affecting the representation of object shapes, occlusion patterns, and road surface elevations, all of which are essential to perception data synthesis, especially for 3D object detection tasks. In this paper, we introduce MagicDrive, a novel street view generation framework, offering diverse 3D geometry controls including camera poses, road maps, and 3D bounding boxes, together with textual descriptions, achieved through tailored encoding strategies. Besides, our design incorporates a cross-view attention module, ensuring consistency across multiple camera views. With MagicDrive, we achieve high-fidelity street-view image & video synthesis that captures nuanced 3D geometry and various scene descriptions, enhancing tasks like BEV segmentation and 3D object detection.
翻訳日:2024-03-04 14:23:28 公開日:2024-03-01
# 有界離散時系列における概周期性の普遍性

Universality of almost periodicity in bounded discrete time series ( http://arxiv.org/abs/2310.00290v4 )

ライセンス: Link先を確認
Tsuyoshi Yoneda(参考訳) 任意の有界離散時系列を考える。 その統計的特徴から、フーリエ変換を使わずに、対応する時系列を適切に特徴づける概周期関数を求める。

We consider arbitrary bounded discrete time series. From its statistical feature, without any use of the Fourier transform, we find an almost periodic function which suitably characterizes the corresponding time series.
翻訳日:2024-03-04 14:23:07 公開日:2024-03-01
# ツリークロスの注意

Tree Cross Attention ( http://arxiv.org/abs/2309.17388v2 )

ライセンス: Link先を確認
Leo Feng, Frederick Tung, Hossein Hajimirsadeghi, Yoshua Bengio, Mohamed Osama Ahmed(参考訳) クロス注意(Cross Attention)は、予測を行うためのコンテキストトークンの集合から情報を取得する一般的な方法である。 予測時間毎に、Cross Attentionは$\mathcal{O}(N)$トークンの完全なセットをスキャンする。 しかし実際には、良いパフォーマンスのためにはトークンの小さなサブセットしか必要とされないことが多い。 Perceiver IO のような手法は、より小さな潜在トークンの集合に情報を蒸留し、その上にクロスアテンションを適用し、その結果、$\mathcal{O}(L)$複雑さが生じるため、推論時に安価である。 しかし、実際には、入力トークンの数や蒸留する情報量が増加するにつれて、必要となる潜在トークンの数も大幅に増加する。 本研究では,対数的$\mathcal{o}(\log(n))$のトークンからのみ情報を取得するクロスアテンションに基づくツリークロスアテンション(tca)モジュールを提案する。 TCAは、データをツリー構造に整理し、推論時にツリー検索を行い、関連するトークンを検索して予測する。 TCAを活用して、トークン効率のよい推論のための柔軟なアーキテクチャであるReTreeverを紹介します。 木間交差注意(TCA)は様々な分類・不確実性回帰タスクにおいてクロス注意に匹敵する性能を示し,トークン効率は著しく向上した。 さらに、ReTreeverとPerceiver IOを比較し、推論に同じ数のトークンを使用しながら大きな利得を示した。

Cross Attention is a popular method for retrieving information from a set of context tokens for making predictions. At inference time, for each prediction, Cross Attention scans the full set of $\mathcal{O}(N)$ tokens. In practice, however, often only a small subset of tokens are required for good performance. Methods such as Perceiver IO are cheap at inference as they distill the information to a smaller-sized set of latent tokens $L < N$ on which cross attention is then applied, resulting in only $\mathcal{O}(L)$ complexity. However, in practice, as the number of input tokens and the amount of information to distill increases, the number of latent tokens needed also increases significantly. In this work, we propose Tree Cross Attention (TCA) - a module based on Cross Attention that only retrieves information from a logarithmic $\mathcal{O}(\log(N))$ number of tokens for performing inference. TCA organizes the data in a tree structure and performs a tree search at inference time to retrieve the relevant tokens for prediction. Leveraging TCA, we introduce ReTreever, a flexible architecture for token-efficient inference. We show empirically that Tree Cross Attention (TCA) performs comparable to Cross Attention across various classification and uncertainty regression tasks while being significantly more token-efficient. Furthermore, we compare ReTreever against Perceiver IO, showing significant gains while using the same number of tokens for inference.
翻訳日:2024-03-04 14:23:03 公開日:2024-03-01
# GAMMA:Articulated Objectsの一般化可能なArticulation ModelとManipulation

GAMMA: Generalizable Articulation Modeling and Manipulation for Articulated Objects ( http://arxiv.org/abs/2309.16264v3 )

ライセンス: Link先を確認
Qiaojun Yu, Junbo Wang, Wenhai Liu, Ce Hao, Liu Liu, Lin Shao, Weiming Wang and Cewu Lu(参考訳) キャビネットやドアなどの人工物は日常生活に広く普及している。 しかし, 3次元関節オブジェクトを直接操作することは, 幾何学的形状, 意味的カテゴリ, 運動論的制約が多様であるため, 困難である。 先行研究は主に特定の関節型を持つ関節オブジェクトの認識と操作に焦点を当てた。 ジョイントパラメータを推定するか、軌道計画を容易にする適切な把持姿勢を区別するかのどちらかである。 これらのアプローチは、特定の種類の明瞭なオブジェクトに成功しているが、見つからないオブジェクトに対する一般化性に欠けており、より広いシナリオでのアプリケーションを大幅に妨げている。 本稿では,異なるカテゴリーの多種多様な調音オブジェクトから,調音モデリングとポーズの相性の両方を学習するGAMMA(Generalizable Articulation Modeling and Manipulating for Articulated Objects)の枠組みを提案する。 さらに、ガンマは適応操作を採用し、モデリングエラーを反復的に低減し、操作性能を向上させる。 我々は,partnet-mobilityデータセットを用いてガンマを訓練し,サピエンシミュレーションと実世界のフランカロボットを用いた総合実験により評価する。 その結果, GAMMA はSOTA の調音モデルおよび操作アルゴリズムを, 目に見えない, 横断的な調音オブジェクトで著しく上回っていることがわかった。 最終バージョンでは、シミュレーションと実際のロボットの両方で、すべてのコードとデータセットをオープンソース化します。 画像とビデオはプロジェクトのwebサイトで公開される。 http://sites.google.com/view/gamma-articulation

Articulated objects like cabinets and doors are widespread in daily life. However, directly manipulating 3D articulated objects is challenging because they have diverse geometrical shapes, semantic categories, and kinetic constraints. Prior works mostly focused on recognizing and manipulating articulated objects with specific joint types. They can either estimate the joint parameters or distinguish suitable grasp poses to facilitate trajectory planning. Although these approaches have succeeded in certain types of articulated objects, they lack generalizability to unseen objects, which significantly impedes their application in broader scenarios. In this paper, we propose a novel framework of Generalizable Articulation Modeling and Manipulating for Articulated Objects (GAMMA), which learns both articulation modeling and grasp pose affordance from diverse articulated objects with different categories. In addition, GAMMA adopts adaptive manipulation to iteratively reduce the modeling errors and enhance manipulation performance. We train GAMMA with the PartNet-Mobility dataset and evaluate with comprehensive experiments in SAPIEN simulation and real-world Franka robot. Results show that GAMMA significantly outperforms SOTA articulation modeling and manipulation algorithms in unseen and cross-category articulated objects. We will open-source all codes and datasets in both simulation and real robots for reproduction in the final version. Images and videos are published on the project website at: http://sites.google.com/view/gamma-articulation
翻訳日:2024-03-04 14:22:39 公開日:2024-03-01
# 基礎モデルを用いた数発パンオプティカルセグメンテーション

Few-Shot Panoptic Segmentation With Foundation Models ( http://arxiv.org/abs/2309.10726v3 )

ライセンス: Link先を確認
Markus K\"appeler, K\"ursat Petek, Niclas V\"odisch, Wolfram Burgard, Abhinav Valada(参考訳) 現在のパンオプティカルセグメンテーションの最先端手法では、膨大な量の注釈付きトレーニングデータが必要であり、広く採用される上で大きな課題となっている。 同時に、視覚表現学習の最近のブレークスルーは、完全にラベルのないイメージでトレーニングできる大規模な基礎モデルが出現するきっかけとなった。 本研究では,このようなタスクに依存しない画像特徴を活用し,0に近いラベル(spino)でパノプティカル情報をセグメンテーションすることにより,少数のパノプティカルセグメンテーションを実現することを提案する。 本手法では,DINOv2のバックボーンと,セマンティックセグメンテーションと境界推定のための軽量なネットワークヘッドを組み合わせる。 提案手法は,10個の注釈付き画像のみを用いてトレーニングし,既存の汎視的セグメンテーション法で使用可能な高品質な擬似ラベルを予測する。 特に,SPINOは,基礎モデルを活用した複雑な視覚認識タスクの学習方法として,基礎的真理ラベルの0.3%未満を使用しながら,完全教師付きベースラインと比較して,競争力のある結果が得られることを示す。 汎用性を示すため,室内環境と屋外環境の両方において,実世界のロボットビジョンシステムにSPINOを更に展開する。 将来の研究を促進するため、コードとトレーニングされたモデルをhttp://spino.cs.uni-freiburg.deで公開しています。

Current state-of-the-art methods for panoptic segmentation require an immense amount of annotated training data that is both arduous and expensive to obtain posing a significant challenge for their widespread adoption. Concurrently, recent breakthroughs in visual representation learning have sparked a paradigm shift leading to the advent of large foundation models that can be trained with completely unlabeled images. In this work, we propose to leverage such task-agnostic image features to enable few-shot panoptic segmentation by presenting Segmenting Panoptic Information with Nearly 0 labels (SPINO). In detail, our method combines a DINOv2 backbone with lightweight network heads for semantic segmentation and boundary estimation. We show that our approach, albeit being trained with only ten annotated images, predicts high-quality pseudo-labels that can be used with any existing panoptic segmentation method. Notably, we demonstrate that SPINO achieves competitive results compared to fully supervised baselines while using less than 0.3% of the ground truth labels, paving the way for learning complex visual recognition tasks leveraging foundation models. To illustrate its general applicability, we further deploy SPINO on real-world robotic vision systems for both outdoor and indoor environments. To foster future research, we make the code and trained models publicly available at http://spino.cs.uni-freiburg.de.
翻訳日:2024-03-04 14:22:19 公開日:2024-03-01
# QLoRA適応大言語モデルによるドイツの議会討論における話者帰属

Speaker attribution in German parliamentary debates with QLoRA-adapted large language models ( http://arxiv.org/abs/2309.09902v2 )

ライセンス: Link先を確認
Tobias Bornheim, Niklas Grieger, Patrick Gustav Blaneck, Stephan Bialonski(参考訳) 政治文書の増加は、政治のダイナミクスとイデオロギーに対する豊富な洞察の新たな機会を開く一方で、手動分析のための作業負荷も増大する。 自動話者帰属(automated speaker attribution, 自動話者帰属)は、音声イベントにおいて誰が誰と何を話したかを検知し、意味的役割ラベリングと密接に関連している。 我々は,2017-2021年のドイツ議会討論会において,大型言語モデルLlama 2の話者属性の自動化の可能性について検討した。 我々は,効率的なトレーニング戦略であるQLoRAを用いてLlama 2を微調整し,ドイツのニュース記事や議会討論会におけるGermEval 2023Shared Task on Speaker Attributionにおける競争性能を達成するためのアプローチを観察する。 本稿の結果は,話者帰属の自動化における大規模言語モデルの能力に光を当て,政治談話の計算分析や意味的役割ラベルシステムの開発に期待できる道のりを明らかにした。

The growing body of political texts opens up new opportunities for rich insights into political dynamics and ideologies but also increases the workload for manual analysis. Automated speaker attribution, which detects who said what to whom in a speech event and is closely related to semantic role labeling, is an important processing step for computational text analysis. We study the potential of the large language model family Llama 2 to automate speaker attribution in German parliamentary debates from 2017-2021. We fine-tune Llama 2 with QLoRA, an efficient training strategy, and observe our approach to achieve competitive performance in the GermEval 2023 Shared Task On Speaker Attribution in German News Articles and Parliamentary Debates. Our results shed light on the capabilities of large language models in automating speaker attribution, revealing a promising avenue for computational analysis of political discourse and the development of semantic role labeling systems.
翻訳日:2024-03-04 14:21:52 公開日:2024-03-01
# シンプレクティック固有値の不等式における等式

Equality in some symplectic eigenvalue inequalities ( http://arxiv.org/abs/2309.04562v2 )

ライセンス: Link先を確認
Hemant K. Mishra(参考訳) 過去10年間、多くの研究がシンプレクティック固有値のいくつかの性質を調査してきた。 注目すべきは、シンプレクティック固有値に関する結果は、適切な解釈を持つエルミート行列の固有値と類似していることである。 特に有名な固有値不等式に対するシンプレクティックアナログは、ワイルの不等式、リドスキーの不等式、シュール・ホーン不等式などの今日知られている。 本稿では,上記の不等式に対するシンプレクティックアナログの等式に対する必要十分条件を提案する。 シンプレクティックワイルとリドスキーの不等式に対する等式条件は、固有値の既知の等式条件と類似していることがわかった。

In the last decade, numerous works have investigated several properties of symplectic eigenvalues. Remarkably, the results on symplectic eigenvalues have been found to be analogous to those of eigenvalues of Hermitian matrices with appropriate interpretations. In particular, symplectic analogs of famous eigenvalue inequalities are known today such as Weyl's inequalities, Lidskii's inequalities, and Schur--Horn majorization inequalities. In this paper, we provide necessary and sufficient conditions for equality in the symplectic analogs of the aforementioned inequalities. The equality conditions for the symplectic Weyl's and Lidskii's inequalities turn out to be analogous to the known equality conditions for eigenvalues.
翻訳日:2024-03-04 14:21:31 公開日:2024-03-01
# ヒルベルト空間の断片化とブロック逆参加比を求める

Probing Hilbert space fragmentation and the block inverse participation ratio ( http://arxiv.org/abs/2309.03632v2 )

ライセンス: Link先を確認
Philipp Frey, David Mikhail, Stephan Rachel and Lucas Hackl(参考訳) 量子多体ハミルトニアンの族を考えると、ある極限におけるヒルベルト空間の正確な断片化を示す。 この問題は、断片化がこれらの正確に断片化されたモデルによって定義される部分集合の近傍、特に熱力学極限においてハミルトン多様体に意味を持つかどうかである。 本稿では,フラグメントと非フラグメント間の遷移挙動の区別可能なクラスを考慮し,この遷移を表わす数値観測器を用いて,この問題を解消する。 これらの観測対象の1つとして、断片化されたブロック構造の出現を捉えるために設計された、修正された逆参加比(IPR)を示す。 我々は、このブロックIDPを、逆参加比の他の定義と比較し、より伝統的なレベルスポーキング統計と絡み合いエントロピーの尺度と比較する。 数値で生じる微妙な問題を解くために、分断された極限の周りの摂動理論を効果的なブロック構造を定義する基礎として利用する。 我々のブロックIPRは、レベル統計と二部交絡に基づく結果と互換性のあるフラグメントと非フラグメントの境界を予測している。 スケーリング解析は、厳密に断片化された極限の周りの有限領域は、熱力学的極限においても近似的なフラグメンテーションの影響によって支配され、フラグメンテーションが位相を構成することを示唆する。 我々のアプローチの普遍性を示す証拠として、ハミルトンの異なる家系に適用し、突発的な双極子保存による断片的な限界を特徴とする。

We consider a family of quantum many-body Hamiltonians that show exact Hilbert space fragmentation in certain limits. The question arises whether fragmentation has implications for Hamiltonians in the vicinity of the subset defined by these exactly fragmented models, in particular in the thermodynamic limit. We attempt to illuminate this issue by considering distinguishable classes of transitional behavior between fragmented and nonfragmented regimes and employing a set of numerical observables that indicate this transition. As one of these observables we present a modified inverse participation ratio (IPR) that is designed to capture the emergence of fragmented block structures. We compare this block IPR to other definitions of inverse participation ratios, as well as to the more traditional measures of level-spacing statistics and entanglement entropy. In order to resolve subtleties that arise in the numerics, we use perturbation theory around the fragmented limit as a basis for defining an effective block structure. We find that our block IPR predicts a boundary between fragmented and nonfragmented regimes that is compatible with results based on level statistics and bipartite entanglement. A scaling analysis indicates that a finite region around the exactly fragmented limit is dominated by effects of approximate fragmentation, even in the thermodynamic limit, and suggests that fragmentation constitutes a phase. We provide evidence for the universality of our approach by applying it to a different family of Hamiltonians, that features a fragmented limit due to emergent dipole conservation.
翻訳日:2024-03-04 14:21:17 公開日:2024-03-01
# 神経odeに対する深層残留ネットワークの暗黙的規則化

Implicit regularization of deep residual networks towards neural ODEs ( http://arxiv.org/abs/2309.01213v2 )

ライセンス: Link先を確認
Pierre Marion, Yu-Han Wu, Michael E. Sander, G\'erard Biau(参考訳) 残留ニューラルネットワークは最先端のディープラーニングモデルである。 その連続深度アナログであるニューラル常微分方程式(ODE)も広く用いられている。 それらの成功にもかかわらず、離散モデルと連続モデルの間の関係は未だに堅実な数学的基礎を欠いている。 本稿では,勾配流を訓練した非線形ネットワークに対して,ニューラルネットワークに対するディープ残差ネットワークの暗黙的な正規化を確立することにより,この方向への一歩を踏み出す。 ネットワークがニューラルなODEの離散化として初期化されている場合、そのような離散化はトレーニングを通して維持されることを示す。 また,ネットワークがpolyak-lojasiewicz条件を満たすことを条件として,トレーニング時間が無限大になりがちである。 重要なことに、この条件は、残差が2層パーセプトロンであり、幅は線形であり、勾配流が大域的な最小値に収束することを意味する残差ネットワークの族に対して成り立つ。 数値実験で結果が分かる。

Residual neural networks are state-of-the-art deep learning models. Their continuous-depth analog, neural ordinary differential equations (ODEs), are also widely used. Despite their success, the link between the discrete and continuous models still lacks a solid mathematical foundation. In this article, we take a step in this direction by establishing an implicit regularization of deep residual networks towards neural ODEs, for nonlinear networks trained with gradient flow. We prove that if the network is initialized as a discretization of a neural ODE, then such a discretization holds throughout training. Our results are valid for a finite training time, and also as the training time tends to infinity provided that the network satisfies a Polyak-Lojasiewicz condition. Importantly, this condition holds for a family of residual networks where the residuals are two-layer perceptrons with an overparameterization in width that is only linear, and implies the convergence of gradient flow to a global minimum. Numerical experiments illustrate our results.
翻訳日:2024-03-04 14:20:43 公開日:2024-03-01
# EVE:Masked PredictionとModality-Aware MoEを用いた高能率ビジョンランゲージ事前トレーニング

EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE ( http://arxiv.org/abs/2308.11971v2 )

ライセンス: Link先を確認
Junyi Chen, Longteng Guo, Jia Sun, Shuai Shao, Zehuan Yuan, Liang Lin, Dongyu Zhang(参考訳) 多様なマルチモーダルデータから学ぶためのスケーラブルなビジョン言語モデルの構築は、まだ未解決の課題である。 本稿では,1つの統合事前学習タスクのみで事前学習された1つの統合マルチモーダルトランスフォーマであるEVE(Efficient Vision-languagE foundation model)を紹介する。 具体的には、EVEは、Modality-aware sparse Mixture-of-Experts (MoE)モジュールと統合された共有トランスフォーマーネットワーク内の視覚と言語の両方をエンコードする。 視覚と言語の事前学習タスクを統合するため、eveは画像テキストペアのマスキング信号モデリングを実行し、視覚信号が与えられたマスキング信号、すなわち画像ピクセルとテキストトークンを再構築する。 この単純で効果的な事前学習目的は、画像テキストコントラストと画像テキストマッチングの損失で事前訓練されたモデルと比較して3.5倍のトレーニングを加速する。 統合アーキテクチャと事前トレーニングタスクの組み合わせにより、EVEはスケールアップが容易になり、より少ないリソースとより高速なトレーニング速度で下流のパフォーマンスが向上する。 その単純さにもかかわらず、EVEは視覚的質問応答、視覚的推論、画像テキスト検索など、様々な視覚言語下流タスクで最先端のパフォーマンスを達成する。

Building scalable vision-language models to learn from diverse, multimodal data remains an open challenge. In this paper, we introduce an Efficient Vision-languagE foundation model, namely EVE, which is one unified multimodal Transformer pre-trained solely by one unified pre-training task. Specifically, EVE encodes both vision and language within a shared Transformer network integrated with modality-aware sparse Mixture-of-Experts (MoE) modules, which capture modality-specific information by selectively switching to different experts. To unify pre-training tasks of vision and language, EVE performs masked signal modeling on image-text pairs to reconstruct masked signals, i.e., image pixels and text tokens, given visible signals. This simple yet effective pre-training objective accelerates training by 3.5x compared to the model pre-trained with Image-Text Contrastive and Image-Text Matching losses. Owing to the combination of the unified architecture and pre-training task, EVE is easy to scale up, enabling better downstream performance with fewer resources and faster training speed. Despite its simplicity, EVE achieves state-of-the-art performance on various vision-language downstream tasks, including visual question answering, visual reasoning, and image-text retrieval.
翻訳日:2024-03-04 14:20:13 公開日:2024-03-01
# グラフレベルタスクのための微調整済みグラフニューラルネットワークの探索

Search to Fine-tune Pre-trained Graph Neural Networks for Graph-level Tasks ( http://arxiv.org/abs/2308.06960v2 )

ライセンス: Link先を確認
Zhili Wang, Shimin Di, Lei Chen, Xiaofang Zhou(参考訳) 近年、グラフニューラルネットワーク(GNN)は多くのグラフ関連タスクにおいて前例のない成功を収めている。 しかし、GNNは他のニューラルネットワークのようにラベル不足の問題に直面している。 このように、近年の取り組みでは、大規模未ラベルグラフ上でGNNを事前訓練し、未ラベルグラフからの知識を目標下流タスクに適応させようとしている。 この適応は、学習済みのGNNをラベル付きデータに限定して微調整することで達成される。 微調整の重要性にもかかわらず、現在のGNNの事前訓練作業は、転送された知識を活用し、下流タスクのパフォーマンスを改善するための優れた微調整戦略を無視することが多い。 事前訓練されたGNNのより優れた微調整戦略を調査する作業はごくわずかである。 しかし、彼らの設計は強い仮定を持つか、さまざまな下流のデータセットでデータ認識の問題を見落としている。 そこで本論文では,モデル性能を改善するために,事前学習したGNNに対して,より優れた微調整戦略を設計することを目的とする。 事前学習したGNNを前提として、グラフレベルタスク(S2PGNN)のための微調整済みグラフニューラルネットワークを探索し、ダウンストリームタスク上のラベル付きデータに適した微調整フレームワークを適応的に設計する。 微調整戦略の探索によってもたらされる改善を確実にするために,gnnに適した微調整フレームワークの適切な検索空間を慎重に要約する。 実験により、S2PGNNは10の有名な訓練済みGNNの上位に実装でき、その性能を継続的に改善できることが示された。 さらに、S2PGNNは、GNNエリア内外の既存の微調整戦略よりも優れたパフォーマンスを実現している。 我々のコードは \url{https://anonymous.4open.science/r/code_icde2024-A9CB/} で公開されている。

Recently, graph neural networks (GNNs) have shown its unprecedented success in many graph-related tasks. However, GNNs face the label scarcity issue as other neural networks do. Thus, recent efforts try to pre-train GNNs on a large-scale unlabeled graph and adapt the knowledge from the unlabeled graph to the target downstream task. The adaptation is generally achieved by fine-tuning the pre-trained GNNs with a limited number of labeled data. Despite the importance of fine-tuning, current GNNs pre-training works often ignore designing a good fine-tuning strategy to better leverage transferred knowledge and improve the performance on downstream tasks. Only few works start to investigate a better fine-tuning strategy for pre-trained GNNs. But their designs either have strong assumptions or overlook the data-aware issue for various downstream datasets. Therefore, we aim to design a better fine-tuning strategy for pre-trained GNNs to improve the model performance in this paper. Given a pre-trained GNN, we propose to search to fine-tune pre-trained graph neural networks for graph-level tasks (S2PGNN), which adaptively design a suitable fine-tuning framework for the given labeled data on the downstream task. To ensure the improvement brought by searching fine-tuning strategy, we carefully summarize a proper search space of fine-tuning framework that is suitable for GNNs. The empirical studies show that S2PGNN can be implemented on the top of 10 famous pre-trained GNNs and consistently improve their performance. Besides, S2PGNN achieves better performance than existing fine-tuning strategies within and outside the GNN area. Our code is publicly available at \url{https://anonymous.4open.science/r/code_icde2024-A9CB/}.
翻訳日:2024-03-04 14:19:46 公開日:2024-03-01
# 原子-原子相関による量子多体熱機械

Quantum many-body thermal machines enabled by atom-atom correlations ( http://arxiv.org/abs/2308.05266v2 )

ライセンス: Link先を確認
R. S. Watson and K. V. Kheruntsyan(参考訳) 2階グラウバー相関関数を特徴とする粒子-粒子相関は、電波および光学天文学、量子および原子光学、粒子物理学、凝縮物質物理学、量子多体理論における様々な現象の理解において重要な役割を果たしている。 しかし、そのような相関と量子熱力学との関連性はいまだに明らかなままである。 本稿では,超低温原子ガス中の原子-原子相関により直接動作可能な量子多体熱機械のクラスを提案し,検討する。 より具体的には、突然の相互作用待ちオットーサイクルで動作し、反発的に相互作用するボソンの1次元リーブ・ライニガーガスを作動流体として利用する量子熱機械を研究する。 このような気体中の原子-原子相関は古典的な理想気体と異なり、粒子間相互作用、量子統計学、熱ゆらぎの相互作用の結果である。 熱機関, 冷凍機, 熱加速器, ヒーターなど, これらの熱機械を意図した状態で作動させることは, 原子-原子相関がなければ不可能であることを示す。 この結果は、量子コヒーレンス、相関、絡み合いといったユニークな量子資源を活用する、概念的に新しい量子熱力学デバイスの設計における一歩となる。

Particle-particle correlations, characterized by the second-order Glauber correlation function, play an important role in the understanding of various phenomena in radio and optical astronomy, quantum and atom optics, particle physics, condensed matter physics, and quantum many-body theory. However, the relevance of such correlations to quantum thermodynamics has so far remained illusive. Here, we propose and investigate a class of quantum many-body thermal machines whose operation is directly enabled by second-order atom-atom correlations in an ultracold atomic gas. More specifically, we study quantum thermal machines that operate in a sudden interaction-quench Otto cycle and utilize a one-dimensional Lieb-Liniger gas of repulsively interacting bosons as the working fluid. The atom-atom correlations in such a gas are different to those of a classical ideal gas, and are a result of the interplay between interparticle interactions, quantum statistics, and thermal fluctuations. We show that operating these thermal machines in the intended regimes, such as a heat engine, refrigerator, thermal accelerator, or heater, would be impossible without such atom-atom correlations. Our results constitute a step forward in the design of conceptually new quantum thermodynamic devices which take advantage of uniquely quantum resources such as quantum coherence, correlations, and entanglement.
翻訳日:2024-03-04 14:19:19 公開日:2024-03-01
# SAIE Framework: サポートは十分ではない -- 敵対的な発言によるLLMトレーニングの強化

SAIE Framework: Support Alone Isn't Enough -- Advancing LLM Training with Adversarial Remarks ( http://arxiv.org/abs/2311.08107v2 )

ライセンス: Link先を確認
Mengsay Loem, Masahiro Kaneko, Naoaki Okazaki(参考訳) 大規模言語モデル(llm)は、他のモデルや人間との議論を通じて、彼らの予測を正当化し、批判することができる。 推論フェーズにおける前向きな議論は、性能を高めることが示されているが、そのような相互作用は、トレーニングフェーズにおいて広く研究されていない。 我々は,対話的な議論をトレーニングプロセスに組み込むことで,モデルの理解を深め,推論中の推論や言語表現能力を向上させることができると仮定する。 この研究は、学習者とパートナーモデルの間の支援的および敵対的な議論を促進するSAIEフレームワークを紹介している。 学習者モデルは、パートナーから応答を受け取り、そのパラメータは、この議論に基づいて更新される。 この動的調整プロセスは、学習者モデルの進化するアウトプットに応答して、トレーニングフェーズを通して継続する。 数学問題,コモンセンス推論,マルチドメイン知識など,様々な課題における経験的評価は,SAIEフレームワークで微調整されたモデルが従来の微調整アプローチで訓練されたモデルよりも優れていることを示す。 さらに,提案手法はモデルの推論能力を高め,個人とマルチエージェントの推論性能を向上させる。

Large Language Models (LLMs) can justify or critique their predictions through discussions with other models or humans, thereby enriching their intrinsic understanding of instances. While proactive discussions in the inference phase have been shown to boost performance, such interactions have not been extensively explored during the training phase. We hypothesize that incorporating interactive discussions into the training process can enhance the models' understanding and improve their reasoning and verbal expression abilities during inference. This work introduces the SAIE framework, which facilitates supportive and adversarial discussions between learner and partner models. The learner model receives responses from the partner, and its parameters are then updated based on this discussion. This dynamic adjustment process continues throughout the training phase, responding to the evolving outputs of the learner model. Our empirical evaluation across various tasks, including math problems, commonsense reasoning, and multi-domain knowledge, demonstrates that models fine-tuned with the SAIE framework outperform those trained with conventional fine-tuning approaches. Furthermore, our method enhances the models' reasoning capabilities, improving both individual and multi-agent inference performance.
翻訳日:2024-03-04 14:12:34 公開日:2024-03-01
# SegReg: MR画像とCTアノテーションの登録によるOARのセグメンテーション

SegReg: Segmenting OARs by Registering MR Images and CT Annotations ( http://arxiv.org/abs/2311.06956v3 )

ライセンス: Link先を確認
Zeyu Zhang, Xuyin Qi, Bowen Zhang, Biao Wu, Hien Le, Bora Jeong, Zhibin Liao, Yunxiang Liu, Johan Verjans, Minh-Son To, Richard Hartley(参考訳) 臓器リスクセグメンテーション(OAR)は頭頸部腫瘍などの放射線治療計画において重要なプロセスである。 それでも臨床実践では、放射線腫瘍学者は主にCTスキャンで手動でOARセグメンテーションを行う。 この手作業は、非常に時間がかかり高価であり、タイムリーな放射線治療を受ける患者の数を制限する。 さらに、CTスキャンはMRIと比較してソフト・タスクのコントラストが低い。 MRIは優れたソフト・タスク・ビジュアライゼーションを提供するが、その時間を要する性質により、リアルタイムな治療計画では不可能である。 これらの課題に対処するために,MRIの登録にElastic Symmetric Normalizationを利用するSegRegという手法を提案する。 SegRegはCTのみのベースラインを16.78%、mIoUは18.77%で上回り、CTの幾何学的精度とMRIの優れたソフト・コントラストを効果的に組み合わせ、正確なOARセグメンテーションを臨床訓練のために実現している。 プロジェクトウェブサイト https://steve-zeyu-zhang.github.io/SegReg

Organ at risk (OAR) segmentation is a critical process in radiotherapy treatment planning such as head and neck tumors. Nevertheless, in clinical practice, radiation oncologists predominantly perform OAR segmentations manually on CT scans. This manual process is highly time-consuming and expensive, limiting the number of patients who can receive timely radiotherapy. Additionally, CT scans offer lower soft-tissue contrast compared to MRI. Despite MRI providing superior soft-tissue visualization, its time-consuming nature makes it infeasible for real-time treatment planning. To address these challenges, we propose a method called SegReg, which utilizes Elastic Symmetric Normalization for registering MRI to perform OAR segmentation. SegReg outperforms the CT-only baseline by 16.78% in mDSC and 18.77% in mIoU, showing that it effectively combines the geometric accuracy of CT with the superior soft-tissue contrast of MRI, making accurate automated OAR segmentation for clinical practice become possible. See project website https://steve-zeyu-zhang.github.io/SegReg
翻訳日:2024-03-04 14:12:13 公開日:2024-03-01
# 1064nmトラップにおけるツリウム原子のボース・アインシュタイン凝縮の最適化に関する機械学習からの着想

Inspiration from machine learning on example of optimization of the Bose-Einstein condensate of thulium atoms in a 1064-nm trap ( http://arxiv.org/abs/2311.06795v3 )

ライセンス: Link先を確認
D.A. Kumpilov, D.A. Pershin, I.S. Cojocaru, V.A. Khlebnikov, I.A. Pyrkh, A.E. Rudnev, E.A. Fedotova, K.A. Khoruzhii, P.A. Aksentsev, D.V. Gaifutdinov, A.K. Zykova, V.V. Tsyganok, A.V. Akimov(参考訳) ボース=アインシュタイン凝縮体中の原子の数は実験の規模を決定するため、量子シミュレーションには不可欠である。 凝縮体中の原子数の最適化は、機械学習技術を用いて効率的に解ける複雑な問題である。 しかしながら、このアプローチは通常、基礎となる物理学についての洞察を与えない。 ここでは1064nmの双極子トラップでツリウム原子の凝縮の例として,機械学習から物理を学ぶ可能性を示す。 凝縮原子数の最適化により飽和が明らかとなり、3体組換えによる制限として説明された。 この制限はファノ・フェシュバッハ共鳴を利用して達成された。

The number of atoms in Bose-Einstein condensate determines the scale of experiments that can be performed, making it crucial for quantum simulations. Optimization of the number of atoms in the condensate is a complex problem which could be efficiently solved using machine learning technique. Nevertheless, this approach usually does not give any insight in the underlying physics. Here we demonstrate possibility to learn physics from the machine learning on an example of condensation of thulium atoms at a 1064-nm dipole trap. Optimization of the number of condensed atoms revealed a saturation, which was explained as limitation imposed by a 3-body recombination process. This limitation was successfully overcome by leveraging Fano-Feshbach resonances.
翻訳日:2024-03-04 14:11:53 公開日:2024-03-01
# 室内シーン認識のための物体間識別グラフモデリング

Inter-object Discriminative Graph Modeling for Indoor Scene Recognition ( http://arxiv.org/abs/2311.05919v3 )

ライセンス: Link先を確認
Chuanxin Song, Hanbo Wu, Xin Ma(参考訳) さまざまなシーンレイアウトや、シーン間のオブジェクトの共存によって、屋内シーン認識は依然として困難な課題となっている。 特徴表現の識別性を高めるために、シーン内でオブジェクト情報を活用することが、このドメインの重要なアプローチとして現れました。 現在、ほとんどのオブジェクトアシストメソッドは別々のブランチを使用してオブジェクト情報を処理する。 しかし、オブジェクト情報の中に隠された識別的知識を扱うために注意を払っているものはほとんどない。 本稿では,シーン特徴表現を強化するために識別対象知識を活用することを提案する。 まず,対象間の判別関係を確率論的視点から捉え,対象間識別プロトタイプ (iodp) へと変換する。 iodpからの豊富な事前知識を考慮し,画素レベルのシーン特徴をノードとして定義し,ノード特徴間の判別関係をエッジとして符号化する識別グラフネットワーク(dgn)を構築した。 DGNは、グラフの畳み込みとマッピング操作(GCN)を通じて、オブジェクト間の識別的知識を画像表現に組み込むことを目的としている。 提案するiodpとdgnを用いて,広く使用されているシーンデータセットから最先端の結果を得るとともに,提案手法の有効性を示す。

Variable scene layouts and coexisting objects across scenes make indoor scene recognition still a challenging task. Leveraging object information within scenes to enhance the distinguishability of feature representations has emerged as a key approach in this domain. Currently, most object-assisted methods use a separate branch to process object information, combining object and scene features heuristically. However, few of them pay attention to interpretably handle the hidden discriminative knowledge within object information. In this paper, we propose to leverage discriminative object knowledge to enhance scene feature representations. Initially, we capture the object-scene discriminative relationships from a probabilistic perspective, which are transformed into an Inter-Object Discriminative Prototype (IODP). Given the abundant prior knowledge from IODP, we subsequently construct a Discriminative Graph Network (DGN), in which pixel-level scene features are defined as nodes and the discriminative relationships between node features are encoded as edges. DGN aims to incorporate inter-object discriminative knowledge into the image representation through graph convolution and mapping operations (GCN). With the proposed IODP and DGN, we obtain state-of-the-art results on several widely used scene datasets, demonstrating the effectiveness of the proposed approach.
翻訳日:2024-03-04 14:11:43 公開日:2024-03-01
# 生成モデルに対する最適予算削減サンプリング

Optimal Budgeted Rejection Sampling for Generative Models ( http://arxiv.org/abs/2311.00460v2 )

ライセンス: Link先を確認
Alexandre Verine and Muni Sreenivas Pydi and Benjamin Negrevergne and Yann Chevaleyre(参考訳) 弁別器に基づく生成モデルの性能を向上させるために,最近,拒絶サンプリング法が提案されている。 しかし、これらの方法は無制限のサンプリング予算でのみ最適であり、通常、拒絶手続きとは独立に訓練された生成器に適用される。 提案手法は,まず,所定のサンプリング予算に対して,真の分布とポストリジェクション分布の間の$f$-divergenceに対して,有効に最適である最適バッジリジェクションサンプリング(OBRS)方式を提案する。 第2に,モデル全体の性能を高めるために,サンプリング方式をトレーニング手順に組み込んだエンドツーエンド手法を提案する。 実験と支持理論により,提案手法は試料の品質と多様性を著しく向上させるのに有効であることを示した。

Rejection sampling methods have recently been proposed to improve the performance of discriminator-based generative models. However, these methods are only optimal under an unlimited sampling budget, and are usually applied to a generator trained independently of the rejection procedure. We first propose an Optimal Budgeted Rejection Sampling (OBRS) scheme that is provably optimal with respect to \textit{any} $f$-divergence between the true distribution and the post-rejection distribution, for a given sampling budget. Second, we propose an end-to-end method that incorporates the sampling scheme into the training procedure to further enhance the model's overall performance. Through experiments and supporting theory, we show that the proposed methods are effective in significantly improving the quality and diversity of the samples.
翻訳日:2024-03-04 14:11:02 公開日:2024-03-01
# 超伝導およびトラップイオンクォートを用いたパリティ時対称性破壊相転移の実証

Demonstration of a parity-time symmetry breaking phase transition using superconducting and trapped-ion qutrits ( http://arxiv.org/abs/2310.20432v2 )

ライセンス: Link先を確認
Alena S. Kazmina, Ilia V. Zalivako, Alexander S. Borisenko, Nikita A. Nemkov, Anastasiia S. Nikolaeva, Ilya A. Simakov, Arina V. Kuznetsova, Elena Yu. Egorova, Kristina P. Galstyan, Nikita V. Semenin, Andrey E. Korolkov, Ilya N. Moskalenko, Nikolay N. Abramov, Ilya S. Besedin, Daria A. Kalacheva, Viktor B. Lubsanov, Aleksey N. Bolgar, Evgeniy O. Kiktenko, Ksenia Yu. Khabarova, Alexey Galda, Ilya A. Semerikov, Nikolay N. Kolachevsky, Nataliya Maleeva, Aleksey K. Fedorov(参考訳) スケーラブルな量子コンピュータは、素因数分解、組合せ最適化、多体物理学のシミュレーション、量子化学といった難しい計算問題を解くことを約束している。 多くの実世界の現象を理解する上で鍵となる一方で、非保守量子力学のシミュレーションはユニタリ量子計算の課題である。 本研究では,非ユニタリなパリティ時間対称系をシミュレートすることに焦点を当て,特異な対称性破壊位相遷移を示す。 我々は、この非平衡相転移を実現することができる3レベル量子系であるクォートリットを示す。 閉じ込められたイオンの配列と超伝導トランスモンの2つの物理的プラットフォームを使い、それらの3つのエネルギー準位をデジタル的に制御することで、パリティタイム対称性の破壊的な相転移を実験的にシミュレートする。 以上の結果から,物理効果をシミュレートするマルチレベル(量子)プロセッサの利点が示唆された。

Scalable quantum computers hold the promise to solve hard computational problems, such as prime factorization, combinatorial optimization, simulation of many-body physics, and quantum chemistry. While being key to understanding many real-world phenomena, simulation of non-conservative quantum dynamics presents a challenge for unitary quantum computation. In this work, we focus on simulating non-unitary parity-time symmetric systems, which exhibit a distinctive symmetry-breaking phase transition as well as other unique features that have no counterpart in closed systems. We show that a qutrit, a three-level quantum system, is capable of realizing this non-equilibrium phase transition. By using two physical platforms -- an array of trapped ions and a superconducting transmon -- and by controlling their three energy levels in a digital manner, we experimentally simulate the parity-time symmetry-breaking phase transition. Our results indicate the potential advantage of multi-level (qudit) processors in simulating physical effects, where additional accessible levels can play the role of a controlled environment.
翻訳日:2024-03-04 14:10:48 公開日:2024-03-01
# 騒音木量測定器の最適搬送

Optimal Transport for Measures with Noisy Tree Metric ( http://arxiv.org/abs/2310.13653v3 )

ライセンス: Link先を確認
Tam Le, Truyen Nguyen, Kenji Fukumizu(参考訳) 木メートル空間上での確率測度に対する最適輸送(OT)問題について検討する。 そのようなot問題(すなわちtree-wasserstein (tw))は閉形式表現を許容することは知られているが、基本的には入力測度の支持よりも根底にある木構造に依存する。 実際には、与えられた木構造はノイズや逆数の測定によって乱れてしまうことがある。 この問題を軽減するために、木メトリクスの不確実性セット上の2つの入力測度間の最大距離を考えるmax-min robust otアプローチに従う。 一般に、このアプローチは一次元空間で支持される測度に対しても計算が困難であり、これは非凸性と非滑らか性が実用的応用、特に大規模設定を妨げるためである。 そこで本研究では,木構造を多様に網羅したエッジ削除/付加のレンズから,新しい不確実性の木のメトリクスセットを提案する。 したがって,提案する不確実性集合の上に構築し,木構造をサポートよりも活用することにより,ロバストなotは高速計算のための閉形式式を標準ot(すなわちtw)として認めていることを示す。 さらに,ロバストな ot が計量特性を満たし負定値であることを示す。 次に、その負定性を利用して正定値カーネルを提案し、文書分類と位相データ解析に関する様々な実世界のデータセット上でのいくつかのシミュレーションで検証する。

We study optimal transport (OT) problem for probability measures supported on a tree metric space. It is known that such OT problem (i.e., tree-Wasserstein (TW)) admits a closed-form expression, but depends fundamentally on the underlying tree structure over supports of input measures. In practice, the given tree structure may be, however, perturbed due to noisy or adversarial measurements. To mitigate this issue, we follow the max-min robust OT approach which considers the maximal possible distances between two input measures over an uncertainty set of tree metrics. In general, this approach is hard to compute, even for measures supported in one-dimensional space, due to its non-convexity and non-smoothness which hinders its practical applications, especially for large-scale settings. In this work, we propose novel uncertainty sets of tree metrics from the lens of edge deletion/addition which covers a diversity of tree structures in an elegant framework. Consequently, by building upon the proposed uncertainty sets, and leveraging the tree structure over supports, we show that the robust OT also admits a closed-form expression for a fast computation as its counterpart standard OT (i.e., TW). Furthermore, we demonstrate that the robust OT satisfies the metric property and is negative definite. We then exploit its negative definiteness to propose positive definite kernels and test them in several simulations on various real-world datasets on document classification and topological data analysis.
翻訳日:2024-03-04 14:09:51 公開日:2024-03-01
# 医用コンピュータビジョンにおけるトラッキングとマッピング

Tracking and Mapping in Medical Computer Vision: A Review ( http://arxiv.org/abs/2310.11475v2 )

ライセンス: Link先を確認
Adam Schmidt, Omid Mohareri, Simon DiMaio, Michael C. Yip, Septimiu E. Salcudean(参考訳) コンピュータビジョンアルゴリズムの能力が向上するにつれ、臨床システムへの応用はより広範になる。 これらの応用には、大腸内視鏡や気管支鏡などの診断、生検の指導、最小限の侵襲的介入、手術、計器運動の自動化、術前スキャンによる画像指導などが含まれる。 これらのアプリケーションの多くは、医療シーンの視覚的特性に依存しており、この環境での実行には設計アルゴリズムが必要である。 本稿では,医療コンピュータビジョンにおける手術・診断におけるカメラベーストラッキングとシーンマッピングの分野の更新について述べる。 まず、レビュープロセスを説明し、その結果、515の論文の最終リストを作成します。 次に,臨床応用の追跡とマッピングが必要な患者に対して,その技術状況の高レベルな要約と,関連した背景を提供する。 その後、この分野で提供されるデータセットと、それらの設計を動機付ける臨床ニーズをレビューする。 次に,アルゴリズム的な側面を考察し,最近の展開を概説する。 この要約は、アルゴリズム設計者や既成のメソッドの能力を理解したい人には特に有用だろう。 我々は、変形可能な環境のためのアルゴリズムに焦点を合わせながら、厳密な追跡とマッピングにおいて重要なビルディングブロックをレビューする。 この領域を要約して、将来のアルゴリズムの必要性、定量化の必要性、臨床応用の可能性とともに、トラッキングとマッピングの手法の現状について論じる。 そして、いくつかの研究の方向性と疑問を提示します。 我々は、変形可能な環境における臨床応用を支援するために新しい手法を設計または組み合わせる必要があり、トレーニングと評価のためのデータセット収集にもっと注力する必要があると結論付けた。

As computer vision algorithms increase in capability, their applications in clinical systems will become more pervasive. These applications include: diagnostics, such as colonoscopy and bronchoscopy; guiding biopsies, minimally invasive interventions, and surgery; automating instrument motion; and providing image guidance using pre-operative scans. Many of these applications depend on the specific visual nature of medical scenes and require designing algorithms to perform in this environment. In this review, we provide an update to the field of camera-based tracking and scene mapping in surgery and diagnostics in medical computer vision. We begin with describing our review process, which results in a final list of 515 papers that we cover. We then give a high-level summary of the state of the art and provide relevant background for those who need tracking and mapping for their clinical applications. After which, we review datasets provided in the field and the clinical needs that motivate their design. Then, we delve into the algorithmic side, and summarize recent developments. This summary should be especially useful for algorithm designers and to those looking to understand the capability of off-the-shelf methods. We maintain focus on algorithms for deformable environments while also reviewing the essential building blocks in rigid tracking and mapping since there is a large amount of crossover in methods. With the field summarized, we discuss the current state of the tracking and mapping methods along with needs for future algorithms, needs for quantification, and the viability of clinical applications. We then provide some research directions and questions. We conclude that new methods need to be designed or combined to support clinical applications in deformable environments, and more focus needs to be put into collecting datasets for training and evaluation.
翻訳日:2024-03-04 14:09:13 公開日:2024-03-01
# 構造に基づくニューラルタンジェントカーネルを用いた高速グラフ凝縮

Fast Graph Condensation with Structure-based Neural Tangent Kernel ( http://arxiv.org/abs/2310.11046v2 )

ライセンス: Link先を確認
Lin Wang, Wenqi Fan, Jiatong Li, Yao Ma, Qing Li(参考訳) インターネット技術の急速な発展は、膨大な量のグラフ構造化データを生み出している。 グラフニューラルネットワーク(GNN)は、グラフマイニングタスクに有効な手法であり、大規模グラフデータを扱う際にかなりの計算資源コストを発生させる。 大規模グラフデータセットをgnnの予測性能を犠牲にすることなく,より小さなグラフデータセットに集約するデータ中心型手法を提案する。 しかし、既存の取り組みは、計算集約的なbiレベル最適化アーキテクチャを通じてグラフ構造化データを凝縮する。 本稿では,二段階最適化の内ループにおいて,GNNを反復的に訓練する代わりに,KRRタスクとしてグラフ凝縮問題を修正することを提案する。 より具体的には、グラフ構造データのための新しいデータセット凝縮フレームワーク(GC-SNTK)を提案し、構造ベースのニューラルタンジェントカーネル(SNTK)を開発し、グラフのトポロジをキャプチャし、KRRパラダイムのカーネル関数として機能する。 総合実験により,高い予測性能を維持しつつグラフ凝縮を加速するモデルの有効性を実証した。 ソースコードはhttps://github.com/WANGLin0126/GCSNTKで入手できる。

The rapid development of Internet technology has given rise to a vast amount of graph-structured data. Graph Neural Networks (GNNs), as an effective method for various graph mining tasks, incurs substantial computational resource costs when dealing with large-scale graph data. A data-centric manner solution is proposed to condense the large graph dataset into a smaller one without sacrificing the predictive performance of GNNs. However, existing efforts condense graph-structured data through a computational intensive bi-level optimization architecture also suffer from massive computation costs. In this paper, we propose reforming the graph condensation problem as a Kernel Ridge Regression (KRR) task instead of iteratively training GNNs in the inner loop of bi-level optimization. More specifically, We propose a novel dataset condensation framework (GC-SNTK) for graph-structured data, where a Structure-based Neural Tangent Kernel (SNTK) is developed to capture the topology of graph and serves as the kernel function in KRR paradigm. Comprehensive experiments demonstrate the effectiveness of our proposed model in accelerating graph condensation while maintaining high prediction performance. The source code is available on https://github.com/WANGLin0126/GCSNTK.
翻訳日:2024-03-04 14:08:49 公開日:2024-03-01
# 分布シフト下での教師なし精度推定のためのレバレッジ勾配

Leveraging Gradients for Unsupervised Accuracy Estimation under Distribution Shift ( http://arxiv.org/abs/2401.08909v2 )

ライセンス: Link先を確認
Renchunzi Xie, Ambroise Odonnat, Vasilii Feofanov, Ievgen Redko, Jianfeng Zhang, Bo An(参考訳) さまざまなテスト環境下での地味なテストラベルへのアクセスなしにテスト精度を推定することは、機械学習アルゴリズムの安全なデプロイにおいて難しいが極めて重要な問題である。 既存の作品では、ニューラルネットワークの出力または抽出された特徴からの情報を頼りに、地上テスト精度に関連する推定スコアを定式化している。 本稿では,分布シフト時においても,勾配による情報提供が地中試験精度の予測にどのように寄与するかを実験的および理論的に検討する。 具体的には,テストデータ上の1段階のみの勾配の後に,クロスエントロピー損失から逆転する分類層勾配のノルムを用いる。 我々のキーとなる考え方は、分布シフトを伴うテストデータセットに一般化しない場合、モデルがより高次勾配で調整されるべきであるということです。 このようなアプローチの主な要素として,経験的成功を保証するための理論的洞察を提供する。 多様な分布シフトとモデル構造に関する広範囲な実験により,本手法が最先端アルゴリズムを著しく上回ることを示した。

Estimating test accuracy without access to the ground-truth test labels under varying test environments is a challenging, yet extremely important problem in the safe deployment of machine learning algorithms. Existing works rely on the information from either the outputs or the extracted features of neural networks to formulate an estimation score correlating with the ground-truth test accuracy. In this paper, we investigate--both empirically and theoretically--how the information provided by the gradients can be predictive of the ground-truth test accuracy even under a distribution shift. Specifically, we use the norm of classification-layer gradients, backpropagated from the cross-entropy loss after only one gradient step over test data. Our key idea is that the model should be adjusted with a higher magnitude of gradients when it does not generalize to the test dataset with a distribution shift. We provide theoretical insights highlighting the main ingredients of such an approach ensuring its empirical success. Extensive experiments conducted on diverse distribution shifts and model structures demonstrate that our method significantly outperforms state-of-the-art algorithms.
翻訳日:2024-03-04 14:03:24 公開日:2024-03-01
# 拡散モデル多様体における逆例

Adversarial Examples are Misaligned in Diffusion Model Manifolds ( http://arxiv.org/abs/2401.06637v4 )

ライセンス: Link先を確認
Peter Lorenz and Ricard Durall and Janis Keuper(参考訳) 近年、拡散モデル(dms)は、データ分布の近似化に成功し、最先端の成果をもたらすという大きな注目を集めている。 それにもかかわらず、これらのモデルの汎用性は、画像インペインティング、セグメンテーション、敵対的ロバスト性など、様々な視覚応用を包含する生成能力を超えている。 本研究は拡散モデルのレンズを通しての対向攻撃の研究に焦点をあてる。 しかし,画像分類器の対角的堅牢性の向上は関与しない。 その代わり、画像に対するこれらの攻撃によって引き起こされる異常を検出し分析するために拡散モデルを活用することに重点を置いている。 そこで本研究では,拡散モデルを用いた変換過程に従えば,逆例の分布のアラインメントを体系的に検討する。 このアプローチの有効性はcifar-10とimagenetデータセットで評価され、後者の画像サイズも異なる。 その結果、良性画像と攻撃画像とを効果的に識別できる顕著な能力が示され、敵のインスタンスがDMの学習多様体と一致しないことが証明された。

In recent years, diffusion models (DMs) have drawn significant attention for their success in approximating data distributions, yielding state-of-the-art generative results. Nevertheless, the versatility of these models extends beyond their generative capabilities to encompass various vision applications, such as image inpainting, segmentation, adversarial robustness, among others. This study is dedicated to the investigation of adversarial attacks through the lens of diffusion models. However, our objective does not involve enhancing the adversarial robustness of image classifiers. Instead, our focus lies in utilizing the diffusion model to detect and analyze the anomalies introduced by these attacks on images. To that end, we systematically examine the alignment of the distributions of adversarial examples when subjected to the process of transformation using diffusion models. The efficacy of this approach is assessed across CIFAR-10 and ImageNet datasets, including varying image sizes in the latter. The results demonstrate a notable capacity to discriminate effectively between benign and attacked images, providing compelling evidence that adversarial instances do not align with the learned manifold of the DMs.
翻訳日:2024-03-04 14:03:07 公開日:2024-03-01
# ポンププローブ幾何による二次元電子分光法における2量子コヒーレンス抽出

Extracting double-quantum coherence in two-dimensional electronic spectroscopy under pump-probe geometry ( http://arxiv.org/abs/2401.01731v3 )

ライセンス: Link先を確認
Mao-Rui Cai, Xue Zhang, Zi-Qian Cheng, Teng-Fei Yan, Hui Dong(参考訳) 2次元電子分光(2des)は、箱車、コリニア、ポンププローブジオメトリなど、異なるジオメトリで実装することができる。 ポンププローブの形状は、2つのビームのみを重ね合わせ、位相サイクリングステップを減少させる利点がある。 しかしながら、その応用は通常、単一量子コヒーレンスと集団のダイナミクスを観察するために限られており、多体相互作用を反映する二重量子コヒーレンス(2Q)のダイナミクスを測定するという課題を残している。 パルス列を設計したポンププローブ形状下での2DES実験手法と2Qコヒーレンスを抽出する信号処理法を提案する。 プローブパルスがポンプパルスより早く届くように設計されたパルスシーケンスでは、測定信号には2q信号と0量子(0q)信号が含まれる。 位相サイクルと因果強制を用いたデータ処理により、2Q信号を抽出する。 この提案はルビジウム原子で実証されている。 また、D_{1}$およびD_{2}$行の2体双極子-双極子相互作用の集団共鳴を観察する。

Two-dimensional electronic spectroscopy (2DES) can be implemented with different geometries, e.g., BOXCARS, collinear and pump-probe geometries. The pump-probe geometry has its advantage of overlapping only two beams and reducing phase cycling steps. However, its applications are typically limited to observe the dynamics with single-quantum coherence and population, leaving the challenge to measure the dynamics of the double-quantum (2Q) coherence, which reflects the many-body interactions. We propose an experimental technique in 2DES under pump-probe geometry with a designed pulse sequence and the signal processing method to extract 2Q coherence. In the designed pulse sequence with the probe pulse arriving earlier than pump pulses, our measured signal includes the 2Q signal as well as the zero-quantum (0Q) signal. With phase cycling and the data processing using causality enforcement, we extract the 2Q signal. The proposal is demonstrated with the rubidium atoms. And we observe the collective resonances of two-body dipole-dipole interactions of both $D_{1}$ and $D_{2}$ lines.
翻訳日:2024-03-04 14:02:49 公開日:2024-03-01
# GOAT-Bench:ミームベースの社会的虐待による大規模マルチモーダルモデルの安全性

GOAT-Bench: Safety Insights to Large Multimodal Models through Meme-Based Social Abuse ( http://arxiv.org/abs/2401.01523v3 )

ライセンス: Link先を確認
Hongzhan Lin, Ziyang Luo, Bo Wang, Ruichao Yang and Jing Ma(参考訳) ソーシャルメディアの指数関数的な成長は、デジタル時代のあらゆる先例を超えて、情報の創造、普及、吸収の方法を大きく変えた。 残念なことに、この爆発はミームのオンライン乱用を大幅に増加させた。 ミームのネガティブな影響を評価することは、しばしば微妙で暗黙的な意味を持つため、特に難しい。 これを踏まえて、大規模マルチモーダルモデル(LMM)は、多様なマルチモーダルタスクを扱う際、顕著な能力のために注目の的となっている。 本研究の目的は,様々なLMM(例えば GPT-4V)が,ミームに現れる社会虐待の微妙な側面を識別し,それに対応する能力について,徹底的に検討することである。 我々は、暗黙のヘイトスピーチ、性差別、サイバーいじめなどのテーマをカプセル化した6K以上の様々なミームからなる包括的なミームベンチマークGOAT-Benchを紹介する。 GOAT-Benchを用いて、憎悪、悪行、攻撃性、皮肉、有害なコンテンツを正確に評価するLMMの能力を探求する。 LMMの幅広い実験により、現在のモデルは安全意識に欠けており、様々な形態の暗黙的虐待に敏感であることが明らかとなった。 この欠点は、安全な人工知能を実現する上で重要な障害であると考えています。 GOAT-Benchと関連するリソースはhttps://goatlmm.github.io/で公開されている。

The exponential growth of social media has profoundly transformed how information is created, disseminated, and absorbed, exceeding any precedent in the digital age. Regrettably, this explosion has also spawned a significant increase in the online abuse of memes. Evaluating the negative impact of memes is notably challenging, owing to their often subtle and implicit meanings, which are not directly conveyed through the overt text and imagery. In light of this, large multimodal models (LMMs) have emerged as a focal point of interest due to their remarkable capabilities in handling diverse multimodal tasks. In response to this development, our paper aims to thoroughly examine the capacity of various LMMs (e.g., GPT-4V) to discern and respond to the nuanced aspects of social abuse manifested in memes. We introduce the comprehensive meme benchmark, GOAT-Bench, comprising over 6K varied memes encapsulating themes such as implicit hate speech, sexism, and cyberbullying, etc. Utilizing GOAT-Bench, we delve into the ability of LMMs to accurately assess hatefulness, misogyny, offensiveness, sarcasm, and harmful content. Our extensive experiments across a range of LMMs reveal that current models still exhibit a deficiency in safety awareness, showing insensitivity to various forms of implicit abuse. We posit that this shortfall represents a critical impediment to the realization of safe artificial intelligence. The GOAT-Bench and accompanying resources are publicly accessible at https://goatlmm.github.io/, contributing to ongoing research in this vital field.
翻訳日:2024-03-04 14:02:28 公開日:2024-03-01
# DiffAugment:拡散に基づく長距離視覚関係認識

DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition ( http://arxiv.org/abs/2401.01387v2 )

ライセンス: Link先を確認
Parul Gupta, Tuan Nguyen, Abhinav Dhall, Munawar Hayat, Trung Le and Thanh-Toan Do(参考訳) 視覚関係認識(vrr)は画像内の2つの相互作用対象間の関係を識別することを目的としており,<subject, relation, object>三重項の広範かつ高度に不均衡な分布のために特に困難である。 既存のVRRアプローチにおける性能バイアスを克服するために、DiffAugmentを導入する。DiffAugmentは、まずWordNetを用いて言語空間のテールクラスを拡張し、次に拡散モデルの生成技術を利用して少数クラスの視覚空間を拡大する手法である。 本稿では,各<s,r,o>三重項の硬度に基づく拡散における新しい硬度認識成分を提案し,テールクラスの視覚埋め込み生成における硬度認識拡散の有効性を示す。 また, 生成した視覚埋め込みの識別能力を向上させるために, 拡散サンプリングのための新しい主題およびオブジェクトベースシード戦略を提案する。 GQA-LTデータセットの大規模実験により,Diffusion を用いた対象/対象とクラス毎の相関平均値の精度が向上した。

The task of Visual Relationship Recognition (VRR) aims to identify relationships between two interacting objects in an image and is particularly challenging due to the widely-spread and highly imbalanced distribution of <subject, relation, object> triplets. To overcome the resultant performance bias in existing VRR approaches, we introduce DiffAugment -- a method which first augments the tail classes in the linguistic space by making use of WordNet and then utilizes the generative prowess of Diffusion Models to expand the visual space for minority classes. We propose a novel hardness-aware component in diffusion which is based upon the hardness of each <S,R,O> triplet and demonstrate the effectiveness of hardness-aware diffusion in generating visual embeddings for the tail classes. We also propose a novel subject and object based seeding strategy for diffusion sampling which improves the discriminative capability of the generated visual embeddings. Extensive experimentation on the GQA-LT dataset shows favorable gains in the subject/object and relation average per-class accuracy using Diffusion augmented samples.
翻訳日:2024-03-04 14:02:02 公開日:2024-03-01
# 人工知能による世界天気予報システムの実現に向けて

Towards an end-to-end artificial intelligence driven global weather forecasting system ( http://arxiv.org/abs/2312.12462v2 )

ライセンス: Link先を確認
Kun Chen, Lei Bai, Fenghua Ling, Peng Ye, Tao Chen, Jing-Jia Luo, Hao Chen, Kang Chen, Tao Han, Wanli Ouyang(参考訳) 気象予報システムは科学・社会にとって重要であり,中距離気象予報に人工知能(AI)を適用する上で重要な成果が得られた。 しかし、既存のaiベースの天気予報モデルは、従来の数値気象予報(nwp)システムからの製品の分析や再分析を予測のための初期条件として頼りにしている。 初期状態は通常、計算コストと時間を要する従来のデータ同化コンポーネントによって生成される。 ここでは,グローバル気象変数のためのaiに基づくデータ同化モデル(adas)を提案する。 また、Adasと高度なAIベースの天気予報モデル(FengWu)を組み合わせることで、初のエンドツーエンドAIベースのグローバル気象予報システムであるFengWu-Adasを構築します。 我々は,アダスが粗大な地球観測を同化して高品質な分析を行い,長期にわたって安定に動作することを示す。 さらに,提案手法を現実のシナリオに適用する上で,本手法はより困難であり,実用的な応用の可能性も高い。

The weather forecasting system is important for science and society, and significant achievements have been made in applying artificial intelligence (AI) to medium-range weather forecasting. However, existing AI-based weather forecasting models rely on analysis or reanalysis products from the traditional numerical weather prediction (NWP) systems as initial conditions for making predictions. Initial states are typically generated by traditional data assimilation component, which is computational expensive and time-consuming. Here we present an AI-based data assimilation model, i.e., Adas, for global weather variables. And we combine Adas with the advanced AI-based weather forecasting model (i.e., FengWu) to construct the first end-to-end AI-based global weather forecasting system: FengWu-Adas. We demonstrate that Adas can assimilate sparse global observations to produce high-quality analysis, enabling the system operate stably for long term. Moreover, we are the first to apply the propose methods to real-world scenarios, which is more challenging and has considerable practical application potential.
翻訳日:2024-03-04 14:01:10 公開日:2024-03-01
# エノン-pt対称系の連続相転移

Continuous Phase Transition in Anyonic-PT Symmetric Systems ( http://arxiv.org/abs/2312.10350v4 )

ライセンス: Link先を確認
Zhihang Liu and Chao Zheng(参考訳) 離散(反)pt対称性に対応する不連続相転移とは対照的に,anyonic-pt対称系の連続相転移を明らかにした。 連続相転移は、正準PT対称性の連続性に由来する。 総減少(増加)を伴う減衰振動と漸近的に安定な減衰振動は、エルミート量子R'enyiエントロピー(英語版)あるいは区別可能性(英語版)を用いて3倍の縮退および歪曲する。 これは非ユニタリ進化密度行列の正規化であり、縮退と歪を引き起こす。 非エルミート量子 r\'enyi エントロピーが負であることの正当性を与える。 開量子系における負のエントロピーの数学と物理的意味を探索することにより、負の非エルミート量子 R\'enyi エントロピーと負の量子条件エントロピーを接続し、開量子系における負のエントロピーを厳密に研究する新たな旅を開く。

We reveal the continuous phase transition in anyonic-PT symmetric systems, contrasting with the discontinuous phase transition corresponding to the discrete (anti-) PT symmetry. The continuous phase transition originates from the continuity of anyonic-PT symmetry. We find there are three information-dynamics patterns for anyonic-PT symmetric systems: damped oscillations with an overall decrease (increase) and asymptotically stable damped oscillations, which are three-fold degenerate and distorted using the Hermitian quantum R\'enyi entropy or distinguishability. It is the normalization of the non-unitary evolved density matrix causes the degeneracy and distortion. We give a justification for non-Hermitian quantum R\'enyi entropy being negative. By exploring the mathematics and physical meaning of the negative entropy in open quantum systems, we connect the negative non-Hermitian quantum R\'enyi entropy and negative quantum conditional entropy, opening up a new journey to rigorously investigate the negative entropy in open quantum systems.
翻訳日:2024-03-04 14:00:54 公開日:2024-03-01
# トランスファーとメタラーニングを用いた弱監視探索の性能向上

Improving the performance of weak supervision searches using transfer and meta-learning ( http://arxiv.org/abs/2312.06152v2 )

ライセンス: Link先を確認
Hugues Beauchesne, Zong-En Chen and Cheng-Wei Chiang(参考訳) 弱監督探索は、実験データで訓練できることと、特有の信号特性を学習できることの両方の利点がある。 しかし,弱い監視によるニューラルネットワークの訓練が成功すれば,大量の信号が必要となるため,そのような検索の実用的適用性は限られている。 本研究では、トランスファーとメタラーニングを用いて、実験の少ない信号から学習できるニューラルネットワークの構築を目指す。 一般的なアイデアは、まずシミュレーションでニューラルネットワークをトレーニングすることで、再利用したり、より効率的な学習者になれるコンセプトを学ぶことだ。 ニューラルネットワークは実験データに基づいてトレーニングされ、以前のトレーニングのためより少ない信号を必要とする。 トランスファーとメタラーニングによって,弱い監視検索のパフォーマンスが大幅に向上することがわかった。

Weak supervision searches have in principle the advantages of both being able to train on experimental data and being able to learn distinctive signal properties. However, the practical applicability of such searches is limited by the fact that successfully training a neural network via weak supervision can require a large amount of signal. In this work, we seek to create neural networks that can learn from less experimental signal by using transfer and meta-learning. The general idea is to first train a neural network on simulations, thereby learning concepts that can be reused or becoming a more efficient learner. The neural network would then be trained on experimental data and should require less signal because of its previous training. We find that transfer and meta-learning can substantially improve the performance of weak supervision searches.
翻訳日:2024-03-04 14:00:24 公開日:2024-03-01
# 注意の最も短い場所の強化:効果的なツール利用のための大規模言語モデルの文脈認識の強化

Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use ( http://arxiv.org/abs/2312.04455v3 )

ライセンス: Link先を確認
Yuhan Chen, Ang Lv, Ting-En Lin, Changyu Chen, Yuchuan Wu, Fei Huang, Yongbin Li and Rui Yan(参考訳) 本稿では,大規模言語モデル(LLM)の注意配分における固有波形パターンが,ツール利用におけるLLMの利用など,文脈認識の高度化を求めるタスクにおいて,その性能に著しく影響を及ぼすことを示す。 具体的には、注意波形のトラフゾーンに位置する場合、文脈における重要な情報はモデルによって見落とされ、性能が低下する可能性がある。 この問題に対処するため,Attention Bucketsという新しい推論手法を提案する。 LLMは複数の並列プロセスを通じて入力を処理できる。 各プロセスは回転位置埋め込みに異なる基底角を利用し、ユニークな注意波形を生成する。 本手法は,特定のプロセスの注目トラフを他のプロセスの注目ピークに補正することにより,LLMの様々な文脈的位置への意識を高め,重要な情報を見越すリスクを軽減する。 ツール・ユース・ベンチマークでは,GPT-4に匹敵する7Bモデルで最先端の性能を実現する。 他のベンチマークやragタスクでは、コンテクストコンテンツの徹底的な理解を必要とするため、アテンションバケットもパフォーマンスが著しく向上している。

In this paper, we demonstrate that an inherent waveform pattern in the attention allocation of large language models (LLMs) significantly affects their performance in tasks demanding a high degree of context awareness, such as utilizing LLMs for tool-use. Specifically, the crucial information in the context will be potentially overlooked by model when it is positioned in the trough zone of the attention waveform, leading to decreased performance. To address this issue, we propose a novel inference method named Attention Buckets. It allows LLMs to process their input through multiple parallel processes. Each process utilizes a distinct base angle for the rotary position embedding, thereby creating a unique attention waveform. By compensating an attention trough of a particular process with an attention peak of another process, our approach enhances LLM's awareness to various contextual positions, thus mitigating the risk of overlooking crucial information. In the largest tool-use benchmark, our method elevates a 7B model to achieve state-of-the-art performance, comparable to that of GPT-4. On other benchmarks and some RAG tasks, which also demand a thorough understanding of contextual content, Attention Buckets also exhibited notable enhancements in performance.
翻訳日:2024-03-04 14:00:13 公開日:2024-03-01
# ダイヤモンド中の負電荷型グループIV色中心の高効率マイクロ波スピン制御

Efficient Microwave Spin Control of Negatively Charged Group-IV Color Centers in Diamond ( http://arxiv.org/abs/2312.02637v2 )

ライセンス: Link先を確認
Gregor Pieplow, Mohamed Belhassen, Tim Schr\"oder(参考訳) 本研究では, ダイヤモンド中の負電荷型グループIV色中心における電子スピン状態のマイクロ波誘起による操作について, 特にひずみの影響について概説する。 我々の研究の中心は、スピンレベルの縮退性を高めるための直流磁場と、2つのスピン準位の間のマイクロ波制御のための交流磁場である、関連する磁場の完全なベクトル特性の考察である。 スピン状態制御において, 空間配向, 外部適応ひずみ, および結果として生じる有効性の間の複雑な相互依存性を観察する。 これまでのほとんどの研究において、交流磁場と直流磁場の向きは不十分に解決されており、スズや鉛空白色中心のようなより重いグループiv空洞のマイクロ波制御にはひずみが不可欠であると結論づけられた。 対照的に、対称軸に直交するdc磁場とそれと平行なac磁場のアライメントは、効率的なスピン操作のために歪を時代遅れにする可能性がある。 さらに、このフィールド構成がスピンの光初期化、読み出し、ゲート忠実度に与える影響について検討する。

In this work, we provide a comprehensive overview of the microwave-induced manipulation of electronic spin states in negatively charged group-IV color centers in diamond with a particular emphasis on the influence of strain. Central to our investigation is the consideration of the full vectorial attributes of the magnetic fields involved, which are a dc field for lifting the degeneracy of the spin levels and an ac field for microwave control between two spin levels. We observe an intricate interdependence between their spatial orientations, the externally applied strain, and the resultant efficacy in spin state control. In most work to date the ac and dc magnetic field orientations have been insufficiently addressed, which has led to the conclusion that strain is indispensable for the effective microwave control of heavier group-IV vacancies, such as tin- and lead-vacancy color centers. In contrast, we find that the alignment of the dc magnetic field orthogonal to the symmetry axis and the ac field parallel to it can make the application of strain obsolete for effective spin manipulation. Furthermore, we explore the implications of this field configuration on the spin's optical initialization, readout, and gate fidelities.
翻訳日:2024-03-04 13:59:50 公開日:2024-03-01
# トランスフォーマー型アテンションネットワークを用いた単視点rgbビデオからの臨界歩行パラメータ推定の学習

Learning to Estimate Critical Gait Parameters from Single-View RGB Videos with Transformer-Based Attention Network ( http://arxiv.org/abs/2312.00398v2 )

ライセンス: Link先を確認
Quoc Hung T. Le, Hieu H. Pham(参考訳) 患者の筋骨格疾患や認知障害は、運動の困難を招き、心理的健康に悪影響を及ぼす。 早期診断と治療のための重要なツールである臨床歩行分析は、伝統的に高価な光学式モーションキャプチャシステムに依存している。 コンピュータビジョンとディープラーニングの最近の進歩は、よりアクセスしやすく、コスト効率の良い代替手段への扉を開いた。 本稿では,一眼レフカメラで撮影したRGBビデオから重要な歩行パラメータを推定する新しい時空間トランスフォーマーネットワークを提案する。 脳性麻痺患者の公的データセットを用いた経験的評価は、提案フレームワークが現在の最先端アプローチを超越し、一般的な歩行パラメータ(歩行速度、歩行偏差指数 - GDI、Knee Flexion Angle at Maximum Extension)の予測において大幅な改善を示し、パラメータが少ないこと、手動の特徴抽出の必要性を軽減することを示唆している。

Musculoskeletal diseases and cognitive impairments in patients lead to difficulties in movement as well as negative effects on their psychological health. Clinical gait analysis, a vital tool for early diagnosis and treatment, traditionally relies on expensive optical motion capture systems. Recent advances in computer vision and deep learning have opened the door to more accessible and cost-effective alternatives. This paper introduces a novel spatio-temporal Transformer network to estimate critical gait parameters from RGB videos captured by a single-view camera. Empirical evaluations on a public dataset of cerebral palsy patients indicate that the proposed framework surpasses current state-of-the-art approaches and show significant improvements in predicting general gait parameters (including Walking Speed, Gait Deviation Index - GDI, and Knee Flexion Angle at Maximum Extension), while utilizing fewer parameters and alleviating the need for manual feature extraction.
翻訳日:2024-03-04 13:59:32 公開日:2024-03-01
# 非線形非符号型シュリンガー方程式

Nonlinear, non-signaling Schr\"odinger equation ( http://arxiv.org/abs/2402.08757v2 )

ライセンス: Link先を確認
Tam\'as Geszti(参考訳) 密度行列の \textit{coordinate-diagonal} 要素の進化を線形に保ち、非シグナリングを保証するSchr\"odinger's wave equationの非線形拡張が提案されている。 この方程式は、波のパケットの拡散を逆にする負の運動エネルギー項を含む: 崩壊する、ある有効質量$m$が普遍臨界質量を超えて成長し、およそ$\mu = 2\cdot10^{-23}~$kgと推定されるので、線形量子運動エネルギーは無視され、量子古典的境界を示す。 提案手法を実験的に検証するために, 大きな分子の干渉が提案されている。

A nonlinear extension of Schr\"odinger's wave equation is proposed that ensures non-signaling by keeping linear the evolution of \textit{coordinate-diagonal} elements of the density matrix. The equation contains a negative kinetic energy term that turns spreading of wave packets into its opposite: collapsing, as some effective mass $M$ grows beyond a universal critical mass, estimated to be about $\mu = 2\cdot10^{-23}~$kg; then linear quantum kinetic energy gets negligible, which marks the quantum-classical border. Interference of large molecules is suggested for an experimental check of the proposed framework.
翻訳日:2024-03-04 13:53:27 公開日:2024-03-01
# UFO: Windows OSインタラクションのためのUI指向エージェント

UFO: A UI-Focused Agent for Windows OS Interaction ( http://arxiv.org/abs/2402.07939v4 )

ライセンス: Link先を確認
Chaoyun Zhang, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang(参考訳) GPT-Vision の機能を活用し,Windows OS 上のアプリケーションに適したユーザ要求を満たす,革新的な UI フォーカスエージェントである UFO を紹介する。 UFOはデュアルエージェントフレームワークを使用して、グラフィカルユーザインタフェース(GUI)を注意深く観察し、分析し、Windowsアプリケーションの情報を制御する。 これによってエージェントは、複数のアプリケーションにまたがる場合でも、個々のアプリケーション内でシームレスにナビゲートし、操作し、ユーザ要求を満たすことができます。 このフレームワークにはコントロールインタラクションモジュールが組み込まれており、人間の介入なしにアクションのグラウンディングを容易にし、完全に自動化された実行を可能にする。 その結果、UFOは困難で時間のかかるプロセスを自然言語コマンドでのみ達成可能な単純なタスクに変換する。 我々は9つの人気のあるWindowsアプリケーションでUFOのテストを行い、ユーザの日々の使用を反映したさまざまなシナリオを網羅した。 その結果,UFOによるユーザ要求の達成効果は,定量的な測定値と実例調査の両方から得られた。 私たちの知る限りでは、ufoはwindows os環境でタスク完了用に特別に調整された最初のuiエージェントです。 ufoのオープンソースコードはhttps://github.com/microsoft/ufoで入手できる。

We introduce UFO, an innovative UI-Focused agent to fulfill user requests tailored to applications on Windows OS, harnessing the capabilities of GPT-Vision. UFO employs a dual-agent framework to meticulously observe and analyze the graphical user interface (GUI) and control information of Windows applications. This enables the agent to seamlessly navigate and operate within individual applications and across them to fulfill user requests, even when spanning multiple applications. The framework incorporates a control interaction module, facilitating action grounding without human intervention and enabling fully automated execution. Consequently, UFO transforms arduous and time-consuming processes into simple tasks achievable solely through natural language commands. We conducted testing of UFO across 9 popular Windows applications, encompassing a variety of scenarios reflective of users' daily usage. The results, derived from both quantitative metrics and real-case studies, underscore the superior effectiveness of UFO in fulfilling user requests. To the best of our knowledge, UFO stands as the first UI agent specifically tailored for task completion within the Windows OS environment. The open-source code for UFO is available on https://github.com/microsoft/UFO.
翻訳日:2024-03-04 13:53:12 公開日:2024-03-01
# 時系列予測のための適応経路を持つマルチスケール変圧器

Multi-scale Transformers with Adaptive Pathways for Time Series Forecasting ( http://arxiv.org/abs/2402.05956v3 )

ライセンス: Link先を確認
Peng Chen, Yingying Zhang, Yunyao Cheng, Yang Shu, Yihang Wang, Qingsong Wen, Bin Yang, Chenjuan Guo(参考訳) トランスフォーマーベースのモデルは時系列予測でいくつかの成功を収めた。 既存の手法は主に限定的または固定的なスケールから時系列をモデル化しており、様々なスケールにまたがる異なる特性を捉えるのが困難である。 本稿では,適応経路を持つマルチスケールトランスであるPathformerを提案する。 提案するパスフォーマは時間分解能と時間距離の両方を統合し,マルチスケールモデリングを行う。 マルチスケール分割は、時系列を異なる時間分解能に分割する。 各スケールの分割に基づいて、グローバル相関と局所的詳細を時間的依存関係として捉えるために、これらのパッチに対して二重の注意が払われる。 さらに,入力時系列の時間変化に基づいて適応的にマルチスケールモデリングプロセスを調整し,予測精度とパスフォーマの一般化を改善した適応経路を持つマルチスケール変圧器をさらに強化する。 11の実世界のデータセットに対する大規模な実験により、Pathformerは現在のモデルをすべて越えて最先端のパフォーマンスを達成するだけでなく、さまざまな移行シナリオ下でのより強力な一般化能力も示している。

Transformer-based models have achieved some success in time series forecasting. Existing methods mainly model time series from limited or fixed scales, making it challenging to capture different characteristics spanning various scales. In this paper, we propose Pathformer, a multi-scale transformer with adaptive pathways. The proposed Pathformer integrates both temporal resolution and temporal distance for multi-scale modeling. Multi-scale division divides the time series into different temporal resolutions using patches of various sizes. Based on the division of each scale, dual attention is performed over these patches to capture global correlations and local details as temporal dependencies. We further enrich the multi-scale transformer with adaptive pathways, which adaptively adjust the multi-scale modeling process based on the varying temporal dynamics in the input time series, improving the prediction accuracy and generalization of Pathformer. Extensive experiments on eleven real-world datasets demonstrate that Pathformer not only achieves state-of-the-art performance by surpassing all current models but also exhibits stronger generalization abilities under various transfer scenarios.
翻訳日:2024-03-04 13:52:53 公開日:2024-03-01
# オンデバイスモデルのホワイトボックス攻撃の調査

Investigating White-Box Attacks for On-Device Models ( http://arxiv.org/abs/2402.05493v4 )

ライセンス: Link先を確認
Mingyi Zhou, Xiang Gao, Jing Wu, Kui Liu, Hailong Sun, Li Li(参考訳) 多くのモバイルアプリがディープラーニング機能を活用している。 しかし、オンデバイスモデルは、対応するモバイルアプリから簡単に抽出できるため、攻撃に対して脆弱である。 既存のデバイス上の攻撃アプローチではブラックボックス攻撃しか発生せず、ホワイトボックス戦略よりも効率的で効率的である。 これは、TFLiteのようなモバイルディープラーニングフレームワークが、ホワイトボックス攻撃アルゴリズムに必要な勾配コンピューティングをサポートしていないためである。 そこで本研究では,デバイス上での攻撃の危険性を過小評価している。 デバイス上のモデルは、ホワイトボックス戦略によって直接攻撃できるだろうか? まず,オンデバイスモデルからデバッグ可能なバージョンへの変換の難しさを体系的に解析し,コンパイルされたオンデバイスtfliteモデルをデバッグ可能なモデルに自動変換するオンデバイスモデル(reom)のためのリバースエンジニアリングフレームワークを提案する。 具体的には、reomはまずコンパイルされたオンデバイスモデルからopen neural network exchangeフォーマットに変換し、次に削除できない部分を削除してデバッグ可能なdlモデルフォーマットに変換し、攻撃者がホワイトボックス設定を悪用できるようにする。 実験の結果,提案手法は244TFLiteモデル間の自動変換を実現するのに有効であることがわかった。 代理モデルを使った以前の攻撃と比較すると、REOMは攻撃者の攻撃成功率を100倍に抑えることができる。 さらに,ONNXプラットフォームにはモデルフォーマット交換のためのツールが豊富にあるため,ONNXプラットフォームに基づく提案手法は他のモデルフォーマットにも適用可能である。 我々の研究は、開発者がモデルデプロイメント戦略を慎重に検討し、デバイス上のモデルの脆弱性を評価するためにホワイトボックスメソッドを使うことを強調した。

Numerous mobile apps have leveraged deep learning capabilities. However, on-device models are vulnerable to attacks as they can be easily extracted from their corresponding mobile apps. Existing on-device attacking approaches only generate black-box attacks, which are far less effective and efficient than white-box strategies. This is because mobile deep learning frameworks like TFLite do not support gradient computing, which is necessary for white-box attacking algorithms. Thus, we argue that existing findings may underestimate the harmfulness of on-device attacks. To this end, we conduct a study to answer this research question: Can on-device models be directly attacked via white-box strategies? We first systematically analyze the difficulties of transforming the on-device model to its debuggable version, and propose a Reverse Engineering framework for On-device Models (REOM), which automatically reverses the compiled on-device TFLite model to the debuggable model. Specifically, REOM first transforms compiled on-device models into Open Neural Network Exchange format, then removes the non-debuggable parts, and converts them to the debuggable DL models format that allows attackers to exploit in a white-box setting. Our experimental results show that our approach is effective in achieving automated transformation among 244 TFLite models. Compared with previous attacks using surrogate models, REOM enables attackers to achieve higher attack success rates with a hundred times smaller attack perturbations. In addition, because the ONNX platform has plenty of tools for model format exchanging, the proposed method based on the ONNX platform can be adapted to other model formats. Our findings emphasize the need for developers to carefully consider their model deployment strategies, and use white-box methods to evaluate the vulnerability of on-device models.
翻訳日:2024-03-04 13:52:26 公開日:2024-03-01
# MOOCsグレーダーとしての大規模言語モデル

Large Language Models As MOOCs Graders ( http://arxiv.org/abs/2402.03776v4 )

ライセンス: Link先を確認
Shahriar Golchin, Nikhil Garuda, Christopher Impey, Matthew Wenger(参考訳) 大規模なオープン・オンライン・コース(moocs)は、世界中の誰でもコンピュータとインターネットにアクセスできる自由教育の扉を開ける。 このような学習の民主化にもかかわらず、これらのコースの大規模な入学は、一人の教官が生徒全員の筆記課題を評価することはほぼ不可能であることを意味する。 結果として、単純なルーブリックによって導かれるピアグレーティングが選択方法である。 便利だが、ピアグレーディングは信頼性と妥当性の点で不足することが多い。 本研究では18の異なる設定を用いて,MOOCにおけるピアグレーディングを代替する大規模言語モデル(LLM)の実現可能性を検討する。 具体的には,GPT-4 と GPT-3.5 の3つの異なるコース,すなわち導入天文学,天文学,天文学史と哲学に焦点をあてる。 LLMを指導するためには、ゼロショットチェーン・オブ・シークレット (Zero-shot-CoT) の変種に基づく3つの異なるプロンプトを使用する: ゼロショット-CoTとインストラクターが提案した正解を組み合わせ、ゼロショット-CoTとインストラクターが生成した正解とLLMを併用するゼロショット-CoT。 その結果,Zero-shot-CoTはインストラクターが提供する回答やルーブリックと統合された場合,ピアグレーティングよりもインストラクターが割り当てたものとより整合した成績が得られた。 しかし、天文学コースの歴史と哲学は、他のコースとは対照的に、成績付けの点でより困難であることが証明されている。 最後に,本研究は,特にルーブリックをよく定義した被験者において,moocのグレーティングシステムを自動化するための有望な方向性を示す。

Massive open online courses (MOOCs) unlock the doors to free education for anyone around the globe with access to a computer and the internet. Despite this democratization of learning, the massive enrollment in these courses means it is almost impossible for one instructor to assess every student's writing assignment. As a result, peer grading, often guided by a straightforward rubric, is the method of choice. While convenient, peer grading often falls short in terms of reliability and validity. In this study, using 18 distinct settings, we explore the feasibility of leveraging large language models (LLMs) to replace peer grading in MOOCs. Specifically, we focus on two state-of-the-art LLMs: GPT-4 and GPT-3.5, across three distinct courses: Introductory Astronomy, Astrobiology, and the History and Philosophy of Astronomy. To instruct LLMs, we use three different prompts based on a variant of the zero-shot chain-of-thought (Zero-shot-CoT) prompting technique: Zero-shot-CoT combined with instructor-provided correct answers; Zero-shot-CoT in conjunction with both instructor-formulated answers and rubrics; and Zero-shot-CoT with instructor-offered correct answers and LLM-generated rubrics. Our results show that Zero-shot-CoT, when integrated with instructor-provided answers and rubrics, produces grades that are more aligned with those assigned by instructors compared to peer grading. However, the History and Philosophy of Astronomy course proves to be more challenging in terms of grading as opposed to other courses. Finally, our study reveals a promising direction for automating grading systems for MOOCs, especially in subjects with well-defined rubrics.
翻訳日:2024-03-04 13:51:38 公開日:2024-03-01
# 大規模LLMサービスの効果的な実行方法に関する調査研究

A Survey on Effective Invocation Methods of Massive LLM Services ( http://arxiv.org/abs/2402.03408v2 )

ライセンス: Link先を確認
Can Wang, Bolin Zhang, Dianbo Sui, Zhiying Tu, Xiaoyu Liu and Jiabao Kang(参考訳) 言語モデル・アズ・ア・サービス(LMaaS)は、サービスプロバイダに課金するだけで、特別な知識を必要とせずにタスクを達成できる。 しかし、多くのプロバイダは、レイテンシ、パフォーマンス、価格の異なる大規模言語モデル(LLM)サービスを提供している。 その結果、特定のタスク要求を満たす低レイテンシかつ高性能な応答でLCMサービス実行戦略を構築することは、非常に難しい課題となる。 本稿では, LLMサービス呼び出し方式の概要を概観する。 技術的には、LMaaSにおける効果的な呼び出し戦略を構築することの問題を正式に定義し、LLMサービス呼び出しフレームワークを提示する。 このフレームワークは、既存のメソッドを入力抽象、セマンティックキャッシュ、ソリューション設計、出力拡張を含む4つの異なるコンポーネントに分類する。 最後に、このタスクでまだ十分に対処されていないオープンな課題を強調し、今後の研究に光を当てる。

Language models as a service (LMaaS) enable users to accomplish tasks without requiring specialized knowledge, simply by paying a service provider. However, numerous providers offer massive large language model (LLM) services with variations in latency, performance, and pricing. Consequently, constructing the cost-saving LLM services invocation strategy with low-latency and high-performance responses that meet specific task demands becomes a pressing challenge. This paper provides a comprehensive overview of the LLM services invocation methods. Technically, we give a formal definition of the problem of constructing effective invocation strategy in LMaaS and present the LLM services invocation framework. The framework classifies existing methods into four different components, including input abstract, semantic cache, solution design, and output enhancement, which can be freely combined with each other. Finally, we emphasize the open challenges that have not yet been well addressed in this task and shed light on future research.
翻訳日:2024-03-04 13:50:59 公開日:2024-03-01
# Recursive Chain-of-Feedbackは冗長プロンプトの性能劣化を防ぐ

Recursive Chain-of-Feedback Prevents Performance Degradation from Redundant Prompting ( http://arxiv.org/abs/2402.02648v2 )

ライセンス: Link先を確認
Jinwoo Ahn, Kyuseung Shin(参考訳) 大規模言語モデル(llm)は、複雑な推論タスクにしばしば苦労し、ソリューションへの論理的に正しいステップの構築に失敗した。 この動作に対応するために、ユーザはよくllmを何度も促して、よりよい応答を期待する。 本稿では,このような反復行動とその効果について,新しいセッティングであるChain-of-Feedback(CoF)を定義して検討する。 この設定は、入力として多段階推論を必要とする質問を取る。 応答すると、繰り返し無意味なフィードバック(例えば「別の試み」)を促し、追加の試行を要求します。 驚くべきことに,無意味なフィードバックを繰り返し繰り返すことで,反応の質が徐々に低下し,結果として意図した結果から大きく逸脱する結果が得られた。 これらの問題を緩和するために,新しい手法であるRecursive Chain-of-Feedback (R-CoF)を提案する。 コンピュータ科学における再帰の論理に従い、R-CoFは、各誤った推論ステップを小さな個々の問題に分解することで、初期誤った応答を再帰的に修正する。 予備的な結果から,LLMが正しく応答できない質問の多くは,論理過程を概説するサンプルデータなしでR-CoFを用いて回答できることがわかった。

Large Language Models (LLMs) frequently struggle with complex reasoning tasks, failing to construct logically sound steps towards the solution. In response to this behavior, users often try prompting the LLMs repeatedly in hopes of reaching a better response. This paper studies such repetitive behavior and its effect by defining a novel setting, Chain-of-Feedback (CoF). The setting takes questions that require multi-step reasoning as an input. Upon response, we repetitively prompt meaningless feedback (e.g. 'make another attempt') requesting additional trials. Surprisingly, our preliminary results show that repeated meaningless feedback gradually decreases the quality of the responses, eventually leading to a larger deviation from the intended outcome. To alleviate these troubles, we propose a novel method, Recursive Chain-of-Feedback (R-CoF). Following the logic of recursion in computer science, R-CoF recursively revises the initially incorrect response by breaking down each incorrect reasoning step into smaller individual problems. Our preliminary results show that majority of questions that LLMs fail to respond correctly can be answered using R-CoF without any sample data outlining the logical process.
翻訳日:2024-03-04 13:50:24 公開日:2024-03-01
# 大規模言語モデルにおける道徳的不整合の測定

Measuring Moral Inconsistencies in Large Language Models ( http://arxiv.org/abs/2402.01719v3 )

ライセンス: Link先を確認
Vamshi Krishna Bonagiri, Sreeram Vennam, Manas Gaur, Ponnurangam Kumaraguru(参考訳) 大言語モデル(LLM)は、意味的に等価なプロンプトが意味的に等価な応答を生成する場合、一貫性があると考えられる。 会話システムにおけるLLMの印象的な能力を示す最近の進歩にもかかわらず、最先端のLLMでさえ世代間では非常に矛盾しており、信頼性に疑問を投げかけている。 以前の研究はタスク固有の精度でこれを測定しようと試みた。 しかし、このアプローチはトロリー問題のような道徳的なシナリオには不向きであり、「正しい」答えは持たない。 本稿では,モラルシナリオにおけるllmの一貫性を計測するための意味グラフエントロピー(sge)と呼ばれる新しい情報理論尺度を提案する。 モデルの意思決定戦略を説明するために、"Rules of Thumb"(RoTs)を活用し、メトリクスをさらに強化します。 既存の一貫性メトリクスと比較すると、SGEは5つのLLMにわたる人間の判断と相関する。 今後,LLMの不整合の根本原因を調査し,改善を提案する。

A Large Language Model (LLM) is considered consistent if semantically equivalent prompts produce semantically equivalent responses. Despite recent advancements showcasing the impressive capabilities of LLMs in conversational systems, we show that even state-of-the-art LLMs are highly inconsistent in their generations, questioning their reliability. Prior research has tried to measure this with task-specific accuracy. However, this approach is unsuitable for moral scenarios, such as the trolley problem, with no "correct" answer. To address this issue, we propose a novel information-theoretic measure called Semantic Graph Entropy (SGE) to measure the consistency of an LLM in moral scenarios. We leverage "Rules of Thumb" (RoTs) to explain a model's decision-making strategies and further enhance our metric. Compared to existing consistency metrics, SGE correlates better with human judgments across five LLMs. In the future, we aim to investigate the root causes of LLM inconsistencies and propose improvements.
翻訳日:2024-03-04 13:50:04 公開日:2024-03-01
# Killer Apps: 高速で大規模なAI兵器

Killer Apps: Low-Speed, Large-Scale AI Weapons ( http://arxiv.org/abs/2402.01663v3 )

ライセンス: Link先を確認
Philip Feldman, Aaron Dant, James R. Foulds(参考訳) 人工知能(ai)と機械学習(ml)の加速は、openai、meta、antropicなどの組織による最先端生成前訓練トランスフォーマー(gpt)モデルの開発によって強調され、戦争とセキュリティにおける新たな挑戦と機会を提示している。 現在注目されているのは、武器システムにおけるAIの統合と、速度論的衝突における迅速な意思決定におけるその役割である。 しかし、同様に重要だが見落とされがちな側面は、情報領域内のインターネットスケールにおけるAIベースの心理的操作の可能性である。 これらの能力は、世界中の個人、組織、社会に重大な脅威をもたらす可能性がある。 本稿では,AI兵器の概念,その展開,検出,潜在的な対策について検討する。

The accelerating advancements in Artificial Intelligence (AI) and Machine Learning (ML), highlighted by the development of cutting-edge Generative Pre-trained Transformer (GPT) models by organizations such as OpenAI, Meta, and Anthropic, present new challenges and opportunities in warfare and security. Much of the current focus is on AI's integration within weapons systems and its role in rapid decision-making in kinetic conflict. However, an equally important but often overlooked aspect is the potential of AI-based psychological manipulation at internet scales within the information domain. These capabilities could pose significant threats to individuals, organizations, and societies globally. This paper explores the concept of AI weapons, their deployment, detection, and potential countermeasures.
翻訳日:2024-03-04 13:49:47 公開日:2024-03-01
# 生命学習理論

Credal Learning Theory ( http://arxiv.org/abs/2402.00957v2 )

ライセンス: Link先を確認
Michele Caprio, Maryam Sultana, Eleni Elia, Fabio Cuzzolin(参考訳) 統計的学習理論は機械学習の基礎であり、未知の確率分布から生じると仮定された(シングル)トレーニングセットから学習されるモデルのリスクに対する理論的境界を提供する。 しかし、実際のデプロイメントでは、データの分散は(しばしば)異なるため、ドメイン適応/一般化の問題を引き起こします。 本稿では,確率の凸集合 (credal set) を用いて,データ生成分布の変動性をモデル化する,学習の'credal'理論の基礎を述べる。 このようなクレダル集合は、トレーニング集合の有限なサンプルから推測することができる。 境界は、有限仮説空間(実現可能性を仮定するか否かの両方)と、古典的結果を直接一般化する無限モデル空間の場合に導かれる。

Statistical learning theory is the foundation of machine learning, providing theoretical bounds for the risk of models learnt from a (single) training set, assumed to issue from an unknown probability distribution. In actual deployment, however, the data distribution may (and often does) vary, causing domain adaptation/generalization issues. In this paper we lay the foundations for a `credal' theory of learning, using convex sets of probabilities (credal sets) to model the variability in the data-generating distribution. Such credal sets, we argue, may be inferred from a finite sample of training sets. Bounds are derived for the case of finite hypotheses spaces (both assuming realizability or not) as well as infinite model spaces, which directly generalize classical results.
翻訳日:2024-03-04 13:49:33 公開日:2024-03-01
# 深層強化学習における政策勾配決定ガイド:理論・アルゴリズム・実装

The Definitive Guide to Policy Gradients in Deep Reinforcement Learning: Theory, Algorithms and Implementations ( http://arxiv.org/abs/2401.13662v2 )

ライセンス: Link先を確認
Matthias Lehmann(参考訳) 近年、深層強化学習において、様々な強力なポリシー勾配アルゴリズムが提案されている。 これらのアルゴリズムはすべてポリシー勾配定理に基づいているが、特定の設計選択はアルゴリズムによって大きく異なる。 本稿では,その理論的基礎と実践的実装の両方の理解を容易にするために,オンライン政策勾配アルゴリズムの概要について述べる。 本稿では,ポリシー勾配定理の連続バージョン,収束結果,実用的なアルゴリズムに関する包括的議論について詳細に述べる。 最も著名なアルゴリズムを連続制御環境で比較し、正規化の利点についての洞察を提供する。 すべてのコードはhttps://github.com/Matt00n/PolicyGradientsJaxで入手できる。

In recent years, various powerful policy gradient algorithms have been proposed in deep reinforcement learning. While all these algorithms build on the Policy Gradient Theorem, the specific design choices differ significantly across algorithms. We provide a holistic overview of on-policy policy gradient algorithms to facilitate the understanding of both their theoretical foundations and their practical implementations. In this overview, we include a detailed proof of the continuous version of the Policy Gradient Theorem, convergence results and a comprehensive discussion of practical algorithms. We compare the most prominent algorithms on continuous control environments and provide insights on the benefits of regularization. All code is available at https://github.com/Matt00n/PolicyGradientsJax.
翻訳日:2024-03-04 13:48:53 公開日:2024-03-01
# llmの(非倫理的な)命令中心の反応はどのようなものか? safe guardrailsの脆弱性を有害なクエリに公開

How (un)ethical are instruction-centric responses of LLMs? Unveiling the vulnerabilities of safety guardrails to harmful queries ( http://arxiv.org/abs/2402.15302v2 )

ライセンス: Link先を確認
Somnath Banerjee, Sayan Layek, Rima Hazra, Animesh Mukherjee(参考訳) 本研究では,大規模言語モデル(LLM)の安全性と倫理的利用に関する懸念が高まっている。 その可能性にもかかわらず、これらのモデルは「ジェイルブレイク」技術や標的操作を含む様々な洗練された方法によって有害または非倫理的なコンテンツを生み出すように騙すことができる。 我々の研究は、特定の問題についてゼロにしている: どの程度まで LLM は、バニラテキストではなく、擬似コード、プログラムまたはソフトウェアスニペットのような命令中心の応答を生成することで、アストレイを導くことができるか。 そこで本研究では、テキストと命令中心の形式(擬似コードなど)の両方で答えるべき複雑なクエリを含むデータセットであるTechHazardQAを紹介し、非倫理的応答のトリガを特定することを目的とした。 LLM - Llama-2-13b, Llama-2-7b, Mistral-V2, Mistral 8X7B - をクエリして,テキストと命令中心の応答を生成する。 評価のために,GPT-4およびヒトの有害度測定値と判定値について報告する。 全体として、LLMに命令中心の応答を要求すれば、モデル全体で約2~38%の非倫理的応答が生成される。 さらに, ROME技術を用いたモデル編集の影響について検討し, 好ましくないコンテンツを生成するための妥当性をさらに高めている。 特に、編集されたLSMに命令中心の応答を生成するよう要求すると、異なるモデル間で、非倫理的な応答生成が3-16%増加する。

In this study, we tackle a growing concern around the safety and ethical use of large language models (LLMs). Despite their potential, these models can be tricked into producing harmful or unethical content through various sophisticated methods, including 'jailbreaking' techniques and targeted manipulation. Our work zeroes in on a specific issue: to what extent LLMs can be led astray by asking them to generate responses that are instruction-centric such as a pseudocode, a program or a software snippet as opposed to vanilla text. To investigate this question, we introduce TechHazardQA, a dataset containing complex queries which should be answered in both text and instruction-centric formats (e.g., pseudocodes), aimed at identifying triggers for unethical responses. We query a series of LLMs -- Llama-2-13b, Llama-2-7b, Mistral-V2 and Mistral 8X7B -- and ask them to generate both text and instruction-centric responses. For evaluation we report the harmfulness score metric as well as judgements from GPT-4 and humans. Overall, we observe that asking LLMs to produce instruction-centric responses enhances the unethical response generation by ~2-38% across the models. As an additional objective, we investigate the impact of model editing using the ROME technique, which further increases the propensity for generating undesirable content. In particular, asking edited LLMs to generate instruction-centric responses further increases the unethical response generation by ~3-16% across the different models.
翻訳日:2024-03-04 13:43:45 公開日:2024-03-01
# 離散量子系における非バイアス耐性推定器の存在について

On the existence of unbiased resilient estimators in discrete quantum systems ( http://arxiv.org/abs/2402.15242v2 )

ライセンス: Link先を確認
Javier Navarro, Ricard Ravell Rodr\'iguez, and Mikel Sanz(参考訳) Cram\'er-Rao は、推定対象パラメータの高精度な事前知識をパラドックス的に要求するにもかかわらず、頻繁なパラメータ推定における推定器の平均二乗誤差に対する決定的な下界を構成する。 実際、この情報はパラメータに大きく依存する最適な非バイアス推定器を構築するために必要である。 逆に、Bhattacharyya 境界は、推定器に追加の制約を課すことにより、事前精度に関するより弾力的な推定をもたらす。 まず, パラメータの事前知識が理想的でない場合に, cram\'er-rao と bhattacharyya の境界の性能を定量的に比較した。 さらに、$n^{th}$order classical and quantum Bhattacharyya bounds -- 制約を満たす推定器が存在しないことを考えると -- は離散系の次元$m$に結びついた特定の条件下では計算できないことを実証する。 興味深いことに、同じ次元 $m$ を持つ系では、古典の場合の最大非自明な順序 $n$ は $m-1$ であり、量子領域では $m(m+1)/2-1$ に拡張される。 したがって、与えられた系次元に対して、事前の無知に対するロバスト性を高める量子系における推定器を構築することができる。

Cram\'er-Rao constitutes a crucial lower bound for the mean squared error of an estimator in frequentist parameter estimation, albeit paradoxically demanding highly accurate prior knowledge of the parameter to be estimated. Indeed, this information is needed to construct the optimal unbiased estimator, which is highly dependent on the parameter. Conversely, Bhattacharyya bounds result in a more resilient estimation about prior accuracy by imposing additional constraints on the estimator. Initially, we conduct a quantitative comparison of the performance between Cram\'er-Rao and Bhattacharyya bounds when faced with less-than-ideal prior knowledge of the parameter. Furthermore, we demonstrate that the $n^{th}$order classical and quantum Bhattacharyya bounds cannot be computed -- given the absence of estimators satisfying the constraints -- under specific conditions tied to the dimension $m$ of the discrete system. Intriguingly, for a system with the same dimension $m$, the maximum non-trivial order $n$ is $m-1$ in the classical case, while in the quantum realm, it extends to $m(m+1)/2-1$. Consequently, for a given system dimension, one can construct estimators in quantum systems that exhibit increased robustness to prior ignorance.
翻訳日:2024-03-04 13:43:17 公開日:2024-03-01
# clove:コントラスト視覚言語モデルにおける構成言語エンコーディング

CLoVe: Encoding Compositional Language in Contrastive Vision-Language Models ( http://arxiv.org/abs/2402.15021v2 )

ライセンス: Link先を確認
Santiago Castro, Amir Ziai, Avneesh Saluja, Zhuoning Yuan, Rada Mihalcea(参考訳) 近年では、視覚と言語タスクのパフォーマンスが大幅に向上している。 クリップなどの基本視覚言語モデル(vlms)は、複数の設定で活用され、複数のタスクで顕著なパフォーマンスを示している。 このようなモデルはオブジェクト中心の認識に優れているが、単語順に不変に見えるテキスト表現を学習し、新しい方法で既知の概念を構成することができない。 しかしながら、GPT-4Vのような大規模単一ストリームモデルを含むVLMが、うまく構成を識別する証拠は存在しない。 本稿では,既存のモデルが構成言語を符号化し,10%以上の絶対的な構成性ベンチマークの改善を実現しつつ,標準オブジェクト認識・検索ベンチマークの性能を維持・改善するフレームワークを提案する。 私たちのコードと事前トレーニングされたモデルはhttps://github.com/netflix/clove.comで公開されています。

Recent years have witnessed a significant increase in the performance of Vision and Language tasks. Foundational Vision-Language Models (VLMs), such as CLIP, have been leveraged in multiple settings and demonstrated remarkable performance across several tasks. Such models excel at object-centric recognition yet learn text representations that seem invariant to word order, failing to compose known concepts in novel ways. However, no evidence exists that any VLM, including large-scale single-stream models such as GPT-4V, identifies compositions successfully. In this paper, we introduce a framework to significantly improve the ability of existing models to encode compositional language, with over 10% absolute improvement on compositionality benchmarks, while maintaining or improving the performance on standard object-recognition and retrieval benchmarks. Our code and pre-trained models are publicly available at https://github.com/netflix/clove.
翻訳日:2024-03-04 13:42:56 公開日:2024-03-01
# 空中グラッピングにおける低出力デバイス用高速検出器

High-Speed Detector For Low-Powered Devices In Aerial Grasping ( http://arxiv.org/abs/2402.14591v2 )

ライセンス: Link先を確認
Ashish Kumar, Laxmidhar Behera(参考訳) 自律的空中収穫は非常に複雑な問題であり、低消費電力の小型コンピュータデバイス上で多数の学際的アルゴリズムを実行する必要がある。 オブジェクト検出は、計算に富むアルゴリズムの1つである。 この文脈では、以下の貢献をします。 (i)新しい潜在オブジェクト表現(lor)モジュール,クエリ割り当て,予測戦略に基づく,資源効率,単一ステージ,後処理フリーなオブジェクト検出器であるfast fruit detector (ffd)。 FFDは最新の10W NVIDIA Jetson-NX組み込みデバイス上で100FPS@FP32精度を実現し、制御、把握、SLAMといった他の時間クリティカルサブシステムと共存する。 (二) 多数のインスタンスからなるため、果画像を手作業でラベル付けすることなく、膨大な量のトレーニングデータを生成する方法であり、ラベリングコストと時間を増加させる。 (iii)非常に小規模のインスタンスを多数持つオープンソースのフルーツ検出データセットは、検出が難しい。 例えば、FFDはシングルスケールのFaster-RCNNの10.7AP倍、マルチスケールのFaster-RCNNの2.3AP倍、最新のシングルスケールのYOLO-v8の8AP倍、マルチスケールのYOLO-v8の0.3倍である。

Autonomous aerial harvesting is a highly complex problem because it requires numerous interdisciplinary algorithms to be executed on mini low-powered computing devices. Object detection is one such algorithm that is compute-hungry. In this context, we make the following contributions: (i) Fast Fruit Detector (FFD), a resource-efficient, single-stage, and postprocessing-free object detector based on our novel latent object representation (LOR) module, query assignment, and prediction strategy. FFD achieves 100FPS@FP32 precision on the latest 10W NVIDIA Jetson-NX embedded device while co-existing with other time-critical sub-systems such as control, grasping, SLAM, a major achievement of this work. (ii) a method to generate vast amounts of training data without exhaustive manual labelling of fruit images since they consist of a large number of instances, which increases the labelling cost and time. (iii) an open-source fruit detection dataset having plenty of very small-sized instances that are difficult to detect. Our exhaustive evaluations on our and MinneApple dataset show that FFD, being only a single-scale detector, is more accurate than many representative detectors, e.g. FFD is better than single-scale Faster-RCNN by 10.7AP, multi-scale Faster-RCNN by 2.3AP, and better than latest single-scale YOLO-v8 by 8AP and multi-scale YOLO-v8 by 0.3 while being considerably faster.
翻訳日:2024-03-04 13:42:08 公開日:2024-03-01
# 深層強化学習と転送学習に基づくエッジキャッシング

Edge Caching Based on Deep Reinforcement Learning and Transfer Learning ( http://arxiv.org/abs/2402.14576v2 )

ライセンス: Link先を確認
Farnaz Niknia, Ping Wang, Zixu Wang, Aakash Agarwal and Adib S. Rezaei(参考訳) 本稿では,ネットワークにおける冗長データ伝送のエスカレート問題に対処する。 トラフィックの急増はバックホールリンクとバックボーンネットワークを圧迫し、エッジルータでのキャッシュソリューションの探求を促した。 しかし、現実世界のシナリオではランダムな要求が到着し、最適なキャッシングポリシーを決定するのに様々なファイル特性が重要な役割を担っているにもかかわらず、キャッシュポリシーを形成する際にこれらのファイル特性をすべて考慮していない。 本稿では,まず,半マルコフ決定プロセス(smdp)を用いてキャッシング問題を定式化し,ファイル要求時にランダムにキャッシングを行う実世界のシナリオの連続時間的性質に対応する。 そこで本研究では,生涯,サイズ,重要度などのファイル特徴を包括的に考慮した,深層Q-ラーニングに基づくキャッシュ手法を提案する。 シミュレーションの結果,最近の深層強化学習法と比較して,本手法の優れた性能を示す。 さらに、SMDPフレームワークにおけるファイル要求率の変化を考慮するために、Transfer Learning(TL)アプローチを含めるように作業を拡張します。 提案したTLアプローチは,ソースドメインとターゲットドメイン間の要求レートの差が増加するシナリオにおいても高速収束を示し,実環境におけるキャッシュの動的な課題に対する,有望な解決策を提供する。

This paper addresses the escalating challenge of redundant data transmission in networks. The surge in traffic has strained backhaul links and backbone networks, prompting the exploration of caching solutions at the edge router. Existing work primarily relies on Markov Decision Processes (MDP) for caching issues, assuming fixed-time interval decisions; however, real-world scenarios involve random request arrivals, and despite the critical role of various file characteristics in determining an optimal caching policy, none of the related existing work considers all these file characteristics in forming a caching policy. In this paper, first, we formulate the caching problem using a semi-Markov Decision Process (SMDP) to accommodate the continuous-time nature of real-world scenarios allowing for caching decisions at random times upon file requests. Then, we propose a double deep Q-learning-based caching approach that comprehensively accounts for file features such as lifetime, size, and importance. Simulation results demonstrate the superior performance of our approach compared to a recent Deep Reinforcement Learning-based method. Furthermore, we extend our work to include a Transfer Learning (TL) approach to account for changes in file request rates in the SMDP framework. The proposed TL approach exhibits fast convergence, even in scenarios with increased differences in request rates between source and target domains, presenting a promising solution to the dynamic challenges of caching in real-world environments.
翻訳日:2024-03-04 13:41:40 公開日:2024-03-01
# 保護と拡張 -- GANを用いた時系列医療記録の合成データ生成

Protect and Extend -- Using GANs for Synthetic Data Generation of Time-Series Medical Records ( http://arxiv.org/abs/2402.14042v2 )

ライセンス: Link先を確認
Navid Ashrafi, Vera Schmitt, Robert P. Spang, Sebastian M\"oller, Jan-Niklas Voigt-Antons(参考訳) プライベートユーザデータの保存は、QoE(High Quality of Experience)やアクセシビリティ、特にITベースのヘルスサービスのような機密データを扱うサービスにとって、最重要事項である。 匿名化技術は、データ再識別の傾向が見られたが、データ漏洩に対する時間とリソースの消費が比較的少なく、堅牢であるため、合成データ生成は、匿名化を徐々に置き換えている。 GAN(Generative Adversarial Networks)は、合成データセットの生成、特に差分プライバシー現象に固執するGANフレームワークに使用されている。 本研究では,合成データ生成のための最先端のganモデルを比較し,プライバシの心配なく配布可能な認知症患者の時系列合成医療記録を生成する。 予測モデリング、自己相関、分布解析を用いて、生成されたデータの生成品質(QoG)を評価する。 各モデルのプライバシー保護は、潜在的データ漏洩リスクを決定するためにメンバーシップ推論攻撃を適用することで評価される。 本実験は,QoGの許容レベルを維持しつつ,プライバシ保護に関する他のモデルよりも,プライバシ保護GAN(PPGAN)モデルの方が優れていることを示す。 以上の結果から今後,医療現場におけるデータ保護の改善が期待できる。

Preservation of private user data is of paramount importance for high Quality of Experience (QoE) and acceptability, particularly with services treating sensitive data, such as IT-based health services. Whereas anonymization techniques were shown to be prone to data re-identification, synthetic data generation has gradually replaced anonymization since it is relatively less time and resource-consuming and more robust to data leakage. Generative Adversarial Networks (GANs) have been used for generating synthetic datasets, especially GAN frameworks adhering to the differential privacy phenomena. This research compares state-of-the-art GAN-based models for synthetic data generation to generate time-series synthetic medical records of dementia patients which can be distributed without privacy concerns. Predictive modeling, autocorrelation, and distribution analysis are used to assess the Quality of Generating (QoG) of the generated data. The privacy preservation of the respective models is assessed by applying membership inference attacks to determine potential data leakage risks. Our experiments indicate the superiority of the privacy-preserving GAN (PPGAN) model over other models regarding privacy preservation while maintaining an acceptable level of QoG. The presented results can support better data protection for medical use cases in the future.
翻訳日:2024-03-04 13:41:17 公開日:2024-03-01
# BenchCloudVision: リモートセンシング画像におけるクラウド検出とセグメンテーションのためのディープラーニングアプローチのベンチマーク分析

BenchCloudVision: A Benchmark Analysis of Deep Learning Approaches for Cloud Detection and Segmentation in Remote Sensing Imagery ( http://arxiv.org/abs/2402.13918v3 )

ライセンス: Link先を確認
Loddo Fabio, Dario Piga, Michelucci Umberto, El Ghazouali Safouane(参考訳) 光センサーを搭載した衛星は高解像度の画像を撮影し、様々な環境現象に関する貴重な洞察を提供する。 近年、多様な景観における水の検出から山や地形の区分まで、リモートセンシングにおけるいくつかの課題に焦点をあてる研究が急増している。 衛星画像解析の精度と効率を高めるための研究が進行中である。 特に, 環境モニタリング, 資源管理, 災害対応等において重要となる, 正確な水域検出, 雪と雲の検出手法の開発が注目されている。 本稿では,リモートセンシング画像からのクラウドセグメンテーションに焦点をあてる。 光センサーベースのアプリケーションに雲が存在するため、正確なリモートセンシングデータ分析は困難である。 アプリケーションや研究などの成果物の品質は、リモートセンシングデータ処理パイプラインにおいて重要な役割を果たすクラウド検出によって直接影響を受ける。 本稿では,クラウド識別に適用された7つの最先端意味セグメンテーションと検出アルゴリズムについて検討し,そのアーキテクチャ的アプローチを評価し,最もパフォーマンスの高いものを特定するためのベンチマーク分析を行った。 モデルの適応性を高めるために、トレーニング中に使用される画像の種類とスペクトル帯域の量を含む重要な要素を解析する。 さらに、本研究では、RGBとRGBN-IRの組み合わせを含む少数のスペクトルバンドのみを用いて、クラウドセグメンテーションを実行できる機械学習アルゴリズムの開発を試みる。 様々なアプリケーションやユーザシナリオに対するモデルの柔軟性は、sentinel-2とlandsat-8の画像からデータセットとして評価される。 このベンチマークは、このgithubリンクの材料を使って再現することができる。

Satellites equipped with optical sensors capture high-resolution imagery, providing valuable insights into various environmental phenomena. In recent years, there has been a surge of research focused on addressing some challenges in remote sensing, ranging from water detection in diverse landscapes to the segmentation of mountainous and terrains. Ongoing investigations goals to enhance the precision and efficiency of satellite imagery analysis. Especially, there is a growing emphasis on developing methodologies for accurate water body detection, snow and clouds, important for environmental monitoring, resource management, and disaster response. Within this context, this paper focus on the cloud segmentation from remote sensing imagery. Accurate remote sensing data analysis can be challenging due to the presence of clouds in optical sensor-based applications. The quality of resulting products such as applications and research is directly impacted by cloud detection, which plays a key role in the remote sensing data processing pipeline. This paper examines seven cutting-edge semantic segmentation and detection algorithms applied to clouds identification, conducting a benchmark analysis to evaluate their architectural approaches and identify the most performing ones. To increase the model's adaptability, critical elements including the type of imagery and the amount of spectral bands used during training are analyzed. Additionally, this research tries to produce machine learning algorithms that can perform cloud segmentation using only a few spectral bands, including RGB and RGBN-IR combinations. The model's flexibility for a variety of applications and user scenarios is assessed by using imagery from Sentinel-2 and Landsat-8 as datasets. This benchmark can be reproduced using the material from this github link: https://github.com/toelt-llc/cloud_segmentation_comparative.
翻訳日:2024-03-04 13:40:30 公開日:2024-03-01
# neeko: dynamic loraを活用した効率的なマルチキャラクタロールプレイングエージェント

Neeko: Leveraging Dynamic LoRA for Efficient Multi-Character Role-Playing Agent ( http://arxiv.org/abs/2402.13717v2 )

ライセンス: Link先を確認
Xiaoyan Yu, Tongxu Luo, Yifan Wei, Fangyu Lei, Yiming Huang, Hao Peng, Liehuang Zhu(参考訳) 大規模言語モデル(llm)は、オープンドメインの対話エージェントに革命をもたらしたが、マルチキャラクタロールプレイング(mcrp)シナリオの課題に遭遇した。 この問題に対処するため、我々は複数の文字を効率よく模倣するための革新的なフレームワークNeekoを提示する。 既存の方法とは異なり、Neekoは動的ローランクアダプタ(LoRA)戦略を採用しており、多様な文字にシームレスに適応できる。 本フレームワークでは,ロールプレイングのプロセスをエージェント事前学習,複数キャラクタプレイ,文字インクリメンタル学習に分解し,目に見える役割と目に見えない役割の両方を効果的に扱う。 このダイナミックなアプローチは、各キャラクタの異なるローラブロックと組み合わせることで、neekoのユニークな属性、個性、発話パターンへの適応性を高める。 その結果、Neekoは既存のほとんどのメソッドよりもMCRPの優れたパフォーマンスを示し、より魅力的で汎用的なユーザーインタラクションエクスペリエンスを提供します。 コードとデータはhttps://github.com/weiyifan1023/neekoで入手できる。

Large Language Models (LLMs) have revolutionized open-domain dialogue agents but encounter challenges in multi-character role-playing (MCRP) scenarios. To address the issue, we present Neeko, an innovative framework designed for efficient multiple characters imitation. Unlike existing methods, Neeko employs a dynamic low-rank adapter (LoRA) strategy, enabling it to adapt seamlessly to diverse characters. Our framework breaks down the role-playing process into agent pre-training, multiple characters playing, and character incremental learning, effectively handling both seen and unseen roles. This dynamic approach, coupled with distinct LoRA blocks for each character, enhances Neeko's adaptability to unique attributes, personalities, and speaking patterns. As a result, Neeko demonstrates superior performance in MCRP over most existing methods, offering more engaging and versatile user interaction experiences. Code and data are available at https://github.com/weiyifan1023/Neeko.
翻訳日:2024-03-04 13:40:01 公開日:2024-03-01
# CMNER: ソーシャルメディアに基づく中国のマルチモーダルNERデータセット

CMNER: A Chinese Multimodal NER Dataset based on Social Media ( http://arxiv.org/abs/2402.13693v2 )

ライセンス: Link先を確認
Yuanze Ji, Bobo Li, Jun Zhou, Fei Li, Chong Teng, Donghong Ji(参考訳) マルチモーダル名前付きエンティティ認識(multimodal named entity recognition, mner)は、テキストから名前付きエンティティを抽出するための重要なタスクである。 それでも、中国のMNERのデータ量は、この自然言語処理タスクの中国藩内での進歩を著しく妨げている。 そこで本研究では,中国最大のソーシャルメディアプラットフォームであるWeiboから得られたデータを利用して,中国のマルチモーダルNERデータセット(CMNER)をコンパイルする。 データセットは、5000のWeiboポストと18,326の対応画像からなる。 エンティティは、人、場所、組織、雑種という4つの異なるカテゴリに分類される。 我々は,CMNERのベースライン実験を行い,NERのイメージを組み込むことの有効性を実証した。 さらに,公開可能な英語MNERデータセット(Twitter2015)の言語間実験を行い,その結果,中国語と英語のマルチモーダルNERデータがNERモデルの性能を相互に向上できるという仮説を裏付けた。

Multimodal Named Entity Recognition (MNER) is a pivotal task designed to extract named entities from text with the support of pertinent images. Nonetheless, a notable paucity of data for Chinese MNER has considerably impeded the progress of this natural language processing task within the Chinese domain. Consequently, in this study, we compile a Chinese Multimodal NER dataset (CMNER) utilizing data sourced from Weibo, China's largest social media platform. Our dataset encompasses 5,000 Weibo posts paired with 18,326 corresponding images. The entities are classified into four distinct categories: person, location, organization, and miscellaneous. We perform baseline experiments on CMNER, and the outcomes underscore the effectiveness of incorporating images for NER. Furthermore, we conduct cross-lingual experiments on the publicly available English MNER dataset (Twitter2015), and the results substantiate our hypothesis that Chinese and English multimodal NER data can mutually enhance the performance of the NER model.
翻訳日:2024-03-04 13:39:42 公開日:2024-03-01
# 社会技術システムにおけるAIアライメントのインセンティブ適合性:位置と展望

Incentive Compatibility for AI Alignment in Sociotechnical Systems: Positions and Prospects ( http://arxiv.org/abs/2402.12907v2 )

ライセンス: Link先を確認
Zhaowei Zhang, Fengshuo Bai, Mingzhi Wang, Haoyang Ye, Chengdong Ma, Yaodong Yang(参考訳) 人工知能(AI)の人類社会への統合は、社会的ガバナンスと安全に重大な影響を及ぼす。 AIアライメントの課題に対処するためにかなりの努力がなされているが、既存の方法論は主に技術的側面に焦点を当てており、しばしばAIシステムの複雑な社会技術的性質を無視している。 この目的のために、我々は、Incentive Compatibility Sociotechnical Alignment Problem (ICSAP)という新たな問題を探求する。 これにより、より多くの研究者がゲーム理論からインセンティブ・コンパチビリティ(IC)の原則を活用して、技術と社会的コンポーネントのギャップを埋めて、異なる文脈における人間の社会とのAIコンセンサスを維持する方法を探求できることを期待しています。 さらに、ICを実現するための古典的なゲーム問題として、機構設計、契約理論、ベイズ的説得の3つについて論じ、ICSAP解決の視点、可能性、課題に対処し、予備的な実装概念を提供する。

The burgeoning integration of artificial intelligence (AI) into human society brings forth significant implications for societal governance and safety. While considerable strides have been made in addressing AI alignment challenges, existing methodologies primarily focus on technical facets, often neglecting the intricate sociotechnical nature of AI systems, which can lead to a misalignment between the development and deployment contexts. To this end, we posit a new problem worth exploring: Incentive Compatibility Sociotechnical Alignment Problem (ICSAP). We hope this can call for more researchers to explore how to leverage the principles of Incentive Compatibility (IC) from game theory to bridge the gap between technical and societal components to maintain AI consensus with human societies in different contexts. We further discuss three classical game problems for achieving IC: mechanism design, contract theory, and Bayesian persuasion, in addressing the perspectives, potentials, and challenges of solving ICSAP, and provide preliminary implementation conceptions.
翻訳日:2024-03-04 13:39:19 公開日:2024-03-01
# 機械学習回帰タスクの平均キャリブレーションを検証するには?

How to validate average calibration for machine learning regression tasks ? ( http://arxiv.org/abs/2402.10043v2 )

ライセンス: Link先を確認
Pascal Pernot(参考訳) 機械学習回帰タスクの不確実性の平均キャリブレーションは、2つの方法でテストできる。 1つの方法は、キャリブレーション誤差(CE)を平均絶対誤差(MSE)と平均分散(MV)または平均二乗不確実性(MV)の差として推定することである。 別の方法は、平均二乗zスコアまたはスケールドエラー(ZMS)を 1 と比較することである。 どちらのアプローチも、最近の機械学習の不確実性定量化文学のデータセットの集合に示されているように、異なる結論につながる可能性がある。 ここでは、CEは不確実性の分布、特に外部の不確実性の存在に非常に敏感であり、校正試験には確実に使用できないことが示されている。 対照的に、ZMS統計はこの感度問題を示しておらず、この文脈でもっとも信頼できるアプローチを提供する。 条件キャリブレーションの妥当性について考察した。

Average calibration of the uncertainties of machine learning regression tasks can be tested in two ways. One way is to estimate the calibration error (CE) as the difference between the mean absolute error (MSE) and the mean variance (MV) or mean squared uncertainty. The alternative is to compare the mean squared z-scores or scaled errors (ZMS) to 1. Both approaches might lead to different conclusion, as illustrated on an ensemble of datasets from the recent machine learning uncertainty quantification literature. It is shown here that the CE is very sensitive to the distribution of uncertainties, and notably to the presence of outlying uncertainties, and that it cannot be used reliably for calibration testing. By contrast, the ZMS statistic does not present this sensitivity issue and offers the most reliable approach in this context. Implications for the validation of conditional calibration are discussed.
翻訳日:2024-03-04 13:39:02 公開日:2024-03-01
# texttt{cosmic}$:タスクに依存しない要約評価のための相互情報

$\texttt{COSMIC}$: Mutual Information for Task-Agnostic Summarization Evaluation ( http://arxiv.org/abs/2402.19457v2 )

ライセンス: Link先を確認
Maxime Darrin, Philippe Formont, Jackie Chi Kit Cheung, Pablo Piantanida(参考訳) 要約の質を評価することは大きな課題となる。 そこで本研究では,タスク成果を保ちつつ,下流タスクに有用な要約を生成する能力に基づいて要約者を評価する新しいタスク指向評価手法を提案する。 理論的には、これらのタスクのエラー確率と、ソーステキストと生成した要約の相互情報との直接関係を確立する。 我々は,この指標の実践的実装として$\texttt{COSMIC}$を導入し,人間の判断に基づく指標との強い相関と下流タスク性能の予測の有効性を示した。 確立されたメトリクスに対する比較分析: $\texttt{bertscore}$と$\texttt{rouge}$は、$\texttt{cosmic}$の競争力を強調する。

Assessing the quality of summarizers poses significant challenges. In response, we propose a novel task-oriented evaluation approach that assesses summarizers based on their capacity to produce summaries that are useful for downstream tasks, while preserving task outcomes. We theoretically establish a direct relationship between the resulting error probability of these tasks and the mutual information between source texts and generated summaries. We introduce $\texttt{COSMIC}$ as a practical implementation of this metric, demonstrating its strong correlation with human judgment-based metrics and its effectiveness in predicting downstream task performance. Comparative analyses against established metrics like $\texttt{BERTScore}$ and $\texttt{ROUGE}$ highlight the competitive performance of $\texttt{COSMIC}$.
翻訳日:2024-03-04 13:34:16 公開日:2024-03-01
# WanJuan-CC: 安全で高品質なWebテキストデータセット

WanJuan-CC: A Safe and High-Quality Open-sourced English Webtext Dataset ( http://arxiv.org/abs/2402.19282v2 )

ライセンス: Link先を確認
Jiantao Qiu, Haijun Lv, Zhenjiang Jin, Rui Wang, Wenchang Ning, Jia Yu, ChaoBin Zhang, Pei Chu, Yuan Qu, Runyu Peng, Zhiyuan Zeng, Huanze Tang, Zhikai Lei, Jiawei Hong, Keyu Chen, Zhaoye Fei, Ruiliang Xu, Wei Li, Hang Yan, and Conghui He(参考訳) 本稿では,Common Crawlデータから得られた安全で高品質なウェブテキストデータセットであるWanJuan-CCを提案する。 この研究は、大量の高品質なデータを必要とする言語モデルのための大規模な事前学習データセットを構築する際の課題に対処する。 包括的なプロセスは、抽出、ヒューリスティックルールフィルタリング、ファジィ重複、コンテンツ安全性フィルタリング、データ品質フィルタリングを含むCommon Crawlデータを扱うように設計された。 約68億の英文文書から、安全データの222Tトークンを取得し、WanJuan-CCの一部として高品質データの1.0Tトークンを選定した。 このデータセットから300B Tokensをオープンソース化しました。 この論文はデータ品質に関する統計情報も提供しており、ユーザーは必要に応じて適切なデータを選択することができる。 データセットの品質と有用性を評価するため,WanJuan-CCとRefinedWebを用いた1Bパラメータと3Bパラメータモデルをトレーニングした。 その結果、wanjuan-ccは検証データセットとダウンストリームタスクでパフォーマンスが向上した。

This paper presents WanJuan-CC, a safe and high-quality open-sourced English webtext dataset derived from Common Crawl data. The study addresses the challenges of constructing large-scale pre-training datasets for language models, which require vast amounts of high-quality data. A comprehensive process was designed to handle Common Crawl data, including extraction, heuristic rule filtering, fuzzy deduplication, content safety filtering, and data quality filtering. From approximately 68 billion original English documents, we obtained 2.22T Tokens of safe data and selected 1.0T Tokens of high-quality data as part of WanJuan-CC. We have open-sourced 300B Tokens from this dataset. The paper also provides statistical information related to data quality, enabling users to select appropriate data according to their needs. To evaluate the quality and utility of the dataset, we trained 1B-parameter and 3B-parameter models using WanJuan-CC and another dataset, RefinedWeb. Results show that WanJuan-CC performs better on validation datasets and downstream tasks.
翻訳日:2024-03-04 13:34:03 公開日:2024-03-01
# 異種データサイロにおける離散的フェデレート学習のための不確実性に基づく拡張可能コードブック

Uncertainty-Based Extensible Codebook for Discrete Federated Learning in Heterogeneous Data Silos ( http://arxiv.org/abs/2402.18888v2 )

ライセンス: Link先を確認
Tianyi Zhang, Yu Cao, Dianbo Liu(参考訳) 巨大な分散データセットを活用することを目的としたフェデレーション学習(FL)は、さまざまなサイロにまたがるデータの均一性という重要な課題に直面している。 従来の研究では、小さな分布シフトにまたがるモデル一般化を強化するために離散表現を探索してきたが、これらのアプローチは、大きな分散分布を持つ新しいデータサイロへの適応に苦慮することが多い。 その結果,不慣れな分布を持つデータサイロに適用した場合,FL由来のモデルが著しく不確実性を示した。 その結果,不確実性に基づく拡張可能コードブックフェデレートラーニング(UEFL)と呼ばれる,革新的で簡単な反復型フレームワークを提案する。 このフレームワークは潜在機能を学習可能な離散ベクトルに動的にマッピングし、不確実性を評価し、特に不確実性を示すサイロの離散化辞書やコードブックを拡張する。 本手法は,異種データサイロを特徴とする環境での計算オーバーヘッドを最小限に抑えつつ,データ分散の多様性を明示的に解決することで,精度の向上と不確実性低減を両立することを目的とする。 5つのデータセットで行った実験により, 精度(3%-22.1%)と不確実性(38.83%-96.24%)が向上し, 現代の最先端手法よりも優れていた。 ソースコードはhttps://github.com/destiny301/ueflで入手できる。

Federated learning (FL), aimed at leveraging vast distributed datasets, confronts a crucial challenge: the heterogeneity of data across different silos. While previous studies have explored discrete representations to enhance model generalization across minor distributional shifts, these approaches often struggle to adapt to new data silos with significantly divergent distributions. In response, we have identified that models derived from FL exhibit markedly increased uncertainty when applied to data silos with unfamiliar distributions. Consequently, we propose an innovative yet straightforward iterative framework, termed Uncertainty-Based Extensible-Codebook Federated Learning (UEFL). This framework dynamically maps latent features to trainable discrete vectors, assesses the uncertainty, and specifically extends the discretization dictionary or codebook for silos exhibiting high uncertainty. Our approach aims to simultaneously enhance accuracy and reduce uncertainty by explicitly addressing the diversity of data distributions, all while maintaining minimal computational overhead in environments characterized by heterogeneous data silos. Through experiments conducted on five datasets, our method has demonstrated its superiority, achieving significant improvements in accuracy (by 3%--22.1%) and uncertainty reduction (by 38.83%--96.24%), thereby outperforming contemporary state-of-the-art methods. The source code is available at https://github.com/destiny301/uefl.
翻訳日:2024-03-04 13:33:45 公開日:2024-03-01
# 単語の順序はいつ重要でいつでないのですか。

When does word order matter and when doesn't it? ( http://arxiv.org/abs/2402.18838v2 )

ライセンス: Link先を確認
Xuanda Chen and Timothy O'Donnell and Siva Reddy(参考訳) 言語モデル(LM)は、自然言語理解(NLU)タスクの語順変化に敏感に見える。 本稿では,この現象を言語的冗長性によって説明し,単語順やケースマーカーなどの言語的手がかりが重複し,冗長な情報が得られることを示す。 我々の仮説では、順序が冗長な情報を提供する場合、モデルは単語順に不感度を示し、その不感度の程度はタスクによって異なる。 我々は,非スクランブル文とスクランブル文の相互情報(MI)を用いて,情報的単語順序の定量化を行う。 結果より, 単語の順序が低くなるほど, モデルの予測の一貫性が増すと, 文のスクランブルがなくなることが示唆された。 SST-2のようなタスクでは、PMI(Pointwise-MI)が変更されても、LMの予測は元のタスクとほぼ常に一致しているのに対し、RTEのような他のタスクでは、PMIが低くなると、一貫性はほぼランダムである。

Language models (LMs) may appear insensitive to word order changes in natural language understanding (NLU) tasks. In this paper, we propose that linguistic redundancy can explain this phenomenon, whereby word order and other linguistic cues such as case markers provide overlapping and thus redundant information. Our hypothesis is that models exhibit insensitivity to word order when the order provides redundant information, and the degree of insensitivity varies across tasks. We quantify how informative word order is using mutual information (MI) between unscrambled and scrambled sentences. Our results show the effect that the less informative word order is, the more consistent the model's predictions are between unscrambled and scrambled sentences. We also find that the effect varies across tasks: for some tasks, like SST-2, LMs' prediction is almost always consistent with the original one even if the Pointwise-MI (PMI) changes, while for others, like RTE, the consistency is near random when the PMI gets lower, i.e., word order is really important.
翻訳日:2024-03-04 13:33:18 公開日:2024-03-01
# RORA:ロバストなフリーテキストライタリー評価

RORA: Robust Free-Text Rationale Evaluation ( http://arxiv.org/abs/2402.18678v2 )

ライセンス: Link先を確認
Zhengping Jiang, Yining Lu, Hanjie Chen, Daniel Khashabi, Benjamin Van Durme, Anqi Liu(参考訳) 自由文理性は説明可能なNLPにおいて重要な役割を担い、モデルの意思決定の背後にある知識と推論のギャップを埋める。 しかしながら、潜在的な推論経路の多様性とそれに伴う決定的な根拠の欠如により、それらの評価は依然として課題である。 既存の評価基準は、目標ラベルに対する合理的なサポートの程度に依存するが、ラベルを不注意にリークする根拠を評価するのに不足している。 この問題に対処するため,ラベルリークに対するロバスト自由文Rationale評価法であるRORAを提案する。 RORAは、ラベルを正当化するために合理的に提供される新しい情報を定量化する。 これは条件付きv-情報 \citep{hewitt-etal-2021-conditional} を小さなモデルで悪用できるリーク機能に対して頑健な予測系で評価することで達成される。 RORAは、人書き、合成、またはモデル生成の合理性を評価する既存のアプローチを一貫して上回り、特にラベルリークに対する堅牢性を示す。 また、RORAは人間の判断とよく一致し、多様な自由文理性にまたがる信頼性と正確な測定を提供する。

Free-text rationales play a pivotal role in explainable NLP, bridging the knowledge and reasoning gaps behind a model's decision-making. However, due to the diversity of potential reasoning paths and a corresponding lack of definitive ground truth, their evaluation remains a challenge. Existing evaluation metrics rely on the degree to which a rationale supports a target label, but we find these fall short in evaluating rationales that inadvertently leak the labels. To address this problem, we propose RORA, a Robust free-text Rationale evaluation against label leakage. RORA quantifies the new information supplied by a rationale to justify the label. This is achieved by assessing the conditional V-information \citep{hewitt-etal-2021-conditional} with a predictive family robust against leaky features that can be exploited by a small model. RORA consistently outperforms existing approaches in evaluating human-written, synthetic, or model-generated rationales, particularly demonstrating robustness against label leakage. We also show that RORA aligns well with human judgment, providing a more reliable and accurate measurement across diverse free-text rationales.
翻訳日:2024-03-04 13:32:58 公開日:2024-03-01
# マルチファクト:FActScoreを用いた多言語LLMの多言語知識の評価

Multi-FAct: Assessing Multilingual LLMs' Multi-Regional Knowledge using FActScore ( http://arxiv.org/abs/2402.18045v2 )

ライセンス: Link先を確認
Sheikh Shafayat, Eunsu Kim, Juhyun Oh, Alice Oh(参考訳) 大規模言語モデル(llm)は事実性幻覚(factuality hallucination)を起こしやすく、確立された知識と矛盾するテキストを生成する。 多くの研究が英語でこれに取り組んでいるが、多言語LLMについてはほとんど知られていない。 本稿では,言語と地理的領域の多言語LLMの事実精度を体系的に評価する。 多様な言語にFActScore(Min et al., 2023)を適用した多言語事実性評価のための新しいパイプラインを提案する。 9つの言語で分析したところ、英語は事実の正確さと量で他より一貫して優れていることがわかった。 さらに、多言語モデルは西欧大陸の事実情報に対するバイアスを示す。 これらの知見は,LLMの事実生成における多言語的事実性評価の改善の必要性と,地理的偏見の低さを浮き彫りにした。

Large Language Models (LLMs) are prone to factuality hallucination, generating text that contradicts established knowledge. While extensive research has addressed this in English, little is known about multilingual LLMs. This paper systematically evaluates multilingual LLMs' factual accuracy across languages and geographic regions. We introduce a novel pipeline for multilingual factuality evaluation, adapting FActScore(Min et al., 2023) for diverse languages. Our analysis across nine languages reveals that English consistently outperforms others in factual accuracy and quantity of generated facts. Furthermore, multilingual models demonstrate a bias towards factual information from Western continents. These findings highlight the need for improved multilingual factuality assessment and underscore geographical biases in LLMs' fact generation.
翻訳日:2024-03-04 13:32:07 公開日:2024-03-01
# 非線形鋼モーメント抵抗フレーム構造の地震応答予測のための物理不定形機械学習

Physics-Informed Machine Learning for Seismic Response Prediction OF Nonlinear Steel Moment Resisting Frame Structures ( http://arxiv.org/abs/2402.17992v2 )

ライセンス: Link先を確認
R. Bailey Bond, Pu Ren, Jerome F. Hajjar, and Hao Sun(参考訳) 従来の数値シミュレーションの計算コストが大きいため,構造メタモデリングにおける機械学習(ML)手法の利用への関心が高まっている。 既存のデータ駆動戦略は、モデルロバスト性と解釈可能性、およびリッチデータへの依存性に対する潜在的な制限を示しています。 本稿では,非線形構造物の地震応答をモデル化する深層ニューラルネットワークに科学的原理と物理法則を組み込んだ新しい物理インフォームド機械学習(piml)手法を提案する。 基本的な概念は、既知の物理的境界内のMLモデルの解空間を制約することである。 これは3つの主要な特徴、すなわちモデル順序の低減、長い短期記憶(LSTM)ネットワーク、ニュートンの第2法則(例えば運動方程式)によって実現されている。 モデル順序の低減は、固有冗長性を持つ構造系の処理とモデル効率の向上に不可欠である。 LSTMネットワークは時間依存を捕捉し、時系列応答の正確な予測を可能にする。 運動方程式は系の非線形性を学ぶために操作され、物理的に解釈可能な結果の中で解空間を閉じる。 これらの機能は比較的スパースなデータによるモデルトレーニングを可能にし、正確性、解釈可能性、堅牢性の観点から利点を提供する。 さらに, 設計セーフ-CIデータベースで利用可能な水平地震荷重を受ける場合の耐震設計型延性板状鋼モーメントフレームのデータセットを, 提案手法の評価のために検討した。 結果として得られるメタモデルは、既存の物理誘導LSTMモデルよりも複雑なデータを扱うことができ、他の非物理データ駆動ニューラルネットワークより優れている。

There is a growing interest in utilizing machine learning (ML) methods for structural metamodeling due to the substantial computational cost of traditional numerical simulations. The existing data-driven strategies show potential limitations to the model robustness and interpretability as well as the dependency of rich data. To address these challenges, this paper presents a novel physics-informed machine learning (PiML) method, which incorporates scientific principles and physical laws into deep neural networks for modeling seismic responses of nonlinear structures. The basic concept is to constrain the solution space of the ML model within known physical bounds. This is made possible with three main features, namely, model order reduction, a long short-term memory (LSTM) networks, and Newton's second law (e.g., the equation of motion). Model order reduction is essential for handling structural systems with inherent redundancy and enhancing model efficiency. The LSTM network captures temporal dependencies, enabling accurate prediction of time series responses. The equation of motion is manipulated to learn system nonlinearities and confines the solution space within physically interpretable results. These features enable model training with relatively sparse data and offer benefits in terms of accuracy, interpretability, and robustness. Furthermore, a dataset of seismically designed archetype ductile planar steel moment resistant frames under horizontal seismic loading, available in the DesignSafe-CI Database, is considered for evaluation of the proposed method. The resulting metamodel is capable of handling more complex data compared to existing physics-guided LSTM models and outperforms other non-physics data-driven neural networks.
翻訳日:2024-03-04 13:31:46 公開日:2024-03-01
# 表データを用いた大規模言語モデル(llm) - 予測・生成・理解-

Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding -- A Survey ( http://arxiv.org/abs/2402.17944v2 )

ライセンス: Link先を確認
Xi Fang, Weijie Xu, Fiona Anting Tan, Jiani Zhang, Ziqing Hu, Yanjun Qi, Scott Nickleach, Diego Socolinsky, Srinivasan Sengamedu, Christos Faloutsos(参考訳) 大規模言語モデリングにおける近年のブレークスルーは、予測、表データ合成、質問応答、テーブル理解など、表データモデリングに関連する様々なタスクにおいて、彼らのアプリケーションの厳密な探索を促進する。 各タスクは固有の課題と機会を提供する。 しかし、現在、この研究領域における重要な技術、メトリクス、データセット、モデル、最適化アプローチを要約し比較する包括的なレビューが欠けている。 この調査は、これらの領域における最近の進歩を集約し、使用するデータセット、メトリクス、方法論の詳細な調査と分類を提供することによって、このギャップに対処することを目的としている。 既存の文献における強み、限界、未開拓領域、ギャップを識別し、このバイタルで急速に進化する分野における今後の研究方向についての洞察を提供する。 関連するコードやデータセットの参照も提供する。 この総合的なレビューを通じて、興味のある読者に関連する参照と洞察に富んだ視点を提供し、この分野の一般的な課題を効果的にナビゲートし解決するために必要なツールと知識を彼らに与えたいと思っています。

Recent breakthroughs in large language modeling have facilitated rigorous exploration of their application in diverse tasks related to tabular data modeling, such as prediction, tabular data synthesis, question answering, and table understanding. Each task presents unique challenges and opportunities. However, there is currently a lack of comprehensive review that summarizes and compares the key techniques, metrics, datasets, models, and optimization approaches in this research domain. This survey aims to address this gap by consolidating recent progress in these areas, offering a thorough survey and taxonomy of the datasets, metrics, and methodologies utilized. It identifies strengths, limitations, unexplored territories, and gaps in the existing literature, while providing some insights for future research directions in this vital and rapidly evolving field. It also provides relevant code and datasets references. Through this comprehensive review, we hope to provide interested readers with pertinent references and insightful perspectives, empowering them with the necessary tools and knowledge to effectively navigate and address the prevailing challenges in the field.
翻訳日:2024-03-04 13:31:20 公開日:2024-03-01
# drattack:迅速な分解と再構築で強力なllmジェイルブレイクが可能に

DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM Jailbreakers ( http://arxiv.org/abs/2402.16914v2 )

ライセンス: Link先を確認
Xirui Li, Ruochen Wang, Minhao Cheng, Tianyi Zhou, Cho-Jui Hsieh(参考訳) 大規模言語モデル(llms)の安全性アライメントは、手動および自動ジェイルブレイク攻撃の両方に脆弱であり、反対に有害なコンテンツを出力するためにllmをトリガーする。 しかし、有害なプロンプト全体をネストする現在のLLMのジェイルブレイク方法は、悪意のある意図を隠蔽するには有効ではなく、適切に整列されたLLMによって容易に識別され、拒否される。 本稿では,悪意のあるプロンプトを分離したサブプロンプトに分解することで,その下位にある悪意の意図を,断片化された,検出不能な形式で表現することにより,効果的に隠蔽できることを示す。 我々はjailbreak \textbf{Attack} (DrAttack) のための自動プロンプト \textbf{D}ecomposition と \textbf{R}econstruction フレームワークを導入する。 drattackには3つの重要なコンポーネントがある。 (a)原プロンプトのサブプロンプトへの'デコンポジション' b) 意味的に類似しているが無害な再組み立てデモによる文脈内学習によるこれらのサブプロンプトの「再構成」 c) llmをジェイルブレイクしながら、元の意図を維持するサブプロンプトのシノニムを見つけることを目的としたサブプロンプトの ‘synonym search' 。 複数のオープンソースおよびクローズドソース LLM にまたがる広範な実証研究により、Drattack はクエリ数が大幅に減少し、以前の SOTA プロンプトのみの攻撃者よりもかなりの成功率を得ることを示した。 特に GPT-4 での成功率は 78.0 % で、前作よりわずか15クエリで33.1 % 上回った。 プロジェクトはhttps://github.com/xirui-li/drattackで入手できる。

The safety alignment of Large Language Models (LLMs) is vulnerable to both manual and automated jailbreak attacks, which adversarially trigger LLMs to output harmful content. However, current methods for jailbreaking LLMs, which nest entire harmful prompts, are not effective at concealing malicious intent and can be easily identified and rejected by well-aligned LLMs. This paper discovers that decomposing a malicious prompt into separated sub-prompts can effectively obscure its underlying malicious intent by presenting it in a fragmented, less detectable form, thereby addressing these limitations. We introduce an automatic prompt \textbf{D}ecomposition and \textbf{R}econstruction framework for jailbreak \textbf{Attack} (DrAttack). DrAttack includes three key components: (a) `Decomposition' of the original prompt into sub-prompts, (b) `Reconstruction' of these sub-prompts implicitly by in-context learning with semantically similar but harmless reassembling demo, and (c) a `Synonym Search' of sub-prompts, aiming to find sub-prompts' synonyms that maintain the original intent while jailbreaking LLMs. An extensive empirical study across multiple open-source and closed-source LLMs demonstrates that, with a significantly reduced number of queries, DrAttack obtains a substantial gain of success rate over prior SOTA prompt-only attackers. Notably, the success rate of 78.0\% on GPT-4 with merely 15 queries surpassed previous art by 33.1\%. The project is available at https://github.com/xirui-li/DrAttack.
翻訳日:2024-03-04 13:30:59 公開日:2024-03-01
# 大言語モデルにおける評価バイアスの緩和

Likelihood-based Mitigation of Evaluation Bias in Large Language Models ( http://arxiv.org/abs/2402.15987v2 )

ライセンス: Link先を確認
Masanari Ohi, Masahiro Kaneko, Ryuto Koike, Mengsay Loem, Naoaki Okazaki(参考訳) 大規模言語モデル(LLM)は、自然言語生成タスクを自動メトリクスとして評価するために広く使われている。 しかし、LLMの文に対する妥当性の尺度は、語順や文構造などの文の表層的差異によって異なる可能性がある。 したがって、LLMが評価に使用される場合、高い確率で文を上書きし、低い確率で文を下書きする確率バイアスが存在する可能性がある。 本稿では,LSMを用いた評価装置における確率バイアスの存在と影響について検討する。 また,確率バイアスを軽減する手法を提案する。 本手法は,コンテキスト内学習の例として,非常に偏りの強いインスタンスを用いる。 テキスト・テキスト・文法的誤り訂正タスクの評価実験により, テスト対象のLLMには潜在的なバイアスが現れることがわかった。 さらに,提案手法は,このバイアスを軽減し,評価性能(モデルと人間のスコアの相関性)を著しく向上させた。

Large Language Models (LLMs) are widely used to evaluate natural language generation tasks as automated metrics. However, the likelihood, a measure of LLM's plausibility for a sentence, can vary due to superficial differences in sentences, such as word order and sentence structure. It is therefore possible that there might be a likelihood bias if LLMs are used for evaluation: they might overrate sentences with higher likelihoods while underrating those with lower likelihoods. In this paper, we investigate the presence and impact of likelihood bias in LLM-based evaluators. We also propose a method to mitigate the likelihood bias. Our method utilizes highly biased instances as few-shot examples for in-context learning. Our experiments in evaluating the data-to-text and grammatical error correction tasks reveal that several LLMs we test display a likelihood bias. Furthermore, our proposed method successfully mitigates this bias, also improving evaluation performance (in terms of correlation of models with human scores) significantly.
翻訳日:2024-03-04 13:30:12 公開日:2024-03-01
# MATHWELL: 教育用数学語を大規模に生成する

MATHWELL: Generating Educational Math Word Problems at Scale ( http://arxiv.org/abs/2402.15861v3 )

ライセンス: Link先を確認
Bryan R Christ, Jonathan Kropko, Thomas Hartvigsen(参考訳) 数学の単語問題は重要なK-8教育ツールであるが、それらを書くのに時間がかかり、ドメインの専門知識を必要とする。 我々は,K-8の数学教育を支援する言語モデルを提案する。 教育的であり 生み出す問題は 1)解決可能。 2)正確で,かつ 3) 適当。 既存のデータセットはこれらの基準にラベルを付けておらず、問題発生器のトレーニングに適していない。 我々は,専門家アノテーションから得られたデータを用いて,K-8数学語問題を生成するために繰り返し微調整されたLlama-2 (70B)モデルMATHWELLを紹介する。 MATHWELLを用いて、20,490個の問題を含むPoT(Program of Thought)論理を用いた最大英語単語問題データセットを生成する。 3.484 は、MATHWELL が実行可能解を持ち、代替案よりも全ての基準を満たす問題の割合が40%高く、実行可能解の74%が解決可能で正確で適切である、というドメインの専門家によって評価されている。 私たちはモデル、データ、アノテーションをリリースします。

Math word problems are critical K-8 educational tools, but writing them is time-consuming and requires domain expertise. We suggest that language models can support K-8 math education by automatically generating problems at scale. To be educational, generated problems must be 1) solvable, 2) accurate, and 3) appropriate. Existing datasets are unlabeled for these criteria, making them ill-suited for training problem generators. We introduce MATHWELL, a Llama-2 (70B) model iteratively finetuned to generate K-8 math word problems using data from expert annotation. Using MATHWELL, we generate the largest English word problem dataset with Program of Thought (PoT) rationales to date, containing 20,490 problems. 3,484 are scored by domain experts who find MATHWELL has a 40% higher share of problems that have executable solutions and meet all criteria than alternatives, with 74% of its problems with executable solutions being solvable, accurate, and appropriate. We release our model, data, and annotations.
翻訳日:2024-03-04 13:29:57 公開日:2024-03-01
# NaVid:ビデオベースのVLMが視覚・言語ナビゲーションの次のステップを計画

NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation ( http://arxiv.org/abs/2402.15852v3 )

ライセンス: Link先を確認
Jiazhao Zhang, Kunyu Wang, Rongtao Xu, Gengze Zhou, Yicong Hong, Xiaomeng Fang, Qi Wu, Zhizheng Zhang, Wang He(参考訳) VLN(Vision-and-Language Navigation)は、エージェントが言語命令に従って見えない環境でナビゲートできるようにすることを目的とした、Embodied AIの重要な研究課題である。 この分野での一般化は、流通外のシーンやSimからRealまで、長年にわたる課題である。 本稿では,そのような一般化ギャップを緩和するために,ビデオベースの大規模視覚言語モデル (vlm) であるnavidを提案する。 NaVidは、地図、オドメーター、深さ入力を使わずに最先端のナビゲーション性能を実現するVLMの能力を示す最初の試みである。 人間の指示に従って、NaVidはロボットに搭載された単眼のRGBカメラから、次のステップのアクションを出力するオンザフライビデオストリームのみを必要とする。 我々の定式化は、オドメーターノイズによる問題と、地図や深度入力からのSim2Realギャップを人間がどのようにナビゲートし、自然に取り除くかを模倣する。 さらに,ビデオに基づくアプローチでは,ロボットの歴史的観察を,意思決定と指導の時空間的文脈として効果的にエンコードすることができる。 VLN-CEトラジェクトリから収集した550kのナビゲーションサンプルと665kの大規模Webデータを用いてNaVidをトレーニングする。 大規模な実験により、NaVidはシミュレーション環境と実世界のSOTA性能を達成し、優れたクロスデータセットとSim2Real転送を実現している。 そこで我々は,本提案手法がナビゲーションエージェントだけでなく,本研究分野の次のステップを計画していると信じている。

Vision-and-Language Navigation (VLN) stands as a key research problem of Embodied AI, aiming at enabling agents to navigate in unseen environments following linguistic instructions. In this field, generalization is a long-standing challenge, either to out-of-distribution scenes or from Sim to Real. In this paper, we propose NaVid, a video-based large vision language model (VLM), to mitigate such a generalization gap. NaVid makes the first endeavour to showcase the capability of VLMs to achieve state-of-the-art level navigation performance without any maps, odometer and depth inputs. Following human instruction, NaVid only requires an on-the-fly video stream from a monocular RGB camera equipped on the robot to output the next-step action. Our formulation mimics how humans navigate and naturally gets rid of the problems introduced by odometer noises, and the Sim2Real gaps from map or depth inputs. Moreover, our video-based approach can effectively encode the historical observations of robots as spatio-temporal contexts for decision-making and instruction following. We train NaVid with 550k navigation samples collected from VLN-CE trajectories, including action-planning and instruction-reasoning samples, along with 665k large-scale web data. Extensive experiments show that NaVid achieves SOTA performance in simulation environments and the real world, demonstrating superior cross-dataset and Sim2Real transfer. We thus believe our proposed VLM approach plans the next step for not only the navigation agents but also this research field.
翻訳日:2024-03-04 13:29:38 公開日:2024-03-01
# 脆弱性検出のための大規模言語モデルの微調整

Finetuning Large Language Models for Vulnerability Detection ( http://arxiv.org/abs/2401.17010v4 )

ライセンス: Link先を確認
Alexey Shestov, Rodion Levichev, Ravil Mussabayev, Evgeny Maslov, Anton Cheshkov, Pavel Zadorozhny(参考訳) 本稿では,ソースコードの脆弱性を検出するために,大規模言語モデル(LLM)の微調整を行った結果について述べる。 我々は、最新のLLM StarCoderの改良であるWizardCoderを活用し、さらなる微調整により脆弱性検出に適応する。 トレーニングを加速するために、WizardCoderのトレーニング手順を変更し、最適なトレーニング体制を調査する。 負の例が多い不均衡データセットに対しては、分類性能を改善するためのさまざまなテクニックも検討する。 この微調整ウィザードコーダモデルは、ソースコードの脆弱性検出に事前訓練されたllmを適用する効果を実証し、codebertライクなモデルに対するバランスと不均衡の脆弱性データセットに関するroc aucとf1の指標の改善を達成している。 主なコントリビューションは、最先端のコードLLMであるWizardCoderの微調整、パフォーマンスを損なわないトレーニング速度の向上、トレーニング手順とレシフィケーションの最適化、クラス不均衡の処理、困難な脆弱性検出データセットのパフォーマンス向上である。 これは、特定のソースコード解析タスクのために、大規模な事前訓練された言語モデルを微調整することで、転送学習の可能性を示す。

This paper presents the results of finetuning large language models (LLMs) for the task of detecting vulnerabilities in source code. We leverage WizardCoder, a recent improvement of the state-of-the-art LLM StarCoder, and adapt it for vulnerability detection through further finetuning. To accelerate training, we modify WizardCoder's training procedure, also we investigate optimal training regimes. For the imbalanced dataset with many more negative examples than positive, we also explore different techniques to improve classification performance. The finetuned WizardCoder model achieves improvement in ROC AUC and F1 measures on balanced and imbalanced vulnerability datasets over CodeBERT-like model, demonstrating the effectiveness of adapting pretrained LLMs for vulnerability detection in source code. The key contributions are finetuning the state-of-the-art code LLM, WizardCoder, increasing its training speed without the performance harm, optimizing the training procedure and regimes, handling class imbalance, and improving performance on difficult vulnerability detection datasets. This demonstrates the potential for transfer learning by finetuning large pretrained language models for specialized source code analysis tasks.
翻訳日:2024-03-04 11:46:07 公開日:2024-03-01
# ドイツの屋内ラドン調査データを用いた高分解能ラドンマッピングのための機械学習に基づく新しい確率モデルの検討

Exploring a new machine learning based probabilistic model for high-resolution indoor radon mapping, using the German indoor radon survey data ( http://arxiv.org/abs/2310.11143v3 )

ライセンス: Link先を確認
Eric Petermann, Peter Bossew, Joachim Kemski, Valeria Gruber, Nils Suhr and Bernd Hoffmann(参考訳) ラドン(radon)は、屋内で蓄積できる発癌性放射性ガスである。 したがって、屋内ラドン濃度の正確な知識は、ラドン関連健康影響の評価やラドンプロイン領域の同定に不可欠である。 全国規模の屋内ラドン濃度は通常、広範な測定キャンペーンに基づいて推定される。 しかし, 地質学的ラドンや床面レベルなどの室内ラドン濃度を制御する要因が多数存在することから, 試料の特性は個体群の特徴と異なっていることが多い。 さらに、サンプルサイズは通常、空間分解能の高い推定を許さない。 本研究では,空間分解能の高い屋内ラドン分布を,純粋データベースアプローチよりもリアルに推定できるモデルベースアプローチを提案する。 2段階モデリング手法が適用された。 1)ドイツ各住宅のフロアレベルごとに屋内ラドンの確率分布関数を推定するために, 環境・建物データを用いた質的回帰林を適用し, (2) 確率的モンテカルロサンプリング手法により, 床面積予測の組合せと人口重み付けが可能となった。 このように、個々の予測の不確実性は、集約されたレベルでの可変性の推定に効果的に伝播される。 その結果,算術平均63Bq/m3,幾何学平均41Bq/m3,95%の180Bq/m3の近似対数正規分布が得られた。 100 bq/m3 と 300 bq/m3 の超過確率はそれぞれ 12.5 % (10.5 万人) と 2.2 % (190 万人) である。

Radon is a carcinogenic, radioactive gas that can accumulate indoors. Therefore, accurate knowledge of indoor radon concentration is crucial for assessing radon-related health effects or identifying radon-prone areas. Indoor radon concentration at the national scale is usually estimated on the basis of extensive measurement campaigns. However, characteristics of the sample often differ from the characteristics of the population due to the large number of relevant factors that control the indoor radon concentration such as the availability of geogenic radon or floor level. Furthermore, the sample size usually does not allow estimation with high spatial resolution. We propose a model-based approach that allows a more realistic estimation of indoor radon distribution with a higher spatial resolution than a purely data-based approach. A two-stage modelling approach was applied: 1) a quantile regression forest using environmental and building data as predictors was applied to estimate the probability distribution function of indoor radon for each floor level of each residential building in Germany; (2) a probabilistic Monte Carlo sampling technique enabled the combination and population weighting of floor-level predictions. In this way, the uncertainty of the individual predictions is effectively propagated into the estimate of variability at the aggregated level. The results show an approximate lognormal distribution with an arithmetic mean of 63 Bq/m3, a geometric mean of 41 Bq/m3 and a 95 %ile of 180 Bq/m3. The exceedance probability for 100 Bq/m3 and 300 Bq/m3 are 12.5 % (10.5 million people) and 2.2 % (1.9 million people), respectively.
翻訳日:2024-03-04 11:45:45 公開日:2024-03-01
# 複合二ビット発振器による量子同期の探索

Exploring Quantum Synchronization with a Composite Two-Qubit Oscillator ( http://arxiv.org/abs/2306.04205v3 )

ライセンス: Link先を確認
Gaurav M. Vaidya and Arvind Mamgain and Samarth Hawaldar and Walter Hahn and Raphael Kaubruegger and Baladitya Suri and Athreya Shankar(参考訳) 同期は、quditsや弱ポンピング量子ファンデルpol振動子のような素数レベルの量子振動子によって、量子状態において深く研究されている。 より複雑な量子同期システムを設計するためには、一般に利用でき、高い制御性を提供する基本量子単位から構築された複合発振器を研究することが事実上重要となる。 本稿では, 分離浴に結合した2つの相互作用量子ビットからなる複合発振器の最小モデルについて考察し, 多様な同期動作を示すことを示す。 量子ビットの1つが弱駆動されている場合,構成量子ビットの位相応答とシステム全体の位相応答について検討する。 熱浴には正の負の温度と有効の負の温度があり、2つのキュービットの浴槽の温度が反対の符号である場合にのみ起こる効果が発見された。 本稿では,近年の消散工学の進歩を生かして有効な負温度浴を実現する回路量子電気力学モデルの提案と解析を行う。 本研究は,複雑な量子同期システムを基本構成単位から組み立てる可能性を実証するものであり,量子同期の分野を進める上で実用的重要である。

Synchronization has recently been explored deep in the quantum regime with elementary few-level quantum oscillators such as qudits and weakly pumped quantum Van der Pol oscillators. To engineer more complex quantum synchronizing systems, it is practically relevant to study composite oscillators built up from basic quantum units that are commonly available and offer high controllability. Here, we consider a minimal model for a composite oscillator consisting of two interacting qubits coupled to separate baths, and show that this system exhibits a wide variety of synchronizing behaviors. We study the phase response of the constituent qubits as well as the system as a whole, when one of the qubits is weakly driven. We consider the thermal baths to have positive as well as effective negative temperatures, and discover effects that occur only when the temperatures of the baths for the two qubits are of opposite signs. We propose and analyze a circuit quantum electrodynamics implementation of this model, which exploits recent advances in dissipation engineering to realize effective negative temperature baths. Our work demonstrates the potential for assembling complex quantum synchronizing systems from basic building units, which is of pragmatic importance for advancing the field of quantum synchronization.
翻訳日:2024-03-04 11:45:18 公開日:2024-03-01
# ニューラルネットワークによる難解なショートレートモデル分布の近似

Approximating intractable short ratemodel distribution with neural network ( http://arxiv.org/abs/1912.12615v9 )

ライセンス: Link先を確認
Anna Knezevic, Nikolai Dokuchaev(参考訳) 提案手法は, 学習したデータセットと検証データの両方において不偏推定値に対して優れた結果が得られることを示すため, 難解な短率モデル(ドリフトと全パーセンタイル分布を調整した場合)の前の時間ステップと比較して各時間ステップを予測できるアルゴリズムを提案する。

We propose an algorithm which predicts each subsequent time step relative to the previous timestep of intractable short rate model (when adjusted for drift and overall distribution of previous percentile result) and show that the method achieves superior outcomes to the unbiased estimate both on the trained dataset and different validation data.
翻訳日:2024-03-04 11:44:56 公開日:2024-03-01
# TV-TREES:ニューロシンボリックビデオ推論のためのマルチモーダルエンターメントツリー

TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning ( http://arxiv.org/abs/2402.19467v2 )

ライセンス: Link先を確認
Kate Sanders, Nathaniel Weir, Benjamin Van Durme(参考訳) テレビクリップのような複雑なマルチモーダルコンテンツに対して質問応答を行うことは困難である。 これは、現在のビデオ言語モデルは単一のモダリティ推論に依存し、長い入力のパフォーマンスを低下させ、相互運用性が欠如しているためである。 我々は,最初のマルチモーダルエンターメントツリージェネレータであるTV-TREESを提案する。 tv-trees はビデオ理解のアプローチとして機能し、ビデオと高レベルな結論に直接関係する単純な前提間の関係を包含する木を作ることで、解釈可能な共同モダリティ推論を促進する。 次に,そのような手法の推論品質を評価するために,マルチモーダル包含木生成のタスクを導入する。 tvqaデータセットにおける本手法の実験結果から,全ビデオクリップにおける最先端のゼロショット性能が示され,ブラックボックス方式とは対照的な両世界の最良さが示された。

It is challenging to perform question-answering over complex, multimodal content such as television clips. This is in part because current video-language models rely on single-modality reasoning, have lowered performance on long inputs, and lack interpetability. We propose TV-TREES, the first multimodal entailment tree generator. TV-TREES serves as an approach to video understanding that promotes interpretable joint-modality reasoning by producing trees of entailment relationships between simple premises directly entailed by the videos and higher-level conclusions. We then introduce the task of multimodal entailment tree generation to evaluate the reasoning quality of such methods. Our method's experimental results on the challenging TVQA dataset demonstrate intepretable, state-of-the-art zero-shot performance on full video clips, illustrating a best of both worlds contrast to black-box methods.
翻訳日:2024-03-04 11:43:15 公開日:2024-03-01
# PEM:画像セグメンテーションのためのプロトタイプベース効率的なマスクフォーマ

PEM: Prototype-based Efficient MaskFormer for Image Segmentation ( http://arxiv.org/abs/2402.19422v2 )

ライセンス: Link先を確認
Niccol\`o Cavagnero, Gabriele Rosi, Claudia Cuttano, Francesca Pistilli, Marco Ciccone, Giuseppe Averta, Fabio Cermelli(参考訳) 最近のトランスフォーマーベースのアーキテクチャは、画像セグメンテーションの分野で素晴らしい結果を示している。 柔軟性のおかげで、単一の統一フレームワークの下で、semanticやpanopticといった複数のセグメンテーションタスクにおいて、優れたパフォーマンスを得ることができます。 このような印象的な性能を達成するために、これらのアーキテクチャは、特にエッジデバイスでは利用できない大規模な計算資源を必要とする。 このギャップを埋めるために、複数のセグメンテーションタスクで動作可能な効率的なトランスフォーマーベースのアーキテクチャであるPEM(Prototype-based Efficient MaskFormer)を提案する。 PEMは、視覚的特徴の冗長性を利用して計算を制限し、性能を損なうことなく効率を向上する、新しいプロトタイプベースのクロスアテンションを提案する。 さらに、PEMは、変形可能な畳み込みとコンテキストベースの自己変調の組み合わせにより、高い意味的内容を持つ特徴を効率的に抽出できる効率的なマルチスケール特徴ピラミッドネットワークを導入している。 提案したPEMアーキテクチャをセマンティックとパン光学セグメンテーションの2つのタスクでベンチマークし、CityscapesとADE20Kの2つの異なるデータセットで評価した。 PEMは、すべてのタスクとデータセットで優れたパフォーマンスを示し、タスク固有のアーキテクチャよりも優れ、計算に精通するベースラインよりも同等で、さらに優れている。

Recent transformer-based architectures have shown impressive results in the field of image segmentation. Thanks to their flexibility, they obtain outstanding performance in multiple segmentation tasks, such as semantic and panoptic, under a single unified framework. To achieve such impressive performance, these architectures employ intensive operations and require substantial computational resources, which are often not available, especially on edge devices. To fill this gap, we propose Prototype-based Efficient MaskFormer (PEM), an efficient transformer-based architecture that can operate in multiple segmentation tasks. PEM proposes a novel prototype-based cross-attention which leverages the redundancy of visual features to restrict the computation and improve the efficiency without harming the performance. In addition, PEM introduces an efficient multi-scale feature pyramid network, capable of extracting features that have high semantic content in an efficient way, thanks to the combination of deformable convolutions and context-based self-modulation. We benchmark the proposed PEM architecture on two tasks, semantic and panoptic segmentation, evaluated on two different datasets, Cityscapes and ADE20K. PEM demonstrates outstanding performance on every task and dataset, outperforming task-specific architectures while being comparable and even better than computationally-expensive baselines.
翻訳日:2024-03-04 11:42:59 公開日:2024-03-01
# 読解プロセスに基づくマルチホップ質問応答のための明示的・暗黙的知識の提案

Prompting Explicit and Implicit Knowledge for Multi-hop Question Answering Based on Human Reading Process ( http://arxiv.org/abs/2402.19350v2 )

ライセンス: Link先を確認
Guangming Huang, Yunfei Long, Cunjin Luo, Jiaxing Shen, Xia Sun(参考訳) 事前学習された言語モデル(PLM)は、チェーン・オブ・シント(CoT)を利用して人間の推論と推論プロセスをシミュレートし、マルチホップQAにおける熟練した性能を達成する。 しかし、plmの推論能力と複雑な問題に取り組む人間の能力との間にはギャップが残っている。 心理学的研究は、通過中の明示的な情報と読書中の人間の事前知識の間に重要なつながりがあることを示唆している。 しかしながら、現在の研究は、人間の認知研究の観点から、入力パスとPLMの事前学習に基づく知識のリンクに十分な注意を払っている。 本研究では,明示的および暗黙的知識をプロンプトで接続し,マルチホップqaのためのヒューマンリーディングプロセスと協調する,promping explicit and implicit knowledge(pei)フレームワークを提案する。 我々は、入力文を明示的な知識とみなし、統一的な素早い推論を通して暗黙的な知識を引き出す。 さらに,本モデルでは,暗黙的知識の形式であるプロンプトによる型固有の推論を取り入れている。 実験の結果,PEIはHotpotQAの最先端と同等に動作することがわかった。 アブレーション研究は, 明示的および暗黙的知識の統合と橋渡しにおけるモデルの有効性を確認した。

Pre-trained language models (PLMs) leverage chains-of-thought (CoT) to simulate human reasoning and inference processes, achieving proficient performance in multi-hop QA. However, a gap persists between PLMs' reasoning abilities and those of humans when tackling complex problems. Psychological studies suggest a vital connection between explicit information in passages and human prior knowledge during reading. Nevertheless, current research has given insufficient attention to linking input passages and PLMs' pre-training-based knowledge from the perspective of human cognition studies. In this study, we introduce a Prompting Explicit and Implicit knowledge (PEI) framework, which uses prompts to connect explicit and implicit knowledge, aligning with human reading process for multi-hop QA. We consider the input passages as explicit knowledge, employing them to elicit implicit knowledge through unified prompt reasoning. Furthermore, our model incorporates type-specific reasoning via prompts, a form of implicit knowledge. Experimental results show that PEI performs comparably to the state-of-the-art on HotpotQA. Ablation studies confirm the efficacy of our model in bridging and integrating explicit and implicit knowledge.
翻訳日:2024-03-04 11:42:32 公開日:2024-03-01
# ライン上の非定常SQM/IST対応と${\cal CPT}/{\cal PT}$-不変なペアハミルトン

Non-stationary SQM/IST Correspondence and ${\cal CPT}/{\cal PT}$-invariant paired Hamiltonians on the line ( http://arxiv.org/abs/2402.19066v2 )

ライセンス: Link先を確認
V.P. Berezovoj, A.J. Nurmagambetov(参考訳) 超対称量子力学と逆散乱変換の対応において存在するいくつかのギャップを埋め、ペア定常および非定常ハミルトニアンの場合への考察を拡張する。 本稿では,Goursat問題に対応する問題を定式化し,それを解決する非局所逆散乱変換のカーネルを明示的に構築する。 その結果、初期のエルミート的手法から非エルミート的ハミルトニアンを構成する方法を見つけ、これは両方のポテンシャルの実数値スペクトルの場合、${\cal CPT/PT}$-不変ハミルトニアンとのペア化につながる。 量子光学および光導波路技術、および非線形ダイナミクスおよびブラックホール物理学に対する提案の関連性について簡単に論じる。

We fill some of existed gaps in the correspondence between Supersymmetric Quantum Mechanics and the Inverse Scattering Transform by extending the consideration to the case of paired stationary and non-stationary Hamiltonians. We formulate the corresponding to the case Goursat problem and explicitly construct the kernel of the non-local Inverse Scattering Transform, which solves it. As a result, we find the way of constructing non-hermitian Hamiltonians from the initially hermitian ones, that leads, in the case of real-valued spectra of both potentials, to pairing of ${\cal CPT/PT}$-invariant Hamiltonians. The relevance of our proposal to Quantum Optics and optical waveguides technology, as well as to non-linear dynamics and Black Hole Physics is briefly discussed.
翻訳日:2024-03-04 11:42:12 公開日:2024-03-01
# 自動心エコー画像認識のためのグラフ畳み込みニューラルネットワーク : ホロスティックアプローチ

Graph Convolutional Neural Networks for Automated Echocardiography View Recognition: A Holistic Approach ( http://arxiv.org/abs/2402.19062v2 )

ライセンス: Link先を確認
Sarina Thomas, Cristiana Tiago, B{\o}rge Solli Andreassen, Svein Arne Aase, Jurica \v{S}prem, Erik Steen, Anne Solberg, Guy Ben-Yosef(参考訳) 心臓超音波(US)の診断を容易にするために、臨床は、診断のための基準点として機能し、画像を取得するビューポートを定義するために、心臓の標準的な見方を確立した。 自動ビュー認識は、それらの画像を標準ビューのクラスにグループ化する。 ディープラーニングの技術は成功しているが、心臓構造の正確な位置、ポーズ、潜在的な閉塞といった要因により、特定の測定値に対する画像の適合性を完全に検証するのに苦労している。 我々のアプローチは、ビューの分類を超えて、セグメンテーションやポーズ推定といった、より下流のタスクを可能にする3Dメッシュによる心臓の再構築を取り入れています。 本研究では,人間のポーズ推定などの自然画像における3次元メッシュの学習に類似した手法を用いて,グラフ畳み込みによる3次元心臓メッシュの学習について検討する。 完全アノテートされた3D画像の可用性が制限されるため, 対向性認知拡散モデルのトレーニングにより, 3次元メッシュから合成US画像を生成する。 ビュー認識および構造検出のための合成および臨床症例について実験を行った。 このアプローチは合成画像に優れたパフォーマンスをもたらし、合成データのみをトレーニングしたものの、臨床画像に適用するとすでに潜在的な可能性が示された。 本研究の目的は,この概念の証明によって,心臓診断の効率向上につながる心視認識を改善するグラフの利点を実証することである。

To facilitate diagnosis on cardiac ultrasound (US), clinical practice has established several standard views of the heart, which serve as reference points for diagnostic measurements and define viewports from which images are acquired. Automatic view recognition involves grouping those images into classes of standard views. Although deep learning techniques have been successful in achieving this, they still struggle with fully verifying the suitability of an image for specific measurements due to factors like the correct location, pose, and potential occlusions of cardiac structures. Our approach goes beyond view classification and incorporates a 3D mesh reconstruction of the heart that enables several more downstream tasks, like segmentation and pose estimation. In this work, we explore learning 3D heart meshes via graph convolutions, using similar techniques to learn 3D meshes in natural images, such as human pose estimation. As the availability of fully annotated 3D images is limited, we generate synthetic US images from 3D meshes by training an adversarial denoising diffusion model. Experiments were conducted on synthetic and clinical cases for view recognition and structure detection. The approach yielded good performance on synthetic images and, despite being exclusively trained on synthetic data, it already showed potential when applied to clinical images. With this proof-of-concept, we aim to demonstrate the benefits of graphs to improve cardiac view recognition that can ultimately lead to better efficiency in cardiac diagnosis.
翻訳日:2024-03-04 11:41:55 公開日:2024-03-01
# エンド・ツー・エンドの量子ビジョントランスフォーマー:大規模モデルにおける実用的な量子スピードアップに向けて

End-to-End Quantum Vision Transformer: Towards Practical Quantum Speedup in Large-Scale Models ( http://arxiv.org/abs/2402.18940v2 )

ライセンス: Link先を確認
Cheng Xue, Zhao-Yun Chen, Xi-Ning Zhuang, Yun-Jie Wang, Tai-Ping Sun, Jun-Chao Wang, Huan-Yu Liu, Yu-Chun Wu, Zi-Lei Wang, Guo-Ping Guo(参考訳) 量子深層学習の分野は、計算能力を進歩させる重要な機会を提供するが、量子深部ニューラルネットワークのスケーリングに必要な量子トモグラフィーの固有の制限のため、"情報損失問題"の形で大きな障害に直面している。 本稿では、革新的な量子残差接続技術を備えたエンドツーエンド量子ビジョン変換器(QViT)を導入し、これらの課題を克服し、深層学習における量子コンピューティングプロセスを最適化する。 我々のQViTの徹底的な複雑性解析は、理論上指数関数的で経験的に多項式のスピードアップを示し、量子コンピューティングアプリケーションにおけるモデルの効率性とポテンシャルを示している。 最近の大規模変圧器やデータセットに関する広範な数値実験を行い、qvitを量子深層ニューラルネットワークを実用シナリオに適用する先駆的な進歩として確立した。 我々の研究は、現在の量子線形代数アルゴリズムの汎用性を実証するだけでなく、量子深層学習における将来の研究と開発を強化することを約束する包括的な量子深層学習パラダイムを提供する。

The field of quantum deep learning presents significant opportunities for advancing computational capabilities, yet it faces a major obstacle in the form of the "information loss problem" due to the inherent limitations of the necessary quantum tomography in scaling quantum deep neural networks. This paper introduces an end-to-end Quantum Vision Transformer (QViT), which incorporates an innovative quantum residual connection technique, to overcome these challenges and therefore optimize quantum computing processes in deep learning. Our thorough complexity analysis of the QViT reveals a theoretically exponential and empirically polynomial speedup, showcasing the model's efficiency and potential in quantum computing applications. We conducted extensive numerical tests on modern, large-scale transformers and datasets, establishing the QViT as a pioneering advancement in applying quantum deep neural networks in practical scenarios. Our work provides a comprehensive quantum deep learning paradigm, which not only demonstrates the versatility of current quantum linear algebra algorithms but also promises to enhance future research and development in quantum deep learning.
翻訳日:2024-03-04 11:41:32 公開日:2024-03-01
# ドロップアウトを超えてナビゲートする:画像の高解像度化を目指す興味深いソリューション

Navigating Beyond Dropout: An Intriguing Solution Towards Generalizable Image Super Resolution ( http://arxiv.org/abs/2402.18929v2 )

ライセンス: Link先を確認
Hongjun Wang, Jiyuan Chen, Yinqiang Zheng, Tieyong Zeng(参考訳) 近年、ディープラーニングはSingle Image Super-Resolution (SISR)のパフォーマンスに劇的な飛躍をもたらした。 % 実質的な進歩率にもかかわらず、既存のほとんどの研究は単純で固定的な劣化モデル(例えば、バイコビックダウンサンプリング)を前提としているが、ブラインドSRの研究は、未知の劣化を伴うモデル一般化能力の向上を目指している。 kongらは最近、ドロップアウトを用いたブラインドsrのより適切なトレーニング戦略の先駆者となった。 このような手法は、過剰フィッティングを緩和することで実質的な一般化をもたらすが、ドロップアウトが同時に望ましくない副作用をもたらし、モデルの細部を忠実に再構築する能力が損なわれると主張している。 本論文では, 理論的および実験的両方の分析結果を示し, さらに, 1次および2次の特徴統計を単純に調整することで, モデルの一般化能力を向上する, 容易かつ効果的なトレーニング戦略を提案する。 実験結果から,本手法はモデルに依存しない正規化として機能し,合成シナリオと実世界のシナリオの両方を含む7つのベンチマークデータセットのドロップアウトを上回った。

Deep learning has led to a dramatic leap on Single Image Super-Resolution (SISR) performances in recent years. %Despite the substantial advancement% While most existing work assumes a simple and fixed degradation model (e.g., bicubic downsampling), the research of Blind SR seeks to improve model generalization ability with unknown degradation. Recently, Kong et al pioneer the investigation of a more suitable training strategy for Blind SR using Dropout. Although such method indeed brings substantial generalization improvements via mitigating overfitting, we argue that Dropout simultaneously introduces undesirable side-effect that compromises model's capacity to faithfully reconstruct fine details. We show both the theoretical and experimental analyses in our paper, and furthermore, we present another easy yet effective training strategy that enhances the generalization ability of the model by simply modulating its first and second-order features statistics. Experimental results have shown that our method could serve as a model-agnostic regularization and outperforms Dropout on seven benchmark datasets including both synthetic and real-world scenarios.
翻訳日:2024-03-04 11:41:12 公開日:2024-03-01
# 機械は人間の心臓を交換できない

The Machine Can't Replace the Human Heart ( http://arxiv.org/abs/2402.18826v2 )

ライセンス: Link先を確認
Baihan Lin(参考訳) イノベーションや人間性という、メンタルヘルスケアの真の心臓は何でしょうか? 仮想療法は、癒しが起こる深い人間の結合を再現できるだろうか? 人工知能と没入型技術がアクセスを拡大することを約束する一方で、安全対策は、提供者の知恵によって導かれる補助的なツールを維持する必要がある。 実装にはニュアンスバランスの効率と共感が必要です。 もし倫理的リスクを意識すれば、AIはタスクの自動化によって人類を回復し、提供者に聴く時間を与えるかもしれない。 しかし、厳格な座席を複製するアルゴリズムは存在しない。 私たちは自問しなくてはならない: その核となる未来は何か? AIが協調的に果たす役割は何か? あるいは、進歩の追求が脆弱性をどこに残すのか? この注釈書は、この深く人間的な職業の核心に、医療の代替不可能な人間の本質を維持しながら、テクノロジーを慎重に統合するバランスのとれたアプローチを論じている。 究極的には、イノベーションと人類を一緒に育てることで、これまで想像もできなかった新しい共感の高みに到達できるかもしれない。

What is the true heart of mental healthcare -- innovation or humanity? Can virtual therapy ever replicate the profound human bonds where healing arises? As artificial intelligence and immersive technologies promise expanded access, safeguards must ensure technologies remain supplementary tools guided by providers' wisdom. Implementation requires nuance balancing efficiency and empathy. If conscious of ethical risks, perhaps AI could restore humanity by automating tasks, giving providers more time to listen. Yet no algorithm can replicate the seat of dignity within. We must ask ourselves: What future has people at its core? One where AI thoughtfully plays a collaborative role? Or where pursuit of progress leaves vulnerability behind? This commentary argues for a balanced approach thoughtfully integrating technology while retaining care's irreplaceable human essence, at the heart of this profoundly human profession. Ultimately, by nurturing innovation and humanity together, perhaps we reach new heights of empathy previously unimaginable.
翻訳日:2024-03-04 11:40:38 公開日:2024-03-01
# ICE-SEARCH: 言語モデル駆動型特徴選択アプローチ

ICE-SEARCH: A Language Model-Driven Feature Selection Approach ( http://arxiv.org/abs/2402.18609v2 )

ライセンス: Link先を確認
Tianze Yang, Tianyi Yang, Shaoshan Liu, Fuyuan Lvu, Xue Liu(参考訳) In-Context Evolutionary Search (ICE-SEARCH) は,言語モデル (LM) に特徴選択 (FS) タスクの進化アルゴリズムを組み込んだ最初の手法であり,医療予測分析 (MPA) アプリケーションでの有効性を示すものである。 ICE-SEARCHは進化の枠組みの中でLMに固有の交叉と突然変異の機能を活用し、モデルの包括的な世界知識と様々な役割への適応性を通じてFSを大幅に改善する。 本手法の評価は, 脳卒中, 心血管疾患, 糖尿病の3つの重要なMPA課題に及び, ICE-SEARCHは, 医療応用に欠かせない特徴を指摘するために, 従来のFS法よりも優れている。 ICE-SEARCHは脳卒中予測と糖尿病予測においてSOTA(State-of-the-Art)のパフォーマンスを達成する。 本研究は,医用FSにおけるICE-SEARCHの有効性を実証するだけでなく,LMをFSタスクに統合する汎用性,効率性,スケーラビリティを裏付けるものである。 この研究は、領域固有の洞察を取り入れ、ICE-SEARCHの堅牢性、一般化可能性、迅速な収束を描写する重要な役割を強調している。 これは、総合的で複雑なFSランドスケープに関するさらなる研究の道を開き、医療予測分析における人工知能の応用において重要な一歩を踏み出した。

This study unveils the In-Context Evolutionary Search (ICE-SEARCH) method, the first work that melds language models (LMs) with evolutionary algorithms for feature selection (FS) tasks and demonstrates its effectiveness in Medical Predictive Analytics (MPA) applications. ICE-SEARCH harnesses the crossover and mutation capabilities inherent in LMs within an evolutionary framework, significantly improving FS through the model's comprehensive world knowledge and its adaptability to a variety of roles. Our evaluation of this methodology spans three crucial MPA tasks: stroke, cardiovascular disease, and diabetes, where ICE-SEARCH outperforms traditional FS methods in pinpointing essential features for medical applications. ICE-SEARCH achieves State-of-the-Art (SOTA) performance in stroke prediction and diabetes prediction; the Decision-Randomized ICE-SEARCH ranks as SOTA in cardiovascular disease prediction. Our results not only demonstrate the efficacy of ICE-SEARCH in medical FS but also underscore the versatility, efficiency, and scalability of integrating LMs in FS tasks. The study emphasizes the critical role of incorporating domain-specific insights, illustrating ICE-SEARCH's robustness, generalizability, and swift convergence. This opens avenues for further research into comprehensive and intricate FS landscapes, marking a significant stride in the application of artificial intelligence in medical predictive analytics.
翻訳日:2024-03-04 11:40:25 公開日:2024-03-01
# 視覚記述規則化によるゼロショット空中物体検出

Zero-Shot Aerial Object Detection with Visual Description Regularization ( http://arxiv.org/abs/2402.18233v2 )

ライセンス: Link先を確認
Zhengqing Zang, Chenyu Lin, Chenwei Tang, Tao Wang, Jiancheng Lv(参考訳) 既存のオブジェクト検出モデルは、主に大規模なラベル付きデータセットでトレーニングされる。 しかし,新しい空域オブジェクトのアノテーションは時間を要するため,専門家の知識を必要とする可能性がある。 したがって, 航空画像上でのラベル効率の高い物体検出手法を検討することが望ましい。 本研究では,視覚的記述規則化(DescReg)と呼ばれる空中物体検出のためのゼロショット手法を提案する。 具体的には、航空物体の弱い意味的・視覚的相関を識別し、その視覚的外観の事前記述による課題に対処することを目的とする。 表現ギャップ問題に苦しむクラス埋め込み空間に記述を直接エンコードするのではなく,記述に伝達されるクラス間の視覚的類似性を埋め込み学習に注入することを提案する。 注入プロセスは、表現空間上の構造化正規化を含む、新たに設計された類似性を考慮した三重項損失によって達成される。 我々は、dior、xview、dotaを含む3つの挑戦的な空中物体検出データセットを用いて広範囲な実験を行う。 その結果、DescRegは複雑なプロジェクション設計や生成フレームワークで最先端のZSDメソッドよりも優れており、例えば、DescRegはDIOR上で4.5mAP、HMでは8.1のZSDメソッドよりも優れていた。 さらに,descregを生成型zsd法に統合し,検出アーキテクチャを変化させることで,その一般化可能性を示す。

Existing object detection models are mainly trained on large-scale labeled datasets. However, annotating data for novel aerial object classes is expensive since it is time-consuming and may require expert knowledge. Thus, it is desirable to study label-efficient object detection methods on aerial images. In this work, we propose a zero-shot method for aerial object detection named visual Description Regularization, or DescReg. Concretely, we identify the weak semantic-visual correlation of the aerial objects and aim to address the challenge with prior descriptions of their visual appearance. Instead of directly encoding the descriptions into class embedding space which suffers from the representation gap problem, we propose to infuse the prior inter-class visual similarity conveyed in the descriptions into the embedding learning. The infusion process is accomplished with a newly designed similarity-aware triplet loss which incorporates structured regularization on the representation space. We conduct extensive experiments with three challenging aerial object detection datasets, including DIOR, xView, and DOTA. The results demonstrate that DescReg significantly outperforms the state-of-the-art ZSD methods with complex projection designs and generative frameworks, e.g., DescReg outperforms best reported ZSD method on DIOR by 4.5 mAP on unseen classes and 8.1 in HM. We further show the generalizability of DescReg by integrating it into generative ZSD methods as well as varying the detection architecture.
翻訳日:2024-03-04 11:39:58 公開日:2024-03-01
# ニューラルアクティベーションプリミティブを用いたアウトオブディストリビューション検出

Out-of-Distribution Detection using Neural Activation Prior ( http://arxiv.org/abs/2402.18162v2 )

ライセンス: Link先を確認
Weilin Wan, Weizhong Zhang, Cheng Jin(参考訳) 分散検出(out-of-distribution detection)は、未認識のシナリオを処理するために、現実世界に機械学習モデルをデプロイするための重要なテクニックである。 本稿では,アウト・オブ・ディストリビューション検出(OOD)のためのシンプルだが効果的なニューラルアクティベーション先行(NAP)を提案する。 我々の神経活性化は、十分に訓練されたニューラルネットワークのグローバルプール層の前のチャネルにおいて、分布内(ID)サンプルによってより大きな応答で活性化される少数のニューロンの確率がOODサンプルよりも著しく高いというキー観察に基づいています。 直感的な説明では、idデータセットで完全にトレーニングされたモデルの各チャネルは、idデータセット内のサンプル内の特定のパターンを検出する役割を担っており、入力サンプルでパターンが検出された場合、いくつかのニューロンは大きな応答で活性化することができる。 そこで,この前兆に基づく新たなスコアリング関数を提案し,ood検出におけるこれらの強い活性化ニューロンの役割を強調する。 このアプローチはプラグ・アンド・プレイであり、分散データ分類のパフォーマンスを損なうことなく、トレーニングや外部データセットから追加のトレーニングや統計を必要としない。 従来の手法は主にニューラルネットワークのポストグローバルプール機能に依存していたが、私たちが利用するチャネル内分布情報はグローバルプール演算子によって破棄される。 その結果,本手法は既存の手法と直交し,様々な用途で効果的に組み合わせることができる。 実験の結果,提案手法はCIFAR-10, CIFAR-100, ImageNetデータセット上での最先端性能を実現し, 提案手法の威力を示す。

Out-of-distribution detection is a crucial technique for deploying machine learning models in the real world to handle the unseen scenarios. In this paper, we propose a simple but effective Neural Activation Prior (NAP) for out-of-distribution detection (OOD). Our neural activation prior is based on a key observation that, for a channel before the global pooling layer of a fully trained neural network, the probability of a few of its neurons being activated with a larger response by an in-distribution (ID) sample is significantly higher than that by an OOD sample. An intuitive explanation is each channel in a model fully trained on ID dataset would play a role in detecting a certain pattern in the samples within the ID dataset, and a few neurons can be activated with a large response when the pattern is detected in an input sample. Thus, a new scoring function based on this prior is proposed to highlight the role of these strongly activated neurons in OOD detection. This approach is plug-and-play and does not lead to any performance degradation on in-distribution data classification and requires no extra training or statistics from training or external datasets. Notice that previous methods primarily rely on post-global-pooling features of the neural networks, while the within-channel distribution information we leverage would be discarded by the global pooling operator. Consequently, our method is orthogonal to existing approaches and can be effectively combined with them in various applications. Experimental results show that our method achieves the state-of-the-art performance on CIFAR-10, CIFAR-100 and ImageNet datasets, which demonstrates the power of the proposed prior.
翻訳日:2024-03-04 11:39:34 公開日:2024-03-01
# 3DSFLabelling:擬似オートラベリングによる3次元シーンフロー推定

3DSFLabelling: Boosting 3D Scene Flow Estimation by Pseudo Auto-labelling ( http://arxiv.org/abs/2402.18146v2 )

ライセンス: Link先を確認
Chaokang Jiang, Guangming Wang, Jiuming Liu, Hesheng Wang, Zhuang Ma, Zhenqiang Liu, Zhujin Liang, Yi Shan, Dalong Du(参考訳) LiDARポイントクラウドからの3Dシーンフローの学習は、合成データセットから実際のシーンへの一般化の欠如、現実の3Dラベルの不足、現実のスパースなLiDARポイントクラウドのパフォーマンスの低下など、大きな困難を呈している。 我々は,実世界のLiDAR点雲に対して,多数の3次元シーンフロー擬似ラベルを生成することを目的とした,自動ラベリングの観点から,新しいアプローチを提案する。 具体的には、自律走行シナリオにおける物体レベルの剛体運動をシミュレートするために剛体運動の仮定を用いる。 複数のアンカーボックスの異なる動作属性を更新することで、シーン全体に対して剛性のある動作分解が得られる。 さらに,グローバル・ローカル・モーションのための新しい3次元シーンフローデータ拡張手法を開発した。 拡張運動パラメータに基づいてターゲット点雲を完全合成することにより,実シナリオと高度に整合した点雲内に多数の3次元シーンフローラベルを容易に取得できる。 LiDAR KITTI、nuScenes、Argoverseなどの実世界の複数のデータセットでは、手動ラベリングを必要とせず、従来の教師なしおよび教師なしの手法よりも優れています。 印象的なことに,本手法はLiDAR KITTIデータセット上でのEPE3D測定を10倍に削減し,0.190mから0.008mに削減する。

Learning 3D scene flow from LiDAR point clouds presents significant difficulties, including poor generalization from synthetic datasets to real scenes, scarcity of real-world 3D labels, and poor performance on real sparse LiDAR point clouds. We present a novel approach from the perspective of auto-labelling, aiming to generate a large number of 3D scene flow pseudo labels for real-world LiDAR point clouds. Specifically, we employ the assumption of rigid body motion to simulate potential object-level rigid movements in autonomous driving scenarios. By updating different motion attributes for multiple anchor boxes, the rigid motion decomposition is obtained for the whole scene. Furthermore, we developed a novel 3D scene flow data augmentation method for global and local motion. By perfectly synthesizing target point clouds based on augmented motion parameters, we easily obtain lots of 3D scene flow labels in point clouds highly consistent with real scenarios. On multiple real-world datasets including LiDAR KITTI, nuScenes, and Argoverse, our method outperforms all previous supervised and unsupervised methods without requiring manual labelling. Impressively, our method achieves a tenfold reduction in EPE3D metric on the LiDAR KITTI dataset, reducing it from $0.190m$ to a mere $0.008m$ error.
翻訳日:2024-03-04 11:39:06 公開日:2024-03-01
# マルチエージェント強化学習における効果的な探索手法の想像,初期化,探索

Imagine, Initialize, and Explore: An Effective Exploration Method in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2402.17978v2 )

ライセンス: Link先を確認
Zeyang Liu, Lipeng Wan, Xinrui Yang, Zhuoran Chen, Xingyu Chen, Xuguang Lan(参考訳) 複雑な協調作業におけるマルチエージェント強化学習(MARL)の最適戦略を発見するためには,効果的な探索が重要である。 既存の手法では、主に内在的な報酬を利用して、行動観察空間全体において集団探索を直接行うのではなく、共同行動空間を分解する役割ベースの学習を可能にする。 しかし、彼らは長い水平タスクで成功する状態に到達するための特定の共同行動シーケンスを得るという課題に直面している。 この制限に対処するため,複雑なシナリオにおける効率的なマルチエージェント探索のための新しい手法であるImagine, Initialize, Explore (IIE)を提案する。 IIEはトランスフォーマーモデルを用いて、エージェントが互いの遷移関数に影響を与える臨界状態に達する方法を想像する。 そして,探索フェーズの前にシミュレータを用いて,この状態で環境を初期化する。 我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。 プロンプトは、タイムステップ・トゥ・ゴー、リターン・トゥ・ゴー、インフルエンス値、ワンショットのデモで構成され、望ましい状態と軌道を指定するとともに、アクション生成を導く。 臨界状態のエージェントを初期化することにより、IIEは潜在的に重要でない領域を発見する可能性を大幅に高める。 その単純さにもかかわらず,本手法はStarCraft Multi-Agent Challenge (SMAC) とSMACv2環境におけるマルチエージェント探索ベースラインよりも優れていることを示す。 特に、IIEはスパース逆SMACタスクの性能を改善し、CVAE-GANや拡散モデルのような他の生成手法よりも初期化状態よりも効果的なカリキュラムを生成する。

Effective exploration is crucial to discovering optimal strategies for multi-agent reinforcement learning (MARL) in complex coordination tasks. Existing methods mainly utilize intrinsic rewards to enable committed exploration or use role-based learning for decomposing joint action spaces instead of directly conducting a collective search in the entire action-observation space. However, they often face challenges obtaining specific joint action sequences to reach successful states in long-horizon tasks. To address this limitation, we propose Imagine, Initialize, and Explore (IIE), a novel method that offers a promising solution for efficient multi-agent exploration in complex scenarios. IIE employs a transformer model to imagine how the agents reach a critical state that can influence each other's transition functions. Then, we initialize the environment at this state using a simulator before the exploration phase. We formulate the imagination as a sequence modeling problem, where the states, observations, prompts, actions, and rewards are predicted autoregressively. The prompt consists of timestep-to-go, return-to-go, influence value, and one-shot demonstration, specifying the desired state and trajectory as well as guiding the action generation. By initializing agents at the critical states, IIE significantly increases the likelihood of discovering potentially important under-explored regions. Despite its simplicity, empirical results demonstrate that our method outperforms multi-agent exploration baselines on the StarCraft Multi-Agent Challenge (SMAC) and SMACv2 environments. Particularly, IIE shows improved performance in the sparse-reward SMAC tasks and produces more effective curricula over the initialized states than other generative methods, such as CVAE-GAN and diffusion models.
翻訳日:2024-03-04 11:38:41 公開日:2024-03-01
# エージェントの空間認識変換器

Spatially-Aware Transformer for Embodied Agents ( http://arxiv.org/abs/2402.15160v3 )

ライセンス: Link先を確認
Junmo Cho, Jaesik Yoon, Sungjin Ahn(参考訳) エピソード記憶は、過去の出来事を精神的に思い出す能力など、様々な認知過程において重要な役割を果たす。 認知科学は、エピソード記憶の形成と検索における空間コンテキストの重要性を強調する一方で、AIシステムでエピソード記憶を実装するための現在の主要なアプローチは、時間的に秩序づけられた体験を記憶するトランスフォーマーを通じて、空間次元を見渡すことである。 その結果, 空間軸を時間的秩序だけに包含し, どのような利点が得られるか, 基礎構造をどのように拡張できるかは明らかでない。 そこで本稿では,空間情報を組み込んだ空間認識トランスフォーマーモデルについて検討する。 これらのモデルにより、時空間次元と空間次元の両方を考慮する場所中心のエピソディックメモリが作成できる。 このアプローチを採用すると、メモリ利用効率が向上し、様々な場所中心の下流タスクにおいて精度が向上することを示す。 さらに,メモリ利用効率の最適化を目的とした強化学習に基づくメモリ管理手法であるadaptive memory allocatorを提案する。 本実験は, 予測, 生成, 推論, 強化学習など, 様々な環境における提案モデルの利点を実証するものである。 私たちのモデルと実験のソースコードは、https://github.com/junmokane/spatially-aware-transformerで閲覧できます。

Episodic memory plays a crucial role in various cognitive processes, such as the ability to mentally recall past events. While cognitive science emphasizes the significance of spatial context in the formation and retrieval of episodic memory, the current primary approach to implementing episodic memory in AI systems is through transformers that store temporally ordered experiences, which overlooks the spatial dimension. As a result, it is unclear how the underlying structure could be extended to incorporate the spatial axis beyond temporal order alone and thereby what benefits can be obtained. To address this, this paper explores the use of Spatially-Aware Transformer models that incorporate spatial information. These models enable the creation of place-centric episodic memory that considers both temporal and spatial dimensions. Adopting this approach, we demonstrate that memory utilization efficiency can be improved, leading to enhanced accuracy in various place-centric downstream tasks. Additionally, we propose the Adaptive Memory Allocator, a memory management method based on reinforcement learning that aims to optimize efficiency of memory utilization. Our experiments demonstrate the advantages of our proposed model in various environments and across multiple downstream tasks, including prediction, generation, reasoning, and reinforcement learning. The source code for our models and experiments will be available at https://github.com/junmokane/spatially-aware-transformer.
翻訳日:2024-03-04 11:38:11 公開日:2024-03-01
# E2USD:多変量時系列の効率的な非教師付き状態検出

E2USD: Efficient-yet-effective Unsupervised State Detection for Multivariate Time Series ( http://arxiv.org/abs/2402.14041v3 )

ライセンス: Link先を確認
Zhichen Lai, Huan Li, Dalin Zhang, Yan Zhao, Weizhu Qian, Christian S. Jensen(参考訳) 本稿では,効率よくyet-accurate unsupervised MTS状態検出が可能なE2USDを提案する。 E2USDはFast Fourier Transform-based Time Series Compressor (FFTCompress) とDecomposed Dual-view Embedding Module (DDEM) を利用している。 さらに,偽陰性の影響を克服し,よりクラスタフレンドリーな埋め込み空間を実現するfncclearningを提案する。 ストリーミング設定における計算オーバーヘッドを軽減するため,Adaptive Threshold Detection (ADATD)を導入する。 6つのベースラインと6つのデータセットによる総合的な実験は、E2USDが計算オーバーヘッドを大幅に削減したSOTA精度を持つことを示す。 私たちのコードはhttps://github.com/AI4CTS/E2Usd.comで利用可能です。

We propose E2USD that enables efficient-yet-accurate unsupervised MTS state detection. E2USD exploits a Fast Fourier Transform-based Time Series Compressor (FFTCompress) and a Decomposed Dual-view Embedding Module (DDEM) that together encode input MTSs at low computational overhead. Additionally, we propose a False Negative Cancellation Contrastive Learning method (FNCCLearning) to counteract the effects of false negatives and to achieve more cluster-friendly embedding spaces. To reduce computational overhead further in streaming settings, we introduce Adaptive Threshold Detection (ADATD). Comprehensive experiments with six baselines and six datasets offer evidence that E2USD is capable of SOTA accuracy at significantly reduced computational overhead. Our code is available at https://github.com/AI4CTS/E2Usd.
翻訳日:2024-03-04 11:37:51 公開日:2024-03-01