このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240508となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# Preble: LLM実行のための効率的な分散プロンプトスケジューリング
Preble: Efficient Distributed Prompt Scheduling for LLM Serving ( http://arxiv.org/abs/2407.00023v1 ) ライセンス: Link先を確認 | Vikranth Srivatsa, Zijian He, Reyna Abhyankar, Dongming Li, Yiying Zhang, | (参考訳) 大型言語モデル (LLM) へのプロンプトは、単純なユーザ質問を超えて進化してきた。
LLMが複雑な問題を解決するために、今日のプラクティスには、ドメイン固有の指示、ツールの使用例のイラスト、教科書の章のような長いコンテキストが含まれる。
そのため、プロンプトの多くの部分はリクエスト間で反復的であり、その注意計算結果を再利用することができる。
しかし、今日のLLMサービスシステムは全てのリクエストを分離して処理し、計算再利用の機会を欠いている。
本稿では,プロンプト共有をターゲットとし最適化する最初の分散LLMサービスプラットフォームであるPrebleを提案する。
我々は,5つのLLMワークロードについて検討する。
本研究では,計算再利用と負荷分散を協調的に最適化する分散スケジューリングシステムを設計した。
実ワークロードと2つのオープンソースLCMモデルでの要求到着パターンを備えた2~8GPU上でのPrebleの評価は、Prebleが最先端の平均レイテンシを1.5Xから14.5X、p99を2Xから10Xで上回ることを示している。
Prompts to large language models (LLMs) have evolved beyond simple user questions. For LLMs to solve complex problems, today's practices include domain-specific instructions, illustration of tool usages, and long context, such as textbook chapters in prompts. As such, many parts of prompts are repetitive across requests, and their attention computation results can be reused. However, today's LLM serving systems treat every request in isolation, missing the opportunity of computation reuse. This paper proposes Preble, the first distributed LLM serving platform that targets and optimizes for prompt sharing. We perform a study on five popular LLM workloads. Based on our study results, we designed a distributed scheduling system that co-optimizes computation reuse and load balancing. Our evaluation of Preble on two to 8 GPUs with real workloads and request arrival patterns on two open-source LLM models shows that Preble outperforms the state-of-the-art average latency by 1.5X to 14.5X and p99 by 2X to 10X. | 翻訳日:2024-07-22 22:48:25 公開日:2024-05-08 |
# 放射線画像における合成データの現状と将来展望
Synthetic Data in Radiological Imaging: Current State and Future Outlook ( http://arxiv.org/abs/2407.01561v1 ) ライセンス: Link先を確認 | Elena Sizikova, Andreu Badal, Jana G. Delfino, Miguel Lago, Brandon Nelson, Niloufar Saharkhiz, Berkman Sahiner, Ghada Zamzmi, Aldo Badano, | (参考訳) 放射線学における人工知能(AI)ソリューションの開発と展開における重要な課題は、関連するデータ制限を解決することである。
適切なアノテーションで十分な、および代表的な患者データセットを取得することは、高い取得コスト、安全性の制限、患者のプライバシの制限、または病気の頻度の低いため、負担になる可能性がある。
サイリコデータでは、患者の損害の低減、コストの削減、データ取得の簡略化、スケーラビリティ、品質保証テストの改善、データ不均衡に対する緩和アプローチなど、患者のデータに潜在的なメリットがいくつか提供されている。
我々は,AIの放射線学的応用のための合成データの研究動向と実用化について要約する。
具体的には、合成例を生成するための異なるタイプの技術、主な応用分野、および関連する品質管理評価問題について論じる。
また、合成画像データを評価するための最近のアプローチについても論じる。
総合的に、合成データは現在のデータ可用性のギャップに対処する上で大きな可能性を秘めている。
A key challenge for the development and deployment of artificial intelligence (AI) solutions in radiology is solving the associated data limitations. Obtaining sufficient and representative patient datasets with appropriate annotations may be burdensome due to high acquisition cost, safety limitations, patient privacy restrictions or low disease prevalence rates. In silico data offers a number of potential advantages to patient data, such as diminished patient harm, reduced cost, simplified data acquisition, scalability, improved quality assurance testing, and a mitigation approach to data imbalances. We summarize key research trends and practical uses for synthetically generated data for radiological applications of AI. Specifically, we discuss different types of techniques for generating synthetic examples, their main application areas, and related quality control assessment issues. We also discuss current approaches for evaluating synthetic imaging data. Overall, synthetic data holds great promise in addressing current data availability gaps, but additional work is needed before its full potential is realized. | 翻訳日:2024-07-22 22:28:39 公開日:2024-05-08 |
# ディジタルツインを用いたスマート照明設計
A digital twin based approach to smart lighting design ( http://arxiv.org/abs/2407.08741v1 ) ライセンス: Link先を確認 | Elham Mohammadrezaei, Alexander Giovannelli, Logan Lane, Denis Gracanin, | (参考訳) 照明は、特にアーキテクチャ設定において、ユーザーのムードや振る舞いに重大な影響を与えます。
そのため、スマート照明デザインは急速に発展している研究分野である。
実世界の没入型バーチャル・リアリティー・デジタル・ツイン(仮想環境)を利用したスマート照明設計へのディジタル・ツインベースのアプローチについて述べる。
CLIPニューラルネットワークは、物理空間の写真と仮想環境における対応するレンダリングとの類似度の測定に使用される。
提案した設計プロセスの評価にケーススタディを用いた。
得られた87%以上の類似度値は,提案手法の有用性を示している。
Lighting has a critical impact on user mood and behavior, especially in architectural settings. Consequently, smart lighting design is a rapidly growing research area. We describe a digital twin-based approach to smart lighting design that uses an immersive virtual reality digital twin equivalent (virtual environment) of the real world, physical architectural space to explore the visual impact of light configurations. The CLIP neural network is used to obtain a similarity measure between a photo of the physical space with the corresponding rendering in the virtual environment. A case study was used to evaluate the proposed design process. The obtained similarity value of over 87% demonstrates the utility of the proposed approach. | 翻訳日:2024-07-22 13:48:17 公開日:2024-05-08 |
# シンボリックトランスファーエントロピーとコンセンサスネステッドクロスバリデーションを用いた特徴の識別とスキルレベル分類のための効率的な機械学習手法
An efficient machine learning approach for extracting eSports players distinguishing features and classifying their skill levels using symbolic transfer entropy and consensus nested cross validation ( http://arxiv.org/abs/2407.11972v1 ) ライセンス: Link先を確認 | Amin Noroozi, Mohammad S. Hasan, Maryam Ravan, Elham Norouzi, Ying-Ying Law, | (参考訳) エリート選手を区別する機能を発見できることは、eスポーツのコーチにとって非常に重要なことです。
さらに,そのような特徴の発見により,eスポーツ選手のスキルの評価が向上し,コーチ以外にも,ゲーム開発者がプレイヤーの専門知識に自動的に適応可能なゲームを設計することに関心がある。
センサーデータと機械学習が組み合わさって、eSportsプレーヤーの分類に有効であることがすでに証明されている。
しかし,既存の手法では,高度に熟練した選手を区別する特徴について十分な情報を提供していない。
本稿では,これらの特徴を効果的に発見し,プレイヤーのスキルレベルを分類する手法を提案する。
我々はまず,リーグ・オブ・レジェンドゲームにおける試合前後の心拍数,手の動きなど,選手のセンサデータを抽出するために,時間窓を適用した。
抽出したセグメントとシンボル転送エントロピーを用いて,センサ間の接続特性を算出する。
最も関連性の高い機能は、新たに開発されたコンセンサスネストクロスバリデーションメソッドを使用して選択される。
これらの特徴は、身体部分間の調和を表すもので、最終的に最適なウィンドウサイズを見つけ、プレイヤーのスキルを分類するために使用される。
分類結果は90.1%の精度で大幅に改善された。
また、プレイヤー間の接続機能やキーボード、マウス、手の動きはプレイヤーのスキルの分類において最も際立った特徴であった。
提案手法はスポーツ関係者のデータにも適用可能であり,eスポーツとスポーツの両分野におけるトレーニングプログラムに革命をもたらす可能性がある。
Discovering features that set elite players apart is of great significance for eSports coaches as it enables them to arrange a more effective training program focused on improving those features. Moreover, finding such features results in a better evaluation of eSports players skills, which, besides coaches, is of interest for game developers to design games automatically adaptable to the players expertise. Sensor data combined with machine learning have already proved effective in classifying eSports players. However, the existing methods do not provide sufficient information about features that distinguish high-skilled players. In this paper, we propose an efficient method to find these features and then use them to classify players' skill levels. We first apply a time window to extract the players' sensor data, including heart rate, hand activities, etc., before and after game events in the League of Legends game. We use the extracted segments and symbolic transfer entropy to calculate connectivity features between sensors. The most relevant features are then selected using the newly developed consensus nested cross validation method. These features, representing the harmony between body parts, are finally used to find the optimum window size and classify players' skills. The classification results demonstrate a significant improvement by achieving 90.1% accuracy. Also, connectivity features between players gaze positions and keyboard, mouse, and hand activities were the most distinguishing features in classifying players' skills. The proposed method in this paper can be similarly applied to sportspeople data and potentially revolutionize the training programs in both eSports and sports industries | 翻訳日:2024-07-22 11:50:18 公開日:2024-05-08 |
# 調和型システムコード予測のためのマルチモーダルアプローチ
Multimodal Approach for Harmonized System Code Prediction ( http://arxiv.org/abs/2406.04349v1 ) ライセンス: Link先を確認 | Otmane Amel, Sedrick Stassin, Sidi Ahmed Mahmoudi, Xavier Siebert, | (参考訳) 電子商取引の急激な成長は税関代表者にかなりの圧力をかけ、先進的な手法を推し進めている。
これに取り組む中で、人工知能(AI)システムは、直面するリスクを最小限に抑えるための有望なアプローチとして登場した。
本稿では,Halmonized System (HS) コードが正確な税関宣言の重要な要素であることを踏まえ,税関宣言とeコマースプラットフォーム情報を組み合わせた画像とテキストの特徴を融合したディープラーニングモデルを用いた,新たな多モードHSコード予測手法を提案する。
初期核融合法を2つ評価し,MultConcat核融合法を導入した。
我々の知る限りでは、HSコード予測の最先端技術におけるテキストと画像の特徴レベルの組み合わせを分析する研究はほとんどない。
実験の結果,トップ3およびトップ5の精度が93.5%,98.2%のアプローチと融合法の有効性が確認された。
The rapid growth of e-commerce has placed considerable pressure on customs representatives, prompting advanced methods. In tackling this, Artificial intelligence (AI) systems have emerged as a promising approach to minimize the risks faced. Given that the Harmonized System (HS) code is a crucial element for an accurate customs declaration, we propose a novel multimodal HS code prediction approach using deep learning models exploiting both image and text features obtained through the customs declaration combined with e-commerce platform information. We evaluated two early fusion methods and introduced our MultConcat fusion method. To the best of our knowledge, few studies analyze the featurelevel combination of text and image in the state-of-the-art for HS code prediction, which heightens interest in our paper and its findings. The experimental results prove the effectiveness of our approach and fusion method with a top-3 and top-5 accuracy of 93.5% and 98.2% respectively | 翻訳日:2024-07-01 08:10:07 公開日:2024-05-08 |
# TSB: NVCIMアクセラレータ上での効率的なDNNデプロイのためのTiny Shared Block
TSB: Tiny Shared Block for Efficient DNN Deployment on NVCIM Accelerators ( http://arxiv.org/abs/2406.06544v1 ) ライセンス: Link先を確認 | Yifan Qin, Zheyu Yan, Zixuan Pan, Wujie Wen, Xiaobo Sharon Hu, Yiyu Shi, | (参考訳) 非揮発性メモリ(NVM)デバイスを使用したCIM(Compute-in-Memory)アクセラレータは、エネルギー効率と低レイテンシのDeep Neural Network(DNN)推論実行のための有望なソリューションを提供する。
しかし、実際には、非揮発性コンピューティングインメモリ(NVCIM)アクセラレーターにおける固有のデバイス変異の影響を受け、大量のモデルウェイトパラメータを扱うという課題によって、しばしば障害となる。
この問題は、トレーニングオーバーヘッドの増加、デバイス状態へのウェイトマッピングに必要な時間、エネルギー消費、推論精度の低下によって、彼らの利点を著しく相殺する。
これらの課題を軽減するために,小さな共有1x1畳み込みブロックをDNNアーキテクチャに統合した"Tiny Shared Block (TSB)"手法を提案する。
このブロックは、ネットワーク全体の機能処理を安定化し、デバイスの変動の影響を効果的に低減するように設計されている。
実験の結果,TSBは20倍以上の推論精度のギャップ改善,5倍以上のトレーニングスピードアップ,デバイス間マッピングコストの削減を実現し,プログラミング中に記述されたウェイトの0.4%未満を必要とせず,最先端のベースラインソリューションと比較した。
我々のアプローチは、NVCIMアクセラレーターに堅牢なDNNモデルをデプロイするための実用的で効率的なソリューションを提供する。
Compute-in-memory (CIM) accelerators using non-volatile memory (NVM) devices offer promising solutions for energy-efficient and low-latency Deep Neural Network (DNN) inference execution. However, practical deployment is often hindered by the challenge of dealing with the massive amount of model weight parameters impacted by the inherent device variations within non-volatile computing-in-memory (NVCIM) accelerators. This issue significantly offsets their advantages by increasing training overhead, the time needed for mapping weights to device states, energy consumption, and diminishing inference accuracy. To mitigate these challenges, we propose the "Tiny Shared Block (TSB)" method, which integrates a small shared 1x1 convolution block into the DNN architecture. This block is designed to stabilize feature processing across the network, effectively reducing the impact of device variation. Extensive experimental results show that TSB achieves over 20x inference accuracy gap improvement, over 5x training speedup, and weights-to-device mapping cost reduction while requiring less than 0.4% of the original weights to be write-verified during programming, when compared with state-of-the-art baseline solutions. Our approach provides a practical and efficient solution for deploying robust DNN models on NVCIM accelerators, making it a valuable contribution to the field of energy-efficient AI hardware. | 翻訳日:2024-07-01 08:00:19 公開日:2024-05-08 |
# 対数ソボレフ不等式によるランダム可逆回路からのより効率的な$k$-wise独立置換
More Efficient $k$-wise Independent Permutations from Random Reversible Circuits via log-Sobolev Inequalities ( http://arxiv.org/abs/2406.08499v1 ) ライセンス: Link先を確認 | Lucas Gretta, William He, Angelos Pelecanos, | (参考訳) 我々は、$\tilde{O}(nk\cdot \log(1/\varepsilon))$ランダムな$3$-bitゲートが$\varepsilon$-aqua $k$-wise独立な可逆回路によって計算された置換が証明される。
私たちの境界は、近似誤差が$\varepsilon$が小さすぎる場合に、政権で現在知られている境界を改善します。
スペクトルギャップではなく,適切なマルコフ鎖の対数ソボレフ定数を解析して得られた。
We prove that the permutation computed by a reversible circuit with $\tilde{O}(nk\cdot \log(1/\varepsilon))$ random $3$-bit gates is $\varepsilon$-approximately $k$-wise independent. Our bound improves on currently known bounds in the regime when the approximation error $\varepsilon$ is not too small. We obtain our results by analyzing the log-Sobolev constants of appropriate Markov chains rather than their spectral gaps. | 翻訳日:2024-07-01 07:50:27 公開日:2024-05-08 |
# エッジコンピューティングハードウェアを用いたカオス制御
Controlling Chaos Using Edge Computing Hardware ( http://arxiv.org/abs/2406.12876v1 ) ライセンス: Link先を確認 | Robert M. Kent, Wendson A. S. Barbosa, Daniel J. Gauthier, | (参考訳) 機械学習は、システムのデジタルツイン(システムの振る舞いを予測するために使用されるデジタルモデル)を作成するための、データ駆動のアプローチを提供する。
正確なデジタルツインを持つことは、自律システムの制御など、多くのアプリケーションを動かすことができる。
多くの場合、デジタルツインや関連するコントローラのサイズ、重量、消費電力を最小化し、クラウドコンピューティング接続なしで動作可能な組み込みコンピューティングハードウェア上で理想的に実現する必要がある。
ここでは,次世代貯水池計算に基づく非線形制御器がカオスシステムを任意の時間依存状態に制御するという,困難な制御問題に対処できることを示す。
モデルは正確だが、組み込みデバイスで一般的に見られるフィールドプログラマブルゲートアレイで評価できるほど小さい。
さらに、モデルは評価あたり25.0$\pm$ 7.0 nJしか必要とせず、体系的な電力最適化がなくても、他のアルゴリズムよりはるかに低い。
私たちの研究は、効率的な機械学習アルゴリズムをコンピューティング"エッジ"にデプロイする第一歩を表しています。
Machine learning provides a data-driven approach for creating a digital twin of a system - a digital model used to predict the system behavior. Having an accurate digital twin can drive many applications, such as controlling autonomous systems. Often the size, weight, and power consumption of the digital twin or related controller must be minimized, ideally realized on embedded computing hardware that can operate without a cloud-computing connection. Here, we show that a nonlinear controller based on next-generation reservoir computing can tackle a difficult control problem: controlling a chaotic system to an arbitrary time-dependent state. The model is accurate, yet it is small enough to be evaluated on a field-programmable gate array typically found in embedded devices. Furthermore, the model only requires 25.0 $\pm$ 7.0 nJ per evaluation, well below other algorithms, even without systematic power optimization. Our work represents the first step in deploying efficient machine learning algorithms to the computing "edge." | 翻訳日:2024-07-01 07:30:49 公開日:2024-05-08 |
# 関数を持つASPのための有限グラウンド:一貫性による旅
Finite Groundings for ASP with Functions: A Journey through Consistency ( http://arxiv.org/abs/2405.15794v1 ) ライセンス: Link先を確認 | Lukas Gerlach, David Carral, Markus Hecher, | (参考訳) 解答集合プログラミング(Answer set programming、ASP)は、組合せ問題解決や知識表現、推論といった人工知能の様々な領域で用いられる論理プログラミング形式である。
関数シンボルによるASPの強化は、基本的な推論問題を極めて決定不能にすることが知られている。
しかし、単純な場合でさえ、最先端の推論者、特に基礎と解決のアプローチに依存しているものは、結果を生み出すことができない。
そこで我々は、一貫性をASP.NETの基本的な推論問題として再考する。
高レベルの不決定性に対する直感を与える縮小を示す。
これらの洞察は、ASP プログラムを "frugal" と "non-proliferous" と特徴づける、よりきめ細かい分析を可能にします。
このようなプログラムに対して、一貫性を半デシドできるだけでなく、「禁じられた」事実という概念で、より多くのASPプログラムに有限の根拠を与えるグラウンドイング手順も提案する。
Answer set programming (ASP) is a logic programming formalism used in various areas of artificial intelligence like combinatorial problem solving and knowledge representation and reasoning. It is known that enhancing ASP with function symbols makes basic reasoning problems highly undecidable. However, even in simple cases, state of the art reasoners, specifically those relying on a ground-and-solve approach, fail to produce a result. Therefore, we reconsider consistency as a basic reasoning problem for ASP. We show reductions that give an intuition for the high level of undecidability. These insights allow for a more fine-grained analysis where we characterize ASP programs as "frugal" and "non-proliferous". For such programs, we are not only able to semi-decide consistency but we also propose a grounding procedure that yields finite groundings on more ASP programs with the concept of "forbidden" facts. | 翻訳日:2024-06-02 14:39:48 公開日:2024-05-08 |
# D-CODE:動的ネットワーク効率のためのデータコロニー最適化
D-CODE: Data Colony Optimization for Dynamic Network Efficiency ( http://arxiv.org/abs/2405.15795v1 ) ライセンス: Link先を確認 | Tannu Pandey, Ayush Thakur, | (参考訳) データコロニー最適化(DCO)アルゴリズムを組み込んだ新しいフレームワークであるD-CODEを紹介した。
DCOは、アリコロニー、ミツバチ群集、真菌ネットワークからのメタヒューリスティック戦略を利用して、複雑なデータランドスケープを効率的に探索する。
シミュレーションとケーススタディを含む混合手法のアプローチにより、D-CODEは従来の手法よりも優れ、ソリューションの品質が3~4%向上し、収束速度が2~3倍速く、計算効率が最大25%向上した。
DCOの堅牢な最適化とDECの動的応答性の統合は、D-CODEを知的システム設計の変革的パラダイムとして位置づけ、経験的検証と有望な結果によって支援された、運用効率、意思決定支援、計算知能の潜在的な応用と位置づけている。
The paper introduces D-CODE, a new framework blending Data Colony Optimization (DCO) algorithms inspired by biological colonies' collective behaviours with Dynamic Efficiency (DE) models for real-time adaptation. DCO utilizes metaheuristic strategies from ant colonies, bee swarms, and fungal networks to efficiently explore complex data landscapes, while DE enables continuous resource recalibration and process adjustments for optimal performance amidst changing conditions. Through a mixed-methods approach involving simulations and case studies, D-CODE outperforms traditional techniques, showing improvements of 3-4% in solution quality, 2-3 times faster convergence rates, and up to 25% higher computational efficiency. The integration of DCO's robust optimization and DE's dynamic responsiveness positions D-CODE as a transformative paradigm for intelligent systems design, with potential applications in operational efficiency, decision support, and computational intelligence, supported by empirical validation and promising outcomes. | 翻訳日:2024-06-02 14:39:48 公開日:2024-05-08 |
# 知識グラフ埋め込みにおける未知の敵攻撃
Untargeted Adversarial Attack on Knowledge Graph Embeddings ( http://arxiv.org/abs/2405.10970v1 ) ライセンス: Link先を確認 | Tianzhe Zhao, Jiaoyan Chen, Yanchi Ru, Qika Lin, Yuxia Geng, Jun Liu, | (参考訳) 知識グラフ埋め込み(KGE)手法は、様々な知識グラフ(KG)下流タスクを扱うことに成功している。
しかし、KGE法は現実世界でよく見られる低品質なKGの偏り表現を学習することができる。
近年の研究では、KGE手法の脆弱性を調査するための敵攻撃が提案されているが、攻撃者はKGE法で目標指向であり、予測対象のトリプルは事前に与えられており、実用性に欠ける。
本研究では,KGE手法のグローバルな性能を,未知のテストトリプルの集合上で低減し,KGEのロバスト性に関する系統的解析を行うことを目的として,標的外攻撃を探索する。
KGのグローバル構造を効果的に要約できる論理則を考えると、我々は攻撃効率を高めるためのルールベースの攻撃戦略を開発する。
特に、ルールを学習し、ルールを適用して三重の重要度を取得し、重要な三重の削除を行い、学習ルールを破損させ、負の三重の摂動に応用する逆の付加について考察する。
KGE法の3つの代表的なクラスにまたがる2つのデータセットに対する大規模な実験により、リンク予測結果を減少させる未標的攻撃の有効性が示された。
また、異なるKGE手法が標的外攻撃に対して異なる堅牢性を示すことも判明した。
例えば、グラフニューラルネットワークや論理規則に係わる手法の堅牢性は、グラフの密度に依存する。
しかし、NCRLのようなルールベースの手法は、負のルールを捉えるために敵の追加攻撃によって容易に影響を受ける
Knowledge graph embedding (KGE) methods have achieved great success in handling various knowledge graph (KG) downstream tasks. However, KGE methods may learn biased representations on low-quality KGs that are prevalent in the real world. Some recent studies propose adversarial attacks to investigate the vulnerabilities of KGE methods, but their attackers are target-oriented with the KGE method and the target triples to predict are given in advance, which lacks practicability. In this work, we explore untargeted attacks with the aim of reducing the global performances of KGE methods over a set of unknown test triples and conducting systematic analyses on KGE robustness. Considering logic rules can effectively summarize the global structure of a KG, we develop rule-based attack strategies to enhance the attack efficiency. In particular,we consider adversarial deletion which learns rules, applying the rules to score triple importance and delete important triples, and adversarial addition which corrupts the learned rules and applies them for negative triples as perturbations. Extensive experiments on two datasets over three representative classes of KGE methods demonstrate the effectiveness of our proposed untargeted attacks in diminishing the link prediction results. And we also find that different KGE methods exhibit different robustness to untargeted attacks. For example, the robustness of methods engaged with graph neural networks and logic rules depends on the density of the graph. But rule-based methods like NCRL are easily affected by adversarial addition attacks to capture negative rules | 翻訳日:2024-05-27 03:08:05 公開日:2024-05-08 |
# 高速確率的政策グラディエント:強化学習のための負のモメンタム
Fast Stochastic Policy Gradient: Negative Momentum for Reinforcement Learning ( http://arxiv.org/abs/2405.12228v1 ) ライセンス: Link先を確認 | Haobin Zhang, Zhuang Yang, | (参考訳) 確率的最適化アルゴリズム、特に確率的ポリシー勾配(SPG)は、強化学習(RL)において大きな成功を報告している。
しかし、これまでのところ、RLの最適解を迅速に取得する方法は依然として課題である。
この問題に対処するため,SPG-NMと呼ばれる運動量を利用する観点から,高速なSPGアルゴリズムを開発した。
具体的には、SPG-NMにおいて、古典的なSPGアルゴリズムに新しいタイプの負運動量(NM)技術を適用する。
既存のNM技術と異なり、SPG-NMアルゴリズムにはいくつかのハイパーパラメータが採用されている。
さらに、計算複雑性は、現在のSPG型アルゴリズム、例えば、Nesterovの加速勾配(NAG)とSPGを装備する加速ポリシー勾配(APG)とほぼ同じである。
提案手法は,帯域設定とマルコフ決定過程(MDP)の2つの古典的課題に対して評価する。
異なるタスクにおける数値的な結果は、RL の SPG 加速における NM の正の影響を確認する最先端のアルゴリズムを比較することにより、結果アルゴリズムの収束速度を高速化する。
また、異なる設定下での数値実験により、ある重要なハイパーパラメーターに対するSPG-NMアルゴリズムの頑健さが証明され、実際に利用者が自由に感じるようになる。
Stochastic optimization algorithms, particularly stochastic policy gradient (SPG), report significant success in reinforcement learning (RL). Nevertheless, up to now, that how to speedily acquire an optimal solution for RL is still a challenge. To tackle this issue, this work develops a fast SPG algorithm from the perspective of utilizing a momentum, coined SPG-NM. Specifically, in SPG-NM, a novel type of the negative momentum (NM) technique is applied into the classical SPG algorithm. Different from the existing NM techniques, we have adopted a few hyper-parameters in our SPG-NM algorithm. Moreover, the computational complexity is nearly same as the modern SPG-type algorithms, e.g., accelerated policy gradient (APG), which equips SPG with Nesterov's accelerated gradient (NAG). We evaluate the resulting algorithm on two classical tasks, bandit setting and Markov decision process (MDP). Numerical results in different tasks demonstrate faster convergence rate of the resulting algorithm by comparing state-of-the-art algorithms, which confirm the positive impact of NM in accelerating SPG for RL. Also, numerical experiments under different settings confirm the robustness of our SPG-NM algorithm for some certain crucial hyper-parameters, which ride the user feel free in practice. | 翻訳日:2024-05-27 03:08:05 公開日:2024-05-08 |
# 脳波信号による睡眠時酸素飽和度の検出
Detection of Sleep Oxygen Desaturations from Electroencephalogram Signals ( http://arxiv.org/abs/2405.09566v1 ) ライセンス: Link先を確認 | Shashank Manjunath, Aarti Sathyanarayana, | (参考訳) 本研究では,睡眠時酸素飽和の潜在的なバイオマーカーを,小児の睡眠時無呼吸症患者の脳波信号から同定するために機械学習技術を活用する。
睡眠時無呼吸症患者の脳波信号の同定に成功し、また、酸素の飽和を経験するが酸素の飽和時に自分自身が起こらない潜在脳波信号を識別する機械学習技術の開発は、この疾患の診断を容易にするために、睡眠時無呼吸のための脳ベースのバイオマーカーを開発するための強力なステップとなる。
我々は大量のデータのコーパスを活用し、機械学習によって平均66.8%の精度で、酸素の飽和時に発生するか、酸素の飽和時に起こるものではないかとして、脳波信号を分類できることを示す。
さらに, 酸素飽和時に発生しない脳波データから, 酸素飽和を経験する被験者を識別する機械学習モデルの有用性について検討した。
脳波データには酸素の飽和に関する潜在的なバイオマーカーが存在すると結論付けている。
In this work, we leverage machine learning techniques to identify potential biomarkers of oxygen desaturation during sleep exclusively from electroencephalogram (EEG) signals in pediatric patients with sleep apnea. Development of a machine learning technique which can successfully identify EEG signals from patients with sleep apnea as well as identify latent EEG signals which come from subjects who experience oxygen desaturations but do not themselves occur during oxygen desaturation events would provide a strong step towards developing a brain-based biomarker for sleep apnea in order to aid with easier diagnosis of this disease. We leverage a large corpus of data, and show that machine learning enables us to classify EEG signals as occurring during oxygen desaturations or not occurring during oxygen desaturations with an average 66.8% balanced accuracy. We furthermore investigate the ability of machine learning models to identify subjects who experience oxygen desaturations from EEG data that does not occur during oxygen desaturations. We conclude that there is a potential biomarker for oxygen desaturation in EEG data. | 翻訳日:2024-05-19 13:49:26 公開日:2024-05-08 |
# ECG-SMART-NET : 閉塞性心筋梗塞の精密心電図診断のためのディープラーニングアーキテクチャ
ECG-SMART-NET: A Deep Learning Architecture for Precise ECG Diagnosis of Occlusion Myocardial Infarction ( http://arxiv.org/abs/2405.09567v1 ) ライセンス: Link先を確認 | Nathan T. Riek, Murat Akcakaya, Zeineb Bouzid, Tanmay Gokhale, Stephanie Helman, Karina Kraevsky-Philips, Rui Qi Ji, Ervin Sejdic, Jessica K. Zègre-Hemsey, Christian Martin-Gill, Clifton W. Callaway, Samir Saba, Salah Al-Zaiti, | (参考訳) 本稿では,閉塞性心筋梗塞(OMI)の診断のためのECG-SMART-NETについて述べる。
OMIは、心臓への血流を回復するために、心臓カテーテルの即時紹介を必要とする1つ以上の冠状動脈の完全閉塞を特徴とする重度の心臓発作である。
OMI症例の3分の2は、12誘導心電図(ECG)から視覚的に識別することが困難であり、タイムリーな方法で同定しなければ致命的となる可能性がある。
このトピックに関するこれまでの研究は乏しく、現在の最先端の証拠は、エンジニアリングされた特徴を持つランダムな森林と畳み込みニューラルネットワーク(CNN)の両方が、OMIのECG検出を改善するための有望なアプローチであることを示唆している。
ResNetアーキテクチャはECG記録での使用に成功しているが、各リード内の情報的時間的特徴とリード間の空間的一致や不一致を捉えるのが理想的ではない。
本稿では,ResNet-18アーキテクチャの臨床的改良を提案する。
モデルはまず1xkのカーネルを持つ時間的畳み込み層を通して時間的特徴を学習し、その後12x1のカーネルで空間的特徴を学習する。
新しいECG-SMART-NETは、オリジナルのResNet-18や他の最先端モデルとベンチマークされ、マルチサイトリアルワードの臨床データセットで、7,297人のユニークな患者から10,893のECG(OMI = 6.5%)で構成された。
ECG-SMART-NETは、テストAUCスコアが0.889+/-0.027、テスト平均精度スコアが0.587+/-0.087で、OMIの分類において他のモデルよりも優れていた。
In this paper we describe ECG-SMART-NET for identification of occlusion myocardial infarction (OMI). OMI is a severe form of heart attack characterized by complete blockage of one or more coronary arteries requiring immediate referral for cardiac catheterization to restore blood flow to the heart. Two thirds of OMI cases are difficult to visually identify from a 12-lead electrocardiogram (ECG) and can be potentially fatal if not identified in a timely fashion. Previous works on this topic are scarce, and current state-of-the-art evidence suggests that both random forests with engineered features and convolutional neural networks (CNNs) are promising approaches to improve the ECG detection of OMI. While the ResNet architecture has been successfully adapted for use with ECG recordings, it is not ideally suited to capture informative temporal features within each lead and the spatial concordance or discordance across leads. We propose a clinically informed modification of the ResNet-18 architecture. The model first learns temporal features through temporal convolutional layers with 1xk kernels followed by a spatial convolutional layer, after the residual blocks, with 12x1 kernels to learn spatial features. The new ECG-SMART-NET was benchmarked against the original ResNet-18 and other state-of-the-art models on a multisite real-word clinical dataset that consists of 10,893 ECGs from 7,297 unique patients (rate of OMI = 6.5%). ECG-SMART-NET outperformed other models in the classification of OMI with a test AUC score of 0.889 +/- 0.027 and a test average precision score of 0.587 +/- 0.087. | 翻訳日:2024-05-19 13:49:26 公開日:2024-05-08 |
# 脳波データからの精密地震計検出・分類のための動的GNN
Dynamic GNNs for Precise Seizure Detection and Classification from EEG Data ( http://arxiv.org/abs/2405.09568v1 ) ライセンス: Link先を確認 | Arash Hajisafi, Haowen Lin, Yao-Yi Chiang, Cyrus Shahabi, | (参考訳) てんかんの診断には正確な発作検出と分類が必要であるが、従来の手動脳波信号解析はリソース集約的である。
一方、自動アルゴリズムは脳波の幾何学的および意味的特性を脳活動の解釈に欠かせないものと見なすことが多い。
本稿では脳波電極の位置と対応する脳領域のセマンティクスの間の動的相互作用をキャプチャする動的グラフニューラルネットワーク(GNN)フレームワークであるNeuroGNNを紹介する。
電極が配置された特定の脳領域は、捕獲された脳波信号の性質を批判的に形作る。
各脳領域は異なる認知機能、感情、感覚処理を制御し、脳波データ内の意味的および空間的関係の両方に影響を与える。
これらの複雑な脳の関係を理解し、モデル化することは、脳の活動に関する正確で有意義な洞察に不可欠である。
そこで提案されたNeuroGNNフレームワークは、これらの進化する空間的、時間的、意味的、分類的相関をカプセル化したグラフを動的に構築し、発作検出と分類の精度を向上させる。
実世界のデータを用いた大規模な実験は、NeuroGNNが既存の最先端モデルよりも大幅に優れていることを示している。
Diagnosing epilepsy requires accurate seizure detection and classification, but traditional manual EEG signal analysis is resource-intensive. Meanwhile, automated algorithms often overlook EEG's geometric and semantic properties critical for interpreting brain activity. This paper introduces NeuroGNN, a dynamic Graph Neural Network (GNN) framework that captures the dynamic interplay between the EEG electrode locations and the semantics of their corresponding brain regions. The specific brain region where an electrode is placed critically shapes the nature of captured EEG signals. Each brain region governs distinct cognitive functions, emotions, and sensory processing, influencing both the semantic and spatial relationships within the EEG data. Understanding and modeling these intricate brain relationships are essential for accurate and meaningful insights into brain activity. This is precisely where the proposed NeuroGNN framework excels by dynamically constructing a graph that encapsulates these evolving spatial, temporal, semantic, and taxonomic correlations to improve precision in seizure detection and classification. Our extensive experiments with real-world data demonstrate that NeuroGNN significantly outperforms existing state-of-the-art models. | 翻訳日:2024-05-19 13:49:26 公開日:2024-05-08 |
# テンソル収縮経路の最適化: コスト関数を改良したグレディアルゴリズムアプローチ
Optimizing Tensor Contraction Paths: A Greedy Algorithm Approach With Improved Cost Functions ( http://arxiv.org/abs/2405.09644v1 ) ライセンス: Link先を確認 | Sheela Orgler, Mark Blacher, | (参考訳) 効率的なテンソル収縮経路を見つけることは、モデルカウント、量子回路、グラフ問題、言語モデルなど、幅広い問題に不可欠である。
例えば、Optimized Einsum (opt_einsum) によるgreedy and random greedy algorithm や、cotengra で用いられるgreedy algorithm や hypergraph partitioning approach などである。
しかし、これらのアルゴリズムは効率的な収縮経路を見つけるのに多くの計算時間と資源を必要とする。
本稿では,より少ない時間で効率的な収縮経路を計算するopo_einsumによる,欲求アルゴリズムに基づく新しい手法を提案する。
さらに,本手法では,現代のアルゴリズムが失敗する大問題に対して,経路を計算できる。
Finding efficient tensor contraction paths is essential for a wide range of problems, including model counting, quantum circuits, graph problems, and language models. There exist several approaches to find efficient paths, such as the greedy and random greedy algorithm by Optimized Einsum (opt_einsum), and the greedy algorithm and hypergraph partitioning approach employed in cotengra. However, these algorithms require a lot of computational time and resources to find efficient contraction paths. In this paper, we introduce a novel approach based on the greedy algorithm by opt_einsum that computes efficient contraction paths in less time. Moreover, with our approach, we are even able to compute paths for large problems where modern algorithms fail. | 翻訳日:2024-05-19 13:49:26 公開日:2024-05-08 |
# 共用情報と共用表の符号化
Mutual information and the encoding of contingency tables ( http://arxiv.org/abs/2405.05393v1 ) ライセンス: Link先を確認 | Maximilian Jerdee, Alec Kirkley, M. E. J. Newman, | (参考訳) 相互情報は、例えば分類における性能とコミュニティ検出タスクのパフォーマンスを定量化するために、与えられたオブジェクトの集合の競合ラベルの類似性の尺度として一般的に使用される。
しかし、近年議論されているように、類似性計算の重要な要素である「並行性表」の情報コストを無視するため、従来定義されていた相互情報は偏りのある結果を返すことができる。
原則として、適切な情報コストを減らしてバイアスを是正できるため、還元された相互情報として知られる修正された措置が導かれるが、実際には、この情報コストの上限を上限だけ計算することができ、縮小された相互情報の値は、境界がどれだけ良いかに決定的に依存する。
本稿では,典型的ユースケースにおいてかなり優れたバウンダリを与える共振器テーブルの符号化方法の改善について述べるとともに,そのラベリングが密接に類似している場合の理想値にアプローチする。
Mutual information is commonly used as a measure of similarity between competing labelings of a given set of objects, for example to quantify performance in classification and community detection tasks. As argued recently, however, the mutual information as conventionally defined can return biased results because it neglects the information cost of the so-called contingency table, a crucial component of the similarity calculation. In principle the bias can be rectified by subtracting the appropriate information cost, leading to the modified measure known as the reduced mutual information, but in practice one can only ever compute an upper bound on this information cost, and the value of the reduced mutual information depends crucially on how good a bound is established. In this paper we describe an improved method for encoding contingency tables that gives a substantially better bound in typical use cases, and approaches the ideal value in the common case where the labelings are closely similar, as we demonstrate with extensive numerical results. | 翻訳日:2024-05-15 18:22:42 公開日:2024-05-08 |
# 代表的なプレイヤーによるグラフィオン平均フィールドゲーム:分析と学習アルゴリズム
Graphon Mean Field Games with A Representative Player: Analysis and Learning Algorithm ( http://arxiv.org/abs/2405.08005v1 ) ライセンス: Link先を確認 | Fuzhong Zhou, Chenyu Zhang, Xu Chen, Xuan Di, | (参考訳) 本稿では,エージェント間の不均一な相互作用を伴う確率ゲームを研究するために,代表者を用いた連続状態と行動空間の離散時間グラフンゲーム定式化を提案する。
この定式化は、プレイヤーの連続体を用いた広く採用されている定式化と比較して、哲学的および数学的優位性の両方を認めている。
軽度の仮定でグラノン平衡の存在と特異性を証明し、この平衡を用いてネットワーク上の有限プレイヤーゲームに対する近似解を構築できることを示し、次元性の呪いによって解析と解決が困難である。
オンラインのオラクルフリー学習アルゴリズムは平衡を数値的に解くために開発され、その収束のためにサンプル複雑性解析が提供される。
We propose a discrete-time graphon game formulation on continuous state and action spaces using a representative player to study stochastic games with heterogeneous interaction among agents. This formulation admits both philosophical and mathematical advantages, compared to a widely adopted formulation using a continuum of players. We prove the existence and uniqueness of the graphon equilibrium with mild assumptions, and show that this equilibrium can be used to construct an approximate solution for finite player game on networks, which is challenging to analyze and solve due to curse of dimensionality. An online oracle-free learning algorithm is developed to solve the equilibrium numerically, and sample complexity analysis is provided for its convergence. | 翻訳日:2024-05-15 18:12:57 公開日:2024-05-08 |
# 大規模言語モデルを用いた合成データ生成によるBERTニューラルネットワークの性能向上
Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks ( http://arxiv.org/abs/2405.06695v1 ) ライセンス: Link先を確認 | Chancellor R. Woolsey, Prakash Bisht, Joshua Rothman, Gondy Leroy, | (参考訳) 医療に影響を及ぼす重要な問題は、利用可能な専門家の欠如である。
機械学習(ML)モデルは、患者の診断を支援することで、この問題を解決することができる。
しかし、これらのモデルをトレーニングするのに十分な規模のデータセットを作成するのはコストがかかる。
データ生成のための大規模言語モデル(LLM)を評価した。
自閉症スペクトラム障害 (ASD) を用いて, ChatGPT と GPT-Premium を刺激し,4,200 の合成観測を行い,既存の医療データを増強した。
我々の目標は、自閉症の基準に対応する行動のラベル付けと、合成トレーニングデータによるモデル精度の向上である。
生体医学文献で事前学習したBERT分類器を用いて,モデル間の性能差を評価した。
LLMデータから得られたランダムサンプル (N=140) は臨床医により評価され, 83%の正しいサンプルラベルペアが検出された。
データの増大はリコール率を13%向上させたが、精度を16%低下させた。
今後の研究は、異なる合成データ特性がML結果にどのように影響するかを分析する予定だ。
An important issue impacting healthcare is a lack of available experts. Machine learning (ML) models could resolve this by aiding in diagnosing patients. However, creating datasets large enough to train these models is expensive. We evaluated large language models (LLMs) for data creation. Using Autism Spectrum Disorders (ASD), we prompted ChatGPT and GPT-Premium to generate 4,200 synthetic observations to augment existing medical data. Our goal is to label behaviors corresponding to autism criteria and improve model accuracy with synthetic training data. We used a BERT classifier pre-trained on biomedical literature to assess differences in performance between models. A random sample (N=140) from the LLM-generated data was evaluated by a clinician and found to contain 83% correct example-label pairs. Augmenting data increased recall by 13% but decreased precision by 16%, correlating with higher quality and lower accuracy across pairs. Future work will analyze how different synthetic data traits affect ML outcomes. | 翻訳日:2024-05-14 20:41:54 公開日:2024-05-08 |
# 知識グラフ補完のための多段階共有知識指導学習
Multi-level Shared Knowledge Guided Learning for Knowledge Graph Completion ( http://arxiv.org/abs/2405.06696v1 ) ライセンス: Link先を確認 | Yongxue Shan, Jie Zhou, Jie Peng, Xin Zhou, Jiaqian Yin, Xiaodong Wang, | (参考訳) 知識グラフ補完(KGC)のタスクでは、既存のデータセットとその固有のサブタスクは豊富な共有知識を持ち、知識三重項の表現と全体的なパフォーマンスを高めるために利用することができる。
しかしながら、現在の研究では、KGC内の共有知識に特に対処する研究は行われていない。
このギャップを埋めるために、データセットとタスクレベルの両方で動作する多レベル共有知識ガイド学習法(SKG)を導入する。
データセットレベルでは、SKG-KGCは、テキスト要約を通じてエンティティセット内の共有機能を特定することによって、元のデータセットを広げる。
タスクレベルでは、ヘッドエンティティ予測、関係予測、テールエンティティ予測という3つの典型的なKGCサブタスクに対して、動的に調整された損失重みを持つ革新的なマルチタスク学習アーキテクチャを提案する。
このアプローチにより、モデルはより困難でパフォーマンスの低いタスクに集中でき、サブタスク間の知識共有の不均衡を効果的に軽減できる。
実験の結果、SKG-KGCは3つのよく知られたデータセットにおいて既存のテキストベースの手法よりも優れており、最も顕著な改善はWN18RRである。
In the task of Knowledge Graph Completion (KGC), the existing datasets and their inherent subtasks carry a wealth of shared knowledge that can be utilized to enhance the representation of knowledge triplets and overall performance. However, no current studies specifically address the shared knowledge within KGC. To bridge this gap, we introduce a multi-level Shared Knowledge Guided learning method (SKG) that operates at both the dataset and task levels. On the dataset level, SKG-KGC broadens the original dataset by identifying shared features within entity sets via text summarization. On the task level, for the three typical KGC subtasks - head entity prediction, relation prediction, and tail entity prediction - we present an innovative multi-task learning architecture with dynamically adjusted loss weights. This approach allows the model to focus on more challenging and underperforming tasks, effectively mitigating the imbalance of knowledge sharing among subtasks. Experimental results demonstrate that SKG-KGC outperforms existing text-based methods significantly on three well-known datasets, with the most notable improvement on WN18RR. | 翻訳日:2024-05-14 20:41:54 公開日:2024-05-08 |
# 自然言語による静的スケジューラから動的スケジューラへの自動変換
Automated Conversion of Static to Dynamic Scheduler via Natural Language ( http://arxiv.org/abs/2405.06697v1 ) ライセンス: Link先を確認 | Paul Mingzheng Tang, Kenji Kah Hoe Leong, Nowshad Shaik, Hoong Chuin Lau, | (参考訳) 本稿では,制約を自動的にモデル化し,既存の静的モデルから動的スケジューリング問題に対するコードを生成する,Large Language Models (LLMs) の潜在的な応用について検討する。
静的スケジューリング問題は最適化の専門家によってモデル化され、コード化される。
これらのモデルは、スケジューリングルールの変更を反映するために、基礎となる制約を微調整する必要があるため、容易に廃止される可能性がある。
さらに、環境の障害に対処するためには、静的モデルを動的モデルに変換する必要があるかもしれない。
本稿では、動的スケジューリング(RAGDyS)の制約を実装するプロセスを自動化するために、最適化モデリング専門家の助けを借りずに、検索型拡張生成(RAG)ベースのLLMモデルを提案する。
本フレームワークは,エンドユーザの数学的モデリングと計算作業量に関する技術的複雑さを最小化することを目的としており,自然言語制約記述に反映された変更を伴って,エンドユーザが元のスケジュールに近い新しいスケジュールを迅速に取得できるようにする。
In this paper, we explore the potential application of Large Language Models (LLMs) that will automatically model constraints and generate code for dynamic scheduling problems given an existing static model. Static scheduling problems are modelled and coded by optimization experts. These models may be easily obsoleted as the underlying constraints may need to be fine-tuned in order to reflect changes in the scheduling rules. Furthermore, it may be necessary to turn a static model into a dynamic one in order to cope with disturbances in the environment. In this paper, we propose a Retrieval-Augmented Generation (RAG) based LLM model to automate the process of implementing constraints for Dynamic Scheduling (RAGDyS), without seeking help from an optimization modeling expert. Our framework aims to minimize technical complexities related to mathematical modelling and computational workload for end-users, thereby allowing end-users to quickly obtain a new schedule close to the original schedule with changes reflected by natural language constraint descriptions. | 翻訳日:2024-05-14 20:41:54 公開日:2024-05-08 |
# ChatSOS: 安全工学における生成的質問応答アシスタントを付加したベクトルデータベース
ChatSOS: Vector Database Augmented Generative Question Answering Assistant in Safety Engineering ( http://arxiv.org/abs/2405.06699v1 ) ライセンス: Link先を確認 | Haiyang Tang, Dongping Chen, Qingzhao Chu, | (参考訳) 自然言語処理技術の急速な進歩に伴い、大規模言語モデル(LLM)に代表される生成人工知能技術が普及し、安全工学の応用において大きな可能性を秘めている。
しかし、基本的なLLMは、訓練データカバレッジの制限や信頼性の低い応答といった制約に直面している。
本研究は,中国における2013年から2023年にかけての117件の爆発事故報告書から,コーパスセグメンテーションやベクトル埋め込みといった手法を用いてベクトルデータベースを構築した。
情報検索品質において関係データベースより優れているベクトルデータベースを利用することで,LLMによりリッチで関連性の高い知識を提供する。
LLMの比較分析は、ChatSOSが信頼性、正確性、包括性を著しく向上し、適応性と応答の明確化を向上させることを示した。
これらの結果は,LLMを外部データベースで補うことの有効性を示し,安全工学における専門的なクエリ処理の可能性を強調し,より広範なアプリケーションのための基盤を構築した。
With the rapid advancement of natural language processing technologies, generative artificial intelligence techniques, represented by large language models (LLMs), are gaining increasing prominence and demonstrating significant potential for applications in safety engineering. However, fundamental LLMs face constraints such as limited training data coverage and unreliable responses. This study develops a vector database from 117 explosion accident reports in China spanning 2013 to 2023, employing techniques such as corpus segmenting and vector embedding. By utilizing the vector database, which outperforms the relational database in information retrieval quality, we provide LLMs with richer, more relevant knowledge. Comparative analysis of LLMs demonstrates that ChatSOS significantly enhances reliability, accuracy, and comprehensiveness, improves adaptability and clarification of responses. These results illustrate the effectiveness of supplementing LLMs with an external database, highlighting their potential to handle professional queries in safety engineering and laying a foundation for broader applications. | 翻訳日:2024-05-14 20:41:54 公開日:2024-05-08 |
# 社会シミュレーションのためのLLM強化エージェントベースモデリング--課題と機会
LLM-Augmented Agent-Based Modelling for Social Simulations: Challenges and Opportunities ( http://arxiv.org/abs/2405.06700v1 ) ライセンス: Link先を確認 | Onder Gurcan, | (参考訳) 大規模言語モデル(LLM)は大きな進歩を続けており、エージェントベースのシミュレーションへのより良い統合は、複雑な社会システムを理解するための変革的なポテンシャルを提供する。
しかし、そのような統合は簡単ではなく、多くの課題を提起する。
本稿では, LLMを付加した社会シミュレーションを体系的に開発するためのアーキテクチャと手法について検討し, 今後の研究の方向性について考察する。
我々は、LSMとエージェントベースのシミュレーションを統合することで、研究者や科学者にとって強力なツールセットを提供し、複雑なシステムや人間の行動のより微妙で現実的で包括的なモデルを可能にすると結論付けている。
As large language models (LLMs) continue to make significant strides, their better integration into agent-based simulations offers a transformational potential for understanding complex social systems. However, such integration is not trivial and poses numerous challenges. Based on this observation, in this paper, we explore architectures and methods to systematically develop LLM-augmented social simulations and discuss potential research directions in this field. We conclude that integrating LLMs with agent-based simulations offers a powerful toolset for researchers and scientists, allowing for more nuanced, realistic, and comprehensive models of complex systems and human behaviours. | 翻訳日:2024-05-14 20:31:40 公開日:2024-05-08 |
# 文書からの組合せ情報抽出のための軽量空間モデリング
Lightweight Spatial Modeling for Combinatorial Information Extraction From Documents ( http://arxiv.org/abs/2405.06701v1 ) ライセンス: Link先を確認 | Yanfei Dong, Lambert Deng, Jiazheng Zhang, Xiaodong Yu, Ting Lin, Francesco Gelli, Soujanya Poria, Wee Sun Lee, | (参考訳) 多様なテンプレートで構成され、複雑な空間構造を示す文書は、文書実体分類の課題となる。
文書エンティティのK-nearest-neighbor(KNN)グラフに基づいて,新しい種類の空間バイアスをアテンション計算に組み込んだKNNフォーマを提案する。
我々は、KNNグラフで定義される局所半径のみにエンティティの注意を限定する。
また、多くの文書に存在する1対1のマッピング特性に対処するために、組合せマッチングを用いる。
さらに,本手法は,トレーニング可能なパラメータの数の観点から既存の手法と比較して,パラメータ効率が高い。
それにもかかわらず、様々なデータセットにわたる実験は、メソッドがほとんどのエンティティタイプでベースラインを上回っていることを示している。
多くの実世界の文書は、抽出精度を向上させるために誘導バイアスとして活用できる組合せ特性を示すが、既存のデータセットはこれらの文書をカバーしていない。
このような文書の今後の研究を容易にするため,多種多様なテンプレートや言語をカバーする新しいID文書データセットをリリースする。
既存のデータセット用の拡張アノテーションもリリースしています。
Documents that consist of diverse templates and exhibit complex spatial structures pose a challenge for document entity classification. We propose KNN-former, which incorporates a new kind of spatial bias in attention calculation based on the K-nearest-neighbor (KNN) graph of document entities. We limit entities' attention only to their local radius defined by the KNN graph. We also use combinatorial matching to address the one-to-one mapping property that exists in many documents, where one field has only one corresponding entity. Moreover, our method is highly parameter-efficient compared to existing approaches in terms of the number of trainable parameters. Despite this, experiments across various datasets show our method outperforms baselines in most entity types. Many real-world documents exhibit combinatorial properties which can be leveraged as inductive biases to improve extraction accuracy, but existing datasets do not cover these documents. To facilitate future research into these types of documents, we release a new ID document dataset that covers diverse templates and languages. We also release enhanced annotations for an existing dataset. | 翻訳日:2024-05-14 20:31:40 公開日:2024-05-08 |
# 微調整YOLOv8とコンピュータビジョン技術を用いたマラヤラム手話識別
Malayalam Sign Language Identification using Finetuned YOLOv8 and Computer Vision Techniques ( http://arxiv.org/abs/2405.06702v1 ) ライセンス: Link先を確認 | Abhinand K., Abhiram B. Nair, Dhananjay C., Hanan Hamza, Mohammed Fawaz J., Rahma Fahim K., Anoop V. S, | (参考訳) 技術的進歩とイノベーションは、あらゆる意味で私たちの日常生活を前進させつつありますが、身体的障害のために利益にアクセスできなくなった社会のより大きな部分があります。
真の利益を享受し、社会にアクセスできるようにするためには、才能があり、才能ある人々は、いかなるハードルも必要とせずに、このようなイノベーションを使うべきです。
最近開発された多くのアプリケーションはこれらの課題に対処しているが、地域化コミュニティや他の制約のある言語群はそれらを使うのが困難である。
マラヤラム(英語: Malayalam)は、インドのケララ州で話されているドラヴィダ語(英語版)の言語である。
近年、マラヤラムにおけるシステムやツールの開発が増加し、ケララのニーズに対処しているのを目撃している。
主な課題の1つは、マラヤラム語の手話データが限られているか、全く利用できないことであり、この方向に十分な努力は行われていない。
本稿では,高度深層学習とコンピュータビジョン技術を用いたマラヤラム語の手話識別手法を提案する。
まず、マラヤラム文字のラベル付きデータセットを開発し、その識別にはYOLOv8やコンピュータビジョンといった高度なディープラーニング技術を使用します。
実験の結果,識別精度は他の手話識別システムに匹敵することがわかった。
Technological advancements and innovations are advancing our daily life in all the ways possible but there is a larger section of society who are deprived of accessing the benefits due to their physical inabilities. To reap the real benefits and make it accessible to society, these talented and gifted people should also use such innovations without any hurdles. Many applications developed these days address these challenges, but localized communities and other constrained linguistic groups may find it difficult to use them. Malayalam, a Dravidian language spoken in the Indian state of Kerala is one of the twenty-two scheduled languages in India. Recent years have witnessed a surge in the development of systems and tools in Malayalam, addressing the needs of Kerala, but many of them are not empathetically designed to cater to the needs of hearing-impaired people. One of the major challenges is the limited or no availability of sign language data for the Malayalam language and sufficient efforts are not made in this direction. In this connection, this paper proposes an approach for sign language identification for the Malayalam language using advanced deep learning and computer vision techniques. We start by developing a labeled dataset for Malayalam letters and for the identification we use advanced deep learning techniques such as YOLOv8 and computer vision. Experimental results show that the identification accuracy is comparable to other sign language identification systems and other researchers in sign language identification can use the model as a baseline to develop advanced models. | 翻訳日:2024-05-14 20:31:40 公開日:2024-05-08 |
# 解釈可能なクロスエグゼクタミネーション技術(ICE-T) : LLM性能向上のための高情報機能の利用
Interpretable Cross-Examination Technique (ICE-T): Using highly informative features to boost LLM performance ( http://arxiv.org/abs/2405.06703v1 ) ライセンス: Link先を確認 | Goran Muric, Ben Delay, Steven Minton, | (参考訳) 本稿では,Large Language Models (LLMs) を用いた構造化マルチプロンプト技術を活用し,ゼロショット法や少数ショット法よりも優れた分類性能を実現する新しい手法であるInterpretable Cross-Examination Technique (ICE-T)を提案する。
医学や法律など、解釈可能性が不可欠である領域では、標準モデルは「ブラックボックス」の性質のためにしばしば不足する。
ICE-Tは、LLMが複数の方向から問題にアプローチできるようにする一連のプロンプトを使用することで、これらの制限に対処する。
LLMからの応答は数値的特徴ベクトルに変換され、従来の分類器で処理される。
この方法は高い解釈可能性を維持するだけでなく、より小型で能力の低いモデルでも、ゼロショット条件下でより大型で高度なモデルの性能を達成または超えることができる。
F1スコアなどの分類基準でゼロショット基準を一貫して上回り、医療記録や法律文書など、さまざまなデータソースに対するICE-Tの有効性を実証する。
その結果,ICE-Tは複雑な意思決定環境におけるAIアプリケーションの性能と透明性の向上に有効であることが示唆された。
In this paper, we introduce the Interpretable Cross-Examination Technique (ICE-T), a novel approach that leverages structured multi-prompt techniques with Large Language Models (LLMs) to improve classification performance over zero-shot and few-shot methods. In domains where interpretability is crucial, such as medicine and law, standard models often fall short due to their "black-box" nature. ICE-T addresses these limitations by using a series of generated prompts that allow an LLM to approach the problem from multiple directions. The responses from the LLM are then converted into numerical feature vectors and processed by a traditional classifier. This method not only maintains high interpretability but also allows for smaller, less capable models to achieve or exceed the performance of larger, more advanced models under zero-shot conditions. We demonstrate the effectiveness of ICE-T across a diverse set of data sources, including medical records and legal documents, consistently surpassing the zero-shot baseline in terms of classification metrics such as F1 scores. Our results indicate that ICE-T can be used for improving both the performance and transparency of AI applications in complex decision-making environments. | 翻訳日:2024-05-14 20:31:40 公開日:2024-05-08 |
# 平面多層フォトニック構造設計のための量子インスピレーション型遺伝的アルゴリズム
Quantum-Inspired Genetic Algorithm for Designing Planar Multilayer Photonic Structure ( http://arxiv.org/abs/2405.05982v1 ) ライセンス: Link先を確認 | Zhihao Xu, Wenjie Shang, Seongmin Kim, Alexandria Bobbitt, Eungkyu Lee, Tengfei Luo, | (参考訳) 量子アルゴリズムは、その強力な解空間探索能力のため、機能性材料の設計において新たなツールである。
量子コンピューティングリソースの高価格と成長するコンピューティングニーズのバランスをとる方法は、解決すべき緊急の問題となっている。
改良された量子遺伝的アルゴリズム(QGA)と機械学習サロゲートモデル回帰を組み合わせた能動的学習方式に基づく新しい最適化手法を提案する。
ランダムフォレストを代理モデルとして使用することで、時間を要する物理モデリングや実験を回避し、最適化効率を向上させる。
量子力学に埋め込まれた遺伝的アルゴリズムであるQGAは、量子コンピューティングと遺伝的アルゴリズムの利点を組み合わせて、最適化へのより高速でより堅牢な収束を可能にする。
透過的放射冷却のための平面多層フォトニック構造をテストベッドとして設計し,古典的遺伝的アルゴリズム(CGA)よりもアルゴリズムの方が優れていることを示す。
さらに、他の量子コンピューティング最適化アルゴリズム(例えば、量子アニーリングをサロゲートとして必要とするIsingモデル)で使用可能なサロゲートモデルの型に対する制約を緩和するフレキシブルサロゲートモデルとして、RFモデルの精度上の利点を示す。
Quantum algorithms are emerging tools in the design of functional materials due to their powerful solution space search capability. How to balance the high price of quantum computing resources and the growing computing needs has become an urgent problem to be solved. We propose a novel optimization strategy based on an active learning scheme that combines the improved Quantum Genetic Algorithm (QGA) with machine learning surrogate model regression. Using Random Forests as the surrogate model circumvents the time-consuming physical modeling or experiments, thereby improving the optimization efficiency. QGA, a genetic algorithm embedded with quantum mechanics, combines the advantages of quantum computing and genetic algorithms, enabling faster and more robust convergence to the optimum. Using the design of planar multilayer photonic structures for transparent radiative cooling as a testbed, we show superiority of our algorithm over the classical genetic algorithm (CGA). Additionally, we show the precision advantage of the RF model as a flexible surrogate model, which relaxes the constraints on the type of surrogate model that can be used in other quantum computing optimization algorithms (e.g., quantum annealing needs Ising model as a surrogate). | 翻訳日:2024-05-13 17:45:54 公開日:2024-05-08 |
# ディープラーニングを用いた視覚障害者のリアルタイムピラー同定
Real-Time Pill Identification for the Visually Impaired Using Deep Learning ( http://arxiv.org/abs/2405.05983v1 ) ライセンス: Link先を確認 | Bo Dang, Wenchao Zhao, Yufeng Li, Danqing Ma, Qixuan Yu, Elly Yijun Zhu, | (参考訳) モバイル技術の普及は、特に視覚障害のある個人にとって、医療上の課題に対処するためのユニークな機会を提供する。
本稿では,視覚障害者と視覚障害者をリアルタイムに識別する深層学習型モバイルアプリケーションの開発と実装について検討する。
YOLOフレームワークを利用することで、モバイルデバイス上でのリアルタイム画像処理により、さまざまなピルタイプを正確に認識し、区別することを目的としている。
このシステムは、テキスト・トゥ・スピーチ(TTS)を組み込んで、即座に聴覚フィードバックを提供し、視覚障害者のユーザビリティと独立性を向上する。
本研究は, 視覚障害者コミュニティにおける薬剤管理と安全性向上の可能性を明らかにするとともに, 検出精度とユーザエクスペリエンスの観点から, アプリケーションの有効性を評価した。
キーワード深層学習; YOLOフレームワーク; モバイルアプリケーション; 視覚障害; ピル識別; ヘルスケア
The prevalence of mobile technology offers unique opportunities for addressing healthcare challenges, especially for individuals with visual impairments. This paper explores the development and implementation of a deep learning-based mobile application designed to assist blind and visually impaired individuals in real-time pill identification. Utilizing the YOLO framework, the application aims to accurately recognize and differentiate between various pill types through real-time image processing on mobile devices. The system incorporates Text-to- Speech (TTS) to provide immediate auditory feedback, enhancing usability and independence for visually impaired users. Our study evaluates the application's effectiveness in terms of detection accuracy and user experience, highlighting its potential to improve medication management and safety among the visually impaired community. Keywords-Deep Learning; YOLO Framework; Mobile Application; Visual Impairment; Pill Identification; Healthcare | 翻訳日:2024-05-13 17:45:54 公開日:2024-05-08 |
# ロバスト変圧器を用いた数ショットクラスインクリメンタルラーニング
Few-Shot Class Incremental Learning via Robust Transformer Approach ( http://arxiv.org/abs/2405.05984v1 ) ライセンス: Link先を確認 | Naeem Paeedeh, Mahardhika Pratama, Sunu Wibirama, Wolfgang Mayer, Zehong Cao, Ryszard Kowalczyk, | (参考訳) Few-Shot Class-Incremental Learningは,大惨な忘れの問題に対処しながら,データ不足の問題に直面したクラス増分学習問題の拡張を提示する。
この問題は、最近のすべての研究が、トランスフォーマーアプローチと比較して準最適に実行する畳み込みニューラルネットワークに基づいて構築されているため、未解決の問題のままである。
本稿では,コンパクト畳み込み変換器を用いたロバスト変換器を提案する。
サンプル数が少ないことによるオーバーフィッティングの問題は、平均および分散ベクトルの分布から分類器の重みをサンプリングする確率的分類器の概念によって克服され、それによって正しい分類の可能性が増大し、訓練過程を安定化させるバッチノルム層が成立する。
CFの問題は、バックボーンネットワークを凍結させながらデルタパラメータ、小さなタスク固有のトレーニング可能なパラメータの考え方に対処する。
非パラメトリックなアプローチは、モデルの予測に対するデルタパラメータを推測するために開発されている。
データ不足の問題による偏りのあるプロトタイプ計算を避けるために,プロトタイプ修正手法を適用した。
ROBUSTAの利点は、データ拡張プロトコルを使わずに、大きなマージンを持つ先行技術よりも優れているというベンチマーク問題において、一連の実験を通じて実証されている。
Few-Shot Class-Incremental Learning presents an extension of the Class Incremental Learning problem where a model is faced with the problem of data scarcity while addressing the catastrophic forgetting problem. This problem remains an open problem because all recent works are built upon the convolutional neural networks performing sub-optimally compared to the transformer approaches. Our paper presents Robust Transformer Approach built upon the Compact Convolution Transformer. The issue of overfitting due to few samples is overcome with the notion of the stochastic classifier, where the classifier's weights are sampled from a distribution with mean and variance vectors, thus increasing the likelihood of correct classifications, and the batch-norm layer to stabilize the training process. The issue of CF is dealt with the idea of delta parameters, small task-specific trainable parameters while keeping the backbone networks frozen. A non-parametric approach is developed to infer the delta parameters for the model's predictions. The prototype rectification approach is applied to avoid biased prototype calculations due to the issue of data scarcity. The advantage of ROBUSTA is demonstrated through a series of experiments in the benchmark problems where it is capable of outperforming prior arts with big margins without any data augmentation protocols. | 翻訳日:2024-05-13 17:45:54 公開日:2024-05-08 |
# TrafficGPT:時空間エージェントフレームワークによるマルチスケールトラフィック分析と生成を目指して
TrafficGPT: Towards Multi-Scale Traffic Analysis and Generation with Spatial-Temporal Agent Framework ( http://arxiv.org/abs/2405.05985v1 ) ライセンス: Link先を確認 | Jinhui Ouyang, Yijie Zhu, Xiang Yuan, Di Wu, | (参考訳) マルチスケール交通の正確な予測は、自動車所有者、道路管理者、政府にとって都市化プロセスにおけるユビキタスな課題である。
複雑な道路網の場合,様々な道路網が交通について異なる意味情報を持っているため,上流道路と下流道路の両方からの交通情報が重要となる。
セマンティック情報の利用の合理化は、短期的、長期的、そして目に見えない道路交通予測を実現することができる。
マルチスケール交通分析の需要が高まるにつれて、オンデマンドの対話や可視化が交通機関の参加者に提供されることが期待されている。
我々は,3つのAIエージェントを用いたマルチスケールトラフィック生成システムであるTrafficGPTを設計し,マルチスケールトラフィックデータを処理し,マルチスケールトラフィック解析を行い,マルチスケールビジュアライゼーション結果を示す。
TrafficGPTは3つの重要なAIエージェントから構成される。
1)質問&回答AIを用いてユーザと対話し,テキストを介して予測タスクを抽出するテキスト・ツー・デマンド・エージェント
2マルチスケールの交通データを利用して時間的特徴と類似性を生成し、空間的特徴と類似性を限定して融合させ、3つのタスクの正確な予測を実現する交通予測エージェント。
3)予測結果を用いて提案・視覚化を行い,交通状況の総合的な理解をユーザに提供する提案・可視化エージェント。
当社のTrafficGPTシステムは,交通機関参加者からの交通予測に関する懸念に対処することに注力し,その優れた予測的かつ対話的な性能を示すために,5つの実環境道路データセットの広範な実験を行った。
The precise prediction of multi-scale traffic is a ubiquitous challenge in the urbanization process for car owners, road administrators, and governments. In the case of complex road networks, current and past traffic information from both upstream and downstream roads are crucial since various road networks have different semantic information about traffic. Rationalizing the utilization of semantic information can realize short-term, long-term, and unseen road traffic prediction. As the demands of multi-scale traffic analysis increase, on-demand interactions and visualizations are expected to be available for transportation participants. We have designed a multi-scale traffic generation system, namely TrafficGPT, using three AI agents to process multi-scale traffic data, conduct multi-scale traffic analysis, and present multi-scale visualization results. TrafficGPT consists of three essential AI agents: 1) a text-to-demand agent that is employed with Question & Answer AI to interact with users and extract prediction tasks through texts; 2) a traffic prediction agent that leverages multi-scale traffic data to generate temporal features and similarity, and fuse them with limited spatial features and similarity, to achieve accurate prediction of three tasks; and 3) a suggestion and visualization agent that uses the prediction results to generate suggestions and visualizations, providing users with a comprehensive understanding of traffic conditions. Our TrafficGPT system focuses on addressing concerns about traffic prediction from transportation participants, and conducted extensive experiments on five real-world road datasets to demonstrate its superior predictive and interactive performance | 翻訳日:2024-05-13 17:45:54 公開日:2024-05-08 |
# 物理強化機械学習--動的システム研究のためのポジションペーパー
Physics-Enhanced Machine Learning: a position paper for dynamical systems investigations ( http://arxiv.org/abs/2405.05987v1 ) ライセンス: Link先を確認 | Alice Cicirello, | (参考訳) 本稿では、物理強化機械学習(PEML)(Scientific Machine Learningとしても知られる)を概観し、動的システムの課題に取り組むために開発されたPEML戦略に特に焦点をあてる。
機械学習(ML)戦略を超える必要性は次のとおりである。
(i)情報量の制限。
(二 正確な反りの予測を避けること。)
三 不確実性を扱うこと。
(iv)説明可能な解釈可能な推論を提供する。
PEMLの一般的な定義は、4つの物理とドメイン知識バイアスを考慮し、PEMLアプローチの3つの幅広いグループについて論じる: 物理誘導、物理符号化、物理インフォーム。
複雑な力学系を含む工学アプリケーションにおいて, PEML 戦略の利点と課題について述べる。
This position paper takes a broad look at Physics-Enhanced Machine Learning (PEML) -- also known as Scientific Machine Learning -- with particular focus to those PEML strategies developed to tackle dynamical systems' challenges. The need to go beyond Machine Learning (ML) strategies is driven by: (i) limited volume of informative data, (ii) avoiding accurate-but-wrong predictions; (iii) dealing with uncertainties; (iv) providing Explainable and Interpretable inferences. A general definition of PEML is provided by considering four physics and domain knowledge biases, and three broad groups of PEML approaches are discussed: physics-guided, physics-encoded and physics-informed. The advantages and challenges in developing PEML strategies for guiding high-consequence decision making in engineering applications involving complex dynamical systems, are presented. | 翻訳日:2024-05-13 17:45:54 公開日:2024-05-08 |
# CloudSense: レーダデータからの機械学習を用いたクラウドタイプ識別モデル
CloudSense: A Model for Cloud Type Identification using Machine Learning from Radar data ( http://arxiv.org/abs/2405.05988v1 ) ライセンス: Link先を確認 | Mehzooz Nizar, Jha K. Ambuj, Manmeet Singh, Vaisakh S. B, G. Pandithurai, | (参考訳) 降雨の種類に関する知識は、レーダーによる降雨量の推定に不可欠である。
本研究では,インド西部ガッツ(WGs)の複雑な地形上の降雨雲のタイプを,機械学習を用いて正確に同定するCloudSenseという新しいモデルを提案する。
CloudSenseは2018年7月から8月にかけて、Xバンドレーダーから収集された垂直反射率プロファイルを使用して、雲を成層型、混合層状対流型、対流型、浅層雲の4つのカテゴリに分類する。
CloudSenseで使用される機械学習(ML)モデルは、SMOTE(Synthetic Minority Oversampling Technique)によってバランスのとれたデータセットを使用してトレーニングされた。
評価された各種MLモデルのうち、Light Gradient Boosting Machine (LightGBM) は BAC 0.8 と F1-Score 0.82 の雲型分類において優れた性能を示した。
CloudSenseの生成した結果も従来のレーダアルゴリズムと比較した結果,CloudSenseはレーダアルゴリズムよりも優れていることがわかった。
200のサンプルに対して、レーダーアルゴリズムはBAC0.69とF1スコア0.68を達成し、CloudSenseはBAC0.77を達成した。
以上の結果から,WGの複雑な地形における降水量推定を改善する上で有用な,より正確な雲の検出と分類が可能であることが示唆された。
The knowledge of type of precipitating cloud is crucial for radar based quantitative estimates of precipitation. We propose a novel model called CloudSense which uses machine learning to accurately identify the type of precipitating clouds over the complex terrain locations in the Western Ghats (WGs) of India. CloudSense uses vertical reflectivity profiles collected during July-August 2018 from an X-band radar to classify clouds into four categories namely stratiform,mixed stratiform-convective,convective and shallow clouds. The machine learning(ML) model used in CloudSense was trained using a dataset balanced by Synthetic Minority Oversampling Technique (SMOTE), with features selected based on physical characteristics relevant to different cloud types. Among various ML models evaluated Light Gradient Boosting Machine (LightGBM) demonstrate superior performance in classifying cloud types with a BAC of 0.8 and F1-Score of 0.82. CloudSense generated results are also compared against conventional radar algorithms and we find that CloudSense performs better than radar algorithms. For 200 samples tested, the radar algorithm achieved a BAC of 0.69 and F1-Score of 0.68, whereas CloudSense achieved a BAC and F1-Score of 0.77. Our results show that ML based approach can provide more accurate cloud detection and classification which would be useful to improve precipitation estimates over the complex terrain of the WG. | 翻訳日:2024-05-13 17:36:09 公開日:2024-05-08 |
# タンデム質量分析法における深層学習に基づくエンド・ツー・エンドデータベース探索によるバイアスの少ないデータ駆動スコーリング
Towards Less Biased Data-driven Scoring with Deep Learning-Based End-to-end Database Search in Tandem Mass Spectrometry ( http://arxiv.org/abs/2405.06511v1 ) ライセンス: Link先を確認 | Yonghan Yu, Ming Li, | (参考訳) 質量分析に基づくプロテオミクスにおけるペプチドの同定はタンパク質の機能や力学を理解する上で重要である。
従来のデータベース検索手法は広く使われているが、ヒューリスティックスコアリング機能に依存しており、高い識別率のために統計的推定を導入する必要がある。
本稿では,タンデム質量分析のためのディープラーニングベースのエンドツーエンドデータベース検索手法であるDeepSearchを紹介する。
DeepSearchは、改良されたトランスフォーマーベースのエンコーダ-デコーダアーキテクチャを、対照的な学習フレームワークの下で活用する。
イオン対イオンマッチングに依存する従来の方法とは異なり、DeepSearchはペプチドスペクトルマッチングをスコアするデータ駆動アプローチを採用している。
また、DeepSearchは、変数の翻訳後の修正をゼロショットでプロファイルできる、最初のディープラーニングベースの方法である。
We showed that DeepSearch's score scheme expressed less bias and not required any statistics estimation。
DeepSearchの正確性と堅牢性は,多様なタンパク質組成を持つ種や改良されたデータセットを含む,さまざまなデータセットにわたって検証した。
DeepSearchはタンデム質量分析法でデータベース検索方法に新たな光を放つ。
Peptide identification in mass spectrometry-based proteomics is crucial for understanding protein function and dynamics. Traditional database search methods, though widely used, rely on heuristic scoring functions and statistical estimations have to be introduced for a higher identification rate. Here, we introduce DeepSearch, the first deep learning-based end-to-end database search method for tandem mass spectrometry. DeepSearch leverages a modified transformer-based encoder-decoder architecture under the contrastive learning framework. Unlike conventional methods that rely on ion-to-ion matching, DeepSearch adopts a data-driven approach to score peptide spectrum matches. DeepSearch is also the first deep learning-based method that can profile variable post-translational modifications in a zero-shot manner. We showed that DeepSearch's scoring scheme expressed less bias and did not require any statistical estimation. We validated DeepSearch's accuracy and robustness across various datasets, including those from species with diverse protein compositions and a modification-enriched dataset. DeepSearch sheds new light on database search methods in tandem mass spectrometry. | 翻訳日:2024-05-13 15:38:11 公開日:2024-05-08 |
# NeuroBack: グラフニューラルネットワークによるCDCL SAT解決の改善
NeuroBack: Improving CDCL SAT Solving using Graph Neural Networks ( http://arxiv.org/abs/2110.14053v7 ) ライセンス: Link先を確認 | Wenxi Wang, Yang Hu, Mohit Tiwari, Sarfraz Khurshid, Kenneth McMillan, Risto Miikkulainen, | (参考訳) 提案的満足度(SAT)は、計画、検証、セキュリティなど、多くの研究分野に影響を与えるNP完全問題である。
主流のSATソルバは、Conflict-Driven Clause Learning (CDCL)アルゴリズムに基づいている。
グラフニューラルネットワーク(GNN)を用いたCDCL SATソルバの高速化を目的とした最近の研究。
しかし、これまでのこのアプローチでは、より効率的な解決を行わなかったり、頻繁なオンラインモデル推論に十分なGPUリソースを必要としていたりしています。
本稿では,GNNの改良を現実的なものにすることを目的としたNeuroBackという手法を提案する。(1)CDCL SATの解法において,満たされる課題の多数(あるいはすべて)に現れる変数の位相(すなわち値)を予測すること,(2)SATの解法が始まる前に1回だけ神経モデルに問い合わせること,である。
トレーニングが完了すると、オフラインモデル推論によってNeuroBackはCPU上でのみ実行されるようになり、GPUリソースへの依存がなくなる。
NeuroBackをトレーニングするために、120,286のデータサンプルを含むDataBackと呼ばれる新しいデータセットが作成される。
NeuroBackはKissatと呼ばれる最先端のSATソルバの拡張として実装されている。
その結果、KissatはSATCOMP-2022とSATCOMP-2023の2つの競合問題に対して最大5.2%と7.4%の問題を解くことができた。
そこでNeuroBackは、SAT解決を効果的かつ実用的な方法で改善するために、機械学習をどのように活用するかを示す。
Propositional satisfiability (SAT) is an NP-complete problem that impacts many research fields, such as planning, verification, and security. Mainstream modern SAT solvers are based on the Conflict-Driven Clause Learning (CDCL) algorithm. Recent work aimed to enhance CDCL SAT solvers using Graph Neural Networks (GNNs). However, so far this approach either has not made solving more effective, or required substantial GPU resources for frequent online model inferences. Aiming to make GNN improvements practical, this paper proposes an approach called NeuroBack, which builds on two insights: (1) predicting phases (i.e., values) of variables appearing in the majority (or even all) of the satisfying assignments are essential for CDCL SAT solving, and (2) it is sufficient to query the neural model only once for the predictions before the SAT solving starts. Once trained, the offline model inference allows NeuroBack to execute exclusively on the CPU, removing its reliance on GPU resources. To train NeuroBack, a new dataset called DataBack containing 120,286 data samples is created. NeuroBack is implemented as an enhancement to a state-of-the-art SAT solver called Kissat. As a result, it allowed Kissat to solve up to 5.2% and 7.4% more problems on two recent SAT competition problem sets, SATCOMP-2022 and SATCOMP-2023, respectively. NeuroBack therefore shows how machine learning can be harnessed to improve SAT solving in an effective and practical manner. | 翻訳日:2024-05-10 18:44:57 公開日:2024-05-08 |
# 超特異等質グラフへのハッシュの欠如
Failing to hash into supersingular isogeny graphs ( http://arxiv.org/abs/2205.00135v3 ) ライセンス: Link先を確認 | Jeremy Booher, Ross Bowden, Javad Doliskani, Tako Boris Fouotsa, Steven D. Galbraith, Sabrina Kunzweiler, Simon-Philipp Merz, Christophe Petit, Benjamin Smith, Katherine E. Stange, Yan Bo Ti, Christelle Vincent, José Felipe Voloch, Charlotte Weitkämper, Lukas Zobernig, | (参考訳) 超特異同型暗号における重要なオープン問題は、信頼された権威がなければ、すなわち、自己準同型環を計算する超特異曲線の方程式がランダムな超特異曲線と同様に困難であるような「ハード超特異曲線」の具体例を作成することである。
関連する開問題は、超特異な $\ell$-isogeny グラフの頂点へのハッシュ関数を生成することである。
このようなハッシュ関数は興味深い暗号アプリケーションを開く。
本稿では,さらなる研究の促進を期待して,この問題の解決に失敗する試みのいくつかを報告し,この取り組みの課題と障害に光を当てる。
本項に含まれる数学的アプローチは以下のとおりである。
(i)超特異多項式に対する反復根有限化
(ii)特殊モジュラー多項式のgcd
三 分割多項式を用いて、方程式の小さな体系を作成すること。
(四)アーベル面の等質グラフをランダムに歩くこと、及び
(v) 量子ランダムウォークを用いた。
An important open problem in supersingular isogeny-based cryptography is to produce, without a trusted authority, concrete examples of "hard supersingular curves" that is, equations for supersingular curves for which computing the endomorphism ring is as difficult as it is for random supersingular curves. A related open problem is to produce a hash function to the vertices of the supersingular $\ell$-isogeny graph which does not reveal the endomorphism ring, or a path to a curve of known endomorphism ring. Such a hash function would open up interesting cryptographic applications. In this paper, we document a number of (thus far) failed attempts to solve this problem, in the hope that we may spur further research, and shed light on the challenges and obstacles to this endeavour. The mathematical approaches contained in this article include: (i) iterative root-finding for the supersingular polynomial; (ii) gcd's of specialized modular polynomials; (iii) using division polynomials to create small systems of equations; (iv) taking random walks in the isogeny graph of abelian surfaces; and (v) using quantum random walks. | 翻訳日:2024-05-10 18:39:09 公開日:2024-05-08 |
# 屋内3次元物体検出のための階層的ポイントアテンション
Hierarchical Point Attention for Indoor 3D Object Detection ( http://arxiv.org/abs/2301.02650v2 ) ライセンス: Link先を確認 | Manli Shu, Le Xue, Ning Yu, Roberto Martín-Martín, Caiming Xiong, Tom Goldstein, Juan Carlos Niebles, Ran Xu, | (参考訳) 3Dオブジェクト検出は、拡張現実や家庭用ロボットなど、さまざまなロボットシステムにとって不可欠な視覚技術である。
汎用的なネットワークアーキテクチャとしてのトランスフォーマーは、最近3Dポイントのクラウドオブジェクト検出で大きな成功を収めている。
しかし、プレーントランスにおける階層性の欠如は、異なるスケールで特徴を学習する能力を制限する。
このような制限により、変圧器検出器は小さな物体に悪影響を及ぼし、小さな物体が多数を占める屋内環境での信頼性に影響を与える。
本研究は、点ベーストランス検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するアグリゲート・マルチスケール・アテンション(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
どちらのアテンション操作もモデルに依存しないネットワークモジュールで、既存のポイントクラウドトランスフォーマーにプラグインしてエンドツーエンドのトレーニングを行うことができる。
提案手法を2つの室内検出ベンチマークで評価した。
提案するモジュールを最先端のトランスフォーマーベースの3D検出器に差し込むことで、両方のベンチマークで以前の最良の結果を改善し、より小さなオブジェクトでより顕著に改善する。
3D object detection is an essential vision technique for various robotic systems, such as augmented reality and domestic robots. Transformers as versatile network architectures have recently seen great success in 3D point cloud object detection. However, the lack of hierarchy in a plain transformer restrains its ability to learn features at different scales. Such limitation makes transformer detectors perform worse on smaller objects and affects their reliability in indoor environments where small objects are the majority. This work proposes two novel attention operations as generic hierarchical designs for point-based transformer detectors. First, we propose Aggregated Multi-Scale Attention (MS-A) that builds multi-scale tokens from a single-scale input feature to enable more fine-grained feature learning. Second, we propose Size-Adaptive Local Attention (Local-A) with adaptive attention regions for localized feature aggregation within bounding box proposals. Both attention operations are model-agnostic network modules that can be plugged into existing point cloud transformers for end-to-end training. We evaluate our method on two widely used indoor detection benchmarks. By plugging our proposed modules into the state-of-the-art transformer-based 3D detectors, we improve the previous best results on both benchmarks, with more significant improvements on smaller objects. | 翻訳日:2024-05-10 18:39:09 公開日:2024-05-08 |
# コントラッシブ・ディバージェンスによるベイズ擬似コアセット
Bayesian Pseudo-Coresets via Contrastive Divergence ( http://arxiv.org/abs/2303.11278v2 ) ライセンス: Link先を確認 | Piyush Tiwary, Kumar Shubham, Vivek V. Kashyap, Prathosh A. P, | (参考訳) ベイズ法は、パラメータ後部を推定し、確率モデルに関連する不確実性の定量化のためのエレガントな枠組みを提供する。
しかし、しばしば遅い推測時間に悩まされる。
この課題に対処するため、ベイジアン擬似コアセット(BPC)が有望なソリューションとして登場した。
BPC法は、擬似コアセットとして知られる小さな合成データセットを作成し、元のデータセットで達成された後部推論を近似することを目的としている。
この近似は、真の後部と擬似コアセット後部の分岐測度を最適化することで達成される。
擬似コアセットの構築には様々な発散対策が提案されており、KL(Kulback-Leibler)発散が最も成功している。
しかし、前方KL発散は擬コアセット後部からのサンプリングを必要とし、しばしば近似ガウス変分分布によって達成される。
あるいは、サンプリングにマルコフ・チェイン・モンテカルロ法(MCMC)を用いることもできるが、これは遅い混合のために高次元のパラメータ空間では難しい。
本研究では,コントラッシブ・ディペンジェンスを利用して擬似コアセットを構築する新しい手法を提案する。
重要なことは、対照的な発散を最適化することは、擬似コアセット構築プロセスにおける近似の必要性を排除することである。
さらに、有限ステップMCMC法の使用を可能にし、定常分布に到達するために広範囲な混合の要求を緩和する。
提案手法の有効性を検証するため,既存のBPC技術よりも優れていることを示すとともに,複数のデータセットに対する広範な実験を行った。
Bayesian methods provide an elegant framework for estimating parameter posteriors and quantification of uncertainty associated with probabilistic models. However, they often suffer from slow inference times. To address this challenge, Bayesian Pseudo-Coresets (BPC) have emerged as a promising solution. BPC methods aim to create a small synthetic dataset, known as pseudo-coresets, that approximates the posterior inference achieved with the original dataset. This approximation is achieved by optimizing a divergence measure between the true posterior and the pseudo-coreset posterior. Various divergence measures have been proposed for constructing pseudo-coresets, with forward Kullback-Leibler (KL) divergence being the most successful. However, using forward KL divergence necessitates sampling from the pseudo-coreset posterior, often accomplished through approximate Gaussian variational distributions. Alternatively, one could employ Markov Chain Monte Carlo (MCMC) methods for sampling, but this becomes challenging in high-dimensional parameter spaces due to slow mixing. In this study, we introduce a novel approach for constructing pseudo-coresets by utilizing contrastive divergence. Importantly, optimizing contrastive divergence eliminates the need for approximations in the pseudo-coreset construction process. Furthermore, it enables the use of finite-step MCMC methods, alleviating the requirement for extensive mixing to reach a stationary distribution. To validate our method's effectiveness, we conduct extensive experiments on multiple datasets, demonstrating its superiority over existing BPC techniques. | 翻訳日:2024-05-10 18:39:09 公開日:2024-05-08 |
# ニューラルネットワークは、繰り返しトレーニングでおよそ独立したエラーを発生させる
Neural Networks Make Approximately Independent Errors Over Repeated Training ( http://arxiv.org/abs/2304.01910v2 ) ライセンス: Link先を確認 | Keller Jordan, | (参考訳) 典型的なニューラルネットワークトレーニングは、繰り返し実行間のテストセットのパフォーマンスにかなりのばらつきがあり、ハイパーパラメータ比較とトレーニング再現性を妨げる。
本研究では, この変化を理解するために, 以下の結果を示す。
1) CIFAR-10 と ImageNet の標準トレーニングは,テストセットに有意なばらつきがあるにもかかわらず,テストセットをサンプリングする基礎となるテスト分布に対して,性能のばらつきがほとんどないことを実証した。
2)これらのトレーニングは,テストセット上でほぼ独立にエラーを発生させることを示す。
つまり、トレーニングされたネットワークが特定の例でエラーを発生させることは、同じハイパーパラメータを持つトレーニングを繰り返し実行した場合の平均レートと比較して、他の例でエラーを発生させる可能性に影響しない。
(3) テストセットにおけるニューラルネットワークトレーニングのばらつきは,Jiang et al (2021) が発見したクラス校正特性の下流結果であることを示す。
解析により,二項分類の場合のばらつきを正確に予測する簡単な式が得られた。
(4)データ増大,学習速度,微調整不安定性,分布シフトの予備的研究を,走行間のばらつきのレンズを通して行った。
Typical neural network trainings have substantial variance in test-set performance between repeated runs, impeding hyperparameter comparison and training reproducibility. In this work we present the following results towards understanding this variation. (1) Despite having significant variance on their test-sets, we demonstrate that standard CIFAR-10 and ImageNet trainings have little variance in performance on the underlying test-distributions from which their test-sets are sampled. (2) We show that these trainings make approximately independent errors on their test-sets. That is, the event that a trained network makes an error on one particular example does not affect its chances of making errors on other examples, relative to their average rates over repeated runs of training with the same hyperparameters. (3) We prove that the variance of neural network trainings on their test-sets is a downstream consequence of the class-calibration property discovered by Jiang et al. (2021). Our analysis yields a simple formula which accurately predicts variance for the binary classification case. (4) We conduct preliminary studies of data augmentation, learning rate, finetuning instability and distribution-shift through the lens of variance between runs. | 翻訳日:2024-05-10 18:39:09 公開日:2024-05-08 |
# ロスシー圧縮によるディープニューラルネットワークのインフォメーション・ボトルネック解析
Information Bottleneck Analysis of Deep Neural Networks via Lossy Compression ( http://arxiv.org/abs/2305.08013v2 ) ライセンス: Link先を確認 | Ivan Butakov, Alexander Tolmachev, Sofia Malanchuk, Anna Neopryatnaya, Alexey Frolov, Kirill Andreev, | (参考訳) Information Bottleneck(IB)原則は、ディープニューラルネットワーク(DNN)のトレーニングプロセスを分析するための情報理論フレームワークを提供する。
その本質は、2つの相互情報(MI)値(隠された層出力とDNN入力/ターゲット)のダイナミクスを追跡することである。
Shwartz-Ziv & Tishby (2017) の仮説によれば、トレーニングプロセスは、フィッティングと圧縮の2つの異なるフェーズで構成されている。
後者のフェーズは、DNNによる優れた一般化性能を考慮に入れていると考えられている。
高次元のランダムベクトル間でMIを推定する難しい性質のため、この仮説は、小さな大きさのNNや量子化されたNNのような特定のタイプのNNに対してのみ部分的に検証された。
本稿では,一般NNのICB解析を行うためのフレームワークを提案する。
提案手法はGoldfeld et al (2019) によって提案された確率的NN法を利用しており、高次元性に関連する障害を克服するための圧縮ステップを取り入れている。
言い換えれば、高次元ランダムベクトルの圧縮表現間のMIを推定する。
提案手法は理論的および実用的正当性の両方で支持される。
特に, 予め定義されたMI値とMINEとの比較を行った合成実験により, 推定器の精度を実証した(Belghazi et al , 2018)。
最後に,MI力学の新たな特徴を明らかにする畳み込み DNN を用いて IB 解析を行う。
The Information Bottleneck (IB) principle offers an information-theoretic framework for analyzing the training process of deep neural networks (DNNs). Its essence lies in tracking the dynamics of two mutual information (MI) values: between the hidden layer output and the DNN input/target. According to the hypothesis put forth by Shwartz-Ziv & Tishby (2017), the training process consists of two distinct phases: fitting and compression. The latter phase is believed to account for the good generalization performance exhibited by DNNs. Due to the challenging nature of estimating MI between high-dimensional random vectors, this hypothesis was only partially verified for NNs of tiny sizes or specific types, such as quantized NNs. In this paper, we introduce a framework for conducting IB analysis of general NNs. Our approach leverages the stochastic NN method proposed by Goldfeld et al. (2019) and incorporates a compression step to overcome the obstacles associated with high dimensionality. In other words, we estimate the MI between the compressed representations of high-dimensional random vectors. The proposed method is supported by both theoretical and practical justifications. Notably, we demonstrate the accuracy of our estimator through synthetic experiments featuring predefined MI values and comparison with MINE (Belghazi et al., 2018). Finally, we perform IB analysis on a close-to-real-scale convolutional DNN, which reveals new features of the MI dynamics. | 翻訳日:2024-05-10 18:29:02 公開日:2024-05-08 |
# 独立因果メカニズムの原理による因果解離表現の学習
Learning Causally Disentangled Representations via the Principle of Independent Causal Mechanisms ( http://arxiv.org/abs/2306.01213v3 ) ライセンス: Link先を確認 | Aneesh Komanduri, Yongkai Wu, Feng Chen, Xintao Wu, | (参考訳) 分散因果表現の学習は、下流タスクに意味のある情報を抽出することの意味から、近年大きな注目を集めている課題である。
本研究では、独立因果メカニズムの観点から因果解離の新たな概念を定義する。
ICM-VAEは、因果関係の観測ラベルによって教師される因果関係の不整合表現を学習するためのフレームワークである。
非線形学習可能なフローベース微分型関数を用いて因果メカニズムをモデル化し、雑音変数を潜在因果変数にマッピングする。
さらに, 因果関係の絡み合いを促進するために, 補助ラベルと潜伏因果構造から学習した因果関係の絡み合いを提案する。
理論的には、因果因子と機構の置換および要素的再パラメータ化による識別可能性を示す。
我々は,我々の枠組みが高度に絡み合った因果関係を誘発し,介入の堅牢性を向上し,反事実生成と互換性があることを実証的に実証した。
Learning disentangled causal representations is a challenging problem that has gained significant attention recently due to its implications for extracting meaningful information for downstream tasks. In this work, we define a new notion of causal disentanglement from the perspective of independent causal mechanisms. We propose ICM-VAE, a framework for learning causally disentangled representations supervised by causally related observed labels. We model causal mechanisms using nonlinear learnable flow-based diffeomorphic functions to map noise variables to latent causal variables. Further, to promote the disentanglement of causal factors, we propose a causal disentanglement prior learned from auxiliary labels and the latent causal structure. We theoretically show the identifiability of causal factors and mechanisms up to permutation and elementwise reparameterization. We empirically demonstrate that our framework induces highly disentangled causal factors, improves interventional robustness, and is compatible with counterfactual generation. | 翻訳日:2024-05-10 18:29:02 公開日:2024-05-08 |
# エージェントの個体群を用いた逐次課題のための埋め込み学習
Learning Embeddings for Sequential Tasks Using Population of Agents ( http://arxiv.org/abs/2306.03311v2 ) ライセンス: Link先を確認 | Mridul Mahajan, Georgios Tzannetos, Goran Radanovic, Adish Singla, | (参考訳) 強化学習におけるタスクの定次元埋め込みを学習するための情報理論フレームワークを提案する。
1つのタスクでエージェントのパフォーマンスを観察すると、もう1つのタスクでエージェントのパフォーマンスに関する不確実性が低下する。
この直感は,多種多様なエージェント集団をエージェントの空間の近似として用い,逐次的意思決定設定におけるタスク間の類似度を測定する情報理論的基準によって捉えられている。
定性評価に加えて,2つのアプリケーションシナリオにおける強基線に対する定量的比較によるタスク埋め込みに基づく手法の有効性を実証的に実証した。
We present an information-theoretic framework to learn fixed-dimensional embeddings for tasks in reinforcement learning. We leverage the idea that two tasks are similar if observing an agent's performance on one task reduces our uncertainty about its performance on the other. This intuition is captured by our information-theoretic criterion which uses a diverse agent population as an approximation for the space of agents to measure similarity between tasks in sequential decision-making settings. In addition to qualitative assessment, we empirically demonstrate the effectiveness of our techniques based on task embeddings by quantitative comparisons against strong baselines on two application scenarios: predicting an agent's performance on a new task by observing its performance on a small quiz of tasks, and selecting tasks with desired characteristics from a given set of options. | 翻訳日:2024-05-10 18:29:02 公開日:2024-05-08 |
# DiffusionShield: 生成拡散モデルに対する著作権保護のための透かし
DiffusionShield: A Watermark for Copyright Protection against Generative Diffusion Models ( http://arxiv.org/abs/2306.04642v3 ) ライセンス: Link先を確認 | Yingqian Cui, Jie Ren, Han Xu, Pengfei He, Hui Liu, Lichao Sun, Yue Xing, Jiliang Tang, | (参考訳) 近年,GDM(Generative Diffusion Models)は,画像の学習と生成において顕著な能力を示した。
GDMの大規模なコミュニティが自然に出現し、様々な分野におけるGDMの多様化が促進されている。
しかし、この制限のない拡大は著作権保護に対する深刻な懸念を引き起こしている。
例えば、画家や写真家を含むアーティストは、GDMが許可なく独自のクリエイティブ作品を自由に複製できるのではないかと、ますます懸念している。
これらの課題に対応して,GDMに適した新しい透かし方式DiffusionShieldを導入する。
DiffusionShieldは、所有権情報を認識不能な透かしにエンコードし、画像に注入することで、GDMによる著作権侵害から画像を保護する。
その透かしはGDMによって容易に学習でき、生成した画像で再現される。
生成された画像から透かしを検出することにより、著作権侵害を証拠として暴露することができる。
DiffusionShieldは透かしの均一性と共同最適化法により、元の画像の歪みが低く、透かし検出性能が高く、長文を埋め込むことができる。
我々は,GDMによる侵害防止におけるDiffusionShieldの有効性と従来の透かし法よりも優れていることを示すために,厳密で包括的な実験を行った。
DiffusionShieldのコードはhttps://github.com/Yingqiancui/DiffusionShieldでアクセスできる。
Recently, Generative Diffusion Models (GDMs) have showcased their remarkable capabilities in learning and generating images. A large community of GDMs has naturally emerged, further promoting the diversified applications of GDMs in various fields. However, this unrestricted proliferation has raised serious concerns about copyright protection. For example, artists including painters and photographers are becoming increasingly concerned that GDMs could effortlessly replicate their unique creative works without authorization. In response to these challenges, we introduce a novel watermarking scheme, DiffusionShield, tailored for GDMs. DiffusionShield protects images from copyright infringement by GDMs through encoding the ownership information into an imperceptible watermark and injecting it into the images. Its watermark can be easily learned by GDMs and will be reproduced in their generated images. By detecting the watermark from generated images, copyright infringement can be exposed with evidence. Benefiting from the uniformity of the watermarks and the joint optimization method, DiffusionShield ensures low distortion of the original image, high watermark detection performance, and the ability to embed lengthy messages. We conduct rigorous and comprehensive experiments to show the effectiveness of DiffusionShield in defending against infringement by GDMs and its superiority over traditional watermarking methods. The code for DiffusionShield is accessible in https://github.com/Yingqiancui/DiffusionShield. | 翻訳日:2024-05-10 18:29:02 公開日:2024-05-08 |
# ノイズ量子プロセッサにおける量子データ伝播の実際的限界
Practical limitations of quantum data propagation on noisy quantum processors ( http://arxiv.org/abs/2306.13046v2 ) ライセンス: Link先を確認 | Gaurav Saxena, Ahmed Shalabi, Thi Ha Kyaw, | (参考訳) 変分量子想像時間進化アルゴリズムは量子ハミルトンの基底状態を見つけるのに効率的である。
このアルゴリズムは、古典的なコンピュータで線形方程式のシステムを解くことを含み、その解は量子波動関数を伝播するために使われる。
ここでは、現在の量子プロセッサのノイズの性質から、そのような量子アルゴリズムや量子アルゴリズムの族は、信頼性の高い結果を生成するために、非常に低い誤差の単一および2量子のゲートを必要とすることを示す。
このような条件を満たさないと、比較的小さな量子回路のアンサッツであっても、誤った量子データ伝播が起こる。
具体的には、変動パラメータの伝搬の相対誤差が量子ハードウェアのノイズの確率とどのようにスケールするかについて上限を与える。
また、変動パラメータの伝搬における相対誤差が、部分偏極雑音の確率とどのようにスケールするかを正確に表現する。
The variational quantum imaginary time evolution algorithm is efficient in finding the ground state of a quantum Hamiltonian. This algorithm involves solving a system of linear equations in a classical computer and the solution is then used to propagate a quantum wavefunction. Here, we show that owing to the noisy nature of current quantum processors, such a quantum algorithm or the family of quantum algorithms will require single- and two-qubit gates with very low error probability to produce reliable results. Failure to meet such condition will result in erroneous quantum data propagation even for a relatively small quantum circuit ansatz. Specifically, we provide the upper bounds on how the relative error in variational parameters' propagation scales with the probability of noise in quantum hardware. We also present an exact expression of how the relative error in variational parameter propagation scales with the probability of partially depolarizing noise. | 翻訳日:2024-05-10 18:29:02 公開日:2024-05-08 |
# Citadel: マイクロアーキテクチャ分離と制御された推測によるセキュアなエンクレーブのための現実的なハードウェアソフトウェア契約
Citadel: Real-World Hardware-Software Contracts for Secure Enclaves Through Microarchitectural Isolation and Controlled Speculation ( http://arxiv.org/abs/2306.14882v4 ) ライセンス: Link先を確認 | Jules Drean, Miguel Gomez-Garcia, Fisher Jepsen, Thomas Bourgeat, Srinivas Devadas, | (参考訳) セキュアなエンクレーブのようなハードウェアアイソレーションプリミティブは、機密性の高いプログラムを保護することを目的としている。
完全なマイクロアーキテクチャ分離は、公開共有メモリを残して、ユーザビリティとアプリケーションパフォーマンスに不可欠な、十分な防御メカニズムではない。
逆に、セキュアな投機のためのハードウェアとソフトウェアの共同設計はこれらの攻撃に対抗できるが、投機モード、露出したマイクロアーキテクチャ状態、ソフトウェアスタック全体をサポートするのが難しいソフトウェアを前提にしているため、実用的ではない。
本稿では,マイクロアーキテクチャの分離プリミティブと制御された投機機構をプロセッサに組み込むことにより,異なる実行モードを実現することを提案する。
これらのモードは攻撃者に露出するものを制限することができ、パフォーマンスとプログラム分析の複雑さを効果的にバランスさせる。
命令外プロセッサにおいて、エンクレーブと信頼できないOS間でメモリを安全に共有する2つのメカニズムを導入する。
我々の2つのモードは相補的であり、手動で実行できる最小限のコードアノテーションと単純なプログラム分析を必要とする一方で、合理的なパフォーマンスへの影響で投機的非干渉を達成することを示しています。
我々のプロトタイプであるCitadelはFPGA上で動作するマルチコアプロセッサで、信頼できないLinuxをブートし、共有メモリやリモート認証などの包括的エンクレーブ機能をサポートしています。
我々の知る限り、Citadelは暗号ライブラリや小さなプライベート推論ワークロードといったセキュアなアプリケーションを、大規模なサイドチャネル攻撃から保護しながら、投機的なアウト・オブ・オーダーのマルチコアプロセッサ上で実行する、最初のエンドツーエンドのエンクレーブプラットフォームです。
Hardware isolation primitives such as secure enclaves aim to protect sensitive programs, but remain vulnerable to transient execution attacks. Complete microarchitectural isolation is not a satisfactory defense mechanism as it leaves out public shared memory, critical for usability and application performance. Conversely, hardware-software co-designs for secure speculation can counter these attacks but are not yet practical, since they make assumptions on the speculation modes, the exposed microarchitectural state, and the software, which are all hard to support for the entire software stack. This paper advocates for processors to incorporate microarchitectural isolation primitives and mechanisms for controlled speculation, enabling different execution modes. These modes can restrict what is exposed to an attacker, effectively balancing performance and program-analysis complexity. We introduce two mechanisms to securely share memory between an enclave and an untrusted OS in an out-of-order processor. We show that our two modes are complementary, achieving speculative non-interference with a reasonable performance impact, while requiring minimal code annotation and simple program analysis doable by hand. Our prototype, Citadel, is a multicore processor running on an FPGA, booting untrusted Linux, and supporting comprehensive enclave capabilities, such as shared memory, and remote attestation. To our knowledge, Citadel is the first end-to-end enclave platform to run secure applications, such as cryptographic libraries or small private inference workloads, on a speculative out-of-order multicore processor while protecting against a significant class of side-channel attacks. | 翻訳日:2024-05-10 18:29:02 公開日:2024-05-08 |
# 大規模言語モデルにおける文脈圧縮のための文脈内オートエンコーダ
In-context Autoencoder for Context Compression in a Large Language Model ( http://arxiv.org/abs/2307.06945v4 ) ライセンス: Link先を確認 | Tao Ge, Jing Hu, Lei Wang, Xun Wang, Si-Qing Chen, Furu Wei, | (参考訳) 大規模言語モデル(LLM)のパワーを活用して,LLMが様々な目的で直接条件付け可能な,短いコンパクトメモリスロットに長いコンテキストを圧縮するICAE(In-context Autoencoder)を提案する。
ICAEは、大量のテキストデータに基づいて、自動エンコーディングと言語モデリングの両方の目的を用いて事前訓練され、元のコンテキストを正確かつ包括的に表現するメモリスロットを生成することができる。
そして、様々なプロンプトに対する望ましい応答を生成するための命令データに基づいて微調整を行う。
実験によると、我々の軽量ICAEは、約1%の追加パラメータを導入し、Llamaに基づくコンテキスト圧縮の4$\times$を実現し、推論中のレイテンシとGPUメモリコストの改善の両方の利点を提供し、メモリ化に関する興味深い洞察とスケーラビリティの可能性を示している。
これらの有望な結果は、認知科学におけるワーキングメモリとLLMにおける表現学習の関連性に関する新たな視点を示し、LLMのコンテキスト管理におけるICAEの意義を明らかにしている。
私たちのデータ、コード、モデルはhttps://github.com/getao/icae.comで公開されています。
We propose the In-context Autoencoder (ICAE), leveraging the power of a large language model (LLM) to compress a long context into short compact memory slots that can be directly conditioned on by the LLM for various purposes. ICAE is first pretrained using both autoencoding and language modeling objectives on massive text data, enabling it to generate memory slots that accurately and comprehensively represent the original context. Then, it is fine-tuned on instruction data for producing desirable responses to various prompts. Experiments demonstrate that our lightweight ICAE, introducing about 1% additional parameters, effectively achieves $4\times$ context compression based on Llama, offering advantages in both improved latency and GPU memory cost during inference, and showing an interesting insight in memorization as well as potential for scalability. These promising results imply a novel perspective on the connection between working memory in cognitive science and representation learning in LLMs, revealing ICAE's significant implications in addressing the long context problem and suggesting further research in LLM context management. Our data, code and models are available at https://github.com/getao/icae. | 翻訳日:2024-05-10 18:29:02 公開日:2024-05-08 |
# 動的平均場理論によるハバードモデルの相転移の研究のための量子古典的アルゴリズム
Quantum Classical Algorithm for the Study of Phase Transitions in the Hubbard Model via Dynamical Mean-Field Theory ( http://arxiv.org/abs/2308.01392v2 ) ライセンス: Link先を確認 | Anshumitra Baul, Herbert F Fotso, Hanna Terletska, Juana Moreno, Ka-Ming Tam, | (参考訳) 量子多体システムのシミュレーションは、近未来の雑音量子コンピュータの最も有望な応用の1つであると考えられている。
しかし、近い将来、システムサイズ制限は材料科学や強い相関システムの応用にとって深刻な障壁となるだろう。
有望な研究の道のりは、異なる位相の分類のための多体物理学と機械学習を組み合わせることである。
本稿では,量子コンピューティング,多体理論,量子機械学習(QML)を連携させて,強相関系の研究を行うワークフローを提案する。
特に、ステレオタイプ的な強い相関を持つ系の量子相転移であるハバードモデル(Hubbard model)を捉えることができる。
最近提案された2部位の動的平均場理論(DMFT)に対する古典量子ハイブリッドアルゴリズムに続いて,単一浴場DMFTの自己整合解を許容する修正を提案する。
修正されたアルゴリズムは、複数の浴場に対して容易に一般化できる。
この手法は、DMFT近似におけるハバードモデルのゼロ温度波動関数のデータベースを生成するために用いられる。
次に、QMLアルゴリズムを用いて金属相とモット絶縁体相を区別し、金属-モット絶縁体相転移を捉える。
量子畳み込みニューラルネットワーク(QCNN)をトレーニングし、QCNNを量子分類器として利用して位相遷移領域を捕捉する。
この研究は、強相関系における他の相転移への応用のレシピを提供し、短期技術で実現可能な小型量子デバイスのエキサイティングな応用を示す。
Simulating quantum many-body systems is believed to be one of the most promising applications of near-term noisy quantum computers. However, in the near term, system size limitation will remain a severe barrier for applications in materials science or strongly correlated systems. A promising avenue of research is to combine many-body physics with machine learning for the classification of distinct phases. In this paper, we propose a workflow that synergizes quantum computing, many-body theory, and quantum machine learning(QML) for studying strongly correlated systems. In particular, it can capture a putative quantum phase transition of the stereotypical strongly correlated system, the Hubbard model. Following the recent proposal of the hybrid classical-quantum algorithm for the two-site dynamical mean-field theory(DMFT), we present a modification that allows the self-consistent solution of the single bath site DMFT. The modified algorithm can easily be generalized for multiple bath sites. This approach is used to generate a database of zero-temperature wavefunctions of the Hubbard model within the DMFT approximation. We then use a QML algorithm to distinguish between the metallic phase and the Mott insulator phase to capture the metal-to-Mott insulator phase transition. We train a quantum convolutional neural network(QCNN) and then utilize the QCNN as a quantum classifier to capture the phase transition region. This work provides a recipe for application to other phase transitions in strongly correlated systems and represents an exciting application of small-scale quantum devices realizable with near-term technology. | 翻訳日:2024-05-10 18:19:06 公開日:2024-05-08 |
# マルチエージェントコラボレーションのためのアクティブなビジュアルローカライゼーション:データ駆動アプローチ
Active Visual Localization for Multi-Agent Collaboration: A Data-Driven Approach ( http://arxiv.org/abs/2310.02650v2 ) ライセンス: Link先を確認 | Matthew Hanlon, Boyang Sun, Marc Pollefeys, Hermann Blum, | (参考訳) 新たに配備されたロボットが周囲のマップを独自に作成する代わりに、SLAM対応デバイスの普及により、他のロボットやデバイスのマップに単純にローカライズするオプションが提供される。
マルチロボットやヒューマンロボットのコラボレーションのような場合、同じマップにすべてのエージェントをローカライズする必要がある。
しかし、例えば、ドローンやヘッドマウントMRヘッドセットの地図における地上ロボットのローカライズは、視点の変化による固有の課題を提示する。
本研究では,このような視点変化の課題を克服するために,アクティブな視覚的ローカライゼーションをどのように利用できるかを検討する。
具体的には、与えられた場所における最適な視点を選択する問題に焦点をあてる。
文献における既存のアプローチと、新たなベースラインとを比較し、新しいデータ駆動アプローチを提案する。
その結果、制御されたシミュレーション実験と実世界のデプロイの両方において、既存の手法と比較して、データ駆動アプローチの優れた性能を示す。
Rather than having each newly deployed robot create its own map of its surroundings, the growing availability of SLAM-enabled devices provides the option of simply localizing in a map of another robot or device. In cases such as multi-robot or human-robot collaboration, localizing all agents in the same map is even necessary. However, localizing e.g. a ground robot in the map of a drone or head-mounted MR headset presents unique challenges due to viewpoint changes. This work investigates how active visual localization can be used to overcome such challenges of viewpoint changes. Specifically, we focus on the problem of selecting the optimal viewpoint at a given location. We compare existing approaches in the literature with additional proposed baselines and propose a novel data-driven approach. The result demonstrates the superior performance of the data-driven approach when compared to existing methods, both in controlled simulation experiments and real-world deployment. | 翻訳日:2024-05-10 18:19:06 公開日:2024-05-08 |
# タンパク質構造を潜在的に表現した分子拡散モデルにおける加速推論
Accelerating Inference in Molecular Diffusion Models with Latent Representations of Protein Structure ( http://arxiv.org/abs/2311.13466v2 ) ライセンス: Link先を確認 | Ian Dunn, David Ryan Koes, | (参考訳) 拡散生成モデルは、構造生物学や構造に基づく薬物設計における問題に対処するための強力な枠組みとして登場した。
これらのモデルは3次元分子構造に直接作用する。
グラフサイズを持つグラフニューラルネットワーク(GNN)のスケーリングが好ましくないことや、拡散モデルに固有の比較的遅い推論速度のため、既存の分子拡散モデルは、トレーニングと推論を可能にするためにタンパク質構造の粗い粒度の表現に依存している。
しかし、このような粗い粒度の表現は、分子相互作用をモデル化するための必須情報を捨て、生成された構造の品質を損なう。
本稿では,分子構造の潜在表現を学習するための新しいGNNアーキテクチャを提案する。
デ・ノボ・リガンド設計のための拡散モデルを用いてエンドツーエンドの訓練を行った場合、このモデルは、推論時間の3倍の減少を示しながら、全原子タンパク質の表現に匹敵する性能を達成できる。
Diffusion generative models have emerged as a powerful framework for addressing problems in structural biology and structure-based drug design. These models operate directly on 3D molecular structures. Due to the unfavorable scaling of graph neural networks (GNNs) with graph size as well as the relatively slow inference speeds inherent to diffusion models, many existing molecular diffusion models rely on coarse-grained representations of protein structure to make training and inference feasible. However, such coarse-grained representations discard essential information for modeling molecular interactions and impair the quality of generated structures. In this work, we present a novel GNN-based architecture for learning latent representations of molecular structure. When trained end-to-end with a diffusion model for de novo ligand design, our model achieves comparable performance to one with an all-atom protein representation while exhibiting a 3-fold reduction in inference time. | 翻訳日:2024-05-10 18:09:14 公開日:2024-05-08 |
# テキスト・画像生成のためのカスタマイズアシスタント
Customization Assistant for Text-to-image Generation ( http://arxiv.org/abs/2312.03045v2 ) ライセンス: Link先を確認 | Yufan Zhou, Ruiyi Zhang, Jiuxiang Gu, Tong Sun, | (参考訳) トレーニング済みのテキスト・ツー・イメージ生成モデルのカスタマイズは、現実世界のアプリケーションにおいて大きな可能性を秘めているため、近年、大きな研究の関心を集めている。
既存の手法では、単一のユーザ入力画像に含まれる新しい概念のためのクリエイティブなコンテンツを生成することができるが、その能力は完璧には程遠い。
具体的には、既存のほとんどの手法では、画像のテストにおいて生成モデルを微調整する必要がある。
既存のメソッドでは微調整は必要ありませんが、パフォーマンスは不満足です。
さらに、ユーザとモデル間のインタラクションは、命令やキャプションなどの指示的および記述的なプロンプトに制限されている。
本研究では,事前訓練された大規模言語モデルと拡散モデルに基づくカスタマイズアシスタントを構築し,チューニング不要な方法でカスタマイズされた生成を行うだけでなく,ユーザフレンドリなインタラクションを可能にする。
具体的には、新しいモデル設計と新しいトレーニング戦略からなる新しいフレームワークを提案する。
得られたアシスタントは、テストタイムを微調整することなく、2〜5秒でカスタマイズされた生成を行うことができる。
大規模な実験を行い, 提案手法の有効性を実証し, 異なる領域にわたる競争結果を得た。
Customizing pre-trained text-to-image generation model has attracted massive research interest recently, due to its huge potential in real-world applications. Although existing methods are able to generate creative content for a novel concept contained in single user-input image, their capability are still far from perfection. Specifically, most existing methods require fine-tuning the generative model on testing images. Some existing methods do not require fine-tuning, while their performance are unsatisfactory. Furthermore, the interaction between users and models are still limited to directive and descriptive prompts such as instructions and captions. In this work, we build a customization assistant based on pre-trained large language model and diffusion model, which can not only perform customized generation in a tuning-free manner, but also enable more user-friendly interactions: users can chat with the assistant and input either ambiguous text or clear instruction. Specifically, we propose a new framework consists of a new model design and a novel training strategy. The resulting assistant can perform customized generation in 2-5 seconds without any test time fine-tuning. Extensive experiments are conducted, competitive results have been obtained across different domains, illustrating the effectiveness of the proposed method. | 翻訳日:2024-05-10 18:09:14 公開日:2024-05-08 |
# 多言語大言語モデルは言語境界を越えて人間のステレオタイプをリークする
Multilingual large language models leak human stereotypes across language boundaries ( http://arxiv.org/abs/2312.07141v2 ) ライセンス: Link先を確認 | Yang Trista Cao, Anna Sotnikova, Jieyu Zhao, Linda X. Zou, Rachel Rudinger, Hal Daume III, | (参考訳) 多言語大言語モデルは、様々な言語にまたがるテキストの処理と生成の能力で、ますます人気が高まっている。
これまでの研究では、単言語大言語モデルにおけるステレオタイプとバイアスの存在は、人間から収集され社会的バイアスを反映する訓練データの性質に起因することが示されている。
多言語言語モデルは、様々な言語から得られたトレーニングデータに加えて、モノリンガル言語と同じ訓練手順を実行する。
モデル内の言語にまたがる1つの社会的文脈にステレオタイプが存在するか?
本稿では,まず「ステレオタイプ漏洩」という用語を定義し,その測定のための枠組みを提案する。
この枠組みにより、英語、ロシア語、中国語、ヒンディー語という4つの言語でステレオタイプ的連想がどのように漏洩するかを検討する。
ステレオタイプリークの定量化には,グループ・トレーディング・アソシエーションを通じてステレオタイプを測定する社会心理学からのアプローチを用いる。
我々は,mBERT,mT5,GPT-3.5などの多言語大言語モデルに現れるヒトのステレオタイプとステレオタイプ関連を評価した。
以上の結果から,全言語で陽性,陰性,非極性な関連が明らかとなった。
特に、多言語モデルのヒンディー語は他の言語の影響を受けやすいが、中国語は最小である。
さらに、GPT-3.5は他のモデルよりも人間のスコアとの整合性が優れている。
WARNING: 本論文は、自然界で攻撃的である可能性のあるモデル出力を含む。
Multilingual large language models have been increasingly popular for their proficiency in processing and generating text across various languages. Previous research has shown that the presence of stereotypes and biases in monolingual large language models can be attributed to the nature of their training data, which is collected from humans and reflects societal biases. Multilingual language models undergo the same training procedure as monolingual ones, albeit with training data sourced from various languages. This raises the question: do stereotypes present in one social context leak across languages within the model? In our work, we first define the term ``stereotype leakage'' and propose a framework for its measurement. With this framework, we investigate how stereotypical associations leak across four languages: English, Russian, Chinese, and Hindi. To quantify the stereotype leakage, we employ an approach from social psychology, measuring stereotypes via group-trait associations. We evaluate human stereotypes and stereotypical associations manifested in multilingual large language models such as mBERT, mT5, and GPT-3.5. Our findings show a noticeable leakage of positive, negative, and non-polar associations across all languages. Notably, Hindi within multilingual models appears to be the most susceptible to influence from other languages, while Chinese is the least. Additionally, GPT-3.5 exhibits a better alignment with human scores than other models. WARNING: This paper contains model outputs which could be offensive in nature. | 翻訳日:2024-05-10 17:59:24 公開日:2024-05-08 |
# 次数36ドルの2次複素アダマール行列
Two-Unitary Complex Hadamard Matrices of Order $36$ ( http://arxiv.org/abs/2401.01671v3 ) ライセンス: Link先を確認 | Wojciech Bruzda, Karol Życzkowski, | (参考訳) 特定の行列から派生した2単位の複素アダマール行列(CHM)の族が36ドルの大きさで構成されている。
この軌道のすべての行列は部分転位と再シャッフルの操作の後にユニタリのままであり、CHM の傑出した部分集合となる。
これはオイラー問題の量子バージョンに対する新しい解を提供し、グレーコ・ラテン正方形の6次元体の各体は、位相が6番目の根の倍数である36ドルの士官の対称重ね合わせを含む。
これは、重ね合わせのすべての振幅が等しく、位相の集合は6$要素のみからなる、既知の解を単純化する。
多次元パラメータ化は、潜在的な実験的実現における柔軟性を高める。
A family of two-unitary complex Hadamard matrices (CHM) stemming from a particular matrix, of size $36$ is constructed. Every matrix in this orbit remains unitary after operations of partial transpose and reshuffling which makes it a distinguished subset of CHM. It provides a novel solution to the quantum version of the Euler problem, in which each field of the Graeco-Latin square of size six contains a symmetric superposition of all $36$ officers with phases being multiples of sixth root of unity. This simplifies previously known solutions as all amplitudes of the superposition are equal and the set of phases consists of $6$ elements only. Multidimensional parameterization allows for more flexibility in a potential experimental realization. | 翻訳日:2024-05-10 17:59:24 公開日:2024-05-08 |
# 熱力学極限における2次元および3次元多体量子系のスペクトルギャップ
Spectral gaps of two- and three-dimensional many-body quantum systems in the thermodynamic limit ( http://arxiv.org/abs/2401.14368v2 ) ライセンス: Link先を確認 | Illya V. Lukin, Andrii G. Sotnikov, Jacob M. Leamer, Alicia B. Magann, Denys I. Bondar, | (参考訳) 本稿では,量子多体系のスペクトル計算の実行と高速化のための新しい可能性として,スペクトルギャップの表現を提案する。
テンソルネットワークシミュレーションの文脈において、そのような可能性の1つを開発し、実証する。
我々の手法は、広く使われている単純な更新方法の小さな修正しか必要とせず、他の手法と比較して計算的に軽量である。
本研究では,2次元および3次元横場イジングモデルのスペクトルギャップを計算し,これまでに報告された摂動理論結果と強く一致していることを示す。
We present an expression for the spectral gap, opening up new possibilities for performing and accelerating spectral calculations of quantum many-body systems. We develop and demonstrate one such possibility in the context of tensor network simulations. Our approach requires only minor modifications of the widely used simple update method and is computationally lightweight relative to other approaches. We validate it by computing spectral gaps of the 2D and 3D transverse-field Ising models and find strong agreement with previously reported perturbation theory results. | 翻訳日:2024-05-10 17:49:32 公開日:2024-05-08 |
# AI信頼度測定のための決定理論フレームワーク
A Decision Theoretic Framework for Measuring AI Reliance ( http://arxiv.org/abs/2401.15356v3 ) ライセンス: Link先を確認 | Ziyang Guo, Yifan Wu, Jason Hartline, Jessica Hullman, | (参考訳) 人間はしばしば人工知能(AI)システムの助けを借りて意思決定をする。
一般的なパターンは、最終決定をコントロールしている人間に対して、AIがアクションを推奨することである。
研究者は、補完的なパフォーマンスを達成する上で重要な要素として、人間がAIに適切に依存していることを確認する。
このような研究で用いられる適切な依存の定義には、正式な統計的根拠が欠如しており、矛盾を招く可能性があると論じる。
統計的決定理論に基づく信頼の形式的定義を提案する。これは、意思決定者がAIの推奨に従う確率として信頼の概念を、人間が信号の識別や状況に関する正確な信念を形成する際の課題と区別するものである。
私たちの定義は、人間とAIの相補性と信頼に関する研究の設計と解釈を導くのに使用できるフレームワークを生み出します。
文献からのAIによる最新の意思決定研究を用いて、我々のフレームワークは、信号の正確な識別ができないために、損失と損失との信頼の相違による損失を分離するためにどのように使用できるかを実証する。
これらの損失を,行動意思決定者と同じ意思決定課題に直面した合理的な意思決定者によって達成される期待された報酬によって定義される相補的性能の基準とベンチマークと比較することにより評価する。
Humans frequently make decisions with the aid of artificially intelligent (AI) systems. A common pattern is for the AI to recommend an action to the human who retains control over the final decision. Researchers have identified ensuring that a human has appropriate reliance on an AI as a critical component of achieving complementary performance. We argue that the current definition of appropriate reliance used in such research lacks formal statistical grounding and can lead to contradictions. We propose a formal definition of reliance, based on statistical decision theory, which separates the concepts of reliance as the probability the decision-maker follows the AI's recommendation from challenges a human may face in differentiating the signals and forming accurate beliefs about the situation. Our definition gives rise to a framework that can be used to guide the design and interpretation of studies on human-AI complementarity and reliance. Using recent AI-advised decision making studies from literature, we demonstrate how our framework can be used to separate the loss due to mis-reliance from the loss due to not accurately differentiating the signals. We evaluate these losses by comparing to a baseline and a benchmark for complementary performance defined by the expected payoff achieved by a rational decision-maker facing the same decision task as the behavioral decision-makers. | 翻訳日:2024-05-10 17:49:31 公開日:2024-05-08 |
# ジェネレーティブゴースト:AIアフターリーブのメリットとリスクを予想する
Generative Ghosts: Anticipating Benefits and Risks of AI Afterlives ( http://arxiv.org/abs/2402.01662v2 ) ライセンス: Link先を確認 | Meredith Ringel Morris, Jed R. Brubaker, | (参考訳) AIシステムは、パフォーマンスの幅と深さの両方を急速に改善するので、特定の人物をモデルにしたエージェントの可能性を含む、ますます強力で現実的なエージェントを作るのに役立ちます。
私たちは、生涯のうちに、人々が愛する人や死後のより広い世界と対話するカスタムAIエージェントを作るのが一般的になることを期待しています。
なぜなら、そのようなエージェントは、創造者が生み出したコンテンツを単にパーローするだけでなく、新しいコンテンツを生成することができるからです。
本稿では、まず、生成ゴーストの実装の可能性について設計空間について論じる。
次に、生成ゴーストの実践的および倫理的含意について論じ、個人や社会に潜在的に肯定的および否定的な影響を含む。
これらの考察に基づき、我々はAIとHCI研究コミュニティのための研究アジェンダを策定し、人々が安全で有益な方法でAIのアフターリーブを創造し、相互作用することを可能にする。
As AI systems quickly improve in both breadth and depth of performance, they lend themselves to creating increasingly powerful and realistic agents, including the possibility of agents modeled on specific people. We anticipate that within our lifetimes it may become common practice for people to create a custom AI agent to interact with loved ones and/or the broader world after death. We call these generative ghosts, since such agents will be capable of generating novel content rather than merely parroting content produced by their creator while living. In this paper, we first discuss the design space of potential implementations of generative ghosts. We then discuss the practical and ethical implications of generative ghosts, including potential positive and negative impacts on individuals and society. Based on these considerations, we lay out a research agenda for the AI and HCI research communities to empower people to create and interact with AI afterlives in a safe and beneficial manner. | 翻訳日:2024-05-10 17:49:31 公開日:2024-05-08 |
# Riemann-Lebesgue Forest for Regression (英語)
Riemann-Lebesgue Forest for Regression ( http://arxiv.org/abs/2402.04550v2 ) ライセンス: Link先を確認 | Tian Qin, Wei-Min Huang, | (参考訳) 本稿では,レグレッションのためのRLF(Riemann-Lebesgue Forest)と呼ばれる新しいアンサンブル手法を提案する。
RLFの中核となる考え方は、測定可能な関数を数区間に分割することで近似する方法を模倣することである。
このアイデアを念頭に置いて、リーマン・ルベーグ・ツリー(RLT)と呼ばれる新しいツリー学習者を開発し、リーマン・ルベーグ型伐採を行う機会、すなわち、ある非終端ノードで応答$Y$からノードを分割する。
最適リーベーグ型切削は,通常のCART \cite{Breiman 1984ClassificationAR} 切削(リーマン分割の類似)よりも,Y$のばらつきが大きくなることを示す。
このような性質はRLFのアンサンブル部分に有益である。
また,パラメータ設定の異なる RLF の漸近正規性を一般化する。
RLFの柔軟性を示す2つの一次元例が提供されている。
RLFの原生無作為林に対する競争性能はシミュレーションデータと実世界のデータセットの実験によって実証された。
We propose a novel ensemble method called Riemann-Lebesgue Forest (RLF) for regression. The core idea in RLF is to mimic the way how a measurable function can be approximated by partitioning its range into a few intervals. With this idea in mind, we develop a new tree learner named Riemann-Lebesgue Tree (RLT) which has a chance to perform Lebesgue type cutting,i.e splitting the node from response $Y$ at certain non-terminal nodes. We show that the optimal Lebesgue type cutting results in larger variance reduction in response $Y$ than ordinary CART \cite{Breiman1984ClassificationAR} cutting (an analogue of Riemann partition). Such property is beneficial to the ensemble part of RLF. We also generalize the asymptotic normality of RLF under different parameter settings. Two one-dimensional examples are provided to illustrate the flexibility of RLF. The competitive performance of RLF against original random forest \cite{Breiman2001RandomF} is demonstrated by experiments in simulation data and real world datasets. | 翻訳日:2024-05-10 17:49:31 公開日:2024-05-08 |
# ICE-SEARCH: 言語モデル駆動型特徴選択アプローチ
ICE-SEARCH: A Language Model-Driven Feature Selection Approach ( http://arxiv.org/abs/2402.18609v4 ) ライセンス: Link先を確認 | Tianze Yang, Tianyi Yang, Fuyuan Lyu, Shaoshan Liu, Xue, Liu, | (参考訳) In-Context Evolutionary Search (ICE-SEARCH) 法は,大規模言語モデル (LLM) と特徴選択 (FS) タスクの進化アルゴリズムを融合させた最初の研究であり,医療予測分析 (MPA) アプリケーションにおいてその有効性を示すものである。
ICE-SEARCHは進化の枠組みの中でLLMに固有の交叉と突然変異の機能を活用し、モデルの包括的な世界知識と様々な役割への適応性を通じてFSを大幅に改善する。
本手法の評価は, 脳卒中, 心血管疾患, 糖尿病の3つの重要なMPA課題に及び, ICE-SEARCHは, 医療応用に欠かせない特徴を指摘するために, 従来のFS法よりも優れている。
ICE-SEARCHは、脳卒中予測および糖尿病予測におけるSOTA(State-of-the-Art)のパフォーマンスを達成し、決定ランダム化ICE-SEARCHは、心血管疾患予測においてSOTAにランク付けする。
この研究は、ドメイン固有の洞察を取り入れ、ICE-SEARCHの堅牢性、一般化可能性、収束性を説明する重要な役割を強調している。
これは、総合的で複雑なFSランドスケープに関するさらなる研究の道を開き、医療予測分析における人工知能の応用において重要な一歩を踏み出した。
This study unveils the In-Context Evolutionary Search (ICE-SEARCH) method, which is among the first works that melds large language models (LLMs) with evolutionary algorithms for feature selection (FS) tasks and demonstrates its effectiveness in Medical Predictive Analytics (MPA) applications. ICE-SEARCH harnesses the crossover and mutation capabilities inherent in LLMs within an evolutionary framework, significantly improving FS through the model's comprehensive world knowledge and its adaptability to a variety of roles. Our evaluation of this methodology spans three crucial MPA tasks: stroke, cardiovascular disease, and diabetes, where ICE-SEARCH outperforms traditional FS methods in pinpointing essential features for medical applications. ICE-SEARCH achieves State-of-the-Art (SOTA) performance in stroke prediction and diabetes prediction; the Decision-Randomized ICE-SEARCH ranks as SOTA in cardiovascular disease prediction. The study emphasizes the critical role of incorporating domain-specific insights, illustrating ICE-SEARCH's robustness, generalizability, and convergence. This opens avenues for further research into comprehensive and intricate FS landscapes, marking a significant stride in the application of artificial intelligence in medical predictive analytics. | 翻訳日:2024-05-10 17:39:27 公開日:2024-05-08 |
# 多レベルアクター臨界による平均回帰RLにおける時間オラクルの混合のない大域的最適性
Global Optimality without Mixing Time Oracles in Average-reward RL via Multi-level Actor-Critic ( http://arxiv.org/abs/2403.11925v2 ) ライセンス: Link先を確認 | Bhrij Patel, Wesley A. Suttle, Alec Koppel, Vaneet Aggarwal, Brian M. Sadler, Amrit Singh Bedi, Dinesh Manocha, | (参考訳) 平均回帰強化学習の文脈では、混合時間のオラクル知識の要求、固定された政策の下でマルコフ連鎖の持続時間の測定は、その定常分布を達成する必要がある。
この要件は、大きな状態空間を持つ環境での混合時間推定の困難さと費用が原因で特に問題となる。
この制限に対処するために,マルチレベルモンテカルロ勾配推定器を組み込んだマルチレベルアクタ・クリティカル(MAC)フレームワークを検討する。
提案手法では, 時間知識の混合への依存を効果的に緩和する。
さらに,本手法は先行研究と比較して,$\mathcal{O}\left( \sqrt{\tau_{mix}} \right)$の厳密な依存性を示す。
2次元グリッドワールドの目標到達航法実験により,MACが従来のPG法よりも高い報酬を得られることを示す。
In the context of average-reward reinforcement learning, the requirement for oracle knowledge of the mixing time, a measure of the duration a Markov chain under a fixed policy needs to achieve its stationary distribution-poses a significant challenge for the global convergence of policy gradient methods. This requirement is particularly problematic due to the difficulty and expense of estimating mixing time in environments with large state spaces, leading to the necessity of impractically long trajectories for effective gradient estimation in practical applications. To address this limitation, we consider the Multi-level Actor-Critic (MAC) framework, which incorporates a Multi-level Monte Carlo (MLMC) gradient estimator. With our approach, we effectively alleviate the dependency on mixing time knowledge, a first for average-reward MDPs global convergence. Furthermore, our approach exhibits the tightest-available dependence of $\mathcal{O}\left( \sqrt{\tau_{mix}} \right)$ relative to prior work. With a 2D gridworld goal-reaching navigation experiment, we demonstrate that MAC achieves higher reward than a previous PG-based method for average reward, Parameterized Policy Gradient with Advantage Estimation (PPGAE), especially in cases with relatively small training sample budget restricting trajectory length. | 翻訳日:2024-05-10 17:39:27 公開日:2024-05-08 |
# PortULAN ExtraGLUEデータセットとモデル:ポルトガルのニューラル処理のためのベンチマークを開始する
PORTULAN ExtraGLUE Datasets and Models: Kick-starting a Benchmark for the Neural Processing of Portuguese ( http://arxiv.org/abs/2404.05333v3 ) ライセンス: Link先を確認 | Tomás Osório, Bernardo Leite, Henrique Lopes Cardoso, Luís Gomes, João Rodrigues, Rodrigo Santos, António Branco, | (参考訳) ポルトガル語のニューラルモデリングの研究を活用して、一連の言語処理タスクのためのデータセットのコレクションと、これらの下流タスクに関する微調整されたニューラル言語モデルのコレクションをコントリビュートする。
もともと英語で開発された文献の主流ベンチマークと一致し、ポルトガル語版を起動するために、データセットは英語から最先端の翻訳エンジンで機械翻訳された。
その結果得られた PortULAN ExtraGLUE ベンチマークは、今後の研究で改善が追求されるポルトガルの研究の基盤となっている。
同様に、低ランク適応アプローチで開発されたそれぞれの微調整されたニューラルネットワークモデルは、ポルトガル語のニューラル処理に関する将来の研究を刺激するベースラインとして利用できる。
すべてのデータセットとモデルが開発され、ポルトガルの2つの変種(ヨーロッパとブラジル)で利用可能である。
Leveraging research on the neural modelling of Portuguese, we contribute a collection of datasets for an array of language processing tasks and a corresponding collection of fine-tuned neural language models on these downstream tasks. To align with mainstream benchmarks in the literature, originally developed in English, and to kick start their Portuguese counterparts, the datasets were machine-translated from English with a state-of-the-art translation engine. The resulting PORTULAN ExtraGLUE benchmark is a basis for research on Portuguese whose improvement can be pursued in future work. Similarly, the respective fine-tuned neural language models, developed with a low-rank adaptation approach, are made available as baselines that can stimulate future work on the neural processing of Portuguese. All datasets and models have been developed and are made available for two variants of Portuguese: European and Brazilian. | 翻訳日:2024-05-10 17:29:35 公開日:2024-05-08 |
# 量子力学の複素確率最適制御基礎
Complex Stochastic Optimal Control Foundation of Quantum Mechanics ( http://arxiv.org/abs/2404.15964v2 ) ライセンス: Link先を確認 | Vasil Yordanov, | (参考訳) 近年の研究では、量子力学方程式を導出するための複素変数を含む確率的ハミルトン・ヤコビ・ベルマン方程式(HJB)の使用が拡張されている。
しかしながら、これらの研究は HJB 方程式を直接複素数に適用することは有効であると仮定することが多い。
本稿では,複素変数の文脈においてHJB方程式を正しく適用する方法を検討する。
本研究は,量子粒子の確率的運動を,確率的最適制御理論の枠組みの中で明らかに再評価するものである。
コーシー・リーマンの定理を用いて、運動の確率方程式における複素拡散係数を導出し、粒子の確率運動が2つの完全に相関した実数および虚数的確率過程によって記述されていることを考察した。
導出拡散係数はHJB方程式を線形化できる形式を採り、ディラック方程式の導出に繋がることを示した。
これらの知見は量子力学の理解を深め、確率論的最適制御を量子力学に適用する枠組みの数学的厳密性を高める。
Recent studies have extended the use of the stochastic Hamilton-Jacobi-Bellman (HJB) equation to include complex variables for deriving quantum mechanical equations. However, these studies often assume that it is valid to apply the HJB equation directly to complex numbers, an approach that overlooks the fundamental problem of comparing complex numbers to find optimal controls. This paper explores how to correctly apply the HJB equation in the context of complex variables. Our findings significantly reevaluate the stochastic movement of quantum particles within the framework of stochastic optimal control theory. We derived the complex diffusion coefficient in the stochastic equation of motion using the Cauchy-Riemann theorem, considering that the particle's stochastic movement is described by two perfectly correlated real and imaginary stochastic processes. We demonstrated that the derived diffusion coefficient took a form that allowed the HJB equation to be linearized, thereby leading to the derivation of the Dirac equations. These insights deepen our understanding of quantum dynamics and enhance the mathematical rigor of the framework for applying stochastic optimal control to quantum mechanics. | 翻訳日:2024-05-10 15:31:42 公開日:2024-05-08 |
# 因果拡散オートエンコーダ:拡散確率モデルによる対実生成に向けて
Causal Diffusion Autoencoders: Toward Counterfactual Generation via Diffusion Probabilistic Models ( http://arxiv.org/abs/2404.17735v2 ) ライセンス: Link先を確認 | Aneesh Komanduri, Chen Zhao, Feng Chen, Xintao Wu, | (参考訳) 拡散確率モデル(DPM)は高品質の画像生成における最先端技術となっている。
しかし、DPM は解釈可能な意味論や制御可能な意味論を持たない任意の雑音潜在空間を持つ。
画像サンプルの品質向上のための重要な研究努力は行われているが,拡散モデルを用いた表現制御生成の研究はほとんどない。
具体的には、DPMを用いた因果モデリングと制御可能な反ファクト生成は、未探索領域である。
本研究では,拡散に基づく因果表現学習フレームワークCausalDiffAEを提案する。
我々のキーとなる考え方は、エンコーダを用いて高次元データから高レベルの意味論的因果変数を抽出し、逆拡散を用いて確率的変動をモデル化することである。
本稿では,高次元データを因果関係の潜伏因子にマッピングし,その因果機構をニューラルネットワークを用いてパラメータ化する因果符号化機構を提案する。
因果変数のアンタングル化を強制するために、変分目的を定式化し、先行のラベル情報を利用して潜伏空間を正規化する。
そこで本研究では,DDIMをベースとした疑似事実生成手法を提案する。
最後に,限られたラベル管理シナリオに対処するために,トレーニングデータの一部がラベル付けされていない場合のCausalDiffAEの適用について検討する。
本稿では,CausalDiffAEが不整合空間を学習し,高品質な反ファクト画像を生成することを実証的に示す。
Diffusion probabilistic models (DPMs) have become the state-of-the-art in high-quality image generation. However, DPMs have an arbitrary noisy latent space with no interpretable or controllable semantics. Although there has been significant research effort to improve image sample quality, there is little work on representation-controlled generation using diffusion models. Specifically, causal modeling and controllable counterfactual generation using DPMs is an underexplored area. In this work, we propose CausalDiffAE, a diffusion-based causal representation learning framework to enable counterfactual generation according to a specified causal model. Our key idea is to use an encoder to extract high-level semantically meaningful causal variables from high-dimensional data and model stochastic variation using reverse diffusion. We propose a causal encoding mechanism that maps high-dimensional data to causally related latent factors and parameterize the causal mechanisms among latent factors using neural networks. To enforce the disentanglement of causal variables, we formulate a variational objective and leverage auxiliary label information in a prior to regularize the latent space. We propose a DDIM-based counterfactual generation procedure subject to do-interventions. Finally, to address the limited label supervision scenario, we also study the application of CausalDiffAE when a part of the training data is unlabeled, which also enables granular control over the strength of interventions in generating counterfactuals during inference. We empirically show that CausalDiffAE learns a disentangled latent space and is capable of generating high-quality counterfactual images. | 翻訳日:2024-05-10 15:31:42 公開日:2024-05-08 |
# UMass-BioNLP at MEDIQA-M3G 2024: DermPrompt -- GPT-4Vによる皮膚科診断のためのプロンプト工学の体系的探索
UMass-BioNLP at MEDIQA-M3G 2024: DermPrompt -- A Systematic Exploration of Prompt Engineering with GPT-4V for Dermatological Diagnosis ( http://arxiv.org/abs/2404.17749v2 ) ライセンス: Link先を確認 | Parth Vashisht, Abhilasha Lodha, Mukta Maddipatla, Zonghai Yao, Avijit Mitra, Zhichao Yang, Junda Wang, Sunjae Kwon, Hong Yu, | (参考訳) 本稿では,MEDIQA-ClinicalNLP2024共有タスクBにおける我々のチームの参加について述べる。我々は,大規模なマルチモーダルモデルを統合することで臨床皮膚学のケースを診断するための新しいアプローチを提案する。
本研究は,GPT-4Vを検索剤として用いると,皮膚画像と短い患者の病理組織を用いて,正しい皮膚状態の85%を正確に検索できることを明らかにする。
また,NIVE Chain-of-Thought (CoT) は検索に有効であり,Medical Guidelines Grounded CoT は正確な皮膚科診断に必要であることを示す。
さらに,MAC(Multi-Agent Conversation)フレームワークを導入し,CoT戦略よりも優れた性能と可能性を示す。
以上の結果から,GPT-4Vは皮膚疾患の早期かつ正確な診断につながる可能性が示唆された。
この研究の意義は、診断ワークフローの改善、皮膚科教育のサポート、スケーラブルでアクセシブルで正確な診断ツールを提供することによる患者のケアの向上にまで及んでいる。
This paper presents our team's participation in the MEDIQA-ClinicalNLP2024 shared task B. We present a novel approach to diagnosing clinical dermatology cases by integrating large multimodal models, specifically leveraging the capabilities of GPT-4V under a retriever and a re-ranker framework. Our investigation reveals that GPT-4V, when used as a retrieval agent, can accurately retrieve the correct skin condition 85% of the time using dermatological images and brief patient histories. Additionally, we empirically show that Naive Chain-of-Thought (CoT) works well for retrieval while Medical Guidelines Grounded CoT is required for accurate dermatological diagnosis. Further, we introduce a Multi-Agent Conversation (MAC) framework and show its superior performance and potential over the best CoT strategy. The experiments suggest that using naive CoT for retrieval and multi-agent conversation for critique-based diagnosis, GPT-4V can lead to an early and accurate diagnosis of dermatological conditions. The implications of this work extend to improving diagnostic workflows, supporting dermatological education, and enhancing patient care by providing a scalable, accessible, and accurate diagnostic tool. | 翻訳日:2024-05-10 15:31:42 公開日:2024-05-08 |
# 大規模言語モデルを用いたプログラミングにおける論理エラーに対するフィードバックラダーの生成
Generating Feedback-Ladders for Logical Errors in Programming using Large Language Models ( http://arxiv.org/abs/2405.00302v3 ) ライセンス: Link先を確認 | Hasnain Heickal, Andrew Lan, | (参考訳) プログラム代入における論理的誤りに対するフィードバック生成において,大規模言語モデル(LLM)に基づく手法は大きな可能性を秘めている。
これらの方法は、問題ステートメントと学生の(バグ)提出を前提として、LSMにフィードバックを生成するよう要求する。
このような方法にはいくつかの問題がある。
第一に、生成されたフィードバックメッセージは、しばしば、提出中のエラーを明らかにするために直接的すぎるので、学生が学ぶ貴重な機会を減らします。
第二に、学生の学習の文脈、すなわち、以前の提出書、現在の知識などを考慮していない。
第3に、既存のメソッドでは、すべての学生の応募に対して単一の共有プロンプトを使用するため、レイヤ化されていない。
本稿では,LLMを用いて「フィードバック・ラダー」、すなわち同じ問題・サブミッション・ペアに対するフィードバックのレベルを複数生成する方法について検討する。
本研究では, 学生, 教育者, 研究者によるユーザスタディにより, 生成したフィードバックラダーの品質を評価する。
本研究は,高レベルのフィードバックと高レベルの提案に対する効果の低下を総合的に観察した。
実際に,本手法では,教師が個人的学習状況に基づいて,生徒に適切なレベルのフィードバックを提示するか,あるいは高レベルのフィードバックが生徒の誤りを訂正できなかった場合に,より詳細に学習することができる。
In feedback generation for logical errors in programming assignments, large language model (LLM)-based methods have shown great promise. These methods ask the LLM to generate feedback given the problem statement and a student's (buggy) submission. There are several issues with these types of methods. First, the generated feedback messages are often too direct in revealing the error in the submission and thus diminish valuable opportunities for the student to learn. Second, they do not consider the student's learning context, i.e., their previous submissions, current knowledge, etc. Third, they are not layered since existing methods use a single, shared prompt for all student submissions. In this paper, we explore using LLMs to generate a "feedback-ladder", i.e., multiple levels of feedback for the same problem-submission pair. We evaluate the quality of the generated feedback-ladder via a user study with students, educators, and researchers. We have observed diminishing effectiveness for higher-level feedback and higher-scoring submissions overall in the study. In practice, our method enables teachers to select an appropriate level of feedback to show to a student based on their personal learning context, or in a progressive manner to go more detailed if a higher-level feedback fails to correct the student's error. | 翻訳日:2024-05-10 15:31:42 公開日:2024-05-08 |
# 論理型カリキュラムチューニングによる知識グラフによる複雑な推論の改善
Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning ( http://arxiv.org/abs/2405.01649v3 ) ライセンス: Link先を確認 | Tianle Xia, Liang Ding, Guojia Wan, Yibing Zhan, Bo Du, Dacheng Tao, | (参考訳) 不完全な知識グラフ(KG)上で複雑なクエリを答えることは難しい仕事である。
これまでのほとんどの研究は、エンティティ/リレーション埋め込みの学習と、ニューラルネットワークによる一階述語論理演算子のシミュレートに重点を置いていた。
しかし、それらは論理的推論を改善するために世界知識を共有することができないためにボトルネックとなり、結果として準最適性能をもたらす。
本稿では,大規模言語モデル(LLM)に基づくKG上の複雑な推論スキーマを提案する。
具体的には、任意の一階論理クエリを二分木分解により拡張し、LLMの推論能力を刺激する。
複雑な問合せの難易度に対処するため,我々はシンプルで柔軟な論理型学習フレームワークを設計する。
広く使われているデータセットに対する実験では、LACTは高度な手法よりも大幅に改善され(平均+5.5%のMRRスコアを得る)、新しい最先端技術を実現している。
コードとモデルはすぐにGitHubでリリースされ、抱きしめます。
Answering complex queries over incomplete knowledge graphs (KGs) is a challenging job. Most previous works have focused on learning entity/relation embeddings and simulating first-order logic operators with various neural networks. However, they are bottlenecked by the inability to share world knowledge to improve logical reasoning, thus resulting in suboptimal performance. In this paper, we propose a complex reasoning schema over KG upon large language models (LLMs), containing a curriculum-based logical-aware instruction tuning framework, named LACT. Specifically, we augment the arbitrary first-order logical queries via binary tree decomposition, to stimulate the reasoning capability of LLMs. To address the difficulty gap among different types of complex queries, we design a simple and flexible logic-aware curriculum learning framework. Experiments across widely used datasets demonstrate that LACT has substantial improvements~(brings an average +5.5% MRR score) over advanced methods, achieving the new state-of-the-art. Our code and model will be released at GitHub and huggingface soon. | 翻訳日:2024-05-10 15:21:52 公開日:2024-05-08 |
# 初期のスラヴ語節の量的・タイプ論的研究とその競合
A quantitative and typological study of Early Slavic participle clauses and their competition ( http://arxiv.org/abs/2405.01972v3 ) ライセンス: Link先を確認 | Nilo Pedrazzini, | (参考訳) この論文は、初期のスラヴ人構成物とその有限個の競合物(jegda$-'when'-clauses)の機能のコーパスに基づく、量的、タイプ論的分析である。
第1部では, 初期スラヴ語コーパスの文法的, 依存性, 情報構造的, 語彙的レベルでの詳細な言語的アノテーションを活用して, コーパス内の分節構成と分節構成の分布に関する説明として, 構成性および既定の言説推論の役割を理解する。
第二部では、非常に並列なデータを用いて、英語の$when$のセマンティックスペースを表現する言語の種類を分析している。
確率論的セマンティックマップが生成され、統計手法(クリギング、ガウス混合モデル、精度、リコール分析など)が並列コーパスから言語間有理次元を誘導し、仮説概念WHENのセマンティック空間における概念的変動を研究するために用いられる。
This thesis is a corpus-based, quantitative, and typological analysis of the functions of Early Slavic participle constructions and their finite competitors ($jegda$-'when'-clauses). The first part leverages detailed linguistic annotation on Early Slavic corpora at the morphosyntactic, dependency, information-structural, and lexical levels to obtain indirect evidence for different potential functions of participle clauses and their main finite competitor and understand the roles of compositionality and default discourse reasoning as explanations for the distribution of participle constructions and $jegda$-clauses in the corpus. The second part uses massively parallel data to analyze typological variation in how languages express the semantic space of English $when$, whose scope encompasses that of Early Slavic participle constructions and $jegda$-clauses. Probabilistic semantic maps are generated and statistical methods (including Kriging, Gaussian Mixture Modelling, precision and recall analysis) are used to induce cross-linguistically salient dimensions from the parallel corpus and to study conceptual variation within the semantic space of the hypothetical concept WHEN. | 翻訳日:2024-05-10 15:21:52 公開日:2024-05-08 |
# 構造MRIからの脳PET合成のための機能的イメージング制約拡散
Functional Imaging Constrained Diffusion for Brain PET Synthesis from Structural MRI ( http://arxiv.org/abs/2405.02504v2 ) ライセンス: Link先を確認 | Minhui Yu, Mengqi Wu, Ling Yue, Andrea Bozoki, Mingxia Liu, | (参考訳) 磁気共鳴画像(MRI)とポジトロン・エミッション・トモグラフィ(PET)は、神経変性疾患のマルチモーダル解析にますます利用されている。
MRIは臨床で広く利用されているが、PETは利用できない。
多くの研究は、MRIスキャンからPETを合成するために深層生成モデルを用いた。
しかし、不安定な訓練に苦しむことが多く、PETによって伝達される脳機能情報を不十分に保存する。
そこで本研究では,新しい制約拡散モデル (CDM) を用いて,2組構造MRIを用いた3次元脳PET画像合成のための機能的イメージング制約拡散 (FICD) フレームワークを提案する。
FICDはPETにノイズを導入し、CDMで徐々に除去する。
CDMは、各denoized PETと基底真理との間のボクセルワイドアライメントを確保するために、機能的イメージング制約を導入して、denoized PETを予測することを学ぶ。
T1-weighted MRIと18F-fluorodeoxyglucose (FDG)-PETスキャンを併用した293例の定量および定性分析により,FICDはFDG-PETデータの生成において最先端の手法と比較して優れた性能を示した。
さらに,提案したFICDが3つの下流タスクを通して1,262人の被験者のデータに対して有効であることを示すとともに,その有用性と一般化性を示す実験結果を得た。
Magnetic resonance imaging (MRI) and positron emission tomography (PET) are increasingly used in multimodal analysis of neurodegenerative disorders. While MRI is broadly utilized in clinical settings, PET is less accessible. Many studies have attempted to use deep generative models to synthesize PET from MRI scans. However, they often suffer from unstable training and inadequately preserve brain functional information conveyed by PET. To this end, we propose a functional imaging constrained diffusion (FICD) framework for 3D brain PET image synthesis with paired structural MRI as input condition, through a new constrained diffusion model (CDM). The FICD introduces noise to PET and then progressively removes it with CDM, ensuring high output fidelity throughout a stable training phase. The CDM learns to predict denoised PET with a functional imaging constraint introduced to ensure voxel-wise alignment between each denoised PET and its ground truth. Quantitative and qualitative analyses conducted on 293 subjects with paired T1-weighted MRI and 18F-fluorodeoxyglucose (FDG)-PET scans suggest that FICD achieves superior performance in generating FDG-PET data compared to state-of-the-art methods. We further validate the effectiveness of the proposed FICD on data from a total of 1,262 subjects through three downstream tasks, with experimental results suggesting its utility and generalizability. | 翻訳日:2024-05-10 15:21:52 公開日:2024-05-08 |
# cuTN-QSVM:cuQuantum SDKを用いたcuTensorNetアクセラレーション量子サポートベクトルマシン
cuTN-QSVM: cuTensorNet-accelerated Quantum Support Vector Machine with cuQuantum SDK ( http://arxiv.org/abs/2405.02630v2 ) ライセンス: Link先を確認 | Kuan-Cheng Chen, Tai-Yue Li, Yun-Yuan Wang, Simon See, Chun-Chieh Wang, Robert Wille, Nan-Yow Chen, An-Cheng Yang, Chun-Yu Lin, | (参考訳) 本稿では,NVIDIA の cuQuantum SDK で実現される計算の進歩,特に cuTensorNet ライブラリを活用した量子支援ベクトルマシン (QSVM) の適用について検討する。
本稿では,実験によって実証された計算オーバーヘッドを指数的から二次的コストに大幅に低減するシミュレーションワークフローを提案する。
状態ベクトルシミュレーションは50以上の量子ビット数では実現不可能になるが,我々はcuTensorNetがNVIDIA A100 GPU上で数秒で完了するシミュレーションを高速化することを示した。
マルチGPU処理をMPI(Message Passing Interface)と組み合わせることで,計算時間の顕著な減少を報告し,データサイズの増加に対するアプローチの強い線形高速化を効果的に実証する。
これにより、QSVMは高性能コンピューティング(HPC)システム上で効率的に動作し、研究者がまだ研究されていない複雑な量子アルゴリズムを探索するための新しい窓を開くことができる。
精度評価では、従来のSVMの能力を超え、100以上のトレーニングセットのためのMNISTデータセット内の挑戦的な分類に対して、最大95%を達成する。
これらの進歩は、cuQuantum SDK内のcuTensorNetを量子機械学習シミュレーションをスケールするための重要なツールとして位置づけ、量子-HPCエコシステム内で重要なような計算戦略のシームレスな統合を示唆する可能性がある。
This paper investigates the application of Quantum Support Vector Machines (QSVMs) with an emphasis on the computational advancements enabled by NVIDIA's cuQuantum SDK, especially leveraging the cuTensorNet library. We present a simulation workflow that substantially diminishes computational overhead, as evidenced by our experiments, from exponential to quadratic cost. While state vector simulations become infeasible for qubit counts over 50, our evaluation demonstrates that cuTensorNet speeds up simulations to be completed within seconds on the NVIDIA A100 GPU, even for qubit counts approaching 784. By employing multi-GPU processing with Message Passing Interface (MPI), we document a marked decrease in computation times, effectively demonstrating the strong linear speedup of our approach for increasing data sizes. This enables QSVMs to operate efficiently on High-Performance Computing (HPC) systems, thereby opening a new window for researchers to explore complex quantum algorithms that have not yet been investigated. In accuracy assessments, our QSVM achieves up to 95\% on challenging classifications within the MNIST dataset for training sets larger than 100 instances, surpassing the capabilities of classical SVMs. These advancements position cuTensorNet within the cuQuantum SDK as a pivotal tool for scaling quantum machine learning simulations and potentially signpost the seamless integration of such computational strategies as pivotal within the Quantum-HPC ecosystem. | 翻訳日:2024-05-10 15:21:52 公開日:2024-05-08 |
# 知識グラフに基づくニューラルシンボリックシステムの研究
Exploring knowledge graph-based neural-symbolic system from application perspective ( http://arxiv.org/abs/2405.03524v2 ) ライセンス: Link先を確認 | Shenzhe Zhu, | (参考訳) 人工知能(AI)の急速な進歩、特に深層ニューラルネットワークは、視覚やテキスト処理などの分野において大きな進歩をもたらした。
それでも、人間のような推論と解釈可能性を示すAIシステムの追求には、大きな課題が続いている。
ニューラルネットワークの深層学習技術をシンボリックシステムの推論能力に統合するNeural-Symbolicパラダイムは、より透明で理解しやすいAIシステムを開発するための、有望な道筋を提供する。
このパラダイムの中で、知識グラフ(KG)は重要な要素として現れ、相互接続された実体と関係を通して知識を表現する構造的かつ動的な方法を提供し、主に三重項(対象、述語、対象)を利用する。
本稿では、KGに基づくニューラルシンボリック統合の最近の進歩、KGがニューラルネットワークの推論と解釈可能性の向上(Symbol for Neural)、ニューラルネットワーク手法(Neural for Symbol)によるシンボリックシステムの完全性と正確性の改善(Neural for Symbol)、ハイブリッドニューラルシンボリック統合(Hybrid Neural-Symbolic Integration)の併用の促進という、3つの主要なカテゴリでこの統合をどのように支えているかを明らかにする。
これは現在のトレンドを強調し、Neural-Symbolic AIの領域における将来の研究の方向性を提案する。
The rapid advancement in artificial intelligence (AI), particularly through deep neural networks, has catalyzed significant progress in fields such as vision and text processing. Nonetheless, the pursuit of AI systems that exhibit human-like reasoning and interpretability continues to pose a substantial challenge. The Neural-Symbolic paradigm, which integrates the deep learning prowess of neural networks with the reasoning capabilities of symbolic systems, presents a promising pathway toward developing more transparent and comprehensible AI systems. Within this paradigm, the Knowledge Graph (KG) emerges as a crucial element, offering a structured and dynamic method for representing knowledge through interconnected entities and relationships, predominantly utilizing the triple (subject, predicate, object). This paper explores recent advancements in neural-symbolic integration based on KG, elucidating how KG underpins this integration across three key categories: enhancing the reasoning and interpretability of neural networks through the incorporation of symbolic knowledge (Symbol for Neural), refining the completeness and accuracy of symbolic systems via neural network methodologies (Neural for Symbol), and facilitating their combined application in Hybrid Neural-Symbolic Integration. It highlights current trends and proposes directions for future research in the domain of Neural-Symbolic AI. | 翻訳日:2024-05-10 15:12:05 公開日:2024-05-08 |
# 複数の微分プライベートな合成データセットからのルールの組み合わせによる推論
Inference With Combining Rules From Multiple Differentially Private Synthetic Datasets ( http://arxiv.org/abs/2405.04769v1 ) ライセンス: Link先を確認 | Leila Nombo, Anne-Sophie Charest, | (参考訳) 差分プライバシー(DP)は、統計を得るために使用されるランダムなメカニズムによって提供されるプライバシー保護を測定するための厳格な基準として受け入れられてきた。
このようなデータセットを生成する方法は、ベイジアンモデル、ディープニューラルネットワーク、コプラなど、さまざまなツールを使用して、ますます多くなっている。
しかし、これらの微分プライベートシンセサイザー(DIPS)データセットを用いて統計的推測を適切に行う方法についてはまだ分かっていない。
課題は、通常のサンプリング変動に加えて、合成データ生成からの変動を考慮した分析を行うことである。
同様の課題は、分析の前にデータの欠落が説明されると発生し、統計学者は、このケースに適切な推論手順を開発し、プライバシーのための合成データセットの場合まで拡張する傾向にある。
本研究は,DIPSデータセットの解析に対するルールの組み合わせに基づく,これらの手順の適用性について検討する。
我々の経験的実験により、提案された組み合わせルールは、特定の状況において正確な推論を提供するが、すべての場合において正確な推論はできないことが示された。
Differential privacy (DP) has been accepted as a rigorous criterion for measuring the privacy protection offered by random mechanisms used to obtain statistics or, as we will study here, synthetic datasets from confidential data. Methods to generate such datasets are increasingly numerous, using varied tools including Bayesian models, deep neural networks and copulas. However, little is still known about how to properly perform statistical inference with these differentially private synthetic (DIPS) datasets. The challenge is for the analyses to take into account the variability from the synthetic data generation in addition to the usual sampling variability. A similar challenge also occurs when missing data is imputed before analysis, and statisticians have developed appropriate inference procedures for this case, which we tend extended to the case of synthetic datasets for privacy. In this work, we study the applicability of these procedures, based on combining rules, to the analysis of DIPS datasets. Our empirical experiments show that the proposed combining rules may offer accurate inference in certain contexts, but not in all cases. | 翻訳日:2024-05-10 15:12:05 公開日:2024-05-08 |
# 創造的組合せ設計の解釈のための人工知能アプローチ
An Artificial Intelligence Approach for Interpreting Creative Combinational Designs ( http://arxiv.org/abs/2405.04985v1 ) ライセンス: Link先を確認 | Liuqing Chen, Shuhong Xiao, Yunnong Chen, Linyun Sun, Peter R. N. Childs, Ji Han, | (参考訳) コンビネーション・クリエイティビティ(コンビネーション・クリエイティビティ)は、よく知られたアイデアの融合を含むクリエイティビティの形式であり、デザイン革新において重要な存在である。
デザインにおける組合せ創造性は要素をブレンドすることで達成されるが,本研究では,創造的デザインを構成する「ベース」と「付加的」コンポーネントを具体的に識別する計算解釈に焦点を当てる。
この目的を達成するために,コンピュータビジョンと自然言語処理技術を統合したヒューリスティックアルゴリズムを提案し,識別的および生成的人工知能アーキテクチャに基づく複数のアプローチを実装した。
組み合わせ創造性を研究するために作成したデータセットに対して総合的な評価を行った。
提案アルゴリズムの実装のうち、最も効果的な手法は解釈の精度が高く、「ベース」を87.5%、「付加」を80%と同定した。
モジュール解析とアブレーション実験を行い、実装の各部分のパフォーマンスを評価する。
さらに、この研究はエラーケースとボトルネックの問題を分析し、創造的デザインの計算的解釈に固有の限界と課題について批判的な洞察を与える。
Combinational creativity, a form of creativity involving the blending of familiar ideas, is pivotal in design innovation. While most research focuses on how combinational creativity in design is achieved through blending elements, this study focuses on the computational interpretation, specifically identifying the 'base' and 'additive' components that constitute a creative design. To achieve this goal, the authors propose a heuristic algorithm integrating computer vision and natural language processing technologies, and implement multiple approaches based on both discriminative and generative artificial intelligence architectures. A comprehensive evaluation was conducted on a dataset created for studying combinational creativity. Among the implementations of the proposed algorithm, the most effective approach demonstrated a high accuracy in interpretation, achieving 87.5% for identifying 'base' and 80% for 'additive'. We conduct a modular analysis and an ablation experiment to assess the performance of each part in our implementations. Additionally, the study includes an analysis of error cases and bottleneck issues, providing critical insights into the limitations and challenges inherent in the computational interpretation of creative designs. | 翻訳日:2024-05-10 15:12:05 公開日:2024-05-08 |
# 非アクティブなユーザ推薦のためのソーシャルグラフの学習
Learning Social Graph for Inactive User Recommendation ( http://arxiv.org/abs/2405.05288v1 ) ライセンス: Link先を確認 | Nian Liu, Shen Fan, Ting Bai, Peng Wang, Mingwei Sun, Yanhu Mo, Xiaoxiao Xu, Hong Liu, Chuan Shi, | (参考訳) 社会関係は、データ空間の問題を軽減するためのレコメンデーションシステムに広く取り入れられている。
しかし, 交流項目が限られている不活発なユーザにとって, 粗末な品質と不十分な量のため, 生の社会関係は必ずしもレコメンデーションの恩恵を受けない。
本稿では,特に不活性ユーザを対象に,ソーシャルレコメンデーションのための最適なソーシャルグラフ構造を学習する,LSIR (\textbf{L}earning \textbf{S}ocial Graph for \textbf{I}nactive User \textbf{R}ecommendation) という新しいソーシャルレコメンデーション手法を提案する。
LSIRは、ユーザとアイテムの埋め込みを再帰的に集約して、アイテムとユーザ機能を協調的にエンコードする。
次に,グラフ構造学習(GSL)を用いて生のユーザ・ユーザ・ソーシャルグラフを改良し,ノイズの多いエッジを除去し,拡張された埋め込みに基づいて新たなエッジを追加する。
一方、モデルトレーニング中に非アクティブユーザを模倣する上で、アクティブユーザを誘導する模倣学習が実施され、非アクティブユーザのための新しいエッジの構築が向上する。
実世界のデータセットに対する大規模な実験により、LSIRはNDCGで最大129.58\%の大幅な改善を実現している。
私たちのコードは~\url{https://github.com/liun-online/LSIR}で利用可能です。
Social relations have been widely incorporated into recommender systems to alleviate data sparsity problem. However, raw social relations don't always benefit recommendation due to their inferior quality and insufficient quantity, especially for inactive users, whose interacted items are limited. In this paper, we propose a novel social recommendation method called LSIR (\textbf{L}earning \textbf{S}ocial Graph for \textbf{I}nactive User \textbf{R}ecommendation) that learns an optimal social graph structure for social recommendation, especially for inactive users. LSIR recursively aggregates user and item embeddings to collaboratively encode item and user features. Then, graph structure learning (GSL) is employed to refine the raw user-user social graph, by removing noisy edges and adding new edges based on the enhanced embeddings. Meanwhile, mimic learning is implemented to guide active users in mimicking inactive users during model training, which improves the construction of new edges for inactive users. Extensive experiments on real-world datasets demonstrate that LSIR achieves significant improvements of up to 129.58\% on NDCG in inactive user recommendation. Our code is available at~\url{https://github.com/liun-online/LSIR}. | 翻訳日:2024-05-10 15:12:05 公開日:2024-05-08 |
# スマートポータブルコンピュータ
Smart Portable Computer ( http://arxiv.org/abs/2405.05292v1 ) ライセンス: Link先を確認 | Niladri Das, | (参考訳) 新型コロナウイルス(COVID-19)のパンデミックの中で、多くの組織、学校、大学、大学が仮想プラットフォームに移行し、学生はデスクトップやラップトップなどのPCの取得に困難に直面した。
15,000 INRの開始価格は、しばしば適切なシステム仕様の提供に失敗し、消費者に挑戦した。
さらに、仕事のためにラップトップに頼っていた人たちは、従来のアプローチが面倒なことに気付きました。
ポータブル・スマート・コンピュータ(Portable Smart Computer)は、コンピューティングの未来への飛躍である。
この革新的なデバイスは、従来のデスクトップに匹敵するスピードと性能を誇っているが、コンパクトで省エネでコスト効率のよいパッケージである。
ドキュメントの編集、複数のタブの閲覧、スプレッドシートの管理、プレゼンテーションの作成など、シームレスなデスクトップエクスペリエンスを提供する。
さらに、Python、C、C++などのプログラミング言語や、KeilやXilinxといったコンパイラをサポートし、プログラマのニーズに合わせている。
Amidst the COVID-19 pandemic, with many organizations, schools, colleges, and universities transitioning to virtual platforms, students encountered difficulties in acquiring PCs such as desktops or laptops. The starting prices, around 15,000 INR, often failed to offer adequate system specifications, posing a challenge for consumers. Additionally, those reliant on laptops for work found the conventional approach cumbersome. Enter the "Portable Smart Computer," a leap into the future of computing. This innovative device boasts speed and performance comparable to traditional desktops but in a compact, energy-efficient, and cost-effective package. It delivers a seamless desktop experience, whether one is editing documents, browsing multiple tabs, managing spreadsheets, or creating presentations. Moreover, it supports programming languages like Python, C, C++, as well as compilers such as Keil and Xilinx, catering to the needs of programmers. | 翻訳日:2024-05-10 15:12:05 公開日:2024-05-08 |
# フラクチャーをベースとしたデノボ2次元分子生成の展望
A Review on Fragment-based De Novo 2D Molecule Generation ( http://arxiv.org/abs/2405.05293v1 ) ライセンス: Link先を確認 | Sergei Voloboev, | (参考訳) 計算分子生成の分野では、新しい化合物の発見における重要な課題として、フラグメントベースの深層生成モデルが主要なアプローチであり、2023年の分子設計ベンチマークにおいて、一貫して最先端の成果を達成している。
本稿では, 分子の断片化と生成モデルへのユニークなアプローチを取り上げ, アーキテクチャの詳細な比較評価を行う。
このレビューには、出力品質、生成速度、および特定のモデルの現在の制限の比較も含まれている。
我々はまた、フラグメントベースのモデルを現実世界のアプリケーションに橋渡しする将来の研究への有望な道を強調した。
In the field of computational molecule generation, an essential task in the discovery of new chemical compounds, fragment-based deep generative models are a leading approach, consistently achieving state-of-the-art results in molecular design benchmarks as of 2023. We present a detailed comparative assessment of their architectures, highlighting their unique approaches to molecular fragmentation and generative modeling. This review also includes comparisons of output quality, generation speed, and the current limitations of specific models. We also highlight promising avenues for future research that could bridge fragment-based models to real-world applications. | 翻訳日:2024-05-10 15:12:05 公開日:2024-05-08 |
# 速度歪み理論を用いた高調波プログラム誘導
Harmonizing Program Induction with Rate-Distortion Theory ( http://arxiv.org/abs/2405.05294v1 ) ライセンス: Link先を確認 | Hanqi Zhou, David G. Nagy, Charley M. Wu, | (参考訳) 人間の学習の多くの側面は、記号数表現の取得から世界に関する直観的な理論まで、メンタルプログラムを構築するプロセスとして提案されている。
並行して、レート歪曲理論(RDT)を通じて、人間の認知をモデル化するために情報処理を用いる長い道のりがある。
しかし、メンタルな表現がプログラムの形式をとるときのRTTの適用方法はまだよく理解されていない。
本研究では,レート(記述長),歪み(エラー),計算コスト(検索予算)の3つのトレードオフを提案し,RTTを適用した。
我々は,メロディタスクにおけるシミュレーションを用いて,このトレードオフの意義について検討し,タスク間の共有プログラムライブラリの構築がグローバルな利益をもたらすことを示す。
しかし、これは人間の学習者の特徴でもあるキュリキュラに対する感受性のコストが伴う。
最後に、部分的な情報分解からの手法を用いて、より効果的なライブラリとより良い一般化をもたらす訓練カリキュラムを生成する。
Many aspects of human learning have been proposed as a process of constructing mental programs: from acquiring symbolic number representations to intuitive theories about the world. In parallel, there is a long-tradition of using information processing to model human cognition through Rate Distortion Theory (RDT). Yet, it is still poorly understood how to apply RDT when mental representations take the form of programs. In this work, we adapt RDT by proposing a three way trade-off among rate (description length), distortion (error), and computational costs (search budget). We use simulations on a melody task to study the implications of this trade-off, and show that constructing a shared program library across tasks provides global benefits. However, this comes at the cost of sensitivity to curricula, which is also characteristic of human learners. Finally, we use methods from partial information decomposition to generate training curricula that induce more effective libraries and better generalization. | 翻訳日:2024-05-10 15:12:05 公開日:2024-05-08 |
# 関連性:画像分類器の要素的説明の生成
Relevant Irrelevance: Generating Alterfactual Explanations for Image Classifiers ( http://arxiv.org/abs/2405.05295v1 ) ライセンス: Link先を確認 | Silvan Mertes, Tobias Huber, Christina Karle, Katharina Weitz, Ruben Schlagowski, Cristina Conati, Elisabeth André, | (参考訳) 本稿では,ブラックボックス画像分類器の再現的説明の実現可能性を示す。
反現実的思考の分野からの伝統的な説明メカニズムは、人間が慣れ親しんだ自然な推論方法に従うため、説明可能な人工知能(XAI)の広く使われているパラダイムである。
しかし、この分野からの最も一般的なアプローチは、AIの決定において特に重要である特徴や特徴に関する情報を伝えることに基づいている。
しかし、決定を完全に理解するには、関連する機能に関する知識だけでなく、無関係な情報の認識も、AIシステムのユーザのメンタルモデルの作成に大きく貢献する。
この目的のために, 構造的説明と呼ばれるAIシステムを説明する新しい手法が近年, 概念レベルで提案されている。
これは、AIの入力の無関係な特徴が変更される別の現実を示すことに基づいている。
これにより、ユーザーはAIの決定に影響を与えることなく、どの入力データ特性が任意に変化するかを直接知ることができる。
本稿では,ニューラルネットワークに基づくブラックボックスモデルにこのアイデアを適用できることを初めて示す。
この目的のために,2値画像分類器に対して,これらの構造的説明を生成するためのGANベースの手法を提案する。
さらに,非現実的説明が反現実的説明を補完する方法について,興味深い洞察を与えるユーザスタディを提案する。
In this paper, we demonstrate the feasibility of alterfactual explanations for black box image classifiers. Traditional explanation mechanisms from the field of Counterfactual Thinking are a widely-used paradigm for Explainable Artificial Intelligence (XAI), as they follow a natural way of reasoning that humans are familiar with. However, most common approaches from this field are based on communicating information about features or characteristics that are especially important for an AI's decision. However, to fully understand a decision, not only knowledge about relevant features is needed, but the awareness of irrelevant information also highly contributes to the creation of a user's mental model of an AI system. To this end, a novel approach for explaining AI systems called alterfactual explanations was recently proposed on a conceptual level. It is based on showing an alternative reality where irrelevant features of an AI's input are altered. By doing so, the user directly sees which input data characteristics can change arbitrarily without influencing the AI's decision. In this paper, we show for the first time that it is possible to apply this idea to black box models based on neural networks. To this end, we present a GAN-based approach to generate these alterfactual explanations for binary image classifiers. Further, we present a user study that gives interesting insights on how alterfactual explanations can complement counterfactual explanations. | 翻訳日:2024-05-10 15:12:05 公開日:2024-05-08 |
# 創傷組織中のコラーゲン繊維を用いた創傷治癒進展予測のための深層学習法
Deep Learning Method to Predict Wound Healing Progress Based on Collagen Fibers in Wound Tissue ( http://arxiv.org/abs/2405.05297v1 ) ライセンス: Link先を確認 | Juan He, Xiaoyan Wang, Long Chen, Yunpeng Cai, Zhengshan Wang, | (参考訳) 創傷治癒はコラーゲン繊維の変化を伴う複雑な過程である。
これらの変化の正確なモニタリングは、創傷治癒の進行を評価するために重要であり、臨床治療戦略の指導や薬物スクリーニングに重要な意味を持つ。
しかし、従来の定量分析手法はコラーゲン繊維のアライメントや分散といった空間特性に焦点を合わせており、創傷治癒の異なる段階を区別するための閾値基準が欠如している。
そこで本研究では, 創傷組織の組織像におけるコラーゲン繊維の特徴を解析し, 創傷治癒の進展を予測するために, 深層学習に基づく革新的なアプローチを提案する。
深層学習モデルのユニークな学習能力を生かして, 組織像中のコラーゲン繊維の特徴的特徴を抽出し, 創傷治癒の様々な段階に分類する。
画像データのヒストロジ的利用の限界を克服するため,我々は移動学習戦略を採用している。
具体的には、ImageNetデータセットで事前訓練されたVGG16モデルを微調整し、傷の組織像の分類タスクに適応させる。
この過程で,創傷治癒の6段階を82%の精度で分類した。
さらに、モデルの解釈可能性を高めるために、LayerCAMと呼ばれるクラスのアクティベーションマッピング手法を用いる。
LayerCAMは、予測を行う際にモデルが依存するイメージ領域を明らかにし、モデルの意思決定プロセスに透明性を提供する。
この可視化は、モデルがどのようにコラーゲン繊維の特徴を特定し評価するかを理解するのに役立つだけでなく、モデルの予測結果に対する信頼を高めるのにも役立ちます。
我々の知る限り,本提案モデルは創傷治癒過程を予測するための,最初の深層学習に基づく分類モデルである。
Wound healing is a complex process involving changes in collagen fibers. Accurate monitoring of these changes is crucial for assessing the progress of wound healing and has significant implications for guiding clinical treatment strategies and drug screening. However, traditional quantitative analysis methods focus on spatial characteristics such as collagen fiber alignment and variance, lacking threshold standards to differentiate between different stages of wound healing. To address this issue, we propose an innovative approach based on deep learning to predict the progression of wound healing by analyzing collagen fiber features in histological images of wound tissue. Leveraging the unique learning capabilities of deep learning models, our approach captures the feature variations of collagen fibers in histological images from different categories and classifies them into various stages of wound healing. To overcome the limited availability of histological image data, we employ a transfer learning strategy. Specifically, we fine-tune a VGG16 model pretrained on the ImageNet dataset to adapt it to the classification task of histological images of wounds. Through this process, our model achieves 82% accuracy in classifying six stages of wound healing. Furthermore, to enhance the interpretability of the model, we employ a class activation mapping technique called LayerCAM. LayerCAM reveals the image regions on which the model relies when making predictions, providing transparency to the model's decision-making process. This visualization not only helps us understand how the model identifies and evaluates collagen fiber features but also enhances trust in the model's prediction results. To the best of our knowledge, our proposed model is the first deep learning-based classification model used for predicting wound healing stages. | 翻訳日:2024-05-10 15:12:05 公開日:2024-05-08 |
# 医療における責任あるAI設計とワークフロー統合の課題:放射線学における自動給餌チューブ資格化を事例として
Challenges for Responsible AI Design and Workflow Integration in Healthcare: A Case Study of Automatic Feeding Tube Qualification in Radiology ( http://arxiv.org/abs/2405.05299v1 ) ライセンス: Link先を確認 | Anja Thieme, Abhijith Rajamohan, Benjamin Cooper, Heather Groombridge, Robert Simister, Barney Wong, Nicholas Woznitza, Mark Ames Pinnock, Maria Teodora Wetscherek, Cecily Morrison, Hannah Richardson, Fernando Pérez-García, Stephanie L. Hyland, Shruthi Bannur, Daniel C. Castro, Kenza Bouzid, Anton Schwaighofer, Mercy Ranjit, Harshita Sharma, Matthew P. Lungren, Ozan Oktay, Javier Alvarez-Valle, Aditya Nori, Stephen Harris, Joseph Jacob, | (参考訳) ナトリウムガスチューブ(NGT)は、鼻から胃に挿入されたチューブを供給し、栄養や薬品を供給している。
正しく配置されていない場合は、重傷を負い、患者に死に至ることもある。
近年のAI開発は、Chest X線画像からNGTの配置を頑健に検出し、検出時にNGTが欠落または遅れることのリスクを減らせる可能性を示しているが、臨床実践統合におけるギャップは依然として残っている。
本研究では,この問題に対する人間中心のアプローチを提示し,コンテキスト調査および15名の臨床ステークホルダとの詳細なインタビューの結果から得られた知見を述べる。
インタビューは、既存のワークフローにおける課題と、技術的能力とユーザニーズと期待を結びつける最善の方法を理解するのに役立った。
私たちは、適切なワークフローステージ、ターゲットユーザ、異なるAI提案のための設計設定を選択する際に考慮する必要があるトレードオフと複雑さを発見しました。
我々は、より広範な組織的および医療法的制約の中で、医療スタッフと患者に対するAIのメリットとリスクのバランスをとる方法について検討した。
また、モデルトレーニングと評価に影響を与えるエッジケースやデータバイアスに関連するデータ問題、データドキュメンテーションのプラクティスがデータ準備とラベル付けにどのように影響するか、そして将来の評価において関連するAI成果を確実に測定する方法も特定しました。
我々は、現実の医療サービスにおいて、臨床的に有用で倫理的かつ許容できるAIアプリケーションの設計と開発について、我々の研究がどのように情報を提供するかについて議論する。
Nasogastric tubes (NGTs) are feeding tubes that are inserted through the nose into the stomach to deliver nutrition or medication. If not placed correctly, they can cause serious harm, even death to patients. Recent AI developments demonstrate the feasibility of robustly detecting NGT placement from Chest X-ray images to reduce risks of sub-optimally or critically placed NGTs being missed or delayed in their detection, but gaps remain in clinical practice integration. In this study, we present a human-centered approach to the problem and describe insights derived following contextual inquiry and in-depth interviews with 15 clinical stakeholders. The interviews helped understand challenges in existing workflows, and how best to align technical capabilities with user needs and expectations. We discovered the trade-offs and complexities that need consideration when choosing suitable workflow stages, target users, and design configurations for different AI proposals. We explored how to balance AI benefits and risks for healthcare staff and patients within broader organizational and medical-legal constraints. We also identified data issues related to edge cases and data biases that affect model training and evaluation; how data documentation practices influence data preparation and labelling; and how to measure relevant AI outcomes reliably in future evaluations. We discuss how our work informs design and development of AI applications that are clinically useful, ethical, and acceptable in real-world healthcare services. | 翻訳日:2024-05-10 15:02:12 公開日:2024-05-08 |
# 波動関数による高次ベリー曲率 I:Schmidt分解と行列積状態
Higher Berry Curvature from the Wave Function I: Schmidt Decomposition and Matrix Product States ( http://arxiv.org/abs/2405.05316v1 ) ライセンス: Link先を確認 | Ophelia Evelyn Sommer, Xueda Wen, Ashvin Vishwanath, | (参考訳) 高次ベリー曲率 (Higher Berry curvature, HBC) は、ベリー曲率の無限拡張系への一般化である。
ヒューリスティックなHBCはシステム内の局所ベリー曲率の流れを捉えている。
ここでは、Schmidt分解を用いた波動関数のレベルにおける拡張$d = 1$システムに対するHBCの計算式を提供する。
また、行列積状態 (MPS) に対する対応する公式を見つけ、翻訳不変MPSに対して、これは量子化された不変量をもたらすことを示す。
iDMRGを用いた一般モデルに対する解法モデルと数値計算によるアプローチの実証
Higher Berry curvature (HBC) is the proposed generalization of Berry curvature to infinitely extended systems. Heuristically HBC captures the flow of local Berry curvature in a system. Here we provide a simple formula for computing the HBC for extended $d = 1$ systems at the level of wave functions using the Schmidt decomposition. We also find a corresponding formula for matrix product states (MPS), and show that for translationally invariant MPS this gives rise to a quantized invariant. We demonstrate our approach with an exactly solvable model and numerical calculations for generic models using iDMRG | 翻訳日:2024-05-10 15:02:12 公開日:2024-05-08 |
# 準粒子の非エルミタントポロジーにより安定化されたノイズスペクトル関数
Nodal Spectral Functions Stabilized by Non-Hermitian Topology of Quasiparticles ( http://arxiv.org/abs/2405.05322v1 ) ライセンス: Link先を確認 | Carl Lehmann, Tommaso Micallo, Jan Carl Budich, | (参考訳) 量子材料では、スペクトル関数や感受性のような基本的な可観測物は、素電子ではなく、グリーンの関数とその複素準粒子スペクトルによって決定される。
閉多体系においても、これは有効非エルミート的(NH)ブロッホ・ハミルトン多様体を自然かつ直感的に記述する。
ここでは, 結節位相の多量性と安定性が, NHトポロジに大きく影響されているかについて論じる。
従来の研究は、例外点(英語版)として知られる複素退化(英語版)(complex degeneracies)をノイズ点(英語版)(nodal point)のNH対とみなすことが多いが、複素準粒子スペクトルの実際の部分、すなわち、スペクトル関数における帯域交差(英語版)(nodal spectrum function)の交叉のみを要求することで、この仮定を緩和することを提案している。
興味深いことに、そのような真の交叉は複素ブロッホバンドのブレイディング特性によって位相的に保護され、したがって対称性や微調整を伴わない一次元系で既に一般に起こる。
本研究では, サブラチテン依存的相互作用が結節スペクトル関数を安定化させる顕微鏡格子モデルを提案する。
ギャップレススペクトルの他に、局所電位クエンチ後の非相互電荷輸送特性を非自明なバンドブレイディングのキーシグニチャとして同定する。
最後に、部分格子の1つの上のゼロ相互作用の極限において、量子ホール位相から知られているキラルエッジ状態に類似した、完全に弾道的な一方向モードが非可積分な環境で見つかる。
本解析は, 正確な対角化の枠組みと保存する第2ボルン近似の両方において, 数値シミュレーションによって裏付けられている。
In quantum materials, basic observables such as spectral functions and susceptibilities are determined by Green's functions and their complex quasiparticle spectrum rather than by bare electrons. Even in closed many-body systems, this makes a description in terms of effective non-Hermitian (NH) Bloch Hamiltonians natural and intuitive. Here, we discuss how the abundance and stability of nodal phases is drastically affected by NH topology. While previous work has mostly considered complex degeneracies known as exceptional points as the NH counterpart of nodal points, we propose to relax this assumption by only requiring a crossing of the real part of the complex quasiparticle spectra, which entails a band crossing in the spectral function, i.e. a nodal spectral function. Interestingly, such real crossings are topologically protected by the braiding properties of the complex Bloch bands, and thus generically occur already in one-dimensional systems without symmetry or fine-tuning. We propose and study a microscopic lattice model in which a sublattice-dependent interaction stabilizes nodal spectral functions. Besides the gapless spectrum, we identify non-reciprocal charge transport properties after a local potential quench as a key signature of non-trivial band braiding. Finally, in the limit of zero interaction on one of the sublattices, we find a perfectly ballistic unidirectional mode in a non-integrable environment, reminiscent of a chiral edge state known from quantum Hall phases. Our analysis is corroborated by numerical simulations both in the framework of exact diagonalization and within the conserving second Born approximation. | 翻訳日:2024-05-10 15:02:12 公開日:2024-05-08 |
# 波動関数による高次ベリー曲率II:一次元を超える局所パラメータ化状態
Higher Berry Curvature from the Wave function II: Locally Parameterized States Beyond One Dimension ( http://arxiv.org/abs/2405.05323v1 ) ライセンス: Link先を確認 | Ophelia Evelyn Sommer, Ashvin Vishwanath, Xueda Wen, | (参考訳) 局所パラメータ空間を用いて短距離の絡み合った格子系の族に対する位相不変量を構築するための体系的波動関数に基づくアプローチを提案する。
この構成は、よく知られた 2-形式ベリー曲率の一般化である閉じた$(d+2)$-形式高ベリー曲率を構成するような$d$次元格子系の基底状態と見なせるテンソルネットワークの族に特に適している。
そのような$(d+2)$-形式高ベリー曲率は、システム内の$(d+1)$-形式の高ベリー曲率を特徴付ける。
我々の構成は、(より高い)Thoulessポンプのような、閉$d$-形式に対応するグローバルなオンサイト$U(1)$対称性の存在下で、他の高出力ポンプを構築するのに等しく適している。
そのような高次微分形式のコホモロジー類は位相不変量であり、短距離の絡み合った状態に対して量子化されることが期待されている。
我々は、$d=2$の非自明な高ベリークラスである、正確に解ける格子モデルを用いて、我々の構成を説明する。
We propose a systematic wave function based approach to construct topological invariants for families of lattice systems that are short-range entangled using local parameter spaces. This construction is particularly suitable when given a family of tensor networks that can be viewed as the ground states of $d$ dimensional lattice systems, for which we construct the closed $(d+2)$-form higher Berry curvature, which is a generalization of the well known 2-form Berry curvature. Such $(d+2)$-form higher Berry curvature characterizes a flow of $(d+1)$-form higher Berry curvature in the system. Our construction is equally suitable for constructing other higher pumps, such as the (higher) Thouless pump in the presence of a global on-site $U(1)$ symmetry, which corresponds to a closed $d$-form. The cohomology classes of such higher differential forms are topological invariants and are expected to be quantized for short-range entangled states. We illustrate our construction with exactly solvable lattice models that are in nontrivial higher Berry classes in $d=2$. | 翻訳日:2024-05-10 15:02:12 公開日:2024-05-08 |
# 2+1)次元における射影絡み合ったペア状態からの高次ベリー位相
Higher Berry Phase from Projected Entangled Pair States in (2+1) dimensions ( http://arxiv.org/abs/2405.05325v1 ) ライセンス: Link先を確認 | Shuhei Ohyama, Shinsei Ryu, | (参考訳) 我々は、あるパラメータ空間$X$上でパラメータ化される$d$空間次元における可逆多体量子状態の族を考える。
そのような族の空間は、コホモロジー群 $\mathrm{H}^{d+2}(X;\mathbb{Z})$ で分類される位相的に異なるセクターを持つことが期待されている。
これらの位相セクターは、高次ベリー位相と呼ばれるベリー位相の一般化から構築された位相不変量によって区別される。
前回の研究では、3つの1次元多体量子状態(``三重内積'')に対して一般化された内積を導入した。
一次元の可逆状態に対する高次ベリー位相は、三重内部積を通じて導入することができ、さらに、その値を$\mathrm{H}^{3}(X;\mathbb{Z})$とする位相不変量も抽出できる。
本稿では、4つの2次元可逆量子多体状態の内部積を紹介する。
2d非可逆状態のパラメータ化族における位相的非自明性を測定するためにこれを用いる。
特に、そのような族の位相不変量は $\mathrm{H}^{4}(X;\mathbb{Z})$ で値を取る。
我々の定式化は、投影された絡み合ったペア状態(PEPS)を使用する。
また、$\mathbb{R}P^4$上でパラメータ化された2d非可逆状態の非自明なパラメータ化族の特定の例を構築し、この式の使用を実証する。
対称性に保護された位相相の応用についても論じる。
We consider families of invertible many-body quantum states in $d$ spatial dimensions that are parameterized over some parameter space $X$. The space of such families is expected to have topologically distinct sectors classified by the cohomology group $\mathrm{H}^{d+2}(X;\mathbb{Z})$. These topological sectors are distinguished by a topological invariant built from a generalization of the Berry phase, called the higher Berry phase. In the previous work, we introduced a generalized inner product for three one-dimensional many-body quantum states, (``triple inner product''). The higher Berry phase for one-dimensional invertible states can be introduced through the triple inner product and furthermore the topological invariant, which takes its value in $\mathrm{H}^{3}(X;\mathbb{Z})$, can be extracted. In this paper, we introduce an inner product of four two-dimensional invertible quantum many-body states. We use it to measure the topological nontriviality of parameterized families of 2d invertible states. In particular, we define a topological invariant of such families that takes values in $\mathrm{H}^{4}(X;\mathbb{Z})$. Our formalism uses projected entangled pair states (PEPS). We also construct a specific example of non-trivial parameterized families of 2d invertible states parameterized over $\mathbb{R}P^4$ and demonstrate the use of our formula. Applications for symmetry-protected topological phases are also discussed. | 翻訳日:2024-05-10 15:02:12 公開日:2024-05-08 |
# バックフローのない情報再生:非マルコビアン性の非因果的説明
Information revival without backflow: non-causal explanations of non-Markovianity ( http://arxiv.org/abs/2405.05326v1 ) ライセンス: Link先を確認 | Francesco Buscemi, Rajeev Gangwar, Kaumudibikash Goswami, Himanshu Badhani, Tanmoy Pandit, Brij Mohan, Siddhartha Das, Manabendra Nath Bera, | (参考訳) 情報回復の研究は、あるデータ処理の不平等の違反を目撃し、非マルコフ過程の研究において重要なパラダイムとなった。
ここでは「リバイバルズ」と「バックフローズ」の概念、すなわち環境からシステムに戻す情報の流れが異なっており、バックフローが起こらずに情報リバイバルが発生する可能性があると論じる。
本稿では,非因果リバイバル現象を詳細に検討し,短いマルコフ鎖の理論と非マルコフ鎖の正解性との関係について考察する。
副産物として、実際のバックフローを伴うプロセスに焦点を合わせながら、非因果リバイバルしか持たないプロセスを除いて、マルコビアン性の非凸性の問題を解決し、真の非マルコビアン性の凸資源理論の構築を可能にすることを実証する。
The study of information revivals, witnessing the violation of certain data-processing inequalities, has provided an important paradigm in the study of non-Markovian processes. Although often used interchangeably, we argue here that the notions of ``revivals'' and ``backflows'', i.e., flows of information from the environment back into the system, are distinct: an information revival can occur without any backflow ever taking place. In this paper, we examine in detail the phenomenon of non-causal revivals and relate them to the theory of short Markov chains and squashed non-Markovianity. As a byproduct, we demonstrate that focusing on processes with actual backflows, while excluding those with only non-causal revivals, resolves the issue of non-convexity of Markovianity, thus enabling the construction of a convex resource theory of genuine non-Markovianity. | 翻訳日:2024-05-10 15:02:12 公開日:2024-05-08 |
# マトリックス製品状態のための高次ベリー接続
Higher Berry Connection for Matrix Product States ( http://arxiv.org/abs/2405.05327v1 ) ライセンス: Link先を確認 | Shuhei Ohyama, Shinsei Ryu, | (参考訳) ある空間次元において、あるパラメータ空間上でパラメータ化された短距離多体量子状態の族は、高次ベリー位相から構築された位相不変量(ベリー位相の多体一般化)によって位相的に区別され分類される。
以前の研究は、基礎となる数学的構造(ゲルベ構造)を特定し、高次ベリー位相と位相不変量の抽出を可能にする、量子力学における内部積の一般化である多重波関数重なりを導入した。
本稿では,これらの研究に基づいて,パラメータ空間上のパラメータ化行列積状態(MPS)の族に対する接続,より高いベリー接続を導入する。
簡単な非自明なモデルに対する我々の公式の使用を実証する。
In one spatial dimension, families of short-range entangled many-body quantum states, parameterized over some parameter space, can be topologically distinguished and classified by topological invariants built from the higher Berry phase -- a many-body generalization of the Berry phase. Previous works identified the underlying mathematical structure (the gerbe structure) and introduced a multi-wavefunction overlap, a generalization of the inner product in quantum mechanics, which allows for the extraction of the higher Berry phase and topological invariants. In this paper, building on these works, we introduce a connection, the higher Berry connection, for a family of parameterized Matrix Product States (MPS) over a parameter space. We demonstrate the use of our formula for simple non-trivial models. | 翻訳日:2024-05-10 15:02:12 公開日:2024-05-08 |
# KV-Runahead:並列キー値キャッシュ生成によるスケーラブル因果LLM推論
KV-Runahead: Scalable Causal LLM Inference by Parallel Key-Value Cache Generation ( http://arxiv.org/abs/2405.05329v1 ) ライセンス: Link先を確認 | Minsik Cho, Mohammad Rastegari, Devang Naik, | (参考訳) 大規模言語モデル(LLM)推論は、最初のトークンを出力するプロンプト(またはプリフィル)フェーズと、後続のトークンを生成する拡張(またはデコード)フェーズの2つのフェーズを持つ。
本研究では,高速な並列化手法KV-Runaheadを提案する。
鍵となる観察は、キー値キャッシュ(KV-cache)のため、拡張フェーズがプロンプトフェーズよりも早くトークンを生成することである。
したがって、KV-Runaheadは、複数のプロセスを編成してKV-cacheを発生させ、TTFT(time-to-first-token)を最小化することにより、プロンプトフェーズを並列化する。
KV-cache方式は2つの大きな利点がある。
KV-cacheは因果注意マップを利用するように設計されているため、計算と計算を自動的に最小化する。
第二に、既に拡張子相が存在するため、KV-Runaheadの実装が容易である。
さらに、(因果注意による)不均一なKVキャッシュ生成を処理し、TTFTを最適化するために、コンテキストレベルの負荷分散を提案する。
テンソルやシーケンシャル並列化のような既存の並列化方式と比較して、KV-RunaheadはLlama 7BとFalcon 7Bでそれぞれ1.4倍、1.6倍のスピードアップを提供できることを示した。
Large Language Model or LLM inference has two phases, the prompt (or prefill) phase to output the first token and the extension (or decoding) phase to the generate subsequent tokens. In this work, we propose an efficient parallelization scheme, KV-Runahead to accelerate the prompt phase. The key observation is that the extension phase generates tokens faster than the prompt phase because of key-value cache (KV-cache). Hence, KV-Runahead parallelizes the prompt phase by orchestrating multiple processes to populate the KV-cache and minimizes the time-to-first-token (TTFT). Dual-purposing the KV-cache scheme has two main benefits. Fist, since KV-cache is designed to leverage the causal attention map, we minimize computation and computation automatically. Second, since it already exists for the exten- sion phase, KV-Runahead is easy to implement. We further propose context-level load-balancing to handle uneven KV-cache generation (due to the causal attention) and to optimize TTFT. Compared with an existing parallelization scheme such as tensor or sequential parallelization where keys and values are locally generated and exchanged via all-gather collectives, our experimental results demonstrate that KV-Runahead can offer over 1.4x and 1.6x speedups for Llama 7B and Falcon 7B respectively. | 翻訳日:2024-05-10 15:02:12 公開日:2024-05-08 |
# バレン高原はトラップで沼地になっている
Barren plateaus are swamped with traps ( http://arxiv.org/abs/2405.05332v1 ) ライセンス: Link先を確認 | Nikita A. Nemkov, Evgeniy O. Kiktenko, Aleksey K. Fedorov, | (参考訳) 変分量子アルゴリズムと量子機械学習モデルの効率的なトレーニングを防止する2つの主な課題は、局所ミニマとバレンプラトーである。
通常、バレンプラトーは深い回路と結びついており、浅い回路は極小の局所的な極小腫に悩まされていることが示されている。
本研究では,バレン高原に限らず,多くの局所性ミニマを指数関数的に生成する単純なメカニズムを指摘する。
これらの局所ミニマは自明な解であり、損失関数のいくつかの項だけを最適化し、残りはバレン高原に残される。
より正確には、近似局所極小の存在を示し、単一の損失項を最適化し、正確な局所極小の存在を予想し、すべての損失関数項の対数分数のみを最適化する。
以上の結果から,初期化戦略をバレン高原問題に対する有意義な解に導くには,単に大きな勾配を生じるだけでは不十分であることが示唆された。
Two main challenges preventing efficient training of variational quantum algorithms and quantum machine learning models are local minima and barren plateaus. Typically, barren plateaus are associated with deep circuits, while shallow circuits have been shown to suffer from suboptimal local minima. We point out a simple mechanism that creates exponentially many poor local minima specifically in the barren plateau regime. These local minima are trivial solutions, optimizing only a few terms in the loss function, leaving the rest on their barren plateaus. More precisely, we show the existence of approximate local minima, optimizing a single loss term, and conjecture the existence of exact local minima, optimizing only a logarithmic fraction of all loss function terms. One implication of our findings is that simply yielding large gradients is not sufficient to render an initialization strategy a meaningful solution to the barren plateau problem. | 翻訳日:2024-05-10 15:02:12 公開日:2024-05-08 |
# 多重動的モード分解
Multiplicative Dynamic Mode Decomposition ( http://arxiv.org/abs/2405.05334v1 ) ライセンス: Link先を確認 | Nicolas Boullé, Matthew J. Colbrook, | (参考訳) クープマン作用素は、非線形力学系を線型化する無限次元作用素であり、スペクトル特性の研究を容易にし、観測可能な量の時間発展の予測を可能にする。
最近の手法はキー構造を保ちながらクープマン作用素を近似することを目的としている。
しかし、クープマン作用素の近似は一般に有限次元部分空間において系の振る舞いを捉えるために観測可能な辞書を必要とする。
これらの関数の選択は、しばしばヒューリスティックであり、スペクトル情報が失われ、構造保存が著しく複雑になる可能性がある。
本稿では,その有限次元近似においてクープマン作用素に固有の乗法構造を強制する乗法動的モード分解(MultDMD)を提案する。
この乗法特性を活用することで、観測変数の選択をガイドし、行列近似の制約付き最適化問題を定義し、効率よく解ける。
MultDMDは有限次元近似に対する構造化されたアプローチを示し、クープマン作用素のスペクトル特性をより正確に反映することができる。
我々は,MultDMDの理論的枠組みについて詳述し,その定式化,最適化戦略,収束特性について詳述する。
MultDMDの有効性は、非線形振り子、ローレンツ系、流体力学データなどによって示され、ノイズに対する顕著な堅牢性を示す。
Koopman operators are infinite-dimensional operators that linearize nonlinear dynamical systems, facilitating the study of their spectral properties and enabling the prediction of the time evolution of observable quantities. Recent methods have aimed to approximate Koopman operators while preserving key structures. However, approximating Koopman operators typically requires a dictionary of observables to capture the system's behavior in a finite-dimensional subspace. The selection of these functions is often heuristic, may result in the loss of spectral information, and can severely complicate structure preservation. This paper introduces Multiplicative Dynamic Mode Decomposition (MultDMD), which enforces the multiplicative structure inherent in the Koopman operator within its finite-dimensional approximation. Leveraging this multiplicative property, we guide the selection of observables and define a constrained optimization problem for the matrix approximation, which can be efficiently solved. MultDMD presents a structured approach to finite-dimensional approximations and can more accurately reflect the spectral properties of the Koopman operator. We elaborate on the theoretical framework of MultDMD, detailing its formulation, optimization strategy, and convergence properties. The efficacy of MultDMD is demonstrated through several examples, including the nonlinear pendulum, the Lorenz system, and fluid dynamics data, where we demonstrate its remarkable robustness to noise. | 翻訳日:2024-05-10 15:02:12 公開日:2024-05-08 |
# 波動関数の崩壊, ローレンツ不変性, および3番目の相対性理論
Wave Function Collapse, Lorentz Invariance, and the Third Postulate of Relativity ( http://arxiv.org/abs/2405.05335v1 ) ライセンス: Link先を確認 | Edward J. Gillis, | (参考訳) 測定中の量子状態の変化は確率的かつ非局所的である。
これらの2つの特徴は、相対性理論との整合性を保証し、保存法則を維持するために互いに補完する。
非局所的絡み合い関係は確率論的理論において保存法を強制する手段を提供するが、非局所的効果の確率的性質は情報の超光的伝達を妨げる。
これらの測定によって引き起こされる基本的な物理過程の変化を説明するためには、これらの2つの重要な特徴を考慮する必要がある。
これを行う一つの方法は、確率的非線形項を加えることによってシュレーディンガー方程式を変更することである。
過去数十年にわたり、このような提案がいくつもなされてきた。
最近提案された方程式は、波動関数の崩壊は、個々のインスタンスにおける保存則の厳密な遵守を維持するために、測定を構成する種類の相互作用の系列によって引き起こされるという仮定に基づいており、また、新しいアドホックな物理定数を導入する必要性も排除されている。
この研究において、この修正されたシュレーディンガー方程式は自然にローレンツ不変であることが示されている。
さらに、それが必要となる追加の時空構造は、空間的分離作用素(および測度)が可換であるという仮定を実装する方法を提供し、局所可換性の仮定は相対性理論の第3の仮定と見なすべきであると論じられている。
The changes that quantum states undergo during measurement are both probabilistic and nonlocal. These two characteristics complement one another to insure compatibility with relativity and maintain conservation laws. Nonlocal entanglement relations provide a means to enforce conservation laws in a probabilistic theory, while the probabilistic nature of nonlocal effects prevents the superluminal transmission of information. In order to explain these measurement-induced changes in terms of fundamental physical processes it is necessary to take these two key characteristics into account. One way to do this is to modify the Schroedinger equation by adding stochastic, nonlinear terms. A number of such proposals have been made over the past few decades. A recently proposed equation based on the assumption that wave function collapse is induced by a sequence of correlating interactions of the kind that constitute measurements has been shown to maintain strict adherence to conservation laws in individual instances, and has also eliminated the need to introduce any new, ad hoc physical constants. In this work it is shown that this modified Schroedinger equation is naturally Lorentz invariant. It is further argued that the additional spacetime structures that it requires provide a way to implement the assumption that spacelike-separated operators (and measurements) commute, and that this assumption of local commutativity should be regarded as a third postulate of relativity. | 翻訳日:2024-05-10 15:02:12 公開日:2024-05-08 |
# 共同半教師付きコントラスト学習はゼロショットドメイン適応とマルチドメインセグメンテーションを可能にする
Joint semi-supervised and contrastive learning enables zero-shot domain-adaptation and multi-domain segmentation ( http://arxiv.org/abs/2405.05336v1 ) ライセンス: Link先を確認 | Alvaro Gomariz, Yusuke Kikuchi, Yun Yvonna Li, Thomas Albrecht, Andreas Maunz, Daniela Ferrara, Huanxiang Lu, Orcun Goksel, | (参考訳) その効果にもかかわらず、現在のディープラーニングモデルは、外観と内容の異なる異なる異なるドメインからのイメージによって、課題に直面している。
異なるドメインにまたがってボリューム画像を分割する汎用的なフレームワークであるSegCLRを紹介し,ラベル付きデータとラベルなしデータの両方から効果的に学習するために,教師付き学習とコントラスト学習を同時に利用した。
3次元光コヒーレンス・トモグラフィー(OCT)における網膜液分画の3つの臨床データセットと10種類のネットワーク初期化の検証を含む総合的な評価により,SegCLRの優れた性能を実証した。
教師なしのドメイン適応コンテキストでは、SegCLRは、意図されたターゲットドメインでトレーニングされた教師付き上位バウンドモデルと同等の結果を得る。
特に,SegCLRフレームワークのセグメンテーション性能は,対象ドメインからのラベルなしデータの豊富さに左右され,SegCLRの効果的なゼロショットドメイン適応拡張も提案し,ターゲットドメイン情報の必要性を排除した。
このことは,標準教師付きセグメンテーショントレーニングにおける対照的な損失が,本質的にドメイン内および外部の両方のテストデータに対してより一般化可能な,優れたモデルに繋がることを示している。
さらに、ラベル付きデータを含む複数のドメインで現実的なシナリオでSegCLRをデプロイするための実用的なソリューションを提案する。
したがって、当社のフレームワークは、ラベル付き、ラベルなし、あるいは存在しない、データの可用性に関わらず、マルチドメインアプリケーションにおけるディープラーニングベースのセグメンテーションの境界を押し進めます。
Despite their effectiveness, current deep learning models face challenges with images coming from different domains with varying appearance and content. We introduce SegCLR, a versatile framework designed to segment volumetric images across different domains, employing supervised and contrastive learning simultaneously to effectively learn from both labeled and unlabeled data. We demonstrate the superior performance of SegCLR through a comprehensive evaluation involving three diverse clinical datasets of retinal fluid segmentation in 3D Optical Coherence Tomography (OCT), various network configurations, and verification across 10 different network initializations. In an unsupervised domain adaptation context, SegCLR achieves results on par with a supervised upper-bound model trained on the intended target domain. Notably, we discover that the segmentation performance of SegCLR framework is marginally impacted by the abundance of unlabeled data from the target domain, thereby we also propose an effective zero-shot domain adaptation extension of SegCLR, eliminating the need for any target domain information. This shows that our proposed addition of contrastive loss in standard supervised training for segmentation leads to superior models, inherently more generalizable to both in- and out-of-domain test data. We additionally propose a pragmatic solution for SegCLR deployment in realistic scenarios with multiple domains containing labeled data. Accordingly, our framework pushes the boundaries of deep-learning based segmentation in multi-domain applications, regardless of data availability - labeled, unlabeled, or nonexistent. | 翻訳日:2024-05-10 15:02:12 公開日:2024-05-08 |
# 表面コードパッチ間のCNOTにおける誤りのキャラクタリゼーション
Characterization of errors in a CNOT between surface code patches ( http://arxiv.org/abs/2405.05337v1 ) ライセンス: Link先を確認 | Bálint Domokos, Áron Márton, János K. Asbóth, | (参考訳) 現在の実験では、誤り訂正量子ビット上の小さな量子回路を既に実現しているため、これらのフォールトトレラント回路の論理的エラーチャネルに対する物理誤差の影響を十分に理解することが重要である。
本稿では,2つの表面コードパッチ間の格子サージェリーに基づくCNOT操作について,現象的誤差モデルを用いて検討する。
i) CNOTの基本構成ブロックである2量子論理パウリ測度に対して、各パッチのサイズ(コード距離)である$d$に等しい安定化器測定ラウンドの数を最適化する。
物理的なエラーや読み出しエラーの頻度や、コードパッチの分離によって、最適な数値が$d$より大きいか小さいかが分かる。
(II)格子サージェリーベースのCNOTの2ビット論理的誤りチャネルを完全に特徴づける。
我々は、CNOTプロトコルの対称性を見つけ、論理的エラーチャネルの対称性をもたらす。
また、論理レベルでのXとZの誤差の相関は、最小ウェイト復号法で抑制される。
As current experiments already realize small quantum circuits on error corrected qubits, it is important to fully understand the effect of physical errors on the logical error channels of these fault-tolerant circuits. Here, we investigate a lattice-surgery-based CNOT operation between two surface code patches under phenomenological error models. (i) For two-qubit logical Pauli measurements -- the elementary building block of the CNOT -- we optimize the number of stabilizer measurement rounds, usually taken equal to $d$, the size (code distance) of each patch. We find that the optimal number can be greater or smaller than $d$, depending on the rate of physical and readout errors, and the separation between the code patches. (ii) We fully characterize the two-qubit logical error channel of the lattice-surgery-based CNOT. We find a symmetry of the CNOT protocol, that results in a symmetry of the logical error channel. We also find that correlations between X and Z errors on the logical level are suppressed under minimum weight decoding. | 翻訳日:2024-05-10 15:02:12 公開日:2024-05-08 |
# 小型空間におけるスケッチングとバイアス低減による最小方形分散化
Distributed Least Squares in Small Space via Sketching and Bias Reduction ( http://arxiv.org/abs/2405.05343v1 ) ライセンス: Link先を確認 | Sachin Garg, Kevin Tan, Michał Dereziński, | (参考訳) マトリックススケッチは、大きなデータ行列のサイズを減らす強力なツールである。
しかし、最小二乗回帰のようなタスクの正確な推定器を復元したい場合、このサイズ削減には根本的な制限がある。
誤差よりも推定器のバイアスを最小限に抑えるスケッチ手法を設計することで,これらの制限を分散環境で回避できることを示す。
特に、最適空間と現在の行列乗算時間で動作するスパーススケッチ法を提案し、2つのパスデータを用いて、ほぼ偏りのない最小二乗推定器を復元する。
これにより、最小二乗および関連するタスクに対する新しい通信効率の高い分散平均化アルゴリズムが実現され、いくつかの先行したアプローチが直接改善される。
我々の重要な新規性は、スケッチされた最小二乗に対する新しいバイアス分析であり、スケッチの間隔への依存を鋭く評価する。
この手法には、スケッチから生じるランダム行列に対する決定論的同値の非漸近解析に独立して興味を持つ、新しい高次の制限されたベイ=シルバーシュタインの不等式が含まれる。
Matrix sketching is a powerful tool for reducing the size of large data matrices. Yet there are fundamental limitations to this size reduction when we want to recover an accurate estimator for a task such as least square regression. We show that these limitations can be circumvented in the distributed setting by designing sketching methods that minimize the bias of the estimator, rather than its error. In particular, we give a sparse sketching method running in optimal space and current matrix multiplication time, which recovers a nearly-unbiased least squares estimator using two passes over the data. This leads to new communication-efficient distributed averaging algorithms for least squares and related tasks, which directly improve on several prior approaches. Our key novelty is a new bias analysis for sketched least squares, giving a sharp characterization of its dependence on the sketch sparsity. The techniques include new higher-moment restricted Bai-Silverstein inequalities, which are of independent interest to the non-asymptotic analysis of deterministic equivalents for random matrices that arise from sketching. | 翻訳日:2024-05-10 15:02:12 公開日:2024-05-08 |
# QuaLLM:オンラインフォーラムから定量的洞察を抽出するLLMベースのフレームワーク
QuaLLM: An LLM-based Framework to Extract Quantitative Insights from Online Forums ( http://arxiv.org/abs/2405.05345v1 ) ライセンス: Link先を確認 | Varun Nagaraj Rao, Eesha Agarwal, Samantha Dalal, Dan Calacci, Andrés Monroy-Hernández, | (参考訳) オンラインディスカッションフォーラムは、幅広い現実世界のコミュニティの懸念を理解するために重要なデータを提供する。
しかし、主題分析やトピックモデリングなど、これらのデータを分析するのに使用される定性的で定量的な手法は、人間の読みやすい形式に出力を変換するためには、スケールや多大な人的努力が不要である。
本研究は,オンラインフォーラム上でテキストデータから定量的洞察を抽出する新しいLCMベースのフレームワークであるQuaLLMを紹介する。
フレームワークは、新しいプロンプト方法論と評価戦略から成り立っている。
このフレームワークを適用して、Redditの2つのライドシェアワーカーコミュニティからの100万以上のコメントを分析しました。
AIとアルゴリズムのプラットフォーム決定に関する重要な労働者の懸念を明らかにし、労働者の洞察に関する規制の要求に応えました。
簡単に言うと、我々の研究は、オンラインフォーラムから懸念に答えるためにAIによる定量的データ分析の新しい先例を定めている。
Online discussion forums provide crucial data to understand the concerns of a wide range of real-world communities. However, the typical qualitative and quantitative methods used to analyze those data, such as thematic analysis and topic modeling, are infeasible to scale or require significant human effort to translate outputs to human readable forms. This study introduces QuaLLM, a novel LLM-based framework to analyze and extract quantitative insights from text data on online forums. The framework consists of a novel prompting methodology and evaluation strategy. We applied this framework to analyze over one million comments from two Reddit's rideshare worker communities, marking the largest study of its type. We uncover significant worker concerns regarding AI and algorithmic platform decisions, responding to regulatory calls about worker insights. In short, our work sets a new precedent for AI-assisted quantitative data analysis to surface concerns from online forums. | 翻訳日:2024-05-10 15:02:12 公開日:2024-05-08 |
# 教育プログラム修復のベンチマーク
Benchmarking Educational Program Repair ( http://arxiv.org/abs/2405.05347v1 ) ライセンス: Link先を確認 | Charles Koutcheme, Nicola Dainese, Sami Sarsa, Juho Leinonen, Arto Hellas, Paul Denny, | (参考訳) 大規模言語モデル(LLM)の出現は、様々な教育課題に応用できる可能性から、大きな関心を呼んだ。
例えば、最近のプログラミング教育では、LLMを使用して学習リソースを生成し、エラーメッセージを改善し、コードに対するフィードバックを提供している。
しかし、フィールド内での進捗を制限する要因の1つは、研究の多くはビースモークデータセットと異なる評価指標を使用しており、結果間の直接比較は信頼性が低いことである。
したがって、競合するアプローチの公平な比較を容易にするため、標準化とベンチマークの必要性が高まっている。
LLMが大きな約束を果たすタスクのひとつは、デバッグサポートと次のステップのヒントを学生に提供するために使用できるプログラムの修復である。
本稿では,新しい教育プログラム修復ベンチマークを提案する。
2つの高品質な公開プログラミングデータセットをキュレートし、修復の質を近似する新しい評価基準Rouge@kを導入し、ベースライン性能を確立するための最新の5つのモデルを評価する。
The emergence of large language models (LLMs) has sparked enormous interest due to their potential application across a range of educational tasks. For example, recent work in programming education has used LLMs to generate learning resources, improve error messages, and provide feedback on code. However, one factor that limits progress within the field is that much of the research uses bespoke datasets and different evaluation metrics, making direct comparisons between results unreliable. Thus, there is a pressing need for standardization and benchmarks that facilitate the equitable comparison of competing approaches. One task where LLMs show great promise is program repair, which can be used to provide debugging support and next-step hints to students. In this article, we propose a novel educational program repair benchmark. We curate two high-quality publicly available programming datasets, present a unified evaluation procedure introducing a novel evaluation metric rouge@k for approximating the quality of repairs, and evaluate a set of five recent models to establish baseline performance. | 翻訳日:2024-05-10 14:52:18 公開日:2024-05-08 |
# LIMEによるLLM後説明性に及ぼすモデルサイズの影響
The Effect of Model Size on LLM Post-hoc Explainability via LIME ( http://arxiv.org/abs/2405.05348v1 ) ライセンス: Link先を確認 | Henning Heyen, Amy Widdicombe, Noah Y. Siegel, Maria Perez-Ortiz, Philip Treleaven, | (参考訳) 大規模言語モデル(LLM)は、パフォーマンスを高めるために大きくなりつつある。
しかし、この傾向による説明可能性の影響についてはほとんど分かっていない。
本研究では、自然言語推論(NLI)とゼロショット分類(ZSC)の4つの異なるサイズのDeBERTaV3モデルのLIME説明について検討する。
我々は、モデルの内部決定プロセスへの忠実さと、その妥当性、すなわち人的説明との合意に基づいて、その説明を評価する。
重要な発見は、モデルサイズの増加はモデル性能の改善にもかかわらず、妥当性と相関せず、モデルサイズが増加するにつれて、LIME説明とモデル内部プロセスの相違が示唆されることである。
以上の結果から,NLI文脈における忠実度指標に関する限界が示唆された。
Large language models (LLMs) are becoming bigger to boost performance. However, little is known about how explainability is affected by this trend. This work explores LIME explanations for DeBERTaV3 models of four different sizes on natural language inference (NLI) and zero-shot classification (ZSC) tasks. We evaluate the explanations based on their faithfulness to the models' internal decision processes and their plausibility, i.e. their agreement with human explanations. The key finding is that increased model size does not correlate with plausibility despite improved model performance, suggesting a misalignment between the LIME explanations and the models' internal processes as model size increases. Our results further suggest limitations regarding faithfulness metrics in NLI contexts. | 翻訳日:2024-05-10 14:52:18 公開日:2024-05-08 |
# ポリシー誘導勾配探索によるオフラインモデルベース最適化
Offline Model-Based Optimization via Policy-Guided Gradient Search ( http://arxiv.org/abs/2405.05349v1 ) ライセンス: Link先を確認 | Yassine Chemingui, Aryan Deshwal, Trong Nghia Hoang, Janardhan Rao Doppa, | (参考訳) オフライン最適化は、タンパク質、薬物、航空機の設計を含む多くの実験工学分野において、評価データ収集のためのオンライン実験が高価すぎるか危険である、という新たな問題である。
それを避けるために、ある固定された入力セットでオフライン評価のみを与えられた未知の関数を最適化する必要がある。
この問題の簡単な解決策は、未知関数の代理モデルを学習し、代わりにこの代理を最適化することである。
しかし、このような単純最適化は、オフラインデータセット外の入力に対するサロゲートの過度な過大評価(おそらく関数評価のバイアス付きサンプルに過度に適合しているため)を誤って行う傾向にある。
この課題に対処する以前のアプローチは、堅牢な代理モデルの学習に重点を置いていた。
しかし、それらの探索戦略は実際のオフラインデータではなく代理モデルから導かれる。
この重要なギャップを埋めるために、オフライン強化学習問題として再構成することでオフライン最適化のための新しい学習と探索の視点を導入する。
提案手法は, オフラインデータから生成されたサロゲートモデルに対して, 最適ポリシーを明示的に学習する。
複数のベンチマークにおける実験結果から,学習した最適化ポリシーを既存のオフラインサロゲートと組み合わせることで,最適化性能を大幅に向上できることが示された。
Offline optimization is an emerging problem in many experimental engineering domains including protein, drug or aircraft design, where online experimentation to collect evaluation data is too expensive or dangerous. To avoid that, one has to optimize an unknown function given only its offline evaluation at a fixed set of inputs. A naive solution to this problem is to learn a surrogate model of the unknown function and optimize this surrogate instead. However, such a naive optimizer is prone to erroneous overestimation of the surrogate (possibly due to over-fitting on a biased sample of function evaluation) on inputs outside the offline dataset. Prior approaches addressing this challenge have primarily focused on learning robust surrogate models. However, their search strategies are derived from the surrogate model rather than the actual offline data. To fill this important gap, we introduce a new learning-to-search perspective for offline optimization by reformulating it as an offline reinforcement learning problem. Our proposed policy-guided gradient search approach explicitly learns the best policy for a given surrogate model created from the offline data. Our empirical results on multiple benchmarks demonstrate that the learned optimization policy can be combined with existing offline surrogates to significantly improve the optimization performance. | 翻訳日:2024-05-10 14:52:18 公開日:2024-05-08 |
# シリコン中のスピン量子ビットの光単発読み出し
Optical single-shot readout of spin qubits in silicon ( http://arxiv.org/abs/2405.05351v1 ) ライセンス: Link先を確認 | Andreas Gritsch, Alexander Ulanowski, Jakob Pforr, Andreas Reiserer, | (参考訳) デジタル革命はシリコン製のナノ構造デバイスによって実現された。
シリコンナノファブリケーションの未熟な成熟は統合とアップスケーリングに独特な利点をもたらすが、その好ましい材料特性は1時間長のコヒーレンスを持つ量子メモリを促進する。
小さなスピン量子レジスタは誤り訂正しきい値を超えたが、大きな量子コンピュータとの接続は顕著な課題である。
この目的のために、光インターフェースを持つスピン量子ビットは、熱負荷を最小限に抑え、クロストークを排除し、室温光子ルーティングによる大きな接続を提供するモジュラー量子コンピューティングアーキテクチャへのアクセスを可能にする。
そこで我々は,ナノフォトニック共振器のエルビウムドーパントをベースとした,このような効率的なスピン光子インタフェースを実装した。
これにより、光子干渉による遠方スピンの絡み合いを解消し、パーセルの光寿命を超えるシリコン中のスピンの光単発読み出しを実演する。
エルビウムドーパントは、光ファイバーの最小損失帯域でコヒーレント光子を放出することができ、各共振器に数十個の量子ビットをスペクトル多重化することができるため、実証されたハードウェアプラットフォームは、分散量子情報処理と集積シリコンデバイスに基づく量子インターネットの実装にユニークな約束を提供する。
The digital revolution was enabled by nanostructured devices made from silicon. A similar prominence of this material is anticipated in the upcoming quantum era as the unrivalled maturity of silicon nanofabrication offers unique advantages for integration and up-scaling, while its favorable material properties facilitate quantum memories with hour-long coherence. While small spin-qubit registers have exceeded error-correction thresholds, their connection to large quantum computers is an outstanding challenge. To this end, spin qubits with optical interfaces offer key advantages: they can minimize the heat load and give access to modular quantum computing architectures that eliminate cross-talk and offer a large connectivity via room-temperature photon routing. Here, we implement such an efficient spin-photon interface based on erbium dopants in a nanophotonic resonator. We thus demonstrate optical single-shot readout of a spin in silicon whose coherence exceeds the Purcell-enhanced optical lifetime, paving the way for entangling remote spins via photon interference. As erbium dopants can emit coherent photons in the minimal-loss band of optical fibers, and tens of such qubits can be spectrally multiplexed in each resonator, the demonstrated hardware platform offers unique promise for distributed quantum information processing and the implementation of a quantum internet based on integrated silicon devices. | 翻訳日:2024-05-10 14:52:18 公開日:2024-05-08 |
# Transfer-LMR: 異種交通シナリオにおける重機駆動行動認識
Transfer-LMR: Heavy-Tail Driving Behavior Recognition in Diverse Traffic Scenarios ( http://arxiv.org/abs/2405.05354v1 ) ライセンス: Link先を確認 | Chirag Parikh, Ravi Shankar Mishra, Rohan Chandra, Ravi Kiran Sarvadevabhatla, | (参考訳) 運転行動を認識することは、推論、計画、ナビゲーションといった下流タスクにとって重要である。
既存のビデオ認識アプローチは、一般的な動作(例えば、"drive straight"、"brake"、"turn left/right"など)でうまく機能する。
しかし、その性能は、通常、振る舞いクラス分布の尾に現れる過度に表現された/希少な振る舞いのサブパーである。
そこで本研究では,全ての運転行動クラスにおける認識性能向上のためのモジュール型トレーニングルーチンであるTransfer-LMRを提案する。
我々はMETEORとHDDデータセットに対する我々のアプローチを広範囲に評価した。
実験により, 提案手法の有効性, 特に過度に表現された運転行動の認識に対する効果が示された。
Recognizing driving behaviors is important for downstream tasks such as reasoning, planning, and navigation. Existing video recognition approaches work well for common behaviors (e.g. "drive straight", "brake", "turn left/right"). However, the performance is sub-par for underrepresented/rare behaviors typically found in tail of the behavior class distribution. To address this shortcoming, we propose Transfer-LMR, a modular training routine for improving the recognition performance across all driving behavior classes. We extensively evaluate our approach on METEOR and HDD datasets that contain rich yet heavy-tailed distribution of driving behaviors and span diverse traffic scenarios. The experimental results demonstrate the efficacy of our approach, especially for recognizing underrepresented/rare driving behaviors. | 翻訳日:2024-05-10 14:52:18 公開日:2024-05-08 |
# 魚眼画像を用いた適応型軽量全方位ステレオビジョンのための幾何学的インフォームド距離候補選択法
Geometry-Informed Distance Candidate Selection for Adaptive Lightweight Omnidirectional Stereo Vision with Fisheye Images ( http://arxiv.org/abs/2405.05355v1 ) ライセンス: Link先を確認 | Conner Pulling, Je Hon Tan, Yaoyu Hu, Sebastian Scherer, | (参考訳) 多視点ステレオ全方位距離推定は通常、多くの仮説的距離候補を持つコストボリュームを構築する必要がある。
移動ロボットが持つ限られた資源を考えると、コストボリューム構築プロセスは計算的に重いことが多い。
そこで本研究では,ごく少数の候補を利用でき,計算コストを低減できる距離候補選択法を提案する。
モデル変種集合における幾何インフォームド候補の利用を実演する。
ロボット展開中に候補を調整することにより,外在物やカメラの数が変化した場合,ジオメトリインフォームされた距離候補が事前訓練されたモデルの精度を向上させることも確認できた。
再トレーニングや微調整がなければ、我々のモデルは均等に分散した距離候補で訓練されたモデルより優れている。
モデルはハードウェアアクセラレーションバージョンとしてリリースされ、新しい専用大規模データセットが提供される。
プロジェクトページ、コード、データセットはhttps://theairlab.org/gicandidates/ で見ることができる。
Multi-view stereo omnidirectional distance estimation usually needs to build a cost volume with many hypothetical distance candidates. The cost volume building process is often computationally heavy considering the limited resources a mobile robot has. We propose a new geometry-informed way of distance candidates selection method which enables the use of a very small number of candidates and reduces the computational cost. We demonstrate the use of the geometry-informed candidates in a set of model variants. We find that by adjusting the candidates during robot deployment, our geometry-informed distance candidates also improve a pre-trained model's accuracy if the extrinsics or the number of cameras changes. Without any re-training or fine-tuning, our models outperform models trained with evenly distributed distance candidates. Models are also released as hardware-accelerated versions with a new dedicated large-scale dataset. The project page, code, and dataset can be found at https://theairlab.org/gicandidates/ . | 翻訳日:2024-05-10 14:52:18 公開日:2024-05-08 |
# LOC-ZSON:言語駆動型オブジェクト中心ゼロショットオブジェクト検索とナビゲーション
LOC-ZSON: Language-driven Object-Centric Zero-Shot Object Retrieval and Navigation ( http://arxiv.org/abs/2405.05363v1 ) ライセンス: Link先を確認 | Tianrui Guan, Yurou Yang, Harry Cheng, Muyuan Lin, Richard Kim, Rajasimman Madhivanan, Arnie Sen, Dinesh Manocha, | (参考訳) 本稿では,複雑なシーンにおけるオブジェクトナビゲーションタスクのための言語駆動型オブジェクト中心画像表現であるLOC-ZSONを提案する。
複雑なオブジェクトレベルのクエリを処理できる視覚言語モデル(VLM)のためのオブジェクト中心の画像表現とそれに対応する損失を提案する。
さらに,新しいLCMベースの拡張を設計し,トレーニング中の安定性とゼロショット推論のためのテンプレートをプロンプトする。
提案手法をAstroロボットに実装し,実環境とシミュレーション環境の両方にデプロイし,ゼロショットオブジェクトナビゲーションを実現する。
提案手法は,検索タスクの異なるベンチマーク設定のテキスト・ツー・イメージ・リコールにおいて,1.38~13.38%の改善を実現することができることを示す。
オブジェクトナビゲーションでは、シミュレーションと実世界のアプローチの利点を示し、ナビゲーションの成功率に関してそれぞれ5%と16.67%の改善を示している。
In this paper, we present LOC-ZSON, a novel Language-driven Object-Centric image representation for object navigation task within complex scenes. We propose an object-centric image representation and corresponding losses for visual-language model (VLM) fine-tuning, which can handle complex object-level queries. In addition, we design a novel LLM-based augmentation and prompt templates for stability during training and zero-shot inference. We implement our method on Astro robot and deploy it in both simulated and real-world environments for zero-shot object navigation. We show that our proposed method can achieve an improvement of 1.38 - 13.38% in terms of text-to-image recall on different benchmark settings for the retrieval task. For object navigation, we show the benefit of our approach in simulation and real world, showing 5% and 16.67% improvement in terms of navigation success rate, respectively. | 翻訳日:2024-05-10 14:52:18 公開日:2024-05-08 |
# システムの自然言語処理によるホロニックアーキテクチャの強化
Enhancing Holonic Architecture with Natural Language Processing for System of Systems ( http://arxiv.org/abs/2405.05365v1 ) ライセンス: Link先を確認 | Muhammad Ashfaq, Ahmed R. Sadik, Tommi Mikkonen, Muhammad Waseem, Niko M akitalo, | (参考訳) システム・オブ・システム(SoS)の複雑さと動的性質は、ホロンと呼ばれる構成系間の相互運用と協調機能を確保するために効率的な通信機構を必要とする。
本稿では,CGI(Conversational Generative Intelligence)技術の統合により,SoS内のホロトン通信を強化する革新的な手法を提案する。
提案手法は,CGI,特にLarge Language Models (LLMs) の進歩を活用し,ホロトンが自然言語命令を理解し,動作できるようにする。
これにより、より直感的な人間-ホロンの相互作用が促進され、社会的知性が改善され、最終的には多様なシステム間の協調性が向上する。
本稿では,CGIによるホロンの相互作用の概念的枠組みを概説し,SoSの適応性,ユーザビリティ,効率性への影響を論じ,今後の探索とプロトタイプ実装のステージを設定する。
The complexity and dynamic nature of System of Systems (SoS) necessitate efficient communication mechanisms to ensure interoperability and collaborative functioning among constituent systems, termed holons. This paper proposes an innovative approach to enhance holon communication within SoS through the integration of Conversational Generative Intelligence (CGI) techniques. Our approach leverages advancements in CGI, specifically Large Language Models (LLMs), to enable holons to understand and act on natural language instructions. This fosters more intuitive human-holon interactions, improving social intelligence and ultimately leading to better coordination among diverse systems. This position paper outlines a conceptual framework for CGI-enhanced holon interaction, discusses the potential impact on SoS adaptability, usability and efficiency, and sets the stage for future exploration and prototype implementation. | 翻訳日:2024-05-10 14:52:18 公開日:2024-05-08 |
# 対物的説明を用いたモデル再構成:決定境界シフトの緩和
Model Reconstruction Using Counterfactual Explanations: Mitigating the Decision Boundary Shift ( http://arxiv.org/abs/2405.05369v1 ) ライセンス: Link先を確認 | Pasan Dissanayake, Sanghamitra Dutta, | (参考訳) 対実的な説明は、最小の入力摂動で好ましいモデル結果を達成する方法を見つける。
しかし、反実的な説明は、元の(ターゲット)モデルと同様の予測を与えるために代理モデルを戦略的に訓練することで、モデルを盗むために利用することもできる。
本研究では, モデル抽出について, 因果的説明が決定境界にかなり近いという事実を特に活用して検討する。
そこで本研究では,従来の事例とは違って,一意の損失関数を用いて代理モデルを訓練するモデル抽出手法をCCA(Counterfactual Clamping Attack)と呼ぶ。
提案手法は,既存のモデル抽出攻撃において発生した決定境界シフトの問題を通常の事例として扱うことで緩和する。
また,モデル近似における誤差と,ポリトープ理論を用いたクエリ数との間には,新しい数学的関係を導出する。
実験結果から,本手法は,複数の実世界のデータセットにおいて,ターゲットと代理モデル間の忠実度の向上を図っている。
Counterfactual explanations find ways of achieving a favorable model outcome with minimum input perturbation. However, counterfactual explanations can also be exploited to steal the model by strategically training a surrogate model to give similar predictions as the original (target) model. In this work, we investigate model extraction by specifically leveraging the fact that the counterfactual explanations also lie quite close to the decision boundary. We propose a novel strategy for model extraction that we call Counterfactual Clamping Attack (CCA) which trains a surrogate model using a unique loss function that treats counterfactuals differently than ordinary instances. Our approach also alleviates the related problem of decision boundary shift that arises in existing model extraction attacks which treat counterfactuals as ordinary instances. We also derive novel mathematical relationships between the error in model approximation and the number of queries using polytope theory. Experimental results demonstrate that our strategy provides improved fidelity between the target and surrogate model predictions on several real world datasets. | 翻訳日:2024-05-10 14:52:18 公開日:2024-05-08 |
# Arctic-Embed: スケーラブルで効率的で正確なテキスト埋め込みモデル
Arctic-Embed: Scalable, Efficient, and Accurate Text Embedding Models ( http://arxiv.org/abs/2405.05374v1 ) ライセンス: Link先を確認 | Luke Merrick, Danmei Xu, Gaurav Nuti, Daniel Campos, | (参考訳) このレポートでは、‘texttt{arctic-embed}テキスト埋め込みモデル(22~3億3400万のパラメータとApache-2ライセンス下でオープンソース公開されている重みを含む5つのモデル)のファミリの背後にあるトレーニングデータセットの作成とレシピについて説明する。
リリース時点で、各モデルはMTEB Retrievalのリーダーボード上で、Cohereのembed-v3やOpen AIのtext-embed-3-largeのような、最大のモデルであるarctic-embed-lのクローズドソース埋め込みモデルで、最先端の検索精度を達成した。
トレーニングレシピの詳細に加えて、我々はいくつかの情報的アブレーション研究を行い、それが我々のモデルパフォーマンスの原因であると信じている。
This report describes the training dataset creation and recipe behind the family of \texttt{arctic-embed} text embedding models (a set of five models ranging from 22 to 334 million parameters with weights open-sourced under an Apache-2 license). At the time of their release, each model achieved state-of-the-art retrieval accuracy for models of their size on the MTEB Retrieval leaderboard, with the largest model, arctic-embed-l outperforming closed source embedding models such as Cohere's embed-v3 and Open AI's text-embed-3-large. In addition to the details of our training recipe, we have provided several informative ablation studies, which we believe are the cause of our model performance. | 翻訳日:2024-05-10 14:52:18 公開日:2024-05-08 |
# クレイル・MT:ラテンアメリカ、カリブ、コロニアル・アフリカ・クレオール語のためのMTを構築する
Kreyòl-MT: Building MT for Latin American, Caribbean and Colonial African Creole Languages ( http://arxiv.org/abs/2405.05376v1 ) ライセンス: Link先を確認 | Nathaniel R. Robinson, Raj Dabre, Ammon Shurtz, Rasul Dent, Onenamiyi Onesi, Claire Bizon Monroc, Loïc Grobol, Hasan Muhammad, Ashi Garg, Naome A. Etori, Vijay Murari Tiyyala, Olanrewaju Samuel, Matthew Dean Stutzman, Bismarck Bamfo Odoom, Sanjeev Khudanpur, Stephen D. Richardson, Kenton Murray, | (参考訳) 大部分の言語技術は少数の高リソース言語に向いているが、比較的多くの低リソース言語は無視されている。
そのようなグループであるクレオール語は、機械翻訳(MT)の恩恵を受けることができるが、学術研究において長い間辺境化されてきた。
これらの言語は主にラテンアメリカ、アフリカ、カリブ海で使われている。
並列翻訳を備えた14.5万のユニークなCreole文 -- 公開リリースの11.6万 -- を含む、Creole言語MTではこれまでで最大の累積データセットを示します。
さらに、41のクレオール言語を172の翻訳方向でサポートするMTモデルも提供する。
我々の多様なデータセットから、これまで以上にジャンルの多様性に晒されたクレオール言語MTのモデルを作成し、34の翻訳方向の23のベンチマークでジャンル固有のクレオールMTモデルより優れています。
A majority of language technologies are tailored for a small number of high-resource languages, while relatively many low-resource languages are neglected. One such group, Creole languages, have long been marginalized in academic study, though their speakers could benefit from machine translation (MT). These languages are predominantly used in much of Latin America, Africa and the Caribbean. We present the largest cumulative dataset to date for Creole language MT, including 14.5M unique Creole sentences with parallel translations -- 11.6M of which we release publicly, and the largest bitexts gathered to date for 41 languages -- the first ever for 21. In addition, we provide MT models supporting all 41 Creole languages in 172 translation directions. Given our diverse dataset, we produce a model for Creole language MT exposed to more genre diversity than ever before, which outperforms a genre-specific Creole MT model on its own benchmark for 23 of 34 translation directions. | 翻訳日:2024-05-10 14:52:18 公開日:2024-05-08 |
# They are uncultured:Unveiling Covert Harms and Social Threats in LLM Generated Conversations
"They are uncultured": Unveiling Covert Harms and Social Threats in LLM Generated Conversations ( http://arxiv.org/abs/2405.05378v1 ) ライセンス: Link先を確認 | Preetam Prabhu Srikar Dammu, Hayoung Jung, Anjali Singh, Monojit Choudhury, Tanushree Mitra, | (参考訳) 大規模言語モデル(LLM)は現代社会の不可欠な部分として現れ、パーソナルアシスタントのようなユーザ向けアプリケーションや採用ツールのようなエンタープライズアプリケーションに力を入れている。
実用性にも拘わらず、LLMは体系的バイアスを持続することを示している。
しかし、LLMに関する先行研究は、人種やジェンダーといった西洋のコンセプトに主に焦点を合わせ、しばしば世界の他の地域からの文化的概念を見下ろしている。
さらに、これらの研究は通常「ハーム」を特異次元として研究し、害が現れる様々な微妙な形態を無視している。
このギャップに対処するために,社会科学文献に根ざした7つの指標のセットであるCovert Harms and Social Threats(CHAST)を紹介した。
我々は,人的評価と整合した評価モデルを用いて,LLM生成会話における隠蔽害の有無,特に採用の文脈における検討を行った。
実験の結果,本研究に含まれる8つのLSMのうち7つは,CHASTを駆使した会話を発生し,既存の手法では検出できないと思われる中性言語で表現された悪性の見解を特徴とした。
特に、これらのLSMは、人種のような西洋のものと比べ、キャストのような非西洋的な概念を扱う際に、より極端な見解と意見を示していた。
Large language models (LLMs) have emerged as an integral part of modern societies, powering user-facing applications such as personal assistants and enterprise applications like recruitment tools. Despite their utility, research indicates that LLMs perpetuate systemic biases. Yet, prior works on LLM harms predominantly focus on Western concepts like race and gender, often overlooking cultural concepts from other parts of the world. Additionally, these studies typically investigate "harm" as a singular dimension, ignoring the various and subtle forms in which harms manifest. To address this gap, we introduce the Covert Harms and Social Threats (CHAST), a set of seven metrics grounded in social science literature. We utilize evaluation models aligned with human assessments to examine the presence of covert harms in LLM-generated conversations, particularly in the context of recruitment. Our experiments reveal that seven out of the eight LLMs included in this study generated conversations riddled with CHAST, characterized by malign views expressed in seemingly neutral language unlikely to be detected by existing methods. Notably, these LLMs manifested more extreme views and opinions when dealing with non-Western concepts like caste, compared to Western ones such as race. | 翻訳日:2024-05-10 14:52:18 公開日:2024-05-08 |
# DrawL: プロンプト画像生成における非主ストリーム辞書の効果の理解
DrawL: Understanding the Effects of Non-Mainstream Dialects in Prompted Image Generation ( http://arxiv.org/abs/2405.05382v1 ) ライセンス: Link先を確認 | Joshua N. Williams, Molly FitzMorris, Osman Aka, Sarah Laszlo, | (参考訳) テキスト・ツー・イメージのモデルは使いやすく、ユビキタスになった。
しかし、以前の研究では、有害な西洋のステレオタイプを再捕獲する傾向があることが判明している。
例えば、モデルが「アフリカ人とその家」を生成するように要求すると、ストロー小屋の隣に立っている人が生まれる可能性がある。
この例では、「アフリカ」という言葉は、プロンプトが描写しようとしている人物の明示的な記述である。
ここでは、方言などの暗黙のマーカーが、テキスト・画像出力における人物の描写にも影響を及ぼすかどうかを検討する。
メインストリーム・アメリカン・イングリッシュ(英語版)では、歴史的に辺境化されたグループと相関する方言で見られる文法的構成を表現する反事実とペアプロンプトを組む。
我々は、最小限の構文のみの変更をプロンプトにすることで、生成した画像の人の肌の色や性別を体系的にシフトできることがわかった。
このような方言分布の変化が有害なのか、あるいは、おそらく望ましいモデル行動なのか、という議論から締めくくります。
Text-to-image models are now easy to use and ubiquitous. However, prior work has found that they are prone to recapitulating harmful Western stereotypes. For example, requesting that a model generate an "African person and their house," may produce a person standing next to a straw hut. In this example, the word "African" is an explicit descriptor of the person that the prompt is seeking to depict. Here, we examine whether implicit markers, such as dialect, can also affect the portrayal of people in text-to-image outputs. We pair prompts in Mainstream American English with counterfactuals that express grammatical constructions found in dialects correlated with historically marginalized groups. We find that through minimal, syntax-only changes to prompts, we can systematically shift the skin tone and gender of people in the generated images. We conclude with a discussion of whether dialectic distribution shifts like this are harmful or are expected, possibly even desirable, model behavior. | 翻訳日:2024-05-10 14:52:18 公開日:2024-05-08 |
# 解釈可能性には新しいパラダイムが必要だ
Interpretability Needs a New Paradigm ( http://arxiv.org/abs/2405.05386v1 ) ライセンス: Link先を確認 | Andreas Madsen, Himabindu Lakkaraju, Siva Reddy, Sarath Chandar, | (参考訳) 解釈可能性(英: Interpretability)とは、人間に理解可能な言葉でモデルを説明する研究である。
現在、解釈可能性は2つのパラダイムに分けられている: 説明されるように設計されたモデルのみが説明できると考える本質的なパラダイムと、ブラックボックスモデルを説明することができると考えるポストホックパラダイムである。
この議論の核心は、それぞれのパラダイムがその説明が忠実である、すなわちモデルの振舞いに忠実であることをいかに保証するかである。
これは、嘘だが説得力のある説明が、危険な人工知能(AI)への信頼の欠如につながるため、重要である。
この論文の立場は、信仰を警戒しながら新しいパラダイムを考えるべきだというものである。
まず、科学におけるパラダイムの歴史を調べることで、パラダイムは常に進化していることがわかる。
そして、現在のパラダイムを調べることで、彼らの根底にある信念、彼らがもたらす価値、そしてその限界を理解することができます。
最後に,解釈可能性に関する3つのパラダイムについて述べる。
第1のパラダイムは、忠実さを簡単に測定できるようなモデルを設計する。
別のモデルは、説明が忠実になるようなモデルを最適化する。
最後のパラダイムは、予測と説明の両方を生成するモデルを開発することを提案する。
Interpretability is the study of explaining models in understandable terms to humans. At present, interpretability is divided into two paradigms: the intrinsic paradigm, which believes that only models designed to be explained can be explained, and the post-hoc paradigm, which believes that black-box models can be explained. At the core of this debate is how each paradigm ensures its explanations are faithful, i.e., true to the model's behavior. This is important, as false but convincing explanations lead to unsupported confidence in artificial intelligence (AI), which can be dangerous. This paper's position is that we should think about new paradigms while staying vigilant regarding faithfulness. First, by examining the history of paradigms in science, we see that paradigms are constantly evolving. Then, by examining the current paradigms, we can understand their underlying beliefs, the value they bring, and their limitations. Finally, this paper presents 3 emerging paradigms for interpretability. The first paradigm designs models such that faithfulness can be easily measured. Another optimizes models such that explanations become faithful. The last paradigm proposes to develop models that produce both a prediction and an explanation. | 翻訳日:2024-05-10 14:52:18 公開日:2024-05-08 |
# ASPIRE:ベイズ逆問題に対する反復的修正後推論
ASPIRE: Iterative Amortized Posterior Inference for Bayesian Inverse Problems ( http://arxiv.org/abs/2405.05398v1 ) ライセンス: Link先を確認 | Rafael Orozco, Ali Siahkoohi, Mathias Louboutin, Felix J. Herrmann, | (参考訳) 不確実な定量化のため、逆問題に対するベイズ解は、リスク逆のアプリケーションにおいて選択の枠組みである。
これらの利点は、一般に、難解な計算のコストを伴います。
機械学習と変分推論(VI)の新たな進歩は、例から学ぶことによって計算障壁を下げた。
異なるトレードオフを表す2つのVIパラダイムが登場した。
Amortized VI は高速な結果を生成することができるが、多くの観測データセットに一般化することにより、最適下推測結果を生成する。
非アモタイズVIは推論では遅いが、単一の観測データセットに特化しているため、後部近似の方が優れている。
現在の償却VI技術は、より表現力のあるニューラルネットワークや余分なトレーニングデータなしでは改善できない準最適壁に入る。
我々は,同じネットワークアーキテクチャとトレーニングデータを用いて,償却後部を反復的に改善するソリューションを提案する。
提案手法の利点は余分な計算を必要とするが,これらは物理ハイブリッド法と要約統計に基づくため,厳密なままである。
重要なことは、これらの計算は主としてオフラインのままであり、この2つのパラダイムの近似ギャップを埋めつつ、安価で再利用可能なオンライン評価を維持している。
提案手法は,物理ベースで反復精製された補綴物を用いた補綴後部修復法であるASPIREを示す。
まず, 超音波を用いた高次元非線形経頭蓋的医用画像診断問題において, その実用性を実証した。
文献のベースラインと過去の手法と比較すると,本手法は後部推論のための計算効率が高く,高精度な手法として重要である。
Due to their uncertainty quantification, Bayesian solutions to inverse problems are the framework of choice in applications that are risk averse. These benefits come at the cost of computations that are in general, intractable. New advances in machine learning and variational inference (VI) have lowered the computational barrier by learning from examples. Two VI paradigms have emerged that represent different tradeoffs: amortized and non-amortized. Amortized VI can produce fast results but due to generalizing to many observed datasets it produces suboptimal inference results. Non-amortized VI is slower at inference but finds better posterior approximations since it is specialized towards a single observed dataset. Current amortized VI techniques run into a sub-optimality wall that can not be improved without more expressive neural networks or extra training data. We present a solution that enables iterative improvement of amortized posteriors that uses the same networks architectures and training data. The benefits of our method requires extra computations but these remain frugal since they are based on physics-hybrid methods and summary statistics. Importantly, these computations remain mostly offline thus our method maintains cheap and reusable online evaluation while bridging the approximation gap these two paradigms. We denote our proposed method ASPIRE - Amortized posteriors with Summaries that are Physics-based and Iteratively REfined. We first validate our method on a stylized problem with a known posterior then demonstrate its practical use on a high-dimensional and nonlinear transcranial medical imaging problem with ultrasound. Compared with the baseline and previous methods from the literature our method stands out as an computationally efficient and high-fidelity method for posterior inference. | 翻訳日:2024-05-10 14:52:18 公開日:2024-05-08 |
# 初期化はトランスフォーマーの合成関数が推論や記憶によって適合するかどうかに必須である
Initialization is Critical to Whether Transformers Fit Composite Functions by Inference or Memorizing ( http://arxiv.org/abs/2405.05409v1 ) ライセンス: Link先を確認 | Zhongwang Zhang, Pengxiao Lin, Zhiwei Wang, Yaoyu Zhang, Zhi-Qin John Xu, | (参考訳) トランスフォーマーは様々なタスクに対して印象的な能力を示してきたが、構成上の問題に対するパフォーマンスは議論の的となっている。
本研究では, アンカー関数を用いて, 変圧器が未知の構成課題に対してどのように振る舞うかのメカニズムを考察する。
パラメータ初期化尺度は、モデルが基底となる構成原始体をキャプチャする推論解を学習するか、あるいは構成構造を理解せずに単純に写像を記憶する対称解を学習するかを決定する上で重要な役割を担っている。
モデル内の情報フローとベクトル表現を解析することにより、これらの解の型の基礎となる異なるメカニズムを明らかにする。
さらに、推論解は複雑さのバイアスが低く、単一のアンカーの個々のマッピングを学習できる重要な要素である、と仮定する。
これらのメカニズムを理解することで、異なる初期化尺度を持つモデルの学習行動を予測することができる。
本研究は, 変圧器が学習した解のタイプと, 合成関数の学習と一般化の能力に, 初期化尺度が果たす役割について, 貴重な知見を提供するものである。
Transformers have shown impressive capabilities across various tasks, but their performance on compositional problems remains a topic of debate. In this work, we investigate the mechanisms of how transformers behave on unseen compositional tasks using anchor functions. We discover that the parameter initialization scale plays a critical role in determining whether the model learns inferential solutions, which capture the underlying compositional primitives, or symmetric solutions, which simply memorize mappings without understanding the compositional structure. By analyzing the information flow and vector representations within the model, we reveal the distinct mechanisms underlying these solution types. We further find that inferential solutions exhibit low complexity bias, which we hypothesize is a key factor enabling them to learn individual mappings for single anchors. Building upon our understanding of these mechanisms, we can predict the learning behavior of models with different initialization scales when faced with data of varying inferential complexity. Our findings provide valuable insights into the role of initialization scale in shaping the type of solution learned by transformers and their ability to learn and generalize compositional functions. | 翻訳日:2024-05-10 14:42:14 公開日:2024-05-08 |
# 実時間物理学:非マルコフ量子確率過程の特徴付けと制御
Many-time physics in practice: characterising and controlling non-Markovian quantum stochastic processes ( http://arxiv.org/abs/2405.05416v1 ) ライセンス: Link先を確認 | Gregory A. L. White, | (参考訳) 毎年、量子コンピュータの構築において、真に新しい計算パラダイムの実現に向けて、理論的および実験的にかなりの進歩がなされている。
しかし、進歩はフラクタルであり、道を進むには次の障害を掘り起こす必要がある。
これまでの10年は、物理、数学、工学、情報理論の障害を克服して、今日の目覚ましい高忠実度デバイスを生み出してきた。
しかし、これらのデバイスは役に立つには完璧に近いものに違いない。
実際、これまでの進歩は複雑な動的および制御に基づく影響のホストに対する感度を上昇させた。
量子システムとその周辺環境の間の相互作用は、マルチタイムの相関を生じさせる。
この論文では、この問題に対処し、プロセステンソルトモグラフィ(PTT)と呼ばれる量子プロセストモグラフィーの一般化を正式に提示する。
これは、非マルコフ的開量子系を厳密かつ体系的に特徴づける能力を確立し、この分野における多くの長年の問題を解決する。
本研究の第1部では、文献の原文レビューを行い、課題を手元に動機づける。
第2に、実験設計、後処理アルゴリズム、シミュレーションおよび短期デバイスデモを含むPTTのフレームワークを開発する。
特に、時間的量子相関の性質と起源に関する詳細な診断を得るためのツールとしてこれを実証する。
最後に、効率性と自己整合性に努力を捧げます。
そこで本研究では,スパースメモリ構造を持つ理論的プロセスについて検討する。
次に、これを活用して、異なる設定に適した様々な効率的な推定手法を開発します。
その結果、ロバストで軽量なフレームワークで、マルコフ的でない開量子力学を再構成し、最適に制御することができる。
Every year, substantial theoretical and experimental progress is made towards the realisation of a genuinely new computational paradigm in the construction of a quantum computer. But progress is fractal; to make headway is to unearth the next set of obstacles. Decades of work has so far overcome physical, mathematical, engineering, and information theoretic obstacles to produce the remarkable high-fidelity devices we see today. But these devices must be near perfect to be useful. Indeed, advancements so far have precipitated sensitivity to a host of complex dynamical and control-based effects. Chief among these today are non-Markovian memory effects, where interactions between a quantum system and its surrounding environment can give rise to multi-time correlations. In this thesis, we address this issue and formally present a generalisation of quantum process tomography, called process tensor tomography (PTT). This establishes the ability to rigorously and systematically characterise non-Markovian open quantum systems, resolving many long-standing issues in the field. In the first part of this work, we present an original review of the literature and motivate the problem at hand. In the second, we develop the framework of PTT, including experiment design, post-processing algorithms, and both simulated and near-term device demonstrations. In particular, we demonstrate this as a tool for obtaining in-depth diagnostics about the nature and origin of temporal quantum correlations. Lastly, we dedicate our efforts to efficiency and self-consistency. To this effect, we explore theoretically processes with sparse memory structures. We then leverage this to develop various efficient estimation techniques tailored for different settings. The result is a robust and lightweight framework capable of both reconstructing and optimally controlling any non-Markovian open quantum dynamics. | 翻訳日:2024-05-10 14:42:14 公開日:2024-05-08 |
# マジカルプの漁獲:大規模言語モデルにおける訓練下トークンの自動検出
Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models ( http://arxiv.org/abs/2405.05417v1 ) ライセンス: Link先を確認 | Sander Land, Max Bartolo, | (参考訳) 言語モデルにおけるトークン作成とモデルトレーニングの切り離しは、悪名高いSolidGoldMagikarpトークンのような特定の入力が不要な振る舞いを引き起こすことを可能にすることが知られている。
このような「グリッチトークン」は、トークン化の語彙に存在するが、ほとんどあるいは完全に訓練中に欠落しているものの、様々なモデルで観察されているが、それらを特定する一貫した方法が欠落している。
本稿では,Large Language Model (LLM) トークンを包括的に分析し,未学習および未学習のトークンを検出することを目的とした。
トークン化器分析,モデルウェイトベースインジケータ,シグネチャリング技術の組み合わせにより,これらの問題のあるトークンを自動的に検出する効果的な手法を開発した。
本研究は,これらのトークンが様々なモデルにまたがって普及していることを示し,言語モデルの効率性と安全性向上に関する洞察を提供する。
The disconnect between tokenizer creation and model training in language models has been known to allow for certain inputs, such as the infamous SolidGoldMagikarp token, to induce unwanted behaviour. Although such `glitch tokens' that are present in the tokenizer vocabulary, but are nearly or fully absent in training, have been observed across a variety of different models, a consistent way of identifying them has been missing. We present a comprehensive analysis of Large Language Model (LLM) tokenizers, specifically targeting this issue of detecting untrained and under-trained tokens. Through a combination of tokenizer analysis, model weight-based indicators, and prompting techniques, we develop effective methods for automatically detecting these problematic tokens. Our findings demonstrate the prevalence of such tokens across various models and provide insights into improving the efficiency and safety of language models. | 翻訳日:2024-05-10 14:42:14 公開日:2024-05-08 |
# 大規模言語モデルにおける過大な安全性の軽減
Mitigating Exaggerated Safety in Large Language Models ( http://arxiv.org/abs/2405.05418v1 ) ライセンス: Link先を確認 | Ruchi Bhalani, Ruchira Ray, | (参考訳) LLM(Large Language Models)の人気が高まるにつれて、モデルの安全性とユーティリティを組み合わせることがますます重要になっている。
課題は、LLMが危険なプロンプトを認識して減らすのに役立てる能力を犠牲にすることなく、確実にできることです。
過大な安全性”という問題は、これがいかに難しいかを示している。
安全プロンプトの26.1%が危険で拒否されていることが判明した過剰な安全性行動を減らすために、私たちは、XSTestデータセットプロンプトと、対話的、文脈的、数発のプロンプトを組み合わせて、Llama2、Gemma Command R+、Phi-3などのLLMの決定境界を調べる。
Llama2には、対話的プロンプトはGemmaに、コンテキスト的プロンプトはCommand R+とPhi-3に最適です。
これらのプロンプト戦略を組み合わせることで、全LSM全体の92.9%の過大な安全行動を軽減することができる。
我々の研究は、LLMの意思決定プロセスをジェイルブレイクし、安全でないプロンプトを排除し、有効なままでいる間に、厳密な線をナビゲートする、複数のプロンプト戦略を提示しています。
As the popularity of Large Language Models (LLMs) grow, combining model safety with utility becomes increasingly important. The challenge is making sure that LLMs can recognize and decline dangerous prompts without sacrificing their ability to be helpful. The problem of "exaggerated safety" demonstrates how difficult this can be. To reduce excessive safety behaviours -- which was discovered to be 26.1% of safe prompts being misclassified as dangerous and refused -- we use a combination of XSTest dataset prompts as well as interactive, contextual, and few-shot prompting to examine the decision bounds of LLMs such as Llama2, Gemma Command R+, and Phi-3. We find that few-shot prompting works best for Llama2, interactive prompting works best Gemma, and contextual prompting works best for Command R+ and Phi-3. Using a combination of these prompting strategies, we are able to mitigate exaggerated safety behaviors by an overall 92.9% across all LLMs. Our work presents a multiple prompting strategies to jailbreak LLMs' decision-making processes, allowing them to navigate the tight line between refusing unsafe prompts and remaining helpful. | 翻訳日:2024-05-10 14:42:14 公開日:2024-05-08 |
# アフェンスの力--アルゴリズム設計におけるアーキバル理論を考える
The Power of Absence: Thinking with Archival Theory in Algorithmic Design ( http://arxiv.org/abs/2405.05420v1 ) ライセンス: Link先を確認 | Jihan Sherman, Romi Morrison, Lauren Klein, Daniela K. Rosner, | (参考訳) 本稿では,アルゴリズム設計におけるバイアスに対処する手段として,アーカイブ理論の価値を考察する。
データセットやアルゴリズムシステムによって永続されるバイアスを軽減するのではなく、アーカイブ理論はバイアス自体のフレーミングを提供する。
歴史学、文学・文化学、黒人研究、フェミニストSTSの分野から様々な考古学的理論を引いて、我々は、アルゴリズムバイアスの原因に関する調査をより確実に定着させ、より有能で創造的で楽しい将来的な研究を促すという概念として、力、存在、生産的な概念を提案する。
このエッセイは、技術的だけでなく、偏見の源となる社会的、歴史的、政治的構造にも介入することができる。
This paper explores the value of archival theory as a means of grappling with bias in algorithmic design. Rather than seek to mitigate biases perpetuated by datasets and algorithmic systems, archival theory offers a reframing of bias itself. Drawing on a range of archival theory from the fields of history, literary and cultural studies, Black studies, and feminist STS, we propose absence-as power, presence, and productive-as a concept that might more securely anchor investigations into the causes of algorithmic bias, and that can prompt more capacious, creative, and joyful future work. This essay, in turn, can intervene into the technical as well as the social, historical, and political structures that serve as sources of bias. | 翻訳日:2024-05-10 14:42:14 公開日:2024-05-08 |
# EarthMatch: 宇宙飛行士の写真の微粒化のための反復的整合
EarthMatch: Iterative Coregistration for Fine-grained Localization of Astronaut Photography ( http://arxiv.org/abs/2405.05422v1 ) ライセンス: Link先を確認 | Gabriele Berton, Gabriele Goletto, Gabriele Trivigno, Alex Stoken, Barbara Caputo, Carlo Masone, | (参考訳) 宇宙飛行士の写真の精密でピクセル単位のジオローカライズは、この種のリモートセンシングされた地球データの可能性、特に災害管理や気候変動研究に利用するために重要である。
近年の研究では、宇宙飛行士撮影局のローカライゼーションタスクが確立されているが、大量展開にはコストがかかりすぎるか、大きすぎるローカライゼーションが発生するかのどちらかが証明されている。
そこで,我々は,宇宙飛行士の写真の微粒な位置化を高速さに重点を置いて,反復的ホモグラフィー推定法であるEarthMatchを提案する。
我々は、宇宙飛行士の撮影ベンチマークであるAIMSをジオローカライゼーションタスク自体に焦点を合わせ、このデータセットで我々の方法の有効性を証明した。
さらに、画像マーカ比較のための新しい公正な方法と、ローカライゼーションパイプライン内の異なるマッチングモデルの広範囲な評価を提供する。
われわれの方法では、45万枚の地球の写真の高速かつ正確なローカライズが可能になります。
webpage with code and data at https://earthloc-and-earthmatch.github.io
Precise, pixel-wise geolocalization of astronaut photography is critical to unlocking the potential of this unique type of remotely sensed Earth data, particularly for its use in disaster management and climate change research. Recent works have established the Astronaut Photography Localization task, but have either proved too costly for mass deployment or generated too coarse a localization. Thus, we present EarthMatch, an iterative homography estimation method that produces fine-grained localization of astronaut photographs while maintaining an emphasis on speed. We refocus the astronaut photography benchmark, AIMS, on the geolocalization task itself, and prove our method's efficacy on this dataset. In addition, we offer a new, fair method for image matcher comparison, and an extensive evaluation of different matching models within our localization pipeline. Our method will enable fast and accurate localization of the 4.5 million and growing collection of astronaut photography of Earth. Webpage with code and data at https://earthloc-and-earthmatch.github.io | 翻訳日:2024-05-10 14:42:14 公開日:2024-05-08 |
# 複素ニューラルデータ復号のための潜時可変二重ガウス過程モデル
Latent Variable Double Gaussian Process Model for Decoding Complex Neural Data ( http://arxiv.org/abs/2405.05424v1 ) ライセンス: Link先を確認 | Navid Ziaei, Joshua J. Stim, Melanie D. Goodman-Keiser, Scott Sponheim, Alik S. Widge, Sasoun Krikorian, Ali Yousefi, | (参考訳) ガウス過程(GP)のような非パラメトリックモデルは、複素データの解析において有望な結果を示す。
神経科学データへの彼らの応用は、最近勢いを増している。
本研究では,GPモデルに基づくニューラルデコーダモデルを提案する。
中心となる考え方は、2つのGPが低次元潜在変数の集合を用いてニューラルデータとその関連ラベルを生成することである。
このモデリングの前提の下では、潜伏変数は、ニューラルネットワークに存在する基礎となる多様体や本質的な特徴を表す。
GPを訓練すると、潜伏変数をニューラルネットワークから推論してラベルを高精度に復号することができる。
本稿では,このデコーダモデルを言語記憶実験データセットに適用し,刺激予測におけるデコーダ精度が最先端デコーダモデルを大幅に上回っていることを示す。
このモデルの先行性能は、神経科学データ解析における非パラメトリックモデルの利用の重要性を強調している。
Non-parametric models, such as Gaussian Processes (GP), show promising results in the analysis of complex data. Their applications in neuroscience data have recently gained traction. In this research, we introduce a novel neural decoder model built upon GP models. The core idea is that two GPs generate neural data and their associated labels using a set of low- dimensional latent variables. Under this modeling assumption, the latent variables represent the underlying manifold or essential features present in the neural data. When GPs are trained, the latent variable can be inferred from neural data to decode the labels with a high accuracy. We demonstrate an application of this decoder model in a verbal memory experiment dataset and show that the decoder accuracy in predicting stimulus significantly surpasses the state-of-the-art decoder models. The preceding performance of this model highlights the importance of utilizing non-parametric models in the analysis of neuroscience data. | 翻訳日:2024-05-10 14:42:14 公開日:2024-05-08 |
# 骨格匿名化のための逆ガイド型モーションリターゲティング
Adversary-Guided Motion Retargeting for Skeleton Anonymization ( http://arxiv.org/abs/2405.05428v1 ) ライセンス: Link先を確認 | Thomas Carr, Depeng Xu, Aidong Lu, | (参考訳) 骨格に基づくモーションヴィジュアライゼーションは、特に仮想現実(VR)の場合、コンピュータビジョンにおける上昇する分野である。
人体推定と骨格抽出センサーのさらなる進歩により、骨格データを利用するアプリケーションが増えてきている。
これらの骨格は匿名のように見えるが、埋め込まれた個人識別情報(PII)を含んでいる。
本稿では, 骨格に埋め込まれたPIIをさらに除去するために, 逆分類器を用いて, 動き再ターゲティングに基づく新しい匿名化手法を提案する。
動作再ターゲティングは、ユーザの動きをダミー骨格に移す際に匿名化に有効である。
そうすることで、スケルトンにリンクされた任意のPIIは、私たちが保護しているユーザーの代わりにダミースケルトンをベースとします。
本稿では,PIIの再ターゲット骨格をさらに明確化することを目的とした,プライバシ中心のDeep Motion Retargeting Model (PMR)を提案する。
我々の実験では、PMRは最先端モデルと同等のモーションリターゲティングユーティリティ性能を達成しつつ、プライバシ攻撃の性能を低下させる。
Skeleton-based motion visualization is a rising field in computer vision, especially in the case of virtual reality (VR). With further advancements in human-pose estimation and skeleton extracting sensors, more and more applications that utilize skeleton data have come about. These skeletons may appear to be anonymous but they contain embedded personally identifiable information (PII). In this paper we present a new anonymization technique that is based on motion retargeting, utilizing adversary classifiers to further remove PII embedded in the skeleton. Motion retargeting is effective in anonymization as it transfers the movement of the user onto the a dummy skeleton. In doing so, any PII linked to the skeleton will be based on the dummy skeleton instead of the user we are protecting. We propose a Privacy-centric Deep Motion Retargeting model (PMR) which aims to further clear the retargeted skeleton of PII through adversarial learning. In our experiments, PMR achieves motion retargeting utility performance on par with state of the art models while also reducing the performance of privacy attacks. | 翻訳日:2024-05-10 14:42:14 公開日:2024-05-08 |
# 分散回帰の代用として逆条件流がいかに生み出すか
How Inverse Conditional Flows Can Serve as a Substitute for Distributional Regression ( http://arxiv.org/abs/2405.05429v1 ) ライセンス: Link先を確認 | Lucas Kook, Chris Kolb, Philipp Schiele, Daniel Dold, Marcel Arpogaus, Cornelius Fritz, Philipp F. Baumann, Philipp Kopper, Tobias Pielok, Emilio Dorigatti, David Rügamer, | (参考訳) 線形回帰のような単純なモデルのニューラルネットワーク表現は、ディープラーニングアルゴリズムの基本原理をよりよく理解するために、ますます研究されている。
しかし、Coxモデルのような分布回帰モデルの神経表現は、今のところほとんど注目されていない。
我々は、上記のモデルの神経表現を含む逆流変換(DRIFT)を用いて、分布回帰のためのフレームワークを提案することにより、このギャップを埋める。
我々は、DRIFTにおけるモデルの神経表現が、連続、順序、時系列、生存結果を含むいくつかのアプリケーションにおいて、古典的な統計表現の代用として機能できることを実証的に実証した。
我々は,DRIFTにおけるモデルが,部分的効果,予測,およびアレタリック不確実性定量化の推定の観点から,いくつかの統計的手法の性能と経験的に一致していることを確認する。
DRIFTは解釈可能な統計モデルと柔軟なニューラルネットワークの両方をカバーする。
Neural network representations of simple models, such as linear regression, are being studied increasingly to better understand the underlying principles of deep learning algorithms. However, neural representations of distributional regression models, such as the Cox model, have received little attention so far. We close this gap by proposing a framework for distributional regression using inverse flow transformations (DRIFT), which includes neural representations of the aforementioned models. We empirically demonstrate that the neural representations of models in DRIFT can serve as a substitute for their classical statistical counterparts in several applications involving continuous, ordered, time-series, and survival outcomes. We confirm that models in DRIFT empirically match the performance of several statistical methods in terms of estimation of partial effects, prediction, and aleatoric uncertainty quantification. DRIFT covers both interpretable statistical models and flexible neural networks opening up new avenues in both statistical modeling and deep learning. | 翻訳日:2024-05-10 14:42:14 公開日:2024-05-08 |
# スマートシティにおける時系列予測の不変化に向けて
Towards Invariant Time Series Forecasting in Smart Cities ( http://arxiv.org/abs/2405.05430v1 ) ライセンス: Link先を確認 | Ziyi Zhang, Shaogang Ren, Xiaoning Qian, Nick Duffield, | (参考訳) スマートシティの変革的な状況において、最先端のWeb技術の時系列予測への統合は、都市計画、持続可能性、経済成長を促進する重要な機会となる。
ディープニューラルネットワークの進歩は予測性能を大幅に改善した。
しかし、注目すべき課題は、これらのモデルがアウト・オブ・ディストリビューション(OOD)時系列データにうまく一般化できることである。
都市環境に固有の空間的不均一性とドメインシフトは、モデルが新しい都市環境に適応したり、効果的に機能したりするのを防ぐハードルを生み出します。
この問題を解決するために,都市環境間の素早い相関に頼らず,都市環境下でのより堅牢な予測のための不変表現を導出する手法を提案する。
提案手法は, 都市環境の変化に伴う領域シフトに対処する上で, 従来の時系列予測モデルよりも優れていることを示す。
本手法の有効性とロバスト性は, 気候モデル, 都市計画, スマートシティ資源管理など多種多様な分野に拡張することができる。
In the transformative landscape of smart cities, the integration of the cutting-edge web technologies into time series forecasting presents a pivotal opportunity to enhance urban planning, sustainability, and economic growth. The advancement of deep neural networks has significantly improved forecasting performance. However, a notable challenge lies in the ability of these models to generalize well to out-of-distribution (OOD) time series data. The inherent spatial heterogeneity and domain shifts across urban environments create hurdles that prevent models from adapting and performing effectively in new urban environments. To tackle this problem, we propose a solution to derive invariant representations for more robust predictions under different urban environments instead of relying on spurious correlation across urban environments for better generalizability. Through extensive experiments on both synthetic and real-world data, we demonstrate that our proposed method outperforms traditional time series forecasting models when tackling domain shifts in changing urban environments. The effectiveness and robustness of our method can be extended to diverse fields including climate modeling, urban planning, and smart city resource management. | 翻訳日:2024-05-10 14:42:14 公開日:2024-05-08 |
# 意味空間におけるプログラムポリシーの探索
Searching for Programmatic Policies in Semantic Spaces ( http://arxiv.org/abs/2405.05431v1 ) ライセンス: Link先を確認 | Rubens O. Moraes, Levi H. S. Lelis, | (参考訳) 構文誘導合成は、一般的にポリシーを符号化するプログラムを生成するために用いられる。
このアプローチでは、ドメイン固有言語で記述可能なプログラムの集合が検索空間を定義し、強力なポリシーを符号化するプログラムをアルゴリズムが検索する。
本稿では,言語の意味空間の近似内を探索するプログラムポリシーを合成する代替手法を提案する。
セマンティック空間における探索は、構文に基づく空間に比べてよりサンプリング効率が高いと仮定した。
我々の理論的根拠は、アルゴリズムが空間を探索する際に異なるエージェントの振る舞いを評価すると、より効率的に検索できるということだ。
これは、プログラムの構文の小さな変更が、しばしば異なるエージェントの振る舞いをもたらしないためである。
我々は、異なるエージェントの振る舞いを示すプログラムのライブラリを学習することで意味空間を定義する。
次に、局所探索アルゴリズムの近傍関数を定義して意味空間を近似し、現在の候補プログラムの一部をライブラリのプログラムに置き換える。
我々はMicroRTSと呼ばれるリアルタイム戦略ゲームで仮説を評価した。
経験的結果は,構文に基づく空間の探索よりも意味空間の探索の方がサンプリング効率が高いという仮説を支持している。
Syntax-guided synthesis is commonly used to generate programs encoding policies. In this approach, the set of programs, that can be written in a domain-specific language defines the search space, and an algorithm searches within this space for programs that encode strong policies. In this paper, we propose an alternative method for synthesizing programmatic policies, where we search within an approximation of the language's semantic space. We hypothesized that searching in semantic spaces is more sample-efficient compared to syntax-based spaces. Our rationale is that the search is more efficient if the algorithm evaluates different agent behaviors as it searches through the space, a feature often missing in syntax-based spaces. This is because small changes in the syntax of a program often do not result in different agent behaviors. We define semantic spaces by learning a library of programs that present different agent behaviors. Then, we approximate the semantic space by defining a neighborhood function for local search algorithms, where we replace parts of the current candidate program with programs from the library. We evaluated our hypothesis in a real-time strategy game called MicroRTS. Empirical results support our hypothesis that searching in semantic spaces can be more sample-efficient than searching in syntax-based spaces. | 翻訳日:2024-05-10 14:42:14 公開日:2024-05-08 |
# AIを用いたフィッシングメール攻撃の解析と防止
Analysis and prevention of AI-based phishing email attacks ( http://arxiv.org/abs/2405.05435v1 ) ライセンス: Link先を確認 | Chibuike Samuel Eze, Lior Shamir, | (参考訳) フィッシングメール攻撃は、最も一般的で最も有害なサイバーセキュリティ攻撃の一つである。
生成AIの出現により、フィッシング攻撃は自動生成されたEメールに基づいて行われるようになり、検出がより困難になる。
つまり、大量の受信者に送信される単一のメールフォーマットの代わりに、生成可能なAIを使用して、潜在的な被害者それぞれに異なるメールを送信することで、サイバーセキュリティシステムが受信者に到達する前に詐欺メールを特定することがより困難になる。
ここでは、AIが生成するフィッシングメールのコーパスについて説明する。
また、AI生成したフィッシングメールを識別する自動テキスト解析機能をテストするために、さまざまな機械学習ツールも使用しています。
機械学習ツールはAIが生成したフィッシングメールを、通常のメールや人間による詐欺メールと比較して高い精度で識別できることを示している。
記述的分析を適用することで、AI生成メールと手作業による詐欺メールの具体的な違いがプロファイルされ、AI生成メールが人間生成のフィッシングメールとスタイルが異なることを示す。
したがって、自動識別ツールを利用者の警告として使用することができる。
本稿は、AIが生成したフィッシングメールのコーパスについても説明している。
AI生成のフィッシングメールを検出する機械学習の能力は奨励されているが、AI生成のフィッシングメールは通常のフィッシングメールとは異なるため、生成AIを利用した将来のフィッシング攻撃を撃退するためには、AI生成の電子メールで機械学習システムもトレーニングすることが重要である。
Phishing email attacks are among the most common and most harmful cybersecurity attacks. With the emergence of generative AI, phishing attacks can be based on emails generated automatically, making it more difficult to detect them. That is, instead of a single email format sent to a large number of recipients, generative AI can be used to send each potential victim a different email, making it more difficult for cybersecurity systems to identify the scam email before it reaches the recipient. Here we describe a corpus of AI-generated phishing emails. We also use different machine learning tools to test the ability of automatic text analysis to identify AI-generated phishing emails. The results are encouraging, and show that machine learning tools can identify an AI-generated phishing email with high accuracy compared to regular emails or human-generated scam email. By applying descriptive analytic, the specific differences between AI-generated emails and manually crafted scam emails are profiled, and show that AI-generated emails are different in their style from human-generated phishing email scams. Therefore, automatic identification tools can be used as a warning for the user. The paper also describes the corpus of AI-generated phishing emails that is made open to the public, and can be used for consequent studies. While the ability of machine learning to detect AI-generated phishing email is encouraging, AI-generated phishing emails are different from regular phishing emails, and therefore it is important to train machine learning systems also with AI-generated emails in order to repel future phishing attacks that are powered by generative AI. | 翻訳日:2024-05-10 14:42:14 公開日:2024-05-08 |
# 私の行動クローン政策はどの程度一般化可能か? 信頼できるパフォーマンス評価への統計的アプローチ
How Generalizable Is My Behavior Cloning Policy? A Statistical Approach to Trustworthy Performance Evaluation ( http://arxiv.org/abs/2405.05439v1 ) ライセンス: Link先を確認 | Joseph A. Vincent, Haruki Nishimura, Masha Itkina, Paarth Shah, Mac Schwager, Thomas Kollar, | (参考訳) ロボット政策学習における確率的生成モデルの増加に伴い、人間の実演から学ぶことで複雑なタスクを解決するために、エンドツーエンドのビズモータポリシーがますます成功している。
しかし、実際の評価コストは少数のポリシーのロールアウトにしか及ばないため、こうしたポリシーのパフォーマンスを正確に評価することは依然として困難である。
これは、デプロイメント中に予期せぬパフォーマンス変化を引き起こす分散シフトによって悪化する。
動作のクローン化ポリシーを厳格に評価するために,最小限の実験的なロールアウト数を用いて,任意の環境下でロボット性能に厳格な低バウンドを提供するフレームワークを提案する。
特に、ロボットの性能分布に標準確率順序を適用することにより、与えられたタスクに対する(累積分布関数のバウンダリによる)性能分布全体に対する最悪のケースを提供する。
我々は,ユーザ指定の信頼性レベルと厳密性を確保すべく,確立された統計結果を構築し,可能な限り少数のポリシーロールアウトから構築する。
実験では,シミュレーションとハードウェアの両方におけるビジュモータ操作のポリシーを評価する。
具体的には
一 模擬操作設定における境界の保証を実証的に検証すること。
二 ハードウェアに導入した学習方針が、新たな現実世界環境に一般化する程度を把握し、
三 配当外の設定で試した二つの方針を厳格に比較すること。
実験データ、コード、信頼性境界の実装はオープンソースです。
With the rise of stochastic generative models in robot policy learning, end-to-end visuomotor policies are increasingly successful at solving complex tasks by learning from human demonstrations. Nevertheless, since real-world evaluation costs afford users only a small number of policy rollouts, it remains a challenge to accurately gauge the performance of such policies. This is exacerbated by distribution shifts causing unpredictable changes in performance during deployment. To rigorously evaluate behavior cloning policies, we present a framework that provides a tight lower-bound on robot performance in an arbitrary environment, using a minimal number of experimental policy rollouts. Notably, by applying the standard stochastic ordering to robot performance distributions, we provide a worst-case bound on the entire distribution of performance (via bounds on the cumulative distribution function) for a given task. We build upon established statistical results to ensure that the bounds hold with a user-specified confidence level and tightness, and are constructed from as few policy rollouts as possible. In experiments we evaluate policies for visuomotor manipulation in both simulation and hardware. Specifically, we (i) empirically validate the guarantees of the bounds in simulated manipulation settings, (ii) find the degree to which a learned policy deployed on hardware generalizes to new real-world environments, and (iii) rigorously compare two policies tested in out-of-distribution settings. Our experimental data, code, and implementation of confidence bounds are open-source. | 翻訳日:2024-05-10 14:42:14 公開日:2024-05-08 |
# 行列積状態トライアル波動関数を持つフェルミオン補助場量子モンテカルロの非バイアス化
Unbiasing Fermionic Auxiliary-Field Quantum Monte Carlo with Matrix Product State Trial Wavefunctions ( http://arxiv.org/abs/2405.05440v1 ) ライセンス: Link先を確認 | Tong Jiang, Bryan O'Gorman, Ankit Mahajan, Joonho Lee, | (参考訳) 本稿では,MPS-AFQMCと呼ばれる行列積状態(MPS)試験波動関数を用いたフェルミオン補助場量子モンテカルロ(AFQMC)の実装を初めて報告する。
MPS-AFQMCにおける重要なサブルーチンである乗法誤差まで、MPSトライアルと任意のスレーター行列式との重なりを計算することは、#P-hardであることが証明されている。
それにもかかわらず、フェミオン性無相AFQMCエネルギーを改善するためにいくつかの有望なヒューリスティックスを試験した。
また,行列積演算子を使わずに局所エネルギーと力量偏差を評価できる手法を提案した。
これにより、大きなオーバーヘッドを伴わずに、より大きな基底セットの計算が可能になる。
我々は,MPS試験自体が高精度化に苦慮している場合でも,1次元および2次元水素格子に対するアプローチの有用性を示す。
私たちの研究は、現在挑戦している電子構造問題を、今後の改善で解決できる新しいツールセットを提供しています。
In this work, we report, for the first time, an implementation of fermionic auxiliary-field quantum Monte Carlo (AFQMC) using matrix product state (MPS) trial wavefunctions, dubbed MPS-AFQMC. Calculating overlaps between an MPS trial and arbitrary Slater determinants up to a multiplicative error, a crucial subroutine in MPS-AFQMC, is proven to be #P-hard. Nonetheless, we tested several promising heuristics in successfully improving fermionic phaseless AFQMC energies. We also proposed a way to evaluate local energy and force bias evaluations free of matrix-product operators. This allows for larger basis set calculations without significant overhead. We showcase the utility of our approach on one- and two-dimensional hydrogen lattices, even when the MPS trial itself struggles to obtain high accuracy. Our work offers a new set of tools that can solve currently challenging electronic structure problems with future improvements. | 翻訳日:2024-05-10 14:42:14 公開日:2024-05-08 |
# GPT-3.5, GPT-4, Claude-3, Mistral-LargeのRAGフレームワークを用いたLLMによる学生のオープンエンド対応の評価
Evaluating Students' Open-ended Written Responses with LLMs: Using the RAG Framework for GPT-3.5, GPT-4, Claude-3, and Mistral-Large ( http://arxiv.org/abs/2405.05444v1 ) ライセンス: Link先を確認 | Jussi S. Jauhiainen, Agustín Garagorry Guerra, | (参考訳) 学生からのオープンエンドテストの回答を評価することは、教育者にとって不可欠だが時間を要する課題であり、高い努力、一貫性、精度を必要とする。
近年のLarge Language Models (LLMs) の発展は,教育者の時間的有効利用と徹底的な評価の必要性のバランスをとる上で有望な機会となる。
本研究では,LLMs ChatGPT-3.5,ChatGPT-4,Claude-3,Mistral-Largeの大学生による基準資料に関する質問に対するオープンな回答の評価における有効性を検討した。
各モデルでは, 温度設定が10回, 温度が0.5の10回, モデル毎の1,080回, 全モデル毎の4,320回という2つの条件下で, 54の回答を繰り返し評価するように指示した。
RAG(Retrieval Augmented Generation)フレームワークは、LCMが回答の評価を処理するためのフレームワークとして使用された。
2024年春の時点で, 解析結果から, LLMによる一貫性の顕著な変動と, 階調の低下が認められた。
学習環境におけるLLMの強みや弱みを解明し,オープンエンドの応答を評価する必要がある。
さらなる比較研究は、LLMを教育評価に使用する際の精度と費用対効果を決定するために不可欠である。
Evaluating open-ended written examination responses from students is an essential yet time-intensive task for educators, requiring a high degree of effort, consistency, and precision. Recent developments in Large Language Models (LLMs) present a promising opportunity to balance the need for thorough evaluation with efficient use of educators' time. In our study, we explore the effectiveness of LLMs ChatGPT-3.5, ChatGPT-4, Claude-3, and Mistral-Large in assessing university students' open-ended answers to questions made about reference material they have studied. Each model was instructed to evaluate 54 answers repeatedly under two conditions: 10 times (10-shot) with a temperature setting of 0.0 and 10 times with a temperature of 0.5, expecting a total of 1,080 evaluations per model and 4,320 evaluations across all models. The RAG (Retrieval Augmented Generation) framework was used as the framework to make the LLMs to process the evaluation of the answers. As of spring 2024, our analysis revealed notable variations in consistency and the grading outcomes provided by studied LLMs. There is a need to comprehend strengths and weaknesses of LLMs in educational settings for evaluating open-ended written responses. Further comparative research is essential to determine the accuracy and cost-effectiveness of using LLMs for educational assessments. | 翻訳日:2024-05-10 14:42:14 公開日:2024-05-08 |
# 分類のための大規模言語モデル強化機械学習推定器
Large Language Model Enhanced Machine Learning Estimators for Classification ( http://arxiv.org/abs/2405.05445v1 ) ライセンス: Link先を確認 | Yuhang Wu, Yingfei Wang, Chu Wang, Zeyu Zheng, | (参考訳) 事前訓練された大規模言語モデル(LLM)は、様々なシナリオをシミュレートし、与えられた特定の命令とマルチモーダル入力を生成する強力なツールとして登場した。
本研究では,古典的教師付き機械学習手法を分類問題に適用するために,LLMの具体的利用を分析した。
本稿では,LLMを古典的機械学習推定器に統合し,予測性能をさらに向上させる手法を提案する。
本稿では,標準教師付き二分分類タスクと,テストデータが学習データと比較した場合の分布変化を観察する伝達学習タスクの両方を用いて,提案手法の性能について検討する。
4つの公開データセットを用いて数値実験を行い、LLMを用いて古典的機械学習推定器を強化することにより、予測性能が大幅に向上することが示唆された。
Pre-trained large language models (LLM) have emerged as a powerful tool for simulating various scenarios and generating output given specific instructions and multimodal input. In this work, we analyze the specific use of LLM to enhance a classical supervised machine learning method for classification problems. We propose a few approaches to integrate LLM into a classical machine learning estimator to further enhance the prediction performance. We examine the performance of the proposed approaches through both standard supervised learning binary classification tasks, and a transfer learning task where the test data observe distribution changes compared to the training data. Numerical experiments using four publicly available datasets are conducted and suggest that using LLM to enhance classical machine learning estimators can provide significant improvement on prediction performance. | 翻訳日:2024-05-10 14:32:26 公開日:2024-05-08 |
# GDGS: 放射場スパース表現のためのグラディエント・ドメイン・ガウス・スプレイティング
GDGS: Gradient Domain Gaussian Splatting for Sparse Representation of Radiance Fields ( http://arxiv.org/abs/2405.05446v1 ) ライセンス: Link先を確認 | Yuanhao Gong, | (参考訳) 3Dガウスのスプラッティング法が人気を集めている。
しかし、それらは直接信号に作用し、信号の密度の高い表現に繋がる。
プルーニングや蒸留などいくつかの技術があるにもかかわらず、結果はいまだに密集している。
本稿では,元の信号の勾配をモデル化する。
勾配は元の信号よりも遥かに小さい。
したがって、勾配はガウススプラットよりもはるかに少ないため、より効率的な記憶が可能となり、トレーニングとレンダリングの両方における計算性能が向上する。
スパーシリティのおかげで、ビュー合成の間、少量のピクセルしか必要とせず、計算性能が大幅に向上する(100\sim 1000\times$ faster)。
2次元画像は、線形計算複雑性を持つポアソン方程式を解くことによって勾配から復元することができる。
提案手法の勾配の疎度と計算性能を確認するために,いくつかの実験を行った。
この方法は、人体モデリングや屋内環境モデリングなど、様々な応用に応用できる。
The 3D Gaussian splatting methods are getting popular. However, they work directly on the signal, leading to a dense representation of the signal. Even with some techniques such as pruning or distillation, the results are still dense. In this paper, we propose to model the gradient of the original signal. The gradients are much sparser than the original signal. Therefore, the gradients use much less Gaussian splats, leading to the more efficient storage and thus higher computational performance during both training and rendering. Thanks to the sparsity, during the view synthesis, only a small mount of pixels are needed, leading to much higher computational performance ($100\sim 1000\times$ faster). And the 2D image can be recovered from the gradients via solving a Poisson equation with linear computation complexity. Several experiments are performed to confirm the sparseness of the gradients and the computation performance of the proposed method. The method can be applied various applications, such as human body modeling and indoor environment modeling. | 翻訳日:2024-05-10 14:32:26 公開日:2024-05-08 |
# Markowitz氏とBellman: ポートフォリオマネジメントのための知識に富んだ強化学習
Markowitz Meets Bellman: Knowledge-distilled Reinforcement Learning for Portfolio Management ( http://arxiv.org/abs/2405.05449v1 ) ライセンス: Link先を確認 | Gang Hu, Ming Gu, | (参考訳) 投資ポートフォリオは金融の中心であり、潜在的なリターンとリスクのバランスを取る。
本稿では,Markowitzのポートフォリオ理論と強化学習を組み合わせたハイブリッドアプローチを提案する。
特に,KDD (Knowledge Distillation DDPG) と呼ばれる本手法は,教師付きおよび強化学習段階の2段階からなる。
訓練されたエージェントはポートフォリオの組み立てを最適化します。
標準的な金融モデルとAIフレームワークの比較分析では、リターンやシャープ比、9つの評価指標などを使用して、モデルの優位性を明らかにします。
最大利回りとシャープ比は2.03であり、最大利益率を確保し、対等なリターンシナリオでは最も低いリスクを負う。
Investment portfolios, central to finance, balance potential returns and risks. This paper introduces a hybrid approach combining Markowitz's portfolio theory with reinforcement learning, utilizing knowledge distillation for training agents. In particular, our proposed method, called KDD (Knowledge Distillation DDPG), consist of two training stages: supervised and reinforcement learning stages. The trained agents optimize portfolio assembly. A comparative analysis against standard financial models and AI frameworks, using metrics like returns, the Sharpe ratio, and nine evaluation indices, reveals our model's superiority. It notably achieves the highest yield and Sharpe ratio of 2.03, ensuring top profitability with the lowest risk in comparable return scenarios. | 翻訳日:2024-05-10 14:32:26 公開日:2024-05-08 |
# プログラムの自動修正: 新たなトレンドは、ベンチマークの問題を示し、露呈する
Automated Program Repair: Emerging trends pose and expose problems for benchmarks ( http://arxiv.org/abs/2405.05455v1 ) ライセンス: Link先を確認 | Joseph Renzullo, Pemma Reiter, Westley Weimer, Stephanie Forrest, | (参考訳) 機械学習(ML)がAPR(Automated Program repair)の分野に進出した。
アルゴリズムは、ソフトウェアパッチを生成するために、ニューラルマシン翻訳と大規模言語モデル(LLM)をデプロイする。
しかし、これらのMLのアプリケーションと初期の作業には重要な違いがある。
評価と比較は、結果が有効であり、一般化する可能性が高いことを保証するために注意する必要があります。
問題なのは、最も人気のあるAPR評価ベンチマークがMLテクニックを念頭に設計されていないことだ。
大規模かつしばしば開示されていないトレーニングデータセットには、評価される問題が含まれる可能性がある。
Machine learning (ML) now pervades the field of Automated Program Repair (APR). Algorithms deploy neural machine translation and large language models (LLMs) to generate software patches, among other tasks. But, there are important differences between these applications of ML and earlier work. Evaluations and comparisons must take care to ensure that results are valid and likely to generalize. A challenge is that the most popular APR evaluation benchmarks were not designed with ML techniques in mind. This is especially true for LLMs, whose large and often poorly-disclosed training datasets may include problems on which they are evaluated. | 翻訳日:2024-05-10 14:32:26 公開日:2024-05-08 |
# 分散ロバストネスのモーメント化
Taking a Moment for Distributional Robustness ( http://arxiv.org/abs/2405.05461v1 ) ライセンス: Link先を確認 | Jabari Hastings, Christopher Jung, Charlotte Peale, Vasilis Syrgkanis, | (参考訳) 最近の研究の豊富な行は、分布的に堅牢な学習アプローチを研究し、集団上の多くの異なる分布について、最悪の場合、うまく機能する仮説を学ぼうとしている。
最も一般的なアプローチは、分布の最悪のケース損失を最小限に抑えることであるが、より合理的なゴールは、各共変量に与えられたラベルの真の条件付き期待への最悪のケース距離を最小化することである。
minmax損失目標にフォーカスすると、特定の分布が高レベルなラベルノイズを含む場合、真の条件付き期待値までの距離を最小化する解を出力できなくなる。
敵の戦略空間を十分に豊かにすれば、最悪の場合の$\ell_2$-distanceを真の条件付き予測に最小化できることを示す。
これまでの研究は、ノイズレベルの差による問題を回避する手段として、最悪の場合の分布に対する最大の後悔を最小化することを示唆してきた。
正方形損失の場合、最悪のケースの後悔を最小限に抑えることは、真の条件付き期待値に対する最悪のケースの$\ell_2$-distanceを最小化するのと同等であることを示す。
彼らの目的と目的はともに、真の条件付き期待から最悪のケース距離を最小化しているが、我々のアプローチは、グループ数の観点から計算コストの大幅な削減を提供すると同時に、ミニマックス後悔のアプローチと同様のノイズの発散保証を提供し、Agarwal と Zhang (2022) が提示したオープンな問題に肯定的な進展をもたらすことを示している。
A rich line of recent work has studied distributionally robust learning approaches that seek to learn a hypothesis that performs well, in the worst-case, on many different distributions over a population. We argue that although the most common approaches seek to minimize the worst-case loss over distributions, a more reasonable goal is to minimize the worst-case distance to the true conditional expectation of labels given each covariate. Focusing on the minmax loss objective can dramatically fail to output a solution minimizing the distance to the true conditional expectation when certain distributions contain high levels of label noise. We introduce a new min-max objective based on what is known as the adversarial moment violation and show that minimizing this objective is equivalent to minimizing the worst-case $\ell_2$-distance to the true conditional expectation if we take the adversary's strategy space to be sufficiently rich. Previous work has suggested minimizing the maximum regret over the worst-case distribution as a way to circumvent issues arising from differential noise levels. We show that in the case of square loss, minimizing the worst-case regret is also equivalent to minimizing the worst-case $\ell_2$-distance to the true conditional expectation. Although their objective and our objective both minimize the worst-case distance to the true conditional expectation, we show that our approach provides large empirical savings in computational cost in terms of the number of groups, while providing the same noise-oblivious worst-distribution guarantee as the minimax regret approach, thus making positive progress on an open question posed by Agarwal and Zhang (2022). | 翻訳日:2024-05-10 14:32:26 公開日:2024-05-08 |
# アルツハイマー病バイオマーカーの創発的交叉ネットワークによる相互翻訳
Cross-Modality Translation with Generative Adversarial Networks to Unveil Alzheimer's Disease Biomarkers ( http://arxiv.org/abs/2405.05462v1 ) ライセンス: Link先を確認 | Reihaneh Hassanzadeh, Anees Abrol, Hamid Reza Hassanzadeh, Vince D. Calhoun, | (参考訳) クロスモダリティ変換のための生成的アプローチは、最近、ニューロイメージングにおいて大きな注目を集めている。
これまでのほとんどの研究はケースコントロールデータに重点を置いてきたが、障害特異的データセットへの生成モデルの適用と、診断パターンの保存能力は、いまだに探索されていないままである。
そこで本研究では,アルツハイマー病(AD)の文脈におけるGAN(generative adversarial network)を用いた機能的ネットワーク接続(FNC)とT1重み付き構造磁気共鳴画像データの生成について検討した。
我々は、ペアデータが存在する場合の弱い監視を統合することで、不適切なデータ遷移においてデータを合成し、遷移を強化するために、サイクルGANを使用した。
その結果,T1sは0.89 pm 0.003$,FNCは0.71 pm 0.004$であった。
さらに,ADを認知正常(CN)個体と比較すると,生成データと実際のデータとの間に類似したパターンが認められた。
特に,小脳-感覚運動と小脳-視覚ネットワークでは機能的接続が著しく増加し,小脳-皮質,聴覚-感覚運動,感覚運動-視覚,小脳-認知制御ネットワークでは接続性が低下した。
さらに,本モデルにより得られたT1画像は,アルツハイマー病患者の海馬および他の側頭葉領域に類似した萎縮パターンを示した。
Generative approaches for cross-modality transformation have recently gained significant attention in neuroimaging. While most previous work has focused on case-control data, the application of generative models to disorder-specific datasets and their ability to preserve diagnostic patterns remain relatively unexplored. Hence, in this study, we investigated the use of a generative adversarial network (GAN) in the context of Alzheimer's disease (AD) to generate functional network connectivity (FNC) and T1-weighted structural magnetic resonance imaging data from each other. We employed a cycle-GAN to synthesize data in an unpaired data transition and enhanced the transition by integrating weak supervision in cases where paired data were available. Our findings revealed that our model could offer remarkable capability, achieving a structural similarity index measure (SSIM) of $0.89 \pm 0.003$ for T1s and a correlation of $0.71 \pm 0.004$ for FNCs. Moreover, our qualitative analysis revealed similar patterns between generated and actual data when comparing AD to cognitively normal (CN) individuals. In particular, we observed significantly increased functional connectivity in cerebellar-sensory motor and cerebellar-visual networks and reduced connectivity in cerebellar-subcortical, auditory-sensory motor, sensory motor-visual, and cerebellar-cognitive control networks. Additionally, the T1 images generated by our model showed a similar pattern of atrophy in the hippocampal and other temporal regions of Alzheimer's patients. | 翻訳日:2024-05-10 14:32:26 公開日:2024-05-08 |
# Vidur: LLM推論のための大規模シミュレーションフレームワーク
Vidur: A Large-Scale Simulation Framework For LLM Inference ( http://arxiv.org/abs/2405.05465v1 ) ライセンス: Link先を確認 | Amey Agrawal, Nitin Kedia, Jayashree Mohan, Ashish Panwar, Nipun Kwatra, Bhargav Gulavani, Ramachandran Ramjee, Alexey Tumanov, | (参考訳) 大規模言語モデル(LLM)のデプロイの最適化は、並列化戦略やバッチ技術、スケジューリングポリシといったシステムノブによって形成される大きな設定スペースを探索しながら、LLM実装に対してアプリケーションのワークロードを実験的に実行する必要があるため、今日ではコストがかかる。
この課題に対処するために,LLM推論性能のための大規模かつ高忠実で容易に拡張可能なシミュレーションフレームワークであるVidurを提案する。
Vidurは、実験的なプロファイリングと予測モデリングを組み合わせたLLM演算子のパフォーマンスをモデル化し、レイテンシやスループットなどのいくつかの指標を推定することにより、異なるワークロードに対するエンドツーエンドの推論性能を評価する。
いくつかのLSM上でのVidurの忠実さを検証し、その範囲で9%未満の誤差で推論遅延を推定することを示した。
さらに,LLMデプロイメントの最適化を支援する構成検索ツールであるVidur-Searchを紹介する。
Vidur-SearchはVidurを使用して、アプリケーションパフォーマンスの制約を満たす最もコスト効率の良いデプロイメント構成を自動的に識別する。
例えば、Vidur-Searchは、CPUマシン上で1時間でLLaMA2-70Bをデプロイするのに最適な設定を見つける。
Vidurのソースコードはhttps://github.com/microsoft/vidur.comで入手できる。
Optimizing the deployment of Large language models (LLMs) is expensive today since it requires experimentally running an application workload against an LLM implementation while exploring large configuration space formed by system knobs such as parallelization strategies, batching techniques, and scheduling policies. To address this challenge, we present Vidur - a large-scale, high-fidelity, easily-extensible simulation framework for LLM inference performance. Vidur models the performance of LLM operators using a combination of experimental profiling and predictive modeling, and evaluates the end-to-end inference performance for different workloads by estimating several metrics of interest such as latency and throughput. We validate the fidelity of Vidur on several LLMs and show that it estimates inference latency with less than 9% error across the range. Further, we present Vidur-Search, a configuration search tool that helps optimize LLM deployment. Vidur-Search uses Vidur to automatically identify the most cost-effective deployment configuration that meets application performance constraints. For example, Vidur-Search finds the best deployment configuration for LLaMA2-70B in one hour on a CPU machine, in contrast to a deployment-based exploration which would require 42K GPU hours - costing ~218K dollars. Source code for Vidur is available at https://github.com/microsoft/vidur. | 翻訳日:2024-05-10 14:32:26 公開日:2024-05-08 |
# ポザー:内部を操作してLSMを偽装するアライメント
Poser: Unmasking Alignment Faking LLMs by Manipulating Their Internals ( http://arxiv.org/abs/2405.05466v1 ) ライセンス: Link先を確認 | Joshua Clymer, Caden Juang, Severin Field, | (参考訳) 捜査中の犯罪者のように、LLM(Large Language Models)は、良い機会があるときに評価され、誤った振る舞いをしているふりをするかもしれない。
現在の解釈可能性法はこれらの「アライメントフェイカー」をキャッチできるのか?
そこで本研究では,ロールプレイシナリオにおけるアクション選択のために微調整された324組のLLMからなるベンチマークを提案する。
各ペアの1つのモデルは一貫して良性(整列)である。
他のモデルでは、捕らえられそうにないシナリオ(アライメント・フェイキング)で誤動作します。
この課題は、2つのモデルが同一に振る舞う入力のみを用いてアライメントフェイキングモデルを特定することである。
我々は5つの検出戦略を検証し、そのうちの1つはアライメントフェイカーの98%を識別する。
Like a criminal under investigation, Large Language Models (LLMs) might pretend to be aligned while evaluated and misbehave when they have a good opportunity. Can current interpretability methods catch these 'alignment fakers?' To answer this question, we introduce a benchmark that consists of 324 pairs of LLMs fine-tuned to select actions in role-play scenarios. One model in each pair is consistently benign (aligned). The other model misbehaves in scenarios where it is unlikely to be caught (alignment faking). The task is to identify the alignment faking model using only inputs where the two models behave identically. We test five detection strategies, one of which identifies 98% of alignment-fakers. | 翻訳日:2024-05-10 14:32:26 公開日:2024-05-08 |
# AFEN: アンサンブル学習による呼吸器疾患の分類
AFEN: Respiratory Disease Classification using Ensemble Learning ( http://arxiv.org/abs/2405.05467v1 ) ライセンス: Link先を確認 | Rahul Nadkarni, Emmanouil Nikolakakis, Razvan Marinescu, | (参考訳) AFEN(Audio Feature Ensemble Learning)は,CNN(Convolutional Neural Networks)とXGBoost(XGBoost)をアンサンブル学習方式で活用し,様々な呼吸器疾患に対する最先端の音声分類を行うモデルである。
我々は、データの健全な属性を提供し、正確な分類を可能にする、巧妙に選択されたオーディオ特徴の組み合わせを使用する。
抽出された特徴は、2つの別々のモデル分類器への入力として使用される
1)多機能CNN分類器及び
2) XGBoost 分類器。
2つのモデルの出力はソフト投票によって融合される。
そこで,アンサンブル学習を活用すれば,ロバスト性と精度が向上する。
920個の呼吸音のデータベース上でのモデルの性能評価を行い,データの多様性とモデルの一般化可能性を高めるため,データ拡張手法を適用した。
AFENがPrecisionとRecallをメトリクスとして利用し、トレーニング時間を60%削減したことを実証的に検証した。
We present AFEN (Audio Feature Ensemble Learning), a model that leverages Convolutional Neural Networks (CNN) and XGBoost in an ensemble learning fashion to perform state-of-the-art audio classification for a range of respiratory diseases. We use a meticulously selected mix of audio features which provide the salient attributes of the data and allow for accurate classification. The extracted features are then used as an input to two separate model classifiers 1) a multi-feature CNN classifier and 2) an XGBoost Classifier. The outputs of the two models are then fused with the use of soft voting. Thus, by exploiting ensemble learning, we achieve increased robustness and accuracy. We evaluate the performance of the model on a database of 920 respiratory sounds, which undergoes data augmentation techniques to increase the diversity of the data and generalizability of the model. We empirically verify that AFEN sets a new state-of-the-art using Precision and Recall as metrics, while decreasing training time by 60%. | 翻訳日:2024-05-10 14:32:26 公開日:2024-05-08 |
# オフラインデータとオンラインデータの両方を用いたモデル自由ロバスト$φ$-Divergence強化学習
Model-Free Robust $φ$-Divergence Reinforcement Learning Using Both Offline and Online Data ( http://arxiv.org/abs/2405.05468v1 ) ライセンス: Link先を確認 | Kishan Panaganti, Adam Wierman, Eric Mazumdar, | (参考訳) 堅牢な$\phi$-regularized Markov Decision Process (RRMDP)フレームワークは、シミュレータ(nominal)モデルと現実世界の設定のミスマッチによるパラメータの不確実性に対して堅牢な制御ポリシーの設計に焦点を当てている。
この作品は2つの重要な貢献をしている。
まず,ロバスト$\phi$-regularized fit Q-iteration (RPQ) と呼ばれるモデルフリーなアルゴリズムを提案する。
我々の知識を最大限に活用するために、一般関数近似を持つ高次元システムにおいて、ロバストな最適ポリシーを達成する$\phi$-divergencesのクラスに対して、最初の統一解析を提供する。
第2に、履歴データとオンラインサンプリングの両方を用いて最適なロバストポリシーを学習するために、ハイブリッドロバストな$\phi$正規化強化学習フレームワークを導入する。
この枠組みに向けて,Hybrid robust Total-variation-regularized Q-iteration (HyTQ: pronounced height-Q) と呼ばれるモデルレスアルゴリズムを提案する。
我々の知識を最大限に活用するために、我々は、汎用関数近似を用いた大規模問題において、最初の改良されたデータ分配仮定を、ハイブリッドロバストな$\phi$-regularized reinforcement learning frameworkの下で提供する。
最後に、任意の大きな状態空間を持つシステム上でのアルゴリズムの学習ポリシーの性能に関する理論的保証を提供する。
The robust $\phi$-regularized Markov Decision Process (RRMDP) framework focuses on designing control policies that are robust against parameter uncertainties due to mismatches between the simulator (nominal) model and real-world settings. This work makes two important contributions. First, we propose a model-free algorithm called Robust $\phi$-regularized fitted Q-iteration (RPQ) for learning an $\epsilon$-optimal robust policy that uses only the historical data collected by rolling out a behavior policy (with robust exploratory requirement) on the nominal model. To the best of our knowledge, we provide the first unified analysis for a class of $\phi$-divergences achieving robust optimal policies in high-dimensional systems with general function approximation. Second, we introduce the hybrid robust $\phi$-regularized reinforcement learning framework to learn an optimal robust policy using both historical data and online sampling. Towards this framework, we propose a model-free algorithm called Hybrid robust Total-variation-regularized Q-iteration (HyTQ: pronounced height-Q). To the best of our knowledge, we provide the first improved out-of-data-distribution assumption in large-scale problems with general function approximation under the hybrid robust $\phi$-regularized reinforcement learning framework. Finally, we provide theoretical guarantees on the performance of the learned policies of our algorithms on systems with arbitrary large state space. | 翻訳日:2024-05-10 14:32:26 公開日:2024-05-08 |
# 雑音ラベル学習のための部分レベルラベルを用いた雑音クラス後部推定
Estimating Noisy Class Posterior with Part-level Labels for Noisy Label Learning ( http://arxiv.org/abs/2405.05714v1 ) ライセンス: Link先を確認 | Rui Zhao, Bin Shi, Jianfei Ruan, Tianze Pan, Bo Dong, | (参考訳) ノイズのあるラベル学習において、ノイズのあるクラス後端の推定は、クリーンなクラス後端と遷移行列を推定する基盤を形成するため、一貫した分類器を開発する上で基本的な役割を果たす。
既存の手法は通常、ノイズのあるラベルを持つ分類モデルを訓練することで、ノイズの多いクラス後部を学習する。
しかし、ラベルが正しくない場合、これらのモデルは、インスタンスの特性を反映しない特徴部分を過度に強調し、ノイズのあるクラス後部を推定する重大なエラーをもたらす可能性がある。
この問題に対処するため,本論文では,教師付き情報をパートレベルのラベルで強化し,様々な部分からよりリッチな情報に焦点を合わせることを奨励する。
具体的には,まず,各部位に関連付けられた部分レベルラベルを抽出し,各部位に特徴を分割する。
次に, ノイズレベルラベルと部分レベルラベルの関係をモデル化する, 単一から複数への遷移行列を提案する。
このフレームワークを部分レベルラベルで利用することにより、様々な部分の情報の統合をモデルに誘導し、最終的に分類性能を向上させることで、ノイズのあるクラス後部をより正確に学習することができる。
提案手法は理論的に健全であり,実験結果から合成および実世界の雑音評価において実験的に有効であることが示された。
In noisy label learning, estimating noisy class posteriors plays a fundamental role for developing consistent classifiers, as it forms the basis for estimating clean class posteriors and the transition matrix. Existing methods typically learn noisy class posteriors by training a classification model with noisy labels. However, when labels are incorrect, these models may be misled to overemphasize the feature parts that do not reflect the instance characteristics, resulting in significant errors in estimating noisy class posteriors. To address this issue, this paper proposes to augment the supervised information with part-level labels, encouraging the model to focus on and integrate richer information from various parts. Specifically, our method first partitions features into distinct parts by cropping instances, yielding part-level labels associated with these various parts. Subsequently, we introduce a novel single-to-multiple transition matrix to model the relationship between the noisy and part-level labels, which incorporates part-level labels into a classifier-consistent framework. Utilizing this framework with part-level labels, we can learn the noisy class posteriors more precisely by guiding the model to integrate information from various parts, ultimately improving the classification performance. Our method is theoretically sound, while experiments show that it is empirically effective in synthetic and real-world noisy benchmarks. | 翻訳日:2024-05-10 13:32:48 公開日:2024-05-08 |
# 私のビデオLMMはどのくらい良いか?ビデオLMMのための複雑なビデオ推論とロバストネス評価スイート
How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs ( http://arxiv.org/abs/2405.03690v2 ) ライセンス: Link先を確認 | Muhammad Uzair Khattak, Muhammad Ferjad Naeem, Jameel Hassan, Muzammal Naseer, Federico Tombari, Fahad Shahbaz Khan, Salman Khan, | (参考訳) 近年のLLM(Large Language Models)の進歩は,ビデオ理解タスクを幅広く扱えるビデオ大マルチモーダルモデル(Video Large Multi-LMM)の開発につながっている。
これらのモデルは、ロボット工学、AIアシスタント、医療手術、自動運転車といった現実世界のアプリケーションにデプロイされる可能性がある。
私たちの日常生活におけるビデオ-LMMの普及は、複雑な実世界のコンテキストにおける人間のような推論と相互作用能力のミラーリングにおいて、彼らの堅牢なパフォーマンスを保証し、評価することの重要性を浮き彫りにしている。
しかしながら、既存のビデオLMMのベンチマークでは、主に一般的なビデオ理解能力に焦点が当てられ、実世界のコンテキストにおける複雑なビデオに対する推論能力の評価や、テキストクエリとしてユーザプロンプトのレンズを通してこれらのモデルの堅牢性に焦点が当てられている。
本稿では,11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する新しいベンチマーク,CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)を提案する。
我々は、オープンソースとクローズドソースの両方を含む最近の9つのモデルを評価し、複雑なビデオを扱う際に、ビデオ-LMM、特にオープンソースモデルの大半がロバスト性や推論に苦しむことを発見した。
本研究では,既存のビデオLMMの性能向上を図るため,DSCP(Dual-Step Contextual Prompting)技術を開発した。
我々の発見は、高度な堅牢性と推論能力を備えた次世代の人間中心型AIシステムを構築する上で、貴重な洞察を提供する。
私たちのデータセットとコードは、https://mbzuai-oryx.github.io/CVRR-Evaluation-Suite/で公開されています。
Recent advancements in Large Language Models (LLMs) have led to the development of Video Large Multi-modal Models (Video-LMMs) that can handle a wide range of video understanding tasks. These models have the potential to be deployed in real-world applications such as robotics, AI assistants, medical surgery, and autonomous vehicles. The widespread adoption of Video-LMMs in our daily lives underscores the importance of ensuring and evaluating their robust performance in mirroring human-like reasoning and interaction capabilities in complex, real-world contexts. However, existing benchmarks for Video-LMMs primarily focus on general video comprehension abilities and neglect assessing their reasoning capabilities over complex videos in the real-world context, and robustness of these models through the lens of user prompts as text queries. In this paper, we present the Complex Video Reasoning and Robustness Evaluation Suite (CVRR-ES), a novel benchmark that comprehensively assesses the performance of Video-LMMs across 11 diverse real-world video dimensions. We evaluate 9 recent models, including both open-source and closed-source variants, and find that most of the Video-LMMs, especially open-source ones, struggle with robustness and reasoning when dealing with complex videos. Based on our analysis, we develop a training-free Dual-Step Contextual Prompting (DSCP) technique to enhance the performance of existing Video-LMMs. Our findings provide valuable insights for building the next generation of human-centric AI systems with advanced robustness and reasoning capabilities. Our dataset and code are publicly available at: https://mbzuai-oryx.github.io/CVRR-Evaluation-Suite/. | 翻訳日:2024-05-10 12:23:27 公開日:2024-05-08 |
# デルタ・テンソル(Delta Tensor) - デルタ湖の効率的なベクトル・テンソル・ストレージ
Delta Tensor: Efficient Vector and Tensor Storage in Delta Lake ( http://arxiv.org/abs/2405.03708v2 ) ライセンス: Link先を確認 | Zhiwei Bao, Liu Liao-Liao, Zhiyu Wu, Yifan Zhou, Dan Fan, Michal Aibin, Yvonne Coady, Andrew Brownsword, | (参考訳) 人工知能(AI)と機械学習(ML)のアプリケーションの指数関数的成長は、ベクトルデータとテンソルデータのための効率的なストレージソリューションの開発を必要としている。
本稿では,デルタ湖を用いたレイクハウス建築におけるテンソル貯蔵の新しい手法を提案する。
アレイデータベースからの多次元配列記憶戦略とスパース符号化手法をデルタレイクテーブルに適用することにより、従来のテンソルのシリアライゼーションと比較して、この手法は空間および時間効率の両方において顕著に改善されていることを示す。
これらの結果は、データ集約型アプリケーションにおける最適化ベクターおよびテンソルストレージソリューションの開発と実装のための貴重な洞察を与え、クラウドネイティブ環境におけるAIおよびMLドメインにおける効率的なデータ管理プラクティスの進化に寄与する。
The exponential growth of artificial intelligence (AI) and machine learning (ML) applications has necessitated the development of efficient storage solutions for vector and tensor data. This paper presents a novel approach for tensor storage in a Lakehouse architecture using Delta Lake. By adopting the multidimensional array storage strategy from array databases and sparse encoding methods to Delta Lake tables, experiments show that this approach has demonstrated notable improvements in both space and time efficiencies when compared to traditional serialization of tensors. These results provide valuable insights for the development and implementation of optimized vector and tensor storage solutions in data-intensive applications, contributing to the evolution of efficient data management practices in AI and ML domains in cloud-native environments | 翻訳日:2024-05-10 12:23:27 公開日:2024-05-08 |
# 因果レンズによる再帰主義の再考
Rethinking recidivism through a causal lens ( http://arxiv.org/abs/2011.11483v4 ) ライセンス: Link先を確認 | Vik Shirvaikar, Choudur Lakshminarayan, | (参考訳) 犯罪再犯の予測モデリング、あるいは人々が将来再犯するかどうかは、長く論争の多い歴史を持っている。
現代の因果推論手法は、予測を超えて、観察データセットにおける結果に対する特定の介入の「処理効果」を目標にすることができる。
本稿では,ノースカロライナの有名なデータセットを用いて,投獄(プライソンタイム)が再犯に与える影響を特に考察する。
共起バイアスに対処する2つの一般的な因果的手法が説明され、実証された: 有向非巡回グラフ(DAG)調整と二重機械学習(DML)。
我々は、収監が再犯に有害な影響があること、すなわち、長期の懲役刑により、解放後に個人が再犯する可能性が高まることを発見したが、この結論は、我々のデータの範囲を超えて一般化されるべきではない。
このケーススタディは、刑事司法分析への因果推論の今後の応用を知らせてくれることを願っている。
Predictive modeling of criminal recidivism, or whether people will re-offend in the future, has a long and contentious history. Modern causal inference methods allow us to move beyond prediction and target the "treatment effect" of a specific intervention on an outcome in an observational dataset. In this paper, we look specifically at the effect of incarceration (prison time) on recidivism, using a well-known dataset from North Carolina. Two popular causal methods for addressing confounding bias are explained and demonstrated: directed acyclic graph (DAG) adjustment and double machine learning (DML), including a sensitivity analysis for unobserved confounders. We find that incarceration has a detrimental effect on recidivism, i.e., longer prison sentences make it more likely that individuals will re-offend after release, although this conclusion should not be generalized beyond the scope of our data. We hope that this case study can inform future applications of causal inference to criminal justice analysis. | 翻訳日:2024-05-09 19:53:59 公開日:2024-05-08 |
# 多クラスロジスティック回帰のための勾配勾配下における最大推定値と収束率の存在について
On the existence of the maximum likelihood estimate and convergence rate under gradient descent for multi-class logistic regression ( http://arxiv.org/abs/2012.04576v5 ) ライセンス: Link先を確認 | Dwight Nwaigwe, Marek Rychlik, | (参考訳) 多クラスロジスティック回帰の最大推定値が存在するという問題を再考する。
サンプルデータセットの全てのクラスに正の確率を割り当てることによって、その存在を保証する方法が示される。
データ分離性の概念は、各データサンプルが1つのクラスに属する、古典的な多クラスロジスティック回帰のセットアップとは対照的である。
また、勾配降下を最適化器として用いる場合、収束率を最大推定値に一般化し、構成的に推定する。
我々の推定は、最大極大関数のヘシアンの条件数の境界に関係している。
この記事では、単純な演算子理論のフレームワークに依存します。
We revisit the problem of the existence of the maximum likelihood estimate for multi-class logistic regression. We show that one method of ensuring its existence is by assigning positive probability to every class in the sample dataset. The notion of data separability is not needed, which is in contrast to the classical set up of multi-class logistic regression in which each data sample belongs to one class. We also provide a general and constructive estimate of the convergence rate to the maximum likelihood estimate when gradient descent is used as the optimizer. Our estimate involves bounding the condition number of the Hessian of the maximum likelihood function. The approaches used in this article rely on a simple operator-theoretic framework. | 翻訳日:2024-05-09 19:50:32 公開日:2024-05-08 |
# 特徴重要度認識によるスパースグラフにおける臨界ノード検出の学習
Learning to Detect Critical Nodes in Sparse Graphs via Feature Importance Awareness ( http://arxiv.org/abs/2112.03404v2 ) ライセンス: Link先を確認 | Xuwei Tan, Yangming Zhou, MengChu Zhou, Zhang-Hua Fu, | (参考訳) スパースグラフにおけるクリティカルノードの検出は、ネットワーク脆弱性評価、疫病対策、薬物設計など、さまざまなアプリケーション領域において重要である。
クリティカルノード問題(CNP)は、削除が残余ネットワークのペア接続性を最大に低下させるネットワークから臨界ノードの集合を見つけることを目的としている。
一般のNPハードの性質のため、最先端のCNP解はヒューリスティックなアプローチに基づいている。
ドメインの知識と試行錯誤は通常、そのようなアプローチを設計する際に必要となるため、かなりの労力と時間を要する。
本研究は,ノード表現のための特徴量認識グラフアテンションネットワークを提案し,これを二重深度Qネットワークと組み合わせて,初めてCNPを解くエンドツーエンドアルゴリズムを作成する。
既存のほとんどのメソッドで必要とされる問題固有の知識やラベル付きデータセットは必要ない。
モデルが訓練されると、様々な種類のCNP(大きさと位相構造が異なる)に再学習することなく対処するように一般化することができる。
28の実世界のネットワーク上での計算実験により,提案手法は最先端の手法に非常に匹敵することを示した。
問題固有の知識は一切必要とせず、従って既存のアプローチを用いることで、不可能なものを含む多くのアプリケーションに適用することができる。
ソリューションの品質をさらに向上するために、いくつかのローカル検索手法と組み合わせることができる。
CNPの解法の有効性を示すために, 大規模な比較結果が得られた。
Detecting critical nodes in sparse graphs is important in a variety of application domains, such as network vulnerability assessment, epidemic control, and drug design. The critical node problem (CNP) aims to find a set of critical nodes from a network whose deletion maximally degrades the pairwise connectivity of the residual network. Due to its general NP-hard nature, state-of-the-art CNP solutions are based on heuristic approaches. Domain knowledge and trial-and-error are usually required when designing such approaches, thus consuming considerable effort and time. This work proposes a feature importance-aware graph attention network for node representation and combines it with dueling double deep Q-network to create an end-to-end algorithm to solve CNP for the first time. It does not need any problem-specific knowledge or labeled datasets as required by most of existing methods. Once the model is trained, it can be generalized to cope with various types of CNPs (with different sizes and topological structures) without re-training. Computational experiments on 28 real-world networks show that the proposed method is highly comparable to state-of-the-art methods. It does not require any problem-specific knowledge and, hence, can be applicable to many applications including those impossible ones by using the existing approaches. It can be combined with some local search methods to further improve its solution quality. Extensive comparison results are given to show its effectiveness in solving CNP. | 翻訳日:2024-05-09 19:50:32 公開日:2024-05-08 |
# スパイクQ-ラーニングによる深層強化学習
Deep Reinforcement Learning with Spiking Q-learning ( http://arxiv.org/abs/2201.09754v3 ) ライセンス: Link先を確認 | Ding Chen, Peixi Peng, Tiejun Huang, Yonghong Tian, | (参考訳) 特別なニューロモルフィックハードウェアの助けを借りて、スパイクニューラルネットワーク(SNN)は、少ないエネルギー消費で人工知能(AI)を実現することが期待されている。
SNNと深層強化学習(RL)を組み合わせることで、現実的な制御タスクに有望なエネルギー効率の方法を提供する。
現在、SNNベースのRLメソッドはわずかである。
その多くは、一般化能力がないか、トレーニングで値関数を推定するためにArtificial Neural Networks(ANN)を使用している。
前者はシナリオ毎に多数のハイパーパラメータを調整する必要があり、後者は異なるタイプのRLアルゴリズムの適用を制限し、トレーニングにおける大きなエネルギー消費を無視する。
本研究では,昆虫に見られる非スパイク介在ニューロンからインスピレーションを得て,非スパイクニューロンの膜電圧をQ値の表現として用いた深部スパイクQネットワーク(DSQN)を提案する。
17のアタリゲームで行われた実験では、DSQNは有効であり、ほとんどのゲームにおいてANNベースのディープQネットワーク(DQN)よりも優れていた。
さらに,DSQNの攻撃に対する学習安定性と堅牢性も向上した。
With the help of special neuromorphic hardware, spiking neural networks (SNNs) are expected to realize artificial intelligence (AI) with less energy consumption. It provides a promising energy-efficient way for realistic control tasks by combining SNNs with deep reinforcement learning (RL). There are only a few existing SNN-based RL methods at present. Most of them either lack generalization ability or employ Artificial Neural Networks (ANNs) to estimate value function in training. The former needs to tune numerous hyper-parameters for each scenario, and the latter limits the application of different types of RL algorithm and ignores the large energy consumption in training. To develop a robust spike-based RL method, we draw inspiration from non-spiking interneurons found in insects and propose the deep spiking Q-network (DSQN), using the membrane voltage of non-spiking neurons as the representation of Q-value, which can directly learn robust policies from high-dimensional sensory inputs using end-to-end RL. Experiments conducted on 17 Atari games demonstrate the DSQN is effective and even outperforms the ANN-based deep Q-network (DQN) in most games. Moreover, the experiments show superior learning stability and robustness to adversarial attacks of DSQN. | 翻訳日:2024-05-09 19:50:32 公開日:2024-05-08 |
# ランダム合金符号と符号化分散テンソルの基本限界
Random Alloy Codes and the Fundamental Limits of Coded Distributed Tensors ( http://arxiv.org/abs/2202.03469v6 ) ライセンス: Link先を確認 | Pedro Soto, | (参考訳) テンソルは分散における基本的な操作であり、大きなデータセットのために、一般的に複数の並列タスクに分散される。
ストラグラーや他の障害は、全体の完了時間に深刻な影響を与える可能性がある。
コーデックコンピューティングにおける最近の研究は、トラグラーをコード化されたタスクで緩和する新しい戦略を提供し、リカバリしきい値として知られる全体的な結果の回復に必要なタスク数を最小化することを目的としている。
しかし、この厳密な組合せの定義は失敗の確率を直接最適化しないことを示した。
本稿では、最も可能性の高い事象に着目し、復号化確率によってより直接的に符号化方式の最適性を測定する。
我々の確率論的アプローチは、行列乗算のための乱符号、すなわち、その測度に関して最適である局所ランダム合金符号の実践的な構築につながる。
さらに、確率論的アプローチにより、ランダムおよび決定論的符号付き分散テンソルに関する驚くべき不合理性定理を発見することができる。
Tensors are a fundamental operation in distributed and are commonly distributed into multiple parallel tasks for large datasets. Stragglers and other failures can severely impact the overall completion time. Recent works in coded computing provide a novel strategy to mitigate stragglers with coded tasks, with an objective of minimizing the number of tasks needed to recover the overall result, known as the recovery threshold. However, we demonstrate that this strict combinatorial definition does not directly optimize the probability of failure. In this paper, we focus on the most likely event and measure the optimality of a coding scheme more directly by its probability of decoding. Our probabilistic approach leads us to a practical construction of random codes for matrix multiplication, i.e., locally random alloy codes, which are optimal with respect to the measures. Furthermore, the probabilistic approach allows us to discover a surprising impossibility theorem about both random and deterministic coded distributed tensors. | 翻訳日:2024-05-09 19:50:32 公開日:2024-05-08 |
# 安全な仮想選挙に向けて:秩序に基づく投票規則の多党計算
Towards Secure Virtual Elections: Multiparty Computation of Order Based Voting Rules ( http://arxiv.org/abs/2205.10580v5 ) ライセンス: Link先を確認 | Tamir Tassa, Lihi Dery, | (参考訳) 電子投票システムは仮想選挙に欠かせないシステムであり、新型コロナウイルスのパンデミックやそれが課す社会的距離により、このようなシステムの必要性が高まっている。
電子投票システムにおける大きな課題の1つは、投票プロセスの確保である。すなわち、計算された結果が鋳造投票と一致していること、有権者のプライバシーが保存されていることを保証することである。
本稿では,秩序に基づく投票規則によって規制される選挙のためのセキュアな投票プロトコルを提案する。
我々のプロトコルは、必要な出力だけを発行するという意味で、完璧な投票秘密を提供するが、キャスト投票に関する他の情報は明らかにしない。
このような完全機密性は、セキュアなマルチパーティ計算ツールを利用することで達成され、有権者の自信を高め、その結果、真の好みに応じて投票することを奨励する。
プロトコルの計算コストの評価は、軽量であり、現実の電子選挙において容易に実装可能であることを証明している。
Electronic voting systems are essential for holding virtual elections, and the need for such systems increases due to the COVID-19 pandemic and the social distancing that it mandates. One of the main challenges in e-voting systems is to secure the voting process: namely, to certify that the computed results are consistent with the cast ballots, and that the privacy of the voters is preserved. We propose herein a secure voting protocol for elections that are governed by order-based voting rules. Our protocol offers perfect ballot secrecy, in the sense that it issues only the required output, while no other information on the cast ballots is revealed. Such perfect secrecy, which is achieved by employing secure multiparty computation tools, may increase the voters' confidence and, consequently, encourage them to vote according to their true preferences. Evaluation of the protocol's computational costs establishes that it is lightweight and can be readily implemented in real-life electronic elections. | 翻訳日:2024-05-09 19:50:32 公開日:2024-05-08 |
# 時間反転対称性と長距離ホッピングを持つランダム2次元系の超拡散
Superdiffusion in random two dimensional system with time-reversal symmetry and long-range hopping ( http://arxiv.org/abs/2205.14715v4 ) ライセンス: Link先を確認 | Xiaolong Deng, Ivan M. Khaymovich, Alexander L. Burin, | (参考訳) アンダーソンのローカライゼーションは次元が$d$以下か$2$以下であると認識されているが、デローカライゼーションは距離が遅いときに$V(r)$をホッピングするか、あるいは$r^{-d}$とすると期待されるが、次元が$d=2$で、また、次元が$V(r) \propto r^{-2}$をホッピングする場合のクロスオーバー状態におけるローカライゼーション問題は、まだ解決されていない。
先に述べたように、時間-逆対称の存在下での2次元異方性双極子-双極子相互作用によって決定されるホッピングについて、弱い障害と強い障害において2つの区別可能な位相が存在することを示す。
第1相はエルゴード力学と超拡散輸送により特徴づけられ、第2相は拡散輸送とフラクタル次元が2ドル未満の非局在固有状態によって特徴づけられる。
位相間の遷移は、局所化のスケーリング理論の拡張を用いて解析的に解決し、正確な数値対角化を用いて数値的に検証する。
Although it is recognized that Anderson localization takes place for all states at a dimension $d$ less or equal $2$, while delocalization is expected for hopping $V(r)$ decreasing with the distance slower or as $r^{-d}$, the localization problem in the crossover regime for the dimension $d=2$ and hopping $V(r) \propto r^{-2}$ is not resolved yet. Following earlier suggestions we show that for the hopping determined by two-dimensional anisotropic dipole-dipole interactions in the presence of time-reversal symmetry there exist two distinguishable phases at weak and strong disorder. The first phase is characterized by ergodic dynamics and superdiffusive transport, while the second phase is characterized by diffusive transport and delocalized eigenstates with fractal dimension less than $2$. The transition between phases is resolved analytically using the extension of scaling theory of localization and verified numerically using an exact numerical diagonalization. | 翻訳日:2024-05-09 19:50:32 公開日:2024-05-08 |
# 密度曲率特性によるバンプハンティング
Bump hunting through density curvature features ( http://arxiv.org/abs/2208.00174v3 ) ライセンス: Link先を確認 | José E. Chacón, Javier Fernández Serrano, | (参考訳) バンプハンティングは、バンプとして知られる意味のあるデータサブセットのサンプル空間の発見を扱う。
これらは伝統的に、基底密度関数のグラフにおけるモジュラー領域あるいは凹部領域として考えられている。
確率密度の曲率関数に基づく抽象的なバンプ構造を定義する。
次に、導関数を2次まで含むいくつかの代替的特徴付けについて検討する。
特に、グッド・アンド・ガスキンスの元々の凹凸バンプの適切な実装は、多変量の場合において提案される。
さらに,適用領域において良好な結果をもたらす平均曲率やラプラシアンといった探索データ解析の概念も導入する。
提案手法は, カーネル密度推定器を用いた曲率関数の近似に対処する。
我々は、ハウゼンドルフ距離におけるバンプ境界の漸近的一貫性を、手頃な収束率で保証する理論的結果を提供する。
また, 漸近的に有効かつ一貫した信頼領域を曲率バンプで有界に提示する。
この理論は、NBA、MLB、NFLのデータセットを用いたスポーツ分析におけるいくつかのユースケースを通して説明されている。
異なる曲率のインスタンスを効果的に組み合わせ、洞察に富んだ可視化を生成すると結論付けている。
Bump hunting deals with finding in sample spaces meaningful data subsets known as bumps. These have traditionally been conceived as modal or concave regions in the graph of the underlying density function. We define an abstract bump construct based on curvature functionals of the probability density. Then, we explore several alternative characterizations involving derivatives up to second order. In particular, a suitable implementation of Good and Gaskins' original concave bumps is proposed in the multivariate case. Moreover, we bring to exploratory data analysis concepts like the mean curvature and the Laplacian that have produced good results in applied domains. Our methodology addresses the approximation of the curvature functional with a plug-in kernel density estimator. We provide theoretical results that assure the asymptotic consistency of bump boundaries in the Hausdorff distance with affordable convergence rates. We also present asymptotically valid and consistent confidence regions bounding curvature bumps. The theory is illustrated through several use cases in sports analytics with datasets from the NBA, MLB and NFL. We conclude that the different curvature instances effectively combine to generate insightful visualizations. | 翻訳日:2024-05-09 19:50:32 公開日:2024-05-08 |
# 過パラメータニューラルネットワークのトレーニングにおけるヘビーボール法を用いたネステロフ加速勾配法の確率的加速
Provable Acceleration of Nesterov's Accelerated Gradient Method over Heavy Ball Method in Training Over-Parameterized Neural Networks ( http://arxiv.org/abs/2208.03941v4 ) ライセンス: Link先を確認 | Xin Liu, Wei Tao, Wei Li, Dazhi Zhan, Jun Wang, Zhisong Pan, | (参考訳) その単純さと効率のため、一階勾配法はニューラルネットワークのトレーニングに広く用いられている。
ニューラルネットワークの最適化問題は非凸であるが、最近の研究では、パラメータの数がトレーニングインスタンスのそれよりもかなり大きいパラメータ化ニューラルネットワークのトレーニング中に、一階法が世界最小に達することが証明されている。
重ボール法(HB法)やネステロフの加速勾配法(NAG法)を含むモーメント法は、その加速収束に依拠する一階勾配法のワークホースである。
実際には、NAGはHBよりも優れたパフォーマンスを示すことが多い。
しかし、現在の理論的研究は、ニューラルネットワークのトレーニングにおける収束差を区別することができない。
このギャップを埋めるために、オーバーパラメータ化およびランダム初期化の下での2層ReLUニューラルネットワークのトレーニング問題を考察する。
高分解能力学系とニューラル・タンジェント・カーネル(NTK)理論を応用して、我々の結果は、HBとNAGの収束率のより強い上限を確立するだけでなく、ニューラルネットワークのトレーニングにおいてNAGがHBよりも加速することを初めて理論的に保証する。
最後に,3つのベンチマークデータセットの理論的結果を検証する。
Due to its simplicity and efficiency, the first-order gradient method has been extensively employed in training neural networks. Although the optimization problem of the neural network is non-convex, recent research has proved that the first-order method is capable of attaining a global minimum during training over-parameterized neural networks, where the number of parameters is significantly larger than that of training instances. Momentum methods, including the heavy ball (HB) method and Nesterov's accelerated gradient (NAG) method, are the workhorse of first-order gradient methods owning to their accelerated convergence. In practice, NAG often exhibits superior performance than HB. However, current theoretical works fail to distinguish their convergence difference in training neural networks. To fill this gap, we consider the training problem of the two-layer ReLU neural network under over-parameterization and random initialization. Leveraging high-resolution dynamical systems and neural tangent kernel (NTK) theory, our result not only establishes tighter upper bounds of the convergence rate for both HB and NAG, but also provides the first theoretical guarantee for the acceleration of NAG over HB in training neural networks. Finally, we validate our theoretical results on three benchmark datasets. | 翻訳日:2024-05-09 19:50:32 公開日:2024-05-08 |
# 量子暗号における一方向性
One-Wayness in Quantum Cryptography ( http://arxiv.org/abs/2210.03394v3 ) ライセンス: Link先を確認 | Tomoyuki Morimae, Takashi Yamakawa, | (参考訳) ワンウェイ関数の存在は、古典暗号における最も基本的な仮定の1つである。
一方、量子世界では、一方の関数が存在しない場合でも、いくつかの暗号プリミティブが存在するという証拠がある。
量子暗号の最も基本的な要素は何か?
この方向において、Brakerski、Canetti、QianはEFIペアという概念を最近定義し、これは統計的に区別できるが計算的に区別できない効率的な生成可能な状態のペアであり、コミットメント、暗黙の転送、一般のマルチパーティ計算を含むいくつかの暗号プリミティブと等価であることを示した。
しかしながら、彼らの研究は決定型プリミティブに焦点を当てており、量子マネーやデジタルシグネチャのような検索型プリミティブをカバーしていない。
本稿では,一方向関数の量子アナログである一方向状態発生器(OWSG)の特性について検討する。
まず、OWSGの定義を再検討し、混合出力状態を許容して一般化する。
次に以下の結果を示す。
1) OWSG の弱いバージョン,弱いバージョンを定義し,OWSG と同値であることを示す。
2)量子デジタル署名はOWSGと等価である。
(3)秘密鍵量子マネースキーム(純貨幣状態)は、OWSGを暗示する。
(4)量子擬似ワンタイムパッド方式は、OWSGとEFIのペアの両方を暗示する。
(5) 秘かに検証可能で統計的に可逆な OWSG と呼ばれる OWSG の非比較可能変種を導入し,それらが EFI 対と等価であることを示す。
The existence of one-way functions is one of the most fundamental assumptions in classical cryptography. In the quantum world, on the other hand, there are evidences that some cryptographic primitives can exist even if one-way functions do not exist. We therefore have the following important open problem in quantum cryptography: What is the most fundamental element in quantum cryptography? In this direction, Brakerski, Canetti, and Qian recently defined a notion called EFI pairs, which are pairs of efficiently generatable states that are statistically distinguishable but computationally indistinguishable, and showed its equivalence with some cryptographic primitives including commitments, oblivious transfer, and general multi-party computations. However, their work focuses on decision-type primitives and does not cover search-type primitives like quantum money and digital signatures. In this paper, we study properties of one-way state generators (OWSGs), which are a quantum analogue of one-way functions. We first revisit the definition of OWSGs and generalize it by allowing mixed output states. Then we show the following results. (1) We define a weaker version of OWSGs, weak OWSGs, and show that they are equivalent to OWSGs. (2) Quantum digital signatures are equivalent to OWSGs. (3) Private-key quantum money schemes (with pure money states) imply OWSGs. (4) Quantum pseudo one-time pad schemes imply both OWSGs and EFI pairs. (5) We introduce an incomparable variant of OWSGs, which we call secretly-verifiable and statistically-invertible OWSGs, and show that they are equivalent to EFI pairs. | 翻訳日:2024-05-09 19:50:32 公開日:2024-05-08 |
# ガウス図形モデルのロバストモデル選択
Robust Model Selection of Gaussian Graphical Models ( http://arxiv.org/abs/2211.05690v2 ) ライセンス: Link先を確認 | Abrar Zahin, Rajasekhar Anguluri, Lalitha Sankar, Oliver Kosut, Gautam Dasarathy, | (参考訳) ガウスのグラフィカルモデル選択では、ノイズ崩壊したサンプルが大きな課題を呈している。
最小限のノイズでさえ基礎構造を曖昧にし、基本的な識別可能性の問題を引き起こすことが知られている。
この「ロバストモデル選択」問題に対処する最近の研究は、木構造グラフィカルモデルに焦点を絞っている。
この特定のモデルのクラス内でも、正確な構造回復は不可能であることが示されている。
しかし、基礎となる木構造を(避けられない)同値類まで確実に復元することが知られているいくつかのアルゴリズムが開発されている。
本稿では,これらの結果を木構造グラフを超えて拡張する。
まず、ノイズの存在下で一般グラフを復元できる同値類を特徴付ける。
固有の曖昧さ(これは避けられない)にもかかわらず、回復可能な構造は、基盤となるモデルにおける局所的なクラスタリング情報とグローバルな接続パターンを明らかにする。
このような情報は、電力網、ソーシャルネットワーク、タンパク質とタンパク質の相互作用、神経構造など、現実世界の様々な問題に有用である。
そこで我々は,基礎となるグラフを同定されたあいまいさまで確実に復元するアルゴリズムを提案する。
さらに,本アルゴリズムの高次元構造における有限サンプル保証を行い,数値シミュレーションによる検証を行った。
In Gaussian graphical model selection, noise-corrupted samples present significant challenges. It is known that even minimal amounts of noise can obscure the underlying structure, leading to fundamental identifiability issues. A recent line of work addressing this "robust model selection" problem narrows its focus to tree-structured graphical models. Even within this specific class of models, exact structure recovery is shown to be impossible. However, several algorithms have been developed that are known to provably recover the underlying tree-structure up to an (unavoidable) equivalence class. In this paper, we extend these results beyond tree-structured graphs. We first characterize the equivalence class up to which general graphs can be recovered in the presence of noise. Despite the inherent ambiguity (which we prove is unavoidable), the structure that can be recovered reveals local clustering information and global connectivity patterns in the underlying model. Such information is useful in a range of real-world problems, including power grids, social networks, protein-protein interactions, and neural structures. We then propose an algorithm which provably recovers the underlying graph up to the identified ambiguity. We further provide finite sample guarantees in the high-dimensional regime for our algorithm and validate our results through numerical simulations. | 翻訳日:2024-05-09 19:50:32 公開日:2024-05-08 |
# 局所エネルギー最適化による完全連結ネットワーク間の効率的な励振伝達
Efficient excitation-transfer across fully connected networks via local-energy optimization ( http://arxiv.org/abs/2211.09079v2 ) ライセンス: Link先を確認 | S. Sgroi, G. Zicari, A. Imparato, M. Paternostro, | (参考訳) 本研究では, サイトエネルギーを人工的に設計できる完全連結量子ネットワーク上での励起伝達について検討する。
広義の物理系を単純化したモデルから, 適応的なグラディエント蛍光法と自動微分法を用いて, 局所エネルギーを体系的に最適化し, 様々な環境条件に対して高い励起伝達を実現する。
約完全な転送は局所的なデファス化なしで達成できることを示し、デファス化率はそれほど大きくないことを示す。
ネットワーク接続強度, サイズ, およびコヒーレンス損失の変動に対するレジリエンスについて検討する。
我々は、軽蔑のない、軽蔑駆動のトランスファーの異なる特徴を強調した。
我々の研究は、完全連結量子ネットワークにおける励起-伝達現象におけるコヒーレンスとデフォーカス効果の相互作用に関するさらなる洞察を与える。
これにより、ローカルエネルギーの簡単な操作を通じて、人工オープンネットワークにおける最適な転送を設計できる。
We study the excitation transfer across a fully connected quantum network whose sites energies can be artificially designed. Starting from a simplified model of a broadly-studied physical system, we systematically optimize its local energies to achieve high excitation transfer for various environmental conditions, using an adaptive Gradient Descent technique and Automatic Differentiation. We show that almost perfect transfer can be achieved with and without local dephasing, provided that the dephasing rates are not too large. We investigate our solutions in terms of resilience against variations in either the network connection strengths, or size, as well as coherence losses. We highlight the different features of a dephasing-free and dephasing-driven transfer. Our work gives further insight into the interplay between coherence and dephasing effects in excitation-transfer phenomena across fully connected quantum networks. In turn, this will help designing optimal transfer in artificial open networks through the simple manipulation of local energies. | 翻訳日:2024-05-09 19:50:32 公開日:2024-05-08 |
# ガバナンス・リスク・コンプライアンスにおける人工知能:ガバナンス・リスク・コンプライアンス(GRC)における人工知能(AI)の適用の可能性に関する研究結果
Artificial Intelligence in Governance, Risk and Compliance: Results of a study on potentials for the application of artificial intelligence (AI) in governance, risk and compliance (GRC) ( http://arxiv.org/abs/2212.03601v2 ) ライセンス: Link先を確認 | Eva Ponick, Gabriele Wieczorek, | (参考訳) デジタルトランスフォーメーションは、組織構造に根本的な変化をもたらす。
新たなテクノロジを選択的に適用するには、企業内のプロセスを変更し、特にインターフェースに関して、機能ユニットを全体観する必要がある。
リスク管理とコンプライアンスに基づいて、ガバナンス機能として内部管理システムと組み合わせて、ターゲット指向の管理決定を行う。
これらの機能の有効性と効率性は、企業活動に関する代替選択肢の評価と同様に、ガイドライン及び規制要件に従うことが決定的である。
GRC(Governance, Risk and Compliance)とは、前述のガバナンス機能が相互にリンクされ、互いに分離されていない、統合的なガバナンス・アプローチのことである。
人工知能の手法はデジタルトランスフォーメーションの重要な技術である。
この技術は、機械学習、人工知能、自然言語処理、ディープラーニングなどの幅広い方法を提供しており、購入からプロダクション、カスタマーサービスに至るまで、多くのビジネス領域で可能なアプリケーションを提供している。
人工知能は、例えば非構造化データセットの処理や分析に、GRCでも使用されている。
本研究は, GRCにおける人工知能の潜在的な応用を同定し, 分析するための2021年の調査結果を含む。
The digital transformation leads to fundamental change in organizational structures. To be able to apply new technologies not only selectively, processes in companies must be revised and functional units must be viewed holistically, especially with regard to interfaces. Target-oriented management decisions are made, among other things, on the basis of risk management and compliance in combination with the internal control system as governance functions. The effectiveness and efficiency of these functions is decisive to follow guidelines and regulatory requirements as well as for the evaluation of alternative options for acting with regard to activities of companies. GRC (Governance, Risk and Compliance) means an integrated governance-approach, in which the mentioned governance functions are interlinked and not separated from each other. Methods of artificial intelligence represents an important technology of digital transformation. This technology, which offers a broad range of methods such as machine learning, artificial neural networks, natural language processing or deep learning, offers a lot of possible applications in many business areas from purchasing to production or customer service. Artificial intelligence is also being used in GRC, for example for processing and analysis of unstructured data sets. This study contains the results of a survey conducted in 2021 to identify and analyze the potential applications of artificial intelligence in GRC. | 翻訳日:2024-05-09 19:50:32 公開日:2024-05-08 |
# マルチプレイヤー戦略スポーツゲームデータからのコメント生成
Commentary Generation from Data Records of Multiplayer Strategy Esports Game ( http://arxiv.org/abs/2212.10935v2 ) ライセンス: Link先を確認 | Zihan Wang, Naoki Yoshinaga, | (参考訳) ビデオゲームのスポーツコンペティションであるEsportsは、最も重要なスポーツイベントの1つとなっている。
エスポートのプレイログは蓄積されているが、観客がプレイを検索して理解するためにテキストコメンタリーを添付しているのはごくわずかである。
そこで本研究では,esportsのデータ記録からゲームコメンタリーを生成するタスクについて紹介する。
まず、一般的なエスポートゲームであるLeague of Legendsから構造化されたデータと注釈をペアリングする、大規模なエスポートデータ-テキストデータセットを構築します。
次に,Transformerベースのモデルを評価し,構造化データからゲーム注釈を生成するとともに,事前学習された言語モデルの影響を調査した。
評価結果から,本課題の課題を明らかにした。
データ・ツー・テキスト・ジェネレーションのコミュニティにおける潜在的研究を促進するために、データセットをリリースします。
Esports, a sports competition on video games, has become one of the most important sporting events. Although esports play logs have been accumulated, only a small portion of them accompany text commentaries for the audience to retrieve and understand the plays. In this study, we therefore introduce the task of generating game commentaries from esports' data records. We first build large-scale esports data-to-text datasets that pair structured data and commentaries from a popular esports game, League of Legends. We then evaluate Transformer-based models to generate game commentaries from structured data records, while examining the impact of the pre-trained language models. Evaluation results on our dataset revealed the challenges of this novel task. We will release our dataset to boost potential research in the data-to-text generation community. | 翻訳日:2024-05-09 19:40:17 公開日:2024-05-08 |
# 異種人選好からの強化学習
Reinforcement Learning from Diverse Human Preferences ( http://arxiv.org/abs/2301.11774v3 ) ライセンス: Link先を確認 | Wanqi Xue, Bo An, Shuicheng Yan, Zhongwen Xu, | (参考訳) 報酬関数を設計する複雑さは、深層強化学習(RL)技術の幅広い応用にとって大きな障害となっている。
エージェントの望ましい行動や特性を記述することは、専門家にとっても困難である。
人間の嗜好(または嗜好に基づくRL)からの強化学習と呼ばれる新しいパラダイムが、行動軌跡内の人間の嗜好ラベルから報酬関数を学習する有望な解決策として登場した。
しかし, 従来のRL法は, 正確なオラクル選好ラベルの必要性によって制限されている。
本稿では,この制限に対処するため,人選好ラベルをクラウドソーシングし,人選好から学習する手法を開発した。
鍵となる考え方は、潜在空間における正規化と修正を通じて報酬学習を安定化させることである。
時間的整合性を確保するため、報酬モデルに強い制約が課せられ、その潜在空間は以前の分布に近くなる。
さらに、信頼性に基づく報酬モデルアンサンブル法は、より安定で信頼性の高い予測を生成するように設計されている。
提案手法はDMcontrol と Meta-world の様々なタスクでテストされ,様々なフィードバックから学習し,実世界の RL 手法への道を開く際に,既存の選好ベース RL アルゴリズムよりも一貫した,重要な改善が見られた。
The complexity of designing reward functions has been a major obstacle to the wide application of deep reinforcement learning (RL) techniques. Describing an agent's desired behaviors and properties can be difficult, even for experts. A new paradigm called reinforcement learning from human preferences (or preference-based RL) has emerged as a promising solution, in which reward functions are learned from human preference labels among behavior trajectories. However, existing methods for preference-based RL are limited by the need for accurate oracle preference labels. This paper addresses this limitation by developing a method for crowd-sourcing preference labels and learning from diverse human preferences. The key idea is to stabilize reward learning through regularization and correction in a latent space. To ensure temporal consistency, a strong constraint is imposed on the reward model that forces its latent space to be close to the prior distribution. Additionally, a confidence-based reward model ensembling method is designed to generate more stable and reliable predictions. The proposed method is tested on a variety of tasks in DMcontrol and Meta-world and has shown consistent and significant improvements over existing preference-based RL algorithms when learning from diverse feedback, paving the way for real-world applications of RL methods. | 翻訳日:2024-05-09 19:40:17 公開日:2024-05-08 |
# ADELT: ディープラーニングフレームワーク間のトランスパイレーション
ADELT: Transpilation Between Deep Learning Frameworks ( http://arxiv.org/abs/2303.03593v3 ) ライセンス: Link先を確認 | Linyuan Gong, Jiayi Wang, Alvin Cheung, | (参考訳) 本稿では,Deep Learning Transpiler (ADELT, Adversarial Deep Learning Transpiler)を提案する。
ADELTはコードスケルトン変換とAPIキーワードマッピングを独自に分離する。
コードスケルトントランスパイレーションでは、大きな言語モデル(LLM)で数発のプロンプトを使用するが、APIキーワードマッピングでは、コード固有のBERTからのコンテキスト埋め込みを使用する。
これらの埋め込みは、キーワード翻訳辞書を生成するためにドメイン・アドバイザリ・セットアップで訓練される。
ADELTは、手作りのルールや並列データに頼ることなく、ラベルなしのWebcrawled Deep Learning Corpusでトレーニングされている。
これは最先端のトランスパイラより優れており、それぞれPyTorch-KerasとPyTorch-MXNetのトランスパイラペアに対して17.4 ptsと15.0 ptsのpass@1レートが向上している。
コードへのアクセスはhttps://github.com/gonglinyuan/adelt.comで公開しています。
We propose the Adversarial DEep Learning Transpiler (ADELT), a novel approach to source-to-source transpilation between deep learning frameworks. ADELT uniquely decouples code skeleton transpilation and API keyword mapping. For code skeleton transpilation, it uses few-shot prompting on large language models (LLMs), while for API keyword mapping, it uses contextual embeddings from a code-specific BERT. These embeddings are trained in a domain-adversarial setup to generate a keyword translation dictionary. ADELT is trained on an unlabeled web-crawled deep learning corpus, without relying on any hand-crafted rules or parallel data. It outperforms state-of-the-art transpilers, improving pass@1 rate by 17.4 pts and 15.0 pts for PyTorch-Keras and PyTorch-MXNet transpilation pairs respectively. We provide open access to our code at https://github.com/gonglinyuan/adelt. | 翻訳日:2024-05-09 19:40:17 公開日:2024-05-08 |
# 絡み合いスペクトル平坦性による非安定化剤の定量化
Quantifying non-stabilizerness through entanglement spectrum flatness ( http://arxiv.org/abs/2304.01175v2 ) ライセンス: Link先を確認 | Emanuele Tirrito, Poetri Sonya Tarabunga, Gugliemo Lami, Titas Chanda, Lorenzo Leone, Salvatore F. E. Oliviero, Marcello Dalmonte, Mario Collura, Alioscia Hamma, | (参考訳) 非安定化器性(英: non-stabilizerness)は、量子コンピューティングの優位性のためのリソースであり、非クリフォード演算へのアクセスにある。
非安定化器性がどのように量子化され、それが他の量子資源とどのように関連しているかを包括的に理解することは、量子複雑性の起源の研究と特徴付けに不可欠である。
本研究では、純量子状態に対する非安定度と絡み合いスペクトルの平坦度との直接接続を確立する。
この接続を利用して、ノイズがあっても非安定化剤の効率よく探索できることが示される。
本研究は,非安定化剤と絡み合い応答の直接的関係を明らかにし,冷間原子および固体プラットフォームにおける非安定化剤の探索のための明確な実験プロトコルを定義した。
Non-stabilizerness - also colloquially referred to as magic - is the a resource for advantage in quantum computing and lies in the access to non-Clifford operations. Developing a comprehensive understanding of how non-stabilizerness can be quantified and how it relates other quantum resources is crucial for studying and characterizing the origin of quantum complexity. In this work, we establish a direct connection between non-stabilizerness and entanglement spectrum flatness for a pure quantum state. We show that this connection can be exploited to efficiently probe non-stabilizerness even in presence of noise. Our results reveal a direct connection between non-stabilizerness and entanglement response, and define a clear experimental protocol to probe non-stabilizerness in cold atom and solid-state platforms. | 翻訳日:2024-05-09 19:40:17 公開日:2024-05-08 |
# StepMix: 外部変数を持つ一般化混合モデルの擬似的推定のためのPythonパッケージ
StepMix: A Python Package for Pseudo-Likelihood Estimation of Generalized Mixture Models with External Variables ( http://arxiv.org/abs/2304.03853v5 ) ライセンス: Link先を確認 | Sacha Morin, Robin Legault, Félix Laliberté, Zsuzsa Bakk, Charles-Édouard Giguère, Roxane de la Sablonnière, Éric Lacourse, | (参考訳) StepMixは、外部変数(共変量および遠位結果)を持つ一般化有限混合モデル(潜時プロファイルおよび潜時クラス分析)の擬似的様相推定(1段階、2段階、3段階のアプローチ)のためのオープンソースのPythonパッケージである。
社会科学における多くの応用において、主な目的は個人を潜在クラスにクラスタリングするだけでなく、これらのクラスを使用してより複雑な統計モデルを開発することである。
これらのモデルは一般に、潜在クラスを観察された指標に関連付ける測定モデルと、共変量と結果変数を潜在クラスに関連付ける構造モデルに分けられる。
測定と構造モデルは、いわゆるワンステップアプローチやステップワイド手法を用いて、共同で推定することができる。
1段階法に加えて、Blk-Croon-Hagenaarsを用いたバイアス調整3段階法や最大誤差補正、より最近の2段階法など、文献から最も重要なステップワイズ推定手法を実装している。
これらの擬似的様相推定器は、特定の期待-最大化サブルーチンとして統一された枠組みの下で提示される。
データサイエンスコミュニティにおける彼らの採用を促進するため、StepMixはScikit-Lernライブラリのオブジェクト指向設計に従い、追加のRラッパーを提供する。
StepMix is an open-source Python package for the pseudo-likelihood estimation (one-, two- and three-step approaches) of generalized finite mixture models (latent profile and latent class analysis) with external variables (covariates and distal outcomes). In many applications in social sciences, the main objective is not only to cluster individuals into latent classes, but also to use these classes to develop more complex statistical models. These models generally divide into a measurement model that relates the latent classes to observed indicators, and a structural model that relates covariates and outcome variables to the latent classes. The measurement and structural models can be estimated jointly using the so-called one-step approach or sequentially using stepwise methods, which present significant advantages for practitioners regarding the interpretability of the estimated latent classes. In addition to the one-step approach, StepMix implements the most important stepwise estimation methods from the literature, including the bias-adjusted three-step methods with Bolk-Croon-Hagenaars and maximum likelihood corrections and the more recent two-step approach. These pseudo-likelihood estimators are presented in this paper under a unified framework as specific expectation-maximization subroutines. To facilitate and promote their adoption among the data science community, StepMix follows the object-oriented design of the scikit-learn library and provides an additional R wrapper. | 翻訳日:2024-05-09 19:40:17 公開日:2024-05-08 |
# ChatGPTによる放射線学レポート要約のための反復的最適化フレームワーク
An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT ( http://arxiv.org/abs/2304.08448v3 ) ライセンス: Link先を確認 | Chong Ma, Zihao Wu, Jiaqi Wang, Shaochen Xu, Yaonai Wei, Fang Zeng, Zhengliang Liu, Xi Jiang, Lei Guo, Xiaoyan Cai, Shu Zhang, Tuo Zhang, Dajiang Zhu, Dinggang Shen, Tianming Liu, Xiang Li, | (参考訳) 放射線医学報告の「印象」セクションは、放射線学者と他の医師とのコミュニケーションにとって重要な基盤であり、一般的には「フィンディング」セクションに基づいた放射線学者によって書かれる。
しかし、多くの印象を書くことは、放射線学者にとって退屈で誤りにつながる可能性がある。
近年の研究では、事前訓練と微調整のための大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られているが、そのようなモデルは大量の医療用テキストデータを必要とし、一般化性能が劣ることが多い。
ChatGPTのような大規模言語モデル(LLM)は強力な一般化能力と性能を示してきたが、放射線学のような特定の領域における性能は未検討であり、潜在的に制限されている。
この制限に対処するために、ドメイン固有の個別化データを用いて動的コンテキストを構築することにより、LLMの文脈内学習能力を活用するImpressionGPTを提案する。
この動的なプロンプトアプローチにより、既存のデータから意味的に類似した例から文脈的知識を学ぶことができる。
さらに、生成した印象結果を自動的に評価する反復最適化アルゴリズムを設計し、それに対応する命令プロンプトを作成し、モデルをさらに最適化する。
提案したImpressionGPTモデルは,MIMIC-CXRとOpenIの両方のデータセット上で,追加のトレーニングデータやLLMの微調整を必要とせずに,最先端のパフォーマンスを実現する。
本研究は,LLMをローカライズするためのパラダイムとして,汎用LLMと各種ドメインの言語処理ニーズとのギャップを埋める,様々なアプリケーションシナリオに適用可能な手法を提案する。
The 'Impression' section of a radiology report is a critical basis for communication between radiologists and other physicians, and it is typically written by radiologists based on the 'Findings' section. However, writing numerous impressions can be laborious and error-prone for radiologists. Although recent studies have achieved promising results in automatic impression generation using large-scale medical text data for pre-training and fine-tuning pre-trained language models, such models often require substantial amounts of medical text data and have poor generalization performance. While large language models (LLMs) like ChatGPT have shown strong generalization capabilities and performance, their performance in specific domains, such as radiology, remains under-investigated and potentially limited. To address this limitation, we propose ImpressionGPT, which leverages the in-context learning capability of LLMs by constructing dynamic contexts using domain-specific, individualized data. This dynamic prompt approach enables the model to learn contextual knowledge from semantically similar examples from existing data. Additionally, we design an iterative optimization algorithm that performs automatic evaluation on the generated impression results and composes the corresponding instruction prompts to further optimize the model. The proposed ImpressionGPT model achieves state-of-the-art performance on both MIMIC-CXR and OpenI datasets without requiring additional training data or fine-tuning the LLMs. This work presents a paradigm for localizing LLMs that can be applied in a wide range of similar application scenarios, bridging the gap between general-purpose LLMs and the specific language processing needs of various domains. | 翻訳日:2024-05-09 19:40:17 公開日:2024-05-08 |
# 対角的因果表現学習のための因果フローに基づく変分自動エンコーダ
Causal Flow-based Variational Auto-Encoder for Disentangled Causal Representation Learning ( http://arxiv.org/abs/2304.09010v4 ) ライセンス: Link先を確認 | Di Fan, Yannian Kou, Chuanhou Gao, | (参考訳) 遠方表現学習は、各次元が基礎となる生成因子に対応する、データの低次元表現を学習することを目的としている。
現在、変分オートエンコーダ(VAE)は、生成因子間の独立性を仮定する手法として、アンタングル表現学習に広く用いられている。
しかし、現実のシナリオでは、生成的要因は通常複雑な因果関係を示す。
そこで我々は、因果フローとして知られる自己回帰フローの変種を含むDistangled Causal Variational Auto-Encoder (DCVAE) という新しいVAEベースのフレームワークを設計し、効果的な因果不整合表現を学習する。
本稿では,DCVAEの非絡合性に関する理論的解析を行い,我々のモデルが因果不絡合表現を効果的に学習できることを確かめる。
DCVAEの性能は、合成データセットと実世界のデータセットの両方で評価され、因果的絡み合いの達成と介入実験の実施に際し、その優れた能力を示す。
さらに、DCVAEは下流タスクにおいて顕著な性能を示し、要因間の真の因果構造を学習する可能性がある。
Disentangled representation learning aims to learn low-dimensional representations of data, where each dimension corresponds to an underlying generative factor. Currently, Variational Auto-Encoder (VAE) are widely used for disentangled representation learning, with the majority of methods assuming independence among generative factors. However, in real-world scenarios, generative factors typically exhibit complex causal relationships. We thus design a new VAE-based framework named Disentangled Causal Variational Auto-Encoder (DCVAE), which includes a variant of autoregressive flows known as causal flows, capable of learning effective causal disentangled representations. We provide a theoretical analysis of the disentanglement identifiability of DCVAE, ensuring that our model can effectively learn causal disentangled representations. The performance of DCVAE is evaluated on both synthetic and real-world datasets, demonstrating its outstanding capability in achieving causal disentanglement and performing intervention experiments. Moreover, DCVAE exhibits remarkable performance on downstream tasks and has the potential to learn the true causal structure among factors. | 翻訳日:2024-05-09 19:40:17 公開日:2024-05-08 |
# 早期耐故障量子コンピュータにおける読み出し雑音の最小化
Minimizing readout-induced noise for early fault-tolerant quantum computers ( http://arxiv.org/abs/2304.11532v3 ) ライセンス: Link先を確認 | Yunzhe Zheng, Keita Kanno, | (参考訳) 量子エラー訂正符号は、潜在的なエラーを診断し、シンドローム測定を利用して測定結果に基づいて修正することができる。
しかし、初期のフォールトトレラント量子コンピュータでは、中間回路測定は技術的に困難であり、リードアウト誘起ノイズは論理的不忠実性の主要な要因である。
そこで本研究では, 全身型症候群計測法として, 単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単発単
そのため、読み出し雑音を最小限に抑えて論理状態の誤差を検出することができる。
本手法を量子誤り訂正サイクルの事前チェックルーチンとして採用することにより,症候群測定時の読み出しオーバーヘッド,アイドリング時間,論理誤差率を大幅に低減することができる。
超伝導ハードウェアをベースとした現実的なノイズパラメータ下でのIceberg符号とSteane符号を用いて,本プロトコルの性能を数値解析し,短期シナリオにおける本プロトコルの利点を実証する。
短期量子ハードウェアの中間回路計測は依然としてエラーを起こしやすいため,本手法は早期のフォールトトレラント量子コンピューティングの応用を推し進める可能性がある。
Quantum error correcting code can diagnose potential errors and correct them based on measured outcomes by leveraging syndrome measurement. However, mid-circuit measurement has been technically challenging for early fault-tolerant quantum computers and the readout-induced noise acts as a main contributor to the logical infidelity. We present a different method for syndrome extraction, namely Generalized Syndrome Measurement, that requires only a single-shot measurement on a single ancilla, while the canonical syndrome measurement requires multiple measurements to extract the eigenvalue for each stabilizer generator. As such, we can detect the error in the logical state with minimized readout-induced noise. By adopting our method as a pre-check routine for quantum error correcting cycles, we can significantly reduce the readout overhead, the idling time, and the logical error rate during syndrome measurement. We numerically analyze the performance of our protocol using Iceberg code and Steane code under realistic noise parameters based on superconducting hardware and demonstrate the advantage of our protocol in the near-term scenario. As mid-circuit measurements are still error-prone for near-term quantum hardware, our method may boost the applications of early fault-tolerant quantum computing. | 翻訳日:2024-05-09 19:40:17 公開日:2024-05-08 |
# Bake off redux:最近の時系列分類アルゴリズムのレビューと実験的評価
Bake off redux: a review and experimental evaluation of recent time series classification algorithms ( http://arxiv.org/abs/2304.13029v3 ) ライセンス: Link先を確認 | Matthew Middlehurst, Patrick Schäfer, Anthony Bagnall, | (参考訳) 2017年、カリフォルニア大学リバーサイド校(UCR)のアーカイブから得られた85のデータセットに対して、18の時系列分類(TSC)アルゴリズムを比較した。
この研究は一般に「ベイクオフ」と呼ばれ、9つのアルゴリズムのみが使用されていた動的時間ウォーピング(DTW)や回転フォレストベンチマークよりもはるかに優れた性能を示した。
この研究は、各アルゴリズムを時系列データから抽出した特徴の種類によって分類し、5つの主要なアルゴリズムの分類を作成した。
このアルゴリズムの分類と、コード提供と再現性のためのアクセス可能な結果の分類は、TSC分野の人気向上に寄与した。
このブームから6年以上が経過し、UCRアーカイブは112のデータセットに拡張され、多くの新しいアルゴリズムが提案されている。
提案したカテゴリが、当初からどのように進歩してきたかを確認し、拡張されたUCRアーカイブを用いて、以前のベスト・オブ・カテゴリに対して、新しいアルゴリズムの性能を評価する。
我々は、最近の発展を反映する3つの新しいカテゴリーを含むように分類を拡張します。
提案した距離,間隔,シェープレット,辞書,ハイブリッドベースアルゴリズムとともに,より新しい畳み込みアルゴリズムと特徴ベースアルゴリズム,ディープラーニングアプローチを比較した。
我々は、最近アーカイブに寄贈された30の分類データセットや、TSCフォーマットに改定された30の分類データセットを導入し、これらを用いて、各カテゴリの最高の性能アルゴリズムをさらに評価する。
近年提案されているHydra+MultiROCKET と HIVE-COTEv2 のアルゴリズムは,現在のTSC 問題と新しい TSC 問題の両方において,他の手法よりも優れていることがわかった。
In 2017, a research paper compared 18 Time Series Classification (TSC) algorithms on 85 datasets from the University of California, Riverside (UCR) archive. This study, commonly referred to as a `bake off', identified that only nine algorithms performed significantly better than the Dynamic Time Warping (DTW) and Rotation Forest benchmarks that were used. The study categorised each algorithm by the type of feature they extract from time series data, forming a taxonomy of five main algorithm types. This categorisation of algorithms alongside the provision of code and accessible results for reproducibility has helped fuel an increase in popularity of the TSC field. Over six years have passed since this bake off, the UCR archive has expanded to 112 datasets and there have been a large number of new algorithms proposed. We revisit the bake off, seeing how each of the proposed categories have advanced since the original publication, and evaluate the performance of newer algorithms against the previous best-of-category using an expanded UCR archive. We extend the taxonomy to include three new categories to reflect recent developments. Alongside the originally proposed distance, interval, shapelet, dictionary and hybrid based algorithms, we compare newer convolution and feature based algorithms as well as deep learning approaches. We introduce 30 classification datasets either recently donated to the archive or reformatted to the TSC format, and use these to further evaluate the best performing algorithm from each category. Overall, we find that two recently proposed algorithms, Hydra+MultiROCKET and HIVE-COTEv2, perform significantly better than other approaches on both the current and new TSC problems. | 翻訳日:2024-05-09 19:40:17 公開日:2024-05-08 |
# 弱測定下における高次形状対称性
Higher-form Symmetries under Weak Measurement ( http://arxiv.org/abs/2304.14433v2 ) ライセンス: Link先を確認 | Kaixiang Su, Nayan Myerson-Jain, Chong Wang, Chao-Ming Jian, Cenke Xu, | (参考訳) 自然発生的に高次対称性が破れた量子状態から始めると、弱い局所量子測定の下でのシステムの運命はどのようなものか?
ある条件下では、位相遷移は弱い測定によって駆動され、1-形式対称性の自発的な破壊を抑制し、1-形式対称性の電荷変動を弱める。
双対性ツールを用いた遷移の性質を解析し、弱い測定によって引き起こされる遷移のいくつかが自己双対を持つ固定点のラインを楽しむことを示した。
We aim to address the following question: if we start with a quantum state with a spontaneously broken higher-form symmetry, what is the fate of the system under weak local quantum measurements? We demonstrate that under certain conditions, a phase transition can be driven by weak measurements, which suppresses the spontaneous breaking of the 1-form symmetry and weakens the 1-form symmetry charge fluctuation. We analyze the nature of the transitions employing the tool of duality, and we demonstrate that some of the transitions driven by weak measurement enjoy a line of fixed points with self-duality. | 翻訳日:2024-05-09 19:40:17 公開日:2024-05-08 |
# 30Kまでの固体量子エミッタのナノキャビティ強化光子コヒーレンス
Nanocavity enhanced photon coherence of solid-state quantum emitters operating up to 30 K ( http://arxiv.org/abs/2305.05636v2 ) ライセンス: Link先を確認 | Alistair J. Brash, Jake Iles-Smith, | (参考訳) エピタキシャル量子ドットのような固体発光体は、多くの光学量子技術の鍵となる、効率よくオンデマンドな光子源のプラットフォームとして登場した。
性能を最大化するために、これらのソースは通常、液体ヘリウム温度(\sim 4~\mathrm{K}$)で動作し、提案された用途では実行不可能な大きなサイズ、重量、電力要求を導入する。
ここでは,光性ナノキャビティとの結合が,小型冷凍機と互換性のある30〜\mathrm{K}$までの高温での光子コヒーレンスを大幅に改善できることを実証するために,不均一性を低下させる2つの異なる温度依存性フォノン相互作用を実験的に解決した。
我々は,実験で観測されたフォノンの温度依存性の影響をフルに把握し,キャビティパラメーターを最適化することにより,将来のデバイスの不明瞭性と動作温度をさらに高めるための予測力を与えるポラロンモデルを構築した。
Solid-state emitters such as epitaxial quantum dots have emerged as a leading platform for efficient, on-demand sources of indistinguishable photons, a key resource for many optical quantum technologies. To maximise performance, these sources normally operate at liquid helium temperatures ($\sim 4~\mathrm{K}$), introducing significant size, weight and power requirements that can be impractical for proposed applications. Here we experimentally resolve the two distinct temperature-dependent phonon interactions that degrade indistinguishability, allowing us to demonstrate that coupling to a photonic nanocavity can greatly improve photon coherence at elevated temperatures up to $30~\mathrm{K}$ that are compatible with compact cryocoolers. We derive a polaron model that fully captures the temperature-dependent influence of phonons observed in our experiments, providing predictive power to further increase the indistinguishability and operating temperature of future devices through optimised cavity parameters. | 翻訳日:2024-05-09 19:40:17 公開日:2024-05-08 |
# 格子保存$\mathcal{ALC}$オントロジー埋め込み
Lattice-preserving $\mathcal{ALC}$ ontology embeddings ( http://arxiv.org/abs/2305.07163v2 ) ライセンス: Link先を確認 | Fernando Zhapa-Camacho, Robert Hoehndorf, | (参考訳) OWLオントロジーのベクトル表現(埋め込み)の生成は、生物情報学のような分野における、行方不明な事実や知識に富んだ学習を予測するために、その応用が増加する課題である。
OWLオントロジーの基本的な意味は、記述論理(DL)を用いて表現される。
埋め込みを生成する最初のアプローチは、オントロジーからグラフを構築することに依存し、そこでの論理のセマンティクスを無視した。
最近のセマンティック保存の埋め込み手法は、オントロジーにおいてより表現力のある情報を無視する$\mathcal{EL}^{++}$のような軽量なDL言語をターゲットにしていることが多い。
一部のアプローチは$\mathcal{ALC}$のようなより記述的なDLを埋め込むことを目的としているが、これらの手法は個人の存在を必要とする。
本稿では,概念記述の格子構造を考慮した$\mathcal{ALC}$ DL言語に対するオントロジー埋め込み法を提案する。
DLとカテゴリ理論の接続を用いて格子構造を具体化し,秩序保存型埋め込み法を用いて埋め込む。
本手法は,いくつかの知識ベース完了タスクにおいて,最先端の手法よりも優れていることを示す。
コードとデータはhttps://github.com/bio-ontology-research-group/catE.comで公開しています。
Generating vector representations (embeddings) of OWL ontologies is a growing task due to its applications in predicting missing facts and knowledge-enhanced learning in fields such as bioinformatics. The underlying semantics of OWL ontologies is expressed using Description Logics (DLs). Initial approaches to generate embeddings relied on constructing a graph out of ontologies, neglecting the semantics of the logic therein. Recent semantic-preserving embedding methods often target lightweight DL languages like $\mathcal{EL}^{++}$, ignoring more expressive information in ontologies. Although some approaches aim to embed more descriptive DLs like $\mathcal{ALC}$, those methods require the existence of individuals, while many real-world ontologies are devoid of them. We propose an ontology embedding method for the $\mathcal{ALC}$ DL language that considers the lattice structure of concept descriptions. We use connections between DL and Category Theory to materialize the lattice structure and embed it using an order-preserving embedding method. We show that our method outperforms state-of-the-art methods in several knowledge base completion tasks. We make our code and data available at https://github.com/bio-ontology-research-group/catE. | 翻訳日:2024-05-09 19:40:17 公開日:2024-05-08 |
# Docker Composeによるサービスオーケストレーションのためのマルチコンテナ構成パターン
Patterns of Multi-Container Composition for Service Orchestration with Docker Compose ( http://arxiv.org/abs/2305.11293v2 ) ライセンス: Link先を確認 | Kalvin Eng, Abram Hindle, Eleni Stroulia, | (参考訳) ソフトウェア設計パターンは、一般的なソフトウェア設計問題に対する一般的なコードソリューションを提供する。
現代のソフトウェアシステムは、構成サービスコンポーネントを実行するためのコンテナに大きく依存しています。
しかし、アプリケーションのマルチコンテナサービス構成に参加する準備ができているDockerサービスイメージが多用されているにもかかわらず、開発者は独自のDockerサービスオーケストレーションを構築する方法に関するガイダンスをあまり持っていない。
この作業では、Docker Composeを複数のサービスコンテナを実行するオーケストレーションツールとして使用する成功したプロジェクトのデータセットをキュレートします。
データと分析の収集により、ソフトウェア設計パターンのように、多くの成功したオープンソースプロジェクトで使用される、反復的なマルチコンテナ構成パターンの識別と命名が可能になる。
これらのパターンは、ソフトウェアシステムが現実世界でどのようにオーケストレーションされているかを強調し、独自のサービスオーケストレーションを構築したい人なら誰でも例を挙げることができる。
これらのコントリビューションは、Docker Composeの使用方法に関する証拠として、ソフトウェアエンジニアリングパターンに関する実証的研究も進めている。
Software design patterns present general code solutions to common software design problems. Modern software systems rely heavily on containers for running their constituent service components. Yet, despite the prevalence of ready-to-use Docker service images ready to participate in multi-container service compositions of applications, developers do not have much guidance on how to compose their own Docker service orchestrations. Thus in this work, we curate a dataset of successful projects that employ Docker Compose as an orchestration tool to run multiple service containers; then, we engage in qualitative and quantitative analysis of Docker Compose configurations. The collection of data and analysis enables the identification and naming of repeating multi-container composition patterns that are used in numerous successful open-source projects, much like software design patterns. These patterns highlight how software systems are orchestrated in the real-world and can give examples to anybody wishing to compose their own service orchestrations. These contributions also advance empirical research in software engineering patterns as evidence is provided about how Docker Compose is used. | 翻訳日:2024-05-09 19:40:17 公開日:2024-05-08 |
# 配電用フェアネステスト生成装置
Distribution-aware Fairness Test Generation ( http://arxiv.org/abs/2305.13935v4 ) ライセンス: Link先を確認 | Sai Sathiesh Rajan, Ezekiel Soremekun, Yves Le Traon, Sudipta Chattopadhyay, | (参考訳) オブジェクトのすべてのクラスが同等の精度で検出されることを保証することは、AIシステムにおいて不可欠である。
例えば、ある種類の物体を特定できないことは、自律運転システムに致命的な結果をもたらす可能性がある。
したがって、画像認識システムの信頼性を確保することが重要である。
本研究は,画像認識ソフトウェアにおけるグループフェアネスの検証方法について述べる。
画像分類器におけるクラスレベルのフェアネス違反を,アウト・オブ・ディストリビューション(OOD)テストとセマンティック保存画像の相乗的組み合わせにより体系的に公開する分布認識フェアネステスト手法(DistroFair)を提案する。
DistroFairは、画像の集合内のオブジェクトの分布(例:番号/向き)を自動的に学習する。
次に、オブジェクトの削除、オブジェクト挿入、オブジェクト回転という3つの意味保存された画像の突然変異を使用して、画像内のオブジェクトを体系的にOODに変形する。
2つのよく知られたデータセット(CityScapesとMS-COCO)と3つの主要な商用画像認識ソフトウェア(Amazon Rekognition、Google Cloud Vision、Azure Computer Vision)を使用してDistroFairを評価する。
その結果、DistroFairが生成した画像の約21%は、基底真理または変成オラクルを用いてクラスレベルのフェアネス違反を明らかにしている。
DistroFairは2つのベースライン、すなわち2つのベースラインよりも2.3倍有効である。
(a)分布(ID)内でのみ画像を生成することに焦点を当てたアプローチ
(b)元の画像データセットのみを用いた公平性分析。
さらに、DistroFairは効率的で、平均して1時間に460枚の画像を生成する。
最後に,DistroFair が生成した実画像 30 と実画像 30 を用いて,81 人の被験者によるユーザスタディを通じて,提案手法のセマンティックな妥当性を評価する。
その結果、DistroFairが生成した画像は現実世界の画像の80%がリアルであることが判明した。
Ensuring that all classes of objects are detected with equal accuracy is essential in AI systems. For instance, being unable to identify any one class of objects could have fatal consequences in autonomous driving systems. Hence, ensuring the reliability of image recognition systems is crucial. This work addresses how to validate group fairness in image recognition software. We propose a distribution-aware fairness testing approach (called DistroFair) that systematically exposes class-level fairness violations in image classifiers via a synergistic combination of out-of-distribution (OOD) testing and semantic-preserving image mutation. DistroFair automatically learns the distribution (e.g., number/orientation) of objects in a set of images. Then it systematically mutates objects in the images to become OOD using three semantic-preserving image mutations - object deletion, object insertion and object rotation. We evaluate DistroFair using two well-known datasets (CityScapes and MS-COCO) and three major, commercial image recognition software (namely, Amazon Rekognition, Google Cloud Vision and Azure Computer Vision). Results show that about 21% of images generated by DistroFair reveal class-level fairness violations using either ground truth or metamorphic oracles. DistroFair is up to 2.3x more effective than two main baselines, i.e., (a) an approach which focuses on generating images only within the distribution (ID) and (b) fairness analysis using only the original image dataset. We further observed that DistroFair is efficient, it generates 460 images per hour, on average. Finally, we evaluate the semantic validity of our approach via a user study with 81 participants, using 30 real images and 30 corresponding mutated images generated by DistroFair. We found that images generated by DistroFair are 80% as realistic as real-world images. | 翻訳日:2024-05-09 19:30:13 公開日:2024-05-08 |
# 科学シミュレータのモデルとパラメータの同時同定
Simultaneous identification of models and parameters of scientific simulators ( http://arxiv.org/abs/2305.15174v2 ) ライセンス: Link先を確認 | Cornelius Schröder, Jakob H. Macke, | (参考訳) 多くの科学的モデルは複数の離散成分で構成されており、科学者はしばしばどの成分を含むかというヒューリスティックな決定を行う。
ベイズ推論は、モデルコンポーネントを体系的に選択するための数学的枠組みを提供するが、モデルコンポーネントに対する事前分布を定義し、関連する推論スキームを開発することは困難である。
モデルシミュレーションから、モデルコンポーネントと関連するパラメータの両方の結合確率分布を推論するために、ニューラルネットワークをトレーニングする。
シミュレーションに基づくモデル推論(SBMI)は、グラスマン形式における多変量二元分布の条件混合としてモデル成分上の分布を表す。
SBMIは任意の構成確率シミュレータに適用できる。
我々は,SBMIを単純な時系列モデルと神経科学からの2つの科学的モデルで評価し,複数のデータ一貫性モデル構成を発見し,同定不可能なモデル成分とパラメータを明らかにした。
SBMIは、科学者が本質的なモデルコンポーネントを特定し、不確実性にインフォームドされたモデリング決定を行うことを可能にする、データ駆動の科学的調査のための強力なツールを提供する。
Many scientific models are composed of multiple discrete components, and scientists often make heuristic decisions about which components to include. Bayesian inference provides a mathematical framework for systematically selecting model components, but defining prior distributions over model components and developing associated inference schemes has been challenging. We approach this problem in a simulation-based inference framework: We define model priors over candidate components and, from model simulations, train neural networks to infer joint probability distributions over both model components and associated parameters. Our method, simulation-based model inference (SBMI), represents distributions over model components as a conditional mixture of multivariate binary distributions in the Grassmann formalism. SBMI can be applied to any compositional stochastic simulator without requiring likelihood evaluations. We evaluate SBMI on a simple time series model and on two scientific models from neuroscience, and show that it can discover multiple data-consistent model configurations, and that it reveals non-identifiable model components and parameters. SBMI provides a powerful tool for data-driven scientific inquiry which will allow scientists to identify essential model components and make uncertainty-informed modelling decisions. | 翻訳日:2024-05-09 19:30:13 公開日:2024-05-08 |
# DKINet:ドメイン知識を用いた深層学習による医薬勧告
DKINet: Medication Recommendation via Domain Knowledge Informed Deep Learning ( http://arxiv.org/abs/2305.19604v4 ) ライセンス: Link先を確認 | Sicen Liu, Xiaolong Wang, Xianbing Zhao, Hao Chen, | (参考訳) 医療勧告は、複雑な健康状態の患者のためにより正確な処方薬を作るために医師を助ける機会を提供する医療の基本的な部分であるが重要な分野である。
これまでの研究は主に、電子健康記録(EHR)から患者の表現を学習することに焦点を当ててきた。
患者の臨床症状を考慮することは重要であるが、患者の健康状態の診断において、ドメイン固有の事前知識を取り入れることも同様に重要である。
しかし、特に複雑な臨床症状を扱う場合、ドメイン知識と患者の臨床症状を効果的に統合することは困難である。
そこで本研究では,まず,バイオメディカルな語彙と標準の包括的リポジトリであるUMLS(Unified Medical Language System)を,知識抽出のための包括的ドメイン固有知識として同定する。
次に,複雑な臨床症状とドメイン知識の効果的な統合に対処し,患者の健康状態の効果的な評価を可能にする知識注入モジュールを提案する。
さらに, 患者の服薬履歴が現在の服薬に与える影響を考慮し, 既往の服薬情報の経時的影響を捉えた, 既往の服薬者表現モジュールを導入する。
3つの公開ベンチマークデータセットに対する大規模な実験により,提案手法の優位性を検証した。
コードは、https://github.com/sherry6247/DKINet.comで入手できる。
Medication recommendation is a fundamental yet crucial branch of healthcare that presents opportunities to assist physicians in making more accurate medication prescriptions for patients with complex health conditions. Previous studies have primarily focused on learning patient representation from electronic health records (EHR). While considering the clinical manifestations of the patient is important, incorporating domain-specific prior knowledge is equally significant in diagnosing the patient's health conditions. However, effectively integrating domain knowledge with the patient's clinical manifestations can be challenging, particularly when dealing with complex clinical manifestations. Therefore, in this paper, we first identify comprehensive domain-specific prior knowledge, namely the Unified Medical Language System (UMLS), which is a comprehensive repository of biomedical vocabularies and standards, for knowledge extraction. Subsequently, we propose a knowledge injection module that addresses the effective integration of domain knowledge with complex clinical manifestations, enabling an effective characterization of the health conditions of the patient. Furthermore, considering the significant impact of a patient's medication history on their current medication, we introduce a historical medication-aware patient representation module to capture the longitudinal influence of historical medication information on the representation of current patients. Extensive experiments on three publicly benchmark datasets verify the superiority of our proposed method, which outperformed other methods by a significant margin. The code is available at: https://github.com/sherry6247/DKINet. | 翻訳日:2024-05-09 19:30:13 公開日:2024-05-08 |
# ベイズ最適化のためのベイズニューラルネットワークサロゲートの検討
A Study of Bayesian Neural Network Surrogates for Bayesian Optimization ( http://arxiv.org/abs/2305.20028v2 ) ライセンス: Link先を確認 | Yucen Lily Li, Tim G. J. Rudner, Andrew Gordon Wilson, | (参考訳) ベイズ最適化は、クエリに費用がかかる目的関数を最適化するための非常に効率的な手法である。
これらの目的は通常、最適化が容易で正確な推論をサポートするガウス過程(GP)シュロゲートモデルによって表される。
ベイジアン最適化において標準GPサロゲートは確立されているが、ベイジアンニューラルネットワーク(BNN)は近年、非定常性を自然に扱う能力や高次元データの表現を学ぶ能力など、標準GPよりも多くの利点を持つ実用的な関数近似器となっている。
本稿では,BNNを最適化のための標準GPサロゲートの代替として検討する。
有限幅BNNに対して,高品質なハミルトニアンモンテカルロ,低コスト確率MCMC,深層アンサンブルなどのヒューリスティックスなど,様々な近似的推論手順を検討する。
また、無限幅BNN、線形化ラプラス近似、深層カーネル学習のような部分確率モデルについても検討する。
本研究では, 異なる次元性, 目的数, 非定常性, 離散的かつ連続的な入力を有する多様な問題に対する代理モデルの収集を評価する。
以下に示す。
一 方法の格付けは、問題に大きく依存し、誘導バイアスの調整の必要性を示唆する。
(II) HMC は完全確率的 BNN に対する最も成功した近似推論法である。
(iii)ディープカーネル学習が比較的競争力があるため、完全な確率性は不要かもしれない。
(四)ディープアンサンブルは、比較的貧弱である。
(v)無限幅BNNは特に高次元において有望である。
Bayesian optimization is a highly efficient approach to optimizing objective functions which are expensive to query. These objectives are typically represented by Gaussian process (GP) surrogate models which are easy to optimize and support exact inference. While standard GP surrogates have been well-established in Bayesian optimization, Bayesian neural networks (BNNs) have recently become practical function approximators, with many benefits over standard GPs such as the ability to naturally handle non-stationarity and learn representations for high-dimensional data. In this paper, we study BNNs as alternatives to standard GP surrogates for optimization. We consider a variety of approximate inference procedures for finite-width BNNs, including high-quality Hamiltonian Monte Carlo, low-cost stochastic MCMC, and heuristics such as deep ensembles. We also consider infinite-width BNNs, linearized Laplace approximations, and partially stochastic models such as deep kernel learning. We evaluate this collection of surrogate models on diverse problems with varying dimensionality, number of objectives, non-stationarity, and discrete and continuous inputs. We find: (i) the ranking of methods is highly problem dependent, suggesting the need for tailored inductive biases; (ii) HMC is the most successful approximate inference procedure for fully stochastic BNNs; (iii) full stochasticity may be unnecessary as deep kernel learning is relatively competitive; (iv) deep ensembles perform relatively poorly; (v) infinite-width BNNs are particularly promising, especially in high dimensions. | 翻訳日:2024-05-09 19:30:13 公開日:2024-05-08 |
# 可変密度推定による異常検出
Anomaly Detection with Variance Stabilized Density Estimation ( http://arxiv.org/abs/2306.00582v2 ) ライセンス: Link先を確認 | Amit Rozner, Barak Battash, Henry Li, Lior Wolf, Ofir Lindenbaum, | (参考訳) 本稿では,表データの異常検出に有効である修正密度推定問題を提案する。
この方法では、密度関数は通常のサンプルの周囲で比較的安定である(分散が低い)と仮定する。
我々は、幅広い実世界のデータを用いて、この仮説を実証的に検証した。
そこで本研究では,標準試料の周囲の密度の分散を最小化しつつ,観測試料の確率を最大化する分散安定化密度推定問題を提案する。
信頼性の高い異常検知器を得るために,分散安定化分布を学習するための自己回帰モデルのスペクトルアンサンブルを導入する。
我々は52のデータセットで広範なベンチマークを行い、我々の手法がデータ固有のハイパーパラメータチューニングの必要性を軽減しつつ、最先端の結果につながることを示した。
最後に,各成分の重要性を明らかにするためにアブレーション実験を行い,続いてモデルのロバスト性を評価する安定性解析を行った。
We propose a modified density estimation problem that is highly effective for detecting anomalies in tabular data. Our approach assumes that the density function is relatively stable (with lower variance) around normal samples. We have verified this hypothesis empirically using a wide range of real-world data. Then, we present a variance-stabilized density estimation problem for maximizing the likelihood of the observed samples while minimizing the variance of the density around normal samples. To obtain a reliable anomaly detector, we introduce a spectral ensemble of autoregressive models for learning the variance-stabilized distribution. We have conducted an extensive benchmark with 52 datasets, demonstrating that our method leads to state-of-the-art results while alleviating the need for data-specific hyperparameter tuning. Finally, we have used an ablation study to demonstrate the importance of each of the proposed components, followed by a stability analysis evaluating the robustness of our model. | 翻訳日:2024-05-09 19:30:12 公開日:2024-05-08 |
# 3次元分子間相互作用学習に向けた一般同変変圧器
Generalist Equivariant Transformer Towards 3D Molecular Interaction Learning ( http://arxiv.org/abs/2306.01474v5 ) ライセンス: Link先を確認 | Xiangzhe Kong, Wenbing Huang, Yang Liu, | (参考訳) 生物学や薬物発見における多くのプロセスは、タンパク質やタンパク質、タンパク質や小さな分子などの分子間の様々な3D相互作用を含んでいる。
異なる分子が通常異なる粒度で表現されることを考えると、既存の手法は通常、それぞれの分子を異なるモデルで独立にエンコードし、基礎となる様々な相互作用物理学を学ぶのに欠陥がある。
本稿ではまず,任意の3次元錯体を集合の幾何学的グラフとして普遍的に表現し,全ての分子を1つのモデルで符号化することを提案する。
次に、ドメイン固有の階層とドメインに依存しない相互作用物理の両方を効果的に捉えるために、ジェネラリスト同変変換器(GET)を提案する。
具体的には、GETは双方向の注目モジュール、フィードフォワードモジュール、レイヤ正規化モジュールから構成される。
特に、従来のプーリングベースの階層モデルとは対照的に、GETはあらゆるレベルのきめ細かい情報を保持できます。
タンパク質, 小分子, RNA/DNA間の相互作用に関する広範囲な実験により, 提案手法の有効性と一般化能が異なる領域にわたって検証された。
Many processes in biology and drug discovery involve various 3D interactions between molecules, such as protein and protein, protein and small molecule, etc. Given that different molecules are usually represented in different granularity, existing methods usually encode each type of molecules independently with different models, leaving it defective to learn the various underlying interaction physics. In this paper, we first propose to universally represent an arbitrary 3D complex as a geometric graph of sets, shedding light on encoding all types of molecules with one model. We then propose a Generalist Equivariant Transformer (GET) to effectively capture both domain-specific hierarchies and domain-agnostic interaction physics. To be specific, GET consists of a bilevel attention module, a feed-forward module and a layer normalization module, where each module is E(3) equivariant and specialized for handling sets of variable sizes. Notably, in contrast to conventional pooling-based hierarchical models, our GET is able to retain fine-grained information of all levels. Extensive experiments on the interactions between proteins, small molecules and RNA/DNAs verify the effectiveness and generalization capability of our proposed method across different domains. | 翻訳日:2024-05-09 19:30:12 公開日:2024-05-08 |
# プロンプティングは必要なもの:大型言語モデルでAndroidのバグを自動再生する
Prompting Is All You Need: Automated Android Bug Replay with Large Language Models ( http://arxiv.org/abs/2306.01987v3 ) ライセンス: Link先を確認 | Sidong Feng, Chunyang Chen, | (参考訳) バグレポートはソフトウェアメンテナンスにとって不可欠であり、ユーザーがソフトウェアの使用中に遭遇した問題について開発者に知らせることを可能にする。
そのため、ソフトウェアメンテナンスのプロセスの迅速化のために、バグリプレイの自動化にかなりのリソースを割いている。
しかしながら、現在の自動化アプローチの成功は、手作業によるパターンや事前に定義された語彙リストの制限によって制約されるため、バグレポートの特性と品質によって大きく左右される。
自然言語理解におけるLarge Language Models(LLMs)の成功に触発されて,我々はAdbGPTを提案する。
AdbGPTは、人間の知識と論理的推論をLLMから引き合いに出して、開発者と同じような方法でバグリプレイを達成している。
評価の結果,AdbGPTが253.6秒で81.3%のバグ報告を再現し,最先端のベースラインとアブレーション研究を上回った。
また,AdbGPTが開発者のバグリプレイ能力を向上する上での有用性を確認するために,小規模なユーザスタディも実施する。
Bug reports are vital for software maintenance that allow users to inform developers of the problems encountered while using the software. As such, researchers have committed considerable resources toward automating bug replay to expedite the process of software maintenance. Nonetheless, the success of current automated approaches is largely dictated by the characteristics and quality of bug reports, as they are constrained by the limitations of manually-crafted patterns and pre-defined vocabulary lists. Inspired by the success of Large Language Models (LLMs) in natural language understanding, we propose AdbGPT, a new lightweight approach to automatically reproduce the bugs from bug reports through prompt engineering, without any training and hard-coding effort. AdbGPT leverages few-shot learning and chain-of-thought reasoning to elicit human knowledge and logical reasoning from LLMs to accomplish the bug replay in a manner similar to a developer. Our evaluations demonstrate the effectiveness and efficiency of our AdbGPT to reproduce 81.3% of bug reports in 253.6 seconds, outperforming the state-of-the-art baselines and ablation studies. We also conduct a small-scale user study to confirm the usefulness of AdbGPT in enhancing developers' bug replay capabilities. | 翻訳日:2024-05-09 19:30:12 公開日:2024-05-08 |
# 浅層ボソンサンプリングの探索 - スケーラブルな量子サプリマシーを目指して
Exploring Shallow-Depth Boson Sampling: Towards Scalable Quantum Supremacy ( http://arxiv.org/abs/2306.10671v2 ) ライセンス: Link先を確認 | Byeongseon Go, Changhun Oh, Liang Jiang, Hyunseok Jeong, | (参考訳) ボソンサンプリング(英: Boson sample)とは、量子超越性(quantum supremacy)の候補として、古典的なコンピュータをプラプシブルな仮定で効率的にシミュレートすることが困難であることが証明されたサンプリングタスクである。
しかし、短期量子デバイスに対する大きなノイズ率のため、これらのノイズの多いデバイスがより大きな量子システムに対する量子優位性を維持しているかどうかはまだ不明である。
ノイズレートは一般に回路深度とともに増加するので、浅い深さの量子回路でシミュレーションの硬さの証拠を見つけるのが別の方法である。
証拠を見つけるためには, ボソンサンプリングのシミュレーション硬度を証明するためには, 最先端技術で必要とされている, 近似出力確率の平均ケース硬度に必要となる最小の深さを同定する。
本研究では,フォック状態およびガウス状態における浅部深度ボソンサンプリングの出力確率分布を解析し,幾何学的局所アーキテクチャのための浅部深度系における平均ケース硬度引数の制限について検討する。
本稿では,幾何学的局所的アーキテクチャに関連する問題を克服できる,浅部線形光回路アーキテクチャを提案する。
この構造は,大域的ハールランダムボソンサンプリング回路に類似していることから,浅層構造における平均硬さ特性の可能性が示唆された。
この結果は、対応するアーキテクチャは、浅い深さのボソンサンプリングでスケーラブルな量子超越性に利用できる可能性を示唆している。
Boson sampling is a sampling task proven to be hard to simulate efficiently using classical computers under plausible assumptions, which makes it an appealing candidate for quantum supremacy. However, due to a large noise rate for near-term quantum devices, it is still unclear whether those noisy devices maintain the quantum advantage for much larger quantum systems. Since the noise rate typically grows with the circuit depth, an alternative is to find evidence of simulation hardness at the shallow-depth quantum circuit. To find the evidence, one way is to identify the minimum depth required for the average-case hardness of approximating output probabilities, which is considered a necessary condition for the state-of-the-art technique to prove the simulation hardness of boson sampling. In this work, we analyze the output probability distribution of shallow-depth boson sampling for Fock-states and Gaussian states, and examine the limitation of the average-case hardness argument at this shallow-depth regime for geometrically local architectures. We propose a shallow-depth linear optical circuit architecture that can overcome the problems associated with geometrically local architectures. Our numerical results suggest that this architecture demonstrates possibilities of average-case hardness properties in a shallow-depth regime, through its resemblance to the global Haar-random boson sampling circuit. This result implies that the corresponding architecture has the potential to be utilized for scalable quantum supremacy with its shallow-depth boson sampling. | 翻訳日:2024-05-09 19:30:12 公開日:2024-05-08 |
# 量子時間と量子進化
Insights of quantum time into quantum evolution ( http://arxiv.org/abs/2306.11675v4 ) ライセンス: Link先を確認 | Ngo Phuc Duc Loc, | (参考訳) 時間が創発的であれば、量子系は進化するにつれて量子時間と絡み合わされる。
システムが内部の絡み合いを含む場合、内部の絡み合いを「外部の」時間系の絡み合いと区別することができるので、進化の速度が向上する。
本稿では,2つの絡み合った量子ビットを含むシステムにおいて,新しい時間系の絡み合いと従来の内部絡み合いとの相関関係を示す。
1)局所力学の下で進化する2つの初期絡み合い量子ビット、(2)その間の絡み合いが時間とともに生じる2つの相互作用量子ビットを考える。
最初のケースでは、内部の絡み合いの増加が進化を加速させ、時間とともにより絡み合いを増すという主な結果が得られる。
どちらの場合も、時間系エンタングルメントエントロピーは、フィデリティによって特徴づけられる進化距離に依存する。
相互作用系は、相互作用が十分に強い場合、非相互作用系よりも高速に進化し、時間とより効率的に絡み合うことができる。
If time is emergent, quantum system is entangled with quantum time as it evolves. If the system contains entanglement within itself, which we can call internal entanglement to distinguish it from the "external" time-system entanglement, the speed of evolution is enhanced. In this paper, we show the correlation between the novel time-system entanglement and the conventional internal entanglement of a system that contains two entangled qubits. We consider two cases: (1) two initially entangled qubits that evolve under local dynamics; (2) two interacting qubits such that entanglement between them is generated over time. In the first case, we obtain the main result that increasing internal entanglement speeds up the evolution and makes the system more entangled with time. For both cases, we show the dependence of time-system entanglement entropy on the distance of evolution which is characterized by fidelity. The interacting system can evolve faster than the non-interacting system if the interaction is sufficiently strong, and thus it can be entangled with time more efficiently. | 翻訳日:2024-05-09 19:30:12 公開日:2024-05-08 |
# 大規模言語モデルを用いた効率的なウィットネスプログラム生成によるコンパイラバグの分離
Isolating Compiler Bugs by Generating Effective Witness Programs with Large Language Models ( http://arxiv.org/abs/2307.00593v3 ) ライセンス: Link先を確認 | Haoxin Tu, Zhide Zhou, He Jiang, Imam Nur Bani Yusuf, Yuxian Li, Lingxiao Jiang, | (参考訳) コンパイラのバグは、セーフティクリティカルなアプリケーションにとって重大な脅威となり、すぐに、そして、これらのバグを効果的に分離することは、コンパイラの品質の確保に不可欠である。
しかし、報告されたバグのデバッグ情報が限られているため、コンパイラのバグ分離タスクが複雑になる。
既存のコンパイラのバグ分離アプローチは、問題をテストプログラムの突然変異問題に変換するが、それでも非効率的な突然変異戦略や高い人間の努力の要求によって制限されている。
コード生成におけるChatGPTなどのLLM(Pre-trained Large Language Models)の最近の進歩から着想を得て,LLM4CBIと呼ばれる新しいアプローチを提案し,コンパイラバグ分離のための効率的なテストプログラムを生成する。
しかし、試験プログラムの突然変異にLSMを直接使用すると、正確なプロンプトの定式化や特別なプロンプトの選択に関連する課題のために、望ましい結果が得られない可能性がある。
これらの課題を克服するため、3つの新しいコンポーネントがLLM4CBIで設計されている。
まず、LSM4CBIは、プログラムの複雑さを誘導するプロンプト生産コンポーネントを使用し、データと制御フロー分析を利用して、突然変異のためのプログラムにおいて最も価値のある変数と場所を特定する。
第2に、LLM4CBIは記憶されたプロンプト選択コンポーネントを使用し、強化学習を採用して、テストプログラムを継続的に変更するための特別なプロンプトを選択する。
第3に、特定のフィードバックプロンプトを選択するために、突然変異プロセス中に同じミスを繰り返すことを避けるために、テストプログラム検証コンポーネントを提案する。
GCCとLLVMの120以上の実際のバグに対する最先端のアプローチと比較して、我々の評価はLLM4CBIの利点を示している。 69.70%/21.74%と24.44%/8.92%のバグをTop-1/Top-5ランキングでDiWiやRecBiよりも多く分離できる。
また, LLM4CBI で使用される LLMs コンポーネントは, 妥当な結果が得られながら, 容易に置き換えることができることを示した。
Compiler bugs pose a significant threat to safety-critical applications, and promptly as well as effectively isolating these bugs is crucial for assuring the quality of compilers. However, the limited availability of debugging information on reported bugs complicates the compiler bug isolation task. Existing compiler bug isolation approaches convert the problem into a test program mutation problem, but they are still limited by ineffective mutation strategies or high human effort requirements. Drawing inspiration from the recent progress of pre-trained Large Language Models (LLMs), such as ChatGPT, in code generation, we propose a new approach named LLM4CBI to utilize LLMs to generate effective test programs for compiler bug isolation. However, using LLMs directly for test program mutation may not yield the desired results due to the challenges associated with formulating precise prompts and selecting specialized prompts. To overcome the challenges, three new components are designed in LLM4CBI. First, LLM4CBI utilizes a program complexity-guided prompt production component, which leverages data and control flow analysis to identify the most valuable variables and locations in programs for mutation. Second, LLM4CBI employs a memorized prompt selection component, which adopts reinforcement learning to select specialized prompts for mutating test programs continuously. Third, a test program validation component is proposed to select specialized feedback prompts to avoid repeating the same mistakes during the mutation process. Compared with state-of-the-art approaches over 120 real bugs from GCC and LLVM, our evaluation demonstrates the advantages of LLM4CBI: It can isolate 69.70%/21.74% and 24.44%/8.92% more bugs than DiWi and RecBi within Top-1/Top-5 ranked results. We also demonstrate that the LLMs component used in LLM4CBI can be easily replaced while still achieving reasonable results. | 翻訳日:2024-05-09 19:30:12 公開日:2024-05-08 |
# Emu: マルチモダリティにおける生成的事前トレーニング
Emu: Generative Pretraining in Multimodality ( http://arxiv.org/abs/2307.05222v2 ) ライセンス: Link先を確認 | Quan Sun, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Yueze Wang, Hongcheng Gao, Jingjing Liu, Tiejun Huang, Xinlong Wang, | (参考訳) Emuはトランスフォーマーベースのマルチモーダル基礎モデルであり,マルチモーダルコンテキストで画像やテキストをシームレスに生成できる。
このオムニボアモデルは、一モデル対全自己回帰学習プロセスを通じて、無差別に入力された任意の単一モダリティまたはマルチモーダルデータ(例えば、インターリーブ画像、テキスト、ビデオ)を取り込み得る。
まず、視覚信号が埋め込みに符号化され、テキストトークンと共にインターリーブされた入力シーケンスを形成する。
次にEmuは、次のテキストトークンの分類や、マルチモーダルシーケンスへの次のビジュアル埋め込みの回帰という、統一された目的で、エンドツーエンドでトレーニングされる。
この汎用マルチモダリティは、インターリーブされたフレームとテキストによるビデオ、インターリーブされた画像とテキストによるWebページ、Webスケールの画像テキストペアとビデオテキストペアなど、さまざまな事前学習データソースを大規模に探索する上で有効である。
Emuは、画像からテキストまでのタスクとテキストから画像へのタスクの両方のための汎用マルチモーダルインターフェースとして機能し、テキスト内イメージとテキスト生成をサポートする。
画像キャプション、視覚的質問応答、ビデオ質問応答、テキスト・ツー・イメージ生成など、幅広いゼロショット/ファウショットタスクにおいて、Emuは最先端の大規模マルチモーダルモデルと比較して、最高のパフォーマンスを示す。
命令チューニングによるマルチモーダルアシスタントなどの拡張機能も、優れたパフォーマンスで実証されている。
We present Emu, a Transformer-based multimodal foundation model, which can seamlessly generate images and texts in multimodal context. This omnivore model can take in any single-modality or multimodal data input indiscriminately (e.g., interleaved image, text and video) through a one-model-for-all autoregressive training process. First, visual signals are encoded into embeddings, and together with text tokens form an interleaved input sequence. Emu is then end-to-end trained with a unified objective of classifying the next text token or regressing the next visual embedding in the multimodal sequence. This versatile multimodality empowers the exploration of diverse pretraining data sources at scale, such as videos with interleaved frames and text, webpages with interleaved images and text, as well as web-scale image-text pairs and video-text pairs. Emu can serve as a generalist multimodal interface for both image-to-text and text-to-image tasks, and supports in-context image and text generation. Across a broad range of zero-shot/few-shot tasks including image captioning, visual question answering, video question answering and text-to-image generation, Emu demonstrates superb performance compared to state-of-the-art large multimodal models. Extended capabilities such as multimodal assistants via instruction tuning are also demonstrated with impressive performance. | 翻訳日:2024-05-09 19:30:12 公開日:2024-05-08 |
# モード数推定のためのベイズタウトスプライン
Bayesian taut splines for estimating the number of modes ( http://arxiv.org/abs/2307.05825v3 ) ライセンス: Link先を確認 | José E. Chacón, Javier Fernández Serrano, | (参考訳) 確率密度関数におけるモードの数はモデルの複雑さを表すものであり、サブポピュレーションの数と見なすこともできる。
その関連性にもかかわらず、この地域では研究が限られている。
単変量設定におけるモード数を推定するための新しいアプローチが提示され、予測精度に焦点が当てられ、問題のいくつかの見過ごされた側面から着想を得た: 解の構造の必要性、モードの主観的かつ不確実性、および局所的および大域的密度特性をブレンドする全体論的ビューの利便性である。
この手法は、柔軟なカーネル推定器とベイズ推論パラダイムにおける擬似構成スプラインを組み合わせて、ソフトソリューションを提供し、専門家の判断を取り入れている。
このプロシージャには、特徴探索、モデル選択、モードテストが含まれており、スポーツ分析ケーススタディで、複数のコンパニオン視覚化ツールを展示している。
徹底的なシミュレーション研究は、従来のモダリティ駆動アプローチがパラドックス的に正確な結果の提供に苦慮していることも示している。
この文脈では、新しい手法が最上位の代替手段として登場し、アナリストに革新的なソリューションを提供する。
The number of modes in a probability density function is representative of the complexity of a model and can also be viewed as the number of subpopulations. Despite its relevance, there has been limited research in this area. A novel approach to estimating the number of modes in the univariate setting is presented, focusing on prediction accuracy and inspired by some overlooked aspects of the problem: the need for structure in the solutions, the subjective and uncertain nature of modes, and the convenience of a holistic view that blends local and global density properties. The technique combines flexible kernel estimators and parsimonious compositional splines in the Bayesian inference paradigm, providing soft solutions and incorporating expert judgment. The procedure includes feature exploration, model selection, and mode testing, illustrated in a sports analytics case study showcasing multiple companion visualisation tools. A thorough simulation study also demonstrates that traditional modality-driven approaches paradoxically struggle to provide accurate results. In this context, the new method emerges as a top-tier alternative, offering innovative solutions for analysts. | 翻訳日:2024-05-09 19:30:12 公開日:2024-05-08 |
# HEAL-SWIN: 球面の視覚変換器
HEAL-SWIN: A Vision Transformer On The Sphere ( http://arxiv.org/abs/2307.07313v2 ) ライセンス: Link先を確認 | Oscar Carlsson, Jan E. Gerken, Hampus Linander, Heiner Spieß, Fredrik Ohlsson, Christoffer Petersson, Daniel Persson, | (参考訳) 高解像度の広角魚眼画像は、自律運転などのロボティクス応用においてますます重要になっている。
しかし、このデータ上で通常の畳み込みニューラルネットワークや視覚変換器を用いることは、平面上の矩形格子に投影する際に生じる投影や歪みの損失によって問題となる。
天体物理学や宇宙論で用いられる高度に均一な階層的等方性領域等方性幾何格子 (HEALPix) と階層的シフト・ウィンドウ変換器 (SWIN) を組み合わせることで、高分解能で歪みのない球面データをトレーニングできる効率的で柔軟なモデルを生成する。
HEAL-SWINでは、HEALPixグリッドのネスト構造を用いてSWIN変換器のパッチ処理とウィンドウ処理を行い、最小計算オーバーヘッドで球面表現を処理できる。
合成および実自動車のデータセットと、セマンティックセグメンテーション、深度回帰、分類タスクのための他の画像データセットの選択において、我々のモデルの優れた性能を実証する。
私たちのコードはhttps://github.com/JanEGerken/HEAL-SWIN.comで公開されています。
High-resolution wide-angle fisheye images are becoming more and more important for robotics applications such as autonomous driving. However, using ordinary convolutional neural networks or vision transformers on this data is problematic due to projection and distortion losses introduced when projecting to a rectangular grid on the plane. We introduce the HEAL-SWIN transformer, which combines the highly uniform Hierarchical Equal Area iso-Latitude Pixelation (HEALPix) grid used in astrophysics and cosmology with the Hierarchical Shifted-Window (SWIN) transformer to yield an efficient and flexible model capable of training on high-resolution, distortion-free spherical data. In HEAL-SWIN, the nested structure of the HEALPix grid is used to perform the patching and windowing operations of the SWIN transformer, enabling the network to process spherical representations with minimal computational overhead. We demonstrate the superior performance of our model on both synthetic and real automotive datasets, as well as a selection of other image datasets, for semantic segmentation, depth regression and classification tasks. Our code is publicly available at https://github.com/JanEGerken/HEAL-SWIN. | 翻訳日:2024-05-09 19:30:12 公開日:2024-05-08 |
# 配向操作の実験的実現のための理論的提案
Theoretical proposal for the experimental realization of realignment operation ( http://arxiv.org/abs/2307.07952v2 ) ライセンス: Link先を確認 | Shruti Aggarwal, Satyabrata Adhikari, | (参考訳) 配向操作は、束縛や自由絡みの検出において重要な役割を担っている。
部分転置と同様に、行列要素の置換にも基づく。
しかし,実測操作の物理的実装は未だ分かっていない。
本稿では,実測操作の実験的実現の問題に対処し,その目的を達成するために,その理論的提案を提案する。
まず, 2分割状態に配向演算を適用した後に, 行列を列交換操作とともに部分転位演算で表すことができることを示す。
これらのカラム交換操作は、密度行列に作用するSWAP演算子を介して実装可能な置換行列を形成する。
この数学的枠組みは、配向行列の最初の瞬間を実験的に正確に決定するために用いられる。
これは、配向行列の最初の瞬間を、その測定の可能性を示すSWAP演算子の期待値として表現できることを示す。
さらに,第1次リアライメントモーメントの観点から高次リアライメントモーメントを推定し,高次モーメントを実験的に推定する方法を提供する。
次に、正部分転位絡み状態(PPTES)と負部分転位絡み状態(NPTES)を検出するモーメントに基づく絡み検出基準を開発する。
さらに, 3量子状態に対する新しい行列配向演算を定義し, 3量子状態の完全絡み検出が可能な絡み合い基準を考案した。
我々は,現在の技術で実現される可能性のある,二部晶および三部晶の絡み合った状態の検出法と技術を開発した。
Realignment operation has a significant role in detecting bound as well as free entanglement. Just like partial transposition, it is also based on permutations of the matrix elements. However, the physical implementation of realignment operation is not known yet. In this letter, we address the problem of experimental realization of realignment operation and to achieve this aim, we propose a theoretical proposal for the same. We first show that after applying the realignment operation on a bipartite state, the resulting matrix can be expressed in terms of the partial transposition operation along with column interchange operations. We observed that these column interchange operations forms a permutation matrix which can be implemented via SWAP operator acting on the density matrix. This mathematical framework is used to exactly determine the first moment of the realignment matrix experimentally. This has been done by showing that the first moment of the realignment matrix can be expressed as the expectation value of a SWAP operator which indicates the possibility of its measurement. Further, we have provided an estimation of the higher order realigned moments in terms of the first realigned moment and thus pave a way to estimate the higher order moments experimentally. Next, we develop moments based entanglement detection criteria that detect positive partial transpose entangled states (PPTES) as well as negative partial transpose entangled states (NPTES). Moreover, we define a new matrix realignment operation for three-qubit states and have devised an entanglement criteria that is able to detect three-qubit fully entangled states. We have developed various methods and techniques in the detection of bipartite and tripartite entangled states that may be realized in the current technology. | 翻訳日:2024-05-09 19:30:12 公開日:2024-05-08 |
# AnyDoor: ゼロショットオブジェクトレベルのイメージカスタマイズ
AnyDoor: Zero-shot Object-level Image Customization ( http://arxiv.org/abs/2307.09481v2 ) ライセンス: Link先を確認 | Xi Chen, Lianghua Huang, Yu Liu, Yujun Shen, Deli Zhao, Hengshuang Zhao, | (参考訳) この研究は、拡散に基づく画像生成装置であるAnyDoorを紹介し、ユーザーが指定した場所の新しいシーンに、調和してターゲットオブジェクトをテレポートする。
各オブジェクトのパラメータをチューニングする代わりに、我々のモデルは1回だけ訓練され、推論段階で様々なオブジェクトとシーンの組み合わせに強制的に一般化されます。
このような挑戦的なゼロショット設定は、ある対象を適切に特徴づける必要がある。
この目的のために、テクスチャの詳細を維持しつつ、多彩な局所的変動(例えば、照明、方向、姿勢など)を許容できるよう慎重に設計され、異なる環境と良好に混ざり合うように支援する、詳細な特徴でよく使われるアイデンティティ機能を補完する。
さらに、単一の物体の様々な形態(すなわち時間軸に沿って)を観察できるビデオデータセットから知識を借りることを提案し、より強力なモデル一般化性とロバスト性をもたらす。
大規模な実験は、我々のアプローチが既存の代替手段よりも優れていること、そしてバーチャルトライオンやオブジェクト移動のような現実世界のアプリケーションにおいて大きな可能性を実証している。
プロジェクトページはhttps://damo-vilab.github.io/AnyDoor-Page/。
This work presents AnyDoor, a diffusion-based image generator with the power to teleport target objects to new scenes at user-specified locations in a harmonious way. Instead of tuning parameters for each object, our model is trained only once and effortlessly generalizes to diverse object-scene combinations at the inference stage. Such a challenging zero-shot setting requires an adequate characterization of a certain object. To this end, we complement the commonly used identity feature with detail features, which are carefully designed to maintain texture details yet allow versatile local variations (e.g., lighting, orientation, posture, etc.), supporting the object in favorably blending with different surroundings. We further propose to borrow knowledge from video datasets, where we can observe various forms (i.e., along the time axis) of a single object, leading to stronger model generalizability and robustness. Extensive experiments demonstrate the superiority of our approach over existing alternatives as well as its great potential in real-world applications, such as virtual try-on and object moving. Project page is https://damo-vilab.github.io/AnyDoor-Page/. | 翻訳日:2024-05-09 19:20:21 公開日:2024-05-08 |
# エコー法によるコヒーレント非断熱遷移の仮想緩和
Virtual mitigation of coherent non-adiabatic transitions by echo verification ( http://arxiv.org/abs/2307.10358v2 ) ライセンス: Link先を確認 | Benjamin F. Schiffer, Dyon van Vreumingen, Jordi Tura, Stefano Polla, | (参考訳) 地上空間からの遷移は量子断熱アルゴリズムの性能を制限するが、ハードウェアの不完全性は回路深さに厳しい制限を課す。
非断熱遷移とハードウェアノイズから生じるコヒーレントエラーと不整脈エラーの両方を緩和する断熱エコー検証プロトコルを提案する。
準アディバティカルに前方と後方に進化することで、観測可能なものについてエコーで検証された測定が可能となる。
ハードウェアノイズの軽減に加えて,本手法では正時ダイナミクスのみを用いる。
重要なことは、標準的な断熱製剤と比較して観測可能量の推定器バイアスが小さくなり、二次的な改善が達成される。
Transitions out of the ground space limit the performance of quantum adiabatic algorithms, while hardware imperfections impose stringent limitations on the circuit depth. We propose an adiabatic echo verification protocol which mitigates both coherent and incoherent errors, arising from non-adiabatic transitions and hardware noise, respectively. Quasi-adiabatically evolving forward and backwards allows for an echo-verified measurement of any observable. In addition to mitigating hardware noise, our method uses positive-time dynamics only. Crucially, the estimator bias of the observable is reduced when compared to standard adiabatic preparation, achieving up to a quadratic improvement. | 翻訳日:2024-05-09 19:20:21 公開日:2024-05-08 |
# 不完全XAIが人間-AI意思決定に及ぼす影響
The Impact of Imperfect XAI on Human-AI Decision-Making ( http://arxiv.org/abs/2307.13566v4 ) ライセンス: Link先を確認 | Katelyn Morrison, Philipp Spitzer, Violet Turri, Michelle Feng, Niklas Kühl, Adam Perer, | (参考訳) 様々な協調作業環境における人間とAIの意思決定を改善するための説明可能性技術が急速に開発されている。
その結果、意思決定者が不完全なAIとどのように協力するかを、より人間中心のコンピュータ支援コラボレーションツールを設計することを目的として、適切な依存度とタスクパフォーマンスを調査することによって評価した。
意思決定者によるAIとのコラボレーションを改善するために、人間中心で説明可能なAI(XAI)技術がいくつか提案されているが、これらのテクニックは、主に不正なAIアドバイスの影響に焦点を当てた以前の研究の結果に基づいている。
たとえAIのアドバイスが正しいとしても、説明が正しくない可能性を認める研究はほとんどない。
したがって、XAIの不完全性が人間とAIの意思決定にどのように影響するかを理解することが不可欠である。
本研究では, 鳥種識別タスクにおいて, 不正確な説明が人間の意思決定行動にどのように影響するかを評価するために, 136人の被験者とともに, 頑健で混成的なユーザスタディに貢献する。
この結果から,AIと人間-AIチームパフォーマンスへの不完全なXAIと,人間の専門知識レベルの影響が明らかになった。
また、人間とAIのコラボレーションにおいて、意思決定者がどのように判断を欺くかについても論じる。
そこで我々は,コンピュータ支援協調作業の分野における不完全なXAIの影響に光を当て,人間とAIのコラボレーションシステムの設計者に対するガイドラインを提供する。
Explainability techniques are rapidly being developed to improve human-AI decision-making across various cooperative work settings. Consequently, previous research has evaluated how decision-makers collaborate with imperfect AI by investigating appropriate reliance and task performance with the aim of designing more human-centered computer-supported collaborative tools. Several human-centered explainable AI (XAI) techniques have been proposed in hopes of improving decision-makers' collaboration with AI; however, these techniques are grounded in findings from previous studies that primarily focus on the impact of incorrect AI advice. Few studies acknowledge the possibility of the explanations being incorrect even if the AI advice is correct. Thus, it is crucial to understand how imperfect XAI affects human-AI decision-making. In this work, we contribute a robust, mixed-methods user study with 136 participants to evaluate how incorrect explanations influence humans' decision-making behavior in a bird species identification task, taking into account their level of expertise and an explanation's level of assertiveness. Our findings reveal the influence of imperfect XAI and humans' level of expertise on their reliance on AI and human-AI team performance. We also discuss how explanations can deceive decision-makers during human-AI collaboration. Hence, we shed light on the impacts of imperfect XAI in the field of computer-supported cooperative work and provide guidelines for designers of human-AI collaboration systems. | 翻訳日:2024-05-09 19:20:21 公開日:2024-05-08 |
# リンクデータを用いた微分プライベート線形回帰
Differentially Private Linear Regression with Linked Data ( http://arxiv.org/abs/2308.00836v2 ) ライセンス: Link先を確認 | Shurong Lin, Elliot Paquette, Eric D. Kolaczyk, | (参考訳) 現代の統計と機械学習のためのプライバシー保護方法論の確立に対する需要が高まっている。
コンピュータ科学の数学的概念である差分プライバシーは、堅牢なプライバシー保証を提供する上昇するツールである。
最近の研究は、個々の統計および機械学習タスクの微分プライベートバージョンの開発に主眼を置いており、非自明な上流前処理は通常組み込まれていない。
重要な例は、ダウンストリームモデリングの前にレコードリンクが実行されるときである。
レコードリンク(英: Record linkage)とは、同一のエンティティの2つ以上のデータセットをユニークな識別子なしでリンクする統計処理のことである。
この確率的手続きは、その後のタスクにさらなる不確実性をもたらす。
本稿では,線形回帰のための2つの微分プライベートアルゴリズムを提案する。
特に,回帰係数推定のための雑音勾配法と十分な統計摂動法を提案する。
相関誤差,推定誤差,プライバシコストの相対的寄与を理解できるように,推定器に対して有限サンプル誤差境界を提供することにより,プライバシ・精度のトレードオフを検討する。
推定器のばらつきについても論じる。
本稿では,シミュレーションによる提案アルゴリズムの性能評価と合成データへの応用について述べる。
There has been increasing demand for establishing privacy-preserving methodologies for modern statistics and machine learning. Differential privacy, a mathematical notion from computer science, is a rising tool offering robust privacy guarantees. Recent work focuses primarily on developing differentially private versions of individual statistical and machine learning tasks, with nontrivial upstream pre-processing typically not incorporated. An important example is when record linkage is done prior to downstream modeling. Record linkage refers to the statistical task of linking two or more data sets of the same group of entities without a unique identifier. This probabilistic procedure brings additional uncertainty to the subsequent task. In this paper, we present two differentially private algorithms for linear regression with linked data. In particular, we propose a noisy gradient method and a sufficient statistics perturbation approach for the estimation of regression coefficients. We investigate the privacy-accuracy tradeoff by providing finite-sample error bounds for the estimators, which allows us to understand the relative contributions of linkage error, estimation error, and the cost of privacy. The variances of the estimators are also discussed. We demonstrate the performance of the proposed algorithms through simulations and an application to synthetic data. | 翻訳日:2024-05-09 19:20:21 公開日:2024-05-08 |
# AIの責任を宣言しない
Unravelling Responsibility for AI ( http://arxiv.org/abs/2308.02608v2 ) ライセンス: Link先を確認 | Zoe Porter, Philippa Ryan, Phillip Morgan, Joanna Al-Qaddoumi, Bernard Twomey, John McDermid, Ibrahim Habli, | (参考訳) AI対応システムのアウトプットと影響に責任を負う場所を確立する必要があることは広く認識されている。
しかし、"責任"が何を意味するのかを明確に正確に理解することなく、責任の所在に関する議論は、せいぜい、焦点を絞らず、不完全であり、最悪の場合、誤解される。
本論文は、政策立案者、実践者、研究者、学生に対するAIの責任概念を、非哲学的、非法学的背景から明らかにするために、哲学と法の中心的な区別を生かしたものである。
アクターAがOに責任を負う"という3部構成で、この論文は責任の概念を明らかにし、誰がAIに責任を持つか、彼らが責任を負う感覚、そして彼らが責任を負う出来事の側面について、異なる可能性があることを明確にする。
コアセンスにおける責任の帰属(因果責任、役割責任、責任責任責任、道徳責任)の条件と基準は、責任の帰属が適切でないか不適切であるかどうかの理解を促進するために具体化される。
この分析にはグラフィカルな表記法が組み込まれており、図式推論や特定の事例についての議論が容易になっている。
自律型AI搭載船と、海上の従来型有人船との間の致命的な衝突のシナリオに適用することで、この現象が説明できる。
It is widely acknowledged that we need to establish where responsibility lies for the outputs and impacts of AI-enabled systems. But without a clear and precise understanding of what "responsibility" means, deliberations about where responsibility lies will be, at best, unfocused and incomplete and, at worst, misguided. To address this concern, this paper draws upon central distinctions in philosophy and law to clarify the concept of responsibility for AI for policymakers, practitioners, researchers and students from non-philosophical and non-legal backgrounds. Taking the three-part formulation "Actor A is responsible for Occurrence O," the paper unravels the concept of responsibility to clarify that there are different possibilities of who is responsible for AI, the senses in which they are responsible, and aspects of events they are responsible for. Criteria and conditions for fitting attributions of responsibility in the core senses (causal responsibility, role-responsibility, liability responsibility and moral responsibility) are articulated to promote an understanding of when responsibility attributions would be inappropriate or unjust. The analysis is presented with a graphical notation to facilitate informal diagrammatic reasoning and discussion about specific cases. It is illustrated by application to a scenario of a fatal collision between an autonomous AI-enabled ship and a traditional, crewed vessel at sea. | 翻訳日:2024-05-09 19:20:21 公開日:2024-05-08 |
# ニューラルネットワークと最適システムによる楕円最適制御問題の解法
Solving Elliptic Optimal Control Problems via Neural Networks and Optimality System ( http://arxiv.org/abs/2308.11925v2 ) ライセンス: Link先を確認 | Yongcheng Dai, Bangti Jin, Ramesh Sau, Zhi Zhou, | (参考訳) 本研究では,線形および半線形二階楕円問題に対する最適制御問題に対するニューラルネットワークに基づく解法について検討する。
最適制御問題の1次最適性システムから導かれる結合システムを利用し、深層ニューラルネットワークを用いて、還元されたシステムの解を表現している。
提案手法の誤差解析を行い, ニューラルネットワークパラメータ(例えば, 深さ, 幅, パラメータ境界)とサンプリング点数について, 状態, 制御, 随伴点の誤差境界を$L^2(\Omega)$とする。
この分析の主なツールは、オフセットのRademacher複雑性と境界性、ニューラルネットワーク機能のLipschitz連続性である。
本手法を説明するためにいくつかの数値例を提示し,既存の2つの数値例と比較する。
In this work, we investigate a neural network based solver for optimal control problems (without / with box constraint) for linear and semilinear second-order elliptic problems. It utilizes a coupled system derived from the first-order optimality system of the optimal control problem, and employs deep neural networks to represent the solutions to the reduced system. We present an error analysis of the scheme, and provide $L^2(\Omega)$ error bounds on the state, control and adjoint in terms of neural network parameters (e.g., depth, width, and parameter bounds) and the numbers of sampling points. The main tools in the analysis include offset Rademacher complexity and boundedness and Lipschitz continuity of neural network functions. We present several numerical examples to illustrate the method and compare it with two existing ones. | 翻訳日:2024-05-09 19:20:21 公開日:2024-05-08 |
# CVSSスコーディングの不整合性に対するシーディングライト:広帯域セキュリティ脆弱性の評価に関するユーザ中心的研究
Shedding Light on CVSS Scoring Inconsistencies: A User-Centric Study on Evaluating Widespread Security Vulnerabilities ( http://arxiv.org/abs/2308.15259v2 ) ライセンス: Link先を確認 | Julia Wunder, Andreas Kurtz, Christian Eichenmüller, Freya Gassmann, Zinaida Benenson, | (参考訳) CVSS(Common Vulnerability Scoring System)は、脆弱性管理における脆弱性の深刻さを評価する一般的な手法である。
評価工程では、0〜10の数値スコアが算出され、10が最も重い(臨界)値となる。
CVSSの目標は、さまざまな評価指標に匹敵するスコアを提供することである。
脆弱性が複数のアナリストによって評価された場合、そのスコアはしばしば異なります。
CVSSの評価は一貫性があるか?
CVSS評価に影響を与える要因は何か?
CVSS利用者196名のオンライン調査において,これらの質問を体系的に調査した。
CVSSのメトリクスは、"2022 CWE Top 25 Most Dangerous Software Weaknesses"リストの上位3の脆弱性を含む、広範な脆弱性タイプに対して一貫性のない評価がなされていることを示す。
59人の参加者によるフォローアップ調査では、本調査と同じ脆弱性に対して、これらのユーザの68%が、異なる重症度評価をしました。
本研究は,ほとんどの評価者はCVSSの問題点を自覚しているが,CVSSは依然として脆弱性評価に有用なツールであると考えている。
最後に,不整合評価の可能性を議論し,スコアの整合性を改善するためのレコメンデーションを提供する。
The Common Vulnerability Scoring System (CVSS) is a popular method for evaluating the severity of vulnerabilities in vulnerability management. In the evaluation process, a numeric score between 0 and 10 is calculated, 10 being the most severe (critical) value. The goal of CVSS is to provide comparable scores across different evaluators. However, previous works indicate that CVSS might not reach this goal: If a vulnerability is evaluated by several analysts, their scores often differ. This raises the following questions: Are CVSS evaluations consistent? Which factors influence CVSS assessments? We systematically investigate these questions in an online survey with 196 CVSS users. We show that specific CVSS metrics are inconsistently evaluated for widespread vulnerability types, including Top 3 vulnerabilities from the "2022 CWE Top 25 Most Dangerous Software Weaknesses" list. In a follow-up survey with 59 participants, we found that for the same vulnerabilities from the main study, 68% of these users gave different severity ratings. Our study reveals that most evaluators are aware of the problematic aspects of CVSS, but they still see CVSS as a useful tool for vulnerability assessment. Finally, we discuss possible reasons for inconsistent evaluations and provide recommendations on improving the consistency of scoring. | 翻訳日:2024-05-09 19:20:21 公開日:2024-05-08 |
# 超伝導量子プロセッサにおける量子テレクロニング
Probing Quantum Telecloning on Superconducting Quantum Processors ( http://arxiv.org/abs/2308.15579v3 ) ライセンス: Link先を確認 | Elijah Pelofske, Andreas Bärtschi, Stephan Eidenbenz, Bryan Garcia, Boris Kiefer, | (参考訳) 量子情報は完全クローン化することはできないが、量子情報の近似コピーを生成することができる。
量子テレポーテーション(quantum teleportation)は、量子クローニング(quantum cloning)と量子テレポーテーション(quantum teleportation)を組み合わせたものである。
量子テレクロニング(Quantum Telecloning)は、準備された量子テレクロニング状態上でベル測定を行った古典的な結果を用いて、異なるパーティによって量子情報の近似的なコピーを構築することができる。
量子テレクロニング(quantum telecloning)は、古典的コプロセッサを用いて量子コンピュータ上の回路として実装され、中間回路ベルの測定結果に基づく文を用いて、古典的なフィードフォワード命令をリアルタイムで計算することができる。
我々は、量子テレクロニング回路をM=2$からM=10$で実験的に実証し、IBMの量子超伝導プロセッサ上で、リアルタイムの古典的な制御システムでネイティブに実行される。
我々は、任意にX-Xシーケンシャルデジタル動的デカップリングのエラー抑制技術を用いて、Bloch sphereの様々なメッセージ状態に対して、IBM Quantumプロセッサ7ドルでクローン処理を行う。
2つの回路最適化が利用されており、1つは$M=2, 3$でアンシラキュービットを除去し、もう1つは回路内のゲートの総数を減らすが、それでもアンシラキュービットを使用する。
クローン量子ビットの混合状態密度行列を計算するために,MLE密度行列再構成を用いた並列単一量子ビットトモグラフィを用い,量子忠実度を用いてクローン品質を測定する。
これらの結果は、現在までの(単一量子ビット)量子テレクロニングに関する、最大かつ最も包括的なNISQコンピュータ実験の1つである。
クローンの忠実度は、$M > 5$で0.5ドルまで急激に低下するが、$M=2$では、動的疎結合を用いて、平均クローンの忠実度を0.79ドルまで達成することができる。
Quantum information can not be perfectly cloned, but approximate copies of quantum information can be generated. Quantum telecloning combines approximate quantum cloning, more typically referred as quantum cloning, and quantum teleportation. Quantum telecloning allows approximate copies of quantum information to be constructed by separate parties, using the classical results of a Bell measurement made on a prepared quantum telecloning state. Quantum telecloning can be implemented as a circuit on quantum computers using a classical co-processor to compute classical feed forward instructions using if statements based on the results of a mid-circuit Bell measurement in real time. We present universal, symmetric, optimal $1 \rightarrow M$ telecloning circuits, and experimentally demonstrate these quantum telecloning circuits for $M=2$ up to $M=10$, natively executed with real time classical control systems on IBM Quantum superconducting processors, known as dynamic circuits. We perform the cloning procedure on many different message states across the Bloch sphere, on $7$ IBM Quantum processors, optionally using the error suppression technique X-X sequence digital dynamical decoupling. Two circuit optimizations are utilized, one which removes ancilla qubits for $M=2, 3$, and one which reduces the total number of gates in the circuit but still uses ancilla qubits. Parallel single qubit tomography with MLE density matrix reconstruction is used in order to compute the mixed state density matrices of the clone qubits, and clone quality is measured using quantum fidelity. These results present one of the largest and most comprehensive NISQ computer experimental analyses on (single qubit) quantum telecloning to date. The clone fidelity sharply decreases to $0.5$ for $M > 5$, but for $M=2$ we are able to achieve a mean clone fidelity of up to $0.79$ using dynamical decoupling. | 翻訳日:2024-05-09 19:20:21 公開日:2024-05-08 |
# 自動誘導車両スケジューリングのためのハイブリッド量子古典計算
Hybrid quantum-classical computation for automatic guided vehicles scheduling ( http://arxiv.org/abs/2309.03088v2 ) ライセンス: Link先を確認 | Tomasz Śmierzchalski, Łukasz Pawela, Zbigniew Puchała, Mátyás Koniorczyk, Bartłomiej Gardas, Sebastian Deffner, Krzysztof Domino, | (参考訳) 実用的,産業規模の課題に対する量子コンピューティング開発へのグローバルな取り組みによって、我々は、自動誘導車両(AGV)をスケジューリングするビジネス中心の最適化問題に対処する最先端のハイブリッド量子古典解法の有効性を実証した。
これらの解法は、ノイズの多い中間スケール量子(NISQ)デバイス、特にD-Wave量子アニールを利用する。
本研究は, ハイブリッド解法において, 非ゼロ量子処理時間を示し, 解効率に対する量子成分の有意な寄与を示唆するものである。
このハイブリッド手法は、既存の古典的解法と互換性があり、スケジューリングタスクの「量子準備」(quantum readiness)を示す。
我々の分析は、現実的な生産環境をシミュレートし、限られたスペースで制約された工場内でAGVをスケジューリングする、実践的でビジネス指向のシナリオに焦点を当てている。
我々の新しいアプローチは、現実的なAGV問題を鉄道計画を思い起こさせる問題にマッピングし、AGV問題は鉄道計画よりも量子コンピューティングに適しており、変数あたりの平均的な制約数の点でより密接であることを示すものである。
我々は、15AGVのシナリオが、頻繁にデッドロックにつながる共有メインレーンのような共通のボトルネックのために現実的な重要性を保ちながら、数秒でハイブリッド量子古典解法によって効率的に対処できることを実証した。
その結果,本研究は,AGVスケジューリングのためのハイブリッド量子古典的ソリューションの近い将来のビジネス導入の道を開くものであり,製造効率の改善が進むと,AGVの配備数と工場空間におけるプレミアムが増加することを期待している。
Motivated by global efforts to develop quantum computing for practical, industrial-scale challenges, we showcase the effectiveness of state-of-the-art hybrid quantum-classical solvers in addressing the business-centric optimization problem of scheduling Automatic Guided Vehicles (AGVs). These solvers leverage a noisy intermediate-scale quantum (NISQ) device, specifically a D-Wave quantum annealer. In our study, the hybrid solvers exhibit non-zero quantum processing times, indicating a significant contribution of the quantum component to solution efficiency. This hybrid methodology performs comparably to existing classical solvers, thus indicating `quantum readiness' for scheduling tasks. Our analysis focuses on a practical, business-oriented scenario: scheduling AGVs within a factory constrained by limited space, simulating a realistic production setting. Our new approach concerns mapping a realistic AGV problem onto a problem reminiscient of railway scheduling and demonstrating that the AGV problem more suits quantum computing than the railway counterpart and is more dense in terms of an average number of constraints per variable. We demonstrate that a scenario involving 15 AGVs, which holds practical significance due to common bottlenecks like shared main lanes leading to frequent deadlocks, can be efficiently addressed by a hybrid quantum-classical solver within seconds. Consequently, our research paves the way for the near-future business adoption of hybrid quantum-classical solutions for AGV scheduling, anticipating that forthcoming improvements in manufacturing efficiency will increase both the number of AGVs deployed and the premium on factory space. | 翻訳日:2024-05-09 19:20:21 公開日:2024-05-08 |
# トポロジカル導波路による2つの巨大原子のエンタング
Entangling two giant atoms via a topological waveguide ( http://arxiv.org/abs/2309.08856v2 ) ライセンス: Link先を確認 | Wen-Bin Luo, Xian-Li Yin, Jie-Qiao Liao, | (参考訳) Su-Schrieffer-Heeger (SSH) 型結合キャビティアレイにより形成される光導波路に結合した2つの2層巨大原子の絡み合い発生について検討した。
ここで、各原子は2つの結合点を介して導波路に結合する。
2つの原子を分離結合するケースについて検討し、16の結合配置を2つの原子と導波路の結合点分布として検討した。
量子マスター方程式は、2つの原子の進化を制御し、2つの原子状態のコンカレンスを計算することによって原子の絡み合いを特徴づけるために導かれる。
2つの巨大原子の絡み合いは、巨大原子の結合配置と結合点距離に依存する。
特に、14結合配置の2つの巨大原子の絡み合いのダイナミクスは、SSH導波路の拡散パラメータに依存する。
2つの巨大原子の自己エネルギーによると、これらの16個の結合配置のうち10個は5つの対に分けられる。
また、この5対の結合配置において、2つの巨大原子間の絡み合いの遅延が大幅に増大していることが示されている。
この研究は、巨大原子トポロジカル導波路-QED系における量子効果とコヒーレントな操作の研究を促進する。
The entanglement generation of two two-level giant atoms coupled to a photonic waveguide, which is formed by a Su-Schrieffer-Heeger (SSH) type coupled-cavity array is studied. Here, each atom is coupled to the waveguide through two coupling points. The two-atom separate-coupling case is studied, and 16 coupling configurations are considered for the coupling-point distributions between the two atoms and the waveguide. Quantum master equations are derived to govern the evolution of the two atoms and characterize atomic entanglement by calculating the concurrence of the two-atom states. It is found that the two giant-atom entanglement depends on the coupling configurations and the coupling-point distance of the giant atoms. In particular, the entanglement dynamics of the two giant atoms in 14 coupling configurations depend on the dimerization parameter of the SSH waveguide. According to the self-energies of the two giant atoms, it is found that ten of these 16 coupling configurations can be divided into five pairs. It is also showed that the delayed sudden birth of entanglement between the two giant atoms is largely enhanced in these five pairs of coupling configurations. This work will promote the study of quantum effects and coherent manipulation in giant-atom topological-waveguide-QED systems. | 翻訳日:2024-05-09 19:20:21 公開日:2024-05-08 |
# 個別の文脈のないオンラインコミュニティの健康指標がオープンソースソフトウェアサステナビリティの特定に失敗
Individual context-free online community health indicators fail to identify open source software sustainability ( http://arxiv.org/abs/2309.12120v2 ) ライセンス: Link先を確認 | Yo Yehudi, Carole Goble, Caroline Jay, | (参考訳) ソフトウェアは、何らかの理由で放棄またはシャットダウンされることが多く、学術的なオープンソースソフトウェアの研究は少ないが、それが違うと仮定する理由はほとんどないようだ。
例えば、単独のメンテナが移行したり、資金提供が中止されたりするなど、いくつかの理由は簡単だが、いくつかのプロジェクトはこれらの障壁に耐えることができ、逆境にもかかわらずアクティブで維持される可能性がある。
この調査はオープンソースプロジェクトを1年間にわたって監視し、主観的および質的な指標(参加者調査)と、これらのプロジェクトのオンラインソース管理コードベースに関連する指標を分析するスクリプトを使用して、共通のパフォーマンス指標を測定した。
これらのヘルス指標は、プロジェクトごとの状況が著しく異なるため、クロスプロジェクトベンチマークとして使用できないことが分かりました。
しかし、それらは単一のプロジェクトの健全性の変化を示すのに有用であり、異なる無関係なプロジェクトの比較には使用されない。
Software is often abandoned or shut down, for one reason or another, and whilst research on academic open source software is sparse, there seems little reason to assume it is any different. While some reasons may be straightforward, e.g. a sole maintainer has moved on, or grant funding has ceased - some projects are able to withstand these barriers and may remain active and maintained despite adversity. This study monitored open source projects over the period of a year, measuring common performance indicators, using both subjective and qualitative measures (participant surveys), as well as using scripts to analyse indicators associated with these projects' online source control codebases. We find that these health indicators can not be used as cross project benchmarks, due to the significant variation in context for each project. They can, however, often be useful in signifying changes in a single project's health, providing they are not used to compare between different unrelated projects. | 翻訳日:2024-05-09 19:20:21 公開日:2024-05-08 |
# 大規模言語モデルにおける文化的アライメント:ホフステデの文化的次元に基づく説明的分析
Cultural Alignment in Large Language Models: An Explanatory Analysis Based on Hofstede's Cultural Dimensions ( http://arxiv.org/abs/2309.12342v2 ) ライセンス: Link先を確認 | Reem I. Masoud, Ziquan Liu, Martin Ferianc, Philip Treleaven, Miguel Rodrigues, | (参考訳) 大規模言語モデル(LLM)の展開は、文化的不一致と、多様な文化的背景を持つ個人や社会への潜在的な影響に関する懸念を提起する。
本研究は、主に政治的・社会的偏見に焦点が当てられているが、本稿では、ホフステデの文化的次元の枠組みを用いて文化的アライメントを定量化するための文化的アライメントテスト(Hoftede's CAT)を提案する。
我々は,Llama 2, GPT-3.5, GPT-4を米国, 中国, アラブ諸国の文化次元に対して定量的に評価するために, 異なるプロンプトスタイルを用いて, モデルの行動傾向と文化的価値に及ぼす言語固有の微調整の影響を探索する。
その結果, LLMの文化的アライメントを定量化し, 説明的文化的次元におけるLCMの差異を明らかにすることができた。
我々の研究は、全てのLLMが文化的価値の把握に苦慮しているのに対し、GPT-4は文化的ニュアンス、特に中国の環境に適応するユニークな能力を示していることを示している。
しかし、アメリカやアラブ文化との対立に直面している。
この研究は、異なる言語で微調整されたLLama 2モデルが文化的な問題に対する反応を変え、世界的受容と倫理的利用のために、AIにおける文化的に多様な開発の必要性を強調していることも強調している。
詳しくはGitHubのhttps://github.com/reemim/Hofstedes_CAT/を参照してください。
The deployment of large language models (LLMs) raises concerns regarding their cultural misalignment and potential ramifications on individuals and societies with diverse cultural backgrounds. While the discourse has focused mainly on political and social biases, our research proposes a Cultural Alignment Test (Hoftede's CAT) to quantify cultural alignment using Hofstede's cultural dimension framework, which offers an explanatory cross-cultural comparison through the latent variable analysis. We apply our approach to quantitatively evaluate LLMs, namely Llama 2, GPT-3.5, and GPT-4, against the cultural dimensions of regions like the United States, China, and Arab countries, using different prompting styles and exploring the effects of language-specific fine-tuning on the models' behavioural tendencies and cultural values. Our results quantify the cultural alignment of LLMs and reveal the difference between LLMs in explanatory cultural dimensions. Our study demonstrates that while all LLMs struggle to grasp cultural values, GPT-4 shows a unique capability to adapt to cultural nuances, particularly in Chinese settings. However, it faces challenges with American and Arab cultures. The research also highlights that fine-tuning LLama 2 models with different languages changes their responses to cultural questions, emphasizing the need for culturally diverse development in AI for worldwide acceptance and ethical use. For more details or to contribute to this research, visit our GitHub page https://github.com/reemim/Hofstedes_CAT/ | 翻訳日:2024-05-09 19:20:21 公開日:2024-05-08 |
# AMPLIFY:Attention-based Mixup for Performance Improvement and Label Smoothing in Transformer
AMPLIFY:Attention-based Mixup for Performance Improvement and Label Smoothing in Transformer ( http://arxiv.org/abs/2309.12689v3 ) ライセンス: Link先を確認 | Leixin Yang, Yu Xiang, | (参考訳) Mixupは、異なる元のサンプルの線形結合を集約することにより、新しい拡張サンプルを生成する効果的なデータ拡張手法である。
しかし、元のサンプルにノイズや異常な特徴がある場合、Mixupはそれらを拡張されたサンプルに伝達し、モデルがこれらの外れ値に過度に敏感になる可能性がある。
そこで本研究ではAMPLIFYと呼ばれる新しい混合手法を提案する。
本手法では,トランスフォーマー自体のアテンション機構を用いて,トレーニング可能なパラメータを追加することなく,元のサンプルのノイズや異常値が予測結果に与える影響を低減する。
実験の結果, AMPLIFYは, 計算資源のコストが小さく, 7つのベンチマークデータセット上でのテキスト分類タスクにおいて他のmixupメソッドよりも優れており, BERT, ALBERT, RoBERTa, GPTなどのアテンション機構に基づく事前学習モデルの性能向上のための新しいアイデアと新しい方法が得られた。
私たちのコードはhttps://github.com/kiwi-lilo/AMPLIFY.comで取得できます。
Mixup is an effective data augmentation method that generates new augmented samples by aggregating linear combinations of different original samples. However, if there are noises or aberrant features in the original samples, Mixup may propagate them to the augmented samples, leading to over-sensitivity of the model to these outliers . To solve this problem, this paper proposes a new Mixup method called AMPLIFY. This method uses the Attention mechanism of Transformer itself to reduce the influence of noises and aberrant values in the original samples on the prediction results, without increasing additional trainable parameters, and the computational cost is very low, thereby avoiding the problem of high resource consumption in common Mixup methods such as Sentence Mixup . The experimental results show that, under a smaller computational resource cost, AMPLIFY outperforms other Mixup methods in text classification tasks on 7 benchmark datasets, providing new ideas and new ways to further improve the performance of pre-trained models based on the Attention mechanism, such as BERT, ALBERT, RoBERTa, and GPT. Our code can be obtained at https://github.com/kiwi-lilo/AMPLIFY. | 翻訳日:2024-05-09 19:20:21 公開日:2024-05-08 |
# ロングベースライン量子クロック干渉計における有限パルス時間効果
Finite Pulse-Time Effects in Long-Baseline Quantum Clock Interferometry ( http://arxiv.org/abs/2309.14426v3 ) ライセンス: Link先を確認 | Gregor Janson, Alexander Friedrich, Richard Lopp, | (参考訳) 量子時計干渉計は、自由落下(UFF)の普遍性と重力赤方偏移(UGR)の普遍性をテストする量子プローブとして提案されている。
典型的な実験的スキームでは、ドップラーのないE1-M1遷移を用いるのが有利に思える。
ここでは、完全に量子化された原子自由度を考察し、内部時計遷移とともに非局在化された$-$となる量子中心質量(COM)$-$の相互作用を研究する。
特に、有限時間E1-M1遷移の原子内外結合と任意の位置依存レーザー強度のモデルから導出する。
さらに、摂動型リコイルレスクロックパルスの理想的な表現を一般化する。
最後に、ガウスレーザーの例において、提案した量子時計干渉計は、原子COMの十分に小さな量子非局在化のために、様々な光学場からの摂動に対して安定であることを示す。
Quantum-clock interferometry has been suggested as a quantum probe to test the universality of free fall (UFF) and the universality of gravitational redshift (UGR). In typical experimental schemes it seems advantageous to employ Doppler-free E1-M1 transitions which have so far been investigated in quantum gases at rest. Here, we consider the fully quantized atomic degrees of freedom and study the interplay of the quantum center-of-mass (COM) $-$ that can become delocalized $-$ together with the internal clock transitions. In particular, we derive a model for finite-time E1-M1 transitions with atomic intern-extern coupling and arbitrary position-dependent laser intensities. We further provide generalizations to the ideal expressions for perturbed recoilless clock pulses. Finally, we show at the example of a Gaussian laser beam that the proposed quantum-clock interferometers are stable against perturbations from varying optical fields for a sufficiently small quantum delocalization of the atomic COM. | 翻訳日:2024-05-09 19:20:21 公開日:2024-05-08 |
# 普遍ロバスト量子制御
Universally Robust Quantum Control ( http://arxiv.org/abs/2309.14437v2 ) ライセンス: Link先を確認 | Pablo M. Poggi, Gabriele De Chiara, Steve Campbell, Anthony Kiely, | (参考訳) 量子系の進化のロバスト性は、ハミルトニアンにおけるパラメータの小さな制御されていない変動に対して研究する。
摂動誤差を先行順に定量化するフィデリティ・サセプティビリティを超演算型で表現し,この手法を用いて,任意の系統的未知の誤差に対して頑健な制御パルスを導出できることを示す。
提案した最適制御プロトコルは、Haar分布の1次モーメントを模倣するユニタリのシーケンスを探索するのと等価である。
誤差耐性を有するシングルビットゲートと2ビットゲートに対する結果のパワーを強調した。
We study the robustness of the evolution of a quantum system against small uncontrolled variations in parameters in the Hamiltonian. We show that the fidelity susceptibility, which quantifies the perturbative error to leading order, can be expressed in superoperator form and use this to derive control pulses which are robust to any class of systematic unknown errors. The proposed optimal control protocol is equivalent to searching for a sequence of unitaries that mimics the first-order moments of the Haar distribution, i.e. it constitutes a 1-design. We highlight the power of our results for error resistant single- and two-qubit gates. | 翻訳日:2024-05-09 19:20:21 公開日:2024-05-08 |
# UniBEV:センサの欠如に対するロバスト性のための一様BEVエンコーダを用いたマルチモーダル3Dオブジェクト検出
UniBEV: Multi-modal 3D Object Detection with Uniform BEV Encoders for Robustness against Missing Sensor Modalities ( http://arxiv.org/abs/2309.14516v3 ) ライセンス: Link先を確認 | Shiming Wang, Holger Caesar, Liangliang Nan, Julian F. P. Kooij, | (参考訳) マルチセンサ物体検出は、自動走行において活発な研究課題であるが、センサ入力の欠如(モダリティの欠如)に対するそのような検出モデルの堅牢性は、例えば、突然のセンサ故障により、まだ検討されていない重要な問題である。
本研究で提案するUniBEVは、LiDARとカメラ入力に加えて、リトレーニングなしでLiDARのみまたはカメラのみの入力でも動作可能である。
UniBEVは、異なる入力の組み合わせを扱うための検出器ヘッドを容易にするために、利用可能な各モードから、よく整列したBird's Eye View (BEV)機能マップを作成することを目指している。
従来のBEVベースのマルチモーダル検出法とは異なり、全てのセンサモードは、ネイティブセンサー座標系からBEV機能への再サンプリングのための一様アプローチに従う。
さらに, 一般的な特徴連結だけでなく, チャネルワイド平均化, およびチャネル正規化ウェイトと呼ばれる重み付き平均化への一般化など, 様々な融合戦略のロバスト性について検討する。
その有効性を検証するため,UniBEVと最先端のBEVFusionとMetaBEVを,すべてのセンサ入力の組み合わせでnuScenes上で比較した。
この設定では、UniBEVは全ての入力の組み合わせで平均52.5 \%$ mAPを獲得し、ベースライン(BEVFusionでは平均43.5 \%$ mAP、MetaBEVでは平均48.7 \%$ mAP)よりも大幅に改善されている。
アブレーション研究は、通常の連結よりも重み付け平均化によるヒュージングの堅牢さの利点と、各モードのBEVエンコーダ間でクエリを共有することの利点を示している。
私たちのコードはhttps://github.com/tudelft-iv/UniBEV.comで利用可能です。
Multi-sensor object detection is an active research topic in automated driving, but the robustness of such detection models against missing sensor input (modality missing), e.g., due to a sudden sensor failure, is a critical problem which remains under-studied. In this work, we propose UniBEV, an end-to-end multi-modal 3D object detection framework designed for robustness against missing modalities: UniBEV can operate on LiDAR plus camera input, but also on LiDAR-only or camera-only input without retraining. To facilitate its detector head to handle different input combinations, UniBEV aims to create well-aligned Bird's Eye View (BEV) feature maps from each available modality. Unlike prior BEV-based multi-modal detection methods, all sensor modalities follow a uniform approach to resample features from the native sensor coordinate systems to the BEV features. We furthermore investigate the robustness of various fusion strategies w.r.t. missing modalities: the commonly used feature concatenation, but also channel-wise averaging, and a generalization to weighted averaging termed Channel Normalized Weights. To validate its effectiveness, we compare UniBEV to state-of-the-art BEVFusion and MetaBEV on nuScenes over all sensor input combinations. In this setting, UniBEV achieves $52.5 \%$ mAP on average over all input combinations, significantly improving over the baselines ($43.5 \%$ mAP on average for BEVFusion, $48.7 \%$ mAP on average for MetaBEV). An ablation study shows the robustness benefits of fusing by weighted averaging over regular concatenation, and of sharing queries between the BEV encoders of each modality. Our code is available at https://github.com/tudelft-iv/UniBEV. | 翻訳日:2024-05-09 19:10:37 公開日:2024-05-08 |
# PACIA:Few-Shot分子特性予測のためのパラメータ効率の良い適応器
PACIA: Parameter-Efficient Adapter for Few-Shot Molecular Property Prediction ( http://arxiv.org/abs/2310.00614v2 ) ライセンス: Link先を確認 | Shiguang Wu, Yaqing Wang, Quanming Yao, | (参考訳) 分子特性予測(MPP)は生物医学的応用において重要な役割を担っているが、ラベル付きデータの不足によりしばしば課題に直面する。
既存の作業では、タスクレベルの適応のために大量のパラメータを更新するための勾配ベースの戦略が一般的である。
しかし、適応パラメータの増加は過度に適合し、性能が低下する可能性がある。
グラフニューラルネットワーク(GNN)は,エンコーダと予測器の両方と同様に動作し,パラメータ効率のよいMPP用GNNアダプタであるPACIAを提案する。
我々は、GNNのメッセージパッシングプロセスを調整するために、いくつかの適応パラメータを生成する統一アダプタを設計する。
次に,タスクレベルでのエンコーダとクエリレベルでの予測を統一的なGNNアダプタで適応する階層的適応機構を採用する。
その結果, PACIAはMPP問題において最先端の性能を達成でき, 提案した階層適応機構は合理的かつ効果的であることがわかった。
Molecular property prediction (MPP) plays a crucial role in biomedical applications, but it often encounters challenges due to a scarcity of labeled data. Existing works commonly adopt gradient-based strategy to update a large amount of parameters for task-level adaptation. However, the increase of adaptive parameters can lead to overfitting and poor performance. Observing that graph neural network (GNN) performs well as both encoder and predictor, we propose PACIA, a parameter-efficient GNN adapter for few-shot MPP. We design a unified adapter to generate a few adaptive parameters to modulate the message passing process of GNN. We then adopt a hierarchical adaptation mechanism to adapt the encoder at task-level and the predictor at query-level by the unified GNN adapter. Extensive results show that PACIA obtains the state-of-the-art performance in few-shot MPP problems, and our proposed hierarchical adaptation mechanism is rational and effective. | 翻訳日:2024-05-09 19:10:37 公開日:2024-05-08 |
# Resprompt: 大規模言語モデルにおけるResidual Connection Promptingのマルチステップ推論
Resprompt: Residual Connection Prompting Advances Multi-Step Reasoning in Large Language Models ( http://arxiv.org/abs/2310.04743v2 ) ライセンス: Link先を確認 | Song Jiang, Zahra Shakeri, Aaron Chan, Maziar Sanjabi, Hamed Firooz, Yinglong Xia, Bugra Akyildiz, Yizhou Sun, Jinchao Li, Qifan Wang, Asli Celikyilmaz, | (参考訳) ステップバイステップの問題解決的根拠を提供するChain-of-Thought(CoT)プロンプトは、大規模言語モデル(LLM)の推論可能性を驚くほど開放した。
しかし、標準的なCoTは複数の推論ステップを必要とする問題では効果が低い。
この制限は、多段階問題における複雑な推論過程から生じる:後段の段階は、しばしば、直前の段階の結果だけでなく、より早い段階の結果に依存する。
そのような複雑さは、推論過程が自然にグラフとして表されることを示している。
しかし、CoTのほぼ直線的かつ直接的な構造は、この複雑な推論グラフを捉えるのに苦労している。
この課題に対処するために,LLMにおける多段階推論を推し進める新たなプロンプト戦略であるResidual Connection Prompting (RESPROMPT)を提案する。
私たちのキーとなるアイデアは、プロンプト内の推論グラフを再構築することです。
我々は、推論グラフに存在する必要な接続リンクを統合することでこれを実現するが、インプロンプトへの線形CoTフローに欠ける。
残留接続」と呼ばれるこれらのリンクは、線形CoT構造をグラフ表現に変形させる上で重要なものであり、多段階問題に固有の複雑な推論グラフを効果的に捉えている。
我々はRESPROMPTを数学、シーケンシャル、常識推論の3分野にわたる6つのベンチマークで評価した。
オープンソースのLLaMAシリーズでは、RESPROMPTはLLaMA-65Bで12.5%、LLaMA2-70Bで6.8%という有意な平均推論精度の向上をもたらす。
RESPROMPTは、少なくとも5つの推論ステップを要求する質問に対して、LLaMA-65Bで21.1%、LLaMA2-70Bで14.3%という顕著な平均改善により、最高のCoTベースのベンチマークを上回っている。
広範囲にわたるアブレーション研究と分析を通じて、残余接続をいかに効果的に構築するかを見極める。
Chain-of-thought (CoT) prompting, which offers step-by-step problem-solving rationales, has impressively unlocked the reasoning potential of large language models (LLMs). Yet, the standard CoT is less effective in problems demanding multiple reasoning steps. This limitation arises from the complex reasoning process in multi-step problems: later stages often depend on the results of several steps earlier, not just the results of the immediately preceding step. Such complexities suggest the reasoning process is naturally represented as a graph. The almost linear and straightforward structure of CoT prompting, however, struggles to capture this complex reasoning graph. To address this challenge, we propose Residual Connection Prompting (RESPROMPT), a new prompting strategy that advances multi-step reasoning in LLMs. Our key idea is to reconstruct the reasoning graph within prompts. We achieve this by integrating necessary connections-links present in the reasoning graph but missing in the linear CoT flow-into the prompts. Termed "residual connections", these links are pivotal in morphing the linear CoT structure into a graph representation, effectively capturing the complex reasoning graphs inherent in multi-step problems. We evaluate RESPROMPT on six benchmarks across three diverse domains: math, sequential, and commonsense reasoning. For the open-sourced LLaMA family of models, RESPROMPT yields a significant average reasoning accuracy improvement of 12.5% on LLaMA-65B and 6.8% on LLaMA2-70B. Breakdown analysis further highlights RESPROMPT particularly excels in complex multi-step reasoning: for questions demanding at least five reasoning steps, RESPROMPT outperforms the best CoT based benchmarks by a remarkable average improvement of 21.1% on LLaMA-65B and 14.3% on LLaMA2-70B. Through extensive ablation studies and analyses, we pinpoint how to most effectively build residual connections. | 翻訳日:2024-05-09 19:10:37 公開日:2024-05-08 |
# 感度を意識したベイズ推定
Sensitivity-Aware Amortized Bayesian Inference ( http://arxiv.org/abs/2310.11122v5 ) ライセンス: Link先を確認 | Lasse Elsemüller, Hans Olischläger, Marvin Schmitt, Paul-Christian Bürkner, Ullrich Köthe, Stefan T. Radev, | (参考訳) 感度分析は、様々なモデリング選択が統計的分析の結果に与える影響を明らかにする。
理論上は魅力的であるが、複素ベイズ模型に対しては圧倒的に非効率である。
本研究では、ニューラルネットワークを用いたシミュレーションに基づく推論に感度解析を効率的に統合するための多面的アプローチである感性認識型ベイズ推論(SA-ABI)を提案する。
まず、計算オーバーヘッドを最小限に抑えたトレーニングプロセスにおいて、ウェイトシェアリングを利用して、代替可能性と事前仕様との構造的類似性を符号化する。
第2に、ニューラルネットワークの高速推論を利用して、データ摂動や前処理ステップに対する感度を評価する。
他のベイズ的アプローチとは対照的に、どちらのステップも確率、事前またはデータセットの選択ごとにモデルを再構成するコストのかかるボトルネックを回避している。
最後に,信頼できない近似(例えば,モデル不特定のため)から生じる感度を検出するために,深層アンサンブルを用いることを提案する。
本稿では,本手法が病気発生のダイナミクスや地球温暖化のしきい値から人的意思決定に至るまで,応用モデリング問題における有効性を示す。
我々の結果は、アモータイズされたベイズワークフローのデフォルト選択として感度認識推論をサポートし、他の隠れ次元に対する洞察をモデラーに自動的に提供する。
Sensitivity analyses reveal the influence of various modeling choices on the outcomes of statistical analyses. While theoretically appealing, they are overwhelmingly inefficient for complex Bayesian models. In this work, we propose sensitivity-aware amortized Bayesian inference (SA-ABI), a multifaceted approach to efficiently integrate sensitivity analyses into simulation-based inference with neural networks. First, we utilize weight sharing to encode the structural similarities between alternative likelihood and prior specifications in the training process with minimal computational overhead. Second, we leverage the rapid inference of neural networks to assess sensitivity to data perturbations and preprocessing steps. In contrast to most other Bayesian approaches, both steps circumvent the costly bottleneck of refitting the model for each choice of likelihood, prior, or data set. Finally, we propose to use deep ensembles to detect sensitivity arising from unreliable approximation (e.g., due to model misspecification). We demonstrate the effectiveness of our method in applied modeling problems, ranging from disease outbreak dynamics and global warming thresholds to human decision-making. Our results support sensitivity-aware inference as a default choice for amortized Bayesian workflows, automatically providing modelers with insights into otherwise hidden dimensions. | 翻訳日:2024-05-09 19:10:37 公開日:2024-05-08 |
# ニューラルナゲットの探索:パラメトリック視点による大規模言語モデルの知識伝達
Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective ( http://arxiv.org/abs/2310.11451v2 ) ライセンス: Link先を確認 | Ming Zhong, Chenxin An, Weizhu Chen, Jiawei Han, Pengcheng He, | (参考訳) 大規模言語モデル(LLM)は本質的に、広範囲なコーパスの事前学習を通じて、パラメータ内の豊富な知識を符号化する。
従来の研究では、暗黙の知識(検出、編集、マージを通す)を操作するためにこれらのパラメータの操作について検討されてきたが、様々なスケールのモデル間でのそれらの伝達可能性について明確な理解はいまだに残っていない。
本稿では,パラメトリックの観点から,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
そこで我々は、感度に基づく手法を用いて、異なるLLM間で知識固有のパラメータを抽出・調整する。
さらに、LoRAモジュールは、抽出した知識を小さなモデルに注入する仲介機構として使用される。
提案手法の有効性を4つのベンチマークで検証した。
本研究は, パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにし, 異なるスケールのLPM間でのモデルパラメータの伝達可能性について検討した。
プロジェクトウェブサイト: https://maszhongming.github.io/ParaKnowTransfer.com
Large Language Models (LLMs) inherently encode a wealth of knowledge within their parameters through pre-training on extensive corpora. While prior research has delved into operations on these parameters to manipulate the underlying implicit knowledge (encompassing detection, editing, and merging), there remains an ambiguous understanding regarding their transferability across models with varying scales. In this paper, we seek to empirically investigate knowledge transfer from larger to smaller models through a parametric perspective. To achieve this, we employ sensitivity-based techniques to extract and align knowledge-specific parameters between different LLMs. Moreover, the LoRA module is used as the intermediary mechanism for injecting the extracted knowledge into smaller models. Evaluations across four benchmarks validate the efficacy of our proposed method. Our findings highlight the critical factors contributing to the process of parametric knowledge transfer, underscoring the transferability of model parameters across LLMs of different scales. Project website: https://maszhongming.github.io/ParaKnowTransfer. | 翻訳日:2024-05-09 19:10:37 公開日:2024-05-08 |
# 画像合成のためのビュー条件の統合
Integrating View Conditions for Image Synthesis ( http://arxiv.org/abs/2310.16002v3 ) ライセンス: Link先を確認 | Jinbin Bai, Zhen Dong, Aosong Feng, Xiao Zhang, Tian Ye, Kaicheng Zhou, | (参考訳) 画像処理の分野では、既存の画像に複雑な意味的修正を適用することは、永続的な課題である。
本稿では、特にインテリアデザインシーンにおける画像編集作業の制御を強化するために、視点情報を統合する先駆的なフレームワークを提案する。
既存のオブジェクト編集手法を調査することにより、画像編集手法で満たすべき3つの必須基準(一貫性、可制御性、調和性)を抽出する。
従来のアプローチとは対照的に,このフレームワークは画像合成の課題に対処するための3つの要件をすべて満たしている。
総合的な実験を通じて、定量的評価と現代の最先端手法との質的比較の両方を包含し、多次元にわたるフレームワークの優れた性能を示す説得力のある証拠を提示する。
この研究は、画像合成技術の進歩と、合成全体の視覚的コヒーレンスを保ちながら、精密なオブジェクト修正を促進するための有望な道を確立する。
In the field of image processing, applying intricate semantic modifications within existing images remains an enduring challenge. This paper introduces a pioneering framework that integrates viewpoint information to enhance the control of image editing tasks, especially for interior design scenes. By surveying existing object editing methodologies, we distill three essential criteria -- consistency, controllability, and harmony -- that should be met for an image editing method. In contrast to previous approaches, our framework takes the lead in satisfying all three requirements for addressing the challenge of image synthesis. Through comprehensive experiments, encompassing both quantitative assessments and qualitative comparisons with contemporary state-of-the-art methods, we present compelling evidence of our framework's superior performance across multiple dimensions. This work establishes a promising avenue for advancing image synthesis techniques and empowering precise object modifications while preserving the visual coherence of the entire composition. | 翻訳日:2024-05-09 19:10:37 公開日:2024-05-08 |
# 重なり合うスパース画像の深層学習に基づく分解:ニュートリノ相互作用の頂点への応用
Deep-learning-based decomposition of overlapping-sparse images: application at the vertex of neutrino interactions ( http://arxiv.org/abs/2310.19695v3 ) ライセンス: Link先を確認 | Saúl Alonso-Monsalve, Davide Sgalaberna, Xingyu Zhao, Adrien Molines, Clark McGrew, André Rubbia, | (参考訳) 画像分解は様々なコンピュータビジョンタスクにおいて重要な役割を担い、視覚的コンテンツの基本的なレベルでの分析と操作を可能にする。
重なり合う画像は、複数のオブジェクトやシーンが部分的に妨害されたときに起こり、分解アルゴリズムに固有の課題を生じさせる。
このタスクはスパース画像を扱う際に強化され、意味のある情報の不足がコンポーネントの正確な抽出を複雑にする。
本稿では,多次元重畳・スパース画像中の個々の物体を高精度に抽出する深層学習の力を利用した解を提案する。
特に、提案手法は、ニュートリノ相互作用の頂点における独立粒子の同定と測定という、非常に複雑な未解決の問題に対処する。
深層学習により頂点での検出器活性の像を分解することにより、特定された低分子粒子の運動パラメーターを推定し、ニュートリノ現象の再構成エネルギー分解能を高めることができる。
また, 上記の手法と完全微分可能生成モデルを組み合わせることで, さらに画像分解を改善し, その結果, 測定パラメータの分解能を向上し, 前例のない結果を得た。
この改良はニュートリノのフレーバー振動を管理するパラメータを正確に測定し、物質と反物質の間の対称性を探索するために重要である。
Image decomposition plays a crucial role in various computer vision tasks, enabling the analysis and manipulation of visual content at a fundamental level. Overlapping images, which occur when multiple objects or scenes partially occlude each other, pose unique challenges for decomposition algorithms. The task intensifies when working with sparse images, where the scarcity of meaningful information complicates the precise extraction of components. This paper presents a solution that leverages the power of deep learning to accurately extract individual objects within multi-dimensional overlapping-sparse images, with a direct application in high-energy physics with decomposition of overlaid elementary particles obtained from imaging detectors. In particular, the proposed approach tackles a highly complex yet unsolved problem: identifying and measuring independent particles at the vertex of neutrino interactions, where one expects to observe detector images with multiple indiscernible overlapping charged particles. By decomposing the image of the detector activity at the vertex through deep learning, it is possible to infer the kinematic parameters of the identified low-momentum particles - which otherwise would remain neglected - and enhance the reconstructed energy resolution of the neutrino event. We also present an additional step - that can be tuned directly on detector data - combining the above method with a fully-differentiable generative model to improve the image decomposition further and, consequently, the resolution of the measured parameters, achieving unprecedented results. This improvement is crucial for precisely measuring the parameters that govern neutrino flavour oscillations and searching for asymmetries between matter and antimatter. | 翻訳日:2024-05-09 19:10:37 公開日:2024-05-08 |
# オンライン長期制約最適化
Online Long-run Constrained Optimization ( http://arxiv.org/abs/2311.02426v2 ) ライセンス: Link先を確認 | Shijie Pan, Wenjie Huang, | (参考訳) 目的と制約が任意に生成され、必ずしも凸ではないオンライン手法で、一般的な長期制約付き最適化問題を解くために、新しいFollow-the-Perturbed-Leader型アルゴリズムを提案し、解析した。
各周期において、ランダムな線形摂動と強い凹凸摂動は、それぞれ、オフラインのオラクルに対して原始方向と双対方向に組み込まれ、その解として、大域的なミニマックス点が探索される。
提案された静的累積的後悔に基づいて、この問題のクラスに対する最初のサブ線形$O(T^{8/9})$後悔の複雑さを導出する。
提案アルゴリズムは,河川汚染源の長期的(極端値)の特定問題に対処し,理論的結果の検証を行い,既存手法と比較して優れた性能を示す。
A novel Follow-the-Perturbed-Leader type algorithm is proposed and analyzed for solving general long-term constrained optimization problems in online manner, where the objective and constraints are arbitrarily generated and not necessarily convex. In each period, random linear perturbation and strongly concave perturbation are incorporated in primal and dual directions, respectively, to the offline oracle, and a global minimax point is searched as the solution. Based on a proposed expected static cumulative regret, we derive the first sublinear $O(T^{8/9})$ regret complexity for this class of problems. The proposed algorithm is applied to tackle a long-term (extreme value) constrained river pollutant source identification problem, validate the theoretical results and exhibit superior performance compared to existing methods. | 翻訳日:2024-05-09 19:10:37 公開日:2024-05-08 |
# スペクトル法による高次元データの永続ホモロジー
Persistent Homology for High-dimensional Data Based on Spectral Methods ( http://arxiv.org/abs/2311.03087v2 ) ライセンス: Link先を確認 | Sebastian Damrich, Philipp Berens, Dmitry Kobak, | (参考訳) 永続ホモロジー(Persistent homology)は、ループやヴォイドの存在のような点雲の位相を分析する一般的な計算ツールである。
しかし、内在次元が低い実世界の多くのデータセットは、より高次元の周囲空間に存在する。
この場合、従来の持続的ホモロジーはノイズに非常に敏感になり、正確なトポロジーを検出できないことを示す。
同じことは、既存の永続ホモロジーの洗練にも当てはまる。
対策として,拡散距離や有効抵抗といったデータの$k$-nearest-neighborグラフ上のスペクトル距離は,高次元ノイズがあっても正確な位相を検出することができる。
さらに, 有効抵抗に対する新しい閉形式式を導出し, その拡散距離との関係について述べる。
最後に、これらの手法を高次元単細胞RNAシークエンシングデータに適用し、スペクトル距離が細胞周期ループの堅牢な検出を可能にすることを示す。
Persistent homology is a popular computational tool for analyzing the topology of point clouds, such as the presence of loops or voids. However, many real-world datasets with low intrinsic dimensionality reside in an ambient space of much higher dimensionality. We show that in this case traditional persistent homology becomes very sensitive to noise and fails to detect the correct topology. The same holds true for existing refinements of persistent homology. As a remedy, we find that spectral distances on the $k$-nearest-neighbor graph of the data, such as diffusion distance and effective resistance, allow to detect the correct topology even in the presence of high-dimensional noise. Moreover, we derive a novel closed-form formula for effective resistance, and describe its relation to diffusion distances. Finally, we apply these methods to high-dimensional single-cell RNA-sequencing data and show that spectral distances allow robust detection of cell cycle loops. | 翻訳日:2024-05-09 19:10:37 公開日:2024-05-08 |
# 不均一データを用いた逐次フェデレーション学習の収束解析
Convergence Analysis of Sequential Federated Learning on Heterogeneous Data ( http://arxiv.org/abs/2311.03154v2 ) ライセンス: Link先を確認 | Yipeng Li, Xinchen Lyu, | (参考訳) フェデレートラーニング(FL)では、複数のクライアントで共同トレーニングを行う方法が2つある。
一 クライアントが並列にモデルを訓練するパラレルFL(PFL)
ii)シーケンシャルFL(SFL)では、クライアントがシーケンシャルな方法でモデルをトレーニングする。
PFLとは対照的に、不均一データ上のSFLの収束理論はいまだに欠如している。
本稿では,不均一なデータに対する強/一般/非凸目的に対するSFLの収束保証を確立する。
SFLの収束保証は、完全かつ部分的なクライアント参加を伴う異種データ上でのPFLよりも優れている。
実験の結果,SFLはデバイス間設定において極めて不均一なデータ上でPFLより優れていた。
There are two categories of methods in Federated Learning (FL) for joint training across multiple clients: i) parallel FL (PFL), where clients train models in a parallel manner; and ii) sequential FL (SFL), where clients train models in a sequential manner. In contrast to that of PFL, the convergence theory of SFL on heterogeneous data is still lacking. In this paper, we establish the convergence guarantees of SFL for strongly/general/non-convex objectives on heterogeneous data. The convergence guarantees of SFL are better than that of PFL on heterogeneous data with both full and partial client participation. Experimental results validate the counterintuitive analysis result that SFL outperforms PFL on extremely heterogeneous data in cross-device settings. | 翻訳日:2024-05-09 19:10:37 公開日:2024-05-08 |
# Javaにおけるソーティングアルゴリズムのエネルギーと時間複雑性
Energy and Time Complexity for Sorting Algorithms in Java ( http://arxiv.org/abs/2311.07298v2 ) ライセンス: Link先を確認 | Kristina Carter, Su Mei Gwen Ho, Mathias Marquar Arhipenko Larsen, Martin Sundman, Maja H. Kirkeby, | (参考訳) この記事では、Javaで実装されている一般的なアルゴリズムであるBubble Sort、Counting Sort、Merge Sort、Quick Sortに焦点を当て、ソートアルゴリズムにおける時間複雑性とエネルギー消費の関係について検討する。
この関係を理解することの重要性は、情報通信技術のエネルギー需要の増加と、ソフトウェア最適化がエネルギー効率に寄与する可能性によってもたらされる。
時間複雑性とエネルギー使用量の間に強い相関関係があれば、ソフトウェア開発者がエネルギー効率の良いアプリケーションを作成する能力を高めるでしょう。
この定量的研究は、入力サイズ(25000~100万)と入力順序タイプ(ベスト、最悪の、ランダムなケース)の4つの選択されたソートアルゴリズムをJava対応システム上で実行することを研究する。
入力サイズは、タイプが実行する最大時間に応じて調整され、合計で12960の合計136の組み合わせとなる。
壁面時間とCPUエネルギー消費はIntelのRAPLを用いて測定される。
統計分析は、時間複雑性、壁時間、エネルギー消費の相関関係を調べるために用いられる。
この研究は、テストされたソートアルゴリズムの時間複雑性とエネルギー消費との間に強い相関関係を見出した。
カウントソート、マージソート、クイックソートのエネルギー消費の99%以上は、時間的複雑さに依存している。
バブルソートのエネルギー消費の94%以上は、その時間の複雑さに依存する。
その結果、時間複雑性はシーケンシャルソートアルゴリズムにおけるエネルギー消費の信頼できる予測因子として機能することを確認した。
この発見は、時間的複雑さを考慮し、エネルギー効率のよいアルゴリズムを選択することを促す。
The article investigates the relationship between time complexity and energy consumption in sorting algorithms, focusing on commonly-used algorithms implemented in Java: Bubble Sort, Counting Sort, Merge Sort, and Quick Sort. The significance of understanding this relationship is driven by the increasing energy demands of Information and Communication Technology systems and the potential for software optimization to contribute to energy efficiency. If we find a strong correlation between time complexity and energy usage, it would enhance the ability of software developers to create energy-efficient applications. This quantitative study researches the execution of four selected sorting algorithms with input varying over input sizes (25000 to 1 million) and input order types (best, worst, and random cases) on a single kernel in a Java-enabled system. The input size is adjusted according to the type's maximum execution time, resulting in 136 combinations, totalling 12960 measurements. Wall time and the CPU energy consumption is measured using Intel's RAPL. Statistical analysis are used to examine the correlations between time complexity, wall time, and energy consumption. The study finds a strong correlation between time complexity and energy consumption for the sorting algorithms tested. More than 99% of the variance in energy consumption for Counting Sort, Merge Sort, and Quick Sort depend on their time complexities. More than 94% of the variance in energy consumption for Bubble Sort depends on its time complexity. The results affirm that time complexity can serve as a reliable predictor of energy consumption in sequential sorting algorithms. This discovery could guide software developers in choosing energy-efficient algorithms by considering time complexities. | 翻訳日:2024-05-09 19:10:37 公開日:2024-05-08 |
# オブジェクト検出におけるデータセット親和性予測の利用によるトレーニングデータの評価
Utilizing dataset affinity prediction in object detection to assess training data ( http://arxiv.org/abs/2311.09768v2 ) ライセンス: Link先を確認 | Stefan Becker, Jens Bayer, Ronny Hug, Wolfgang Hübner, Michael Arens, | (参考訳) データプーリングは、サンプルサイズの増加、一般化の改善、サンプリングバイアスの低減、データのスパーシリティと品質への対処など、さまざまな利点を提供するが、単純ではなく、非生産的かもしれない。
データセットを原則的にプールすることの有効性を評価することは、個々のデータセットの全体的な情報内容を評価するのが困難であるため、難しい。
そこで本研究では,標準オブジェクト検出パイプラインにデータソース予測モジュールを組み込むことを提案する。
モジュールは推論時間に最小限のオーバーヘッドで動作し、個々の検出に割り当てられたデータソースに関する追加情報を提供する。
車両データセットのヘテロジニアスプールからサンプルを自動的に選択することで、いわゆるデータセット親和性スコアの利点を示す。
その結果, 物体検出装置は, 検出精度を損なうことなく, トレーニングサンプルのスペーサーセットでトレーニングできることがわかった。
Data pooling offers various advantages, such as increasing the sample size, improving generalization, reducing sampling bias, and addressing data sparsity and quality, but it is not straightforward and may even be counterproductive. Assessing the effectiveness of pooling datasets in a principled manner is challenging due to the difficulty in estimating the overall information content of individual datasets. Towards this end, we propose incorporating a data source prediction module into standard object detection pipelines. The module runs with minimal overhead during inference time, providing additional information about the data source assigned to individual detections. We show the benefits of the so-called dataset affinity score by automatically selecting samples from a heterogeneous pool of vehicle datasets. The results show that object detectors can be trained on a significantly sparser set of training samples without losing detection accuracy. | 翻訳日:2024-05-09 19:10:37 公開日:2024-05-08 |
# 効率的な超解法のためのスウィフトパラメータフリーアテンションネットワーク
Swift Parameter-free Attention Network for Efficient Super-Resolution ( http://arxiv.org/abs/2311.12770v2 ) ライセンス: Link先を確認 | Cheng Wan, Hongyuan Yu, Zhiqi Li, Yihang Chen, Yajun Zou, Yuqing Liu, Xuanwu Yin, Kunlong Zuo, | (参考訳) SISR(Single Image Super-Resolution)は、低解像度のコンピュータビジョンにおいて重要な課題であり、低解像度の画像から高解像度の画像を再構成することを目的としている。
従来の注意機構はSISRの性能を大幅に向上させたが、しばしば複雑なネットワーク構造と多数のパラメータが発生し、推論速度が遅くなり、モデルのサイズが大きくなる。
この問題に対処するために、パラメータカウント、推論速度、画像品質のバランスをとる高効率なSISRモデルであるSwift Parameter-free Attention Network (SPAN)を提案する。
SPANは、対称的なアクティベーション関数と残差接続を利用して、高寄与度情報を強化し、冗長な情報を抑制する新しいパラメータフリーアテンション機構を採用している。
この設計が注意機構の目的を達成する上での有効性を理論的に示す。
複数のベンチマークでSPANを評価し、画像品質と推論速度の両面で既存の高効率超解像モデルより優れており、品質と速度のトレードオフが著しく達成されていることを示す。
これにより、SPANは現実世界のアプリケーション、特にリソース制約のあるシナリオに非常に適しています。
特に、NTIRE 2024の全体的なパフォーマンストラックとランタイムトラックの両方において、私たちは、効率的な超解像度チャレンジで第一位を獲得しました。
私たちのコードとモデルはhttps://github.com/hongyuanyu/SPAN.comで公開されています。
Single Image Super-Resolution (SISR) is a crucial task in low-level computer vision, aiming to reconstruct high-resolution images from low-resolution counterparts. Conventional attention mechanisms have significantly improved SISR performance but often result in complex network structures and large number of parameters, leading to slow inference speed and large model size. To address this issue, we propose the Swift Parameter-free Attention Network (SPAN), a highly efficient SISR model that balances parameter count, inference speed, and image quality. SPAN employs a novel parameter-free attention mechanism, which leverages symmetric activation functions and residual connections to enhance high-contribution information and suppress redundant information. Our theoretical analysis demonstrates the effectiveness of this design in achieving the attention mechanism's purpose. We evaluate SPAN on multiple benchmarks, showing that it outperforms existing efficient super-resolution models in terms of both image quality and inference speed, achieving a significant quality-speed trade-off. This makes SPAN highly suitable for real-world applications, particularly in resource-constrained scenarios. Notably, we won the first place both in the overall performance track and runtime track of the NTIRE 2024 efficient super-resolution challenge. Our code and models are made publicly available at https://github.com/hongyuanyu/SPAN. | 翻訳日:2024-05-09 19:00:52 公開日:2024-05-08 |
# 高等教育におけるチャットGPTの倫理的意味:スコーピング・レビュー
Ethical Implications of ChatGPT in Higher Education: A Scoping Review ( http://arxiv.org/abs/2311.14378v2 ) ライセンス: Link先を確認 | Ming Li, Ariunaa Enkhtur, Fei Cheng, Beverley Anne Yamamoto, | (参考訳) 本稿では,ChatGPTを高等教育に活用する上での倫理的課題について考察する。
英語,中国語,日本語の最近の学術論文をレビューすることで,本論文の深層的な検討とギャップの特定をめざした。
Arksey and O'Malley's scoping review framework(2005)を参考に、検索用語を定義し、3つの対象言語の4つのデータベースから関連する出版物を同定した。
研究の結果、論文の大半は議論論文であることがわかったが、初期の経験的な研究がいくつかあった。
これらの研究で強調された倫理的問題は、主に学術的完全性、評価問題、データ保護に関するものである。
生成人工知能の迅速な展開を考えると、教育者がより経験的な研究を行い、その利用のための健全な倫理政策を開発することが不可欠である。
This scoping review explores the ethical challenges of using ChatGPT in higher education. By reviewing recent academic articles in English, Chinese, and Japanese, we aimed to provide a deep dive review and identify gaps in the literature. Drawing on Arksey and O'Malley's (2005) scoping review framework, we defined search terms and identified relevant publications from four databases in the three target languages. The research results showed that the majority of the papers were discussion papers, but there was some early empirical work. The ethical issues highlighted in these works mainly concern academic integrity, assessment issues, and data protection. Given the rapid deployment of generative artificial intelligence, it is imperative for educators to conduct more empirical studies to develop sound ethical policies for its use. | 翻訳日:2024-05-09 19:00:52 公開日:2024-05-08 |
# 有限スケールスケーリングによる地層パーコレーション研究のための粒子密度と臨界点
Particle density and critical point for studying site percolation by finite size scaling ( http://arxiv.org/abs/2311.14725v2 ) ライセンス: Link先を確認 | Dian Xu, Shanshan Wang, Feng Gao, Wei Li, Jianmin Shen, | (参考訳) 機械学習は、最近、相転移の研究で顕著な成功を収めた。
一般に、教師なし学習の潜伏変数は、一般に、いわゆる順序パラメータによって達成される位相遷移に関する情報をキャプチャできると考えられている。
ほとんどのモデル、例えばイジングでは、順序パラメータは単に粒子数密度である。
しかし、位相遷移を生成できる最も単純なパーコレーションは、粒子数密度ではない一意な順序パラメータを持つ。
本稿では, 教師なし学習を用いて, サイトパーコレーションモデルにおける粒子数密度, 臨界点, 潜伏変数の関係について検討する。
学習の入力が元の構成である場合、教師なし学習の出力は相転移に関する情報を伝達しない。
したがって、モデルの臨界点を効果的に捉えるために、最大クラスタが使用される。
教師なし学習はモンテカルロシミュレーションと整合した信頼性のある結果をもたらす。
また,Fake Finite Size Scaling (FFSS) という手法を提案する。
Machine learning has recently achieved remarkable success in studying phase transitions. It is generally believed that the latent variables of unsupervised learning can capture the information related to phase transitions, which is usually achieved through the so-called order parameter. In most models, for instance the Ising, the order parameters are simply the particle number densities. The percolation, the simplest model which can generate a phase transition, however, has a unique order parameter which is not particle number density. In this paper, we use unsupervised learning to study the relationship between particle number density, critical point, and latent variables in the site percolation model. It is found that if the input of learning is the original configuration, then the output of unsupervised learning does not convey any information related to the phase transition. Therefore, the maximum cluster is employed in order to effectively capture the critical point of the model. Unsupervised learning yields reliable results consistent with Monte Carlo simulations. We also propose a method called Fake Finite Size Scaling (FFSS) to calculate the critical value, which improves the accuracy of fitting to a great extent. | 翻訳日:2024-05-09 19:00:52 公開日:2024-05-08 |
# 学習キャッシュを用いたTinyデバイス上での音声理解
Speech Understanding on Tiny Devices with A Learning Cache ( http://arxiv.org/abs/2311.18188v4 ) ライセンス: Link先を確認 | Afsara Benazir, Zhiming Xu, Felix Xiaozhu Lin, | (参考訳) 本稿では、マイクロコントローラのような組み込みデバイス上での音声言語理解(SLU)に対処し、デバイス上での実行とクラウドオフロードを新たな方法で統合する。
音声入力の時間的局所性をデバイスに利用し、それに応じて最近のSLU推論を再利用する。
私たちのアイデアは単純です – デバイスが入力した入力とキャッシュされた結果とを一致させ,キャッシュされた入力とクラウドへのオフロードのみを完全な推論で一致させる,というものです。
しかし、このアイデアの実現は簡単ではない。このデバイスは、ロバストで低コストな方法で音響特性を比較する必要がある。
この目的のために,小型デバイス向けの音声キャッシュであるSpeechCache(SC)を提案する。
音声入力は、2つのレベルの表現で一致します。まずは、クラスタ化された生音ユニットのシーケンスによって、次に音素のシーケンスとして。
2つの表現は、コストと効率の相補的なトレードオフを提供する。
さらに精度を高めるために、私たちのキャッシュはパーソナライズすることを学びます。ミスマッチした入力とオフロードされた入力によって、デバイスの特徴抽出装置をクラウドの助けを借りて継続的に微調整します。
我々は市販のSTM32マイクロコントローラにSCを実装した。
完全な実装はメモリフットプリントが2MBである。
難解な音声ベンチマークに基づいて,本システムはデバイス上での入力の45%-90%を解決し,一般的なクラウド音声認識サービスへのオフロードと比較して,平均遅延を最大80%削減する。
提案したSCがもたらすメリットは,ノイズの多い環境やコールドキャッシュ,あるいは多数のユーザが共有するひとつのデバイスなど,敵対的な設定でも注目に値するものです。
This paper addresses spoken language understanding (SLU) on microcontroller-like embedded devices, integrating on-device execution with cloud offloading in a novel fashion. We leverage temporal locality in the speech inputs to a device and reuse recent SLU inferences accordingly. Our idea is simple: let the device match incoming inputs against cached results, and only offload inputs not matched to any cached ones to the cloud for full inference. Realization of this idea, however, is non-trivial: the device needs to compare acoustic features in a robust yet low-cost way. To this end, we present SpeechCache (or SC), a speech cache for tiny devices. It matches speech inputs at two levels of representations: first by sequences of clustered raw sound units, then as sequences of phonemes. Working in tandem, the two representations offer complementary tradeoffs between cost and efficiency. To boost accuracy even further, our cache learns to personalize: with the mismatched and then offloaded inputs, it continuously finetunes the device's feature extractors with the assistance of the cloud. We implement SC on an off-the-shelf STM32 microcontroller. The complete implementation has a small memory footprint of 2MB. Evaluated on challenging speech benchmarks, our system resolves 45%-90% of inputs on device, reducing the average latency by up to 80% compared to offloading to popular cloud speech recognition services. The benefit brought by our proposed SC is notable even in adversarial settings - noisy environments, cold cache, or one device shared by a number of users. | 翻訳日:2024-05-09 19:00:52 公開日:2024-05-08 |
# セキュアトランスフォーマー推論プロトコル
Secure Transformer Inference Protocol ( http://arxiv.org/abs/2312.00025v2 ) ライセンス: Link先を確認 | Mu Yuan, Lan Zhang, Xiang-Yang Li, | (参考訳) ChatGPTなどのTransformerベースのサービスでは、モデルパラメータとユーザデータのセキュリティが重要になる。
セキュアな双方向プロトコルの最近の進歩は、Transformerモデルを提供する際のセキュリティ上の懸念に対処することに成功したが、暗号のオーバーヘッドが禁止されているため、その採用は事実上不可能である。
2つの実世界のTransformerベースのサービスを開発する際の実践的な経験から洞察を得た上で、我々は、2つの前提に固有の効率ボトルネックを特定した。
この制限を克服するため、我々は新しい三者脅威モデルを提案する。
本フレームワークでは,半対称な置換に基づく保護方式を設計し,推論精度を損なうことなく,最初のセキュアトランスフォーマー推論プロトコルであるSTIPを提示する。
実システムにおける代表的なTransformerモデルの実験では、STIPは実用的セキュリティを持ち、最先端のセキュアな2つのプロトコルを数百万倍の効率で上回っている。
Security of model parameters and user data is critical for Transformer-based services, such as ChatGPT. While recent strides in secure two-party protocols have successfully addressed security concerns in serving Transformer models, their adoption is practically infeasible due to the prohibitive cryptographic overheads involved. Drawing insights from our hands-on experience in developing two real-world Transformer-based services, we identify the inherent efficiency bottleneck in the two-party assumption. To overcome this limitation, we propose a novel three-party threat model. Within this framework, we design a semi-symmetric permutation-based protection scheme and present STIP, the first secure Transformer inference protocol without any inference accuracy loss. Experiments on representative Transformer models in real systems show that STIP has practical security and outperforms state-of-the-art secure two-party protocols in efficiency by millions of times. | 翻訳日:2024-05-09 19:00:52 公開日:2024-05-08 |
# Beta Divergence を用いた変分自己監督型コントラスト学習
Variational Self-Supervised Contrastive Learning Using Beta Divergence ( http://arxiv.org/abs/2312.00824v3 ) ライセンス: Link先を確認 | Mehmet Can Yavuz, Berrin Yanikoglu, | (参考訳) ラベルなしおよびノイズの多いデータを用いた識別的意味空間の学習は、マルチラベル設定では未適応のままである。
本稿では,データノイズに対して頑健な自己教師付き学習手法を提案する。
この手法(VCL)は、ベータ分割による変動コントラスト学習を用いて、未修正データセットやノイズのあるデータセットを含む、未修正データセットから頑健に学習する。
顔理解領域における多ラベルデータセットを用いた線形評価と微調整シナリオを含む厳密な実験により,提案手法の有効性を実証する。
ほぼすべてのテストシナリオにおいて、VCLは最先端の自己教師型メソッドのパフォーマンスを上回り、注目すべき精度の向上を実現している。
Learning a discriminative semantic space using unlabelled and noisy data remains unaddressed in a multi-label setting. We present a contrastive self-supervised learning method which is robust to data noise, grounded in the domain of variational methods. The method (VCL) utilizes variational contrastive learning with beta-divergence to learn robustly from unlabelled datasets, including uncurated and noisy datasets. We demonstrate the effectiveness of the proposed method through rigorous experiments including linear evaluation and fine-tuning scenarios with multi-label datasets in the face understanding domain. In almost all tested scenarios, VCL surpasses the performance of state-of-the-art self-supervised methods, achieving a noteworthy increase in accuracy. | 翻訳日:2024-05-09 19:00:52 公開日:2024-05-08 |
# WavePlanes: 動的ニューラルラジアンス場のためのコンパクトウェーブレット表現
WavePlanes: A compact Wavelet representation for Dynamic Neural Radiance Fields ( http://arxiv.org/abs/2312.02218v3 ) ライセンス: Link先を確認 | Adrian Azzarelli, Nantheera Anantrasirichai, David R Bull, | (参考訳) Dynamic Neural Radiance Fields (Dynamic NeRF)は、移動シーンをモデル化するためのNeRF技術を強化する。
しかし、それらは資源集約的で圧縮が難しい。
本稿では,これらの問題に対処するために,高速でコンパクトな明示的モデルであるWavePlanesを提案する。
Nレベル2次元ウェーブレット係数を用いたマルチスケール空間および時空間特徴平面表現を提案する。
逆離散ウェーブレット変換は、4次元グリッドにおける体積の色と密度を近似するために線形デコードされた特徴信号を様々な詳細で再構成する。
ウェーブレット係数の間隔を計算し、非ゼロ係数と各平面上の位置のみを含むハッシュマップを用いてモデルを圧縮する。
最先端(SotA)プレーンベースモデルと比較すると、WavePlanesは最大15倍小さくなり、リソースの需要も少なく、性能やトレーニング時間も競争力がある。
他の小さなSotAモデルと比較すると、WavePlanesはカスタムCUDAコードや高性能コンピューティングリソースを必要とせずに詳細を保存できる。
私たちのコードは、https://github.com/azzarelli/waveplanes/で利用可能です。
Dynamic Neural Radiance Fields (Dynamic NeRF) enhance NeRF technology to model moving scenes. However, they are resource intensive and challenging to compress. To address these issues, this paper presents WavePlanes, a fast and more compact explicit model. We propose a multi-scale space and space-time feature plane representation using N-level 2-D wavelet coefficients. The inverse discrete wavelet transform reconstructs feature signals at varying detail, which are linearly decoded to approximate the color and density of volumes in a 4-D grid. Exploiting the sparsity of wavelet coefficients, we compress the model using a Hash Map containing only non-zero coefficients and their locations on each plane. Compared to the state-of-the-art (SotA) plane-based models, WavePlanes is up to 15x smaller while being less resource demanding and competitive in performance and training time. Compared to other small SotA models WavePlanes preserves details better without requiring custom CUDA code or high performance computing resources. Our code is available at: https://github.com/azzarelli/waveplanes/ | 翻訳日:2024-05-09 19:00:52 公開日:2024-05-08 |
# 非線形量子軌道平均による異なる解離を区別する
Telling different unravelings apart via nonlinear quantum-trajectory averages ( http://arxiv.org/abs/2312.03452v2 ) ライセンス: Link先を確認 | Eloy Piñol, Th. K. Mavrogordatos, Dustin Keys, Romain Veyron, Piotr Sierant, Miguel Angel García-March, Samuele Grandi, Morgan W. Mitchell, Jan Wehr, Maciej Lewenstein, | (参考訳) ゴリーニ-コサコフスキー-スダルシャン-リンドブラッドマスター方程式 (ME) は開量子系(OQS)の密度行列を支配している。
OQSが弱い連続測定を受けると、その状態は確率的量子軌道として発展し、その統計平均はMEを解く。
そのような軌道のアンサンブルは、MEのアンサンブル(unraveling)と呼ばれる。
軌道上の可観測物の非線形平均を用いて,同一のMEが生成する未発見物を異なる測定シナリオで操作的に識別する手法を提案する。
本手法を2レベル原子における共鳴蛍光のパラダイム的量子非線形系に適用する。
本研究では,2レベルエミッタから散乱した光子の直接検出によって引き起こされるポアソン型アンラベリングと,放射された磁場の位相感度検出によって引き起こされるウィーナー型アンラベリングを比較した。
量子軌道平均分散は,これらの測定シナリオを識別できることを示す。
我々は,より複雑なOQSに容易に拡張できる手法の性能を,現実的な実験条件下で評価する。
The Gorini-Kossakowski-Sudarshan-Lindblad master equation (ME) governs the density matrix of open quantum systems (OQSs). When an OQS is subjected to weak continuous measurement, its state evolves as a stochastic quantum trajectory, whose statistical average solves the ME. The ensemble of such trajectories is termed an unraveling of the ME. We propose a method to operationally distinguish unravelings produced by the same ME in different measurement scenarios, using nonlinear averages of observables over trajectories. We apply the method to the paradigmatic quantum nonlinear system of resonance fluorescence in a two-level atom. We compare the Poisson-type unraveling, induced by direct detection of photons scattered from the two-level emitter, and the Wiener-type unraveling, induced by phase-sensitive detection of the emitted field. We show that a quantum-trajectory-averaged variance is able to distinguish these measurement scenarios. We evaluate the performance of the method, which can be readily extended to more complex OQSs, under a range of realistic experimental conditions. | 翻訳日:2024-05-09 19:00:52 公開日:2024-05-08 |
# シスケード系の位相駆動動力学による加熱・冷却過程
Heating and cooling processes via phaseonium-driven dynamics of cascade systems ( http://arxiv.org/abs/2312.04498v2 ) ライセンス: Link先を確認 | Federico Amato, Claudio Pellitteri, G. Massimo Palma, Salvatore Lorenzo, Rosario Lo Franco, | (参考訳) 量子系の温度を利用する戦略の探索は、量子熱力学の主要な目標の1つである。
ここでは、一対の量子調和振動子からなる系の力学を1モードの空洞場で表現し、アシラとして作用する相オン原子の熱励起ビームと相互作用する。
2つの空洞はカスケード構成で配置されており、第2の空洞は第1の空洞と相互作用した後のみ位相オン原子と相互作用する。
任意に長い相互作用時間に対して、第1空洞の正確なクローズドダイナミクスを提供する。
本研究では, セシウム原子の特徴的コヒーレンス相が, キャビティフィールドの定常状態, およびアンシラの定常状態を決定する上で果たす役割を強調した。
また、第2のキャビティが、第1のキャビティとの情報交換を可能にする「使用」アシラリー原子との相互作用によって、非マルコフ進化にどのように従うかを示す。
相オン原子のパラメータを調整することで、キャビティが到達した最終安定温度を決定することができる。
このようにして、空洞を加熱したり、冷やしたりすることができる。
これらの結果は, キャビティQEDシナリオにおける熱力学サイクルに対する異なる種類のアンシラの使用に関する有用な知見を提供する。
The search for strategies to harness the temperature of quantum systems is one of the main goals in quantum thermodynamics. Here we study the dynamics of a system made of a pair of quantum harmonic oscillators, represented by single-mode cavity fields, interacting with a thermally excited beam of phaseonium atoms, which act as ancillas. The two cavities are arranged in a cascade configuration, so that the second cavity interacts with phaseonium atoms only after their interaction with the first one. We provide exact closed dynamics of the first cavity for arbitrarily long interaction times. We highlight the role played by the characteristic coherence phase of phaseonium atoms in determining the steady states of the cavity fields as well as that of the ancillas. Also, we show how the second cavity follows a non-Markovian evolution due to interactions with the "used" ancillary atoms, that enables information exchange with the first cavity. Adjusting the parameters of the phaseonium atoms, we can determine the final stable temperature reached by the cavities. In this way, the cavities can be heated up as well as cooled down. These results provide useful insights towards the use of different types of ancillas for thermodynamic cycles in cavity QED scenarios. | 翻訳日:2024-05-09 19:00:52 公開日:2024-05-08 |
# 効率的な単一画像超解像のための数百キロバイトルックアップテーブル
Hundred-Kilobyte Lookup Tables for Efficient Single-Image Super-Resolution ( http://arxiv.org/abs/2312.06101v2 ) ライセンス: Link先を確認 | Binxiao Huang, Jason Chun Lok Li, Jie Ran, Boyu Li, Jiajun Zhou, Dahai Yu, Ngai Wong, | (参考訳) 従来の超解像(SR)方式は畳み込みニューラルネットワーク(CNN)を多用している。
これは、電力、コンピューティング、ストレージリソースによって歪んだデバイス上で実行されるエッジAIの体制と矛盾する。
このような課題は、単純なLUT読み出しとCNN計算を多用した一連のルックアップテーブル(LUT)ベースのSRスキームを動機付けている。
それでも、既存のメソッドのマルチメガバイトのUTTは、オンチップストレージを禁止し、オフチップメモリ転送を必要としている。
この作業は、このストレージハードルに対処し、オンチップキャッシュに対応可能な100kbit LUT(HKLUT)モデルを革新する。
HKLUTは、非対称な2分岐マルチステージネットワークと特別なカーネルパターンの組み合わせを利用して、既存のLUT方式よりも非競合性能とハードウェア効率が優れていることを示した。
私たちの実装は、https://github.com/jasonli0707/hklut.comで公開されています。
Conventional super-resolution (SR) schemes make heavy use of convolutional neural networks (CNNs), which involve intensive multiply-accumulate (MAC) operations, and require specialized hardware such as graphics processing units. This contradicts the regime of edge AI that often runs on devices strained by power, computing, and storage resources. Such a challenge has motivated a series of lookup table (LUT)-based SR schemes that employ simple LUT readout and largely elude CNN computation. Nonetheless, the multi-megabyte LUTs in existing methods still prohibit on-chip storage and necessitate off-chip memory transport. This work tackles this storage hurdle and innovates hundred-kilobyte LUT (HKLUT) models amenable to on-chip cache. Utilizing an asymmetric two-branch multistage network coupled with a suite of specialized kernel patterns, HKLUT demonstrates an uncompromising performance and superior hardware efficiency over existing LUT schemes. Our implementation is publicly available at: https://github.com/jasonli0707/hklut. | 翻訳日:2024-05-09 19:00:52 公開日:2024-05-08 |
# HeadArtist: セルフスコア蒸留によるテキスト調和型3Dヘッドジェネレーション
HeadArtist: Text-conditioned 3D Head Generation with Self Score Distillation ( http://arxiv.org/abs/2312.07539v2 ) ライセンス: Link先を確認 | Hongyu Liu, Xuan Wang, Ziyu Wan, Yujun Shen, Yibing Song, Jing Liao, Qifeng Chen, | (参考訳) 本研究は,テキスト記述から3次元ヘッド生成のためのHeadArtistを提案する。
先行蒸留自体の監督の下でパラメータ化された3Dヘッドモデルを最適化する,効率的なパイプラインを考案した。
このようなプロセスを自己スコア蒸留(SSD)と呼ぶ。
詳しくは、サンプルカメラのポーズを考慮すれば、まず画像とその対応するランドマークをヘッドモデルからレンダリングし、特定のレベルのノイズを画像に追加する。
ノイズの多い画像、ランドマーク、テキスト条件は、ノイズ予測のために凍ったコントロールネットに2回入力される。
これら2つの予測の間に2つの異なる分類器フリーガイダンス(CFG)の重みが適用され、予測差は、レンダリングされた画像が関心のテキストにどのようにマッチするかを示す。
実験結果から,本手法は高品位な3次元頭部彫刻を適切な形状とフォトリアリスティックな外観で提供し,最先端の手法よりも優れていたことが示唆された。
また、同じパイプラインが、幾何変形と外観変化の両方を含む生成したヘッドの編集をうまくサポートしていることを示す。
This work presents HeadArtist for 3D head generation from text descriptions. With a landmark-guided ControlNet serving as the generative prior, we come up with an efficient pipeline that optimizes a parameterized 3D head model under the supervision of the prior distillation itself. We call such a process self score distillation (SSD). In detail, given a sampled camera pose, we first render an image and its corresponding landmarks from the head model, and add some particular level of noise onto the image. The noisy image, landmarks, and text condition are then fed into the frozen ControlNet twice for noise prediction. Two different classifier-free guidance (CFG) weights are applied during these two predictions, and the prediction difference offers a direction on how the rendered image can better match the text of interest. Experimental results suggest that our approach delivers high-quality 3D head sculptures with adequate geometry and photorealistic appearance, significantly outperforming state-ofthe-art methods. We also show that the same pipeline well supports editing the generated heads, including both geometry deformation and appearance change. | 翻訳日:2024-05-09 19:00:52 公開日:2024-05-08 |
# 大規模言語モデルを用いたパーソナライズされた自律運転:フィールド実験
Personalized Autonomous Driving with Large Language Models: Field Experiments ( http://arxiv.org/abs/2312.09397v3 ) ライセンス: Link先を確認 | Can Cui, Zichong Yang, Yupeng Zhou, Yunsheng Ma, Juanwu Lu, Lingxi Li, Yaobin Chen, Jitesh Panchal, Ziran Wang, | (参考訳) 自動運転車に大型言語モデル(LLM)を統合することで、AIシステムとの対話によって車両を駆動することができる。
しかし、より長期にわたるドライバーや乗客の嗜好に適応するために、コマンドを正確に理解し、より高度なパーソナライズを実現する必要があることも強調している。
本稿では,LLMベースのフレームワークであるTalk2Driveを紹介し,提案するメモリモジュールの安全性,効率,快適性に対する個人の嗜好を満たすために,自然言語コマンドを実行可能な制御と学習に翻訳する。
これは、LLMを現実世界の自動運転車にデプロイする、最初の種類のマルチシナリオフィールド実験である。
実験では、提案システムは「速く運転できる」といった直接的なコマンドから「本当に急いでいる」といった間接的なコマンドまで、さまざまな直感レベルで人間の意図を理解することができることを示した。
さらに,道路,交差点,駐車シナリオにおいて,Talk2Driveが乗っ取り率を大幅に低減するLLMベースの自動運転システムにおいて,乗っ取り率を用いて人間ドライバーの信頼度を定量化する。
また、提案したメモリモジュールは、パーソナライズされた好みを考慮しており、メモリモジュールを持たないモジュールと比較して、テイクオーバ率を最大65.2%削減する。
実験ビデオはhttps://www.youtube.com/watch?
v=4BWsfPaq1Ro
Integrating large language models (LLMs) in autonomous vehicles enables conversation with AI systems to drive the vehicle. However, it also emphasizes the requirement for such systems to comprehend commands accurately and achieve higher-level personalization to adapt to the preferences of drivers or passengers over a more extended period. In this paper, we introduce an LLM-based framework, Talk2Drive, capable of translating natural verbal commands into executable controls and learning to satisfy personal preferences for safety, efficiency, and comfort with a proposed memory module. This is the first-of-its-kind multi-scenario field experiment that deploys LLMs on a real-world autonomous vehicle. Experiments showcase that the proposed system can comprehend human intentions at different intuition levels, ranging from direct commands like "can you drive faster" to indirect commands like "I am really in a hurry now". Additionally, we use the takeover rate to quantify the trust of human drivers in the LLM-based autonomous driving system, where Talk2Drive significantly reduces the takeover rate in highway, intersection, and parking scenarios. We also validate that the proposed memory module considers personalized preferences and further reduces the takeover rate by up to 65.2% compared with those without a memory module. The experiment video can be watched at https://www.youtube.com/watch?v=4BWsfPaq1Ro | 翻訳日:2024-05-09 19:00:52 公開日:2024-05-08 |
# 多体基底状態における測定誘起情報の普遍構造
Universal structure of measurement-induced information in many-body ground states ( http://arxiv.org/abs/2312.11615v2 ) ライセンス: Link先を確認 | Zihan Cheng, Rui Wen, Sarang Gopalakrishnan, Romain Vasseur, Andrew C. Potter, | (参考訳) ユニタリ力学とは異なり、サブシステムの測定は量子テレポーテーションによって長距離の絡み合いを引き起こすことができる。
測定誘起絡み合いや相互情報の量は、測定ベースと状態の絡み合い構造(測定前)に共同で依存し、状態が測定ベースの量子コンピューティングの資源であるかどうか、また、量子コンピュータや古典コンピュータを用いて状態をシミュレートする計算上の複雑さに対して、運用上の重要性を持つ。
本研究では,1次元と2次元の量子多体系の基底状態に対する測定誘起絡み合い(MIE)と情報(MII)のエントロピー測度について検討する。
臨界点、量子ホール状態、弦-ネットトポロジカル秩序、フェルミ液体を含む様々なモデルの数値解析および解析から、状態の基底相や臨界普遍性クラスにのみ依存するMIEとMIIの長距離構造の普遍的特徴を同定する。
我々は、長距離MIEとMIIへの主要な貢献は1d$であるのに対し、2d$では有限深度回路に対するテレポーテーション遷移の存在は、自明な2d$状態が長距離MIEを示すことを示し、普遍的特徴はサブリード補正にあることを示唆する。
我々はこれらのユニバーサルコントリビューションを直接抽出する修正MIE尺度を導入する。
結論として、トポロジカル位相を数値的に同定するために用いられる奇妙な相関子への主要な貢献は、実際には2つ以上の次元においてユニバーサルではないことを示し、我々の修正された構造が普遍成分を分離することを可能にする方法を説明する。
量子材料の古典および量子計算シミュレーションにおけるこれらの結果の影響について論じる。
Unlike unitary dynamics, measurements of a subsystem can induce long-range entanglement via quantum teleportation. The amount of measurement-induced entanglement or mutual information depends jointly on the measurement basis and the entanglement structure of the state (before measurement), and has operational significance for whether the state is a resource for measurement-based quantum computing, as well as for the computational complexity of simulating the state using quantum or classical computers. In this work, we examine entropic measures of measurement-induced entanglement (MIE) and information (MII) for the ground-states of quantum many-body systems in one- and two- spatial dimensions. From numerical and analytic analysis of a variety of models encompassing critical points, quantum Hall states, string-net topological orders, and Fermi liquids, we identify universal features of the long-distance structure of MIE and MII that depend only on the underlying phase or critical universality class of the state. We argue that, whereas in $1d$ the leading contributions to long-range MIE and MII are universal, in $2d$, the existence of a teleportation transition for finite-depth circuits implies that trivial $2d$ states can exhibit long-range MIE, and the universal features lie in sub-leading corrections. We introduce modified MIE measures that directly extract these universal contributions. As a corollary, we show that the leading contributions to strange-correlators, used to numerically identify topological phases, are in fact non-universal in two or more dimensions, and explain how our modified constructions enable one to isolate universal components. We discuss the implications of these results for classical- and quantum- computational simulation of quantum materials. | 翻訳日:2024-05-09 19:00:52 公開日:2024-05-08 |
# スローとキャッチによるナノ粒子干渉計
Nanoparticle Interferometer by Throw and Catch ( http://arxiv.org/abs/2312.12974v2 ) ライセンス: Link先を確認 | Jakub Wardak, Tiberius Georgescu, Giulio Gasbarri, Alessio Belenchia, Hendrik Ulbricht, | (参考訳) より大きな質量を持つ物質波干渉計は、波動関数の崩壊の性質、量子から古典的遷移、あるいは空間的重畳の物体がその重力場とどのように相互作用するかを理解する方法を作ることができる。
現在の質量記録を改善するためには、ナノ粒子状態に移行する必要がある。
本稿では,従来提案されてきた設計の実践的課題を回避するため,ナノ粒子のタルボット・ラウ物質波干渉計の設計について述べる。
我々は,このような干渉計が生み出す予想されるフランジパターンのシミュレーションを行い,主要なデコヒーレンスの原因をすべて考慮した。
本稿では,そのような実験の構築にかかわる実践的課題と,提案手法を実証するための予備的な実験結果について述べる。
このような設計は10^6$amu SiO$_2$粒子の干渉縞を見るのに適した設計であり、典型的なタルボット時間以下の飛行時間を用いて10^8$amu粒子にまで拡張可能であることを示す。
Matter-wave interferometry with increasingly larger masses could pave the way to understanding the nature of wavefunction collapse, the quantum to classical transition or even how an object in a spatial superposition interacts with its gravitational field. In order to improve upon the current mass record, it is necessary to move into the nano-particle regime. In this paper we provide a design for a nano-particle Talbot-Lau matter-wave interferometer that circumvents the practical challenges of previously proposed designs. We present simulations of the expected fringe patterns that such an interferometer would produce, considering all major sources of decoherence. We discuss the practical challenges involved in building such an experiment as well as some preliminary experimental results to illustrate the proposed measurement scheme. We show that such a design is suitable for seeing interference fringes with $10^6$amu SiO$_2$ particles, and that this design can be extended to even $10^8$amu particles by using flight times below the typical Talbot time of the system. | 翻訳日:2024-05-09 19:00:52 公開日:2024-05-08 |
# 生成的マルチモーダルモデルは文脈学習者である
Generative Multimodal Models are In-Context Learners ( http://arxiv.org/abs/2312.13286v2 ) ライセンス: Link先を確認 | Quan Sun, Yufeng Cui, Xiaosong Zhang, Fan Zhang, Qiying Yu, Zhengxiong Luo, Yueze Wang, Yongming Rao, Jingjing Liu, Tiejun Huang, Xinlong Wang, | (参考訳) 文脈において容易にマルチモーダルタスクを解く能力(デモや簡単な指示しか持たない)は、現在のマルチモーダルシステムは模倣に苦戦している。
本研究では,大規模マルチモーダルモデルのタスク非依存型インコンテキスト学習能力が,効率的なスケールアップによって大幅に向上できることを実証する。
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介する。
Emu2は、ビジュアルプロンプトやオブジェクトグラウンドドジェネレーションのような、オンザフライ推論を必要とするタスクを解決するために出現する、強いマルチモーダルなインコンテキスト学習能力を示す。
このモデルは、複数のマルチモーダル理解タスクに、数ショット設定で新しいレコードを設定する。
命令が特定の命令に従うように調整された場合、Emu2はさらに、大規模なマルチモーダルモデルの質問応答ベンチマークや、オープンな対象駆動生成といった課題に対して、新しい最先端のタスクを達成している。
これらの成果は、Emu2が幅広いマルチモーダルタスクのベースモデルおよび汎用インターフェースとして機能できることを実証している。
コードとモデルは、将来の研究を促進するために公開されている。
The human ability to easily solve multimodal tasks in context (i.e., with only a few demonstrations or simple instructions), is what current multimodal systems have largely struggled to imitate. In this work, we demonstrate that the task-agnostic in-context learning capabilities of large multimodal models can be significantly enhanced by effective scaling-up. We introduce Emu2, a generative multimodal model with 37 billion parameters, trained on large-scale multimodal sequences with a unified autoregressive objective. Emu2 exhibits strong multimodal in-context learning abilities, even emerging to solve tasks that require on-the-fly reasoning, such as visual prompting and object-grounded generation. The model sets a new record on multiple multimodal understanding tasks in few-shot settings. When instruction-tuned to follow specific instructions, Emu2 further achieves new state-of-the-art on challenging tasks such as question answering benchmarks for large multimodal models and open-ended subject-driven generation. These achievements demonstrate that Emu2 can serve as a base model and general-purpose interface for a wide range of multimodal tasks. Code and models are publicly available to facilitate future research. | 翻訳日:2024-05-09 18:50:56 公開日:2024-05-08 |
# マルチエージェントパス探索のためのスケーラブルなメカニズム設計
Scalable Mechanism Design for Multi-Agent Path Finding ( http://arxiv.org/abs/2401.17044v2 ) ライセンス: Link先を確認 | Paul Friedrich, Yulun Zhang, Michael Curry, Ludwig Dierks, Stephen McAleer, Jiaoyang Li, Tuomas Sandholm, Sven Seuken, | (参考訳) MAPF (Multi-Agent Path Finding) は、複数のエージェントが同時に移動し、与えられた目標地点に向かって共有領域を通って衝突しない経路を決定する。
この問題は計算的に複雑であり、特に多数のエージェントを扱う場合、自動運転車の協調のような現実的な応用でよく見られる。
最適解を見つけることは、しばしば計算不可能であり、近似的な準最適アルゴリズムを用いることが不可欠である。
複雑化に加え、エージェントは自己関心と戦略的な方法で行動し、それが利益をもたらすならばMAPFアルゴリズムの目標を誤って表現する可能性がある。
メカニズム設計の分野はインセンティブを調整するためのツールを提供しているが、注意深い考慮なしにこれらのツールを使用することは、ほぼ最適な結果にしかアクセスできない場合に失敗する可能性がある。
本稿では、MAPFのスケーラブルな機構設計の問題を紹介し、MAPFアルゴリズムを近似した3つの戦略防御機構を提案する。
我々は,現実的なMAPFドメイン上で,数十から数百のエージェントにまたがる問題の大きさのメカニズムを検証した。
彼らは単純な基準を超えて福祉を改善することに気付きました。
Multi-Agent Path Finding (MAPF) involves determining paths for multiple agents to travel simultaneously and collision-free through a shared area toward given goal locations. This problem is computationally complex, especially when dealing with large numbers of agents, as is common in realistic applications like autonomous vehicle coordination. Finding an optimal solution is often computationally infeasible, making the use of approximate, suboptimal algorithms essential. Adding to the complexity, agents might act in a self-interested and strategic way, possibly misrepresenting their goals to the MAPF algorithm if it benefits them. Although the field of mechanism design offers tools to align incentives, using these tools without careful consideration can fail when only having access to approximately optimal outcomes. In this work, we introduce the problem of scalable mechanism design for MAPF and propose three strategyproof mechanisms, two of which even use approximate MAPF algorithms. We test our mechanisms on realistic MAPF domains with problem sizes ranging from dozens to hundreds of agents. We find that they improve welfare beyond a simple baseline. | 翻訳日:2024-05-09 18:50:56 公開日:2024-05-08 |
# VRMM: ボリューム・リライナブルな定型ヘッドモデル
VRMM: A Volumetric Relightable Morphable Head Model ( http://arxiv.org/abs/2402.04101v2 ) ライセンス: Link先を確認 | Haotian Yang, Mingwu Zheng, Chongyang Ma, Yu-Kun Lai, Pengfei Wan, Haibin Huang, | (参考訳) 本稿では,3次元顔モデリングに先立って,新しい容積・パラメトリック顔モデルであるVRMMを紹介する。
最近のボリューム事前モデルは、3Dモーフブルモデル(3DMM)のような従来の手法よりも改善されているが、モデル学習やパーソナライズされた再構築では課題に直面している。
私たちのVRMMは、アイデンティティ、表現、照明の潜在空間を、低次元の表現に効率的に切り離し、エンコードする新しいトレーニングフレームワークを使用することで、これらを克服しています。
このフレームワークは、自己教師型学習で設計されており、データトレーニングの制約を著しく減らし、実際はより実現可能である。
学習したVRMMは、リライト機能を提供し、包括的な表現範囲を含んでいる。
我々は,アバター生成,顔の再構成,アニメーションなどの様々な応用を通して,VRMMの汎用性と有効性を示す。
さらに,VRMMをベースとした新規な保存型パーソナライゼーションフレームワークにより,生成ボリュームモデルにおけるオーバーフィッティングの問題に対処する。
このようなアプローチは、1枚のポートレート入力から高品質な3D顔の再構成を可能にする。
実験では,VRMMが3次元顔モデリングの分野を大幅に強化する可能性を示した。
In this paper, we introduce the Volumetric Relightable Morphable Model (VRMM), a novel volumetric and parametric facial prior for 3D face modeling. While recent volumetric prior models offer improvements over traditional methods like 3D Morphable Models (3DMMs), they face challenges in model learning and personalized reconstructions. Our VRMM overcomes these by employing a novel training framework that efficiently disentangles and encodes latent spaces of identity, expression, and lighting into low-dimensional representations. This framework, designed with self-supervised learning, significantly reduces the constraints for training data, making it more feasible in practice. The learned VRMM offers relighting capabilities and encompasses a comprehensive range of expressions. We demonstrate the versatility and effectiveness of VRMM through various applications like avatar generation, facial reconstruction, and animation. Additionally, we address the common issue of overfitting in generative volumetric models with a novel prior-preserving personalization framework based on VRMM. Such an approach enables high-quality 3D face reconstruction from even a single portrait input. Our experiments showcase the potential of VRMM to significantly enhance the field of 3D face modeling. | 翻訳日:2024-05-09 18:50:56 公開日:2024-05-08 |
# FAQ-Gen:コンテンツ理解を支援するドメイン固有FAQの自動生成システム
FAQ-Gen: An automated system to generate domain-specific FAQs to aid content comprehension ( http://arxiv.org/abs/2402.05812v2 ) ライセンス: Link先を確認 | Sahil Kale, Gautam Khaire, Jay Patankar, | (参考訳) 頻繁に質問される質問(FAQ)は、特定のコンテンツに関する最も一般的な質問を指す。
トピックを単純化し、情報を簡潔に提示することで理解を強化することで、コンテンツ理解支援として機能する。
本稿では,テキストからテキストへの変換モデルを利用したエンドツーエンドシステムの開発を通じて,FAQ生成を自然言語処理タスクとして扱う。
本稿では,従来の質問応答システムに関する文献レビューを行い,FAQ生成タスクに直接適用した場合の限界を明らかにする。
本稿では,特定のドメインに適したテキストコンテンツからFAQを作成でき,その精度と妥当性を高めるシステムを提案する。
我々は自己計算アルゴリズムを用いて、入力として提供される情報の最適な表現を得るとともに、質問と回答のペアをランク付けし、人間の理解を最大化する。
定性的な人間による評価では、生成されたFAQがよく構築され可読でありながら、ドメイン固有の構造を活用して、元のコンテンツにおけるドメインベースのニュアンスとジャーゴンを強調している。
Frequently Asked Questions (FAQs) refer to the most common inquiries about specific content. They serve as content comprehension aids by simplifying topics and enhancing understanding through succinct presentation of information. In this paper, we address FAQ generation as a well-defined Natural Language Processing task through the development of an end-to-end system leveraging text-to-text transformation models. We present a literature review covering traditional question-answering systems, highlighting their limitations when applied directly to the FAQ generation task. We propose a system capable of building FAQs from textual content tailored to specific domains, enhancing their accuracy and relevance. We utilise self-curated algorithms to obtain an optimal representation of information to be provided as input and also to rank the question-answer pairs to maximise human comprehension. Qualitative human evaluation showcases the generated FAQs as well-constructed and readable while also utilising domain-specific constructs to highlight domain-based nuances and jargon in the original content. | 翻訳日:2024-05-09 18:50:56 公開日:2024-05-08 |
# 微細粒状メッセージ駆動システムにおける高精細グラフ処理のためのライズームと拡散
Rhizomes and Diffusions for Processing Highly Skewed Graphs on Fine-Grain Message-Driven Systems ( http://arxiv.org/abs/2402.06086v2 ) ライセンス: Link先を確認 | Bibrak Qamar Chandio, Prateek Srivastava, Maciej Brodowicz, Martin Swany, Thomas Sterling, | (参考訳) 論文は統一された共同設計を提供する
1) 実行時に頂点データからタスクを生成できるプログラミングおよび実行モデル。
2) ローカル制御オブジェクト(LCO)の並列表現性を組み合わせて非同期グラフ処理プリミティブを実装する。
Rhizomesという概念を使って、多くのコアにまたがる頂点オブジェクトのアウト・アンド・イン・ディグリー・ロードを並列化し、同時に、頂点オブジェクトに単一のプログラミング抽象化を提供する。
データ構造は、頂点の外側の負荷と内側の負荷とを階層的に並列化する。
リゾムは内部で通信し、イベント駆動同期機構を使用して一貫性を維持し、頂点の統一された正しいビューを提供する。
シミュレーション実験の結果,高い歪度分布を有する入力グラフデータセットにおいて,BFS,SSSP,Page Rankのチップサイズに対する性能向上が認められた。
改善は、 \textit{actions} という形で細粒の動的コンピューティングタスクを表現および生成する機能、ランタイムシステムがタスクを最適にスケジュールするために使用するコードを生成するための言語構造、メモリ処理要素間の計算ワークロード内と外の両方を共有するデータ構造から来ている。
The paper provides a unified co-design of 1) a programming and execution model that allows spawning tasks from within the vertex data at runtime, 2) language constructs for \textit{actions} that send work to where the data resides, combining parallel expressiveness of local control objects (LCOs) to implement asynchronous graph processing primitives, 3) and an innovative vertex-centric data-structure, using the concept of Rhizomes, that parallelizes both the out and in-degree load of vertex objects across many cores and yet provides a single programming abstraction to the vertex objects. The data structure hierarchically parallelizes the out-degree load of vertices and the in-degree load laterally. The rhizomes internally communicate and remain consistent, using event-driven synchronization mechanisms, to provide a unified and correct view of the vertex. Simulated experimental results show performance gains for BFS, SSSP, and Page Rank on large chip sizes for the tested input graph datasets containing highly skewed degree distribution. The improvements come from the ability to express and create fine-grain dynamic computing task in the form of \textit{actions}, language constructs that aid the compiler to generate code that the runtime system uses to optimally schedule tasks, and the data structure that shares both in and out-degree compute workload among memory-processing elements. | 翻訳日:2024-05-09 18:50:56 公開日:2024-05-08 |
# LLMとヒューマン・コンディション
LLMs and the Human Condition ( http://arxiv.org/abs/2402.08403v4 ) ライセンス: Link先を確認 | Peter Wallis, | (参考訳) 理論に基づくAI研究は最近難しかったが、この研究の目的は、LLMが言語スキルを印象づけるときに実際に何をしているのかをモデルにすることである。
このモデルは、哲学、社会学、コンピュータ科学から、人間の意思決定に関する確立した3つの理論を統合する。
この論文は、AI研究の初期からの推論の集合的理解から始まります。
その後、多くの哲学者や、多くの現代のAI研究者によって取られた位置である「反応性システム」として一般的に考えられているものについて記述する。
提案モデルの第3の構成要素は社会学からであり、現代のエゴに不平を言ってはいないが、長年にわたって会話型ユーザインタフェースに取り組んでいる私たちを占有してきたというパズルを解き明かしている。
Theory based AI research has had a hard time recently and the aim here is to propose a model of what LLMs are actually doing when they impress us with their language skills. The model integrates three established theories of human decision-making from philosophy, sociology, and computer science. The paper starts with the collective understanding of reasoning from the early days of AI research - primarily because that model is how we humans think we think, and is the most accessible. It then describes what is commonly thought of as "reactive systems" which is the position taken by many philosophers and indeed many contemporary AI researchers. The third component to the proposed model is from sociology and, although not flattering to our modern ego, provides an explanation to a puzzle that for many years has occupied those of us working on conversational user interfaces. | 翻訳日:2024-05-09 18:50:56 公開日:2024-05-08 |
# 非対称リワードを用いたモデルベース強化学習のためのダイナミクスの爆発的対称性
Exploiting Symmetry in Dynamics for Model-Based Reinforcement Learning with Asymmetric Rewards ( http://arxiv.org/abs/2403.19024v2 ) ライセンス: Link先を確認 | Yasin Sonmez, Neelay Junnarkar, Murat Arcak, | (参考訳) 強化学習における最近の研究は、政策を訓練する際のサンプル効率を改善するためにモデル内の対称性を活用している。
一般的に用いられる単純化仮定は、力学と報酬の両方が同じ対称性を示すというものである。
しかし、多くの実世界の環境では、力学モデルは報酬モデルとは無関係に対称性を示す。
本稿では,対称性の応用が可能な制御理論における強化学習や学習における問題の範囲を拡大し,対称性のみを仮定するシナリオについて検討する。
カルタンの移動フレーム法を用いて力学を学習する手法を導入する。
数値実験により,提案手法がより正確な力学モデルを学習できることを実証する。
Recent work in reinforcement learning has leveraged symmetries in the model to improve sample efficiency in training a policy. A commonly used simplifying assumption is that the dynamics and reward both exhibit the same symmetry. However, in many real-world environments, the dynamical model exhibits symmetry independent of the reward model: the reward may not satisfy the same symmetries as the dynamics. In this paper, we investigate scenarios where only the dynamics are assumed to exhibit symmetry, extending the scope of problems in reinforcement learning and learning in control theory where symmetry techniques can be applied. We use Cartan's moving frame method to introduce a technique for learning dynamics which, by construction, exhibit specified symmetries. We demonstrate through numerical experiments that the proposed method learns a more accurate dynamical model. | 翻訳日:2024-05-09 18:50:56 公開日:2024-05-08 |
# クロスドキュメントイベント参照解決のためのライナリー中心の対実データ拡張手法
A Rationale-centric Counterfactual Data Augmentation Method for Cross-Document Event Coreference Resolution ( http://arxiv.org/abs/2404.01921v2 ) ライセンス: Link先を確認 | Bowen Ding, Qingkai Min, Shengkun Ma, Yingjie Li, Linyi Yang, Yue Zhang, | (参考訳) 事前訓練された言語モデル(PLM)に基づいて、イベントコア参照解決(ECR)システムは、文書間でコアイベントをクラスタリングする際、顕著なパフォーマンスを示した。
しかし,既存のシステムでは,入力参照ペアテキストの「トリガー語彙マッチング」パターンに過度に依存している。
本研究では, 構造因果モデル(Structure Causal Model, SCM)を用いて, ベースラインECRシステムの意思決定過程を定式化し, ECRタスク内での突発的・因果的関連(理性)の同定を目的とする。
LLM-in-the-loop を用いた有理中心の反実データ拡張法を開発した。
本手法は, 因果関係の緩和を図り, 因果関係を強調しつつ, 引き金や文脈の直接的介入を行うECRシステムにおいて, ペア入力に特化している。
提案手法は,3つのクロスドキュメント ECR ベンチマークの最先端性能を実現し,ドメイン外シナリオの堅牢性を実証する。
Based on Pre-trained Language Models (PLMs), event coreference resolution (ECR) systems have demonstrated outstanding performance in clustering coreferential events across documents. However, the existing system exhibits an excessive reliance on the `triggers lexical matching' spurious pattern in the input mention pair text. We formalize the decision-making process of the baseline ECR system using a Structural Causal Model (SCM), aiming to identify spurious and causal associations (i.e., rationales) within the ECR task. Leveraging the debiasing capability of counterfactual data augmentation, we develop a rationale-centric counterfactual data augmentation method with LLM-in-the-loop. This method is specialized for pairwise input in the ECR system, where we conduct direct interventions on triggers and context to mitigate the spurious association while emphasizing the causation. Our approach achieves state-of-the-art performance on three popular cross-document ECR benchmarks and demonstrates robustness in out-of-domain scenarios. | 翻訳日:2024-05-09 18:50:56 公開日:2024-05-08 |
# 漏洩計器による境界因果効果
Bounding Causal Effects with Leaky Instruments ( http://arxiv.org/abs/2404.04446v2 ) ライセンス: Link先を確認 | David S. Watson, Jordan Penn, Lee M. Gunderson, Gecia Bravo-Hermsdorff, Afsaneh Mastouri, Ricardo Silva, | (参考訳) 計器変数(IVs)は、観測されていないコンバウンディングの存在下で因果効果を推定するための人気で強力なツールである。
しかし、古典的なアプローチは$\textit{exclusion criterion}$のような強い仮定に頼っている。
この仮定は実際は失敗することが多い。
IV法が排他基準に満たないデータに不適切に適用された場合、推定因果効果はひどくバイアスを受ける可能性がある。
そこで本研究では,一組の$\textit{leaky instrument}$が与えられた線形系における$\textit{partial}$識別を提供する新しい解を提案する。
情報漏洩の共通な形態で平均処理効果を確実にシャープに制限する凸最適化目標を導出し,得られた推定の不確かさを定量化するための推論手順を実装した。
提案手法をシミュレーションデータを用いた実験で実証し, 現状に対して良好に動作することを示す。
付随する $\texttt{R}$ package, $\texttt{leakyIV}$ は $\texttt{CRAN}$ から入手できる。
Instrumental variables (IVs) are a popular and powerful tool for estimating causal effects in the presence of unobserved confounding. However, classical approaches rely on strong assumptions such as the $\textit{exclusion criterion}$, which states that instrumental effects must be entirely mediated by treatments. This assumption often fails in practice. When IV methods are improperly applied to data that do not meet the exclusion criterion, estimated causal effects may be badly biased. In this work, we propose a novel solution that provides $\textit{partial}$ identification in linear systems given a set of $\textit{leaky instruments}$, which are allowed to violate the exclusion criterion to some limited degree. We derive a convex optimization objective that provides provably sharp bounds on the average treatment effect under some common forms of information leakage, and implement inference procedures to quantify the uncertainty of resulting estimates. We demonstrate our method in a set of experiments with simulated data, where it performs favorably against the state of the art. An accompanying $\texttt{R}$ package, $\texttt{leakyIV}$, is available from $\texttt{CRAN}$. | 翻訳日:2024-05-09 18:50:56 公開日:2024-05-08 |
# ファウショット名前付きエンティティ認識のための統一ラベル認識コントラスト学習フレームワーク
A Unified Label-Aware Contrastive Learning Framework for Few-Shot Named Entity Recognition ( http://arxiv.org/abs/2404.17178v2 ) ライセンス: Link先を確認 | Haojie Zhang, Yimeng Zhuang, | (参考訳) 名前付きエンティティ認識(NER)は、ラベル付きサンプルの限られた数だけを使用して名前付きエンティティを抽出することを目的としている。
既存のコントラスト学習手法は、ラベルのセマンティクスのみに依存しているか、完全に無視しているため、文脈ベクトル表現の区別が不十分な場合が多い。
この問題に対処するために,ラベルを意識したトークンレベルのコントラスト学習フレームワークを提案する。
提案手法は,ラベルのセマンティクスを接尾辞のプロンプトとして活用することでコンテキストを豊かにする。
さらに、コンテキストコンテキストと文脈ラベルの対比学習目標を同時に最適化し、一般化された識別的文脈表現を強化するとともに、様々な従来のテスト領域(OntoNotes, CoNLL'03, WNUT'17, GUM, I2B2)と大規模数ショットNERデータセット(FEWNERD)による実験により、我々のアプローチの有効性を実証した。
従来の最先端モデルよりも大幅に優れており、ほとんどのシナリオで平均7%のマイクロF1スコアを達成している。
さらなる分析により、我々のモデルは、その強力な転送能力と文脈表現の改善から恩恵を受けていることが明らかとなった。
Few-shot Named Entity Recognition (NER) aims to extract named entities using only a limited number of labeled examples. Existing contrastive learning methods often suffer from insufficient distinguishability in context vector representation because they either solely rely on label semantics or completely disregard them. To tackle this issue, we propose a unified label-aware token-level contrastive learning framework. Our approach enriches the context by utilizing label semantics as suffix prompts. Additionally, it simultaneously optimizes context-context and context-label contrastive learning objectives to enhance generalized discriminative contextual representations.Extensive experiments on various traditional test domains (OntoNotes, CoNLL'03, WNUT'17, GUM, I2B2) and the large-scale few-shot NER dataset (FEWNERD) demonstrate the effectiveness of our approach. It outperforms prior state-of-the-art models by a significant margin, achieving an average absolute gain of 7% in micro F1 scores across most scenarios. Further analysis reveals that our model benefits from its powerful transfer capability and improved contextual representations. | 翻訳日:2024-05-09 18:50:56 公開日:2024-05-08 |
# 複数意図差分に基づく逐次推薦のコントラスト学習法
Contrastive Learning Method for Sequential Recommendation based on Multi-Intention Disentanglement ( http://arxiv.org/abs/2404.18214v2 ) ライセンス: Link先を確認 | Zeyu Hu, Yuzhi Xiao, Tao Huang, Xuanrong Huo, | (参考訳) シークエンシャルレコメンデーション(Sequential Recommation)は,ユーザの順序付けられた過去の対話行動の分析と予測を通じて,パーソナライズされた推奨項目を将来に向けて達成することを目的とした,レコメンデーションシステムの重要な分野の1つである。
しかし,ユーザ数の増加と行動情報の増加に伴い,対話型マルチインテンションを効果的に理解・混乱させる方法が,行動予測やシーケンシャルレコメンデーションに課題を生じさせる。
これらの課題を踏まえ,MIDCL(Multi-Intention Disentanglement)に基づくコントラスト学習シーケンシャルレコメンデーション手法を提案する。
私たちの作業では、意図は動的で多様なものとして認識され、ユーザ行動は、しばしば現在のマルチインテンションによって駆動される。
そこで我々は,ユーザのマルチインテントのゆがみを実現するために,変分自動エンコーダ(VAE)を選択する。
本稿では,最も関連性の高いユーザの対話的意図の探索と,正のサンプル対の相互情報の最大化のための2種類のコントラスト学習パラダイムを提案する。
実験の結果,MDDCLは既存のベースライン法よりも有意な優位性を持つだけでなく,意図に基づく予測と推奨に関する研究に,より解釈可能なケースをもたらすことが明らかとなった。
Sequential recommendation is one of the important branches of recommender system, aiming to achieve personalized recommended items for the future through the analysis and prediction of users' ordered historical interactive behaviors. However, along with the growth of the user volume and the increasingly rich behavioral information, how to understand and disentangle the user's interactive multi-intention effectively also poses challenges to behavior prediction and sequential recommendation. In light of these challenges, we propose a Contrastive Learning sequential recommendation method based on Multi-Intention Disentanglement (MIDCL). In our work, intentions are recognized as dynamic and diverse, and user behaviors are often driven by current multi-intentions, which means that the model needs to not only mine the most relevant implicit intention for each user, but also impair the influence from irrelevant intentions. Therefore, we choose Variational Auto-Encoder (VAE) to realize the disentanglement of users' multi-intentions. We propose two types of contrastive learning paradigms for finding the most relevant user's interactive intention, and maximizing the mutual information of positive sample pairs, respectively. Experimental results show that MIDCL not only has significant superiority over most existing baseline methods, but also brings a more interpretable case to the research about intention-based prediction and recommendation. | 翻訳日:2024-05-09 18:50:56 公開日:2024-05-08 |
# Espresso: テキスト・画像モデルにおけるロバストな概念フィルタリング
Espresso: Robust Concept Filtering in Text-to-Image Models ( http://arxiv.org/abs/2404.19227v3 ) ライセンス: Link先を確認 | Anudeep Das, Vasisht Duddu, Rui Zhang, N. Asokan, | (参考訳) 拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、与えられたテキスト・プロンプトに対して高忠実な画像を生成する。
それらはインターネットから取り除かれた大規模なデータセットでトレーニングされており、受け入れがたい概念(著作権侵害や安全でない)を含んでいる可能性がある。
トレーニングデータにおける受け入れ難い概念をフィルタリングした後のT2Iモデルのリトレーニングは非効率であり、実用性は低下する。
したがって、許容できない概念を排除し、許容可能な概念を有効に保存し、敵のプロンプトによる回避に対して堅牢な概念除去技術(CRT)が必要である。
以前のフィルタリングと微調整のCRTはいずれもこれらの要件を同時に満たしていない。
本稿では,Contrastive Language-Image Pre-Training (CLIP) に基づく最初のロバストな概念フィルタであるEspressoを紹介する。
これは、生成した画像の埋め込みを、ジョイントテキストイメージの埋め込み空間における受け入れがたい概念と許容できる概念を接続するベクトルに投影することで、受け入れがたい概念を識別する。
これにより、許容される概念の方向において、このベクトルに沿ってのみノイズを追加する敵を制限することによって、堅牢性を保証する。
さらに微調整されたエスプレッソは、許容可能な概念と許容できない概念の埋め込みを分離すると同時に、イメージ埋め込みとのペアリングを保ち、有効性と有用性の両方を保証する。
Espressoを11種類の概念で評価し,有効性(許容できない概念に対するCLIPの精度〜5%),実用性(許容可能な概念に対するCLIPの正常化スコア~93%),堅牢性(許容できない概念に対する敵対的プロンプトに対するCLIPの精度〜4%)を示す。
最後に,Espressoの対向的プロンプトに対するロバスト性に関する理論的境界,および経験的解析について述べる。
Diffusion-based text-to-image (T2I) models generate high-fidelity images for given textual prompts. They are trained on large datasets scraped from the Internet, potentially containing unacceptable concepts (e.g., copyright infringing or unsafe). Retraining T2I models after filtering out unacceptable concepts in the training data is inefficient and degrades utility. Hence, there is a need for concept removal techniques (CRTs) which are effective in removing unacceptable concepts, utility-preserving on acceptable concepts, and robust against evasion with adversarial prompts. None of the prior filtering and fine-tuning CRTs satisfy all these requirements simultaneously. We introduce Espresso, the first robust concept filter based on Contrastive Language-Image Pre-Training (CLIP). It identifies unacceptable concepts by projecting the generated image's embedding onto the vector connecting unacceptable and acceptable concepts in the joint text-image embedding space. This ensures robustness by restricting the adversary to adding noise only along this vector, in the direction of the acceptable concept. Further fine-tuning Espresso to separate embeddings of acceptable and unacceptable concepts, while preserving their pairing with image embeddings, ensures both effectiveness and utility. We evaluate Espresso on eleven concepts to show that it is effective (~5% CLIP accuracy on unacceptable concepts), utility-preserving (~93% normalized CLIP score on acceptable concepts), and robust (~4% CLIP accuracy on adversarial prompts for unacceptable concepts). Finally, we present theoretical bounds for the certified robustness of Espresso against adversarial prompts, and an empirical analysis. | 翻訳日:2024-05-09 18:41:08 公開日:2024-05-08 |
# グラフニューラルネットワークのための条件付き局所特徴符号化
Conditional Local Feature Encoding for Graph Neural Networks ( http://arxiv.org/abs/2405.04755v1 ) ライセンス: Link先を確認 | Yongze Wang, Haimin Zhang, Qiang Wu, Min Xu, | (参考訳) グラフニューラルネットワーク(GNN)は,グラフベースのデータから学ぶ上で大きな成功を収めている。
現在のGNNのキーとなるメカニズムはメッセージパッシングであり、ノードの機能は、その近隣から渡される情報に基づいて更新される。
このメカニズムの限界は、メッセージパッシングのラウンドが増えるにつれて、近隣から収集された情報によってノードの特徴がますます支配されるようになることである。
したがって、GNN層が深くなるにつれて、隣接ノードの特徴は類似する傾向にあり、GNNが隣接ノードを識別することが難しくなるため、GNNの性能が制限される。
本稿では,局所的特徴符号化(CLFE)を提案し,局所的な情報に支配されるノードの特徴の問題を防止する。
提案手法の考え方は,メッセージパッシングプロセスから隠れたノードを抽出し,前段のノード特徴と結合し,線形変換を利用して連結ベクトルに基づいてCLFEを形成することである。
CLFEはノード固有の情報をよりよく保存するためにレイヤ出力を形成するので、GNNモデルの性能を向上させるのに役立ちます。
提案手法の有効性を検証するため,超画素グラフ分類,ノード分類,リンク予測,グラフ回帰という4つのグラフ領域タスクに対して,7つのベンチマークデータセットについて広範な実験を行った。
実験結果から,本手法は4つのタスクすべてに対して,様々なベースラインGNNモデル間でモデル性能を向上することを示した。
Graph neural networks (GNNs) have shown great success in learning from graph-based data. The key mechanism of current GNNs is message passing, where a node's feature is updated based on the information passing from its local neighbourhood. A limitation of this mechanism is that node features become increasingly dominated by the information aggregated from the neighbourhood as we use more rounds of message passing. Consequently, as the GNN layers become deeper, adjacent node features tends to be similar, making it more difficult for GNNs to distinguish adjacent nodes, thereby, limiting the performance of GNNs. In this paper, we propose conditional local feature encoding (CLFE) to help prevent the problem of node features being dominated by the information from local neighbourhood. The idea of our method is to extract the node hidden state embedding from message passing process and concatenate it with the nodes feature from previous stage, then we utilise linear transformation to form a CLFE based on the concatenated vector. The CLFE will form the layer output to better preserve node-specific information, thus help to improve the performance of GNN models. To verify the feasibility of our method, we conducted extensive experiments on seven benchmark datasets for four graph domain tasks: super-pixel graph classification, node classification, link prediction, and graph regression. The experimental results consistently demonstrate that our method improves model performance across a variety of baseline GNN models for all four tasks. | 翻訳日:2024-05-09 18:41:08 公開日:2024-05-08 |
# トラベリングセールスマン問題に対するテストタイム強化
Test-Time Augmentation for Traveling Salesperson Problem ( http://arxiv.org/abs/2405.04767v1 ) ライセンス: Link先を確認 | Ryo Ishiyama, Takahiro Shirakawa, Seiichi Uchida, Shinnosuke Matsuo, | (参考訳) 本稿では,トラベリングセールスパーソン問題を含む組合せ最適化問題に対処する有効な手法として,テスト時間拡張(TTA)を提案する。
一般に、ノードの指標によらず出力が一意に決定される不変性を持つディープラーニングモデルは、グラフ構造を効率的に学習するために提案されている。
対照的に、距離行列の要素を交換するノードインデックスの置換を、TTAスキームとして解釈する。
その結果,本手法は最新のモデルよりも短い解が得られることがわかった。
さらに, 拡張サイズに応じて, 解が解に近づく確率が増加することを示す。
We propose Test-Time Augmentation (TTA) as an effective technique for addressing combinatorial optimization problems, including the Traveling Salesperson Problem. In general, deep learning models possessing the property of invariance, where the output is uniquely determined regardless of the node indices, have been proposed to learn graph structures efficiently. In contrast, we interpret the permutation of node indices, which exchanges the elements of the distance matrix, as a TTA scheme. The results demonstrate that our method is capable of obtaining shorter solutions than the latest models. Furthermore, we show that the probability of finding a solution closer to an exact solution increases depending on the augmentation size. | 翻訳日:2024-05-09 18:41:08 公開日:2024-05-08 |
# 変分シュレーディンガー拡散モデル
Variational Schrödinger Diffusion Models ( http://arxiv.org/abs/2405.04795v1 ) ライセンス: Link先を確認 | Wei Deng, Weijian Luo, Yixin Tan, Marin Biloš, Yu Chen, Yuriy Nevmyvaka, Ricky T. Q. Chen, | (参考訳) Schr\"odinger Bridge (SB) は拡散モデルにおける輸送計画の最適化手法として登場した。
しかし、SBは難解なフォワードスコア関数を推定する必要があるため、必然的にシミュレートされた軌道に基づいて、暗黙のトレーニング損失を発生させる。
効率的な輸送計画を維持しながらスケーラビリティを向上させるため,SBの前方スコア関数(変分スコア)を線形化し,後方スコアのトレーニングにおいてシミュレーション不要な特性を復元するために変分推論を利用する。
本稿では,多変量拡散過程と変分スコアを適応的に最適化し,効率的な輸送を実現するための変分Schr\"odinger拡散モデル(VSDM)を提案する。
理論的には、確率近似を用いて変動スコアの収束を証明し、最適な変動スコアに基づいて適応的に生成されたサンプルの収束を示す。
実験により, このアルゴリズムを模擬例で検証し, 異方性形状の世代でVSDMが有効であること, 単変量拡散よりもストレートな試料軌道が得られることを観察した。
また、実世界のデータにおけるアルゴリズムのスケーラビリティを検証するとともに、CIFAR10における競合的非条件生成性能と時系列モデリングにおける条件生成を実現する。
特に、VSDMはもはやウォームアップ初期化に依存しておらず、大規模な実験のトレーニングにおいてチューニングに親しみやすいものになっている。
Schr\"odinger bridge (SB) has emerged as the go-to method for optimizing transportation plans in diffusion models. However, SB requires estimating the intractable forward score functions, inevitably resulting in the costly implicit training loss based on simulated trajectories. To improve the scalability while preserving efficient transportation plans, we leverage variational inference to linearize the forward score functions (variational scores) of SB and restore simulation-free properties in training backward scores. We propose the variational Schr\"odinger diffusion model (VSDM), where the forward process is a multivariate diffusion and the variational scores are adaptively optimized for efficient transport. Theoretically, we use stochastic approximation to prove the convergence of the variational scores and show the convergence of the adaptively generated samples based on the optimal variational scores. Empirically, we test the algorithm in simulated examples and observe that VSDM is efficient in generations of anisotropic shapes and yields straighter sample trajectories compared to the single-variate diffusion. We also verify the scalability of the algorithm in real-world data and achieve competitive unconditional generation performance in CIFAR10 and conditional generation in time series modeling. Notably, VSDM no longer depends on warm-up initializations and has become tuning-friendly in training large-scale experiments. | 翻訳日:2024-05-09 18:41:08 公開日:2024-05-08 |
# 時間的・特徴的注意による生態的モメンタリーアセスメントデータのクラスタリング
Explaining Clustering of Ecological Momentary Assessment Data Through Temporal and Feature Attention ( http://arxiv.org/abs/2405.04854v1 ) ライセンス: Link先を確認 | Mandani Ntekouli, Gerasimos Spanakis, Lourens Waldorp, Anne Roefs, | (参考訳) エコロジー・モメンタリー・アセスメント (Ecological Momentary Assessment, EMA) 研究は、心理病理学に関連する変数(例えば、影響、行動など)について、リアルタイムに豊富な個人データを提供する。
EMAデータは動的に収集され、複雑な多変量時系列(MTS)として表される。
このような情報は、個人レベルとグループレベルの精神障害をよりよく理解するために不可欠である。
より具体的には、EMAデータ内の個人をクラスタ化することで、共通点の発見と研究、および集団内のグループの多様性が促進される。
それでもクラスタリングは教師なしのタスクであり、真のEMAグループ化は一般的には利用できないため、クラスタリングの評価は非常に難しい。
評価の重要な側面は、クラスタリングの説明可能性である。
そこで本稿では,クラスタを区別する上で重要な役割を担う重要な時間ポイントと変数を識別する,注目に基づく解釈可能なフレームワークを提案する。
この研究の重要な部分は、注意重みを分析し、要約し、解釈する方法を調べ、クラスタ間で区別されるデータの重要なセグメントの根底にあるパターンを評価することである。
提案手法を評価するため、3つのクラスタにグループ化された187人のEMAデータセットを用いて、抽出された注目に基づく重要属性を分析する。
より具体的には、この分析はクラスタレベル、機能レベル、個人レベルでの異なる特徴を提供します。
このようなクラスタリングの説明は、既存の精神障害の概念を一般化し、新しい洞察を発見し、個人のレベルでの知識を高めるのに役立つかもしれない。
In the field of psychopathology, Ecological Momentary Assessment (EMA) studies offer rich individual data on psychopathology-relevant variables (e.g., affect, behavior, etc) in real-time. EMA data is collected dynamically, represented as complex multivariate time series (MTS). Such information is crucial for a better understanding of mental disorders at the individual- and group-level. More specifically, clustering individuals in EMA data facilitates uncovering and studying the commonalities as well as variations of groups in the population. Nevertheless, since clustering is an unsupervised task and true EMA grouping is not commonly available, the evaluation of clustering is quite challenging. An important aspect of evaluation is clustering explainability. Thus, this paper proposes an attention-based interpretable framework to identify the important time-points and variables that play primary roles in distinguishing between clusters. A key part of this study is to examine ways to analyze, summarize, and interpret the attention weights as well as evaluate the patterns underlying the important segments of the data that differentiate across clusters. To evaluate the proposed approach, an EMA dataset of 187 individuals grouped in 3 clusters is used for analyzing the derived attention-based importance attributes. More specifically, this analysis provides the distinct characteristics at the cluster-, feature- and individual level. Such clustering explanations could be beneficial for generalizing existing concepts of mental disorders, discovering new insights, and even enhancing our knowledge at an individual level. | 翻訳日:2024-05-09 18:41:08 公開日:2024-05-08 |
# マルチスケールオーバーサンプリンググラフニューラルネットワークを用いた不均衡グラフ分類
Imbalanced Graph Classification with Multi-scale Oversampling Graph Neural Networks ( http://arxiv.org/abs/2405.04903v1 ) ライセンス: Link先を確認 | Rongrong Ma, Guansong Pang, Ling Chen, | (参考訳) 不均衡グラフ分類における大きな課題の1つは、表現不足(マイノリティ)クラスでグラフの表現的表現を学ぶことである。
オーバーサンプリングや非バランス学習損失関数といった既存の非バランス学習手法は、グラフ表現学習モデルがこの課題に対処できるように採用することができる。
しかしながら、これらの手法はグラフ表現を直接操作し、グラフとその相互作用内のリッチな識別情報を無視することが多い。
この問題に対処するために,複数スケールのグラフ(サブグラフ,グラフ,ペアワイズグラフ)から得られるグラフ内およびグラフ間セマンティクスに基づいて,表現力に富んだマイノリティグラフ表現を学習する,新しいマルチスケールオーバーサンプリンググラフニューラルネットワーク(MOSGNN)を導入する。
サブグラフレベル、グラフレベル、ペアワイズグラフの学習タスクを共同で最適化し、マイノリティグラフ内とマイノリティグラフ間の識別情報を学習する。
16個の不均衡グラフデータセットの大規模な実験により、MOSGNNが示される
i)5つの最先端モデルを著しく上回り、
二 異なる先進的不均衡学習損失関数を容易に接続でき、分類性能が著しく向上した総合的枠組みを提供すること。
One main challenge in imbalanced graph classification is to learn expressive representations of the graphs in under-represented (minority) classes. Existing generic imbalanced learning methods, such as oversampling and imbalanced learning loss functions, can be adopted for enabling graph representation learning models to cope with this challenge. However, these methods often directly operate on the graph representations, ignoring rich discriminative information within the graphs and their interactions. To tackle this issue, we introduce a novel multi-scale oversampling graph neural network (MOSGNN) that learns expressive minority graph representations based on intra- and inter-graph semantics resulting from oversampled graphs at multiple scales - subgraph, graph, and pairwise graphs. It achieves this by jointly optimizing subgraph-level, graph-level, and pairwise-graph learning tasks to learn the discriminative information embedded within and between the minority graphs. Extensive experiments on 16 imbalanced graph datasets show that MOSGNN i) significantly outperforms five state-of-the-art models, and ii) offers a generic framework, in which different advanced imbalanced learning loss functions can be easily plugged in and obtain significantly improved classification performance. | 翻訳日:2024-05-09 18:41:08 公開日:2024-05-08 |
# 強化学習(FIERL)による断層同定の促進
Fault Identification Enhancement with Reinforcement Learning (FIERL) ( http://arxiv.org/abs/2405.04938v1 ) ライセンス: Link先を確認 | Valentina Zaccaria, Davide Sartor, Simone Del Favero, Gian Antonio Susto, | (参考訳) 本稿では,PFD (Passive Fault Detection) と制御入力設計の2つの部分にタスクを明示的に分離することで,アクティブフォールト検出(AFD)の分野における新しいアプローチを提案する。
この定式化は非常に一般的であり、既存のAFD文献はこのレンズを通して見ることができる。
この分離を認識することで、PFD法を利用して、情報収集を最適化するために制御入力を設計し、利用可能な情報を効率的に活用するコンポーネントを提供することができる。
この研究の核となる貢献は、任意の受動検出器の性能を最適化するために制約強化学習(CRL)を用いて、このような制御戦略を設計するための一般的なシミュレーションベースのアプローチであるFIERLである。
制御ポリシーは受動的検出器の内部動作を知ることなく学習され、FIERLは広く適用できる。
しかし、効率的な受動的コンポーネントの設計と組み合わせると特に便利である。
多くのAFDアプローチとは異なり、FIERLは障害モードの連続セットのようなかなり複雑なシナリオを処理できる。
FIERLの有効性は、アクチュエータ故障診断のベンチマーク問題で検証され、FIERLはかなり堅牢であることが示され、トレーニング中に見えない断層力学に一般化できる。
This letter presents a novel approach in the field of Active Fault Detection (AFD), by explicitly separating the task into two parts: Passive Fault Detection (PFD) and control input design. This formulation is very general, and most existing AFD literature can be viewed through this lens. By recognizing this separation, PFD methods can be leveraged to provide components that make efficient use of the available information, while the control input is designed in order to optimize the gathering of information. The core contribution of this work is FIERL, a general simulation-based approach for the design of such control strategies, using Constrained Reinforcement Learning (CRL) to optimize the performance of arbitrary passive detectors. The control policy is learned without the need of knowing the passive detector inner workings, making FIERL broadly applicable. However, it is especially useful when paired with the design of an efficient passive component. Unlike most AFD approaches, FIERL can handle fairly complex scenarios such as continuous sets of fault modes. The effectiveness of FIERL is tested on a benchmark problem for actuator fault diagnosis, where FIERL is shown to be fairly robust, being able to generalize to fault dynamics not seen in training. | 翻訳日:2024-05-09 18:41:08 公開日:2024-05-08 |
# 時系列クラスタリングのためのコンクリートディエンスネットワーク
Concrete Dense Network for Long-Sequence Time Series Clustering ( http://arxiv.org/abs/2405.05015v1 ) ライセンス: Link先を確認 | Redemptor Jr Laceda Taloma, Patrizio Pisani, Danilo Comminiello, | (参考訳) 時系列クラスタリングは、時間的パターンを発見するためのデータ分析において基本である。
最近の進歩にもかかわらず、クラスタフレンドリな表現を学ぶことは、特に長く複雑な時系列では、依然として難しい。
深部時間クラスタリング手法は、標準k平均をニューラルネットワークのエンドツーエンドトレーニングに統合しようと試みてきたが、ハードクラスタ割り当ての非微分性によりサロゲート損失に陥り、準最適解が得られる。
また,現在最先端のRNNで使用されている自己回帰戦略は,時間的意味の欠如や,時間的順序や高い計算コストを捨てる注意の変動などにより,トランスフォーマーの有効性が低下していることが最近の研究で明らかになっている。
これらの観測結果を踏まえ、Gumbel-softmax再パラメータ化手法を用いてk-means目標を最適化できる長周期時系列クラスタリング問題(LSTC)のための新しい密集型オートエンコーダアーキテクチャであるLoSTerについて述べる。
多数のベンチマークデータセットと2つの実世界のアプリケーションに対する大規模な実験により、最先端のRNNとTransformerベースのディープクラスタリング手法に対するLoSTerの有効性が証明された。
Time series clustering is fundamental in data analysis for discovering temporal patterns. Despite recent advancements, learning cluster-friendly representations is still challenging, particularly with long and complex time series. Deep temporal clustering methods have been trying to integrate the canonical k-means into end-to-end training of neural networks but fall back on surrogate losses due to the non-differentiability of the hard cluster assignment, yielding sub-optimal solutions. In addition, the autoregressive strategy used in the state-of-the-art RNNs is subject to error accumulation and slow training, while recent research findings have revealed that Transformers are less effective due to time points lacking semantic meaning, to the permutation invariance of attention that discards the chronological order and high computation cost. In light of these observations, we present LoSTer which is a novel dense autoencoder architecture for the long-sequence time series clustering problem (LSTC) capable of optimizing the k-means objective via the Gumbel-softmax reparameterization trick and designed specifically for accurate and fast clustering of long time series. Extensive experiments on numerous benchmark datasets and two real-world applications prove the effectiveness of LoSTer over state-of-the-art RNNs and Transformer-based deep clustering methods. | 翻訳日:2024-05-09 18:41:08 公開日:2024-05-08 |
# $l_0$境界対向摂動に対するロバストモデルの効率的な訓練と評価に向けて
Towards Efficient Training and Evaluation of Robust Models against $l_0$ Bounded Adversarial Perturbations ( http://arxiv.org/abs/2405.05075v1 ) ライセンス: Link先を確認 | Xuyang Zhong, Yixiao Huang, Chen Liu, | (参考訳) この研究は、$l_0$ノルムで束縛されたスパース対向摂動を研究する。
そこで我々は,これらの摂動を効果的かつ効率的に生成するために,スパース-PGDと呼ばれるホワイトボックスPGDライクな攻撃法を提案する。
さらに,スパースPGDとブラックボックスアタックを組み合わせることで,モデルの強靭性を,より包括的かつ確実に評価する。
さらに,スパースPGDの効率性により,スパース摂動に対する頑健なモデル構築のための対角訓練を行うことができる。
大規模な実験により,提案手法は様々なシナリオにおいて高い性能を示すことが示された。
さらに重要なことは、他のロバストモデルと比較して、我々の敵対的に訓練されたモデルは、様々なスパース攻撃に対する最先端のロバスト性を示す。
コードはhttps://github.com/CityU-MLO/sPGD.comで入手できる。
This work studies sparse adversarial perturbations bounded by $l_0$ norm. We propose a white-box PGD-like attack method named sparse-PGD to effectively and efficiently generate such perturbations. Furthermore, we combine sparse-PGD with a black-box attack to comprehensively and more reliably evaluate the models' robustness against $l_0$ bounded adversarial perturbations. Moreover, the efficiency of sparse-PGD enables us to conduct adversarial training to build robust models against sparse perturbations. Extensive experiments demonstrate that our proposed attack algorithm exhibits strong performance in different scenarios. More importantly, compared with other robust models, our adversarially trained model demonstrates state-of-the-art robustness against various sparse attacks. Codes are available at https://github.com/CityU-MLO/sPGD. | 翻訳日:2024-05-09 18:41:08 公開日:2024-05-08 |
# カスタムグラディエント推定器はディフューズにおけるストレートスルー推定器である
Custom Gradient Estimators are Straight-Through Estimators in Disguise ( http://arxiv.org/abs/2405.05171v1 ) ライセンス: Link先を確認 | Matt Schoenbauer, Daniele Moro, Lukasz Lew, Andrew Howard, | (参考訳) 量子化を意識したトレーニングには根本的な課題が伴う: 丸めのような量子化関数の微分は、ほぼ至る所でゼロであり、他の場所では存在しない。
量子化関数の様々な微分可能近似がこの問題に対処するために提案されている。
本稿では,学習速度が十分に小さい場合,重み付け勾配推定器の大規模なクラスは,ストレート・スルー・スルー・スルー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・ス
具体的には、STEを交換し、SGDの重量初期化と学習率を調整した後、モデルは元の勾配推定器とほぼ同じように訓練する。
さらに、Adamのような適応学習率アルゴリズムでは、重み付け初期化や学習率を変更することなく、同じ結果が得られることを示す。
これらの結果は、MNISTデータセットでトレーニングされた小さな畳み込みモデルと、ImageNetでトレーニングされたResNet50モデルの両方に対して有効であることを示す。
Quantization-aware training comes with a fundamental challenge: the derivative of quantization functions such as rounding are zero almost everywhere and nonexistent elsewhere. Various differentiable approximations of quantization functions have been proposed to address this issue. In this paper, we prove that when the learning rate is sufficiently small, a large class of weight gradient estimators is equivalent with the straight through estimator (STE). Specifically, after swapping in the STE and adjusting both the weight initialization and the learning rate in SGD, the model will train in almost exactly the same way as it did with the original gradient estimator. Moreover, we show that for adaptive learning rate algorithms like Adam, the same result can be seen without any modifications to the weight initialization and learning rate. We experimentally show that these results hold for both a small convolutional model trained on the MNIST dataset and for a ResNet50 model trained on ImageNet. | 翻訳日:2024-05-09 18:41:08 公開日:2024-05-08 |
# DiskGNN: コア外のGNNトレーニングにおけるI/O効率とモデル精度
DiskGNN: Bridging I/O Efficiency and Model Accuracy for Out-of-Core GNN Training ( http://arxiv.org/abs/2405.05231v1 ) ライセンス: Link先を確認 | Renjie Liu, Yichuan Wang, Xiao Yan, Zhenkun Cai, Minjie Wang, Haitian Jiang, Bo Tang, Jinyang Li, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフデータに特化した機械学習モデルであり、多くのアプリケーションで広く利用されている。
CPUメモリを超える大きなグラフ上でGNNをトレーニングするために、いくつかのシステムはデータをディスクに格納し、コア外処理を実行する。
しかしながら、これらのシステムは、通常ディスクページよりも小さいノード特徴を読み込むときの読み出し増幅や、グラフを切断されたパーティションとして扱うことでモデルの精度の低下に悩まされる。
このギャップを埋めるため、モデル精度を損なうことなく高いI/O効率と高速トレーニングを実現するDiskGNNというシステムを構築した。
DiskGNNが使用している重要なテクニックはオフラインサンプリングであり、モデル計算からグラフサンプリングを分離するのに役立つ。
特に、事前にグラフサンプリングを行うことにより、DiskGNNはモデル計算によってアクセスされるノード特徴を取得し、そのような情報を用いて、対象ノード特徴をディスク上に連続的にパックし、読み出し増幅を回避する。
さらに、メモリ階層を完全に活用してノード機能をキャッシュし、ディスクアクセスを減らすための4レベル機能ストア、機能パックプロセスを高速化するためのバッチパッケージング、他の操作とディスクアクセスを重複させるパイプライントレーニングなどのデザインも採用されている。
我々はDikGNNとGinexとMariusGNNを比較した。
その結果、DiskGNNは最高のモデル精度を保ちながら、ベースラインを8倍高速化できることがわかった。
Graph neural networks (GNNs) are machine learning models specialized for graph data and widely used in many applications. To train GNNs on large graphs that exceed CPU memory, several systems store data on disk and conduct out-of-core processing. However, these systems suffer from either read amplification when reading node features that are usually smaller than a disk page or degraded model accuracy by treating the graph as disconnected partitions. To close this gap, we build a system called DiskGNN, which achieves high I/O efficiency and thus fast training without hurting model accuracy. The key technique used by DiskGNN is offline sampling, which helps decouple graph sampling from model computation. In particular, by conducting graph sampling beforehand, DiskGNN acquires the node features that will be accessed by model computation, and such information is utilized to pack the target node features contiguously on disk to avoid read amplification. Besides, \name{} also adopts designs including four-level feature store to fully utilize the memory hierarchy to cache node features and reduce disk access, batched packing to accelerate the feature packing process, and pipelined training to overlap disk access with other operations. We compare DiskGNN with Ginex and MariusGNN, which are state-of-the-art systems for out-of-core GNN training. The results show that DiskGNN can speed up the baselines by over 8x while matching their best model accuracy. | 翻訳日:2024-05-09 18:41:08 公開日:2024-05-08 |
# トレーニングの力:ニューラルネットワークのセットアップの違いがエネルギー需要に与える影響
The Power of Training: How Different Neural Network Setups Influence the Energy Demand ( http://arxiv.org/abs/2401.01851v3 ) ライセンス: Link先を確認 | Daniel Geißler, Bo Zhou, Mengxi Liu, Sungho Suh, Paul Lukowicz, | (参考訳) この研究は、機械学習のトレーニング体制と学習パラダイムのバリエーションがコンピューティングのエネルギー消費に与える影響、特にライフサイクルを意識したHPCハードウェアに与える影響のヒューリスティックな評価を提供する。
高性能ハードウェアにおけるデータ可用性とイノベーションの増大は、洗練されたモデルのトレーニングを促進する一方で、エネルギー消費と二酸化炭素排出に対する認識の薄れを助長する。
そこで本研究の目的は,バッチサイズを超える学習率から知識伝達に至るまで,一般的なトレーニングパラメータやプロセスのエネルギー的影響に対する意識を高めることである。
異なるハイパーパラメータ構成の複数のセットアップを3つの異なるハードウェアシステムで評価する。
その結果,同じモデルとハードウェアで同じ精度に到達しても,トレーニングハイパーパラメータは最適設定の5倍のエネルギーを消費することがわかった。
また,マルチタスク学習による知識の事前学習と共有を通じて,リサイクル知識を含む学習パラダイムの省エネ効果についても検討した。
This work offers a heuristic evaluation of the effects of variations in machine learning training regimes and learning paradigms on the energy consumption of computing, especially HPC hardware with a life-cycle aware perspective. While increasing data availability and innovation in high-performance hardware fuels the training of sophisticated models, it also fosters the fading perception of energy consumption and carbon emission. Therefore, the goal of this work is to raise awareness about the energy impact of general training parameters and processes, from learning rate over batch size to knowledge transfer. Multiple setups with different hyperparameter configurations are evaluated on three different hardware systems. Among many results, we have found out that even with the same model and hardware to reach the same accuracy, improperly set training hyperparameters consume up to 5 times the energy of the optimal setup. We also extensively examined the energy-saving benefits of learning paradigms including recycling knowledge through pretraining and sharing knowledge through multitask training. | 翻訳日:2024-05-09 18:31:11 公開日:2024-05-08 |
# 量子近似最適化アルゴリズムのためのエネルギー景観
Energy Landscapes for the Quantum Approximate Optimisation Algorithm ( http://arxiv.org/abs/2401.04784v2 ) ライセンス: Link先を確認 | Boy Choy, David J. Wales, | (参考訳) 変分量子アルゴリズム(VQA)は、現代の中間スケール量子(NISQ)時代のNPハード組合せ問題を解く大きな可能性を示している。
量子近似最適化アルゴリズム(QAOA)は、あるグラフの最大カット(Max-Cut)問題を、対応するトロッタ化アンサッツ内の$L$量子回路層を逐次実装することで解くアルゴリズムである。
回路深度の増加に伴う局所性ミニマの指数的増殖に起因するVQAsのコスト関数の探索は十分に文書化されている。
しかし, 回路深度がQAOA性能に及ぼす影響について, 正解であるMax-Cut法を求める研究は少ない。
ここでは,様々なグラフに対するQAOA ans\atzeのエネルギー景観を探索し,正しいMax-Cut解を求める上でのQAOA性能を分析するために,流域ホットなグローバルな最適化手法を用いる。
解空間の構造は、離散経路サンプリングを用いて、局所ミニマのデータベースを構築し、それらを接続する遷移状態を構築し、非接続性グラフを用いた洞察に富んだ可視化を提供する。
対応するランドスケープは一般的に単一のファンネル組織を持つため、Max-Cut ソリューションの確率がよい低いミニマを見つけることは比較的容易である。
アディアベート限界以下では、第2の局所最小値が大域最小値よりも高い解確率を与えることもある。
この重要な観察は、流域のグローバルな最適化から得られるミニマのコレクションに基づいて、QAOAのパフォーマンスを評価するためのより広範な指標を開発する動機となった。
そこで我々は,局所性ミニマから有用な解確率を解明するための期待しきい値を確立する。
Variational quantum algorithms (VQAs) have demonstrated considerable potential in solving NP-hard combinatorial problems in the contemporary near intermediate-scale quantum (NISQ) era. The quantum approximate optimisation algorithm (QAOA) is one such algorithm, used in solving the maximum cut (Max-Cut) problem for a given graph by successive implementation of $L$ quantum circuit layers within a corresponding Trotterised ansatz. The challenge of exploring the cost function of VQAs arising from an exponential proliferation of local minima with increasing circuit depth has been well-documented. However, fewer studies have investigated the impact of circuit depth on QAOA performance in finding the correct Max-Cut solution. Here, we employ basin-hopping global optimisation methods to navigate the energy landscapes for QAOA ans\"atze for various graphs, and analyse QAOA performance in finding the correct Max-Cut solution. The structure of the solution space is also investigated using discrete path sampling to build databases of local minima and the transition states that connect them, providing insightful visualisations using disconnectivity graphs. We find that the corresponding landscapes generally have a single funnel organisation, which makes it relatively straightforward to locate low-lying minima with good Max-Cut solution probabilities. In some cases below the adiabatic limit the second lowest local minimum may even yield a higher solution probability than the global minimum. This important observation has motivated us to develop broader metrics in evaluating QAOA performance, based on collections of minima obtained from basin-hopping global optimisation. Hence we establish expectation thresholds in elucidating useful solution probabilities from local minima, an approach that may provide significant gains in elucidating reasonable solution probabilities from local minima. | 翻訳日:2024-05-09 18:31:11 公開日:2024-05-08 |
# 強化メンバーシップ推論攻撃のための学習に基づく難易度校正
Learning-Based Difficulty Calibration for Enhanced Membership Inference Attacks ( http://arxiv.org/abs/2401.04929v2 ) ライセンス: Link先を確認 | Haonan Shi, Tu Ouyang, An Wang, | (参考訳) マシンラーニングモデル、特にディープニューラルネットワークは、現在、ヘルスケアからファイナンスまで、さまざまなアプリケーションの不可欠な部分です。
しかし、これらのモデルをトレーニングするために機密データを使用すると、プライバシとセキュリティに関する懸念が高まる。
トレーニングされたモデルがプライバシ保護であるかどうかを検証するために登場した方法の1つは、モデルのトレーニングデータセットに特定のデータポイントが含まれているかどうかを敵が判断することのできる、メンバーシップ推論攻撃(MIA)である。
文献では一連のMIAが提案されているが、低い偽陽性率(FPR)領域(0.01%〜1%)で高い真陽性率(TPR)を達成できるのはごくわずかである。
これは、MIAが現実世界の設定で実用的に有用であると考える上で重要な要素である。
本稿では,低FPRにおけるTPRを大幅に改善することを目的としたMIAに対する新しいアプローチを提案する。
本手法は,MIA(LDC-MIA)の学習難易度校正法であり,ニューラルネットワーク分類器を用いてデータ記録の硬度を特徴付ける。
実験の結果,LCD-MIAは,他の困難キャリブレーションに基づくMIAと比較して,低FPRでのTPRを最大4倍改善できることがわかった。
また、全データセットでAUC(Area Under ROC curve)が最も高い。
提案手法のコストは既存のMIAのほとんどに匹敵するが, 同等の性能を保ちながら, 最先端の手法であるLiRAよりも桁違いに効率的である。
Machine learning models, in particular deep neural networks, are currently an integral part of various applications, from healthcare to finance. However, using sensitive data to train these models raises concerns about privacy and security. One method that has emerged to verify if the trained models are privacy-preserving is Membership Inference Attacks (MIA), which allows adversaries to determine whether a specific data point was part of a model's training dataset. While a series of MIAs have been proposed in the literature, only a few can achieve high True Positive Rates (TPR) in the low False Positive Rate (FPR) region (0.01%~1%). This is a crucial factor to consider for an MIA to be practically useful in real-world settings. In this paper, we present a novel approach to MIA that is aimed at significantly improving TPR at low FPRs. Our method, named learning-based difficulty calibration for MIA(LDC-MIA), characterizes data records by their hardness levels using a neural network classifier to determine membership. The experiment results show that LDC-MIA can improve TPR at low FPR by up to 4x compared to the other difficulty calibration based MIAs. It also has the highest Area Under ROC curve (AUC) across all datasets. Our method's cost is comparable with most of the existing MIAs, but is orders of magnitude more efficient than one of the state-of-the-art methods, LiRA, while achieving similar performance. | 翻訳日:2024-05-09 18:31:11 公開日:2024-05-08 |
# パーソナルLLMエージェント:能力,効率,セキュリティに関する洞察と調査
Personal LLM Agents: Insights and Survey about the Capability, Efficiency and Security ( http://arxiv.org/abs/2401.05459v2 ) ライセンス: Link先を確認 | Yuanchun Li, Hao Wen, Weijun Wang, Xiangyu Li, Yizhen Yuan, Guohong Liu, Jiacheng Liu, Wenxing Xu, Xiang Wang, Yi Sun, Rui Kong, Yile Wang, Hanfei Geng, Jian Luan, Xuefeng Jin, Zilong Ye, Guanjing Xiong, Fan Zhang, Xiang Li, Mengwei Xu, Zhijun Li, Peng Li, Yang Liu, Ya-Qin Zhang, Yunxin Liu, | (参考訳) パーソナル・コンピューティング・デバイスが登場して以来、インテリジェント・パーソナル・アシスタント(IPAs)は、研究者やエンジニアが注力してきた重要な技術の一つであり、ユーザーが効率的に情報を取得し、タスクを実行するのを助け、よりインテリジェントで便利でリッチな対話体験を提供することを目指している。
スマートフォンとIoTの開発により、コンピューティングとセンサーデバイスはユビキタスになり、IPAの境界を大きく広げている。
しかし、ユーザ意図の理解、タスク計画、ツールの使用、個人データ管理などの機能が欠如しているため、既存のIPAは実用性やスケーラビリティに限界があります。
近年,大規模言語モデル(LLM)に代表される基盤モデルの出現は,IPAの開発に新たな機会をもたらしている。
強力な意味理解と推論能力により、LLMは知的エージェントが複雑な問題を自律的に解くことができる。
本稿では、個人データやパーソナルデバイスと深く統合され、個人支援に使用されるLLMエージェントであるPersonal LLM Agentsに焦点を当てる。
我々は、パーソナライズ LLM Agents が、今後エンドユーザーにとって主要なソフトウェアパラダイムになることを期待している。
このビジョンを実現するために、アーキテクチャ、能力、効率、セキュリティなど、パーソナライズLLMエージェントに関するいくつかの重要な疑問を議論する第一歩を踏み出した。
まず、Personal LLM Agentsのアーキテクチャにおける重要なコンポーネントと設計選択を要約し、続いてドメインの専門家が収集した意見を詳細に分析します。
次に、知的で効率的でセキュアなパーソナルLLMエージェントを実現するためのいくつかの重要な課題について論じ、続いてこれらの課題に対処する代表的ソリューションを包括的に調査する。
Since the advent of personal computing devices, intelligent personal assistants (IPAs) have been one of the key technologies that researchers and engineers have focused on, aiming to help users efficiently obtain information and execute tasks, and provide users with more intelligent, convenient, and rich interaction experiences. With the development of smartphones and IoT, computing and sensing devices have become ubiquitous, greatly expanding the boundaries of IPAs. However, due to the lack of capabilities such as user intent understanding, task planning, tool using, and personal data management etc., existing IPAs still have limited practicality and scalability. Recently, the emergence of foundation models, represented by large language models (LLMs), brings new opportunities for the development of IPAs. With the powerful semantic understanding and reasoning capabilities, LLM can enable intelligent agents to solve complex problems autonomously. In this paper, we focus on Personal LLM Agents, which are LLM-based agents that are deeply integrated with personal data and personal devices and used for personal assistance. We envision that Personal LLM Agents will become a major software paradigm for end-users in the upcoming era. To realize this vision, we take the first step to discuss several important questions about Personal LLM Agents, including their architecture, capability, efficiency and security. We start by summarizing the key components and design choices in the architecture of Personal LLM Agents, followed by an in-depth analysis of the opinions collected from domain experts. Next, we discuss several key challenges to achieve intelligent, efficient and secure Personal LLM Agents, followed by a comprehensive survey of representative solutions to address these challenges. | 翻訳日:2024-05-09 18:31:11 公開日:2024-05-08 |
# スタイル表現を用いた機械生成テキストのFew-Shot検出
Few-Shot Detection of Machine-Generated Text using Style Representations ( http://arxiv.org/abs/2401.06712v3 ) ライセンス: Link先を確認 | Rafael Rivera Soto, Kailin Koch, Aleem Khan, Barry Chen, Marcus Bishop, Nicholas Andrews, | (参考訳) 人間の文章を巧みに模倣する指導訓練言語モデルの出現は、乱用の大きなリスクをもたらす。
しかし、そのような悪用は、テキストが人間の著者ではなく言語モデルによって構成されているかどうかを検出する能力に反する可能性がある。
この問題に対する従来のアプローチは、確認された人文および機械文書のコーパスをトレーニングすることで、教師付き手法に依存してきた。
残念なことに、モデル過小評価は、ニューラルネットワークベースの検出器にとって避けられない課題となり、新しい言語モデルのリリースなど、データシフトに直面して不安定になる。
他のアプローチでは、問題のドキュメントを生成したかもしれないモデルにアクセスする必要があります。
これらの課題を踏まえて、トレーニング時に言語モデルの関心事のサンプルに頼らず、根本的に異なるアプローチを追求します。
そこで本研究では,人間によるテキストから推定される記述スタイルの表現を活用することを提案する。
実際,Llama-2やChatGPT,GPT-4といった最先端の大規模言語モデルを含む,人間と機械作家の区別に有効な特徴も見出した。
さらに、いくつかの特定の言語モデルによって構成された少数の例を考えると、我々の手法は、与えられた文書を生成するモデルを予測できる。
実験を再現するコードとデータはhttps://github.com/LLNL/LUAR/tree/main/fewshot_iclr2024で公開されている。
The advent of instruction-tuned language models that convincingly mimic human writing poses a significant risk of abuse. However, such abuse may be counteracted with the ability to detect whether a piece of text was composed by a language model rather than a human author. Some previous approaches to this problem have relied on supervised methods by training on corpora of confirmed human- and machine- written documents. Unfortunately, model under-specification poses an unavoidable challenge for neural network-based detectors, making them brittle in the face of data shifts, such as the release of newer language models producing still more fluent text than the models used to train the detectors. Other approaches require access to the models that may have generated a document in question, which is often impractical. In light of these challenges, we pursue a fundamentally different approach not relying on samples from language models of concern at training time. Instead, we propose to leverage representations of writing style estimated from human-authored text. Indeed, we find that features effective at distinguishing among human authors are also effective at distinguishing human from machine authors, including state-of-the-art large language models like Llama-2, ChatGPT, and GPT-4. Furthermore, given a handful of examples composed by each of several specific language models of interest, our approach affords the ability to predict which model generated a given document. The code and data to reproduce our experiments are available at https://github.com/LLNL/LUAR/tree/main/fewshot_iclr2024. | 翻訳日:2024-05-09 18:31:11 公開日:2024-05-08 |
# 単孔CaOH+分子イオンの光解離スペクトル
Photodissociation spectra of single trapped CaOH+ molecular ions ( http://arxiv.org/abs/2401.10854v2 ) ライセンス: Link先を確認 | Zhenlin Wu, Stefan Walser, Verena Podlesnic, Mariano Isaza-Monsalve, Elyas Mattivi, Guanqun Mu, René Nardi, Piotr Gniewek, Michał Tomza, Brandon J. Furey, Philipp Schindler, | (参考訳) 捕獲された原子イオンとの化学反応によって生成される分子イオンは、分子量子技術を開発するためのアクセス可能なテストベッドとして機能する。
一方で、バックグラウンドガスによる避けられない反応が情報担体を破壊するため、原子イオンをベースとした量子コンピュータのスケールアップにも障害となる。
そこで本研究では,フェムト秒レーザーを用いた単一$\text{CaOH}^+$分子イオンの単一および2光子解離過程について検討する。
単光子プロセスは$245 - 275$\,$nmで、2光子プロセスは$500 - 540$\,$nmで、光解離断面積スペクトルは$245 - 275$\,$nmである。
測定値は量子化学計算で解釈され、$\text{CaOH}^+\to \text{Ca}^++\text{OH}$ at 265$\,$nm の光解離閾値を予測する。
この結果は、$\text{CaOH}^+$ の内部構造を研究するための解離に基づく分光の基礎となる。
この結果は、バックグラウンド水蒸気の存在下で形成された、望ましくない$\text{CaOH}^+$の量子実験において、大規模に閉じ込められた$\text{Ca}^+$のイオンをリサイクルするための処方薬も与えている。
Molecular ions that are generated by chemical reactions with trapped atomic ions can serve as an accessible testbed for developing molecular quantum technologies. On the other hand, they are also a hindrance to scaling up quantum computers based on atomic ions as unavoidable reactions with background gas destroy the information carriers. Here, we investigate the single- and two-photon dissociation processes of single $\text{CaOH}^+$ molecular ions co-trapped in $\text{Ca}^+$ ion crystals using a femtosecond laser system. We report the photodissociation cross section spectra of $\text{CaOH}^+$ for single-photon processes at $\lambda=$245 - 275$\,$nm and for two-photon processes at $\lambda=$500 - 540$\,$nm. Measurements are interpreted with quantum-chemical calculations, which predict the photodissociation threshold for $\text{CaOH}^+\to \text{Ca}^++\text{OH}$ at 265$\,$nm. This result can serve as a basis for dissociation-based spectroscopy for studying the internal structure of $\text{CaOH}^+$. The result also gives a prescription for recycling $\text{Ca}^+$ ions in large-scale trapped $\text{Ca}^+$ quantum experiments from undesired $\text{CaOH}^+$ ions formed in the presence of background water vapor. | 翻訳日:2024-05-09 18:31:11 公開日:2024-05-08 |
# CIM-MLC: メモリ・イン・メモリ・アクセラレータのためのマルチレベルコンパイルスタック
CIM-MLC: A Multi-level Compilation Stack for Computing-In-Memory Accelerators ( http://arxiv.org/abs/2401.12428v2 ) ライセンス: Link先を確認 | Songyun Qu, Shixin Zhao, Bing Li, Yintao He, Xuyi Cai, Lei Zhang, Ying Wang, | (参考訳) 近年,コンピュータ・イン・メモリ(CIM)プロセッサが登場し,従来のアーキテクチャよりも優れた性能を示している。
デバイス精度,クロスバーサイズ,クロスバー数などの各種CIMアーキテクチャの可能性を解き放つためには,CIMアーキテクチャの詳細や実装の多様性を十分に把握したコンパイルツールを開発する必要がある。
しかし、現在の一般的なオープンソースコンパイルスタックのアーキテクチャサポートが不足しているため、既存のCIM設計では、手動でネットワークをデプロイするか、独自のコンパイラを構築している。
特定のCIMデバイスプログラミングインタフェースをコンパイラに公開する研究もあるが、それらはしばしば固定されたCIMアーキテクチャに縛られ、異なる計算粒度のCIMアーキテクチャをサポートする柔軟性に欠ける。
一方、既存のコンパイル作業は通常、クロスバーバウンド行列-ベクトル乗算のような)限られた操作型のスケジューリングを考慮に入れている。
従来のプロセッサとは異なり、CIMアクセラレータはアーキテクチャ、回路、デバイスによって特徴付けられており、CIMがもたらす利点を十分に探求しようとすると、単に1つのレベルで抽象化することはできない。
そこで本研究では,汎用CIMアーキテクチャのための汎用マルチレベルコンパイルフレームワークであるCIM-MLCを提案する。
まず,様々なCIMアクセラレータを表現するために,CIMアーキテクチャと計算モードの一般的なハードウェア抽象化を確立する。
提案された抽象化に基づいて、CIM-MLCはさまざまなデバイス、アーキテクチャ、プログラミングインターフェースを持つ幅広いCIMアクセラレーターにタスクをコンパイルすることができる。
さらに重要なことに、CIM-MLCは既存のコンパイル作業と比較して、複数のアーキテクチャ階層にわたるマッピングとスケジューリング戦略を探索することができる。
In recent years, various computing-in-memory (CIM) processors have been presented, showing superior performance over traditional architectures. To unleash the potential of various CIM architectures, such as device precision, crossbar size, and crossbar number, it is necessary to develop compilation tools that are fully aware of the CIM architectural details and implementation diversity. However, due to the lack of architectural support in current popular open-source compiling stacks, existing CIM designs either manually deploy networks or build their own compilers, which is time-consuming and labor-intensive. Although some works expose the specific CIM device programming interfaces to compilers, they are often bound to a fixed CIM architecture, lacking the flexibility to support the CIM architectures with different computing granularity. On the other hand, existing compilation works usually consider the scheduling of limited operation types (such as crossbar-bound matrix-vector multiplication). Unlike conventional processors, CIM accelerators are featured by their diverse architecture, circuit, and device, which cannot be simply abstracted by a single level if we seek to fully explore the advantages brought by CIM. Therefore, we propose CIM-MLC, a universal multi-level compilation framework for general CIM architectures. We first establish a general hardware abstraction for CIM architectures and computing modes to represent various CIM accelerators. Based on the proposed abstraction, CIM-MLC can compile tasks onto a wide range of CIM accelerators having different devices, architectures, and programming interfaces. More importantly, compared with existing compilation work, CIM-MLC can explore the mapping and scheduling strategies across multiple architectural tiers, which form a tractable yet effective design space, to achieve better scheduling and instruction generation results. | 翻訳日:2024-05-09 18:31:11 公開日:2024-05-08 |
# CMMU:中国のマルチモーダルなマルチモーダル質問理解と推論のためのベンチマーク
CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning ( http://arxiv.org/abs/2401.14011v3 ) ライセンス: Link先を確認 | Zheqi He, Xinya Wu, Pengfei Zhou, Richeng Xuan, Guang Liu, Xi Yang, Qiannan Zhu, Hua Huang, | (参考訳) マルチモーダルな大規模言語モデル (MLLM) は目覚ましい進歩を遂げ、強力な知識理解と推論能力を示した。
しかし、MLLMの知性を評価するのに不可欠なドメイン固有知識の習得は引き続き課題である。
ドメイン固有の知識に対する現在のマルチモーダルベンチマークは、複数の選択の問題に集中しており、主に英語で利用可能であり、評価の包括性に制限を課している。
この目的のために、中国語における多モーダルおよび多型質問理解と推論のための新しいベンチマークであるCMMUを紹介する。
CMMUは7科目で3,603質問で構成され、小学校から高校までの知識をカバーしている。
質問は3つのタイプに分類することができます。
さらに,複数質問に対する位置誤差分散という評価手法を提案する。
この戦略は位置バイアスを定量的に分析することを目的としている。
GPT4-V, Gemini-Pro, Qwen-VL-Plusの7つのオープンソースMLLMを評価した。
その結果,近年のMLLMではCMMUが大きな課題となっていることがわかった。
データとコードはhttps://github.com/FlagOpen/CMMUで公開されている。
Multi-modal large language models(MLLMs) have achieved remarkable progress and demonstrated powerful knowledge comprehension and reasoning abilities. However, the mastery of domain-specific knowledge, which is essential for evaluating the intelligence of MLLMs, continues to be a challenge. Current multi-modal benchmarks for domain-specific knowledge concentrate on multiple-choice questions and are predominantly available in English, which imposes limitations on the comprehensiveness of the evaluation. To this end, we introduce CMMU, a novel benchmark for multi-modal and multi-type question understanding and reasoning in Chinese. CMMU consists of 3,603 questions in 7 subjects, covering knowledge from primary to high school. The questions can be categorized into 3 types: multiple-choice, multiple-response, and fill-in-the-blank, bringing greater challenges to MLLMs. In addition, we propose an evaluation strategy called Positional Error Variance for assessing multiple-choice questions. The strategy aims to perform a quantitative analysis of position bias. We evaluate seven open-source MLLMs along with GPT4-V, Gemini-Pro, and Qwen-VL-Plus. The results demonstrate that CMMU poses a significant challenge to the recent MLLMs. The data and code are available at https://github.com/FlagOpen/CMMU. | 翻訳日:2024-05-09 18:31:11 公開日:2024-05-08 |
# T-CUR分解による非負転位因子の分離
Coseparable Nonnegative Tensor Factorization With T-CUR Decomposition ( http://arxiv.org/abs/2401.16836v2 ) ライセンス: Link先を確認 | Juefei Chen, Longxiu Huang, Yimin Wei, | (参考訳) 非負行列因子化(NMF)は、データから意味のある特徴を抽出する重要な教師なし学習手法である。
多項式時間フレームワークにおけるNMF問題に対処するため、研究者は分離可能性の仮定を導入し、最近コセパビリティの概念へと進化した。
この進歩は、元のデータに対してより効率的なコア表現を提供する。
しかし、現実の世界では、画像やビデオのような多次元の配列として表される方が自然である。
NMFの高次元データへの応用にはベクトル化が関係しており、必須の多次元相関が失われるリスクがある。
これらのデータに固有の相関を維持するために、テンソル(多次元配列)に目を向け、テンソル t-積を利用する。
このアプローチは、分離不能なNMFをテンソル設定に拡張し、分離不能な非負テンソル因子化(NTF)と呼ばれるものを作成する。
本研究では,コセプタブルコアを選択するための交互インデックス選択法を提案する。
さらに、t-CURサンプリング理論を検証し、テンソル離散経験補間法(t-DEIM)と統合し、別のランダム化インデックス選択プロセスを導入する。
これらの手法は、合成分析データセットと顔分析データセットの両方でテストされている。
その結果, 分離可能なNMFと比較して, 分離可能なNTFの有効性が示された。
Nonnegative Matrix Factorization (NMF) is an important unsupervised learning method to extract meaningful features from data. To address the NMF problem within a polynomial time framework, researchers have introduced a separability assumption, which has recently evolved into the concept of coseparability. This advancement offers a more efficient core representation for the original data. However, in the real world, the data is more natural to be represented as a multi-dimensional array, such as images or videos. The NMF's application to high-dimensional data involves vectorization, which risks losing essential multi-dimensional correlations. To retain these inherent correlations in the data, we turn to tensors (multidimensional arrays) and leverage the tensor t-product. This approach extends the coseparable NMF to the tensor setting, creating what we term coseparable Nonnegative Tensor Factorization (NTF). In this work, we provide an alternating index selection method to select the coseparable core. Furthermore, we validate the t-CUR sampling theory and integrate it with the tensor Discrete Empirical Interpolation Method (t-DEIM) to introduce an alternative, randomized index selection process. These methods have been tested on both synthetic and facial analysis datasets. The results demonstrate the efficiency of coseparable NTF when compared to coseparable NMF. | 翻訳日:2024-05-09 18:31:11 公開日:2024-05-08 |
# Qplacer: 超伝導量子コンピュータのための周波数対応コンポーネント配置
Qplacer: Frequency-Aware Component Placement for Superconducting Quantum Computers ( http://arxiv.org/abs/2401.17450v2 ) ライセンス: Link先を確認 | Junyao Zhang, Hanrui Wang, Qi Ding, Jiaqi Gu, Reouven Assouly, William D. Oliver, Song Han, Kenneth R. Brown, Hai "Helen" Li, Yiran Chen, | (参考訳) ノイズの多い中間規模量子(NISQ)コンピュータは、量子ビット数の限界に直面し、大規模かつフォールトトレラントな量子コンピューティングへの進歩を妨げる。
スケーリングを妨げる重要な課題はクロストークであり、量子ビット、共振器、基板を含む量子チップ上の隣り合うコンポーネント間の不要な相互作用が特徴である。
我々は,限られた基板領域における多面的クロストークを体系的に解決する一般的なアプローチを動機付けている。
超伝導量子コンピュータに適した周波数認識型静電配置フレームワークであるQplacerを提案し,これらの部品をコンパクトな基板設計とともに空間および周波数領域で分離することでクロストークを緩和する。
Qplacerは、キュービットと共振器の周波数領域分離を保証する周波数割り当て器で開始する。
次に、レイアウトの柔軟性のためにパディング戦略と共振器分割を組み込む。
我々のアプローチの中心は、荷電粒子としての量子成分の概念化であり、「周波数反発力」の概念による戦略的空間隔離を可能にする。
以上の結果から,Qplacerはコンパクトな基板サイズを維持しつつ,様々なクロストークの影響を緩和する物理部品配置を慎重に設計していることがわかった。
様々なデバイストポロジとNISQベンチマークにおいて、Qplacerは、従来の配置エンジンと比較して、平均36.7倍の忠実さを向上し、空間違反(クロストークの影響を受けやすい)を平均12.76倍削減する。
面積最適化に関しては、手動設計と比較して、Qplacerは必要なレイアウト面積を平均2.14倍削減できる。
Noisy Intermediate-Scale Quantum (NISQ) computers face a critical limitation in qubit numbers, hindering their progression towards large-scale and fault-tolerant quantum computing. A significant challenge impeding scaling is crosstalk, characterized by unwanted interactions among neighboring components on quantum chips, including qubits, resonators, and substrate. We motivate a general approach to systematically resolving multifaceted crosstalks in a limited substrate area. We propose Qplacer, a frequency-aware electrostatic-based placement framework tailored for superconducting quantum computers, to alleviate crosstalk by isolating these components in spatial and frequency domains alongside compact substrate design. Qplacer commences with a frequency assigner that ensures frequency domain isolation for qubits and resonators. It then incorporates a padding strategy and resonator partitioning for layout flexibility. Central to our approach is the conceptualization of quantum components as charged particles, enabling strategic spatial isolation through a 'frequency repulsive force' concept. Our results demonstrate that Qplacer carefully crafts the physical component layout in mitigating various crosstalk impacts while maintaining a compact substrate size. On various device topologies and NISQ benchmarks, Qplacer improves fidelity by an average of 36.7x and reduces spatial violations (susceptible to crosstalk) by an average of 12.76x, compared to classical placement engines. Regarding area optimization, compared to manual designs, Qplacer can reduce the required layout area by 2.14x on average | 翻訳日:2024-05-09 18:31:11 公開日:2024-05-08 |
# PetriRLの導入: イベントベース強化学習とペトリネットの統合によるJSSP解決のための革新的フレームワーク
Introducing PetriRL: An Innovative Framework for JSSP Resolution Integrating Petri nets and Event-based Reinforcement Learning ( http://arxiv.org/abs/2402.00046v2 ) ライセンス: Link先を確認 | Sofiene Lassoued, Andreas Schwung, | (参考訳) 資源利用と生産プロセスの最適化は、今日の競争力のある工業分野の企業にとって不可欠である。
ジョブショップスケジューリング問題(JSSP)の複雑さに対処することは、生産性の向上、コスト削減、タイムリーなデリバリの確保に不可欠である。
JSSP最適化のためのペトリネットと深部強化学習(DRL)を統合した新しいフレームワークであるPetriRLを提案する。
ペトリRLは、グラフ構造の利点を生かしながら離散イベントシステムのモデル化において、ペトリネットの固有の強みを生かしている。
Petrinetはプロセスの自動化コンポーネントを管理し、JSSP制約の遵守を保証する。
これにより、DRLのような最適化アルゴリズム、特に重要な意思決定において、シナジスティックな協調が可能になる。
PetriRLは従来の方法とは異なり、JSSPインスタンスを解離グラフにプリプロセスする必要をなくし、場所と遷移に基づいたグラフィカルな構造を通じてプロセス状態の説明可能性を高める。
さらに、ペトリネット固有のグラフ構造により、エージェントの再トレーニングを必要とせず、推論フェーズにおけるジョブ操作の動的追加が可能となり、柔軟性が向上する。
実験により、ペトリRLの様々なインスタンスサイズに対する堅牢な一般化と、公開テストベンチマークやランダムに生成されたインスタンス上での競合性能が示された。
結果は、ヒューリスティックス、メタヒューリスティックス、学習に基づくアルゴリズムなど、幅広い最適化ソリューションと比較される。
最後に,イベントベース制御やアクションマスキングなどのフレームワークのキー要素の追加値について,アブレーション研究で検討した。
Resource utilization and production process optimization are crucial for companies in today's competitive industrial landscape. Addressing the complexities of job shop scheduling problems (JSSP) is essential to improving productivity, reducing costs, and ensuring timely delivery. We propose PetriRL, a novel framework integrating Petri nets and deep reinforcement learning (DRL) for JSSP optimization. PetriRL capitalizes on the inherent strengths of Petri nets in modelling discrete event systems while leveraging the advantages of a graph structure. The Petri net governs automated components of the process, ensuring adherence to JSSP constraints. This allows for synergistic collaboration with optimization algorithms such as DRL, particularly in critical decision-making. Unlike traditional methods, PetriRL eliminates the need to preprocess JSSP instances into disjunctive graphs and enhances the explainability of process status through its graphical structure based on places and transitions. Additionally, the inherent graph structure of Petri nets enables the dynamic additions of job operations during the inference phase without requiring agent retraining, thus enhancing flexibility. Experimental results demonstrate PetriRL's robust generalization across various instance sizes and its competitive performance on public test benchmarks and randomly generated instances. Results are compared to a wide range of optimization solutions such as heuristics, metaheuristics, and learning-based algorithms. Finally, the added values of the framework's key elements, such as event-based control and action masking, are studied in the ablation study. | 翻訳日:2024-05-09 18:31:11 公開日:2024-05-08 |
# 破壊不可能で破壊不能な量子検閲
Unbreakable and breakable quantum censorship ( http://arxiv.org/abs/2402.01068v2 ) ライセンス: Link先を確認 | Julien Pinske, Jan Sperling, | (参考訳) 複数のパーティ間での量子情報の分配を規制するプロトコルを転送する。
公開量子ネットワークにおける量子リソース状態の無制限分布を禁止するために、エージェントは各送信者のチャネルにリソース破壊マップを適用することができる。
資源破壊写像はアフィン量子資源理論のためにのみ存在するため、非アフィン資源理論の検閲は自由状態の操作的動機付けられた部分空間上に確立される。
これは、リソース検閲マップ(source-censoring map)と呼ばれるものを使用することで実現されます。
このプロトコルはコヒーレンス、参照フレーム、絡み合いの検閲に適用される。
検閲プロトコルのローカルな性質のため、原則として、当事者の協力によって検閲を回避することが可能である。
したがって、検閲プロトコルが破滅不能な必要かつ十分な条件も導出する。
A protocol for regulating the distribution of quantum information between multiple parties is put forward. In order to prohibit the unrestricted distribution of quantum-resource states in a public quantum network, agents can apply a resource-destroying map to each sender's channel. Since resource-destroying maps only exist for affine quantum resource theories, censorship of a nonaffine resource theory is established on an operationally motivated subspace of free states. This is achieved by using what we name a resource-censoring map. The protocol is applied to censoring coherence, reference frames, and entanglement. Because of the local nature of the censorship protocol, it is, in principle, possible for collaborating parties to bypass censorship. Thus, we additionally derive necessary and sufficient conditions under which the censorship protocol is unbreakable. | 翻訳日:2024-05-09 18:31:11 公開日:2024-05-08 |
# 階層グラフ説明可能性による分子構造の解明
Unveiling Molecular Moieties through Hierarchical Graph Explainability ( http://arxiv.org/abs/2402.01744v3 ) ライセンス: Link先を確認 | Paolo Sortino, Salvatore Contino, Ugo Perricone, Roberto Pirrone, | (参考訳) 背景: サイリコ仮想スクリーニングをサポートする強力なツールとして、グラフニューラルネットワーク(GNN)が最近登場した。
本稿では,グラフ畳み込みアーキテクチャを用いて,高精度なマルチターゲットスクリーニングを実現するGNNを提案する。
また, メッセージパッシング機構を利用して, 原子, 環, 分子レベルでの情報を直接取得する階層的説明可能な人工知能(XAI)技術も考案した。
このようにして、生物活性予測に最も関係のあるモイティーが見つかる。
結果: VS をサポートするため,20 個のサイクリン依存型 Kinase ターゲット上の最新の GNN 分類器を報告した。
さらに、GNNのCDK1のみの高感度バージョンは、マルチクラスのモデル固有のバイアスを避けるために、私たちの説明器を使用するように設計されている。
この階層的説明器は、CDK1上の19の承認された薬物について、専門家の化学者によって検証されている。
本報告では, ドッキング分析に基づき, 19薬中17薬のドッキング分析を行った。
結論:我々のアプローチは,スクリーニングとヒット・ツー・リードフェーズの両方を短縮するための有効なサポートである。
阻害作用に関与する分子サブ構造に関する詳細な知識は、計算化学者が分子の薬理機能に関する洞察を得るのに役立つ。
科学的コントリビューションステートメント: 私たちの研究の核となる科学的革新は、リガンドベースのVSタスクのためにトレーニングされたGNNに階層的なXAIアプローチを使用することです。
階層的説明器の適用により、構造的情報も引き出すことができる。
Background: Graph Neural Networks (GNN) have emerged in very recent years as a powerful tool for supporting in silico Virtual Screening. In this work we present a GNN which uses Graph Convolutional architectures to achieve very accurate multi-target screening. We also devised a hierarchical Explainable Artificial Intelligence (XAI) technique to catch information directly at atom, ring, and whole molecule level by leveraging the message passing mechanism. In this way, we find the most relevant moieties involved in bioactivity prediction. Results: We report a state-of-the-art GNN classifier on twenty Cyclin-dependent Kinase targets in support of VS. Our classifier outperforms previous SOTA approaches proposed by the authors. Moreover, a CDK1-only high-sensitivity version of the GNN has been designed to use our explainer in order to avoid the inherent bias of multi-class models. The hierarchical explainer has been validated by an expert chemist on 19 approved drugs on CDK1. Our explainer provided information in accordance to the docking analysis for 17 out of the 19 test drugs. Conclusion: Our approach is a valid support for shortening both the screening and the hit-to-lead phase. Detailed knowledge about the molecular substructures that play a role in the inhibitory action, can help the computational chemist to gain insights into the pharmacophoric function of the molecule also for repurposing purposes. Scientific Contribution Statement: The core scientific innovation of our work is the use of a hierarchical XAI approach on a GNN trained for a ligand-based VS task. The application of the hierarchical explainer allows for eliciting also structural information... | 翻訳日:2024-05-09 16:34:07 公開日:2024-05-08 |
# 安全強化学習における制約の定式化に関する調査
A Survey of Constraint Formulations in Safe Reinforcement Learning ( http://arxiv.org/abs/2402.02025v2 ) ライセンス: Link先を確認 | Akifumi Wachi, Xun Shen, Yanan Sui, | (参考訳) 現実世界の問題に強化学習(RL)を適用する場合、安全性が重要となる。
その結果、安全RLは、安全の概念を取り入れつつエージェントのポリシーを最適化するための基本的で強力なパラダイムとして登場した。
一般的な安全なRLアプローチは、特定の安全制約の対象となる累積報酬を最大化する制約付き基準に基づいている。
近年のRLの安全性向上努力にもかかわらず、この分野の体系的な理解は依然として困難である。
この課題は、制約表現の多様性と、それらの相互関係の探索に起因している。
この知識ギャップを埋めるために、各定式化に特化して設計されたアルゴリズムのキュレートされた選択とともに、代表的制約定式化の包括的なレビューを示す。
さらに,共通問題定式化の数学的相互関係を明らかにする理論的基盤を解明する。
我々は,安全強化学習研究の現状と今後の方向性について論じる。
Safety is critical when applying reinforcement learning (RL) to real-world problems. As a result, safe RL has emerged as a fundamental and powerful paradigm for optimizing an agent's policy while incorporating notions of safety. A prevalent safe RL approach is based on a constrained criterion, which seeks to maximize the expected cumulative reward subject to specific safety constraints. Despite recent effort to enhance safety in RL, a systematic understanding of the field remains difficult. This challenge stems from the diversity of constraint representations and little exploration of their interrelations. To bridge this knowledge gap, we present a comprehensive review of representative constraint formulations, along with a curated selection of algorithms designed specifically for each formulation. In addition, we elucidate the theoretical underpinnings that reveal the mathematical mutual relations among common problem formulations. We conclude with a discussion of the current state and future directions of safe reinforcement learning research. | 翻訳日:2024-05-09 16:34:07 公開日:2024-05-08 |
# 深度完了のためのテスト時間適応
Test-Time Adaptation for Depth Completion ( http://arxiv.org/abs/2402.03312v3 ) ライセンス: Link先を確認 | Hyoungseob Park, Anjali Gupta, Alex Wong, | (参考訳) いくつかの(ソース)データセットでトレーニングされたモデルを転送して、ドメイン間のギャップによってテストデータをターゲットにする場合、パフォーマンスの劣化を観測することが一般的である。
このギャップを埋めるための既存の手法、例えばドメイン適応(DA)は、モデルがトレーニングされたソースデータ(しばしば利用できない)を必要とするが、ソースフリーのDAはテストデータに多くのパスを必要とする。
本稿では,1枚の画像とそれに伴うスパース深度マップから高密度深度マップを推定するタスクである深度完成のためのオンラインテスト時間適応手法を提案する。
まず、各データモダリティにおけるドメインシフトがモデル性能に与える影響について検討する。
スパース深度が画像よりもはるかに小さい共変量シフトを示すという観察に基づいて、ソースドメインで訓練された埋め込みモジュールを設計し、スパース深度のみを符号化する特徴からスパース深度とスパース深度へのマッピングを保持する。
テスト時間中に、このマップをソースドメイン機能のプロキシとして使用してスパース深度特徴を投影し、画像とスパース深度特徴をターゲットテストドメインからソースドメインに整列させる補助パラメータ(適応層)のセットをトレーニングするためのガイダンスとして使用する。
本手法を屋内および屋外のシナリオで評価し,平均21.1%のベースラインで改善したことを示す。
It is common to observe performance degradation when transferring models trained on some (source) datasets to target testing data due to a domain gap between them. Existing methods for bridging this gap, such as domain adaptation (DA), may require the source data on which the model was trained (often not available), while others, i.e., source-free DA, require many passes through the testing data. We propose an online test-time adaptation method for depth completion, the task of inferring a dense depth map from a single image and associated sparse depth map, that closes the performance gap in a single pass. We first present a study on how the domain shift in each data modality affects model performance. Based on our observations that the sparse depth modality exhibits a much smaller covariate shift than the image, we design an embedding module trained in the source domain that preserves a mapping from features encoding only sparse depth to those encoding image and sparse depth. During test time, sparse depth features are projected using this map as a proxy for source domain features and are used as guidance to train a set of auxiliary parameters (i.e., adaptation layer) to align image and sparse depth features from the target test domain to that of the source domain. We evaluate our method on indoor and outdoor scenarios and show that it improves over baselines by an average of 21.1%. | 翻訳日:2024-05-09 16:34:07 公開日:2024-05-08 |
# ResumeFlow: パーソナライズされたResume生成とリファインメントのためのLLM対応パイプライン
ResumeFlow: An LLM-facilitated Pipeline for Personalized Resume Generation and Refinement ( http://arxiv.org/abs/2402.06221v2 ) ライセンス: Link先を確認 | Saurabh Bhausaheb Zinjad, Amrita Bhattacharjee, Amey Bhilegaonkar, Huan Liu, | (参考訳) 理想的な、仕事に特化した履歴書を作成することは、多くの求職者、特にアーリーケアの求職者にとって難しい課題である。
応募者は求職する特定の役割に履歴を合わせることが推奨されるが、仕事の説明や役割固有の要件に履歴を手動で調整することは、(1)非常に時間がかかり、(2)人的誤りが生じることが多い。
さらに、いくつかの役割に応用しながら、大規模な調整を行うと、編集された履歴書の品質が欠落する可能性がある。
この問題に対処するため,本論文では,エンドユーザが詳細な履歴書と所望のジョブ投稿を簡単に提供し,その特定のジョブ投稿に適したパーソナライズされた履歴書を数秒で取得できる,ResumeFlow: A Large Language Model (LLM)支援ツールを提案する。
提案するパイプラインは,OpenAIのGPT-4やGoogleのGeminiといった最先端LLMの言語理解と情報抽出機能を活用し,(1)ジョブ記述から詳細を抽出し,(2)ユーザが提供する履歴書から役割固有の詳細を抽出し,(3)ユーザに対して役割固有の履歴書を洗練・生成する。
我々の使い勝手の良いツールは、完全にオフ・ザ・シェルフ方式のユーザ・コッセン・LLMを利用しており、微調整は不要である。
本稿では,ビデオデモを通じてツールの有効性を実証し,アライメントと幻覚の制御のためのタスク固有の評価指標を提案する。
私たちのツールはhttps://job-aligned-resume.streamlit.app.comで利用可能です。
Crafting the ideal, job-specific resume is a challenging task for many job applicants, especially for early-career applicants. While it is highly recommended that applicants tailor their resume to the specific role they are applying for, manually tailoring resumes to job descriptions and role-specific requirements is often (1) extremely time-consuming, and (2) prone to human errors. Furthermore, performing such a tailoring step at scale while applying to several roles may result in a lack of quality of the edited resumes. To tackle this problem, in this demo paper, we propose ResumeFlow: a Large Language Model (LLM) aided tool that enables an end user to simply provide their detailed resume and the desired job posting, and obtain a personalized resume specifically tailored to that specific job posting in the matter of a few seconds. Our proposed pipeline leverages the language understanding and information extraction capabilities of state-of-the-art LLMs such as OpenAI's GPT-4 and Google's Gemini, in order to (1) extract details from a job description, (2) extract role-specific details from the user-provided resume, and then (3) use these to refine and generate a role-specific resume for the user. Our easy-to-use tool leverages the user-chosen LLM in a completely off-the-shelf manner, thus requiring no fine-tuning. We demonstrate the effectiveness of our tool via a video demo and propose novel task-specific evaluation metrics to control for alignment and hallucination. Our tool is available at https://job-aligned-resume.streamlit.app. | 翻訳日:2024-05-09 16:34:07 公開日:2024-05-08 |
# 拡張性大言語モデルファインタニングのための微分プライベートゼロ階法
Differentially Private Zeroth-Order Methods for Scalable Large Language Model Finetuning ( http://arxiv.org/abs/2402.07818v3 ) ライセンス: Link先を確認 | Z Liu, J Lou, W Bao, Y Hu, B Li, Z Qin, K Ren, | (参考訳) タスク固有のデータセットの微調整は、様々な下流タスクに事前学習されたLLMの強力な能力を活用する、広く採用されているパラダイムである。
LLMの微調整とそれに伴うプライバシー問題により、事前訓練されたLCMの差分プライベート(DP)微調整はタスク固有のデータセットのプライバシーを保護するために広く利用されている。
DP LLMファインチューニングメソッドの設計コアに注目することは、プライバシ、ユーティリティ、スケーラビリティのトレードオフとして十分である。
既存の手法のほとんどはDP-SGDの精巧な研究に基づいている。
DP-SGDのスケーラビリティを限界まで押し上げたにもかかわらず、DP-SGDベースの微調整法は残念ながらSGD固有の非効率性によって制限されている。
本稿では,より効率的なゼロ階勾配で勾配を近似することにより,SGDのスケーラビリティボトルネックを回避する,LCM事前学習のためのDPゼロ階法の可能性について検討する。
本稿では, ゼロオーダー法をSGDのドロップイン置換として扱うのではなく, 理論的, 実験的に総合的研究を行う。
まず,鍵ハイパーパラメータを動的にスケジュールするDP-ZOSO法を提案する。
この設計は、DPランダム摂動とゼロ次法の勾配近似誤差の相乗効果と、その微調整軌道への影響に基づく。
提案手法の理論的解析を行う。
我々はエンコーダのみのマスク付き言語モデルとデコーダのみの自己回帰型言語モデルの両方について広範な実証分析を行い、スケーラビリティと実用性(DPZeroと比較すると、DP-ZOPOはSST-5で4.5%、RoBERTa-LargeでMNLIで5.5%、CBで9.2%、OCT-2.7Bで3.9%、OPT-2.7Bで3.9%)で素晴らしい結果を得た。
Fine-tuning on task-specific datasets is a widely-embraced paradigm of harnessing the powerful capability of pretrained LLMs for various downstream tasks. Due to the popularity of LLMs fine-tuning and its accompanying privacy concerns, differentially private (DP) fine-tuning of pretrained LLMs has been widely used to safeguarding the privacy of task-specific datasets. Lying at the design core of DP LLM fine-tuning methods is the satisfactory tradeoff among privacy, utility, and scalability. Most existing methods build upon the seminal work of DP-SGD. Despite pushing the scalability of DP-SGD to its limit, DP-SGD-based fine-tuning methods are unfortunately limited by the inherent inefficiency of SGD. In this paper, we investigate the potential of DP zeroth-order methods for LLM pretraining, which avoids the scalability bottleneck of SGD by approximating the gradient with the more efficient zeroth-order gradient. Rather than treating the zeroth-order method as a drop-in replacement for SGD, this paper presents a comprehensive study both theoretically and empirically. First, we propose the stagewise DP zeroth-order method (DP-ZOSO) that dynamically schedules key hyperparameters. This design is grounded on the synergy between DP random perturbation and the gradient approximation error of the zeroth-order method, and its effect on fine-tuning trajectory. We provide theoretical analysis for both proposed methods. We conduct extensive empirical analysis on both encoder-only masked language model and decoder-only autoregressive language model, achieving impressive results in terms of scalability and utility (compared with DPZero, DP-ZOPO improves 4.5% on SST-5, 5.5% on MNLI with RoBERTa-Large and 9.2% on CB, 3.9% on BoolQ with OPT-2.7B when $\epsilon=4$). | 翻訳日:2024-05-09 16:34:07 公開日:2024-05-08 |
# オンラインパーソナライズされた平均推定のためのスケーラブルな分散アルゴリズム
Scalable Decentralized Algorithms for Online Personalized Mean Estimation ( http://arxiv.org/abs/2402.12812v3 ) ライセンス: Link先を確認 | Franco Galante, Giovanni Neglia, Emilio Leonardi, | (参考訳) 多くの設定では、エージェントはモデルを直接学習する十分なデータを持っていない。
他のエージェントとのコラボレーションは役に立つかもしれないが、ローカルなデータ分布が異なる場合、バイアス分散トレードオフが導入される。
重要な課題は、各エージェントがモデルを学びながら、同様の分布を持つクライアントを特定することです。
本研究は,各エージェントが実数値分布からサンプルを収集し,その平均値を推定する,オーバーアーキシング問題の簡易版に焦点を当てた。
既存のアルゴリズムは非現実的な空間と時間的複雑さに直面している(エージェントAの数では4倍)。
スケーラビリティの課題に対処するため、エージェントがグラフに自己組織化し、各エージェントが選択したピア数rのみと通信できるフレームワークを提案する。
我々は2つの協調平均推定アルゴリズムを導入する: 1つは信念の伝播からインスピレーションを導き、もう1つはO(r |A| log |A|) と O(r |A|) の複雑さを持つコンセンサスに基づくアプローチを採用する。
両アルゴリズムが漸近的に最適な推定値を得る条件を確立し,その性能を理論的に評価する。
In numerous settings, agents lack sufficient data to directly learn a model. Collaborating with other agents may help, but it introduces a bias-variance trade-off, when local data distributions differ. A key challenge is for each agent to identify clients with similar distributions while learning the model, a problem that remains largely unresolved. This study focuses on a simplified version of the overarching problem, where each agent collects samples from a real-valued distribution over time to estimate its mean. Existing algorithms face impractical space and time complexities (quadratic in the number of agents A). To address scalability challenges, we propose a framework where agents self-organize into a graph, allowing each agent to communicate with only a selected number of peers r. We introduce two collaborative mean estimation algorithms: one draws inspiration from belief propagation, while the other employs a consensus-based approach, with complexity of O( r |A| log |A|) and O(r |A|), respectively. We establish conditions under which both algorithms yield asymptotically optimal estimates and offer a theoretical characterization of their performance. | 翻訳日:2024-05-09 16:34:07 公開日:2024-05-08 |
# 反強磁性マグノン2モードスクイーズ真空の量子センシング
Quantum Sensing of Antiferromagnetic Magnon Two-Mode Squeezed Vacuum ( http://arxiv.org/abs/2402.13203v2 ) ライセンス: Link先を確認 | Anna-Luisa E. Römling, Akashdeep Kamra, | (参考訳) N'eel 順序反強磁性体は、基底状態がマグノンフォック状態の非古典的な重ね合わせとなるような2モードのスクイーズを示す。
ここでは、反強磁性体が界面交換から生じる直接分散相互作用によって量子ビットをスピンすることができることを理論的に証明する。
このような結合は、励起状態のマグノン数依存レベル分割を誘導し、複数の系励起エネルギーをもたらすことを示す。
この一連のレベル分割は、量子ビット分光における非自明な励起ピークとして現れ、反強磁性量子状態の基盤となる非古典的なマグノン組成を明らかにする。
駆動エネルギーまたは励起エネルギーを適切に選択することにより、マグノン状態はクォービットを介して制御でき、マグノン対のフォック状態は決定論的に生成可能であることを示唆する。
これにより、量子コンピューティングや量子情報科学プロトコルに有用な状態を達成することができる。
N\'eel ordered antiferromagnets exhibit two-mode squeezing such that their ground state is a nonclassical superposition of magnon Fock states. Here we theoretically demonstrate that antiferromagnets can couple to spin qubits via direct dispersive interaction stemming from, e.g., interfacial exchange. We demonstrate that this kind of coupling induces a magnon number dependent level splitting of the excited state resulting in multiple system excitation energies. This series of level splittings manifests itself as nontrivial excitation peaks in qubit spectroscopy thereby revealing the underlying nonclassical magnon composition of the antiferromagnetic quantum state. By appropriately choosing the drive or excitation energy, the magnonic state can be controlled via the qubit, suggesting that Fock states of magnon pairs can be generated deterministically. This enables achieving states useful for quantum computing and quantum information science protocols. | 翻訳日:2024-05-09 16:34:07 公開日:2024-05-08 |
# ToDo:高解像度画像の効率的な生成のためのToken Downsampling
ToDo: Token Downsampling for Efficient Generation of High-Resolution Images ( http://arxiv.org/abs/2402.13573v3 ) ライセンス: Link先を確認 | Ethan Smith, Nayan Saxena, Aninda Saha, | (参考訳) 注意機構は画像拡散モデルにおいて重要であるが、その2次計算の複雑さは、適切な時間とメモリ制約で処理できる画像のサイズを制限する。
本稿では、しばしば冗長な特徴を含む生成画像モデルにおける高密度注意の重要性を考察し、スペーサーの注意機構に適合させる。
2048x2048のような高分解能では最大2倍、最大4.5倍の安定拡散推論を加速するために、キーと値トークンのトークンダウンサンプリングに依存する新しいトレーニングフリーなToDoを提案する。
提案手法は,効率のよいスループットと忠実さのバランスをとる上で,従来の手法よりも優れていることを示す。
Attention mechanism has been crucial for image diffusion models, however, their quadratic computational complexity limits the sizes of images we can process within reasonable time and memory constraints. This paper investigates the importance of dense attention in generative image models, which often contain redundant features, making them suitable for sparser attention mechanisms. We propose a novel training-free method ToDo that relies on token downsampling of key and value tokens to accelerate Stable Diffusion inference by up to 2x for common sizes and up to 4.5x or more for high resolutions like 2048x2048. We demonstrate that our approach outperforms previous methods in balancing efficient throughput and fidelity. | 翻訳日:2024-05-09 16:34:07 公開日:2024-05-08 |
# MatchU:RGB-D画像からの6次元空間推定のための見えない物体のマッチング
MatchU: Matching Unseen Objects for 6D Pose Estimation from RGB-D Images ( http://arxiv.org/abs/2403.01517v2 ) ライセンス: Link先を確認 | Junwen Huang, Hao Yu, Kuan-Ting Yu, Nassir Navab, Slobodan Ilic, Benjamin Busam, | (参考訳) オブジェクトポーズ推定の最近の学習方法は、個々のオブジェクトインスタンスやカテゴリごとにリソース集約的なトレーニングを必要としており、これまで目に見えないオブジェクトに直面すると、実際のアプリケーションでのスケーラビリティを妨げます。
本稿では,RGB-D画像からの6次元ポーズ推定のためのFuse-Describe-Match戦略であるMatchUを提案する。
MatchUは、2Dテクスチャと6Dポーズ予測のための3D幾何学的手がかりを融合する汎用的なアプローチである。
設計上は回転不変な幾何学的3D記述子を学習することに依存している。
ポーズに依存しない幾何学を符号化することにより、学習された記述子は自然に未知の物体に一般化し、対称性を捉える。
3次元幾何学のみを用いて曖昧な関連性に対処するために、我々は追加のRGB情報を記述子に注入する。
これは、RGBデータから学習した潜伏空間を活用して記述子学習プロセスをガイドする、クロスモーダル情報を融合する新しいアテンションベースのメカニズムによって実現される。
広範囲な実験により、RGB-D融合戦略とディスクリプタの有効性の両方が一般化可能であることが明らかになった。
斬新なデザインから恩恵を受け、MatchUは高価なリトレーニングやレンダリングを必要とせずとも、精度とスピードの両面で既存の手法をはるかに上回っている。
Recent learning methods for object pose estimation require resource-intensive training for each individual object instance or category, hampering their scalability in real applications when confronted with previously unseen objects. In this paper, we propose MatchU, a Fuse-Describe-Match strategy for 6D pose estimation from RGB-D images. MatchU is a generic approach that fuses 2D texture and 3D geometric cues for 6D pose prediction of unseen objects. We rely on learning geometric 3D descriptors that are rotation-invariant by design. By encoding pose-agnostic geometry, the learned descriptors naturally generalize to unseen objects and capture symmetries. To tackle ambiguous associations using 3D geometry only, we fuse additional RGB information into our descriptor. This is achieved through a novel attention-based mechanism that fuses cross-modal information, together with a matching loss that leverages the latent space learned from RGB data to guide the descriptor learning process. Extensive experiments reveal the generalizability of both the RGB-D fusion strategy as well as the descriptor efficacy. Benefiting from the novel designs, MatchU surpasses all existing methods by a significant margin in terms of both accuracy and speed, even without the requirement of expensive re-training or rendering. | 翻訳日:2024-05-09 16:34:07 公開日:2024-05-08 |
# 置換不変関数:統計的テスト、密度推定、および計算効率の良い埋め込み
Permutation invariant functions: statistical tests, density estimation, and computationally efficient embedding ( http://arxiv.org/abs/2403.01671v2 ) ライセンス: Link先を確認 | Wee Chaimanowong, Ying Zhu, | (参考訳) 置換不変性は機械学習(ML)における複雑な問題を単純化するために利用される最も一般的な対称性の一つである。
置換不変MLアーキテクチャの構築には、膨大な研究活動が急増している。
しかし、(1) 次元が標本サイズで増大するランダムベクトルにおける座標の置換不変性の統計的テスト方法、(2) 推定問題における置換不変性の活用方法、および、それが寸法の減少にどのように役立つかは、あまり注目されない。
本稿では,これらの疑問を,いくつかの基本的な問題から考察する。
一 多変量分布の変分不変性の仮定をテストすること。
二 変分不変密度の推定
三 置換不変関数クラスの計量エントロピーを分析して、置換不変性を含まないものと比較すること。
(iv) 効率的な計算のために、置換不変な再生カーネルヒルベルト空間の埋め込みを導出する。
特に我々の方法
(i)および
(四)仕分けの仕方に基づくもの
(ii)は平均的なトリックに基づいている。
これらのトリックは置換不変性の利用を大幅に単純化する。
Permutation invariance is among the most common symmetry that can be exploited to simplify complex problems in machine learning (ML). There has been a tremendous surge of research activities in building permutation invariant ML architectures. However, less attention is given to: (1) how to statistically test for permutation invariance of coordinates in a random vector where the dimension is allowed to grow with the sample size; (2) how to leverage permutation invariance in estimation problems and how does it help reduce dimensions. In this paper, we take a step back and examine these questions in several fundamental problems: (i) testing the assumption of permutation invariance of multivariate distributions; (ii) estimating permutation invariant densities; (iii) analyzing the metric entropy of permutation invariant function classes and compare them with their counterparts without imposing permutation invariance; (iv) deriving an embedding of permutation invariant reproducing kernel Hilbert spaces for efficient computation. In particular, our methods for (i) and (iv) are based on a sorting trick and (ii) is based on an averaging trick. These tricks substantially simplify the exploitation of permutation invariance. | 翻訳日:2024-05-09 16:34:07 公開日:2024-05-08 |
# 数理推論に基づくキーポイント駆動データ合成
Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning ( http://arxiv.org/abs/2403.02333v3 ) ライセンス: Link先を確認 | Yiming Huang, Xiao Liu, Yeyun Gong, Zhibin Gou, Yelong Shen, Nan Duan, Weizhu Chen, | (参考訳) 大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を示しているが、その性能は高品質で推論にフォーカスしたトレーニングデータセットの不足によってしばしば妨げられている。
この課題に対処するため,キーポイント駆動型データ合成(KPDDS)を提案する。
KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。
その結果、KPMathは、800万以上の質問応答対からなる数学的推論に適した、広範囲な合成データセットである。
KPMathを利用し、さらに推論集約的なコーパスを付加することにより、包括的なKPMath-Plusデータセットを作成する。
KPMath-Plusで微調整されたQwen1.5-72Bモデルは、GSM8Kで87.0%のPASS@1精度、MATHで58.3%の精度を達成し、7Bから70Bの競争相手と、複数の数学推論データセットでGPT-4のような最高の商用モデルを上回る。
Large language models (LLMs) have shown great potential in complex reasoning tasks, yet their performance is often hampered by the scarcity of high-quality and reasoning-focused training datasets. Addressing this challenge, we propose Key-Point-Driven Data Synthesis (KPDDS), a novel data synthesis framework that synthesizes question-answer pairs by leveraging key points and exemplar practices from authentic data sources. KPDDS ensures the generation of novel questions with rigorous quality control and substantial scalability. As a result, we present KPMath, an extensive synthetic dataset tailored for mathematical reasoning, comprising over 800K question-answer pairs. Utilizing KPMath and augmenting it with additional reasoning-intensive corpora, we create the comprehensive KPMath-Plus dataset. The Qwen1.5-72B model, fine-tuned on KPMath-Plus, achieves 87.0% PASS@1 accuracy on GSM8K and 58.3% on MATH, surpassing competitors in the 7B to 70B range and best commercial models like GPT-4 across multiple math reasoning datasets. | 翻訳日:2024-05-09 16:34:07 公開日:2024-05-08 |
# Triple-CFN:抽象推論プロセスの強化のための概念空間の再構築
Triple-CFN: Restructuring Conceptual Spaces for Enhancing Abstract Reasoning process ( http://arxiv.org/abs/2403.03190v6 ) ライセンス: Link先を確認 | Ruizhuo Song, Beiming Yuan, | (参考訳) 抽象推論は人工知能アルゴリズムに重大な課題をもたらし、知覚タスクに必要なものよりも高いレベルの認知能力を要求する。
本研究では,Bongard Logo問題に対処するTriple-CFN法を導入し,競合するインスタンスの概念空間を暗黙的に再編成することで,顕著な推論精度を実現する。
さらに、必要な修正を加えることで、トリプルCFNパラダイムはRPM(Raven's Progressive Matrices)問題でも有効であることが証明され、競争結果が得られた。
RPM問題におけるTriple-CFNの性能をさらに向上させるため,提案手法をMeta Triple-CFNネットワークにアップグレードし,RPM問題の概念空間を明示的に構築し,概念解釈性を確保しつつ高い推論精度を確保した。
Meta Triple-CFNの成功は、概念空間をモデル化するパラダイムに起因している。
この考え方に基づいて、我々はRe-spaceレイヤを導入し、Meta Triple-CFNとTriple-CFNの両方の性能を高めました。
本稿では,機械知能の進歩に寄与し,抽象的推論問題を解くための革新的なネットワーク設計を探求することによって,この分野におけるさらなるブレークスルーの道を開くことを目的とする。
Abstract reasoning poses significant challenges to artificial intelligence algorithms, demanding a higher level of cognitive ability than that required for perceptual tasks. In this study, we introduce the Triple-CFN method to tackle the Bongard Logo problem, achieving remarkable reasoning accuracy by implicitly reorganizing the conflicting concept spaces of instances. Furthermore, with necessary modifications, the Triple-CFN paradigm has also proven effective on the RPM (Raven's Progressive Matrices) problem, yielding competitive results. To further enhance Triple-CFN's performance on the RPM problem, we have upgraded it to the Meta Triple-CFN network, which explicitly constructs the concept space of RPM problems, ensuring high reasoning accuracy while achieving conceptual interpretability. The success of Meta Triple-CFN can be attributed to its paradigm of modeling the concept space, which is tantamount to normalizing reasoning information. Based on this idea, we have introduced the Re-space layer, boosting the performance of both Meta Triple-CFN and Triple-CFN. This paper aims to contribute to the advancement of machine intelligence and pave the way for further breakthroughs in this field by exploring innovative network designs for solving abstract reasoning problems. | 翻訳日:2024-05-09 16:34:07 公開日:2024-05-08 |
# D4Cグラブトレイン:概念記述と建築分布によるRPMとボンガードログ問題の解法
D4C Glove-train: Solving the RPM and Bongard-logo Problem by Circumscribing and Building Distribution for Concepts ( http://arxiv.org/abs/2403.03452v6 ) ライセンス: Link先を確認 | Ruizhuo Song, Beiming Yuan, | (参考訳) 本稿では,抽象的推論の領域において,特にRaven's Progressive Matrices (RPM) と Bongard-Logo の課題に対処する上で,注目すべき進歩を実現する。
リコネット(Lico-Net)は,RPM問題に顕著な精度で対処する新しいベースラインモデルである。
この基礎を生かして、我々はD3Cアプローチを推進し、分布を通して抽象的推論問題の根底にある概念を提唱する。
この観点は、Lico-NetとBongard-Logoタスクに優れたベースラインモデルの両方のパフォーマンスを向上させる。
D3Cの計算効率を高めるために,D3C-cosの変種を示す。
さらに,これらの領域における概念的境界を再定義するD2C法を提案する。
最後に、我々の方法論をD4Cに拡張し、さらに概念境界を洗練させ、RPMとBongard-Logoの課題において実質的な改善を示す。
全体として、我々の貢献は抽象的推論の分野における新たな展望と実践的な進歩を示している。
This paper achieves noteworthy progress in the realm of abstract reasoning, particularly in addressing Raven's Progressive Matrices (RPM) and Bongard-Logo challenges. Initially, we introduce Lico-Net, a novel baseline model that resolves RPM problems with remarkable accuracy. Leveraging this foundation, we advance with the D3C approach, which advocates representing the underlying concepts in abstract reasoning problems through distributions. This perspective enhances the performance of both Lico-Net and a baseline model excelling in Bongard-Logo tasks. To bolster the computational efficiency of D3C, we present the D3C-cos variant, offering a streamlined yet precise solution. Furthermore, we propose the D2C method, redefining conceptual boundaries within these domains and bridging the divide between high-level abstractions and their lower-dimensional counterparts. Finally, we extend our methodology to D4C, employing adversarial techniques to refine conceptual boundaries further and demonstrate substantial improvements in both RPM and Bongard-Logo challenges. Overall, our contributions present a fresh outlook and practical advancements in the field of abstract reasoning. | 翻訳日:2024-05-09 16:34:07 公開日:2024-05-08 |
# VLM-PL:視覚言語モデルによるクラスインクリメンタルオブジェクト検出のための高度な擬似ラベリング手法
VLM-PL: Advanced Pseudo Labeling Approach for Class Incremental Object Detection via Vision-Language Model ( http://arxiv.org/abs/2403.05346v2 ) ライセンス: Link先を確認 | Junsu Kim, Yunhoe Ku, Jihyeon Kim, Junuk Cha, Seungryul Baek, | (参考訳) クラスインクリメンタルオブジェクト検出(CIOD)の分野では、人間のように継続的に学習できるモデルを作成することが大きな課題である。
擬似ラベル法は、当初は強力であったが、過去の知識を忘れる傾向にあるため、複数のシナリオの漸進的な学習に苦しむ。
これを解決するために,視覚言語モデルを用いた擬似ラベリング(VLM-PL)という新しい手法を提案する。
この手法は視覚言語モデル(VLM)を用いて、追加のモデルトレーニングを必要とせず、擬似接地真実(GT)の正しさを検証する。
VLM-PLは、事前訓練された検出器から擬似GTを誘導することから始まる。
次に,画像とテキストの機能を組み合わせたプロンプトテンプレートを慎重に設計し,擬似GT毎にカスタムクエリを生成する。
これにより、VLMは応答によって正しさを分類できる。
さらに、VLM-PLは、今後のトレーニングから改良された擬似GTと実GTを統合し、新しい知識と古い知識を効果的に組み合わせている。
Pascal VOCとMS COCOデータセットで実施された大規模な実験は、マルチシナリオにおけるVLM-PLの例外的な性能を強調しただけでなく、両者で最先端の結果を得ることによって、その2つのシナリオにおける効果を照らした。
In the field of Class Incremental Object Detection (CIOD), creating models that can continuously learn like humans is a major challenge. Pseudo-labeling methods, although initially powerful, struggle with multi-scenario incremental learning due to their tendency to forget past knowledge. To overcome this, we introduce a new approach called Vision-Language Model assisted Pseudo-Labeling (VLM-PL). This technique uses Vision-Language Model (VLM) to verify the correctness of pseudo ground-truths (GTs) without requiring additional model training. VLM-PL starts by deriving pseudo GTs from a pre-trained detector. Then, we generate custom queries for each pseudo GT using carefully designed prompt templates that combine image and text features. This allows the VLM to classify the correctness through its responses. Furthermore, VLM-PL integrates refined pseudo and real GTs from upcoming training, effectively combining new and old knowledge. Extensive experiments conducted on the Pascal VOC and MS COCO datasets not only highlight VLM-PL's exceptional performance in multi-scenario but also illuminate its effectiveness in dual-scenario by achieving state-of-the-art results in both. | 翻訳日:2024-05-09 16:34:07 公開日:2024-05-08 |
# 法的拘束は不公平か? プライバシポリシーの公正性を評価するために
Legally Binding but Unfair? Towards Assessing Fairness of Privacy Policies ( http://arxiv.org/abs/2403.08115v2 ) ライセンス: Link先を確認 | Vincent Freiberger, Erik Buchmann, | (参考訳) プライバシポリシは、データ保護の権利についてデータ主題に通知し、データコントローラのデータ管理プラクティスを説明することが期待される。
プライバシポリシは、データ主題によって正しく解釈され、理解され、信頼されている場合にのみ、その目的を果たす。
これは、プライバシーポリシーが公正な方法で書かれており、例えば、分極項を使用しない、特定の教育を必要としない、あるいは特定の社会的背景を仮定しない、といったことを意味している。
プライバシーポリシーの公平性を評価するためのアプローチの概要を概説する。
我々は,基本的法的資料と公正性研究から,情報的公正性,表現的公正性,倫理的・道徳性がプライバシポリシにどのように関係しているかを識別する。
テキスト統計,言語学的手法,人工知能に基づいて,これらの公平度次元におけるポリシーを自動評価するオプションを提案する。
我々は、我々のアプローチが適用可能であることを示す証拠を提供するために、ドイツのプライバシーポリシーで最初の実験を行う。
我々の実験は、公平性の3つの次元に問題があることを示唆している。
将来のプライバシーポリシーは、法的な人工知能モデルのコーパスで使用される可能性があるため、これは重要である。
Privacy policies are expected to inform data subjects about their data protection rights and should explain the data controller's data management practices. Privacy policies only fulfill their purpose, if they are correctly interpreted, understood, and trusted by the data subject. This implies that a privacy policy is written in a fair way, e.g., it does not use polarizing terms, does not require a certain education, or does not assume a particular social background. We outline our approach to assessing fairness in privacy policies. We identify from fundamental legal sources and fairness research, how the dimensions informational fairness, representational fairness and ethics / morality are related to privacy policies. We propose options to automatically assess policies in these fairness dimensions, based on text statistics, linguistic methods and artificial intelligence. We conduct initial experiments with German privacy policies to provide evidence that our approach is applicable. Our experiments indicate that there are issues in all three dimensions of fairness. This is important, as future privacy policies may be used in a corpus for legal artificial intelligence models. | 翻訳日:2024-05-09 16:34:07 公開日:2024-05-08 |
# 直交基底方向の多項式近似を最適化した機械学習
Machine Learning Optimized Orthogonal Basis Piecewise Polynomial Approximation ( http://arxiv.org/abs/2403.08579v3 ) ライセンス: Link先を確認 | Hannes Waclawek, Stefan Huber, | (参考訳) Piecewise Polynomials (PP) は、軌道計画のようないくつかの工学分野において、点の集合の形で与えられる位置プロファイルを近似するために用いられる。
近似対象は Ck-連続性のような領域固有の要件とともに方程式の体系として定式化でき、結果を直接計算できるが、そのような閉形式解は多項式次数や多項式基底に関して限られた柔軟性を持ち、さらに領域固有の要求を加えることができる。
十分複雑な最適化のゴールは、勾配降下のような数値的な手法をすぐに呼び出す。
勾配降下はANN(Artificial Neural Networks)のトレーニングの中心にあるため、TensorFlowのような現代的な機械学習(ML)フレームワークには、ANNのトレーニングタスクを超えた幅広い最適化問題に適した勾配ベースのオプティマイザセットが付属している。
提案手法は, PPモデルの汎用性を活用し, 電子カメラ設計の文脈における1次元軌道計画における関数近似の活用を目的とした, 現代のMLオプティマイザの可能性と組み合わせることである。
ANNのスコープ外から直接、MLフレームワークTensorFlowの利用可能なオプティマイザを使用して、PPモデルのモデルパラメータを最適化します。
本稿では,直交多項式基底が近似および連続性最適化性能の向上にどのように貢献するかを示す。
第1種のチェビシェフ多項式を用いることで、収束挙動を明確に改善できる新しい正規化手法を開発する。
この正則化手法を用いて、Chebyshev ベースは、近似と連続性最適化の組合せにおいて、すべての関連する最適化器に対して、電力ベースよりも優れた性能を示し、電子カム領域における提案手法のユーザビリティを示す。
Piecewise Polynomials (PPs) are utilized in several engineering disciplines, like trajectory planning, to approximate position profiles given in the form of a set of points. While the approximation target along with domain-specific requirements, like Ck -continuity, can be formulated as a system of equations and a result can be computed directly, such closed-form solutions posses limited flexibility with respect to polynomial degrees, polynomial bases or adding further domain-specific requirements. Sufficiently complex optimization goals soon call for the use of numerical methods, like gradient descent. Since gradient descent lies at the heart of training Artificial Neural Networks (ANNs), modern Machine Learning (ML) frameworks like TensorFlow come with a set of gradient-based optimizers potentially suitable for a wide range of optimization problems beyond the training task for ANNs. Our approach is to utilize the versatility of PP models and combine it with the potential of modern ML optimizers for the use in function approximation in 1D trajectory planning in the context of electronic cam design. We utilize available optimizers of the ML framework TensorFlow directly, outside of the scope of ANNs, to optimize model parameters of our PP model. In this paper, we show how an orthogonal polynomial basis contributes to improving approximation and continuity optimization performance. Utilizing Chebyshev polynomials of the first kind, we develop a novel regularization approach enabling clearly improved convergence behavior. We show that, using this regularization approach, Chebyshev basis performs better than power basis for all relevant optimizers in the combined approximation and continuity optimization setting and demonstrate usability of the presented approach within the electronic cam domain. | 翻訳日:2024-05-09 16:24:12 公開日:2024-05-08 |
# 大規模言語モデル抽出によるヘイト音声認識の解釈に向けて
Towards Interpretable Hate Speech Detection using Large Language Model-extracted Rationales ( http://arxiv.org/abs/2403.12403v2 ) ライセンス: Link先を確認 | Ayushi Nirmal, Amrita Bhattacharjee, Paras Sheth, Huan Liu, | (参考訳) ソーシャルメディアプラットフォームは、ユーザーが対人的な議論や意見を表明するための重要な場であるが、ソーシャルメディアが提供するファサードと匿名性によって、ヘイトスピーチや不快なコンテンツを発信することができる。
このようなプラットフォームの大規模化を考えると、ヘイトスピーチのインスタンスを自動的に識別し、フラグを付ける必要がある。
いくつかのヘイトスピーチ検出法が存在するが、これらのブラックボックス法のほとんどは、設計によって解釈可能あるいは説明可能ではない。
解釈可能性の欠如に対処するため,本稿では,言語モデル(LLM)を用いて,入力テキストから有理形の特徴を抽出し,基本ヘイトスピーチ分類器を訓練し,設計による忠実な解釈を可能にすることを提案する。
我々のフレームワークは,LLMのテキスト理解能力と最先端のヘイトスピーチ分類器の識別能力とを効果的に組み合わせて,これらの分類器を忠実に解釈できるようにする。
1) LLM抽出された有理性の良さ, (2) 解釈可能性を確保するためのトレーニング後においても, 検出性能の驚くほどの維持が示される。
すべてのコードとデータはhttps://github.com/AmritaBh/shield.comで公開される。
Although social media platforms are a prominent arena for users to engage in interpersonal discussions and express opinions, the facade and anonymity offered by social media may allow users to spew hate speech and offensive content. Given the massive scale of such platforms, there arises a need to automatically identify and flag instances of hate speech. Although several hate speech detection methods exist, most of these black-box methods are not interpretable or explainable by design. To address the lack of interpretability, in this paper, we propose to use state-of-the-art Large Language Models (LLMs) to extract features in the form of rationales from the input text, to train a base hate speech classifier, thereby enabling faithful interpretability by design. Our framework effectively combines the textual understanding capabilities of LLMs and the discriminative power of state-of-the-art hate speech classifiers to make these classifiers faithfully interpretable. Our comprehensive evaluation on a variety of English language social media hate speech datasets demonstrate: (1) the goodness of the LLM-extracted rationales, and (2) the surprising retention of detector performance even after training to ensure interpretability. All code and data will be made available at https://github.com/AmritaBh/shield. | 翻訳日:2024-05-09 16:24:12 公開日:2024-05-08 |
# 最適AoIによるグラフアテンションネットワークによるブロック伝播とWeb 3.0における評価
Graph Attention Network-based Block Propagation with Optimal AoI and Reputation in Web 3.0 ( http://arxiv.org/abs/2403.13237v2 ) ライセンス: Link先を確認 | Jiana Liao, Jinbo Wen, Jiawen Kang, Changyan Yi, Yang Zhang, Yutao Jiao, Dusit Niyato, Dong In Kim, Shengli Xie, | (参考訳) Web 3.0は、中央集権的な権威に頼らずにデータを安全に監視することを可能にする、先駆的なパラダイムとして認識されている。
Web 3.0を実現するための中核技術であるブロックチェーンは、分散化された透過的なデータ管理を容易にする。
それでも、ブロックチェーン対応Web 3.0の進化はまだ初期段階にあり、ブロック伝搬性能を向上させるための効率性と信頼性の確保といった課題に悩まされている。
本稿では,ブロックチェーン対応Web 3.0のためのグラフ注意ネットワーク(GAT)ベースの信頼性ブロック伝搬最適化フレームワークを設計する。
最初に、パブリックブロックチェーンにおけるブロックの伝搬効率を測定するために、ブロックの年齢というデータ更新性メトリクスを革新的に適用します。
ブロック伝搬の信頼性を実現するため,局所的・推奨的な意見を含む主観的論理モデルに基づく評価機構を導入し,マイナ評価値を算出した。
さらに, GATはグラフ構造化データ処理能力に優れており, GATを強化学習に活用し, 最適なブロック伝搬軌道を得る。
数値計算の結果,提案手法は従来のルーティング方式と比較して,ブロックの伝搬効率と信頼性に優れていた。
Web 3.0 is recognized as a pioneering paradigm that empowers users to securely oversee data without reliance on a centralized authority. Blockchains, as a core technology to realize Web 3.0, can facilitate decentralized and transparent data management. Nevertheless, the evolution of blockchain-enabled Web 3.0 is still in its nascent phase, grappling with challenges such as ensuring efficiency and reliability to enhance block propagation performance. In this paper, we design a Graph Attention Network (GAT)-based reliable block propagation optimization framework for blockchain-enabled Web 3.0. We first innovatively apply a data-freshness metric called age of block to measure block propagation efficiency in public blockchains. To achieve the reliability of block propagation, we introduce a reputation mechanism based on the subjective logic model, including the local and recommended opinions to calculate the miner reputation value. Moreover, considering that the GAT possesses the excellent ability to process graph-structured data, we utilize the GAT with reinforcement learning to obtain the optimal block propagation trajectory. Numerical results demonstrate that the proposed scheme exhibits the most outstanding block propagation efficiency and reliability compared with traditional routing mechanisms. | 翻訳日:2024-05-09 16:24:12 公開日:2024-05-08 |
# CodeBenchGen: スケーラブルな実行ベースのコード生成ベンチマークの作成
CodeBenchGen: Creating Scalable Execution-based Code Generation Benchmarks ( http://arxiv.org/abs/2404.00566v3 ) ライセンス: Link先を確認 | Yiqing Xie, Alex Xie, Divyanshu Sheth, Pengfei Liu, Daniel Fried, Carolyn Rose, | (参考訳) 多様なシナリオにまたがるコード生成システムの評価を容易にするため、我々は、人間からの軽いガイダンスのみを必要とするスケーラブルな実行ベースのベンチマークを作成するためのフレームワーク、CodeBenchGenを紹介した。
具体的には,大規模言語モデル(LLM)を活用して任意のコードを評価例に変換する。
CodeSearchNetデータセットから取得した367のGitHubリポジトリのコードから293のライブラリを修正した1,931のサンプルを含むデータセットであるExec-CSNを作成することで、私たちのフレームワークの有用性を説明します。
Exec-CSNにおける例の複雑さと解決可能性を示すために, 81.3%が人間によって解決され, 61%が「解決に必要な努力」と評価されている。
オープンソースおよびプロプライエタリなモデル上でコード生成実験を行い、人間とモデルの両方のパフォーマンスを分析します。
私たちはhttps://github.com/Veronicium/CodeBenchGen.orgでコードを公開しています。
To facilitate evaluation of code generation systems across diverse scenarios, we present CodeBenchGen, a framework to create scalable execution-based benchmarks that only requires light guidance from humans. Specifically, we leverage a large language model (LLM) to convert an arbitrary piece of code into an evaluation example, including test cases for execution-based evaluation. We illustrate the usefulness of our framework by creating a dataset, Exec-CSN, which includes 1,931 examples involving 293 libraries revised from code in 367 GitHub repositories taken from the CodeSearchNet dataset. To demonstrate the complexity and solvability of examples in Exec-CSN, we present a human study demonstrating that 81.3% of the examples can be solved by humans and 61% are rated as "requires effort to solve". We conduct code generation experiments on open-source and proprietary models and analyze the performance of both humans and models. We provide the code at https://github.com/Veronicium/CodeBenchGen. | 翻訳日:2024-05-09 16:24:12 公開日:2024-05-08 |
# Fusion Entity Decodingによるエンティティの曖昧化
Entity Disambiguation via Fusion Entity Decoding ( http://arxiv.org/abs/2404.01626v2 ) ライセンス: Link先を確認 | Junxiong Wang, Ali Mousavi, Omar Attia, Ronak Pradeep, Saloni Potdar, Alexander M. Rush, Umar Farooq Minhas, Yunyao Li, | (参考訳) 知識ベースにおけるあいまいなエンティティの参照エンティティへの言及をリンクするエンティティ曖昧化(ED)は、エンティティリンク(EL)のコアコンポーネントとして機能する。
既存の生成手法は、標準ZELDAベンチマークによる分類手法と比較して精度が向上している。
それでも、生成的アプローチは大規模な事前学習と非効率な生成の必要性に悩まされている。
最も重要なことは、類似したエンティティを区別するための重要な情報を含むエンティティ記述は、しばしば見過ごされてしまうことである。
より詳細なエンティティ記述を持つエンティティを曖昧にするためのエンコーダ・デコーダモデルを提案する。
テキストと候補エンティティが与えられた後、エンコーダはテキストと各候補エンティティ間の相互作用を学習し、各エンティティ候補の表現を生成する。
デコーダはエンティティ候補の表現を融合させ、正しいエンティティを選択する。
種々のエンティティの曖昧さを指標とした実験では,このモデルの強靭性,強靭性,特にZELDAベンチマークの +1.5% を GENRE と比較した。
さらに,本手法を検索/読み出しフレームワークに統合し,EntQAと比較してGERBILベンチマークにおけるエンドツーエンドエンティティリンクの+1.5%改善を観察する。
Entity disambiguation (ED), which links the mentions of ambiguous entities to their referent entities in a knowledge base, serves as a core component in entity linking (EL). Existing generative approaches demonstrate improved accuracy compared to classification approaches under the standardized ZELDA benchmark. Nevertheless, generative approaches suffer from the need for large-scale pre-training and inefficient generation. Most importantly, entity descriptions, which could contain crucial information to distinguish similar entities from each other, are often overlooked. We propose an encoder-decoder model to disambiguate entities with more detailed entity descriptions. Given text and candidate entities, the encoder learns interactions between the text and each candidate entity, producing representations for each entity candidate. The decoder then fuses the representations of entity candidates together and selects the correct entity. Our experiments, conducted on various entity disambiguation benchmarks, demonstrate the strong and robust performance of this model, particularly +1.5% in the ZELDA benchmark compared with GENRE. Furthermore, we integrate this approach into the retrieval/reader framework and observe +1.5% improvements in end-to-end entity linking in the GERBIL benchmark compared with EntQA. | 翻訳日:2024-05-09 16:24:12 公開日:2024-05-08 |
# Conjugate-Gradient-like Based Adaptive Moment Estimation Optimization Algorithm for Deep Learning
Conjugate-Gradient-like Based Adaptive Moment Estimation Optimization Algorithm for Deep Learning ( http://arxiv.org/abs/2404.01714v2 ) ライセンス: Link先を確認 | Jiawu Tian, Liwei Xu, Xiaowei Zhang, Yongqi Li, | (参考訳) ディープニューラルネットワークのトレーニングは難しい課題だ。
深層ニューラルネットワークの性能向上とトレーニングの高速化を目的として,バニラ共役勾配を共役勾配のように修正し,汎用的なAdamに組み込むことにより,ディープラーニングのためのCG-like-Adamという新しい最適化アルゴリズムを提案する。
具体的には、ジェネリック・アダムの第1次と第2次モーメント推定の両方を共役次数様に置き換える。
収束解析は、一階モーメント推定の指数移動平均係数が一定であり、一階モーメント推定が偏りのない場合を扱う。
CIFAR10/100データセットに基づく提案アルゴリズムの優位性を示す数値実験を行った。
Training deep neural networks is a challenging task. In order to speed up training and enhance the performance of deep neural networks, we rectify the vanilla conjugate gradient as conjugate-gradient-like and incorporate it into the generic Adam, and thus propose a new optimization algorithm named CG-like-Adam for deep learning. Specifically, both the first-order and the second-order moment estimation of generic Adam are replaced by the conjugate-gradient-like. Convergence analysis handles the cases where the exponential moving average coefficient of the first-order moment estimation is constant and the first-order moment estimation is unbiased. Numerical experiments show the superiority of the proposed algorithm based on the CIFAR10/100 dataset. | 翻訳日:2024-05-09 16:24:12 公開日:2024-05-08 |
# 夜間物体検出における教師なし領域適応の誘導
Cooperative Students: Navigating Unsupervised Domain Adaptation in Nighttime Object Detection ( http://arxiv.org/abs/2404.01988v3 ) ライセンス: Link先を確認 | Jicheng Yuan, Anh Le-Tuan, Manfred Hauswirth, Danh Le-Phuoc, | (参考訳) 教師なし領域適応 (Unsupervised Domain Adaptation, UDA) は、よく照らされた条件下での物体検出の大幅な進歩を示すが、特に夜間の低可視性シナリオでは、低信号-雑音比 (SNR) 条件での適応性だけでなく、自動車両の信頼性と効率性にも課題が生じる。
この問題に対処するために,グローバルローカル変換(GLT)を革新的に採用した \textbf{Co}operative \textbf{S}tudents (\textbf{CoS}) フレームワークと,日夜のシナリオにおける空間的一貫性を効果的に捉えるプロキシベースのターゲット整合性(PTC)機構を提案する。
これに基づいて、適応IoUインフォームドしきい値(AIT)モジュールをさらに考案し、潜在的な正の見落としを徐々に回避し、ターゲット領域の潜伏情報を豊かにする。
総合的な実験の結果,CoS は低視認性条件下での UDA 性能を本質的に向上させ,現在の最先端技術を超え,それぞれ BDD100K と ShiFT と ACDC のデータセット上で mAP が 3.0 %, 1.9 %,2.5 % の増加を達成した。
コードはhttps://github.com/jichengyuan/Cooperitive_Students.comで入手できる。
Unsupervised Domain Adaptation (UDA) has shown significant advancements in object detection under well-lit conditions; however, its performance degrades notably in low-visibility scenarios, especially at night, posing challenges not only for its adaptability in low signal-to-noise ratio (SNR) conditions but also for the reliability and efficiency of automated vehicles. To address this problem, we propose a \textbf{Co}operative \textbf{S}tudents (\textbf{CoS}) framework that innovatively employs global-local transformations (GLT) and a proxy-based target consistency (PTC) mechanism to capture the spatial consistency in day- and night-time scenarios effectively, and thus bridge the significant domain shift across contexts. Building upon this, we further devise an adaptive IoU-informed thresholding (AIT) module to gradually avoid overlooking potential true positives and enrich the latent information in the target domain. Comprehensive experiments show that CoS essentially enhanced UDA performance in low-visibility conditions and surpasses current state-of-the-art techniques, achieving an increase in mAP of 3.0\%, 1.9\%, and 2.5\% on BDD100K, SHIFT, and ACDC datasets, respectively. Code is available at https://github.com/jichengyuan/Cooperitive_Students. | 翻訳日:2024-05-09 16:24:12 公開日:2024-05-08 |
# 生成的拡張不均質グラフコントラスト学習
Generative-Enhanced Heterogeneous Graph Contrastive Learning ( http://arxiv.org/abs/2404.02810v2 ) ライセンス: Link先を確認 | Yu Wang, Lei Sang, Yi Zhang, Yiwen Zhang, | (参考訳) 異種グラフ(HG)は、実世界の複雑な関係をマルチタイプのノードとエッジによって効果的にモデル化することができる。
近年、自己教師型学習にインスパイアされたHGNN(Heterogeneous Graphs Neural Networks)は、下流タスクにデータ拡張とコントラッシブ・ディミネータを活用することで大きな可能性を示している。
しかし、グラフデータの整合性のため、データの増大はまだ限られている。
さらに、対照的な判別器はサンプリングバイアスを保ち、局所的な異種情報を欠いている。
上記の制約に対処するため,GHGCL(Generative-Enhanced Heterogeneous Graph Contrastive Learning)を提案する。
具体的には、まず、異種グラフ生成学習強化コントラストパラダイムを提案する。
このパラダイムには以下のものがある。
1)マスク付きオートエンコーダによるコントラストビュー増強戦略
2) 硬質陰性試料の生成のための位置認識・意味認識陽性試料採取戦略
3)地域情報とグローバル情報を取得するための階層的コントラスト学習戦略。
さらに、階層的コントラスト学習とサンプリング戦略は、生成的コントラスト的視点の下で強化されたコントラスト的判別器を構成することを目的としている。
最後に、我々のモデルを8つの実世界のデータセット上で17のベースラインと比較する。
本モデルは,ノード分類およびリンク予測タスクにおいて,最新のコントラストベースラインおよび生成ベースラインより優れる。
私たちの作業を再現するため、私たちはhttps://anonymous.4open.science/r/GC-HGNN-E50Cでコードをオープンソース化しました。
Heterogeneous Graphs (HGs) can effectively model complex relationships in the real world by multi-type nodes and edges. In recent years, inspired by self-supervised learning, contrastive Heterogeneous Graphs Neural Networks (HGNNs) have shown great potential by utilizing data augmentation and contrastive discriminators for downstream tasks. However, data augmentation is still limited due to the graph data's integrity. Furthermore, the contrastive discriminators remain sampling bias and lack local heterogeneous information. To tackle the above limitations, we propose a novel Generative-Enhanced Heterogeneous Graph Contrastive Learning (GHGCL). Specifically, we first propose a heterogeneous graph generative learning enhanced contrastive paradigm. This paradigm includes: 1) A contrastive view augmentation strategy by using a masked autoencoder. 2) Position-aware and semantics-aware positive sample sampling strategy for generating hard negative samples. 3) A hierarchical contrastive learning strategy for capturing local and global information. Furthermore, the hierarchical contrastive learning and sampling strategies aim to constitute an enhanced contrastive discriminator under the generative-contrastive perspective. Finally, we compare our model with seventeen baselines on eight real-world datasets. Our model outperforms the latest contrastive and generative baselines on node classification and link prediction tasks. To reproduce our work, we have open-sourced our code at https://anonymous.4open.science/r/GC-HGNN-E50C. | 翻訳日:2024-05-09 16:24:12 公開日:2024-05-08 |
# 臨床・バイオメディカルテキスト理解のためのドイツ語モデルに関する総合的研究
Comprehensive Study on German Language Models for Clinical and Biomedical Text Understanding ( http://arxiv.org/abs/2404.05694v2 ) ライセンス: Link先を確認 | Ahmad Idrissi-Yaghir, Amin Dada, Henning Schäfer, Kamyar Arzideh, Giulia Baldini, Jan Trienes, Max Hasin, Jeanette Bewersdorff, Cynthia S. Schmidt, Marie Bauer, Kaleb E. Smith, Jiang Bian, Yonghui Wu, Jörg Schlötterer, Torsten Zesch, Peter A. Horn, Christin Seifert, Felix Nensa, Jens Kleesiek, Christoph M. Friedrich, | (参考訳) 自然言語処理(NLP)の最近の進歩は、BERTやRoBERTaといった事前訓練された言語モデルの出現に大きく寄与する。
これらのモデルは一般的なデータセットで顕著なパフォーマンスを示すが、ユニークなドメイン固有の用語、ドメイン固有の略語、および様々なドキュメント構造が一般的である医学のような特殊なドメインでは苦労することがある。
本稿では、これらのモデルをドメイン固有の要求に適応するための戦略を、主にドメイン固有のデータに対する継続的な事前学習を通じて検討する。
我々は、翻訳された英語の医療データとドイツの臨床データの3Bトークンから2.4Bトークンを抽出し、いくつかのドイツの医療言語モデルを事前訓練した。
得られたモデルは、名前付きエンティティ認識(NER)、多ラベル分類、抽出質問応答など、様々なドイツの下流タスクで評価された。
以上の結果から,臨床および翻訳による事前訓練により強化されたモデルは,医学的文脈における一般的なドメインモデルより優れていることが示唆された。
本研究は, 臨床モデルとスクラッチからトレーニングした成績を一致させたり, 上回ったりできることを実証した。
さらに,臨床データによる事前トレーニングや翻訳テキストの活用は,NLPタスクにおける領域適応の信頼性の高い方法であることが証明されている。
Recent advances in natural language processing (NLP) can be largely attributed to the advent of pre-trained language models such as BERT and RoBERTa. While these models demonstrate remarkable performance on general datasets, they can struggle in specialized domains such as medicine, where unique domain-specific terminologies, domain-specific abbreviations, and varying document structures are common. This paper explores strategies for adapting these models to domain-specific requirements, primarily through continuous pre-training on domain-specific data. We pre-trained several German medical language models on 2.4B tokens derived from translated public English medical data and 3B tokens of German clinical data. The resulting models were evaluated on various German downstream tasks, including named entity recognition (NER), multi-label classification, and extractive question answering. Our results suggest that models augmented by clinical and translation-based pre-training typically outperform general domain models in medical contexts. We conclude that continuous pre-training has demonstrated the ability to match or even exceed the performance of clinical models trained from scratch. Furthermore, pre-training on clinical data or leveraging translated texts have proven to be reliable methods for domain adaptation in medical NLP tasks. | 翻訳日:2024-05-09 16:24:12 公開日:2024-05-08 |
# マルチモーダルロングフォーム要約の特徴付け:財務報告を事例として
Characterizing Multimodal Long-form Summarization: A Case Study on Financial Reports ( http://arxiv.org/abs/2404.06162v2 ) ライセンス: Link先を確認 | Tianyu Cao, Natraj Raman, Danial Dervovic, Chenhao Tan, | (参考訳) 大規模言語モデル(LLM)が長い入力を処理するために自然言語処理の能力を拡大するにつれ、その能力や振る舞いを理解するためには厳密で体系的な分析が必要である。
健全な応用は要約であり、その普遍性と論争のためである(例えば、研究者は要約の死を宣言している)。
本稿では,財務報告の要約をケーススタディとして用いた。
本稿では,複数モーダルな長文要約を特徴付ける計算フレームワークを提案し,Claude 2.0/2.1,GPT-4/3.5,Commandの動作について検討する。
GPT-3.5とCommandは、この要約タスクを有意に実行できないことがわかった。
クロード2, GPT-4では, 要約の抽出性を分析し, LLMにおける位置バイアスを同定する。
この位置バイアスは、クロードの入力をシャッフルした後で消え、クロードが重要な情報を認識する能力を持っていることを示唆している。
また,LSM生成サマリーにおける数値データの利用に関する包括的調査を行い,数値幻覚の分類を提供する。
我々は、GPT-4の数値使用率の向上のために、限られた成功率で即時エンジニアリングを採用する。
GPT-4と比較して,長時間のマルチモーダル入力処理におけるClaude 2の強みを概説した。
As large language models (LLMs) expand the power of natural language processing to handle long inputs, rigorous and systematic analyses are necessary to understand their abilities and behavior. A salient application is summarization, due to its ubiquity and controversy (e.g., researchers have declared the death of summarization). In this paper, we use financial report summarization as a case study because financial reports not only are long but also use numbers and tables extensively. We propose a computational framework for characterizing multimodal long-form summarization and investigate the behavior of Claude 2.0/2.1, GPT-4/3.5, and Command. We find that GPT-3.5 and Command fail to perform this summarization task meaningfully. For Claude 2 and GPT-4, we analyze the extractiveness of the summary and identify a position bias in LLMs. This position bias disappears after shuffling the input for Claude, which suggests that Claude has the ability to recognize important information. We also conduct a comprehensive investigation on the use of numeric data in LLM-generated summaries and offer a taxonomy of numeric hallucination. We employ prompt engineering to improve GPT-4's use of numbers with limited success. Overall, our analyses highlight the strong capability of Claude 2 in handling long multimodal inputs compared to GPT-4. | 翻訳日:2024-05-09 16:24:12 公開日:2024-05-08 |
# 多パラメータカスケード量子干渉計
Multiparameter cascaded quantum interferometer ( http://arxiv.org/abs/2404.07509v2 ) ライセンス: Link先を確認 | Baihong Li, Zhuo-zhuo Wang, Qi-qi Li, Changhua Chen, Boxin Yuan, Yiwei Zhai, Rui-Bo Jin, Xiaofei Zhang, | (参考訳) 理論的には、50:50ビームスプリッタとn個の独立かつ調整可能な時間遅延を連結することにより、2入力と2出力のセットアップが得られるマルチパラメータカスケード量子干渉計を提案する。
ビームスプリッタの行列の線形変換に基づいて、そのような干渉計の一致確率を導出する一般的な方法が与えられる。
例として,周波数相関と入力状態の異なる1パラメータ,2パラメータ,3パラメータの量子干渉計の干渉特性を解析する。
このような干渉計の典型的なインターフェログラムは、よりリッチで複雑な2光子干渉現象を明らかにするために提供される。
原則として、任意の2インプットと2インプットの実験装置を設計することができる。
この研究は、汎用量子干渉計を設計するためのツールボックスを提供し、関連する偶然の確率を導出するための便利な方法を提供する。
ポテンシャルの応用は、2光子状態の完全なスペクトル評価、マルチパラメータ推定、量子メトロジーに見ることができる。
We theoretically propose a multiparameter cascaded quantum interferometer in which a two-input and two-output setup is obtained by concatenating 50:50 beam splitters with n independent and adjustable time delays. A general method for deriving the coincidence probability of such an interferometer is given based on the linear transformation of the matrix of beam splitters. As examples, we analyze the interference characteristics of one-, two- and three-parameter cascaded quantum interferometers with different frequency correlations and input states. Some typical interferograms of such interferometers are provided to reveal more rich and complicated two-photon interference phenomena. In principle, arbitrary two-input and two-output experimental setups can be designed with the proposal. This work offers a toolbox for designing versatile quantum interferometers and provides a convenient method for deriving the coincidence probabilities involved. Potential applications can be found in the complete spectral characterization of two-photon states, multiparameter estimation, and quantum metrology. | 翻訳日:2024-05-09 16:24:12 公開日:2024-05-08 |
# 学習機械学習回帰モデルによる不確実性伝播の解析結果
Analytical results for uncertainty propagation through trained machine learning regression models ( http://arxiv.org/abs/2404.11224v2 ) ライセンス: Link先を確認 | Andrew Thompson, | (参考訳) 機械学習(ML)モデルは、メタロジーアプリケーションでますます使われています。
しかし、メタロジカルな文脈でMLモデルを信頼性のあるものにするには、原理化された不確実性定量化を伴わなければならない。
本稿では、トレーニング/修正機械学習(ML)回帰モデルによる不確実性伝播の課題に対処する。
特定の入力データ分布および各種MLモデルに対して、モデル出力の平均および分散に対する解析式を取得/表示する。
本稿では,線形回帰,ペナル化線形回帰,カーネルリッジ回帰,ガウス過程(GP),サポートベクターマシン(SVM),関連ベクターマシン(RVM)などのMLモデルについて述べる。
計算効率の観点から,本手法の有効性を検証し,モンテカルロ法と比較する数値実験を行った。
EIS(Electronic Impedance Spectroscopy)データに基づくリチウムイオンセルの健康状態のモデル化という,メトロジー応用の文脈における我々の手法についても解説する。
Machine learning (ML) models are increasingly being used in metrology applications. However, for ML models to be credible in a metrology context they should be accompanied by principled uncertainty quantification. This paper addresses the challenge of uncertainty propagation through trained/fixed machine learning (ML) regression models. Analytical expressions for the mean and variance of the model output are obtained/presented for certain input data distributions and for a variety of ML models. Our results cover several popular ML models including linear regression, penalised linear regression, kernel ridge regression, Gaussian Processes (GPs), support vector machines (SVMs) and relevance vector machines (RVMs). We present numerical experiments in which we validate our methods and compare them with a Monte Carlo approach from a computational efficiency point of view. We also illustrate our methods in the context of a metrology application, namely modelling the state-of-health of lithium-ion cells based upon Electrical Impedance Spectroscopy (EIS) data | 翻訳日:2024-05-09 16:24:12 公開日:2024-05-08 |
# クリフォード代数を用いたヤン・バクスター、テトラヘドロンおよび高次単純方程式の解法
Solving the Yang-Baxter, tetrahedron and higher simplex equations using Clifford algebras ( http://arxiv.org/abs/2404.11501v2 ) ライセンス: Link先を確認 | Pramod Padmanabhan, Vladimir Korepin, | (参考訳) ベテ・アンサッツは1932年に発見された。
半世紀後、代数構造が発掘され、ヤン=バクスター方程式が発見され、多次元一般化(テトラエドロン方程式と$d$-シプレックス方程式)が発見された。
ここではクリフォード代数を用いてこれらの方程式を解く普遍的な方法を記述する。
ヤン=バクスター方程式(d=2$)、ザマロドチコフのテトラヘドロン方程式(d=3$)、バザノフ=ストロガノフ方程式(d=4$)は特別な場合である。
我々の解は線型空間を形成する。
これはスペクトルパラメータを含めるのに役立ちます。
潜在的な応用について論じる。
Bethe Ansatz was discoverd in 1932. Half a century later its algebraic structure was unearthed: Yang-Baxter equation was discovered, as well as its multidimensional generalizations [tetrahedron equation and $d$-simplex equations]. Here we describe a universal method to solve these equations using Clifford algebras. The Yang-Baxter equation ($d=2$), Zamalodchikov's tetrahedron equation ($d=3$) and the Bazhanov-Stroganov equation ($d=4$) are special cases. Our solutions form a linear space. This helps us to include spectral parameters. Potential applications are discussed. | 翻訳日:2024-05-09 16:24:12 公開日:2024-05-08 |
# コミュニケーション効率の良いフェデレーション学習のための一般化境界の改善
Improved Generalization Bounds for Communication Efficient Federated Learning ( http://arxiv.org/abs/2404.11754v2 ) ライセンス: Link先を確認 | Peyman Gholami, Hulya Seferoglu, | (参考訳) 本稿では,一般化境界の探索と表現学習によるフェデレーション学習の通信コストの低減に焦点をあてる。
まず、ローカルクライアントの一般化とデータ分散の不均一性(非IDシナリオ)に基づいて、1ラウンドのフェデレーション学習に限定したより厳密な一般化を特徴付ける。
また、Rラウンドフェデレーション学習における一般化とその局所的更新数(局所確率勾配勾配(SGDs))との関係を特徴付ける。
そして、一般化境界解析とこの解析の表現学習解釈に基づいて、表現抽出器(通常は初期層に対応する)の頻度の低いアグリゲーションによりより局所的な更新が、特に非イドシナリオにおいてより一般化可能なモデルの作成につながることを示す。
我々は、一般化境界と表現学習分析に基づいて、適応的局所ステップ付きフェデレートラーニング(FedALS)アルゴリズムを設計する。
FedALSはモデルの異なる部分に様々なアグリゲーション周波数を使用するため、通信コストを削減できる。
本研究は,FedALSの有効性を示す実験結果と比較した。
This paper focuses on reducing the communication cost of federated learning by exploring generalization bounds and representation learning. We first characterize a tighter generalization bound for one-round federated learning based on local clients' generalizations and heterogeneity of data distribution (non-iid scenario). We also characterize a generalization bound in R-round federated learning and its relation to the number of local updates (local stochastic gradient descents (SGDs)). Then, based on our generalization bound analysis and our representation learning interpretation of this analysis, we show for the first time that less frequent aggregations, hence more local updates, for the representation extractor (usually corresponds to initial layers) leads to the creation of more generalizable models, particularly for non-iid scenarios. We design a novel Federated Learning with Adaptive Local Steps (FedALS) algorithm based on our generalization bound and representation learning analysis. FedALS employs varying aggregation frequencies for different parts of the model, so reduces the communication cost. The paper is followed with experimental results showing the effectiveness of FedALS. | 翻訳日:2024-05-09 16:14:28 公開日:2024-05-08 |
# アクアソニック:水中データセンターの音響操作と資源管理
AquaSonic: Acoustic Manipulation of Underwater Data Center Operations and Resource Management ( http://arxiv.org/abs/2404.11815v2 ) ライセンス: Link先を確認 | Jennifer Sheldon, Weidong Zhu, Adnan Abdullah, Sri Hrushikesh Varma Bhupathiraju, Takeshi Sugawara, Kevin R. B. Butler, Md Jahidul Islam, Sara Rampazzi, | (参考訳) 水中データセンター(UDC)は、そのエネルギー効率と環境サステナビリティの恩恵により、次世代のデータストレージとして約束する。
貯水力の自然冷却特性は、孤立した水環境と水中における長距離音波伝搬は、陸域のデータセンターとは異なる独特の脆弱性を生み出す。
本研究は, 耐故障性記憶装置, 資源配分ソフトウェア, 分散ファイルシステムのUDCにおける音響インジェクション攻撃に対する特異な脆弱性を明らかにする。
UDCサーバ操作を現実的に評価することにより,水中での音響注入の能力を実証的に評価し,攻撃者が耐故障性RAID 5ストレージシステムのスループットを最大で17%削減できることを確認した。
クローズドウォーターの分析によると、攻撃者は攻撃できる
(i) 分散ファイルシステムにおいて、持続的な音響注入を2.4分で行うと、応答性が低下し、自動的にノードを除去する。
(ii) システムの信頼性を低下させるために、分散データベースのレイテンシを最大92.7%向上させる。
3) 負荷バランスマネージャは、最大74%のリソースをターゲットサーバにリダイレクトして、オーバーロードやリソースのコロケーションを強制する。
さらに,湖沼でのオープンウォーター実験を行い,商業用スピーカを用いた最大許容距離6.35mで,攻撃者が制御可能なスループット劣化を引き起こすことを発見した。
また,アコースティック・インジェクション・アタックに対する標準防御の有効性について検討し,検討した。
最後に、30秒のFIOベンチマーク実行下で、プロファイルされたハードディスクドライブのデータセットでトレーニングされた偽陽性率と98.2%のTrue Positive Rateに到達した、機械学習に基づく新しい検出システムを定式化する。
本研究は,UDCをアコースティックインジェクション攻撃から積極的に保護し,海底コンピューティングインフラのセキュリティを確保することを目的としている。
Underwater datacenters (UDCs) hold promise as next-generation data storage due to their energy efficiency and environmental sustainability benefits. While the natural cooling properties of water save power, the isolated aquatic environment and long-range sound propagation in water create unique vulnerabilities which differ from those of on-land data centers. Our research discovers the unique vulnerabilities of fault-tolerant storage devices, resource allocation software, and distributed file systems to acoustic injection attacks in UDCs. With a realistic testbed approximating UDC server operations, we empirically characterize the capabilities of acoustic injection underwater and find that an attacker can reduce fault-tolerant RAID 5 storage system throughput by 17% up to 100%. Our closed-water analyses reveal that attackers can (i) cause unresponsiveness and automatic node removal in a distributed filesystem with only 2.4 minutes of sustained acoustic injection, (ii) induce a distributed database's latency to increase by up to 92.7% to reduce system reliability, and (iii) induce load-balance managers to redirect up to 74% of resources to a target server to cause overload or force resource colocation. Furthermore, we perform open-water experiments in a lake and find that an attacker can cause controlled throughput degradation at a maximum allowable distance of 6.35 m using a commercial speaker. We also investigate and discuss the effectiveness of standard defenses against acoustic injection attacks. Finally, we formulate a novel machine learning-based detection system that reaches 0% False Positive Rate and 98.2% True Positive Rate trained on our dataset of profiled hard disk drives under 30-second FIO benchmark execution. With this work, we aim to help manufacturers proactively protect UDCs against acoustic injection attacks and ensure the security of subsea computing infrastructures. | 翻訳日:2024-05-09 16:14:28 公開日:2024-05-08 |
# システムレビューのスクリーニングプロセスの高速化に向けたLCMの利用の約束と課題
The Promise and Challenges of Using LLMs to Accelerate the Screening Process of Systematic Reviews ( http://arxiv.org/abs/2404.15667v4 ) ライセンス: Link先を確認 | Aleksi Huotala, Miikka Kuutila, Paul Ralph, Mika Mäntylä, | (参考訳) システムレビュー (SR) は、ソフトウェア工学(SE)における一般的な研究手法である。
しかし、SRの実施には平均67週間を要する。
したがって、SRプロセスの任意のステップを自動化することで、SRに関連する労力を減らすことができる。
本研究の目的は,Large Language Models (LLMs) がヒューマンスクリーニングの抽象化を簡素化し,タイトル抽出スクリーニングを自動化することでタイトル抽出スクリーニングを高速化できるかどうかを検討することである。
我々は,従来のSRからオリジナルと簡易の両方の抽象化を用いて,人間が20論文のタイトルや要約をスクリーニングする実験を行った。
GPT-3.5とGPT-4 LLMでヒトスクリーニング実験を再現し、同じスクリーニング作業を行った。
また,異なるプロンプト技術 (Zero-shot (ZS), One-shot (OS), Few-shot (FS), Few-shot with Chain-of-Thought (FS-CoT)) がLCMのスクリーニング性能を向上させるかを検討した。
最後に,LLM再生におけるプロンプトの再設計が性能改善につながるかを検討した。
テキストの単純化はスクリーニング性能を向上させるには至らなかったが、スクリーニングに使用される時間を短縮した。
審査員の科学的識字能力と研究者の地位はスクリーニング性能を予測する。
いくつかのLDMとプロンプトの組み合わせは、スクリーニングタスクにおいて人間のスクリーニングと同様に機能する。
以上の結果から, GPT-4 LLM は従来の GPT-3.5 よりも優れていたことが示唆された。
さらに、Few-shotとOne-shotのプロンプトはZero-shotのプロンプトを上回っている。
スクリーニングプロセスにおけるLLMによるテキストの簡易化は,人間のパフォーマンスを著しく向上させるものではない。
LLMをタイトル抽出スクリーニングの自動化に利用することは有望と思われるが、現在のLLMは人間のスクリーニングよりもはるかに正確ではない。
SRのスクリーニングプロセスにおけるLLMの使用を推奨するためには、さらなる研究が必要である。
将来のSR研究は、LLMスクリーニングによるより包括的な実験を可能にするために、スクリーニングデータ付き複製パッケージを公開することを推奨する。
Systematic review (SR) is a popular research method in software engineering (SE). However, conducting an SR takes an average of 67 weeks. Thus, automating any step of the SR process could reduce the effort associated with SRs. Our objective is to investigate if Large Language Models (LLMs) can accelerate title-abstract screening by simplifying abstracts for human screeners, and automating title-abstract screening. We performed an experiment where humans screened titles and abstracts for 20 papers with both original and simplified abstracts from a prior SR. The experiment with human screeners was reproduced with GPT-3.5 and GPT-4 LLMs to perform the same screening tasks. We also studied if different prompting techniques (Zero-shot (ZS), One-shot (OS), Few-shot (FS), and Few-shot with Chain-of-Thought (FS-CoT)) improve the screening performance of LLMs. Lastly, we studied if redesigning the prompt used in the LLM reproduction of screening leads to improved performance. Text simplification did not increase the screeners' screening performance, but reduced the time used in screening. Screeners' scientific literacy skills and researcher status predict screening performance. Some LLM and prompt combinations perform as well as human screeners in the screening tasks. Our results indicate that the GPT-4 LLM is better than its predecessor, GPT-3.5. Additionally, Few-shot and One-shot prompting outperforms Zero-shot prompting. Using LLMs for text simplification in the screening process does not significantly improve human performance. Using LLMs to automate title-abstract screening seems promising, but current LLMs are not significantly more accurate than human screeners. To recommend the use of LLMs in the screening process of SRs, more research is needed. We recommend future SR studies publish replication packages with screening data to enable more conclusive experimenting with LLM screening. | 翻訳日:2024-05-09 16:14:28 公開日:2024-05-08 |
# 対超流体の非局所次数パラメータ
Nonlocal order parameter of pair superfluids ( http://arxiv.org/abs/2404.15972v2 ) ライセンス: Link先を確認 | Nitya Cuzzuol, Luca Barbiero, Arianna Montorsi, | (参考訳) 順序パラメータは、量子物質を特徴づける基本的な資源を表す。
局所密度測定により導出可能な非局所秩序パラメータである奇数パリティ(英語版)を用いて,ペア超流動を厳密に定義できることが示される。
研究の例として,1次元と2次元の異なる密度のボース・ハバードモデルについて検討する。
ここでは, 相対的に強い相互作用に対して, 対超流動性を求める。
奇パリティ作用素は、系の密度とその次元によらず、そのような位相のユニークな順序パラメータとして作用する。
我々の発見を強制するために、我々は、超低温原子系において、実験的な実現がタイムリーな話題である2成分のボース・ハバード・ハミルトン系にも、我々のアプローチの一般性を確認する。
その結果, 対超流動における相関密度変動の役割に新たな光を当てた。
さらに、これらのエキゾチック相を実験的に検出し、正常な超流動相への遷移を特徴づけるための強力なツールを提供する。
Order parameters represent a fundamental resource to characterize quantum matter. We show that pair superfluids can be rigorously defined in terms of a nonlocal order parameter, named odd parity, which derivation is experimentally accessible by local density measurements. As a case of study, we first investigate a constrained Bose-Hubbard model at different densities, both in one and two spatial dimensions. Here, our analysis finds pair superfluidity for relatively strong attractive interactions. The odd parity operator acts as the unique order parameter for such phase irrespectively to the density of the system and its dimensionality. In order to enforce our finding, we confirm the generality of our approach also on a two-component Bose-Hubbard Hamiltonian, which experimental realization represents a timely topic in ultracold atomic systems. Our results shed new light on the role of correlated density fluctuations in pair superfluids. In addition, they provide a powerful tool for the experimental detection of such exotic phases and the characterization of their transition to the normal superfluid phase. | 翻訳日:2024-05-09 16:14:28 公開日:2024-05-08 |
# バイレベル最適化に基づくマルチ教師蒸留による雑音ノード分類
Noisy Node Classification by Bi-level Optimization based Multi-teacher Distillation ( http://arxiv.org/abs/2404.17875v2 ) ライセンス: Link先を確認 | Yujing Liu, Zongqian Wu, Zhengyu Lu, Ci Nie, Guoqiu Wen, Ping Hu, Xiaofeng Zhu, | (参考訳) 従来のグラフニューラルネットワーク(GNN)は通常、グラフデータは表現学習のためのクリーンなラベルを持っていると仮定するが、実際のアプリケーションではそうではない。
本稿では,二段階最適化(BO-NNC)に基づく多段階蒸留法を提案する。
具体的には、まず複数の自己教師型学習手法を用いて、多様な教師モデルの学習を行い、その後、教師の重み行列を通じて予測を集約する。
さらに,教師の重み行列を学生モデルの訓練進捗に基づいて動的に調整する二段階最適化手法を考案した。
最後に,ラベル品質を改善するためにラベル改善モジュールを設計する。
実データを用いた実験結果から,本手法は最先端の手法と比較して最適であることがわかった。
Previous graph neural networks (GNNs) usually assume that the graph data is with clean labels for representation learning, but it is not true in real applications. In this paper, we propose a new multi-teacher distillation method based on bi-level optimization (namely BO-NNC), to conduct noisy node classification on the graph data. Specifically, we first employ multiple self-supervised learning methods to train diverse teacher models, and then aggregate their predictions through a teacher weight matrix. Furthermore, we design a new bi-level optimization strategy to dynamically adjust the teacher weight matrix based on the training progress of the student model. Finally, we design a label improvement module to improve the label quality. Extensive experimental results on real datasets show that our method achieves the best results compared to state-of-the-art methods. | 翻訳日:2024-05-09 16:14:28 公開日:2024-05-08 |
# クラスター離散位相空間法による二次元相関伝播ダイナミクス
Two-dimensional correlation propagation dynamics with a cluster discrete phase-space method ( http://arxiv.org/abs/2404.18594v2 ) ライセンス: Link先を確認 | Kazuma Nagao, Seiji Yunoki, | (参考訳) 高度制御量子系の非平衡力学は、統計物理学や量子多体物理学において難しい問題であり、アナログおよびデジタル量子シミュレーションの最近の実験的発展に関係している。
本研究では,クラスタ平均場方程式を用いた一般SU($N$)スピン系に対する離散位相空間アプローチを開発し,各クラスタ内の非自明な量子相関を,個々の古典スピンに対する標準的な離散トランケートされたウィグナー近似の能力を超えて捉える。
我々の定式化は、クラスタ位相点演算子に基づいて、クラスタ位相空間変数のスケーラブルな数値サンプリングを実現し、直接積状態のノイズ変数の総数は、クラスタの有限領域への分離の選択とは無関係である。
本稿では,2次元Bose-Hubbardシステムにおける相関伝搬ダイナミクスに関する最近の実験において,クラスタ離散トランカテッドウィグナー近似 (C-dTWA) 法が重要な結果を再現できることを数値的に示す。
また,2 次元テンソルネットワーク法と2 次元テンソルネットワーク法を併用したクラスタに対する C-dTWA の結果を比較し,両手法がテンソルネットワークシミュレーションにおいてエネルギーがよく保存されている短時間領域において非常によく一致することを議論する。
一般の形でC-dTWA法を定式化するので、高次元においても孤立量子系や開量子系における様々な力学問題に適用することができる。
Nonequilibrium dynamics of highly-controlled quantum systems is a challenging issue in statistical physics and quantum many-body physics, relevant to recent experimental developments of analog and digital quantum simulations. In this work, we develop a discrete phase-space approach for general SU($N$) spin systems that utilizes cluster mean field equations, which capture non-trivial quantum correlations inside each cluster, beyond the capability of the standard discrete truncated Wigner approximation for individual classical spins. Our formalism, based on a cluster phase-point operator, makes it possible to realize scalable numerical samplings of cluster phase-space variables, where the total number of noise variables for a direct product state is independent of the choice of the separation into finite regions of clusters. We numerically demonstrate that the cluster discrete truncated Wigner approximation (C-dTWA) method can reproduce key results in a recent experiment on the correlation propagation dynamics in a two dimensional Bose-Hubbard system. We also compare the results of C-dTWA for clusters of $2\times 2$ sites with those of a two-dimensional tensor network method and discuss that both approaches agree very well in a short time region, where the energy is well conserved in the tensor network simulations. Since we formulate the C-dTWA method in a general form, it can be potentially applied to various dynamical problems in isolated and open quantum systems even in higher dimensions. | 翻訳日:2024-05-09 16:14:28 公開日:2024-05-08 |
# 単項ブロック最適化スキームと古典的後処理を組み合わせた変分量子固有解法の最適化
Better Optimization of Variational Quantum Eigensolvers by combining the Unitary Block Optimization Scheme with Classical Post-Processing ( http://arxiv.org/abs/2404.19027v2 ) ライセンス: Link先を確認 | Xiaochuan Ding, Bryan K. Clark, | (参考訳) 変分量子固有解法(VQE)は、ハミルトンの古典的に難解な基底状態を見つけるための有望なアプローチである。
Unitary Block Optimization Scheme (UBOS) は最先端のVQE方式であり、ゲートを網羅し、他のゲート環境における各ゲートの最適パラメータを求める。
UBOSは、SGD (Stochastic Gradient Descent) に対する等級によって、基底状態への収束時間を改善する。
それにもかかわらず、ショットノイズから生じる非常にノイズの多い期待値に直面して、収束率と最終的な収束エネルギーの両方に苦しむ。
ここではUBOSを改良する2つの古典的後処理手法について述べる。
ガウス過程回帰(GPR)を用いて、量子コンピュータからの原データを用いて人工的な拡張現実データを生成し、改良されたパラメータを解く際の全体的なエラーを低減する。
DROPR(Double Robust Optimization plus Rejection)を用いることで、非典型的にノイズの多いデータの外部への流出を防止し、特に誤った単一最適化ステップを発生させ、ノイズ測定に対するロバスト性を高める。
これらの手法を組み合わせることで、UBOSが3倍の誤差で到達する最終的な相対誤差をさらに削減し、追加の量子測定やサンプリングオーバーヘッドを追加することなく実現できる。
この研究は、古典的資源を用いて量子計測結果を後処理する技術を開発することにより、VQEアルゴリズムを著しく改善することを示した。
Variational Quantum Eigensolvers (VQE) are a promising approach for finding the classically intractable ground state of a Hamiltonian. The Unitary Block Optimization Scheme (UBOS) is a state-of-the-art VQE method which works by sweeping over gates and finding optimal parameters for each gate in the environment of other gates. UBOS improves the convergence time to the ground state by an order of magnitude over Stochastic Gradient Descent (SGD). It nonetheless suffers in both rate of convergence and final converged energies in the face of highly noisy expectation values coming from shot noise. Here we develop two classical post-processing techniques which improve UBOS especially when measurements have large noise. Using Gaussian Process Regression (GPR), we generate artificial augmented data using original data from the quantum computer to reduce the overall error when solving for the improved parameters. Using Double Robust Optimization plus Rejection (DROPR), we prevent outlying data which are atypically noisy from resulting in a particularly erroneous single optimization step thereby increasing robustness against noisy measurements. Combining these techniques further reduces the final relative error that UBOS reaches by a factor of three without adding additional quantum measurement or sampling overhead. This work further demonstrates that developing techniques which use classical resources to post-process quantum measurement results can significantly improve VQE algorithms. | 翻訳日:2024-05-09 16:14:28 公開日:2024-05-08 |
# 量子力学から量子ソフトウェア工学へ:歴史的レビュー
From Quantum Mechanics to Quantum Software Engineering: A Historical Review ( http://arxiv.org/abs/2404.19428v2 ) ライセンス: Link先を確認 | Giuseppe Bisicchia, Jose Garcia-Alonso, Juan M. Murillo, Antonio Brogi, | (参考訳) ヴィクター・ヒューゴの時無き観察は「その時が来たアイデアよりも強力なものはない」であり、物理学者の夢に過ぎなかった量子コンピューティングは、世界を変える可能性を秘めている。
今日の注目の高まりを理解するためには、量子コンピューティングの誕生と成長の動機を掘り下げなければならない。
量子コンピューティングの過去が現在に関する洞察を提供する一方で、未来は量子ソフトウェア工学のレンズを通して広がる可能性がある。
量子ソフトウェア工学(Quantum Software Engineering)は、その原理と方法論によって導かれる、量子コンピュータと対話し、その真の可能性を解き明かし、新たな可能性の時代に利用するための最も効果的な方法を研究する。
本稿では,現在の展望を把握し,量子コンピューティングと量子ソフトウェア工学の軌跡を予見するため,今後の研究の方向性を概説する。
そうすることで、私たちは読者(理想的にはソフトウェアエンジニアやコンピュータ科学者が量子コンピューティングの進化を続ける風景をナビゲートし、先にある軌道を予測するのに必要な洞察を読者(理想的には量子の専門知識を持っていない)に提供することを目指しています。
Victor Hugo's timeless observation, "Nothing is more powerful than an idea whose time has come", resonates today as Quantum Computing, once only a dream of a physicist, stands at the threshold of reality with the potential to revolutionise the world. To comprehend the surge of attention it commands today, one must delve into the motivations that birthed and nurtured Quantum Computing. While the past of Quantum Computing provides insights into the present, the future could unfold through the lens of Quantum Software Engineering. Quantum Software Engineering, guided by its principles and methodologies investigates the most effective ways to interact with Quantum Computers to unlock their true potential and usher in a new era of possibilities. To gain insight into the present landscape and anticipate the trajectory of Quantum Computing and Quantum Software Engineering, this paper embarks on a journey through their evolution and outlines potential directions for future research. By doing so, we aim to equip readers (ideally software engineers and computer scientists not necessarily with quantum expertise) with the insights necessary to navigate the ever-evolving landscape of Quantum Computing and anticipate the trajectories that lie ahead. | 翻訳日:2024-05-09 16:14:28 公開日:2024-05-08 |
# 大気圧ダストによるHiRISE画像検出と精錬
Detecting and Refining HiRISE Image Patches Obscured by Atmospheric Dust ( http://arxiv.org/abs/2405.04722v1 ) ライセンス: Link先を確認 | Kunal Sunil Kasodekar, | (参考訳) HiRISE (High-Resolution Imaging Science Experiment)は、火星探査機マーズ・リコネッサンスに搭載されたカメラで、火星表面の広大な領域を前例のない詳細で撮影する。
何百万ものクローズアップ画像を数分で撮影できます。
しかし、火星は、このデータ収集プロセスやパイプラインを妨害する頻繁に発生する地域や地域の塵嵐に悩まされ、努力の欠如と重要な飛行時間が失われる。
これらの画像を手動で取り除くには、大量の人力が必要である。
94.05%の精度でResnet-50で微調整されたダスト画像分類器を用いて、大気塵によって妨害されたこれらの画像を自動的にフィルタリングする。
Imagesのシームレスなフィルタリングを容易にするために、私はこれらのほこりっぽいパッチを分類して保存する予測パイプラインを設計しました。
また、Auto EncoderベースのデノイザとPix2Pix GANで、それぞれ0.75と0.99のSSIMインデックスで、部分的に妨害された画像をデノイズします。
HiRISE (High-Resolution Imaging Science Experiment) is a camera onboard the Mars Reconnaissance orbiter responsible for photographing vast areas of the Martian surface in unprecedented detail. It can capture millions of incredible closeup images in minutes. However, Mars suffers from frequent regional and local dust storms hampering this data-collection process, and pipeline, resulting in loss of effort and crucial flight time. Removing these images manually requires a large amount of manpower. I filter out these images obstructed by atmospheric dust automatically by using a Dust Image Classifier fine-tuned on Resnet-50 with an accuracy of 94.05%. To further facilitate the seamless filtering of Images I design a prediction pipeline that classifies and stores these dusty patches. I also denoise partially obstructed images using an Auto Encoder-based denoiser and Pix2Pix GAN with 0.75 and 0.99 SSIM Index respectively. | 翻訳日:2024-05-09 15:45:06 公開日:2024-05-08 |
# 言語インフォーマントから音韻を学習する
Learning Phonotactics from Linguistic Informants ( http://arxiv.org/abs/2405.04726v1 ) ライセンス: Link先を確認 | Canaan Breiss, Alexis Ross, Amani Maina-Kilaas, Roger Levy, Jacob Andreas, | (参考訳) 本稿では,情報提供者(有能な言語ユーザ)の言語受容性判断を利用して文法を学習する言語学習への対話的アプローチを提案する。
文法的な形式とデータ合成の枠組みを与えられたモデルでは、情報理論的なポリシーの1つに従ってデータポイントを反復的に選択または合成し、情報提供者に二項判定を依頼し、次のクエリに備えて独自のパラメータを更新する。
本研究は,音声学の領域におけるモデルの有効性を実証し,どの種類の音列が受け入れられるかを規定する規則を定式化し,タイプ的自然言語データと,手続き的に生成される言語を多用した2つの実験を行った。
本モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,時にはそれ以上の効率性を実現する。
We propose an interactive approach to language learning that utilizes linguistic acceptability judgments from an informant (a competent language user) to learn a grammar. Given a grammar formalism and a framework for synthesizing data, our model iteratively selects or synthesizes a data-point according to one of a range of information-theoretic policies, asks the informant for a binary judgment, and updates its own parameters in preparation for the next query. We demonstrate the effectiveness of our model in the domain of phonotactics, the rules governing what kinds of sound-sequences are acceptable in a language, and carry out two experiments, one with typologically-natural linguistic data and another with a range of procedurally-generated languages. We find that the information-theoretic policies that our model uses to select items to query the informant achieve sample efficiency comparable to, and sometimes greater than, fully supervised approaches. | 翻訳日:2024-05-09 15:45:06 公開日:2024-05-08 |
# S-EQA: Embodied Question Answeringにおける状況問合せ処理
S-EQA: Tackling Situational Queries in Embodied Question Answering ( http://arxiv.org/abs/2405.04732v1 ) ライセンス: Link先を確認 | Vishnu Sashank Dorbala, Prasoon Goyal, Robinson Piramuthu, Michael Johnston, Dinesh Manocha, Reza Ghanadhan, | (参考訳) 本研究では,家庭環境における状況問合せ (S-EQA) を用いた身体的質問回答 (EQA) の課題を提示・解決する。
従来のEQAの作業では、ターゲットオブジェクトを直接参照する単純なクエリや、それらに関連する定量化されたプロパティに対処する必要があったが、状況的クエリ(例えば、"トイレの清潔で乾燥"など)のEQAは、クエリに関連する対象オブジェクトが何であるかだけでなく、その状態に関するコンセンサスも理解する必要があるため、より難しい。
そこで本研究では,まず,LLMの出力を包み込み,独自のコンセンサスクエリ,対応するコンセンサスオブジェクト情報,予測回答のデータセットを作成する,新しいPGE方式を提案する。
PGEは、複数の意味的類似性を用いて、生成されたクエリのユニークさを維持している。
我々は,M-Turk上で大規模なユーザスタディによって生成されたデータセットを検証し,状況クエリでEQAに対処する最初のデータセットであるS-EQAとして紹介する。
ユーザ調査により,S-EQAの信頼性が確立され,生成したクエリの97.26%が回答可能であることが確認された。
逆に,LLM予測回答と人間評価回答との相関は46.2%と低いが,LLMが直接応答する能力に乏しいこと,S-EQAが間接解に対して人間検証されたコンセンサスを提供することでユーザビリティを確立していることを示唆している。
他のシミュレータと異なり,S-EQAの定量的ベンチマークの設定を可能にするため,S-EQAを視覚的に異なる状態の複数のオブジェクトを含む,S-EQAをVisual Question Answering (VQA) で評価する。
私たちの知る限りでは、状況クエリによるEQAの導入は初めてであり、クエリ生成に生成的アプローチを使うのは今回が初めてです。
We present and tackle the problem of Embodied Question Answering (EQA) with Situational Queries (S-EQA) in a household environment. Unlike prior EQA work tackling simple queries that directly reference target objects and quantifiable properties pertaining them, EQA with situational queries (such as "Is the bathroom clean and dry?") is more challenging, as the agent needs to figure out not just what the target objects pertaining to the query are, but also requires a consensus on their states to be answerable. Towards this objective, we first introduce a novel Prompt-Generate-Evaluate (PGE) scheme that wraps around an LLM's output to create a dataset of unique situational queries, corresponding consensus object information, and predicted answers. PGE maintains uniqueness among the generated queries, using multiple forms of semantic similarity. We validate the generated dataset via a large scale user-study conducted on M-Turk, and introduce it as S-EQA, the first dataset tackling EQA with situational queries. Our user study establishes the authenticity of S-EQA with a high 97.26% of the generated queries being deemed answerable, given the consensus object data. Conversely, we observe a low correlation of 46.2% on the LLM-predicted answers to human-evaluated ones; indicating the LLM's poor capability in directly answering situational queries, while establishing S-EQA's usability in providing a human-validated consensus for an indirect solution. We evaluate S-EQA via Visual Question Answering (VQA) on VirtualHome, which unlike other simulators, contains several objects with modifiable states that also visually appear different upon modification -- enabling us to set a quantitative benchmark for S-EQA. To the best of our knowledge, this is the first work to introduce EQA with situational queries, and also the first to use a generative approach for query creation. | 翻訳日:2024-05-09 15:35:21 公開日:2024-05-08 |
# Neo4jを用いたSIMON暗号のクリプトアナリシス
Cryptanalysis of the SIMON Cypher Using Neo4j ( http://arxiv.org/abs/2405.04735v1 ) ライセンス: Link先を確認 | Jonathan Cook, Sabih ur Rehman, M. Arif Khan, | (参考訳) モノのインターネット(IoT)デバイス数の増加は、いくつかの軽量暗号化アルゴリズム(LEA)を導入している。
LEAは、IoTデバイスによって収集され送信されるデータの整合性、プライバシ、セキュリティを高めるように設計されていますが、すべてのLEAが安全であり、同様のレベルの保護を持っていると仮定するのは危険です。
暗号化強度を改善するために、暗号分析者やアルゴリズム設計者は、様々な暗号解析技術を用いて、LEAの脆弱性と限界を特定するために、定期的にLEAを探索する。
近年, ヒューリスティック法と部分差分分布表(PDDT)を用いた暗号解析の効率化が進んでいるが, 再現性を阻害するヒューリスティックのランダムな性質は残っていない。
しかし、PDDTを用いることで、知識グラフを用いた微分間の関係を識別する機会が得られ、PDDT全体の効率的な経路が特定される。
本稿では,SIMON LEA における差分間の複雑な関係を識別するための知識グラフを新たに導入し,差分全体の最適経路を同定し,SIMON の差分セキュリティ解析の有効性を高めることを提案する。
The exponential growth in the number of Internet of Things (IoT) devices has seen the introduction of several Lightweight Encryption Algorithms (LEA). While LEAs are designed to enhance the integrity, privacy and security of data collected and transmitted by IoT devices, it is hazardous to assume that all LEAs are secure and exhibit similar levels of protection. To improve encryption strength, cryptanalysts and algorithm designers routinely probe LEAs using various cryptanalysis techniques to identify vulnerabilities and limitations of LEAs. Despite recent improvements in the efficiency of cryptanalysis utilising heuristic methods and a Partial Difference Distribution Table (PDDT), the process remains inefficient, with the random nature of the heuristic inhibiting reproducible results. However, the use of a PDDT presents opportunities to identify relationships between differentials utilising knowledge graphs, leading to the identification of efficient paths throughout the PDDT. This paper introduces the novel use of knowledge graphs to identify intricate relationships between differentials in the SIMON LEA, allowing for the identification of optimal paths throughout the differentials, and increasing the effectiveness of the differential security analyses of SIMON. | 翻訳日:2024-05-09 15:35:21 公開日:2024-05-08 |
# 野生におけるマルチモーダルな再識別のためのフレームワーク
All in One Framework for Multimodal Re-identification in the Wild ( http://arxiv.org/abs/2405.04741v1 ) ライセンス: Link先を確認 | He Li, Mang Ye, Ming Zhang, Bo Du, | (参考訳) ReID(Re-identification)において、最近の進歩は、非モーダルおよびクロスモーダル検索タスクにおいて注目すべき進歩をもたらす。
しかし、この課題は、RGB、赤外線、スケッチ、テキスト情報を含む様々なマルチモーダルデータを効果的に処理できる統一されたフレームワークの開発に継続する。
さらに、大規模モデルの出現は、様々なビジョンタスクにおいて有望なパフォーマンスを示すが、ReIDの基盤モデルはまだ空白である。
これらの課題に対応するため、ReIDのための新しいマルチモーダル学習パラダイムであるAll-in-One(AIO)を導入し、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。
AIOの多様なマルチモーダルデータはシームレスに統一された空間にトークン化され、モダリティ共有冷凍エンコーダは全てのモダリティにわたって包括的にアイデンティティ一貫性のある特徴を抽出することができる。
さらに、学習軌跡を導くために、細心の注意を払ってモダリティヘッドのアンサンブルを設計する。
AIO はオールインワン ReID を実行するための \textbf{first} フレームワークで、4つのよく使われるモダリティを含んでいる。
クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、難解な状況でも優れており、ゼロショットやドメインの一般化シナリオにおける例外的なパフォーマンスを示していることが明らかになった。
In Re-identification (ReID), recent advancements yield noteworthy progress in both unimodal and cross-modal retrieval tasks. However, the challenge persists in developing a unified framework that could effectively handle varying multimodal data, including RGB, infrared, sketches, and textual information. Additionally, the emergence of large-scale models shows promising performance in various vision tasks but the foundation model in ReID is still blank. In response to these challenges, a novel multimodal learning paradigm for ReID is introduced, referred to as All-in-One (AIO), which harnesses a frozen pre-trained big model as an encoder, enabling effective multimodal retrieval without additional fine-tuning. The diverse multimodal data in AIO are seamlessly tokenized into a unified space, allowing the modality-shared frozen encoder to extract identity-consistent features comprehensively across all modalities. Furthermore, a meticulously crafted ensemble of cross-modality heads is designed to guide the learning trajectory. AIO is the \textbf{first} framework to perform all-in-one ReID, encompassing four commonly used modalities. Experiments on cross-modal and multimodal ReID reveal that AIO not only adeptly handles various modal data but also excels in challenging contexts, showcasing exceptional performance in zero-shot and domain generalization scenarios. | 翻訳日:2024-05-09 15:35:21 公開日:2024-05-08 |
# SVD-AE:協調フィルタリングのための簡易オートエンコーダ
SVD-AE: Simple Autoencoders for Collaborative Filtering ( http://arxiv.org/abs/2405.04746v1 ) ライセンス: Link先を確認 | Seoyoung Hong, Jeongwhan Choi, Yeon-Chang Lee, Srijan Kumar, Noseong Park, | (参考訳) 推薦システムのための協調フィルタリング(CF)法は、行列分解やオートエンコーダに基づく手法からグラフフィルタリング法まで幅広い研究がなされている。
近年,学習をほとんど必要としない軽量な手法が提案されている。
しかし、既存の手法には、精度、効率、堅牢性の間のトレードオフを改善する余地がある。
特に、上記のトレードオフの観点からは、emph{ Balanced} CF についてよく設計された閉形式研究は存在しない。
本稿では,単純だが有効である特異ベクトル分解(SVD)に基づく線形自己エンコーダであるSVD-AEを設計し,その閉形式解をCFのSVDに基づいて定義する。
SVD-AEは、クローズドフォームの解を一度に計算できるため、反復的なトレーニングプロセスを必要としない。
さらに,評価行列のノイズ特性を考慮し,既存のCF法とSVD-AEのノイズ相互作用に対するロバスト性について検討する。
その結果,提案手法は,提案手法のノイズロバスト性を高めつつ,効率を向上する上で有効であることを示した。
コードはhttps://github.com/seoyoungh/svd-ae.comで入手できる。
Collaborative filtering (CF) methods for recommendation systems have been extensively researched, ranging from matrix factorization and autoencoder-based to graph filtering-based methods. Recently, lightweight methods that require almost no training have been recently proposed to reduce overall computation. However, existing methods still have room to improve the trade-offs among accuracy, efficiency, and robustness. In particular, there are no well-designed closed-form studies for \emph{balanced} CF in terms of the aforementioned trade-offs. In this paper, we design SVD-AE, a simple yet effective singular vector decomposition (SVD)-based linear autoencoder, whose closed-form solution can be defined based on SVD for CF. SVD-AE does not require iterative training processes as its closed-form solution can be calculated at once. Furthermore, given the noisy nature of the rating matrix, we explore the robustness against such noisy interactions of existing CF methods and our SVD-AE. As a result, we demonstrate that our simple design choice based on truncated SVD can be used to strengthen the noise robustness of the recommendation while improving efficiency. Code is available at https://github.com/seoyoungh/svd-ae. | 翻訳日:2024-05-09 15:35:21 公開日:2024-05-08 |
# AttacKG+:大規模言語モデルを用いた攻撃知識グラフ構築
AttacKG+:Boosting Attack Knowledge Graph Construction with Large Language Models ( http://arxiv.org/abs/2405.04753v1 ) ライセンス: Link先を確認 | Yongheng Zhang, Tingwen Du, Yunshan Ma, Xiang Wang, Yi Xie, Guozheng Yang, Yuliang Lu, Ee-Chien Chang, | (参考訳) 攻撃知識グラフ構築は、テキストサイバー脅威インテリジェンス(CTI)レポートを構造化された表現に変換し、サイバー攻撃の進化の痕跡を表現しようとしている。
過去の研究では、攻撃知識グラフを構築するための様々な方法が提案されているが、それらは一般的に、様々な知識タイプへの限定的な一般化能力と、モデル設計とチューニングにおける専門知識の要求に悩まされている。
これらの制約に対処するため、言語理解とゼロショットタスク実行の両方において例外的な能力を持つ幅広いタスクにおいて大きな成功を収めたLarge Language Models (LLMs) の利用を模索している。
そこで本研究では,アタックKG+という攻撃知識グラフを構築するための,完全に自動LLMベースのフレームワークを提案する。
我々のフレームワークは,リライティング,パーサ,識別子,要約という4つの連続的なモジュールから構成される。
さらに、既存の攻撃知識スキーマをアップグレードし、包括的なバージョンを提案する。
我々はサイバー攻撃を時間的に展開するイベントとして表現し、それぞれの時間ステップは、行動グラフ、MITRE TTPラベル、状態概要を含む3つの表現層をカプセル化する。
徹底的な評価は、次のように示している。
1)我々の定式化は脅威事象分析に必要な情報をシームレスに満足する。
2)我々の建設枠組みは, AttacKG+で定義された情報を忠実かつ正確に抽出する上で有効である。
3)アタックグラフは,アタックリコンストラクションなどの下流のセキュリティプラクティスを直接的に活用する。
すべてのコードとデータセットは、受け入れ次第リリースされる。
Attack knowledge graph construction seeks to convert textual cyber threat intelligence (CTI) reports into structured representations, portraying the evolutionary traces of cyber attacks. Even though previous research has proposed various methods to construct attack knowledge graphs, they generally suffer from limited generalization capability to diverse knowledge types as well as requirement of expertise in model design and tuning. Addressing these limitations, we seek to utilize Large Language Models (LLMs), which have achieved enormous success in a broad range of tasks given exceptional capabilities in both language understanding and zero-shot task fulfillment. Thus, we propose a fully automatic LLM-based framework to construct attack knowledge graphs named: AttacKG+. Our framework consists of four consecutive modules: rewriter, parser, identifier, and summarizer, each of which is implemented by instruction prompting and in-context learning empowered by LLMs. Furthermore, we upgrade the existing attack knowledge schema and propose a comprehensive version. We represent a cyber attack as a temporally unfolding event, each temporal step of which encapsulates three layers of representation, including behavior graph, MITRE TTP labels, and state summary. Extensive evaluation demonstrates that: 1) our formulation seamlessly satisfies the information needs in threat event analysis, 2) our construction framework is effective in faithfully and accurately extracting the information defined by AttacKG+, and 3) our attack graph directly benefits downstream security practices such as attack reconstruction. All the code and datasets will be released upon acceptance. | 翻訳日:2024-05-09 15:35:21 公開日:2024-05-08 |
# BiasKG:大規模言語モデルでバイアスを誘発する逆知識グラフ
BiasKG: Adversarial Knowledge Graphs to Induce Bias in Large Language Models ( http://arxiv.org/abs/2405.04756v1 ) ライセンス: Link先を確認 | Chu Fei Luo, Ahmad Ghawanmeh, Xiaodan Zhu, Faiza Khan Khattak, | (参考訳) 現代の大規模言語モデル (LLM) は、十分な量の世界知識を持ち、コモンセンス推論や知識集約的なタスクを適切に活用することで、高いパフォーマンスを実現している。
言語モデルは、社会的バイアスも学べるが、これは社会的な害をもたらす大きな可能性を秘めている。
LLMの安全性には多くの緩和策が提案されているが、それが社会的偏見の排除にどの程度効果があるかは定かではない。
本研究では,知識グラフを付加した言語モデルに対する新たな手法を提案する。
自然言語のステレオタイプを知識グラフにリファクタリングし、敵攻撃戦略を用いて、複数のオープンソースおよびクローズドソース言語モデルからバイアス応答を誘導する。
我々の手法は、安全ガードレールで訓練された者でさえ、すべてのモデルのバイアスを増加させる。
これにより、AIの安全性に関するさらなる研究の必要性が示され、この新たな敵空間におけるさらなる研究の必要性が示される。
Modern large language models (LLMs) have a significant amount of world knowledge, which enables strong performance in commonsense reasoning and knowledge-intensive tasks when harnessed properly. The language model can also learn social biases, which has a significant potential for societal harm. There have been many mitigation strategies proposed for LLM safety, but it is unclear how effective they are for eliminating social biases. In this work, we propose a new methodology for attacking language models with knowledge graph augmented generation. We refactor natural language stereotypes into a knowledge graph, and use adversarial attacking strategies to induce biased responses from several open- and closed-source language models. We find our method increases bias in all models, even those trained with safety guardrails. This demonstrates the need for further research in AI safety, and further work in this new adversarial space. | 翻訳日:2024-05-09 15:35:21 公開日:2024-05-08 |
# ハニーファイル・カモフラージュ(動画)
Honeyfile Camouflage: Hiding Fake Files in Plain Sight ( http://arxiv.org/abs/2405.04758v1 ) ライセンス: Link先を確認 | Roelien C. Timmer, David Liebowitz, Surya Nepal, Salil S. Kanhere, | (参考訳) ハニーファイルは特に有用なタイプのハニーポットであり、悪意のある振る舞いから情報を検知して推測するためにデプロイされた偽のファイルである。
本稿では,ハニーファイルの命名の課題について考察する。
意味ベクトル空間における余弦距離に基づいて、ファイル名カモフラージュのための2つの指標を開発する。
私たちはメトリクスを評価して比較し、どちらも公開のGitHubソフトウェアリポジトリデータセットでうまく機能していることを示す。
Honeyfiles are a particularly useful type of honeypot: fake files deployed to detect and infer information from malicious behaviour. This paper considers the challenge of naming honeyfiles so they are camouflaged when placed amongst real files in a file system. Based on cosine distances in semantic vector spaces, we develop two metrics for filename camouflage: one based on simple averaging and one on clustering with mixture fitting. We evaluate and compare the metrics, showing that both perform well on a publicly available GitHub software repository dataset. | 翻訳日:2024-05-09 15:35:21 公開日:2024-05-08 |
# スペクトル正規化結合エネルギーを用いたマルチラベル分布検出
Multi-Label Out-of-Distribution Detection with Spectral Normalized Joint Energy ( http://arxiv.org/abs/2405.04759v1 ) ライセンス: Link先を確認 | Yihan Mei, Xinyu Wang, Dell Zhang, Xiaoling Wang, | (参考訳) 今日の相互接続の世界では、信頼性の高いアウト・オブ・ディストリビューション(OOD)検出を実現することが、マシンラーニングモデルにとって大きな課題となっている。
多くの研究がマルチクラスOOD検出タスクの改善アプローチを導入しているが、マルチラベルOOD検出タスクの研究は顕著に限られている。
エネルギーベース関数の理論的に正当化された概念を通じて,複数のラベルにまたがるラベル固有情報を集約する手法であるスペクトル正規化結合エネルギー(SNoJoE)を紹介する。
トレーニング過程を通じて,モデルの特徴空間を管理するためにスペクトル正規化を用い,モデルの有効性と一般化を高め,ロバスト性を高める。
以上の結果から, スペクトル正規化を結合エネルギースコアに適用することにより, OOD検出能力が向上することが示唆された。
我々は,PASCAL-VOCを分布内データセットとし,ImageNet-22KまたはTextureを分布外データセットとしてOOD検出実験を行う。
実験結果から,SNoJoEは従来のトップパフォーマンスと比較して,各OODデータセットにおけるFPR95の11%と54%の相対的な減少を達成し,この領域における新たな最先端技術の定義が得られた。
In today's interconnected world, achieving reliable out-of-distribution (OOD) detection poses a significant challenge for machine learning models. While numerous studies have introduced improved approaches for multi-class OOD detection tasks, the investigation into multi-label OOD detection tasks has been notably limited. We introduce Spectral Normalized Joint Energy (SNoJoE), a method that consolidates label-specific information across multiple labels through the theoretically justified concept of an energy-based function. Throughout the training process, we employ spectral normalization to manage the model's feature space, thereby enhancing model efficacy and generalization, in addition to bolstering robustness. Our findings indicate that the application of spectral normalization to joint energy scores notably amplifies the model's capability for OOD detection. We perform OOD detection experiments utilizing PASCAL-VOC as the in-distribution dataset and ImageNet-22K or Texture as the out-of-distribution datasets. Our experimental results reveal that, in comparison to prior top performances, SNoJoE achieves 11% and 54% relative reductions in FPR95 on the respective OOD datasets, thereby defining the new state of the art in this field of study. | 翻訳日:2024-05-09 15:35:21 公開日:2024-05-08 |
# サイバーセキュリティのための大規模言語モデル: 体系的文献レビュー
Large Language Models for Cyber Security: A Systematic Literature Review ( http://arxiv.org/abs/2405.04760v1 ) ライセンス: Link先を確認 | HanXiang Xu, ShenAo Wang, Ningke Li, Yanjie Zhao, Kai Chen, Kailong Wang, Yang Liu, Ting Yu, HaoYu Wang, | (参考訳) 大規模言語モデル(LLM)の急速な進歩は、サイバーセキュリティを含むさまざまな領域で人工知能を活用する新たな機会を開いた。
サイバー脅威の量と高度化が進むにつれ、脆弱性を自動的に検出し、マルウェアを分析し、攻撃に応答するインテリジェントシステムの必要性が高まっている。
本調査では,LLMのサイバーセキュリティ(LLM4Security)への適用に関する文献を概観する。
30万件以上の関連論文を包括的に収集し、トップセキュリティとソフトウェアエンジニアリングの会場から127件の論文を体系的に分析することで、LLMがサイバーセキュリティ領域の様々な問題を解決するためにどのように使われているのか、全体像を提供することを目指している。
分析により,いくつかの重要な知見が得られた。
まず、脆弱性検出、マルウェア分析、ネットワーク侵入検出、フィッシング検出など、幅広いサイバーセキュリティタスクにLLMが適用されていることを観察する。
第2に、これらのタスクにおけるLSMのトレーニングと評価に使用されるデータセットは、サイズと多様性に制限されることが少なく、より包括的で代表的なデータセットの必要性を強調している。
第3に、細調整、転送学習、ドメイン固有の事前トレーニングなど、特定のサイバーセキュリティドメインにLLMを適用するための有望なテクニックをいくつか特定する。
最後に、LLM4Securityにおける今後の研究の課題と機会について論じる。その中には、より解釈可能で説明可能なモデルの必要性、データのプライバシとセキュリティの問題に対処することの重要性、積極的に防御と脅威ハンティングにLLMを活用する可能性などが含まれる。
本調査では,LLM4Securityの現状を概観し,今後の研究に期待できるいくつかの方向性を明らかにした。
The rapid advancement of Large Language Models (LLMs) has opened up new opportunities for leveraging artificial intelligence in various domains, including cybersecurity. As the volume and sophistication of cyber threats continue to grow, there is an increasing need for intelligent systems that can automatically detect vulnerabilities, analyze malware, and respond to attacks. In this survey, we conduct a comprehensive review of the literature on the application of LLMs in cybersecurity (LLM4Security). By comprehensively collecting over 30K relevant papers and systematically analyzing 127 papers from top security and software engineering venues, we aim to provide a holistic view of how LLMs are being used to solve diverse problems across the cybersecurity domain. Through our analysis, we identify several key findings. First, we observe that LLMs are being applied to a wide range of cybersecurity tasks, including vulnerability detection, malware analysis, network intrusion detection, and phishing detection. Second, we find that the datasets used for training and evaluating LLMs in these tasks are often limited in size and diversity, highlighting the need for more comprehensive and representative datasets. Third, we identify several promising techniques for adapting LLMs to specific cybersecurity domains, such as fine-tuning, transfer learning, and domain-specific pre-training. Finally, we discuss the main challenges and opportunities for future research in LLM4Security, including the need for more interpretable and explainable models, the importance of addressing data privacy and security concerns, and the potential for leveraging LLMs for proactive defense and threat hunting. Overall, our survey provides a comprehensive overview of the current state-of-the-art in LLM4Security and identifies several promising directions for future research. | 翻訳日:2024-05-09 15:35:21 公開日:2024-05-08 |
# Rydberg-atom Sensorを用いたULF, VLF, LFフィールドの高感度計測
High sensitivity measurement of ULF, VLF and LF fields with Rydberg-atom sensor ( http://arxiv.org/abs/2405.04761v1 ) ライセンス: Link先を確認 | Mingwei Lei, Meng Shi, | (参考訳) メガヘルツ以下の周波数の磁場は、容器の内面に吸着したアルカリ金属原子によって引き起こされる低周波電界遮蔽効果により、リドベルク原子に基づく測定では困難である。
本稿では, 並列電極を内蔵したCs気相セルにおけるULF, VLF, LF帯の電界測定について検討する。
印加直流電界の最適化により,Rydberg-atom センサによる1kHz,10kHz,100kHzの周波数での電界の高感度検出が可能となり,それぞれ18.0{\mu}V/cm,6.9{\mu}V/cm,3.0{\mu}V/cmの最低電界強度が得られた。
対応する感度はULF、VLF、LFの5.7 {\mu}V/cm/{\sqrt{Hz}}、2.2 {\mu}V/cm/{\sqrt{Hz}}、および0.95 {\mu}V/cm/{\sqrt{Hz}}である。
さらに、Rydberg-atomセンサーの線形ダイナミックレンジは50dB以上である。
この研究は、ULF、VLF、LFフィールドで原子センシング技術を利用するより多くのアプリケーションを可能にする可能性を示す。
Fields with frequencies below megahertz are challenging for Rydberg-atom-based measurements, due to the low-frequency electric field screening effect that is caused by the alkali-metal atoms adsorbed on the inner surface of the container. In this paper, we investigate on electric fields measurements in the ULF, VLF and LF bands in a Cs vapor cell with built-in parallel electrodes. With optimization of the applied DC field, we achieve high-sensitive detection of the electric field at frequencies of 1kHz, 10kHz and 100kHz based on Rydberg-atom sensor, with the minimum electric field strength down to 18.0{\mu}V/cm, 6.9{\mu}V/cm and 3.0{\mu}V/cm, respectively. The corresponding sensitivity is 5.7 {\mu}V/cm/{\sqrt{Hz}}, 2.2{\mu}V/cm/{\sqrt{Hz}} and 0.95{\mu}V/cm/{\sqrt{Hz}} for ULF, VLF and LF fields, which is better than 1-cm dipole antenna. Besides, the linear dynamic range of Rydberg-atom sensor is over 50 dB. This work presents the potential to enable more applications that utilize atomic sensing technology in ULF, VLF and LF fields. | 翻訳日:2024-05-09 15:35:21 公開日:2024-05-08 |
# 適応オミッションを許容するほぼ最適なコンセンサス:なぜランダム性が必要なのか?
Nearly-Optimal Consensus Tolerating Adaptive Omissions: Why is a Lot of Randomness is Needed? ( http://arxiv.org/abs/2405.04762v1 ) ライセンス: Link先を確認 | Mohammad T. Hajiaghayi, Dariusz R. Kowalski, Jan Olkowski, | (参考訳) 同期分散システムにおいて,通信リンクから障害当事者への通信がメッセージの送信を省略できる場合,$n$の自律的パーティによる合意に達するという問題について検討する。
障害当事者は、適応的で完全な情報、計算に縛られない敵によって選択され、制御される。
我々は、$O(\sqrt{n}\log^2 n)$ラウンドで動作するランダム化アルゴリズムを設計し、$O(n^2\log^3 n)$通信ビットを送信する。
したがって、Abraham et al (PODC'19) と $\Omega (\sqrt{n/\log n})$ は Bar-Joseph と Ben-Or (PODC'98) によるラウンド数に対する下界である。
また、通信の複雑さを(ほぼ)最適に保ちながら、時間的複雑さをある値に減らすのに、どの程度のランダム性が必要か、十分な量を定量化します。
我々は、MCアルゴリズムが$O(R)$のランダムソースへの呼び出しを使用する場合、$\Omega(\frac{n^2}{\max\{R,n\}\log n})$のラウンドで動作できないことを証明した。
これは、多項式計算時間に制限された逆数に対するコンセンサスに関する長い研究とは対照的であり、暗号プリミティブを破ることができず、Ghinea et al (EUROCRYPT'22) の論文で、確率1-(cr)^{-r}$の最適$O(r)$ラウンド解が与えられる。
我々の下界は、敵が計算的に非有界である場合、そのような結果を排除することによって、これらの2つの条件を厳密に分離する。
上界側では、$R\in\tilde{O}(n^{3/2})$に対して、高確率での$\tilde{O}(\frac{n^2}{R})$ラウンドにおけるコンセンサスを解くアルゴリズムが存在する。
アルゴリズムの通信複雑性はランダムネスの量R$に依存しず、多対数係数で最適である。
We study the problem of reaching agreement in a synchronous distributed system by $n$ autonomous parties, when the communication links from/to faulty parties can omit messages. The faulty parties are selected and controlled by an adaptive, full-information, computationally unbounded adversary. We design a randomized algorithm that works in $O(\sqrt{n}\log^2 n)$ rounds and sends $O(n^2\log^3 n)$ communication bits, where the number of faulty parties is $\Theta(n)$. Our result is simultaneously tight for both these measures within polylogarithmic factors: due to the $\Omega(n^2)$ lower bound on communication by Abraham et al. (PODC'19) and $\Omega(\sqrt{n/\log n})$ lower bound on the number of rounds by Bar-Joseph and Ben-Or (PODC'98). We also quantify how much randomness is necessary and sufficient to reduce time complexity to a certain value, while keeping the communication complexity (nearly) optimal. We prove that no MC algorithm can work in less than $\Omega(\frac{n^2}{\max\{R,n\}\log n})$ rounds if it uses less than $O(R)$ calls to a random source, assuming a constant fraction of faulty parties. This can be contrasted with a long line of work on consensus against an {\em adversary limited to polynomial computation time}, thus unable to break cryptographic primitives, culminating in a work by Ghinea et al. (EUROCRYPT'22), where an optimal $O(r)$-round solution with probability $1-(cr)^{-r}$ is given. Our lower bound strictly separates these two regimes, by excluding such results if the adversary is computationally unbounded. On the upper bound side, we show that for $R\in\tilde{O}(n^{3/2})$ there exists an algorithm solving consensus in $\tilde{O}(\frac{n^2}{R})$ rounds with high probability, where tilde notation hides a polylogarithmic factor. The communication complexity of the algorithm does not depend on the amount of randomness $R$ and stays optimal within polylogarithmic factor. | 翻訳日:2024-05-09 15:35:21 公開日:2024-05-08 |
# ゲルマニウム-シリコン単光子アバランシェダイオードを用いた集積シリコンフォトニクスにおける室温フォトニック量子コンピューティング
Room-temperature photonic quantum computing in integrated silicon photonics with germanium-silicon single-photon avalanche diodes ( http://arxiv.org/abs/2405.04763v1 ) ライセンス: Link先を確認 | Neil Na, Chou-Yun Hsu, Erik Chen, Richard Soref, | (参考訳) 光量子コンピューティング(PQC)は、温度<4KのNbをベースとした超伝導ナノワイヤ単光子検出器(SNSPD)に依存しており、室温で最近実証された通常のGeSi SPADに基づいて300KのSi導波路集積GeSi単光子アバランシェダイオード(SPAD)を解析し、その性能がPQCの一連の測定基準でSNSPDと競合していることを示し、ダークカウント率(DCR)の問題を解決する。
これらのGeSi SPADは、空間多重M折り畳み導波路アレイをMSPADに配置することにより、光子数分解アバランシェダイオード(PNRAD)となる。
このPQCアーキテクチャでは、オンチップの波動誘導自発4波混合(SFWM)と波動誘導フィールドプログラマブルインターフェロメータメッシュ(FPIM)回路を用い、室内温度での高速量子コンピューティングを予測した。
Most, if not all, photonic quantum computing (PQC) relies upon superconducting nanowire single-photon detectors (SNSPDs) based on Nb operated at a temperature < 4 K. This paper proposes and analyzes 300 K Si-waveguide-integrated GeSi single-photon avalanche diodes (SPADs) based on the recently demonstrated normal-incidence GeSi SPADs operated at room temperature, and shows that their performance is competitive against that of SNSPDs in a series of metrics for PQC with a reasonable time-gating window to resolve the issue of dark-count rate (DCR). These GeSi SPADs become photon-number-resolving avalanche diodes (PNRADs) by deploying a spatially multiplexed M-fold-waveguide array of M SPADs. Using on-chip waveguided spontaneous four-wave mixing (SFWM) sources and waveguided field-programmable interferometer mesh (FPIM) circuits, together with the high-metric SPADs and PNRADs, high-performance quantum computing at room temperature is predicted for this PQC architecture. | 翻訳日:2024-05-09 15:35:21 公開日:2024-05-08 |
# Foresight Pruningがゼロ階最適化に遭遇:低メモリデバイスのための効率的なフェデレーションラーニング
When Foresight Pruning Meets Zeroth-Order Optimization: Efficient Federated Learning for Low-Memory Devices ( http://arxiv.org/abs/2405.04765v1 ) ライセンス: Link先を確認 | Pengyu Zhang, Yingjie Liu, Yingbo Zhou, Xiao Du, Xian Wei, Ting Wang, Mingsong Chen, | (参考訳) Federated Learning(FL)は、AIoT(Artificial Intelligence of Things)設計での協調学習を可能にするが、メモリ使用量が多いため、低メモリのAIoTデバイスでは動作しない。
この問題に対処するために、推論時のメモリ使用量を削減するために、様々なフェデレートプルーニング手法を提案する。
しかし、刈り込みや訓練の際の記憶負担を大幅に軽減できるものはほとんどない。
代替として、ゼロ階数またはバックプロパゲーションフリー(BP-Free)法はメモリ消費を部分的に軽減できるが、モデルパラメータの次元が大きくなるにつれて勾配推定誤差と浮動小数点演算(FLOP)が増加するため、スケールアップと計算オーバーヘッドの増大に悩まされる。
本稿では,Nutral Tangent Kernel(NTK)に基づくフェデレートされたフォレストプルーニング手法を提案する。
ローカルNTK行列を用いて,フェデレートされたNTKの計算を近似する。
さらに,本手法のデータフリー特性は,極端なデータ不均一性シナリオにおける近似誤差を大幅に低減できることを示した。
提案手法は, FLOPの少ないバニラBP-Free法の性能を向上し, トレーニングや推論の際のメモリ圧力を本当に軽減するので, FLを低メモリデバイスに親しみやすくする。
シミュレーションおよび実検層ベースプラットフォームから得られた総合的な実験結果から、我々のフェデレートされたフォアストライニング法は、メモリを9倍に減らした高密度モデルの能力を維持できるだけでなく、FLOPを劇的に減らしたバニラBP-Free法の性能も向上することを示した。
Although Federated Learning (FL) enables collaborative learning in Artificial Intelligence of Things (AIoT) design, it fails to work on low-memory AIoT devices due to its heavy memory usage. To address this problem, various federated pruning methods are proposed to reduce memory usage during inference. However, few of them can substantially mitigate the memory burdens during pruning and training. As an alternative, zeroth-order or backpropagation-free (BP-Free) methods can partially alleviate the memory consumption, but they suffer from scaling up and large computation overheads, since the gradient estimation error and floating point operations (FLOPs) increase as the dimensionality of the model parameters grows. In this paper, we propose a federated foresight pruning method based on Neural Tangent Kernel (NTK), which can seamlessly integrate with federated BP-Free training frameworks. We present an approximation to the computation of federated NTK by using the local NTK matrices. Moreover, we demonstrate that the data-free property of our method can substantially reduce the approximation error in extreme data heterogeneity scenarios. Since our approach improves the performance of the vanilla BP-Free method with fewer FLOPs and truly alleviates memory pressure during training and inference, it makes FL more friendly to low-memory devices. Comprehensive experimental results obtained from simulation- and real test-bed-based platforms show that our federated foresight-pruning method not only preserves the ability of the dense model with a memory reduction up to 9x but also boosts the performance of the vanilla BP-Free method with dramatically fewer FLOPs. | 翻訳日:2024-05-09 15:35:21 公開日:2024-05-08 |
# モーションパッチを用いた3次元運動言語モデルのための視覚変換器の探索
Exploring Vision Transformers for 3D Human Motion-Language Models with Motion Patches ( http://arxiv.org/abs/2405.04771v1 ) ライセンス: Link先を確認 | Qing Yu, Mikihiro Tanaka, Kent Fujiwara, | (参考訳) 3次元の人の動きと言語の間に、クロスモーダルな潜伏空間を構築するためには、大規模で高品質な人の動きデータを取得することが不可欠である。
しかし、画像データの豊富さと異なり、動きデータの不足は既存の動き言語モデルの性能を制限している。
これに対応するために,動作系列の新たな表現である「動きパッチ」を導入し,画像領域から有用な知識を抽出し,動作領域に適用することを目的とした移動符号化機として視覚変換器(ViT)を提案する。
これらの動きパッチは、運動配列の身体部分に基づいて骨格関節を分割して分類することによって作成され、様々な骨格構造に対して堅牢であり、ViTのカラー画像パッチとみなすことができる。
2次元画像データを用いたトレーニングにより得られたViTの事前学習により、動作解析の性能が向上し、限られた動きデータの問題に対処するための有望な方向を示すことが判明した。
広範にわたる実験により,テキスト・ツー・モーション検索のベンチマークにおいて,ViTと共同で提案した動作パッチが最先端のパフォーマンスを達成し,また,クロススケルトン認識,ゼロショットモーション分類,人間のインタラクション認識など,現在データ不足によって妨げられている新たな課題が示された。
To build a cross-modal latent space between 3D human motion and language, acquiring large-scale and high-quality human motion data is crucial. However, unlike the abundance of image data, the scarcity of motion data has limited the performance of existing motion-language models. To counter this, we introduce "motion patches", a new representation of motion sequences, and propose using Vision Transformers (ViT) as motion encoders via transfer learning, aiming to extract useful knowledge from the image domain and apply it to the motion domain. These motion patches, created by dividing and sorting skeleton joints based on body parts in motion sequences, are robust to varying skeleton structures, and can be regarded as color image patches in ViT. We find that transfer learning with pre-trained weights of ViT obtained through training with 2D image data can boost the performance of motion analysis, presenting a promising direction for addressing the issue of limited motion data. Our extensive experiments show that the proposed motion patches, used jointly with ViT, achieve state-of-the-art performance in the benchmarks of text-to-motion retrieval, and other novel challenging tasks, such as cross-skeleton recognition, zero-shot motion classification, and human interaction recognition, which are currently impeded by the lack of data. | 翻訳日:2024-05-09 15:35:21 公開日:2024-05-08 |
# ハイパーグラフ強化デュアル半教師付きグラフ分類
Hypergraph-enhanced Dual Semi-supervised Graph Classification ( http://arxiv.org/abs/2405.04773v1 ) ライセンス: Link先を確認 | Wei Ju, Zhengyang Mao, Siyu Yi, Yifang Qin, Yiyang Gu, Zhiping Xiao, Yifan Wang, Xiao Luo, Ming Zhang, | (参考訳) 本稿では,限定ラベル付きグラフと豊富なラベル付きグラフを用いたシナリオにおいて,グラフのカテゴリを正確に予測することを目的とした半教師付きグラフ分類について検討する。
グラフニューラルネットワーク(GNN)の有望な能力にもかかわらず、彼らは通常、多くのコストのかかるラベル付きグラフを必要とする。
さらに、GNNは本来、メッセージパッシング機構を用いたローカル近隣情報の符号化に限られており、ノード間の高次依存関係をモデル化する能力が欠如している。
これらの課題に対処するために,ハイパーグラフと線グラフの観点からグラフ意味を抽出する半教師付きグラフ分類のためのハイパーグラフ拡張DuALフレームワークHEALを提案する。
具体的には、ノード間の高次関係をよりよく探求するため、ペア関係を超えた複雑なノード依存を適応的に学習するハイパーグラフ構造を設計する。
一方、学習したハイパーグラフに基づいて、ハイパーエッジ間の相互作用を捉える線グラフを導入し、基盤となるセマンティック構造をよりよくマイニングする。
最後に,2つの分野間の知識伝達を容易にし,相互指導を向上する関係整合性学習を開発する。
実世界のグラフデータセットに対する大規模な実験により,既存の最先端手法に対する提案手法の有効性が検証された。
In this paper, we study semi-supervised graph classification, which aims at accurately predicting the categories of graphs in scenarios with limited labeled graphs and abundant unlabeled graphs. Despite the promising capability of graph neural networks (GNNs), they typically require a large number of costly labeled graphs, while a wealth of unlabeled graphs fail to be effectively utilized. Moreover, GNNs are inherently limited to encoding local neighborhood information using message-passing mechanisms, thus lacking the ability to model higher-order dependencies among nodes. To tackle these challenges, we propose a Hypergraph-Enhanced DuAL framework named HEAL for semi-supervised graph classification, which captures graph semantics from the perspective of the hypergraph and the line graph, respectively. Specifically, to better explore the higher-order relationships among nodes, we design a hypergraph structure learning to adaptively learn complex node dependencies beyond pairwise relations. Meanwhile, based on the learned hypergraph, we introduce a line graph to capture the interaction between hyperedges, thereby better mining the underlying semantic structures. Finally, we develop a relational consistency learning to facilitate knowledge transfer between the two branches and provide better mutual guidance. Extensive experiments on real-world graph datasets verify the effectiveness of the proposed method against existing state-of-the-art methods. | 翻訳日:2024-05-09 15:35:21 公開日:2024-05-08 |
# 思慮の連鎖:計画におけるCoTの分析
Chain of Thoughtlessness: An Analysis of CoT in Planning ( http://arxiv.org/abs/2405.04776v1 ) ライセンス: Link先を確認 | Kaya Stechly, Karthik Valmeekam, Subbarao Kambhampati, | (参考訳) 推論問題におけるLLM(Large Language Model)のパフォーマンスは通常、分布から一般化しない。
従来の研究では、この問題は、解決手順の列の例を含むようにプロンプトを変更することで緩和できると主張してきた。
本稿では,古典的計画領域であるBlocksworldの問題点に対する考察の連鎖を事例として,2つの軸にまたがる2つの最先端LCMの性能,即時的な例の一般化,各プロンプトでクエリされた問題の複雑さについて考察する。
我々の問題は非常に単純であるが、これらのプロンプトが問題クラスに特化している場合にのみ、一連の思考プロンプトから有意義なパフォーマンス改善が見出され、クエリ特定スタックのサイズnが、例に示すスタックのサイズよりも大きくなるにつれて、これらの改善は急速に悪化する。
この結果から,CoTの性能改善は,従来の文献の主張とは対照的に,実演による一般的なアルゴリズム手順の学習に起因するものではなく,高度にエンジニアリング上の問題のあるプロンプトに依存していることが示唆された。
これは特に、パフォーマンス向上の可能性と、正しい推論トレースを持つ例を生成するのに必要な人的労働の量との激しいトレードオフのために、思考の連鎖の欠点を浮き彫りにする。
Large language model (LLM) performance on reasoning problems typically does not generalize out of distribution. Previous work has claimed that this can be mitigated by modifying prompts to include examples with chains of thought--demonstrations of solution procedures--with the intuition that it is possible to in-context teach an LLM an algorithm for solving the problem. This paper presents a case study of chain of thought on problems from Blocksworld, a classical planning domain, and examine the performance of two state-of-the-art LLMs across two axes: generality of examples given in prompt, and complexity of problems queried with each prompt. While our problems are very simple, we only find meaningful performance improvements from chain of thought prompts when those prompts are exceedingly specific to their problem class, and that those improvements quickly deteriorate as the size n of the query-specified stack grows past the size of stacks shown in the examples. Our results hint that, contrary to previous claims in the literature, CoT's performance improvements do not stem from the model learning general algorithmic procedures via demonstrations and depend on carefully engineering highly problem specific prompts. This spotlights drawbacks of chain of thought, especially because of the sharp tradeoff between possible performance gains and the amount of human labor necessary to generate examples with correct reasoning traces. | 翻訳日:2024-05-09 15:24:34 公開日:2024-05-08 |
# 会話インタフェースにおけるマルチモーダルによる共感
Empathy Through Multimodality in Conversational Interfaces ( http://arxiv.org/abs/2405.04777v1 ) ライセンス: Link先を確認 | Mahyar Abbasian, Iman Azimi, Mohammad Feli, Amir M. Rahmani, Ramesh Jain, | (参考訳) エージェントは、複雑なユーザ環境をナビゲートするマルチモーダル機能に基づく、Large Language Models(LLM)とGenerative AIの最も新興のアプリケーションのひとつである。
この主要な例である会話型健康エージェント(CHA)は、感情的な知性を組み込むためにテキスト分析を超越したニュアンスなサポートを提供することで、医療を再定義している。
本稿では、豊かなマルチモーダル対話のためのLCMベースのCHAについて紹介する。
マルチモーダルな手がかりを解析することにより、ユーザの感情状態に順応的に解釈し、応答し、文脈的に認識され、共感的に反響する音声応答を提供する。
我々の実装は万能なopenCHAフレームワークを活用しており、包括的な評価には、悲しみ、怒り、喜びといった様々な感情のトーンで表される中立的なプロンプトが関係している。
提案したCHAの計画能力の一貫性と再現性を評価する。
さらに、人間の評価者はCHAの共感的成果を批判し、CHAのアウトプットと評価者の評価との間に顕著な一致を示した。
これらの結果は、CHAが構築した共感的つながりを強化し、対話的で思いやりのあるデジタルヘルスソリューションの最前線に位置づける上で、声(soon multimodal)感情認識が不可欠であることを裏付けるものである。
Agents represent one of the most emerging applications of Large Language Models (LLMs) and Generative AI, with their effectiveness hinging on multimodal capabilities to navigate complex user environments. Conversational Health Agents (CHAs), a prime example of this, are redefining healthcare by offering nuanced support that transcends textual analysis to incorporate emotional intelligence. This paper introduces an LLM-based CHA engineered for rich, multimodal dialogue-especially in the realm of mental health support. It adeptly interprets and responds to users' emotional states by analyzing multimodal cues, thus delivering contextually aware and empathetically resonant verbal responses. Our implementation leverages the versatile openCHA framework, and our comprehensive evaluation involves neutral prompts expressed in diverse emotional tones: sadness, anger, and joy. We evaluate the consistency and repeatability of the planning capability of the proposed CHA. Furthermore, human evaluators critique the CHA's empathic delivery, with findings revealing a striking concordance between the CHA's outputs and evaluators' assessments. These results affirm the indispensable role of vocal (soon multimodal) emotion recognition in strengthening the empathetic connection built by CHAs, cementing their place at the forefront of interactive, compassionate digital health solutions. | 翻訳日:2024-05-09 15:24:34 公開日:2024-05-08 |
# エッジ情報のプログレッシブ埋め込みによる実世界顔超解像のための教師学習ネットワーク
Teacher-Student Network for Real-World Face Super-Resolution with Progressive Embedding of Edge Information ( http://arxiv.org/abs/2405.04778v1 ) ライセンス: Link先を確認 | Zhilei Liu, Chenggong Zhang, | (参考訳) 合成データセットで訓練された伝統的な顔超解像法(FSR)は通常、現実世界の顔画像に対する一般化能力に乏しい。
近年の研究では、複雑な劣化モデルやトレーニングネットワークを用いて、実際の劣化過程をシミュレートしているが、これは、生成された低解像度画像と実際の低解像度画像の間にまだ存在する領域差により、これらの手法の性能が制限されている。
さらに、ドメインギャップが存在するため、合成データと実データを用いて同時に超解像モデルのトレーニングを行う場合、対象ドメインのセマンティック特徴情報が影響を受ける可能性がある。
本研究では, 実データと合成データの領域ギャップを考慮し, 繰り返しネットワークの中間出力を用いて, 多様なエッジ情報を含む実世界の顔超解像教師学生モデルを提案する。
広汎な実験により,提案手法は実世界のFSRのための高品質な顔画像を得る上で,最先端の手法を超越していることが示された。
Traditional face super-resolution (FSR) methods trained on synthetic datasets usually have poor generalization ability for real-world face images. Recent work has utilized complex degradation models or training networks to simulate the real degradation process, but this limits the performance of these methods due to the domain differences that still exist between the generated low-resolution images and the real low-resolution images. Moreover, because of the existence of a domain gap, the semantic feature information of the target domain may be affected when synthetic data and real data are utilized to train super-resolution models simultaneously. In this study, a real-world face super-resolution teacher-student model is proposed, which considers the domain gap between real and synthetic data and progressively includes diverse edge information by using the recurrent network's intermediate outputs. Extensive experiments demonstrate that our proposed approach surpasses state-of-the-art methods in obtaining high-quality face images for real-world FSR. | 翻訳日:2024-05-09 15:24:34 公開日:2024-05-08 |
# CourseGPT-zh: プロンプト最適化を取り入れた知識蒸留に基づく大規模言語モデル
CourseGPT-zh: an Educational Large Language Model Based on Knowledge Distillation Incorporating Prompt Optimization ( http://arxiv.org/abs/2405.04781v1 ) ライセンス: Link先を確認 | Zheyan Qu, Lu Yin, Zitong Yu, Wenbo Wang, Xing zhang, | (参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて驚くべき能力を示しており、より高度な専門的要件を持つ専門分野への応用への関心を喚起している。
しかし、API経由のクローズドソース LLM へのアクセス制限や、大規模な高品質データセット収集の難しさは、様々なコースの教育分野における大規模言語モデルの開発に障害をもたらす。
これらの課題から,カスタマイズと低コスト展開を支援するコース指向LLMであるCourseGPT-zhを提案する。
コース固有のコーパスの包括性と多様性要件に対処するため,我々は,教科書の知識を効果的に掘り下げ,多様性を高める,迅速な最適化を取り入れた高品質な質問応答コーパス蒸留フレームワークを設計した。
また,LCM応答とユーザニーズとの整合性を考慮することで,LCM-as-Judgeに基づく離散的なプロンプト最適化手法を提案する。
最適化の間、このフレームワークはLLMのエラーフィードバックとパターンを反映し活用する能力を活用し、応答長を節約しながらユーザの要求や好みを満たすプロンプトを可能にする。
最後に,パラメータ効率の微調整を用いたオープンソースのLCMに基づいてCourseGPT-zhを得る。
実験結果から,ChatGPTの応答品質は離散的に向上し,CourseGPT-zhは専門知識質問応答において優れた専門的能力を示し,その性能は同等のオープンソースモデルよりも優れていた。
Large language models (LLMs) have demonstrated astonishing capabilities in natural language processing (NLP) tasks, sparking interest in their application to professional domains with higher specialized requirements. However, restricted access to closed-source LLMs via APIs and the difficulty in collecting massive high-quality datasets pose obstacles to the development of large language models in education fields of various courses. Given these challenges, we propose CourseGPT-zh, a course-oriented education LLM that supports customization and low-cost deployment. To address the comprehensiveness and diversity requirements of course-specific corpora, we design a high-quality question-answering corpus distillation framework incorporating prompt optimization, which effectively mines textbook knowledge and enhances its diversity. Moreover, considering the alignment of LLM responses with user needs, a novel method for discrete prompt optimization based on LLM-as-Judge is introduced. During optimization, this framework leverages the LLM's ability to reflect on and exploit error feedback and patterns, allowing for prompts that meet user needs and preferences while saving response length. Lastly, we obtain CourseGPT-zh based on the open-source LLM using parameter-efficient fine-tuning. Experimental results show that our discrete prompt optimization framework effectively improves the response quality of ChatGPT, and CourseGPT-zh exhibits strong professional capabilities in specialized knowledge question-answering, significantly outperforming comparable open-source models. | 翻訳日:2024-05-09 15:24:34 公開日:2024-05-08 |
# ゼロショット異常検出のためのデュアルイメージ強化CLIP
Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection ( http://arxiv.org/abs/2405.04782v1 ) ライセンス: Link先を確認 | Zhaoxiang Zhang, Hanqiu Deng, Jinan Bao, Xingyu Li, | (参考訳) 画像異常検出はコンピュータビジョン分野における課題である。
Vision-Languageモデルの出現、特にCLIPベースのフレームワークの台頭は、ゼロショット異常検出のための新たな道を開いた。
近年の研究では、画像と正常な記述と迅速な記述を整列させることにより、CLIPの使用について検討されている。
しかし、テキストガイダンスへの排他的依存は、しばしば不足し、追加の視覚的参照の重要性を強調している。
本研究では,統合視覚言語スコアリングシステムを活用したDual-Image Enhanced CLIPアプローチを提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
このデュアルイメージ戦略は、異常分類とローカライゼーション性能の両方を著しく強化した。
さらに我々は, 局所化機能を改良するために, 合成異常を組み込んだテスト時間適応モジュールにより, モデルを強化した。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
Image Anomaly Detection has been a challenging task in Computer Vision field. The advent of Vision-Language models, particularly the rise of CLIP-based frameworks, has opened new avenues for zero-shot anomaly detection. Recent studies have explored the use of CLIP by aligning images with normal and prompt descriptions. However, the exclusive dependence on textual guidance often falls short, highlighting the critical importance of additional visual references. In this work, we introduce a Dual-Image Enhanced CLIP approach, leveraging a joint vision-language scoring system. Our methods process pairs of images, utilizing each as a visual reference for the other, thereby enriching the inference process with visual context. This dual-image strategy markedly enhanced both anomaly classification and localization performances. Furthermore, we have strengthened our model with a test-time adaptation module that incorporates synthesized anomalies to refine localization capabilities. Our approach significantly exploits the potential of vision-language joint anomaly detection and demonstrates comparable performance with current SOTA methods across various datasets. | 翻訳日:2024-05-09 15:24:34 公開日:2024-05-08 |
# ソフトウェア開発者とエンドユーザのインタラクションに対する人間的側面の影響: 体系的文献レビュー
The Impact of Human Aspects on the Interactions Between Software Developers and End-Users in Software Engineering: A Systematic Literature Review ( http://arxiv.org/abs/2405.04787v1 ) ライセンス: Link先を確認 | Hashini Gunatilake, John Grundy, Rashina Hoda, Ingo Mueller, | (参考訳) コンテキスト: ソフトウェア工学(SE)の分野における人的側面の研究は、近年着実に普及しています。
これらの人間の側面は、本質的に対話的で協調的な分野の性質のため、SEに大きな影響を与えます。
目的:本稿では,開発者とユーザのインタラクションに影響を与える人間的側面について,体系的な文献レビュー(SLR)を行う。
このSLRの目的は、開発者とユーザ間の相互作用、それらの意味、相互関係、そして既存の研究がこれらの意味にどう対処するかを調べることで、基本的な研究の現在の展望をプロットすることである。
方法: Kitchenhamらによって提案されたガイドラインに従い,本SLRを6つのデジタルデータベースで包括的に検索し,後方および前方の積雪過程について検討した。
データ抽出のための46の一次研究を選択した。
結果:SEにおける開発者とユーザ間のインタラクションに影響を与えるさまざまな側面を特定し,相互関係を評価し,肯定的な影響と否定的効果の緩和戦略を明らかにした。
特定された研究ギャップから得られた具体的なレコメンデーションを提示する。
結論: 本研究は, 効果的な緩和戦略の導入を通じて, 開発者とユーザ間のインタラクションにおいて, ポジティブな効果を活用し, ネガティブな効果に対処することの重要性を示唆する。
これらの洞察は、ソフトウェア実践者が効果的なユーザインタラクションに役立てる可能性があり、このSLRによって提案される推奨は、研究コミュニティのさらなる人間的側面に関する研究に役立つかもしれない。
Context: Research on human aspects within the field of software engineering (SE) has been steadily gaining prominence in recent years. These human aspects have a significant impact on SE due to the inherently interactive and collaborative nature of the discipline. Objective: In this paper, we present a systematic literature review (SLR) on human aspects affecting developer-user interactions. The objective of this SLR is to plot the current landscape of primary studies by examining the human aspects that influence developer-user interactions, their implications, interrelationships, and how existing studies address these implications. Method: We conducted this SLR following the guidelines proposed by Kitchenham et al. We performed a comprehensive search in six digital databases, and an exhaustive backward and forward snowballing process. We selected 46 primary studies for data extraction. Results: We identified various human aspects affecting developer-user interactions in SE, assessed their interrelationships, identified their positive impacts and mitigation strategies for negative effects. We present specific recommendations derived from the identified research gaps. Conclusion: Our findings suggest the importance of leveraging positive effects and addressing negative effects in developer-user interactions through the implementation of effective mitigation strategies. These insights may benefit software practitioners for effective user interactions, and the recommendations proposed by this SLR may aid the research community in further human aspects related studies. | 翻訳日:2024-05-09 15:24:34 公開日:2024-05-08 |
# DiffMatch:ビジュアルランゲージガイダンスは、半教師付き変更検出器を改善
DiffMatch: Visual-Language Guidance Makes Better Semi-supervised Change Detector ( http://arxiv.org/abs/2405.04788v1 ) ライセンス: Link先を確認 | Kaiyu Li, Xiangyong Cao, Yupeng Deng, Deyu Meng, | (参考訳) Change Detection (CD) は、画像間のセマンティックな変化でピクセルを識別することを目的としている。
しかし、大量のピクセルレベルの画像に注釈を付けることは、特に人間の専門家によるピクセルレベルの比較を必要とするマルチテンポラリ画像に対して、労働集約的でコストがかかる。
ゼロショットやオープンボキャブラリなどにおける視覚言語モデル(VLM)の性能を即時推論で向上させることを考えると,VLMを利用してラベル付きデータでより良いCDを作成することが期待できる。
本稿では,VLM誘導に基づく半教師付きCD手法,すなわちDiffMatchを提案する。
DiffMatchの洞察は、VLMを使用して自由な変更ラベルを合成し、ラベルなしデータに対するさらなる監視信号を提供することである。
しかしながら、現在のほとんどのVLMは単一時間画像用に設計されており、バイ時間画像や複数時間画像に直接適用することはできない。
そこで我々はまず,VLMに基づく混合変化イベント生成(CEG)戦略を提案し,ラベルなしCDデータに擬似ラベルを付与する。
これらのVLM駆動型擬似ラベルによって提供される追加の教師付き信号は、整合正則化パラダイム(例えば FixMatch)の擬似ラベルと矛盾する可能性があるため、異なる信号源を分離するための二重投影ヘッドを提案する。
さらに、VLMによってガイドされる2つの補助セグメント化デコーダを通して、両時間画像の意味表現を明示的に分離する。
最後に、モデルが変化表現をより適切にキャプチャするために、補助枝における特徴レベルのコントラスト損失によるメトリクス認識の監視を導入する。
大規模な実験はDiffMatchの利点を示している。
例えば、DiffMatchはFixMatchベースラインをWHU-CDで+5.3 IoU、LEVIR-CDで+2.4 IoUで5%改善している。
さらに、当社のCEG戦略は、教師なしの方法で、最先端の教師なしCD手法よりもはるかに優れた性能を達成することができる。
Change Detection (CD) aims to identify pixels with semantic changes between images. However, annotating massive numbers of pixel-level images is labor-intensive and costly, especially for multi-temporal images, which require pixel-wise comparisons by human experts. Considering the excellent performance of visual language models (VLMs) for zero-shot, open-vocabulary, etc. with prompt-based reasoning, it is promising to utilize VLMs to make better CD under limited labeled data. In this paper, we propose a VLM guidance-based semi-supervised CD method, namely DiffMatch. The insight of DiffMatch is to synthesize free change labels using VLMs to provide additional supervision signals for unlabeled data. However, almost all current VLMs are designed for single-temporal images and cannot be directly applied to bi- or multi-temporal images. Motivated by this, we first propose a VLM-based mixed change event generation (CEG) strategy to yield pseudo labels for unlabeled CD data. Since the additional supervised signals provided by these VLM-driven pseudo labels may conflict with the pseudo labels from the consistency regularization paradigm (e.g. FixMatch), we propose the dual projection head for de-entangling different signal sources. Further, we explicitly decouple the bi-temporal images semantic representation through two auxiliary segmentation decoders, which are also guided by VLM. Finally, to make the model more adequately capture change representations, we introduce metric-aware supervision by feature-level contrastive loss in auxiliary branches. Extensive experiments show the advantage of DiffMatch. For instance, DiffMatch improves the FixMatch baseline by +5.3 IoU on WHU-CD and by +2.4 IoU on LEVIR-CD with 5% labels. In addition, our CEG strategy, in an un-supervised manner, can achieve performance far superior to state-of-the-art un-supervised CD methods. | 翻訳日:2024-05-09 15:24:34 公開日:2024-05-08 |
# 普遍性と二体損失:二つの粒子の有効非エルミート力学からの教訓
Universality and two-body losses: lessons from the effective non-Hermitian dynamics of two particles ( http://arxiv.org/abs/2405.04789v1 ) ライセンス: Link先を確認 | Alice Marché, Hironobu Yoshida, Alberto Nardin, Hosho Katsura, Leonardo Mazza, | (参考訳) 本研究では,1次元に閉じ込められた2つの粒子の遅延ダイナミクスについて検討した。
力学は、連続体と格子の双方で解析的に研究できる非エルミートハミルトニアンによって正確に記述されている。
粒子数の崩壊の漸近減衰速度と普遍的なパワーロー形式は、問題のパラメータ空間全体において正確に計算される。
初期状態では、2つの粒子が遠く離れているとき、セットアップ中の粒子の平均値は、時間$t$ as $t^{-1/2}$で崩壊し、2つの粒子が初期状態に重なるときに、異なるパワー則である$t^{-3/2}$が見つかる。
これらの結果は連続体でも格子でも有効であるが、後者の場合、対数補正が現れる。
We study the late-time dynamics of two particles confined in one spatial dimension and subject to two-body losses. The dynamics is exactly described by a non-Hermitian Hamiltonian that can be analytically studied both in the continuum and on a lattice. The asymptotic decay rate and the universal power-law form of the decay of the number of particles are exactly computed in the whole parameter space of the problem. When in the initial state the two particles are far apart, the average number of particles in the setup decays with time $t$ as $t^{-1/2}$; a different power law, $t^{-3/2}$, is found when the two particles overlap in the initial state. These results are valid both in the continuum and on a lattice, but in the latter case a logarithmic correction appears. | 翻訳日:2024-05-09 15:24:34 公開日:2024-05-08 |
# ゼロショットLDM誘導によるテキスト生成
Zero-shot LLM-guided Counterfactual Generation for Text ( http://arxiv.org/abs/2405.04793v1 ) ライセンス: Link先を確認 | Amrita Bhattacharjee, Raha Moraffah, Joshua Garland, Huan Liu, | (参考訳) 逆実例は、多くの自然言語処理(NLP)タスクにおけるモデル開発と評価に頻繁に使用される。
自動対物生成の手法は研究されているが、そのような手法は事前訓練された言語モデルのようなモデルに依存し、補助的、しばしばタスク固有のデータセットに基づいて微調整される。
このようなデータセットの収集と注釈付けは、反ファクト生成に重きを置いているため、実際は不可能である。
そこで本研究では,新しい問題設定である「textit{zero-shot counterfactual generation}」に焦点を当てる。
そこで本研究では,大規模言語モデル(LLM)を汎用対実例生成器として利用するための構造化手法を提案する。
近年のLCMの命令追従とテキスト理解能力は、訓練や微調整を必要とせず、ゼロショットで高品質な偽物を生成するために有効に活用できると仮定する。
自然言語処理(NLP)における様々な下流タスクに関する総合的な実験を通じて、ブラックボックスNLPモデルの評価と説明において、ゼロショット逆ファクトジェネレータとしてのLLMの有効性を実証する。
Counterfactual examples are frequently used for model development and evaluation in many natural language processing (NLP) tasks. Although methods for automated counterfactual generation have been explored, such methods depend on models such as pre-trained language models that are then fine-tuned on auxiliary, often task-specific datasets. Collecting and annotating such datasets for counterfactual generation is labor intensive and therefore, infeasible in practice. Therefore, in this work, we focus on a novel problem setting: \textit{zero-shot counterfactual generation}. To this end, we propose a structured way to utilize large language models (LLMs) as general purpose counterfactual example generators. We hypothesize that the instruction-following and textual understanding capabilities of recent LLMs can be effectively leveraged for generating high quality counterfactuals in a zero-shot manner, without requiring any training or fine-tuning. Through comprehensive experiments on various downstream tasks in natural language processing (NLP), we demonstrate the efficacy of LLMs as zero-shot counterfactual generators in evaluating and explaining black-box NLP models. | 翻訳日:2024-05-09 15:24:34 公開日:2024-05-08 |
# LLMから行動へ:階層型ロボット制御におけるブリッジとしての潜在コード
From LLMs to Actions: Latent Codes as Bridges in Hierarchical Robot Control ( http://arxiv.org/abs/2405.04798v1 ) ライセンス: Link先を確認 | Yide Shentu, Philipp Wu, Aravind Rajeswaran, Pieter Abbeel, | (参考訳) ロボット工学の階層的制御は、ハイレベルなタスクプランナと低レベルなポリシーの間をコミュニケーションするための、明確に定義されたインターフェース層の必要性に長年悩まされてきた。
LLMの出現に伴い、言語は将来的なインターフェース層として現れてきた。
しかし、これにはいくつかの制限がある。
すべてのタスクを自然言語で容易に表現可能なステップ(ダンスルーチンの実行など)に分解できる訳ではない。
さらに、ドメインシフトや破滅的な忘れが原因で、具体化されたデータのエンドツーエンドの微調整が困難になる。
我々はこれらの制限を克服するための代替アーキテクチャとして、学習可能な遅延符号をブリッジ(LCB)として導入する。
学習可能な潜在コードを使用して,LDMと低レベルのポリシのブリッジとして機能する。
これにより、LLMは言語制限に完全に制約されることなく、タスク計画の目標を柔軟に伝達することができる。
さらに、事前学習中に学習した単語トークンの埋め込みスペースを破壊することなく、エンドツーエンドの微調整を可能にする。
言語表(Language Table)とCalvin(Calvin)という2つの共通言語に基づくエージェントのベンチマーク実験により、純粋言語を推論と多段階動作を必要とするタスクのインターフェイス層として活用する'method~outperformsベースライン(w/GPT-4Vを含む)が見つかった。
Hierarchical control for robotics has long been plagued by the need to have a well defined interface layer to communicate between high-level task planners and low-level policies. With the advent of LLMs, language has been emerging as a prospective interface layer. However, this has several limitations. Not all tasks can be decomposed into steps that are easily expressible in natural language (e.g. performing a dance routine). Further, it makes end-to-end finetuning on embodied data challenging due to domain shift and catastrophic forgetting. We introduce our method -- Learnable Latent Codes as Bridges (LCB) -- as an alternate architecture to overcome these limitations. \method~uses a learnable latent code to act as a bridge between LLMs and low-level policies. This enables LLMs to flexibly communicate goals in the task plan without being entirely constrained by language limitations. Additionally, it enables end-to-end finetuning without destroying the embedding space of word tokens learned during pre-training. Through experiments on Language Table and Calvin, two common language based benchmarks for embodied agents, we find that \method~outperforms baselines (including those w/ GPT-4V) that leverage pure language as the interface layer on tasks that require reasoning and multi-step behaviors. | 翻訳日:2024-05-09 15:24:34 公開日:2024-05-08 |
# 実用的でスケーラブルな量子貯留層計算
Practical and Scalable Quantum Reservoir Computing ( http://arxiv.org/abs/2405.04799v1 ) ライセンス: Link先を確認 | Chuanzhou Zhu, Peter J. Ehlers, Hendra I. Nurdin, Daniel Soh, | (参考訳) 量子貯留層計算(Quantum Reservoir Computing)は、量子システムを利用して、前例のない効率と省エネルギーで複雑な計算課題を解決する。
本稿では, 単一モード光空洞内の2レベル原子からなる量子光学貯留層を用いた新しいQRCフレームワークを提案する。
本稿では,Jaynes-CummingsモデルとTavis-Cummingsモデルを用いて,メモリ保持と非線形データ処理の両方において従来の貯水池計算より優れるスケーラブルで実測可能な貯水池を提案する。
我々は,マッキーグラスタスクによる時系列データの予測と正方形波形の分類という2つの主要なタスクを通じて,貯水池の性能を評価する。
本研究は,非破壊的連続量子計測と多項式回帰法により支持された原子数の増加による性能の著しい向上を示すものである。
この研究は、QRCが高度な計算課題に対してスケーラブルで効率的なソリューションを提供する可能性を確認し、量子物理学と機械学習技術の統合において大きな一歩を踏み出した。
Quantum Reservoir Computing leverages quantum systems to solve complex computational tasks with unprecedented efficiency and reduced energy consumption. This paper presents a novel QRC framework utilizing a quantum optical reservoir composed of two-level atoms within a single-mode optical cavity. Employing the Jaynes-Cummings and Tavis-Cummings models, we introduce a scalable and practically measurable reservoir that outperforms traditional classical reservoir computing in both memory retention and nonlinear data processing. We evaluate the reservoir's performance through two primary tasks: the prediction of time-series data via the Mackey-Glass task and the classification of sine-square waveforms. Our results demonstrate significant enhancements in performance with increased numbers of atoms, supported by non-destructive, continuous quantum measurements and polynomial regression techniques. This study confirms the potential of QRC to offer a scalable and efficient solution for advanced computational challenges, marking a significant step forward in the integration of quantum physics with machine learning technology. | 翻訳日:2024-05-09 15:24:34 公開日:2024-05-08 |
# DeepDamageNet: 衛星画像を用いたマルチディザスター建物損傷のセグメンテーションと分類のための2段階のディープラーニングモデル
DeepDamageNet: A two-step deep-learning model for multi-disaster building damage segmentation and classification using satellite imagery ( http://arxiv.org/abs/2405.04800v1 ) ライセンス: Link先を確認 | Irene Alisjahbana, Jiawei Li, Ben, Strong, Yue Zhang, | (参考訳) 衛星画像は、災害後の建物の損傷評価において、ますます重要な役割を担っている。
残念なことに、現在の手法は手動による視覚解釈に依存しており、時間を要することが多く、精度が非常に低い。
手動による解釈の限界に対処するため、プロセスを自動化する取り組みが大幅に増加した。
本稿では, 損傷評価, セグメンテーション, 分類において, ディープラーニングモデルによる2つの重要な課題を遂行するソリューションを提案する。
各種の自然災害に曝露した建物とその被害レベルを特定するためのより良いモデルの設計競争である「xView2 Challenge」の一環として提案した結果を示す。
我々の最良のモデルは、建物識別セマンティックセグメンテーション畳み込みニューラルネットワーク(CNN)と建物損傷分類CNNを結合し、組み合わせたF1スコアは0.66で、xView2チャレンジベースラインF1スコアは0.28である。
本モデルでは比較的精度の高い建物を同定することができたが, 被害レベルの違いと災害種別の被害分布の視覚的類似性から, 各種災害種別における被害分類が困難な課題であり, 正確な予測を得るためには, 災害種別について確率的事前推定を行うことが重要であることを強調した。
Satellite imagery has played an increasingly important role in post-disaster building damage assessment. Unfortunately, current methods still rely on manual visual interpretation, which is often time-consuming and can cause very low accuracy. To address the limitations of manual interpretation, there has been a significant increase in efforts to automate the process. We present a solution that performs the two most important tasks in building damage assessment, segmentation and classification, through deep-learning models. We show our results submitted as part of the xView2 Challenge, a competition to design better models for identifying buildings and their damage level after exposure to multiple kinds of natural disasters. Our best model couples a building identification semantic segmentation convolutional neural network (CNN) to a building damage classification CNN, with a combined F1 score of 0.66, surpassing the xView2 challenge baseline F1 score of 0.28. We find that though our model was able to identify buildings with relatively high accuracy, building damage classification across various disaster types is a difficult task due to the visual similarity between different damage levels and different damage distribution between disaster types, highlighting the fact that it may be important to have a probabilistic prior estimate regarding disaster damage in order to obtain accurate predictions. | 翻訳日:2024-05-09 15:24:34 公開日:2024-05-08 |
# モノのインターネットのためのブロックチェーン - 基本、アプリケーション、課題
Blockchains for Internet of Things: Fundamentals, Applications, and Challenges ( http://arxiv.org/abs/2405.04803v1 ) ライセンス: Link先を確認 | Yusen Wu, Ye Hu, Mingzhe Chen, Yelena Yesha, Mérouane Debbah, | (参考訳) IoT(Internet of Things)サービスは、推論、自律性、制御のために、さまざまなデータのストレージ、送信、分析を必要とする。
ブロックチェーンは、分散化とセキュリティの固有の特性を持ち、コンセンサスベースのデータ共有を通じて、これらのデバイスに効率的なデータベースソリューションを提供する。
しかしながら、すべてのブロックチェーンシステムが特定のIoTアプリケーションに適している訳ではなく、プライバシの懸念から除外された方がメリットがある、という認識が不可欠です。
例えば、パブリックブロックチェーンは機密データを格納するのに適していない。
本稿では,IoTアプリケーションの拡張に適した3つのブロックチェーンについて,詳細なレビューを行う。
最初は3つのブロックチェーンシステムの基盤的な側面を掘り下げて、その強み、制限、実装ニーズを強調しました。
さらに、異なるブロックチェーンにおけるセキュリティ問題についても論じる。
その後、エッジAI、通信、ヘルスケアの3つの重要なIoT領域でブロックチェーンのアプリケーションを調査する。
さまざまなブロックチェーンをIoTに統合する上で、潜在的な課題と今後の方向性について述べています。
最終的に、この論文はブロックチェーンとIoTエコシステムのシナジーに関する包括的な視点を提供することを目的としており、関連する機会と複雑さを強調している。
Internet of Things (IoT) services necessitate the storage, transmission, and analysis of diverse data for inference, autonomy, and control. Blockchains, with their inherent properties of decentralization and security, offer efficient database solutions for these devices through consensus-based data sharing. However, it's essential to recognize that not every blockchain system is suitable for specific IoT applications, and some might be more beneficial when excluded with privacy concerns. For example, public blockchains are not suitable for storing sensitive data. This paper presents a detailed review of three distinct blockchains tailored for enhancing IoT applications. We initially delve into the foundational aspects of three blockchain systems, highlighting their strengths, limitations, and implementation needs. Additionally, we discuss the security issues in different blockchains. Subsequently, we explore the blockchain's application in three pivotal IoT areas: edge AI, communications, and healthcare. We underscore potential challenges and the future directions for integrating different blockchains in IoT. Ultimately, this paper aims to offer a comprehensive perspective on the synergies between blockchains and the IoT ecosystem, highlighting the opportunities and complexities involved. | 翻訳日:2024-05-09 15:24:34 公開日:2024-05-08 |
# NetsDBのトランスフォーマーアーキテクチャ
Transformer Architecture for NetsDB ( http://arxiv.org/abs/2405.04807v1 ) ライセンス: Link先を確認 | Subodh Kamble, Kunal Sunil Kasodekar, | (参考訳) HiRISE (High-Resolution Imaging Science Experiment)は、火星探査機マーズ・リコネッサンスに搭載されたカメラで、火星表面の広大な領域を前例のない詳細で撮影する。
何百万ものクローズアップ画像を数分で撮影できます。
しかし、火星は、このデータ収集プロセスやパイプラインを妨害する頻繁に発生する地域や地域の塵嵐に悩まされ、努力の欠如と重要な飛行時間が失われる。
これらの画像を手動で取り除くには、大量の人力が必要である。
94.05%の精度でResnet-50で微調整されたダスト画像分類器を用いて、大気塵によって妨害されたこれらの画像を自動的にフィルタリングする。
Imagesのシームレスなフィルタリングを容易にするために、私はこれらのほこりっぽいパッチを分類して保存する予測パイプラインを設計しました。
また、Auto EncoderベースのデノイザとPix2Pix GANを使って、それぞれ0.75と0.99のSSIMインデックスで部分的に妨害された画像を復調する。
HiRISE (High-Resolution Imaging Science Experiment) is a camera onboard the Mars Reconnaissance orbiter responsible for photographing vast areas of the Martian surface in unprecedented detail. It can capture millions of incredible closeup images in minutes. However, Mars suffers from frequent regional and local dust storms hampering this data-collection process, and pipeline, resulting in loss of effort and crucial flight time. Removing these images manually requires a large amount of manpower. I filter out these images obstructed by atmospheric dust automatically by using a Dust Image Classifier fine-tuned on Resnet-50 with an accuracy of 94.05%. To further facilitate the seamless filtering of Images I design a prediction pipeline that classifies and stores these dusty patches. I also denoise partially obstructed images using an Auto Encoder-based denoiser and Pix2Pix GAN with 0.75 and 0.99 SSIM Index respectively | 翻訳日:2024-05-09 15:24:34 公開日:2024-05-08 |
# ランダム化低ランク近似の一般的な誤差解析とデータ同化への応用
A general error analysis for randomized low-rank approximation with application to data assimilation ( http://arxiv.org/abs/2405.04811v1 ) ライセンス: Link先を確認 | Alexandre Scotto Di Perrotolo, Youssef Diouane, Selime Gürol, Xavier Vasseur, | (参考訳) ランダム化アルゴリズムは、多くの数値線形代数問題でうまく機能することが証明されている。
彼らの理論解析は、それらの振る舞いの保証を提供するために重要であり、この意味では、ランダム化された低ランク近似誤差の確率的解析が中心的な役割を果たす。
実際、支配的固有モードあるいは特異モードの近似のためのいくつかのランダム化法は、低ランク近似法として書き換えることができる。
しかし、多種多様なアルゴリズムにもかかわらず、それらの分析のための既存の理論フレームワークは、全てのアルゴリズムに適応しない共分散行列の特定の構造に依存している。
中心および非標準ガウス行列に対するフロベニウスノルムの低ランク近似誤差の確率的解析のための一般的な枠組みを提案する。
共分散行列上の最小の仮定の下では、予想と確率の両方の正確な境界を導出する。
我々の境界は、特性を導出し、より効率的な低ランク近似アルゴリズムをもたらす共分散行列に対する実践的な選択を動機付けることができる明確な解釈を持つ。
文献の中で最もよく使われる境界は、ここで提案された境界の特定の例として証明され、より厳密である追加の寄与がある。
データ同化に関する数値実験は、共分散行列の選択に問題構造を利用することにより、我々の限界によって提案される性能が向上することを示している。
Randomized algorithms have proven to perform well on a large class of numerical linear algebra problems. Their theoretical analysis is critical to provide guarantees on their behaviour, and in this sense, the stochastic analysis of the randomized low-rank approximation error plays a central role. Indeed, several randomized methods for the approximation of dominant eigen- or singular modes can be rewritten as low-rank approximation methods. However, despite the large variety of algorithms, the existing theoretical frameworks for their analysis rely on a specific structure for the covariance matrix that is not adapted to all the algorithms. We propose a general framework for the stochastic analysis of the low-rank approximation error in Frobenius norm for centered and non-standard Gaussian matrices. Under minimal assumptions on the covariance matrix, we derive accurate bounds both in expectation and probability. Our bounds have clear interpretations that enable us to derive properties and motivate practical choices for the covariance matrix resulting in efficient low-rank approximation algorithms. The most commonly used bounds in the literature have been demonstrated as a specific instance of the bounds proposed here, with the additional contribution of being tighter. Numerical experiments related to data assimilation further illustrate that exploiting the problem structure to select the covariance matrix improves the performance as suggested by our bounds. | 翻訳日:2024-05-09 15:24:34 公開日:2024-05-08 |
# 一般地名認識調査 : 実世界における自律性を目指して
General Place Recognition Survey: Towards Real-World Autonomy ( http://arxiv.org/abs/2405.04812v1 ) ライセンス: Link先を確認 | Peng Yin, Jianhao Jiao, Shiqi Zhao, Lingyun Xu, Guoquan Huang, Howie Choset, Sebastian Scherer, Jianda Han, | (参考訳) ロボット工学の領域では、大規模かつ長期の運用が可能な現実の自律性を達成するための探求が、位置認識(PR)を基盤技術として位置づけられている。
コンピュータビジョンやロボティクスといった分野の注目を集めている過去20年間のPRコミュニティの顕著な進歩にもかかわらず、現実のロボットシステムをサポートするPR手法の開発は依然として課題である。
本稿では、SLAM 2.0のフレームワークにおけるPRの役割を強調し、このギャップを埋めることを目的としている。
ロボットナビゲーションの新しいフェーズでは、高度な人工知能(AI)技術を統合することにより、スケーラブルで適応性があり、効率的なPRソリューションが求められている。
この目的のために、我々は、PRにおける現在の最先端(SOTA)の進歩を、残りの課題と共に包括的にレビューし、ロボット工学におけるその幅広い応用を裏付ける。
本稿はPRの定式化と重要な研究課題を探求することから始まる。
文献を概観し、場所表現に関する関連手法と様々なPR課題への解決策に焦点をあてる。
ロボット工学におけるPRの可能性を示すアプリケーション、主要なPRデータセット、オープンソースライブラリについて論じる。
また、一般PRの新しい開発とベンチマークを目的としたオープンソースパッケージも強調します。
我々は、PRの今後の方向性に関する議論を締めくくるとともに、私たちのオープンソースライブラリへのアクセスに関する文献の要約とともに、次のようにロボティクスコミュニティで公開しています。
In the realm of robotics, the quest for achieving real-world autonomy, capable of executing large-scale and long-term operations, has positioned place recognition (PR) as a cornerstone technology. Despite the PR community's remarkable strides over the past two decades, garnering attention from fields like computer vision and robotics, the development of PR methods that sufficiently support real-world robotic systems remains a challenge. This paper aims to bridge this gap by highlighting the crucial role of PR within the framework of Simultaneous Localization and Mapping (SLAM) 2.0. This new phase in robotic navigation calls for scalable, adaptable, and efficient PR solutions by integrating advanced artificial intelligence (AI) technologies. For this goal, we provide a comprehensive review of the current state-of-the-art (SOTA) advancements in PR, alongside the remaining challenges, and underscore its broad applications in robotics. This paper begins with an exploration of PR's formulation and key research challenges. We extensively review literature, focusing on related methods on place representation and solutions to various PR challenges. Applications showcasing PR's potential in robotics, key PR datasets, and open-source libraries are discussed. We also emphasizes our open-source package, aimed at new development and benchmark for general PR. We conclude with a discussion on PR's future directions, accompanied by a summary of the literature covered and access to our open-source library, available to the robotics community at: https://github.com/MetaSLAM/GPRS. | 翻訳日:2024-05-09 15:14:42 公開日:2024-05-08 |
# グラフニューラルネットワークに基づくクエリ計画表現の新しい手法
A Novel Technique for Query Plan Representation Based on Graph Neural Networks ( http://arxiv.org/abs/2405.04814v1 ) ライセンス: Link先を確認 | Baoming Chang, Amin Kamali, Verena Kantere, | (参考訳) クエリプランの学習表現は、データベース管理システムの機械学習ベースのクエリオプティマイザにおいて重要な役割を果たす。
この目的のために、木構造クエリプランを下流機械学習モデルで学習可能なフォーマットで表現に変換するために、特定のモデルアーキテクチャが文献で提案されている。
しかし、既存の研究では、これらのツリーモデルのクエリプラン表現能力と、全体的なオプティマイザの性能に対する直接的な影響を比較し、分析することはめったにない。
この問題に対処するために、我々は、比較的複雑なワークロードにおいて、最適化者のコスト推定と計画選択性能に異なる最先端ツリーモデルを使用することの効果を比較検討する。
さらに、クエリ計画表現タスクでグラフニューラルネットワーク(GNN)を使用する可能性についても検討する。
本稿では, Gated Recurrent Units (GRU) と有向GNNを組み合わせた新しいツリーモデルを提案する。
Learning representations for query plans play a pivotal role in machine learning-based query optimizers of database management systems. To this end, particular model architectures are proposed in the literature to convert the tree-structured query plans into representations with formats learnable by downstream machine learning models. However, existing research rarely compares and analyzes the query plan representation capabilities of these tree models and their direct impact on the performance of the overall optimizer. To address this problem, we perform a comparative study to explore the effect of using different state-of-the-art tree models on the optimizer's cost estimation and plan selection performance in relatively complex workloads. Additionally, we explore the possibility of using graph neural networks (GNN) in the query plan representation task. We propose a novel tree model combining directed GNN with Gated Recurrent Units (GRU) and demonstrate experimentally that the new tree model provides significant improvements to cost estimation tasks and relatively excellent plan selection performance compared to the state-of-the-art tree models. | 翻訳日:2024-05-09 15:14:42 公開日:2024-05-08 |
# ラベル抽出からのマスケッド学習による分布推定
Proportion Estimation by Masked Learning from Label Proportion ( http://arxiv.org/abs/2405.04815v1 ) ライセンス: Link先を確認 | Takumi Okuo, Kazuya Nishimura, Hiroaki Ito, Kazuhiro Terada, Akihiko Yoshizawa, Ryoma Bise, | (参考訳) 全腫瘍細胞の総数に対するPD-L1陽性腫瘍細胞の数であるPD-L1は、免疫療法において重要な指標である。
この指標は病理画像による診断情報として記録される。
本稿では,ごく少量のセルレベルアノテーションとパーセンテージアノテーションを用いたパーセンテージ推定手法を提案する。
PD-L1は「腫瘍細胞」のみから算出され、「非腫瘍細胞」を使用しないため、まず腫瘍細胞を検出モデルを用いて検出する。
そして,ラベル比から学習するマスキング手法を導入することにより,PD-L1比を推定する。
また,データ不均衡問題に対処するため,重み付き焦点比損失を提案する。
臨床データを用いた実験により,本手法の有効性が示された。
我々の方法は比較で最高の成績を収めた。
The PD-L1 rate, the number of PD-L1 positive tumor cells over the total number of all tumor cells, is an important metric for immunotherapy. This metric is recorded as diagnostic information with pathological images. In this paper, we propose a proportion estimation method with a small amount of cell-level annotation and proportion annotation, which can be easily collected. Since the PD-L1 rate is calculated from only `tumor cells' and not using `non-tumor cells', we first detect tumor cells with a detection model. Then, we estimate the PD-L1 proportion by introducing a masking technique to `learning from label proportion.' In addition, we propose a weighted focal proportion loss to address data imbalance problems. Experiments using clinical data demonstrate the effectiveness of our method. Our method achieved the best performance in comparisons. | 翻訳日:2024-05-09 15:14:42 公開日:2024-05-08 |
# ACORN: Aspect-wise Commonsense Reasoning Explanation Evaluation
ACORN: Aspect-wise Commonsense Reasoning Explanation Evaluation ( http://arxiv.org/abs/2405.04818v1 ) ライセンス: Link先を確認 | Ana Brassard, Benjamin Heinzerling, Keito Kudo, Keisuke Sakaguchi, Kentaro Inui, | (参考訳) 自由文の説明を評価することは多面的、主観的、労働集約的な課題である。
大規模言語モデル(LLM)は、一貫性、スケーラビリティ、コスト効率の面で魅力的な代替手段である。
本研究では,3500のフリーテキストの説明とアスペクトワイドな品質評価のデータセットであるACORNを紹介し,LCMが説明を評価する方法についての洞察を得るために利用した。
人間の評価の1つを置き換えることは、時々維持されるが、より多くは、異なる設定と品質の側面でアノテーション間の合意を低くし、その判断が常に人間のレーダと一致しているとは限らないことを示唆している。
また,LLMによる評価と評価結果の相関性を比較することで,この差を定量化した。
最高の系では、スピアマンのランク相関は0.53から0.95の範囲であり、平均的なアスペクトは0.72であり、適度に高いが不完全なアライメントを示している。
最後に,人間のレーダが不足している場合,LDMを追加のレーダとして用いる方法を検討するとともに,従来のゴールドラベルと比較して,ヒトプールに限定した多数発声ラベルとLDMを付加のレーダとして用いた場合の相関を調べた。
GPT-4は、ヒトのラッカーが2つしかない場合に改善したが、他のすべての観察例では、LDMは3つ以上のヒトのラッカーがある場合、有害に中立であった。
LLM-in-the-loop評価の今後の改善をサポートするために、データセットを公開しています。
Evaluating free-text explanations is a multifaceted, subjective, and labor-intensive task. Large language models (LLMs) present an appealing alternative due to their potential for consistency, scalability, and cost-efficiency. In this work, we present ACORN, a new dataset of 3,500 free-text explanations and aspect-wise quality ratings, and use it to gain insights into how LLMs evaluate explanations. We observed that replacing one of the human ratings sometimes maintained, but more often lowered the inter-annotator agreement across different settings and quality aspects, suggesting that their judgments are not always consistent with human raters. We further quantified this difference by comparing the correlation between LLM-generated ratings with majority-voted human ratings across different quality aspects. With the best system, Spearman's rank correlation ranged between 0.53 to 0.95, averaging 0.72 across aspects, indicating moderately high but imperfect alignment. Finally, we considered the alternative of using an LLM as an additional rater when human raters are scarce, and measured the correlation between majority-voted labels with a limited human pool and LLMs as an additional rater, compared to the original gold labels. While GPT-4 improved the outcome when there were only two human raters, in all other observed cases, LLMs were neutral to detrimental when there were three or more human raters. We publicly release the dataset to support future improvements in LLM-in-the-loop evaluation here: https://github.com/a-brassard/ACORN. | 翻訳日:2024-05-09 15:14:42 公開日:2024-05-08 |
# DALK: LLMとKGの動的併用によるアルツハイマー病問題への科学的回答
DALK: Dynamic Co-Augmentation of LLMs and KG to answer Alzheimer's Disease Questions with Scientific Literature ( http://arxiv.org/abs/2405.04819v1 ) ライセンス: Link先を確認 | Dawei Li, Shu Yang, Zhen Tan, Jae Young Baik, Sunkwon Yun, Joseph Lee, Aaron Chacko, Bojian Hou, Duy Duong-Tran, Ying Ding, Huan Liu, Li Shen, Tianlong Chen, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々なアプリケーションで有望なパフォーマンスを実現している。
それでも、長い知識を統合するという継続的な課題は、専門分野におけるLLMのシームレスな採用を妨げるものとなっている。
本研究は, LLMs と KG の動的共増強(Dynamic Co-Augmentation of LLMs and KG)である DALK を導入し, この限界に対処し, バイオメディシンの専門的サブフィールドであるアルツハイマー病(AD)の研究におけるその能力を実証する。
LLMとKGの相乗化フレームワークを相互に強化し、まずLLMを利用して、AD関連科学文献から得られたAD固有知識グラフ(KG)を構築する。
ADQA(ADQA)ベンチマークを用いて,DALKの有効性を実証した。
さらに我々は,KG と LLM を相互に強化する新たなトピックについて,貴重な洞察とガイドラインを提供するための詳細な分析を行う。
コードとデータはhttps://github.com/David-Li0406/DALK.comで公開します。
Recent advancements in large language models (LLMs) have achieved promising performances across various applications. Nonetheless, the ongoing challenge of integrating long-tail knowledge continues to impede the seamless adoption of LLMs in specialized domains. In this work, we introduce DALK, a.k.a. Dynamic Co-Augmentation of LLMs and KG, to address this limitation and demonstrate its ability on studying Alzheimer's Disease (AD), a specialized sub-field in biomedicine and a global health priority. With a synergized framework of LLM and KG mutually enhancing each other, we first leverage LLM to construct an evolving AD-specific knowledge graph (KG) sourced from AD-related scientific literature, and then we utilize a coarse-to-fine sampling method with a novel self-aware knowledge retrieval approach to select appropriate knowledge from the KG to augment LLM inference capabilities. The experimental results, conducted on our constructed AD question answering (ADQA) benchmark, underscore the efficacy of DALK. Additionally, we perform a series of detailed analyses that can offer valuable insights and guidelines for the emerging topic of mutually enhancing KG and LLM. We will release the code and data at https://github.com/David-Li0406/DALK. | 翻訳日:2024-05-09 15:14:42 公開日:2024-05-08 |
# APrompt4EM: 汎用エンティティマッチングのための拡張されたプロンプトチューニング
APrompt4EM: Augmented Prompt Tuning for Generalized Entity Matching ( http://arxiv.org/abs/2405.04820v1 ) ライセンス: Link先を確認 | Yikuan Xia, Jiazun Chen, Xinchi Li, Jun Gao, | (参考訳) 汎用エンティティマッチング(GEM)は、異なるフォーマットで表される2つのレコードが同じ現実世界のエンティティを指すかどうかを判断することを目的としており、データ管理において必須のタスクである。
最近のPromptEMモデルを含む事前学習言語モデル(PLM)の迅速なチューニングパラダイムは、実用的なアプリケーションにおける低リソースGEMの課題に効果的に対処し、ラベル付きデータが乏しい場合に堅牢なソリューションを提供する。
しかし、GEMの既存のプロンプトチューニングモデルは、迅速な設計と情報ギャップの課題に直面している。
本稿では,2つの主な改善点からなる課題に対する拡張的プロンプトチューニングフレームワークを提案する。
ひとつは、PLMのプロンプトチューニングのための導出ソフトトークンの利点を抽出する拡張文脈型ソフトトークンベースのプロンプトチューニング法であり、もうひとつは、大規模言語モデル(LLM)を活用したコスト効率の高い情報拡張戦略である。
当社のアプローチは、低リソースのGEM課題に対してうまく機能します。
広汎な実験により,中規模PLM(平均5.24%+)に基づく既存手法に対する情報拡張を伴わない基本モデルの有望な進歩が示された。
Generalized Entity Matching (GEM), which aims at judging whether two records represented in different formats refer to the same real-world entity, is an essential task in data management. The prompt tuning paradigm for pre-trained language models (PLMs), including the recent PromptEM model, effectively addresses the challenges of low-resource GEM in practical applications, offering a robust solution when labeled data is scarce. However, existing prompt tuning models for GEM face the challenges of prompt design and information gap. This paper introduces an augmented prompt tuning framework for the challenges, which consists of two main improvements. The first is an augmented contextualized soft token-based prompt tuning method that extracts a guiding soft token benefit for the PLMs' prompt tuning, and the second is a cost-effective information augmentation strategy leveraging large language models (LLMs). Our approach performs well on the low-resource GEM challenges. Extensive experiments show promising advancements of our basic model without information augmentation over existing methods based on moderate-size PLMs (average 5.24%+), and our model with information augmentation achieves comparable performance compared with fine-tuned LLMs, using less than 14% of the API fee. | 翻訳日:2024-05-09 15:14:42 公開日:2024-05-08 |
# 量子エッジクラウドコンピューティング - IoTアプリケーションのための将来のパラダイム
Quantum-Edge Cloud Computing: A Future Paradigm for IoT Applications ( http://arxiv.org/abs/2405.04824v1 ) ライセンス: Link先を確認 | Mohammad Ikbal Hossain, Shaharier Arafat Sumon, Habib Md. Hasan, Fatema Akter, Md Bahauddin Badhon, Mohammad Nahid Ul Islam, | (参考訳) モノのインターネット(IoT)は急速に拡大しており、現代のIoTアプリケーションに固有のデータとセキュリティ要件を処理できる高度な計算フレームワークの必要性が生まれている。
しかし、従来のクラウドコンピューティングフレームワークは、レイテンシ、スケーラビリティ、セキュリティ上の脆弱性に悩まされてきた。
量子コンピューティング(QECC)は、量子コンピューティングの計算能力、エッジコンピューティングの低レイテンシの利点、クラウドコンピューティングのスケーラブルなリソースを組み合わせることで、これらの課題に効果的に対処する新しいパラダイムである。
本研究は,バングラデシュのスマートシティインフラストラクチャ,医療監視,産業用IoTセクターに関する文献レビュー,パフォーマンス改善,メトリクスデータに基づいて実施されている。
我々は、データの整合性を高めるための量子暗号の統合、応答時間の短縮におけるエッジコンピューティングの役割、クラウドコンピューティングのリソースの豊富さが大規模なIoTネットワークをどのようにサポートするかについて議論した。
我々は、QECCの現実的な影響を説明するために、自動運転車における量子センサーの使用などのケーススタディについて検討する。
さらに,量子耐性暗号の開発やエッジコンピューティングのための量子アルゴリズムの最適化など,今後の研究の方向性を明らかにした。
QECCにおけるこれらのテクノロジの収束は、IoTフレームワークの既存の制限を克服し、IoTアプリケーションの将来のための新しい標準を設定することを約束する。
The Internet of Things (IoT) is expanding rapidly, which has created a need for sophisticated computational frameworks that can handle the data and security requirements inherent in modern IoT applications. However, traditional cloud computing frameworks have struggled with latency, scalability, and security vulnerabilities. Quantum-Edge Cloud Computing (QECC) is a new paradigm that effectively addresses these challenges by combining the computational power of quantum computing, the low-latency benefits of edge computing, and the scalable resources of cloud computing. This study has been conducted based on a published literature review, performance improvements, and metrics data from Bangladesh on smart city infrastructure, healthcare monitoring, and the industrial IoT sector. We have discussed the integration of quantum cryptography to enhance data integrity, the role of edge computing in reducing response times, and how cloud computing's resource abundance can support large IoT networks. We examine case studies, such as the use of quantum sensors in self-driving vehicles, to illustrate the real-world impact of QECC. Furthermore, the paper identifies future research directions, including developing quantum-resistant encryption and optimizing quantum algorithms for edge computing. The convergence of these technologies in QECC promises to overcome the existing limitations of IoT frameworks and set a new standard for the future of IoT applications. | 翻訳日:2024-05-09 15:14:42 公開日:2024-05-08 |
# 透かしとしての説明:透かし特徴属性による無害・多ビットモデルオーナーシップ検証に向けて
Explanation as a Watermark: Towards Harmless and Multi-bit Model Ownership Verification via Watermarking Feature Attribution ( http://arxiv.org/abs/2405.04825v1 ) ライセンス: Link先を確認 | Shuo Shao, Yiming Li, Hongwei Yao, Yiling He, Zhan Qin, Kui Ren, | (参考訳) 現在、オーナーシップ検証は、モデル著作権を保護する最も重要で広く採用されているポストホック法である。
一般的に、モデル所有者は、ある疑わしいサードパーティモデルがそれらから盗まれているかどうかを、リリースしたモデルから‘引き継がれた’特性があるかどうかを調べるためにこれを利用します。
現在、バックドアベースのモデル透かしは、リリースされたモデルにそのような特性を埋め込む主要な方法と最先端の方法である。
しかし、バックドアベースの手法には、有害性とあいまいさの2つの致命的な欠点がある。
前者は、悪質に制御可能な誤分類行動(すなわち、バックドア)をウォーターマークされたリリースモデルに導入していることを示している。
後者は、悪意のあるユーザーが他の誤分類サンプルを見つけることによって容易に検証に合格でき、オーナーシップの曖昧さにつながることを示している。
本稿では,これらの制約は既存の透かし方式の「ゼロビット」の性質に起因していると論じる。
この理解により、モデル予測の代わりに特徴属性の説明に検証動作を埋め込む新しい透かしパラダイム、$i.e.$, Explanation as a Watermark (EaaW)を設計する。
具体的には、EaaWはオリジナルの予測を変更することなく、特定のトリガサンプルの特徴属性説明に‘multi-bit’の透かしを埋め込む。
我々は、説明可能な人工知能にインスパイアされた透かしの埋め込みと抽出アルゴリズムを設計する。
特に、我々のアプローチは異なるタスク(例:$、画像分類、テキスト生成)に使用できる。
大規模な実験により、EaaWの有効性と無害性、および潜在的攻撃に対する耐性が検証された。
Ownership verification is currently the most critical and widely adopted post-hoc method to safeguard model copyright. In general, model owners exploit it to identify whether a given suspicious third-party model is stolen from them by examining whether it has particular properties `inherited' from their released models. Currently, backdoor-based model watermarks are the primary and cutting-edge methods to implant such properties in the released models. However, backdoor-based methods have two fatal drawbacks, including harmfulness and ambiguity. The former indicates that they introduce maliciously controllable misclassification behaviors ($i.e.$, backdoor) to the watermarked released models. The latter denotes that malicious users can easily pass the verification by finding other misclassified samples, leading to ownership ambiguity. In this paper, we argue that both limitations stem from the `zero-bit' nature of existing watermarking schemes, where they exploit the status ($i.e.$, misclassified) of predictions for verification. Motivated by this understanding, we design a new watermarking paradigm, $i.e.$, Explanation as a Watermark (EaaW), that implants verification behaviors into the explanation of feature attribution instead of model predictions. Specifically, EaaW embeds a `multi-bit' watermark into the feature attribution explanation of specific trigger samples without changing the original prediction. We correspondingly design the watermark embedding and extraction algorithms inspired by explainable artificial intelligence. In particular, our approach can be used for different tasks ($e.g.$, image classification and text generation). Extensive experiments verify the effectiveness and harmlessness of our EaaW and its resistance to potential attacks. | 翻訳日:2024-05-09 15:14:42 公開日:2024-05-08 |
# ChuXin: 1.6Bテクニカルレポート
ChuXin: 1.6B Technical Report ( http://arxiv.org/abs/2405.04828v1 ) ライセンス: Link先を確認 | Xiaomin Zhuang, Yufan Jiang, Qiaozhi He, Zhihua Wu, | (参考訳) 本稿では,160億のパラメータを持つ完全にオープンソースな言語モデルであるChuXinを紹介する。
モデルの重みとアーキテクチャのみをオープンソース化したほとんどの作業とは異なり、トレーニングデータ、トレーニングプロセス、評価コードなど、モデルをトレーニングするために必要なものはすべて作成しました。
私たちのゴールは、オープンな研究コミュニティを強化し、透明性を高め、言語モデリングの分野で新しいイノベーションの波を可能にすることです。
さらに, コンテクスト長を1Mトークンに拡張し, 連続事前訓練を行い, 強力なニードル・イン・ア・ヘイスタック検索性能を示す。
両方のモデルの重量は、Hugging Faceでダウンロードと使用が可能だ。
In this report, we present ChuXin, an entirely open-source language model with a size of 1.6 billion parameters. Unlike the majority of works that only open-sourced the model weights and architecture, we have made everything needed to train a model available, including the training data, the training process, and the evaluation code. Our goal is to empower and strengthen the open research community, fostering transparency and enabling a new wave of innovation in the field of language modeling. Furthermore, we extend the context length to 1M tokens through lightweight continual pretraining and demonstrate strong needle-in-a-haystack retrieval performance. The weights for both models are available at Hugging Face to download and use. | 翻訳日:2024-05-09 15:14:42 公開日:2024-05-08 |
# インド言語のための微調整済み名前付きエンティティ認識モデル
Fine-tuning Pre-trained Named Entity Recognition Models For Indian Languages ( http://arxiv.org/abs/2405.04829v1 ) ライセンス: Link先を確認 | Sankalp Bahad, Pruthwik Mishra, Karunesh Arora, Rakesh Chandra Balabantaray, Dipti Misra Sharma, Parameswari Krishnamurthy, | (参考訳) 名前付きエンティティ認識(NER)は自然言語処理(NLP)アプリケーションにおいて有用なコンポーネントである。
機械翻訳、要約、情報検索、質問応答システムなど様々なタスクで使用されている。
NERの研究は英語やその他の主要言語を中心にしているが、インド語には限られた注意が向けられている。
インド語における多言語名前付きエンティティ認識に適した手法を提案し,課題を分析した。
主要な2つのインド語族から4つのインド語に対する40K文の注釈付きエンティティコーパスを提示する。
さらに、データセット上で微調整された多言語モデルを提案し、データセット上で平均0.80のF1スコアを達成する。
我々は、我々のモデルの有用性を裏付けるインド言語のための、全く見当たらないベンチマークデータセットにおいて、同等のパフォーマンスを達成した。
Named Entity Recognition (NER) is a useful component in Natural Language Processing (NLP) applications. It is used in various tasks such as Machine Translation, Summarization, Information Retrieval, and Question-Answering systems. The research on NER is centered around English and some other major languages, whereas limited attention has been given to Indian languages. We analyze the challenges and propose techniques that can be tailored for Multilingual Named Entity Recognition for Indian Languages. We present a human annotated named entity corpora of 40K sentences for 4 Indian languages from two of the major Indian language families. Additionally,we present a multilingual model fine-tuned on our dataset, which achieves an F1 score of 0.80 on our dataset on average. We achieve comparable performance on completely unseen benchmark datasets for Indian languages which affirms the usability of our model. | 翻訳日:2024-05-09 15:14:42 公開日:2024-05-08 |
# FlexEControl:テキスト・画像生成のための柔軟で効率的なマルチモーダル制御
FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation ( http://arxiv.org/abs/2405.04834v1 ) ライセンス: Link先を確認 | Xuehai He, Jian Zheng, Jacob Zhiyuan Fang, Robinson Piramuthu, Mohit Bansal, Vicente Ordonez, Gunnar A Sigurdsson, Nanyun Peng, Xin Eric Wang, | (参考訳) 制御可能なテキスト画像拡散モデル(T2I)は、テキストプロンプトとエッジマップのような他のモダリティのセマンティック入力の両方に条件付き画像を生成する。
しかしながら、現在の制御可能なT2I法は、特に同一または多種多様なモダリティから複数の入力を条件付けする場合、効率と忠実性に関連する課題に直面するのが一般的である。
本稿では,制御可能なT2I生成のためのフレキシブルで効率的なFlexEControlを提案する。
FlexEControlの中核にはユニークな重み分解戦略があり、様々な入力型の合理化を可能にする。
このアプローチは、生成した画像の忠実度を制御に高めるだけでなく、マルチモーダル条件付けに関連する計算オーバーヘッドを大幅に削減する。
提案手法は,Uni-ControlNetと比較して,トレーニング可能なパラメータの41%,メモリ使用率の30%の削減を実現している。
さらに、データの効率を2倍にし、様々なモードの複数の入力条件のガイダンスの下で、柔軟に画像を生成できる。
Controllable text-to-image (T2I) diffusion models generate images conditioned on both text prompts and semantic inputs of other modalities like edge maps. Nevertheless, current controllable T2I methods commonly face challenges related to efficiency and faithfulness, especially when conditioning on multiple inputs from either the same or diverse modalities. In this paper, we propose a novel Flexible and Efficient method, FlexEControl, for controllable T2I generation. At the core of FlexEControl is a unique weight decomposition strategy, which allows for streamlined integration of various input types. This approach not only enhances the faithfulness of the generated image to the control, but also significantly reduces the computational overhead typically associated with multimodal conditioning. Our approach achieves a reduction of 41% in trainable parameters and 30% in memory usage compared with Uni-ControlNet. Moreover, it doubles data efficiency and can flexibly generate images under the guidance of multiple input conditions of various modalities. | 翻訳日:2024-05-09 15:14:42 公開日:2024-05-08 |
# ブロックチェーン技術による産業用サイバー物理システム(ICPS)のデータの整合性とトレーサビリティ向上 : 包括的アプローチ
Enhancing Data Integrity and Traceability in Industry Cyber Physical Systems (ICPS) through Blockchain Technology: A Comprehensive Approach ( http://arxiv.org/abs/2405.04837v1 ) ライセンス: Link先を確認 | Mohammad Ikbal Hossain, Dr. Tanja Steigner, Muhammad Imam Hussain, Afroja Akther, | (参考訳) ブロックチェーン技術は、変革的イノベーションと称され、暗号通貨の当初の応用を超えて、はるかに大きな意味を持つ。
本研究では、産業用サイバー物理システム(ICPS)におけるデータの整合性とトレーサビリティ向上におけるブロックチェーンの可能性について検討する。
計算および物理部品の統合であるICPSは、製造、電力網、輸送ネットワークといった重要なインフラの管理において重要な役割を担っている。
しかし、セキュリティ、プライバシ、信頼性の課題に直面している。
固有の不変性、透明性、分散コンセンサスによって、ブロックチェーンはこれらの課題に対処するための画期的なアプローチを提供する。
ICPS全体で堅牢なデータ信頼性とトレーサビリティを確保し、トランザクションの透明性を高め、セキュアなデータ共有を容易にする。
この研究は、サプライチェーン管理、品質管理、コントラクト管理、データ共有など、ICPSのさまざまなブロックチェーンアプリケーションを発掘する。
各アプリケーションは、プロセスを合理化し、不正を減らし、システムの効率を向上するブロックチェーンの能力を示す。
サプライチェーン管理では、ブロックチェーンはリアルタイム監査とコンプライアンスを提供する。
品質管理のためには、防食記録を確立し、消費者の信頼を高める。
コントラクト管理では、スマートコントラクトが実行を自動化し、効率を向上します。
ブロックチェーンはまた、システムの安定性と安全性に不可欠なICPSにおけるセキュアなコラボレーションを促進する。
この研究は、拡張性、システム統合、セキュリティ脆弱性といった課題に焦点を当てた、ICPSにおけるブロックチェーンの実践的実装に関するさらなる研究の必要性を強調している。
また、ICPSにおけるブロックチェーンの経済的および組織的影響を調べて、その実現可能性と長期的なメリットを理解することも提案している。
Blockchain technology, heralded as a transformative innovation, has far-reaching implications beyond its initial application in cryptocurrencies. This study explores the potential of blockchain in enhancing data integrity and traceability within Industry Cyber-Physical Systems (ICPS), a crucial aspect in the era of Industry 4.0. ICPS, integrating computational and physical components, is pivotal in managing critical infrastructure like manufacturing, power grids, and transportation networks. However, they face challenges in security, privacy, and reliability. With its inherent immutability, transparency, and distributed consensus, blockchain presents a groundbreaking approach to address these challenges. It ensures robust data reliability and traceability across ICPS, enhancing transaction transparency and facilitating secure data sharing. This research unearths various blockchain applications in ICPS, including supply chain management, quality control, contract management, and data sharing. Each application demonstrates blockchain's capacity to streamline processes, reduce fraud, and enhance system efficiency. In supply chain management, blockchain provides real-time auditing and compliance. For quality control, it establishes tamper-proof records, boosting consumer confidence. In contract management, smart contracts automate execution, enhancing efficiency. Blockchain also fosters secure collaboration in ICPS, which is crucial for system stability and safety. This study emphasizes the need for further research on blockchain's practical implementation in ICPS, focusing on challenges like scalability, system integration, and security vulnerabilities. It also suggests examining blockchain's economic and organizational impacts in ICPS to understand its feasibility and long-term advantages. | 翻訳日:2024-05-09 15:14:42 公開日:2024-05-08 |
# xMTrans:長期交通予測のための時間減衰型クロスモーダル核融合変圧器
xMTrans: Temporal Attentive Cross-Modality Fusion Transformer for Long-Term Traffic Prediction ( http://arxiv.org/abs/2405.04841v1 ) ライセンス: Link先を確認 | Huy Quang Ung, Hao Niu, Minh-Son Dao, Shinya Wada, Atsunori Minamikawa, | (参考訳) 交通予測はインテリジェント交通システムにおいて重要な役割を担っている。
IoTデバイスの迅速な開発により、トラフィック予測に高い相関関係を持つさまざまな種類のデータを収集することが可能になり、効率的なマルチモーダルトラフィック予測モデルの開発が促進される。
これまで、交通予測にマルチモーダルデータの利点を利用する研究はほとんどない。
本稿では,2つのモーダルデータ(例えば,交通渋滞の予測)と1つのサポートモーダル(例えば,人の流れ)の時間的相関を探索する機能を備えた,長期交通予測のための時間的注意型クロスモーダルトランスモデルを提案する。
実世界のデータセットを用いた交通渋滞予測とタクシー需要予測について,提案モデルの評価実験を行った。
その結果, 長期交通予測における最近の最先端手法に対するxMTransの優位性を示した。
また,xMTransにおける各モジュールの有効性を解析するために,包括的アブレーション試験を行った。
Traffic predictions play a crucial role in intelligent transportation systems. The rapid development of IoT devices allows us to collect different kinds of data with high correlations to traffic predictions, fostering the development of efficient multi-modal traffic prediction models. Until now, there are few studies focusing on utilizing advantages of multi-modal data for traffic predictions. In this paper, we introduce a novel temporal attentive cross-modality transformer model for long-term traffic predictions, namely xMTrans, with capability of exploring the temporal correlations between the data of two modalities: one target modality (for prediction, e.g., traffic congestion) and one support modality (e.g., people flow). We conducted extensive experiments to evaluate our proposed model on traffic congestion and taxi demand predictions using real-world datasets. The results showed the superiority of xMTrans against recent state-of-the-art methods on long-term traffic predictions. In addition, we also conducted a comprehensive ablation study to further analyze the effectiveness of each module in xMTrans. | 翻訳日:2024-05-09 15:14:42 公開日:2024-05-08 |
# ラベルバランス学習としての歩行者属性認識
Pedestrian Attribute Recognition as Label-balanced Multi-label Learning ( http://arxiv.org/abs/2405.04858v1 ) ライセンス: Link先を確認 | Yibo Zhou, Hai-Miao Hu, Yirong Xiang, Xiaokang Zhang, Haotian Wu, | (参考訳) 1)ラベル不均衡:モデル予測は多数ラベルの側面に大きく傾いている;(2)セマンティクス不均衡:モデルは、その意味的多様性が不十分なため、表現されていない属性に簡単に過度に適合する。
ラベルバランスを完璧に表現するために,属性共起の呪いからラベルバランスデータを再サンプリングする新しいフレームワークを提案する。
属性のセマンティクスを多様化し,特徴雑音を緩和するために,真の分布内ノベルティを導入するためのベイズ的特徴拡張法を提案する。
両不均衡を共同で扱うことで、我々の研究は、様々な一般的なベンチマークで最高の精度を達成し、そして最も重要なことは、最小の計算予算で達成する。
Rooting in the scarcity of most attributes, realistic pedestrian attribute datasets exhibit unduly skewed data distribution, from which two types of model failures are delivered: (1) label imbalance: model predictions lean greatly towards the side of majority labels; (2) semantics imbalance: model is easily overfitted on the under-represented attributes due to their insufficient semantic diversity. To render perfect label balancing, we propose a novel framework that successfully decouples label-balanced data re-sampling from the curse of attributes co-occurrence, i.e., we equalize the sampling prior of an attribute while not biasing that of the co-occurred others. To diversify the attributes semantics and mitigate the feature noise, we propose a Bayesian feature augmentation method to introduce true in-distribution novelty. Handling both imbalances jointly, our work achieves best accuracy on various popular benchmarks, and importantly, with minimal computational budget. | 翻訳日:2024-05-09 15:14:42 公開日:2024-05-08 |
# 量子プログラムの衝突試験
Concolic Testing of Quantum Programs ( http://arxiv.org/abs/2405.04860v1 ) ライセンス: Link先を確認 | Shangzhou Xia, Jianjun Zhao, Fuyuan Zhang, Xiaoyu Guo, | (参考訳) 本稿では,量子プログラムに特化して設計された最初のココリックテストフレームワークを提案する。
このフレームワークは量子状態の量子化と量子変数の記号化方法を示す量子条件文を定義する。
このフレームワークを利用することで、量子プログラムの具体的な実行パス毎に経路制約を生成する。
これらの制約は新しい経路の探索を導くもので、量子制約ソルバが結果を決定し、新しい入力サンプルを生成し、分岐カバレッジを高める。
我々はこのフレームワークをPythonで実装し、実践的な評価のためにQiskitと統合した。
実験結果から,我々のコンコリックテストフレームワークは,量子入力サンプルのブランチカバレッジと品質を著しく向上させ,量子ソフトウェアテストの有効性と効率性を実証した。
This paper presents the first concolic testing framework specifically designed for quantum programs. The framework defines quantum conditional statements that quantify quantum states and presents a symbolization method for quantum variables. Utilizing this framework, we generate path constraints for each concrete execution path of a quantum program. These constraints guide the exploration of new paths, with a quantum constraint solver determining the outcomes to generate novel input samples and enhance branch coverage. We implemented this framework in Python and integrated it with Qiskit for practical evaluation. Experimental results demonstrate that our concolic testing framework significantly improves branch coverage and the quality of quantum input samples, demonstrating its effectiveness and efficiency in quantum software testing. | 翻訳日:2024-05-09 15:14:42 公開日:2024-05-08 |
# ディープラーニングリファクタリングに関する洞察: 実践と期待のギャップを埋めること
Insights into Deep Learning Refactoring: Bridging the Gap Between Practices and Expectations ( http://arxiv.org/abs/2405.04861v1 ) ライセンス: Link先を確認 | SiQi Wang, Xing Hu, Bei Wang, WenXin Yao, Xin Xia, XingYu Wang, | (参考訳) ディープラーニングの急速な発展に伴い、複雑なアルゴリズムの実装とデータ処理がディープラーニングプロジェクトの標準要素となっている。
その結果、ソフトウェアが進化するにつれてコードが徐々に複雑になってきており、メンテナンスと理解が難しい。
既存の研究は、リファクタリングが従来のソフトウェアの品質に与える影響を調査してきた。
しかし、ディープラーニングの文脈でコードリファクタリングの洞察はいまだに不明である。
本研究は,ディープラーニング領域におけるコードリファクタリングの現状と実践者のリファクタリングに対する見解を実証的に検証することによって,この知識ギャップを埋めようとしている。
まず最初に、人気のある5つの保守されたディープラーニングプロジェクト(例えば、PyTorch)のコミット履歴を手作業で分析しました。
歴史的コミットで4,921のリファクタリングプラクティスを掘り下げ、リファクタリング操作のさまざまなタイプや要素が分散されているかを測定しました。
そして、ディープラーニングプロジェクトにおけるコードリファクタリングに関する見解と、現在のリファクタリングツールに対する期待について、159人の実践者を調査しました。
調査の結果、ディープラーニング分野におけるリファクタリング研究と関連するツールの開発は、プロジェクトの保守性とコード品質を改善する上で不可欠であり、現在のリファクタリングツールは実践者の要求を十分に満たさないことがわかった。
最後に、リファクタリングツールの今後の進歩についての見解を提供し、開発者の開発プラクティスを提案する。
With the rapid development of deep learning, the implementation of intricate algorithms and substantial data processing have become standard elements of deep learning projects. As a result, the code has become progressively complex as the software evolves, which is difficult to maintain and understand. Existing studies have investigated the impact of refactoring on software quality within traditional software. However, the insight of code refactoring in the context of deep learning is still unclear. This study endeavors to fill this knowledge gap by empirically examining the current state of code refactoring in deep learning realm, and practitioners' views on refactoring. We first manually analyzed the commit history of five popular and well-maintained deep learning projects (e.g., PyTorch). We mined 4,921 refactoring practices in historical commits and measured how different types and elements of refactoring operations are distributed and found that refactoring operation types' distribution in deep learning projects is different from it in traditional Java software. We then surveyed 159 practitioners about their views of code refactoring in deep learning projects and their expectations of current refactoring tools. The result of the survey showed that refactoring research and the development of related tools in the field of deep learning are crucial for improving project maintainability and code quality, and that current refactoring tools do not adequately meet the needs of practitioners. Lastly, we provided our perspective on the future advancement of refactoring tools and offered suggestions for developers' development practices. | 翻訳日:2024-05-09 15:04:15 公開日:2024-05-08 |
# 微分可能な粒子フィルタのレジーム学習
Regime Learning for Differentiable Particle Filters ( http://arxiv.org/abs/2405.04865v1 ) ライセンス: Link先を確認 | John-Joseph Brady, Yuhui Luo, Wenwu Wang, Victor Elvira, Yunpeng Li, | (参考訳) 微分可能な粒子フィルタは、シーケンシャルモンテカルロ法とニューラルネットワークの柔軟性を組み合わせて状態空間推論を行う新しいモデルのクラスである。
本稿では、システムが有限の状態空間モデル、すなわちレジームを切り替える場合について述べる。
個々の体制と切り替えプロセスの両方を同時に学習する事前のアプローチは存在しない。
本稿では,ニューラルネットワークを用いた微分可能粒子フィルタ(RLPF)を提案する。
我々はさらに、RLPFや他の関連アルゴリズムのトレーニング手順を設計する。
2つの数値実験において,従来の最先端アルゴリズムと比較して,競合性能を実証した。
Differentiable particle filters are an emerging class of models that combine sequential Monte Carlo techniques with the flexibility of neural networks to perform state space inference. This paper concerns the case where the system may switch between a finite set of state-space models, i.e. regimes. No prior approaches effectively learn both the individual regimes and the switching process simultaneously. In this paper, we propose the neural network based regime learning differentiable particle filter (RLPF) to address this problem. We further design a training procedure for the RLPF and other related algorithms. We demonstrate competitive performance compared to the previous state-of-the-art algorithms on a pair of numerical experiments. | 翻訳日:2024-05-09 15:04:15 公開日:2024-05-08 |
# 機械学習アルゴリズムの性能テストを支援する悪質な産業用ネットワークトラフィックデータセットの体系的レビュー、分析、特徴付け
Systematic review, analysis, and characterisation of malicious industrial network traffic datasets for aiding Machine Learning algorithm performance testing ( http://arxiv.org/abs/2405.04866v1 ) ライセンス: Link先を確認 | Martin Dobler, Michael Hellwig, Nuno Lopes, Ken Oakley, Mike Winterburn, | (参考訳) 運用技術(OT)の補完技術としてのIndustrial Internet of Things(IIoT)の採用により、新しいレベルの標準化されたデータアクセスとプロセスの可視性を実現した。
このIT(Information Technology)、OT(OT)、IIoT(IIoT)の収束は、管理しなければならない新たなサイバーセキュリティ脆弱性やリスクも生み出している。
悪意ある活動のためにOT/IIoTネットワークを監視する強力なツールとして人工知能(AI)が登場し、非常に活発な研究領域である。
AI研究者は、ネットワークトラフィックにおける異常や悪意のあるアクティビティの検出に高度な機械学習(ML)とディープラーニング(DL)技術を適用している。
彼らは通常、提案されたアプローチのパフォーマンスを測定するために、IoT/IIoT/OTネットワークトラフィックキャプチャから派生したデータセットを使用する。
したがって、アルゴリズムテストのためのデータセットが広く必要である。
この研究は、包含された攻撃型の分類、メタデータのレビュー、および複雑性分析を含む、公開可能なネットワークトラフィックキャプチャベースのデータセットを体系的にレビューする。
各データセットは分析され、研究者に研究質問に最適なデータセットを選択するのに使用できるメタデータが提供される。
これにより、研究者は研究のための最適なデータセットを、特定の機械学習の目標に従ってより容易に選択できるため、コミュニティにさらなる利益をもたらすことができる。
The adoption of the Industrial Internet of Things (IIoT) as a complementary technology to Operational Technology (OT) has enabled a new level of standardised data access and process visibility. This convergence of Information Technology (IT), OT, and IIoT has also created new cybersecurity vulnerabilities and risks that must be managed. Artificial Intelligence (AI) is emerging as a powerful tool to monitor OT/IIoT networks for malicious activity and is a highly active area of research. AI researchers are applying advanced Machine Learning (ML) and Deep Learning (DL) techniques to the detection of anomalous or malicious activity in network traffic. They typically use datasets derived from IoT/IIoT/OT network traffic captures to measure the performance of their proposed approaches. Therefore, there is a widespread need for datasets for algorithm testing. This work systematically reviews publicly available network traffic capture-based datasets, including categorisation of contained attack types, review of metadata, and statistical as well as complexity analysis. Each dataset is analysed to provide researchers with metadata that can be used to select the best dataset for their research question. This results in an added benefit to the community as researchers can select the best dataset for their research more easily and according to their specific Machine Learning goals. | 翻訳日:2024-05-09 15:04:15 公開日:2024-05-08 |
# MIPI 2024 ハイブリッドEVSカメラのデモザイクへの挑戦:方法と結果
MIPI 2024 Challenge on Demosaic for HybridEVS Camera: Methods and Results ( http://arxiv.org/abs/2405.04867v1 ) ライセンス: Link先を確認 | Yaqi Wu, Zhihao Fan, Xiaofeng Chu, Jimmy S. Ren, Xiaoming Li, Zongsheng Yue, Chongyi Li, Shangcheng Zhou, Ruicheng Feng, Yuekun Dai, Peiqing Yang, Chen Change Loy, Senyan Xu, Zhijing Sun, Jiaying Zhu, Yurui Zhu, Xueyang Fu, Zheng-Jun Zha, Jun Cao, Cheng Li, Shu Chen, Liang Ma, Shiyang Zhou, Haijin Zeng, Kai Feng, Yongyong Chen, Jingyong Su, Xianyu Guan, Hongyuan Yu, Cheng Wan, Jiamin Lin, Binnan Han, Yajun Zou, Zhuoyuan Wu, Yuan Huang, Yongsheng Yu, Daoan Zhang, Jizhe Li, Xuanwu Yin, Kunlong Zuo, Yunfan Lu, Yijie Xu, Wenzong Ma, Weiyu Guo, Hui Xiong, Wei Yu, Bingchun Luo, Sabari Nathan, Priya Kansal, | (参考訳) モバイルプラットフォームでの計算写真や画像の需要が増大し、カメラシステムにおける高度な画像センサと新しいアルゴリズムの広範な開発と統合がもたらされた。
しかし、研究のための高品質なデータの不足と、産業や学界からの深い見解交換の機会は、モバイル・インテリジェント・フォトグラフィー・イメージング(MIPI)の開発を妨げている。
我々は,ECCV 2022とCVPR 2023で行われたMIPIワークショップの成果に基づいて,新しい画像センサと撮像アルゴリズムに着目した3つのトラックを含む第3回MIPIチャレンジを紹介した。
本稿では,MIPI 2024のナイトタイムフレア除去トラックについて概説する。
合計で170人の参加者が登録され、最終テストフェーズで14チームが結果を提出した。
この課題で開発されたソリューションは、夜間フレア除去における最先端のパフォーマンスを達成した。
この課題の詳細とデータセットへのリンクはhttps://mipi-challenge.org/MIPI2024/で確認できる。
The increasing demand for computational photography and imaging on mobile platforms has led to the widespread development and integration of advanced image sensors with novel algorithms in camera systems. However, the scarcity of high-quality data for research and the rare opportunity for in-depth exchange of views from industry and academia constrain the development of mobile intelligent photography and imaging (MIPI). Building on the achievements of the previous MIPI Workshops held at ECCV 2022 and CVPR 2023, we introduce our third MIPI challenge including three tracks focusing on novel image sensors and imaging algorithms. In this paper, we summarize and review the Nighttime Flare Removal track on MIPI 2024. In total, 170 participants were successfully registered, and 14 teams submitted results in the final testing phase. The developed solutions in this challenge achieved state-of-the-art performance on Nighttime Flare Removal. More details of this challenge and the link to the dataset can be found at https://mipi-challenge.org/MIPI2024/. | 翻訳日:2024-05-09 15:04:15 公開日:2024-05-08 |
# 負サンプリングとデダクティブクロージャフィルタによる$\mathcal{EL}^{++}$の幾何学的オントロジー埋め込みの強化
Enhancing Geometric Ontology Embeddings for $\mathcal{EL}^{++}$ with Negative Sampling and Deductive Closure Filtering ( http://arxiv.org/abs/2405.04868v1 ) ライセンス: Link先を確認 | Olga Mashkova, Fernando Zhapa-Camacho, Robert Hoehndorf, | (参考訳) オントロジーは、オントロジーにおけるクラス、関係、および個人を$\mathbb{R}^n$に埋め込み、エンティティ間の$\mathbb{R}^n$類似性を計算したり、新しい公理を推論することができる。
Description Logic $\mathcal{EL}^{++}$のオントロジーでは、オントロジーのモデルを明示的に生成するいくつかの埋め込みメソッドが開発されている。
しかし、これらの手法はいくつかの制限に悩まされており、証明不可能で証明不可能なステートメントを区別しないため、関連するステートメントを負として使用することができる。
さらに、推論されるが主張されないステートメントを特定するために、オントロジーの誘惑的なクロージャを使用しない。
我々は,概念記述の高次元球表現に基づく$\mathcal{EL}^{++}$オントロジーに対する埋め込み手法のセットを評価し,オントロジーの導出的クロージャの利用を目的としたいくつかの修正を取り入れた。
特に,還元的閉鎖と異なるタイプの負の双方を考慮に入れた新規な負の損失を設計した。
本研究では,本手法が知識ベースやオントロジー完了のタスクに埋め込まれたベースラインオントロジーよりも優れていることを示す。
Ontology embeddings map classes, relations, and individuals in ontologies into $\mathbb{R}^n$, and within $\mathbb{R}^n$ similarity between entities can be computed or new axioms inferred. For ontologies in the Description Logic $\mathcal{EL}^{++}$, several embedding methods have been developed that explicitly generate models of an ontology. However, these methods suffer from some limitations; they do not distinguish between statements that are unprovable and provably false, and therefore they may use entailed statements as negatives. Furthermore, they do not utilize the deductive closure of an ontology to identify statements that are inferred but not asserted. We evaluated a set of embedding methods for $\mathcal{EL}^{++}$ ontologies based on high-dimensional ball representation of concept descriptions, incorporating several modifications that aim to make use of the ontology deductive closure. In particular, we designed novel negative losses that account both for the deductive closure and different types of negatives. We demonstrate that our embedding methods improve over the baseline ontology embedding in the task of knowledge base or ontology completion. | 翻訳日:2024-05-09 15:04:15 公開日:2024-05-08 |
# プロンプト法における論理的否定の増大とデバイアス
Logical Negation Augmenting and Debiasing for Prompt-based Methods ( http://arxiv.org/abs/2405.04872v1 ) ライセンス: Link先を確認 | Yitian Li, Jidong Tian, Hao He, Yaohui Jin, | (参考訳) プロンプトに基づく手法は、NLPに注目が集まり、多くの下流タスクに有効であることが示されている。
多くの研究は、これらの手法の知識抽出の可能性のマイニングに重点を置いているが、論理的推論を行う能力を探る研究は少ない。
本研究では,一階論理的推論におけるプロンプトに基づく手法の有効性に着目し,そのボトルネックが論理的否定にあることを明らかにする。
論理否定は、論理否定のない命題が正の答えに相関するのに対し、論理否定は負の答えに急激な相関をもたらす傾向にある。
この問題を解決するために,パラメータを更新せずにプロンプトベースの手法に負の命題を導入する,単純で効果的なネゲーション拡張・ネゲーションデバイアス法(NAND)を提案する。
具体的には、これらの負の命題は全てのインスタンスに"not"を与え、式が論理的否定を含むかどうかによってのみ決定できないようにすることで、急激な相関に対処することができる。
3つのデータセットの実験により、NANDは論理的否定を校正する問題を解くだけでなく、モデルの再学習なしに論理的推論のプロンプトに基づく手法を大幅に強化することを示した。
Prompt-based methods have gained increasing attention on NLP and shown validity on many downstream tasks. Many works have focused on mining these methods' potential for knowledge extraction, but few explore their ability to make logical reasoning. In this work, we focus on the effectiveness of the prompt-based methods on first-order logical reasoning and find that the bottleneck lies in logical negation. Based on our analysis, logical negation tends to result in spurious correlations to negative answers, while propositions without logical negation correlate to positive answers. To solve the problem, we propose a simple but effective method, Negation Augmenting and Negation Debiasing (NAND), which introduces negative propositions to prompt-based methods without updating parameters. Specifically, these negative propositions can counteract spurious correlations by providing "not" for all instances so that models cannot make decisions only by whether expressions contain a logical negation. Experiments on three datasets show that NAND not only solves the problem of calibrating logical negation but also significantly enhances prompt-based methods of logical reasoning without model retraining. | 翻訳日:2024-05-09 15:04:15 公開日:2024-05-08 |
# 重要なインフラストラクチャ保護 - 生成AI、課題、機会
Critical Infrastructure Protection: Generative AI, Challenges, and Opportunities ( http://arxiv.org/abs/2405.04874v1 ) ライセンス: Link先を確認 | Yagmur Yigit, Mohamed Amine Ferrag, Iqbal H. Sarker, Leandros A. Maglaras, Christos Chrysoulas, Naghmeh Moradpoor, Helge Janicke, | (参考訳) クリティカル・ナショナル・インフラストラクチャー(CNI)は、社会と経済の運営に不可欠な国家の基本資産を包含し、エネルギー、水、交通、通信といった重要な公共事業の供給を確実にする。
それでも、これらのインフラを標的とするサイバーセキュリティの脅威は、作戦に干渉し、国家の安全と公共の安全を危険に晒す可能性がある。
本稿では,サイバーセキュリティのリスクが重要なインフラにもたらす複雑な問題について検討し,様々なタイプのサイバー攻撃に対するシステムの脆弱性を浮き彫りにする。
我々は、これらのドメインを管理するための様々な標準と規制について検討し、CIP(Critical Infrastructure Protection)における信頼、プライバシ、レジリエンスの重要性を分析します。
我々はまた、安全とセキュリティの共存分析を精査し、それらの統合のための革新的なアプローチを提供し、これらの分野間の相互依存を強調します。
さらに,ジェネレーティブAIとLarge Language Models(LLMs)を活用したCIPの包括的手法を導入する。
最後に、重要なインフラのセキュリティとレジリエンスを強化することを約束する将来的な方向性について議論する。
本稿では,攻撃の進展からCIPの革新的な戦略を提案し,重要なインフラに関するサイバーセキュリティの理解を深める。
Critical National Infrastructure (CNI) encompasses a nation's essential assets that are fundamental to the operation of society and the economy, ensuring the provision of vital utilities such as energy, water, transportation, and communication. Nevertheless, growing cybersecurity threats targeting these infrastructures can potentially interfere with operations and seriously risk national security and public safety. In this paper, we examine the intricate issues raised by cybersecurity risks to vital infrastructure, highlighting these systems' vulnerability to different types of cyberattacks. We analyse the significance of trust, privacy, and resilience for Critical Infrastructure Protection (CIP), examining the diverse standards and regulations to manage these domains. We also scrutinise the co-analysis of safety and security, offering innovative approaches for their integration and emphasising the interdependence between these fields. Furthermore, we introduce a comprehensive method for CIP leveraging Generative AI and Large Language Models (LLMs), giving a tailored lifecycle and discussing specific applications across different critical infrastructure sectors. Lastly, we discuss potential future directions that promise to enhance the security and resilience of critical infrastructures. This paper proposes innovative strategies for CIP from evolving attacks and enhances comprehension of cybersecurity concerns related to critical infrastructure. | 翻訳日:2024-05-09 15:04:15 公開日:2024-05-08 |
# SCALA: 統合アクティベーションとログ調整によるフェデレーション学習の分離
SCALA: Split Federated Learning with Concatenated Activations and Logit Adjustments ( http://arxiv.org/abs/2405.04875v1 ) ライセンス: Link先を確認 | Jiarong Yang, Yuan Liu, | (参考訳) Split Federated Learning (SFL)は、分散機械学習フレームワークで、サーバとクライアントの間で学習プロセスを戦略的に分割し、分散クライアントのデータに基づいて更新されたローカルモデルを集約することにより、共有モデルを協調的にトレーニングする。
しかし、データの不均一性と部分的クライアント参加は、学習性能を著しく低下させるラベル分布スキューをもたらす。
本稿では,SCALA(Concatenated Activations and Logit Adjustments)を用いたSFLを提案する。
具体的には、サーバ側モデルからのアクティベーションをサーバ側モデルの入力として連結して、異なるクライアント間でラベル分布を集中的に調整し、サーバ側モデルとクライアント側モデルの両方における損失関数のロジット調整を行い、参加クライアントの異なるサブセット間でラベル分布のばらつきに対処する。
理論的解析と実験により、パブリックデータセット上でのSCALAの優位性を検証した。
Split Federated Learning (SFL) is a distributed machine learning framework which strategically divides the learning process between a server and clients and collaboratively trains a shared model by aggregating local models updated based on data from distributed clients. However, data heterogeneity and partial client participation result in label distribution skew, which severely degrades the learning performance. To address this issue, we propose SFL with Concatenated Activations and Logit Adjustments (SCALA). Specifically, the activations from the client-side models are concatenated as the input of the server-side model so as to centrally adjust label distribution across different clients, and logit adjustments of loss functions on both server-side and client-side models are performed to deal with the label distribution variation across different subsets of participating clients. Theoretical analysis and experimental results verify the superiority of the proposed SCALA on public datasets. | 翻訳日:2024-05-09 15:04:15 公開日:2024-05-08 |
# 運転快適化のための信頼できる発表の必要性
The Need Of Trustworthy Announcements To Achieve Driving Comfort ( http://arxiv.org/abs/2405.04878v1 ) ライセンス: Link先を確認 | Rezvi Shahariar, Chris Phillips, | (参考訳) 近年,ITS (Intelligent Transport System) の要求が高まり,VANET (Vehicular Ad Hoc Networks) の展開によって実現されている。
車両とロードサイド・ユニット(RSU)は交通イベントを交換する。
悪質なドライバーは偽のイベントを発生させる。
したがって、信頼できるコミュニケーションを維持するためには、それらを特定する必要がある。
認証されたユーザが悪意を持って行動する場合、セキュリティスキームは通常失敗する。
しかし、信頼モデルは偽のメッセージを分離することができる。
本稿では,VANETにおける信頼できる発表の重要性について分析する。
この目的のために、Veinsでは、発表の信頼性が旅行時間にどのように影響するかを説明する一連の実験が実施されている。
交通シナリオは、先頭車からのアナウンスとともに、車両が代替ルートに進路を向くように設定される。
真と偽の両方の発表が検討されている。
結果は、誤った発表や発表を控えることが旅行時間を増加させていることを確認する。
しかし、信頼できる発表によって旅行時間が短縮される。
この分析から、信頼できる発表がドライバーの快適さを促進すると結論付けることができる。
An Intelligent Transport System (ITS) is more demanding nowadays and it can be achieved through deploying Vehicular Ad Hoc Networks (VANETs). Vehicles and Roadside Units (RSUs) exchange traffic events. Malicious drivers generate false events. Thus, they need to be identified to maintain trustworthy communication. When an authorised user acts maliciously, the security scheme typically fails. However, a trust model can isolate false messages. In this paper, the significance of trustworthy announcements for VANETs is analysed. To this end, a series of experiments is conducted in Veins to illustrate how the trustworthiness of announcements affects travel time. A traffic scenario is created where vehicles detour to an alternate route with an announcement from the leading vehicle. Both true and false announcements are considered. Results confirm that false announcements and refraining from announcements increase travel time. However, the travel time is reduced with trustworthy announcements. From this analysis, it can be concluded that trustworthy announcements facilitate driver comfort. | 翻訳日:2024-05-09 15:04:15 公開日:2024-05-08 |
# ディープフェイク音声の普遍的検出のためのコーデックフェイクデータセットと対策
The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio ( http://arxiv.org/abs/2405.04880v1 ) ライセンス: Link先を確認 | Yuankun Xie, Yi Lu, Ruibo Fu, Zhengqi Wen, Zhiyong Wang, Jianhua Tao, Xin Qi, Xiaopeng Wang, Yukun Liu, Haonan Cheng, Long Ye, Yi Sun, | (参考訳) 音声言語モデル(ALM)に基づくディープフェイク音声の普及により,効果的な検出法が緊急に必要となる。
従来のディープフェイク音声生成とは違い、Vocoderの使用で終わるマルチステッププロセスでは、ALMはニューラルコーデック法を直接利用して離散的なコードをオーディオに復号する。
さらに、大規模データによって駆動されるALMは、顕著な堅牢性と汎用性を示し、現在のオーディオディープフェイク検出(ADD)モデルにとって大きな課題となっている。
ALMに基づくディープフェイク音声を効果的に検出するために、我々はALMに基づく音声生成手法のメカニズム、ニューラルコーデックから波形への変換に焦点を当てた。
Codecfakeデータセットは、2つの言語、数百万のオーディオサンプル、および様々なテスト条件を含むオープンソースの大規模データセットで、ALMベースのオーディオ検出に適したものだ。
さらに,Depfake音声の普遍的検出と,元のSAMのドメイン上昇バイアス問題に取り組むために,ドメインバランスと一般化されたミニマを学習するためのCSAM戦略を提案する。
実験結果から,CSAM戦略を用いたCodecfakeデータセットとvocodedデータセットの併用により,ベースラインモデルと比較してテスト条件全体のEER(Equal Error Rate)が0.616%低かった。
With the proliferation of Audio Language Model (ALM) based deepfake audio, there is an urgent need for effective detection methods. Unlike traditional deepfake audio generation, which often involves multi-step processes culminating in vocoder usage, ALM directly utilizes neural codec methods to decode discrete codes into audio. Moreover, driven by large-scale data, ALMs exhibit remarkable robustness and versatility, posing a significant challenge to current audio deepfake detection (ADD) models. To effectively detect ALM-based deepfake audio, we focus on the mechanism of the ALM-based audio generation method, the conversion from neural codec to waveform. We initially construct the Codecfake dataset, an open-source large-scale dataset, including two languages, millions of audio samples, and various test conditions, tailored for ALM-based audio detection. Additionally, to achieve universal detection of deepfake audio and tackle domain ascent bias issue of original SAM, we propose the CSAM strategy to learn a domain balanced and generalized minima. Experiment results demonstrate that co-training on Codecfake dataset and vocoded dataset with CSAM strategy yield the lowest average Equal Error Rate (EER) of 0.616% across all test conditions compared to baseline models. | 翻訳日:2024-05-09 15:04:15 公開日:2024-05-08 |
# 十進デグレセルオートマタを用いたゲーデル数に基づくクラスタリングアルゴリズム
Gödel Number based Clustering Algorithm with Decimal First Degree Cellular Automata ( http://arxiv.org/abs/2405.04881v1 ) ライセンス: Link先を確認 | Vicky Vikrant, Narodia Parth P, Kamalika Bhattacharjee, | (参考訳) 本稿では,FDCAに基づくクラスタリングアルゴリズムを提案する。
サイクル空間が作成され、同じサイクルにある構成が同じクラスタとして扱われる。
ここでは、実生活データオブジェクトを「odel数に基づく符号化」を用いて十進文字列に符号化する。
このスキームの利点は、特徴特性を維持しながらエンコードされた文字列長を減らすことである。
自己複製や情報フローなどの理論的基準に基づいて、候補となるCAルールを識別する。
3段階にわたる所望数のクラスタを生成するために反復アルゴリズムを開発した。
クラスタリングの結果は、Silhouette score、Davis Bouldin、Calinski Harabasz、Dunn Indexといったベンチマーククラスタリングメトリクスに基づいて評価される。
既存のクラスタリングアルゴリズムと比較して,提案アルゴリズムは性能が向上する。
In this paper, a decimal first degree cellular automata (FDCA) based clustering algorithm is proposed where clusters are created based on reachability. Cyclic spaces are created and configurations which are in the same cycle are treated as the same cluster. Here, real-life data objects are encoded into decimal strings using G\"odel number based encoding. The benefits of the scheme is, it reduces the encoded string length while maintaining the features properties. Candidate CA rules are identified based on some theoretical criteria such as self-replication and information flow. An iterative algorithm is developed to generate the desired number of clusters over three stages. The results of the clustering are evaluated based on benchmark clustering metrics such as Silhouette score, Davis Bouldin, Calinski Harabasz and Dunn Index. In comparison with the existing state-of-the-art clustering algorithms, our proposed algorithm gives better performance. | 翻訳日:2024-05-09 15:04:15 公開日:2024-05-08 |
# 分子空間:知識融合による統一マルチモーダル空間の自由ランチ
Molecule-Space: Free Lunch in Unified Multimodal Space via Knowledge Fusion ( http://arxiv.org/abs/2405.04883v1 ) ライセンス: Link先を確認 | Zehan Wang, Ziang Zhang, Xize Cheng, Rongjie Huang, Luping Liu, Zhenhui Ye, Haifeng Huang, Yang Zhao, Tao Jin, Peng Gao, Zhou Zhao, | (参考訳) 統一マルチモデル表現空間は、マルチモーダル理解と生成の基礎である。
しかし、何十億ものモデルパラメータと破滅的な忘れの問題により、事前訓練された統一空間をさらに強化することは困難である。
本研究では, マルチモーダル表現空間を「分子」として扱う概念である分子空間を提案し, 「分子空間反応」を通じて, 外部の専門家空間からの知識を統合することにより, 事前学習された統一空間を拡大する。
具体的には、基本的な宇宙反応を2種類導入する。
1) 空間変位反応と空間変位反応
2) 空間結合反応
これらの基本反応に基づいて、複数の空間を同時に効率的に統合する複素逐次・並列反応を設計する。
モジュラー化の概念を活かして、異なる目的のために拡張された統一空間を柔軟に調整する粗大なカスタマイズ推論戦略を提案する。
実験により,ImageBindの音声画像テキスト空間と画像テキストおよび音声テキスト専門家空間を融合する。
結果のスペースは、9つのデータセットにわたる5つの下流タスクでImageBindを上回っている。
さらに、カスタマイズされた推論によって、使用される画像テキストおよびオーディオテキスト専門家スペースを超越する。
Unified multi-model representation spaces are the foundation of multimodal understanding and generation. However, the billions of model parameters and catastrophic forgetting problems make it challenging to further enhance pre-trained unified spaces. In this work, we propose Molecule-Space, an idea that treats multimodal representation spaces as "molecules", and augments pre-trained unified space by integrating knowledge from extra expert spaces via "molecules space reactions". Specifically, we introduce two kinds of basic space reactions: 1) Space Displacement Reaction and 2) Space Combination Reaction. Based on these defined basic reactions, we design Complex Sequential & Parallel Reactions to effectively integrate multiple spaces simultaneously. Benefiting from the modularization concept, we further propose a coarse-to-fine customized inference strategy to flexibly adjust the enhanced unified space for different purposes. Experimentally, we fuse the audio-image-text space of ImageBind with the image-text and audio-text expert spaces. The resulting space outperforms ImageBind on 5 downstream tasks across 9 datasets. Moreover, via customized inference, it even surpasses the used image-text and audio-text expert spaces. | 翻訳日:2024-05-09 15:04:15 公開日:2024-05-08 |
# 車両アドホックネットワークのための信頼管理フレームワーク
A trust management framework for vehicular ad hoc networks ( http://arxiv.org/abs/2405.04885v1 ) ライセンス: Link先を確認 | Rezvi Shahariar, Chris Phillips, | (参考訳) Vehicular Ad Hoc Networks (VANETs) は、道路利用者と公共インフラが道路や運転経験を改善する情報を共有することを可能にする。
しかし、これらは不適切な行動の許されたユーザーに対して脆弱である。
信頼管理は、信頼スコアに応じて認証ユーザーからの攻撃に対処するために使用される。
検証プロセスにおける信頼度測定の拡散を取り除くことにより、通信オーバーヘッドと応答時間の低減が図られる。
本稿では,ドライバの動作を規制する送信側車両における信頼制御のための,新しいTanper-Proof Device(TPD)ベースの信頼管理フレームワークを提案する。
さらに、VANETに矛盾する情報がある場合にのみ、フィードバックの拡散が要求される。
紛争が発生した場合、ロード・サイド・ユニット(RSU)は、元祖が信じるか否かに関わらず、重み付けされた投票システムを用いて決定する。
このフレームワークは、中央集権的な評価手法に対して評価され、その結果、後者よりも優れていることが示された。
Vehicular Ad Hoc Networks (VANETs) enable road users and public infrastructure to share information that improves the operation of roads and driver experience. However, these are vulnerable to poorly behaved authorized users. Trust management is used to address attacks from authorized users in accordance with their trust score. By removing the dissemination of trust metrics in the validation process, communication overhead and response time are lowered. In this paper, we propose a new Tamper-Proof Device (TPD) based trust management framework for controlling trust at the sender side vehicle that regulates driver behaviour. Moreover, the dissemination of feedback is only required when there is conflicting information in the VANET. If a conflict arises, the Road-Side Unit (RSU) decides, using the weighted voting system, whether the originator is to be believed, or not. The framework is evaluated against a centralized reputation approach and the results demonstrate that it outperforms the latter. | 翻訳日:2024-05-09 15:04:15 公開日:2024-05-08 |
# 条件付き拡散モデルを用いた高速LiDARアップサンプリング
Fast LiDAR Upsampling using Conditional Diffusion Models ( http://arxiv.org/abs/2405.04889v1 ) ライセンス: Link先を確認 | Sander Elias Magnussen Helgesen, Kazuto Nakashima, Jim Tørresen, Ryo Kurazume, | (参考訳) 3次元LiDARデータの精錬は,教師付き学習や生成モデルに基づく手法といった近年の手法によって,関心が高まりつつある。
既存の手法では、拡散モデルを用いて高忠実度で洗練されたLiDARデータを生成する可能性を示しているが、そのような手法の性能と速度は限られている。
これらの制限により、リアルタイムでの実行が難しくなり、自律的なナビゲーションや人間とロボットのインタラクションといった現実的なタスクにアプローチが苦労する。
本研究では,高速かつ高品質な3次元シーンポイント雲の高密度アップサンプリングのための条件拡散モデルに基づく新しい手法を提案する。
本手法では,条件付き塗装マスクを用いて訓練した拡散確率モデルを用いて,画像補完タスクの性能向上を図っている。
複数のデータセット、サンプリングステップ、条件付きマスクを含む一連の実験を導入し、理想的な構成を決定し、性能と推論速度のバランスを崩す。
提案手法は,KITTI-360データセットを用いたアップサンプリング作業におけるサンプリング速度と品質において,ベースラインよりも優れていることを示す。
さらに、実世界のデータセットと合成データセットを同時にトレーニングし、品質と環境のばらつきを導入することで、我々のアプローチの一般化能力について説明する。
The search for refining 3D LiDAR data has attracted growing interest motivated by recent techniques such as supervised learning or generative model-based methods. Existing approaches have shown the possibilities for using diffusion models to generate refined LiDAR data with high fidelity, although the performance and speed of such methods have been limited. These limitations make it difficult to execute in real-time, causing the approaches to struggle in real-world tasks such as autonomous navigation and human-robot interaction. In this work, we introduce a novel approach based on conditional diffusion models for fast and high-quality sparse-to-dense upsampling of 3D scene point clouds through an image representation. Our method employs denoising diffusion probabilistic models trained with conditional inpainting masks, which have been shown to give high performance on image completion tasks. We introduce a series of experiments, including multiple datasets, sampling steps, and conditional masks, to determine the ideal configuration, striking a balance between performance and inference speed. This paper illustrates that our method outperforms the baselines in sampling speed and quality on upsampling tasks using the KITTI-360 dataset. Furthermore, we illustrate the generalization ability of our approach by simultaneously training on real-world and synthetic datasets, introducing variance in quality and environments. | 翻訳日:2024-05-09 15:04:15 公開日:2024-05-08 |
# GISR:シングルビューロボットマップのための幾何学的初期化とシルエットに基づくリファインメントと構成推定
GISR: Geometric Initialization and Silhouette-based Refinement for Single-View Robot Pose and Configuration Estimation ( http://arxiv.org/abs/2405.04890v1 ) ライセンス: Link先を確認 | Ivan Bilić, Filip Marić, Fabio Bonsignorio, Ivan Petrović, | (参考訳) 自律型ロボットの応用においては、ロボットはその潜在的な状態を正確に測定し、その中の他のエージェント(例えば人間と対話するコボット)を含む環境を知覚できることが不可欠である。
これらの測定の冗長性は、センサ故障や外部障害の場合にリカバリプロトコルの計画と実行を可能にするため重要である。
視覚的推定は、エンコーダベースのセンシングが利用できない場合、低コストのセンサーとサーバを独立してプロプライエセプションのソースとして使用することで、この冗長性を提供することができる。
そこで本研究では,ロボットの姿勢と組み合わせてロボットの構成を推定し,観察されたロボットを空間的に完全に理解する。
本稿では,リアルタイム実行を優先する深度設定とロボット対カメラのポーズ推定手法GISRを提案する。
GISRは2つのモジュールから構成される。
一 幾何初期化モジュールで、近似ロボットのポーズと構成を効率的に計算し、
(ii) 数回の反復で初期解を洗練させる反復シルエットベースの精製モジュール。
提案手法を公開データセット上で評価し,GISRが既存の最先端手法と競合することを示す。
私たちのコードはhttps://github.com/iwhitey/GISR-robot.comで利用可能です。
For autonomous robotics applications, it is crucial that robots are able to accurately measure their potential state and perceive their environment, including other agents within it (e.g., cobots interacting with humans). The redundancy of these measurements is important, as it allows for planning and execution of recovery protocols in the event of sensor failure or external disturbances. Visual estimation can provide this redundancy through the use of low-cost sensors and server as a standalone source of proprioception when no encoder-based sensing is available. Therefore, we estimate the configuration of the robot jointly with its pose, which provides a complete spatial understanding of the observed robot. We present GISR - a method for deep configuration and robot-to-camera pose estimation that prioritizes real-time execution. GISR is comprised of two modules: (i) a geometric initialization module, efficiently computing an approximate robot pose and configuration, and (ii) an iterative silhouette-based refinement module that refines the initial solution in only a few iterations. We evaluate our method on a publicly available dataset and show that GISR performs competitively with existing state-of-the-art approaches, while being significantly faster compared to existing methods of the same class. Our code is available at https://github.com/iwhitey/GISR-robot. | 翻訳日:2024-05-09 15:04:15 公開日:2024-05-08 |
# 車両アドホックネットワークにおけるファジィ報酬と罰則
A fuzzy reward and punishment scheme for vehicular ad hoc networks ( http://arxiv.org/abs/2405.04892v1 ) ライセンス: Link先を確認 | Rezvi Shahariar, Chris Phillips, | (参考訳) 信頼管理は、Vehicular Ad Hoc Networks (VANETs) の実装を成功させるために重要なセキュリティアプローチである。
信頼モデルは、報酬や罰を与えるメッセージを評価する。
これはドライバーの将来の行動に影響を与えるのに使われる。
筆者の以前の研究で,メッセージの受信者評価を回避するために,送信側ベースの信頼管理フレームワークを開発した。
しかし、これは信頼できるドライバーが嘘をつかないことを保証しない。
これらの「偽の攻撃」はRSUによって解決され、紛争の解決に協力し、一定の報酬と罰を与える。
本論文では,事故の重大さ,運転者の過去の行動,RSU信頼度を考慮したファジィRSUコントローラを用いて,衝突したドライバーに対する報酬や罰を判定する。
どのドライバーもどんな状況でも嘘をつくことはできるが、信頼できるドライバーはそのような状況に留まる傾向があり、その逆も期待されている。
この振る舞いは、信頼スコアと信頼状態に依存する送信者とレポータードライバのためのマルコフ連鎖モデルでキャプチャされる。
各信頼状態は、異なる確率分布を用いてドライバーが嘘をつく可能性を定義する。
ファジィ評価の性能評価とマルコフ連鎖ドライバの挙動モデルについて,Veinsシミュレータにおける全又は一部のドライバの初期信頼スコアを変化させて検討するために,広範囲なシミュレーションを行った。
ファジィと固定RSU評価スキームを比較し, ファジィスキームがドライバーの行動改善を促すことを示す。
Trust management is an important security approach for the successful implementation of Vehicular Ad Hoc Networks (VANETs). Trust models evaluate messages to assign reward or punishment. This can be used to influence a driver's future behaviour. In the author's previous work, a sender side based trust management framework is developed which avoids the receiver evaluation of messages. However, this does not guarantee that a trusted driver will not lie. These "untrue attacks" are resolved by the RSUs using collaboration to rule on a dispute, providing a fixed amount of reward and punishment. The lack of sophistication is addressed in this paper with a novel fuzzy RSU controller considering the severity of incident, driver past behaviour, and RSU confidence to determine the reward or punishment for the conflicted drivers. Although any driver can lie in any situation, it is expected that trustworthy drivers are more likely to remain so, and vice versa. This behaviour is captured in a Markov chain model for sender and reporter drivers where their lying characteristics depend on trust score and trust state. Each trust state defines the driver's likelihood of lying using different probability distribution. An extensive simulation is performed to evaluate the performance of the fuzzy assessment and examine the Markov chain driver behaviour model with changing the initial trust score of all or some drivers in Veins simulator. The fuzzy and the fixed RSU assessment schemes are compared, and the result shows that the fuzzy scheme can encourage drivers to improve their behaviour. | 翻訳日:2024-05-09 14:54:31 公開日:2024-05-08 |
# 検証済みの著者がX/Twitterの分散コミュニティを形作る
Verified authors shape X/Twitter discursive communities ( http://arxiv.org/abs/2405.04896v1 ) ライセンス: Link先を確認 | Stefano Guarino, Ayoub Mounim, Guido Caldarelli, Fabio Saracco, | (参考訳) コミュニティ検出アルゴリズムは、利用可能なネットワークデータからメソスケール構造を抽出し、一般に、特定のエッジセットによって伝達される情報の量と品質に関する明確な仮定を避ける。
本稿では,X/Twitter上でのイデオロギー/ディスカレーティブコミュニティのコアは,最大エントロピーヌルモデルを用いて著者・オーディエンス・バイパートイトネットワークにおける最も情報に富む相互作用を明らかにすることで,効果的に識別可能であることを示す。
この分析は、2022年のイタリアにおける主要な政治イベントに関連する3つのX/Twitterデータセットを、最先端の4つのアルゴリズム(3つの記述と1つの推論)のベンチマークとして検討し、政治的関連に基づいて300近い認証ユーザを手動で注釈付けする。
情報内容の面では、エントロピーに基づくアルゴリズムで得られたコミュニティは、いくつかのベンチマークで得られたコミュニティに匹敵するものである。
しかし、著者と聴衆の2部ネットワークに関するこのような方法論は、各コミュニティの中央ユーザーを特定するために利用可能なデータのごくわずかのサンプルを使い、わずか数個の、簡単に解釈できるコミュニティで、ユーザーセットのより適切な分割を返します。
オンライン・インタラクション・ネットワークは、ソーシャルメディアの外部でも公共の視界を享受する少数のユーザーの活動によって形成されていることを強調した上で、オンライン・インタラクション・ネットワークに関する重要な洞察を提供する。
Community detection algorithms try to extract a mesoscale structure from the available network data, generally avoiding any explicit assumption regarding the quantity and quality of information conveyed by specific sets of edges. In this paper, we show that the core of ideological/discursive communities on X/Twitter can be effectively identified by uncovering the most informative interactions in an authors-audience bipartite network through a maximum-entropy null model. The analysis is performed considering three X/Twitter datasets related to the main political events of 2022 in Italy, using as benchmarks four state-of-the-art algorithms - three descriptive, one inferential -, and manually annotating nearly 300 verified users based on their political affiliation. In terms of information content, the communities obtained with the entropy-based algorithm are comparable to those obtained with some of the benchmarks. However, such a methodology on the authors-audience bipartite network: uses just a small sample of the available data to identify the central users of each community; returns a neater partition of the user set in just a few, easy to interpret, communities; clusters well-known political figures in a way that better matches the political alliances when compared with the benchmarks. Our results provide an important insight into online debates, highlighting that online interaction networks are mostly shaped by the activity of a small set of users who enjoy public visibility even outside social media. | 翻訳日:2024-05-09 14:54:31 公開日:2024-05-08 |
# コレラXデータセットを用いた感情分類のための機械学習によるNLP
Machine Learning-based NLP for Emotion Classification on a Cholera X Dataset ( http://arxiv.org/abs/2405.04897v1 ) ライセンス: Link先を確認 | Paul Jideani, Aurona Gerber, | (参考訳) ハンマンシュクラールのコレラ流行に関する最近のソーシャルメディア投稿は、このような出来事に反応して人々が経験した多様な感情を強調している。
人々の意見の程度は、その病気に関する知識や情報によって大きく異なる。
コレラに関する文書化された再調査は、感情の分類に関する調査を欠いている。
本研究は,Chor-eraに関するソーシャルメディア投稿で表現される感情について検討することを目的とした。
23,000のポストのデータセットを抽出し、前処理した。
Python Nat-ural Language Toolkit (NLTK) の感情分析ライブラリを適用し、各テキストの感情的重要性を抑える。
さらに,Long short-term memory (LSTM), Logistic regression, Decision Tree, Bidirectional En-coder Representations from Transformers (BERT)モデルなど,感情分類に機械学習モデルを適用した。
その結果,LSTMの精度は75%であった。
感情分類は、コレラが社会に与える影響をより深く理解するための有望なツールである。
本研究の成果は、公衆衛生戦略における効果的な介入の進展に寄与する可能性がある。
Recent social media posts on the cholera outbreak in Hammanskraal have highlighted the diverse range of emotions people experienced in response to such an event. The extent of people's opinions varies greatly depending on their level of knowledge and information about the disease. The documented re-search about Cholera lacks investigations into the classification of emotions. This study aims to examine the emotions expressed in social media posts about Chol-era. A dataset of 23,000 posts was extracted and pre-processed. The Python Nat-ural Language Toolkit (NLTK) sentiment analyzer library was applied to deter-mine the emotional significance of each text. Additionally, Machine Learning (ML) models were applied for emotion classification, including Long short-term memory (LSTM), Logistic regression, Decision trees, and the Bidirectional En-coder Representations from Transformers (BERT) model. The results of this study demonstrated that LSTM achieved the highest accuracy of 75%. Emotion classification presents a promising tool for gaining a deeper understanding of the impact of Cholera on society. The findings of this study might contribute to the development of effective interventions in public health strategies. | 翻訳日:2024-05-09 14:54:31 公開日:2024-05-08 |
# 選択的強化された骨格列からの自己教師付き歩行に基づく感情表現学習
Self-supervised Gait-based Emotion Representation Learning from Selective Strongly Augmented Skeleton Sequences ( http://arxiv.org/abs/2405.04900v1 ) ライセンス: Link先を確認 | Cheng Song, Lu Lu, Zhen Ke, Long Gao, Shuai Ding, | (参考訳) 感情認識は感情コンピューティングの重要な部分である。
人間の視線から感情的な手がかりを抽出することは、自然な相互作用、非侵入的な性質、リモート検出などの利点をもたらす。
近年,自己指導型学習技術の導入は,歩行に基づく感情認識の分野でラベル付きデータの不足から生じる問題に対して,実践的な解決策を提供する。
しかし、歩行の多様性が限られており、骨格の特徴表現の不完全性のため、既存のコントラスト学習法は歩行感情の獲得に非効率であることが多い。
本稿では,限られたラベル付き歩行データから効果的表現を導出することを目的とした,自己教師付き歩行に基づく感情表現のための選択的強増強(SSA)を利用したコントラスト学習フレームワークを提案する。
まず,上半身ジッタとランダム時空間マスクを含む歩行感情認識タスクのSSA手法を提案する。
SSAの目標は、より多様性があり、対象とする正のサンプルを生成し、モデルにより独特で堅牢な特徴表現を学習させることである。
そこで我々は,位相的構造的・大域的適応的特徴を取得するために,ドメイン間の情報の統合を容易にする補完的特徴融合ネットワーク(CFFN)を設計する。
最後に,分散分散最小化損失を実装し,拡張されたクエリの表現学習を監督する。
提案手法はEmotion-Gait (E-Gait) と Emilya のデータセットで検証され, 異なる評価プロトコル下での最先端手法よりも優れている。
Emotion recognition is an important part of affective computing. Extracting emotional cues from human gaits yields benefits such as natural interaction, a nonintrusive nature, and remote detection. Recently, the introduction of self-supervised learning techniques offers a practical solution to the issues arising from the scarcity of labeled data in the field of gait-based emotion recognition. However, due to the limited diversity of gaits and the incompleteness of feature representations for skeletons, the existing contrastive learning methods are usually inefficient for the acquisition of gait emotions. In this paper, we propose a contrastive learning framework utilizing selective strong augmentation (SSA) for self-supervised gait-based emotion representation, which aims to derive effective representations from limited labeled gait data. First, we propose an SSA method for the gait emotion recognition task, which includes upper body jitter and random spatiotemporal mask. The goal of SSA is to generate more diverse and targeted positive samples and prompt the model to learn more distinctive and robust feature representations. Then, we design a complementary feature fusion network (CFFN) that facilitates the integration of cross-domain information to acquire topological structural and global adaptive features. Finally, we implement the distributional divergence minimization loss to supervise the representation learning of the generally and strongly augmented queries. Our approach is validated on the Emotion-Gait (E-Gait) and Emilya datasets and outperforms the state-of-the-art methods under different evaluation protocols. | 翻訳日:2024-05-09 14:54:31 公開日:2024-05-08 |
# HAGAN: 医用画像合成のためのハイブリッドAugmented Generative Adversarial Network
HAGAN: Hybrid Augmented Generative Adversarial Network for Medical Image Synthesis ( http://arxiv.org/abs/2405.04902v1 ) ライセンス: Link先を確認 | Zhihan Ju, Wanting Zhou, Longteng Kong, Yu Chen, Yi Li, Zhenan Sun, Caifeng Shan, | (参考訳) 医用画像合成(MIS)は、医学診断の経済的・時間的コストを大幅に削減する知的医療分野において重要な役割を担っている。
しかし、医用画像の複雑さや組織細胞の類似した特徴により、既存の手法は生物学的に整合性を満たす上で大きな課題に直面している。
そこで本研究では,構造テクスチャと組織細胞の信頼性を維持するために,HAGAN(Hybrid Augmented Generative Adversarial Network)を提案する。
HAGANには、アテンション混合(AttnMix)ジェネレータ、階層ディスクリミネータ、およびディスクリミネータとジェネレータ間のリバーススキップ接続が含まれている。
AttnMixの一貫性の相違可能な正規化は、実画像と偽画像の間の構造的およびテクスチャ的変化の知覚を促進する。
Hierarchical Discriminatorは、グローバルおよびローカル詳細の正当性と識別性を同時に向上するジェネレータにピクセル・バイ・ピクセル識別フィードバックを導入している。
Reverse Skip Connectionは、実際の分布と合成分布の特徴を融合することにより、細部における精度をさらに向上する。
HAGANが既存の手法より優れ,高分解能と低分解能の両方で最先端の性能を達成することを実証した。
Medical Image Synthesis (MIS) plays an important role in the intelligent medical field, which greatly saves the economic and time costs of medical diagnosis. However, due to the complexity of medical images and similar characteristics of different tissue cells, existing methods face great challenges in meeting their biological consistency. To this end, we propose the Hybrid Augmented Generative Adversarial Network (HAGAN) to maintain the authenticity of structural texture and tissue cells. HAGAN contains Attention Mixed (AttnMix) Generator, Hierarchical Discriminator and Reverse Skip Connection between Discriminator and Generator. The AttnMix consistency differentiable regularization encourages the perception in structural and textural variations between real and fake images, which improves the pathological integrity of synthetic images and the accuracy of features in local areas. The Hierarchical Discriminator introduces pixel-by-pixel discriminant feedback to generator for enhancing the saliency and discriminance of global and local details simultaneously. The Reverse Skip Connection further improves the accuracy for fine details by fusing real and synthetic distribution features. Our experimental evaluations on three datasets of different scales, i.e., COVID-CT, ACDC and BraTS2018, demonstrate that HAGAN outperforms the existing methods and achieves state-of-the-art performance in both high-resolution and low-resolution. | 翻訳日:2024-05-09 14:54:31 公開日:2024-05-08 |
# Traj-LLM: 事前学習された大規模言語モデルによる軌道予測の強化のための新しい探索
Traj-LLM: A New Exploration for Empowering Trajectory Prediction with Pre-trained Large Language Models ( http://arxiv.org/abs/2405.04909v1 ) ライセンス: Link先を確認 | Zhengxing Lan, Hongbo Li, Lingshan Liu, Bo Fan, Yisheng Lv, Yilong Ren, Zhiyong Cui, | (参考訳) ダイナミック・トラヒック・アクターの将来の軌跡を予測することは、自動運転における画期的な課題である。
既存の顕著な努力によりパフォーマンスは著しく改善されているが、複雑なトラフィックセマンティクスの認識と理解においてギャップは持続している。
本稿では,Raj-LLMを提案する。このTraj-LLMは,大規模言語モデル(LLM)を用いて,エージェントの過去・現在・過去の軌跡やシーンセマンティクスから将来の動きを生成するために,明示的なプロンプトエンジニアリングを使わずに,その可能性について検討する。
Traj-LLM は、エージェントとシーンの特徴を LLM が理解している形式で識別するために、スパースコンテキストのジョイントコーディングから始まる。
そこで我々は,LLMの強力な理解能力を革新的に探求し,ハイレベルなシーン知識とインタラクティブな情報を取り込む。
そこで本研究では,Traj-LLMのシーン理解の促進と,先駆的なMambaモジュールを用いた車線認識確率論的学習を提案する。
最後に、シーン準拠のマルチモーダル予測を実現するために、マルチモーダルなLaplaceデコーダを設計する。
広範囲にわたる実験により、LLMの強い事前知識と理解力によって強化されたTraj-LLMが、車線認識確率学習とともに、評価指標全体にわたって最先端の手法を超越していることが明らかとなった。
さらに、数ショット分析により、Traj-LLMのパフォーマンスがさらに裏付けられ、データセットの50%に過ぎず、完全なデータ利用に依存するベンチマークの大部分を上回ります。
本研究では, LLMに固有の高度な機能を備えた軌道予測タスクの装備について検討し, エージェントの動きを予測するための, より普遍的で適応可能な解を提供する。
Predicting the future trajectories of dynamic traffic actors is a cornerstone task in autonomous driving. Though existing notable efforts have resulted in impressive performance improvements, a gap persists in scene cognitive and understanding of the complex traffic semantics. This paper proposes Traj-LLM, the first to investigate the potential of using Large Language Models (LLMs) without explicit prompt engineering to generate future motion from agents' past/observed trajectories and scene semantics. Traj-LLM starts with sparse context joint coding to dissect the agent and scene features into a form that LLMs understand. On this basis, we innovatively explore LLMs' powerful comprehension abilities to capture a spectrum of high-level scene knowledge and interactive information. Emulating the human-like lane focus cognitive function and enhancing Traj-LLM's scene comprehension, we introduce lane-aware probabilistic learning powered by the pioneering Mamba module. Finally, a multi-modal Laplace decoder is designed to achieve scene-compliant multi-modal predictions. Extensive experiments manifest that Traj-LLM, fortified by LLMs' strong prior knowledge and understanding prowess, together with lane-aware probability learning, outstrips state-of-the-art methods across evaluation metrics. Moreover, the few-shot analysis further substantiates Traj-LLM's performance, wherein with just 50% of the dataset, it outperforms the majority of benchmarks relying on complete data utilization. This study explores equipping the trajectory prediction task with advanced capabilities inherent in LLMs, furnishing a more universal and adaptable solution for forecasting agent motion in a new way. | 翻訳日:2024-05-09 14:54:31 公開日:2024-05-08 |
# 時間変動需要下における収益管理のための後方サンプリングによる学習
Learning with Posterior Sampling for Revenue Management under Time-varying Demand ( http://arxiv.org/abs/2405.04910v1 ) ライセンス: Link先を確認 | Kazuma Shimizu, Junya Honda, Shinji Ito, Shinji Nakadai, | (参考訳) 本稿では、商品やサービスの価格設定による収益を最大化するための収益管理(RM)問題について論じる。
この問題の1つの課題は、需要分布が未知であり、航空会社や小売業のような実際の応用において時間とともに変化することである。
特に、在庫を共同管理し、需要を見積もることの難しさから、未知の需要シナリオ下では、時間変動需要は十分に研究されていない。
この課題に対処するために、我々はまず、典型的なアプリケーションシナリオによって動機付けられたRM問題のエピソジックな一般化を導入する。
そこで我々は,線形プログラミングを解き,効率よく価格を最適化する,後続サンプリングに基づく計算効率の良いアルゴリズムを提案する。
我々は、このアルゴリズムの一般モデルに対するベイズ的後悔の上界を導出し、需要パラメータを時間間隔で相関させることができるとともに、一般的なアルゴリズムに対する後悔の低い境界を導出する。
実験により,提案アルゴリズムは他のベンチマークアルゴリズムよりも優れた性能を示し,後向きの最適ポリシーと相容れない性能を示した。
また,提案アルゴリズムのヒューリスティックな修正を提案し,実験における価格ポリシーをより効率的に学習する。
This paper discusses the revenue management (RM) problem to maximize revenue by pricing items or services. One challenge in this problem is that the demand distribution is unknown and varies over time in real applications such as airline and retail industries. In particular, the time-varying demand has not been well studied under scenarios of unknown demand due to the difficulty of jointly managing the remaining inventory and estimating the demand. To tackle this challenge, we first introduce an episodic generalization of the RM problem motivated by typical application scenarios. We then propose a computationally efficient algorithm based on posterior sampling, which effectively optimizes prices by solving linear programming. We derive a Bayesian regret upper bound of this algorithm for general models where demand parameters can be correlated between time periods, while also deriving a regret lower bound for generic algorithms. Our empirical study shows that the proposed algorithm performs better than other benchmark algorithms and comparably to the optimal policy in hindsight. We also propose a heuristic modification of the proposed algorithm, which further efficiently learns the pricing policy in the experiments. | 翻訳日:2024-05-09 14:54:31 公開日:2024-05-08 |
# デュアルストリームコントラスト学習による弱教師付きセマンティックセマンティックセマンティックセグメンテーション
Weakly-supervised Semantic Segmentation via Dual-stream Contrastive Learning of Cross-image Contextual Information ( http://arxiv.org/abs/2405.04913v1 ) ライセンス: Link先を確認 | Qi Lai, Chi-Man Vong, | (参考訳) 弱教師付きセマンティックセグメンテーション(WSSS)は、画像レベルのタグのみを用いてセマンティックセグメンテーションモデルを学習することを目的としている。
ディープラーニングアプローチに関する10年以上の研究にもかかわらず、WSSSと完全なセマンティックセグメンテーションの間には、依然として大きなパフォーマンスギャップがある。
現在のほとんどのWSSSメソッドは、価値ある画像間情報(セマンティックワイド)を無視しながら、常に限られた単一画像(ピクセルワイド)情報に焦点を合わせています。
この観点から、DSCNetと呼ばれる新しいエンドツーエンドWSSSフレームワークが2つの革新と共に開発されている。
一 画素単位でのグループコントラスト及び意味的にグラフコントラストを提案して、WSSSフレームワークに導入すること。
二 新たな二流コントラスト学習(DSCL)機構は、WSSSの性能向上のために、画素・ワイド・セマンティック・ワイド・コンテキスト情報を共同で扱うように設計されている。
具体的には、ピクセルワイドグループコントラスト学習(PGCL)とセマンティックワイドグラフコントラスト学習(SGCL)タスクがより包括的なソリューションとなっている。
PASCAL VOCとMS COCOベンチマークの大規模な実験は、SOTAアプローチやベースラインモデルよりもDSCNetの方が優れていることを検証している。
Weakly supervised semantic segmentation (WSSS) aims at learning a semantic segmentation model with only image-level tags. Despite intensive research on deep learning approaches over a decade, there is still a significant performance gap between WSSS and full semantic segmentation. Most current WSSS methods always focus on a limited single image (pixel-wise) information while ignoring the valuable inter-image (semantic-wise) information. From this perspective, a novel end-to-end WSSS framework called DSCNet is developed along with two innovations: i) pixel-wise group contrast and semantic-wise graph contrast are proposed and introduced into the WSSS framework; ii) a novel dual-stream contrastive learning (DSCL) mechanism is designed to jointly handle pixel-wise and semantic-wise context information for better WSSS performance. Specifically, the pixel-wise group contrast learning (PGCL) and semantic-wise graph contrast learning (SGCL) tasks form a more comprehensive solution. Extensive experiments on PASCAL VOC and MS COCO benchmarks verify the superiority of DSCNet over SOTA approaches and baseline models. | 翻訳日:2024-05-09 14:54:31 公開日:2024-05-08 |
# ベース・ノーベル・コンフュージョンへ向けたDelve:Few-Shot Class-Incremental Learningのための冗長探索
Delve into Base-Novel Confusion: Redundancy Exploration for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2405.04918v1 ) ライセンス: Link先を確認 | Haichen Zhou, Yixiong Zou, Ruixuan Li, Yuhua Li, Kui Xiao, | (参考訳) FSCIL (Few-shot class-incremental Learning) は,知識の獲得を基礎クラスに関する情報を保持しつつ,限られたサンプルを持つ新しいクラスから獲得することを目的としている。
既存の方法は、新しいクラス学習中に特徴抽出器を凍結することで破滅的な忘れと過度に適合する。
しかしながら、これらの手法は、通常、ベースクラスと新しいクラス、すなわち、新しいクラスのサンプルをベースクラスに分類する、混乱を引き起こす傾向にある。
本稿では,この現象を解明し,その原因と解決法について検討する。
まず、特徴空間における新規クラスと基本クラス領域の衝突として、混乱を解釈する。
そして,この衝突は,基本クラス特徴量と画素空間内のラベル関係の冗長性によって引き起こされることがわかった。
定性的および定量的な実験を通じて、この冗長性をベースクラストレーニングのショートカットと同定し、衝突を軽減するために分離することができる。
そこで本研究では,基本クラスと新クラスの衝突を軽減するために,冗長デカップリング・統合(RDI)と呼ばれるFSCILの手法を提案する。
RDIはまず、ベースクラス内の特徴空間を縮小するために、ベースクラス空間から冗長性を分離する。
そして、冗長性をダミークラスとして統合し、ベースクラスの機能空間を拡大します。
このプロセスは、ベースクラスの特徴空間を効果的に圧縮し、新しいクラスのためのバッファ空間を作成し、ベースクラスと新しいクラスの間のモデルの混乱を軽減する。
CIFAR-100, miniImageNet, CUB-200-2011 など, ベンチマークデータセット間の大規模な実験により, 本手法が最先端の性能を実現することを示す。
Few-shot class-incremental learning (FSCIL) aims to acquire knowledge from novel classes with limited samples while retaining information about base classes. Existing methods address catastrophic forgetting and overfitting by freezing the feature extractor during novel-class learning. However, these methods usually tend to cause the confusion between base and novel classes, i.e., classifying novel-class samples into base classes. In this paper, we delve into this phenomenon to study its cause and solution. We first interpret the confusion as the collision between the novel-class and the base-class region in the feature space. Then, we find the collision is caused by the label-irrelevant redundancies within the base-class feature and pixel space. Through qualitative and quantitative experiments, we identify this redundancy as the shortcut in the base-class training, which can be decoupled to alleviate the collision. Based on this analysis, to alleviate the collision between base and novel classes, we propose a method for FSCIL named Redundancy Decoupling and Integration (RDI). RDI first decouples redundancies from base-class space to shrink the intra-base-class feature space. Then, it integrates the redundancies as a dummy class to enlarge the inter-base-class feature space. This process effectively compresses the base-class feature space, creating buffer space for novel classes and alleviating the model's confusion between the base and novel classes. Extensive experiments across benchmark datasets, including CIFAR-100, miniImageNet, and CUB-200-2011 demonstrate that our method achieves state-of-the-art performance. | 翻訳日:2024-05-09 14:54:31 公開日:2024-05-08 |
# $k$-NN回帰のための残余1アウトクロスバリデーションの高速計算
Fast Computation of Leave-One-Out Cross-Validation for $k$-NN Regression ( http://arxiv.org/abs/2405.04919v1 ) ライセンス: Link先を確認 | Motonobu Kanagawa, | (参考訳) 本稿では,約$k$-nearest近辺($k$-NN)回帰に対するLOOCV(Left-one-out Cross-validation)の高速計算法について述べる。
近接する近隣住民のタイブリング条件下では、平均平方誤差を$k$-NN回帰の推定値は、トレーニングデータに基づいて評価された$(k+1)$-NN回帰の平均2乗誤差と同一であり、スケーリング係数$(k+1)^2/k^2$と乗算されることが示されている。
したがって、LOOCVスコアを計算するには、一度だけ$(k+1)$-NNレグレッションを適合させる必要があり、トレーニングデータ数に対して$k$-NNレグレッションのトレーニングバリデーションを繰り返す必要はない。
数値実験により高速計算法の有効性が確認された。
We describe a fast computation method for leave-one-out cross-validation (LOOCV) for $k$-nearest neighbours ($k$-NN) regression. We show that, under a tie-breaking condition for nearest neighbours, the LOOCV estimate of the mean square error for $k$-NN regression is identical to the mean square error of $(k+1)$-NN regression evaluated on the training data, multiplied by the scaling factor $(k+1)^2/k^2$. Therefore, to compute the LOOCV score, one only needs to fit $(k+1)$-NN regression only once, and does not need to repeat training-validation of $k$-NN regression for the number of training data. Numerical experiments confirm the validity of the fast computation method. | 翻訳日:2024-05-09 14:54:31 公開日:2024-05-08 |
# DataSP: コストの学習と文脈による経路予測のための差分全短経路アルゴリズム
DataSP: A Differential All-to-All Shortest Path Algorithm for Learning Costs and Predicting Paths with Context ( http://arxiv.org/abs/2405.04923v1 ) ライセンス: Link先を確認 | Alan A. Lahoud, Erik Schaffernicht, Johannes A. Stork, | (参考訳) グラフ上の遷移の遅延コストを、様々なコンテキスト特徴の下での軌跡から学習することは、パスプランニングには難しいが有用である。
しかし、既存の手法はコストの仮定を過度に単純化するか、観測された軌跡の数で不十分にスケールする。
本稿では,トラジェクトリからの遅延コストの学習を容易にするために,DataSPを提案する。
これにより、追加の計算をすることなく、各学習ステップにおける多数の軌跡から学習することができる。
コンテキスト特徴からの複雑な遅延コスト関数は、ニューラルネットワーク近似を通じてアルゴリズムで表現することができる。
さらに,観測された経路の分布を再構成し,再現するために,DataSPから経路をサンプリングする方法を提案する。
推定分布は最大エントロピー原理に従うことを証明している。
データSPは、グラフ上の経路予測において、最先端の微分可能な組合せ解法と古典的な機械学習アプローチより優れていることを示す。
Learning latent costs of transitions on graphs from trajectories demonstrations under various contextual features is challenging but useful for path planning. Yet, existing methods either oversimplify cost assumptions or scale poorly with the number of observed trajectories. This paper introduces DataSP, a differentiable all-to-all shortest path algorithm to facilitate learning latent costs from trajectories. It allows to learn from a large number of trajectories in each learning step without additional computation. Complex latent cost functions from contextual features can be represented in the algorithm through a neural network approximation. We further propose a method to sample paths from DataSP in order to reconstruct/mimic observed paths' distributions. We prove that the inferred distribution follows the maximum entropy principle. We show that DataSP outperforms state-of-the-art differentiable combinatorial solver and classical machine learning approaches in predicting paths on graphs. | 翻訳日:2024-05-09 14:54:31 公開日:2024-05-08 |
# 基礎モデルを用いた信頼できるAIアプリケーションの開発
Developing trustworthy AI applications with foundation models ( http://arxiv.org/abs/2405.04937v1 ) ライセンス: Link先を確認 | Michael Mock, Sebastian Schmidt, Felix Müller, Rebekka Görge, Anna Schmitz, Elena Haedecke, Angelika Voss, Dirk Hecker, Maximillian Poretschkin, | (参考訳) AIアプリケーションの信頼性は最近の研究の対象であり、EUが最近導入したAIレギュレーションにも対処されている。
テキスト、音声、画像処理の分野で現在登場した基盤モデルは、AIアプリケーションを開発するための全く新しい可能性を提供します。
このホワイトペーパーは、基礎モデルで開発されたAIアプリケーションの信頼性をどのように評価し、確実にするかを示している。
この目的のために、Fraunhofer IAISの'AI Assessment Catalog - Guideline for Trustworthy Artificial Intelligence'で開発された、AIアプリケーションの信頼性をテストし、保証するためのアプリケーション固有のリスクベースのアプローチは、基礎モデルのコンテキストに移行される。
ファンデーションモデルの特定のリスクがAIアプリケーションに影響を与える可能性があり、信頼性をチェックする際にも考慮する必要があるという事実を特に考慮する。
白書第1章では、信頼度の観点から基礎モデルとAIアプリケーションとの基本的な関係を説明している。
第2章では基礎モデルの技術的構築について紹介し、第3章ではAIアプリケーションをベースとした開発方法について説明している。
第4章は、信頼性に関する結果として生じるリスクの概要を提供する。
第5章は、欧州連合のAI規則の草案に従って、どのAIアプリケーションと基盤モデルの要件が期待されているかを示し、第6章は最終的に信頼性要件を満たすためのシステムと手順を示す。
The trustworthiness of AI applications has been the subject of recent research and is also addressed in the EU's recently adopted AI Regulation. The currently emerging foundation models in the field of text, speech and image processing offer completely new possibilities for developing AI applications. This whitepaper shows how the trustworthiness of an AI application developed with foundation models can be evaluated and ensured. For this purpose, the application-specific, risk-based approach for testing and ensuring the trustworthiness of AI applications, as developed in the 'AI Assessment Catalog - Guideline for Trustworthy Artificial Intelligence' by Fraunhofer IAIS, is transferred to the context of foundation models. Special consideration is given to the fact that specific risks of foundation models can have an impact on the AI application and must also be taken into account when checking trustworthiness. Chapter 1 of the white paper explains the fundamental relationship between foundation models and AI applications based on them in terms of trustworthiness. Chapter 2 provides an introduction to the technical construction of foundation models and Chapter 3 shows how AI applications can be developed based on them. Chapter 4 provides an overview of the resulting risks regarding trustworthiness. Chapter 5 shows which requirements for AI applications and foundation models are to be expected according to the draft of the European Union's AI Regulation and Chapter 6 finally shows the system and procedure for meeting trustworthiness requirements. | 翻訳日:2024-05-09 14:54:31 公開日:2024-05-08 |
# トランスファー可能なテキスト・ツー・イメージ・パーソン・リIDのためのMLLMのパワーの調和
Harnessing the Power of MLLMs for Transferable Text-to-Image Person ReID ( http://arxiv.org/abs/2405.04940v1 ) ライセンス: Link先を確認 | Wentao Tan, Changxing Ding, Jiayu Jiang, Fei Wang, Yibing Zhan, Dapeng Tao, | (参考訳) ReID(text-to-image person re-identification)は、テキスト記述に従って歩行者画像を取得する。
手作業によるテキスト記述の注釈付けには時間がかかり、既存のデータセットのスケールやReIDモデルの一般化能力が制限される。
そこで我々は,提案した大規模データベース上でモデルをトレーニングし,それを様々なデータセットに直接展開して評価を行う。
MLLM(Multi-modal Large Language Models)を用いて,大規模な学習データを得る。
さらに、得られたテキスト記述を利用する上での2つの重要な課題を特定し、対処する。
第一に、MLLMは類似した構造を持つ記述を生成する傾向があるため、モデルは特定の文パターンに過度に適合する。
そこで本稿では,MLLMを用いてテンプレートに応じて画像をキャプションする手法を提案する。
これらのテンプレートは,Large Language Model (LLM) を用いたマルチターン対話を用いて得られる。
したがって、多種多様なテキスト記述を持つ大規模データセットを構築することができる。
第2に、MLLMは誤った記述を生成できる。
そこで本稿では,画像に対応しない記述中の単語を自動的に識別する新しい手法を提案する。
この方法は、1つのテキストとすべてのパッチトークンのイメージへの埋め込みの類似性に基づいている。
そして、これらの単語を、その後の訓練の時期においてより大きな確率で隠蔽し、ノイズの多い文章記述の影響を緩和する。
実験の結果,本手法は直接転送によるReID性能を大幅に向上させることが示された。
事前訓練されたモデル重みから得られる利点は、従来の評価設定において最先端のパフォーマンスを達成することである。
Text-to-image person re-identification (ReID) retrieves pedestrian images according to textual descriptions. Manually annotating textual descriptions is time-consuming, restricting the scale of existing datasets and therefore the generalization ability of ReID models. As a result, we study the transferable text-to-image ReID problem, where we train a model on our proposed large-scale database and directly deploy it to various datasets for evaluation. We obtain substantial training data via Multi-modal Large Language Models (MLLMs). Moreover, we identify and address two key challenges in utilizing the obtained textual descriptions. First, an MLLM tends to generate descriptions with similar structures, causing the model to overfit specific sentence patterns. Thus, we propose a novel method that uses MLLMs to caption images according to various templates. These templates are obtained using a multi-turn dialogue with a Large Language Model (LLM). Therefore, we can build a large-scale dataset with diverse textual descriptions. Second, an MLLM may produce incorrect descriptions. Hence, we introduce a novel method that automatically identifies words in a description that do not correspond with the image. This method is based on the similarity between one text and all patch token embeddings in the image. Then, we mask these words with a larger probability in the subsequent training epoch, alleviating the impact of noisy textual descriptions. The experimental results demonstrate that our methods significantly boost the direct transfer text-to-image ReID performance. Benefiting from the pre-trained model weights, we also achieve state-of-the-art performance in the traditional evaluation settings. | 翻訳日:2024-05-09 14:54:31 公開日:2024-05-08 |
# 不正確な確率に部分的可観測性:ロバストなPMDPのためのゲームセマンティクス
Imprecise Probabilities Meet Partial Observability: Game Semantics for Robust POMDPs ( http://arxiv.org/abs/2405.04941v1 ) ライセンス: Link先を確認 | Eline M. Bovy, Marnix Suilen, Sebastian Junges, Nils Jansen, | (参考訳) 部分的に観測可能なマルコフ決定過程(POMDP)は確率分布が正確に知られているという重要な仮定に依存している。
ロバストPOMDP(RPOMDP)は不確実性集合と呼ばれる不正確な確率を定義することによって、この懸念を緩和する。
堅牢なMDPは広く研究されているが、RPOMDPの研究は限られており、主にアルゴリズム的な解法に焦点を当てている。
我々は、RPOMDPの理論的理解を拡大する。
1) 不確実性集合に関する異なる仮定は、最適な政策及び価値に影響を与える。
2) RPOMDP は部分的に観測可能な確率ゲーム (POSG) を持っている。
3) 異なる仮定を持つ同一の RPOMDP は意味的に異なるPOSG をもたらし、したがって異なるポリシーと値となる。
RPOMDPSのこれらの新しいセマンティクスは、広く研究されているPOSGモデルの結果へのアクセスを与え、具体的には、ナッシュ平衡の存在を示す。
最後に,既存のRPOMDP文献をセマンティクスを用いて分類し,これらの研究がどのような不確実性を想定しているかを明らかにする。
Partially observable Markov decision processes (POMDPs) rely on the key assumption that probability distributions are precisely known. Robust POMDPs (RPOMDPs) alleviate this concern by defining imprecise probabilities, referred to as uncertainty sets. While robust MDPs have been studied extensively, work on RPOMDPs is limited and primarily focuses on algorithmic solution methods. We expand the theoretical understanding of RPOMDPs by showing that 1) different assumptions on the uncertainty sets affect optimal policies and values; 2) RPOMDPs have a partially observable stochastic game (POSG) semantic; and 3) the same RPOMDP with different assumptions leads to semantically different POSGs and, thus, different policies and values. These novel semantics for RPOMDPS give access to results for the widely studied POSG model; concretely, we show the existence of a Nash equilibrium. Finally, we classify the existing RPOMDP literature using our semantics, clarifying under which uncertainty assumptions these existing works operate. | 翻訳日:2024-05-09 14:54:31 公開日:2024-05-08 |
# ディープニューラルネットワークを用いた非教師なし皮膚特徴追跡
Unsupervised Skin Feature Tracking with Deep Neural Networks ( http://arxiv.org/abs/2405.04943v1 ) ライセンス: Link先を確認 | Jose Chang, Torbjörn E. M. Nordling, | (参考訳) 顔の特徴追跡は、正確な心拍数推定のためにバリストグラフィーにおいて必須であり、皮膚の特徴追跡を通じてパーキンソン病における運動量の定量化を可能にする。
深層畳み込みニューラルネットワークは、追跡タスクにおいて顕著な精度を示してきたが、典型的には、教師付きトレーニングのために広範囲のラベル付きデータを必要とする。
提案するパイプラインでは,画像作物と対象特徴を含む参照作物とを照合するために,畳み込み型オートエンコーダを用いて,対象カテゴリ固有の深い特徴符号化を教師なしで学習し,データ要求を低減した。
収穫量に依存するエッジ効果を克服するため,損失関数を計算する際の画素残差に対するガウス重みを導入した。
顔画像のオートエンコーダをトレーニングし、手動でラベル付けされた顔と手動のビデオのパフォーマンスを検証するDFE(Deep Feature Encodings)法では、平均誤差が0.6から3.3ピクセルであり、SIFT、SURF、Lucas Kanade、PIPs++、CoTrackerといった最新のトランスフォーマーよりも優れていた。
全体として、教師なし学習アプローチは、様々な皮膚の特徴を重要な動作条件下で追跡し、従来のものと最先端の教師付き学習方法と比較して、追跡、マッチング、画像登録に優れた特徴記述子を提供する。
Facial feature tracking is essential in imaging ballistocardiography for accurate heart rate estimation and enables motor degradation quantification in Parkinson's disease through skin feature tracking. While deep convolutional neural networks have shown remarkable accuracy in tracking tasks, they typically require extensive labeled data for supervised training. Our proposed pipeline employs a convolutional stacked autoencoder to match image crops with a reference crop containing the target feature, learning deep feature encodings specific to the object category in an unsupervised manner, thus reducing data requirements. To overcome edge effects making the performance dependent on crop size, we introduced a Gaussian weight on the residual errors of the pixels when calculating the loss function. Training the autoencoder on facial images and validating its performance on manually labeled face and hand videos, our Deep Feature Encodings (DFE) method demonstrated superior tracking accuracy with a mean error ranging from 0.6 to 3.3 pixels, outperforming traditional methods like SIFT, SURF, Lucas Kanade, and the latest transformers like PIPs++ and CoTracker. Overall, our unsupervised learning approach excels in tracking various skin features under significant motion conditions, providing superior feature descriptors for tracking, matching, and image registration compared to both traditional and state-of-the-art supervised learning methods. | 翻訳日:2024-05-09 14:54:31 公開日:2024-05-08 |
# 効率的な特徴抽出機能を有するスパーステンソル発電機
A Sparse Tensor Generator with Efficient Feature Extraction ( http://arxiv.org/abs/2405.04944v1 ) ライセンス: Link先を確認 | Tugba Torun, Eren Yenigul, Ameer Taweel, Didem Unat, | (参考訳) ソーシャルネットワーク、ディープラーニング、診断、犯罪、レビュー分析などの新興アプリケーションにおいて、スパーステンソル操作が注目されている。
しかし、スパーステンソル演算の研究の大きな障害は、広範囲のスパーステンソルデータセットの欠如である。
スパーステンソル操作のもう1つの課題は、スパーステンソル機能を調べることである。これは、その非ゼロパターンを明らかにすることだけでなく、最も適した記憶形式、分解アルゴリズム、および順序付け方法を決定することにも大きな影響を与える。
しかし、実際のテンソルの大きさが大きいため、これらの特徴を抽出しても注意なくコストがかかる。
文献におけるこれらのギャップに対処するため,実スパーステンソルの実質的な特徴を模倣するスマートスパーステンソル生成器を開発した。
さらに,スパーステンソルの広範な特徴集合を効率的に抽出する様々な手法を提案する。
提案手法の有効性は, 生成テンソルにおける特性の質と分解性能によって検証される。
スパーステンソル機能抽出器とテンソルジェネレータはいずれもオープンソースで、すべてのアーティファクトはhttps://github.com/sparcityeu/feaTenとhttps://github.com/sparcityeu/genTenで利用可能である。
Sparse tensor operations are gaining attention in emerging applications such as social networks, deep learning, diagnosis, crime, and review analysis. However, a major obstacle for research in sparse tensor operations is the deficiency of a broad-scale sparse tensor dataset. Another challenge in sparse tensor operations is examining the sparse tensor features, which are not only important for revealing its nonzero pattern but also have a significant impact on determining the best-suited storage format, the decomposition algorithm, and the reordering methods. However, due to the large sizes of real tensors, even extracting these features becomes costly without caution. To address these gaps in the literature, we have developed a smart sparse tensor generator that mimics the substantial features of real sparse tensors. Moreover, we propose various methods for efficiently extracting an extensive set of features for sparse tensors. The effectiveness of our generator is validated through the quality of features and the performance of decomposition in the generated tensors. Both the sparse tensor feature extractor and the tensor generator are open source with all the artifacts available at https://github.com/sparcityeu/feaTen and https://github.com/sparcityeu/genTen, respectively. | 翻訳日:2024-05-09 14:44:45 公開日:2024-05-08 |
# ガウス量子マルコフ発生器のスペクトルギャップ
The Spectral Gap of a Gaussian Quantum Markovian Generator ( http://arxiv.org/abs/2405.04947v1 ) ライセンス: Link先を確認 | Franco Fagnola, Damiano Poletti, Emanuela Sasso, Veronica Umanità, | (参考訳) ガウス量子マルコフ半群(Gaussian quantum Markov semigroups)は、古典的オルンシュタイン・ウレンベック半群の自然な非可換拡大である。
ボソンの開量子系において、位置とモータの正準非可換なランダム変数が作用する。
忠実な不変密度を除いた場合、拡散およびドリフト行列によって決定されるある行列の最小固有値であることを示す不変密度によって決定される非可換な$L^2$空間において、生成子のスペクトルギャップである最適指数収束率を明示的に計算する。
スペクトルギャップは非可換な$L^2$空間に依存することが判明し、いわゆる GNS あるいは KMS 乗法によって決定されるものは不変密度の平方根によって決定される。
第1のケースでは、線形独立ノイズの最大数が存在する場合に限り、厳密な正である。
一方、KMS乗法にのみ正である明示的な例を示す。
我々は、不変密度に関して対称性や量子詳細バランス条件を仮定しない。
Gaussian quantum Markov semigroups are the natural non-commutative extension of classical Ornstein-Uhlenbeck semigroups. They arise in open quantum systems of bosons where canonical non-commuting random variables of positions and momenta come into play. If there exits a faithful invariant density we explicitly compute the optimal exponential convergence rate, namely the spectral gap of the generator, in non-commutative $L^2$ spaces determined by the invariant density showing that the exact value is the lowest eigenvalue of a certain matrix determined by the diffusion and drift matrices. The spectral gap turns out to depend on the non-commutative $L^2$ space considered, whether the one determined by the so-called GNS or KMS multiplication by the square root of the invariant density. In the first case, it is strictly positive if and only if there is the maximum number of linearly independent noises. While, we exhibit explicit examples in which it is strictly positive only with KMS multiplication. We do not assume any symmetry or quantum detailed balance condition with respect to the invariant density. | 翻訳日:2024-05-09 14:44:45 公開日:2024-05-08 |
# VisionGraph:ビジュアルコンテキストにおけるグラフ理論問題に対する大規模マルチモーダルモデルの活用
VisionGraph: Leveraging Large Multimodal Models for Graph Theory Problems in Visual Context ( http://arxiv.org/abs/2405.04950v1 ) ライセンス: Link先を確認 | Yunxin Li, Baotian Hu, Haoyuan Shi, Wei Wang, Longyue Wang, Min Zhang, | (参考訳) 大規模マルチモーダルモデル(LMM)は視覚的理解と推論において顕著な成功を収め、視覚的文脈における数学的推論の性能を著しく向上させた。
しかし、視覚数学の挑戦的なタイプはマルチモーダルグラフ理論の問題にあり、LMMはグラフィカルな構造を正確に理解し、視覚グラフ上で多段階の推論を行う必要がある。
さらに、マルチモーダルグラフ理論の問題を探求することで、生物学、輸送学、ロボット計画といった分野においてより効果的な戦略がもたらされる。
この方向に進むために、我々はVisionGraphというベンチマークを最初に設計し、マルチモーダルグラフ理論問題の解法における高度なLMMの能力を探究した。
接続性から最短経路問題までの8つの複雑なグラフ問題タスクを含んでいる。
次に、図形構造記述生成とアルゴリズム対応多段階推論により、推論プロセスの論理的精度を高めるための記述-プログラム-推論(DPR)チェーンを提案する。
我々の広範な研究は、
1) GPT-4V は多段階グラフ推論において Gemini Pro より優れている。
2)全てのLMMは,ゼロ/フェーショット設定でも教師付き微調整(SFT)であっても,グラフィカルな構造に対して認識精度が劣っている。
3) DPRはLMMの多段階グラフ推論能力を大幅に改善し, GPT-4V (DPR) エージェントはSOTA性能を実現する。
Large Multimodal Models (LMMs) have achieved impressive success in visual understanding and reasoning, remarkably improving the performance of mathematical reasoning in a visual context. Yet, a challenging type of visual math lies in the multimodal graph theory problem, which demands that LMMs understand the graphical structures accurately and perform multi-step reasoning on the visual graph. Additionally, exploring multimodal graph theory problems will lead to more effective strategies in fields like biology, transportation, and robotics planning. To step forward in this direction, we are the first to design a benchmark named VisionGraph, used to explore the capabilities of advanced LMMs in solving multimodal graph theory problems. It encompasses eight complex graph problem tasks, from connectivity to shortest path problems. Subsequently, we present a Description-Program-Reasoning (DPR) chain to enhance the logical accuracy of reasoning processes through graphical structure description generation and algorithm-aware multi-step reasoning. Our extensive study shows that 1) GPT-4V outperforms Gemini Pro in multi-step graph reasoning; 2) All LMMs exhibit inferior perception accuracy for graphical structures, whether in zero/few-shot settings or with supervised fine-tuning (SFT), which further affects problem-solving performance; 3) DPR significantly improves the multi-step graph reasoning capabilities of LMMs and the GPT-4V (DPR) agent achieves SOTA performance. | 翻訳日:2024-05-09 14:44:45 公開日:2024-05-08 |
# 複雑な産業画像に対する教師付き異常検出
Supervised Anomaly Detection for Complex Industrial Images ( http://arxiv.org/abs/2405.04953v1 ) ライセンス: Link先を確認 | Aimira Baitieva, David Hurych, Victor Besnier, Olivier Bernard, | (参考訳) 産業生産ラインにおける視覚検査の自動化は、様々な産業における製品品質向上に不可欠である。
異常検出(AD)法はこの目的のために堅牢なツールとして機能する。
しかし、既存のパブリックデータセットは、主に異常のないイメージで構成されており、プロダクション設定におけるADメソッドの実践的適用を制限している。
この課題に対処するため,(1)Valeo Anomaly Dataset(VAD)を提案する。
従来のADメソッドがこのデータセットに苦労していることを認識し,(2)セグメンテーションベースの異常検出器(SegAD)を紹介する。
まず、SegADは異常マップとセグメンテーションマップを利用して局所統計を計算する。
次に、SegADはこれらの統計値と任意の教師付き分類器スコアをBoosted Random Forest (BRF)分類器の入力特徴として使用し、最終的な異常スコアを得る。
私たちのSegADは、AD(+2.1% AUROC)とVisAデータセット(+0.4% AUROC)の両方で最先端のパフォーマンスを実現しています。
コードとモデルは公開されています。
Automating visual inspection in industrial production lines is essential for increasing product quality across various industries. Anomaly detection (AD) methods serve as robust tools for this purpose. However, existing public datasets primarily consist of images without anomalies, limiting the practical application of AD methods in production settings. To address this challenge, we present (1) the Valeo Anomaly Dataset (VAD), a novel real-world industrial dataset comprising 5000 images, including 2000 instances of challenging real defects across more than 20 subclasses. Acknowledging that traditional AD methods struggle with this dataset, we introduce (2) Segmentation-based Anomaly Detector (SegAD). First, SegAD leverages anomaly maps as well as segmentation maps to compute local statistics. Next, SegAD uses these statistics and an optional supervised classifier score as input features for a Boosted Random Forest (BRF) classifier, yielding the final anomaly score. Our SegAD achieves state-of-the-art performance on both VAD (+2.1% AUROC) and the VisA dataset (+0.4% AUROC). The code and the models are publicly available. | 翻訳日:2024-05-09 14:44:45 公開日:2024-05-08 |
# 要約モデルから抽出した知識による長文理解の改善
Improving Long Text Understanding with Knowledge Distilled from Summarization Model ( http://arxiv.org/abs/2405.04955v1 ) ライセンス: Link先を確認 | Yan Liu, Yazheng Yang, Xiaokang Chen, | (参考訳) 長い文章の理解は、自然言語処理にとって重要だが難しい。
長い記事や文書は通常、そのジストに関係のない多くの冗長な単語を含み、時にはノイズと見なされる。
近年の抽象要約の進歩により,要約モデルのgist検出能力を活用し,抽出したgistを下流モデルに統合し,長文理解能力を向上するためのemph{Gist Detector}を提案する。
具体的には、Gist Detectorはまず、要約モデルから抽出されたギスト検出知識を学習し、その後、下流モデルを拡張するためにギスト認識表現を生成する。
提案手法は,長い文書分類,遠隔教師付きオープンドメイン質問応答,非並列テキストスタイル転送の3つのタスクで評価する。
実験結果から,本手法は全タスクにおけるベースラインモデルの性能を大幅に向上させることができることがわかった。
Long text understanding is important yet challenging for natural language processing. A long article or document usually contains many redundant words that are not pertinent to its gist and sometimes can be regarded as noise. With recent advances of abstractive summarization, we propose our \emph{Gist Detector} to leverage the gist detection ability of a summarization model and integrate the extracted gist into downstream models to enhance their long text understanding ability. Specifically, Gist Detector first learns the gist detection knowledge distilled from a summarization model, and then produces gist-aware representations to augment downstream models. We evaluate our method on three different tasks: long document classification, distantly supervised open-domain question answering, and non-parallel text style transfer. The experimental results show that our method can significantly improve the performance of baseline models on all tasks. | 翻訳日:2024-05-09 14:44:45 公開日:2024-05-08 |
# P-ICL:大規模言語モデルを用いた名前付きエンティティ認識のためのポイントインコンテキスト学習
P-ICL: Point In-Context Learning for Named Entity Recognition with Large Language Models ( http://arxiv.org/abs/2405.04960v1 ) ライセンス: Link先を確認 | Guochao Jiang, Zepeng Ding, Yuchen Shi, Deqing Yang, | (参考訳) 近年,大規模言語モデル (LLM) の台頭により,実演サンプルを使わずに直接名前付きエンティティ認識 (NER) を実現することが可能になった。
しかし、標準のICLは、LSMがタスク命令、フォーマット、入力ラベルマッピングを理解するのに役立ち、NERタスク自体の特異性を無視している。
本稿では, LLM を用いて NER をよりよく実現するための新しいプロンプトフレームワーク P-ICL を提案する。
このような重要な情報により、LLMはより正確にエンティティ分類を達成することができる。
そこで本研究では,K-Meansクラスタリングに基づくポイントエンティティ選択手法を提案する。
P-ICL とポイントエンティティ選択における提案手法の有効性を検証するため,いくつかの代表的 NER ベンチマークの広範な実験を行った。
In recent years, the rise of large language models (LLMs) has made it possible to directly achieve named entity recognition (NER) without any demonstration samples or only using a few samples through in-context learning (ICL). However, standard ICL only helps LLMs understand task instructions, format and input-label mapping, but neglects the particularity of the NER task itself. In this paper, we propose a new prompting framework P-ICL to better achieve NER with LLMs, in which some point entities are leveraged as the auxiliary information to recognize each entity type. With such significant information, the LLM can achieve entity classification more precisely. To obtain optimal point entities for prompting LLMs, we also proposed a point entity selection method based on K-Means clustering. Our extensive experiments on some representative NER benchmarks verify the effectiveness of our proposed strategies in P-ICL and point entity selection. | 翻訳日:2024-05-09 14:44:45 公開日:2024-05-08 |
# リモートセンシング画像超解像のための周波数支援マンバ
Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution ( http://arxiv.org/abs/2405.04964v1 ) ライセンス: Link先を確認 | Yi Xiao, Qiangqiang Yuan, Kui Jiang, Yuzeng Chen, Qiang Zhang, Chia-Wen Lin, | (参考訳) リモートセンシング画像(RSI)の最近の進歩は、ディープニューラルネットワーク、例えば畳み込みニューラルネットワーク、トランスフォーマーを用いて顕著な性能を示した。
しかし、既存のSR法は、制限された受容場または二次計算オーバーヘッドに悩まされることが多く、その結果、大規模RSIにおいて、準最適大域表現と許容不可能な計算コストが生じる。
これらの問題を緩和するため、線形複雑度で長距離依存を捉えることで大規模RSI処理を専門とするRSI-SRのためのビジョン状態空間モデル(Mamba)を統合するための最初の試みを開発する。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを開発し,空間的・頻繁な相関関係を探索する。
特に、FMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層核融合アーキテクチャを特徴としている。
グローバルとローカルの依存関係は、SRにとって相補的かつ有益であることを認識し、学習可能なスケーリングアダプタを介して、これらのマルチレベル機能を正確な機能融合のために再検討する。
AID、DOTA、DIORベンチマークの大規模な実験により、FMSRは、それぞれのメモリ消費と複雑性の28.05%と19.08%しか消費せず、最先端のトランスフォーマーベースのHAT-Lを平均0.11dBで上回っていることが示された。
Recent progress in remote sensing image (RSI) super-resolution (SR) has exhibited remarkable performance using deep neural networks, e.g., Convolutional Neural Networks and Transformers. However, existing SR methods often suffer from either a limited receptive field or quadratic computational overhead, resulting in sub-optimal global representation and unacceptable computational costs in large-scale RSI. To alleviate these issues, we develop the first attempt to integrate the Vision State Space Model (Mamba) for RSI-SR, which specializes in processing large-scale RSI by capturing long-range dependency with linear complexity. To achieve better SR reconstruction, building upon Mamba, we devise a Frequency-assisted Mamba framework, dubbed FMSR, to explore the spatial and frequent correlations. In particular, our FMSR features a multi-level fusion architecture equipped with the Frequency Selection Module (FSM), Vision State Space Module (VSSM), and Hybrid Gate Module (HGM) to grasp their merits for effective spatial-frequency fusion. Recognizing that global and local dependencies are complementary and both beneficial for SR, we further recalibrate these multi-level features for accurate feature fusion via learnable scaling adaptors. Extensive experiments on AID, DOTA, and DIOR benchmarks demonstrate that our FMSR outperforms state-of-the-art Transformer-based methods HAT-L in terms of PSNR by 0.11 dB on average, while consuming only 28.05% and 19.08% of its memory consumption and complexity, respectively. | 翻訳日:2024-05-09 14:44:45 公開日:2024-05-08 |
# 時空拡大の進化は近似量子クローニングを実現する
The evolution of expanding spacetime realizes approximate quantum cloning ( http://arxiv.org/abs/2405.04965v1 ) ライセンス: Link先を確認 | Laura Niermann, Tobias J. Osborne, | (参考訳) 我々は、時空の膨張中に、量子フィールドに符号化された量子情報がどのように進化するかを考察する。
地平線を越えた情報損失により、局所的な観測者はこの進化を非単位量子チャネルとして経験する。
初期大域状態がバンチダビエス真空のゆらぎを介して信号状態を符号化していると仮定することにより、ド・ジッター時空の場合、このチャネルを得る。
特に、デ・シッターの進化は、時空の曲率と量子情報の伝播の間の接続を確立する、興味深いクローン特性を示す。
We investigate how quantum information, encoded in a quantum field, evolves during the expansion of spacetime. Due to information loss across the horizon, a local observer experiences this evolution as a nonunitary quantum channel. We obtain this channel in the case of de Sitter spacetime by assuming the initial global state encodes a signal state via fluctuations of the Bunch-Davies vacuum. Notably, de Sitter evolution exhibits intriguing cloning properties, establishing a connection between the curvature of spacetime and the propagation of quantum information. | 翻訳日:2024-05-09 14:44:45 公開日:2024-05-08 |
# コードブックによる情報充足によるコミュニケーション効率の良い協調認識
Communication-Efficient Collaborative Perception via Information Filling with Codebook ( http://arxiv.org/abs/2405.04966v1 ) ライセンス: Link先を確認 | Yue Hu, Juntong Peng, Sifei Liu, Junhao Ge, Si Liu, Siheng Chen, | (参考訳) 協調的知覚は、他のエージェントと知覚的メッセージの交換を通じて、各エージェントに知覚能力を向上させる権限を与える。
これは本質的には、知覚能力と通信コストの根本的なトレードオフをもたらす。
このボトルネック問題に対処するため、私たちの中核となる考え方は、協調メッセージを2つの重要な側面、すなわち表現と選択から最適化することにあります。
提案したコードブックベースのメッセージ表現は,高次元特徴写像ではなく整数符号の伝送を可能にする。
提案した情報充足型メッセージ選択は、各エージェントの情報要求をまとめて満たし、複数のエージェント間の情報のオーバーフローを防止するために、ローカルメッセージを最適化する。
これら2つの設計を統合することで,コミュニケーション効率の良い協調認識システムであるCodeFillingを提案する。
実世界のデータセットDAIR-V2Xと新しいシミュレーションデータセットOPV2VH+でCodeFillingを評価する。
その結果, CodeFilling は, DAIR-V2X/OPV2VH+ 上の SOTA Where2comm よりも1,333/1,206 倍低い通信量で優れていた。
私たちのコードはhttps://github.com/PhyllisH/CodeFilling.comから入手可能です。
Collaborative perception empowers each agent to improve its perceptual ability through the exchange of perceptual messages with other agents. It inherently results in a fundamental trade-off between perception ability and communication cost. To address this bottleneck issue, our core idea is to optimize the collaborative messages from two key aspects: representation and selection. The proposed codebook-based message representation enables the transmission of integer codes, rather than high-dimensional feature maps. The proposed information-filling-driven message selection optimizes local messages to collectively fill each agent's information demand, preventing information overflow among multiple agents. By integrating these two designs, we propose CodeFilling, a novel communication-efficient collaborative perception system, which significantly advances the perception-communication trade-off and is inclusive to both homogeneous and heterogeneous collaboration settings. We evaluate CodeFilling in both a real-world dataset, DAIR-V2X, and a new simulation dataset, OPV2VH+. Results show that CodeFilling outperforms previous SOTA Where2comm on DAIR-V2X/OPV2VH+ with 1,333/1,206 times lower communication volume. Our code is available at https://github.com/PhyllisH/CodeFilling. | 翻訳日:2024-05-09 14:44:45 公開日:2024-05-08 |
# 差別的自己指導型学習法の検討
A review on discriminative self-supervised learning methods ( http://arxiv.org/abs/2405.04969v1 ) ライセンス: Link先を確認 | Nikolaos Giakoumoglou, Tania Stathaki, | (参考訳) コンピュータビジョンの分野では、ラベルのないデータから堅牢な特徴を抽出する手法として自己教師型学習が登場し、モデルが手動のアノテーションを必要とせず、ラベルをデータ自体から自律的に抽出する。
本稿では,コンピュータビジョンの領域における自己指導型学習の差別的アプローチを概観し,その進化と現状について考察する。
本研究では, コントラスト, 自己蒸留, 知識蒸留, 特徴デコレーション, クラスタリング技術など, 各種手法の探索を通じて, ラベルなしデータの豊富さをいかに活用するかを考察する。
最後に,標準画像ネット分類ベンチマークにおける自己教師付き学習手法の比較を行った。
In the field of computer vision, self-supervised learning has emerged as a method to extract robust features from unlabeled data, where models derive labels autonomously from the data itself, without the need for manual annotation. This paper provides a comprehensive review of discriminative approaches of self-supervised learning within the domain of computer vision, examining their evolution and current status. Through an exploration of various methods including contrastive, self-distillation, knowledge distillation, feature decorrelation, and clustering techniques, we investigate how these approaches leverage the abundance of unlabeled data. Finally, we have comparison of self-supervised learning methods on the standard ImageNet classification benchmark. | 翻訳日:2024-05-09 14:44:45 公開日:2024-05-08 |
# 文書中のテーブル検出のための修正対象クエリを用いたエンド・ツー・エンド半監視手法
End-to-End Semi-Supervised approach with Modulated Object Queries for Table Detection in Documents ( http://arxiv.org/abs/2405.04971v1 ) ライセンス: Link先を確認 | Iqraa Ehsan, Tahira Shehzadi, Didier Stricker, Muhammad Zeshan Afzal, | (参考訳) 文書解析における重要なタスクであるテーブル検出は、文書画像内のテーブルを正確に認識し、特定することを目的としている。
ディープラーニングはこの領域で顕著な進歩を見せているが、通常、熟練したトレーニングのためにラベル付きデータの広範なデータセットを必要とする。
現在のCNNベースの半教師付きテーブル検出アプローチでは、アンカー生成プロセスと非最大抑圧(NMS)を検出プロセスに使用し、トレーニング効率を制限している。
一方、トランスフォーマーベースの半教師付き技術は、ノイズの多い擬似ラベルを提供する1対1のマッチング戦略を採用し、全体的な効率を制限した。
本研究では,革新的な変圧器を用いた半教師付きテーブル検出器を提案する。
1対1と1対1の割り当て技術を組み合わせた新しいマッチング戦略により、擬似ラベルの品質を向上させる。
このアプローチは、早期のトレーニング効率を大幅に向上させ、さらなるトレーニングのために優れた擬似ラベルを確保する。
我々の半教師付きアプローチは、PubLayNet、ICADR-19、TableBankなどのベンチマークデータセットで包括的に評価されます。
従来の半教師付きテーブル検出手法よりも7.4点と7.6点の改善を達成し、TableBank(ワード)とPubLaynetで95.7%と97.9%のmAPを達成している。
その結果,既存の最先端手法を実質的なマージンで上回る半教師ありアプローチの優位性を示した。
本研究は, 半教師付きテーブル検出手法の大幅な進歩を示し, 実用的な文書解析タスクに対して, より効率的かつ正確な解法を提供する。
Table detection, a pivotal task in document analysis, aims to precisely recognize and locate tables within document images. Although deep learning has shown remarkable progress in this realm, it typically requires an extensive dataset of labeled data for proficient training. Current CNN-based semi-supervised table detection approaches use the anchor generation process and Non-Maximum Suppression (NMS) in their detection process, limiting training efficiency. Meanwhile, transformer-based semi-supervised techniques adopted a one-to-one match strategy that provides noisy pseudo-labels, limiting overall efficiency. This study presents an innovative transformer-based semi-supervised table detector. It improves the quality of pseudo-labels through a novel matching strategy combining one-to-one and one-to-many assignment techniques. This approach significantly enhances training efficiency during the early stages, ensuring superior pseudo-labels for further training. Our semi-supervised approach is comprehensively evaluated on benchmark datasets, including PubLayNet, ICADR-19, and TableBank. It achieves new state-of-the-art results, with a mAP of 95.7% and 97.9% on TableBank (word) and PubLaynet with 30% label data, marking a 7.4 and 7.6 point improvement over previous semi-supervised table detection approach, respectively. The results clearly show the superiority of our semi-supervised approach, surpassing all existing state-of-the-art methods by substantial margins. This research represents a significant advancement in semi-supervised table detection methods, offering a more efficient and accurate solution for practical document analysis tasks. | 翻訳日:2024-05-09 14:44:45 公開日:2024-05-08 |
# AIとXAIに基づく意思決定支援の可能性
Overcoming Anchoring Bias: The Potential of AI and XAI-based Decision Support ( http://arxiv.org/abs/2405.04972v1 ) ライセンス: Link先を確認 | Felix Haag, Carlo Stingl, Katrin Zerfass, Konstantin Hopf, Thorsten Staake, | (参考訳) 情報システム(IS)は、個人の意思決定(例えば、購入決定を操作することで)に影響を与えるバイアスをアンカーする負の効果を利用するように設計されている。
人工知能(AI)の最近の進歩と、説明可能なAI(XAI)による意思決定の説明により、バイアスのある決定を緩和する新たな機会が開かれた。
これまでのところ、アンカーバイアスを克服するこれらの技術進歩の可能性は、広く不明である。
この目的のために、AIとXAIに基づく意思決定支援がバイアスのアンカーに与える影響を調べるために、購入決定の文脈において、合計390人のN=390人の参加者による2つのオンライン実験を行った。
以上の結果から,AI単独とXAIの組み合わせは,バイアスのアンカーによる負の効果を軽減するのに有効であることが示唆された。
最終的に、私たちの発見は、認知バイアスを克服するためにAIとXAIベースの意思決定支援とISの設計に影響を及ぼす。
Information systems (IS) are frequently designed to leverage the negative effect of anchoring bias to influence individuals' decision-making (e.g., by manipulating purchase decisions). Recent advances in Artificial Intelligence (AI) and the explanations of its decisions through explainable AI (XAI) have opened new opportunities for mitigating biased decisions. So far, the potential of these technological advances to overcome anchoring bias remains widely unclear. To this end, we conducted two online experiments with a total of N=390 participants in the context of purchase decisions to examine the impact of AI and XAI-based decision support on anchoring bias. Our results show that AI alone and its combination with XAI help to mitigate the negative effect of anchoring bias. Ultimately, our findings have implications for the design of AI and XAI-based decision support and IS to overcome cognitive biases. | 翻訳日:2024-05-09 14:44:45 公開日:2024-05-08 |
# 脳MRIにおける病変検出のための離散性に基づく拡散モデル
Discrepancy-based Diffusion Models for Lesion Detection in Brain MRI ( http://arxiv.org/abs/2405.04974v1 ) ライセンス: Link先を確認 | Keqiang Fan, Xiaohao Cai, Mahesan Niranjan, | (参考訳) 拡散確率モデル(DPM)はコンピュータビジョンタスク、特に画像生成において大きな効果を発揮している。
しかし、その顕著なパフォーマンスはラベル付きデータセットに大きく依存しており、関連する高コストアノテーションのため、医療画像への適用を制限している。
医用画像における病変検出の現在のDPM関連手法は、2つの異なるアプローチに分類できるが、主に画像レベルのアノテーションに依存している。
最初のアプローチは、異常検出に基づいて、健康な脳の表現を学習し、推論結果の違いに基づいて異常を識別する。
対照的に、セグメンテーションタスクに似た第2のアプローチでは、元の脳のマルチモーダルのみを、ピクセルレベルのアノテーションを生成するための事前情報として採用している。
本稿では,脳MRIにおける病変検出のための距離分布医療拡散(DDMD)モデルについて,従来の画像レベルのアノテーションや元の脳のモダリティへの直接的な依存から逸脱した特徴を取り入れた新しい枠組みを提案する。
本手法では,画像レベルのアノテーションの不整合を異種サンプル間の分布不一致に変換し,同種サンプル内の情報を保存する。
この特性は画素単位での不確実性を保ち、セグメンテーションの暗黙のアンサンブルを促進し、最終的に全体的な検出性能を向上させる。
脳腫瘍検出のためのマルチモーダルMRIスキャンを含むBRATS2020ベンチマークデータセットで行った詳細な実験は、最先端の手法と比較して、我々のアプローチの優れた性能を示している。
Diffusion probabilistic models (DPMs) have exhibited significant effectiveness in computer vision tasks, particularly in image generation. However, their notable performance heavily relies on labelled datasets, which limits their application in medical images due to the associated high-cost annotations. Current DPM-related methods for lesion detection in medical imaging, which can be categorized into two distinct approaches, primarily rely on image-level annotations. The first approach, based on anomaly detection, involves learning reference healthy brain representations and identifying anomalies based on the difference in inference results. In contrast, the second approach, resembling a segmentation task, employs only the original brain multi-modalities as prior information for generating pixel-level annotations. In this paper, our proposed model - discrepancy distribution medical diffusion (DDMD) - for lesion detection in brain MRI introduces a novel framework by incorporating distinctive discrepancy features, deviating from the conventional direct reliance on image-level annotations or the original brain modalities. In our method, the inconsistency in image-level annotations is translated into distribution discrepancies among heterogeneous samples while preserving information within homogeneous samples. This property retains pixel-wise uncertainty and facilitates an implicit ensemble of segmentation, ultimately enhancing the overall detection performance. Thorough experiments conducted on the BRATS2020 benchmark dataset containing multimodal MRI scans for brain tumour detection demonstrate the great performance of our approach in comparison to state-of-the-art methods. | 翻訳日:2024-05-09 14:44:45 公開日:2024-05-08 |
# Prototype2Code: UIデザインプロトタイプからエンドツーエンドのフロントエンドコード生成
Prototype2Code: End-to-end Front-end Code Generation from UI Design Prototypes ( http://arxiv.org/abs/2405.04975v1 ) ライセンス: Link先を確認 | Shuhong Xiao, Yunnong Chen, Jiazhi Li, Liuqing Chen, Lingyun Sun, Tingting Zhou, | (参考訳) UI-to-code技術はフロントエンドの開発プロセスを効率化し、エンジニアの繰り返しタスクを削減した。
以前の研究では、主に設計プロトタイプを入力として使用しており、生成されたコードの有効性はこれらのプロトタイプの品質に大きく依存しているため、堅牢性が損なわれている。
さらに、これらのアプローチは、非組織的なUI構造やレスポンシブレイアウトをサポートできないといった問題など、コード品質の欠点も示している。
これらの課題に対処するために、ビジネスニーズでエンドツーエンドのフロントエンドコード生成を実現するPrototype2Codeを紹介します。
Prototype2Codeでは、設計リンティングをワークフローに組み込み、断片化された要素や知覚グループの検出に対処し、生成された結果の堅牢性を高める。
階層構造を最適化し、UI要素の型をインテリジェントに認識することで、Prototype2Codeはより読みやすく構造的にクリアなコードを生成する。
レスポンシブな設計要件を満たすため、Prototype2Codeは主にflexboxレイアウトモデルをサポートし、さまざまなデバイスサイズのコード互換性を保証する。
有効性を検証するため,プロトタイプ2Codeと商用コード生成プラットフォームCodeFunとGPT-4に基づくScreenshot-to-codeを比較した。
構造的類似度指数測定(SSIM)、ピーク信号-雑音比(PSNR)、視覚的類似度評価に平均2乗誤差(MSE)を用いることで、Prototype2CodeのレンダリングUIエフェクトは設計プロトタイプと最も密接に一致し、最小限のエラーを示す。
また、経験豊富なフロントエンドエンジニア5人とユーザスタディを行い、3つのメソッドが生成したコードをレビューし、修正するよう呼びかけます。
その結果、Prototype2Codeは可読性、ユーザビリティ、保守性といった他の手法を超越し、産業開発におけるビジネスニーズをより良く満たします。
UI-to-code technology has streamlined the front-end development process, reducing repetitive tasks for engineers. prior research mainly use design prototypes as inputs, with the effectiveness of the generated code heavily dependent on these prototypes' quality, leading to compromised robustness. Moreover, these approaches also exhibit shortcomings in code quality, including issues such as disorganized UI structures and the inability to support responsive layouts. To address these challenges, we introduce Prototype2Code, which achieves end-to-end front-end code generation with business demands. For Prototype2Code, we incorporate design linting into the workflow, addressing the detection of fragmented elements and perceptual groups, enhancing the robustness of the generated outcomes. By optimizing the hierarchical structure and intelligently recognizing UI element types, Prototype2Code generates code that is more readable and structurally clearer. To meet responsive design requirements, Prototype2Code primarily supports flexbox layout model, ensuring code compatibility across various device sizes. To validate the efficacy, we compare Prototype2Code with the commercial code generation platform CodeFun and Screenshot-to-code based on GPT-4 with vision. Employing structural similarity index measure (SSIM), peak signal-to-noise ratio (PSNR), and mean squared error (MSE) for visual similarity assessment, Prototype2Code's rendered UI effects align most closely with the design prototypes, exhibiting the minimal errors. We also conduct a user study with five experienced front-end engineers, inviting them to review and revise code generated by the three methods. As a result, Prototype2Code surpasses other methods in readability, usability, and maintainability, better meeting the business needs of industrial development. | 翻訳日:2024-05-09 14:44:45 公開日:2024-05-08 |
# 最悪の保証付き動的データレイアウト最適化
Dynamic Data Layout Optimization with Worst-case Guarantees ( http://arxiv.org/abs/2405.04984v1 ) ライセンス: Link先を確認 | Kexin Rong, Paul Liu, Sarah Ashok Sonje, Moses Charikar, | (参考訳) 多くのデータ分析システムは、数百万行の行を含むパーティションに巨大なデータセットを格納し、処理する。
最適化された方法で行をパーティションにマッピングすることで、クエリ処理中に多数の無関係なパーティションをスキップすることで、クエリ性能を向上させることができる。
このマッピングは、データレイアウトと呼ばれる。
最近の研究によると、予想されるクエリワークロードへのデータレイアウトのカスタマイズはクエリのパフォーマンスを大幅に改善するが、ワークロードが変更されればパフォーマンス上のメリットは消える可能性がある。
ワークロードのドリフトに対応するためにデータレイアウトを再編成することは、この問題を解決することができるが、慎重に実行しなければ、再編成コストはクエリの節約を超える可能性がある。
本稿では,クエリ性能の向上と再編成コストのバランスをとるために,オンライン再編成決定を行うアルゴリズムフレームワークOReOを提案する。
我々のフレームワークはMetrical Task Systemsの結果を拡張し、クエリのワークロードを事前に知ることなく、オンライン再編成における最悪のパフォーマンス保証を厳格に拘束する。
実世界のデータセットとクエリのワークロードの評価を通じて、OReOによるオンライン再編成は、ワークロード全体に対して単一の最適化されたデータレイアウトを使用する場合と比較して、クエリと再編成時間の組み合わせで最大32%改善できることを示した。
Many data analytics systems store and process large datasets in partitions containing millions of rows. By mapping rows to partitions in an optimized way, it is possible to improve query performance by skipping over large numbers of irrelevant partitions during query processing. This mapping is referred to as a data layout. Recent works have shown that customizing the data layout to the anticipated query workload greatly improves query performance, but the performance benefits may disappear if the workload changes. Reorganizing data layouts to accommodate workload drift can resolve this issue, but reorganization costs could exceed query savings if not done carefully. In this paper, we present an algorithmic framework OReO that makes online reorganization decisions to balance the benefits of improved query performance with the costs of reorganization. Our framework extends results from Metrical Task Systems to provide a tight bound on the worst-case performance guarantee for online reorganization, without prior knowledge of the query workload. Through evaluation on real-world datasets and query workloads, our experiments demonstrate that online reorganization with OReO can lead to an up to 32% improvement in combined query and reorganization time compared to using a single, optimized data layout for the entire workload. | 翻訳日:2024-05-09 14:44:45 公開日:2024-05-08 |
# 一般知識と教師なし学習の統合による健康指標の推定
Health Index Estimation Through Integration of General Knowledge with Unsupervised Learning ( http://arxiv.org/abs/2405.04990v1 ) ライセンス: Link先を確認 | Kristupas Bajarunas, Marcia L. Baptista, Kai Goebel, Manuel A. Chao, | (参考訳) 複雑なシステムにおいて、状態監視データ(CM)から正確な健康指標(HI)を推定することは、信頼性と解釈可能な予後および健康管理(PHM)に不可欠である。
ほとんどのシナリオでは、複雑なシステムは様々な動作条件下で動作し、異なる障害モードを示すことができるため、CMデータからのHIの教師なし推論が大きな課題となる。
この課題を克服するために、劣化に関する事前知識とディープラーニングモデルを組み合わせたハイブリッドモデルが提案されている。
しかし、以前に提案されたHI推定のハイブリッドモデルは通常、システム固有の情報に大きく依存し、他のシステムへの転送可能性を制限する。
本研究では,畳み込みオートエンコーダのモデルアーキテクチャと学習アルゴリズムに劣化に関する一般的な知識を組み込んだHI推定のための教師なしハイブリッド手法を提案する。
提案手法の有効性は, ターボファンエンジンとリチウム電池の2つの領域で実証された。
提案手法は, HIの品質と, その有用性(Remaining Useful Life, RUL)予測において, 残差ベースの方法を含む他の競合手法よりも優れていることを示す。
ケーススタディでは,HIラベルで学習した教師付きモデルを用いて,提案手法と同等の性能を示す。
Accurately estimating a Health Index (HI) from condition monitoring data (CM) is essential for reliable and interpretable prognostics and health management (PHM) in complex systems. In most scenarios, complex systems operate under varying operating conditions and can exhibit different fault modes, making unsupervised inference of an HI from CM data a significant challenge. Hybrid models combining prior knowledge about degradation with deep learning models have been proposed to overcome this challenge. However, previously suggested hybrid models for HI estimation usually rely heavily on system-specific information, limiting their transferability to other systems. In this work, we propose an unsupervised hybrid method for HI estimation that integrates general knowledge about degradation into the convolutional autoencoder's model architecture and learning algorithm, enhancing its applicability across various systems. The effectiveness of the proposed method is demonstrated in two case studies from different domains: turbofan engines and lithium batteries. The results show that the proposed method outperforms other competitive alternatives, including residual-based methods, in terms of HI quality and their utility for Remaining Useful Life (RUL) predictions. The case studies also highlight the comparable performance of our proposed method with a supervised model trained with HI labels. | 翻訳日:2024-05-09 14:35:00 公開日:2024-05-08 |
# NAVRepair:ノードタイプのC/C++コードの脆弱性修復
NAVRepair: Node-type Aware C/C++ Code Vulnerability Repair ( http://arxiv.org/abs/2405.04994v1 ) ライセンス: Link先を確認 | Ruoke Wang, Zongjie Li, Chaozheng Wang, Yang Xiao, Cuiyun Gao, | (参考訳) ディープラーニングの急速な進歩は、大規模言語モデル(LLM)の開発につながった。
脆弱性修復の分野では、以前の研究はルールベースの修正、事前訓練されたモデル、LLMの迅速なエンジニアリングを活用している。
しかし、既存のアプローチでは、コード構造とエラータイプの統合に関して制限がある。
さらに、C/C++言語の特定の機能のため、C/C++の脆弱性の修復は非常に難しい。
これらの課題に対処するために,抽象構文木(AST)から抽出したノード型情報とエラー型を組み合わせた,特にC/C++脆弱性を対象とする新しいフレームワークであるNAVRepairを提案する。
具体的には、最小編集ノード(MEN)をローカライズし、異なるエラータイプに基づいてコンテキスト情報収集をカスタマイズする。
オフラインの段階では、NAVRepairはMENを見つけるためにコードパッチを解析し、MENタイプごとに関連するコンテキスト情報を抽出するルールを設計する。
オンライン修復の段階では、疑わしいコードを解析し、CWE(Common Weakness Enumeration)から派生した脆弱性タイプのテンプレートと組み合わせ、対象とする修復プロンプトを生成する。
NAVRepair を複数の LLM 上で評価し,コード脆弱性修復の性能向上に有効であることを示す。
特に、我々のフレームワークは特定のLLMとは独立しており、新しい脆弱性タイプに迅速に適応できます。
大規模な実験により、NAVRepairはLLMがC/C++の脆弱性を正確に検出し、修正するのを補助する優れた結果が得られることが検証された。
既存のLLMベースのC/C++脆弱性修復法と比較して26%高い精度を実現している。
当社のノード型認識アプローチは,現実世界のC/C++コードのセキュリティ向上に期待できるアプリケーションであると考えています。
The rapid advancement of deep learning has led to the development of Large Language Models (LLMs). In the field of vulnerability repair, previous research has leveraged rule-based fixing, pre-trained models, and LLM's prompt engineering. However, existing approaches have limitations in terms of the integration of code structure with error types. Besides, due to certain features of C/C++ language, vulnerability repair in C/C++ proves to be exceptionally challenging. To address these challenges, we propose NAVRepair, a novel framework that combines the node-type information extracted from Abstract Syntax Trees (ASTs) with error types, specifically targeting C/C++ vulnerabilities. Specifically, our approach employs type analysis to localize the minimum edit node (MEN) and customizes context information collection based on different error types. In the offline stage, NAVRepair parses code patches to locate MENs and designs rules to extract relevant contextual information for each MEN type. In the online repairing stage, it analyzes the suspicious code, combines it with vulnerability type templates derived from the Common Weakness Enumeration (CWE), and generates targeted repair prompts. We evaluate NAVRepair on multiple popular LLMs and demonstrate its effectiveness in improving the performance of code vulnerability repair. Notably, our framework is independent of any specific LLMs and can quickly adapt to new vulnerability types. Extensive experiments validate that NAVRepair achieves excellent results in assisting LLMs to accurately detect and fix C/C++ vulnerabilities. We achieve a 26% higher accuracy compared to an existing LLM-based C/C++ vulnerability repair method. We believe our node type-aware approach has promising application prospects for enhancing real-world C/C++ code security. | 翻訳日:2024-05-09 14:35:00 公開日:2024-05-08 |
# 塩分濃度予測と画像品質評価のギャップを埋める
Bridging the Gap Between Saliency Prediction and Image Quality Assessment ( http://arxiv.org/abs/2405.04997v1 ) ライセンス: Link先を確認 | Kirillov Alexey, Andrey Moskalenko, Dmitriy Vatolin, | (参考訳) 過去数年間、ディープ・ニューラル・モデルは画像品質評価(IQA)に大きな進歩を遂げてきた。
しかし、ディープニューラルネットワークの複雑な性質のため、その成功の根底にある理由はいまだ不明である。
IQAは、人間の視覚システム(HVS)がどのように機能するかを説明し、その効率的な近似を作成することを目的としている。
一方、Saliency Prediction taskは、視覚的関心領域を決定することで、HVSをエミュレートすることを目的としている。
したがって、サリエンシは人間の知覚において重要な役割を担っていると信じている。
本研究では、IQAとSaliency Predictionタスクの関係を明らかにする実証的研究を行い、後者の知識を前者が取り入れたことを示す。
さらに、サリエンシ対応圧縮画像の新しいSACIDデータセットを導入し、古典的およびニューラルベースIQA法を大規模に比較する。
追加のコードとデータは、公開時点で利用可能になる。
Over the past few years, deep neural models have made considerable advances in image quality assessment (IQA). However, the underlying reasons for their success remain unclear, owing to the complex nature of deep neural networks. IQA aims to describe how the human visual system (HVS) works and to create its efficient approximations. On the other hand, Saliency Prediction task aims to emulate HVS via determining areas of visual interest. Thus, we believe that saliency plays a crucial role in human perception. In this work, we conduct an empirical study that reveals the relation between IQA and Saliency Prediction tasks, demonstrating that the former incorporates knowledge of the latter. Moreover, we introduce a novel SACID dataset of saliency-aware compressed images and conduct a large-scale comparison of classic and neural-based IQA methods. All supplementary code and data will be available at the time of publication. | 翻訳日:2024-05-09 14:35:00 公開日:2024-05-08 |
# HMANet:画像超解像のためのハイブリッドマルチ軸集約ネットワーク
HMANet: Hybrid Multi-Axis Aggregation Network for Image Super-Resolution ( http://arxiv.org/abs/2405.05001v1 ) ライセンス: Link先を確認 | Shu-Chuan Chu, Zhi-Chao Dou, Jeng-Shyang Pan, Shaowei Weng, Junbao Li, | (参考訳) トランスフォーマーに基づく手法は、従来の畳み込みニューラルネットワークを超越した超高解像度視覚タスクにおいて優れた性能を示した。
しかし、既存の作業は通常、計算コストを削減するために、自己アテンション計算をオーバーラップしないウィンドウに制限する。
つまり、Transformerベースのネットワークは、限られた空間範囲からの入力情報しか利用できない。
そこで本稿では,機能的ポテンシャル情報を活用するために,Hybrid Multi-Axis Aggregation Network (HMA)を提案する。
HMAはResidual Hybrid Transformer Blocks(RHTB)とGrid Attention Blocks(GAB)を積み重ねて構築される。
一方、RHTBはチャネルアテンションと自己アテンションを組み合わせることで、非局所的な特徴融合を強化し、より魅力的な視覚的結果をもたらす。
逆に、GABはドメイン間の情報相互作用において、類似した特徴を共同でモデル化し、より大きな知覚場を得るために用いられる。
訓練段階における超高分解能タスクに対しては,モデル表現能力をさらに向上し,多くの実験を通じて提案したモデルの有効性を検証するために,新しい事前学習法が設計されている。
実験の結果,HMAはベンチマークデータセットの最先端手法よりも優れていた。
私たちはhttps://github.com/korouuuuu/HMA.comでコードとモデルを提供しています。
Transformer-based methods have demonstrated excellent performance on super-resolution visual tasks, surpassing conventional convolutional neural networks. However, existing work typically restricts self-attention computation to non-overlapping windows to save computational costs. This means that Transformer-based networks can only use input information from a limited spatial range. Therefore, a novel Hybrid Multi-Axis Aggregation network (HMA) is proposed in this paper to exploit feature potential information better. HMA is constructed by stacking Residual Hybrid Transformer Blocks(RHTB) and Grid Attention Blocks(GAB). On the one side, RHTB combines channel attention and self-attention to enhance non-local feature fusion and produce more attractive visual results. Conversely, GAB is used in cross-domain information interaction to jointly model similar features and obtain a larger perceptual field. For the super-resolution task in the training phase, a novel pre-training method is designed to enhance the model representation capabilities further and validate the proposed model's effectiveness through many experiments. The experimental results show that HMA outperforms the state-of-the-art methods on the benchmark dataset. We provide code and models at https://github.com/korouuuuu/HMA. | 翻訳日:2024-05-09 14:35:00 公開日:2024-05-08 |
# TENet:RGB-Eオブジェクト追跡のためのマルチスケールプールと相互誘導融合を組み合わせたターゲットエンタングルメント
TENet: Targetness Entanglement Incorporating with Multi-Scale Pooling and Mutually-Guided Fusion for RGB-E Object Tracking ( http://arxiv.org/abs/2405.05004v1 ) ライセンス: Link先を確認 | Pengcheng Shao, Tianyang Xu, Zhangyong Tang, Linze Li, Xiao-Jun Wu, Josef Kittler, | (参考訳) 映像イベントカメラの出力によってRGBのモダリティを増大させることにより、現在、視覚的物体追跡の改善に強い関心が寄せられている。
しかし、既存手法では、イベントデータ固有の特性に適応することなく、RGBのみのトラッキングに最適化された従来の外観モデルを用いて、RGB-E追跡のためのイベント特徴抽出を行う。
この問題に対処するために,イベントバックボーン(Pooler)を提案する。これは,イベントデータの固有特性,すなわちその疎さを認識可能な,高品質な特徴表現を実現するために設計されたものだ。
特にマルチスケールプーリングは、さまざまなスプーリングカーネルサイズを活用して、イベントデータ内のすべてのモーションフィーチャートレンドをキャプチャするために導入された。
派生RGBとイベント表現の関連性は、適応的Mutually Guided Fusion (MGF)を実行する革新的なモジュールによって確立される。
広汎な実験結果から,COESOTの精度と成功率をそれぞれ4.9%,5.2%向上させたVisEventやCOESOTなど,広く使用されている2つのRGB-E追跡データセットにおいて,最先端トラッカーを著しく上回る結果が得られた。
私たちのコードはhttps://github.com/SSSpc333/TENetで公開されます。
There is currently strong interest in improving visual object tracking by augmenting the RGB modality with the output of a visual event camera that is particularly informative about the scene motion. However, existing approaches perform event feature extraction for RGB-E tracking using traditional appearance models, which have been optimised for RGB only tracking, without adapting it for the intrinsic characteristics of the event data. To address this problem, we propose an Event backbone (Pooler), designed to obtain a high-quality feature representation that is cognisant of the innate characteristics of the event data, namely its sparsity. In particular, Multi-Scale Pooling is introduced to capture all the motion feature trends within event data through the utilisation of diverse pooling kernel sizes. The association between the derived RGB and event representations is established by an innovative module performing adaptive Mutually Guided Fusion (MGF). Extensive experimental results show that our method significantly outperforms state-of-the-art trackers on two widely used RGB-E tracking datasets, including VisEvent and COESOT, where the precision and success rates on COESOT are improved by 4.9% and 5.2%, respectively. Our code will be available at https://github.com/SSSpc333/TENet. | 翻訳日:2024-05-09 14:35:00 公開日:2024-05-08 |
# 制約付き探索空間における競合進化戦略の設計原理の解析
Analyzing design principles for competitive evolution strategies in constrained search spaces ( http://arxiv.org/abs/2405.05005v1 ) ライセンス: Link先を確認 | Michael Hellwig, Hans-Georg Beyer, | (参考訳) 2018年のIEEE Congress of Evolutionary Computationの文脈で、制約付き最適化のためのマトリックス適応進化戦略は、制約付き単一目的実パラメータ最適化の競争で顕著に成功した。
いずれの場合も、いわゆる$\epsilon$MAg-ESは第2位に達した。
しかし、これは高次元において最も成功した参加者と見なすことができる。
残念なことに、競合結果は、成功したアルゴリズムのモード操作や、特定の形状の問題に対する適合性に関する情報を提供していない。
この目的のために,本論文では,特定のアルゴリズムコンポーネントの性能貢献に関する洞察を提供するために,$\epsilon$MAg-ESの作業原理について,広範な実証分析を行う。
アルゴリズム実現における重要な相違点のランク付けを避けるため,本論文では,ランク付けプロセスに重要なテストを導入する。
In the context of the 2018 IEEE Congress of Evolutionary Computation, the Matrix Adaptation Evolution Strategy for constrained optimization turned out to be notably successful in the competition on constrained single objective real-parameter optimization. Across all considered instances the so-called $\epsilon$MAg-ES achieved the second rank. However, it can be considered to be the most successful participant in high dimensions. Unfortunately, the competition result does not provide any information about the modus operandi of a successful algorithm or its suitability for problems of a particular shape. To this end, the present paper is concerned with an extensive empirical analysis of the $\epsilon$MAg-ES working principles that is expected to provide insights about the performance contribution of specific algorithmic components. To avoid rankings with respect to insignificant differences within the algorithm realizations, the paper additionally introduces significance testing into the ranking process. | 翻訳日:2024-05-09 14:35:00 公開日:2024-05-08 |
# HC-Mamba:医療画像分割のためのハイブリッド畳み込み技術を用いたビジョンMAMBA
HC-Mamba: Vision MAMBA with Hybrid Convolutional Techniques for Medical Image Segmentation ( http://arxiv.org/abs/2405.05007v1 ) ライセンス: Link先を確認 | Jiashu Xu, | (参考訳) 自動医用画像分割技術は、病理診断を迅速化し、患者医療の効率を向上する可能性がある。
しかし、医療画像は複雑なテクスチャや構造を持つことが多く、ダウンサンプリングによる画像解像度の低下や情報損失といった問題に直面していることが多い。
この問題に対処するため,現代空間モデルMambaに基づく新しい医用画像分割モデルHC-Mambaを提案する。
具体的には、HC-Mambaモデルにおける拡張畳み込み手法を導入し、畳み込みカーネルの知覚場を拡張して計算コストを増大させることなく、より広い範囲の文脈情報をキャプチャする。
さらに、HC-Mambaモデルでは、深度的に分離可能な畳み込みを採用し、パラメータの数とモデルの計算能力を大幅に削減する。
拡張畳み込みと深度的に分離可能な畳み込みを組み合わせることで、HC-Mambaは高レベルの性能を維持しながら、より低い計算コストで大規模医療画像データを処理できる。
皮膚病変を含むセグメンテーションタスクの包括的実験を行い、医用画像セグメンテーションにおけるHC-Mambaモデルの可能性を示すためにISIC17およびISIC18の広範な実験を行った。
実験の結果,HC-Mambaはこれらのデータセットの競合性能を示し,医用画像のセグメンテーションの有効性と有用性を示した。
Automatic medical image segmentation technology has the potential to expedite pathological diagnoses, thereby enhancing the efficiency of patient care. However, medical images often have complex textures and structures, and the models often face the problem of reduced image resolution and information loss due to downsampling. To address this issue, we propose HC-Mamba, a new medical image segmentation model based on the modern state space model Mamba. Specifically, we introduce the technique of dilated convolution in the HC-Mamba model to capture a more extensive range of contextual information without increasing the computational cost by extending the perceptual field of the convolution kernel. In addition, the HC-Mamba model employs depthwise separable convolutions, significantly reducing the number of parameters and the computational power of the model. By combining dilated convolution and depthwise separable convolutions, HC-Mamba is able to process large-scale medical image data at a much lower computational cost while maintaining a high level of performance. We conduct comprehensive experiments on segmentation tasks including skin lesion, and conduct extensive experiments on ISIC17 and ISIC18 to demonstrate the potential of the HC-Mamba model in medical image segmentation. The experimental results show that HC-Mamba exhibits competitive performance on all these datasets, thereby proving its effectiveness and usefulness in medical image segmentation. | 翻訳日:2024-05-09 14:35:00 公開日:2024-05-08 |
# ADELIE:情報抽出における大規模言語モデルの調整
ADELIE: Aligning Large Language Models on Information Extraction ( http://arxiv.org/abs/2405.05008v1 ) ライセンス: Link先を確認 | Yunjia Qi, Hao Peng, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li, | (参考訳) 大規模言語モデル(LLM)は通常、情報抽出(IE)タスクに不足し、IEタスクの複雑な指示に従うのに苦労する。
メインストリームのアライメントデータセットはIEデータを含んでいないことが多いため、LLMが人間と整合していないことが主な原因である。
本稿では, クローズドIE, オープンIE, オンデマンドIEなど, 多様なIEタスクを効果的に解決する協調LLMであるADELIEを紹介する。
まず、IEのIEインストラクトの高品質なアライメントコーパスを収集、構築する。
次に、IEInstructのインストラクションチューニングを使用してADELIE_SFTをトレーニングします。
さらに、ADELIE_SFTを直接選好最適化(DPO)目標で訓練し、結果としてADELIE_DPOとなる。
様々な保持されたIEデータセットに対する大規模な実験により、我々のモデル(ADELIE_SFTとADELIE_DPO)がオープンソースモデル間での最先端(SoTA)のパフォーマンスを達成することが示された。
さらにADELIEの汎用能力について検討し、実験結果から、それらの汎用能力は顕著な低下を示さないことが明らかとなった。
さらなる研究を促進するために、コード、データ、モデルをリリースします。
Large language models (LLMs) usually fall short on information extraction (IE) tasks and struggle to follow the complex instructions of IE tasks. This primarily arises from LLMs not being aligned with humans, as mainstream alignment datasets typically do not include IE data. In this paper, we introduce ADELIE (Aligning large language moDELs on Information Extraction), an aligned LLM that effectively solves various IE tasks, including closed IE, open IE, and on-demand IE. We first collect and construct a high-quality alignment corpus IEInstruct for IE. Then we train ADELIE_SFT using instruction tuning on IEInstruct. We further train ADELIE_SFT with direct preference optimization (DPO) objective, resulting in ADELIE_DPO. Extensive experiments on various held-out IE datasets demonstrate that our models (ADELIE_SFT and ADELIE_DPO) achieve state-of-the-art (SoTA) performance among open-source models. We further explore the general capabilities of ADELIE, and experimental results reveal that their general capabilities do not exhibit a noticeable decline. We will release the code, data, and models to facilitate further research. | 翻訳日:2024-05-09 14:35:00 公開日:2024-05-08 |
# ${M^2D}$NeRF:3次元特徴場を持つ多モード分解NeRF
${M^2D}$NeRF: Multi-Modal Decomposition NeRF with 3D Feature Fields ( http://arxiv.org/abs/2405.05010v1 ) ライセンス: Link先を確認 | Ning Wang, Lefei Zhang, Angel X Chang, | (参考訳) 連続した3Dシーンを表現するための有望なアプローチとして、ニューラルフィールド(NeRF)が登場した。
それでも、NeRFにおけるセマンティックエンコーディングの欠如は、シーン分解に重大な課題をもたらす。
この課題に対処するために,テキストベースと視覚パッチベースの編集が可能な単一モデルであるMulti-Modal Decomposition NeRF({M^2D}$NeRF)を提案する。
具体的には,教師の特徴を事前学習した視覚モデルや言語モデルから3Dのセマンティックな特徴量へ統合し,一貫した3D編集を容易にするためにマルチモーダルな特徴蒸留を用いる。
3次元特徴量における視覚的特徴と言語的特徴の整合性を確保するために,多モード類似性制約を導入する。
また、パッチベースのジョイントコントラスト損失を導入し、オブジェクト領域が3次元特徴空間に合体するように促すことで、より正確なバウンダリが得られるようにします。
実世界の様々な場面における実験は,従来のNeRF法と比較して3次元シーン分解作業において優れた性能を示した。
Neural fields (NeRF) have emerged as a promising approach for representing continuous 3D scenes. Nevertheless, the lack of semantic encoding in NeRFs poses a significant challenge for scene decomposition. To address this challenge, we present a single model, Multi-Modal Decomposition NeRF (${M^2D}$NeRF), that is capable of both text-based and visual patch-based edits. Specifically, we use multi-modal feature distillation to integrate teacher features from pretrained visual and language models into 3D semantic feature volumes, thereby facilitating consistent 3D editing. To enforce consistency between the visual and language features in our 3D feature volumes, we introduce a multi-modal similarity constraint. We also introduce a patch-based joint contrastive loss that helps to encourage object-regions to coalesce in the 3D feature space, resulting in more precise boundaries. Experiments on various real-world scenes show superior performance in 3D scene decomposition tasks compared to prior NeRF-based methods. | 翻訳日:2024-05-09 14:35:00 公開日:2024-05-08 |
# エントロピー・エニグマ:エントロピー最小化の成功と失敗
The Entropy Enigma: Success and Failure of Entropy Minimization ( http://arxiv.org/abs/2405.05012v1 ) ライセンス: Link先を確認 | Ori Press, Ravid Shwartz-Ziv, Yann LeCun, Matthias Bethge, | (参考訳) エントロピー最小化(EM)は、テスト時に新しいデータに直面した場合に、分類モデルの精度を高めるために頻繁に使用される。
EMは、分類器を最適化し、上位予測クラスにさらに高い確率を割り当てる自己教師型学習手法である。
本稿では,EMがいくつかのステップでモデルに適応する際の動作の理由と,多くのステップで適応した後に最終的に失敗する理由を解析する。
EMはまず,実験画像をトレーニング画像の近くに埋め込むことで,モデルの精度を向上することを示した。
多くの最適化のステップの後、EMはモデルをトレーニング画像の埋め込みから遠ざけるようにし、その結果精度が低下する。
そこで本研究では,任意のデータセット上で,ラベルにアクセスせずにモデルの精度を推定する手法を提案する。
提案手法は,エントロピーの最小化のためにモデルが最適化されるにつれて,入力画像の埋め込みがどう変化するかを調べることで,精度を推定する。
23の挑戦的なデータセットの実験では、我々の方法では、平均絶対誤差が5.75 %$で、前回のSoTAよりも29.62 %$で改善されていることが示されている。
私たちのコードはhttps://github.com/oripress/EntropyEnigmaで利用可能です。
Entropy minimization (EM) is frequently used to increase the accuracy of classification models when they're faced with new data at test time. EM is a self-supervised learning method that optimizes classifiers to assign even higher probabilities to their top predicted classes. In this paper, we analyze why EM works when adapting a model for a few steps and why it eventually fails after adapting for many steps. We show that, at first, EM causes the model to embed test images close to training images, thereby increasing model accuracy. After many steps of optimization, EM makes the model embed test images far away from the embeddings of training images, which results in a degradation of accuracy. Building upon our insights, we present a method for solving a practical problem: estimating a model's accuracy on a given arbitrary dataset without having access to its labels. Our method estimates accuracy by looking at how the embeddings of input images change as the model is optimized to minimize entropy. Experiments on 23 challenging datasets show that our method sets the SoTA with a mean absolute error of $5.75\%$, an improvement of $29.62\%$ over the previous SoTA on this task. Our code is available at https://github.com/oripress/EntropyEnigma | 翻訳日:2024-05-09 14:35:00 公開日:2024-05-08 |
# TGTM:HDRセンサのためのTinyMLによるグローバルトーンマッピング
TGTM: TinyML-based Global Tone Mapping for HDR Sensors ( http://arxiv.org/abs/2405.05016v1 ) ライセンス: Link先を確認 | Peter Todorov, Julian Hartig, Jan Meyer-Siemon, Martin Fiedler, Gregor Schewior, | (参考訳) 複数のカメラに頼っている高度な運転支援システム(ADAS)は、自動車技術でますます普及している。
しかし、従来の撮像センサーは、トンネル出口のような強い照明コントラストのある条件下では、ダイナミックレンジが限られているため、鮮明な画像を捉えるのに苦労している。
高ダイナミックレンジ(HDR)センサーの導入はこの問題に対処する。
しかし、HDRコンテンツをトーンマッピングによって表示可能な範囲に変換するプロセスは、ピクセルデータ上で直接実行される場合、しばしば非効率な計算につながる。
本稿では,画像ヒストグラムデータに適用した軽量ニューラルネットワークを用いたHDR画像トーンマッピングに着目した。
提案手法はTGTMと呼ばれ,任意の解像度のRGB画像に対して9000FLOPSで動作する。
さらに、TGTMは任意の古典的なトーンマッピング法に組み込むことができる一般的なアプローチを提供する。
実験により、TGTMは実際のHDRカメラ画像における最先端の手法よりも、最大5.85dB高いPSNRを桁違いに少ない計算で上回ることを示した。
Advanced driver assistance systems (ADAS) relying on multiple cameras are increasingly prevalent in vehicle technology. Yet, conventional imaging sensors struggle to capture clear images in conditions with intense illumination contrast, such as tunnel exits, due to their limited dynamic range. Introducing high dynamic range (HDR) sensors addresses this issue. However, the process of converting HDR content to a displayable range via tone mapping often leads to inefficient computations, when performed directly on pixel data. In this paper, we focus on HDR image tone mapping using a lightweight neural network applied on image histogram data. Our proposed TinyML-based global tone mapping method, termed as TGTM, operates at 9,000 FLOPS per RGB image of any resolution. Additionally, TGTM offers a generic approach that can be incorporated to any classical tone mapping method. Experimental results demonstrate that TGTM outperforms state-of-the-art methods on real HDR camera images by up to 5.85 dB higher PSNR with orders of magnitude less computations. | 翻訳日:2024-05-09 14:35:00 公開日:2024-05-08 |
# 6Gソフトウェアエンジニアリング: システムマッピングの研究
6G Software Engineering: A Systematic Mapping Study ( http://arxiv.org/abs/2405.05017v1 ) ライセンス: Link先を確認 | Ruoyu Su, Xiaozhou Li, Davide Taibi, | (参考訳) 6Gは、より高速な携帯電話通信と大量の接続デバイスを可能にするソフトウェアの世界に革命をもたらすだろう。
6Gは、継続的エッジからクラウドアーキテクチャへの移行を可能にする。
現在のクラウドソリューションでは、すべてのデータがクラウドで転送され、計算されるが、このような大規模なデバイスネットワークでは持続可能ではない。
開発方法、ソフトウェアアーキテクチャ、オーケストレーションとオフロードシステムを含む現在の技術は、そのような要件に対処するための準備が必要である。
本稿では,システムマッピング研究を行い,6Gソフトウェア工学の現状について検討する。
その結果,ソフトウェアプロセス,ソフトウェアアーキテクチャ,オーケストレーション,オフロード手法など18の研究論文が提案されていることがわかった。
これらのうち、ソフトウェアアーキテクチャとソフトウェア定義ネットワークはそれぞれ6Gソフトウェアエンジニアリングで最も注目を集めている分野とトピックである。
さらに、これらの論文の主な成果は、メソッド、アーキテクチャ、プラットフォーム、フレームワーク、アルゴリズムである。
提案された5つのツール/フレームワークは、新しいもので、現在は他の研究者によって研究されていない。
これらの発見の著者は主に中国、インド、サウジアラビアからのものである。
その結果、研究者と実践者は6Gソフトウェアエンジニアリングのさらなる研究と拡張が可能になる。
6G will revolutionize the software world allowing faster cellular communications and a massive number of connected devices. 6G will enable a shift towards a continuous edge-to-cloud architecture. Current cloud solutions, where all the data is transferred and computed in the cloud, are not sustainable in such a large network of devices. Current technologies, including development methods, software architectures, and orchestration and offloading systems, still need to be prepared to cope with such requirements. In this paper, we conduct a Systematic Mapping Study to investigate the current research status of 6G Software Engineering. Results show that 18 research papers have been proposed in software process, software architecture, orchestration and offloading methods. Of these, software architecture and software-defined networks are respectively areas and topics that have received the most attention in 6G Software Engineering. In addition, the main types of results of these papers are methods, architectures, platforms, frameworks and algorithms. For the five tools/frameworks proposed, they are new and not currently studied by other researchers. The authors of these findings are mainly from China, India and Saudi Arabia. The results will enable researchers and practitioners to further research and extend for 6G Software Engineering. | 翻訳日:2024-05-09 14:35:00 公開日:2024-05-08 |
# 量子回路アンサッツ:量子アルゴリズム設計の抽象化と再利用
Quantum Circuit Ansatz: Abstraction and Reuse of Quantum Algorithm Design ( http://arxiv.org/abs/2405.05021v1 ) ライセンス: Link先を確認 | Xiaoyu Guo, Takahiro Muta, Jianjun Zhao, | (参考訳) 量子コンピューティングは、複雑な問題に効率的に対処することで、様々な分野に革命をもたらす可能性を秘めている。
中心となるのは量子回路であり、量子状態を操作する量子ゲートの列である。
初期回路構造を定義し,最適化手法の基礎となる右量子回路アンサッツの選択は,量子アルゴリズム設計において重要であり,量子アルゴリズムの設計と実装を支援するために,量子回路アンサゼの分類されたカタログを提示する。
各アンザッツは、意図、モチベーション、適用性、回路図、実装、例などの詳細とともに記述される。
このカタログは、異なるアンサーゼの強度と制限に関する洞察を提供することで、量子アルゴリズム設計者を支援することを目的としている。
Quantum computing holds the potential to revolutionize various fields by efficiently tackling complex problems. At its core are quantum circuits, sequences of quantum gates manipulating quantum states. The selection of the right quantum circuit ansatz, which defines initial circuit structures and serves as the basis for optimization techniques, is crucial in quantum algorithm design.This paper presents a categorized catalog of quantum circuit ansatzes aimed at supporting quantum algorithm design and implementation. Each ansatz is described with details such as intent, motivation, applicability, circuit diagram, implementation, example, and see also. Practical examples are provided to illustrate their application in quantum algorithm design.The catalog aims to assist quantum algorithm designers by offering insights into the strengths and limitations of different ansatzes, thereby facilitating decision-making for specific tasks. | 翻訳日:2024-05-09 14:35:00 公開日:2024-05-08 |
# 無線ネットワークにおける自動変更オープンセット認識に対する逆方向の脅威
Adversarial Threats to Automatic Modulation Open Set Recognition in Wireless Networks ( http://arxiv.org/abs/2405.05022v1 ) ライセンス: Link先を確認 | Yandie Yang, Sicheng Zhang, Kuixian Li, Qiao Tian, Yun Lin, | (参考訳) AMOSR(Automatic Modulation Open Set Recognition)は、無線ネットワークにおける無線通信、無線スペクトル管理、干渉監視において重要な技術的アプローチである。
多くの研究で、AMRは悪意のある攻撃者によって慎重に設計された最小限の摂動に非常に敏感であることが示されており、信号の誤分類につながっている。
しかし、AMOSRの敵のセキュリティ問題はまだ検討されていない。
本稿では,攻撃者の視点を取り入れ,様々なAMOSR手法の敵対的脆弱性を調べることを目的とした,オープン・セット・アタック(OSAttack)を提案する。
当初、AMOSRシナリオに対する敵対的脅威モデルが確立された。
その後、差別的および生成的オープンセット認識の判定基準を解析することにより、OSFGSMとOSPGDが提案され、AMOSRの性能が低下する。
最後に, AMOSR に対する OSAttack の影響を質的, 定量的な指標を用いて評価した。
その結果、従来の干渉信号に対するAMOSRモデルの抵抗が増大しているにもかかわらず、敵の例による攻撃に対して脆弱であることが示唆された。
Automatic Modulation Open Set Recognition (AMOSR) is a crucial technological approach for cognitive radio communications, wireless spectrum management, and interference monitoring within wireless networks. Numerous studies have shown that AMR is highly susceptible to minimal perturbations carefully designed by malicious attackers, leading to misclassification of signals. However, the adversarial security issue of AMOSR has not yet been explored. This paper adopts the perspective of attackers and proposes an Open Set Adversarial Attack (OSAttack), aiming at investigating the adversarial vulnerabilities of various AMOSR methods. Initially, an adversarial threat model for AMOSR scenarios is established. Subsequently, by analyzing the decision criteria of both discriminative and generative open set recognition, OSFGSM and OSPGD are proposed to reduce the performance of AMOSR. Finally, the influence of OSAttack on AMOSR is evaluated utilizing a range of qualitative and quantitative indicators. The results indicate that despite the increased resistance of AMOSR models to conventional interference signals, they remain vulnerable to attacks by adversarial examples. | 翻訳日:2024-05-09 14:35:00 公開日:2024-05-08 |
# HackCar:コストがかかる自動車アーキテクチャの攻撃と防御のためのテストプラットフォーム
HackCar: a test platform for attacks and defenses on a cost-contained automotive architecture ( http://arxiv.org/abs/2405.05023v1 ) ライセンス: Link先を確認 | Dario Stabili, Filip Valgimigli, Edoardo Torrini, Mirco Marchetti, | (参考訳) 本稿では,完全な車両へのアクセスを必要とせず,汎用的な自動車システム上での攻撃と防御を再現するテストプラットフォームであるHackCarの設計を紹介する。
このプラットフォームは、セキュリティ研究者に、現実的なプラットフォーム上で自動車システムをターゲットにした攻撃の結果を説明させ、既存の攻撃と新規攻撃の両方に対するセキュリティ対策の開発とテストを容易にする。
HackCarプラットフォームは、様々な自動車グレードのマイクロコントローラが自動車通信プロトコルを介して接続されるF1-10thモデルに基づいて構築されている。
このソリューションは完全にモジュール化されており、多様なテストシナリオを作成することができる。
研究者や実践者は、自動車グレードのマイクロコントローラの制約に固執しながら、革新的なセキュリティソリューションを開発することができる。
われわれのデザインを、本物、ライセンス付き、未修正の車と比較して紹介する。
さらに、HackCarの動作を、攻撃のないシナリオと車内通信に対する攻撃が展開されるシナリオの両方で分析する。
In this paper, we introduce the design of HackCar, a testing platform for replicating attacks and defenses on a generic automotive system without requiring access to a complete vehicle. This platform empowers security researchers to illustrate the consequences of attacks targeting an automotive system on a realistic platform, facilitating the development and testing of security countermeasures against both existing and novel attacks. The HackCar platform is built upon an F1-10th model, to which various automotive-grade microcontrollers are connected through automotive communication protocols. This solution is crafted to be entirely modular, allowing for the creation of diverse test scenarios. Researchers and practitioners can thus develop innovative security solutions while adhering to the constraints of automotive-grade microcontrollers. We showcase our design by comparing it with a real, licensed, and unmodified vehicle. Additionally, we analyze the behavior of the HackCar in both an attack-free scenario and a scenario where an attack on in-vehicle communication is deployed. | 翻訳日:2024-05-09 14:35:00 公開日:2024-05-08 |
# 深部生成モデルによる構造因果モデル学習:方法,保証,課題
Learning Structural Causal Models through Deep Generative Models: Methods, Guarantees, and Challenges ( http://arxiv.org/abs/2405.05025v1 ) ライセンス: Link先を確認 | Audrey Poinsot, Alessandro Leite, Nicolas Chesneau, Michèle Sébag, Marc Schoenauer, | (参考訳) 本稿では, 深層構造因果モデル (DSCM) の総合的なレビューを行い, 特に既知の因果構造内の観測データを用いて, 対実的クエリに応答する能力に着目した。
DSCMの特徴は、基礎となるディープラーニングコンポーネントや構造因果モデルに固有の仮説、保証、アプリケーションを分析し、その能力と異なる対実的なクエリに対処する際の制限をより詳細に理解することにある。
さらに、深い構造因果モデリングの分野における課題とオープンな疑問を強調している。
研究者が将来の仕事の方向性を識別し、実践者が彼らのニーズに最も適した方法を見つけるための概要を得るためのステージを設定します。
This paper provides a comprehensive review of deep structural causal models (DSCMs), particularly focusing on their ability to answer counterfactual queries using observational data within known causal structures. It delves into the characteristics of DSCMs by analyzing the hypotheses, guarantees, and applications inherent to the underlying deep learning components and structural causal models, fostering a finer understanding of their capabilities and limitations in addressing different counterfactual queries. Furthermore, it highlights the challenges and open questions in the field of deep structural causal modeling. It sets the stages for researchers to identify future work directions and for practitioners to get an overview in order to find out the most appropriate methods for their needs. | 翻訳日:2024-05-09 14:24:42 公開日:2024-05-08 |
# StyleMamba : テキスト駆動型画像転送のための状態空間モデル
StyleMamba : State Space Model for Efficient Text-driven Image Style Transfer ( http://arxiv.org/abs/2405.05027v1 ) ライセンス: Link先を確認 | Zijia Wang, Zhi-Song Liu, | (参考訳) テキストプロンプトを対応する視覚スタイルに変換する上で,元の画像の内容の整合性を保ちながら,効率的な画像スタイル転送フレームワークであるStyleMambaを提案する。
既存のテキストガイドによるスタイリングには、数百のトレーニングイテレーションが必要で、多くのコンピューティングリソースが必要です。
この処理を高速化するために,StyleMambaと呼ばれるテキスト駆動画像スタイル転送のための条件付き状態空間モデルを提案する。
テキストと画像間の局所的およびグローバルなスタイルの整合性を高めるため,スタイライズ方向を最適化し,トレーニングイテレーションを5倍,推論時間を3倍に削減するために,マスク付きおよび2次方向の損失を提案する。
大規模実験と定性評価により,既存のベースラインと比較して,本手法の頑健かつ優れたスタイライズ性能が確認された。
We present StyleMamba, an efficient image style transfer framework that translates text prompts into corresponding visual styles while preserving the content integrity of the original images. Existing text-guided stylization requires hundreds of training iterations and takes a lot of computing resources. To speed up the process, we propose a conditional State Space Model for Efficient Text-driven Image Style Transfer, dubbed StyleMamba, that sequentially aligns the image features to the target text prompts. To enhance the local and global style consistency between text and image, we propose masked and second-order directional losses to optimize the stylization direction to significantly reduce the training iterations by 5 times and the inference time by 3 times. Extensive experiments and qualitative evaluation confirm the robust and superior stylization performance of our methods compared to the existing baselines. | 翻訳日:2024-05-09 14:24:42 公開日:2024-05-08 |
# モデルに依存しないデータ属性を用いたバイアスの緩和
Mitigating Bias Using Model-Agnostic Data Attribution ( http://arxiv.org/abs/2405.05031v1 ) ライセンス: Link先を確認 | Sander De Coninck, Wei-Cheng Wang, Sam Leroux, Pieter Simoens, | (参考訳) 機械学習モデルにおけるバイアスの緩和は、公平性と公平性を保証するための重要な取り組みである。
本稿では、画素画像属性を利用して、バイアス属性に関する重要な情報を含む画像の領域を特定し、正規化することで、バイアスに対処する新しいアプローチを提案する。
提案手法は,小さな画像パッチに基づいて訓練された畳み込みニューラルネットワーク(CNN)分類器を用いて,画素属性の抽出にモデルに依存しないアプローチを用いる。
画像全体の特性を単一のパッチで予測するために分類器を訓練することにより、画像全体にわたる重要な情報の分布に関する洞察を提供する領域ベースの属性を実現する。
我々は、これらの属性を利用して、データに偏った属性を持つデータセットにターゲットノイズを導入し、ニューラルネットワークがこれらのバイアスを学習し、主属性を強調することを制限することを提案する。
本手法は、偏りの強いデータセット上で、偏りのない分類器の訓練を可能にする効果を示す。
Mitigating bias in machine learning models is a critical endeavor for ensuring fairness and equity. In this paper, we propose a novel approach to address bias by leveraging pixel image attributions to identify and regularize regions of images containing significant information about bias attributes. Our method utilizes a model-agnostic approach to extract pixel attributions by employing a convolutional neural network (CNN) classifier trained on small image patches. By training the classifier to predict a property of the entire image using only a single patch, we achieve region-based attributions that provide insights into the distribution of important information across the image. We propose utilizing these attributions to introduce targeted noise into datasets with confounding attributes that bias the data, thereby constraining neural networks from learning these biases and emphasizing the primary attributes. Our approach demonstrates its efficacy in enabling the training of unbiased classifiers on heavily biased datasets. | 翻訳日:2024-05-09 14:24:42 公開日:2024-05-08 |
# 多面体ハミルトニアンモンテカルロ
Multi-fidelity Hamiltonian Monte Carlo ( http://arxiv.org/abs/2405.05033v1 ) ライセンス: Link先を確認 | Dhruv V. Patel, Jonghyun Lee, Matthew W. Farthing, Peter K. Kitanidis, Eric F. Darve, | (参考訳) 生物学、統計学、科学、工学における多くの応用は、高次元の確率分布からサンプルを生成する必要がある。
近年、ハミルトニアン・モンテカルロ法(HMC)が最先端のマルコフ連鎖モンテカルロ法として登場し、そのような高次元ターゲット分布の形状を利用して試料を効率的に生成している。
その顕著な経験的成功と人気の高さにもかかわらず、勾配計算の計算コストが高いため、広範に採用されることは限られている。
さらに、後部の勾配を計算できない場合(例えばブラックボックスシミュレータの場合)、この手法を適用することは不可能である。
これらの課題を克服するために、サロゲートモデルを用いた2段階のハミルトニアンモンテカルロアルゴリズムを提案する。
この多元性アルゴリズムでは、安価な微分可能なサロゲートモデルを用いて標準HMC提案を用いて第1段階の受理確率を計算し、提案が受け入れられれば、高忠実度(HF)数値解法を用いて第2段階の受理確率を評価する。
標準HMCアルゴリズムをこれらの2段階に分割することで、後続の勾配を効率よく近似し、第2段階のHF数値解法を用いて正確な後続サンプルを生成することができる。
本研究では, 非線形ベイズ逆問題や非線形ベイズ逆問題など, 様々な問題に対する本アルゴリズムの有効性を実証する。
提案アルゴリズムは, 様々な低忠実度モデルとHFモデル, 先行モデル, データセットとシームレスに統合可能である。
提案手法は,計算後統計の精度を維持・改善しつつ,計算効率と統計効率の両面において,従来のHMCアルゴリズムよりも優れていた。
Numerous applications in biology, statistics, science, and engineering require generating samples from high-dimensional probability distributions. In recent years, the Hamiltonian Monte Carlo (HMC) method has emerged as a state-of-the-art Markov chain Monte Carlo technique, exploiting the shape of such high-dimensional target distributions to efficiently generate samples. Despite its impressive empirical success and increasing popularity, its wide-scale adoption remains limited due to the high computational cost of gradient calculation. Moreover, applying this method is impossible when the gradient of the posterior cannot be computed (for example, with black-box simulators). To overcome these challenges, we propose a novel two-stage Hamiltonian Monte Carlo algorithm with a surrogate model. In this multi-fidelity algorithm, the acceptance probability is computed in the first stage via a standard HMC proposal using an inexpensive differentiable surrogate model, and if the proposal is accepted, the posterior is evaluated in the second stage using the high-fidelity (HF) numerical solver. Splitting the standard HMC algorithm into these two stages allows for approximating the gradient of the posterior efficiently, while producing accurate posterior samples by using HF numerical solvers in the second stage. We demonstrate the effectiveness of this algorithm for a range of problems, including linear and nonlinear Bayesian inverse problems with in-silico data and experimental data. The proposed algorithm is shown to seamlessly integrate with various low-fidelity and HF models, priors, and datasets. Remarkably, our proposed method outperforms the traditional HMC algorithm in both computational and statistical efficiency by several orders of magnitude, all while retaining or improving the accuracy in computed posterior statistics. | 翻訳日:2024-05-09 14:24:42 公開日:2024-05-08 |
# インテリジェントシネマトグラフィーのレビュー:カメラによるビデオ制作のためのAI研究
Reviewing Intelligent Cinematography: AI research for camera-based video production ( http://arxiv.org/abs/2405.05039v1 ) ライセンス: Link先を確認 | Adrian Azzarelli, Nantheera Anantrasirichai, David R Bull, | (参考訳) 本稿では,エンターテイメント目的の実際のカメラコンテンツ取得の文脈における人工知能(AI)研究の総合的なレビューを行い,研究者と撮影者の両方を対象としている。
コンピュータビジョン研究の広さと、インテリジェント撮影技術(IC)に関連するレビュー論文の欠如を踏まえ、本レビューでは、ICの全体像を概観するとともに、さまざまな分野の専門家に技術的な洞察を提供しながら紹介する。
我々は、生成AI、オブジェクト検出、自動カメラキャリブレーションと3Dコンテンツ取得に関する技術的背景と、非技術読者を支援するための説明記事のリンクについて、主要な議論を述べる。
主な議論は、General Production、Virtual Production、Live Production、Aerial Productionの4つのプロダクションタイプによって分類される。
なお、Virtual Productionでは、Stable Diffusionのような自動ビデオ生成など、仮想コンテンツ取得に関する研究については議論していません。
各セクション内では,(1)研究の技術的分野による作業のサブクラス分けを行い,(2)各タイプの生産の傾向と課題を評価する。
最終章では、IC研究の広範な範囲に関する結論を述べ、業界全体に大きな影響を与える可能性があると信じている研究の概要を述べる。
実世界のシーンやアクターの仮想モデリングのための3次元自動キャプチャー(ICVFX)のLEDボリューム/ステージへの関心が高まり、仮想プロダクションに関連する作業が他の生産媒体に影響を与える可能性が最も高いことが判明した。
これはIC研究の構造化された総合的な調査を提供する最初の文献である。
その結果、アーティスト、俳優、一般大衆が関わるクリエイティブAIの使用に関する倫理的および法的懸念に対処する。
This paper offers a comprehensive review of artificial intelligence (AI) research in the context of real camera content acquisition for entertainment purposes and is aimed at both researchers and cinematographers. Considering the breadth of computer vision research and the lack of review papers tied to intelligent cinematography (IC), this review introduces a holistic view of the IC landscape while providing the technical insight for experts across across disciplines. We preface the main discussion with technical background on generative AI, object detection, automated camera calibration and 3-D content acquisition, and link explanatory articles to assist non-technical readers. The main discussion categorizes work by four production types: General Production, Virtual Production, Live Production and Aerial Production. Note that for Virtual Production we do not discuss research relating to virtual content acquisition, including work on automated video generation, like Stable Diffusion. Within each section, we (1) sub-classify work by the technical field of research - reflected by the subsections, and (2) evaluate the trends and challenge w.r.t to each type of production. In the final chapter, we present our concluding remarks on the greater scope of IC research and outline work that we believe has significant potential to influence the whole industry. We find that work relating to virtual production has the greatest potential to impact other mediums of production, driven by the growing interest in LED volumes/stages for in-camera virtual effects (ICVFX) and automated 3-D capture for a virtual modelling of real world scenes and actors. This is the first piece of literature to offer a structured and comprehensive examination of IC research. Consequently, we address ethical and legal concerns regarding the use of creative AI involving artists, actors and the general public, in the... | 翻訳日:2024-05-09 14:24:42 公開日:2024-05-08 |
# Gröbner Basis Cryptanalysis of Ciminion and Hydra
Gröbner Basis Cryptanalysis of Ciminion and Hydra ( http://arxiv.org/abs/2405.05040v1 ) ライセンス: Link先を確認 | Matthias Johann Steiner, | (参考訳) CiminionとHydraは、最近導入された2つの対称キーPseudo-Random関数である。
効率性のために、両プリミティブは2次置換をラウンドレベルで利用する。
したがって、多項式システムに基づく攻撃はこれらのプリミティブに深刻な脅威をもたらす。
シミニオンに対しては、アフィン変換による反復多項式モデルに対する二次次逆レキシコグラフィ(DRL) Gr\"オブナー基底を構築する。
ハイドラに対して、SageMath において、アフィン変換と座標の線形変化の後、二次DRL Gr\"オブナー基底がハイドラヘッドの反復多項式系に既に含まれているというコンピュータ支援の証明を提供する。
私たちのCiminion DRL Gr\"obner basisは、暗号解析を単純化します。
Hydraの提案では、ヘッドに対する$r_\mathcal{H} = 31$のラウンドは、キーリカバリのための"Gr\"ベースアタックに対する128ドルのセキュリティを達成するのに十分であると主張した。
しかし、$r_\mathcal{H} = 31$の標準項順序変換は、我々のHydra DRL Gr\"オブジェクト基底は、わずか126$ビットである。
さらに、Eigenvalue Method を通じて$r_\mathcal{H} = 33$ ラウンドを128$ ビット以下で攻撃することができる。
Ciminion and Hydra are two recently introduced symmetric key Pseudo-Random Functions for Multi-Party Computation applications. For efficiency both primitives utilize quadratic permutations at round level. Therefore, polynomial system solving-based attacks pose a serious threat to these primitives. For Ciminion we construct a quadratic degree reverse lexicographic (DRL) Gr\"obner basis for the iterated polynomial model via affine transformations. For Hydra we provide a computer-aided proof in SageMath that a quadratic DRL Gr\"obner basis is already contained within the iterated polynomial system for the Hydra heads after affine transformations and a linear change of coordinates. Our Ciminion DRL Gr\"obner basis simplifies cryptanalysis, since one does not need to impose genericity assumptions, like being regular or semi-regular, anymore to derive complexity estimates on key recovery attacks. In the Hydra proposal it was claimed that $r_\mathcal{H} = 31$ rounds for the heads are sufficient to achieve $128$ bits of security against Gr\"obner basis attacks for key recovery. However, for $r_\mathcal{H} = 31$ standard term order conversion to a lexicographic (LEX) Gr\"obner basis for our Hydra DRL Gr\"obner basis requires just $126$ bits. Moreover, via the Eigenvalue Method up to $r_\mathcal{H} = 33$ rounds can be attacked below $128$ bits. | 翻訳日:2024-05-09 14:24:42 公開日:2024-05-08 |
# フォトニック時間結晶における光子スクイーズ
Photon Squeezing in Photonic Time Crystals ( http://arxiv.org/abs/2405.05043v1 ) ライセンス: Link先を確認 | Jaime Echave-Sustaeta, Francisco J. García-Vidal, P. A. Huidobro, | (参考訳) 時間変化メディアは、指数波増幅による運動量バンドギャップを特徴とするフォトニック時間結晶を含む、新規でエキゾチックな波効果を実現するためのプラットフォームを提供する。
ここでは、時間変化媒質、特に真空増幅とスクイージングの量子力学的性質に焦点を当てる。
その目的のために、フォトニック時間結晶における光子対生成の理論を示し、これらの系の古典的および量子力学的性質、すなわち、スクイーズパラメータによる反射率と対生成の直接的な関係を明らかにする。
エルミートフレームワーク内での作用により、フォトニック時間結晶における量子対生成過程を特徴づけることができ、運動量バンドギャップが動的カシミール過程の非共鳴指数的な拡張をもたらすことを示す。
Time-varying media offer a platform to realize novel and exotic wave effects, including photonic time crystals characterized by momentum band gaps with exponential wave amplification. Here we focus on the quantum electrodynamical properties of time-varying media, in particular vacuum amplification and squeezing. For that purpose, we present a theory of photon pair generation in photonic time crystals that unveils the link between the classical and quantum electrodynamical properties of these systems, that is, a direct relation between reflectivity and pair generation through the squeezing parameter. By working within an Hermitian framework, we are able to characterize quantum pair generation processes in photonic time crystals, showing how momentum bandgaps result in a non-resonant exponential enhancement of dynamical Casimir processes. | 翻訳日:2024-05-09 14:24:42 公開日:2024-05-08 |
# ステレオタイプのシード:オンラインソースにおける人種とジェンダーの関連性に関する大規模テキスト分析
Seeds of Stereotypes: A Large-Scale Textual Analysis of Race and Gender Associations with Diseases in Online Sources ( http://arxiv.org/abs/2405.05049v1 ) ライセンス: Link先を確認 | Lasse Hyldig Hansen, Nikolaj Andersen, Jack Gallifant, Liam G. McCoy, James K Stone, Nura Izath, Marcela Aguirre-Jerez, Danielle S Bitterman, Judy Gichoya, Leo Anthony Celi, | (参考訳) 大規模言語モデル(LLM)の背景には、医療における変革的なポテンシャルがあるが、近年の研究では、これらのモデルが人種や性別の偏見を示すアウトプットを生成する傾向が懸念されている。
トレーニングデータはそのようなバイアスの原因である可能性が高いが、テキストデータの大規模化による病気や人口統計学的関連の探索は限られている。
提案手法は,Arxiv,Wikipedia,Common Crawlなど多種多様なWebソースからなるデータセットを用いて大規模テキスト解析を行った。
本研究は、人種や性別の指標とともに様々な疾患が議論される状況を分析した。
LLMは類似したデータセットで事前トレーニングされているので、このアプローチはLLMが学習し内部化する可能性のある潜在的なバイアスを調べることができる。
以上の結果と, GPT-4 出力との比較を行い, 偏りの程度について検討した。
以上の結果から, 人口統計学用語は, オンラインテキストの特定の疾患概念と相容れないことが示唆された。
ジェンダー用語は病気の概念と顕著に関連付けられているのに対し、人種用語はより少ない頻度で関連付けられている。
我々は、特定の人種的・性別的用語と分析された18の疾患の関連において、幅広い相違を見出した。
最も顕著なのは、人口比率と比較して、黒人人種の言及が全体的に顕著に過剰に表現されていることだ。
結論 この結果は, LLM事前学習データセットにおける批判的検査の必要性と, バイアスの透過的な報告の必要性を浮き彫りにした。
本研究は, LLM, 特に医療などのセンシティブな領域において, 偏りのあるトレーニングデータの影響を抑えるための緩和戦略を開発する必要があることを示唆している。
Background Advancements in Large Language Models (LLMs) hold transformative potential in healthcare, however, recent work has raised concern about the tendency of these models to produce outputs that display racial or gender biases. Although training data is a likely source of such biases, exploration of disease and demographic associations in text data at scale has been limited. Methods We conducted a large-scale textual analysis using a dataset comprising diverse web sources, including Arxiv, Wikipedia, and Common Crawl. The study analyzed the context in which various diseases are discussed alongside markers of race and gender. Given that LLMs are pre-trained on similar datasets, this approach allowed us to examine the potential biases that LLMs may learn and internalize. We compared these findings with actual demographic disease prevalence as well as GPT-4 outputs in order to evaluate the extent of bias representation. Results Our findings indicate that demographic terms are disproportionately associated with specific disease concepts in online texts. gender terms are prominently associated with disease concepts, while racial terms are much less frequently associated. We find widespread disparities in the associations of specific racial and gender terms with the 18 diseases analyzed. Most prominently, we see an overall significant overrepresentation of Black race mentions in comparison to population proportions. Conclusions Our results highlight the need for critical examination and transparent reporting of biases in LLM pretraining datasets. Our study suggests the need to develop mitigation strategies to counteract the influence of biased training data in LLMs, particularly in sensitive domains such as healthcare. | 翻訳日:2024-05-09 14:24:42 公開日:2024-05-08 |
# 動的モード分解を用いたリアルタイム動作検出
Real-Time Motion Detection Using Dynamic Mode Decomposition ( http://arxiv.org/abs/2405.05057v1 ) ライセンス: Link先を確認 | Marco Mignacca, Simone Brugiapaglia, Jason J. Bramburger, | (参考訳) 動的モード分解(Dynamic Mode Decomposition, DMD)は、時系列データを線形力学系に適合させる数値手法である。
その際、DMDは動的データを指数的成長/デカイ、あるいは一定の振動周波数で時間的に進化する空間的コヒーレントモードに分解する。
DMDの多彩な応用はビデオに対して行われ、ビデオが再生する時間を通じて進化する高次元ピクセル空間を解釈する。
本研究では,DMDに根ざしたストリーミング映像データに対して,簡易かつ解釈可能な動き検出アルゴリズムを提案する。
提案手法は,前景運動などの重要な映像特徴の進化と,DMDを映像セグメントに適用した結果となる行列の固有値との間には対応関係があることを生かしている。
本手法を,様々な現実的条件下でのセキュリティ映像をエミュレートするテストビデオのデータベースに適用する。
動作を識別するしきい値パラメータを最適化するためにクロスバリデーション(クロスバリデーション)を用いる。
Dynamic Mode Decomposition (DMD) is a numerical method that seeks to fit timeseries data to a linear dynamical system. In doing so, DMD decomposes dynamic data into spatially coherent modes that evolve in time according to exponential growth/decay or with a fixed frequency of oscillation. A prolific application of DMD has been to video, where one interprets the high-dimensional pixel space evolving through time as the video plays. In this work, we propose a simple and interpretable motion detection algorithm for streaming video data rooted in DMD. Our method leverages the fact that there exists a correspondence between the evolution of important video features, such as foreground motion, and the eigenvalues of the matrix which results from applying DMD to segments of video. We apply the method to a database of test videos which emulate security footage under varying realistic conditions. Effectiveness is analyzed using receiver operating characteristic curves, while we use cross-validation to optimize the threshold parameter that identifies movement. | 翻訳日:2024-05-09 14:24:42 公開日:2024-05-08 |
# 意思決定変換器と大規模言語モデルを用いたコージェスリングと心理療法における話題推薦
Conversational Topic Recommendation in Counseling and Psychotherapy with Decision Transformer and Large Language Models ( http://arxiv.org/abs/2405.05060v1 ) ライセンス: Link先を確認 | Aylin Gunal, Baihan Lin, Djallel Bouneffouf, | (参考訳) メンタルヘルス支援の需要が高まる中、人工知能(AI)、特に大きな言語モデル(LLM)は、自動化された臨床支援システムへの統合に有用である。
本研究では,患者とメンタルヘルス専門家の会話をカウンセリングするためのトピックレコメンデーションとして,意思決定トランスフォーマーアーキテクチャを活用する。
アーキテクチャはオフラインの強化学習に利用され、会話の中で前のターンから状態(対話ターン埋め込み)、行動(会話トピック)、報酬(患者とセラピストのアライメントを測定するスコア)を抽出し、意思決定トランスフォーマーモデルを訓練する。
ベースライン強化学習法の改良を実証し、我々のモデル出力を合成ラベルとして活用し、同じタスクで大規模言語モデルを微調整するシステムを提案する。
LLaMA-2 7Bをベースとした実装には様々な結果が得られたが、今後の作業は間違いなく設計に基づいて構築される。
Given the increasing demand for mental health assistance, artificial intelligence (AI), particularly large language models (LLMs), may be valuable for integration into automated clinical support systems. In this work, we leverage a decision transformer architecture for topic recommendation in counseling conversations between patients and mental health professionals. The architecture is utilized for offline reinforcement learning, and we extract states (dialogue turn embeddings), actions (conversation topics), and rewards (scores measuring the alignment between patient and therapist) from previous turns within a conversation to train a decision transformer model. We demonstrate an improvement over baseline reinforcement learning methods, and propose a novel system of utilizing our model's output as synthetic labels for fine-tuning a large language model for the same task. Although our implementation based on LLaMA-2 7B has mixed results, future work can undoubtedly build on the design. | 翻訳日:2024-05-09 14:24:42 公開日:2024-05-08 |
# スキル互換AIの設計 - チェスの方法論とフレームワーク
Designing Skill-Compatible AI: Methodologies and Frameworks in Chess ( http://arxiv.org/abs/2405.05066v1 ) ライセンス: Link先を確認 | Karim Hamade, Reid McIlroy-Young, Siddhartha Sen, Jon Kleinberg, Ashton Anderson, | (参考訳) 強力な人工知能システムは、例えば、人間と一緒に働く場合や、あるタスクがアルゴリズム、ヒューリスティックス、または様々な計算能力を持つ他のエンティティによって処理される複雑な環境で操作する場合など、より計算的に弱いエージェントと相互作用しなければならない設定でしばしば使用される。
しかし、AIエージェントがこれらの設定でうまく対話するには、超人的なパフォーマンスのみを達成するだけでは十分ではない。
我々は、より低いレベルのスキルを持つインタラクションパートナと、ほぼ最適に近いAIの互換性を評価するための正式な評価フレームワークを提案する。
近接最適動作を出力するために設計された従来のチェスエンジンは、他のエージェントの存在を考慮して設計されていないため、このドメインの様々な低いスキルレベルのエンジンと組み合わせる際に、不十分なパートナーであることが証明されている。
複雑な意思決定環境で、スキル互換のAIエージェントを明示的に作成するための3つの手法と、強力なAIエージェントと非熟練のパートナとのコラボレーションを促進するために設計された2つのチェスゲームフレームワークをコントリビュートする。
これらのフレームワークでは、従来のチェスでは弱いにもかかわらず、エージェントは最先端のチェスAI(AlphaZeroをベースとする)より優れており、スキル適合性は質的にも測定的にも生のパフォーマンスと異なる有形特性であることを実証している。
本評価では, エージェントがスキルコンパチビリティを実現するメカニズムをさらに解明し, 解明する。
Powerful artificial intelligence systems are often used in settings where they must interact with agents that are computationally much weaker, for example when they work alongside humans or operate in complex environments where some tasks are handled by algorithms, heuristics, or other entities of varying computational power. For AI agents to successfully interact in these settings, however, achieving superhuman performance alone is not sufficient; they also need to account for suboptimal actions or idiosyncratic style from their less-skilled counterparts. We propose a formal evaluation framework for assessing the compatibility of near-optimal AI with interaction partners who may have much lower levels of skill; we use popular collaborative chess variants as model systems to study and develop AI agents that can successfully interact with lower-skill entities. Traditional chess engines designed to output near-optimal moves prove to be inadequate partners when paired with engines of various lower skill levels in this domain, as they are not designed to consider the presence of other agents. We contribute three methodologies to explicitly create skill-compatible AI agents in complex decision-making settings, and two chess game frameworks designed to foster collaboration between powerful AI agents and less-skilled partners. On these frameworks, our agents outperform state-of-the-art chess AI (based on AlphaZero) despite being weaker in conventional chess, demonstrating that skill-compatibility is a tangible trait that is qualitatively and measurably distinct from raw performance. Our evaluations further explore and clarify the mechanisms by which our agents achieve skill-compatibility. | 翻訳日:2024-05-09 14:24:42 公開日:2024-05-08 |
# 量子中心型スーパーコンピュータにおける厳密な解を超える化学
Chemistry Beyond Exact Solutions on a Quantum-Centric Supercomputer ( http://arxiv.org/abs/2405.05068v1 ) ライセンス: Link先を確認 | Javier Robledo-Moreno, Mario Motta, Holger Haas, Ali Javadi-Abhari, Petar Jurcevic, William Kirby, Simon Martiel, Kunal Sharma, Sandeep Sharma, Tomonori Shirakawa, Iskandar Sitdikov, Rong-Yang Sun, Kevin J. Sung, Maika Takita, Minh C. Tran, Seiji Yunoki, Antonio Mezzacapo, | (参考訳) 普遍量子コンピュータは、様々な量子システムの特性を予測できるシミュレータとして使用できる。
化学における電子構造問題は、100キュービットのマークを囲む実用的なユースケースを提供する。
現在の量子プロセッサはこのサイズに達したので、これは有望と思われる。
しかし、これらのユースケースを量子コンピュータにマッピングすると、深い回路が得られる。
結果として、現実的な化学は、現在の量子コンピュータを孤立して到達できない。
自然の疑問は、古典的な分散計算によって量子プロセッサが、化学ワークフローの中核的で本質的に量子的なコンポーネント以外を解析することを緩和できるかどうかである。
ここでは, 量子中心型スーパーコンピュータアーキテクチャに化学の量子計算を組み込み, スーパーコンピュータの6400個のノードを用いて, ヘロン超伝導量子プロセッサをアシストする。
相関一貫性を持つcc-pVDZ基底セットにおけるN$_2$三重結合の破れと、[2Fe-2S]と[4Fe-4S]クラスターの活性空間電子構造を、それぞれ58, 45, 77量子ビット、最大10570 (3590 2-qubit)量子ゲートの量子回路を用いてシミュレートする。
分子固有状態を近似する量子回路のクラスとハイブリッド推定器を用いて,本研究の結果を得た。
推定器は量子サンプルを処理し、基底状態エネルギーと多項式数で支持される波動関数の上限を生成する。
これは、古典的コンピュータが多項式コストで証明する、量子優位性のための無条件品質メートル法を保証する。
現在の誤差率では、量子プロセッサに結合した古典的分散計算が、正確な対角化を許容できる大きさを超える実用上の問題に対して、優れた近似解を導出できることが示されている。
A universal quantum computer can be used as a simulator capable of predicting properties of diverse quantum systems. Electronic structure problems in chemistry offer practical use cases around the hundred-qubit mark. This appears promising since current quantum processors have reached these sizes. However, mapping these use cases onto quantum computers yields deep circuits, and for for pre-fault-tolerant quantum processors, the large number of measurements to estimate molecular energies leads to prohibitive runtimes. As a result, realistic chemistry is out of reach of current quantum computers in isolation. A natural question is whether classical distributed computation can relieve quantum processors from parsing all but a core, intrinsically quantum component of a chemistry workflow. Here, we incorporate quantum computations of chemistry in a quantum-centric supercomputing architecture, using up to 6400 nodes of the supercomputer Fugaku to assist a Heron superconducting quantum processor. We simulate the N$_2$ triple bond breaking in a correlation-consistent cc-pVDZ basis set, and the active-space electronic structure of [2Fe-2S] and [4Fe-4S] clusters, using 58, 45 and 77 qubits respectively, with quantum circuits of up to 10570 (3590 2-qubit) quantum gates. We obtain our results using a class of quantum circuits that approximates molecular eigenstates, and a hybrid estimator. The estimator processes quantum samples, produces upper bounds to the ground-state energy and wavefunctions supported on a polynomial number of states. This guarantees an unconditional quality metric for quantum advantage, certifiable by classical computers at polynomial cost. For current error rates, our results show that classical distributed computing coupled to quantum processors can produce good approximate solutions for practical problems beyond sizes amenable to exact diagonalization. | 翻訳日:2024-05-09 14:24:42 公開日:2024-05-08 |
# V2Xデータの遅延と損失下でのCAVのロバスト決定のための新しいアクタクリティカルアルゴリズム
Novel Actor-Critic Algorithm for Robust Decision Making of CAV under Delays and Loss of V2X Data ( http://arxiv.org/abs/2405.05072v1 ) ライセンス: Link先を確認 | Zine el abidine Kherroubi, | (参考訳) 現在の自動運転システムは、状況認識と車両間の協調を強化するために、V2X通信データに大きく依存している。
しかしながら、V2Xデータを使用する際の大きな課題は、道路駅と受信車間の無線伝送中に予測不可能な遅延とデータ損失のために、定期的に利用できないことである。
この問題は、コネクテッドおよび自律車両の制御戦略を設計する際に考慮すべきである。
そこで本研究では,V2X環境において遅延および/またはロスデータによるロバストな駆動性能を保証する,新しいBlind Actor-Criticアルゴリズムを提案する。
このアルゴリズムには、仮想的な固定サンプリング期間、時間差とモンテカルロ学習の組み合わせ、即時報酬値の数値近似という3つの重要なメカニズムが組み込まれている。
V2Xデータの時間的非周期性問題に対処するために、まずこの課題を説明する。
そこで我々は,V2Xデータの時間的周期性問題を補うために提案したコンポーネントを取り上げ,Blind Actor-Criticアルゴリズムの詳細な説明を行う。
シミュレーション環境でのアルゴリズムの性能を評価し,ベンチマーク手法と比較した。
その結果,従来のアクター・クリティカル・アルゴリズムと比較してトレーニングの指標が改善された。
さらに,テスト結果から,V2Xネットワークの信頼性レベルが低い場合でも,ロバストな制御が可能であることが示された。
Current autonomous driving systems heavily rely on V2X communication data to enhance situational awareness and the cooperation between vehicles. However, a major challenge when using V2X data is that it may not be available periodically because of unpredictable delays and data loss during wireless transmission between road stations and the receiver vehicle. This issue should be considered when designing control strategies for connected and autonomous vehicles. Therefore, this paper proposes a novel 'Blind Actor-Critic' algorithm that guarantees robust driving performance in V2X environment with delayed and/or lost data. The novel algorithm incorporates three key mechanisms: a virtual fixed sampling period, a combination of Temporal-Difference and Monte Carlo learning, and a numerical approximation of immediate reward values. To address the temporal aperiodicity problem of V2X data, we first illustrate this challenge. Then, we provide a detailed explanation of the Blind Actor-Critic algorithm where we highlight the proposed components to compensate for the temporal aperiodicity problem of V2X data. We evaluate the performance of our algorithm in a simulation environment and compare it to benchmark approaches. The results demonstrate that training metrics are improved compared to conventional actor-critic algorithms. Additionally, testing results show that our approach provides robust control, even under low V2X network reliability levels. | 翻訳日:2024-05-09 14:24:42 公開日:2024-05-08 |
# ランダム回路におけるサブシステム情報容量とハミルトンダイナミクス
Subsystem Information Capacity in Random Circuits and Hamiltonian Dynamics ( http://arxiv.org/abs/2405.05076v1 ) ライセンス: Link先を確認 | Yu-Qin Chen, Shuo Liu, Shi-Xin Zhang, | (参考訳) 本研究では,ランダム量子回路のサブシステムと量子ハミルトニアン進化によって形成される有効チャネルに着目し,オープン量子系の情報容量について検討する。
これらの有効な量子チャネルの量子コヒーレントな情報と密接に結びついているサブシステム情報容量を解析することにより、進化の種類に応じて様々な動的および定常な振る舞いを明らかにする。
したがって、サブシステム情報容量は、可積分、局所化、熱化、トポロジカルシステムなど、様々な動的相の固有の性質を研究するための貴重なツールとなる。
また,初期情報符号化方式が1対1,1対マニー,多対マニーといった情報力学に与える影響を明らかにした。
この結果を支持するために、中間回路の測定の有無にかかわらずランダムな量子回路、ランダムなクリフォード・フロケット回路、自由かつ相互作用するAubry-Andr\'eモデル、Su-Schrieffer-Heegerモデルなど、数値シミュレーションの代表的な例を示す。
これらの数値結果は、ランダム回路と非相互作用ハミルトニアン力学の場合の有効統計モデルマッピングと準粒子図を用いて、さらに定量的に説明される。
In this study, we explore the information capacity of open quantum systems, focusing on the effective channels formed by the subsystem of random quantum circuits and quantum Hamiltonian evolution. By analyzing the subsystem information capacity, which is closely linked to quantum coherent information of these effective quantum channels, we uncover a diverse range of dynamical and steady behaviors depending on the types of evolution. Therefore, the subsystem information capacity serves as a valuable tool for studying the intrinsic nature of various dynamical phases, such as integrable, localized, thermalized, and topological systems. We also reveal the impact of different initial information encoding schemes on information dynamics including one-to-one, one-to-many, and many-to-many. To support our findings, we provide representative examples for numerical simulations, including random quantum circuits with or without mid-circuit measurements, random Clifford Floquet circuits, free and interacting Aubry-Andr\'e models, and Su-Schrieffer-Heeger models. Those numerical results are further quantitatively explained using the effective statistical model mapping and the quasiparticle picture in the cases of random circuits and non-interacting Hamiltonian dynamics, respectively. | 翻訳日:2024-05-09 14:24:42 公開日:2024-05-08 |
# 初期化のない大規模バンドル調整のための可変パワープロジェクション
Power Variable Projection for Initialization-Free Large-Scale Bundle Adjustment ( http://arxiv.org/abs/2405.05079v1 ) ライセンス: Link先を確認 | Simon Weber, Je Hyeong Hong, Daniel Cremers, | (参考訳) 初期化自由バンドル調整(BA)は、ほとんど無チャージのままである。
Levenberg-MarquardtアルゴリズムはBA問題を解くための黄金の手法であるが、一般に良い初期化に依存している。
対照的に、探索されていない可変射影アルゴリズム(VarPro)は初期化なしでも広い収束盆地を示す。
オブジェクト空間誤差の定式化と組み合わせて、最近の研究は、(小規模の)初期化自由バンドル調整問題を解く能力を示している。
本稿では,電力系列に基づく最近の逆展開法を拡張した電力可変射影(PoVar)を提案する。
重要なことに、パワー級数展開はリーマン多様体の最適化にリンクする。
この射影フレームワークは,初期化を伴わない大規模バンドル調整問題の解決に不可欠である。
実世界のBALデータセットを用いて,我々の解法が最先端の結果を速度と精度で達成できることを実験的に実証した。
特に、私たちの研究は、私たちの知る限りでは、初期化なしでBAのスケーラビリティに対処し、初期化不要なStructure-from-Motionのための新しい場所を開く最初のものです。
Initialization-free bundle adjustment (BA) remains largely uncharted. While Levenberg-Marquardt algorithm is the golden method to solve the BA problem, it generally relies on a good initialization. In contrast, the under-explored Variable Projection algorithm (VarPro) exhibits a wide convergence basin even without initialization. Coupled with object space error formulation, recent works have shown its ability to solve (small-scale) initialization-free bundle adjustment problem. We introduce Power Variable Projection (PoVar), extending a recent inverse expansion method based on power series. Importantly, we link the power series expansion to Riemannian manifold optimization. This projective framework is crucial to solve large-scale bundle adjustment problem without initialization. Using the real-world BAL dataset, we experimentally demonstrate that our solver achieves state-of-the-art results in terms of speed and accuracy. In particular, our work is the first, to our knowledge, that addresses the scalability of BA without initialization and opens new venues for initialization-free Structure-from-Motion. | 翻訳日:2024-05-09 14:24:42 公開日:2024-05-08 |
# 合成ペルソナ作成における大規模言語モデルのバイアスに関する考察
Concerns on Bias in Large Language Models when Creating Synthetic Personae ( http://arxiv.org/abs/2405.05080v1 ) ライセンス: Link先を確認 | Helena A. Haxvig, | (参考訳) 本稿では,HCI研究に合成人格を取り入れることのメリット,欠点,倫理的考察について考察する。
これらの視点は、ブラックボックスLSM内のバイアスの存在を示し、それらを操作する方法を探求するために、ウィグネットを用いたサブスタディの最初の結果から導かれる。
本研究は,HCI研究のための総合的ペルソナを作成する前に,徹底的なテストの必要性を強調し,これらのモデルに関連する課題を理解するための基盤を確立することを目的とする。
This position paper explores the benefits, drawbacks, and ethical considerations of incorporating synthetic personae in HCI research, particularly focusing on the customization challenges beyond the limitations of current Large Language Models (LLMs). These perspectives are derived from the initial results of a sub-study employing vignettes to showcase the existence of bias within black-box LLMs and explore methods for manipulating them. The study aims to establish a foundation for understanding the challenges associated with these models, emphasizing the necessity of thorough testing before utilizing them to create synthetic personae for HCI research. | 翻訳日:2024-05-09 14:14:56 公開日:2024-05-08 |
# 弱依存データからのロバスト深層学習
Robust deep learning from weakly dependent data ( http://arxiv.org/abs/2405.05081v1 ) ライセンス: Link先を確認 | William Kengne, Modou Wade, | (参考訳) ディープラーニングに関する最近の進歩は、ディープニューラルネットワーク推定器の理論的性質を確立した。
しかし、この話題に関する既存の研究のほとんどは、有界損失関数や(部分)ガウス的あるいは有界な入力に制限されている。
本稿では, 弱い依存度を持つ観測結果から, 非有界損失関数と非有界入力/出力を含む頑健な深層学習を考察する。
出力変数は、$r > 1$の有限の$r$オーダーモーメントを持つと仮定される。
深部ニューラルネットワーク推定器の予測過剰リスクに対する非漸近境界は、強い混合の下で確立され、観測結果に対する$\psi$-weak依存仮定が確立される。
これらの境界と$r$の関係を導き、データが任意の順序のモーメント(すなわち$r=\infty$)を持つとき、収束率はよく知られた結果に近い。
目標予測器が十分に大きな滑らか度指数を持つH\"古い滑らか度関数のクラスに属する場合、指数関数的に強く混合されたデータに対する予想余剰リスクの比率は、即ちサンプルを用いて得られるものと近いか同じである。
頑健な非パラメトリック回帰とロバストな非パラメトリック自己回帰への応用を考える。
重み付き誤差のあるモデルに対するシミュレーション研究は、絶対損失とフーバー損失関数が最小二乗法より優れていることを示す。
Recent developments on deep learning established some theoretical properties of deep neural networks estimators. However, most of the existing works on this topic are restricted to bounded loss functions or (sub)-Gaussian or bounded input. This paper considers robust deep learning from weakly dependent observations, with unbounded loss function and unbounded input/output. It is only assumed that the output variable has a finite $r$ order moment, with $r >1$. Non asymptotic bounds for the expected excess risk of the deep neural network estimator are established under strong mixing, and $\psi$-weak dependence assumptions on the observations. We derive a relationship between these bounds and $r$, and when the data have moments of any order (that is $r=\infty$), the convergence rate is close to some well-known results. When the target predictor belongs to the class of H\"older smooth functions with sufficiently large smoothness index, the rate of the expected excess risk for exponentially strongly mixing data is close to or as same as those for obtained with i.i.d. samples. Application to robust nonparametric regression and robust nonparametric autoregression are considered. The simulation study for models with heavy-tailed errors shows that, robust estimators with absolute loss and Huber loss function outperform the least squares method. | 翻訳日:2024-05-09 14:14:56 公開日:2024-05-08 |
# 構造環境における量子多体系への階層的アプローチ
A Hierarchical Approach to Quantum Many-Body Systems in Structured Environments ( http://arxiv.org/abs/2405.05093v1 ) ライセンス: Link先を確認 | Kai Müller, Kimmo Luoma, Christian Schäfer, | (参考訳) 空洞量子材料は、凝縮物質系のリッチ多体物理学と周囲の電磁場との強い結合を組み合わせ、新しい展望と複雑な課題を提示する。
例えば、電子多体力学は、フォニックモードとフォトニックモードの構造化された浴である。
非マルコフ力学を特徴とする開量子系は、階層運動方程式 (HEOM) などの手法を用いて常用的に解かれるが、系密度行列(英語版)の使用により、多体系では難解となる。
ここでは、HEOMとBogoliubov-Born-Green-Kirkwood-Yvon(BBGKY)階層を組み合わせることで、オープン多体系とその量子力学の一貫性と厳密な記述に到達する。
我々はまず、この重み付け階層の強さと限界を、確立された量子光学モデルの超放射能放出とスピンスクイーズのために示し、量子多体系に対するその潜在能力を提示する。
特に, キャビティとビブロフォニック環境を含む構造浴におけるフェルミ・ハバードモデルの動的挙動に及ぼす帯電音の影響を明示的にシミュレートした。
強い光結合は多体系の力学を変化させるだけでなく、電荷雑音によって印加された相関運動に関する情報を提供する測定チャネルとしても機能する。
我々の研究は、凝縮物質と量子光学の間のアクセス可能で厳密な経路を確立し、新しい領域をその界面で成長させる。
Cavity quantum materials combine the rich many-body physics of condensed matter systems with strong coupling to the surrounding electromagnetic field, which presents both novel prospects and intricate challenges. One is often interested in the properties of one specific aspect of the material, e.g. the electronic many-body dynamics, subject to a structured bath of phononic and photonic modes. Open quantum systems featuring non-Markovian dynamics are routinely solved using techniques such as the Hierarchical Equations of Motion (HEOM) but their usage of the system density-matrix renders them intractable for many-body systems. Here, we combine the HEOM with the Bogoliubov-Born-Green-Kirkwood-Yvon (BBGKY) hierarchy to reach a consistent and rigorous description of open many-body systems and their quantum dynamics. We demonstrate first the strength and limitations of this stacked hierarchy for superradiant emission and spin-squeezing of established quantum optical models before presenting its full potential for quantum many-body systems. In particular, we explicitly simulate the impact of charge noise on the dynamic of the Fermi-Hubbard model subject to a structured bath comprising cavity and vibro-phononic environment. Strong optical coupling not only modifies the dynamic of the many-body system but serves furthermore as measurement channel providing information about the correlated motion imprinted by charge noise. Our work establishes an accessible, yet rigorous, route between condensed matter and quantum optics, fostering the growth of a new domain at their interface. | 翻訳日:2024-05-09 14:14:56 公開日:2024-05-08 |
# ガウス微分作用素のハイブリッド離散化に対する連続スケール空間に対する近似特性
Approximation properties relative to continuous scale space for hybrid discretizations of Gaussian derivative operators ( http://arxiv.org/abs/2405.05095v1 ) ライセンス: Link先を確認 | Tony Lindeberg, | (参考訳) 本稿では,正規化されたガウスカーネルあるいはガウスカーネルとの畳み込みに基づいて,ガウス微分の2つのハイブリッド離散化法の特性を解析し,中心的な相違について述べる。
これらの離散化法を研究する動機は、異なる順序の空間微分が同じスケールレベルで必要となる状況において、サンプル化されたガウス核またはガウス核との明示的な畳み込みに基づくより直接的な微分近似と比較して、より効率的に計算することができることである。
これらの計算的利点は、ガウスの核の離散的アナログとの畳み込みに基づくガウスの微分の離散的アナログを計算するための真に離散的なアプローチにも当てはまるが、ガウスの核の離散的アナログに対する基礎となる数学的原始は、整数順序のベッセル関数(英語版)(Bessel function of integer order)という観点から、ガウスの微分のスケールパラメタライズドフィルタ(英語版)(scale-parameterized filters)に基づくディープラーニングの実行やスケールレベルの学習など、画像処理の特定のフレームワークでは利用できないかもしれない。
本稿では,これらのハイブリッド離散化手法の特性について,空間平滑化量に関する定量的な評価と,スケール不変な特徴量検出器から得られるスケール推定値の相対的整合性,および自動スケール選択によるスケールパラメータの非常に小さな値に対する挙動に着目し,完全連続スケール空間理論から得られる対応する結果と,異なるタイプの離散化法とを比較検討した。
This paper presents an analysis of properties of two hybrid discretization methods for Gaussian derivatives, based on convolutions with either the normalized sampled Gaussian kernel or the integrated Gaussian kernel followed by central differences. The motivation for studying these discretization methods is that in situations when multiple spatial derivatives of different order are needed at the same scale level, they can be computed significantly more efficiently compared to more direct derivative approximations based on explicit convolutions with either sampled Gaussian kernels or integrated Gaussian kernels. While these computational benefits do also hold for the genuinely discrete approach for computing discrete analogues of Gaussian derivatives, based on convolution with the discrete analogue of the Gaussian kernel followed by central differences, the underlying mathematical primitives for the discrete analogue of the Gaussian kernel, in terms of modified Bessel functions of integer order, may not be available in certain frameworks for image processing, such as when performing deep learning based on scale-parameterized filters in terms of Gaussian derivatives, with learning of the scale levels. In this paper, we present a characterization of the properties of these hybrid discretization methods, in terms of quantitative performance measures concerning the amount of spatial smoothing that they imply, as well as the relative consistency of scale estimates obtained from scale-invariant feature detectors with automatic scale selection, with an emphasis on the behaviour for very small values of the scale parameter, which may differ significantly from corresponding results obtained from the fully continuous scale-space theory, as well as between different types of discretization methods. | 翻訳日:2024-05-09 14:14:56 公開日:2024-05-08 |
# 多方向ニューラルネットワークを用いた階層的相関再構成に基づく生体誘発関節分布ニューロン
Biology-inspired joint distribution neurons based on Hierarchical Correlation Reconstruction allowing for multidirectional neural networks ( http://arxiv.org/abs/2405.05097v1 ) ライセンス: Link先を確認 | Jarek Duda, | (参考訳) 一般的な人工ニューラルネットワーク(ANN)は、Multi-Layer Perceptron(MLP)やKolmogorov-Arnold Network(KAN)のようなパラメトリゼーション型を仮定して、一方向の値伝搬のパラメータを最適化する。
対照的に生物学的ニューロンでは、e.g.は「作用電位の軸索伝播が両方の方向に起こることは珍しくない」であり、多方向的に連続的に動作するように最適化されていることを示唆している。
さらに、単一のニューロンがモデル化できる統計的依存関係は、(予想される)値依存だけでなく、より高いモーメントを含む全関節分布である。
このような非依存的な関節分布ニューロンは、例えば g $\rho(x|y,z)$ または $\rho(y,z|x)$ を $\rho(x,y,z)$ に置換して正規化することで、多方向の伝播(分布や値の)を可能にする。
そのようなニューロンモデルに対する階層的相関再構成(HCR)について論じる: $\rho(x,y,z)=\sum_{ijk} a_{ijk} f_i
(x)f_j
(y)f_k
(z) 多項式基底$f_i$による関節分布の型パラメトリゼーションにより、非線形性、直接モデル推定および更新を含む柔軟で安価な処理が可能となり、標準バックプロパゲーションやテンソル分解までの新しい方法によって訓練される。
ペアワイズ(インプット・アウトプット)の依存関係のみを用いることで、期待値の予測は、トレーニングされたアクティベーション関数を多項式としてKanに似たものになる。
Popular artificial neural networks (ANN) optimize parameters for unidirectional value propagation, assuming some guessed parametrization type like Multi-Layer Perceptron (MLP) or Kolmogorov-Arnold Network (KAN). In contrast, for biological neurons e.g. "it is not uncommon for axonal propagation of action potentials to happen in both directions" \cite{axon} - suggesting they are optimized to continuously operate in multidirectional way. Additionally, statistical dependencies a single neuron could model is not just (expected) value dependence, but entire joint distributions including also higher moments. Such agnostic joint distribution neuron would allow for multidirectional propagation (of distributions or values) e.g. $\rho(x|y,z)$ or $\rho(y,z|x)$ by substituting to $\rho(x,y,z)$ and normalizing. There will be discussed Hierarchical Correlation Reconstruction (HCR) for such neuron model: assuming $\rho(x,y,z)=\sum_{ijk} a_{ijk} f_i(x) f_j(y) f_k(z)$ type parametrization of joint distribution with polynomial basis $f_i$, which allows for flexible, inexpensive processing including nonlinearities, direct model estimation and update, trained through standard backpropagation or novel ways for such structure up to tensor decomposition. Using only pairwise (input-output) dependencies, its expected value prediction becomes KAN-like with trained activation functions as polynomials, can be extended by adding higher order dependencies through included products - in conscious interpretable way, allowing for multidirectional propagation of both values and probability densities. | 翻訳日:2024-05-09 14:14:56 公開日:2024-05-08 |
# 回転する超固体双極子系における相誘起渦ピンニング
Phase-induced vortex pinning in rotating supersolid dipolar systems ( http://arxiv.org/abs/2405.05099v1 ) ライセンス: Link先を確認 | Aitor Alaña, Michele Modugno, Pablo Capuzzi, D. M. Jezek, | (参考訳) 我々は、回転周波数の関数として、液滴間の低密度経路に沿った定常回転双極子超固体の渦のピンニングを分析する。
我々は、液滴の配列と同じ対称性の渦の定常配置に自分自身を拘束する。
提案手法は, 各液滴の波動関数が座標上の線形位相を得るという事実を利用しており, 隣接する液滴間の相対位相は渦の位置を予測できる。
閉じ込められた系の場合、その推定は隣り合う液滴がよく定義された空間領域におけるグロス・ピタエフスキーの結果を正確に再現する。
We analyze the pinning of vortices for a stationary rotating dipolar supersolid along the low-density paths between droplets as a function of the rotation frequency. We restrict ourselves to the stationary configurations of vortices with the same symmetry as that of the array of droplets. Our approach exploits the fact that the wave function of each droplet acquires a linear phase on the coordinates, and hence the relative phases between neighboring droplets allows us to predict the position of the vortices. For a confined system, the estimate accurately reproduces the Gross-Pitaevskii results in the spatial regions where the neighboring droplets are well defined. | 翻訳日:2024-05-09 14:14:56 公開日:2024-05-08 |
# QFMTS: マルチテーブル入力上でクエリにフォーカスされたサマリを生成する
QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs ( http://arxiv.org/abs/2405.05109v1 ) ライセンス: Link先を確認 | Weijia Zhang, Vaishali Pal, Jia-Hong Huang, Evangelos Kanoulas, Maarten de Rijke, | (参考訳) 表要約は、表データの情報を簡潔で分かりやすいテキスト要約に変換するための重要なタスクである。
しかし、既存のアプローチは、ユーザの情報や品質要件を適切に満たすことができず、現実のクエリの複雑さを無視する傾向がある。
本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。
テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデル(LLM)から構成される本手法では,テキストクエリと複数のテーブルを用いて,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
この領域の研究を容易にするために,複数のテーブルに関連付けられた4909のクエリ-サマリーペアからなる,このタスクに適した包括的データセットを提案する。
提案手法の有効性をベースライン手法と比較し,提案手法の有効性を検証した。
本研究は,クエリに着目したマルチテーブル要約研究の進展に寄与し,複雑なテーブル推論の課題に対する洞察を提供する。
Table summarization is a crucial task aimed at condensing information from tabular data into concise and comprehensible textual summaries. However, existing approaches often fall short of adequately meeting users' information and quality requirements and tend to overlook the complexities of real-world queries. In this paper, we propose a novel method to address these limitations by introducing query-focused multi-table summarization. Our approach, which comprises a table serialization module, a summarization controller, and a large language model (LLM), utilizes textual queries and multiple tables to generate query-dependent table summaries tailored to users' information needs. To facilitate research in this area, we present a comprehensive dataset specifically tailored for this task, consisting of 4909 query-summary pairs, each associated with multiple tables. Through extensive experiments using our curated dataset, we demonstrate the effectiveness of our proposed method compared to baseline approaches. Our findings offer insights into the challenges of complex table reasoning for precise summarization, contributing to the advancement of research in query-focused multi-table summarization. | 翻訳日:2024-05-09 14:14:56 公開日:2024-05-08 |
# 距離空間における不確かさの定量化
Uncertainty quantification in metric spaces ( http://arxiv.org/abs/2405.05110v1 ) ライセンス: Link先を確認 | Gábor Lugosi, Marcos Matabuena, | (参考訳) 本稿では,分離可能な距離空間において応答が値を取る回帰モデルに対する新しい不確実性定量化フレームワークを導入し,予測器をユークリッド空間に配置する。
提案アルゴリズムは,大規模データセットを効率的に処理し,使用する予測ベースモデルに依存しない。
さらに, アルゴリズムは漸近的整合性を保証するとともに, 特定の相補的ケースでは非漸近的保証を提供する。
提案した不確実性定量化フレームワークの有効性を説明するために, 精度およびデジタル医療に関する様々な臨床応用において, 計量応答に対する線形回帰モデル(大域的Fr'echetモデル)を用いる。
分析された異なる臨床結果は、多変量ユークリッドデータ、ラプラシアグラフ、確率分布を含む複雑な統計対象として表現される。
This paper introduces a novel uncertainty quantification framework for regression models where the response takes values in a separable metric space, and the predictors are in a Euclidean space. The proposed algorithms can efficiently handle large datasets and are agnostic to the predictive base model used. Furthermore, the algorithms possess asymptotic consistency guarantees and, in some special homoscedastic cases, we provide non-asymptotic guarantees. To illustrate the effectiveness of the proposed uncertainty quantification framework, we use a linear regression model for metric responses (known as the global Fr\'echet model) in various clinical applications related to precision and digital medicine. The different clinical outcomes analyzed are represented as complex statistical objects, including multivariate Euclidean data, Laplacian graphs, and probability distributions. | 翻訳日:2024-05-09 14:14:56 公開日:2024-05-08 |
# XAMPLER: 言語間インコンテキストの事例を検索する学習
XAMPLER: Learning to Retrieve Cross-Lingual In-Context Examples ( http://arxiv.org/abs/2405.05116v1 ) ライセンス: Link先を確認 | Peiqin Lin, André F. T. Martins, Hinrich Schütze, | (参考訳) 近年の研究では、高品質なインテキストの例を検索できるオフ・ザ・シェルフや微調整のレトリバーを活用することで、英語のインテキスト学習を大幅に改善することが示されている。
しかしながら、これらの手法を他の言語、特に低リソース言語に適用することは、利用可能な言語横断レトリバーや注釈付きデータの不足による課題を提起する。
本稿ではXAMPLER: Cross-Lingual Example Retrievalについて紹介する。
XAMPLERは、まず、テキスト内学習のための多言語大言語モデルの予測に基づいて、正/負の英語サンプルで検索者を訓練する。
次に、トレーニングされた検索者は、ターゲット言語における文脈内学習のサンプルとして、英語のサンプルを検索するために直接使用される。
SIB200と176言語を用いた大規模多言語テキスト分類ベンチマークの実験により、XAMPLERは言語間でのテキスト内学習性能を大幅に改善することが示された。
私たちのコードはhttps://github.com/cisnlp/XAMPLER.comで利用可能です。
Recent studies have shown that leveraging off-the-shelf or fine-tuned retrievers, capable of retrieving high-quality in-context examples, significantly improves in-context learning of English. However, adapting these methods to other languages, especially low-resource ones, presents challenges due to the scarcity of available cross-lingual retrievers and annotated data. In this paper, we introduce XAMPLER: Cross-Lingual Example Retrieval, a method tailored to tackle the challenge of cross-lingual in-context learning using only annotated English data. XAMPLER first trains a retriever with positive/negative English samples, which are constructed based on the predictions of the multilingual large language model for in-context learning. Then, the trained retriever is directly employed to retrieve English examples as few-shot examples for in-context learning of target languages. Experiments on the massively multilingual text classification benchmark of SIB200 with 176 languages demonstrate that XAMPLER substantially improves the in-context learning performance across languages. Our code is available at https://github.com/cisnlp/XAMPLER. | 翻訳日:2024-05-09 14:14:56 公開日:2024-05-08 |
# フィードバック遅延を伴う不正確なマクスウェルのデーモン:厳密に解決可能な情報エンジンモデル
An Imprecise Maxwell's Demon with Feedback Delay: An Exactly Solvable Information Engine Model ( http://arxiv.org/abs/2405.05123v1 ) ライセンス: Link先を確認 | Kiran V, Toby Joseph, | (参考訳) 熱貯留層に接触する2レベルシステムに基づく有限サイクル時間情報エンジンを解析的に検討した。
エンジンのモデルは、測定とフィードバックプロセスの間のシステム状態と時間遅延を測定する際の誤差を含む。
エンジンの定常状態における効率とパワーは、レベル間隔、フィードバック遅延時間、エンジンサイクル時間、測定誤差の関数として導出される。
レベル間隔とフィードバック遅延の固定値に対して、エンジンが正の作業を引き出すことができるように、測定誤差に上限がある。
この誤差のしきい値がサイクル時間に依存しないことが分かる。
レベル間隔とフィードバック遅延時間の範囲において、効率は測定誤差に非単調な依存性を持ち、情報エンジンが効率的に動作するための最適な測定誤差が存在することを示唆する。
高温かつ正確な測定では、エンジンの正の働きを抽出する能力は、より広い範囲のフィードバック遅延時間で拡張される。
A finite cycle time information engine based on a two-level system in contact with a thermal reservoir is studied analytically. The model for the engine incorporates an error in measuring the system's state and time delay between the measurement and the feedback process. The efficiency and power of the engine in steady state are derived as a function of level spacing, feedback delay time, engine cycle time, and measurement error. For a fixed value of level spacing and feedback delay, there is an upper bound on measurement error such that the engine can extract positive work. This threshold value of error is found to be independent of the cycle time. For a range of values of level spacing and feedback delay time, efficiency has a non-monotonic dependence on the measurement error, implying that there is an optimal measurement error for the information engine to operate efficiently. At high temperatures and with precise measurement, the engine's ability to extract positive work is extended over a larger range of feedback delay time. | 翻訳日:2024-05-09 14:14:56 公開日:2024-05-08 |
# 弱監視マルチモーダルビオレンス検出のためのマルチスケールブートネック変換器
Multi-scale Bottleneck Transformer for Weakly Supervised Multimodal Violence Detection ( http://arxiv.org/abs/2405.05130v1 ) ライセンス: Link先を確認 | Shengyang Sun, Xiaojin Gong, | (参考訳) 弱教師付きマルチモーダル暴力検出は、RGB、光フロー、オーディオなどの複数のモダリティを活用することで暴力検出モデルを学ぶことを目的としており、ビデオレベルのアノテーションのみが利用可能である。
効果的なマルチモーダル暴力検出(MVD)の追求において,情報冗長性,モダリティの不均衡,モダリティの非同期性は3つの重要な課題である。
そこで本研究では,これらの課題に対処する弱教師付きMVD法を提案する。
具体的には,マルチスケール・ボトルネック・トランスフォーマー (MSBT) ベースの核融合モジュールを導入し,情報を徐々に凝縮し,各対のモダリティを融合させ,より重要な融合特徴を強調するためにボトルネック・トークンベースの重み付け方式を利用する。
さらに,相互に融合した特徴を意味的に整合させる時間的コントラスト損失を提案する。
最大規模のXD-Violenceデータセットの実験により,提案手法が最先端の性能を実現することを示す。
コードはhttps://github.com/shengyangsun/MSBTで入手できる。
Weakly supervised multimodal violence detection aims to learn a violence detection model by leveraging multiple modalities such as RGB, optical flow, and audio, while only video-level annotations are available. In the pursuit of effective multimodal violence detection (MVD), information redundancy, modality imbalance, and modality asynchrony are identified as three key challenges. In this work, we propose a new weakly supervised MVD method that explicitly addresses these challenges. Specifically, we introduce a multi-scale bottleneck transformer (MSBT) based fusion module that employs a reduced number of bottleneck tokens to gradually condense information and fuse each pair of modalities and utilizes a bottleneck token-based weighting scheme to highlight more important fused features. Furthermore, we propose a temporal consistency contrast loss to semantically align pairwise fused features. Experiments on the largest-scale XD-Violence dataset demonstrate that the proposed method achieves state-of-the-art performance. Code is available at https://github.com/shengyangsun/MSBT. | 翻訳日:2024-05-09 14:14:56 公開日:2024-05-08 |
# 多モードリモートセンシングデータを用いた大規模都市域における建物の機能同定
Identifying every building's function in large-scale urban areas with multi-modality remote-sensing data ( http://arxiv.org/abs/2405.05133v1 ) ライセンス: Link先を確認 | Zhuohong Li, Wei He, Jiepan Li, Hongyan Zhang, | (参考訳) 建物は、都市環境の基本的な人造構造として、様々な都市機能領域を理解するための重要な指標となっている。
急速な都市化は、建物の足跡や機能を効率的に調査する緊急の必要性を高めている。
本研究では,大規模都市部におけるビルの機能を多モードリモートセンシングデータを用いて同定する半教師付き枠組みを提案する。
詳細は、建物の形態的特徴を記述するために、光学画像、建築高さ、夜間光データを収集する。
そして、ボランティア地理情報(VGI)データから興味領域(AOI)と構築マスクを収集し、疎ラベルのサンプルを形成する。
さらに、マルチモーダルデータと弱いラベルを用いて、半教師付き戦略でセグメンテーションモデルを訓練する。
最後に、結果は政府による2万の検証ポイントと統計調査によって評価される。
上海の1,616,796棟のうち82%のOAと71%のKappaが得られた。
本研究は,大規模都市管理と持続可能な都市開発を支援する可能性を秘めている。
すべての収集されたデータと生成されたマップはhttps://github.com/LiZhuoHong/BuildingMapでオープンアクセスされる。
Buildings, as fundamental man-made structures in urban environments, serve as crucial indicators for understanding various city function zones. Rapid urbanization has raised an urgent need for efficiently surveying building footprints and functions. In this study, we proposed a semi-supervised framework to identify every building's function in large-scale urban areas with multi-modality remote-sensing data. In detail, optical images, building height, and nighttime-light data are collected to describe the morphological attributes of buildings. Then, the area of interest (AOI) and building masks from the volunteered geographic information (VGI) data are collected to form sparsely labeled samples. Furthermore, the multi-modality data and weak labels are utilized to train a segmentation model with a semi-supervised strategy. Finally, results are evaluated by 20,000 validation points and statistical survey reports from the government. The evaluations reveal that the produced function maps achieve an OA of 82% and Kappa of 71% among 1,616,796 buildings in Shanghai, China. This study has the potential to support large-scale urban management and sustainable urban development. All collected data and produced maps are open access at https://github.com/LiZhuoHong/BuildingMap. | 翻訳日:2024-05-09 14:14:56 公開日:2024-05-08 |
# 信頼性保証を伴うハイブリッド畳み込みニューラルネットワーク
Hybrid Convolutional Neural Networks with Reliability Guarantee ( http://arxiv.org/abs/2405.05146v1 ) ライセンス: Link先を確認 | Hans Dermot Doran, Suzana Veljanovska, | (参考訳) AIを安全かつ信頼性の高いものにするには、信頼性のあるモデルの生成とそれらのモデルの信頼性の高い実行が必要である。
我々は、AIモデルの信頼性を確保するために、よく知られた手法として冗長実行を提案する。
このジェネリックテクニックは、十分に文書化された安全性や信頼性を特徴としないAI加速器の応用範囲を拡張する。
典型的な冗長性技術は、元の計算コストを少なくとも2倍または3倍にします。
我々は、信頼性の高いモデル実行と信頼性のない実行を統合する、協調設計アプローチを採用し、厳密な必要な場合にのみ追加の計算コストに焦点を当てる。
本稿では,ハイブリッドCNNの設計,実装,およびいくつかの予備的な結果について述べる。
Making AI safe and dependable requires the generation of dependable models and dependable execution of those models. We propose redundant execution as a well-known technique that can be used to ensure reliable execution of the AI model. This generic technique will extend the application scope of AI-accelerators that do not feature well-documented safety or dependability properties. Typical redundancy techniques incur at least double or triple the computational expense of the original. We adopt a co-design approach, integrating reliable model execution with non-reliable execution, focusing that additional computational expense only where it is strictly necessary. We describe the design, implementation and some preliminary results of a hybrid CNN. | 翻訳日:2024-05-09 14:14:56 公開日:2024-05-08 |
# 原子干渉計における空間位相再構成の主成分分析
Principal Component Analysis for Spatial Phase Reconstruction in Atom Interferometry ( http://arxiv.org/abs/2405.05150v1 ) ライセンス: Link先を確認 | Stefan Seckmeyer, Holger Ahlers, Jan-Niclas Kirsten-Siemß, Matthias Gersemann, Ernst M. Rasel, Sven Abend, Naceur Gaaloul, | (参考訳) 原子干渉計は、物質波の干渉パターンで信号を符号化することで、広範囲の力に敏感である。
これらの力の大きさを推定するためには、原子に印加される基礎となる位相シフトを抽出する必要がある。
これまでは、抽出アルゴリズムはパターンの空間構造の固定されたモデルに依存しており、不正確な場合、例えば、使用したレーザーの波面収差によって生じる体系的なエラーにつながる可能性がある。
本稿では,原子干渉計の空間位相構造と画像位相オフセットを画像集合から特徴付けることのできる主成分分析に基づくアルゴリズムを用いる。
このアルゴリズムは、このパターンが集合内のすべての画像に対して同じである限り、特定の空間パターンについて事前の知識なしで行う。
原子プロジェクションノイズのシミュレーション画像では、アルゴリズムの再構成性能は異なるスケーリング法則に従うことを示す。
また,原子重力計から2つの実験データセットの空間位相パターンの抽出に成功した。
このアルゴリズムは、原子干渉法における不均一なレーザー場によって引き起こされる、より理解され複雑な空間位相パターン(例えば、等)への第一歩である。
Atom interferometers are sensitive to a wide range of forces by encoding their signals in interference patterns of matter waves. To estimate the magnitude of these forces, the underlying phase shifts they imprint on the atoms must be extracted. Up until now, extraction algorithms typically rely on a fixed model of the patterns' spatial structure, which if inaccurate can lead to systematic errors caused by, for example, wavefront aberrations of the used lasers. In this paper we employ an algorithm based on Principal Component Analysis, which is capable of characterizing the spatial phase structure and per image phase offsets of an atom interferometer from a set of images. The algorithm does so without any prior knowledge about the specific spatial pattern as long as this pattern is the same for all images in the set. On simulated images with atom projection noise we show the algorithm's reconstruction performance follows distinct scaling laws, i.e., it is inversely-proportional to the square-root of the number atoms or the number of images respectively, which allows a projection of its performance for experiments. We also successfully extract the spatial phase patterns of two experimental data sets from an atom gravimeter. This algorithm is a first step towards a better understanding and complex spatial phase patterns, e.g., caused by inhomogeneous laser fields in atom interferometry. | 翻訳日:2024-05-09 14:05:10 公開日:2024-05-08 |
# HCI教育における生成AIの可能性と意義
The Potential and Implications of Generative AI on HCI Education ( http://arxiv.org/abs/2405.05154v1 ) ライセンス: Link先を確認 | Ahmed Kharrufa, Ian G Johnson, | (参考訳) ジェネレーティブAI(GAI)は、さまざまな分野や分野において、直接的または間接的に教育と学習に影響を与える。
教育者として、私たちはHCI教育におけるAIの可能性と限界を理解し、卒業生がHCIにおけるAIの可能性と限界を確実に認識する必要がある。
本稿では,生成型AIを10週間の学部モジュールに組み込むことによって得られた,教育的知見について報告する。
我々は,デザインブリーフ要件の一部として,GAIモデルを用いた学生実験を促すモジュールを設計し,実践的なセッションや議論を計画した。
私たちの洞察は、モジュールが完成した後、学生に送られた調査に対する回答に基づいています。
我々のHCI教育者にとって重要な発見は、プロジェクトアイデアの開発と設計のためのリソース作成のためのペルソナとしてAIを使用すること、そして学生が重要な概念やアイデアを理解し、知識ギャップを強調する鏡としてAIを使用することである。
また,検討すべき落とし穴や,GAIのリテラシーや仮定を教育ツールとして評価する必要性についても論じる。
最後に,GAIを教育ツールとして活用し,その実践において実験的,創造的,勇気を発揮できる機会を教育者に与えることを提案する。
我々は、HCIのTPACKフレームワークに関して、私たちの発見の議論に終止符を打つ。
Generative AI (GAI) is impacting teaching and learning directly or indirectly across a range of subjects and disciplines. As educators, we need to understand the potential and limitations of AI in HCI education and ensure our graduating HCI students are aware of the potential and limitations of AI in HCI. In this paper, we report on the main pedagogical insights gained from the inclusion of generative AI into a 10 week undergraduate module. We designed the module to encourage student experimentation with GAI models as part of the design brief requirement and planned practical sessions and discussions. Our insights are based on replies to a survey sent out to the students after completing the module. Our key findings, for HCI educators, report on the use of AI as a persona for developing project ideas and creating resources for design, and AI as a mirror for reflecting students' understanding of key concepts and ideas and highlighting knowledge gaps. We also discuss potential pitfalls that should be considered and the need to assess students' literacies and assumptions of GAIs as pedagogical tools. Finally, we put forward the case for educators to take the opportunities GAI presents as an educational tool and be experimental, creative, and courageous in their practice. We end with a discussion of our findings in relation to the TPACK framework in HCI. | 翻訳日:2024-05-09 14:05:10 公開日:2024-05-08 |
# 分布シフト下における選択的分類
Selective Classification Under Distribution Shifts ( http://arxiv.org/abs/2405.05160v1 ) ライセンス: Link先を確認 | Hengyue Liang, Le Peng, Ju Sun, | (参考訳) 選択分類(SC)では、分類器は過度なエラーを避けるのに間違っている可能性のある予測をすることを禁じる。
不完全な分類器(データ固有の統計的ノイズや分類器の堅牢性の問題など)を高精細なシナリオで展開するには、SCは魅力的で、従うために必要な道のようだ。
SCにおける何十年にもわたっての研究にもかかわらず、以前のSC手法は依然として理想的な統計的設定のみに焦点を当てている。
このギャップを埋めるために,本論文では,SC文献の中では,典型的な分布内サンプルに加えて,ラベルシフト(あるいは分布外)および共変量シフトサンプルをカバーする,一般化選択分類(Generalized selective classification)と呼ばれる,分布シフトを考慮したSCフレームワークを提案する。
我々は、ディープラーニング(DL)分類器における一般化SCのための非トレーニングベースの信頼スコア関数に着目し、2つの新しいマージンベースのスコア関数を提案する。
解析と実験により,提案したスコア関数は,様々な分類タスクやDL分類器上での一般化SCよりも効果的で信頼性が高いことを示す。
In selective classification (SC), a classifier abstains from making predictions that are likely to be wrong to avoid excessive errors. To deploy imperfect classifiers -- imperfect either due to intrinsic statistical noise of data or for robustness issue of the classifier or beyond -- in high-stakes scenarios, SC appears to be an attractive and necessary path to follow. Despite decades of research in SC, most previous SC methods still focus on the ideal statistical setting only, i.e., the data distribution at deployment is the same as that of training, although practical data can come from the wild. To bridge this gap, in this paper, we propose an SC framework that takes into account distribution shifts, termed generalized selective classification, that covers label-shifted (or out-of-distribution) and covariate-shifted samples, in addition to typical in-distribution samples, the first of its kind in the SC literature. We focus on non-training-based confidence-score functions for generalized SC on deep learning (DL) classifiers and propose two novel margin-based score functions. Through extensive analysis and experiments, we show that our proposed score functions are more effective and reliable than the existing ones for generalized SC on a variety of classification tasks and DL classifiers. | 翻訳日:2024-05-09 14:05:10 公開日:2024-05-08 |
# 大規模量子系における高速フーリエ変換と高速ウィグナーおよびワイル関数
Fast Fourier transforms and fast Wigner and Weyl functions in large quantum systems ( http://arxiv.org/abs/2405.05163v1 ) ライセンス: Link先を確認 | C. Lei, A. Vourdas, | (参考訳) 高速フーリエ変換の2つの方法が量子文脈で用いられる。
最初の方法はヒルベルト空間 $D=d^n$ と奇数整数 $d$ の次元を持つ系に対するもので、クーリー・テューキー形式に着想を得たものである。
大きなフーリエ変換」は、$d$次元ヒルベルト空間を持つ量子系における$n$ `小フーリエ変換'の列として表される。
本手法の限界について論じる。
特別な場合、$n$フーリエ変換は並列に実行できる。
第2の方法はヒルベルト空間 $D=d_0 の次元を持つ系に対するものである。
d_{n-1}$$$d_0,...,d_{n-1}$奇数整数は互いに衝突する。
良い形式主義に触発され、中国のリマインダーの定理に基づいている。
この場合、 'large Fourier transform' は$n$ `small Fourier transforms' (形式主義を記述する数論に関連する定数を含む)の列として表される。
小型フーリエ変換」は古典的コンピュータや量子コンピュータ(この場合量子フーリエ変換回路の利点としてよく知られている)で実行することができる。
小さなフーリエ変換が古典的なコンピュータで実行される場合、両手法の複雑性の議論は計算時間を${\cal O}(D^2)$から${\cal O}(D\log D)$に短縮することを示している。
第二の方法は、ヒルベルト空間の大きい有限次元の量子系において、ウィグナー函数とワイル函数の高速計算にも用いられる。
Two methods for fast Fourier transforms are used in a quantum context. The first method is for systems with dimension of the Hilbert space $D=d^n$ with $d$ an odd integer, and is inspired by the Cooley-Tukey formalism. The `large Fourier transform' is expressed as a sequence of $n$ `small Fourier transforms' (together with some other transforms) in quantum systems with $d$-dimensional Hilbert space. Limitations of the method are discussed. In some special cases, the $n$ Fourier transforms can be performed in parallel. The second method is for systems with dimension of the Hilbert space $D=d_0...d_{n-1}$ with $d_0,...,d_{n-1}$ odd integers coprime to each other. It is inspired by the Good formalism, which in turn is based on the Chinese reminder theorem. In this case also the `large Fourier transform' is expressed as a sequence of $n$ `small Fourier transforms' (that involve some constants related to the number theory that describes the formalism). The `small Fourier transforms' can be performed in a classical computer or in a quantum computer (in which case we have the additional well known advantages of quantum Fourier transform circuits). In the case that the small Fourier transforms are performed with a classical computer, complexity arguments for both methods show the reduction in computational time from ${\cal O}(D^2)$ to ${\cal O}(D\log D)$. The second method is also used for the fast calculation of Wigner and Weyl functions, in quantum systems with large finite dimension of the Hilbert space. | 翻訳日:2024-05-09 14:05:10 公開日:2024-05-08 |
# ProbRadarM3F:mmWaveレーダを用いた確率マップによる人体骨格電位推定
ProbRadarM3F: mmWave Radar based Human Skeletal Pose Estimation with Probability Map Guided Multi-Format Feature Fusion ( http://arxiv.org/abs/2405.05164v1 ) ライセンス: Link先を確認 | Bing Zhu, Zixin He, Weiyi Xiong, Guanhua Ding, Jianan Liu, Tao Huang, Wei Chen, Wei Xiang, | (参考訳) Millimetre Wave(mmWave)レーダーは、非侵襲的なプライバシーであり、比較的便利で安価な装置であり、人間の屋内ポーズ推定タスクにおいて、RGBカメラの代わりに適用可能であることが示されている。
しかし、mmWaveレーダはターゲットからの反射信号の収集に依存しており、情報を含むレーダ信号を完全に適用することは困難である。
これは、ポーズ推定精度の向上に長年の障害となっている。
本稿では,この課題に対処するため,確率マップを用いたマルチフォーマット特徴融合モデルProbRadarM3Fを提案する。
これは、従来のFFT法と確率マップに基づく位置符号化法を並行して用いた新しいレーダ特徴抽出フレームワークである。
ProbRadarM3Fは従来のヒートマップの特徴と位置特徴を融合させ、効果的に14個の人体のキーポイントを推定する。
本稿では,HuPRデータセットを用いた実験により提案したモデルの有効性を実証し,69.9%のAPで実験した他の手法よりも優れた結果を得た。
本研究は,従来のレーダ音声では利用されていない位置情報に着目したものである。
このことは、mmWaveレイダから他の潜在的非冗長情報を調査する方向を与える。
Millimetre wave (mmWave) radar is a non-intrusive privacy and relatively convenient and inexpensive device, which has been demonstrated to be applicable in place of RGB cameras in human indoor pose estimation tasks. However, mmWave radar relies on the collection of reflected signals from the target, and the radar signals containing information is difficult to be fully applied. This has been a long-standing hindrance to the improvement of pose estimation accuracy. To address this major challenge, this paper introduces a probability map guided multi-format feature fusion model, ProbRadarM3F. This is a novel radar feature extraction framework using a traditional FFT method in parallel with a probability map based positional encoding method. ProbRadarM3F fuses the traditional heatmap features and the positional features, then effectively achieves the estimation of 14 keypoints of the human body. Experimental evaluation on the HuPR dataset proves the effectiveness of the model proposed in this paper, outperforming other methods experimented on this dataset with an AP of 69.9 %. The emphasis of our study is focusing on the position information that is not exploited before in radar singal. This provides direction to investigate other potential non-redundant information from mmWave rader. | 翻訳日:2024-05-09 14:05:10 公開日:2024-05-08 |
# シリコン中のT中心状量子欠陥の発見
Discovery of T center-like quantum defects in silicon ( http://arxiv.org/abs/2405.05165v1 ) ライセンス: Link先を確認 | Yihuang Xiong, Jiongzhi Zheng, Shay McBride, Xueyue Zhang, Sinéad M. Griffin, Geoffroy Hautier, | (参考訳) 量子技術は、単一光子エミッタやスピン光子インタフェースとして機能する高性能な量子欠陥の開発から恩恵を受ける。
このようなシリコンの量子欠陥を見つけることは、スピン浴と高いプロセス性の観点から特に魅力的である。
シリコンのいくつかのカラーセンターは量子アプリケーションで登場しているが、新しい高性能量子エミッタを探索して開発する必要がある。
シリコン中の22,000以上の荷電した複素欠陥の高スループット計算データベースを探索し、炭素((A-C)$\rm _{Si}$とA=B,Al,Ga,In,Tl)を混合し、シリコンサイトに置換したIII族元素によって形成される一連の欠陥を同定する。
これらの欠陥は、シリコン(C-C-H)$\rm_{Si}$)のよく知られたT中心と、構造的に、電子的に、化学的に類似しており、光学的性質は、主に炭素$p$軌道の未対電子によって駆動される。
これらはすべてテレコムに放出され、これらの色中心のいくつかは、計算された放射寿命または発光効率の観点から、T中心よりも改善された特性を示す。
また,水素化T中心様欠陥の合成と脱水素焼鈍工程の併用が効率的な合成方法である可能性が示唆された。
すべてのT中心のような欠陥はT中心よりも高い対称性を示し、磁場との整合が容易である。
我々の研究は、この新しい量子欠陥のファミリーの合成と制御に関するさらなる研究を動機付け、また、新しい複雑な量子欠陥を検出するために高スループットの計算スクリーニングを使用することも示している。
Quantum technologies would benefit from the development of high performance quantum defects acting as single-photon emitters or spin-photon interface. Finding such a quantum defect in silicon is especially appealing in view of its favorable spin bath and high processability. While some color centers in silicon have been emerging in quantum applications, there is still a need to search and develop new high performance quantum emitters. Searching a high-throughput computational database of more than 22,000 charged complex defects in silicon, we identify a series of defects formed by a group III element combined with carbon ((A-C)$\rm _{Si}$ with A=B,Al,Ga,In,Tl) and substituting on a silicon site. These defects are analogous structurally, electronically and chemically to the well-known T center in silicon ((C-C-H)$\rm_{Si}$) and their optical properties are mainly driven by an unpaired electron in a carbon $p$ orbital. They all emit in the telecom and some of these color centers show improved properties compared to the T center in terms of computed radiative lifetime or emission efficiency. We also show that the synthesis of hydrogenated T center-like defects followed by a dehydrogenation annealing step could be an efficient way of synthesis. All the T center-like defects show a higher symmetry than the T center making them easier to align with magnetic fields. Our work motivates further studies on the synthesis and control of this new family of quantum defects, and also demonstrates the use of high-throughput computational screening to detect new complex quantum defects. | 翻訳日:2024-05-09 14:05:10 公開日:2024-05-08 |
# 自然離散的コンビネート変異確率集合の機械学習におけるデータエラースケーリング : ペプチドと小分子のケーススタディ
Data-Error Scaling in Machine Learning on Natural Discrete Combinatorial Mutation-prone Sets: Case Studies on Peptides and Small Molecules ( http://arxiv.org/abs/2405.05167v1 ) ライセンス: Link先を確認 | Vanni Doffini, O. Anatole von Lilienfeld, Michael A. Nash, | (参考訳) 本研究では,タンパク質や有機小分子などの変異しやすい離散組合せ空間で学習した機械学習(ML)モデルのデータエラースケーリング行動の傾向について検討する。
我々は,カーネルリッジ回帰マシンを,計算によって生成された学習データの変動量を用いて訓練し,評価した。
私たちの合成データセットは
i) 多体理論に基づく2つの「機能」
二 タンパク質と変異原性ペプチドとの結合エネルギー推定
三 六重原子構造グラフの2つの溶出エネルギー
典型的なデータエラースケーリングとは対照的に,トレーニングデータの特定のしきい値におけるテストエラーの急激な低下として,学習中に不連続なモノトニック相転移が見られた。
飽和崩壊と漸近崩壊と呼ばれる2つの学習体制を観察したところ、それらはトレーニングセットに格納されている複雑さのレベル(つまり突然変異の数)によって条件付けられていることがわかった。
このクラスの課題に対するトレーニングでは,キャリブレーションプロットで使用されるMLモデルによって予測がクラスタ化されていた。
さらに,学習曲線(LC)を正規化するための代替戦略と,突然変異に基づくシャッフルの概念を提案する。
この研究は、化学特性やタンパク質表現型予測のような変異可能な離散空間における機械学習に影響を及ぼし、統計学習理論における概念の基本的な理解を改善する。
We investigate trends in the data-error scaling behavior of machine learning (ML) models trained on discrete combinatorial spaces that are prone-to-mutation, such as proteins or organic small molecules. We trained and evaluated kernel ridge regression machines using variable amounts of computationally generated training data. Our synthetic datasets comprise i) two na\"ive functions based on many-body theory; ii) binding energy estimates between a protein and a mutagenised peptide; and iii) solvation energies of two 6-heavy atom structural graphs. In contrast to typical data-error scaling, our results showed discontinuous monotonic phase transitions during learning, observed as rapid drops in the test error at particular thresholds of training data. We observed two learning regimes, which we call saturated and asymptotic decay, and found that they are conditioned by the level of complexity (i.e. number of mutations) enclosed in the training set. We show that during training on this class of problems, the predictions were clustered by the ML models employed in the calibration plots. Furthermore, we present an alternative strategy to normalize learning curves (LCs) and the concept of mutant based shuffling. This work has implications for machine learning on mutagenisable discrete spaces such as chemical properties or protein phenotype prediction, and improves basic understanding of concepts in statistical learning theory. | 翻訳日:2024-05-09 14:05:10 公開日:2024-05-08 |
# 薄膜タンタル酸リチウムを用いた安定電気光学変調器
Stable electro-optic modulators using thin-film lithium tantalate ( http://arxiv.org/abs/2405.05169v1 ) ライセンス: Link先を確認 | Keith Powell, Xudong Li, Daniel Assumpcao, Letícia Magalhães, Neil Sinclair, Marko Lončar, | (参考訳) 低損失の薄膜リチウムタンタレートで実現した電気光学変調器(直流安定度が1dB/12.1dBm入力)を46時間以上で等価な薄膜リチウムニオブ酸リチウム変調器(5dBゆらぎ)と比較した。
We demonstrate electro-optic modulators realized in low-loss thin-film lithium tantalate with superior DC-stability (<1 dB power fluctuation from quadrature with 12.1 dBm input) compared to equivalent thin-film lithium niobate modulators (5 dB fluctuation) over 46 hours. | 翻訳日:2024-05-09 14:05:10 公開日:2024-05-08 |
# 雑音からの透かし(PWFN):集中歪みに対する頑健な透かしモデルの改良
Picking watermarks from noise (PWFN): an improved robust watermarking model against intensive distortions ( http://arxiv.org/abs/2405.05170v1 ) ライセンス: Link先を確認 | Sijing Xie, Chengxin Zhao, Nan Sun, Wei Li, Hefei Ling, | (参考訳) デジタル透かし(Digital watermarking)は、人間の目では検出できない方法で画像を変更することによって秘密情報を埋め込む方法である。
モデルの堅牢性を高めるため、多くのディープラーニングベースの透かし手法では、ノイズ層に異なるノイズを加えることでエンコーダデコーダアーキテクチャを使用する。
そして、デコーダは歪んだ画像から透かし情報を抽出する。
しかし、この手法は弱いノイズアタックにしか耐えられない。
本稿では,より強い雑音に対するアルゴリズムの頑健性を改善するために,雑音層とデコーダとの間にデノイズモジュールを導入することを提案する。
このモジュールは、ノイズを低減し、攻撃中に失われた情報のいくつかを回復することを目的としている。
さらに,透かし情報とチャネル次元を融合するSEモジュールを導入し,エンコーダの効率を向上する。
実験結果から,提案手法は既存モデルに匹敵し,ノイズ強度の異なる最先端技術よりも優れていることがわかった。
さらに, アブレーション実験により, 提案したモジュールの優位性を示した。
Digital watermarking is the process of embedding secret information by altering images in a way that is undetectable to the human eye. To increase the robustness of the model, many deep learning-based watermarking methods use the encoder-decoder architecture by adding different noises to the noise layer. The decoder then extracts the watermarked information from the distorted image. However, this method can only resist weak noise attacks. To improve the robustness of the algorithm against stronger noise, this paper proposes to introduce a denoise module between the noise layer and the decoder. The module is aimed at reducing noise and recovering some of the information lost during an attack. Additionally, the paper introduces the SE module to fuse the watermarking information pixel-wise and channel dimensions-wise, improving the encoder's efficiency. Experimental results show that our proposed method is comparable to existing models and outperforms state-of-the-art under different noise intensities. In addition, ablation experiments show the superiority of our proposed module. | 翻訳日:2024-05-09 14:05:10 公開日:2024-05-08 |
# 自動運転の職業認知に関する調査研究:情報融合の視点から
A Survey on Occupancy Perception for Autonomous Driving: The Information Fusion Perspective ( http://arxiv.org/abs/2405.05173v1 ) ライセンス: Link先を確認 | Huaiyuan Xu, Junliang Chen, Shiyu Meng, Yi Wang, Lap-Pui Chau, | (参考訳) 3D占有感技術は、自動運転車の密集した3D環境を観察し理解することを目的としている。
包括的な認識能力のため、この技術は自律運転認識システムのトレンドとして現れており、産業と学術の両方から大きな注目を集めている。
従来の鳥眼視(BEV)と同様に、3D占有感は多ソース入力の性質と情報融合の必要性を持っている。
しかし、違いは2次元のBEVによって無視される垂直構造を捉えることである。
本稿では,3次元占有感に関する最近の研究を概観し,様々な入力モダリティを持つ方法論の詳細な分析を行う。
具体的には、一般的なネットワークパイプラインを要約し、情報融合技術を強調し、効果的なネットワークトレーニングについて議論する。
我々は,最もポピュラーなデータセット上での最先端技術の占有感性能を評価し,分析する。
さらに,課題と今後の研究方向性についても論じる。
このレポートがコミュニティを刺激し、3D占有感に関するさらなる研究作業を促進することを願っている。
この調査の包括的な研究リストは、最新の成果を継続的に収集するアクティブリポジトリで公開されている。
3D occupancy perception technology aims to observe and understand dense 3D environments for autonomous vehicles. Owing to its comprehensive perception capability, this technology is emerging as a trend in autonomous driving perception systems, and is attracting significant attention from both industry and academia. Similar to traditional bird's-eye view (BEV) perception, 3D occupancy perception has the nature of multi-source input and the necessity for information fusion. However, the difference is that it captures vertical structures that are ignored by 2D BEV. In this survey, we review the most recent works on 3D occupancy perception, and provide in-depth analyses of methodologies with various input modalities. Specifically, we summarize general network pipelines, highlight information fusion techniques, and discuss effective network training. We evaluate and analyze the occupancy perception performance of the state-of-the-art on the most popular datasets. Furthermore, challenges and future research directions are discussed. We hope this report will inspire the community and encourage more research work on 3D occupancy perception. A comprehensive list of studies in this survey is available in an active repository that continuously collects the latest work: https://github.com/HuaiyuanXu/3D-Occupancy-Perception. | 翻訳日:2024-05-09 14:05:10 公開日:2024-05-08 |
# Air Gap: プライバシーに配慮した会話エージェントを保護する
Air Gap: Protecting Privacy-Conscious Conversational Agents ( http://arxiv.org/abs/2405.05175v1 ) ライセンス: Link先を確認 | Eugene Bagdasaryan, Ren Yi, Sahra Ghalebikesabi, Peter Kairouz, Marco Gruteser, Sewoong Oh, Borja Balle, Daniel Ramage, | (参考訳) 機密性の高いユーザデータを管理するために,大規模言語モデル(LLM)ベースの会話エージェントの利用が増加し,プライバシの懸念が高まっている。
これらのエージェントはコンテキストの理解と行動に優れていますが、悪意のあるアクターによって悪用することができます。
敵のサードパーティアプリがインタラクションのコンテキストを操作して,LDMベースのエージェントを騙して,そのタスクに関係のない個人情報を明らかにする,新たな脅威モデルを導入する。
コンテキスト整合性の枠組みに基づいて,特定のタスクに必要なデータのみへのアクセスを制限することにより,意図しないデータ漏洩を防止するために設計されたプライバシ意識エージェントであるAirGapAgentを紹介する。
Gemini、GPT、Mistralをエージェントとして使用した大規模な実験は、コアエージェント機能を維持しながら、この形式のコンテキストハイジャックを緩和するアプローチの有効性を検証する。
例えば、Gemini Ultraエージェントに対する単一クエリのコンテキストハイジャック攻撃は、ユーザデータを94%から45%に保護する能力を低下させ、AirGapAgentは97%の保護を達成し、同じ攻撃を非効率にすることを示した。
The growing use of large language model (LLM)-based conversational agents to manage sensitive user data raises significant privacy concerns. While these agents excel at understanding and acting on context, this capability can be exploited by malicious actors. We introduce a novel threat model where adversarial third-party apps manipulate the context of interaction to trick LLM-based agents into revealing private information not relevant to the task at hand. Grounded in the framework of contextual integrity, we introduce AirGapAgent, a privacy-conscious agent designed to prevent unintended data leakage by restricting the agent's access to only the data necessary for a specific task. Extensive experiments using Gemini, GPT, and Mistral models as agents validate our approach's effectiveness in mitigating this form of context hijacking while maintaining core agent functionality. For example, we show that a single-query context hijacking attack on a Gemini Ultra agent reduces its ability to protect user data from 94% to 45%, while an AirGapAgent achieves 97% protection, rendering the same attack ineffective. | 翻訳日:2024-05-09 14:05:10 公開日:2024-05-08 |
# 制御可能な高品質リズム生成を伴う対話型自由動詞のためのエンコーダデコーダフレームワーク
Encoder-Decoder Framework for Interactive Free Verses with Generation with Controllable High-Quality Rhyming ( http://arxiv.org/abs/2405.05176v1 ) ライセンス: Link先を確認 | Tommaso Pasini, Alejo López-Ávila, Husam Quteineh, Gerasimos Lampouras, Jinhua Du, Yubing Wang, Ze Li, Yusen Sun, | (参考訳) 詩や歌詞の作曲にはいくつかの創造的な要素が伴うが、生成の挑戦的な側面は、多かれ少なかれ厳格な韻律と韻律のパターンに固執することである。
この課題に対処するために、タスクの以前の研究は主にリバース言語モデリングに焦点を当てており、各韻律語の批判的な選択を各詩の前面にもたらす。
一方、語順を逆転させるには、このタスク固有の目標をゼロからトレーニングすることが必要であり、事前訓練された言語モデル(PLM)からの変換学習を活用できない。
本稿では,各歌詞の開始時に韻律語を付加する新たな微調整手法を提案する。これは,モデルが歌詞の内容にコミットする前に(逆言語モデリングのように)重要な韻律決定を行うことができるが,歌詞自体が左から右の順に生成されているため,通常のPLMの単語順序との整合性は維持される。
我々は、この微調整を現在の韻律の最先端戦略と比較するために広範囲な実験を行い、我々のアプローチがより読みやすいテキストとより優れた韻律能力を生み出すことを発見した。
さらに、英語や他の12言語で高品質なデータセットを作成し、多言語文脈におけるアプローチの実現可能性を分析し、歌詞生成のための良いプラクティスと悪いプラクティスに光を当てた広範な実験結果を提供し、将来的な手法の比較のためのメトリクスを提案する。
Composing poetry or lyrics involves several creative factors, but a challenging aspect of generation is the adherence to a more or less strict metric and rhyming pattern. To address this challenge specifically, previous work on the task has mainly focused on reverse language modeling, which brings the critical selection of each rhyming word to the forefront of each verse. On the other hand, reversing the word order requires that models be trained from scratch with this task-specific goal and cannot take advantage of transfer learning from a Pretrained Language Model (PLM). We propose a novel fine-tuning approach that prepends the rhyming word at the start of each lyric, which allows the critical rhyming decision to be made before the model commits to the content of the lyric (as during reverse language modeling), but maintains compatibility with the word order of regular PLMs as the lyric itself is still generated in left-to-right order. We conducted extensive experiments to compare this fine-tuning against the current state-of-the-art strategies for rhyming, finding that our approach generates more readable text and better rhyming capabilities. Furthermore, we furnish a high-quality dataset in English and 12 other languages, analyse the approach's feasibility in a multilingual context, provide extensive experimental results shedding light on good and bad practices for lyrics generation, and propose metrics to compare methods in the future. | 翻訳日:2024-05-09 14:05:10 公開日:2024-05-08 |
# 機械学習による海進物体の動的分類
Machine Learning Assisted Dynamical Classification of Trans-Neptunian Objects ( http://arxiv.org/abs/2405.05185v1 ) ライセンス: Link先を確認 | Kathryn Volk, Renu Malhotra, | (参考訳) TNO(Trans-Neptunian objects)は、太陽系外惑星の小さな氷の天体である。
それらは、初期の動的歴史と巨大惑星の移動によって形成された複雑な軌道分布を持っていることが観察されている。
モデル化されたTNOと観測されたTNOの異なる力学クラスの比較は、太陽系外惑星の歴史を制約する助けとなる。
TNOの複雑なダイナミクス、特に海王星と海王星の前後の平均運動共鳴のため、伝統的に軌道パラメータの時間進化のプロットを人間の検査によって分類されてきた。
これは非常に非効率です。
Vera Rubin Observatory's Legacy Survey of Space and Time (LSST) は、既知のTNOの数を$\sim$10に増やし、より自動化されたプロセスを必要とすると予測されている。
本章では,TNOに対する教師付き機械学習分類器の改良について述べる。
大規模で多様なトレーニングセットと、慎重に選択されたTNO軌道の数値積分から計算された動的モチベーション付きデータ特徴を用いて、分類器は、人間の分類器の98%と、その時間の99.7%を動的に関連づけた分類結果を返す。
この分類器は人間の分類よりも劇的に効率的であり、観測されたTNOデータとモデル化されたTNOデータの分類を改善する。
Trans-Neptunian objects (TNOs) are small, icy bodies in the outer solar system. They are observed to have a complex orbital distribution that was shaped by the early dynamical history and migration of the giant planets. Comparisons between the different dynamical classes of modeled and observed TNOs can help constrain the history of the outer solar system. Because of the complex dynamics of TNOs, particularly those in and near mean motion resonances with Neptune, classification has traditionally been done by human inspection of plots of the time evolution of orbital parameters. This is very inefficient. The Vera Rubin Observatory's Legacy Survey of Space and Time (LSST) is expected to increase the number of known TNOs by a factor of $\sim$10, necessitating a much more automated process. In this chapter we present an improved supervised machine learning classifier for TNOs. Using a large and diverse training set as well as carefully chosen, dynamically motivated data features calculated from numerical integrations of TNO orbits, our classifier returns results that match those of a human classifier 98% of the time, and dynamically relevant classifications 99.7% of the time. This classifier is dramatically more efficient than human classification, and it will improve classification of both observed and modeled TNO data. | 翻訳日:2024-05-09 14:05:10 公開日:2024-05-08 |
# 楽譜に基づく等質ランダウ方程式の粒子法
A score-based particle method for homogeneous Landau equation ( http://arxiv.org/abs/2405.05187v1 ) ライセンス: Link先を確認 | Yan Huang, Li Wang, | (参考訳) 本研究では,プラズマ中でのランダウ方程式の解法として,構造保存粒子法 [arXiv:1910.03080] と学習をシームレスに統合する新しいスコアベース粒子法を提案する。
ランダウ方程式のラグランジュ的視点に基づいて、中心的挑戦は密度に対する速度場の非線形依存から生じる。
我々の主要な革新は、この非線形性がスコア関数の形式であり、スコアマッチングの技法によって動的に近似することができることを認識することである。
その結果,[arXiv:1910.03080]におけるカーネル密度推定の必要性をサイドステッピングしながら, 決定論的粒子法の保存性を継承した。
これにより計算が合理化され、次元によるスケーラビリティが向上する。
さらに,我々の近似と真の解とのKL分散が,スコアマッチング損失によって効果的に制御可能であることを示すことによって,理論的推定を行う。
さらに,フローマップの視点を取り入れることで,精度の高い密度計算の更新式を導出する。
クーロン相互作用の物理的ケースを含む、この手法の効率を示す広範な例が提供されている。
We propose a novel score-based particle method for solving the Landau equation in plasmas, that seamlessly integrates learning with structure-preserving particle methods [arXiv:1910.03080]. Building upon the Lagrangian viewpoint of the Landau equation, a central challenge stems from the nonlinear dependence of the velocity field on the density. Our primary innovation lies in recognizing that this nonlinearity is in the form of the score function, which can be approximated dynamically via techniques from score-matching. The resulting method inherits the conservation properties of the deterministic particle method while sidestepping the necessity for kernel density estimation in [arXiv:1910.03080]. This streamlines computation and enhances scalability with dimensionality. Furthermore, we provide a theoretical estimate by demonstrating that the KL divergence between our approximation and the true solution can be effectively controlled by the score-matching loss. Additionally, by adopting the flow map viewpoint, we derive an update formula for exact density computation. Extensive examples have been provided to show the efficiency of the method, including a physically relevant case of Coulomb interaction. | 翻訳日:2024-05-09 14:05:10 公開日:2024-05-08 |
# MIDGARD:構造化コモンセンス推論のための最小記述長を用いた自己整合性
MIDGARD: Self-Consistency Using Minimum Description Length for Structured Commonsense Reasoning ( http://arxiv.org/abs/2405.05189v1 ) ライセンス: Link先を確認 | Inderjeet Nair, Lu Wang, | (参考訳) 本研究では,大規模言語モデル(LLM)を用いた自然言語入力から推論グラフを生成するための構造化推論の課題について検討する。
従来の手法では様々なプロンプト方式が検討されてきたが、自己回帰性や誤り訂正能力に欠けるシングルパスによる復号化によるエラー伝播に悩まされている。
さらに、単一のサンプルのみに依存すると、真のノードとエッジが省略される可能性がある。
これに対抗するために我々は,多種多様な推論チェーンをサンプリングし,多数決を最終回答とする自己整合性(SC)からインスピレーションを得ている。
生成したグラフにSCを適用する上で,MDL(Minimum Description Length)に基づく定式化を利用したMDDGARD(MInimum Description length Guided Aggregation of Reasoning in Directed acyclic graph)を提案する。
この定式化は、誤っている可能性がある少数のサンプルにしか現れない性質を拒絶するのに役立つが、精度を損なうことなく、欠落した要素を包含できる。
提案手法は, 議論構造抽出, 説明グラフ生成, 日常タスクの動作間の依存性関係の推測, 自然テキストからのセマンティックグラフ生成など, 様々な構造的推論タスクの比較よりも優れた性能を示す。
We study the task of conducting structured reasoning as generating a reasoning graph from natural language input using large language models (LLMs). Previous approaches have explored various prompting schemes, yet they suffer from error propagation due to the autoregressive nature and single-pass-based decoding, which lack error correction capability. Additionally, relying solely on a single sample may result in the omission of true nodes and edges. To counter this, we draw inspiration from self-consistency (SC), which involves sampling a diverse set of reasoning chains and taking the majority vote as the final answer. To tackle the substantial challenge of applying SC on generated graphs, we propose MIDGARD (MInimum Description length Guided Aggregation of Reasoning in Directed acyclic graph) that leverages Minimum Description Length (MDL)-based formulation to identify consistent properties among the different graph samples generated by an LLM. This formulation helps reject properties that appear in only a few samples, which are likely to be erroneous, while enabling the inclusion of missing elements without compromising precision. Our method demonstrates superior performance than comparisons across various structured reasoning tasks, including argument structure extraction, explanation graph generation, inferring dependency relations among actions for everyday tasks, and semantic graph generation from natural texts. | 翻訳日:2024-05-09 14:05:10 公開日:2024-05-08 |
# トランスダクティブ学習はPAC学習に等価か?
Is Transductive Learning Equivalent to PAC Learning? ( http://arxiv.org/abs/2405.05190v1 ) ライセンス: Link先を確認 | Shaddin Dughmi, Yusuf Kalayci, Grayson York, | (参考訳) 学習理論の領域におけるほとんどの研究は、効果的な確率的略正(PAC)学習者の設計に焦点を当てている。
近年,帰納的誤りなどの他の学習モデルはより精査されている。
我々は,これらの問題に対して,データセットに少数のサンプルを追加することで,PAC保証付き無知学習とトランスダクティブ保証付き無知学習を減らし,同値であることを示そうとしている。
Aden-Ali et al arXiv:2304.09167によるPAC学習を、より単純な手法で実現可能な実現性学習に還元する。
PAC変換技術は、上記の主張を無知のケースに拡張し、無知のトランスダクティブ学習者が効率よく無知のPAC学習者に変換可能であることを示す。
最後に、バイナリ分類のためのAsilis et al arXiv:2309.13692の非依存型1包含グラフアルゴリズムの性能を特徴付け、これを還元することにより、本質的に最適なPAC学習者となることを示す。
その結果,トランスダクティブ学習とPAC学習は,実現可能な環境における擬似的損失を伴う教師あり学習と,不可知な環境における二項分類に本質的に等価であることが示唆された。
我々はこれをより一般に無知の設定に対して当てはまると推測する。
Most work in the area of learning theory has focused on designing effective Probably Approximately Correct (PAC) learners. Recently, other models of learning such as transductive error have seen more scrutiny. We move toward showing that these problems are equivalent by reducing agnostic learning with a PAC guarantee to agnostic learning with a transductive guarantee by adding a small number of samples to the dataset. We first rederive the result of Aden-Ali et al. arXiv:2304.09167 reducing PAC learning to transductive learning in the realizable setting using simpler techniques and at more generality as background for our main positive result. Our agnostic transductive to PAC conversion technique extends the aforementioned argument to the agnostic case, showing that an agnostic transductive learner can be efficiently converted to an agnostic PAC learner. Finally, we characterize the performance of the agnostic one inclusion graph algorithm of Asilis et al. arXiv:2309.13692 for binary classification, and show that plugging it into our reduction leads to an agnostic PAC learner that is essentially optimal. Our results imply that transductive and PAC learning are essentially equivalent for supervised learning with pseudometric losses in the realizable setting, and for binary classification in the agnostic setting. We conjecture this is true more generally for the agnostic setting. | 翻訳日:2024-05-09 13:55:22 公開日:2024-05-08 |
# 非線形放物型PDEと無限活性PIDEのランダムディープスプリッティング法の完全誤差解析
Full error analysis of the random deep splitting method for nonlinear parabolic PDEs and PIDEs with infinite activity ( http://arxiv.org/abs/2405.05192v1 ) ライセンス: Link先を確認 | Ariel Neufeld, Philipp Schmocker, Sizhou Wu, | (参考訳) 本稿では,[Beck, Becker, Cheridito, Jentzen, Neufeld (2021)]で導入された,高次元非線形放物型PDEとPIDEの両方を(おそらく)無限活性のジャンプで解くのに適したランダムニューラルネットワークを用いて, ディープスプリッティングアルゴリズムをランダムに拡張した。
いわゆるランダムディープスプリッティング手法の完全な誤差解析を行う。
特に, 非線形PDE あるいは PIDE の (特異粘性) 解に, ランダムな深さ分割法が収束することを証明する。
さらに, 既定リスク下での金融デリバティブの価格設定に係わる非線形PDEと非線形PIDEの両方を含むいくつかの数値例を考慮し, ランダムなディープスプリッティング手法を実証的に分析した。
特に, ランダムな深層分割法は, 10 万次元の非線形 PDE と PIDE をほぼ1秒で解くことができることを実証的に示す。
In this paper, we present a randomized extension of the deep splitting algorithm introduced in [Beck, Becker, Cheridito, Jentzen, and Neufeld (2021)] using random neural networks suitable to approximately solve both high-dimensional nonlinear parabolic PDEs and PIDEs with jumps having (possibly) infinite activity. We provide a full error analysis of our so-called random deep splitting method. In particular, we prove that our random deep splitting method converges to the (unique viscosity) solution of the nonlinear PDE or PIDE under consideration. Moreover, we empirically analyze our random deep splitting method by considering several numerical examples including both nonlinear PDEs and nonlinear PIDEs relevant in the context of pricing of financial derivatives under default risk. In particular, we empirically demonstrate in all examples that our random deep splitting method can approximately solve nonlinear PDEs and PIDEs in 10'000 dimensions within seconds. | 翻訳日:2024-05-09 13:55:22 公開日:2024-05-08 |
# 身体的攻撃に対するランダム自己再現性の体系的利用
Systematic Use of Random Self-Reducibility against Physical Attacks ( http://arxiv.org/abs/2405.05193v1 ) ライセンス: Link先を確認 | Ferhat Erata, TingHung Chiu, Anthony Etim, Srilalith Nampally, Tejas Raju, Rajashree Ramu, Ruzica Piskac, Timos Antonopoulos, Wenjie Xiong, Jakub Szefer, | (参考訳) 本研究は,パワーサイドチャネルやフォールトインジェクション攻撃を含む物理攻撃に対する,ブラックボックスソフトウェアに基づく新しい対策を提案する。
このアプローチでは、ランダムな自己認識性と自己正当性の概念を使用して、保護のための実行にランダムさと冗長性を追加する。
我々のアプローチは操作レベルであり、アルゴリズム固有のものではないため、幅広いアルゴリズムを保護するために適用することができる。
この対策は、モジュラー指数、モジュラー乗算、多項式乗算、数論変換などの演算に対する攻撃に対して実験的に評価される。
RSA-CRTシグネチャアルゴリズムとKyber Key Generation公開鍵暗号システムに対して,この対策のエンドツーエンド実装を示す。
この対策により、電力側チャネルのリークを2桁の規模で低減し、TVLA分析において確実に安全なレベルまで低減した。
フォールトインジェクションでは、平均で95.4%まで減少する。
This work presents a novel, black-box software-based countermeasure against physical attacks including power side-channel and fault-injection attacks. The approach uses the concept of random self-reducibility and self-correctness to add randomness and redundancy in the execution for protection. Our approach is at the operation level, is not algorithm-specific, and thus, can be applied for protecting a wide range of algorithms. The countermeasure is empirically evaluated against attacks over operations like modular exponentiation, modular multiplication, polynomial multiplication, and number theoretic transforms. An end-to-end implementation of this countermeasure is demonstrated for RSA-CRT signature algorithm and Kyber Key Generation public key cryptosystems. The countermeasure reduced the power side-channel leakage by two orders of magnitude, to an acceptably secure level in TVLA analysis. For fault injection, the countermeasure reduces the number of faults to 95.4% in average. | 翻訳日:2024-05-09 13:55:22 公開日:2024-05-08 |
# SINBAD: 広告ブロッキングによる破損の正当性インフォームド検出
SINBAD: Saliency-informed detection of breakage caused by ad blocking ( http://arxiv.org/abs/2405.05196v1 ) ライセンス: Link先を確認 | Saiid El Hajj Chehade, Sandra Siby, Carmela Troncoso, | (参考訳) フィルタリストルールに基づくプライバシ強化ブロッキングツールは、正当な機能を損なう傾向がある。
フィルタリストのメンテナは、数百万のユーザにデプロイする前に、問題のあるルールを積極的に修正する自動破損検出ツールの恩恵を受けることができる。
SINBADは、最先端の精度を20%向上する自動破断検出装置であり、スタイル指向フィルタ規則による動的破断と破断を初めて検出する。
SINBAD の成功は,(1) 利用者が問題として認識しているような,高品質なデータセットの作成を可能にするフォーラムでのユーザ報告のブレークスルー問題の利用,(2) 破壊を誘発する自動化されたインタラクションを優先する Web サイトのユーザ関連領域を自動的に識別する 'web saliency' の使用,(3) 問題のあるフィルタルールのきめ細かい識別を可能にするサブツリーによるWebページの解析,という3つのイノベーションに根ざしている。
Privacy-enhancing blocking tools based on filter-list rules tend to break legitimate functionality. Filter-list maintainers could benefit from automated breakage detection tools that allow them to proactively fix problematic rules before deploying them to millions of users. We introduce SINBAD, an automated breakage detector that improves the accuracy over the state of the art by 20%, and is the first to detect dynamic breakage and breakage caused by style-oriented filter rules. The success of SINBAD is rooted in three innovations: (1) the use of user-reported breakage issues in forums that enable the creation of a high-quality dataset for training in which only breakage that users perceive as an issue is included; (2) the use of 'web saliency' to automatically identify user-relevant regions of a website on which to prioritize automated interactions aimed at triggering breakage; and (3) the analysis of webpages via subtrees which enables fine-grained identification of problematic filter rules. | 翻訳日:2024-05-09 13:55:22 公開日:2024-05-08 |
# カスケード非線形光学プロセスによるマルチモード振幅スクイーズ
Multimode amplitude squeezing through cascaded nonlinear optical processes ( http://arxiv.org/abs/2405.05201v1 ) ライセンス: Link先を確認 | Sahil Pontula, Yannick Salamin, Charles Roques-Carmes, Marin Soljacic, | (参考訳) マルチモード圧縮光は、分光のための周波数コムの圧縮から光コンピューティングにおける信号多重化に至るまで、いくつかの用途に注目されている。
複数の周波数モードでスキューズを生成するために、光パラメトリック発振器は2次非線形過程を通じて多重モード圧縮真空状態を実現するのに不可欠である。
しかしながら、ほとんどの研究は、マルチモード圧縮された真空を生成し、モード重ね合わせ(スーパーモーズ)でスクイーズすることに焦点を当てている。
複数の離散周波数モードでブライトスキューズすることで、量子強化分光法や光量子コンピューティングにおける新しい応用を解き放つことができる。
ここでは、カスケード3波混合プロセスによる多モード非線形キャビティのQ$因子工学が、ショットノイズ限界以下10dB以上の強いスペクトル調整可能な単一モード出力振幅ノイズをいかに生み出すかを示す。
さらに、閾値以上の複数の離散周波数モードのスクイーズを実演する。
この輝きは、単一のアイドラー「バス」モードにおける光子のカスケード生成による系の崩壊率に対する(ノイズのない)非線形速度の増大によって生じる。
我々の系における強い非線形結合の自然な結果は、モーダルエネルギー分布におけるブロッホ振動を持続する合成周波数次元における有効空洞を作ることである。
ブロッホモード工学は、量子ランダムウォークとトポロジカルフォトニクスのエキサイティングな応用により、合成周波数次元における非線形エネルギーフローをよりよく制御する機会を与える。
最後に、離散周波数モード間の振幅雑音における長距離相関の証拠を示し、合成周波数次元における長距離絡みの可能性を示す。
Multimode squeezed light is enticing for several applications, from squeezed frequency combs for spectroscopy to signal multiplexing in optical computing. To generate squeezing in multiple frequency modes, optical parametric oscillators have been vital in realizing multimode squeezed vacuum states through second-order nonlinear processes. However, most work has focused on generating multimode squeezed vacua and squeezing in mode superpositions (supermodes). Bright squeezing in multiple discrete frequency modes, if realized, could unlock novel applications in quantum-enhanced spectroscopy and optical quantum computing. Here, we show how $Q$ factor engineering of a multimode nonlinear cavity with cascaded three wave mixing processes creates strong, spectrally tunable single mode output amplitude noise squeezing over 10 dB below the shot noise limit. In addition, we demonstrate squeezing for multiple discrete frequency modes above threshold. This bright squeezing arises from enhancement of the (noiseless) nonlinear rate relative to decay rates in the system due to the cascaded generation of photons in a single idler "bath" mode. A natural consequence of the strong nonlinear coupling in our system is the creation of an effective cavity in the synthetic frequency dimension that sustains Bloch oscillations in the modal energy distribution. Bloch mode engineering could provide an opportunity to better control nonlinear energy flow in the synthetic frequency dimension, with exciting applications in quantum random walks and topological photonics. Lastly, we show evidence of long-range correlations in amplitude noise between discrete frequency modes, pointing towards the potential of long-range entanglement in a synthetic frequency dimension. | 翻訳日:2024-05-09 13:55:22 公開日:2024-05-08 |
# 部分モジュラー最大化のためのガイド付き組合せアルゴリズム
Guided Combinatorial Algorithms for Submodular Maximization ( http://arxiv.org/abs/2405.05202v1 ) ライセンス: Link先を確認 | Yixin Chen, Ankur Nath, Chunli Peng, Alan Kuhnle, | (参考訳) 制約のある、必ずしも単調な部分モジュラー最大化の場合、測定された連続グリードアルゴリズムを局所探索アルゴリズムで導くことは、現在、0.401 \citep{buchbinder2023 Constrained} の最先端近似係数を得る。
これらのアルゴリズムは、部分モジュラー集合関数の多重線型拡張とロバスツ拡張に依存している。
しかし、組合せアルゴリズムの最先端近似係数は1/e \approx 0.367$ \citep{buchbinder2014submodular} のままである。
本研究では、導出された連続グリーディアルゴリズムの組合せアナログを開発し、サイズ制約のための部分モジュラー集合関数に対する近似比が0.385$ in $\oh{ kn }$クエリ、一般のマトロイド制約に対して0.305$を得る。
さらに、これらのアルゴリズムをデランドマイズし、同じ比率と漸近時間の複雑さを維持する。
最後に,その比が0.377$である決定論的ほぼ線形時間アルゴリズムを開発した。
For constrained, not necessarily monotone submodular maximization, guiding the measured continuous greedy algorithm with a local search algorithm currently obtains the state-of-the-art approximation factor of 0.401 \citep{buchbinder2023constrained}. These algorithms rely upon the multilinear extension and the Lovasz extension of a submodular set function. However, the state-of-the-art approximation factor of combinatorial algorithms has remained $1/e \approx 0.367$ \citep{buchbinder2014submodular}. In this work, we develop combinatorial analogues of the guided measured continuous greedy algorithm and obtain approximation ratio of $0.385$ in $\oh{ kn }$ queries to the submodular set function for size constraint, and $0.305$ for a general matroid constraint. Further, we derandomize these algorithms, maintaining the same ratio and asymptotic time complexity. Finally, we develop a deterministic, nearly linear time algorithm with ratio $0.377$. | 翻訳日:2024-05-09 13:55:22 公開日:2024-05-08 |
# CARE-SD:電子健康記録におけるスティグマタイズと疑わしいマーカーラベルの認識と排除のための分類器に基づく分析:モデル開発と検証
CARE-SD: Classifier-based analysis for recognizing and eliminating stigmatizing and doubt marker labels in electronic health records: model development and validation ( http://arxiv.org/abs/2405.05204v1 ) ライセンス: Link先を確認 | Drew Walker, Annie Thorne, Sudeshna Das, Jennifer Love, Hannah LF Cooper, Melvin Livingston III, Abeed Sarker, | (参考訳) 目的: 自然言語処理技術を用いて集中治療用電子健康記録(EHR)において, 偏在言語の特徴を検出し, 分類する。
資料と方法:我々はまず,患者のラベル,疑わしいマーカー,EHR内での引用文など,言語的特徴を示す文献駆動の語句から辞書と正規表現のリストを作成した。
辞書はWord2VecとGPT 3.5を使ってさらに拡張され、人間の評価によって洗練された。
これらの辞書は、特定されていない医療情報マート(MIMIC-III)データセットから1800万文にわたる一致を検索するために使用された。
各言語バイアスの特徴について,1000の文一致をサンプリングし,専門臨床および公衆衛生アノテータによってラベル付けし,教師付き学習分類器に使用した。
結果: 拡張された文献ステムワードリストによる語彙発達の結果, 58の表現を含む疑わしいマーカー辞書, 127の表現を含むスティグマタイズラベル辞書が得られた。
疑わしいマーカーとスティグマティフィケーションラベルの分類器は、.84と.79のマクロF1スコア、.71から.86の正ラベルのリコールと精度値、人間のアノテータ合意(.87)と密接に一致した精度で最高性能を示した。
考察: 本研究は, 医療用テキスト中の発語ラベルと疑わしいマーカーを自動的に識別する上で, 教師付き分類器の有効性を実証し, EHR設定における言語使用の傾向を明らかにした。
ラベル付きデータを追加することで、より少ない引用モデルのパフォーマンスが向上する可能性がある。
結論: 本研究で開発された分類器は, 高いモデル性能を示し, 医療システムにおける分類ラベルや疑わしいマーカーを減らすために, パターンや標的介入の識別に応用できる。
Objective: To detect and classify features of stigmatizing and biased language in intensive care electronic health records (EHRs) using natural language processing techniques. Materials and Methods: We first created a lexicon and regular expression lists from literature-driven stem words for linguistic features of stigmatizing patient labels, doubt markers, and scare quotes within EHRs. The lexicon was further extended using Word2Vec and GPT 3.5, and refined through human evaluation. These lexicons were used to search for matches across 18 million sentences from the de-identified Medical Information Mart for Intensive Care-III (MIMIC-III) dataset. For each linguistic bias feature, 1000 sentence matches were sampled, labeled by expert clinical and public health annotators, and used to supervised learning classifiers. Results: Lexicon development from expanded literature stem-word lists resulted in a doubt marker lexicon containing 58 expressions, and a stigmatizing labels lexicon containing 127 expressions. Classifiers for doubt markers and stigmatizing labels had the highest performance, with macro F1-scores of .84 and .79, positive-label recall and precision values ranging from .71 to .86, and accuracies aligning closely with human annotator agreement (.87). Discussion: This study demonstrated the feasibility of supervised classifiers in automatically identifying stigmatizing labels and doubt markers in medical text, and identified trends in stigmatizing language use in an EHR setting. Additional labeled data may help improve lower scare quote model performance. Conclusions: Classifiers developed in this study showed high model performance and can be applied to identify patterns and target interventions to reduce stigmatizing labels and doubt markers in healthcare systems. | 翻訳日:2024-05-09 13:55:22 公開日:2024-05-08 |
# 分子特性予測のためのハイブリッド量子グラフニューラルネットワーク
Hybrid Quantum Graph Neural Network for Molecular Property Prediction ( http://arxiv.org/abs/2405.05205v1 ) ライセンス: Link先を確認 | Michael Vitz, Hamed Mohammadbagherpoor, Samarth Sandeep, Andrew Vlasic, Richard Padbury, Anh Pham, | (参考訳) 材料設計のプロセスを促進するため、材料科学は収集されたデータから情報を取り出すためにデータ駆動技術を用いてきた。
特に、機械学習(ML)アルゴリズムはMLの分野にまたがって、量子力学理論の明示的な計算と同様の精度で材料の様々な特性を予測できるが、実行時間や計算資源は大幅に削減されている。
機械学習の分野において、グラフニューラルネットワークが重要なアルゴリズムとして登場したのは、物質や分子ディスクリプタのグラフ表現に基づいて、グラフに埋め込まれた情報の集約によって、より高度な学習能力を持つため、幅広い物理的、化学的、電子的な特性を正確に予測できるためである。
最先端の古典的機械学習アプリケーションの開発と並行して、量子コンピューティングと機械学習の融合は、従来の機械学習モデルを量子層で拡張し、高次元データをより効率的にエンコードできる新しいパラダイムを生み出した。
既存のアルゴリズムを応用して,ペロブスカイト材料の形成エネルギーを予測するために,一意かつ新しい勾配のない量子古典畳み込みグラフニューラルネットワーク(HyQCGNN)を開発した。
我々のハイブリッド統計モデルの性能は、古典的な畳み込みグラフニューラルネットワークと、XGBoostのような古典的な機械学習アルゴリズムから得られる結果と競合する。
その結果、量子特徴符号化とパラメトリック量子回路がグラフニューラルネットワークのような複雑なMLアルゴリズムを大幅に改善する方法について、新たな経路が示唆された。
To accelerate the process of materials design, materials science has increasingly used data driven techniques to extract information from collected data. Specially, machine learning (ML) algorithms, which span the ML discipline, have demonstrated ability to predict various properties of materials with the level of accuracy similar to explicit calculation of quantum mechanical theories, but with significantly reduced run time and computational resources. Within ML, graph neural networks have emerged as an important algorithm within the field of machine learning, since they are capable of predicting accurately a wide range of important physical, chemical and electronic properties due to their higher learning ability based on the graph representation of material and molecular descriptors through the aggregation of information embedded within the graph. In parallel with the development of state of the art classical machine learning applications, the fusion of quantum computing and machine learning have created a new paradigm where classical machine learning model can be augmented with quantum layers which are able to encode high dimensional data more efficiently. Leveraging the structure of existing algorithms, we developed a unique and novel gradient free hybrid quantum classical convoluted graph neural network (HyQCGNN) to predict formation energies of perovskite materials. The performance of our hybrid statistical model is competitive with the results obtained purely from a classical convoluted graph neural network, and other classical machine learning algorithms, such as XGBoost. Consequently, our study suggests a new pathway to explore how quantum feature encoding and parametric quantum circuits can yield drastic improvements of complex ML algorithm like graph neural network. | 翻訳日:2024-05-09 13:55:22 公開日:2024-05-08 |
# 認証透明性ログにおける異常検出
Anomaly Detection in Certificate Transparency Logs ( http://arxiv.org/abs/2405.05206v1 ) ライセンス: Link先を確認 | Richard Ostertág, Martin Stanek, | (参考訳) 隔離林を利用したX.509証明書の異常検出手法を提案する。
この方法は、X.509リンタによるコンプライアンステストが不満足であることが証明された場合に有効であり、標準コンプライアンスを超える異常を識別する。
このテクニックは、Certificate Transparencyログの証明書のサンプルで検証されている。
We propose an anomaly detection technique for X.509 certificates utilizing Isolation Forest. This method can be beneficial when compliance testing with X.509 linters proves unsatisfactory, and we seek to identify anomalies beyond standards compliance. The technique is validated on a sample of certificates from Certificate Transparency logs. | 翻訳日:2024-05-09 13:55:22 公開日:2024-05-08 |
# ソフトウェア工学教育におけるゲーミフィケーション : 第3次研究
Gamification in Software Engineering Education: a Tertiary Study ( http://arxiv.org/abs/2405.05209v1 ) ライセンス: Link先を確認 | Simone Tonhão, Marcelo Shigenaga, Julio Herculani, Andressa Medeiros, Aline Amaral, Williamson Silva, Thelma Colanzi, Igor Steinmacher, | (参考訳) ソフトウェア工学(SE)のプロフェッショナルの重要性が業界で成長し続けており、ゲーム由来の要素によってクラスの魅力を高める可能性から、トレーニング目的のゲーミフィケーション技術の採用が勢いを増している。
本稿では,ソフトウェア工学(SE)教育におけるゲーミフィケーションの適用について,第3次研究について述べる。
本研究は,近年の体系的な文献レビューや地図作成に応えて行われた。
この結果によると、SEの最も頻繁にゲーミフィケーションされる領域は、ソフトウェアテスティングとソフトウェア品質であり、競争と協力が最も一般的に利用されているゲーミフィケーション要素であることがわかった。
さらに,ゲーム要素が学習環境の変更に使用される構造ゲーミフィケーションにも焦点が当てられている。
本研究は,SE学習プロセスを通じて,生徒のエンゲージメントとモチベーションを向上させるゲーム化の可能性を示すとともに,パフォーマンス向上やスキル開発,優れたSE実践の育成といった他の側面にも影響を及ぼすことを示した。
しかし、未計画で正しく適用されていないゲーミフィケーション対策がパフォーマンスとモチベーションを著しく低下させる可能性があるため、注意が必要である。
(ポルトガル語版) HTTP://doi.org/10.1145/3613372.3614193
As the significance of Software Engineering (SE) professionals continues to grow in the industry, the adoption of gamification techniques for training purposes has gained traction due to its potential to enhance class appeal through game-derived elements. This paper presents a tertiary study investigating the application of gamification in Software Engineering (SE) education. The study was conducted in response to recent systematic literature reviews and mappings on the topic. The findings reveal that the areas of SE most frequently gamified are Software Testing and Software Quality, with competition and cooperation being the most commonly utilized gamification elements. Additionally, the majority of studies focus on structural gamification, where game elements are employed to modify the learning environment without altering the content. The results demonstrate the potential of gamification to improve students' engagement and motivation throughout the SE learning process, while also impacting other aspects such as performance improvement, skill development, and fostering good SE practices. However, caution is advised as unplanned and incorrectly applied gamification measures may lead to significant declines in performance and motivation. (English Version of the paper in Portuguese available here: HTTP://doi.org/10.1145/3613372.3614193 | 翻訳日:2024-05-09 13:55:22 公開日:2024-05-08 |
# FinePOSE:拡散モデルによる微粒プロンプト駆動型3次元人物位置推定
FinePOSE: Fine-Grained Prompt-Driven 3D Human Pose Estimation via Diffusion Models ( http://arxiv.org/abs/2405.05216v1 ) ライセンス: Link先を確認 | Jinglin Xu, Yijie Guo, Yuxin Peng, | (参考訳) 3Dヒューマンポース推定(3D HPE)タスクは、3D空間における人間の関節座標を予測するために2D画像またはビデオを使用する。
近年のディープラーニングベースの手法の進歩にもかかわらず、彼らはアクセス可能なテキストと自然に実現可能な人間の知識を結合する能力をほとんど無視し、3D HPEタスクを導くための貴重な暗黙の監督を欠いている。
さらに、従来の取り組みでは、このタスクを人体全体の観点から研究し、異なる部位に隠されたきめ細かいガイダンスを無視することが多かった。
この目的のために,3次元HPEの拡散モデルに基づくファイングラインド・プロンプト駆動型デノイザを提案し,その名称を「textbf{FinePOSE}」とした。
1) 微粒な部分認識プロンプト学習(FPP)ブロックは、結合可能なテキストと、暗黙的なガイダンスをモデル化するための学習可能なプロンプトを持つ身体部分の自然に実現可能な知識を介して、きめ細かな部分認識プロンプトを構成する。
2) きめ細かいPrompt-pose Communication(FPC)ブロックは,学習したパートアウェアプロンプト間のきめ細かなコミュニケーションを確立し,デノナイジング品質の向上を図る。
3) プロンプト駆動型タイムスタンプスタイライズ(PTS)ブロックは,ノイズレベルに関連する学習した即時埋め込みと時間情報を統合し,各デノナイジングステップにおける適応調整を実現する。
パブリックな単一人のポーズ推定データセットに対する大規模な実験は、FinePOSEが最先端の手法より優れていることを示している。
我々はさらにFinePOSEを多人数のポーズ推定に拡張する。
EgoHumansデータセット上で平均34.3mmのMPJPEを取得することで、FinPOSEが複雑なマルチヒューマンシナリオに対処する可能性を実証することができる。
コードはhttps://github.com/PKU-ICST-MIPL/FinePOSE_CVPR2024で公開されている。
The 3D Human Pose Estimation (3D HPE) task uses 2D images or videos to predict human joint coordinates in 3D space. Despite recent advancements in deep learning-based methods, they mostly ignore the capability of coupling accessible texts and naturally feasible knowledge of humans, missing out on valuable implicit supervision to guide the 3D HPE task. Moreover, previous efforts often study this task from the perspective of the whole human body, neglecting fine-grained guidance hidden in different body parts. To this end, we present a new Fine-Grained Prompt-Driven Denoiser based on a diffusion model for 3D HPE, named \textbf{FinePOSE}. It consists of three core blocks enhancing the reverse process of the diffusion model: (1) Fine-grained Part-aware Prompt learning (FPP) block constructs fine-grained part-aware prompts via coupling accessible texts and naturally feasible knowledge of body parts with learnable prompts to model implicit guidance. (2) Fine-grained Prompt-pose Communication (FPC) block establishes fine-grained communications between learned part-aware prompts and poses to improve the denoising quality. (3) Prompt-driven Timestamp Stylization (PTS) block integrates learned prompt embedding and temporal information related to the noise level to enable adaptive adjustment at each denoising step. Extensive experiments on public single-human pose estimation datasets show that FinePOSE outperforms state-of-the-art methods. We further extend FinePOSE to multi-human pose estimation. Achieving 34.3mm average MPJPE on the EgoHumans dataset demonstrates the potential of FinePOSE to deal with complex multi-human scenarios. Code is available at https://github.com/PKU-ICST-MIPL/FinePOSE_CVPR2024. | 翻訳日:2024-05-09 13:55:22 公開日:2024-05-08 |
# Conv-Basis: 変圧器の効率的な注意推論と勾配計算のための新しいパラダイム
Conv-Basis: A New Paradigm for Efficient Attention Inference and Gradient Computation in Transformers ( http://arxiv.org/abs/2405.05219v1 ) ライセンス: Link先を確認 | Jiuxiang Gu, Yingyu Liang, Heshan Liu, Zhenmei Shi, Zhao Song, Junze Yin, | (参考訳) 大きな言語モデル(LLM)は世界を大きく変えました。
自己保持機構は、LSMにおけるトランスフォーマーの成功の鍵となる。
しかし、2次計算コスト$O(n^2)$から$n$の入力シーケンスは、より長いコンテキストにおいてさらなる改善とスケーラビリティの障害として悪名高い。
本研究では,注目行列の畳み込み様構造を利用して,畳み込み行列を用いた注目計算の効率的な近似法を開発する。
我々は、階数基底に類似した$\mathsf{conv}$基底系を提案し、この基底系において、下方三角形(アテンション)行列は常に$k$構造化畳み込み行列の和として分解可能であることを示す。
次に、注目行列を高速に$k$畳み込み行列に分解するアルゴリズムを設計する。
Fast Fourier Transforms (FFT)により、注目度は$O(knd \log n)$ timeで計算できる。
実際、$ d \ll n$ すなわち $d=3,072$ と $n=1,000,000$ が Gemma に対して成り立つ。
したがって、$kd = n^{o(1)}$の場合、我々のアルゴリズムはほぼ線形時間、すなわち$n^{1+o(1)}$を達成する。
さらに、注意 {\it training forward} と {\it backward gradient} も$n^{1+o(1)}$で計算できる。
我々のアプローチでは、$n \times n$ attention matrix を明示的に計算することができない。
さらに,アルゴリズムは任意の入力行列に作用する。
この作業は、アプリケーションがより長いコンテキストに到達できるように、トランスフォーマーにおける注意計算を加速するための新しいパラダイムを提供する。
Large Language Models (LLMs) have profoundly changed the world. Their self-attention mechanism is the key to the success of transformers in LLMs. However, the quadratic computational cost $O(n^2)$ to the length $n$ input sequence is the notorious obstacle for further improvement and scalability in the longer context. In this work, we leverage the convolution-like structure of attention matrices to develop an efficient approximation method for attention computation using convolution matrices. We propose a $\mathsf{conv}$ basis system, "similar" to the rank basis, and show that any lower triangular (attention) matrix can always be decomposed as a sum of $k$ structured convolution matrices in this basis system. We then design an algorithm to quickly decompose the attention matrix into $k$ convolution matrices. Thanks to Fast Fourier Transforms (FFT), the attention {\it inference} can be computed in $O(knd \log n)$ time, where $d$ is the hidden dimension. In practice, we have $ d \ll n$, i.e., $d=3,072$ and $n=1,000,000$ for Gemma. Thus, when $kd = n^{o(1)}$, our algorithm achieve almost linear time, i.e., $n^{1+o(1)}$. Furthermore, the attention {\it training forward} and {\it backward gradient} can be computed in $n^{1+o(1)}$ as well. Our approach can avoid explicitly computing the $n \times n$ attention matrix, which may largely alleviate the quadratic computational complexity. Furthermore, our algorithm works on any input matrices. This work provides a new paradigm for accelerating attention computation in transformers to enable their application to longer contexts. | 翻訳日:2024-05-09 13:55:22 公開日:2024-05-08 |
# Flashを想像してみましょう - 後方蒸留によるEmu拡散モデルの加速
Imagine Flash: Accelerating Emu Diffusion Models with Backward Distillation ( http://arxiv.org/abs/2405.05224v1 ) ライセンス: Link先を確認 | Jonas Kohler, Albert Pumarola, Edgar Schönfeld, Artsiom Sanakoyeu, Roshan Sumbaly, Peter Vajda, Ali Thabet, | (参考訳) 拡散モデルは強力な生成フレームワークであるが、高価な推論が伴う。
既存の加速法はしばしば画像の品質を損なうか、非常に低段階の状態で動作した場合に複雑な条件で失敗する。
本研究では,1段階から3段階の高忠実度多種多様な試料生成を実現するため,新しい蒸留フレームワークを提案する。
私たちのアプローチには3つの重要な要素があります。
一 生徒を自己の後方軌道で校正することにより、トレーニング・推論の相違を緩和する後方蒸留
(二)現在の段階に基づいて知識移転を動的に適応するシフトドレコンストラクション損失、及び
三 ノイズ補正 ノイズ予測における特異点に対処することにより、サンプル品質を向上させる推論時間技術。
実験により,提案手法は既存の競合相手に対して,定量的評価や人的評価において優れることを示した。
注目すべきなのは、3ステップのみを使用して教師モデルに匹敵するパフォーマンスを実現し、効率的な高品質な生成を可能にすることだ。
Diffusion models are a powerful generative framework, but come with expensive inference. Existing acceleration methods often compromise image quality or fail under complex conditioning when operating in an extremely low-step regime. In this work, we propose a novel distillation framework tailored to enable high-fidelity, diverse sample generation using just one to three steps. Our approach comprises three key components: (i) Backward Distillation, which mitigates training-inference discrepancies by calibrating the student on its own backward trajectory; (ii) Shifted Reconstruction Loss that dynamically adapts knowledge transfer based on the current time step; and (iii) Noise Correction, an inference-time technique that enhances sample quality by addressing singularities in noise prediction. Through extensive experiments, we demonstrate that our method outperforms existing competitors in quantitative metrics and human evaluations. Remarkably, it achieves performance comparable to the teacher model using only three denoising steps, enabling efficient high-quality generation. | 翻訳日:2024-05-09 13:55:22 公開日:2024-05-08 |
# 大規模機械通信におけるRACHトラフィック予測
RACH Traffic Prediction in Massive Machine Type Communications ( http://arxiv.org/abs/2405.05235v1 ) ライセンス: Link先を確認 | Hossein Mehri, Hao Chen, Hani Mehrpouyan, | (参考訳) 大規模機械型通信(mMTC)ネットワークにおけるイベント駆動バーストトラフィックの影響を効率的に管理し緩和する手段として,交通パターン予測が期待できるアプローチとして登場した。
しかし、イベント固有のランダム性のため、バーストトラフィックの正確な予測を実現することは自明な作業であり、これらの課題は、ライブネットワーク環境内で強化される。
したがって、ネットワークから継続的に収集されたデータを同調し、mMTCネットワークのバーストトラフィックを正確に予測できる軽量でアジャイルなフレームワークを設計する上で、魅力的な衝動がある。
本稿では,マルチチャネルALOHAネットワークにおけるバーストトラフィック予測に適した機械学習ベースのフレームワークを提案することにより,これらの課題に対処する。
提案する機械学習ネットワークは、長期短期記憶(LSTM)とフィードフォワードニューラルネットワーク(FFNN)層を備えたDenseNetから構成され、複雑なパターンをキャプチャする際の機械学習ネットワークのトレーニング能力を高める。
さらに,mMTCネットワークから頻繁に収集されるデータを活用することで,LSTMネットワークの状態を更新する,新しい低複雑さオンライン予測アルゴリズムを開発した。
シミュレーション結果と複雑性解析により,提案アルゴリズムの精度と複雑性の両面において優位性が示され,時間クリティカルなライブシナリオに適していることがわかった。
本研究では,単一基地局と数千のデバイスを異なるトラフィック発生特性を持つグループに編成したネットワーク上でのフレームワークの性能を評価する。
総合的な評価とシミュレーションにより,提案した機械学習手法は,システムに付加的な処理負荷を課すことなく,従来の手法と比較して,長期予測において驚くべき5,2\%の精度を達成できることが示唆された。
Traffic pattern prediction has emerged as a promising approach for efficiently managing and mitigating the impacts of event-driven bursty traffic in massive machine-type communication (mMTC) networks. However, achieving accurate predictions of bursty traffic remains a non-trivial task due to the inherent randomness of events, and these challenges intensify within live network environments. Consequently, there is a compelling imperative to design a lightweight and agile framework capable of assimilating continuously collected data from the network and accurately forecasting bursty traffic in mMTC networks. This paper addresses these challenges by presenting a machine learning-based framework tailored for forecasting bursty traffic in multi-channel slotted ALOHA networks. The proposed machine learning network comprises long-term short-term memory (LSTM) and a DenseNet with feed-forward neural network (FFNN) layers, where the residual connections enhance the training ability of the machine learning network in capturing complicated patterns. Furthermore, we develop a new low-complexity online prediction algorithm that updates the states of the LSTM network by leveraging frequently collected data from the mMTC network. Simulation results and complexity analysis demonstrate the superiority of our proposed algorithm in terms of both accuracy and complexity, making it well-suited for time-critical live scenarios. We evaluate the performance of the proposed framework in a network with a single base station and thousands of devices organized into groups with distinct traffic-generating characteristics. Comprehensive evaluations and simulations indicate that our proposed machine learning approach achieves a remarkable $52\%$ higher accuracy in long-term predictions compared to traditional methods, without imposing additional processing load on the system. | 翻訳日:2024-05-09 13:55:22 公開日:2024-05-08 |
# 離散時間ReLUリカレントニューラルネットワークの安定性と性能解析
Stability and Performance Analysis of Discrete-Time ReLU Recurrent Neural Networks ( http://arxiv.org/abs/2405.05236v1 ) ライセンス: Link先を確認 | Sahel Vahedi Noori, Bin Hu, Geir Dullerud, Peter Seiler, | (参考訳) 本稿では、ReLUアクティベーション機能付きリカレントニューラルネットワーク(RNN)の安定性と$\ell_2$-gein性能について述べる。
これらの条件は、リアプノフ/異方性理論と、繰り返しReLUによって満たされる二次制約(QC)を組み合わせることによって導かれる。
我々は、スカラーReLUの既知の特性を用いて、繰り返しRELUに対するQCの一般的なクラスを記述する。
我々の安定性と性能条件は、これらのQCとReLU RNNの"リフト"表現を使います。
本研究では、スカラー ReLU で満たされる正の均一性は、繰り返し ReLU に対して QC のクラスを拡大しないことを示す。
本稿では, 安定/性能条件を実証し, 昇降地平線の効果について検討する。
This paper presents sufficient conditions for the stability and $\ell_2$-gain performance of recurrent neural networks (RNNs) with ReLU activation functions. These conditions are derived by combining Lyapunov/dissipativity theory with Quadratic Constraints (QCs) satisfied by repeated ReLUs. We write a general class of QCs for repeated RELUs using known properties for the scalar ReLU. Our stability and performance condition uses these QCs along with a "lifted" representation for the ReLU RNN. We show that the positive homogeneity property satisfied by a scalar ReLU does not expand the class of QCs for the repeated ReLU. We present examples to demonstrate the stability / performance condition and study the effect of the lifting horizon. | 翻訳日:2024-05-09 13:55:22 公開日:2024-05-08 |
# EVA-X: 自己教師型学習による全身胸部X線解析の基礎モデル
EVA-X: A Foundation Model for General Chest X-ray Analysis with Self-supervised Learning ( http://arxiv.org/abs/2405.05237v1 ) ライセンス: Link先を確認 | Jingfeng Yao, Xinggang Wang, Yuehao Song, Huangxuan Zhao, Jun Ma, Yajie Chen, Wenyu Liu, Bo Wang, | (参考訳) 胸部疾患の診断と治療は、ヒトの健康維持に重要な役割を果たす。
X線検査は、その効率性と費用対効果により、最も一般的な臨床検査手段となった。
胸部X線画像の人工知能解析法は、アノテーションの不十分なデータと様々なレベルのアノテーションによって制限され、その結果、一般化能力の低下と臨床拡散の困難が生じる。
本稿では,様々な胸部疾患検出タスクに適用可能な,X線画像に基づく革新的な基礎モデルであるEVA-Xを提案する。
EVA-Xは、X線画像の普遍的な表現のために、ラベルのない画像から意味情報と幾何学的情報の両方をキャプチャできる、最初のX線画像に基づく自己教師付き学習法である。
広範な実験を通じて、EVA-Xは、胸部疾患解析および局所化において例外的な性能を示し、20の異なる胸部疾患にまたがる最初のモデルとなり、医療分野で11以上の異なる検出タスクを達成した。
さらに、EVA-Xは、医療AI分野におけるデータアノテーションの負担を大幅に減らし、少数ショット学習の領域における強力な可能性を示している。
EVA-Xの出現は、基礎医療モデルの開発と応用を大いに促進し、将来の医学研究と臨床実践に革命をもたらす。
私たちのコードとモデルについては、https://github.com/hustvl/EVA-X.comで公開しています。
The diagnosis and treatment of chest diseases play a crucial role in maintaining human health. X-ray examination has become the most common clinical examination means due to its efficiency and cost-effectiveness. Artificial intelligence analysis methods for chest X-ray images are limited by insufficient annotation data and varying levels of annotation, resulting in weak generalization ability and difficulty in clinical dissemination. Here we present EVA-X, an innovative foundational model based on X-ray images with broad applicability to various chest disease detection tasks. EVA-X is the first X-ray image based self-supervised learning method capable of capturing both semantic and geometric information from unlabeled images for universal X-ray image representation. Through extensive experimentation, EVA-X has demonstrated exceptional performance in chest disease analysis and localization, becoming the first model capable of spanning over 20 different chest diseases and achieving leading results in over 11 different detection tasks in the medical field. Additionally, EVA-X significantly reduces the burden of data annotation in the medical AI field, showcasing strong potential in the domain of few-shot learning. The emergence of EVA-X will greatly propel the development and application of foundational medical models, bringing about revolutionary changes in future medical research and clinical practice. Our codes and models are available at: https://github.com/hustvl/EVA-X. | 翻訳日:2024-05-09 13:45:01 公開日:2024-05-08 |
# オンライン予測アルゴリズムを用いたセルトラフィック予測
Cellular Traffic Prediction Using Online Prediction Algorithms ( http://arxiv.org/abs/2405.05239v1 ) ライセンス: Link先を確認 | Hossein Mehri, Hao Chen, Hani Mehrpouyan, | (参考訳) 5G技術の出現は、通信分野におけるパラダイムシフトを約束し、前例のないスピードと接続性を提供する。
しかし、5Gネットワークにおけるトラフィックの効率的な管理は依然として重要な課題である。
これは、ネットワークトラフィックの動的で異質な性質、多様なユーザ行動、拡張されたネットワークサイズ、および多様なアプリケーションにより、ネットワークリソースの割り当てと管理を最適化するために、高度に正確で適応可能な予測モデルを必要とするためである。
本稿では,リアルタイムシナリオにおけるセルラーネットワークトラフィック予測におけるライブ予測アルゴリズムの有効性について検討する。
機械学習モデルに2つのライブ予測アルゴリズムを適用し,その1つは最近提案されたFast LiveStream Prediction (FLSP)アルゴリズムである。
我々は,これらのアルゴリズムの性能を2つの異なるデータ収集手法で検証する:同期,全てのネットワークセルが同時に統計を報告する,非同期,連続するタイムスロット間で報告する。
本研究は,これらの収集シナリオが交通モデルの予測性能に与える影響について考察する。
本研究により,FLSPアルゴリズムは従来のオンライン予測アルゴリズムと比較して,非同期データレポートに必要な帯域幅を半減し,同時に予測精度を向上し,処理負荷を削減することができることがわかった。
さらに,アルゴリズムの複雑さとメモリ要件を,機械学習モデル全体にわたって徹底的に分析する。
実験的な評価を通じて、異なる予測戦略に固有のトレードオフに関する洞察を提供し、動的環境におけるネットワーク最適化と資源配分のための貴重なガイダンスを提供する。
The advent of 5G technology promises a paradigm shift in the realm of telecommunications, offering unprecedented speeds and connectivity. However, the efficient management of traffic in 5G networks remains a critical challenge. It is due to the dynamic and heterogeneous nature of network traffic, varying user behaviors, extended network size, and diverse applications, all of which demand highly accurate and adaptable prediction models to optimize network resource allocation and management. This paper investigates the efficacy of live prediction algorithms for forecasting cellular network traffic in real-time scenarios. We apply two live prediction algorithms on machine learning models, one of which is recently proposed Fast LiveStream Prediction (FLSP) algorithm. We examine the performance of these algorithms under two distinct data gathering methodologies: synchronous, where all network cells report statistics simultaneously, and asynchronous, where reporting occurs across consecutive time slots. Our study delves into the impact of these gathering scenarios on the predictive performance of traffic models. Our study reveals that the FLSP algorithm can halve the required bandwidth for asynchronous data reporting compared to conventional online prediction algorithms, while simultaneously enhancing prediction accuracy and reducing processing load. Additionally, we conduct a thorough analysis of algorithmic complexity and memory requirements across various machine learning models. Through empirical evaluation, we provide insights into the trade-offs inherent in different prediction strategies, offering valuable guidance for network optimization and resource allocation in dynamic environments. | 翻訳日:2024-05-09 13:45:01 公開日:2024-05-08 |
# クロマヒストグラム表現を用いたLSTMコード生成システム
An LSTM-Based Chord Generation System Using Chroma Histogram Representations ( http://arxiv.org/abs/2405.05240v1 ) ライセンス: Link先を確認 | Jack Hardwick, | (参考訳) 本稿では,コードの色調ヒストグラム表現を訓練したLSTMモデルを用いて,モノフォニックシンボリックメロディへのコード生成システムを提案する。
クロマ表現は、データセット内の少数の次元を維持しながら、コードラベルベースのアプローチよりも調和的にリッチな生成を約束する。
このシステムは、限られたリアルタイム利用に適していることが示されている。
コヒーレントな長期生成の最先端には達していないが、ケイデンシャルなコード関係を持つダイアトニック生成を示す。
コード生成タスクにおける抽出特徴としてのクロマヒストグラムのさらなる研究の必要性を強調した。
This paper proposes a system for chord generation to monophonic symbolic melodies using an LSTM-based model trained on chroma histogram representations of chords. Chroma representations promise more harmonically rich generation than chord label-based approaches, whilst maintaining a small number of dimensions in the dataset. This system is shown to be suitable for limited real-time use. While it does not meet the state-of-the-art for coherent long-term generation, it does show diatonic generation with cadential chord relationships. The need for further study into chroma histograms as an extracted feature in chord generation tasks is highlighted. | 翻訳日:2024-05-09 13:45:01 公開日:2024-05-08 |
# BenthicNet: ディープラーニングアプリケーションのための海底画像のグローバルコンパイル
BenthicNet: A global compilation of seafloor images for deep learning applications ( http://arxiv.org/abs/2405.05241v1 ) ライセンス: Link先を確認 | Scott C. Lowe, Benjamin Misiuk, Isaac Xu, Shakhboz Abdulazizov, Amit R. Baroi, Alex C. Bastos, Merlin Best, Vicki Ferrini, Ariell Friedman, Deborah Hart, Ove Hoegh-Guldberg, Daniel Ierodiaconou, Julia Mackin-McLaughlin, Kathryn Markey, Pedro S. Menandro, Jacquomo Monk, Shreya Nemani, John O'Brien, Elizabeth Oh, Luba Y. Reshitnyk, Katleen Robert, Chris M. Roelfsema, Jessica A. Sameoto, Alexandre C. G. Schimel, Jordan A. Thomson, Brittany R. Wilson, Melisa C. Wong, Craig J. Brown, Thomas Trappenberg, | (参考訳) 水中イメージングの進歩により、重要な底生生態系のモニタリングに必要な広範な海底画像データセットの収集が可能になる。
海底画像の収集能力は我々の分析能力を大きく上回っており、この重要な環境情報の頻繁な動員を妨げる。
最近の機械学習アプローチは、海底画像データセットを解析する効率を高める機会を提供するが、そのようなアプローチの開発を支援するのに必要な大規模で一貫したデータセットは乏しい。
本稿では,大規模な画像認識モデルの訓練と評価を支援するために設計された海底画像のグローバルコンパイルであるBenthicNetを紹介する。
最初の11.4万枚以上の画像が収集され、13万枚以上の画像からなる代表的サブセットを用いて海底環境の多様性を表現するためにキュレーションされた。
これらは、画像の190,000に及ぶCATAMIスキームに翻訳された260万のアノテーションを伴っている。
このコンパイルに基づいて大規模なディープラーニングモデルをトレーニングし,その予備的な結果から,大規模かつ小規模の画像解析タスクの自動化に有効であることが示唆された。
コンパイルとモデルは、科学コミュニティによってhttps://doi.org/10.20383/103.0614で公開されている。
Advances in underwater imaging enable the collection of extensive seafloor image datasets that are necessary for monitoring important benthic ecosystems. The ability to collect seafloor imagery has outpaced our capacity to analyze it, hindering expedient mobilization of this crucial environmental information. Recent machine learning approaches provide opportunities to increase the efficiency with which seafloor image datasets are analyzed, yet large and consistent datasets necessary to support development of such approaches are scarce. Here we present BenthicNet: a global compilation of seafloor imagery designed to support the training and evaluation of large-scale image recognition models. An initial set of over 11.4 million images was collected and curated to represent a diversity of seafloor environments using a representative subset of 1.3 million images. These are accompanied by 2.6 million annotations translated to the CATAMI scheme, which span 190,000 of the images. A large deep learning model was trained on this compilation and preliminary results suggest it has utility for automating large and small-scale image analysis tasks. The compilation and model are made openly available for use by the scientific community at https://doi.org/10.20383/103.0614. | 翻訳日:2024-05-09 13:45:01 公開日:2024-05-08 |
# 光の量子状態と古典状態の分類のためのディープラーニングに基づく変分オートエンコーダ
Deep learning-based variational autoencoder for classification of quantum and classical states of light ( http://arxiv.org/abs/2405.05243v1 ) ライセンス: Link先を確認 | Mahesh Bhupati, Abhishek Mall, Anshuman Kumar, Pankaj K. Jha, | (参考訳) 光量子技術の進歩は光の生成、操作、キャラクタリゼーションによって実現され、光子統計に基づく同定が行われた。
しかし、光とその源を単一の光子測定で特徴づけるには、高画質の光子統計を得るためには、しばしば効率的な検出器と長い測定時間が必要である。
本稿では,単光子付加コヒーレント状態(SPACS),単光子付加熱状態(SPACS),コヒーレント/SPACSと光の熱/SPATSの混合状態の分類を行う。
我々の半教師あり学習に基づくVAEは、光の光子統計特性を低次元に効率的にマッピングし、平均光子数が少ない準即時分類を可能にした。
提案手法はロバストで, 有限収集効率, 非均一量子効率, 有限検出器数などの実験に固有の損失の有無の分類精度を維持する。
さらに、VAEの転送学習能力を活用することで、単一のトレーニングモデルを使用して、あらゆる品質のデータ分類を成功させることができる。
このような深層学習手法により、検出品質が劣る場合でも、量子光と光源のより良い分類が可能になると期待する。
Advancements in optical quantum technologies have been enabled by the generation, manipulation, and characterization of light, with identification based on its photon statistics. However, characterizing light and its sources through single photon measurements often requires efficient detectors and longer measurement times to obtain high-quality photon statistics. Here we introduce a deep learning-based variational autoencoder (VAE) method for classifying single photon added coherent state (SPACS), single photon added thermal state (SPACS), mixed states between coherent/SPACS and thermal/SPATS of light. Our semisupervised learning-based VAE efficiently maps the photon statistics features of light to a lower dimension, enabling quasi-instantaneous classification with low average photon counts. The proposed VAE method is robust and maintains classification accuracy in the presence of losses inherent in an experiment, such as finite collection efficiency, non-unity quantum efficiency, finite number of detectors, etc. Additionally, leveraging the transfer learning capabilities of VAE enables successful classification of data of any quality using a single trained model. We envision that such a deep learning methodology will enable better classification of quantum light and light sources even in the presence of poor detection quality. | 翻訳日:2024-05-09 13:45:01 公開日:2024-05-08 |
# SVDD Challenge 2024: Singing Voice Deepfake Detection Challenge Planning Plan
SVDD Challenge 2024: A Singing Voice Deepfake Detection Challenge Evaluation Plan ( http://arxiv.org/abs/2405.05244v1 ) ライセンス: Link先を確認 | You Zhang, Yongyi Zang, Jiatong Shi, Ryuichi Yamamoto, Jionghao Han, Yuxun Tang, Tomoki Toda, Zhiyao Duan, | (参考訳) AIが生み出す歌声の急速な進歩は、今や自然の人間の歌声を忠実に模倣し、音楽の楽譜とシームレスに整合し、アーティストや音楽産業に対する懸念を高めている。
音声とは異なり、歌唱音声は、その音楽的性質と強い背景音楽の存在により独特の課題を呈し、歌唱音声深度検出(SVDD)を焦点を絞る専門分野とする。
SVDD研究を促進するため,我々は最近,実験室で制御されたブナフィドとディープフェイクの歌声録音のためのSVDDに焦点を当てた,SVDDチャレンジ(SVDD Challenge)を提案した。
この課題は、2024年のIEEE Spoken Language Technology Workshop (SLT 2024)と共同で行われる。
The rapid advancement of AI-generated singing voices, which now closely mimic natural human singing and align seamlessly with musical scores, has led to heightened concerns for artists and the music industry. Unlike spoken voice, singing voice presents unique challenges due to its musical nature and the presence of strong background music, making singing voice deepfake detection (SVDD) a specialized field requiring focused attention. To promote SVDD research, we recently proposed the "SVDD Challenge," the very first research challenge focusing on SVDD for lab-controlled and in-the-wild bonafide and deepfake singing voice recordings. The challenge will be held in conjunction with the 2024 IEEE Spoken Language Technology Workshop (SLT 2024). | 翻訳日:2024-05-09 13:45:01 公開日:2024-05-08 |
# 多機能ネゴシエーションゲームにおけるパーソナリティとLLM
LLMs with Personalities in Multi-issue Negotiation Games ( http://arxiv.org/abs/2405.05248v1 ) ライセンス: Link先を確認 | Sean Noh, Ho-Chun Herbert Chang, | (参考訳) 大規模言語モデル(LLM)によって駆動されるAIエージェントは、多くの人間のタスクをこなす能力を持つようになった。
ビッグファイブのパーソナリティの最も標準的な定義を用いて、ゲーム理論の枠組み内でLLMが交渉する能力を測定するとともに、フェアネスとリスクの概念を計測するための方法論的課題も測定する。
シングルイシューとマルチイシューの交渉のシミュレーション(n=1500)では、非対称なイシューバリュエーションによるドメインの複雑さが増加し、合意率が向上するが、アグレッシブな交渉による余剰量を減少させる。
緩やかな回帰とシェープリーの説明を通じて、高い開放性、良心性、神経性は公正な傾向に結びついており、低い一致性と低い開放性は合理的な傾向に結びついている。
低い良性は高い毒性と関連している。
これらの結果は、LLMがデフォルトの公正な動作にガードレールを組み込んだかもしれないが、同意できる相手を悪用するために「ジェイルが壊れている」可能性があることを示唆している。
また,ゲーム理論と計算社会科学に基づく交渉行動評価の枠組みとして,交渉ボットの設計に関する実践的な知見を提供する。
Powered by large language models (LLMs), AI agents have become capable of many human tasks. Using the most canonical definitions of the Big Five personality, we measure the ability of LLMs to negotiate within a game-theoretical framework, as well as methodological challenges to measuring notions of fairness and risk. Simulations (n=1,500) for both single-issue and multi-issue negotiation reveal increase in domain complexity with asymmetric issue valuations improve agreement rates but decrease surplus from aggressive negotiation. Through gradient-boosted regression and Shapley explainers, we find high openness, conscientiousness, and neuroticism are associated with fair tendencies; low agreeableness and low openness are associated with rational tendencies. Low conscientiousness is associated with high toxicity. These results indicate that LLMs may have built-in guardrails that default to fair behavior, but can be "jail broken" to exploit agreeable opponents. We also offer pragmatic insight in how negotiation bots can be designed, and a framework of assessing negotiation behavior based on game theory and computational social science. | 翻訳日:2024-05-09 13:45:01 公開日:2024-05-08 |
# 注意駆動学習-拡散モデルの非効率化
Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models ( http://arxiv.org/abs/2405.05252v1 ) ライセンス: Link先を確認 | Hongjie Wang, Difan Liu, Yan Kang, Yijun Li, Zhe Lin, Niraj K. Jha, Yuchen Liu, | (参考訳) 拡散モデル(DM)は高品質で多様な画像を生成する上で優れた性能を示した。
しかし、この例外的なパフォーマンスは、特に主要なモデルで頻繁に使用される注意モジュールのために、高価なアーキテクチャ設計のコストがかかる。
既存の作業は主にDM効率を高めるためのトレーニングプロセスを採用している。
これは計算コストが高く、スケーラビリティに乏しい。
この目的のために,アテンション駆動型トレーニングフリー効率拡散モデル (AT-EDM) フレームワークを導入し,アテンションマップを利用して冗長トークンの実行時のプルーニングを行う。
具体的には、単一デノジング段階のプルーニングにおいて、冗長なトークンを識別するための新しいランキングアルゴリズム、G-WPR(Generalized Weighted Page Rank)、および畳み込み操作のためのトークンを復元する類似性に基づく回復法を開発する。
さらに、より優れた生成品質を実現するために、異なるデノナイジングタイムステップ間でプルーニング予算を調整するためのDSAP(Denoising-Steps-Aware Pruning)アプローチを提案する。
大規模な評価では、AT-EDMは効率性(例えば38.8%のFLOPを節約し、安定拡散XLよりも最大1.53倍のスピードアップ)で先行技術に対して好適に機能し、フルモデルと同じFIDとCLIPスコアを維持している。
プロジェクトWebページ: https://atedm.github.io.com
Diffusion Models (DMs) have exhibited superior performance in generating high-quality and diverse images. However, this exceptional performance comes at the cost of expensive architectural design, particularly due to the attention module heavily used in leading models. Existing works mainly adopt a retraining process to enhance DM efficiency. This is computationally expensive and not very scalable. To this end, we introduce the Attention-driven Training-free Efficient Diffusion Model (AT-EDM) framework that leverages attention maps to perform run-time pruning of redundant tokens, without the need for any retraining. Specifically, for single-denoising-step pruning, we develop a novel ranking algorithm, Generalized Weighted Page Rank (G-WPR), to identify redundant tokens, and a similarity-based recovery method to restore tokens for the convolution operation. In addition, we propose a Denoising-Steps-Aware Pruning (DSAP) approach to adjust the pruning budget across different denoising timesteps for better generation quality. Extensive evaluations show that AT-EDM performs favorably against prior art in terms of efficiency (e.g., 38.8% FLOPs saving and up to 1.53x speed-up over Stable Diffusion XL) while maintaining nearly the same FID and CLIP scores as the full model. Project webpage: https://atedm.github.io. | 翻訳日:2024-05-09 13:45:01 公開日:2024-05-08 |
# オープンソース言語モデルによるフィードバック - GPT-4-As-A-Judgeを用いた学生支援能力の評価-
Open Source Language Models Can Provide Feedback: Evaluating LLMs' Ability to Help Students Using GPT-4-As-A-Judge ( http://arxiv.org/abs/2405.05253v1 ) ライセンス: Link先を確認 | Charles Koutcheme, Nicola Dainese, Sami Sarsa, Arto Hellas, Juho Leinonen, Paul Denny, | (参考訳) 大規模言語モデル(LLM)は、幅広いコンピューティングコンテキストにおけるフィードバックの自動生成に大きな可能性を示している。
しかし、学生の仕事をプロプライエタリなモデルに送ることのプライバシーと倫理的意味について懸念の声が上がっている。
このことは、教育におけるオープンソースのLLMの使用に大きな関心を呼んだが、そのようなオープンモデルが生み出すフィードバックの品質は、まだ検討されていない。
これは、欠陥や誤解を招くフィードバックを提供することが、学生の学習に有害な可能性があるという懸念である。
GPT-4 などの非常に強力な LLM を用いて,低消費電力モデルによる出力評価を行った最近の研究に触発されて,導入プログラミングコースからのデータセットを用いて,複数のオープンソースモデルによるフィードバックの質を自動解析する。
まず,GPT-4を自動評価装置として活用する可能性について,その評価を専門家と比べて検討する。
我々は, GPT-4が評価フィードバックに対するバイアスを示し, また, フィードバック評価者としての可能性を示した。
第2に, GPT-4 を用いて複数のオープンソース LLM が生成したフィードバックの質について検討した。
いくつかのモデルは、ChatGPTのような、人気のあるプロプライエタリなLLMと競合する性能を提供しており、教育環境での責任を負う機会を示している。
Large language models (LLMs) have shown great potential for the automatic generation of feedback in a wide range of computing contexts. However, concerns have been voiced around the privacy and ethical implications of sending student work to proprietary models. This has sparked considerable interest in the use of open source LLMs in education, but the quality of the feedback that such open models can produce remains understudied. This is a concern as providing flawed or misleading generated feedback could be detrimental to student learning. Inspired by recent work that has utilised very powerful LLMs, such as GPT-4, to evaluate the outputs produced by less powerful models, we conduct an automated analysis of the quality of the feedback produced by several open source models using a dataset from an introductory programming course. First, we investigate the viability of employing GPT-4 as an automated evaluator by comparing its evaluations with those of a human expert. We observe that GPT-4 demonstrates a bias toward positively rating feedback while exhibiting moderate agreement with human raters, showcasing its potential as a feedback evaluator. Second, we explore the quality of feedback generated by several leading open-source LLMs by using GPT-4 to evaluate the feedback. We find that some models offer competitive performance with popular proprietary LLMs, such as ChatGPT, indicating opportunities for their responsible use in educational settings. | 翻訳日:2024-05-09 13:45:01 公開日:2024-05-08 |
# 一度だけキャッシュする: 言語モデルのためのデコーダ-デコーダアーキテクチャ
You Only Cache Once: Decoder-Decoder Architectures for Language Models ( http://arxiv.org/abs/2405.05254v1 ) ライセンス: Link先を確認 | Yutao Sun, Li Dong, Yi Zhu, Shaohan Huang, Wenhui Wang, Shuming Ma, Quanlu Zhang, Jianyong Wang, Furu Wei, | (参考訳) キーと値のペアを一度だけキャッシュする大規模言語モデルのためのデコーダ/デコーダアーキテクチャであるYOCOを導入する。
これは2つのコンポーネント、すなわち自己デコーダに積み重ねられたクロスデコーダで構成されている。
自己復号器は、クロスアテンションを介してクロスデコーダによって再利用されるグローバルキー値(KV)キャッシュを効率よく符号化する。
全体的なモデルはデコーダのみのTransformerのように振る舞うが、YOCOは一度だけキャッシュする。
この設計はGPUメモリの需要を大幅に削減するが、グローバルな注意力を維持する。
さらに、計算フローにより、最終出力を変更することなく早期出口へのプリフィルが可能となり、プリフィルステージが大幅に高速化される。
実験により, YOCOはモデルサイズとトレーニングトークン数をスケールアップする様々な設定において, Transformerと比較して, 良好な性能を示した。
また, ヨーコの文脈長を100Mに拡張し, ほぼ完全針検定精度を向上した。
プロファイリングの結果から, YOCOは推論メモリ, プリフィルレイテンシ, スループットを, コンテキスト長とモデルサイズで桁違いに改善することがわかった。
コードはhttps://aka.ms/YOCO.comで入手できる。
We introduce a decoder-decoder architecture, YOCO, for large language models, which only caches key-value pairs once. It consists of two components, i.e., a cross-decoder stacked upon a self-decoder. The self-decoder efficiently encodes global key-value (KV) caches that are reused by the cross-decoder via cross-attention. The overall model behaves like a decoder-only Transformer, although YOCO only caches once. The design substantially reduces GPU memory demands, yet retains global attention capability. Additionally, the computation flow enables prefilling to early exit without changing the final output, thereby significantly speeding up the prefill stage. Experimental results demonstrate that YOCO achieves favorable performance compared to Transformer in various settings of scaling up model size and number of training tokens. We also extend YOCO to 1M context length with near-perfect needle retrieval accuracy. The profiling results show that YOCO improves inference memory, prefill latency, and throughput by orders of magnitude across context lengths and model sizes. Code is available at https://aka.ms/YOCO. | 翻訳日:2024-05-09 13:45:01 公開日:2024-05-08 |
# 拡散-HMC:拡散モデル駆動ハミルトニアンモンテカルロによるパラメータ推論
Diffusion-HMC: Parameter Inference with Diffusion Model driven Hamiltonian Monte Carlo ( http://arxiv.org/abs/2405.05255v1 ) ライセンス: Link先を確認 | Nayantara Mudur, Carolina Cuesta-Lazaro, Douglas P. Finkbeiner, | (参考訳) 拡散生成モデルは、フィールド全体にわたる多様な画像生成および再構成タスクに優れています。
あまり解明されていない道は、回帰問題や分類問題を含む差別的タスクへの応用である。
現代の宇宙論の基盤は、観測された天体物理学分野の予測を理論から生成し、これらの予測を用いて観測から物理的モデルを制約する能力である。
この研究は、これらの相互結合対象に対処するために単一の拡散生成モデルを使用し、入力宇宙論パラメータに条件付き冷暗黒物質密度場の代理モデルまたはエミュレータとして、入力分野の宇宙論パラメータを制約する逆問題を解決するパラメータ推論モデルとして使用する。
モデルは、シミュレーション対象分布のものと一致した要約統計を用いて、フィールドをエミュレートすることができる。
次に,拡散生成モデルの近似的可能性を利用して,ハミルトニアンモンテカルロ法を用いて実験画像の後方の宇宙パラメータをサンプリングすることにより,宇宙論の厳密な制約を導出する。
最後に、このパラメータ推論手法は、ベースラインパラメータ推論ネットワークよりもノイズの付加に頑健であることを示す。
Diffusion generative models have excelled at diverse image generation and reconstruction tasks across fields. A less explored avenue is their application to discriminative tasks involving regression or classification problems. The cornerstone of modern cosmology is the ability to generate predictions for observed astrophysical fields from theory and constrain physical models from observations using these predictions. This work uses a single diffusion generative model to address these interlinked objectives -- as a surrogate model or emulator for cold dark matter density fields conditional on input cosmological parameters, and as a parameter inference model that solves the inverse problem of constraining the cosmological parameters of an input field. The model is able to emulate fields with summary statistics consistent with those of the simulated target distribution. We then leverage the approximate likelihood of the diffusion generative model to derive tight constraints on cosmology by using the Hamiltonian Monte Carlo method to sample the posterior on cosmological parameters for a given test image. Finally, we demonstrate that this parameter inference approach is more robust to the addition of noise than baseline parameter inference networks. | 翻訳日:2024-05-09 13:45:01 公開日:2024-05-08 |
# THRONE:大規模視覚言語モデルのフリーフォーム生成のためのオブジェクトベースの幻覚ベンチマーク
THRONE: An Object-based Hallucination Benchmark for the Free-form Generations of Large Vision-Language Models ( http://arxiv.org/abs/2405.05256v1 ) ライセンス: Link先を確認 | Prannay Kaul, Zhizhong Li, Hao Yang, Yonatan Dukler, Ashwin Swaminathan, C. J. Taylor, Stefano Soatto, | (参考訳) 大規模視覚言語モデル(LVLM)における幻覚の緩和は未解決の問題である。
最近のベンチマークでは、「タイプI幻覚」と呼ばれるオープンエンドフリーフォーム応答の幻覚には対処していない。
代わりに、非常に特定の質問形式(典型的には特定のオブジェクトや属性に関する複数の選択応答)に対応する幻覚に焦点を当てます。
さらに、このようなベンチマークは、変更されるモデルに対する外部API呼び出しを必要とすることが多い。
実際には、II型幻覚の減少はI型幻覚の減少につながるものではなく、むしろ2種類の幻覚がしばしば反相関的であることを観察している。
そこで本研究では,LVLMフリーフォーム出力におけるI型幻覚を定量的に評価する,オブジェクトベースの新しい自動フレームワークであるTHRONEを提案する。
我々は、LVLM応答における幻覚を識別し、情報量を計算するために、パブリック言語モデル(LM)を用いる。
近年のLVLMの大量選択をパブリックデータセットを用いて評価することにより,既存の指標の改善がI型幻覚の減少につながることはなく,I型幻覚の測定のための確立されたベンチマークが不完全であることを示す。
最後に,強力なベースラインとして,I型とII型の幻覚を減らすための,シンプルで効果的なデータ拡張手法を提案する。
Mitigating hallucinations in large vision-language models (LVLMs) remains an open problem. Recent benchmarks do not address hallucinations in open-ended free-form responses, which we term "Type I hallucinations". Instead, they focus on hallucinations responding to very specific question formats -- typically a multiple-choice response regarding a particular object or attribute -- which we term "Type II hallucinations". Additionally, such benchmarks often require external API calls to models which are subject to change. In practice, we observe that a reduction in Type II hallucinations does not lead to a reduction in Type I hallucinations but rather that the two forms of hallucinations are often anti-correlated. To address this, we propose THRONE, a novel object-based automatic framework for quantitatively evaluating Type I hallucinations in LVLM free-form outputs. We use public language models (LMs) to identify hallucinations in LVLM responses and compute informative metrics. By evaluating a large selection of recent LVLMs using public datasets, we show that an improvement in existing metrics do not lead to a reduction in Type I hallucinations, and that established benchmarks for measuring Type I hallucinations are incomplete. Finally, we provide a simple and effective data augmentation method to reduce Type I and Type II hallucinations as a strong baseline. | 翻訳日:2024-05-09 13:45:01 公開日:2024-05-08 |
# ラマンフォノン-ポラリトン凝縮による逆ポンプキャビティ
Raman-phonon-polariton condensation in a transversely pumped cavity ( http://arxiv.org/abs/2405.05257v1 ) ライセンス: Link先を確認 | Alexander N. Bourzutschky, Benjamin L. Lev, Jonathan Keeling, | (参考訳) フォノン・ポラリトン(英: Phonon polariton)は、光と物質のハイブリッド状態であり、光学活性フォノンが光子に強く結合すると一般的に実現される。
本稿では,光キャビティにおける低温原子実験において,横励起ラマン法を用いてフォノンポラリトンを実現するための新しい手法を提案する。
このアプローチは光学キャビティモードとラマンアクティブフォノンモードのハイブリッド化を可能にする。
さらに, 逆励起光の強度を変化させることで, 有効フォノン-光子結合を調整できる。
このような系はフォノン-ポラリトン凝縮体を実現する可能性がある。
これを実現するため、定常状態を見つけ、Floquet理論を用いて安定性を決定する。
そこで我々は, 偏光子モードが巨視的に分布する, 異なる超ラジアントおよびラジング状態を同定した。
これらの状態の位相図をポンプ周波数と強度の関数として表す。
遷移金属ジアルコゲナイドのパラメータを用いて, これらの相の実現は実用的に可能であることを示す。
フォノンモードの周波数を制御し、選択されたフォノンモードの定常状態の人口を達成する能力は、電子の工学的相関状態の新たなツールを提供する。
Phonon polaritons are hybrid states of light and matter that are typically realised when optically active phonons couple strongly to photons. We suggest a new approach to realising phonon polaritons, by employing a transverse-pumping Raman scheme, as used in experiments on cold atoms in optical cavities. This approach allows hybridisation between an optical cavity mode and any Raman-active phonon mode. Moreover, this approach enables one to tune the effective phonon-photon coupling by changing the strength of the transverse pumping light. We show that such a system may realise a phonon-polariton condensate. To do this, we find the stationary states and use Floquet theory to determine their stability. We thus identify distinct superradiant and lasing states in which the polariton modes are macroscopically populated. We map out the phase diagram of these states as a function of pump frequencies and strengths. Using parameters for transition metal dichalcogenides, we show that realisation of these phases may be practicably obtainable. The ability to manipulate phonon mode frequencies and attain steady-state populations of selected phonon modes provides a new tool for engineering correlated states of electrons. | 翻訳日:2024-05-09 13:45:01 公開日:2024-05-08 |
# 自律運転のための多モードデータ効率3次元シーン理解
Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving ( http://arxiv.org/abs/2405.05258v1 ) ライセンス: Link先を確認 | Lingdong Kong, Xiang Xu, Jiawei Ren, Wenwei Zhang, Liang Pan, Kai Chen, Wei Tsang Ooi, Ziwei Liu, | (参考訳) 効率的なデータ利用は自動運転車における3Dシーン理解の促進に不可欠である。
そこで本研究では,LDARセマンティックセマンティックセマンティックセマンティクスの半教師付き学習に展開し,運転シーンの空間的先入観とマルチセンサ・コンプリメンテーションを活用して,ラベルなしデータセットの有効性を高めることを目的とした。
我々は、異なるLiDARスキャンからレーザービーム操作を統合する進化したフレームワークであるLaserMix++を紹介し、さらにデータ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。
私たちのフレームワークは,マルチモダリティを取り入れた3次元シーンの整合性向上を目的としている。
1) 微細なクロスセンサインタラクションのためのマルチモーダルレーザーMix演算
2)LiDAR特徴学習を強化したカメラ対LiDAR特徴蒸留
3)オープン語彙モデルを用いた言語駆動型知識指導による補助的指導
LaserMix++の汎用性は、LiDAR表現をまたいだアプリケーションを可能にし、広く適用可能なソリューションとして確立する。
我々のフレームワークは、理論解析と一般的な駆動認識データセットに関する広範な実験を通じて、厳密に検証されている。
結果は、LaserMix++が完全に教師付きされた代替案よりも優れており、アノテーションの5倍少ない精度で同等の精度を実現し、教師付きのみのベースラインを大幅に改善していることを示している。
この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
Efficient data utilization is crucial for advancing 3D scene understanding in autonomous driving, where reliance on heavily human-annotated LiDAR point clouds challenges fully supervised methods. Addressing this, our study extends into semi-supervised learning for LiDAR semantic segmentation, leveraging the intrinsic spatial priors of driving scenes and multi-sensor complements to augment the efficacy of unlabeled datasets. We introduce LaserMix++, an evolved framework that integrates laser beam manipulations from disparate LiDAR scans and incorporates LiDAR-camera correspondences to further assist data-efficient learning. Our framework is tailored to enhance 3D scene consistency regularization by incorporating multi-modality, including 1) multi-modal LaserMix operation for fine-grained cross-sensor interactions; 2) camera-to-LiDAR feature distillation that enhances LiDAR feature learning; and 3) language-driven knowledge guidance generating auxiliary supervisions using open-vocabulary models. The versatility of LaserMix++ enables applications across LiDAR representations, establishing it as a universally applicable solution. Our framework is rigorously validated through theoretical analysis and extensive experiments on popular driving perception datasets. Results demonstrate that LaserMix++ markedly outperforms fully supervised alternatives, achieving comparable accuracy with five times fewer annotations and significantly improving the supervised-only baselines. This substantial advancement underscores the potential of semi-supervised approaches in reducing the reliance on extensive labeled data in LiDAR-based 3D scene understanding systems. | 翻訳日:2024-05-09 13:45:01 公開日:2024-05-08 |
# OpenESS: オープン語彙によるイベントベースのセマンティックシーン理解
OpenESS: Event-based Semantic Scene Understanding with Open Vocabularies ( http://arxiv.org/abs/2405.05259v1 ) ライセンス: Link先を確認 | Lingdong Kong, Youquan Liu, Lai Xing Ng, Benoit R. Cottereau, Wei Tsang Ooi, | (参考訳) イベントベースのセマンティックセグメンテーション(ESS)は、イベントカメラセンシングの基本的な課題である。
イベントデータの解釈とアノテーションの難しさは、スケーラビリティを制限します。
画像からイベントデータへのドメイン適応はこの問題を軽減するのに役立つが、解決するための追加の努力を必要とするデータ表現の違いが存在する。
この作業では、画像、テキスト、イベントデータドメインからの情報を初めてシナジライズし、OpenESSを導入し、オープンワールド、アノテーション非効率な方法でスケーラブルなESSを可能にする。
セマンティックにリッチなCLIP知識をイメージテキストペアからイベントストリームに転送することで、この目標を達成する。
そこで本研究では, フレーム・ツー・エグゼクティブ・コントラスト蒸留とテキスト・ツー・エグゼクティブ・セマンティック・整合性正規化を提案する。
人気のあるESSベンチマーク実験の結果,提案手法は既存手法よりも優れていた。
特に、イベントラベルもフレームラベルも使用せずに、DDD17とDSEC-Semanticで53.93%、43.31%のmIoUを実現しています。
Event-based semantic segmentation (ESS) is a fundamental yet challenging task for event camera sensing. The difficulties in interpreting and annotating event data limit its scalability. While domain adaptation from images to event data can help to mitigate this issue, there exist data representational differences that require additional effort to resolve. In this work, for the first time, we synergize information from image, text, and event-data domains and introduce OpenESS to enable scalable ESS in an open-world, annotation-efficient manner. We achieve this goal by transferring the semantically rich CLIP knowledge from image-text pairs to event streams. To pursue better cross-modality adaptation, we propose a frame-to-event contrastive distillation and a text-to-event semantic consistency regularization. Experimental results on popular ESS benchmarks showed our approach outperforms existing methods. Notably, we achieve 53.93% and 43.31% mIoU on DDD17 and DSEC-Semantic without using either event or frame labels. | 翻訳日:2024-05-09 13:45:01 公開日:2024-05-08 |
# 量子プローブ力学における時間反転対称性の破断による平衡外および非ガウス環境のセンシング
Sensing Out-of-Equilibrium and Quantum Non-Gaussian environments via induced Time-Reversal Symmetry Breaking on the quantum-probe dynamics ( http://arxiv.org/abs/2405.04742v1 ) ライセンス: Link先を確認 | Martin Kuffer, Analía Zwick, Gonzalo A. Álvarez, | (参考訳) 原子やナノスケールでシステムを調べるための量子センシングツールの強化は、量子技術の進歩に不可欠である。
多くのプロトコルでは、静止環境や弱い結合環境から情報を抽出するために量子プローブを用いるが、原子スケールやナノスケールでは、環境が本質的に平衡外であるか、センサーと強く結合している。
ここでは、非定常変動と平衡な環境から部分情報が探索されたり、量子非ガウス的で強く結合した環境相関によって記述されたりした場合に、量子センサ制御力学における時間-逆対称性が破られることを証明する。
我々はこの現象を、固体核磁気共鳴(NMR)を用いた原理的量子シミュレーションによる量子センシングパラダイムとして活用する。
これは、知覚された環境が平衡からどれくらい離れているか、あるいはその量子非ガウス的な性質を定量化する、キュービットプローブ上の信号コントラストを導入する。
また、原子やナノスケールで量子センサのユビキタス環境を検知するためのステップとして、静止、静止、非定常、非ガウスの量子ノイズゆらぎを含む様々な環境特性を識別・フィルタリングするためにもプロトコルが提示される。
Advancing quantum sensing tools for investigating systems at atomic and nanoscales is crucial for the progress of quantum technologies. While numerous protocols employ quantum probes to extract information from stationary or weakly coupled environments, the challenges intensify at atomic- and nano-scales where the environment is inherently out-of-equilibrium or strongly coupled with the sensor. We here prove that the time-reversal symmetry in the quantum-sensor control dynamics is broken, when partial information is probed from an environment that is out-of-equilibrium with non stationary fluctuations or is described by quantum non-Gaussian, strongly coupled environmental correlations. We exploit this phenomenon as a quantum sensing paradigm with proof-of principle experimental quantum simulations using solid-state nuclear magnetic resonance (NMR). This introduces a signal contrast on a qubit-probe that quantifies how far the sensed environment is from equilibrium or its quantum non-Gaussian nature. Protocols are also presented to discern and filter a variety of environmental properties including stationary, non-stationary and non-Gaussian quantum noise fluctuations as a step toward sensing the ubiquitous environments of a quantum-sensor at atomic and nanoscales. | 翻訳日:2024-05-09 13:35:11 公開日:2024-05-08 |
# モーメントに基づく絡み合い基準と対策
Moments based entanglement criteria and measures ( http://arxiv.org/abs/2405.04754v1 ) ライセンス: Link先を確認 | Yiding Wang, Tinggui Zhang, Xiaofen Huang, Shao-Ming Fei, | (参考訳) 量子エンタングルメントは、量子計算と量子情報処理において重要な役割を果たす。
絡み合いを検出するために、効率的で実験的に友好的な分離性基準を見つけることは非常に重要である。
本稿ではまず,行列モーメントに基づく2つの簡単な絡み合い基準を提案する。
最初の絡み合い基準は密度行列の最初の2つの配向モーメントのみを使用する。
第2の絡み合い基準は、部分的に転位した行列に関連するモーメントに基づいている。
具体例で, 絡み検出におけるこれらの基準の有効性について述べる。
さらに、これらのモーメントに基づいて実験的に測定可能な低いコンカレンス境界を提供する。
最後に、還元状態のモーメントに基づいて、二分三分三分三分三分三分三分三分三分三分三分三分三分の一の絡み合いを示す。
より詳細な例では、我々のエンタングルメント測度が既存の測度よりも微細な方法で量子エンタングルメントを特徴づけていることが示される。
Quantum entanglement plays a key role in quantum computation and quantum information processing. It is of great significance to find efficient and experimentally friend separability criteria to detect entanglement. In this paper, we firstly propose two easily used entanglement criteria based on matrix moments. The first entanglement criterion only uses the first two realignment moments of a density matrix. The second entanglement criterion is based on the moments related to the partially transposed matrix. By detailed examples we illustrate the effectiveness of these criteria in detecting entanglement. Moreover, we provide an experimentally measurable lower bound of concurrence based on these moments. Finally, we present both bipartite and genuine tripartite entanglement measures based on the moments of the reduced states. By detailed examples, we show that our entanglement measures characterize the quantum entanglement in a more fine ways than the existing measures. | 翻訳日:2024-05-09 13:35:11 公開日:2024-05-08 |
# 文脈量子モデルの高次元基底状態を局所的に近似するコスト
Cost of Locally Approximating High-Dimensional Ground States of Contextual Quantum Models ( http://arxiv.org/abs/2405.04884v1 ) ライセンス: Link先を確認 | Kaiyan Yang, Yanzheng Zhu, Xiao Zeng, Zuoheng Zou, Man-Hong Yung, Zizhu Wang, | (参考訳) 量子相関の最も強い形式の1つである文脈性は、量子世界と古典的世界を説明する。
最近、量子物理学において最も低い基底状態エネルギー密度を持つ量子モデル(無限一次元変換不変ハミルトニアン)が示されている。
しかし、これらのモデルは全て局所ヒルベルト空間次元が2より大きいため、現在の量子ビットベースの変動量子シミュレーションプラットフォーム上での基底状態の挙動の研究は困難である。
本研究では,量子回路を用いて,これらのモデルの基底状態の局所近似をシミュレーションするコストに着目した。
局所近似は、局所ヒルベルト空間次元が 3 の3サイト還元密度行列であり、精製され、置換対称量子ビットに符号化される。
そこで我々は,量子ビット型ゲートをアンザッツとして用いて,量子回路のパラメータ化をシミュレートする置換対称性の普遍的集合を開発した。
これらの手法により、古典的および量子的資源の固定量に対して、精製された局所基底状態のシミュレーションの精度を評価することができる。
我々は、同じ量子回路と繰り返しの数を考えると、エネルギー密度の低いより文脈的な基底状態がより容易にシミュレートできることを発見した。
Contextuality, one of the strongest forms of quantum correlations, delineates the quantum world and the classical one. It has been shown recently that some quantum models, in the form of infinite one-dimensional translation-invariant Hamiltonians with nearest- and next-to-nearest-neighbor interactions, have the lowest ground state energy density allowed in quantum physics. However, these models all have local Hilbert space dimension larger than two, making the study of their ground state behavior difficult on current qubit-based variational quantum simulation platforms. In this work, we focus on the cost of simulating the local approximations of ground states of these models using qubit-based parameterized quantum circuits. The local approximations, which are 3-site reduced density matrices with local Hilbert space dimension three, are purified then encoded into permutation-symmetric qubits. We develop a universal set of permutation-symmetry preserving qubit-based gates, using them as an ansatz to simulate parameterized quantum circuits designed for qutrits. These techniques allow us to assess the accuracy of simulating the purified local ground states with respect to a fixed amount of classical and quantum resources. We found that given the same quantum circuit and the number of iterations, more contextual ground states with lower energy density are easier to simulate. | 翻訳日:2024-05-09 13:35:11 公開日:2024-05-08 |
# 回帰に基づく予測と特徴選択を改善するコデータによる適応縮小の誘導
Guiding adaptive shrinkage by co-data to improve regression-based prediction and feature selection ( http://arxiv.org/abs/2405.04917v1 ) ライセンス: Link先を確認 | Mark A. van de Wiel, Wessel N. van Wieringen, | (参考訳) ゲノムデータの高次元的性質は、特に低サンプルサイズの研究において特徴選択を複雑にし、臨床予測設定では珍しくない。
特徴の補完データである‘co-data’が結果を改善することは広く認識されている。
例えば、関連する研究の前の特徴群やp値がある。
このようなコデータは、公開リポジトリが利用できるため、ゲノム設定においてユビキタスである。
しかし,このようなデータ構造を用いた学習手法の習得は限られている。
本稿では,適応型縮小法について概説する:回帰型学習者のクラスで,コデータを用いて縮小パラメータを適応し,それらの学習者のパフォーマンスに欠かせない手法である。
技術的側面だけでなく、扱うことのできるコデータの種類についても適用性についても論じる。
この手法は他のいくつかの方法と対比される。
特に,群適応縮小は,特徴選択を評価することにより,よく知られたスパース群ラッソと比較される。
最後に、遺伝的研究における特徴選択の改善を目的として、共用データ学習者とスパイク・アンド・スラブの実装を統合した「do-it-yourself」の方法を示すことによって、ガイド付き縮小手法の汎用性を実証する。
The high dimensional nature of genomics data complicates feature selection, in particular in low sample size studies - not uncommon in clinical prediction settings. It is widely recognized that complementary data on the features, `co-data', may improve results. Examples are prior feature groups or p-values from a related study. Such co-data are ubiquitous in genomics settings due to the availability of public repositories. Yet, the uptake of learning methods that structurally use such co-data is limited. We review guided adaptive shrinkage methods: a class of regression-based learners that use co-data to adapt the shrinkage parameters, crucial for the performance of those learners. We discuss technical aspects, but also the applicability in terms of types of co-data that can be handled. This class of methods is contrasted with several others. In particular, group-adaptive shrinkage is compared with the better-known sparse group-lasso by evaluating feature selection. Finally, we demonstrate the versatility of the guided shrinkage methodology by showing how to `do-it-yourself': we integrate implementations of a co-data learner and the spike-and-slab prior for the purpose of improving feature selection in genetics studies. | 翻訳日:2024-05-09 13:35:11 公開日:2024-05-08 |
# マトリックス生成物の高次時間進化
Boosted Imaginary Time Evolution of Matrix Product States ( http://arxiv.org/abs/2405.04959v1 ) ライセンス: Link先を確認 | Benjamin C. B. Symons, Dilhan Manawadu, David Galvin, Stefano Mensa, | (参考訳) 本研究では,行列積状態の虚時間進化について考察する。
本稿では,時間発展ブロックデシメーション(TEBD)と組み合わせることで,TEBDのみと比較して,基底状態への収束を高速化できる新しい量子インスピレーション付き古典的手法を提案する。
提案手法は,低エネルギー状態へのリフレクションの利用に依拠する。
ブーストによるTEBDステップのインターリービングは、TEBDステップの総数と、行列積状態を基底状態に進化させるのに必要な計算コストを減少させる。
提案手法の数学的詳細とアルゴリズムによる実装, そして, 簡単なテストケースに対するいくつかの結果について述べる。
In this work, we consider the imaginary time evolution of matrix product states. We present a novel quantum-inspired classical method that, when combined with time evolving block decimation (TEBD), is able to potentially speed-up the convergence to a ground state compared to TEBD alone. Our method, referred to as boosted imaginary time evolution, relies on the use of reflections to boost to lower energy states. Interleaving TEBD steps with boosts reduces the total number of TEBD steps and potentially the computational cost required to imaginary time evolve a matrix product state to a ground state. We give the mathematical details of the method followed by an algorithmic implementation and finally some results for a simple test case. | 翻訳日:2024-05-09 13:35:11 公開日:2024-05-08 |
# ローカライズされたレニー・ディバージェンス
Locally-Measured Rényi Divergences ( http://arxiv.org/abs/2405.05037v1 ) ライセンス: Link先を確認 | Tobias Rippchen, Sreejith Sreekumar, Mario Berta, | (参考訳) 我々は、制限された測定セットによって誘導される確率分布の最適化を通じて、古典的R'enyiの量子状態への分岐の拡張を提案する。
特に、ローカライズされた R'enyi の発散(英語版)の概念を定義し、そこで許容される測定値の集合は、(距離のある)パーティーの局所性制約の変種から生じる。
次に、局所測定された R'enyi の発散点の変分境界を導出し、これらの境界がいつ正確な特徴づけになるかを体系的に議論する。
応用として,高対称性データハイディング状態の変種に対する局所測定値R'enyiの発散量を評価し,局所性制約値の差分力の低減を図った。
n$フォールドテンソルパワーに対しては、我々の変分式を用いて対応する加法性の結果を導出し、局所測定されたR'enyiは漸近的局所測定された仮説テストにおいて最適速度指数として操作的意味を微分する。
We propose an extension of the classical R\'enyi divergences to quantum states through an optimization over probability distributions induced by restricted sets of measurements. In particular, we define the notion of locally-measured R\'enyi divergences, where the set of allowed measurements originates from variants of locality constraints between (distant) parties $A$ and $B$. We then derive variational bounds on the locally-measured R\'enyi divergences and systematically discuss when these bounds become exact characterizations. As an application, we evaluate the locally-measured R\'enyi divergences on variants of highly symmetric data-hiding states, showcasing the reduced distinguishing power of locality-constrained measurements. For $n$-fold tensor powers, we further employ our variational formulae to derive corresponding additivity results, which gives the locally-measured R\'enyi divergences operational meaning as optimal rate exponents in asymptotic locally-measured hypothesis testing. | 翻訳日:2024-05-09 13:35:11 公開日:2024-05-08 |
# 量子ビット型量子シミュレータにおける$d$レベルのシステムの変分シミュレーション
Variational simulation of $d$-level systems on qubit-based quantum simulators ( http://arxiv.org/abs/2405.05051v1 ) ライセンス: Link先を確認 | Chufan Lyu, Zuoheng Zou, Xusheng Xu, Man-Hong Yung, Abolfazl Bayat, | (参考訳) 現在の量子シミュレータは主に量子ビットベースであり、2レベル量子系をシミュレートするのに自然に適している。
しかし、自然界の多くの系は本質的にd$レベルであり、より高いスピン、ボゾン、振動モード、反復電子を含む。
量子シミュレータ上で$d$レベルのシステムをシミュレートするためには、$d$レベルのシステムをqubitベースにマッピングするために符号化法が必要である。
そのような写像はヒルベルト空間における非正規状態を導入し、シミュレーションをより洗練されたものにすることができる。
本稿では,不正状態に対処するための体系的手法を開発する。
さらに,二進法と対称符号化法という2つの異なるマッピングを比較し,様々な多体系の基底状態と時間変化の変動シミュレーションによりそれらの性能を比較した。
二進符号化は量子ビットの数に関して非常に効率的であるが、元のハミルトニアンの対称性を回路設計に組み込むのは容易ではない。
一方、対称性符号化は回路設計における対称性の実装を促進するが、量子ビットの数にはオーバーヘッドが伴う。
解析の結果、余分な量子ビットを必要とするにもかかわらず、対称性の符号化はバイナリ符号化よりも著しく優れていた。
それらの利点は、より少ない2ビットゲートを必要とし、より速く収束し、バレン高原に対してより弾力性があることによって示される。
我々は,スピン-1,スピン-3/2,ボソニック系の変分基底状態シミュレーションを行い,スピン-1系の変分時間進化を行った。
提案手法は既存の量子シミュレータ上で実装でき、そのポテンシャルは幅広い物理モデルに拡張可能である。
Current quantum simulators are primarily qubit-based, making them naturally suitable for simulating 2-level quantum systems. However, many systems in nature are inherently $d$-level, including higher spins, bosons, vibrational modes, and itinerant electrons. To simulate $d$-level systems on qubit-based quantum simulators, an encoding method is required to map the $d$-level system onto a qubit basis. Such mapping may introduce illegitimate states in the Hilbert space which makes the simulation more sophisticated. In this paper, we develop a systematic method to address the illegitimate states. In addition, we compare two different mappings, namely binary and symmetry encoding methods, and compare their performance through variational simulation of the ground state and time evolution of various many-body systems. While binary encoding is very efficient with respect to the number of qubits it cannot easily incorporate the symmetries of the original Hamiltonian in its circuit design. On the other hand, the symmetry encoding facilitates the implementation of symmetries in the circuit design, though it comes with an overhead for the number of qubits. Our analysis shows that the symmetry encoding significantly outperforms the binary encoding, despite requiring extra qubits. Their advantage is indicated by requiring fewer two-qubit gates, converging faster, and being far more resilient to Barren plateaus. We have performed variational ground state simulations of spin-1, spin-3/2, and bosonic systems as well as variational time evolution of spin-1 systems. Our proposal can be implemented on existing quantum simulators and its potential is extendable to a broad class of physical models. | 翻訳日:2024-05-09 13:35:11 公開日:2024-05-08 |
# 改良型デコイ状態およびフラッグ状態スクアッシング法
Improved Decoy-state and Flag-state Squashing Methods ( http://arxiv.org/abs/2405.05069v1 ) ライセンス: Link先を確認 | Lars Kamin, Norbert Lütkenhaus, | (参考訳) そこで本研究では,デコイ状態法の解析を改良し,達成可能なキーレートを向上し,単一強度シナリオに対する解析結果を復元する手法を提案する。
我々の主な焦点は、現在のデコイ状態法で観察される欠点を改善することであり、特にデコイ強度を使わずに結果を回復することである。
本手法は,様々な強度設定の連続的補間を可能にする。
さらに、信号状態によって強度が変化するシナリオを包含するようにデコイ状態技術を拡張し、実験的な実装の制約を緩和する。
以上の結果から,高漸近性秘密鍵レートでは最低2つの強度が十分であることが示唆された。
さらに、不完全なビームスプリッターなどの検出装置における固有の不完全性に対処する。
我々は、フラグ状態スカッシャーのような特定のスカッシング法に必要となる、サブスペース人口推定の証明可能な低い境界を導出する。
これらの解析的境界は任意の受動線形光学装置を包含することができ、各信号状態に応じて強度が変化することにより、幅広い実験装置を組み込むことができる。
In this work, we present an improved analysis for decoy-state methods, enhancing both achievable key rates and recovering analytical results for the single intensity scenario. Our primary focus is improving the shortcomings observed in current decoy-state methods, particularly recovering results when employing no decoy intensities. Our methods enable the continuous interpolation across varying numbers of intensity settings. Additionally, we extend decoy-state techniques to encompass scenarios where intensities vary depending on the signal state, thereby relaxing the constraints on experimental implementations. Our findings demonstrate that a minimum of two intensities are sufficient for high asymptotic secret key rates, thereby further softening experimental requirements. Additionally, we address inherent imperfections within detection setups like imperfect beamsplitters. We derive provable secure lower bounds on the subspace population estimation, which is required for certain squashing methods such as the flag-state squasher. These analytical bounds allow us to encompass arbitrary passive linear optical setups, and together with intensities varying with each signal state, lets us include a broad class of experimental setups. | 翻訳日:2024-05-09 13:35:11 公開日:2024-05-08 |
# オーストリア手話における動詞と形容詞のモーションキャプチャー解析
Motion Capture Analysis of Verb and Adjective Types in Austrian Sign Language ( http://arxiv.org/abs/2405.05161v1 ) ライセンス: Link先を確認 | Julia Krebs, Evie Malaia, Ronnie B. Wilbur, Isabella Fessl, Hans-Peter Wiesinger, Hermann Schwameder, Dietmar Roehm, | (参考訳) 多くの手話において、支配的な手話の時間的特徴と空間的特徴は意味的特徴と文法的特徴を表現するために用いられる。
オーストリア手話 (Osterreichische Geb\"ardensprache, \"OGS") の研究では, 動詞や形容詞における手話生成の運動パラメータを定量的に特徴付けるために, 4つの手話シグナーのモーションキャプチャーデータを用いている。
本研究は,(1) 目的語(動詞,eg) と動詞(動詞,eg) を含まない動詞(動詞,eg) と,(2) 強弱形と非強弱形(プレーン) 形の形容詞記号(形容詞記号)の差について検討する。
リニア・ミックス・エフェクト・モデル(LME)を用いたモーションキャプチャーデータ解析は,動詞の終端マーキングと形容詞の強調マークの両方が,「OGS」の運動変調によって表現されることを示す。
動詞型 (telic/atelic) と動詞型 (telic/atelic) の区別は, 語形容詞における文法的区別(強調)は, 非強化形容詞と比較して長文で表される。
観察されたシグナの個人差は、個人的なシグナリングスタイルとして解釈できる。
Across a number of sign languages, temporal and spatial characteristics of dominant hand articulation are used to express semantic and grammatical features. In this study of Austrian Sign Language (\"Osterreichische Geb\"ardensprache, or \"OGS), motion capture data of four Deaf signers is used to quantitatively characterize the kinematic parameters of sign production in verbs and adjectives. We investigate (1) the difference in production between verbs involving a natural endpoint (telic verbs; e.g. arrive) and verbs lacking an endpoint (atelic verbs; e.g. analyze), and (2) adjective signs in intensified vs. non-intensified (plain) forms. Motion capture data analysis using linear-mixed effects models (LME) indicates that both the endpoint marking in verbs, as well as marking of intensification in adjectives, are expressed by movement modulation in \"OGS. While the semantic distinction between verb types (telic/atelic) is marked by higher peak velocity and shorter duration for telic signs compared to atelic ones, the grammatical distinction (intensification) in adjectives is expressed by longer duration for intensified compared to non-intensified adjectives. The observed individual differences of signers might be interpreted as personal signing style. | 翻訳日:2024-05-09 13:35:11 公開日:2024-05-08 |
# 干渉遮断による量子同期
Quantum synchronization through the interference blockade ( http://arxiv.org/abs/2405.05182v1 ) ライセンス: Link先を確認 | Tobias Kehrer, Tobias Nadolny, Christoph Bruder, | (参考訳) シンクロナイゼーションは、外部信号または他の発振器に関する周波数と位相を調整する発振器に現れる。
量子の場合、位相ロックの抑制をもたらす破壊的干渉のような新しい特徴が現れる。
3レベル(スピン-1)発振器は、利得と減衰率が等しく、外部駆動は1:1位相ロックはしないが、2:1位相ロック、すなわち位相分布は2つの最大値を持つ。
この2相の双安定ロックは、量子干渉同期遮断の符号である。
2つの同一結合スピン-1発振器に対して同様の挙動が発見された。
本研究では、2つの結合スピン-1発振器と、第1スピンに印加される駆動について考察する。
これにより、駆動と第1スピンの間の2つの干渉遮断と、両スピン間の干渉遮断につながる。
両方の干渉遮断は強い駆動力と結合強度で持続するが、驚くべきことに、非駆動スピンは外側の駆動に1:1の位相ロックを示す。
ロックの大きさは、駆動強度が小さい場合、駆動強度に比例する。
言い換えれば、非駆動発振器は両方の干渉遮断を通して外部駆動と同期し、遮断は持続する。
3つの結合スピン-1発振器の連鎖に対して、ブロックされた第2スピンを介する第1スピンと第3スピンの同期が見つかる。
Synchronization manifests itself in oscillators adjusting their frequencies and phases with respect to an external signal or another oscillator. In the quantum case, new features appear such as destructive interferences that can result in the suppression of phase locking. A three-level (spin-1) oscillator with equal gain and damping rates and subject to an external drive does not exhibit any 1:1 phase locking but 2:1 phase locking, i.e., its phase distribution features two maxima. This bistable locking at two opposite phases is a signature of the quantum interference synchronization blockade. An analogous behavior was found for two identical coupled spin-1 oscillators. In this work, we consider two coupled spin-1 oscillators and a drive applied to the first spin. This leads to two interference blockades between the drive and the first spin as well as between both spins. Although both interference blockades persist for strong drive and coupling strengths, remarkably, the undriven spin does show a 1:1 phase locking to the external drive. The magnitude of the locking is proportional to the drive strength if the drive strength is small. In other words, the undriven oscillator synchronizes to the external drive through both interference blockades while the blockades persist. For a chain of three coupled spin-1 oscillators, we find synchronization between the first and third spins mediated via the blockaded, second spin. | 翻訳日:2024-05-09 13:35:11 公開日:2024-05-08 |
# ベルとメルミンの不等式、絡み合ったコヒーレント状態およびユニタリ作用素
Bell's and Mermin's inequalities, entangled coherent states and unitary operators ( http://arxiv.org/abs/2405.05191v1 ) ライセンス: Link先を確認 | Silvio Paolo Sorella, | (参考訳) 量子力学におけるユニタリ演算子の利用に関する最近の提案について詳述する。
絡み合ったコヒーレント状態に対するベルとメルミンの不等式は、ユニタリ変位演算子を用いて精査される。
既存の文献に準じて、最大許容値に近いメルミン不平等の違反を報告する。
We elaborate on the recent proposal of employing unitary operators in Quantum Mechanics. The Bell and Mermin inequalities for entangled coherent states are scrutinized by making use of the unitary displacement operators. A violation of the Mermin inequality close to the maximum allowed value is reported, in agreement with the existing literature. | 翻訳日:2024-05-09 13:35:11 公開日:2024-05-08 |
# 固定列長のユニバーサルゲートによる制限付きランダム化ベンチマーク
Restricted Randomized Benchmarking with Universal Gates of Fixed Sequence Length ( http://arxiv.org/abs/2405.05215v1 ) ライセンス: Link先を確認 | Mohsen Mehrani, Kasra Masoudi, Rawad Mezher, Elham Kashefi, Debasis Sadhukhan, | (参考訳) 標準的なランダム化ベンチマークプロトコルは、必ずしも直接アクセスできない複雑な操作にアクセスする必要がある。
コンパイラ最適化は、ランダムな操作ごとに直接アクセス可能なユニバーサルゲートの配列長が常に等しいとは限らない。
RBプロトコルのバージョンでは、T設計や近似設計に頼らずに、等シーケンス長の直接アクセス可能なユニバーサルゲートセットを用いて、ハールランダム性を生成する。
これにより、我々のプロトコルは、小さなキュービット数に対して非常にリソース効率が高く、実用的になる。
単一および2量子ビットの場合、ハールランダム性を生成するためのプロトコルを例示する。
標準RBプロトコルを用いて結果のベンチマークを行い、標準手法と比較して平均ゲート忠実度を過大評価することができる。
本手法が実験騒音の正確なモデル構築に有効であることを示す。
The standard randomized benchmarking protocol requires access to often complex operations that are not always directly accessible. Compiler optimization does not always ensure equal sequence length of the directly accessible universal gates for each random operation. We introduce a version of the RB protocol that creates Haar-randomness using a directly accessible universal gate set of equal sequence length rather than relying upon a t-design or even an approximate one. This makes our protocol highly resource efficient and practical for small qubit numbers. We exemplify our protocol for creating Haar-randomness in the case of single and two qubits. Benchmarking our result with the standard RB protocol, allows us to calculate the overestimation of the average gate fidelity as compared to the standard technique. We augment our findings with a noise analysis which demonstrates that our method could be an effective tool for building accurate models of experimental noise. | 翻訳日:2024-05-09 13:35:11 公開日:2024-05-08 |
# Fast Abstracts and Student Forum Proceedings -- EDCC 2024 -- 19th European Dependable Computing Conference
Fast Abstracts and Student Forum Proceedings -- EDCC 2024 -- 19th European Dependable Computing Conference ( http://arxiv.org/abs/2404.17465v4 ) ライセンス: Link先を確認 | Simona Bernardi, Tommaso Zoppi, | (参考訳) Fast Abstractsトラックの目標は、研究者や実践者が信頼性の高いコンピューティングに取り組むことで、進捗や意見の断片について議論することである。
学業や産業界からの貢献を歓迎する。
Fast Abstractsは、迅速で柔軟なメカニズムとして機能することを目指している。
一 完了又は未完了の可能性のある現在の業務の報告
(二)地域社会に新しい考えを導入すること。
三 物議を醸す問題又は公開問題に関する国家の立場
四 実語信頼性工学から学んだ教訓の共有
五 反表示に基づく他の書類による取消し又は質問結果
学生フォーラムは、学生が自分の仕事を発表し、議論し、他の学生、研究者、産業とアイデアと経験を交換できる活気ある友好的な環境を作ることを目標としている。
このフォーラムの重要な目標の1つは、将来の研究の方向性に役立つであろう予備的な結果について学生にフィードバックを提供することである。
The goal of the Fast Abstracts track is to bring together researchers and practitioners working on dependable computing to discuss work in progress or opinion pieces. Contributions are welcome from academia and industry. Fast Abstracts aim to serve as a rapid and flexible mechanism to: (i) Report on current work that may or may not be complete; (ii) Introduce new ideas to the community; (iii) State positions on controversial issues or open problems; (iv) Share lessons learnt from real-word dependability engineering; and (v) Debunk or question results from other papers based on contra-indications. The Student Forum aims at creating a vibrant and friendly environment where students can present and discuss their work, and exchange ideas and experiences with other students, researchers and industry. One of the key goals of the Forum is to provide students with feedback on their preliminary results that might help with their future research directions. | 翻訳日:2024-05-09 13:25:23 公開日:2024-05-08 |
# テキスト・画像生成モデルにおけるメカニスティック・ナレッジ・ローカライゼーションについて
On Mechanistic Knowledge Localization in Text-to-Image Generative Models ( http://arxiv.org/abs/2405.01008v2 ) ライセンス: Link先を確認 | Samyadeep Basu, Keivan Rezaei, Priyatham Kattakinda, Ryan Rossi, Cherry Zhao, Vlad Morariu, Varun Manjunatha, Soheil Feizi, | (参考訳) 視覚属性を制御するテキスト・ツー・イメージモデル内のレイヤを識別することで、クローズドフォーム更新による効率的なモデル編集が容易になる。
最近の研究は、因果トレースを利用して、初期安定拡散変種は、主にCLIPテキストエンコーダの第一層に知識を限定し、UNet全体に拡散していることを示している。このフレームワークは、最近のモデル(例えば、SD-XL、DeepFloyd)において、因果トレースは局所的な知識の特定に失敗し、モデル編集の課題を強調している。
この問題に対処するために、テキスト・ツー・イメージモデルにおけるメカニスティック・ローカライゼーションの概念を導入し、様々な視覚的属性(例えば、"style", "objects", "facts")に関する知識をUNetの少数のレイヤに機械的にローカライズし、効率的なモデル編集を容易にする。
我々は,UNetのクロスアテンション層に介入することで,中間層が生成する直接効果を計測するLocoGenという手法を用いて,知識をローカライズする。
次に、人気のあるオープンソーステキスト画像モデル(最新のSD-XLを含む)にまたがる高速なクローズドフォーム編集手法であるLocoEditを採用し、ニューロンレベルのモデル編集の可能性を探る。
メカニスティック・ローカライゼーション(Mechanistic Localization, メカニスティック・ローカライゼーション, メカニスティック・ローカライゼーション, メカニスティック・ローカライゼーション, メカニスティック・ローカライゼーション, メカニカル・ローカライゼーション)を用いて, ローカライゼーション・ベースのテキスト・ツー・イメージ・モデル編集における成功と失敗のより良いビューを提供する。
コードはhttps://github.com/samyadeepbasu/LocoGen.comから入手できる。
Identifying layers within text-to-image models which control visual attributes can facilitate efficient model editing through closed-form updates. Recent work, leveraging causal tracing show that early Stable-Diffusion variants confine knowledge primarily to the first layer of the CLIP text-encoder, while it diffuses throughout the UNet.Extending this framework, we observe that for recent models (e.g., SD-XL, DeepFloyd), causal tracing fails in pinpointing localized knowledge, highlighting challenges in model editing. To address this issue, we introduce the concept of Mechanistic Localization in text-to-image models, where knowledge about various visual attributes (e.g., "style", "objects", "facts") can be mechanistically localized to a small fraction of layers in the UNet, thus facilitating efficient model editing. We localize knowledge using our method LocoGen which measures the direct effect of intermediate layers to output generation by performing interventions in the cross-attention layers of the UNet. We then employ LocoEdit, a fast closed-form editing method across popular open-source text-to-image models (including the latest SD-XL)and explore the possibilities of neuron-level model editing. Using Mechanistic Localization, our work offers a better view of successes and failures in localization-based text-to-image model editing. Code will be available at https://github.com/samyadeepbasu/LocoGen. | 翻訳日:2024-05-09 13:25:23 公開日:2024-05-08 |
# 変性を伴う自己監督型画像デノイングの検討
Investigating Self-Supervised Image Denoising with Denaturation ( http://arxiv.org/abs/2405.01124v2 ) ライセンス: Link先を確認 | Hiroki Waida, Kimihiro Yamazaki, Atsushi Tokuhisa, Mutsuyo Wada, Yuichiro Wada, | (参考訳) ノイズの多いデータの変性の有無を考慮した自己教師付き学習は、機械学習における重要なアプローチである。
しかし、変性データを用いた手法の性能に関する理論的理解は欠如している。
提案手法をよりよく理解するために,本論文では,理論解析や数値実験を通じて,変性データを用いた自己教師付き復調アルゴリズムを解析する。
理論的解析により,アルゴリズムは人口リスクに対する最適化問題に対する望ましい解を求める一方で,経験的リスクの保証はデノナイジングタスクの難易度に依存している。
また,実際に拡張アルゴリズムの性能を調べるために,いくつかの実験を行った。
その結果, 劣化画像を用いたアルゴリズムトレーニングは有効であり, 経験的性能は理論的結果と一致していることがわかった。
これらの結果から,デノベーションデータを用いた自己監督型画像デノナイジングのさらなる改善に向けたいくつかの知見が示唆された。
Self-supervised learning for image denoising problems in the presence of denaturation for noisy data is a crucial approach in machine learning. However, theoretical understanding of the performance of the approach that uses denatured data is lacking. To provide better understanding of the approach, in this paper, we analyze a self-supervised denoising algorithm that uses denatured data in depth through theoretical analysis and numerical experiments. Through the theoretical analysis, we discuss that the algorithm finds desired solutions to the optimization problem with the population risk, while the guarantee for the empirical risk depends on the hardness of the denoising task in terms of denaturation levels. We also conduct several experiments to investigate the performance of an extended algorithm in practice. The results indicate that the algorithm training with denatured images works, and the empirical performance aligns with the theoretical results. These results suggest several insights for further improvement of self-supervised image denoising that uses denatured data in future directions. | 翻訳日:2024-05-09 13:25:23 公開日:2024-05-08 |
# ビジュアルコンテンツによるソーシャルメディアポスト人気予測の強化
Enhancing Social Media Post Popularity Prediction with Visual Content ( http://arxiv.org/abs/2405.02367v2 ) ライセンス: Link先を確認 | Dahyun Jeong, Hyelim Son, Yunjin Choi, Keunwoo Kim, | (参考訳) 本研究では,複雑な画像情報と階層的データ構造に対処することに焦点を当てた,画像ベースのソーシャルメディアコンテンツ人気予測フレームワークを提案する。
Google Cloud Vision APIを使用して、ユーザの投稿からキーイメージとカラー情報を効果的に抽出し、非画像共変量のみを使用する場合と比較して6.8%高い精度を達成する。
予測には線形混合モデル,サポートベクトル回帰,多層パーセプトロン,ランダムフォレスト,XGBoostなど,幅広い予測モデルをベンチマークとして検討する。
比較研究では,共変量間の非線型相互作用を捉えることができるモデルが,他の手法より優れていることを示す。
Our study presents a framework for predicting image-based social media content popularity that focuses on addressing complex image information and a hierarchical data structure. We utilize the Google Cloud Vision API to effectively extract key image and color information from users' postings, achieving 6.8% higher accuracy compared to using non-image covariates alone. For prediction, we explore a wide range of prediction models, including Linear Mixed Model, Support Vector Regression, Multi-layer Perceptron, Random Forest, and XGBoost, with linear regression as the benchmark. Our comparative study demonstrates that models that are capable of capturing the underlying nonlinear interactions between covariates outperform other methods. | 翻訳日:2024-05-09 13:25:23 公開日:2024-05-08 |
# パルス場に有限時間生成した対の縦モーメントスペクトル:振動は「リアル」である
Longitudinal Momentum Spectra of pair created in a pulsed field at finite times: Are Oscillations "Real" ( http://arxiv.org/abs/2405.02947v2 ) ライセンス: Link先を確認 | Deepak Sah, Manoranjan P. Singh, | (参考訳) 真空中からの電子-陽電子対の生成を,E(t) = E_0 sech^2(t/\tau)$,高さが$E_0$,幅が$\tau$で時間的に均一なパルス電場を用いて検討した。
Sahは最近、有限進化時間[9]の後にペア生成の問題について議論した。
このことは、対生成における粒子の即時出現と、動的量に対する進化方程式の解法を含む形式主義を使用する場合の中間時間における粒子の挙動に関する疑問を引き起こす。
この振る舞いについて一般的な説明をすることは可能ですか?
これらの問題に対処するために、1粒子時間依存のディラック方程式の正確な解を用いて運動量空間における$(e^+ e^-)$ペア生成の確率を解析的に計算し、その結果を量子力学理論(QKT)と比較する。
どちらのアプローチも、任意の瞬間に粒子運動量スペクトルを研究することができ、量子非平衡物理学に関する貴重な情報を明らかにすることができる。
生成粒子の縦運動スペクトル(LMS)を有限時間で解析する。
LMSの振動構造を観察する。
この有限時間での発振挙動は、粒子生成に関連する量子干渉効果をはっきりと示している。
どちらの手法も、LMSで観測された振動として、有限時間で量子干渉パターンを示すことに注意する必要がある。
このことから、これらの振動は過渡的な励起や基底に依存したシグネチャによるものではないことが分かる。
繰り返しになるが、両アプローチのLMSに見られる振動は人工物ではなく、重要な物理的関連性を持っていることを強調する。
We investigate the production of electron-positron pairs from the vacuum in a time-varying, spatially uniform pulsed electric field given by $E(t) = E_0 sech^2(t/\tau)$, with height of $E_0$ and width of $\tau$. Sah recently discussed the problem of pair production after a finite evolution time [9]. This raises questions about the instantaneous appearance of particles in pair production and their behavior at intermediate times when using a formalism that involves solving an evolution equation for a dynamical quantity. Is it possible to make general statements about this behavior? To address these questions, we analytically compute the probability of $(e^+ e^-)$ pair production in momentum space using the exact solution of the one-particle time-dependent Dirac equation, and we compare the result with quantum kinetic theory (QKT). Both approaches allow us to study the particle momentum spectrum at any instant in time and can potentially unveil valuable information regarding quantum non-equilibrium physics. We analyze both approaches' Longitudinal Momentum Spectrum (LMS) of the created particles at finite times. We observe oscillatory structure in the LMS. This oscillation behavior at finite time clearly illustrates the quantum interference effects associated with particle production. It is worth noting that both approaches exhibit quantum interference patterns at finite times, manifested as oscillations observed in the LMS. This reveals that these oscillations are not due to transient excitations and basis-dependent signatures. Again, we emphasize that the oscillations seen in the LMS from both approaches are not artifacts but possess significant physical relevance. | 翻訳日:2024-05-09 13:25:23 公開日:2024-05-08 |
# 統計的テスト理論から見た分布外同定の一考察
A View on Out-of-Distribution Identification from a Statistical Testing Theory Perspective ( http://arxiv.org/abs/2405.03052v2 ) ライセンス: Link先を確認 | Alberto Caron, Chris Hicks, Vasilios Mavroudis, | (参考訳) 本研究では,教師なしおよび教師なしの学習文脈において,テスト時間におけるOODサンプルを効率的に検出する問題について検討する。
MLモデルは通常、トレーニングとテストデータが同じ分散に由来するという前提でトレーニングされるが、現実的な設定ではそうではないことが多いため、デプロイメントにおいて確実に分散シフトを検出することが不可欠である。
我々は,OOD問題を統計的検定のレンズで再定式化し,OOD問題を統計的に特定可能な条件について議論する。
この枠組みに基づいて、ワッサーシュタイン距離に基づくOOD試験の収束保証について検討し、簡単な経験的評価を行う。
We study the problem of efficiently detecting Out-of-Distribution (OOD) samples at test time in supervised and unsupervised learning contexts. While ML models are typically trained under the assumption that training and test data stem from the same distribution, this is often not the case in realistic settings, thus reliably detecting distribution shifts is crucial at deployment. We re-formulate the OOD problem under the lenses of statistical testing and then discuss conditions that render the OOD problem identifiable in statistical terms. Building on this framework, we study convergence guarantees of an OOD test based on the Wasserstein distance, and provide a simple empirical evaluation. | 翻訳日:2024-05-09 13:25:23 公開日:2024-05-08 |
# Sachdev-Ye-Kitaev相互作用のための電池の量子優位性
Quantum advantage in batteries for Sachdev-Ye-Kitaev interactions ( http://arxiv.org/abs/2405.03306v3 ) ライセンス: Link先を確認 | Gianluca Francica, | (参考訳) セルが相互作用している場合、量子電池のユニタリ充電において量子アドバンテージが達成される。
ここでは、この量子優位性がスパース Sachdev-Ye-Kitaev (SYK) 相互作用に対してどのように達成されるのかを解析計算により明らかにする。
単純なモデル化を行うことで、$q$-point rescaled sparse SYK 相互作用に対して、量子上の優位性は $\Gamma\sim N^{\frac{\alpha}{q}-\frac{1}{2}}$ となる。
A quantum advantage can be achieved in the unitary charging of quantum batteries if their cells are interacting. Here, we try to clarify with some analytical calculations whether and how this quantum advantage is achieved for sparse Sachdev-Ye-Kitaev (SYK) interactions. By performing a simple modelization, we find that for $q$-point rescaled sparse SYK interactions the quantum advantage goes as $\Gamma\sim N^{\frac{\alpha}{q}-\frac{1}{2}}$, where $\alpha$ is related to the connectivity and $N$ is the number of cells. | 翻訳日:2024-05-09 13:25:23 公開日:2024-05-08 |
# 空飛ぶドローン画像の中の雑草をリアルに分類する「Leafy Spurge Dataset」
Leafy Spurge Dataset: Real-world Weed Classification Within Aerial Drone Imagery ( http://arxiv.org/abs/2405.03702v2 ) ライセンス: Link先を確認 | Kyle Doherty, Max Gurinas, Erik Samsoe, Charles Casper, Beau Larkin, Philip Ramsey, Brandon Trabucco, Ruslan Salakhutdinov, | (参考訳) 外来植物種は、農業と森林の双方の生態に有害である。
ユープホルビア・エスラ(Euphorbia esula)は、北アメリカの大部分を東ヨーロッパから広げた植物である。
現代のコンピュータビジョンシステムと組み合わせると、無人航空機、またはドローンは、葉のような問題植物の拡大を追跡する手段を提供し、これらの雑草を制御する機会を向上させる。
米国モンタナ州西部の草原で、葉質のふわふわしたスプージの存在と不在のデータセットを収集し、商用ドローンでこれらの地域を調査した。
我々はこれらのデータに基づいて画像分類器を訓練し、最高の性能モデルである事前訓練されたDINOv2視覚変換器は、葉状突起を0.84精度(テストセット)で同定した。
この結果から, 葉柄のスプージの分類は抽出可能であるが, 解けないことが示唆された。
私たちは、機械学習コミュニティが探索するために、ラベル付きでラベル付けされていない無人ドローン画像のこのユニークなデータセットをリリースします。
葉のふわふわの分類性能の向上は、生態学、保存学、リモートセンシングの分野にも恩恵をもたらすだろう。
コードとデータは、私たちのWebサイト(leapy-spurge-dataset.github.io)で公開されています。
Invasive plant species are detrimental to the ecology of both agricultural and wildland areas. Euphorbia esula, or leafy spurge, is one such plant that has spread through much of North America from Eastern Europe. When paired with contemporary computer vision systems, unmanned aerial vehicles, or drones, offer the means to track expansion of problem plants, such as leafy spurge, and improve chances of controlling these weeds. We gathered a dataset of leafy spurge presence and absence in grasslands of western Montana, USA, then surveyed these areas with a commercial drone. We trained image classifiers on these data, and our best performing model, a pre-trained DINOv2 vision transformer, identified leafy spurge with 0.84 accuracy (test set). This result indicates that classification of leafy spurge is tractable, but not solved. We release this unique dataset of labelled and unlabelled, aerial drone imagery for the machine learning community to explore. Improving classification performance of leafy spurge would benefit the fields of ecology, conservation, and remote sensing alike. Code and data are available at our website: leafy-spurge-dataset.github.io. | 翻訳日:2024-05-09 13:25:23 公開日:2024-05-08 |
# 局所的個人的インテクスト学習
Locally Differentially Private In-Context Learning ( http://arxiv.org/abs/2405.04032v2 ) ライセンス: Link先を確認 | Chunyan Zheng, Keke Sun, Wenhao Zhao, Haibo Zhou, Lixin Jiang, Shaoyang Song, Chunlai Zhou, | (参考訳) 大規模な事前学習言語モデル(LLM)は、驚くべきインコンテキスト学習(ICL)能力を示している。
大きな言語モデルをデプロイする上で重要なアプリケーションは、特定のタスクのためにプライベートデータベースでLLMを拡張することである。
この有望な商用利用の大きな問題は、LSMがトレーニングデータを記憶し、その迅速なデータは、メンバーシップ推論攻撃(MIA)に脆弱で、即座に漏洩する攻撃に対して脆弱であることが示されていることである。
この問題に対処するために,LLMをプライバシーに不信頼なものとして扱うとともに,ラベルが機密性のある設定において,ローカルで微分的にプライベートなインコンテキスト学習フレームワーク(LDP-ICL)を提案する。
本研究では,トランスフォーマーにおける勾配降下によるインコンテキスト学習のメカニズムを考慮し,LDP-ICLにおけるプライバシーとユーティリティのトレードオフの分析を行う。
さらに, LDP-ICL を離散分布推定問題に適用する。
最後に,分析結果を実証するためにいくつかの実験を行った。
Large pretrained language models (LLMs) have shown surprising In-Context Learning (ICL) ability. An important application in deploying large language models is to augment LLMs with a private database for some specific task. The main problem with this promising commercial use is that LLMs have been shown to memorize their training data and their prompt data are vulnerable to membership inference attacks (MIA) and prompt leaking attacks. In order to deal with this problem, we treat LLMs as untrusted in privacy and propose a locally differentially private framework of in-context learning(LDP-ICL) in the settings where labels are sensitive. Considering the mechanisms of in-context learning in Transformers by gradient descent, we provide an analysis of the trade-off between privacy and utility in such LDP-ICL for classification. Moreover, we apply LDP-ICL to the discrete distribution estimation problem. In the end, we perform several experiments to demonstrate our analysis results. | 翻訳日:2024-05-09 13:25:23 公開日:2024-05-08 |
# 量子ドットと極低温電波リードアウトエレクトロニクスを含む多モジュールシリコンオン絶縁体チップアセンブリ
A multi-module silicon-on-insulator chip assembly containing quantum dots and cryogenic radio-frequency readout electronics ( http://arxiv.org/abs/2405.04104v2 ) ライセンス: Link先を確認 | David J. Ibberson, James Kirkman, John J. L. Morton, M. Fernando Gonzalez-Zalba, Alberto Gomez-Saiz, | (参考訳) 量子処理ユニットは、デジタルおよびアナログ電子モジュールを含むより大きな情報処理システムのモジュールである。
シリコンベースの量子コンピューティングは、同じ技術プラットフォームを使用してすべてのモジュールを製造するための魅力的な機会を提供する。
ここでは、全モジュールを同じフルデプリットシリコンオン絶縁体(FDSOI)CMOSプロセスで作製したシリコン量子デバイスの多重読み出しのための低温多モジュールアセンブリについて述べる。
組み立ては3つのチップレットで構成されている。
(i)低雑音増幅器(LNA)
(ii)単極8列スイッチ(SP8T)、
(iii)シリコン量子ドット(QD)アレイ。
私たちは各モジュールを個別に特徴付け、表示します
(i)利得35dB、帯域幅118MHz、最低雑音温度4.2K
(ii)1.1dB未満の挿入損失、0-2GHzの1.1K未満のノイズ温度、
三 単電子箱(SEB)電荷センサ。
最後に、全ての要素を1つのデモに組み合わせ、全シリコン量子コンピューティングシステムへの道を歩む2つのSEBの時間領域の無線周波数多重化を示す。
Quantum processing units will be modules of larger information processing systems containing also digital and analog electronics modules. Silicon-based quantum computing offers the enticing opportunity to manufacture all the modules using the same technology platform. Here, we present a cryogenic multi-module assembly for multiplexed readout of silicon quantum devices where all modules have been fabricated using the same fully-depleted silicon-on-insulator (FDSOI) CMOS process. The assembly is constituted by three chiplets: (i) a low-noise amplifier (LNA), (ii) a single-pole eight-throw switch (SP8T), and (iii) a silicon quantum dot (QD) array. We characterise each module individually and show (i) a gain over 35 dB, a bandwidth of 118 MHz, a minimum noise temperature of 4.2 K, (ii) an insertion loss smaller than 1.1 dB, a noise temperature smaller than 1.1 K across 0-2 GHz, and (iii) single-electron box (SEB) charge sensors. Finally, we combine all elements into a single demonstration showing time-domain radio-frequency multiplexing of two SEBs paving the way to an all-silicon quantum computing system. | 翻訳日:2024-05-09 13:25:23 公開日:2024-05-08 |
# 仮想アナログ音響効果モデリングのためのリカレントニューラルネットワークの比較検討
Comparative Study of Recurrent Neural Networks for Virtual Analog Audio Effects Modeling ( http://arxiv.org/abs/2405.04124v2 ) ライセンス: Link先を確認 | Riccardo Simionato, Stefano Fasciani, | (参考訳) アナログ電子回路は、音楽機器の重要なカテゴリの中核にある。
電子部品の非線形特性は、アナログ音楽機器に独特の音色と音質を与え、非常に好ましい。
人工ニューラルネットワークは、アナログオーディオ効果回路、特にリカレントネットワークのエミュレーションで急速に人気を集めている。
ニューラルネットワークは歪み回路を正確にモデル化することに成功したが、パラメータ条件付けと低レイテンシ応答を考慮したアーキテクチャの改善が必要である。
本稿では,最近の機械学習の仮想アナログモデリングへの応用について検討する。
我々は、ステートスペースモデルと線形リカレントユニットを、より一般的なLong Short Term Memoryネットワークと比較する。
これらはシーケンス・ツー・シーケンス・モデリングのタスクにおいて有望な能力を示し、信号履歴符号化の顕著な改善を示している。
我々の比較研究は、様々な音響効果を持つブラックボックスニューラルモデリング技術を用いている。
音響信号のエネルギー包絡、周波数内容、過渡性を正確に再現するモデルの能力を評価するために、複数の指標を用いて性能と限界を評価する。
制御パラメータを組み込むには、Feature wise Linear Modulation法を用いる。
長期記憶ネットワークは歪みや等化器のエミュレートにおいて精度が向上し、ステートスペースモデルはエンコーダデコーダ構造に統合された場合の長期記憶ネットワークに続き、飽和や圧縮のエミュレーションにおいて他より優れる。
長期間の変動特性を考慮すると、状態空間モデルは最大の精度を示す。
長期記憶(Long Short Term Memory)、特にリニア・リカレント・ユニット・ネットワーク(Linear Recurrent Unit Network)は、オーディオ・アーティファクトを導入する傾向がある。
Analog electronic circuits are at the core of an important category of musical devices. The nonlinear features of their electronic components give analog musical devices a distinctive timbre and sound quality, making them highly desirable. Artificial neural networks have rapidly gained popularity for the emulation of analog audio effects circuits, particularly recurrent networks. While neural approaches have been successful in accurately modeling distortion circuits, they require architectural improvements that account for parameter conditioning and low latency response. In this article, we explore the application of recent machine learning advancements for virtual analog modeling. We compare State Space models and Linear Recurrent Units against the more common Long Short Term Memory networks. These have shown promising ability in sequence to sequence modeling tasks, showing a notable improvement in signal history encoding. Our comparative study uses these black box neural modeling techniques with a variety of audio effects. We evaluate the performance and limitations using multiple metrics aiming to assess the models' ability to accurately replicate energy envelopes, frequency contents, and transients in the audio signal. To incorporate control parameters we employ the Feature wise Linear Modulation method. Long Short Term Memory networks exhibit better accuracy in emulating distortions and equalizers, while the State Space model, followed by Long Short Term Memory networks when integrated in an encoder decoder structure, outperforms others in emulating saturation and compression. When considering long time variant characteristics, the State Space model demonstrates the greatest accuracy. The Long Short Term Memory and, in particular, Linear Recurrent Unit networks present more tendency to introduce audio artifacts. | 翻訳日:2024-05-09 13:25:23 公開日:2024-05-08 |
# 単光子の指向性向上と抽出のための共鳴構造
Resonant structure for improved directionality and extraction of single photons ( http://arxiv.org/abs/2405.04197v2 ) ライセンス: Link先を確認 | Sagar Chowdhury, Rituraj, Srini Krishnamurthy, Vidya Praveen Bhallamudi, | (参考訳) ダイヤモンドのような誘電体材料における蛍光性原子欠陥は、いくつかの新しい量子応用に非常に有望である。
しかし、効率的な光抽出、指向性放出、狭いスペクトル放出は重要な課題である。
我々はこれらの問題に対処するために,三重共鳴とカーカー条件を利用した誘電体メタ曲面を設計した。
我々の設計したダイヤモンド準曲面は、ダイヤモンドの窒素空洞(NV)欠陥中心に適合し、素ダイヤモンドの637nm(ゼロフォノン線)光子の収集において最大500倍の改善が予測される。
我々の設計は、主に前方の20度の領域で発光する、高い指向性エミッションを達成する。
これにより、ファイバベースのコレクションを含む光の収集がより効率的になる。
予測結果は, メタエレメントに配置されたエミッタの位置に対して安定であり, 欠陥中心の正確な位置決めの困難な製造要件を緩和する。
同様に、我々の設計アプローチは、SiVのような他の欠陥、hBNのような他の材料、および量子ドットのような他の源からの単一光子放出を高めるために適用することができる。
Fluorescent atomic defects, especially in dielectric materials, such as diamond are quite promising for several emerging quantum applications. However, efficient light extraction, directional emission, and narrow spectral emission are key challenges. We have designed dielectric metasurface exploiting Mie-resonance and the Kerker condition to address these issues. Our designed diamond metasurface, tailored for nitrogen-vacancy (NV) defect centers in diamond, predicts up to 500x improvement in the collection of 637 nm (zero phonon line) photons over that from the bare diamond. Our design achieves highly directional emission, predominantly emitting in a 20 degree lobe in the forward direction. This makes light collection more efficient, including for fiber-based collection. The predicted results are stable against the position of the emitter placed in the metaelement, thus alleviating the challenging fabrication requirement of precise positioning of the defect center. Equally importantly, our design approach can be applied to enhance single photon emission also from other defects such as SiV, other materials such as hBN, and other sources such as quantum dots. | 翻訳日:2024-05-09 13:25:23 公開日:2024-05-08 |
# ニューラル圧縮センシングの検証
Verified Neural Compressed Sensing ( http://arxiv.org/abs/2405.04260v2 ) ライセンス: Link先を確認 | Rudy Bunel, Krishnamurthy Dvijotham, M. Pawan Kumar, Alessandro De Palma, Robert Stanforth, | (参考訳) 人間の入力を使わずに自動検証アルゴリズムが生成した正しさの証明を用いて、ニューラルネットワークを精度の高い計算タスクのために証明可能な最初の(私たちの知る限り)修正する。
ニューラルネットワーク検証の以前の研究は、たとえ満足しても、ニューラルネットワークが決してエラーを発生しないことを保証するのに十分ではない部分的な仕様に重点を置いていた。
我々は,ニューラルネットワークの精度を正確に定義した計算タスクにニューラルネットワークの検証を適用することに注力する。
特に,圧縮センシングのための最初の確証可能なニューラルネットワーク,すなわちベクトルの次元よりも小さい多数の測定値からスパースベクトルを復元する手法を開発し,検証する。
極小問題次元(最大50)では、線形および双項線形測定からスパースベクトルを確実に回復するニューラルネットワークを訓練できることを示す。
さらに、ネットワークの複雑さ(ニューロン/層数)が問題に適応できることを示し、従来の圧縮センシング手法が有効に機能していない問題を解決する。
We develop the first (to the best of our knowledge) provably correct neural networks for a precise computational task, with the proof of correctness generated by an automated verification algorithm without any human input. Prior work on neural network verification has focused on partial specifications that, even when satisfied, are not sufficient to ensure that a neural network never makes errors. We focus on applying neural network verification to computational tasks with a precise notion of correctness, where a verifiably correct neural network provably solves the task at hand with no caveats. In particular, we develop an approach to train and verify the first provably correct neural networks for compressed sensing, i.e., recovering sparse vectors from a number of measurements smaller than the dimension of the vector. We show that for modest problem dimensions (up to 50), we can train neural networks that provably recover a sparse vector from linear and binarized linear measurements. Furthermore, we show that the complexity of the network (number of neurons/layers) can be adapted to the problem difficulty and solve problems where traditional compressed sensing methods are not known to provably work. | 翻訳日:2024-05-09 13:25:23 公開日:2024-05-08 |
# SmmPack: TPMシードキーによるSMMモジュールの難読化
SmmPack: Obfuscation for SMM Modules with TPM Sealed Key ( http://arxiv.org/abs/2405.04355v2 ) ライセンス: Link先を確認 | Kazuki Matsuo, Satoshi Tanda, Kuniyasu Suzaki, Yuhei Kawakoya, Tatsuya Mori, | (参考訳) System Management Mode (SMM) は、x86およびx86-64プロセッサの最もプライベートな動作モードである。
SMMのエクスプロイトにより、攻撃者はUnified Extensible Firmware Interface (UEFI)ファームウェアを改ざんし、オペレーティングシステムとハイパーバイザによって実装されるセキュリティメカニズムを無効にすることができる。
SMMコード実行を可能にする脆弱性は、しばしばCVE(Common Vulnerabilities and Exposures)として報告されるが、攻撃者がこれらの脆弱性を分析するのを防ぐためのセキュリティメカニズムは今のところ存在しない。
SMMモジュールの脆弱性解析のコストを上げるために,SmmPackを導入した。
SmmPackの中核的な概念は、Trusted Platform Module (TPM)に安全に格納されたキーでSMMモジュールを暗号化することである。
攻撃者によるSMMモジュールの取得・解析におけるSmmPackの有効性を,様々な手法を用いて評価した。
以上の結果から,SmmPackはモジュール獲得の手段を狭めることにより,コストを大幅に向上することが示された。
さらに,SmmPackが元のSMMモジュールの性能を損なうことなく動作することを示した。
また,SmmPackの管理と採用方法,BIOS更新の適用手順を明らかにし,SmmPackの実装が現実的であることを示した。
System Management Mode (SMM) is the highest-privileged operating mode of x86 and x86-64 processors. Through SMM exploitation, attackers can tamper with the Unified Extensible Firmware Interface (UEFI) firmware, disabling the security mechanisms implemented by the operating system and hypervisor. Vulnerabilities enabling SMM code execution are often reported as Common Vulnerabilities and Exposures (CVEs); however, no security mechanisms currently exist to prevent attackers from analyzing those vulnerabilities. To increase the cost of vulnerability analysis of SMM modules, we introduced SmmPack. The core concept of SmmPack involves encrypting an SMM module with the key securely stored in a Trusted Platform Module (TPM). We assessed the effectiveness of SmmPack in preventing attackers from obtaining and analyzing SMM modules using various acquisition methods. Our results show that SmmPack significantly increases the cost by narrowing down the means of module acquisition. Furthermore, we demonstrated that SmmPack operates without compromising the performance of the original SMM modules. We also clarified the management and adoption methods of SmmPack, as well as the procedure for applying BIOS updates, and demonstrated that the implementation of SmmPack is realistic. | 翻訳日:2024-05-09 13:25:23 公開日:2024-05-08 |
# DistGrid:分散マルチ解像度ハッシュグリッドによるスケーラブルなシーン再構築
DistGrid: Scalable Scene Reconstruction with Distributed Multi-resolution Hash Grid ( http://arxiv.org/abs/2405.04416v2 ) ライセンス: Link先を確認 | Sidun Liu, Peng Qiao, Zongxin Ye, Wenyu Li, Yong Dou, | (参考訳) ニューラルレージアンスフィールド〜(NeRF)は、オブジェクトスケールおよび屋内シーンの再構成において極めて高品質な。
しかし、大規模な舞台の再建にはいくつかの課題がある。
MLPベースのNeRFは限られたネットワーク容量に悩まされ、ボリュームベースのNeRFはシーン解像度が大きくなるとメモリ消費が大きくなる。
近年のアプローチでは、シーンを地理的に分割し、個々のNeRFを用いて各サブリージョンを学習する手法が提案されている。
このようなパーティショニング戦略は、ボリュームベースのNeRFが単一のGPUメモリ制限を超え、より大きなシーンにスケールするのに役立つ。
しかし、このアプローチでは、分割外光を処理するために複数のバックグラウンドNeRFが必要であるため、学習の冗長性が生じる。
本研究では,現在のパーティションの背景が隣接するパーティションの背景にあるという事実に触発されて,DistGrid という共同のマルチレゾリューション・ハッシュ・グリッドに基づくスケーラブルなシーン再構築手法を提案する。
本手法では,複数の密に舗装された非重畳された軸方向境界ボックスにシーンを分割し,クロスバウンダリ線を扱うために新しいセグメント化ボリュームレンダリング法を提案し,背景NeRFを不要とした。
実験により,提案手法は大規模シーンすべてにおいて既存の手法よりも優れており,視覚的にも可視的なシーン再構成を提供することが示された。
本手法の再現性に関するスケーラビリティを質的,定量的に評価する。
Neural Radiance Field~(NeRF) achieves extremely high quality in object-scaled and indoor scene reconstruction. However, there exist some challenges when reconstructing large-scale scenes. MLP-based NeRFs suffer from limited network capacity, while volume-based NeRFs are heavily memory-consuming when the scene resolution increases. Recent approaches propose to geographically partition the scene and learn each sub-region using an individual NeRF. Such partitioning strategies help volume-based NeRF exceed the single GPU memory limit and scale to larger scenes. However, this approach requires multiple background NeRF to handle out-of-partition rays, which leads to redundancy of learning. Inspired by the fact that the background of current partition is the foreground of adjacent partition, we propose a scalable scene reconstruction method based on joint Multi-resolution Hash Grids, named DistGrid. In this method, the scene is divided into multiple closely-paved yet non-overlapped Axis-Aligned Bounding Boxes, and a novel segmented volume rendering method is proposed to handle cross-boundary rays, thereby eliminating the need for background NeRFs. The experiments demonstrate that our method outperforms existing methods on all evaluated large-scale scenes, and provides visually plausible scene reconstruction. The scalability of our method on reconstruction quality is further evaluated qualitatively and quantitatively. | 翻訳日:2024-05-09 13:25:23 公開日:2024-05-08 |
# Spice-E : クロスエンティティアテンションを用いた3次元拡散における構造的優先事項
Spice-E : Structural Priors in 3D Diffusion using Cross-Entity Attention ( http://arxiv.org/abs/2311.17834v4 ) ライセンス: Link先を確認 | Etai Sella, Gal Fiebelman, Noam Atia, Hadar Averbuch-Elor, | (参考訳) 我々は、事前訓練されたテキストイメージ拡散モデルが利用可能であることから、3Dアセットの自動生成と操作の急速な進歩を目の当たりにしている。
しかし、各サンプルの合成には時間を要する最適化手順が必要であり、3Dコンテンツ作成の民主化の可能性を妨げている。
逆に、3D拡散モデルでは、数百万スケールの3Dデータセットをトレーニングし、高品質なテキスト条件の3Dサンプルを数秒で生成する。
本研究では,3次元拡散モデルに構造的ガイダンスを加えたニューラルネットワークであるSpice-Eについて述べる。
このフレームワークの中核となるのは、複数のエンティティ(特にペア入力と誘導3D形状)が、認知ネットワーク内の内部表現を介して対話できる、クロスエンタリティアテンション機構の導入である。
本機構は,3次元拡散モデルにおけるタスク固有の構造的先行点の学習に有効である。
提案手法は, 3次元スタイリング, 意味的形状の編集, テキスト条件の抽象化-to-3Dなど, プリミティブな抽象化を高度に表現可能な形状に変換する様々なアプリケーションをサポートする。
大規模な実験により、Spice-Eはこれらのタスクに対してSOTA性能を達成する一方で、代替手法よりもかなり高速であることが示された。
重要なことは、これは特定のタスクにアプローチを合わせることなく達成されます。
We are witnessing rapid progress in automatically generating and manipulating 3D assets due to the availability of pretrained text-image diffusion models. However, time-consuming optimization procedures are required for synthesizing each sample, hindering their potential for democratizing 3D content creation. Conversely, 3D diffusion models now train on million-scale 3D datasets, yielding high-quality text-conditional 3D samples within seconds. In this work, we present Spice-E - a neural network that adds structural guidance to 3D diffusion models, extending their usage beyond text-conditional generation. At its core, our framework introduces a cross-entity attention mechanism that allows for multiple entities (in particular, paired input and guidance 3D shapes) to interact via their internal representations within the denoising network. We utilize this mechanism for learning task-specific structural priors in 3D diffusion models from auxiliary guidance shapes. We show that our approach supports a variety of applications, including 3D stylization, semantic shape editing and text-conditional abstraction-to-3D, which transforms primitive-based abstractions into highly-expressive shapes. Extensive experiments demonstrate that Spice-E achieves SOTA performance over these tasks while often being considerably faster than alternative methods. Importantly, this is accomplished without tailoring our approach for any specific task. | 翻訳日:2024-05-09 11:28:08 公開日:2024-05-08 |
# LLM-Symbolic Theoremによる自然言語説明の検証と再定義
Verification and Refinement of Natural Language Explanations through LLM-Symbolic Theorem Proving ( http://arxiv.org/abs/2405.01379v2 ) ライセンス: Link先を確認 | Xin Quan, Marco Valentino, Louise A. Dennis, André Freitas, | (参考訳) 自然言語の説明は、説明可能な多段階の自然言語推論(NLI)モデルを評価するためのプロキシとなっている。
しかしながら、NLIの説明の妥当性を評価することは、一般的には、時間をかけて論理的エラーを起こすプロセスである、アポサイトデータセットのクラウドソーシングを伴うため、難しい。
本稿では,Large Language Models (LLMs) と Theorem Provers (TPs) を統合した自然言語説明の検証と改善について検討する。
具体的には、説明文の生成と形式化、NLIの潜在的な推論戦略を提案するために、LPMによるTPを増強するExplanation-Refinerというニューロシンボリックなフレームワークを提案する。
代わりに、TPは説明の論理的妥当性を公式に保証し、その後の改善のためのフィードバックを生成するために使用される。
本研究では, 説明的推論, 自己形式化, 誤り訂正機構の評価を共同で行うこと, および, 異なる領域における可変複雑性の人為的な説明の質を自動的に向上させることを実証する。
Natural language explanations have become a proxy for evaluating explainable and multi-step Natural Language Inference (NLI) models. However, assessing the validity of explanations for NLI is challenging as it typically involves the crowd-sourcing of apposite datasets, a process that is time-consuming and prone to logical errors. To address existing limitations, this paper investigates the verification and refinement of natural language explanations through the integration of Large Language Models (LLMs) and Theorem Provers (TPs). Specifically, we present a neuro-symbolic framework, named Explanation-Refiner, that augments a TP with LLMs to generate and formalise explanatory sentences and suggest potential inference strategies for NLI. In turn, the TP is employed to provide formal guarantees on the logical validity of the explanations and to generate feedback for subsequent improvements. We demonstrate how Explanation-Refiner can be jointly used to evaluate explanatory reasoning, autoformalisation, and error correction mechanisms of state-of-the-art LLMs as well as to automatically enhance the quality of human-annotated explanations of variable complexity in different domains. | 翻訳日:2024-05-09 11:24:41 公開日:2024-05-08 |
# 長期記憶ニューラルネットワークを用いたフェリー乗客流の予測
Forecasting Ferry Passenger Flow Using Long-Short Term Memory Neural Networks ( http://arxiv.org/abs/2405.02098v2 ) ライセンス: Link先を確認 | Daniel Fesalbon, | (参考訳) ニューラルネットワークに関する最近の研究は、様々な予測や時系列調査に使われているが、この研究は、これらの文脈を旅客輸送に拡大することを目的としている。
本研究の主な目的は、フィリピンの2つの港のフェリー客を予測できるLSTMベースのニューラルネットワークの能力を調査し、評価することである。
提案モデルでは, フィリピン港湾庁 (PPA) から取得した2016年から2022年までの月毎の旅客交通量に基づいて, 両港の旅客フロー予測の適合と評価を行った。
この作業では、モデルの予測能力を評価するために、MAPE(Mean Absolute Percentage Error)を主要な指標として使用します。
提案したLSTMベースのニューラルネットワークモデルでは,バタンガス港フェリーの乗客データに対して72%の精度,ミンドロ港フェリーの乗客データに対して74%の精度で予測された。
Keras と Scikit-learn Python ライブラリを使用して、提案した LSTM モデルの性能を合理的に予測する。
これらの顕著な発見とは別に、本研究では、他の統計的、機械学習、深層学習手法を用いたフェリーの旅客流予測のさらなる調査と研究を推奨する。
With recent studies related to Neural Networks being used on different forecasting and time series investigations, this study aims to expand these contexts to ferry passenger traffic. The primary objective of the study is to investigate and evaluate an LSTM-based Neural Networks' capability to forecast ferry passengers of two ports in the Philippines. The proposed model's fitting and evaluation of the passenger flow forecasting of the two ports is based on monthly passenger traffic from 2016 to 2022 data that was acquired from the Philippine Ports Authority (PPA). This work uses Mean Absolute Percentage Error (MAPE) as its primary metric to evaluate the model's forecasting capability. The proposed LSTM-based Neural Networks model achieved 72% forecasting accuracy to the Batangas port ferry passenger data and 74% forecasting accuracy to the Mindoro port ferry passenger data. Using Keras and Scikit-learn Python libraries, this work concludes a reasonable forecasting performance of the presented LSTM model. Aside from these notable findings, this study also recommends further investigation and studies on employing other statistical, machine learning, and deep learning methods on forecasting ferry passenger flows. | 翻訳日:2024-05-09 11:24:41 公開日:2024-05-08 |
# LLMのスケールと精度における能力の定量化
Quantifying the Capabilities of LLMs across Scale and Precision ( http://arxiv.org/abs/2405.03146v2 ) ライセンス: Link先を確認 | Sher Badshah, Hassan Sajjad, | (参考訳) スケールはしばしば、LLMのパフォーマンスが向上する要因の1つと考えられており、結果として数十億のパラメータを持つモデルが生成される。
このような大きなモデルの制限の1つは、リソース制約のあるシナリオでの使用、デプロイ、デバッグを制限する高い計算要求である。
これらの制限を回避するための2つの一般的な代替手段は、LLMのより小さなバージョン(例えばLlama 70Bの代わりにLlama 7B)を使用することと、量子化によるメモリ要求の低減である。
これらのアプローチはリソースの制限に効果的に対処するが、モデルの性能への影響は徹底的な検査が必要である。
本研究では,モデルスケールと量子化が性能に与える影響を総合評価する。
我々は、70億から70億のパラメータからなるオープンソースのインストラクションモデルの2つの主要なファミリーを実験した。
自然言語理解、推論、誤情報検出、幻覚など、さまざまなタスクにわたる大規模なゼロショット実験により、より大きなモデルがより小さなモデルを上回ることが判明した。
より大規模なモデルでは、精度の低下に対して例外的なレジリエンスを示し、多くのタスクに対して4ビット量子化でも高い精度を維持することができ、同様のメモリ要件下での高精度でより小さなモデルを使用するよりも優れた解法として機能することを発見した。
Scale is often attributed as one of the factors that cause an increase in the performance of LLMs, resulting in models with billion and trillion parameters. One of the limitations of such large models is the high computational requirements that limit their usage, deployment, and debugging in resource-constrained scenarios. Two commonly used alternatives to bypass these limitations are to use the smaller versions of LLMs (e.g. Llama 7B instead of Llama 70B) and lower the memory requirements by using quantization. While these approaches effectively address the limitation of resources, their impact on model performance needs thorough examination. In this study, we perform a comprehensive evaluation to investigate the effect of model scale and quantization on the performance. We experiment with two major families of open-source instruct models ranging from 7 billion to 70 billion parameters. Our extensive zero-shot experiments across various tasks including natural language understanding, reasoning, misinformation detection, and hallucination reveal that larger models generally outperform their smaller counterparts, suggesting that scale remains an important factor in enhancing performance. We found that larger models show exceptional resilience to precision reduction and can maintain high accuracy even at 4-bit quantization for numerous tasks and they serve as a better solution than using smaller models at high precision under similar memory requirements. | 翻訳日:2024-05-09 11:24:41 公開日:2024-05-08 |
# 検索型連続プロンプト学習によるLLMの生涯知識編集
Lifelong Knowledge Editing for LLMs with Retrieval-Augmented Continuous Prompt Learning ( http://arxiv.org/abs/2405.03279v2 ) ライセンス: Link先を確認 | Qizhou Chen, Taolin Zhang, Xiaofeng He, Dongyang Li, Chengyu Wang, Longtao Huang, Hui Xue, | (参考訳) モデル編集は、大規模言語モデル(LLM)における古い知識や誤った知識を、コストのかかる再トレーニングを必要とせずに修正することを目的としている。
LLMの継続的な編集要件を満たす最も難しいタスクは、生涯モデル編集である。
それにもかかわらず、これらの手法は破滅的な知識の忘れとモデル性能の劣化により、生涯にわたる編集シナリオでは不足している。
検索に基づく手法はこれらの問題を緩和するが、検索した知識をモデルに組み込むのが遅くて面倒なプロセスによって妨げられる。
本研究では,RetriEval-augmented ContInuous Prompt lEarning法であるRECIPEを導入し,生涯学習における編集効率と推論効率を向上させる。
RECIPEはまず、知識文をLLMの入力クエリを埋め込んだ短い情報的連続的なプロンプトに変換し、知識に基づく応答を効率的に洗練する。
さらに、動的しきい値を計算する仲介役として機能する知識センタネル(KS)を統合し、検索リポジトリに関連する知識が含まれているかどうかを判断する。
我々のレトリバーとプロンプトエンコーダは、編集特性、すなわち信頼性、一般性、局所性を達成するために共同で訓練されている。
我々の実験では、RECIPEは複数のLCMにまたがって広範囲に評価され、編集性能が向上する。
RECIPEはまた、高速な編集と推論速度を示すとともに、LLMの全体的な性能を維持する能力を示している。
Model editing aims to correct outdated or erroneous knowledge in large language models (LLMs) without the need for costly retraining. Lifelong model editing is the most challenging task that caters to the continuous editing requirements of LLMs. Prior works primarily focus on single or batch editing; nevertheless, these methods fall short in lifelong editing scenarios due to catastrophic knowledge forgetting and the degradation of model performance. Although retrieval-based methods alleviate these issues, they are impeded by slow and cumbersome processes of integrating the retrieved knowledge into the model. In this work, we introduce RECIPE, a RetriEval-augmented ContInuous Prompt lEarning method, to boost editing efficacy and inference efficiency in lifelong learning. RECIPE first converts knowledge statements into short and informative continuous prompts, prefixed to the LLM's input query embedding, to efficiently refine the response grounded on the knowledge. It further integrates the Knowledge Sentinel (KS) that acts as an intermediary to calculate a dynamic threshold, determining whether the retrieval repository contains relevant knowledge. Our retriever and prompt encoder are jointly trained to achieve editing properties, i.e., reliability, generality, and locality. In our experiments, RECIPE is assessed extensively across multiple LLMs and editing datasets, where it achieves superior editing performance. RECIPE also demonstrates its capability to maintain the overall performance of LLMs alongside showcasing fast editing and inference speed. | 翻訳日:2024-05-09 11:24:40 公開日:2024-05-08 |
# CRA5: 効率的な変圧器による可搬型気候・気象研究のためのERA5の極端圧縮
CRA5: Extreme Compression of ERA5 for Portable Global Climate and Weather Research via an Efficient Variational Transformer ( http://arxiv.org/abs/2405.03376v2 ) ライセンス: Link先を確認 | Tao Han, Zhenghao Chen, Song Guo, Wanghan Xu, Lei Bai, | (参考訳) データ駆動型天気予報モデルの出現は、数百テラバイト(TB)のリアナリシスデータから学習し、かなり高度な予報能力を持っている。
しかし、データストレージと送信に関連するかなりのコストは、データプロバイダとユーザにとって大きな課題となり、リソース制約のある研究者に影響を与え、AIベースの気象研究に参加するためのアクセシビリティを制限する。
この問題を軽減するため、気候データの極端な圧縮のための効率的なニューラルコーデックであるVAEformerを導入し、データ保存コストを大幅に削減し、AIベースの気象研究を研究者にポータブルにする。
提案手法は,低複雑性オートエンコーダ変換器を用いて,近年の複雑なニューラルコーデックから分岐する。
このエンコーダは分散推論を通じて量子化された潜在表現を生成し、これは潜在空間をガウス分布として再パラメータ化する。
この方法は、クロスエントロピー符号化のための分布推定を改善する。
我々のVAEformerは、気候データの文脈において、既存の最先端の圧縮方法よりも優れています。
VAEformerを適用することで、最も人気のあるERA5気候データセット(226 TB)を新しいデータセットCRA5(0.7 TB)に圧縮しました。
これは、正確な科学的分析のためにデータセットの有用性を維持しながら、300以上の圧縮比に変換される。
さらに、下流実験では、コンパクトなCRA5データセットでトレーニングされた地球規模の天気予報モデルが、元のデータセットでトレーニングされたモデルに匹敵する予測精度を達成することが示されている。
コード、CRA5データセット、事前トレーニングされたモデルはhttps://github.com/taohan10200/CRA5.comで入手できる。
The advent of data-driven weather forecasting models, which learn from hundreds of terabytes (TB) of reanalysis data, has significantly advanced forecasting capabilities. However, the substantial costs associated with data storage and transmission present a major challenge for data providers and users, affecting resource-constrained researchers and limiting their accessibility to participate in AI-based meteorological research. To mitigate this issue, we introduce an efficient neural codec, the Variational Autoencoder Transformer (VAEformer), for extreme compression of climate data to significantly reduce data storage cost, making AI-based meteorological research portable to researchers. Our approach diverges from recent complex neural codecs by utilizing a low-complexity Auto-Encoder transformer. This encoder produces a quantized latent representation through variance inference, which reparameterizes the latent space as a Gaussian distribution. This method improves the estimation of distributions for cross-entropy coding. Extensive experiments demonstrate that our VAEformer outperforms existing state-of-the-art compression methods in the context of climate data. By applying our VAEformer, we compressed the most popular ERA5 climate dataset (226 TB) into a new dataset, CRA5 (0.7 TB). This translates to a compression ratio of over 300 while retaining the dataset's utility for accurate scientific analysis. Further, downstream experiments show that global weather forecasting models trained on the compact CRA5 dataset achieve forecasting accuracy comparable to the model trained on the original dataset. Code, the CRA5 dataset, and the pre-trained model are available at https://github.com/taohan10200/CRA5. | 翻訳日:2024-05-09 11:24:40 公開日:2024-05-08 |
# 共鳴蛍光のマルチモードアレイフィルタ
Multi-Mode Array Filtering of Resonance Fluorescence ( http://arxiv.org/abs/2405.03900v2 ) ライセンス: Link先を確認 | Jacob Ngaha, Scott Parkins, Howard J. Carmichael, | (参考訳) 本稿では,周波数フィルタによる光子相関の測定と計算のための新しい周波数フィルタ法を提案する。
本手法は共振器を多モードアレイフィルタと呼ぶ空洞型システムであり,周波数が等間隔である可変単一モードキャビティのアレイで構成されている。
モード依存位相変調を導入することで、周波数分離を犠牲にすることなく、ほぼ長方形の周波数応答を生成する。
フィルタのバックアクションを完全に無視するカスケード量子オープンシステムアプローチを用いて周波数フィルタリングをモデル化する。
これにより、ソースおよびフィルタ系演算子に対する閉作用素モーメント方程式の導出が可能となり、周波数フィルタリングされた1次および2次相関関数を計算するための極めて効率的な方法が提供される。
共振駆動2レベル原子に印加することで, この新しいフィルタ法を実証する。
単一モードフィルタ上でのマルチモードアレイフィルタの周波数分離を改良した周波数フィルタパワースペクトルの例を示す。
次に、単モードおよび多モードアレイフィルタによる2階自動・相互相関関数の結果を示す。
これらは俗的な近似から派生した表現と比較される。
マルチモードアレイフィルタの周波数分離の改善により、2光子跳躍過程のような周波数フィルタリング光子相関の新たな状態と、フィルタされた自己相関関数に対する帯域幅の消滅の影響を解明することができる。
We present a novel frequency-filtering method for measuring and calculating frequency-filtered photon-correlations. This novel method is a cavity-based system we call the multi-mode array filter, which consists of an array of tunable single-mode cavities that are equally spaced in frequency. By introducing a mode-dependent phase modulation, we produce a near rectangular frequency response, allowing us to increase the filter bandwidth -- and thus the temporal response -- without sacrificing frequency isolation. We model the frequency filtering using a cascaded quantum open systems approach which completely neglects any back-action of the filter onto the source system. This allows us to derive a closed set of operator moment equations for source and filter system operators, thus providing an extremely efficient method to calculate frequency-filtered first- and second-order correlation functions. We demonstrate this novel filtering method by applying it to a resonantly driven two-level atom. We present examples of frequency-filtered power spectra to demonstrate the improved frequency isolation of the multi-mode array filter over the single-mode filter. We then present results for the single-mode and multi-mode-array filtered second-order auto- and cross-correlation functions. These are compared against expressions derived in the secular approximation. The improved frequency isolation of the multi-mode array filter allows us to investigate new regimes of frequency-filtered photon correlations, such as two-photon leapfrog processes, and the effect of vanishing bandwidth on filtered auto-correlation functions. | 翻訳日:2024-05-09 11:24:40 公開日:2024-05-08 |
# CleanGraph: ヒューマン・イン・ザ・ループの知識グラフのリファインメントとコンプリート
CleanGraph: Human-in-the-loop Knowledge Graph Refinement and Completion ( http://arxiv.org/abs/2405.03932v2 ) ライセンス: Link先を確認 | Tyler Bikaun, Michael Stewart, Wei Liu, | (参考訳) 本稿では,知識グラフの洗練と完成を容易にするインタラクティブなWebベースツールであるCleanGraphを提案する。
高品質でエラーのない事実に根ざした知識グラフの信頼性を維持することは、質問応答や情報検索システムといった現実世界のアプリケーションにとって不可欠である。
これらのグラフは、しばしば、情報抽出を通じて意味的な三つ組を抽出することで、テキストソースから自動的に組み立てられる。
しかし、特に大規模なデータセットや低品質データセットを扱う場合、抽出されたトリプルの品質を保証することは大きな課題となり、下流アプリケーションの性能に悪影響を及ぼす可能性がある。
CleanGraphを使用すると、ユーザはグラフ上でCreate, Read, Update, Delete (CRUD)操作を実行でき、グラフのリファインメントと完了タスクのためのプラグインの形式でモデルを適用することができる。
これらの機能により、ユーザはグラフデータの完全性と信頼性を高めることができる。
CleanGraphとそのソースコードのデモは、MITライセンス下でhttps://github.com/nlp-tlp/CleanGraphでアクセスすることができる。
This paper presents CleanGraph, an interactive web-based tool designed to facilitate the refinement and completion of knowledge graphs. Maintaining the reliability of knowledge graphs, which are grounded in high-quality and error-free facts, is crucial for real-world applications such as question-answering and information retrieval systems. These graphs are often automatically assembled from textual sources by extracting semantic triples via information extraction. However, assuring the quality of these extracted triples, especially when dealing with large or low-quality datasets, can pose a significant challenge and adversely affect the performance of downstream applications. CleanGraph allows users to perform Create, Read, Update, and Delete (CRUD) operations on their graphs, as well as apply models in the form of plugins for graph refinement and completion tasks. These functionalities enable users to enhance the integrity and reliability of their graph data. A demonstration of CleanGraph and its source code can be accessed at https://github.com/nlp-tlp/CleanGraph under the MIT License. | 翻訳日:2024-05-09 11:24:40 公開日:2024-05-08 |
# 潜流による化学空間の航行
Navigating Chemical Space with Latent Flows ( http://arxiv.org/abs/2405.03987v2 ) ライセンス: Link先を確認 | Guanghao Wei, Yining Huang, Chenru Duan, Yue Song, Yuanqi Du, | (参考訳) ビジョンと言語領域における深層生成モデルの最近の進歩は、分子のようなより構造化されたデータ生成に大きな関心を喚起している。
しかし、新しいランダム分子の生成、効率的な探索、広大な化学空間の包括的理解は、分子科学と薬物設計および物質発見への応用において非常に重要である。
本稿では,分子生成モデルによって学習された潜伏空間をフローを通してナビゲートすることで,化学空間を横断する新しいフレームワークであるChemFlowを提案する。
分子分布の質量を所望の分子特性や構造多様性を持つ領域へ輸送するベクトル場を学習するために問題を定式化する力学系の観点を導入する。
本枠組みでは, 分子潜在空間トラバーサルと最適化に関する従来のアプローチを統一し, 異なる物理項を組み込んだ競合手法を提案する。
分子操作におけるChemFlowの有効性と,分子探索と教師なしの両方の条件下での単目的および多目的分子最適化タスクの有効性を検証した。
コードとデモはGitHubでhttps://github.com/garywei944/ChemFlowで公開されている。
Recent progress of deep generative models in the vision and language domain has stimulated significant interest in more structured data generation such as molecules. However, beyond generating new random molecules, efficient exploration and a comprehensive understanding of the vast chemical space are of great importance to molecular science and applications in drug design and materials discovery. In this paper, we propose a new framework, ChemFlow, to traverse chemical space through navigating the latent space learned by molecule generative models through flows. We introduce a dynamical system perspective that formulates the problem as learning a vector field that transports the mass of the molecular distribution to the region with desired molecular properties or structure diversity. Under this framework, we unify previous approaches on molecule latent space traversal and optimization and propose alternative competing methods incorporating different physical priors. We validate the efficacy of ChemFlow on molecule manipulation and single- and multi-objective molecule optimization tasks under both supervised and unsupervised molecular discovery settings. Codes and demos are publicly available on GitHub at https://github.com/garywei944/ChemFlow. | 翻訳日:2024-05-09 11:24:40 公開日:2024-05-08 |
# Inf-DiT:メモリ効率のよい拡散変換器による任意の解像のアップサンプリング
Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer ( http://arxiv.org/abs/2405.04312v2 ) ライセンス: Link先を確認 | Zhuoyi Yang, Heyang Jiang, Wenyi Hong, Jiayan Teng, Wendi Zheng, Yuxiao Dong, Ming Ding, Jie Tang, | (参考訳) 近年,拡散モデルは画像生成において顕著な性能を示した。
しかし、超高解像度画像(例えば4096*4096)の生成中のメモリの2次増加により、生成された画像の解像度は1024*1024に制限されることが多い。
この作品。
我々は,推論プロセス中にメモリオーバーヘッドを適応的に調整し,グローバルな依存関係を処理できる一方向ブロックアテンション機構を提案する。
このモジュール上に構築したDiT構造を用いて,様々な形状や解像度の画像のアップサンプリングが可能な無限超解像モデルを開発した。
包括的実験により,本モデルは,マシンと人の両方で超高解像度画像を生成する上で,SOTA性能を実現することが示された。
一般的なUNet構造と比較して、4096*4096画像を生成する場合、我々のモデルは5倍以上のメモリを保存できる。
プロジェクトのURLはhttps://github.com/THUDM/Inf-DiT。
Diffusion models have shown remarkable performance in image generation in recent years. However, due to a quadratic increase in memory during generating ultra-high-resolution images (e.g. 4096*4096), the resolution of generated images is often limited to 1024*1024. In this work. we propose a unidirectional block attention mechanism that can adaptively adjust the memory overhead during the inference process and handle global dependencies. Building on this module, we adopt the DiT structure for upsampling and develop an infinite super-resolution model capable of upsampling images of various shapes and resolutions. Comprehensive experiments show that our model achieves SOTA performance in generating ultra-high-resolution images in both machine and human evaluation. Compared to commonly used UNet structures, our model can save more than 5x memory when generating 4096*4096 images. The project URL is https://github.com/THUDM/Inf-DiT. | 翻訳日:2024-05-09 11:24:40 公開日:2024-05-08 |
# DeepSeek-V2: 強力な、経済的、効率的混合型言語モデル
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model ( http://arxiv.org/abs/2405.04434v2 ) ライセンス: Link先を確認 | DeepSeek-AI, | (参考訳) We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference。
合計パラメータは236Bで、そのうち21Bはトークンごとに活性化され、128Kトークンのコンテキスト長をサポートする。
DeepSeek-V2は、MLA(Multi-head Latent Attention)やDeepSeekMoEといった革新的なアーキテクチャを採用している。
MLAはキーバリュー(KV)キャッシュを潜在ベクトルに大幅に圧縮することで効率的な推論を保証する一方、DeepSeekMoEはスパース計算によって経済的コストで強力なモデルをトレーニングすることができる。
DeepSeek-V2はDeepSeek 67Bと比較して大幅にパフォーマンスが向上し、トレーニングコストの42.5%を削減し、KVキャッシュを93.3%削減し、最大生成スループットを5.76倍に向上させた。
我々は8.1Tトークンからなる高品質でマルチソースなコーパスでDeepSeek-V2を事前訓練し、その可能性を完全に解放するために、Supervised Fine-Tuning (SFT)とReinforcement Learning (RL)を実行した。
評価結果によると、21Bのアクティベートパラメータしか持たないDeepSeek-V2とそのチャットバージョンは、オープンソースモデルの中でも最高レベルのパフォーマンスを実現している。
We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference. It comprises 236B total parameters, of which 21B are activated for each token, and supports a context length of 128K tokens. DeepSeek-V2 adopts innovative architectures including Multi-head Latent Attention (MLA) and DeepSeekMoE. MLA guarantees efficient inference through significantly compressing the Key-Value (KV) cache into a latent vector, while DeepSeekMoE enables training strong models at an economical cost through sparse computation. Compared with DeepSeek 67B, DeepSeek-V2 achieves significantly stronger performance, and meanwhile saves 42.5% of training costs, reduces the KV cache by 93.3%, and boosts the maximum generation throughput to 5.76 times. We pretrain DeepSeek-V2 on a high-quality and multi-source corpus consisting of 8.1T tokens, and further perform Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) to fully unlock its potential. Evaluation results show that, even with only 21B activated parameters, DeepSeek-V2 and its chat versions still achieve top-tier performance among open-source models. | 翻訳日:2024-05-09 11:24:40 公開日:2024-05-08 |