このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240509となっている論文です。

PDF登録状況(公開日: 20240509)

TitleAuthorsAbstract論文公表日・翻訳日
# LMVD:野生における抑うつ検出のための大規模マルチモーダルVlogデータセット

LMVD: A Large-Scale Multimodal Vlog Dataset for Depression Detection in the Wild ( http://arxiv.org/abs/2407.00024v1 )

ライセンス: Link先を確認
Lang He, Kai Chen, Junnan Zhao, Yimeng Wang, Ercheng Pei, Haifeng Chen, Jiewei Jiang, Shiqing Zhang, Jie Zhang, Zhongmin Wang, Tao He, Prayag Tiwari, (参考訳) 抑うつは個人の生活の多くの側面、例えば、個人的、社会的機能、学術的、仕事的パフォーマンス、そして全体の生活の質に大きく影響する。 感情コンピューティングの分野における多くの研究者は、うつ病の検出に関連する潜在的なパターンを探るため、ディープラーニング技術を採用している。 しかし、被験者のプライバシー保護の懸念から、この領域のデータはまだ乏しいため、うつ病の検知に使用される深い差別モデルに対する課題が提示されている。 これらの障害をナビゲートするために、野生でのうつ認識のための大規模マルチモーダルvlogデータセット(LMVD)が構築されている。 LMVDでは、1475人の参加者のうち214時間のサンプルが4つのマルチメディアプラットフォーム(Sina Weibo、Bilibili、Tiktok、YouTube)から収集された。 個人の非言語行動を学ぶためのMDDformerと呼ばれる新しいアーキテクチャを提案する。 LMVDデータセット上で大規模な検証を行い、抑うつ検出の優れた性能を示す。 我々は,LMVDがうつ病検出コミュニティに有用な機能をもたらすことを期待している。 データとコードはリンクで公開される。 https://github.com/helang818/LMVD/。

Depression can significantly impact many aspects of an individual's life, including their personal and social functioning, academic and work performance, and overall quality of life. Many researchers within the field of affective computing are adopting deep learning technology to explore potential patterns related to the detection of depression. However, because of subjects' privacy protection concerns, that data in this area is still scarce, presenting a challenge for the deep discriminative models used in detecting depression. To navigate these obstacles, a large-scale multimodal vlog dataset (LMVD), for depression recognition in the wild is built. In LMVD, which has 1823 samples with 214 hours of the 1475 participants captured from four multimedia platforms (Sina Weibo, Bilibili, Tiktok, and YouTube). A novel architecture termed MDDformer to learn the non-verbal behaviors of individuals is proposed. Extensive validations are performed on the LMVD dataset, demonstrating superior performance for depression detection. We anticipate that the LMVD will contribute a valuable function to the depression detection community. The data and code will released at the link: https://github.com/helang818/LMVD/.
翻訳日:2024-07-22 22:48:25 公開日:2024-05-09
# ニューラルネットワークを用いたゲームAIの高能率可視性近似

Efficient Visibility Approximation for Game AI using Neural Omnidirectional Distance Fields ( http://arxiv.org/abs/2407.03330v1 )

ライセンス: Link先を確認
Zhi Ying, Nicholas Edwards, Mikhail Kutuzov, (参考訳) 可視性情報はゲームAIアプリケーションでは重要であるが、レイキャスト方式の計算コストはリアルタイムシステムにおいて課題となる。 この課題に対処するために、分割されたゲームシーンをニューラルなOmnidirectional Distance Fields (ODF) として表現する新しい手法を提案する。 各位置について、球面からの全方位距離データをUV面にマッピングする。 次に、多分解能グリッドと双線形補間機能を使って方向を符号化する。 これにより、コンパクトな多層パーセプトロン(MLP)を用いて、これらの位置における高周波方向距離データを再構成し、高速な推論速度を確保することができる。 オフライン実験とゲーム内評価により,本手法の有効性を実証する。 ゲーム内評価では,3つの場面でレイキャスティングに基づく可視性テストと並べて比較する。 小型MLP (128ニューロンと2層) を用いて, 平均冷間開始速度は9.35倍, 温間開始速度は4.8倍となる。 また,映像の特徴によって評価時間が影響を受けるレイキャスト方式とは異なり,評価時間は一定である。

Visibility information is critical in game AI applications, but the computational cost of raycasting-based methods poses a challenge for real-time systems. To address this challenge, we propose a novel method that represents a partitioned game scene as neural Omnidirectional Distance Fields (ODFs), allowing scalable and efficient visibility approximation between positions without raycasting. For each position of interest, we map its omnidirectional distance data from the spherical surface onto a UV plane. We then use multi-resolution grids and bilinearly interpolated features to encode directions. This allows us to use a compact multi-layer perceptron (MLP) to reconstruct the high-frequency directional distance data at these positions, ensuring fast inference speed. We demonstrate the effectiveness of our method through offline experiments and in-game evaluation. For in-game evaluation, we conduct a side-by-side comparison with raycasting-based visibility tests in three different scenes. Using a compact MLP (128 neurons and 2 layers), our method achieves an average cold start speedup of 9.35 times and warm start speedup of 4.8 times across these scenes. In addition, unlike the raycasting-based method, whose evaluation time is affected by the characteristics of the scenes, our method's evaluation time remains constant.
翻訳日:2024-07-22 22:18:55 公開日:2024-05-09
# Anole: モバイルデバイス上でのクロスシーン予測に、さまざまな圧縮モデルを適用する

Anole: Adapting Diverse Compressed Models For Cross-Scene Prediction On Mobile Devices ( http://arxiv.org/abs/2407.03331v1 )

ライセンス: Link先を確認
Yunzhe Li, Hongzi Zhu, Zhuohong Deng, Yunlong Cheng, Liang Zhang, Shan Chang, Minyi Guo, (参考訳) Emerging Artificial Intelligence of Things (AIoT)アプリケーションは、モバイルデバイス上でのディープニューラルネットワーク(DNN)モデルを使用したオンライン予測を望んでいる。 しかし、装置の移動により、不慣れなサンプルが常に現れ、事前訓練されたDNNの予測精度に大きな影響を及ぼす。 さらに、不安定なネットワーク接続は局所モデル推論を要求する。 本稿では,モバイル端末上でのローカルDNNモデル推論に対処する軽量方式であるAnoleを提案する。 Anoleの中核となる考え方は、まずコンパクトなDNNモデル群を確立し、次にオンライン推論に最適な現在のテストサンプルに適合するモデルを適応的に選択することである。 重要なのは、シーン固有のDNNモデルをトレーニングするためのモデルフレンドリーなシーンを自動的に識別することだ。 この目的のために,人間のヒューリスティックとシーン分離における特徴的類似性を両立させて,弱教師付きシーン表現学習アルゴリズムを設計する。 さらに、テストサンプル毎に最適なシーン特化DNNモデルを予測するために、モデル分類器を訓練する。 我々は、さまざまなタイプのモバイルデバイスにAnoleを実装し、無人航空機(UAV)に基づく広範囲なトレース駆動および実世界の実験を行う。 その結果、Anoleは予測精度(4.5%高い)、応答時間(33.1%速い)、消費電力(45.1%低い)で多用途の大規模DNNを使用する方法よりも優れていることが示された。

Emerging Artificial Intelligence of Things (AIoT) applications desire online prediction using deep neural network (DNN) models on mobile devices. However, due to the movement of devices, unfamiliar test samples constantly appear, significantly affecting the prediction accuracy of a pre-trained DNN. In addition, unstable network connection calls for local model inference. In this paper, we propose a light-weight scheme, called Anole, to cope with the local DNN model inference on mobile devices. The core idea of Anole is to first establish an army of compact DNN models, and then adaptively select the model fitting the current test sample best for online inference. The key is to automatically identify model-friendly scenes for training scene-specific DNN models. To this end, we design a weakly-supervised scene representation learning algorithm by combining both human heuristics and feature similarity in separating scenes. Moreover, we further train a model classifier to predict the best-fit scene-specific DNN model for each test sample. We implement Anole on different types of mobile devices and conduct extensive trace-driven and real-world experiments based on unmanned aerial vehicles (UAVs). The results demonstrate that Anole outwits the method of using a versatile large DNN in terms of prediction accuracy (4.5% higher), response time (33.1% faster) and power consumption (45.1% lower).
翻訳日:2024-07-22 22:18:55 公開日:2024-05-09
# DDPM-MoCo: 生成・コントラスト学習による産業用表面欠陥生成と検出の促進

DDPM-MoCo: Advancing Industrial Surface Defect Generation and Detection with Generative and Contrastive Learning ( http://arxiv.org/abs/2407.03332v1 )

ライセンス: Link先を確認
Yangfan He, Xinyan Wang, Tianyu Shi, (参考訳) 深層学習に基づく産業的検出の課題は,(1)十分かつ効果的なデータサンプルの取得,(2)効率的かつ便利なモデルトレーニング手法の使用,という2つの問題を解決することを伴うことが多い。 本稿では,これらの問題に対処するため,DDPM-MoCoという新しい欠陥発生手法を提案する。 まず,Denoising Diffusion Probabilistic Model (DDPM)を用いて高品質な欠陥データサンプルを生成する。 さらに,非教師付き学習モメンタムコントラストモデル (MoCo) を用いて,拡散モデルトレーニング中の大規模負サンプル符号化における効率と一貫性の問題に対処する。 実験結果は,拡散モデルのトレーニング用ラベル付きサンプルデータから下流検出用ラベル付きサンプルデータまで,プロセス全体をカバーする,金属表面の欠陥を識別する視覚的検出方法の強化を示す。 本研究は,金属加工産業における視覚検出のための実用的知見と応用可能性を提供する。

The task of industrial detection based on deep learning often involves solving two problems: (1) obtaining sufficient and effective data samples, (2) and using efficient and convenient model training methods. In this paper, we introduce a novel defect-generation method, named DDPM-MoCo, to address these issues. Firstly, we utilize the Denoising Diffusion Probabilistic Model (DDPM) to generate high-quality defect data samples, overcoming the problem of insufficient sample data for model learning. Furthermore, we utilize the unsupervised learning Momentum Contrast model (MoCo) with an enhanced batch contrastive loss function for training the model on unlabeled data, addressing the efficiency and consistency challenges in large-scale negative sample encoding during diffusion model training. The experimental results showcase an enhanced visual detection method for identifying defects on metal surfaces, covering the entire process, starting from generating unlabeled sample data for training the diffusion model, to utilizing the same labeled sample data for downstream detection tasks. This study offers valuable practical insights and application potential for visual detection in the metal processing industry.
翻訳日:2024-07-22 22:18:55 公開日:2024-05-09
# チャネル老化を考慮したRIS支援MIMOシステムの機械学習によるチャネル予測

Machine Learning-Based Channel Prediction for RIS-assisted MIMO Systems With Channel Aging ( http://arxiv.org/abs/2406.07387v1 )

ライセンス: Link先を確認
Nipuni Ginige, Arthur Sousa de Sena, Nurul Huda Mahmood, Nandana Rajatheva, Matti Latva-aho, (参考訳) 再構成可能なインテリジェントサーフェス (RIS) は,第6世代 (6G) および通信システムを越えた性能向上のための有望な技術として登場した。 RISの受動的性質とその多数の反射要素は、チャネル推定プロセスに困難をもたらす。 関連する複雑さは、ユーザモビリティのあるシナリオのように、チャネル係数が高速に変化するときにさらにエスカレートする。 本稿では、畳み込みニューラルネットワーク(CNN)と自己回帰(AR)予測器を統合したRIS支援マルチインプット多重出力(MIMO)システムのための拡張チャネル推定フレームワークを提案する。 実装されたフレームワークは、加齢パターンを識別し、相関した高速フェイディング環境における無線チャネルの高度推定を予測するように設計されている。 その結果,提案手法はチャネルの老化に対して頑健であり,高精度な推定精度を示すことがわかった。 また,本手法は従来の手法に比べて高スペクトル効率,低パイロットオーバヘッドを実現することができることを示した。

Reconfigurable intelligent surfaces (RISs) have emerged as a promising technology to enhance the performance of sixth-generation (6G) and beyond communication systems. The passive nature of RISs and their large number of reflecting elements pose challenges to the channel estimation process. The associated complexity further escalates when the channel coefficients are fast-varying as in scenarios with user mobility. In this paper, we propose an extended channel estimation framework for RIS-assisted multiple-input multiple-output (MIMO) systems based on a convolutional neural network (CNN) integrated with an autoregressive (AR) predictor. The implemented framework is designed for identifying the aging pattern and predicting enhanced estimates of the wireless channels in correlated fast-fading environments. Insightful simulation results demonstrate that our proposed CNN-AR approach is robust to channel aging, exhibiting a high-precision estimation accuracy. The results also show that our approach can achieve high spectral efficiency and low pilot overhead compared to traditional methods.
翻訳日:2024-07-01 08:00:19 公開日:2024-05-09
# ハッカーとしての人工知能:攻撃的セキュリティのためのエージェントの開発

Artificial Intelligence as the New Hacker: Developing Agents for Offensive Security ( http://arxiv.org/abs/2406.07561v1 )

ライセンス: Link先を確認
Leroy Jacob Valencia, (参考訳) サイバーセキュリティの領域では、リアクティブ防衛から攻撃への移行がデジタルインフラを保護する上で重要になっている。 本稿では、人工知能(AI)の攻撃的サイバーセキュリティへの統合について、特にサイバー攻撃をシミュレートし実行するために設計された自律型AIエージェントReaperAIの開発を通して検討する。 GPT-4のような大規模言語モデル(LLM)の機能を活用することで、ReaperAIは、セキュリティ脆弱性を自律的に識別し、悪用し、分析する可能性を実証する。 本研究は、タスク駆動型浸透テストフレームワーク、AI駆動型コマンド生成、高度なプロンプト技術など、一貫性とパフォーマンスを向上させるために使用できる中核的な方法論を概説する。 このAIエージェントは、コンテキスト理解とメモリ保持のためにRetrieval Augmented Generation(RAG)によって強化されたPythonを使用して構造化環境で動作する。 ReaperAIはHack The Boxなどのプラットフォームでテストされ、既知の脆弱性を悪用し、その潜在能力を実証した。 しかし、AIの攻撃的セキュリティへの展開は、重大な倫理的および運用上の課題をもたらす。 エージェントの開発プロセスは、コマンドの実行、エラーハンドリング、倫理的制約の維持の複雑さを明らかにし、将来の強化の領域を強調した。 この研究は、AIが攻撃的セキュリティ戦略をどのように強化できるかを示すことによって、サイバーセキュリティにおけるAIの役割に関する議論に寄与する。 また、サイバーセキュリティツールとのAIインタラクションの洗練、学習メカニズムの強化、攻撃的な役割におけるAIの倫理的ガイドラインの議論など、将来の研究方向性も提案している。 この発見は、サイバーセキュリティにおけるAI実装に対するユニークなアプローチを提唱し、イノベーションを強調している。

In the vast domain of cybersecurity, the transition from reactive defense to offensive has become critical in protecting digital infrastructures. This paper explores the integration of Artificial Intelligence (AI) into offensive cybersecurity, particularly through the development of an autonomous AI agent, ReaperAI, designed to simulate and execute cyberattacks. Leveraging the capabilities of Large Language Models (LLMs) such as GPT-4, ReaperAI demonstrates the potential to identify, exploit, and analyze security vulnerabilities autonomously. This research outlines the core methodologies that can be utilized to increase consistency and performance, including task-driven penetration testing frameworks, AI-driven command generation, and advanced prompting techniques. The AI agent operates within a structured environment using Python, enhanced by Retrieval Augmented Generation (RAG) for contextual understanding and memory retention. ReaperAI was tested on platforms including, Hack The Box, where it successfully exploited known vulnerabilities, demonstrating its potential power. However, the deployment of AI in offensive security presents significant ethical and operational challenges. The agent's development process revealed complexities in command execution, error handling, and maintaining ethical constraints, highlighting areas for future enhancement. This study contributes to the discussion on AI's role in cybersecurity by showcasing how AI can augment offensive security strategies. It also proposes future research directions, including the refinement of AI interactions with cybersecurity tools, enhancement of learning mechanisms, and the discussion of ethical guidelines for AI in offensive roles. The findings advocate for a unique approach to AI implementation in cybersecurity, emphasizing innovation.
翻訳日:2024-07-01 07:50:27 公開日:2024-05-09
# 集合的な光-物質相互作用から生じる神経タンパク質構造における量子強調光保護

Quantum-enhanced photoprotection in neuroprotein architectures emerges from collective light-matter interactions ( http://arxiv.org/abs/2406.15403v1 )

ライセンス: Link先を確認
Hamza Patwa, Nathan S. Babcock, Philip Kurian, (参考訳) ここでは、神経タンパク質構造における超放射能の集合的量子光学効果について研究する。 この現象は、電磁場とトリプトファンクロフォアの組織されたネットワークとの相互作用から生じ、それぞれを2レベル量子エミッタとして効果的にモデル化することができる。 微小管における単一光子超放射能の事前実験に基づいて、室温の最大5倍の静的な乱れに頑健な高量子収率の形で表されるアクチンフィラメント束とアミロイドフィブリルのシミュレーションにおいても、明るい超放射能状態が出現すると予想した。 マイクロチューブやアミロイドフィブリルの場合、熱平衡環境における従来の量子効果の期待に反して、量子収量はシステムサイズの増加とともに増大する。 我々は、単一光子極限におけるクロモフォアネットワークと電磁場との相互作用を記述するオープン量子系に対して、リンドブラッド方程式から導かれる非エルミートハミルトニアンを用いて分析を行う。 我々の現実的な神経タンパク質構造における詳細な量子収率予測 -- 発散した時間スケールで相関する超ラジカル状態と亜ラジカル状態の潜在的な情報処理応用の分析を含む -- は、これらの量子拡張をin vivoで確認するための様々な実験の動機を与え、アルツハイマー病や関連する認知症を含む、強酸化的な病態下で高エネルギーのUV代謝光子放出を散逸または弱変換するメカニズムとして機能する。

We study here the collective quantum optical effect of superradiance in neuroprotein architectures. This phenomenon arises from the interaction of the electromagnetic field with an organized network of tryptophan chromophores, where each can be effectively modeled as a two-level quantum emitter. Building on our prior experimental confirmation of single-photon superradiance in microtubules, we predict that bright superradiant states will also emerge in simulated actin filament bundles and amyloid fibrils, which manifests in the form of high quantum yields that are robust to static disorder up to five times that of room temperature. For microtubules and amyloid fibrils, the quantum yield is enhanced with increasing system size, contrary to the conventional expectations of quantum effects in a thermally equilibrated environment. We conduct our analyses using a non-Hermitian Hamiltonian derived from the Lindblad equation for an open quantum system that describes the interaction of a chromophore network with the electromagnetic field, in the single-photon limit. Our detailed quantum yield predictions in realistic neuroprotein structures -- including analysis of the potential information-processing applications of correlated superradiant and subradiant states at divergent timescales -- provide motivation for a range of in vitro experiments to confirm these quantum enhancements, which can serve in vivo as a mechanism for dissipating or downconverting high-energy UV metabolic photon emissions in intensely oxidative pathological environments, including those found in Alzheimer's disease and related dementias.
翻訳日:2024-07-01 07:11:08 公開日:2024-05-09
# 再構成可能なインテリジェントサーフェス支援6Gネットワークのための機械学習による最適化の概観:強化学習から大規模言語モデルへ

An Overview of Machine Learning-Enabled Optimization for Reconfigurable Intelligent Surfaces-Aided 6G Networks: From Reinforcement Learning to Large Language Models ( http://arxiv.org/abs/2405.17439v1 )

ライセンス: Link先を確認
Hao Zhou, Chengming Hu, Xue Liu, (参考訳) 再構成可能なインテリジェントサーフェス (RIS) は, スマート無線環境における信号伝搬の変換によって, 6G ネットワークにおいて有望な技術となる。 しかし、これはまた、多数の要素と専用の位相シフト最適化のため、ネットワーク管理に重大な複雑さをもたらす。 本研究では、RIS支援6Gネットワークに対する機械学習(ML)対応最適化の概要について述べる。 特に,様々な強化学習(RL)技術,例えば深層Q-ラーニング,マルチエージェント強化学習,転送強化学習,階層強化学習,オフライン強化学習に着目した。 既存の研究と異なり、大規模言語モデル(LLM)がRLとどのように組み合わせてネットワーク最適化問題に対処できるかをさらに議論する。 LLMは、一般化、報酬関数設計、マルチモーダル情報処理などの観点から、RLアルゴリズムの能力を向上する新たな機会を提供することを示している。 最後に、RIS支援6GネットワークにおけるML対応最適化の今後の課題と方向性を明らかにする。

Reconfigurable intelligent surface (RIS) becomes a promising technique for 6G networks by reshaping signal propagation in smart radio environments. However, it also leads to significant complexity for network management due to the large number of elements and dedicated phase-shift optimization. In this work, we provide an overview of machine learning (ML)-enabled optimization for RIS-aided 6G networks. In particular, we focus on various reinforcement learning (RL) techniques, e.g., deep Q-learning, multi-agent reinforcement learning, transfer reinforcement learning, hierarchical reinforcement learning, and offline reinforcement learning. Different from existing studies, this work further discusses how large language models (LLMs) can be combined with RL to handle network optimization problems. It shows that LLM offers new opportunities to enhance the capabilities of RL algorithms in terms of generalization, reward function design, multi-modal information processing, etc. Finally, we identify the future challenges and directions of ML-enabled optimization for RIS-aided 6G networks.
翻訳日:2024-06-02 14:30:04 公開日:2024-05-09
# 結合クラスタ精度に迫る分子電子構造に対するマルチタスク学習

Multi-task learning for molecular electronic structure approaching coupled-cluster accuracy ( http://arxiv.org/abs/2405.12229v1 )

ライセンス: Link先を確認
Hao Tang, Brian Xiao, Wenhao He, Pero Subasic, Avetik R. Harutyunyan, Yao Wang, Fang Liu, Haowei Xu, Ju Li, (参考訳) 機械学習(ML)は量子化学において重要な役割を担い、分子の様々な性質に対する高速かつ評価可能な予測モデルを提供する。 しかし、分子電子特性のほとんどのMLモデルは、トレーニングにおいて基礎となる真理として密度関数理論(DFT)データベースを使用しているため、その予測精度はDFTを超えることはできない。 本研究では, 金標準CCSD(T)計算をトレーニングデータとして, 有機分子の電子構造を統一したML法を開発した。 炭化水素分子を用いたモデルでは, 計算コストと様々な量子化学特性の予測精度の両方において, 広く用いられているB3LYP関数でDFTより優れていた。 本モデルは, CCSD(T)レベルの計算が難しい複素系に対して, その精度と一般化能力を実証し, 基底状態および励起状態特性の両面において芳香族化合物および半伝導性ポリマーに適用する。

Machine learning (ML) plays an important role in quantum chemistry, providing fast-to-evaluate predictive models for various properties of molecules. However, as most existing ML models for molecular electronic properties use density function theory (DFT) databases as the ground truth in training, their prediction accuracy cannot go beyond the DFT. In this work, we developed a unified ML method for electronic structures of organic molecules using the gold-standard CCSD(T) calculations as training data. Tested on hydrocarbon molecules, our model outperforms the DFT with the widely-used B3LYP functional in both computation costs and prediction accuracy of various quantum chemical properties. We apply the model to aromatic compounds and semiconducting polymers on both ground state and excited state properties, demonstrating its accuracy and generalization capability to complex systems that are hard to calculate using CCSD(T)-level methods.
翻訳日:2024-05-27 03:08:05 公開日:2024-05-09
# GaitMotion: 病的歩行予測のためのマルチタスクデータセット

GaitMotion: A Multitask Dataset for Pathological Gait Forecasting ( http://arxiv.org/abs/2405.09569v1 )

ライセンス: Link先を確認
Wenwen Zhang, Hao Zhang, Zenan Jiang, Jing Wang, Amir Servati, Peyman Servati, (参考訳) Gaitベンチマークは、歩行認識、ヒューマノイドの移動など、未計算の奨励研究分野に権限を与える。 歩行分析に注目が集まっているにもかかわらず、研究コミュニティは、現在利用可能なデータベースの制限に悩まされている。 本稿では,ウェアラブルセンサを利用したマルチタスク・データセットであるGaitMotionを紹介する。 このデータセットは、ステップ/ストライドのセグメンテーションやステップ/ストライドの長さの予測など、複数のタスクに対して広範な地道ラベルを提供する。 このウェアラブル歩行分析スーツは、正常と病理の両方の歩行周期、パターン、パラメータをキャプチャする。 このデータは、患者の進捗監視と退院後の回復に焦点を当てた医療製品や、人体再同定を目的とした法医学技術、ヒューマノイドロボットの開発を支援するバイオメカニクス研究に有効である可能性がある。 さらに,各被験者におけるデータ分布のドリフトを考慮した分析を行った。 このドリフトは、各参加者のユニークな行動習慣やセンサーの潜在的な変位に起因する可能性がある。 健常者,パーキンソン病,脳卒中患者のストライド長の変動は,病的歩行パターンを認識するために比較される。 基準線とベンチマークとして、正常、パーキンソン、ストロークの歩幅予測を別々に14.1、13.3、12.2cmの誤差を与える。 また,歩行周期および歩行パラメータから,正常歩行および病理歩行の歩行特性を解析した。

Gait benchmark empowers uncounted encouraging research fields such as gait recognition, humanoid locomotion, etc. Despite the growing focus on gait analysis, the research community is hindered by the limitations of the currently available databases, which mostly consist of videos or images with limited labeling. In this paper, we introduce GaitMotion, a multitask dataset leveraging wearable sensors to capture the patients' real-time movement with pathological gait. This dataset offers extensive ground-truth labeling for multiple tasks, including step/stride segmentation and step/stride length prediction, empowers researchers with a more holistic understanding of gait disturbances linked to neurological impairments. The wearable gait analysis suit captures the gait cycle, pattern, and parameters for both normal and pathological subjects. This data may prove beneficial for healthcare products focused on patient progress monitoring and post-disease recovery, as well as for forensics technologies aimed at person reidentification, and biomechanics research to aid in the development of humanoid robotics. Moreover, the analysis has considered the drift in data distribution across individual subjects. This drift can be attributed to each participant's unique behavioral habits or potential displacement of the sensor. Stride length variance for normal, Parkinson's, and stroke patients are compared to recognize the pathological walking pattern. As the baseline and benchmark, we provide an error of 14.1, 13.3, and 12.2 centimeters of stride length prediction for normal, Parkinson's, and Stroke gaits separately. We also analyzed the gait characteristics for normal and pathological gaits in terms of the gait cycle and gait parameters.
翻訳日:2024-05-19 13:49:26 公開日:2024-05-09
# チューリングテストではGPT-4と人間を区別できない

People cannot distinguish GPT-4 from a human in a Turing test ( http://arxiv.org/abs/2405.08007v1 )

ライセンス: Link先を確認
Cameron R. Jones, Benjamin K. Bergen, (参考訳) ランダム化,制御,登録済みチューリングテストにおいて,ELIZA,GPT-3.5,GPT-4の3つのシステムについて検討した。 人間の参加者は、人間かAIのどちらかと5分間の会話をし、インターロケーターが人間かどうかを判断した。 GPT-4はヒトの54%と判断され、ELIZA(22%)を上回ったが、実際のヒト(67%)よりも遅れていた。 その結果、どんな人工システムでもインタラクティブな2-player Turingテストに合格するという、初めての堅牢な実証実験結果が得られた。 この結果は、マシンインテリジェンスに関する議論に影響を及ぼし、さらに緊急に、現在のAIシステムによる騙しが検出されない可能性があることを示唆している。 参加者の戦略と推論の分析は、スタイル的・社会的感情的要因が、伝統的な知性の概念よりもチューリングテストに合格する上で大きな役割を果たすことを示唆している。

We evaluated 3 systems (ELIZA, GPT-3.5 and GPT-4) in a randomized, controlled, and preregistered Turing test. Human participants had a 5 minute conversation with either a human or an AI, and judged whether or not they thought their interlocutor was human. GPT-4 was judged to be a human 54% of the time, outperforming ELIZA (22%) but lagging behind actual humans (67%). The results provide the first robust empirical demonstration that any artificial system passes an interactive 2-player Turing test. The results have implications for debates around machine intelligence and, more urgently, suggest that deception by current AI systems may go undetected. Analysis of participants' strategies and reasoning suggests that stylistic and socio-emotional factors play a larger role in passing the Turing test than traditional notions of intelligence.
翻訳日:2024-05-15 18:12:57 公開日:2024-05-09
# Iris: コンピュータサイエンス教育のためのAI駆動バーチャルチューター

Iris: An AI-Driven Virtual Tutor For Computer Science Education ( http://arxiv.org/abs/2405.08008v1 )

ライセンス: Link先を確認
Patrick Bassner, Eduard Frankford, Stephan Krusche, (参考訳) 高等教育におけるAI駆動ツールの統合は、変革の可能性を持つ新興分野である。 本稿では,対話型学習プラットフォームArtemisに組み込まれたチャットベースの仮想チューターであるIrisを紹介する。 アイリスはコンピュータサイエンスの学生をプログラミングの練習を通じて指導することで支援し、実践的に意味のある方法で家庭教師として振る舞うように設計されている。 その校正された援助は、完全な解決策を明らかにすることを避け、独立した問題解決スキルを育むための微妙なヒントや対抗策を提供する。 各質問に対して、GPT-3.5-Turboへのチェーン・オブ・ソート(Chain-of-Thought)の複数のプロンプトを発行する。 プロンプトには、教師の役割の説明や、数ショットの学習による意味のある回答の例が含まれる。 Irisは、問題ステートメント、学生コード、自動フィードバックにアクセスして、適切なアドバイスを提供することによってコンテキスト認識を採用する。 経験的評価は、学生がイリスを自分の質問を理解し、関連する支援を提供し、学習プロセスに貢献するため、効果的であると認識していることを示している。 学生はIrisをプログラミング演習や宿題の貴重なツールと考えているが、Irisを使わずにコンピュータベースの試験でプログラミングタスクを解くことに自信を持っている。 この発見は、アイリスの即時かつパーソナライズされたサポートに対する学生の評価を裏付けるものであるが、学生はそれを、人間の教師の代わりではなく、補完するものと見なしている。 それにもかかわらず、アイリスは学生が他人に判断されることなく質問する場を作る。

Integrating AI-driven tools in higher education is an emerging area with transformative potential. This paper introduces Iris, a chat-based virtual tutor integrated into the interactive learning platform Artemis that offers personalized, context-aware assistance in large-scale educational settings. Iris supports computer science students by guiding them through programming exercises and is designed to act as a tutor in a didactically meaningful way. Its calibrated assistance avoids revealing complete solutions, offering subtle hints or counter-questions to foster independent problem-solving skills. For each question, it issues multiple prompts in a Chain-of-Thought to GPT-3.5-Turbo. The prompts include a tutor role description and examples of meaningful answers through few-shot learning. Iris employs contextual awareness by accessing the problem statement, student code, and automated feedback to provide tailored advice. An empirical evaluation shows that students perceive Iris as effective because it understands their questions, provides relevant support, and contributes to the learning process. While students consider Iris a valuable tool for programming exercises and homework, they also feel confident solving programming tasks in computer-based exams without Iris. The findings underscore students' appreciation for Iris' immediate and personalized support, though students predominantly view it as a complement to, rather than a replacement for, human tutors. Nevertheless, Iris creates a space for students to ask questions without being judged by others.
翻訳日:2024-05-15 18:12:57 公開日:2024-05-09
# WateRF:著作権保護分野におけるロバストな透かし

WateRF: Robust Watermarks in Radiance Fields for Protection of Copyrights ( http://arxiv.org/abs/2405.02066v2 )

ライセンス: Link先を確認
Youngdong Jang, Dong In Lee, MinHyuk Jang, Jong Wook Kim, Feng Yang, Sangpil Kim, (参考訳) NeRF(Neural Radiance Fields)研究の進歩は、様々な領域に広範な応用をもたらすが、著作権保護はまだ深く研究されていない。 近年、NeRFベースの3D表現を安全に展開するための重要なソリューションの1つとして、NeRF透かしが検討されている。 しかし、既存の手法は暗黙的あるいは明示的なNeRF表現にのみ適用するように設計されている。 本研究では,NeRFの両表現に適用可能な革新的な透かし手法を提案する。 これは、NeRFを微調整してバイナリメッセージをレンダリングプロセスに埋め込むことによって実現される。 本稿では,NeRF空間における離散ウェーブレット変換を透かしに利用することを提案する。 さらに、遅延バックプロパゲーション手法を採用し、パッチワイズ損失と組み合わせることで、最小トレードオフでレンダリング品質とビット精度を向上させる。 提案手法は,2次元レンダリング画像に埋め込まれた透かしの容量,可視性,堅牢性の3つの異なる側面で評価する。 本手法は、比較した最先端手法よりも高速なトレーニング速度で最先端性能を実現する。

The advances in the Neural Radiance Fields (NeRF) research offer extensive applications in diverse domains, but protecting their copyrights has not yet been researched in depth. Recently, NeRF watermarking has been considered one of the pivotal solutions for safely deploying NeRF-based 3D representations. However, existing methods are designed to apply only to implicit or explicit NeRF representations. In this work, we introduce an innovative watermarking method that can be employed in both representations of NeRF. This is achieved by fine-tuning NeRF to embed binary messages in the rendering process. In detail, we propose utilizing the discrete wavelet transform in the NeRF space for watermarking. Furthermore, we adopt a deferred back-propagation technique and introduce a combination with the patch-wise loss to improve rendering quality and bit accuracy with minimum trade-offs. We evaluate our method in three different aspects: capacity, invisibility, and robustness of the embedded watermarks in the 2D-rendered images. Our method achieves state-of-the-art performance with faster training speed over the compared state-of-the-art methods.
翻訳日:2024-05-14 21:03:09 公開日:2024-05-09
# レビュー検出と認識の強化: プラットフォームに依存しないアプローチとオンライン商取引への応用

Enhanced Review Detection and Recognition: A Platform-Agnostic Approach with Application to Online Commerce ( http://arxiv.org/abs/2405.06704v1 )

ライセンス: Link先を確認
Priyabrata Karmakar, John Hawkins, (参考訳) オンラインコマースは、ユーザーが生成したレビューに大きく依存している。 レビューの重要性は、複数の搾取的なオンライン行動を引き付け、レビューの監視と検出の方法を必要とする。 本稿では,学習データに含まれていないWebサイトをまたいで使用するための機械学習手法を提案する。 この方法は、ソースに関係なく、レビューの自動検出と評価のためにアプリケーションを駆動することを約束する。 さらに、評価とコメントの不整合に基づいて信頼できないレビューを検知・フィルタリングするSentiment Inconsistency Analysis、HTMLスクレイピングに頼ることなく様々な言語からのレビューの抽出・翻訳を可能にするマルチ言語サポート、訓練されたNLPモデルを統合して真偽と偽のレビューを識別・識別するFake Review Detectionの3つの主要なアプリケーションの実装と議論により、本手法の汎用性を示す。

Online commerce relies heavily on user generated reviews to provide unbiased information about products that they have not physically seen. The importance of reviews has attracted multiple exploitative online behaviours and requires methods for monitoring and detecting reviews. We present a machine learning methodology for review detection and extraction, and demonstrate that it generalises for use across websites that were not contained in the training data. This method promises to drive applications for automatic detection and evaluation of reviews, regardless of their source. Furthermore, we showcase the versatility of our method by implementing and discussing three key applications for analysing reviews: Sentiment Inconsistency Analysis, which detects and filters out unreliable reviews based on inconsistencies between ratings and comments; Multi-language support, enabling the extraction and translation of reviews from various languages without relying on HTML scraping; and Fake review detection, achieved by integrating a trained NLP model to identify and distinguish between genuine and fake reviews.
翻訳日:2024-05-14 20:31:40 公開日:2024-05-09
# LLMはPedagogical Chain-of-Thoughtによる数学的推論ミスを見つけることができる

LLMs can Find Mathematical Reasoning Mistakes by Pedagogical Chain-of-Thought ( http://arxiv.org/abs/2405.06705v1 )

ライセンス: Link先を確認
Zhuoxuan Jiang, Haoyuan Peng, Shanshan Feng, Fan Li, Dongsheng Li, (参考訳) 大規模言語モデル(LLM)における幻覚の問題を緩和する,有望なアプローチとして,自己補正が出現している。 効果的な自己補正を容易にするため、最近の研究では誤り検出を最初のステップとして提案している。 しかし、現在の文献では、LCMは単純なプロンプト戦略を使用する際に、推論ミスを確実に特定するのに苦労していることがしばしば示されている。 この課題に対処するために、我々はPedagogical Chain-of-Thought(PedCoT)と呼ばれる独自のプロンプト戦略を導入する。 PedCoTは、プロンプト(PPP)設計のための教育原則と、2段階インタラクションプロセス(TIP)と、Bloom Cognitive Model(BCM)の教育理論にインスパイアされた接地されたPedCoTプロンプトで構成されている。 難易度の異なる数学問題を特徴とする2つの公開データセットに対するアプローチを評価する。 実験では、ゼロショットのプロンプト戦略が強いベースラインを著しく上回ることを示した。 提案手法は,信頼性の高い数学的誤り識別の目標を達成し,自動解答グレーディングの基盤を提供する。 この結果は,LLMを効果的に活用するための戦略設計を指導する上で,ドメイン知識としての教育理論の重要性を浮き彫りにした。

Self-correction is emerging as a promising approach to mitigate the issue of hallucination in Large Language Models (LLMs). To facilitate effective self-correction, recent research has proposed mistake detection as its initial step. However, current literature suggests that LLMs often struggle with reliably identifying reasoning mistakes when using simplistic prompting strategies. To address this challenge, we introduce a unique prompting strategy, termed the Pedagogical Chain-of-Thought (PedCoT), which is specifically designed to guide the identification of reasoning mistakes, particularly mathematical reasoning mistakes. PedCoT consists of pedagogical principles for prompts (PPP) design, two-stage interaction process (TIP) and grounded PedCoT prompts, all inspired by the educational theory of the Bloom Cognitive Model (BCM). We evaluate our approach on two public datasets featuring math problems of varying difficulty levels. The experiments demonstrate that our zero-shot prompting strategy significantly outperforms strong baselines. The proposed method can achieve the goal of reliable mathematical mistake identification and provide a foundation for automatic math answer grading. The results underscore the significance of educational theory, serving as domain knowledge, in guiding prompting strategy design for addressing challenging tasks with LLMs effectively.
翻訳日:2024-05-14 20:31:40 公開日:2024-05-09
# ディエンステキストを用いた大規模マルチモーダルモデルの能力探索

Exploring the Capabilities of Large Multimodal Models on Dense Text ( http://arxiv.org/abs/2405.06706v1 )

ライセンス: Link先を確認
Shuo Zhang, Biao Yang, Zhang Li, Zhiyin Ma, Yuliang Liu, Xiang Bai, (参考訳) 大規模マルチモーダルモデル (LMM) は, マルチモーダルタスクの顕著な進歩を示しているが, 密集したテキストコンテンツを含むタスクにおけるそれらの機能については, 十分に検討が続けられている。 重要な情報を伝達するデンステキストは、しばしば文書、表、製品記述に見られる。 密集したテキストを理解することで、より正確な情報を得ることができ、より良い意思決定を支援することができます。 複雑なテキストタスクにおけるLMMのさらなる機能を探るため,170kの問合せ対を持つDT-VQAデータセットを提案する。 本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行い,その長所と短所を明らかにする。 さらに,LMMにおける2つの戦略,即時工学と下流微調整の有効性を評価した。 自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。 この研究は、高密度テキストタスクにおけるLMMの研究を促進することを願っている。 コードはhttps://github.com/Yuliang-Liu/MultimodalOCRでリリースされる。

While large multi-modal models (LMM) have shown notable progress in multi-modal tasks, their capabilities in tasks involving dense textual content remains to be fully explored. Dense text, which carries important information, is often found in documents, tables, and product descriptions. Understanding dense text enables us to obtain more accurate information, assisting in making better decisions. To further explore the capabilities of LMM in complex text tasks, we propose the DT-VQA dataset, with 170k question-answer pairs. In this paper, we conduct a comprehensive evaluation of GPT4V, Gemini, and various open-source LMMs on our dataset, revealing their strengths and weaknesses. Furthermore, we evaluate the effectiveness of two strategies for LMM: prompt engineering and downstream fine-tuning. We find that even with automatically labeled training datasets, significant improvements in model performance can be achieved. We hope that this research will promote the study of LMM in dense text tasks. Code will be released at https://github.com/Yuliang-Liu/MultimodalOCR.
翻訳日:2024-05-14 20:31:40 公開日:2024-05-09
# 仮説テストによる大規模言語モデルの推論改善

Hypothesis Testing Prompting Improves Deductive Reasoning in Large Language Models ( http://arxiv.org/abs/2405.06707v1 )

ライセンス: Link先を確認
Yitian Li, Jidong Tian, Hao He, Yaohui Jin, (参考訳) 異なる形式のプロンプトと事前訓練された大きな言語モデルを組み合わせることで、推論タスク(例えばChain-of-Thoughtプロンプト)において顕著な結果が得られた。 しかし、より複雑な推論のテストとともに、これらの手法は、無効な推論や架空の推論経路といった問題も露呈する。 本稿では,中間推論段階における結論仮定,後方推論,事実検証を付加する「textit{Hypothesis Testing Prompting}」を開発する。 \textit{Hypothesis Testing prompting} は複数の仮定を伴い、結論の検証を反転させる。 ProofWriter と RuleTaker の2つの挑戦的な推論データセットの実験は、仮説テストが効果を著しく改善するだけでなく、より合理的で標準化された推論プロセスを生成することを示している。

Combining different forms of prompts with pre-trained large language models has yielded remarkable results on reasoning tasks (e.g. Chain-of-Thought prompting). However, along with testing on more complex reasoning, these methods also expose problems such as invalid reasoning and fictional reasoning paths. In this paper, we develop \textit{Hypothesis Testing Prompting}, which adds conclusion assumptions, backward reasoning, and fact verification during intermediate reasoning steps. \textit{Hypothesis Testing prompting} involves multiple assumptions and reverses validation of conclusions leading to its unique correct answer. Experiments on two challenging deductive reasoning datasets ProofWriter and RuleTaker show that hypothesis testing prompting not only significantly improves the effect, but also generates a more reasonable and standardized reasoning process.
翻訳日:2024-05-14 20:31:40 公開日:2024-05-09
# LangCell: 細胞アイデンティティ理解のためのLanguage-Cell事前トレーニング

LangCell: Language-Cell Pre-training for Cell Identity Understanding ( http://arxiv.org/abs/2405.06708v1 )

ライセンス: Link先を確認
Suyuan Zhao, Jiahuan Zhang, Yizhen Luo, Yushuai Wu, Zaiqing Nie, (参考訳) 細胞識別は、細胞の種類、経路情報、疾患情報など、細胞の様々な意味的側面を包含しており、生物学者がその生物学的特性を理解するのに不可欠である。 細胞型アノテートなどの転写学的データから細胞識別を理解することは、生体情報学において重要な課題となっている。 これらのセマンティックな側面は人間の専門家によって決定されるため、単一セルとラベルペアによって提供される監視信号なしで、AIモデルが細胞アイデンティティ理解タスクを効果的に実行することは不可能である。 このタスクに現在使用されているシングルセル事前訓練言語モデル(PLM)は、単一のモダリティ、トランスクリプトミクスデータのみに基づいて訓練され、セルアイデンティティの知識の理解が欠如している。 結果として、望ましいセマンティックラベルでラベル付きデータを欠いている場合には、ダウンストリームタスクや苦労のために微調整される必要がある。 この問題に対処するために,事前学習期間中に単一セルデータと自然言語の統一表現を構築し,セルアイデンティティに関連する洞察を直接組み込むという,革新的な手法を提案する。 具体的には、最初の \textbf{Lang}uage-\textbf{Cell} 事前トレーニングフレームワークである \textbf{LangCell} を紹介します。 LangCellは、セルアイデンティティ情報に富んだテキストを利用して、クロスモーダルな知識の深い理解を得る。 異なるベンチマークで実施された実験の結果、LangCellはゼロショットのセル識別理解シナリオで効果的に機能する唯一のシングルセルPLMであり、また、少数ショットと微調整のセル識別理解シナリオで既存のモデルよりも大幅に優れていることが示された。

Cell identity encompasses various semantic aspects of a cell, including cell type, pathway information, disease information, and more, which are essential for biologists to gain insights into its biological characteristics. Understanding cell identity from the transcriptomic data, such as annotating cell types, have become an important task in bioinformatics. As these semantic aspects are determined by human experts, it is impossible for AI models to effectively carry out cell identity understanding tasks without the supervision signals provided by single-cell and label pairs. The single-cell pre-trained language models (PLMs) currently used for this task are trained only on a single modality, transcriptomics data, lack an understanding of cell identity knowledge. As a result, they have to be fine-tuned for downstream tasks and struggle when lacking labeled data with the desired semantic labels. To address this issue, we propose an innovative solution by constructing a unified representation of single-cell data and natural language during the pre-training phase, allowing the model to directly incorporate insights related to cell identity. More specifically, we introduce \textbf{LangCell}, the first \textbf{Lang}uage-\textbf{Cell} pre-training framework. LangCell utilizes texts enriched with cell identity information to gain a profound comprehension of cross-modal knowledge. Results from experiments conducted on different benchmarks show that LangCell is the only single-cell PLM that can work effectively in zero-shot cell identity understanding scenarios, and also significantly outperforms existing models in few-shot and fine-tuning cell identity understanding scenarios.
翻訳日:2024-05-14 20:31:40 公開日:2024-05-09
# テキスト匿名化におけるAI技術の有効性評価 : 比較研究

Evaluating the Efficacy of AI Techniques in Textual Anonymization: A Comparative Study ( http://arxiv.org/abs/2405.06709v1 )

ライセンス: Link先を確認
Dimitris Asimopoulos, Ilias Siniosoglou, Vasileios Argyriou, Sotirios K. Goudos, Konstantinos E. Psannis, Nikoleta Karditsioti, Theocharis Saoulidis, Panagiotis Sarigiannidis, (参考訳) デジタル時代には、プライバシーの懸念がエスカレートしているため、テキスト情報の本質的な価値を維持しながら、プライベートデータを保護する堅牢な戦略を考案することが不可欠である。 本研究では、条件付きランダムフィールド(CRF)、Long Short-Term Memory(LSTM)、Embddings from Language Models(ELMo)、Transformersアーキテクチャの変換機能を中心に、テキスト匿名化手法の総合的な検討に着手する。 LSTMは長期的依存関係をモデル化し、CRFは単語列間の依存関係をキャプチャし、ELMoは深層双方向言語モデルを用いて文脈的単語表現を提供する。 本研究はこれらのモデルの比較分析として位置づけられ,テキスト匿名化問題に対処する上での相乗的可能性を強調した。 CRF, LSTM, ELMoは, 従来の手法よりも優れていた。 トランスフォーマーは、他のモデルと比べれば、現代の設定で最適なテキスト匿名化を実現するためのより広い視点を提供する。

In the digital era, with escalating privacy concerns, it's imperative to devise robust strategies that protect private data while maintaining the intrinsic value of textual information. This research embarks on a comprehensive examination of text anonymisation methods, focusing on Conditional Random Fields (CRF), Long Short-Term Memory (LSTM), Embeddings from Language Models (ELMo), and the transformative capabilities of the Transformers architecture. Each model presents unique strengths since LSTM is modeling long-term dependencies, CRF captures dependencies among word sequences, ELMo delivers contextual word representations using deep bidirectional language models and Transformers introduce self-attention mechanisms that provide enhanced scalability. Our study is positioned as a comparative analysis of these models, emphasising their synergistic potential in addressing text anonymisation challenges. Preliminary results indicate that CRF, LSTM, and ELMo individually outperform traditional methods. The inclusion of Transformers, when compared alongside with the other models, offers a broader perspective on achieving optimal text anonymisation in contemporary settings.
翻訳日:2024-05-14 20:31:40 公開日:2024-05-09
# 移動シーケンス

Mobile Sequencers ( http://arxiv.org/abs/2405.06710v1 )

ライセンス: Link先を確認
Cem Bozsahin, (参考訳) この記事は、言語と計画的協調行動の共通起源の探索に貢献する試みである。 は、その歴史と記録の保持から、その開発、構文、配信、受信に至るまで、サブストラクタル的な側面を含む、合成の中心的な段階を与える。 共通コアに到達するためには、言語意味論は、モバイルエージェントの表現、追跡、変化への対処を通じて学習し、変化を伴わないと理解する必要がある。 アクションのセマンティクスは、構文ではなく計画によって、同じように考えることができる。 単語や行動列のシーケンスそのものは、シーケンス自体からすぐに明らかになるものよりも、より構造的な解釈をもたらす。 モバイルシーケンサーは、レポートの構造化、変更の追跡、変更の追跡、変更なしの主題として理解することができる。 このアイデアは、言語と計画の両方において、カテゴリーの概念を再考することを招いている。 移動エージェントによる変化を理解することは、人間の拡張的実践ではなく、人間の拡張的実践であると示唆されている。 だからこそ、言語学は合成においてコンピュータ科学と同じくらい重要であるのです。 行動、思考、表現、個人的および公的な表現の表現の歴史に頼らなければならない。 これは、短期間にカバーされた拡張的な実践において、人類学に影響を及ぼす。

The article is an attempt to contribute to explorations of a common origin for language and planned-collaborative action. It gives `semantics of change' the central stage in the synthesis, from its history and recordkeeping to its development, its syntax, delivery and reception, including substratal aspects. It is suggested that to arrive at a common core, linguistic semantics must be understood as studying through syntax mobile agent's representing, tracking and coping with change and no change. Semantics of actions can be conceived the same way, but through plans instead of syntax. The key point is the following: Sequencing itself, of words and action sequences, brings in more structural interpretation to the sequence than which is immediately evident from the sequents themselves. Mobile sequencers can be understood as subjects structuring reporting, understanding and keeping track of change and no change. The idea invites rethinking of the notion of category, both in language and in planning. Understanding understanding change by mobile agents is suggested to be about human extended practice, not extended-human practice. That's why linguistics is as important as computer science in the synthesis. It must rely on representational history of acts, thoughts and expressions, personal and public, crosscutting overtness and covertness of these phenomena. It has implication for anthropology in the extended practice, which is covered briefly.
翻訳日:2024-05-14 20:31:40 公開日:2024-05-09
# デジタル診断:一般的な病気の症状を認識するための大規模言語モデルの可能性

Digital Diagnostics: The Potential Of Large Language Models In Recognizing Symptoms Of Common Illnesses ( http://arxiv.org/abs/2405.06712v1 )

ライセンス: Link先を確認
Gaurav Kumar Gupta, Aditi Singh, Sijo Valayakkad Manikandan, Abul Ehtesham, (参考訳) GPT-4、Gemini、GPT-3.5といった最近のLCMの迅速な開発は、医学や医療、特にデジタル診断において変革の機会を提供する。 本研究は,患者症状を解釈し,一般的な疾患に適合する診断を判定することにより,各モデルの診断能力を評価し,各モデルが診断精度と効率を著しく向上することを示した。 医学データベースからの症状に基づく一連の診断プロンプトを通じて、GPT-4は、医療データに対するトレーニングの深い、完全な履歴から、より高い診断精度を示す。 一方、ジェミニは病気のトリアージにおいて重要なツールとして高い精度で行動し、医師がリスクの高い診断をしようとしているときに信頼できるモデルになる可能性を示している。 GPT-3.5はやや進歩していないが、医療診断には良いツールである。 この研究は、医療や臨床の実践において、より注意と注意を払ってLSMを研究することの必要性を強調し、LSMを利用するシステムは患者のプライバシを促進し、HIPAAコンプライアンスなどの健康情報プライバシー法に準拠すると共に、複雑な医療状況における多様な個人に影響を与える社会的影響を確実にする。 この研究は、人間の偏見から学習するLLMのタスクに倫理的懸念を割り当てることによって、複雑な医療環境にAIを適用する新しい方法を見つける様々な方法を研究するための、より大規模な取り組みの始まりである。

The recent swift development of LLMs like GPT-4, Gemini, and GPT-3.5 offers a transformative opportunity in medicine and healthcare, especially in digital diagnostics. This study evaluates each model diagnostic abilities by interpreting a user symptoms and determining diagnoses that fit well with common illnesses, and it demonstrates how each of these models could significantly increase diagnostic accuracy and efficiency. Through a series of diagnostic prompts based on symptoms from medical databases, GPT-4 demonstrates higher diagnostic accuracy from its deep and complete history of training on medical data. Meanwhile, Gemini performs with high precision as a critical tool in disease triage, demonstrating its potential to be a reliable model when physicians are trying to make high-risk diagnoses. GPT-3.5, though slightly less advanced, is a good tool for medical diagnostics. This study highlights the need to study LLMs for healthcare and clinical practices with more care and attention, ensuring that any system utilizing LLMs promotes patient privacy and complies with health information privacy laws such as HIPAA compliance, as well as the social consequences that affect the varied individuals in complex healthcare contexts. This study marks the start of a larger future effort to study the various ways in which assigning ethical concerns to LLMs task of learning from human biases could unearth new ways to apply AI in complex medical settings.
翻訳日:2024-05-14 20:31:40 公開日:2024-05-09
# 競合動力学の展開--日中LLMの比較評価

Unveiling the Competitive Dynamics: A Comparative Evaluation of American and Chinese LLMs ( http://arxiv.org/abs/2405.06713v1 )

ライセンス: Link先を確認
Zhenhui Jiang, Jiaxin Li, Yang Liu, (参考訳) 大規模言語モデル(LLM)の経済発展、革新、社会発展、国家安全保障における戦略的重要性は、ChatGPTの出現以来、ますます認識されている。 本研究は、英語と中国語の両文脈において、アメリカと中国のLLMを総合的に比較評価する。 我々は、自然言語の習熟度、専門知識、安全と責任を包括的に評価する枠組みを提案し、様々な運用課題とシナリオの下で、米国と中国から16の著名なモデルを体系的に評価した。 GPT 4-Turboは英語の文脈では最前線にあり、Ernie-Bot 4は中国語の文脈では際立っている。 この研究はまた、言語的および文化的にニュアンスド・モデル開発の必要性を強調しながら、言語やタスク間でのLLMパフォーマンスの格差を強調している。 米国と中国のLLMの補完的強みは、LLM技術の進歩における中米協力の価値を示している。 この研究は、現在のLLMコンペティションの展望を示し、LLMの戦略的投資と開発に関する政策立案者やビジネスに貴重な洞察を提供する。 今後の作業は、このフレームワークを拡張して、新興のLLMマルチモーダル機能とビジネスアプリケーションアセスメントを含む予定である。

The strategic significance of Large Language Models (LLMs) in economic expansion, innovation, societal development, and national security has been increasingly recognized since the advent of ChatGPT. This study provides a comprehensive comparative evaluation of American and Chinese LLMs in both English and Chinese contexts. We proposed a comprehensive evaluation framework that encompasses natural language proficiency, disciplinary expertise, and safety and responsibility, and systematically assessed 16 prominent models from the US and China under various operational tasks and scenarios. Our key findings show that GPT 4-Turbo is at the forefront in English contexts, whereas Ernie-Bot 4 stands out in Chinese contexts. The study also highlights disparities in LLM performance across languages and tasks, stressing the necessity for linguistically and culturally nuanced model development. The complementary strengths of American and Chinese LLMs point to the value of Sino-US collaboration in advancing LLM technology. The research presents the current LLM competition landscape and offers valuable insights for policymakers and businesses regarding strategic LLM investments and development. Future work will expand on this framework to include emerging LLM multimodal capabilities and business application assessments.
翻訳日:2024-05-14 20:31:40 公開日:2024-05-09
# カテゴリー流速の経路依存的考察に向けて

Towards a path dependent account of category fluency ( http://arxiv.org/abs/2405.06714v1 )

ライセンス: Link先を確認
David Heineman, Reba Koenen, Sashank Varma, (参考訳) カテゴリー・フルエンシは広く研究されている認知現象であるが、2つの矛盾するアカウントが基礎となる検索メカニズムとして提案されている。これはメモリを意図的に探索する最適な捕食プロセス(Hills et al , 2012)とセマンティックネットワークからのランダムウォークサンプリング(Abbott et al , 2015)である。 両方のアカウントの証拠は、人間のパッチスイッチを予測することに集中しており、どちらも既存のカテゴリー流速モデルがパラドックス的に同じ結果をもたらす。 まず、既存のモデルによってなされた仮定、すなわち、各名前の例が前の例にのみ依存する、という仮定を取り消すことから始めます。 一 カテゴリー遷移確率を直接モデル化するための追加バイアスを加えること (ii) 既存のシーケンス全体に基づいて予測するために,大規模な言語モデルに依存する。 そこで本研究では, モデルを配列生成器として再構成することで, 捕食状況の相違を解消する証拠を提示する。 評価のために,n-gramの重なりに基づく計量を提案することにより,生成したカテゴリの流速を人文シーケンスのバンクと比較した。 実際,Hills et al (2012) モデルで使用される追加バイアスは生成品質を改善するために必要であり,これは後にカテゴリ修正によって改善される。 LLMで排他的に生成しても、運用中にパッチスイッチング動作をトリガーするためには、追加のグローバルキューが必要になる。 セマンティックネットワーク上の検索プロセスのみに関するさらなるテストは、人間の行動を再現する決定論的検索の重要性を強調している。

Category fluency is a widely studied cognitive phenomenon, yet two conflicting accounts have been proposed as the underlying retrieval mechanism -- an optimal foraging process deliberately searching through memory (Hills et al., 2012) and a random walk sampling from a semantic network (Abbott et al., 2015). Evidence for both accounts has centered around predicting human patch switches, where both existing models of category fluency produce paradoxically identical results. We begin by peeling back the assumptions made by existing models, namely that each named example only depends on the previous example, by (i) adding an additional bias to model the category transition probability directly and (ii) relying on a large language model to predict based on the entire existing sequence. Then, we present evidence towards resolving the disagreement between each account of foraging by reformulating models as sequence generators. To evaluate, we compare generated category fluency runs to a bank of human-written sequences by proposing a metric based on n-gram overlap. We find category switch predictors do not necessarily produce human-like sequences, in fact the additional biases used by the Hills et al. (2012) model are required to improve generation quality, which are later improved by our category modification. Even generating exclusively with an LLM requires an additional global cue to trigger the patch switching behavior during production. Further tests on only the search process on top of the semantic network highlight the importance of deterministic search to replicate human behavior.
翻訳日:2024-05-14 20:31:40 公開日:2024-05-09
# 連想的思考戦略による大規模言語モデルの創造性向上

Enhancing Creativity in Large Language Models through Associative Thinking Strategies ( http://arxiv.org/abs/2405.06715v1 )

ライセンス: Link先を確認
Pronita Mehrotra, Aishni Parab, Sumit Gulwani, (参考訳) 本稿では,vGPT-4のような大規模言語モデル(LLM)における創造性向上を連想的思考を通じて論じる。 社会的な思考戦略は、人間が創造性を高めるのに効果的に役立つ。 しかし、LLMがより創造的になるのに同じ戦略が役立つかどうかは未定のままである。 本研究では,異なる概念を繋ぐLLMが創造的なアウトプットを増大させるかどうかを検討する。 プロダクトデザイン、ストーリーテリング、マーケティングの3つの領域に焦点を当て、私たちは、vGPT-4のオリジナルで有用なコンテンツを生成する能力を評価するために設計された創造性タスクを導入します。 モデルに挑戦して新しい協会を形成することにより,LLMの創造性を高めるための連想的思考の可能性を評価する。 以上の結果から, 連想的思考技術を活用することで, vGPT-4の応答の独創性を大幅に向上させることができることが示唆された。

This paper explores the enhancement of creativity in Large Language Models (LLMs) like vGPT-4 through associative thinking, a cognitive process where creative ideas emerge from linking seemingly unrelated concepts. Associative thinking strategies have been found to effectively help humans boost creativity. However, whether the same strategies can help LLMs become more creative remains under-explored. In this work, we investigate whether prompting LLMs to connect disparate concepts can augment their creative outputs. Focusing on three domains -- Product Design, Storytelling, and Marketing -- we introduce creativity tasks designed to assess vGPT-4's ability to generate original and useful content. By challenging the models to form novel associations, we evaluate the potential of associative thinking to enhance the creative capabilities of LLMs. Our findings show that leveraging associative thinking techniques can significantly improve the originality of vGPT-4's responses.
翻訳日:2024-05-14 20:31:40 公開日:2024-05-09
# プラント・ターゲット部品の高効率化に向けた意識型次世代開発計画

Attention-driven Next-best-view Planning for Efficient Reconstruction of Plants and Targeted Plant Parts ( http://arxiv.org/abs/2206.10274v2 )

ライセンス: Link先を確認
Akshay K. Burusa, Eldert J. van Henten, Gert Kootstra, (参考訳) トマト温室のロボットは、植物や植物を正確に知覚し、モニタリング、収穫、除葉作業を自動化する必要がある。 既存の知覚システムは、植物において高いレベルの隠蔽に悩まされ、しばしば知覚の精度が低下する。 その理由は、固定カメラを使ったり、カメラの動きを事前に定義しているからだ。 NBV(Next-best-view)計画では、カメラの視点を推論し、戦略的に計画し、認識精度を向上するアプローチが提案されている。 しかし、既存のNBV計画アルゴリズムはタスク・アット・ハンドとは無関係であり、全ての植物に等しく重要である。 この戦略は、葉ノードの認識など特定の植物部位を標的とする認識を必要とする温室効果の高いタスクでは非効率である。 複雑な温室環境における目標認識を改善するため、NBV計画アルゴリズムは、タスク関連植物部品に焦点を合わせるための注意機構が必要である。 本稿では,注意駆動型NBV計画手法を用いて,目標知覚を改善する上での注意の役割について検討した。 高い閉塞度と構造的複雑さを有する植物を用いたシミュレーション実験により,課題関連植物部品への注意が3次元再構成の速度と精度を著しく向上させることを示した。 さらに、実世界の実験により、これらの利点は、自然変動や閉塞、自然照明、センサノイズ、カメラポーズの不確実性といった複雑な温室環境にまで及んでいることを示した。 その結果, 温室における注意駆動型NBVプランニングは, 温室作物生産におけるロボットシステムの認識効率を著しく向上し, 性能を向上させることが示唆された。

Robots in tomato greenhouses need to perceive the plant and plant parts accurately to automate monitoring, harvesting, and de-leafing tasks. Existing perception systems struggle with the high levels of occlusion in plants and often result in poor perception accuracy. One reason for this is because they use fixed cameras or predefined camera movements. Next-best-view (NBV) planning presents a alternate approach, in which the camera viewpoints are reasoned and strategically planned such that the perception accuracy is improved. However, existing NBV-planning algorithms are agnostic to the task-at-hand and give equal importance to all the plant parts. This strategy is inefficient for greenhouse tasks that require targeted perception of specific plant parts, such as the perception of leaf nodes for de-leafing. To improve targeted perception in complex greenhouse environments, NBV planning algorithms need an attention mechanism to focus on the task-relevant plant parts. In this paper, we investigated the role of attention in improving targeted perception using an attention-driven NBV planning strategy. Through simulation experiments using plants with high levels of occlusion and structural complexity, we showed that focusing attention on task-relevant plant parts can significantly improve the speed and accuracy of 3D reconstruction. Further, with real-world experiments, we showed that these benefits extend to complex greenhouse conditions with natural variation and occlusion, natural illumination, sensor noise, and uncertainty in camera poses. Our results clearly indicate that using attention-driven NBV planning in greenhouses can significantly improve the efficiency of perception and enhance the performance of robotic systems in greenhouse crop production.
翻訳日:2024-05-13 20:56:05 公開日:2024-05-09
# 量子力学は「陰謀」を必要とするか?

Does quantum mechanics require "conspiracy"? ( http://arxiv.org/abs/2209.13275v3 )

ライセンス: Link先を確認
Ovidiu Cristinel Stoica, (参考訳) 量子測定の不整合結果の記録を含む量子状態は、テンソル積ヒルベルト空間における有効状態である。 偽記録を含むため、それらはボルン・ルールや我々の観察と矛盾する。 それらを除いては、(1)レコードを含む将来の事象(測定設定を含む)と力学法則(通常、初期条件とは独立であると考えられる)に依存しているように思われ、(2)ベルの定理の文脈で有効であるとしても、統計的独立性に反するという意味で、ヒルベルト空間の極端に制限された部分空間への微調整が必要であることを示す。 この問題を解くために、動的法則を変更することにより、同じ初期条件が、レコードの妥当性が新しい力学法則と相対的に異なる歴史をもたらすことができるモデルを構築した。 このレコードの相対的妥当性は因果関係を復元することができるが、初期条件は、少なくとも部分的には、力学法則に依存する必要がある。 統計的独立の違反は、しばしば非科学的と見なされるが、記録と我々の記憶の正当性、そしてこれによって科学自体の正当性を保証するために必要であることが判明した。 過去の仮説は、記録の存在を確実にするために必要であり、統計的独立の違反が必要であることが判明した。 その説明がいまだ未知であり、量子力学の局所的な解釈で必要とされるような違反を確実にするわけではない。 私は、無数の未知の法則や超選択規則が、テンソル積ヒルベルト空間をレコードと過去の仮説の妥当性によって要求される非常に特別な部分空間に制限するかもしれないと提案する。

Quantum states containing records of incompatible outcomes of quantum measurements are valid states in the tensor-product Hilbert space. Since they contain false records, they conflict with the Born rule and with our observations. I show that excluding them requires a fine-tuning to an extremely restricted subspace of the Hilbert space that seems "conspiratorial", in the sense that (1) it seems to depend on future events that involve records (including measurement settings) and on the dynamical law (normally thought to be independent of the initial conditions), and (2) it violates Statistical Independence, even when it is valid in the context of Bell's theorem. To solve the puzzle, I build a model in which, by changing the dynamical law, the same initial conditions can lead to different histories in which the validity of records is relative to the new dynamical law. This relative validity of the records may restore causality, but the initial conditions still must depend, at least partially, on the dynamical law. While violations of Statistical Independence are often seen as non-scientific, they turn out to be needed to ensure the validity of records and our own memories and, by this, of science itself. A Past Hypothesis is needed to ensure the existence of records and turns out to require violations of Statistical Independence. It is not excluded that its explanation, still unknown, ensures such violations in the way needed by local interpretations of quantum mechanics. I suggest that an as-yet unknown law or superselection rule may restrict the full tensor-product Hilbert space to the very special subspace required by the validity of records and the Past Hypothesis.
翻訳日:2024-05-13 20:56:05 公開日:2024-05-09
# 機械学習モデルパラメータの妥当性推論

Valid Inference for Machine Learning Model Parameters ( http://arxiv.org/abs/2302.10840v2 )

ライセンス: Link先を確認
Neil Dey, Jonathan P. Williams, (参考訳) 機械学習モデルのパラメータは通常、トレーニングデータのセットにおける損失関数を最小化することによって学習される。 しかし、これはオーバートレーニングのリスクを伴う可能性がある。モデルが適切に一般化するためには、与えられたトレーニングサンプルだけでなく、人口全体のモデルに最適なパラメータを見つけることが非常に重要である。 本稿では,この機械学習モデルの最適パラメータに対する有効信頼セットを構築し,人口の知識のないトレーニングデータのみを用いて生成する。 次に、この信頼度集合の分布を研究することにより、パラメータ空間の任意の領域に信頼の概念を割り当てることが可能であることを示す。

The parameters of a machine learning model are typically learned by minimizing a loss function on a set of training data. However, this can come with the risk of overtraining; in order for the model to generalize well, it is of great importance that we are able to find the optimal parameter for the model on the entire population -- not only on the given training sample. In this paper, we construct valid confidence sets for this optimal parameter of a machine learning model, which can be generated using only the training data without any knowledge of the population. We then show that studying the distribution of this confidence set allows us to assign a notion of confidence to arbitrary regions of the parameter space, and we demonstrate that this distribution can be well-approximated using bootstrapping techniques.
翻訳日:2024-05-13 20:46:40 公開日:2024-05-09
# メッセージ再構成, バイオ, テクノシグナチャ検出のための最適, 普遍的, 不可知的復号法

An Optimal, Universal and Agnostic Decoding Method for Message Reconstruction, Bio and Technosignature Detection ( http://arxiv.org/abs/2303.16045v3 )

ライセンス: Link先を確認
Hector Zenil, Alyssa Adams, Felipe S. Abrahão, (参考訳) 本稿では、受信者が未知のソースから送信されたメッセージに対して、事前の知識が得られず、返却メッセージが送信できないことを解釈することを目的とした、ゼロ知識ワンウェイ通信チャネルの信号再構成手法を提案する。 本手法は、任意選択された符号化-復号法や、任意選択された計算モデルや基礎となる数学的理論など、観測者に依存した他の特性を、無知のvis-\`a-visとする。 信号やメッセージがエンコードされたり、埋め込まれたり、生成されたりする空間の次元や長さなど、非ランダムメッセージが物理的特性に関する情報をエンコードする方法について検討する。 本研究の結果は,生命・工学的検出やコーディング理論全般に応用できると論じている。

We present a signal reconstruction method for zero-knowledge one-way communication channels in which a receiver aims to interpret a message sent by an unknown source about which no prior knowledge is available and to which no return message can be sent. Our reconstruction method is agnostic vis-\`a-vis the arbitrarily chosen encoding-decoding scheme and other observer-dependent characteristics, such as the arbitrarily chosen computation model or underlying mathematical theory. We investigate how non-random messages may encode information about the physical properties, such as dimension and length scales of the space in which a signal or message may have been originally encoded, embedded, or generated. We argue that our results have applications to life and technosignature detection and to coding theory in general.
翻訳日:2024-05-13 20:46:40 公開日:2024-05-09
# 非エルミートスピンレスBHZ様モデルにおけるパーシング皮膚効果

Parsing skin effect in a non-Hermitian spinless BHZ-like model ( http://arxiv.org/abs/2304.12723v3 )

ライセンス: Link先を確認
Dipendu Halder, Saurabh Basu, (参考訳) この研究は、スピンレスベルネヴィグ・ヒューズ・チャン(Bernevig-Hughes-Zhang、BHZ)のような1次元のモデルにおける非エルミート皮膚効果(NHSE)を包括的に研究する。 非相互ホッピング振幅を持つシステムはNHSEを示すと一般的に信じられている。 しかし, システム内のNHSEやその変異の存在を復号するためには, より詳細な解析が必要である。 両端に従来のNHSEまたはNHSEが存在すること,さらにはNHSEが存在しないことなど,軌道間ホッピング用語に非相反性が含まれていることによる。 位相特性と(両直交)バルク境界対応は、(複素)ベリー位相の計算とエッジモードの空間的局在によって列挙され、そこで生じる位相遷移が強調される。 さらに、非エルミートモデルの構造的議論を促進するために、結果をPT対称および非PT対称のケースに分割し、この2つを比較した。

This work comprehensively investigates the non-Hermitian skin effect (NHSE) in a spinless Bernevig- Hughes-Zhang (BHZ)-like model in one dimension. It is generally believed that a system with non-reciprocal hopping amplitudes demonstrates NHSE. However, we show that there are exceptions, and more in-depth analyses are required to decode the presence of NHSE or its variants in a system. The fascinating aspects of our findings, depending on the inclusion of non-reciprocity in the inter-orbital hopping terms, concede the existence of conventional NHSE or NHSE at both edges and even a surprising absence of NHSE. The topological properties and the (bi-orthogonal) bulk-boundary correspondence, enumerated via computation of the (complex) Berry phase and spatial localization of the edge modes, highlight the topological phase transitions occurring therein. Further, to facilitate a structured discussion of the non-Hermitian model, we split the results into PT symmetric and non-PT symmetric cases with a view to comparing the two.
翻訳日:2024-05-13 20:46:40 公開日:2024-05-09
# 局所的に管理された温熱化

Locally controlled arrested thermalization ( http://arxiv.org/abs/2306.07319v2 )

ライセンス: Link先を確認
Ken K. W. Ma, Hitesh J. Changlani, (参考訳) 量子系の長時間のダイナミクスは、典型的には、常にではなく、熱定常状態をもたらす。 この運命を導いたり回避したりする微視的なプロセスは、日常的な経験から、システムのすべての空間的領域が均一に加熱される、あるいは冷却されるわけではないことが分かるため、興味深い。 これは、どの条件下では、熱電化を遅くしたり、完全に局所的に停止させることができるのか? 局所領域が他の領域から効果的に絶縁されている、あるいは2つ以上の領域間の障壁のように振る舞うような現実的なハミルトンと初期状態を構築することは可能か。 我々は、サブシステム間のエネルギーとエントロピーの流れを支配する条件を概説することで、これを肯定的に答える。 これらのアイデアを用いて、相互作用する領域間での‘熱スイッチ’を設計するために、ごく少数の状態がいかに簡単に利用できるかを示す代表的な例を提供する。

The long-time dynamics of quantum systems, typically, but not always, results in a thermal steady state. The microscopic processes that lead to or circumvent this fate are of interest, since everyday experience tells us that not all spatial regions of a system heat up or cool down uniformly. This motivates the question: under what conditions can one slow down or completely arrest thermalization locally? Is it possible to construct realistic Hamiltonians and initial states such that a local region is effectively insulated from the rest, or acts like a barrier between two or more regions? We answer this in the affirmative by outlining the conditions that govern the flow of energy and entropy between subsystems. Using these ideas we provide a representative example for how simple few-body states can be used to engineer a ``thermal switch" between interacting regions.
翻訳日:2024-05-13 20:46:40 公開日:2024-05-09
# タスク関連プラント部品の効率的な探索・検出のためのセマンティックスを考慮した次ベクタビュープランニング

Semantics-Aware Next-best-view Planning for Efficient Search and Detection of Task-relevant Plant Parts ( http://arxiv.org/abs/2306.09801v2 )

ライセンス: Link先を確認
Akshay K. Burusa, Joost Scholten, David Rapado Rincon, Xin Wang, Eldert J. van Henten, Gert Kootstra, (参考訳) トマトの収穫・脱葉をロボットで自動化するためには,作業関連部品の探索・検出が重要である。 トマトの排卵量が高いため、これは困難である。 アクティブビジョンは視点計画への有望なアプローチであり、カメラ視点を意図的に計画し、閉塞を克服し、知覚精度を向上させる。 しかし、現在のアクティブビジョンアルゴリズムでは、関係のある部分と無関係な部分の区別ができず、無関係な部分の知覚に時間を費やすことはできず、ターゲットの知覚に非効率である。 本稿では、意味情報を用いて、植物を識別し、ビュープランニング中に優先順位付けする意味論的アクティブビジョン戦略を提案する。 本研究は,シミュレーションと実環境実験を用いて,関係する植物部位の探索・検出を行う上での戦略を検証した。 トマトの3次元モデルと構造的複雑さの異なるモデルを用いて、我々のセマンティックス・アウェア・ストラテジーは、9つの視点を用いて、関連するすべての植物部位の81.8%を探索し、検出することができる。 これは、事前に定義された、ランダムで、容積的なアクティブビジョン戦略よりもはるかに高速で、より多くの植物部位が検出された。 我々の戦略は、植物および植物部分の位置の不確実性、植物の複雑さ、および異なる視点サンプリング戦略にも頑健であった。 さらに、実世界の実験では、7つの視点で、自然変化と閉塞、自然照明、センサーノイズ、カメラポーズの不確実性のある実世界の条件下で、関連するすべての植物部分の82.7%を探索し、検出することができる。 本研究は,植物部位の標的認識における意味認識型能動視覚の利点と実環境における適用性を示すものである。 トマト生産における自動収穫・脱葉の速度と堅牢性を大幅に向上させることができると考えている。

To automate harvesting and de-leafing of tomato plants using robots, it is important to search and detect the task-relevant plant parts. This is challenging due to high levels of occlusion in tomato plants. Active vision is a promising approach to viewpoint planning, which helps robots to deliberately plan camera viewpoints to overcome occlusion and improve perception accuracy. However, current active-vision algorithms cannot differentiate between relevant and irrelevant plant parts and spend time on perceiving irrelevant plant parts, making them inefficient for targeted perception. We propose a semantics-aware active-vision strategy that uses semantic information to identify the relevant plant parts and prioritise them during view planning. We evaluated our strategy on the task of searching and detecting the relevant plant parts using simulation and real-world experiments. In simulation, using 3D models of tomato plants with varying structural complexity, our semantics-aware strategy could search and detect 81.8% of all the relevant plant parts using nine viewpoints. It was significantly faster and detected more plant parts than predefined, random, and volumetric active-vision strategies. Our strategy was also robust to uncertainty in plant and plant-part position, plant complexity, and different viewpoint-sampling strategies. Further, in real-world experiments, our strategy could search and detect 82.7% of all the relevant plant parts using seven viewpoints, under real-world conditions with natural variation and occlusion, natural illumination, sensor noise, and uncertainty in camera poses. Our results clearly indicate the advantage of using semantics-aware active vision for targeted perception of plant parts and its applicability in real-world setups. We believe that it can significantly improve the speed and robustness of automated harvesting and de-leafing in tomato crop production.
翻訳日:2024-05-13 20:46:40 公開日:2024-05-09
# 可変オートエンコーダによるフレキシブルで効率的な空間極端エミュレーション

Flexible and efficient spatial extremes emulation via variational autoencoders ( http://arxiv.org/abs/2307.08079v3 )

ライセンス: Link先を確認
Likun Zhang, Xiaoyu Ma, Christopher K. Wikle, Raphaël Huser, (参考訳) 多くの実世界のプロセスは、古典的なガウス過程では特徴づけられない複雑なテール依存構造を持つ。 より柔軟な空間的極端モデルは、魅力的な極端依存特性を示すが、しばしば高次元から適合し、シミュレートすることが禁じられている。 本稿では,XVAEと呼ばれる変分オートエンコーダの符号化・復号構造において,フレキシブルかつ非定常的依存特性を持つ新しい空間超越モデルを統合することにより,高次元空間極度の計算とモデリングのバウンダリを推し進めることを目的とする。 XVAEは空間観測をエミュレートし、特に尾部において入力と同じ統計特性の出力を生成する。 このアプローチはまた、複雑な極値プロセスで高速な推論を行う新しい方法も提供します。 大規模なシミュレーション研究により、我々のXVAEは従来のベイズ推定よりもはるかに時間効率が良く、静止構造を持つ多くの空間超越モデルより優れていることが示された。 最後に、赤海における高解像度衛星による海面温度のデータセットを分析する。 本研究では, 気候変動に伴う海洋熱波の影響を受けやすい地域をXVAEを用いて同定し, 極端依存構造の空間的・時間的変動について検討する。

Many real-world processes have complex tail dependence structures that cannot be characterized using classical Gaussian processes. More flexible spatial extremes models exhibit appealing extremal dependence properties but are often exceedingly prohibitive to fit and simulate from in high dimensions. In this paper, we aim to push the boundaries on computation and modeling of high-dimensional spatial extremes via integrating a new spatial extremes model that has flexible and non-stationary dependence properties in the encoding-decoding structure of a variational autoencoder called the XVAE. The XVAE can emulate spatial observations and produce outputs that have the same statistical properties as the inputs, especially in the tail. Our approach also provides a novel way of making fast inference with complex extreme-value processes. Through extensive simulation studies, we show that our XVAE is substantially more time-efficient than traditional Bayesian inference while outperforming many spatial extremes models with a stationary dependence structure. Lastly, we analyze a high-resolution satellite-derived dataset of sea surface temperature in the Red Sea, which includes 30 years of daily measurements at 16703 grid cells. We demonstrate how to use XVAE to identify regions susceptible to marine heatwaves under climate change and examine the spatial and temporal variability of the extremal dependence structure.
翻訳日:2024-05-13 20:46:40 公開日:2024-05-09
# 機械学習による量子同期の開始予測

Predicting the Onset of Quantum Synchronization Using Machine Learning ( http://arxiv.org/abs/2308.15330v2 )

ライセンス: Link先を確認
Felipe Mahlow, Barış Çakmak, Göktuğ Karpat, İskender Yalçınkaya, Felipe Fanchini, (参考訳) オープンシステム設定における2つのキュービット間の環境誘起自然同期の出現を予測するために,機械学習アルゴリズムを適用した。 特に、量子ビットの開系力学を記述するために、グローバルおよびローカルな散逸体制を含む3つの異なるモデルを検討した。 我々は、これらの3つの異なるモデルにおいて、キュービットオブザーバの早期期待値のみを用いて、キュービットの長時間同期挙動を推定するために、$k$-nearest neighborsアルゴリズムを利用した。 本研究は, 機械学習に基づく手法を用いて, ダイナミックスの初期段階においても, 異なる同期現象の発生を高精度に決定できる可能性を明らかにした。 さらに、量子ビット予測値のランダムな誤差を考慮し、実験における潜在的測定誤差に対するアプローチの堅牢性を示す。 提案結果は,量子同期の決定に関する実験的研究において有用であることが証明できると考えられる。

We have applied a machine learning algorithm to predict the emergence of environment-induced spontaneous synchronization between two qubits in an open system setting. In particular, we have considered three different models, encompassing global and local dissipation regimes, to describe the open system dynamics of the qubits. We have utilized the $k$-nearest neighbors algorithm to estimate the long time synchronization behavior of the qubits only using the early time expectation values of qubit observables in these three distinct models. Our findings clearly demonstrate the possibility of determining the occurrence of different synchronization phenomena with high precision even at the early stages of the dynamics using a machine learning-based approach. Moreover, we show the robustness of our approach against potential measurement errors in experiments by considering random errors in qubit expectation values. We believe that the presented results can prove to be useful in experimental studies on the determination of quantum synchronization.
翻訳日:2024-05-13 20:36:56 公開日:2024-05-09
# 表型データに対する教師付き生成最適化手法

A supervised generative optimization approach for tabular data ( http://arxiv.org/abs/2309.05079v2 )

ライセンス: Link先を確認
Shinpei Nakamura-Sakai, Fadi Hamad, Saheed Obitayo, Vamsi K. Potluru, (参考訳) 合成データ生成は、プライバシ保護やデータ強化など、さまざまな要因によって引き起こされる、金融機関にとって重要なトピックとして浮上している。 合成データ生成には多くのアルゴリズムが提案されているが、特定のデータセットやユースケースにどの方法を使うべきかというコンセンサスに達することは依然として困難である。 さらに、既存のアプローチの大半は、下流のタスクを考慮していないという意味で''unsupervised''である。 これらの課題に対処するため,本研究では,新しい合成データ生成フレームワークを提案する。 このフレームワークは、特定の下流タスクに適した教師ありコンポーネントを統合し、メタラーニングアプローチを用いて既存の合成分布の最適混合分布を学習する。

Synthetic data generation has emerged as a crucial topic for financial institutions, driven by multiple factors, such as privacy protection and data augmentation. Many algorithms have been proposed for synthetic data generation but reaching the consensus on which method we should use for the specific data sets and use cases remains challenging. Moreover, the majority of existing approaches are ``unsupervised'' in the sense that they do not take into account the downstream task. To address these issues, this work presents a novel synthetic data generation framework. The framework integrates a supervised component tailored to the specific downstream task and employs a meta-learning approach to learn the optimal mixture distribution of existing synthetic distributions.
翻訳日:2024-05-13 20:36:56 公開日:2024-05-09
# 非監督的医用画像登録のための腫瘍容積の保存

Preserving Tumor Volumes for Unsupervised Medical Image Registration ( http://arxiv.org/abs/2309.10153v2 )

ライセンス: Link先を確認
Qihua Dong, Hao Du, Ying Song, Yan Xu, Jing Liao, (参考訳) 医用画像登録は、画像の対の空間的対応を推定する重要なタスクである。 しかし、現在の伝統的な深層学習に基づく手法は、しばしば異種領域、特に腫瘍領域において不均等な体積変化をもたらす変形場を生成するための類似度尺度に依存している。 これらの変化は腫瘍の大きさや解剖を著しく変え、臨床診断における画像登録の実際的使用を制限する。 この課題に対処するため,他の正常領域における画像類似性を最大化しつつ,腫瘍の体積を抑える制約問題として,腫瘍による画像登録を定式化した。 提案する戦略は2段階のプロセスである。 第1段階では, 類似性に基づく登録を用いて, 体積変化による腫瘍部位の同定を行い, 軟部腫瘍マスクを発生させる。 第2段階では,前段から算出したマスクに基づいて,サイズ変化を適応的に補償する適応的なボリューム保存損失を有するボリューム保存登録を提案する。 本手法は,軟部腫瘍マスクを用いて各領域における画像の類似性と容積保存のバランスを保ち,各領域に容積保存損失を付与する。 これにより、腫瘍の体積は登録プロセス中に保存される。 さまざまなデータセットやネットワークアーキテクチャ上での戦略を検証し,本手法が腫瘍容積の保存に成功し,最先端の手法で同等な登録結果が得られることを示した。 我々のコードは以下の通りである。

Medical image registration is a critical task that estimates the spatial correspondence between pairs of images. However, current traditional and deep-learning-based methods rely on similarity measures to generate a deforming field, which often results in disproportionate volume changes in dissimilar regions, especially in tumor regions. These changes can significantly alter the tumor size and underlying anatomy, which limits the practical use of image registration in clinical diagnosis. To address this issue, we have formulated image registration with tumors as a constraint problem that preserves tumor volumes while maximizing image similarity in other normal regions. Our proposed strategy involves a two-stage process. In the first stage, we use similarity-based registration to identify potential tumor regions by their volume change, generating a soft tumor mask accordingly. In the second stage, we propose a volume-preserving registration with a novel adaptive volume-preserving loss that penalizes the change in size adaptively based on the masks calculated from the previous stage. Our approach balances image similarity and volume preservation in different regions, i.e., normal and tumor regions, by using soft tumor masks to adjust the imposition of volume-preserving loss on each one. This ensures that the tumor volume is preserved during the registration process. We have evaluated our strategy on various datasets and network architectures, demonstrating that our method successfully preserves the tumor volume while achieving comparable registration results with state-of-the-art methods. Our codes is available at: \url{https://dddraxxx.github.io/Volume-Preserving-Registration/}.
翻訳日:2024-05-13 20:36:56 公開日:2024-05-09
# TIGERScore:すべてのテキスト生成タスクのための説明可能なメトリクスの構築を目指して

TIGERScore: Towards Building Explainable Metric for All Text Generation Tasks ( http://arxiv.org/abs/2310.00752v4 )

ライセンス: Link先を確認
Dongfu Jiang, Yishan Li, Ge Zhang, Wenhao Huang, Bill Yuchen Lin, Wenhu Chen, (参考訳) 本稿では,テキスト生成タスクの幅広い範囲において,textbf{I}nstruction \textbf{G}uidance を用いて,textbf{E}xplainable および \textbf{R}eference-free 評価を行う。 アークーンスコアのみを提供する他の自動評価方法とは異なり、TIGERScoreは自然言語命令によって誘導され、生成されたテキストの誤りをピンポイントするエラー解析を提供する。 LLaMA-2は、6つのテキスト生成タスクと23のテキスト生成データセットをカバーする、厳密にキュレートされた命令チューニングデータセットMetricInstructに基づいて訓練されている。 データセットは42K四重項からなる(命令、入力、システム出力$\rightarrow$エラー解析)。 さまざまな種類のエラーをカバーするために、さまざまなモデルから‘システム出力’を収集しました。 評価基準を定量的に評価するため、5つのホールドインデータセット、2つのホールドアウトデータセットの人格評価との相関を評価し、TIGERScoreがこれらのデータセットの人格評価とオープンソースSoTA相関を達成でき、GPT-4評価にほぼ近づいたことを示す。 基準のない計量として、その相関は既存の基準ベースの最高の指標を超えうる。 さらに, 測定値から生成した理論的根拠を定性的に評価するために, 生成した説明について人間による評価を行い, その説明が70.8\%の精度であることが判明した。 これらの実験結果を通じて、TIGERScoreは、任意のテキスト生成タスクを評価する普遍的な説明可能なメトリクスを構築する可能性を実証している。 リソースはすべて、プロジェクトのWebサイトでリリースされています。

We present TIGERScore, a \textbf{T}rained metric that follows \textbf{I}nstruction \textbf{G}uidance to perform \textbf{E}xplainable, and \textbf{R}eference-free evaluation over a wide spectrum of text generation tasks. Different from other automatic evaluation methods that only provide arcane scores, TIGERScore is guided by natural language instruction to provide error analysis to pinpoint the mistakes in the generated text. Our metric is based on LLaMA-2, trained on our meticulously curated instruction-tuning dataset MetricInstruct which covers 6 text generation tasks and 23 text generation datasets. The dataset consists of 42K quadruple in the form of (instruction, input, system output $\rightarrow$ error analysis). We collected the `system outputs' through from a large variety of models to cover different types of errors. To quantitatively assess our metric, we evaluate its correlation with human ratings on 5 held-in datasets, 2 held-out datasets and show that TIGERScore can achieve the open-source SoTA correlation with human ratings across these datasets and almost approaches GPT-4 evaluator. As a reference-free metric, its correlation can even surpass the best existing reference-based metrics. To further qualitatively assess the rationale generated by our metric, we conduct human evaluation on the generated explanations and found that the explanations are 70.8\% accurate. Through these experimental results, we believe TIGERScore demonstrates the possibility of building universal explainable metrics to evaluate any text generation task. All the resourced are released in our project website: \url{https://tiger-ai-lab.github.io/TIGERScore/}.
翻訳日:2024-05-13 20:36:56 公開日:2024-05-09
# 2次元アレイの2層イオントラップ設計

Bilayer Ion Trap Design for 2D Arrays ( http://arxiv.org/abs/2310.07195v2 )

ライセンス: Link先を確認
Gavin N. Nop, Jonathan D. H. Smith, Daniel Stick, Durga Paudyal, (参考訳) ジャンクションは、2次元イオントラップアレイにおけるクビット移動をサポートし、新興のトラップイオン量子コンピュータにおける接続性を高める基本的な要素である。 表面イオントラップは、通常、擬ポテンシャルへの障害を最小限に抑えるために、単一平面に高周波電極(RF)を形成することで実装されている。 しかし、この手法は、電力の消耗と電圧低下の可能性を高めることができるRFリードルーティングに関する問題を提起する。 本稿では, 垂直方向に回転する2つのリニアイオントラップを組み込んだ新しい2層接合設計を提案し, シミュレーションする。 トラップは垂直に分離され、各平面間のトラップ電位を生成する。 互いに相対的に各トラップのRF電極の直交配向は、2次元の輸送を実現するために使用できる閉じ込めの垂直軸を与える。 この設計は製造と運用の課題を導入しているが、現在は2つの異なる構造が垂直方向に相対的に位置決めされ、上部からの光学的アクセスが曖昧になっているため、トラップの上面からRFリードをルーティングする必要がなくなり、典型的なジャンクションで発生する擬似ポテンシャルバンプを排除している。 本稿では, マチュー方程式を解析的に解き, 安定領域を同定し, イオンダイナミクスを数値モデリングすることによって, 新しい構成における理想的なイオン移動の安定性を示す。 我々の新しいジャンクションレイアウトは、マイクロファブリックイオントラップ制御の柔軟性を高め、大規模に閉じ込められたイオン量子コンピューティングを可能にする可能性がある。

Junctions are fundamental elements that support qubit locomotion in two-dimensional ion trap arrays and enhance connectivity in emerging trapped-ion quantum computers. In surface ion traps they have typically been implemented by shaping radio frequency (RF) electrodes in a single plane to minimize the disturbance to the pseudopotential. However, this method introduces issues related to RF lead routing that can increase power dissipation and the likelihood of voltage breakdown. Here, we propose and simulate a novel two-layer junction design incorporating two perpendicularly rotoreflected (rotated, then reflected) linear ion traps. The traps are vertically separated, and create a trapping potential between their respective planes. The orthogonal orientation of the RF electrodes of each trap relative to the other provides perpendicular axes of confinement that can be used to realize transport in two dimensions. While this design introduces manufacturing and operating challenges, as now two separate structures have to be precisely positioned relative to each other in the vertical direction and optical access from the top is obscured, it obviates the need to route RF leads below the top surface of the trap and eliminates the pseudopotential bumps that occur in typical junctions. In this paper the stability of idealized ion transfer in the new configuration is demonstrated, both by solving the Mathieu equation analytically to identify the stable regions and by numerically modeling ion dynamics. Our novel junction layout has the potential to enhance the flexibility of microfabricated ion trap control to enable large-scale trapped-ion quantum computing.
翻訳日:2024-05-13 20:36:56 公開日:2024-05-09
# 忠実度測定可能なマスケ言語モデル

Faithfulness Measurable Masked Language Models ( http://arxiv.org/abs/2310.07819v2 )

ライセンス: Link先を確認
Andreas Madsen, Siva Reddy, Sarath Chandar, (参考訳) NLPモデルを説明するための一般的なアプローチは、予測にどのトークンが重要であるかを表現する重要な尺度を使用することである。 残念なことに、このような説明は説得力があるにもかかわらずしばしば間違っている。 そのため、彼らの忠実さを測ることが不可欠である。 そのような指標の1つは、トークンが本当に重要であるなら、それらを隠すことはモデルのパフォーマンスを悪化させる。 しかし、トークンマスキングはアウト・オブ・ディストリビューションの問題を導入し、これに対処する既存のソリューションは計算コストが高く、プロキシモデルを採用している。 さらに、他のメトリクスはスコープが非常に限られています。 この研究は、これらの課題に対処する本質的に忠実度測定可能なモデルを提案する。 これはマスキングを取り入れた新しい微調整手法を用いて実現され、マスクトークンが設計によって流通する。 これは、完全にモデルに依存しない既存のアプローチとは異なるが、実際には適用できない。 我々は16の異なるデータセットに適用し、統計的分布内テストを用いて検証することで、我々のアプローチの汎用性を実証する。 その後、信頼度は9つの異なる重要度で測定される。 マスキングは流通しないため、マスキング自体が重視する重要度は一貫して忠実になる。 さらに,本モデルは信頼度を安価に測定できるため,最大忠実度に対する説明を最適化することができるため,本モデルは間接的に説明可能である。

A common approach to explaining NLP models is to use importance measures that express which tokens are important for a prediction. Unfortunately, such explanations are often wrong despite being persuasive. Therefore, it is essential to measure their faithfulness. One such metric is if tokens are truly important, then masking them should result in worse model performance. However, token masking introduces out-of-distribution issues, and existing solutions that address this are computationally expensive and employ proxy models. Furthermore, other metrics are very limited in scope. This work proposes an inherently faithfulness measurable model that addresses these challenges. This is achieved using a novel fine-tuning method that incorporates masking, such that masking tokens become in-distribution by design. This differs from existing approaches, which are completely model-agnostic but are inapplicable in practice. We demonstrate the generality of our approach by applying it to 16 different datasets and validate it using statistical in-distribution tests. The faithfulness is then measured with 9 different importance measures. Because masking is in-distribution, importance measures that themselves use masking become consistently more faithful. Additionally, because the model makes faithfulness cheap to measure, we can optimize explanations towards maximal faithfulness; thus, our model becomes indirectly inherently explainable.
翻訳日:2024-05-13 20:36:56 公開日:2024-05-09
# SU($N$)$\times$U(1) Lattice Gauge Theoriesをシミュレートするためのスケーラブル、abイニシアトプロトコル

Scalable, ab initio protocol for quantum simulating SU($N$)$\times$U(1) Lattice Gauge Theories ( http://arxiv.org/abs/2310.08643v3 )

ライセンス: Link先を確認
Federica Maria Surace, Pierre Fromholz, Francesco Scazza, Marcello Dalmonte, (参考訳) 本稿では,SU($N$)$\times$U(1)格子ゲージ理論のスケーラブルな量子シミュレーションのためのプロトコルを提案する。 このプロトコルは天然に存在するSU($N$)擬スピン対称性と、そのような原子種に特有の強い軌道間相互作用の組み合わせを利用する。 微視的力学の詳細な研究は、ゲージの不変性がパラメータ状態にどのように現れるかを示し、そのような理論のシミュレーションにおける主要な課題を特定することを可能にする。 量子シミュレーターとコンピュータの両方において、そのような理論のクラスの機能について、より深く分析するための重要な要素であるゲージ不変力学の観測に関する実験的安定性に関する要件に関する定量的結果を提供する。

We propose a protocol for the scalable quantum simulation of SU($N$)$\times$U(1) lattice gauge theories with alkaline-earth like atoms in optical lattices in both one- and two-dimensional systems. The protocol exploits the combination of naturally occurring SU($N$) pseudo-spin symmetry and strong inter-orbital interactions that is unique to such atomic species. A detailed ab initio study of the microscopic dynamics shows how gauge invariance emerges in an accessible parameter regime, and allows us to identify the main challenges in the simulation of such theories. We provide quantitative results about the requirements in terms of experimental stability in relation to observing gauge invariant dynamics, a key element for a deeper analysis on the functioning of such class of theories in both quantum simulators and computers.
翻訳日:2024-05-13 20:27:06 公開日:2024-05-09
# 銀河カタログを用いたフィールドレベルシミュレーションに基づく推論--系統的効果の影響

Field-level simulation-based inference with galaxy catalogs: the impact of systematic effects ( http://arxiv.org/abs/2310.15234v2 )

ライセンス: Link先を確認
Natalí S. M. de Santi, Francisco Villaescusa-Navarro, L. Raul Abramo, Helen Shao, Lucia A. Perez, Tiago Castro, Yueying Ni, Christopher C. Lovell, Elena Hernandez-Martinez, Federico Marinacci, David N. Spergel, Klaus Dolag, Lars Hernquist, Mark Vogelsberger, (参考訳) 近年、銀河赤方偏移サーベイから宇宙パラメータを制約する強力な方法は、グラフニューラルネットワークを訓練し、スケールにカットを課すことなく、フィールドレベルの可能性のない推論を実行することであることが示されている。 特に、De Santi et al (2023) は、天体物理学やサブグリッドモデルにおける不確実性に対して堅牢な銀河の位置と半径速度のみを含むカタログから$\Omega_{\rm m}$の値を正確に推測できるモデルを開発した。 しかし、観測は多くの影響を受けており、その中にはその影響も含まれる。 1)マスク。 2 特異速度及び半径距離の不確かさ及び 3) 異なる銀河の選び方。 さらに、観測によって赤方偏移、交叉銀河の半径位置と速度を測定できるだけである。 本稿では、CAMELSプロジェクトと異なるコードで実行される何千もの最先端の流体力学シミュレーションから作成され、これらの観測効果を取り入れた銀河カタログ上で、我々のモデルを訓練し、テストする。 これらの効果はモデルの精度と精度を低下させ、モデルが故障するカタログの分数を増加させるが、モデルが良好に機能する銀河カタログの分数は90%以上であり、実際のデータに適用しても宇宙論的パラメータを制約する可能性を示している。

It has been recently shown that a powerful way to constrain cosmological parameters from galaxy redshift surveys is to train graph neural networks to perform field-level likelihood-free inference without imposing cuts on scale. In particular, de Santi et al. (2023) developed models that could accurately infer the value of $\Omega_{\rm m}$ from catalogs that only contain the positions and radial velocities of galaxies that are robust to uncertainties in astrophysics and subgrid models. However, observations are affected by many effects, including 1) masking, 2) uncertainties in peculiar velocities and radial distances, and 3) different galaxy selections. Moreover, observations only allow us to measure redshift, intertwining galaxies' radial positions and velocities. In this paper we train and test our models on galaxy catalogs, created from thousands of state-of-the-art hydrodynamic simulations run with different codes from the CAMELS project, that incorporate these observational effects. We find that, although the presence of these effects degrades the precision and accuracy of the models, and increases the fraction of catalogs where the model breaks down, the fraction of galaxy catalogs where the model performs well is over 90 %, demonstrating the potential of these models to constrain cosmological parameters even when applied to real data.
翻訳日:2024-05-13 20:27:06 公開日:2024-05-09
# 単元平均化による連続可変量子チャネルの改善

Improving Continuous-variable Quantum Channels with Unitary Averaging ( http://arxiv.org/abs/2311.10432v2 )

ライセンス: Link先を確認
S. Nibedita Swain, Ryan J. Marshman, Peter P. Rohde, Austin P. Lund, Alexander S. Solntsev, Timothy C. Ralph, (参考訳) ボゾン系を用いた量子情報処理における重要なハードルは、光子がチャネルを伝播する際に生じる確率的位相誤差である。 これらのエラーはチャネルを通過する状態の純度を低下させ、チャネルの容量を減少させる。 本稿では、光チャネルを介して伝送される未知のガウス状態を保護するために、受動線形光ユニタリ平均化方式を提案する。 この方式は, 位相雑音が純度, スクイーズ, 絡み合いに与える影響を低減し, 確率的誤り訂正プロトコルによりチャネルを向上する。 このスキームは損失に対して堅牢であり、一般的に高い確率で成功する。 本研究は, 数値シミュレーションと解析的近似の双方を, 実用的および現在の技術の改善とともに, 関連パラメータに合わせたものである。 また、プロトコルの漸近性を示し、現在と将来の関連性を強調している。

A significant hurdle for quantum information and processing using bosonic systems is stochastic phase errors which occur as the photons propagate through a channel. These errors will reduce the purity of states passing through the channel and so reducing the channels capacity. We present a scheme of passive linear optical unitary averaging for protecting unknown Gaussian states transmitted through an optical channel. The scheme reduces the effect of phase noise on purity, squeezing and entanglement, thereby enhancing the channel via probabilistic error correcting protocol. The scheme is robust to loss and typically succeeds with high probability. We provide both numerical simulations and analytical approximations tailored for relevant parameters with the improvement of practical and current technology. We also show the asymptotic nature of the protocol, highlighting both current and future relevance.
翻訳日:2024-05-13 20:27:06 公開日:2024-05-09
# 対象データ生成部品の分離による手続き的公正性

Procedural Fairness Through Decoupling Objectionable Data Generating Components ( http://arxiv.org/abs/2311.14688v3 )

ライセンス: Link先を確認
Zeyu Tang, Jialu Wang, Yang Liu, Peter Spirtes, Kun Zhang, (参考訳) 我々は、しばしば見落とされがちな手続き的不公平さ、すなわち、データ生成プロセスの中立的側面(問題ではない)の振る舞いに対する潜在的に不注意な変更、および/または最も有利でない個人の最大の利益に対する手続き的保証の欠如を明らかにし、対処する。 ジョン・ロールズによる純粋手続き的正義の擁護に触発され、我々は自動意思決定を社会機関のマイクロコズムとみなし、データ生成プロセス自体が手続き的公正性の要件を満たすことができるかを考える。 本稿では、参照点と関連する値インスタンス化ルールを利用して、中立なデータ生成コンポーネントを分離するフレームワークを提案する。 本研究は, 疑似手続き不公平を防止し, 目的とするデータ生成コンポーネントだけでなく, 影響を受けない中立なコンポーネントにも注意を向ける必要があることを明らかにする。

We reveal and address the frequently overlooked yet important issue of disguised procedural unfairness, namely, the potentially inadvertent alterations on the behavior of neutral (i.e., not problematic) aspects of data generating process, and/or the lack of procedural assurance of the greatest benefit of the least advantaged individuals. Inspired by John Rawls's advocacy for pure procedural justice, we view automated decision-making as a microcosm of social institutions, and consider how the data generating process itself can satisfy the requirements of procedural fairness. We propose a framework that decouples the objectionable data generating components from the neutral ones by utilizing reference points and the associated value instantiation rule. Our findings highlight the necessity of preventing disguised procedural unfairness, drawing attention not only to the objectionable data generating components that we aim to mitigate, but also more importantly, to the neutral components that we intend to keep unaffected.
翻訳日:2024-05-13 20:27:06 公開日:2024-05-09
# 対応問題を回避する混合モデルに基づく物体姿勢推定のための確率幾何学的枠組み

A Stochastic-Geometrical Framework for Object Pose Estimation based on Mixture Models Avoiding the Correspondence Problem ( http://arxiv.org/abs/2311.18107v4 )

ライセンス: Link先を確認
Wolfgang Hoegele, (参考訳) 背景: 剛体物体の姿勢推定は、光学メロロジーとコンピュータビジョンの実践的な課題である。 本稿では,複数の特徴点の観測に基づくオブジェクトポーズ推定のための新しい確率幾何学的モデリングフレームワークを提案する。 方法:本フレームワークはオブジェクト空間における特徴点密度と実測値の解釈に混合モデルを利用する。 利点は、個々の特徴対応を解決し、マルチビューアプリケーションに正しい確率的依存関係を組み込むのを避けることである。 まず、一般的なモデリングフレームワークを提示し、次に、ポーズ推定のための一般的なアルゴリズムを導出し、第3に、2つのサンプルモデル(カメラとラセレーション設定)を提示する。 結果: 数値実験により, 測定分解能, 物体変形, 測定ノイズへの依存性を含む3つの観測システムに対して, 4つのシミュレーションシナリオを提示することにより, このモデリングと一般アルゴリズムの有効性を示した。 混合モデルを用いた確率論的モデリングは、対応問題を避けつつ、正確でロバストなポーズ推定の可能性を示している。

Background: Pose estimation of rigid objects is a practical challenge in optical metrology and computer vision. This paper presents a novel stochastic-geometrical modeling framework for object pose estimation based on observing multiple feature points. Methods: This framework utilizes mixture models for feature point densities in object space and for interpreting real measurements. Advantages are the avoidance to resolve individual feature correspondences and to incorporate correct stochastic dependencies in multi-view applications. First, the general modeling framework is presented, second, a general algorithm for pose estimation is derived, and third, two example models (camera and lateration setup) are presented. Results: Numerical experiments show the effectiveness of this modeling and general algorithm by presenting four simulation scenarios for three observation systems, including the dependence on measurement resolution, object deformations and measurement noise. Probabilistic modeling utilizing mixture models shows the potential for accurate and robust pose estimations while avoiding the correspondence problem.
翻訳日:2024-05-13 20:17:21 公開日:2024-05-09
# 医療用インターネットのための軽量でスケーラブルなポスト量子認証

Lightweight and Scalable Post-Quantum Authentication for Medical Internet of Things ( http://arxiv.org/abs/2311.18674v3 )

ライセンス: Link先を確認
Attila A. Yavuz, Saleh Darzi, Saif E. Nouma, (参考訳) メディカル・インターネット・オブ・モノ(MIoT)は、分析、監視、診断のためにユーザからセキュリティに敏感なデータを収集するリソース限定の医療組み込みデバイスを格納している。 デジタル署名は、この機密性の高い医療情報の認証と整合性を保証する上で、基礎的な役割を果たす。 しかし、現在のIoTシステムで使用される従来のシグネチャには、必要な長期的なセキュリティが欠如しており、出現する量子コンピュータの脅威に対して脆弱である可能性がある。 NIStのPQC標準は、バッテリー限定のMIoTデバイスには適さない重いオーバーヘッドを課している。 より計算効率のよいPQシグネチャを設計する努力は、大きなメモリオーバーヘッドと潜在的な脆弱性を導入するか、強い仮定に依存するか、課題に直面している。 そこで本研究では、軽量PQデジタル署名であるINF-HORS(INF-HORS)を紹介する。 我々の知る限り、INF-HORSは最小限のアーキテクチャ仮定の下で多項式非有界署名機能を提供する最初のシグナ-最適ハッシュベースのシグネチャである。 他のPQ署名とは異なり、INF-HORSはハイパーツリー構造を必要としない。 性能分析の結果,INF-HORS は Dilithium や SPHINCS+ のような NIST PQC 標準よりも計算効率が高いことが確認された。 我々は、無作為なオラクルモデルにおけるINF-HORSのセキュリティを証明し、8ビットのATxmega128A1マイクロコントローラ上でBLISS-Iと比較して、20倍高速なシグネチャ生成とより小さなシグネチャとプライベートキーサイズを実現する実験を行った。 INF-HORSは、不正な検証サーバ、セキュアなエンクレーブ、信頼できる検証支援エンティティを頼りにせず、セキュリティリスクを最小限にし、最小限の暗号オーバーヘッドと強力なセキュリティ仮定を持つMIoTにとって理想的なものにしている。

The Medical Internet of Things (MIoT) harbors resource-limited medical embedded devices that collect security-sensitive data from users for analysis, monitoring, and diagnosis. Digital signatures play a foundational role in ensuring the authentication and integrity of this sensitive medical information, critical for the trustworthiness of MIoT applications. However, traditional signatures used in current IoT systems may lack the necessary long-term security and are vulnerable to emerging quantum computer threats. NISt's PQC standards impose heavy overhead unsuitable for battery-limited MIoT devices. Efforts to design more computationally efficient PQ signatures have faced challenges, either introducing significant memory overhead and potential vulnerabilities or relying on strong assumptions. Hence, this paper introduces INFinity-HORS (INF-HORS), a lightweight PQ digital signature. To the best of our knowledge, INF-HORS is the first signer-optimal hash-based signature offering polynomial unbounded signing capabilities under minimal architectural assumptions. Unlike other PQ signatures, INF-HORS does not require hyper-tree structures or incur the high memory usage seen in multivariate counterparts. Our performance analysis confirms that INF-HORS is significantly more computationally efficient than NIST PQC standards like Dilithium and SPHINCS+. We prove INF-HORS's security in the random oracle model and show through experiments that it achieves 20x faster signature generation and smaller signature and private key sizes compared to BLISS-I on an 8-bit ATxmega128A1 microcontroller. INF-HORS does not rely on non-colluding verification servers, secure enclaves, or trusted verification assisting entities, minimizing security risks and making it ideal for MIoT with minimal cryptographic overhead and strong security assumptions.
翻訳日:2024-05-13 20:17:21 公開日:2024-05-09
# フロケットトポロジカル絶縁体における動的キラル対称性と対称性-クラス変換

Dynamical Chiral Symmetry and Symmetry-Class Conversion in Floquet Topological Insulators ( http://arxiv.org/abs/2401.05697v2 )

ライセンス: Link先を確認
Mohamed Assili, Panagiotis Kotetes, (参考訳) 本研究では, 動力学的カイラル対称性 (DCS) を持つフロケットトポロジカル絶縁体に生じる静的な非定常な特性,すなわち運転中に存在するカイラル対称性について論じる。 本研究では,DCSを有するFloquet絶縁体の位相特性について検討する。 我々は、ハーモニックドライブの場合を考え、周波数空間における準エネルギー演算子を用いた一般的なフレームワークを用いる。 静的なアナログを持たないDCSの場合、運転の有無が準エネルギーゼロの位相位相に無視できる影響があることが判明した。 対照的に、トポロジカルギャップは$\pi$準エネルギーで開き、主に駆動摂動が消える瞬間に起こる。 BDI対称性クラスにおける拡張キタエフ連鎖モデルに対する上記の一般的な予測を確認した。 キラル対称性を保ちながらドライブを追加するときに開く別の可能性として、対称性クラス変換がある。 1次元において位相的に自明な静的CIクラスハミルトニアンに対してそのような効果を示す。 適切な運転を考慮し、CI$\rightarrow$AIII遷移を得る。 特に、トポロジカル位相はDCSが静的なアナログを持つか否かに強く依存する。 以上の結果から,Floquet 絶縁体を非標準 DCS で前進させ,トポロジカルな$\pi$-modes を操作できる理想的な候補プラットフォームとした。

In this work, we discuss properties with no static counterpart arising in Floquet topological insulators with a dynamical chiral symmetry (DCS), i.e., a chiral symmetry which is present while driving. We explore the topological properties of Floquet insulators possessing a DCS which either does or does not survive upon taking the static limit. We consider the case of harmonic drives and employ a general framework using the quasi-energy operator in frequency space. We find that for a DCS with no static analog, the presence of driving has a negligible impact on the topological phases associated with zero quasi-energy. In stark contrast, topological gaps can open at $\pi$ quasi-energy and mainly occur at momenta where the driving perturbation vanishes. We confirm the above general predictions for an extended Kitaev chain model in the BDI symmetry class. Another possibility that opens up when adding the drive, while preserving chiral symmetry, is symmetry-class conversion. We demonstrate such an effect for a static CI class Hamiltonian which is topologically trivial in 1D. By considering a suitable driving, we obtain a CI$\rightarrow$AIII transition, which now enables the system to harbor topological $\pi$-modes. Notably, the arising topological phases strongly depend on whether the DCS has a static analog or not. Our results bring Floquet insulators with nonstandard DCS forward as ideal candidate platforms for engineering and manipulating topological $\pi$-modes.
翻訳日:2024-05-13 20:17:21 公開日:2024-05-09
# ラベルのない共変量シフト下でのモデル性能の推定

Estimating Model Performance Under Covariate Shift Without Labels ( http://arxiv.org/abs/2401.08348v2 )

ライセンス: Link先を確認
Jakub Białek, Wojtek Kuberski, Nikolaos Perrakis, Albert Bifet, (参考訳) マシンラーニングモデルは、データ分散の変化によるデプロイ後のパフォーマンス劣化を経験することが多い。 ラベルの欠落や遅延を正確に評価することは困難である。 ドリフト検出のような既存のプロキシ手法では、これらのシフトの影響を適切に測定できない。 そこで本研究では,共変量シフトがモデル性能に与える影響を正確に評価し,確率適応性能推定(PAPE)と呼ぶ,ラベルのないデータに基づく分類モデルの評価手法を提案する。 モデルとデータタイプの非依存であり、あらゆるパフォーマンス指標で機能する。 重要なことに、PAPEは元のモデルとは独立して動作し、予測と確率推定のみに依存し、代わりにデータから直接学習する、シフトの性質に関する仮定は不要である。 我々は、米国国勢調査データから900以上のデータセットモデルの組み合わせを用いてPAPEを試験し、様々な指標を用いて、その性能をいくつかのベンチマークで評価した。 本研究は,PAPEが他の手法よりも優れており,分類モデルの性能を推定する上で優れた選択肢であることを示す。

Machine learning models often experience performance degradation post-deployment due to shifts in data distribution. It is challenging to assess post-deployment performance accurately when labels are missing or delayed. Existing proxy methods, such as drift detection, fail to measure the effects of these shifts adequately. To address this, we introduce a new method for evaluating classification models on unlabeled data that accurately quantifies the impact of covariate shift on model performance and call it Probabilistic Adaptive Performance Estimation (PAPE). It is model and data-type agnostic and works for any performance metric. Crucially, PAPE operates independently of the original model, relying only on its predictions and probability estimates, and does not need any assumptions about the nature of the shift, learning directly from data instead. We tested PAPE using over 900 dataset-model combinations from US census data, assessing its performance against several benchmarks through various metrics. Our findings show that PAPE outperforms other methodologies, making it a superior choice for estimating the performance of classification models.
翻訳日:2024-05-13 20:07:31 公開日:2024-05-09
# ICGNet:インスタンス中心のグラフ作成のための統一的なアプローチ

ICGNet: A Unified Approach for Instance-Centric Grasping ( http://arxiv.org/abs/2401.09939v2 )

ライセンス: Link先を確認
René Zurbrügg, Yifan Liu, Francis Engelmann, Suryansh Kumar, Marco Hutter, Vaishakh Patil, Fisher Yu, (参考訳) 正確な把握は、組立ロボットや家庭用ロボットなど、いくつかのロボットタスクの鍵となる。 まず、ロボットは個々の物体の幾何学的特性を分析して、実現可能なグリップを見つける必要がある。 これらの把握は、局所オブジェクト幾何学に準拠する必要がある。 第二に、提案された各グリップに対して、ロボットはシーン内の他のオブジェクトとの相互作用を判断する必要がある。 最後に,ロボットは対象物体の形状を考慮しつつ,衝突のないグリップ軌跡を計算しなければならない。 ほとんどのグリップ検出アルゴリズムは、モノリシックな方法でグリップポーズを直接予測するが、環境の構成可能性を捉えない。 本稿では,オブジェクト中心の把握のためのエンドツーエンドアーキテクチャを提案する。 この方法は、任意の1つの方向からのポイントクラウドデータを入力として使用し、シーン内の各部分観察対象に対してインスタンス中心の表現を生成する。 この表現は、散らばったテーブルトップシーンにおけるオブジェクトの再構成と把握検出にさらに用いられる。 提案手法の有効性を,合成データセット上での最先端手法に対して広範囲に評価し,把握と再構築に優れた性能を示す。 さらに,さまざまなオブジェクトでシーンをバラバラにすることで,実世界の応用性を実証する。

Accurate grasping is the key to several robotic tasks including assembly and household robotics. Executing a successful grasp in a cluttered environment requires multiple levels of scene understanding: First, the robot needs to analyze the geometric properties of individual objects to find feasible grasps. These grasps need to be compliant with the local object geometry. Second, for each proposed grasp, the robot needs to reason about the interactions with other objects in the scene. Finally, the robot must compute a collision-free grasp trajectory while taking into account the geometry of the target object. Most grasp detection algorithms directly predict grasp poses in a monolithic fashion, which does not capture the composability of the environment. In this paper, we introduce an end-to-end architecture for object-centric grasping. The method uses pointcloud data from a single arbitrary viewing direction as an input and generates an instance-centric representation for each partially observed object in the scene. This representation is further used for object reconstruction and grasp detection in cluttered table-top scenes. We show the effectiveness of the proposed method by extensively evaluating it against state-of-the-art methods on synthetic datasets, indicating superior performance for grasping and reconstruction. Additionally, we demonstrate real-world applicability by decluttering scenes with varying numbers of objects.
翻訳日:2024-05-13 20:07:31 公開日:2024-05-09
# ハードウェア対応準局所ポリシーを用いた多重量子リピータにおける古典的通信コストの低減

Reducing classical communication costs in multiplexed quantum repeaters using hardware-aware quasi-local policies ( http://arxiv.org/abs/2401.13168v2 )

ライセンス: Link先を確認
Stav Haldar, Pratik J. Barge, Xiang Cheng, Kai-Chi Chang, Brian T. Kirby, Sumeet Khatri, Chee Wei Wong, Hwang Lee, (参考訳) 将来の量子ネットワークは、複数の量子メモリを備えたノードを持ち、多重化と絡み合いの蒸留戦略により、忠実度を高め、エンドツーエンドの絡み合い分布の待ち時間を短縮する。 本研究では、多重化量子リピータ連鎖に対するtextit{quasi-local} ポリシーを導入する。 完全にローカルなポリシーでは、ノードは自身の状態の知識のみに基づいて決定する。 準局所的なポリシでは、ノードはリレーダチェーンの状態に関する知識を増やしていますが、必ずしも完全なグローバルな知識ではありません。 当社のポリシでは,ノードが行わなければならないほとんどの決定に対して,チェーン全体ではなく,チェーンの連結領域に関する情報のみを保持する必要がある,という認識を活用しています。 このように、ローカルポリシーよりも優れたパフォーマンスを得るだけでなく、グローバル知識ポリシーに固有の古典的コミュニケーション(CC)コストを削減する。 我々の政策はまた、ネストされた浄化と2倍のスワップ政策を実際に関連するパラメーター体制において、よく知られ、広く研究されている。 また, エンタングルメント蒸留の役割についても慎重に検討した。 分析的および数値的な結果から,蒸留が意味を持ち有用であるパラメータ構造を同定する。 これらの体制では、「交換する前に蒸留するか、あるいはその逆か?」という問題にも対処する。 最後に、さらに実用的なガイダンスを提供するために、多重化に基づくリピータチェーンの実験実装を提案し、その鍵要素である高次元バイフォトン周波数コムを実験的に実証する。 そこで我々は,2つの具体的メモリプラットフォーム,レアアースイオンとダイヤモンド空洞のシミュレーション結果を用いて,そのような実世界のネットワークにおける多重化ポリシーの期待性能を評価する。

Future quantum networks will have nodes equipped with multiple quantum memories, allowing for multiplexing and entanglement distillation strategies in order to increase fidelities and reduce waiting times for end-to-end entanglement distribution. In this work, we introduce \textit{quasi-local} policies for multiplexed quantum repeater chains. In fully-local policies, nodes make decisions based only on knowledge of their own states. In our quasi-local policies, nodes have increased knowledge of the state of the repeater chain, but not necessarily full, global knowledge. Our policies exploit the observation that for most decisions the nodes have to make, they only need to have information about the connected region of the chain they belong to, and not the entire chain. In this way, we not only obtain improved performance over local policies, but we reduce the classical communication (CC) costs inherent to global-knowledge policies. Our policies also outperform the well-known and widely studied nested purification and doubling swapping policy in practically relevant parameter regimes. We also carefully examine the role of entanglement distillation. Via analytical and numerical results, we identify the parameter regimes in which distillation makes sense and is useful. In these regimes, we also address the question: "Should we distill before swapping, or vice versa?" Finally, to provide further practical guidance, we propose an experimental implementation of a multiplexing-based repeater chain, and experimentally demonstrate the key element, a high-dimensional biphoton frequency comb. We then evaluate the anticipated performance of our multiplexing-based policies in such a real-world network through simulation results for two concrete memory platforms, namely rare-earth ions and diamond vacancies.
翻訳日:2024-05-13 20:07:31 公開日:2024-05-09
# 生涯マルチエージェントパス探索のためのガイダンスグラフ最適化

Guidance Graph Optimization for Lifelong Multi-Agent Path Finding ( http://arxiv.org/abs/2402.01446v2 )

ライセンス: Link先を確認
Yulun Zhang, He Jiang, Varun Bhatt, Stefanos Nikolaidis, Jiaoyang Li, (参考訳) 本研究では,MAPF(Multi-Agent Path Finding)のスループット向上のためのガイダンスの活用方法について検討する。 従来の研究では、高速道路などのガイダンスを組み込むことでMAPFアルゴリズムを加速できるが、ソリューションの品質とのトレードオフをもたらすことが示されている。 さらに、優れたガイダンスを自動生成する方法はほとんど探索されていないままであり、現在の手法は手作業で設計したものを超えていない。 本研究では,終生のMAPFのためのガイダンスの汎用表現としてガイダンスグラフを導入し,エッジウェイトを最適化するタスクとして指導グラフ最適化を提案する。 任意の寿命のMAPFアルゴリズムとマップのガイダンスを自動生成する2つのGGOアルゴリズムを提案する。 第1の方法はエッジウェイトを直接最適化し、第2の方法はエッジウェイトを生成する更新モデルを最適化する。 実験的な結果として,(1) ベンチマークマップの3つの寿命のMAPFアルゴリズムのスループットが向上し,(2) 更新モデルが最大9,3 \times 91$ Maps と 3,000 エージェントのガイダンスグラフを生成できることがわかった。 ソースコードは以下の通り: \url{https://github.com/lunjohnzhang/ggo_public}。 すべての最適化されたガイダンスグラフは、次のようにオンラインで入手できる。

We study how to use guidance to improve the throughput of lifelong Multi-Agent Path Finding (MAPF). Previous studies have demonstrated that, while incorporating guidance, such as highways, can accelerate MAPF algorithms, this often results in a trade-off with solution quality. In addition, how to generate good guidance automatically remains largely unexplored, with current methods falling short of surpassing manually designed ones. In this work, we introduce the guidance graph as a versatile representation of guidance for lifelong MAPF, framing Guidance Graph Optimization as the task of optimizing its edge weights. We present two GGO algorithms to automatically generate guidance for arbitrary lifelong MAPF algorithms and maps. The first method directly optimizes edge weights, while the second method optimizes an update model capable of generating edge weights. Empirically, we show that (1) our guidance graphs improve the throughput of three representative lifelong MAPF algorithms in eight benchmark maps, and (2) our update model can generate guidance graphs for as large as $93 \times 91$ maps and as many as 3,000 agents. We include the source code at: \url{https://github.com/lunjohnzhang/ggo_public}. All optimized guidance graphs are available online at: \url{https://yulunzhang.net/publication/zhang2024ggo}.
翻訳日:2024-05-13 20:07:31 公開日:2024-05-09
# ニューロンの最も近い隣の表現

Nearest Neighbor Representations of Neurons ( http://arxiv.org/abs/2402.08748v2 )

ライセンス: Link先を確認
Kordag Mehmet Kilic, Jin Sima, Jehoshua Bruck, (参考訳) Nearest Neighbor(NN)表現は、脳にインスパイアされた新しい計算モデルである。 NN表現を用いたニューロン(閾値関数)の表現の複雑さについて検討した。 2つのアンカー(NNが計算される点)が閾値関数のNN表現に十分であることが知られているが、解像度(アンカーのエントリに必要な最大ビット数)は$O(n\log{n})$である。 本研究では,アンカー数と閾値関数のNN表現の分解能のトレードオフについて検討する。 良く知られたしきい値関数 EQUALITY, COMPARISON, ODD-MAX-BIT は 2 または 3 個のアンカーを必要とし、$O(n)$ の分解能は$n$ と $O(\log{n})$ の多項式的に多数のアンカーで表すことができる。 すべてのしきい値関数に対して、多項式的に大きなサイズと対数分解能を持つNN表現が$n$で存在すると推測する。

The Nearest Neighbor (NN) Representation is an emerging computational model that is inspired by the brain. We study the complexity of representing a neuron (threshold function) using the NN representations. It is known that two anchors (the points to which NN is computed) are sufficient for a NN representation of a threshold function, however, the resolution (the maximum number of bits required for the entries of an anchor) is $O(n\log{n})$. In this work, the trade-off between the number of anchors and the resolution of a NN representation of threshold functions is investigated. We prove that the well-known threshold functions EQUALITY, COMPARISON, and ODD-MAX-BIT, which require 2 or 3 anchors and resolution of $O(n)$, can be represented by polynomially large number of anchors in $n$ and $O(\log{n})$ resolution. We conjecture that for all threshold functions, there are NN representations with polynomially large size and logarithmic resolution in $n$.
翻訳日:2024-05-13 18:15:12 公開日:2024-05-09
# ニューラルサーキットの近傍表現

Nearest Neighbor Representations of Neural Circuits ( http://arxiv.org/abs/2402.08751v2 )

ライセンス: Link先を確認
Kordag Mehmet Kilic, Jin Sima, Jehoshua Bruck, (参考訳) ニューラルネットワークは多くのタスクで人間の脳の計算力を捉えた。 同様に脳アーキテクチャにインスパイアされたNearest Neighbor(NN)表現は、計算の新しいアプローチである。 NN表現とニューラルネットワークの密接な対応を確立する。 NN表現を用いた単一ニューロンの表現法は知られていたが,小深度ニューラルネットワークにおいても結果は得られなかった。 具体的には、ディープ2しきい値回路に対して、その表現するビット数に明示的に拘束されたNN表現に対して明示的な構成を提供する。 例えば、凸多面体のNN表現(閾値ゲートのAND)、IP2、閾値ゲートのOR、線形または正確な決定リストなどがある。

Neural networks successfully capture the computational power of the human brain for many tasks. Similarly inspired by the brain architecture, Nearest Neighbor (NN) representations is a novel approach of computation. We establish a firmer correspondence between NN representations and neural networks. Although it was known how to represent a single neuron using NN representations, there were no results even for small depth neural networks. Specifically, for depth-2 threshold circuits, we provide explicit constructions for their NN representation with an explicit bound on the number of bits to represent it. Example functions include NN representations of convex polytopes (AND of threshold gates), IP2, OR of threshold gates, and linear or exact decision lists.
翻訳日:2024-05-13 18:15:12 公開日:2024-05-09
# PRISE:シーケンス圧縮問題としての時間的行動抽象化の学習

PRISE: Learning Temporal Action Abstractions as a Sequence Compression Problem ( http://arxiv.org/abs/2402.10450v2 )

ライセンス: Link先を確認
Ruijie Zheng, Ching-An Cheng, Hal Daumé III, Furong Huang, Andrey Kolobov, (参考訳) 時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。 本研究では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。 そのため、連続制御ドメインに分散した可変時間の学習スキルのように見えるタスクに、LLMトレーニングパイプラインの微妙ながら重要なコンポーネント -- バイトペアエンコーディング(BPE)による入力トークン化 -- を導入しています。 PRISE(Primitive Sequence Encoding)と呼ばれる手法を導入し、連続的なアクション量子化とBPEを組み合わせて強力なアクション抽象化を学習する。 PRISEがマルチタスクのロボット操作デモから発見したハイレベルスキルは、マルチタスクの模倣学習と、目に見えないタスクにおける数発の模倣学習の両方のパフォーマンスを著しく向上させることを実証的に示す。 私たちのコードはhttps://github.com/FrankZheng2022/PRISE.comでリリースされます。

Temporal action abstractions, along with belief state representations, are a powerful knowledge sharing mechanism for sequential decision making. In this work, we propose a novel view that treats inducing temporal action abstractions as a sequence compression problem. To do so, we bring a subtle but critical component of LLM training pipelines -- input tokenization via byte pair encoding (BPE) -- to the seemingly distant task of learning skills of variable time span in continuous control domains. We introduce an approach called Primitive Sequence Encoding (PRISE) that combines continuous action quantization with BPE to learn powerful action abstractions. We empirically show that high-level skills discovered by PRISE from a multitask set of robotic manipulation demonstrations significantly boost the performance of both multitask imitation learning as well as few-shot imitation learning on unseen tasks. Our code will be released at https://github.com/FrankZheng2022/PRISE.
翻訳日:2024-05-13 18:15:12 公開日:2024-05-09
# 神経放射場に基づくホログラフィー [invited]

Neural radiance fields-based holography [Invited] ( http://arxiv.org/abs/2403.01137v2 )

ライセンス: Link先を確認
Minsung Kang, Fan Wang, Kai Kumano, Tomoyoshi Ito, Tomoyoshi Shimobaba, (参考訳) 本研究ではニューラルラジアンス場(NeRF)に基づくホログラム生成手法を提案する。 ホログラム計算では3次元データの生成は困難である。 NeRFはボリュームレンダリングに基づく2次元画像からの3次元光場再構成のための最先端技術である。 NeRFは、トレーニングデータセットを含まない新しいビューイメージを迅速に予測できる。 本研究では,NeRFによる2次元画像から生成した3次元光場から直接,深層ニューラルネットワークを用いたホログラム生成のためのレンダリングパイプラインを構築した。 パイプラインは、NeRF、深度予測器、ホログラム生成器の3つの主要コンポーネントで構成され、いずれもディープニューラルネットワークを用いて構築されている。 パイプラインには物理計算は一切含まれない。 任意の方向から見た3次元シーンのホログラムを,提案したパイプラインを用いて計算した。 シミュレーションと実験結果を示す。

This study presents a novel approach for generating holograms based on the neural radiance fields (NeRF) technique. Generating three-dimensional (3D) data is difficult in hologram computation. NeRF is a state-of-the-art technique for 3D light-field reconstruction from 2D images based on volume rendering. The NeRF can rapidly predict new-view images that do not include a training dataset. In this study, we constructed a rendering pipeline directly from a 3D light field generated from 2D images by NeRF for hologram generation using deep neural networks within a reasonable time. The pipeline comprises three main components: the NeRF, a depth predictor, and a hologram generator, all constructed using deep neural networks. The pipeline does not include any physical calculations. The predicted holograms of a 3D scene viewed from any direction were computed using the proposed pipeline. The simulation and experimental results are presented.
翻訳日:2024-05-13 18:15:12 公開日:2024-05-09
# 雑音脳MRIにおけるロバスト影響に基づくトレーニング法

Robust Influence-based Training Methods for Noisy Brain MRI ( http://arxiv.org/abs/2403.10698v2 )

ライセンス: Link先を確認
Minh-Hao Van, Alycia N. Carey, Xintao Wu, (参考訳) 脳腫瘍の正確な分類は、患者の迅速かつ正確な治療に不可欠である。 MR画像中の腫瘍を高速に分類するために,古典的画像処理法や深層学習法に基づくいくつかの分類アルゴリズムが提案されているが,ほとんどの場合,非現実的なノイズフリートレーニングデータの設定を前提としている。 本研究では,脳腫瘍の分類を行うため,ノイズの多いMR画像の深層学習モデルを訓練する難易度,現実性について検討する。 本稿では, 雑音の多いMRIトレーニングデータに頑健な2つのトレーニング手法, 影響に基づくサンプル修正(ISR)と影響に基づくサンプル摂動(ISP)を提案する。 インフルエンス関数を用いて、ISRでは、トレーニングプロセスがいかに有用で有害であるかに応じてトレーニング例を適応的に再考し、ISPでは、インフルエンススコアに比例した有用な摂動を作らせ、注入する。 ISRとISPは、試験データに対するモデルの一般化能力に大きな影響を及ぼすことなく、ノイズの多いトレーニングデータに対する分類モデルを強化した。 我々は、共通の脳腫瘍データセットに対して経験的評価を行い、ISRとISPを3つのベースラインと比較した。 実験結果から、ISRとISPは、ノイズの多いトレーニングデータに対して、ディープラーニングモデルを堅牢にトレーニングできることがわかった。

Correctly classifying brain tumors is imperative to the prompt and accurate treatment of a patient. While several classification algorithms based on classical image processing or deep learning methods have been proposed to rapidly classify tumors in MR images, most assume the unrealistic setting of noise-free training data. In this work, we study a difficult but realistic setting of training a deep learning model on noisy MR images to classify brain tumors. We propose two training methods that are robust to noisy MRI training data, Influence-based Sample Reweighing (ISR) and Influence-based Sample Perturbation (ISP), which are based on influence functions from robust statistics. Using the influence functions, in ISR, we adaptively reweigh training examples according to how helpful/harmful they are to the training process, while in ISP, we craft and inject helpful perturbation proportional to the influence score. Both ISR and ISP harden the classification model against noisy training data without significantly affecting the generalization ability of the model on test data. We conduct empirical evaluations over a common brain tumor dataset and compare ISR and ISP to three baselines. Our empirical results show that ISR and ISP can efficiently train deep learning models robust against noisy training data.
翻訳日:2024-05-13 18:05:28 公開日:2024-05-09
# 医療における自然言語処理のための説明可能な深層学習から解釈可能な深層学習へ:現実からどこまで遠いのか?

From Explainable to Interpretable Deep Learning for Natural Language Processing in Healthcare: How Far from Reality? ( http://arxiv.org/abs/2403.11894v3 )

ライセンス: Link先を確認
Guangming Huang, Yingya Li, Shoaib Jameel, Yunfei Long, Giorgos Papanastasiou, (参考訳) 深層学習(DL)は、医療研究において、自然言語処理(NLP)を大幅に強化した。 しかし、DLベースのNLPの複雑さの増大は、信頼性の高い意思決定のために、透明性のあるモデル解釈可能性(少なくとも説明可能性)を必要とする。 本研究は、医療用NLPにおける説明可能な、解釈可能なDLの徹底的なスコーピングレビューを提示する。 eXplainable and Interpretable Artificial Intelligence (XIAI)という用語は、XAIとIAIを区別するために導入された。 異なるモデルは、その機能(モデル、インプット、アウトプットベース)とスコープ(ローカル、グローバル)に基づいてさらに分類される。 分析の結果,注目メカニズムが最も普及しているIAI技術であることが判明した。 IAIの利用が増加しており、XAIと区別されている。 主要な課題は、ほとんどのXIAIが"グローバル"なモデリングプロセス、ベストプラクティスの欠如、体系的な評価とベンチマークの欠如を探求していないことである。 重要な機会の1つは、パーソナライズされた医療のためのマルチモーダルXIAIを強化するために注意機構を使用することである。 さらに、DLと因果論理を組み合わせることは約束する。 我々の議論は、Large Language Models(LLM)とドメイン固有の小さなモデルへのXIAIの統合を奨励する。 結論として、医療におけるXIAIの採用には専用の専門知識が必要である。 ドメインエキスパート、エンドユーザー、ポリシーメーカとのコラボレーションは、NLPや医療タスクで使えるXIAIメソッドにつながる可能性がある。 課題はあるものの、XIAI技術は医療におけるNLPアルゴリズムを解釈するための貴重な基盤を提供する。

Deep learning (DL) has substantially enhanced natural language processing (NLP) in healthcare research. However, the increasing complexity of DL-based NLP necessitates transparent model interpretability, or at least explainability, for reliable decision-making. This work presents a thorough scoping review of explainable and interpretable DL in healthcare NLP. The term "eXplainable and Interpretable Artificial Intelligence" (XIAI) is introduced to distinguish XAI from IAI. Different models are further categorized based on their functionality (model-, input-, output-based) and scope (local, global). Our analysis shows that attention mechanisms are the most prevalent emerging IAI technique. The use of IAI is growing, distinguishing it from XAI. The major challenges identified are that most XIAI does not explore "global" modelling processes, the lack of best practices, and the lack of systematic evaluation and benchmarks. One important opportunity is to use attention mechanisms to enhance multi-modal XIAI for personalized medicine. Additionally, combining DL with causal logic holds promise. Our discussion encourages the integration of XIAI in Large Language Models (LLMs) and domain-specific smaller models. In conclusion, XIAI adoption in healthcare requires dedicated in-house expertise. Collaboration with domain experts, end-users, and policymakers can lead to ready-to-use XIAI methods across NLP and medical tasks. While challenges exist, XIAI techniques offer a valuable foundation for interpretable NLP algorithms in healthcare.
翻訳日:2024-05-13 18:05:28 公開日:2024-05-09
# ステップを見る - 継続的学習のための最適な検索方法

Watch Your Step: Optimal Retrieval for Continual Learning at Scale ( http://arxiv.org/abs/2404.10758v2 )

ライセンス: Link先を確認
Truman Hickok, Dhireesha Kudithipudi, (参考訳) 連続学習では、モデルは古いタスクと新しいタスクの間の干渉を最小限にしながら、時間とともに漸進的に学習する。 継続的学習における最も広く使われているアプローチの1つは、リプレイと呼ばれる。 リプレイ手法は、過去の体験をリプレイバッファに格納することで、インターリーブドラーニングをサポートする。 バッファを選択的に構築し、その内容を再処理する方法は存在するが、バッファからサンプルを選択的に取り出すという問題については限定的な検討がなされている。 現在のソリューションは限定的な設定でテストされている。 既存の作業は、重複したリプレイがパフォーマンスに与える影響についても調査していない。 本研究では, 単純, 独立なクラス選択プリミティブとサンプル選択プリミティブによって分類された選択的検索戦略を評価するためのフレームワークを提案する。 選択検索のための既存手法の組合せを評価し,その性能について検討した。 さらに,重複したリプレイを防止し,損失値の低い新しいサンプルを再生せずに学習できるかどうかを探索する戦略を提案する。 問題設定を現実的な連続的な学習パイプラインに合わせるために、我々は実験を、15のデータセットのシーケンスで完全に微調整された、大規模で訓練済みのオープンな語彙オブジェクト検出モデルを含む設定に制限する。

In continual learning, a model learns incrementally over time while minimizing interference between old and new tasks. One of the most widely used approaches in continual learning is referred to as replay. Replay methods support interleaved learning by storing past experiences in a replay buffer. Although there are methods for selectively constructing the buffer and reprocessing its contents, there is limited exploration of the problem of selectively retrieving samples from the buffer. Current solutions have been tested in limited settings and, more importantly, in isolation. Existing work has also not explored the impact of duplicate replays on performance. In this work, we propose a framework for evaluating selective retrieval strategies, categorized by simple, independent class- and sample-selective primitives. We evaluated several combinations of existing strategies for selective retrieval and present their performances. Furthermore, we propose a set of strategies to prevent duplicate replays and explore whether new samples with low loss values can be learned without replay. In an effort to match our problem setting to a realistic continual learning pipeline, we restrict our experiments to a setting involving a large, pre-trained, open vocabulary object detection model, which is fully fine-tuned on a sequence of 15 datasets.
翻訳日:2024-05-13 18:05:28 公開日:2024-05-09
# IoTクラウドシステムのストレステストのためのリーンシミュレーションフレームワーク

A Lean Simulation Framework for Stress Testing IoT Cloud Systems ( http://arxiv.org/abs/2404.11542v2 )

ライセンス: Link先を確認
Jia Li, Behrad Moeini, Shiva Nejati, Mehrdad Sabetzadeh, Michael McCallen, (参考訳) モノのインターネット(Internet of Things)は、スマートシティ、自動運転車、健康モニタリングなど、さまざまな分野のスマートデバイスを世界中に接続する。 シミュレーションはIoTシステムのテストにおいて重要な役割を果たす。 本稿は、IoTのシミュレーションベースのテストにおいて、特に重要なニーズである、クラウドシステムのストレステストに対処する。 既存のIoT用のストレステストソリューションは、かなりの計算リソースを必要とするため、不適合でコストがかかる。 クラウドと通信する多数のIoTデバイスとエッジデバイスの効率的なシミュレーションを可能にする,IoTクラウドストレステスト用に設計されたリーンシミュレーションフレームワークを提案する。 実践者のシミュレーション構築を容易にするため,モデルベース仕様からシミュレータを生成するためのドメイン固有言語であるIoTECSを開発した。 我々はIoTECSの構文とセマンティクスを提供し、XtextとXtendを使ってIoTECSを実装します。 我々は、クラウドベースのIoT監視システムとIoT接続車両システムという、2つの実世界のシステムのストレステストのためのIoTECS仕様から生成されたシミュレータを評価する。 実験結果から,(1)Dockerコンテナ化の設定時に最高のパフォーマンスを得る,(2)ケーススタディシステムのサービス容量を効果的に評価する,(3) 産業用ストレステストベースラインツールであるJMeterとLocustを,同じハードウェアリソースを使用してシミュレート可能なIoTおよびエッジデバイスの数で3.5倍に向上させる,という結果が得られた。 IoTECSの実用性に関する最初の洞察を得るために、私たちは、IoTECSを初めて経験した業界パートナの2人のエンジニアにインタビューした。 これらのインタビューからのフィードバックは、IoTECSがIoTクラウドシステムのストレステストに有効であり、かなりの時間と労力を節約できることを示している。

The Internet of Things connects a plethora of smart devices globally across various applications like smart cities, autonomous vehicles and health monitoring. Simulation plays a key role in the testing of IoT systems, noting that field testing of a complete IoT product may be infeasible or prohibitively expensive. This paper addresses a specific yet important need in simulation-based testing for IoT: Stress testing of cloud systems. Existing stress testing solutions for IoT demand significant computational resources, making them ill-suited and costly. We propose a lean simulation framework designed for IoT cloud stress testing which enables efficient simulation of a large array of IoT and edge devices that communicate with the cloud. To facilitate simulation construction for practitioners, we develop a domain-specific language (DSL), named IoTECS, for generating simulators from model-based specifications. We provide the syntax and semantics of IoTECS and implement IoTECS using Xtext and Xtend. We assess simulators generated from IoTECS specifications for stress testing two real-world systems: a cloud-based IoT monitoring system and an IoT-connected vehicle system. Our empirical results indicate that simulators created using IoTECS: (1)achieve best performance when configured with Docker containerization; (2)effectively assess the service capacity of our case-study systems, and (3)outperform industrial stress-testing baseline tools, JMeter and Locust, by a factor of 3.5 in terms of the number of IoT and edge devices they can simulate using identical hardware resources. To gain initial insights about the usefulness of IoTECS in practice, we interviewed two engineers from our industry partner who have firsthand experience with IoTECS. Feedback from these interviews suggests that IoTECS is effective in stress testing IoT cloud systems, saving significant time and effort.
翻訳日:2024-05-13 17:55:41 公開日:2024-05-09
# 教師付き学習のためのMPP定式化:一般化された時間差学習モデル

An MRP Formulation for Supervised Learning: Generalized Temporal Difference Learning Models ( http://arxiv.org/abs/2404.15518v2 )

ライセンス: Link先を確認
Yangchen Pan, Junfeng Wen, Chenjun Xiao, Philip Torr, (参考訳) 従来の統計的学習では、データポイントは通常、未知の確率分布の後、独立して同じ分布(すなわち、同じ分布)であると仮定される。 本稿では、データポイントを相互接続したものとして認識し、データモデリングにマルコフ報酬プロセス(MRP)を用いる、対照的な視点を示す。 我々は、強化学習(RL)における政治政策評価問題として、典型的教師付き学習を再構成し、一般化時間差学習アルゴリズム(TD)を解法として導入する。 理論的には、線形TD学習の解と通常の最小二乗(OLS)の間の関係を抽出する。 また、特定の条件下では、特にノイズが相関している場合、TDの解はOLSよりも効果的に推定できることを示す。 さらに,線形関数近似の下で一般化されたTDアルゴリズムの収束性を確立する。 実験的な研究により、我々の理論的結果を検証し、我々のTDアルゴリズムの重要設計を検証し、回帰や深層学習による画像分類といったタスクを含む様々なデータセットで実用性を示す。

In traditional statistical learning, data points are usually assumed to be independently and identically distributed (i.i.d.) following an unknown probability distribution. This paper presents a contrasting viewpoint, perceiving data points as interconnected and employing a Markov reward process (MRP) for data modeling. We reformulate the typical supervised learning as an on-policy policy evaluation problem within reinforcement learning (RL), introducing a generalized temporal difference (TD) learning algorithm as a resolution. Theoretically, our analysis draws connections between the solutions of linear TD learning and ordinary least squares (OLS). We also show that under specific conditions, particularly when noises are correlated, the TD's solution proves to be a more effective estimator than OLS. Furthermore, we establish the convergence of our generalized TD algorithms under linear function approximation. Empirical studies verify our theoretical results, examine the vital design of our TD algorithm and show practical utility across various datasets, encompassing tasks such as regression and image classification with deep learning.
翻訳日:2024-05-13 17:55:41 公開日:2024-05-09
# オシラトロン:時間依存多機能神経ユニット

Oscillatrons: neural units with time-dependent multifunctionality ( http://arxiv.org/abs/2404.15545v2 )

ライセンス: Link先を確認
Stephen Whitelam, (参考訳) コンピューティングのいくつかの分野は、システムの物理力学を使って計算を行う。 本研究では,低減衰高調波発振器の力学が多機能計算を行なえることを示す。 振動子計算は通常、情報搬送コンポーネントとしての発振子の位相に焦点をあてる。 ここでは、入力が周波数に影響を与える発振器の時間分解振幅に着目し、時間依存神経ユニットのアクティビティとして自然な並列性を持つ。 私たちはこのユニットを発振器と呼んでいる。 一定時の発振子の活性は入力の非単調関数であり、XORのような非線形に分離可能な問題を解くことができる。 固定入力時の発振子の活性は時間の非単調関数であり、時間的意味で多機能であり、同じ動的軌道内で異なる時間で異なる非線形計算を行うことができる。 この性質の時間分解計算は、システムの自然な時間進化によって、1つの価格で複数の計算を行うことができる。

Several branches of computing use a system's physical dynamics to do computation. We show that the dynamics of an underdamped harmonic oscillator can perform multifunctional computation, solving distinct problems at distinct times within a dynamical trajectory. Oscillator computing usually focuses on the oscillator's phase as the information-carrying component. Here we focus on the time-resolved amplitude of an oscillator whose inputs influence its frequency, which has a natural parallel as the activity of a time-dependent neural unit. We call this unit an oscillatron. The activity of an oscillatron at fixed time is a nonmonotonic function of the input, and so it can solve nonlinearly-separable problems such as XOR. The activity of the oscillatron at fixed input is a nonmonotonic function of time, and so it is multifunctional in a temporal sense, able to carry out distinct nonlinear computations at distinct times within the same dynamical trajectory. Time-resolved computing of this nature can be done in or out of equilibrium, with the natural time evolution of the system giving us multiple computations for the price of one.
翻訳日:2024-05-13 17:55:41 公開日:2024-05-09
# 融合による行列積状態の準備:制約と拡張

Preparing matrix product states via fusion: constraints and extensions ( http://arxiv.org/abs/2404.16360v2 )

ライセンス: Link先を確認
David T. Stephen, Oliver Hart, (参考訳) ノイズの多い中規模量子(NISQ)デバイスでは、多体資源状態の効率的な調製が最重要課題である。 本稿では, 行列生成状態 (MPS) の定値化に焦点をあて, 測定値と古典的通信を利用して, より小さな状態をより大きいものに融合させることにより, 定数の深さで行列生成状態 (MPS) を決定論的に生成する。 我々は,MPS融合と呼ぶこの手法を用いて準備できるMPSに強い制約を課す。 すなわち,MPSが平坦な絡み合いスペクトルを持つ必要があることを確かめる。 最近導入されたスプリットインデックスMPS (SIMPS) 表現を用いて、非オンサイト対称性によって保護される物質の興味深い相に属する状態の族を導入し、長距離量子テレポーテーションの資源として機能するが、通常のMPS融合の範囲を超えている。 これらの状態は、SIMPS融合をダブするより広範な測定支援プロトコルを用いて、一定の深さで準備できることが建設的に示されている。 MPS融合が可能な場合であっても、SIMPS融合はリソースオーバーヘッドを大幅に削減する。 そこで本研究では,従来のMPS融合の境界線を同時に確立し,測定支援プロトコルを用いて状態が準備できるエンベロープを推し進める。

In the era of noisy, intermediate-scale quantum (NISQ) devices, the efficient preparation of many-body resource states is a task of paramount importance. In this paper we focus on the deterministic preparation of matrix-product states (MPS) in constant depth by utilizing measurements and classical communication to fuse smaller states into larger ones. We place strong constraints on the MPS that can be prepared using this method, which we refer to as MPS fusion. Namely, we establish that it is necessary for the MPS to have a flat entanglement spectrum. Using the recently introduced split-index MPS (SIMPS) representation, we then introduce a family of states that belong to interesting phases of matter protected by non-onsite symmetries and serve as resources for long-range quantum teleportation, but which lie beyond the scope of ordinary MPS fusion. It is shown constructively that these states can be prepared in constant depth using a broader class of measurement-assisted protocols, which we dub SIMPS fusion. Even in cases when MPS fusion is possible, using SIMPS fusion can give rise to significantly reduced resource overhead. Our results therefore simultaneously establish the boundaries of conventional MPS fusion and push the envelope of which states can be prepared using measurement-assisted protocols.
翻訳日:2024-05-13 17:55:41 公開日:2024-05-09
# 正規化流れによる統一シミュレーションと推論

Unifying Simulation and Inference with Normalizing Flows ( http://arxiv.org/abs/2404.18992v2 )

ライセンス: Link先を確認
Haoxing Du, Claudius Krause, Vinicius Mikuni, Benjamin Nachman, Ian Pang, David Shih, (参考訳) キャリブレーションを検出するためのディープニューラルネットワークの応用が数多くあり、自動高速検出器シミュレータとして深部生成モデルを提案する研究が増えている。 これらの2つのタスクは、エネルギー回帰のための条件付き生成モデルから最大極大推定(MLE)を用いて統一可能であることを示す。 直接回帰法とは異なり、MLE法は事前独立であり、非ガウス分解能は最大付近の確率の形状から決定できる。 ATLASライクなカロリーメータシミュレーションを用いて、この概念をカロリーメータのエネルギーキャリブレーションの文脈で実証する。

There have been many applications of deep neural networks to detector calibrations and a growing number of studies that propose deep generative models as automated fast detector simulators. We show that these two tasks can be unified by using maximum likelihood estimation (MLE) from conditional generative models for energy regression. Unlike direct regression techniques, the MLE approach is prior-independent and non-Gaussian resolutions can be determined from the shape of the likelihood near the maximum. Using an ATLAS-like calorimeter simulation, we demonstrate this concept in the context of calorimeter energy calibration.
翻訳日:2024-05-13 17:45:54 公開日:2024-05-09
# 太陽電池発電予測のためのクラスタリングに基づくマルチタスキングディープニューラルネットワーク

Clustering-based Multitasking Deep Neural Network for Solar Photovoltaics Power Generation Prediction ( http://arxiv.org/abs/2405.05989v1 )

ライセンス: Link先を確認
Hui Song, Zheng Miao, Ali Babalhavaeji, Saman Mehrnia, Mahdi Jalili, Xinghuo Yu, (参考訳) 太陽電池(PV)セルの設置が増加すると、再生可能エネルギー源(RES)の発生が増加するが、エネルギースケジューリングの不確実性が増大する。 スマートグリッドにおけるエネルギー管理とディスパッチ最適化には,PV発電の予測が重要である。 しかし、PV発電データは様々な種類の顧客(住宅、農業、工業、商業など)で収集されることが多い。 この結果はしばしば、すべてのPV発電データでトレーニングされた予測モデルとなり、予測者は、顧客タイプごとに別々の予測器を構築するのではなく、モデル内の自己学習を通じてさまざまなパターンを学習することができる。 本稿では、PV発電予測のためのクラスタリングに基づくマルチタスクディープニューラルネットワーク(CM-DNN)フレームワークを提案する。 K-meansは、データをさまざまな顧客タイプにクラスタリングする。 各タイプに対して、ディープニューラルネットワーク(DNN)が採用され、精度が向上するまで訓練される。 その後、特定の顧客タイプ(すなわち目標タスク)に対して、モデル間知識伝達を行い、トレーニング精度を高める。 この過程で、ソースタスクの選択は、タスクの最適サブセット(ターゲット顧客を除く)を選択するように設計され、選択されたソースタスクは、係数を使用して、対象の予測タスクに転送されるDNNモデルの知識(重みとバイアス)の量を決定する。 提案するCM-DNNは、実世界のPV発電データセット上でテストされ、クラスタリングなしでデータセットをトレーニングする際の予測性能を単一のモデルと比較することにより、その優位性を実証する。

The increasing installation of Photovoltaics (PV) cells leads to more generation of renewable energy sources (RES), but results in increased uncertainties of energy scheduling. Predicting PV power generation is important for energy management and dispatch optimization in smart grid. However, the PV power generation data is often collected across different types of customers (e.g., residential, agricultural, industrial, and commercial) while the customer information is always de-identified. This often results in a forecasting model trained with all PV power generation data, allowing the predictor to learn various patterns through intra-model self-learning, instead of constructing a separate predictor for each customer type. In this paper, we propose a clustering-based multitasking deep neural network (CM-DNN) framework for PV power generation prediction. K-means is applied to cluster the data into different customer types. For each type, a deep neural network (DNN) is employed and trained until the accuracy cannot be improved. Subsequently, for a specified customer type (i.e., the target task), inter-model knowledge transfer is conducted to enhance its training accuracy. During this process, source task selection is designed to choose the optimal subset of tasks (excluding the target customer), and each selected source task uses a coefficient to determine the amount of DNN model knowledge (weights and biases) transferred to the aimed prediction task. The proposed CM-DNN is tested on a real-world PV power generation dataset and its superiority is demonstrated by comparing the prediction performance on training the dataset with a single model without clustering.
翻訳日:2024-05-13 17:36:09 公開日:2024-05-09
# 特殊文字攻撃:大規模言語モデルからのスケーラブルなトレーニングデータ抽出を目指して

Special Characters Attack: Toward Scalable Training Data Extraction From Large Language Models ( http://arxiv.org/abs/2405.05990v1 )

ライセンス: Link先を確認
Yang Bai, Ge Pei, Jindong Gu, Yong Yang, Xingjun Ma, (参考訳) 大規模言語モデル(LLM)は、幅広いタスクにおいて顕著なパフォーマンスを実現している。 しかし、最近の研究では、LLMはトレーニングデータを記憶でき、単純な繰り返しトークンはモデルを騙してデータを漏洩させることが示されている。 本稿では、さらに一歩進めて、特定の特殊文字またはそれらと英語の文字の組み合わせがより強いメモリトリガであることを示す。 LLMはJSONファイルの構造記号 {, } と @, # を含む大量の特殊文字を含む大量のデータで訓練されているため、このモデルはこれらの特殊文字と原文の共起を記憶することができる。 これにより、トレーニングデータ漏洩を誘発する簡易かつ効果的な特殊文字攻撃(SCA)を提案する。 コードコーパスやWebページ,個人識別可能な情報など,さまざまなトレーニングデータをリークし,時には副産物として非ストップ出力を生成することができる。 さらに, 学習データコーパスの構成は, 漏洩したデータを検査することで明らかにできることを示す。 我々の研究は、LLMの特殊文字に対する感受性を理解し、改善のための潜在的な領域を特定するのに役立ちます。

Large language models (LLMs) have achieved remarkable performance on a wide range of tasks. However, recent studies have shown that LLMs can memorize training data and simple repeated tokens can trick the model to leak the data. In this paper, we take a step further and show that certain special characters or their combinations with English letters are stronger memory triggers, leading to more severe data leakage. The intuition is that, since LLMs are trained with massive data that contains a substantial amount of special characters (e.g. structural symbols {, } of JSON files, and @, # in emails and online posts), the model may memorize the co-occurrence between these special characters and the raw texts. This motivates us to propose a simple but effective Special Characters Attack (SCA) to induce training data leakage. Our experiments verify the high effectiveness of SCA against state-of-the-art LLMs: they can leak diverse training data, such as code corpus, web pages, and personally identifiable information, and sometimes generate non-stop outputs as a byproduct. We further show that the composition of the training data corpus can be revealed by inspecting the leaked data -- one crucial piece of information for pre-training high-performance LLMs. Our work can help understand the sensitivity of LLMs to special characters and identify potential areas for improvement.
翻訳日:2024-05-13 17:36:09 公開日:2024-05-09
# オークション型フェデレーション学習におけるデータ所有者のためのエージェント指向共同意思決定支援

Agent-oriented Joint Decision Support for Data Owners in Auction-based Federated Learning ( http://arxiv.org/abs/2405.05991v1 )

ライセンス: Link先を確認
Xiaoli Tang, Han Yu, Xiaoxiao Li, (参考訳) オークションベースのフェデレートラーニング(Federated Learning, AFL)は、データ所有者(DO)が経済的手段でFLに参加することを動機付ける能力から、幅広い研究の関心を集めている。 既存のAFLメソッドの多くは、モデルユーザ(MU)とAFLオークション者に決定サポートを提供することに重点を置いているが、データ所有者に対する決定サポートは依然としてオープンである。 このギャップを埋めるため、AFL(PAS-AFL)におけるデータ所有者に対して、第一種エージェント指向の共同価格設定、アクセプタンス、サブデリゲーション決定支援手法を提案する。 DOの現在の評判、FLタスクの保留、FLモデルを訓練する意思、および他のDOとの信頼関係を考慮することで、DOがAFL入札の受諾、タスクサブデリゲーション、Lyapunov最適化に基づく価格設定について共同決定を行うための体系的なアプローチを提供する。 各 DO が複数の FL タスクを同時に実行して DO の高収入化と AFL エコシステムにおける FL タスクのスループット向上を可能にするのは,これが初めてである。 6つのベンチマークデータセットに基づく大規模な実験は、6つの代替戦略と比較してPAS-AFLの顕著な利点を示し、それぞれFLモデルの実用性およびテスト精度の点で、最高のベースラインを28.77%、平均2.64%上回った。

Auction-based Federated Learning (AFL) has attracted extensive research interest due to its ability to motivate data owners (DOs) to join FL through economic means. While many existing AFL methods focus on providing decision support to model users (MUs) and the AFL auctioneer, decision support for data owners remains open. To bridge this gap, we propose a first-of-its-kind agent-oriented joint Pricing, Acceptance and Sub-delegation decision support approach for data owners in AFL (PAS-AFL). By considering a DO's current reputation, pending FL tasks, willingness to train FL models, and its trust relationships with other DOs, it provides a systematic approach for a DO to make joint decisions on AFL bid acceptance, task sub-delegation and pricing based on Lyapunov optimization to maximize its utility. It is the first to enable each DO to take on multiple FL tasks simultaneously to earn higher income for DOs and enhance the throughput of FL tasks in the AFL ecosystem. Extensive experiments based on six benchmarking datasets demonstrate significant advantages of PAS-AFL compared to six alternative strategies, beating the best baseline by 28.77% and 2.64% on average in terms of utility and test accuracy of the resulting FL models, respectively.
翻訳日:2024-05-13 17:36:09 公開日:2024-05-09
# 電子健康記録と機械学習に基づく脳卒中患者の精密リハビリテーション

Precision Rehabilitation for Patients Post-Stroke based on Electronic Health Records and Machine Learning ( http://arxiv.org/abs/2405.05993v1 )

ライセンス: Link先を確認
Fengyi Gao, Xingyu Zhang, Sonish Sivarajkumar, Parker Denny, Bayan Aldhahwani, Shyam Visweswaran, Ryan Shi, William Hogan, Allyn Bove, Yanshan Wang, (参考訳) 本研究では、統計分析と機械学習を用いて、リハビリテーションエクササイズが脳機能障害後の患者を改善できるかどうかを検証し、機能障害の改善を予測した。 我々のデータセットは、患者のリハビリテーション演習と、構造化されていない電子健康記録(EHR)データおよび自由テキストリハビリテーションノートに記録された人口統計である。 ピッツバーグ大学メディカルセンターから265名の脳卒中患者のデータを収集した。 我々は,リハビリテーション演習のデータ抽出にNLPアルゴリズムを用いて,基本モビリティ (BM) と応用認知 (AC) ドメインを対象とし,治療後ケア (AM-PAC) スコアの抽出のためのルールベースNLPアルゴリズムを開発した。 AM-PAC値の変化は,MCID (minimal Clinically important difference) に基づいて分類され,Friedman と Wilcoxon の試験による意義が評価された。 影響のあるエクササイズを特定するために、我々はChi-square test, Fisher's exact test, and logistic regression for odds ratioを用いた。 さらに、5つの機械学習モデル(LR)、Adaboost(ADB)、サポートベクターマシン(SVM)、勾配押し上げ(GB)、ランダムフォレスト(RF))を開発した。 統計的分析では機能改善と特定の運動の間に有意な関連が認められた。 RFモデルは機能的結果を予測する上で最高の性能を達成した。 本研究は, 術後2カ月の術後機能改善に大きく寄与する3つのリハビリテーション運動について検討した。 さらに、患者固有の機能的成果を予測する機械学習モデルの成功は、精度回復の可能性を示している。

In this study, we utilized statistical analysis and machine learning methods to examine whether rehabilitation exercises can improve patients post-stroke functional abilities, as well as forecast the improvement in functional abilities. Our dataset is patients' rehabilitation exercises and demographic information recorded in the unstructured electronic health records (EHRs) data and free-text rehabilitation procedure notes. We collected data for 265 stroke patients from the University of Pittsburgh Medical Center. We employed a pre-existing natural language processing (NLP) algorithm to extract data on rehabilitation exercises and developed a rule-based NLP algorithm to extract Activity Measure for Post-Acute Care (AM-PAC) scores, covering basic mobility (BM) and applied cognitive (AC) domains, from procedure notes. Changes in AM-PAC scores were classified based on the minimal clinically important difference (MCID), and significance was assessed using Friedman and Wilcoxon tests. To identify impactful exercises, we used Chi-square tests, Fisher's exact tests, and logistic regression for odds ratios. Additionally, we developed five machine learning models-logistic regression (LR), Adaboost (ADB), support vector machine (SVM), gradient boosting (GB), and random forest (RF)-to predict outcomes in functional ability. Statistical analyses revealed significant associations between functional improvements and specific exercises. The RF model achieved the best performance in predicting functional outcomes. In this study, we identified three rehabilitation exercises that significantly contributed to patient post-stroke functional ability improvement in the first two months. Additionally, the successful application of a machine learning model to predict patient-specific functional outcomes underscores the potential for precision rehabilitation.
翻訳日:2024-05-13 17:36:09 公開日:2024-05-09
# サイクル上の量子ウォークの絶対ゼータ関数と周期性

Absolute zeta functions and periodicity of quantum walks on cycles ( http://arxiv.org/abs/2405.05995v1 )

ライセンス: Link先を確認
Jirô Akahori, Norio Konno, Iwao Sato, Yuma Tamura, (参考訳) 量子ウォーク(quantum walk)は、古典的なランダムウォークの量子対である。 一方、絶対ゼータ函数は$\mathbb{F}_1$ 上のゼータ函数とみなすことができる。 本研究では,量子ウォークと絶対ゼータ関数の関連性を示す。 本稿では,アダマールウォークと3ドル状態のグローバーウォークに着目する。 アダマール・ウォークとグローバー・ウォークは量子ウォークの典型的なモデルである。 このような量子ウォークの周期とゼータ関数を考える。 さらに、対応するゼータ関数の絶対ゼータ関数の明示的な形式を導出する。 また、量子ウォークのゼータ関数は絶対自己同型形式であることが示されている。

The quantum walk is a quantum counterpart of the classical random walk. On the other hand, absolute zeta functions can be considered as zeta functions over $\mathbb{F}_1$. This study presents a connection between quantum walks and absolute zeta functions. In this paper, we focus on Hadamard walks and $3$-state Grover walks on cycle graphs. The Hadamard walks and the Grover walks are typical models of the quantum walks. We consider the periods and zeta functions of such quantum walks. Moreover, we derive the explicit forms of the absolute zeta functions of corresponding zeta functions. Also, it is shown that our zeta functions of quantum walks are absolute automorphic forms.
翻訳日:2024-05-13 17:36:09 公開日:2024-05-09
# マイクロバイオームのハビタット特異性における遺伝子相互作用効果のための全ゲノムトランス

Whole Genome Transformer for Gene Interaction Effects in Microbiome Habitat Specificity ( http://arxiv.org/abs/2405.05998v1 )

ライセンス: Link先を確認
Zhufeng Li, Sandeep S Cranganore, Nicholas Youngblut, Niki Kilbertus, (参考訳) マイクロバイオーム内の膨大な遺伝的多様性を活用することで、複雑な表現型に関する非並列的な洞察が得られるが、そのような特徴をゲノムデータから正確に予測し理解する作業は依然として困難である。 本研究では、遺伝子ベクター化のための既存の大規模モデルを利用して、微生物ゲノム配列全体から生息地特異性を予測する枠組みを提案する。 本モデルに基づいて,微生物を多様な環境に適応させる遺伝子相互作用効果を解明するための属性技術を開発した。 我々は、異なる生息地から得られた高品質のマイクロバイオームゲノムの大規模なデータセット上で、我々のアプローチを訓練し、検証する。 我々は、確固とした予測性能を示すだけでなく、ゲノム全体の配列レベルの情報によって、複雑な表現型に基づく遺伝子関連を識別する方法についても示している。 我々の属性は、既知の重要な相互作用ネットワークを復元し、実験的なフォローアップのための新しい候補を提案する。

Leveraging the vast genetic diversity within microbiomes offers unparalleled insights into complex phenotypes, yet the task of accurately predicting and understanding such traits from genomic data remains challenging. We propose a framework taking advantage of existing large models for gene vectorization to predict habitat specificity from entire microbial genome sequences. Based on our model, we develop attribution techniques to elucidate gene interaction effects that drive microbial adaptation to diverse environments. We train and validate our approach on a large dataset of high quality microbiome genomes from different habitats. We not only demonstrate solid predictive performance, but also how sequence-level information of entire genomes allows us to identify gene associations underlying complex phenotypes. Our attribution recovers known important interaction networks and proposes new candidates for experimental follow up.
翻訳日:2024-05-13 17:36:09 公開日:2024-05-09
# LLMPot:ICSハニーポットの産業用自動プロトコルと物理プロセスエミュレーション

LLMPot: Automated LLM-based Industrial Protocol and Physical Process Emulation for ICS Honeypots ( http://arxiv.org/abs/2405.05999v1 )

ライセンス: Link先を確認
Christoforos Vasilatos, Dunia J. Mahboobeh, Hithem Lamri, Manaar Alam, Michail Maniatakos, (参考訳) 産業制御システム(ICS)は、効率的な、信頼性のある、継続的な運用を保証する重要なインフラで広く利用されている。 しかし、接続性の向上と高度な機能の追加により、サイバー脅威に対して脆弱になり、本質的なサービスに深刻な混乱をもたらす可能性がある。 この文脈では、ミツバチはICSネットワーク内やインターネット上でデコイ標的として行動し、ICS固有のサイバー脅威を検出し、記録し、分析し、軽減する上で重要な役割を果たす。 しかし、ICSハニーポットの展開は、産業用プロトコルとデバイス特性を正確に複製する必要があるため、異なる産業用システムのユニークな動作を効果的に模倣するための重要な要件である。 さらに、この課題は、重要なインフラストラクチャ操作を妨害することを目的とした攻撃者トラフィックを捕捉するために、PLCが実行する制御ロジックを模倣するために必要な重要な手作業によって複雑化されている。 本稿では,大規模言語モデル(LLM)の有効性を利用したICSネットワークにおけるハニーポットの設計手法であるLLMPotを提案する。 LLMPotはベンダーに依存しない構成で現実的なハニーポットの作成を自動化し、最適化することを目的としており、このドメインで伝統的に必要とされる手作業や専門知識を排除することを目的としている。 我々は、幅広いパラメータに着目した広範な実験を行い、LLMベースのアプローチにより、異なる産業プロトコルと多様な制御ロジックを実装したハニーポットデバイスを効果的に作成できることを実証した。

Industrial Control Systems (ICS) are extensively used in critical infrastructures ensuring efficient, reliable, and continuous operations. However, their increasing connectivity and addition of advanced features make them vulnerable to cyber threats, potentially leading to severe disruptions in essential services. In this context, honeypots play a vital role by acting as decoy targets within ICS networks, or on the Internet, helping to detect, log, analyze, and develop mitigations for ICS-specific cyber threats. Deploying ICS honeypots, however, is challenging due to the necessity of accurately replicating industrial protocols and device characteristics, a crucial requirement for effectively mimicking the unique operational behavior of different industrial systems. Moreover, this challenge is compounded by the significant manual effort required in also mimicking the control logic the PLC would execute, in order to capture attacker traffic aiming to disrupt critical infrastructure operations. In this paper, we propose LLMPot, a novel approach for designing honeypots in ICS networks harnessing the potency of Large Language Models (LLMs). LLMPot aims to automate and optimize the creation of realistic honeypots with vendor-agnostic configurations, and for any control logic, aiming to eliminate the manual effort and specialized knowledge traditionally required in this domain. We conducted extensive experiments focusing on a wide array of parameters, demonstrating that our LLM-based approach can effectively create honeypot devices implementing different industrial protocols and diverse control logic.
翻訳日:2024-05-13 17:36:09 公開日:2024-05-09
# LLM-QBench:大規模言語モデルのトレーニング後量子化のベストプラクティスに向けたベンチマーク

LLM-QBench: A Benchmark Towards the Best Practice for Post-training Quantization of Large Language Models ( http://arxiv.org/abs/2405.06001v1 )

ライセンス: Link先を確認
Ruihao Gong, Yang Yong, Shiqiao Gu, Yushi Huang, Yunchen Zhang, Xianglong Liu, Dacheng Tao, (参考訳) 大規模言語モデル(LLMs)の最近の進歩は、目覚ましい創発的能力と推論能力のおかげで、私たちを人工知能に向かわせている。 しかし、LLMの計算とメモリの要求は広く採用されるのを制限している。 キー圧縮技術であるQuan-tizationは、精度をモデル化するためのポテンティルリスクがあるにもかかわらず、LSMを圧縮し、加速することにより、これらの要求を緩和する実行可能なソリューションを提供する。 多くの研究は量子化に伴う精度損失を最小限にすることを目的としている。 しかし、これらの研究における量子化の構成は様々であり、ハードウエアとの互換性に最適化されていない可能性がある。 本稿では,計算効率と性能のバランスをとることを目的として,LLMの定量化における最も効果的な手法の同定に焦点をあてる。 公平な分析のために,量子化ツールキットLLMCを開発し,推論効率,量子化精度,校正コスト,モジュール化の4つの重要な原理を設計する。 様々なモデルやデータセットを500以上の実験でベンチマークすることにより、キャリブレーションデータ、量子化アルゴリズム、量子化スキームに対応する3つのテイクアウトが導出される。 最後に,LLM PTQパイプラインのベストプラクティスを構築した。 すべてのベンチマーク結果とツールキットはhttps://github.com/ModelTC/llmc.comで見ることができる。

Recent advancements in large language models (LLMs) are propelling us toward artificial general intelligence, thanks to their remarkable emergent abilities and reasoning capabilities. However, the substantial computational and memory requirements of LLMs limit their widespread adoption. Quan- tization, a key compression technique, offers a viable solution to mitigate these demands by compressing and accelerating LLMs, albeit with poten- tial risks to model accuracy. Numerous studies have aimed to minimize the accuracy loss associated with quantization. However, the quantization configurations in these studies vary and may not be optimized for hard- ware compatibility. In this paper, we focus on identifying the most effective practices for quantizing LLMs, with the goal of balancing performance with computational efficiency. For a fair analysis, we develop a quantization toolkit LLMC, and design four crucial principles considering the inference efficiency, quantized accuracy, calibration cost, and modularization. By benchmarking on various models and datasets with over 500 experiments, three takeaways corresponding to calibration data, quantization algorithm, and quantization schemes are derived. Finally, a best practice of LLM PTQ pipeline is constructed. All the benchmark results and the toolkit can be found at https://github.com/ModelTC/llmc.
翻訳日:2024-05-13 17:36:09 公開日:2024-05-09
# ソフトマックスモデルとレバレッジスコアモデルのための二元仮説テスト

Binary Hypothesis Testing for Softmax Models and Leverage Score Models ( http://arxiv.org/abs/2405.06003v1 )

ライセンス: Link先を確認
Yeqi Gao, Yuzhou Gu, Zhao Song, (参考訳) ソフトマックス分布は、注目ユニットがソフトマックス分布を使用する大規模言語モデル(LLM)など、機械学習で広く使用されている。 注意単位をソフトマックスモデルとして抽象化し、ベクトル入力が与えられた場合、モデルがソフトマックス分布から引き出された出力を生成する(ベクトル入力に依存する)。 ソフトマックスモデルの設定における二元仮説テストの基本的問題について考察する。 つまり、与えられた2つのソフトマックスモデルのうちの1つである未知のソフトマックスモデルを考えると、どれが真実であるかを決定するのに何つのクエリが必要なのか? サンプル複雑性が漸近的に$O(\epsilon^{-2})$であることを示す。 さらに,線形代数やグラフ理論におけるアルゴリズム設計において重要なツールである,ソフトマックスモデルとレバレッジスコアモデルとの類似性を描く。 高レベルのレバレッジスコアモデルは、与えられたベクトル入力によって、入力に依存する分布から引き出された出力を生成するモデルである。 我々は,2値仮説テスト問題に対して,レバレッジスコアモデルに対して同様の結果を得る。

Softmax distributions are widely used in machine learning, including Large Language Models (LLMs) where the attention unit uses softmax distributions. We abstract the attention unit as the softmax model, where given a vector input, the model produces an output drawn from the softmax distribution (which depends on the vector input). We consider the fundamental problem of binary hypothesis testing in the setting of softmax models. That is, given an unknown softmax model, which is known to be one of the two given softmax models, how many queries are needed to determine which one is the truth? We show that the sample complexity is asymptotically $O(\epsilon^{-2})$ where $\epsilon$ is a certain distance between the parameters of the models. Furthermore, we draw analogy between the softmax model and the leverage score model, an important tool for algorithm design in linear algebra and graph theory. The leverage score model, on a high level, is a model which, given vector input, produces an output drawn from a distribution dependent on the input. We obtain similar results for the binary hypothesis testing problem for leverage score models.
翻訳日:2024-05-13 17:36:09 公開日:2024-05-09
# EWMoE: 専門知識の混合による地球規模の天気予報に有効なモデル

EWMoE: An effective model for global weather forecasting with mixture-of-experts ( http://arxiv.org/abs/2405.06004v1 )

ライセンス: Link先を確認
Lihao Gan, Xin Man, Chenghong Zhang, Jie Shao, (参考訳) 気象予報は気象学研究にとって重要な課題であり、直接的な社会的・経済的影響がある。 近年,ディープラーニングに基づくデータ駆動型天気予報モデルに大きな可能性を示し,従来の数値天気予報法と比較して優れた性能を示した。 しかし、これらのモデルは大規模なトレーニングデータと計算資源を必要とすることが多い。 本稿では,地球規模の天気予報に有効なモデルであるEWMoEを提案する。 本モデルでは,気象固有の埋め込み,Mixture-of-Experts (MoE) 層,および2つの特定の損失関数の3つの重要な要素を組み込んで予測精度を向上させる。 2年間のトレーニングデータを用いて,ERA5データセットの評価を行った。 EWMoEは、Anomaly correlation Coefficient(ACC)やRoot Mean Square Error(RMSE)といった評価指標において、最先端のPangu-Weatherモデルと比較すると、常に予測時にFourCastNetやClimaXのような現在のモデルよりも優れており、競争性能が向上している。 さらに,気象予報へのMoEアーキテクチャの適用は,精度と資源効率を向上させる上で大きな利点をもたらすことが示唆された。

Weather forecasting is a crucial task for meteorologic research, with direct social and economic impacts. Recently, data-driven weather forecasting models based on deep learning have shown great potential, achieving superior performance compared with traditional numerical weather prediction methods. However, these models often require massive training data and computational resources. In this paper, we propose EWMoE, an effective model for accurate global weather forecasting, which requires significantly less training data and computational resources. Our model incorporates three key components to enhance prediction accuracy: meteorology-specific embedding, a core Mixture-of-Experts (MoE) layer, and two specific loss functions. We conduct our evaluation on the ERA5 dataset using only two years of training data. Extensive experiments demonstrate that EWMoE outperforms current models such as FourCastNet and ClimaX at all forecast time, achieving competitive performance compared with the state-of-the-art Pangu-Weather model in evaluation metrics such as Anomaly Correlation Coefficient (ACC) and Root Mean Square Error (RMSE). Additionally, ablation studies indicate that applying the MoE architecture to weather forecasting offers significant advantages in improving accuracy and resource efficiency.
翻訳日:2024-05-13 17:36:09 公開日:2024-05-09
# ニューラルネットワークガウス過程のウィルソン正規化

Wilsonian Renormalization of Neural Network Gaussian Processes ( http://arxiv.org/abs/2405.06008v1 )

ライセンス: Link先を確認
Jessica N. Howard, Ro Jefferson, Anindita Maiti, Zohar Ringel, (参考訳) 関連する情報と無関係な情報を分離することは、あらゆるモデリングプロセスや科学的調査の鍵となる。 理論物理学は、これを再正規化群(RG)の形で達成するための強力なツールを提供する。 ここでは,ガウス過程(GP)回帰の文脈でWilsonian RGを実行するための実践的なアプローチを示す。 GPカーネルの学習不能モードを体系的に統合し,エネルギースケールの役割を果たすガウス過程のRGフローを得る。 単純な場合、これはリッジパラメータの普遍フローとなり、非ガウス性を含むよりリッチなシナリオに入力依存となる。 解析的に抽出可能なことに加えて、このアプローチはRGフローと学習不可能モードと学習不能モードとの自然な接続を提供することによって、RGとニューラルネットワークの間の構造的な類似点を越えている。 このような流れの研究は、ディープニューラルネットワークにおける特徴学習の理解を改善し、これらのモデルにおける潜在的普遍性クラスを特定する可能性がある。

Separating relevant and irrelevant information is key to any modeling process or scientific inquiry. Theoretical physics offers a powerful tool for achieving this in the form of the renormalization group (RG). Here we demonstrate a practical approach to performing Wilsonian RG in the context of Gaussian Process (GP) Regression. We systematically integrate out the unlearnable modes of the GP kernel, thereby obtaining an RG flow of the Gaussian Process in which the data plays the role of the energy scale. In simple cases, this results in a universal flow of the ridge parameter, which becomes input-dependent in the richer scenario in which non-Gaussianities are included. In addition to being analytically tractable, this approach goes beyond structural analogies between RG and neural networks by providing a natural connection between RG flow and learnable vs. unlearnable modes. Studying such flows may improve our understanding of feature learning in deep neural networks, and identify potential universality classes in these models.
翻訳日:2024-05-13 17:36:09 公開日:2024-05-09
# 非相互量子回路におけるパワーロー絡みとヒルベルト空間の断片化

Power-law entanglement and Hilbert space fragmentation in non-reciprocal quantum circuits ( http://arxiv.org/abs/2405.06021v1 )

ライセンス: Link先を確認
Kai Klocke, Joel E. Moore, Michael Buchhold, (参考訳) 量子回路は、測定を利用して量子波関数を進化させ、非伝統的な絡み合い力学を工学する新しい豊かな遊び場を提供する。 ここでは、古典的動的エージェントの状態に応じて更新を行う量子回路を特徴とするハイブリッドな非相互セットアップを紹介する。 この例では、回路は、ペアフリップを行う古典的な$N$状態ポッツ連鎖によって制御されるマヨラナ量子チェーンによって表現される。 古典スピンの局所配向は、量子鎖上のランダムに描画された局所的な測定が許されるか否かを制御する。 これは、$N$-colorループモデルの転送行列によって記述された、絡み合い成長に対する動的運動論的制約を課す。 これは、$SU(N)$-symmetric Temperley-Lieb Hamiltonian または$N$-component height fieldに対する運動的に制約された表面成長モデルによって、回路の等価な記述をもたらす。 N=2$ の場合、固定プロファイル $S(L)\sim L^{1/2}$ に対して半鎖の絡み合いが拡散的に成長する。 N\ge3$ に対して、運動的制約はヒルベルト空間の断片化を課し、$S(L)\sim L^{0.57}$ への部分拡散的成長をもたらす。 このことは、古典的動的エージェントによる制御が量子回路における絡み合いのダイナミクスを豊かにし、非相互ハイブリッド回路アーキテクチャにおける新しい絡み合いのダイナミクスへの道を開く方法を示している。

Quantum circuits utilizing measurement to evolve a quantum wave function offer a new and rich playground to engineer unconventional entanglement dynamics. Here we introduce a hybrid, non-reciprocal setup featuring a quantum circuit, whose updates are conditioned on the state of a classical dynamical agent. In our example the circuit is represented by a Majorana quantum chain controlled by a classical $N$-state Potts chain undergoing pair-flips. The local orientation of the classical spins controls whether randomly drawn local measurements on the quantum chain are allowed or not. This imposes a dynamical kinetic constraint on the entanglement growth, described by the transfer matrix of an $N$-colored loop model. It yields an equivalent description of the circuit by an $SU(N)$-symmetric Temperley-Lieb Hamiltonian or by a kinetically constrained surface growth model for an $N$-component height field. For $N=2$, we find a diffusive growth of the half-chain entanglement towards a stationary profile $S(L)\sim L^{1/2}$ for $L$ sites. For $N\ge3$, the kinetic constraints impose Hilbert space fragmentation, yielding subdiffusive growth towards $S(L)\sim L^{0.57}$. This showcases how the control by a classical dynamical agent can enrich the entanglement dynamics in quantum circuits, paving a route toward novel entanglement dynamics in non-reciprocal hybrid circuit architectures.
翻訳日:2024-05-13 17:36:09 公開日:2024-05-09
# ロバストな浅い影

Robust shallow shadows ( http://arxiv.org/abs/2405.06022v1 )

ライセンス: Link先を確認
Renato M. S. Farias, Raghavendra D. Peddinti, Ingo Roth, Leandro Aolita, (参考訳) 実測値が局所的に不変である限り、ノイズを緩和する浅層計測回路の幅広いクラスに対して、ロバストなシャドウ推定プロトコルを提案する。 これは実際には優れた近似であり、例えば、任意の回路アーキテクチャの最初の回路層を構成する理想的な1量子ビットクリフォードゲートや、回路の他の部分で非マルコフ的なゲート依存ノイズを含む。 ほぼ局所的な雑音に対して、測定チャネルは効率的な行列積(テンソルトレイン)表現を持ち、テンソルネットワークツールを用いて実験データから直接これを推定する方法を示し、解析的・数値計算の必要性を排除している。 本稿では,IBM Q デバイス上での数値実験と実証実験の両面から,本手法の妥当性について述べる。 数値的には、ノイズ回路を持つ未緩和の浅い影は、深さが大きくなるにつれて偏りが増す一方、ロバストな影は関連するパラメーター系ではより正確になる。 実験により,2つの簡単な忠実度推定タスクにおいて,最大2層の密閉ゲートを持つ5量子ビット回路を用いて,最大10^4$の計測ショットの桁数に近い5量子ビット回路を用いて大きなバイアス低減を観測した。

We present a robust shadow estimation protocol for wide classes of shallow measurement circuits that mitigates noise as long as the effective measurement map is locally unitarily invariant. This is in practice an excellent approximation, encompassing for instance the case of ideal single-qubit Clifford gates composing the first circuit layer of an otherwise arbitrary circuit architecture and even non-Markovian, gate-dependent noise in the rest of the circuit. We argue that for approximately local noise the measurement channel has an efficient matrix-product (tensor-train) representation, and show how to estimate this directly from experimental data using tensor-network tools, eliminating the need for analytical or numeric calculations. We illustrate the relevance of our method with both numerics and proof-of-principle experiments on an IBM Q device. Numerically, we show that, while unmitigated shallow shadows with noisy circuits become more biased as the depth increases, robust ones become more accurate for relevant parameter regimes. Experimentally, we observe major bias reductions in two simple fidelity estimation tasks using 5-qubit circuits with up to 2 layers of entangling gates using the mitigated variant, of close to an order of magnitude for $10^4$ measurement shots, e.g. Under the practical constraints of current and near-term noisy quantum devices, our method maximally realizes the potential of shadow estimation with global rotations.
翻訳日:2024-05-13 17:36:09 公開日:2024-05-09
# 古典データのためのフォトニック量子生成逆数ネットワーク

Photonic quantum generative adversarial networks for classical data ( http://arxiv.org/abs/2405.06023v1 )

ライセンス: Link先を確認
Tigran Sedrakyan, Alexia Salavrakos, (参考訳) Generative Adversarial Networks (GAN) が最初に登場したとき、彼らは古典的な機械学習の分野で画期的な存在であった。 研究者らはその後、古典的データと量子的データの両方を生成するために、量子バージョンのアルゴリズムを設計してきた。 本稿では、フォトニック量子コンピューティングに焦点をあて、線形光回路とフォック空間符号化に基づく量子GANを古典データ生成のために提示する。 本稿では,概念実証画像生成シナリオにおけるモデルの訓練性と性能について考察する。 次に、Quandelaのフォトニック量子プロセッサAscellaで量子GANをトレーニングする実験を行います。

When Generative Adversarial Networks (GANs) first emerged, they marked a breakthrough in the field of classical machine learning. Researchers have since designed quantum versions of the algorithm, both for the generation of classical and quantum data, but most work so far has focused on qubit-based architectures. In this article, we focus on photonic quantum computing and present a quantum GAN based on linear optical circuits and Fock-space encoding for the generation of classical data. We explore the trainability and the performance of the model in a proof-of-concept image generation scenario. We then conduct an experiment where we train our quantum GAN on Quandela's photonic quantum processor Ascella.
翻訳日:2024-05-13 17:36:09 公開日:2024-05-09
# ベイズ予測による推論

Bayesian Prediction-Powered Inference ( http://arxiv.org/abs/2405.06034v1 )

ライセンス: Link先を確認
R. Alex Hofer, Joshua Maynez, Bhuwan Dhingra, Adam Fisch, Amir Globerson, William W. Cohen, (参考訳) 予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。 具体的には、PPI法は、少量の人ラベルデータと、合理的に正確だがバイアスのある自動システムによってラベル付けされた大量のデータを組み合わせることで、より厳密な信頼区間を提供する。 本稿では,ベイズ推定に基づくPPIのためのフレームワークを提案する。 新たなメトリクスを設計する上で容易な方法として,個別の応答を与えるオートレーダ(例えば LLM ``judges'' を誘導するオートレーダ)や,人間のスコアと非線形の関係のないスコアを持つオートレーダなど,いくつかの重要なケースに対して,PPI手法の改良を提案する。

Prediction-powered inference (PPI) is a method that improves statistical estimates based on limited human-labeled data. Specifically, PPI methods provide tighter confidence intervals by combining small amounts of human-labeled data with larger amounts of data labeled by a reasonably accurate, but potentially biased, automatic system. We propose a framework for PPI based on Bayesian inference that allows researchers to develop new task-appropriate PPI methods easily. Exploiting the ease with which we can design new metrics, we propose improved PPI methods for several importantcases, such as autoraters that give discrete responses (e.g., prompted LLM ``judges'') and autoraters with scores that have a non-linear relationship to human scores.
翻訳日:2024-05-13 17:26:24 公開日:2024-05-09
# アルゴリズムからハードウェアへ:ディープニューラルネットワークの効率的かつ安全なデプロイに関する調査

From Algorithm to Hardware: A Survey on Efficient and Safe Deployment of Deep Neural Networks ( http://arxiv.org/abs/2405.06038v1 )

ライセンス: Link先を確認
Xue Geng, Zhe Wang, Chunyun Chen, Qing Xu, Kaixin Xu, Chao Jin, Manas Gupta, Xulei Yang, Zhenghua Chen, Mohamed M. Sabry Aly, Jie Lin, Min Wu, Xiaoli Li, (参考訳) ディープニューラルネットワーク(DNN)は多くの人工知能(AI)タスクで広く使われている。 しかし、これらをデプロイすることは、メモリ、エネルギ、計算の膨大なコストのために大きな課題をもたらす。 これらの課題に対処するため、研究者はモデル量子化やモデルプルーニングなどの様々なモデル圧縮技術を開発した。 近年,性能を保ちながらモデル効率を達成するための圧縮法の研究が急増している。 さらに、モデル圧縮技術をより活用するために、DNNハードウェアアクセラレータをカスタマイズすることに注力する作業が増えている。 効率性に加えて、DNNのデプロイにはセキュリティとプライバシの保護が不可欠だ。 しかし、多種多様な関連作品が圧倒的に多い。 これにより、DNNの高性能、費用効率、安全な展開という目標に向けて、最近の研究を包括的に調査するインスピレーションとなる。 まず, モデル量子化, モデルプルーニング, 知識蒸留, 非線形演算の最適化など, 主流のモデル圧縮技術について検討した。 次に、効率的なモデル圧縮アプローチに適応できるハードウェアアクセラレータの設計の最近の進歩を紹介する。 さらに,同型暗号をセキュアなDNNデプロイメントに組み込む方法について論じる。 最後に,ハードウェア評価,一般化,各種圧縮手法の統合など,いくつかの課題について論じる。 全体として、アルゴリズムからハードウェアアクセラレータ、セキュリティの観点から、効率的なDNNの全体像を提供することを目指している。

Deep neural networks (DNNs) have been widely used in many artificial intelligence (AI) tasks. However, deploying them brings significant challenges due to the huge cost of memory, energy, and computation. To address these challenges, researchers have developed various model compression techniques such as model quantization and model pruning. Recently, there has been a surge in research of compression methods to achieve model efficiency while retaining the performance. Furthermore, more and more works focus on customizing the DNN hardware accelerators to better leverage the model compression techniques. In addition to efficiency, preserving security and privacy is critical for deploying DNNs. However, the vast and diverse body of related works can be overwhelming. This inspires us to conduct a comprehensive survey on recent research toward the goal of high-performance, cost-efficient, and safe deployment of DNNs. Our survey first covers the mainstream model compression techniques such as model quantization, model pruning, knowledge distillation, and optimizations of non-linear operations. We then introduce recent advances in designing hardware accelerators that can adapt to efficient model compression approaches. Additionally, we discuss how homomorphic encryption can be integrated to secure DNN deployment. Finally, we discuss several issues, such as hardware evaluation, generalization, and integration of various compression approaches. Overall, we aim to provide a big picture of efficient DNNs, from algorithm to hardware accelerators and security perspectives.
翻訳日:2024-05-13 17:26:24 公開日:2024-05-09
# ハイブリッド安定化器マトリックス製品オペレータ

Hybrid Stabilizer Matrix Product Operator ( http://arxiv.org/abs/2405.06045v1 )

ライセンス: Link先を確認
Antonio Francesco Mello, Alessandro Santini, Mario Collura, (参考訳) 本稿では, テンソルネットワーク法と安定化器形式を併用した新しいハイブリッド手法を提案し, 多体量子システムのシミュレーションの課題に対処する。 これらの手法を統合することで、古典的なシミュレーションで遭遇する絡み合いの指数的成長を緩和しつつ、ユニタリ力学を正確にモデル化する能力を高めることができる。 本稿では,ランダムなクリフォードTドープ回路とランダムなクリフォードFloquet Dynamicsへの応用を通して,本手法の有効性を実証する。 このアプローチは、複雑な量子現象の理解を深め、量子シミュレーションの進歩を加速するための有望な展望を提供する。

We introduce a novel hybrid approach combining tensor network methods with the stabilizer formalism to address the challenges of simulating many-body quantum systems. By integrating these techniques, we enhance our ability to accurately model unitary dynamics while mitigating the exponential growth of entanglement encountered in classical simulations. We demonstrate the effectiveness of our method through applications to random Clifford T-doped circuits and Random Clifford Floquet Dynamics. This approach offers promising prospects for advancing our understanding of complex quantum phenomena and accelerating progress in quantum simulation.
翻訳日:2024-05-13 17:26:24 公開日:2024-05-09
# BBパッチ:ゼロ階最適化を用いたブラックボックス対応パッチアタック

BB-Patch: BlackBox Adversarial Patch-Attack using Zeroth-Order Optimization ( http://arxiv.org/abs/2405.06049v1 )

ライセンス: Link先を確認
Satyadwyoom Kumar, Saurabh Gupta, Arun Balaji Buduru, (参考訳) ディープラーニングは、ほとんどすべてのドメインで広く使われているため、人気を集めている。 しかし、ディープラーニングを用いて訓練されたモデルは、敵のサンプルに失敗する傾向があり、センシティブなアプリケーションでかなりのリスクを負う。 これらの敵攻撃戦略の多くは、敵が訓練データ、モデルパラメータ、配置中の入力にアクセスでき、したがって、入力画像に存在するピクセルレベルの情報を摂動することに集中していると仮定する。 Adversarial Patchesがコミュニティに導入され、ディープラーニングモデルの脆弱性をより現実的な方法で実現するのに役立ったが、ここでは攻撃者がモデルパラメータにホワイトボックスでアクセスできる。 近年,ブラックボックス技術を用いた敵攻撃の開発が試みられている。 しかし、大規模なトレーニングデータの可用性のような特定の仮定は、現実のシナリオでは有効ではない。 実際のシナリオでは、攻撃者は入力データセットのサブセットのみにアクセスしながら、選択された最先端アーキテクチャのリストから使用するモデルアーキテクチャのタイプしか想定できない。 そこで我々は,入力画像のどこにでも適用可能な敵パッチを生成するブラックボックスの敵攻撃戦略を提案する。

Deep Learning has become popular due to its vast applications in almost all domains. However, models trained using deep learning are prone to failure for adversarial samples and carry a considerable risk in sensitive applications. Most of these adversarial attack strategies assume that the adversary has access to the training data, the model parameters, and the input during deployment, hence, focus on perturbing the pixel level information present in the input image. Adversarial Patches were introduced to the community which helped in bringing out the vulnerability of deep learning models in a much more pragmatic manner but here the attacker has a white-box access to the model parameters. Recently, there has been an attempt to develop these adversarial attacks using black-box techniques. However, certain assumptions such as availability large training data is not valid for a real-life scenarios. In a real-life scenario, the attacker can only assume the type of model architecture used from a select list of state-of-the-art architectures while having access to only a subset of input dataset. Hence, we propose an black-box adversarial attack strategy that produces adversarial patches which can be applied anywhere in the input image to perform an adversarial attack.
翻訳日:2024-05-13 17:26:24 公開日:2024-05-09
# 量子特異値変換を用いた明示的復号器

Explicit decoders using quantum singular value transformation ( http://arxiv.org/abs/2405.06051v1 )

ライセンス: Link先を確認
Takeru Utsumi, Yoshifumi Nakata, (参考訳) ノイズの多い量子システムから量子情報を復元することは、量子情報科学と基礎物理学における中心的な課題の1つである。 このゴールの鍵はデコーダを明示的に構築することである。 本稿では,2つの明示的復号化量子回路について,分離条件を満たす場合,すなわち量子情報が原理的に回復可能である場合に,量子情報を回復することができる。 このデコーダは, 量子特異値変換に基づく定点振幅増幅アルゴリズムを用いて構成され, 特定の雑音モデルにおける吉田, 北エフのアプローチを, 一般の状況に大きく拡張する。 また,提案した復号回路は,既知の明示的復号器と比較して計算コストを削減できることを示す。 我々の構成は、デコーダと量子アルゴリズムの間の興味深い交差を示すだけでなく、量子情報を回復するためのアルゴリズムアプローチのパワーも示している。

Recovering quantum information from a noisy quantum system is one of the central challenges in quantum information science and fundamental physics. The key to this goal is explicitly constructing a decoder. In this paper, we provide two explicit decoding quantum circuits that are both capable of recovering quantum information when a decoupling condition is satisfied, i.e., when quantum information is in principle recoverable. The decoders are constructed by using the fixed-point amplitude amplification algorithm based on the quantum singular value transformation, which significantly extends an approach by Yoshida and Kitaev in a specific noise model to general situations. We also show that the proposed decoding circuits reduce the computational cost compared to a previously known explicit decoder. Our constructions not only show an intriguing intersection between decoders and quantum algorithms but also reveal the power of an algorithmic approach to recovering quantum information.
翻訳日:2024-05-13 17:26:24 公開日:2024-05-09
# シミュレーションなしで非安定度ダイナミクスを推定する

Estimating Non-Stabilizerness Dynamics Without Simulating It ( http://arxiv.org/abs/2405.06054v1 )

ライセンス: Link先を確認
Alessio Paviglianiti, Guglielmo Lami, Mario Collura, Alessandro Silva, (参考訳) 我々は、汎用量子回路における非安定化器性(量子魔法)のダイナミクスを効率的に扱うために設計された新しい技術であるICCR(Iterative Clifford Circuit Renormalization)を導入する。 ICCRは起動回路を反復的に調整してクリフォード回路に変換し、測定やTゲートなどの非安定化性を変化させる全ての要素を除去する。 この過程で、初期状態は、新しい回路が元の回路と同じ最終状態を出力するように再正規化される。 このアプローチは、有効初期状態の流れに非安定化剤の複雑なダイナミクスを組み込み、その効率的な評価を可能にし、元の回路の直接的かつ計算的に高価なシミュレーションを不要とした。 初期状態再正規化は、体系的に改善できる近似を用いて明示的に計算することができる。 ICCRアルゴリズムを用いて,N = 1000までの大きさのシステムに対する非安定化性能の評価を行う。 テンソルネットワークシミュレーションとの比較により,本手法の有効性を検証した。 最後に、ICCR技術を用いて、測定誘起遷移が観測される魔法の浄化回路を研究する。

We introduce the Iterative Clifford Circuit Renormalization (ICCR), a novel technique designed to efficiently handle the dynamics of non-stabilizerness (a.k.a. quantum magic) in generic quantum circuits. ICCR iteratively adjusts the starting circuit, transforming it into a Clifford circuit where all elements that can alter the non-stabilizerness, such as measurements or T gates, have been removed. In the process the initial state is renormalized in such a way that the new circuit outputs the same final state as the original one. This approach embeds the complex dynamics of non-stabilizerness in the flow of an effective initial state, enabling its efficient evaluation while avoiding the need for direct and computationally expensive simulation of the original circuit. The initial state renormalization can be computed explicitly using an approximation that can be systematically improved. We implement the ICCR algorithm to evaluate the non-stabilizerness dynamics for systems of size up to N = 1000. We validate our method by comparing it to tensor networks simulations. Finally, we employ the ICCR technique to study a magic purification circuit, where a measurement-induced transition is observed.
翻訳日:2024-05-13 17:26:24 公開日:2024-05-09
# UnSegGNet: グラフニューラルネットワークを用いた教師なし画像分割

UnSegGNet: Unsupervised Image Segmentation using Graph Neural Networks ( http://arxiv.org/abs/2405.06057v1 )

ライセンス: Link先を確認
Kovvuri Sai Gopal Reddy, Bodduluri Saran, A. Mudit Adityaja, Saurabh J. Shigwan, Nitin Kumar, (参考訳) 画像分割は、イメージを意味のある領域に分割するプロセスであり、コンピュータビジョンと医療画像の応用において重要な役割を果たす。 教師なしセグメンテーション、特にラベル付きデータの欠如は、クラス間の類似性や強度と解像度の変化のため、依然として困難な課題である。 本研究では,事前学習した視覚変換器を用いて,入力画像の高レベル特徴を抽出する。 提案手法は,画像の基盤となるグラフ構造を利用して,事前にラベル付けされたトレーニングデータに頼ることなく,グラフニューラルネットワークとモジュラリティに基づく最適化基準を用いて有意義な境界を発見し,記述する。 ベンチマークデータセットによる実験結果から,提案手法の有効性と汎用性を示し,最先端の教師なしセグメンテーション手法と比較して競争性能を示す。 本研究は, 現実の課題に対応する画像分割のための革新的な方法論を提示することによって, 教師なし医療画像とコンピュータビジョンの幅広い分野に寄与する。 提案手法は, 医療画像, リモートセンシング, オブジェクト認識など, ラベル付きデータが少ない場合や利用できない場合など, 多様な応用を約束する。 コードのgithubリポジトリは[https://github.com/ksgr5566/unseggnet]で公開されている。

Image segmentation, the process of partitioning an image into meaningful regions, plays a pivotal role in computer vision and medical imaging applications. Unsupervised segmentation, particularly in the absence of labeled data, remains a challenging task due to the inter-class similarity and variations in intensity and resolution. In this study, we extract high-level features of the input image using pretrained vision transformer. Subsequently, the proposed method leverages the underlying graph structures of the images, seeking to discover and delineate meaningful boundaries using graph neural networks and modularity based optimization criteria without relying on pre-labeled training data. Experimental results on benchmark datasets demonstrate the effectiveness and versatility of the proposed approach, showcasing competitive performance compared to the state-of-the-art unsupervised segmentation methods. This research contributes to the broader field of unsupervised medical imaging and computer vision by presenting an innovative methodology for image segmentation that aligns with real-world challenges. The proposed method holds promise for diverse applications, including medical imaging, remote sensing, and object recognition, where labeled data may be scarce or unavailable. The github repository of the code is available on [https://github.com/ksgr5566/unseggnet]
翻訳日:2024-05-13 17:26:24 公開日:2024-05-09
# 大規模言語モデルによる調査結果の社会的欲求感の相違

Large Language Models Show Human-like Social Desirability Biases in Survey Responses ( http://arxiv.org/abs/2405.06058v1 )

ライセンス: Link先を確認
Aadesh Salecha, Molly E. Ireland, Shashanka Subrahmanya, João Sedoc, Lyle H. Ungar, Johannes C. Eichstaedt, (参考訳) 大きな言語モデル(LLM)が人間の振る舞いをモデル化し、シミュレートするために広く使われるようになると、そのバイアスを理解することが重要になる。 本研究では,ビッグファイブ・パーソナリティ・サーベイ(Big Five Personal Survey)を用いた実験フレームワークを開発し,これまで検出されていなかった社会的欲望バイアスを広い範囲のLLMで明らかにした。 LLMが暴露した質問の数を体系的に変化させることで、評価された質問数を推測する能力を示す。 性格評価が推測されると、LSMは特徴次元の望ましい端(外転の増加、神経性障害の減少など)に向けてスコアをスキューする。 このバイアスは、GPT-4/3.5、Claude 3、Llama 3、PaLM-2を含む全ての試験モデルに存在する。 バイアスレベルはより最近のモデルで増加しており、GPT-4の調査回答は1.20の標準偏差、Llama 3の0.98の標準偏差が非常に大きな効果である。 このバイアスは質問順序と言い換えのランダム化に頑健である。 すべての質問のリバースコーディングはバイアスレベルを低下させるが、それらを取り除くことはできず、この効果はアクセプションバイアスによるものではないことを示唆している。 以上の結果から,社会的欲求性バイアスが出現し,心理測定によるLLMのプロファイリングや,ヒトのプロキシとしてのLLMの使用に制約があることが示唆された。

As Large Language Models (LLMs) become widely used to model and simulate human behavior, understanding their biases becomes critical. We developed an experimental framework using Big Five personality surveys and uncovered a previously undetected social desirability bias in a wide range of LLMs. By systematically varying the number of questions LLMs were exposed to, we demonstrate their ability to infer when they are being evaluated. When personality evaluation is inferred, LLMs skew their scores towards the desirable ends of trait dimensions (i.e., increased extraversion, decreased neuroticism, etc). This bias exists in all tested models, including GPT-4/3.5, Claude 3, Llama 3, and PaLM-2. Bias levels appear to increase in more recent models, with GPT-4's survey responses changing by 1.20 (human) standard deviations and Llama 3's by 0.98 standard deviations-very large effects. This bias is robust to randomization of question order and paraphrasing. Reverse-coding all the questions decreases bias levels but does not eliminate them, suggesting that this effect cannot be attributed to acquiescence bias. Our findings reveal an emergent social desirability bias and suggest constraints on profiling LLMs with psychometric tests and on using LLMs as proxies for human participants.
翻訳日:2024-05-13 17:26:24 公開日:2024-05-09
# オープンEnded Text WorldにおけるFew-Shotタスク転送のためのMixture-of-Expertsアプローチ

A Mixture-of-Experts Approach to Few-Shot Task Transfer in Open-Ended Text Worlds ( http://arxiv.org/abs/2405.06059v1 )

ライセンス: Link先を確認
Christopher Z. Cui, Xiangyu Peng, Mark O. Riedl, (参考訳) オープンエンドの世界は、事前に指定された目標や環境報酬の信号が存在しない世界である。 その結果、エージェントは複数のタスクを実行する方法を知っていなければならない。 しかし、エージェントに新しいタスクが提示されると、以前のタスクから知っていることを再利用して、その新しいタスクを迅速に学習できることを期待している。 凍結・凍結した専門家が混在する注意機構を持つMixture-of-Expertsモデルに、様々なタスクに対するポリシーを組み込む新しい手法を導入する。 モデルは、凍結したタスク固有のエキスパートにいつ出席するかを適切に学習し、新しい状況を扱うための新しいエキスパートを学ぶ。 我々は、エージェントが異なるタイプのキャラクタロールのように振舞うことを任務とし、新しいキャラクタロールタイプの振る舞いを迅速に学習する、オープンなテキストベースの環境で働く。 エージェントはゼロショット設定でより多くの報酬を得ることができ、これらの報奨は数ショットの学習環境においてより高いサンプル効率で得られることを示す。

Open-ended worlds are those in which there are no pre-specified goals or environmental reward signal. As a consequence, an agent must know how to perform a multitude of tasks. However, when a new task is presented to an agent, we expect it to be able to reuse some of what it knows from previous tasks to rapidly learn that new task. We introduce a novel technique whereby policies for different a priori known tasks are combined into a Mixture-of-Experts model with an attention mechanism across a mix of frozen and unfrozen experts. The model learns when to attend to frozen task-specific experts when appropriate and learns new experts to handle novel situations. We work in an open-ended text-based environment in which the agent is tasked with behaving like different types of character roles and must rapidly learn behaviors associated with new character role types. We show that our agent both obtains more rewards in the zero-shot setting, and discovers these rewards with greater sample efficiency in the few-shot learning settings.
翻訳日:2024-05-13 17:26:24 公開日:2024-05-09
# ゼロショット政策学習のためのミニマリスト・プロンプト

A Minimalist Prompt for Zero-Shot Policy Learning ( http://arxiv.org/abs/2405.06063v1 )

ライセンス: Link先を確認
Meng Song, Xuezhi Wang, Tanay Biradar, Yao Qin, Manmohan Chandraker, (参考訳) トランスフォーマーに基づく手法は、推論中にターゲットドメインのデモや例解を誘導するときに、かなりの一般化能力を示す。 デモンストレーションは、タスク仕様の方法として、言語によっては特定が難しいようなリッチな情報をキャプチャすることができるが、一般化を支援するためにデモからどんな情報が抽出されているかは、まだ不明である。 さらに、目に見えないタスクのデモンストレーションへのアクセスを仮定することは、現実の多くのシナリオ、特にロボット工学の応用において非現実的または不合理である。 これらの質問は、デモと同じレベルの一般化能力を引き出すために、最小限のプロンプトがどのようなものかを探る動機となる。 本稿では,メタRLとマルチタスクRLベンチマークで広く採用されている一般化の定量的測定を可能にする文脈RL設定において,この問題を考察する。 この設定では、Markov Decision Processs (MDPs) のトレーニングとテストは特定の特性でのみ異なり、これはタスクパラメータと呼ばれる。 これらのタスクパラメータのみに決定変換器を条件付けすることで、デモ条件の値と同等以上のゼロショットの一般化が可能になることを示す。 これは、タスクパラメータが一般化に不可欠であり、DTモデルがデモプロンプトからそれを回復しようとしていることを示唆している。 そこで本研究では,ロボット制御,操作,ナビゲーションのベンチマークタスクにおいて,ゼロショットの一般化をさらに促進することを目的とした,学習可能な追加プロンプトを提案する。

Transformer-based methods have exhibited significant generalization ability when prompted with target-domain demonstrations or example solutions during inference. Although demonstrations, as a way of task specification, can capture rich information that may be hard to specify by language, it remains unclear what information is extracted from the demonstrations to help generalization. Moreover, assuming access to demonstrations of an unseen task is impractical or unreasonable in many real-world scenarios, especially in robotics applications. These questions motivate us to explore what the minimally sufficient prompt could be to elicit the same level of generalization ability as the demonstrations. We study this problem in the contextural RL setting which allows for quantitative measurement of generalization and is commonly adopted by meta-RL and multi-task RL benchmarks. In this setting, the training and test Markov Decision Processes (MDPs) only differ in certain properties, which we refer to as task parameters. We show that conditioning a decision transformer on these task parameters alone can enable zero-shot generalization on par with or better than its demonstration-conditioned counterpart. This suggests that task parameters are essential for the generalization and DT models are trying to recover it from the demonstration prompt. To extract the remaining generalizable information from the supervision, we introduce an additional learnable prompt which is demonstrated to further boost zero-shot generalization across a range of robotic control, manipulation, and navigation benchmark tasks.
翻訳日:2024-05-13 17:26:24 公開日:2024-05-09
# LLMs for XAI: 解説の今後の方向性

LLMs for XAI: Future Directions for Explaining Explanations ( http://arxiv.org/abs/2405.06064v1 )

ライセンス: Link先を確認
Alexandra Zytek, Sara Pidò, Kalyan Veeramachaneni, (参考訳) 説明可能な人工知能(XAI)の需要に対応するため,MLの説明を自然で可読な物語に変換するために,LLM(Large Language Models)の使用について検討する。 LLMを用いてMLモデルを直接説明するのではなく、既存のXAIアルゴリズムを用いて計算された説明の精細化に重点を置いている。 評価指標の定義,設計の促進,LCMモデルの比較,さらなるトレーニング手法の探索,外部データの統合など,いくつかの研究方向について概説する。 最初の実験とユーザスタディは、LLMがXAIの解釈可能性とユーザビリティを高めるための有望な方法を提供することを示唆している。

In response to the demand for Explainable Artificial Intelligence (XAI), we investigate the use of Large Language Models (LLMs) to transform ML explanations into natural, human-readable narratives. Rather than directly explaining ML models using LLMs, we focus on refining explanations computed using existing XAI algorithms. We outline several research directions, including defining evaluation metrics, prompt design, comparing LLM models, exploring further training methods, and integrating external data. Initial experiments and user study suggest that LLMs offer a promising way to enhance the interpretability and usability of XAI.
翻訳日:2024-05-13 17:26:24 公開日:2024-05-09
# Poissonエラーの運転は、臨床タスクの分類エラーを相殺できる

Driving down Poisson error can offset classification error in clinical tasks ( http://arxiv.org/abs/2405.06065v1 )

ライセンス: Link先を確認
Charles B. Delahunt, Courosh Mehanian, Matthew P. Horning, (参考訳) 医療機械学習アルゴリズムは、一般的に、精度に基づいて評価されるが、臨床医が定義した真実よりも、訓練された臨床医がMLモデルよりも優れた分類器であるため、合理的な選択である。 しかしながら、この測定基準は臨床の課題を完全に反映していない:ヒトが完全な正確性を持っても、稀な事象のポアソン統計から重大なエラーを受けることがあるという事実を無視する。 例えば、薄い血液膜上でマラリアを定量化するために、臨床医は2000個の赤血球(0.0004 uL)しか検査せず、ポアソンの変動によって現生の寄生虫の数が大きく変動するため、完全なヒトの数は真の平均負荷と大きく異なる。 対照的に、MLシステムはオブジェクトレベルでは正確ではないかもしれないが、より多くの血液(例えば0.1uL、250x)を調べるオプションもある。 したがって, 特定の試料中の寄生虫数に対する精度は低いが, 試料サイズが大きいため, 推定値のポアソン変量率も低い。 重要なことは、MLシステムが概念実証段階から出て、臨床環境でのデプロイメントを目標にする場合、そのパフォーマンスは現在のケア基準と一致しなければなりません。 この目的のために、ポアソン誤差を低減するためにサンプルサイズを増大させることにより、その低い精度を相殺するオプションがあり、したがって、より小さいサンプルサイズで制限された完全正確なヒトと同一の臨床性能を得ることができる。 本稿では,これらの2種類のエラー間のトレードオフの数学を解析し,MLシステムを開発するチームが相対的な強度(より大きなサンプルサイズ)を活用して相対的な弱点(分類精度)を相殺できるようにする。 本手法は,血液膜上のマラリアの診断と定量化の2つの具体例で説明する。

Medical machine learning algorithms are typically evaluated based on accuracy vs. a clinician-defined ground truth, a reasonable choice because trained clinicians are usually better classifiers than ML models. However, this metric does not fully reflect the clinical task: it neglects the fact that humans, even with perfect accuracy, are subject to sometimes significant error from the Poisson statistics of rare events, because clinical protocols often specify that a relatively small sample be examined. For example, to quantitate malaria on a thin blood film a clinician examines only 2000 red blood cells (0.0004 uL), which can yield large variation in actual number of parasites present due to Poisson variability, so that a perfect human's count can differ substantially from the true average load. In contrast, ML systems may be less accurate on an object level, but they also may have the option to examine more blood (e.g. 0.1 uL, or 250x). So while their accuracy as to parasite count in a particular sample is lower, the Poisson variability of their estimate is also lower due to larger sample size. Crucially, when an ML system moves out of the proof-of-concept stage and targets deployment in a clinical setting, its performance must match current standard of care. To this end, it may have the option to offset its lower accuracy by increasing sample size to reduce Poisson error, and thus attain the same net clinical performance as a perfectly accurate human limited by smaller sample size. In this paper, we analyze the mathematics of the trade-off between these two types of error, to enable teams developing ML systems to leverage a relative strength (larger sample sizes) to offset a relative weakness (classification accuracy). We illustrate the methods with two concrete examples: diagnosis and quantitation of malaria on blood films.
翻訳日:2024-05-13 17:26:24 公開日:2024-05-09
# HMT:長期言語処理のための階層型メモリ変換器

HMT: Hierarchical Memory Transformer for Long Context Language Processing ( http://arxiv.org/abs/2405.06067v1 )

ライセンス: Link先を確認
Zifan He, Zongyue Qin, Neha Prakriya, Yizhou Sun, Jason Cong, (参考訳) トランスフォーマーベースの大規模言語モデル(LLM)は、言語処理アプリケーションで広く使われている。 しかしながら、ほとんどの場合、入力中のすべてのトークンにモデルが参加できるように、コンテキストウィンドウを制限します。 繰り返しモデルにおける以前の作業は、過去のトークンを記憶して、無制限のコンテキストを可能にし、有効性を維持することができる。 しかし、それらは「フラット」なメモリアーキテクチャを持ち、情報の選択とフィルタリングに制限がある。 人間は学習と自己調整に長けており、脳の記憶階層を模倣することはモデル記憶にとって有益であると推測する。 本稿では,人間の記憶動作を模倣することで,モデルの長文処理能力を向上する新しいフレームワークである階層記憶変換器(HMT)を提案する。 メモリ拡張セグメントレベルの再実行を活用して、初期入力トークンセグメントからトークンを保存し、シーケンスに沿ってメモリ埋め込みを渡し、履歴から関連する情報をリコールすることで、メモリ階層を編成する。 一般言語モデリング (Wikitext-103, PG-19) と質問応答タスク (PubMedQA) の評価により, HMT は文脈制約および長文モデルの長文処理能力を着実に改善することを示した。 パラメータの0.5% - 2%を追加することで、HMTは簡単にプラグインでき、将来のLLMを拡張して、長いコンテキストを効果的に扱うことができる。 私たちのコードはGithubでオープンソース化されています。

Transformer-based large language models (LLM) have been widely used in language processing applications. However, most of them restrict the context window that permits the model to attend to every token in the inputs. Previous works in recurrent models can memorize past tokens to enable unlimited context and maintain effectiveness. However, they have "flat" memory architectures, which have limitations in selecting and filtering information. Since humans are good at learning and self-adjustment, we speculate that imitating brain memory hierarchy is beneficial for model memorization. We propose the Hierarchical Memory Transformer (HMT), a novel framework that enables and improves models' long-context processing ability by imitating human memorization behavior. Leveraging memory-augmented segment-level recurrence, we organize the memory hierarchy by preserving tokens from early input token segments, passing memory embeddings along the sequence, and recalling relevant information from history. Evaluating general language modeling (Wikitext-103, PG-19) and question-answering tasks (PubMedQA), we show that HMT steadily improves the long-context processing ability of context-constrained and long-context models. With an additional 0.5% - 2% of parameters, HMT can easily plug in and augment future LLMs to handle long context effectively. Our code is open-sourced on Github: https://github.com/OswaldHe/HMT-pytorch.
翻訳日:2024-05-13 17:26:24 公開日:2024-05-09
# 深層学習に基づく不確かさモードのアセットに対する残効寿命予測

Deep Learning-Based Residual Useful Lifetime Prediction for Assets with Uncertain Failure Modes ( http://arxiv.org/abs/2405.06068v1 )

ライセンス: Link先を確認
Yuqi Su, Xiaolei Fang, (参考訳) 産業統計学は、複雑な工学系の残余の有用寿命を予測し、継続的に更新するために劣化信号を活用することに焦点を当てている。 しかし、複数の障害モードを持つシステムの既存の予後モデルは、複数のコンポーネントからの劣化信号の重複、ラベルのない履歴データの存在、異なる障害モードにわたる信号の類似性など、現実の応用においていくつかの課題に直面している。 これらの問題に対処するため,本研究では,混合(log-location-scale distribution)と深層学習を組み合わせた2つの予後モデルを提案する。 この統合は重なり合う劣化信号のモデリングを容易にし、明示的な故障モードの識別の必要性を排除し、深層学習を利用して劣化信号と残余の有用寿命の間の複雑な非線形関係をキャプチャする。 従来の手法と比較して,提案手法の優れた性能を検証した。

Industrial prognostics focuses on utilizing degradation signals to forecast and continually update the residual useful life of complex engineering systems. However, existing prognostic models for systems with multiple failure modes face several challenges in real-world applications, including overlapping degradation signals from multiple components, the presence of unlabeled historical data, and the similarity of signals across different failure modes. To tackle these issues, this research introduces two prognostic models that integrate the mixture (log)-location-scale distribution with deep learning. This integration facilitates the modeling of overlapping degradation signals, eliminates the need for explicit failure mode identification, and utilizes deep learning to capture complex nonlinear relationships between degradation signals and residual useful lifetimes. Numerical studies validate the superior performance of these proposed models compared to existing methods.
翻訳日:2024-05-13 17:26:24 公開日:2024-05-09
# ハードワークは必ずしも役に立たない:ニューラル・アーキテクチャー・サーチの攻撃を狙う

Hard Work Does Not Always Pay Off: Poisoning Attacks on Neural Architecture Search ( http://arxiv.org/abs/2405.06073v1 )

ライセンス: Link先を確認
Zachary Coalson, Huazheng Wang, Qingyun Wu, Sanghyun Hong, (参考訳) 本稿では、ニューラルネットワークアーキテクチャ(ニューラルアーキテクチャサーチとして知られる)のデータの分散シフトに対する「データ中心」アプローチのロバスト性について検討する。 このロバスト性を評価するために,アーキテクチャ探索に使用されるトレーニングデータにデータ中毒攻撃を注入することにより,被害者のアルゴリズムが最適な精度でアーキテクチャを見つけるのを防ぐことができる。 まず, 被害を誘発し, 準最適建築を創出する有害なサンプルを作成するための攻撃目標を定義した。 この目的のために,既存の検索アルゴリズムを武器にして,我々の目的となる敵アーキテクチャを生成する。 また,攻撃者が有毒な試料を製作する際の計算コストを大幅に削減する手法を提案する。 代表的なアーキテクチャ探索アルゴリズムに対する中毒攻撃の広範囲な評価において,その驚くべき堅牢性を示す。 この攻撃はクリーンラベル中毒が原因で,ラベルノイズに対する堅牢性も評価した。 ランダムなラベルフリップは、クリーンラベル攻撃よりも、準最適アーキテクチャを生成するのに効果的であることがわかった。 我々の結果は、この新興アプローチが使用するデータには注意が必要であることを示唆しており、堅牢なアルゴリズムを開発するには今後の作業が必要であることを示唆している。

In this paper, we study the robustness of "data-centric" approaches to finding neural network architectures (known as neural architecture search) to data distribution shifts. To audit this robustness, we present a data poisoning attack, when injected to the training data used for architecture search that can prevent the victim algorithm from finding an architecture with optimal accuracy. We first define the attack objective for crafting poisoning samples that can induce the victim to generate sub-optimal architectures. To this end, we weaponize existing search algorithms to generate adversarial architectures that serve as our objectives. We also present techniques that the attacker can use to significantly reduce the computational costs of crafting poisoning samples. In an extensive evaluation of our poisoning attack on a representative architecture search algorithm, we show its surprising robustness. Because our attack employs clean-label poisoning, we also evaluate its robustness against label noise. We find that random label-flipping is more effective in generating sub-optimal architectures than our clean-label attack. Our results suggests that care must be taken for the data this emerging approach uses, and future work is needed to develop robust algorithms.
翻訳日:2024-05-13 17:26:24 公開日:2024-05-09
# コーディングプロトコル:次世代インターネットルータの形式検証

Protocols to Code: Formal Verification of a Next-Generation Internet Router ( http://arxiv.org/abs/2405.06074v1 )

ライセンス: Link先を確認
João C. Pereira, Tobias Klenze, Sofia Giampietro, Markus Limbeck, Dionysios Spiliopoulos, Felix A. Wolf, Marco Eilers, Christoph Sprenger, David Basin, Peter Müller, Adrian Perrig, (参考訳) SCIONのインターネットアーキテクチャの一部である,初の公式なインターネットルータを提示する。 SCIONルータは、敵の環境でセキュアなパケット転送のための暗号化プロトコルを実行する。 プロトコルのネットワーク全体のセキュリティ特性と,その実装の低レベル特性の両方を検証する。 より正確には、Isabelle/HOLの改良による一連のプロトコルモデルを開発し、我々は、ルータのGoコードがメモリ安全性、クラッシュの自由、データ競合からの自由を満足し、プロトコルモデルに準拠していることを証明するために、自動プログラム検証器を使用する。 どちらの検証も、しっかりと結びついている。 我々の研究は、ハイレベルなプロトコルモデルから独立チームが開発したパフォーマンス最適化プロダクションコードまで、重要なネットワークコンポーネントをコヒーレントに検証する可能性を示している。 その過程で、コード開発者が確認したプロトコルとその実装の重大なバグを発見し、プロトコルのセキュリティ特性を強化した。 本稿では,本研究のアプローチを説明し,主な成果を要約し,検証可能なシステムの設計と実装,継続的な変更の処理,採用する検証技術とツールに関する教訓を抽出する。

We present the first formally-verified Internet router, which is part of the SCION Internet architecture. SCION routers run a cryptographic protocol for secure packet forwarding in an adversarial environment. We verify both the protocol's network-wide security properties and low-level properties of its implementation. More precisely, we develop a series of protocol models by refinement in Isabelle/HOL and we use an automated program verifier to prove that the router's Go code satisfies memory safety, crash freedom, freedom from data races, and adheres to the protocol model. Both verification efforts are soundly linked together. Our work demonstrates the feasibility of coherently verifying a critical network component from high-level protocol models down to performance-optimized production code, developed by an independent team. In the process, we uncovered critical bugs in both the protocol and its implementation, which were confirmed by the code developers, and we strengthened the protocol's security properties. This paper explains our approach, summarizes the main results, and distills lessons for the design and implementation of verifiable systems, for the handling of continuous changes, and for the verification techniques and tools employed.
翻訳日:2024-05-13 17:16:40 公開日:2024-05-09
# 自閉症のある求職者のための協調的デザイン--未来研究のための概念的枠組み

Collaborative Design for Job-Seekers with Autism: A Conceptual Framework for Future Research ( http://arxiv.org/abs/2405.06078v1 )

ライセンス: Link先を確認
Sungsoo Ray Hong, Marcos Zampieri, Brittany N. Hand, Vivian Motti, Dongjun Chung, Ozlem Uzuner, (参考訳) 雇用の成功は、求職者が他人とコミュニケーションし協力する能力に強く関係している。 求職過程においてネットワークを活用することは神経型に直感的であるが、自閉症の人には難しい。 最近の経験的発見は、自閉症患者と新しいデザインによる社会的環境との連携が、いかに雇用機会を向上させるかを示し始めている。 この研究は、将来の研究者や実践者が、自閉症のある求職者の協調設計を改善するために適用できる、実行可能なガイドラインと概念的フレームワークを提供することを目的としている。 本研究は,(1)コミュニケーション支援,(2)就業段階支援,(3)グループワーク支援の3つの主要な研究課題を定義する。 それぞれの課題について、現在の最先端のプラクティスと将来のソリューションについてレビューします。 次に、人間とAIのコラボレーション、医療サービス、グループワーク、アクセシビリティーコンピューティング、自然言語処理の分野間レンズのブレークスルーを提供する将来の設計を提案する。

The success of employment is highly related to a job seeker's capability of communicating and collaborating with others. While leveraging one's network during the job-seeking process is intuitive to the neurotypical, this can be challenging for people with autism. Recent empirical findings have started to show how facilitating collaboration between people with autism and their social surroundings through new design can improve their chances of employment. This work aims to provide actionable guidelines and conceptual frameworks that future researchers and practitioners can apply to improve collaborative design for job-seekers with autism. Built upon the literature on past technological interventions built for supporting job-seekers with autism, we define three major research challenges of (1) communication support, (2) employment stage-wise support, and (3) group work support. For each challenge, we review the current state-of-the-art practices and possible future solutions. We then suggest future designs that can provide breakthroughs from the interdisciplinary lens of human-AI collaboration, health services, group work, accessibility computing, and natural language processing.
翻訳日:2024-05-13 17:16:40 公開日:2024-05-09
# セグメントレベル交通渋滞関数のスケーラブル学習

Scalable Learning of Segment-Level Traffic Congestion Functions ( http://arxiv.org/abs/2405.06080v1 )

ライセンス: Link先を確認
Shushman Choudhury, Abdul Rahman Kreidieh, Iveel Tsogsuren, Neha Arora, Carolina Osorio, Alexandre Bayen, (参考訳) 本研究では,グローバルスケールでの交通渋滞関数(マクロな交通変数の観測とセグメントレベルの粒度との数値関係)を同定するためのデータ駆動型フレームワークを提案する。 道路毎に異なるパラメータの集合を推定する手法とは対照的に,大都市圏のすべての道路を横断する単一のブラックボックス関数を学習する。 まず、すべてのセグメントからのトラフィックデータを1つのデータセットにまとめ、静的属性と動的時間依存の機能を組み合わせる。 次に、このデータセット上でフィードフォワードニューラルネットワークをトレーニングします。 我々は,観測されたセグメント上での混雑関数の同定と未観測セグメントへの一般化方法を評価し,世界中の複数の都市を対象とした大規模データセット上でセグメント属性を予測する。 観測されたセグメントの識別誤差については,道路におけるセグメント固有のモデルベース関数と比較して,単一のデータ駆動の渋滞関数が好ましいが,動脈道では改善の余地がある。 一般化のために,同市の未観測区間と都市間のゼロショット移動学習の両方において,都市と道路タイプ間で高い性能を示す。 最後に, セグメント属性の予測において, 静的特性を用いて各セグメントの臨界密度を近似できることを示す。

We propose and study a data-driven framework for identifying traffic congestion functions (numerical relationships between observations of macroscopic traffic variables) at global scale and segment-level granularity. In contrast to methods that estimate a separate set of parameters for each roadway, ours learns a single black-box function over all roadways in a metropolitan area. First, we pool traffic data from all segments into one dataset, combining static attributes with dynamic time-dependent features. Second, we train a feed-forward neural network on this dataset, which we can then use on any segment in the area. We evaluate how well our framework identifies congestion functions on observed segments and how it generalizes to unobserved segments and predicts segment attributes on a large dataset covering multiple cities worldwide. For identification error on observed segments, our single data-driven congestion function compares favorably to segment-specific model-based functions on highway roads, but has room to improve on arterial roads. For generalization, our approach shows strong performance across cities and road types: both on unobserved segments in the same city and on zero-shot transfer learning between cities. Finally, for predicting segment attributes, we find that our approach can approximate critical densities for individual segments using their static properties.
翻訳日:2024-05-13 17:16:40 公開日:2024-05-09
# 多電子量子ドット鎖における絡み合いスペクトルと位相図の探索

Exploring Entanglement Spectrum and Phase Diagram in multi-electron Quantum Dot Chains ( http://arxiv.org/abs/2405.06083v1 )

ライセンス: Link先を確認
Guanjie He, Xin Wang, (参考訳) 拡張ハバードモデルによりモデル化された半導体量子ドット系の絡み合い特性について検討し, 4部位量子ドットスピンチェーンにおけるポテンシャルエネルギー変動と電子相互作用の影響に着目した。 本研究は, 電子数N=4, N=6の配置における局所的および対的絡み合いを, 異なるポテンシャルエネルギー条件下で検討した。 特定の点におけるポテンシャルエネルギーを調整し、様々な相互作用状態における絡み合いを調べることで、量子ドットの基底状態における重要な変化を同定する。 その結果, 局所的なポテンシャル変化は電子配置の顕著な再分配を引き起こし, 絡み合い特性に大きな影響を及ぼすことが明らかとなった。 これらの変化は相互作用強度とポテンシャルエネルギー調整への絡み合い依存性を示す位相図に描かれ、複雑な絡み合いのダイナミクスとドット間相互作用によって引き起こされる相転移が強調される。

We investigate the entanglement properties in semiconductor quantum dot systems modeled by extended Hubbard model, focusing on the impact of potential energy variations and electron interactions within a four-site quantum dot spin chain. Our study explores local and pairwise entanglement across configurations with electron counts N=4 and N=6, under different potential energy settings. By adjusting the potential energy in specific dots and examining the entanglement across various interaction regimes, we identify significant variations in the ground states of quantum dots. Our results reveal that local potential modifications lead to notable redistributions of electron configurations, significantly affecting the entanglement properties. These changes are depicted in phase diagrams that show entanglement dependencies on interaction strengths and potential energy adjustments, highlighting complex entanglement dynamics and phase transitions triggered by inter-dot interactions.
翻訳日:2024-05-13 17:16:40 公開日:2024-05-09
# 電子ミラー双対性と熱性

Electron-mirror duality and thermality ( http://arxiv.org/abs/2405.06086v1 )

ライセンス: Link先を確認
Evgenii Ievlev, Michael R. R. Good, Paul C. W. Davies, (参考訳) 移動点電荷からの古典的電磁放射は基礎的だが、古典的な加速温度の原因となる熱力学は理解されていない。 加速電子と移動鏡の対応の文脈における古典的電磁放射の熱的性質について検討し、漸近的に無限である3つの軌道(Davies-Fulling)、漸近的にゼロである(Walker-Davies)、永久に均一な加速に焦点を当てた。 後者の2つは熱ではなく、前者は電子の速度に依存する温度で熱光子を放出する。 鏡からの熱放射はゼロジェット状態を示す。

Classical electromagnetic radiation from moving point charges is foundational, but the thermal dynamics responsible for classical acceleration temperature are poorly understood. We investigate the thermal properties of classical electromagnetic radiation in the context of the correspondence between accelerated electrons and moving mirrors, focusing on three trajectories with asymptotically infinite (Davies-Fulling), asymptotically zero (Walker-Davies), and eternally uniform acceleration. The latter two are argued not to be thermal, while the former is found to emit thermal photons with a temperature that depends on the electron's speed. Thermal radiation from the mirror reveals a zero-jerk condition.
翻訳日:2024-05-13 17:16:40 公開日:2024-05-09
# 人間とAIの組み合わせはいつ役に立つのか?

When Are Combinations of Humans and AI Useful? ( http://arxiv.org/abs/2405.06087v1 )

ライセンス: Link先を確認
Michelle Vaccaro, Abdullah Almaatouq, Thomas Malone, (参考訳) 人間を増強するAIの利用の増加にインスパイアされた研究者たちは、さまざまなタスク、システム、人口を含む人間とAIシステムを研究してきた。 このような大規模な作業にもかかわらず、人間とAIの組み合わせが単独よりも優れているという、幅広い概念的な理解が欠如しています。 ここでは,300以上の効果サイズを報告した最近の100以上の実験結果のメタ分析を行うことにより,この問題に対処した。 まず、平均的な人間とAIの組み合わせは、人間とAIのベストな組み合わせよりもはるかに悪い結果が得られた。 第2に、意思決定に関わるタスクのパフォーマンスの損失と、コンテンツ作成に関わるタスクの大幅な増加を見つけました。 最後に、人間がAIを単独で上回ると、組み合わせでパフォーマンスが向上することがわかったが、AIが人間を単独で上回ると、損失が見つかりました。 これらの知見は、人間とAIのコラボレーションの効果の不均一性と、人間とAIシステムを改善するための有望な道を指し示している。

Inspired by the increasing use of AI to augment humans, researchers have studied human-AI systems involving different tasks, systems, and populations. Despite such a large body of work, we lack a broad conceptual understanding of when combinations of humans and AI are better than either alone. Here, we addressed this question by conducting a meta-analysis of over 100 recent experimental studies reporting over 300 effect sizes. First, we found that, on average, human-AI combinations performed significantly worse than the best of humans or AI alone. Second, we found performance losses in tasks that involved making decisions and significantly greater gains in tasks that involved creating content. Finally, when humans outperformed AI alone, we found performance gains in the combination, but when the AI outperformed humans alone we found losses. These findings highlight the heterogeneity of the effects of human-AI collaboration and point to promising avenues for improving human-AI systems.
翻訳日:2024-05-13 17:16:40 公開日:2024-05-09
# 人間の3次元動作予測への専門家のアプローチの混合

A Mixture of Experts Approach to 3D Human Motion Prediction ( http://arxiv.org/abs/2405.06088v1 )

ライセンス: Link先を確認
Edmund Shieh, Joshua Lee Franco, Kang Min Bae, Tej Lalvani, (参考訳) 本研究は,Au-Tonomous Vehicle Motion Detectionなどのアプリケーションにとって重要な領域である,人間の動作予測の課題に対処する。 これまでの研究は、このようなアプリケーションにリアルタイムのパフォーマンスを提供するために、低推論時間の必要性を強調してきた。 我々の主な目的は既存のモデル ar-chitecture を批判的に評価し、その利点と改善の機会を特定することである。 これらのモデルは、RNNベースのモデルの限界を超越し、時空間の反感を利用して、短期と長期の両方の地平線上で可塑性運動列を生成できることを実証した。 また,空間時間(ST)アテンション層内のMixture of Experts (MoE)ブロックを組み込んで,リアルタイム推論速度のアドレッシングに挑戦する新しいアーキテクチャを提案する。 これは完全に微分可能なスパーストランスであり、推論コストの低いモデルキャパシティを有効にする有望な能力を示している。 私たちはhttps://github.com/edshieh/motionpredictionでコードを公開しています。

This project addresses the challenge of human motion prediction, a critical area for applications such as au- tonomous vehicle movement detection. Previous works have emphasized the need for low inference times to provide real time performance for applications like these. Our primary objective is to critically evaluate existing model ar- chitectures, identifying their advantages and opportunities for improvement by replicating the state-of-the-art (SOTA) Spatio-Temporal Transformer model as best as possible given computational con- straints. These models have surpassed the limitations of RNN-based models and have demonstrated the ability to generate plausible motion sequences over both short and long term horizons through the use of spatio-temporal rep- resentations. We also propose a novel architecture to ad- dress challenges of real time inference speed by incorpo- rating a Mixture of Experts (MoE) block within the Spatial- Temporal (ST) attention layer. The particular variation that is used is Soft MoE, a fully-differentiable sparse Transformer that has shown promising ability to enable larger model capacity at lower inference cost. We make out code publicly available at https://github.com/edshieh/motionprediction
翻訳日:2024-05-13 17:16:40 公開日:2024-05-09
# 高次元観測から低次元潜在ダイナミクスを学習する:非漸近と下界

Learning Low-dimensional Latent Dynamics from High-dimensional Observations: Non-asymptotics and Lower Bounds ( http://arxiv.org/abs/2405.06089v1 )

ライセンス: Link先を確認
Yuyang Zhang, Shahriar Talebi, Na Li, (参考訳) 本稿では,低次元潜在変数を持つ線形時間不変モデル(LTI)の学習に焦点をあてる。 我々は,観測者の列空間のような高次元の特徴を復元し,データを低次元に埋め込み,低次元モデルパラメータを学習するアルゴリズムを提案する。 我々のアルゴリズムは、次数$\tilde{\mathcal{O}}(n/\epsilon^2)$のサンプル複雑性を保証する。 さらに、この複雑性境界が対数係数と次元非依存定数に最適であることを示す基本的な下界を確立する。 この避けられない$n$の線形係数は、高次元ノイズの存在下で観測者の列空間の学習誤差に起因する。 結果を拡張して,複数のLTIシステムのデータセットからオブザーバ列空間を総合的に学習する,様々な実世界のアプリケーションから着想を得たメタラーニング問題を考える。 その後、サンプルの複雑性を低下させるメタデータセットからLTIシステムの学習を容易にするエンド・ツー・エンドのアルゴリズムが提案される。

In this paper, we focus on learning a linear time-invariant (LTI) model with low-dimensional latent variables but high-dimensional observations. We provide an algorithm that recovers the high-dimensional features, i.e. column space of the observer, embeds the data into low dimensions and learns the low-dimensional model parameters. Our algorithm enjoys a sample complexity guarantee of order $\tilde{\mathcal{O}}(n/\epsilon^2)$, where $n$ is the observation dimension. We further establish a fundamental lower bound indicating this complexity bound is optimal up to logarithmic factors and dimension-independent constants. We show that this inevitable linear factor of $n$ is due to the learning error of the observer's column space in the presence of high-dimensional noise. Extending our results, we consider a meta-learning problem inspired by various real-world applications, where the observer column space can be collectively learned from datasets of multiple LTI systems. An end-to-end algorithm is then proposed, facilitating learning LTI systems from a meta-dataset which breaks the sample complexity lower bound in certain scenarios.
翻訳日:2024-05-13 17:16:40 公開日:2024-05-09
# LLM標識データの選択的微調整は人間のアノテーションの信頼性を低下させる:スケジュール・オブ・イベント・テーブル検出を用いたケーススタディ

Selective Fine-tuning on LLM-labeled Data May Reduce Reliance on Human Annotation: A Case Study Using Schedule-of-Event Table Detection ( http://arxiv.org/abs/2405.06093v1 )

ライセンス: Link先を確認
Bhawesh Kumar, Jonathan Amar, Eric Yang, Nan Li, Yugang Jia, (参考訳) 大規模言語モデル(LLM)は、医療アプリケーションにおける幅広いタスクでその効果を実証している。 しかし、多くの場合、LCMはタスク固有の専門家アノテートされたデータに基づいて微調整され、最適なパフォーマンスを達成する必要がある。 本研究では,ジェミニプロ1.0から得られたノイズラベルを用いて,パラメータ効率のよいPALM-2を微調整し,臨床治験におけるケアプランを指定する。 本稿では,この表分類タスクに対して高信頼ラベルを選択するためのフィルタリング機構を導入し,自動生成ラベルのノイズを低減する。 これらのラベルを微調整した PaLM-2 は gemini-pro 1.0 や他の LLM を超える性能が得られることを示す。 さらに、その性能は、熟練していないアノテータから得られたラベルに微調整されたPaLM-2に近い。 この結果から,ジェミニプロのような強力なモデルによるLCM生成ラベルの活用は,特に専門家のアノテーションが不足し,高価で,時間を要する領域において,専門的なタスクの微調整を通じてLCM性能を向上させる上で有効な戦略となる可能性が示唆された。

Large Language Models (LLMs) have demonstrated their efficacy across a broad spectrum of tasks in healthcare applications. However, often LLMs need to be fine-tuned on task-specific expert annotated data to achieve optimal performance, which can be expensive and time consuming. In this study, we fine-tune PaLM-2 with parameter efficient fine-tuning (PEFT) using noisy labels obtained from gemini-pro 1.0 for the detection of Schedule-of-Event (SoE) tables, which specify care plan in clinical trial protocols. We introduce a filtering mechanism to select high-confidence labels for this table classification task, thereby reducing the noise in the auto-generated labels. We show that fine-tuned PaLM-2 with those labels achieves performance that exceeds the gemini-pro 1.0 and other LLMs. Furthermore, its performance is close to a PaLM-2 fine-tuned on labels obtained from non-expert annotators. Our results show that leveraging LLM-generated labels through powerful models like gemini-pro can potentially serve as a viable strategy for improving LLM performance through fine-tuning in specialized tasks, particularly in domains where expert annotations are scarce, expensive, or time-consuming to obtain.
翻訳日:2024-05-13 17:16:40 公開日:2024-05-09
# 信頼できない社会? ブロックチェーンのビジョンを政治的に見る

A trustless society? A political look at the blockchain vision ( http://arxiv.org/abs/2405.06097v1 )

ライセンス: Link先を確認
Rainer Rehak, (参考訳) 現在、多くのビジネスと研究の取り組みが、分散台帳技術ブロックチェーン(decentralized ledger technology blockchain)と呼ばれるものを扱っている。 使用するためには、社会的相互作用の仲介者を過剰にし、さらにすべてのインタラクションを確実に追跡するという誘惑的な約束がある。 銀行や公証人などの仲介者は信頼されなければならないが、2008年の金融危機が痛烈に示しているように、大きな依存を生んでいる。 特に銀行や日記は、ブロックチェーンの使用によって発行可能になったと言われている。 しかし、ブロックチェーンの現実世界の応用では、中央アクターの力が解消されることはない。 技術的に興味深いのは、ブロックチェーンが現実世界の問題を効率的に解決するわけではなく、従来の政治プロセスや権力の民主的規制に代わるものではありません。 ブロックチェーンの調査は中止されるべきである。

A lot of business and research effort currently deals with the so called decentralised ledger technology blockchain. Putting it to use carries the tempting promise to make the intermediaries of social interactions superfluous and furthermore keep secure track of all interactions. Currently intermediaries such as banks and notaries are necessary and must be trusted, which creates great dependencies, as the financial crisis of 2008 painfully demonstrated. Especially banks and notaries are said to become dispensable as a result of using the blockchain. But in real-world applications of the blockchain, the power of central actors does not dissolve, it only shifts to new, democratically illegitimate, uncontrolled or even uncontrollable power centers. As interesting as the blockchain technically is, it doesn't efficiently solve any real-world problem and is no substitute for traditional political processes or democratic regulation of power. Research efforts investigating the blockchain should be halted.
翻訳日:2024-05-13 17:16:40 公開日:2024-05-09
# パープレキシティは長文理解における大規模言語モデルの能力を反映できるか?

Can Perplexity Reflect Large Language Model's Ability in Long Text Understanding? ( http://arxiv.org/abs/2405.06105v1 )

ライセンス: Link先を確認
Yutong Hu, Quzhe Huang, Mingxu Tao, Chen Zhang, Yansong Feng, (参考訳) 近年の研究では、Large Language Models (LLM) が極めて長いテキストを処理する可能性があることが示されている。 多くの研究は、言語モデリングタスクにおいてLLMの長文処理能力のみを評価し、パープレキシティ(PPL)を評価指標として評価している。 しかし,本研究では,PPLとLLMの長文理解能力には相関がみられなかった。 さらに、PPLは、長距離依存をキャッチする代わりに、ローカル情報をモデル化するモデルの能力を反映しているだけである。 したがって、モデルが長いテキストを処理できることを証明するのにPPLを使うだけでは不適切である。 PPLの局所的な焦点特徴は、位置法ALiBiの大きな外挿能力など、既存の現象についても説明できる。 長いテキストでモデルの能力を評価する際には、PPLの制限にもっと注意を払って、過度に依存しないようにします。

Recent studies have shown that Large Language Models (LLMs) have the potential to process extremely long text. Many works only evaluate LLMs' long-text processing ability on the language modeling task, with perplexity (PPL) as the evaluation metric. However, in our study, we find that there is no correlation between PPL and LLMs' long-text understanding ability. Besides, PPL may only reflect the model's ability to model local information instead of catching long-range dependency. Therefore, only using PPL to prove the model could process long text is inappropriate. The local focus feature of PPL could also explain some existing phenomena, such as the great extrapolation ability of the position method ALiBi. When evaluating a model's ability in long text, we might pay more attention to PPL's limitation and avoid overly relying on it.
翻訳日:2024-05-13 17:16:40 公開日:2024-05-09
# ブートストラップの変換:Planar N = 4 Super Yang-Mills理論における変圧器を用いた散乱振幅の計算

Transforming the Bootstrap: Using Transformers to Compute Scattering Amplitudes in Planar N = 4 Super Yang-Mills Theory ( http://arxiv.org/abs/2405.06107v1 )

ライセンス: Link先を確認
Tianji Cai, Garrett W. Merz, François Charton, Niklas Nolte, Matthias Wilhelm, Kyle Cranmer, Lance J. Dixon, (参考訳) 我々は,理論高エネルギー物理学における最先端計算を改善するためのディープラーニング手法の活用を追求する。 平面 N = 4 Super Yang-Mills 理論は、大型ハドロン衝突型加速器におけるヒッグス粒子生成を記述する理論の従兄弟であり、その散乱振幅は整数係数を含む大きな数学的表現である。 本稿では,これらの係数を予測するためにトランスフォーマーを適用する。 この問題は、標準的なクロスエントロピートレーニングの目的に対応する言語のような表現で定式化することができる。 2つの関連する実験を設計し、そのモデルが両タスクにおいて高い精度(>98%)を達成することを示す。 我々の研究は、トランスフォーマーが正確な解を必要とする理論物理学の問題にうまく適用できることを示している。

We pursue the use of deep learning methods to improve state-of-the-art computations in theoretical high-energy physics. Planar N = 4 Super Yang-Mills theory is a close cousin to the theory that describes Higgs boson production at the Large Hadron Collider; its scattering amplitudes are large mathematical expressions containing integer coefficients. In this paper, we apply Transformers to predict these coefficients. The problem can be formulated in a language-like representation amenable to standard cross-entropy training objectives. We design two related experiments and show that the model achieves high accuracy (> 98%) on both tasks. Our work shows that Transformers can be applied successfully to problems in theoretical physics that require exact solutions.
翻訳日:2024-05-13 17:16:40 公開日:2024-05-09
# 大規模最適潮流に対する最適化プロキシの拡張性検証

Scalable Exact Verification of Optimization Proxies for Large-Scale Optimal Power Flow ( http://arxiv.org/abs/2405.06109v1 )

ライセンス: Link先を確認
Rahul Nellikkath, Mathieu Tanneau, Pascal Van Hentenryck, Spyros Chatzivasileiadis, (参考訳) 最適電力フロー (OPF) は電力系統オペレーターにとって貴重なツールであるが、大規模システムでは解決が難しい。 機械学習(ML)アルゴリズム、特にニューラルネットワークベースのNN最適化プロキシは、従来の方法よりも高速にOPFソリューションを推定することにより、OPF問題を解決するための有望な新しいツールとして登場した。 しかし、これらのMLアルゴリズムはブラックボックスとして機能し、OPFが持つ可能性のある入力範囲全体で最悪の性能を評価することは困難である。 従来の研究では、入力領域全体にわたってOPFソリューションを推定するために訓練されたNNが起こした最悪のケース違反を定量化する混合整数プログラミングベースの手法が提案されている。 しかし、このアプローチは大規模な電力システムやより複雑なNNモデルには適していない。 本稿では,大規模な電力系統を合理的な時間制限で近似するために使用されるNNプロキシの最悪のケース違反を計算するために,スケーラブルなアルゴリズムを提案する。 これにより、大規模な産業規模の電力グリッドにデプロイされるMLモデルの信頼性を構築するのに役立ちます。

Optimal Power Flow (OPF) is a valuable tool for power system operators, but it is a difficult problem to solve for large systems. Machine Learning (ML) algorithms, especially Neural Networks-based (NN) optimization proxies, have emerged as a promising new tool for solving OPF, by estimating the OPF solution much faster than traditional methods. However, these ML algorithms act as black boxes, and it is hard to assess their worst-case performance across the entire range of possible inputs than an OPF can have. Previous work has proposed a mixed-integer programming-based methodology to quantify the worst-case violations caused by a NN trained to estimate the OPF solution, throughout the entire input domain. This approach, however, does not scale well to large power systems and more complex NN models. This paper addresses these issues by proposing a scalable algorithm to compute worst-case violations of NN proxies used for approximating large power systems within a reasonable time limit. This will help build trust in ML models to be deployed in large industry-scale power grids.
翻訳日:2024-05-13 17:16:40 公開日:2024-05-09
# イベントカメラ分類と回帰のための効率的かつ効果的なポイントベースネットワークの再考:EventMamba

Rethinking Efficient and Effective Point-based Networks for Event Camera Classification and Regression: EventMamba ( http://arxiv.org/abs/2405.06116v1 )

ライセンス: Link先を確認
Hongwei Ren, Yue Zhou, Jiadong Zhu, Haotian Fu, Yulong Huang, Xiaopeng Lin, Yuetong Fang, Fei Ma, Hao Yu, Bojun Cheng, (参考訳) 生物学的システムからインスピレーションを得たイベントカメラは、低レイテンシと高ダイナミックレンジで環境光の変化を効率よく検出し、最小限の電力を消費する。 イベントデータを処理する最も最近のアプローチは、しばしばそれをフレームベースの表現に変換することである。 しかし、この手法はイベントデータの空間性を無視し、変換過程における微粒な時間情報をなくし、計算負担を増大させ、イベントカメラ特性のキャラクタリゼーションに有効でない。 対照的に、Point Cloudは3D処理の一般的な表現であり、イベントカメラのスパースと非同期性に適合するのに適している。 それにもかかわらず、ポイントベース法とイベントカメラとの理論的互換性にもかかわらず、この結果はフレームベース法と比較してまだ不十分な性能差を示している。 性能ギャップを埋めるために,我々は,最先端(SOTA)のフレームベース手法と比較しても,効率よく,かつ効果的に競合的な結果が得られるEventMambaを提案する。 この顕著な成果は、Event CloudとPoint Cloudの区別を再考することで促進され、最適化されたネットワーク構造による効果的な時間情報抽出を強調します。 具体的には、EventMambaは時間的アグリゲーションとステートスペースモデル(SSM)ベースのMambaを利用して、時間的情報抽出機能を強化している。 階層構造を通じて、EventMambaは局所的・グローバルな空間的特徴と暗黙的・明示的な時間的特徴を抽象化する能力を持っている。 EventMambaは軽量な設計原則に固執することにより、計算リソースの利用を最小限に抑え、その効率性と有効性を示す印象的な結果を提供する。

Event cameras, drawing inspiration from biological systems, efficiently detect changes in ambient light with low latency and high dynamic range while consuming minimal power. The most current approach to processing event data often involves converting it into frame-based representations, which is well-established in traditional vision. However, this approach neglects the sparsity of event data, loses fine-grained temporal information during the transformation process, and increases the computational burden, making it ineffective for characterizing event camera properties. In contrast, Point Cloud is a popular representation for 3D processing and is better suited to match the sparse and asynchronous nature of the event camera. Nevertheless, despite the theoretical compatibility of point-based methods with event cameras, the results show a performance gap that is not yet satisfactory compared to frame-based methods. In order to bridge the performance gap, we propose EventMamba, an efficient and effective Point Cloud framework that achieves competitive results even compared to the state-of-the-art (SOTA) frame-based method in both classification and regression tasks. This notable accomplishment is facilitated by our rethinking of the distinction between Event Cloud and Point Cloud, emphasizing effective temporal information extraction through optimized network structures. Specifically, EventMamba leverages temporal aggregation and State Space Model (SSM) based Mamba boasting enhanced temporal information extraction capabilities. Through a hierarchical structure, EventMamba is adept at abstracting local and global spatial features and implicit and explicit temporal features. By adhering to the lightweight design principle, EventMamba delivers impressive results with minimal computational resource utilization, demonstrating its efficiency and effectiveness.
翻訳日:2024-05-13 17:16:40 公開日:2024-05-09
# 分離型ニューラルネットワークを用いたグラディエントフローに基づく位相場モデリング

Gradient Flow Based Phase-Field Modeling Using Separable Neural Networks ( http://arxiv.org/abs/2405.06119v1 )

ライセンス: Link先を確認
Revanth Mattey, Susanta Ghosh, (参考訳) ギンズバーグ・ランダウ自由エネルギー汎関数の$L^2$勾配流は、位相分離をモデル化するために広く用いられるアレン・カーン方程式に導かれる。 アレン・カーン方程式を強形式で解く機械学習手法は、コロケーション手法の不正確さ、自動微分による高次空間微分の計算誤差、時空アプローチで必要とされるシステムサイズに悩まされている。 これらの制限を克服するため、上記の勾配流問題を解くための最小化運動スキームにおいて、相場の分離可能なニューラルネットワークに基づく近似を提案する。 各時間ステップにおいて、分離可能なニューラルネットワークを用いて、低ランクテンソル分解により空間の位相場を近似し、導関数計算を高速化する。 最小化運動スキームは自然にガウス二次法を用いて関数を計算することができる。 ニューラルネットワーク予測相場に `$tanh$' 変換を適用して、2つの相の値内の解を厳密に束縛する。 この変換のために、最小化運動スキームのエネルギー安定性に関する理論的保証を確立する。 この変換によって解をバウンディングすることが、分離可能なニューラルネットワークによるシャープインターフェースを効果的にモデル化する鍵であることを示唆している。 提案手法は相分離問題に対する最先端の機械学習手法よりも優れており,有限要素法よりも桁違いに高速である。

The $L^2$ gradient flow of the Ginzburg-Landau free energy functional leads to the Allen Cahn equation that is widely used for modeling phase separation. Machine learning methods for solving the Allen-Cahn equation in its strong form suffer from inaccuracies in collocation techniques, errors in computing higher-order spatial derivatives through automatic differentiation, and the large system size required by the space-time approach. To overcome these limitations, we propose a separable neural network-based approximation of the phase field in a minimizing movement scheme to solve the aforementioned gradient flow problem. At each time step, the separable neural network is used to approximate the phase field in space through a low-rank tensor decomposition thereby accelerating the derivative calculations. The minimizing movement scheme naturally allows for the use of Gauss quadrature technique to compute the functional. A `$tanh$' transformation is applied on the neural network-predicted phase field to strictly bounds the solutions within the values of the two phases. For this transformation, a theoretical guarantee for energy stability of the minimizing movement scheme is established. Our results suggest that bounding the solution through this transformation is the key to effectively model sharp interfaces through separable neural network. The proposed method outperforms the state-of-the-art machine learning methods for phase separation problems and is an order of magnitude faster than the finite element method.
翻訳日:2024-05-13 17:16:40 公開日:2024-05-09
# 終点における行動に基づくマルウェア検出のデミスティフィケーション

Demystifying Behavior-Based Malware Detection at Endpoints ( http://arxiv.org/abs/2405.06124v1 )

ライセンス: Link先を確認
Yigitcan Kaya, Yizheng Chen, Shoumik Saha, Fabio Pierazzi, Lorenzo Cavallaro, David Wagner, Tudor Dumitras, (参考訳) 機械学習は、実際にマルウェア検出に広く利用されている。 従来の行動に基づく検出器は、一般的に制御されたサンドボックスで実行されるプログラムのトレースに依存する。 しかし、サンドボックストレースはセキュリティベンダが提供した最後の防御線であるエンドポイントでのマルウェア検出には利用できない。 エンドポイントの検出器は、サンドボックス分析が耐え難い遅延をもたらす可能性があるため、現実世界のホスト上で実行されるプログラムのトレースを消費する。 サンドボックスの成功にもかかわらず、研究はエンドポイント、例えば高度に可変なマルウェアの振る舞いにおけるMLメソッドの潜在的な課題を示唆している。 それでも、これらの課題が既存のアプローチに与える影響と、その優れたサンドボックスパフォーマンスがエンドポイントのシナリオにどのように変換されるかは、いまだに不明である。 実世界のエンドポイントにおけるMLベースのマルウェア検知器の性能を初めて測定する。 サンドボックストレースのデータセットとウィジェット内プログラムトレースのデータセットを活用して、エンドポイント検出器がトレーニングされた2つのシナリオを評価する。 (i)サンドボックストレース(便宜上アクセス可能)、及び (ii)エンドポイントトレース(テレメトリデータを収集する必要があるためアクセスできない)。 これにより、従来のメソッドのサンドボックスベースの検出性能(90%以上)とエンドポイントのパフォーマンス(20%未満と50%以下)の幅広いギャップを特定できます。 (i)および (i) であった。 ラベルノイズ、振る舞いの可変性、サンドボックス回避など、このギャップに寄与する課題を特定し、特徴付ける。 このギャップを埋めるため、ベースラインよりも5~30%の相対的な改善が提案される。 我々の証拠は、サンドボックスデータで訓練された検出器をエンドポイント検出に応用することを示唆している -- シナリオ i) -- は難しい。最も有望な方向性は、エンドポイントデータのトレーニングディテクター -- シナリオ -- である。 (ii)-広く普及している実践から逸脱している。 我々は,研究を促進するために,現実的な検出器評価のためのリーダーボードを実装した。

Machine learning is widely used for malware detection in practice. Prior behavior-based detectors most commonly rely on traces of programs executed in controlled sandboxes. However, sandbox traces are unavailable to the last line of defense offered by security vendors: malware detection at endpoints. A detector at endpoints consumes the traces of programs running on real-world hosts, as sandbox analysis might introduce intolerable delays. Despite their success in the sandboxes, research hints at potential challenges for ML methods at endpoints, e.g., highly variable malware behaviors. Nonetheless, the impact of these challenges on existing approaches and how their excellent sandbox performance translates to the endpoint scenario remain unquantified. We present the first measurement study of the performance of ML-based malware detectors at real-world endpoints. Leveraging a dataset of sandbox traces and a dataset of in-the-wild program traces; we evaluate two scenarios where the endpoint detector was trained on (i) sandbox traces (convenient and accessible); and (ii) endpoint traces (less accessible due to needing to collect telemetry data). This allows us to identify a wide gap between prior methods' sandbox-based detection performance--over 90%--and endpoint performances--below 20% and 50% in (i) and (ii), respectively. We pinpoint and characterize the challenges contributing to this gap, such as label noise, behavior variability, or sandbox evasion. To close this gap, we propose that yield a relative improvement of 5-30% over the baselines. Our evidence suggests that applying detectors trained on sandbox data to endpoint detection -- scenario (i) -- is challenging. The most promising direction is training detectors on endpoint data -- scenario (ii) -- which marks a departure from widespread practice. We implement a leaderboard for realistic detector evaluations to promote research.
翻訳日:2024-05-13 17:06:55 公開日:2024-05-09
# 量子セキュア匿名通信ネットワーク

Quantum Secure Anonymous Communication Networks ( http://arxiv.org/abs/2405.06126v1 )

ライセンス: Link先を確認
Mohammad Saidur Rahman, Stephen DiAdamo, Miralem Mehic, Charles Fleming, (参考訳) 匿名通信ネットワーク(ACN)は、アクセスされたコンテンツがユーザへ追跡されるのを防ぐ方法でインターネットブラウジングを可能にする。 これにより、プライバシーのレベルが高くなり、個人が広告主や政府によって追跡されるのを防ぐことができる。 このようなネットワークの顕著な例であるTorネットワークは、データパケットをカプセル化するためにレイヤ化された暗号化スキームを使用しており、Torノードを使用してパケットがパブリックインターネットに入る前にルーティングプロセスを隠蔽する。 Torは相当量のプライバシーを提供できるが、暗号化はRSAやDiffie-Hellmanのような、量子コンピューティング攻撃に弱い対称鍵の配布方式に依存している。 この脅威を克服するために、対称鍵、すなわち量子鍵分布(QKD)を分散するためのRSAとDiffie-Hellmanに代わる量子抵抗法を提案する。 標準QKDネットワークは、長い距離にわたって鍵を中継するために信頼できるノードに依存するが、量子ネットワーク内の信頼されたノードに依存することは、ACNにTor回路を確立するのに必要な基準を満たしていない。 本稿では、信頼ノードを必要とせずにQKDを統合するプロトコルとネットワークアーキテクチャを開発し、Torネットワークの要件を満たし、量子セキュアな匿名通信ネットワークを構築することでこの問題に対処する。

Anonymous communication networks (ACNs) enable Internet browsing in a way that prevents the accessed content from being traced back to the user. This allows a high level of privacy, protecting individuals from being tracked by advertisers or governments, for example. The Tor network, a prominent example of such a network, uses a layered encryption scheme to encapsulate data packets, using Tor nodes to obscure the routing process before the packets enter the public Internet. While Tor is capable of providing substantial privacy, its encryption relies on schemes, such as RSA and Diffie-Hellman for distributing symmetric keys, which are vulnerable to quantum computing attacks and are currently in the process of being phased out. To overcome the threat, we propose a quantum-resistant alternative to RSA and Diffie-Hellman for distributing symmetric keys, namely, quantum key distribution (QKD). Standard QKD networks depend on trusted nodes to relay keys across long distances, however, reliance on trusted nodes in the quantum network does not meet the criteria necessary for establishing a Tor circuit in the ACN. We address this issue by developing a protocol and network architecture that integrates QKD without the need for trusted nodes, thus meeting the requirements of the Tor network and creating a quantum-secure anonymous communication network.
翻訳日:2024-05-13 17:06:55 公開日:2024-05-09
# 聴覚融合による子どもの映像のマルチモーダル・コンテンツ・モデレーションの強化

Enhanced Multimodal Content Moderation of Children's Videos using Audiovisual Fusion ( http://arxiv.org/abs/2405.06128v1 )

ライセンス: Link先を確認
Syed Hammad Ahmed, Muhammad Junaid Khan, Gita Sukthankar, (参考訳) 子どもを対象にしたビデオコンテンツ制作が増加しているため、ビデオホスティングプラットフォーム向けのロバストなコンテンツモデレーションスキームが必要である。 視覚的に良性のあるビデオは、幼児にとって不適切な音声コンテンツを含むことができ、一方、単調なコンテンツモデレーションシステムでは検出できない。 子供向けの人気ビデオホスティングプラットフォームであるYouTube Kidsは、子供の健康的な行動や身体的発達に影響を与えないオーディオコンテンツを含むビデオをまだ公開している。 悪意のあるビデオの堅牢な分類には、ビデオ機能に加えて音声表現が必要である。 しかし、近年のコンテンツモデレーションアプローチでは、非音声音声キューを明示的に考慮するマルチモーダルアーキテクチャはめったに採用されていない。 そこで本研究では,CLIP(Contrastive Language- Image Pre-training)の効率よく適応し,コンテントモデレーションの強化にコンテキストオーディオキューを活用する手法を提案する。 組み込む 1)音声のモーダリティと 2【学習】各モダリティのバックボーンモジュールを凍結させながら,迅速な学習を行う。 我々はMOB(Malicious or Benign)データセットのマルチモーダルバージョンで、教師付きおよび少数ショット設定で実験を行う。

Due to the rise in video content creation targeted towards children, there is a need for robust content moderation schemes for video hosting platforms. A video that is visually benign may include audio content that is inappropriate for young children while being impossible to detect with a unimodal content moderation system. Popular video hosting platforms for children such as YouTube Kids still publish videos which contain audio content that is not conducive to a child's healthy behavioral and physical development. A robust classification of malicious videos requires audio representations in addition to video features. However, recent content moderation approaches rarely employ multimodal architectures that explicitly consider non-speech audio cues. To address this, we present an efficient adaptation of CLIP (Contrastive Language-Image Pre-training) that can leverage contextual audio cues for enhanced content moderation. We incorporate 1) the audio modality and 2) prompt learning, while keeping the backbone modules of each modality frozen. We conduct our experiments on a multimodal version of the MOB (Malicious or Benign) dataset in supervised and few-shot settings.
翻訳日:2024-05-13 17:06:55 公開日:2024-05-09
# ナラティブ・トゥ・トラジェクトリー(N2T+):人身売買テキストコーパスから生命・死の経路を抽出する

Narrative to Trajectory (N2T+): Extracting Routes of Life or Death from Human Trafficking Text Corpora ( http://arxiv.org/abs/2405.06129v1 )

ライセンス: Link先を確認
Saydeh N. Karabatis, Vandana P. Janeja, (参考訳) 気候変動と世界の一部の地域の政治的不安は、多くのコミュニティに極端な苦難をもたらしており、何百万人もの脆弱な人々が自国を放棄し、より安全な土地に避難することを余儀なくされている。 国際法が移民危機に対処する準備が整っていないため、人々は安定のために破壊から逃れるために密輸業者を搾取するネットワークに依存している。 密輸旅行中、密輸業者に支払わなかった場合、移民は人身売買の犠牲者になり、強制労働を強いられる可能性がある。 政府や反トラヒック組織は、知識を得て、そのような犯罪を防ぐために、生存者の物語に基づいて、交通ルートを特定しようとする。 本稿では,交通経路の軌跡を抽出するNarrative to Trajectory(N2T+)を提案する。 N2T+は、データサイエンスと自然言語処理の技術を使用して、トラフィックの物語を分析し、関連する位置情報を自動的に抽出し、可能な名前の曖昧さを曖昧にし、地図上でトラフィックルートをプロットする。 比較評価において,提案手法は,他の最先端技術よりもはるかに高い位置検出を提供することを示す。

Climate change and political unrest in certain regions of the world are imposing extreme hardship on many communities and are forcing millions of vulnerable populations to abandon their homelands and seek refuge in safer lands. As international laws are not fully set to deal with the migration crisis, people are relying on networks of exploiting smugglers to escape the devastation in order to live in stability. During the smuggling journey, migrants can become victims of human trafficking if they fail to pay the smuggler and may be forced into coerced labor. Government agencies and anti-trafficking organizations try to identify the trafficking routes based on stories of survivors in order to gain knowledge and help prevent such crimes. In this paper, we propose a system called Narrative to Trajectory (N2T+), which extracts trajectories of trafficking routes. N2T+ uses Data Science and Natural Language Processing techniques to analyze trafficking narratives, automatically extract relevant location names, disambiguate possible name ambiguities, and plot the trafficking route on a map. In a comparative evaluation we show that the proposed multi-dimensional approach offers significantly higher geolocation detection than other state of the art techniques.
翻訳日:2024-05-13 17:06:55 公開日:2024-05-09
# Muting Whisper: 音声基礎モデルに対するユニバーサルアコースティック・アタック

Muting Whisper: A Universal Acoustic Adversarial Attack on Speech Foundation Models ( http://arxiv.org/abs/2405.06134v1 )

ライセンス: Link先を確認
Vyas Raina, Rao Ma, Charles McGhee, Kate Knill, Mark Gales, (参考訳) Whisperのような大規模音声基盤モデルの最近の発展は、多くの自動音声認識(ASR)アプリケーションで広く利用されている。 これらのシステムは、言語生成プロセスをガイドするために、 $\texttt{<endoftext>}$ のような 'special tokens' を語彙に含めている。 しかし,これらのトークンは,敵攻撃によってモデル動作を操作できることが実証された。 本稿では,Whisperの$\texttt{<endoftext>}$ tokenの普遍的な音響的実現法を提案する。 実験により, 対象とするWhisper ASRモデルに対して, 音声サンプルの97 %以上で0.64秒対逆音声セグメントをミュートできることが実証された。 さらに,このユニバーサル音声セグメントは,しばしば新しいデータセットやタスクに転送される。 例えば、攻撃は音声モデレーションシステムを回避したり、逆に、攻撃はプライベートな音声データを保護するためにも使用できる。

Recent developments in large speech foundation models like Whisper have led to their widespread use in many automatic speech recognition (ASR) applications. These systems incorporate `special tokens' in their vocabulary, such as $\texttt{<endoftext>}$, to guide their language generation process. However, we demonstrate that these tokens can be exploited by adversarial attacks to manipulate the model's behavior. We propose a simple yet effective method to learn a universal acoustic realization of Whisper's $\texttt{<endoftext>}$ token, which, when prepended to any speech signal, encourages the model to ignore the speech and only transcribe the special token, effectively `muting' the model. Our experiments demonstrate that the same, universal 0.64-second adversarial audio segment can successfully mute a target Whisper ASR model for over 97\% of speech samples. Moreover, we find that this universal adversarial audio segment often transfers to new datasets and tasks. Overall this work demonstrates the vulnerability of Whisper models to `muting' adversarial attacks, where such attacks can pose both risks and potential benefits in real-world settings: for example the attack can be used to bypass speech moderation systems, or conversely the attack can also be used to protect private speech data.
翻訳日:2024-05-13 17:06:55 公開日:2024-05-09
# 逐次エンコード可能なコードワード安定化符号

Sequentially Encodable Codeword Stabilized Codes ( http://arxiv.org/abs/2405.06142v1 )

ライセンス: Link先を確認
Sowrabh Sudevan, Sourin Das, Thamadathil Aswanth, Navin Kashyap, (参考訳) n 量子ビット上の m-一様量子状態は、すべての$m$-量子ビット部分系が最大混合される絡み合った状態である。 このような状態は純粋[[n,0,m+1]]量子誤り訂正符号(QECC)にまたがる。 m-正則グラフに関連するグラフ状態として実現された$m$-uniform状態と、ある種の追加特性を持つ古典的な[n,k,d \ge m+1]バイナリ線形コードから始め、純粋な[[n,k,m+1]QECCであるコードワード安定化(CWS)コードを構築する。 本稿では,コード状態へのエンコードと論理量子ビットの復号化のための測度ベースのプロトコルを提案する。 提案プロトコルは論理量子ビットのシーケンシャルエンコーディングと部分的リカバリをサポートし,量子メモリへの応用に有用である。

An m-uniform quantum state on n qubits is an entangled state in which every $m$-qubit subsystem is maximally mixed. Such a state spans a pure [[n,0,m+1]] quantum error correcting code (QECC). Starting with an $m$-uniform state realized as the graph state associated with an m-regular graph, and a classical [n,k,d \ge m+1] binary linear code with certain additional properties, we construct codeword stabilized (CWS) codes that are pure [[n,k,m+1]] QECCs. We propose measurement-based protocols for encoding into code states and recovery of logical qubits from code states. Our proposed protocols support sequential encoding and partial recovery of logical qubits, which can be useful for quantum memory applications.
翻訳日:2024-05-13 17:06:55 公開日:2024-05-09
# レンダリング3次元テクスチャメッシュの知覚的き裂検出

Perceptual Crack Detection for Rendered 3D Textured Meshes ( http://arxiv.org/abs/2405.06143v1 )

ライセンス: Link先を確認
Armin Shafiee Sarvestani, Wei Zhou, Zhou Wang, (参考訳) 近年では3Dテクスチャメッシュの応用に多くの進歩が見られる。 需要が高まるにつれて、この新しいタイプのメディアコンテンツの知覚的品質を評価することは、品質保証と最適化の目的に欠かせないものとなる。 従来の画像品質評価とは違って、クラックはレンダリングされた3Dメッシュに特有の厄介なアーティファクトで、知覚品質に深刻な影響を与えます。 本研究では,新しいPCD(Perceptual Crack Detection)手法を提案する。 具体的には,ヒト視覚システム(HVS)の特徴を動機として,クラックアーティファクトを特徴付けるためにコントラストとラプラシア計測モジュールを採用し,他の望ましくないアーティファクトと区別する。 3次元テクスチャメッシュの大規模公開データセットに対する大規模な実験は, き裂の正確な位置決めと検出におけるPCD法の有効性と有効性を示した。 %) より, 変形した3次元オブジェクトと参照したオブジェクトの1対の入力スナップショットに基づいて, 最終クラックマップを生成する全参照クラックアーティファクトローカライズ手法を提案する。 さらに,提案手法の性能を定量化し,その有効性を検証するため,静的な3次元テクスチャメッシュの公開データセットで検証した場合の知覚画像品質の予測において,従来の品質評価(QA)モデルにクラックマップを組み込むための簡易かつ効果的な重み付け機構を提案する。 提案手法のソフトウェアリリースは、https://github.com/arshafiee/crack-detection-VVMで公開されている。

Recent years have witnessed many advancements in the applications of 3D textured meshes. As the demand continues to rise, evaluating the perceptual quality of this new type of media content becomes crucial for quality assurance and optimization purposes. Different from traditional image quality assessment, crack is an annoying artifact specific to rendered 3D meshes that severely affects their perceptual quality. In this work, we make one of the first attempts to propose a novel Perceptual Crack Detection (PCD) method for detecting and localizing crack artifacts in rendered meshes. Specifically, motivated by the characteristics of the human visual system (HVS), we adopt contrast and Laplacian measurement modules to characterize crack artifacts and differentiate them from other undesired artifacts. Extensive experiments on large-scale public datasets of 3D textured meshes demonstrate effectiveness and efficiency of the proposed PCD method in correct localization and detection of crack artifacts. %Specifically, We propose a full-reference crack artifact localization method that operates on a pair of input snapshots of distorted and reference 3D objects to generate a final crack map. Moreover, to quantify the performance of the proposed detection method and validate its effectiveness, we propose a simple yet effective weighting mechanism to incorporate the resulting crack map into classical quality assessment (QA) models, which creates significant performance improvement in predicting the perceptual image quality when tested on public datasets of static 3D textured meshes. A software release of the proposed method is publicly available at: https://github.com/arshafiee/crack-detection-VVM
翻訳日:2024-05-13 17:06:55 公開日:2024-05-09
# Reddit-Impacts:ソーシャルメディアから得られた物質使用の臨床的および社会的影響を分析するためのエンティティ認識データセット

Reddit-Impacts: A Named Entity Recognition Dataset for Analyzing Clinical and Social Effects of Substance Use Derived from Social Media ( http://arxiv.org/abs/2405.06145v1 )

ライセンス: Link先を確認
Yao Ge, Sudeshna Das, Karen O'Connor, Mohammed Ali Al-Garadi, Graciela Gonzalez-Hernandez, Abeed Sarker, (参考訳) 物質利用障害(SUD)は、データ駆動研究を通じて、問題とそのトレンドの理解を深める必要がある、世界的な関心事である。 ソーシャルメディアは、SUDに関するユニークな重要な情報源であり、特にそのような情報源のデータは、生きた経験を持つ人々によってしばしば生成されるためである。 本稿では,処方と違法なオピオイド,オピオイド使用障害の薬物に関する議論を専門とするサブレディットからキュレートされた,難易度の高い名前付きエンティティ認識(NER)データセットであるReddit-Impactsを紹介する。 このデータセットは、研究の少ないが重要な、物質の使用の側面 ― 臨床的および社会的影響 ― に焦点を当てている。 Reddit用のアプリケーションプログラミングインタフェースを使って、選択したサブレディットからデータを収集しました。 我々は,オピオイド,刺激薬,ベンゾジアゼピンに限らず,個人の非医療的使用を報告した人々による臨床・社会的な影響を手動で表した。 本研究の目的は、テキストベースのソーシャルメディアデータから、物質使用の臨床的・社会的影響を自動的に検出するシステムの開発を可能にするリソースを作成することである。 このようなシステムの開発が成功すれば、非医療的な物質の使用が個人の健康や社会的ダイナミクスにどのように影響するかをよりよく理解し、効果的な公衆衛生戦略の開発を支援することができるかもしれない。 アノテーション付きデータセットの作成に加えて、ベースライン性能を確立するためにいくつかの機械学習モデルを適用した。 具体的には、BERTやRoBERTaのようなトランスフォーマーモデル、フルトレーニングデータセットを活用した数発の学習モデルDANN、ワンショット学習によるGPT-3.5を、臨床および社会的影響の自動NERとして実験した。 データセットは2024年のSMM4H共有タスクを通じて利用可能になった。

Substance use disorders (SUDs) are a growing concern globally, necessitating enhanced understanding of the problem and its trends through data-driven research. Social media are unique and important sources of information about SUDs, particularly since the data in such sources are often generated by people with lived experiences. In this paper, we introduce Reddit-Impacts, a challenging Named Entity Recognition (NER) dataset curated from subreddits dedicated to discussions on prescription and illicit opioids, as well as medications for opioid use disorder. The dataset specifically concentrates on the lesser-studied, yet critically important, aspects of substance use--its clinical and social impacts. We collected data from chosen subreddits using the publicly available Application Programming Interface for Reddit. We manually annotated text spans representing clinical and social impacts reported by people who also reported personal nonmedical use of substances including but not limited to opioids, stimulants and benzodiazepines. Our objective is to create a resource that can enable the development of systems that can automatically detect clinical and social impacts of substance use from text-based social media data. The successful development of such systems may enable us to better understand how nonmedical use of substances affects individual health and societal dynamics, aiding the development of effective public health strategies. In addition to creating the annotated data set, we applied several machine learning models to establish baseline performances. Specifically, we experimented with transformer models like BERT, and RoBERTa, one few-shot learning model DANN by leveraging the full training dataset, and GPT-3.5 by using one-shot learning, for automatic NER of clinical and social impacts. The dataset has been made available through the 2024 SMM4H shared tasks.
翻訳日:2024-05-13 17:06:55 公開日:2024-05-09
# シリコンバレーのシーリング:GPTの人種と雇用におけるジェンダーのバイアスを調査

The Silicon Ceiling: Auditing GPT's Race and Gender Biases in Hiring ( http://arxiv.org/abs/2405.04412v2 )

ライセンス: Link先を確認
Lena Armstrong, Abbey Liu, Stephen MacNeil, Danaë Metaxa, (参考訳) 大規模言語モデル(LLM)は、効率性と公平性の向上を目標として、職場環境でますます導入されている。 しかし、これらのモデルが社会的バイアスやステレオタイプを反映または悪化させる可能性を懸念する声が上がっている。 本研究では,LLMが雇用実践に与える影響について検討する。 そこで我々は,従来のオフライン履歴監査の歴史から着想を得て,レースとジェンダーの偏見のアルゴリズム監査を行う。 人種と性別の異なる名前を用いて2つの研究を行う: 再開アセスメント(研究1)と再開アセスメント(研究2)。 研究1では、GPTに32の異なる名前(2つの性別と4つの人種グループの組み合わせごとに4つの名前)と10の職業と3つの評価タスク(すべての評価、面接への意欲、雇用可能性)の匿名オプションをスコアアップするよう依頼する。 モデルがステレオタイプに基づくバイアスを反映していることが分かる。 研究2では,GPTに対して,架空の求職候補者の履歴書(名前毎に10)を作成するよう促す。 女性の履歴書は経験の少ない職業を持ち、アジア系とヒスパニック系の履歴書は非ネイティブの英語や非アメリカの教育や仕事の経験のような移民のマーカーを持っていた。 本研究は,特に職場環境におけるLCMバイアスに関する文献の増大に寄与する。

Large language models (LLMs) are increasingly being introduced in workplace settings, with the goals of improving efficiency and fairness. However, concerns have arisen regarding these models' potential to reflect or exacerbate social biases and stereotypes. This study explores the potential impact of LLMs on hiring practices. To do so, we conduct an algorithm audit of race and gender biases in one commonly-used LLM, OpenAI's GPT-3.5, taking inspiration from the history of traditional offline resume audits. We conduct two studies using names with varied race and gender connotations: resume assessment (Study 1) and resume generation (Study 2). In Study 1, we ask GPT to score resumes with 32 different names (4 names for each combination of the 2 gender and 4 racial groups) and two anonymous options across 10 occupations and 3 evaluation tasks (overall rating, willingness to interview, and hireability). We find that the model reflects some biases based on stereotypes. In Study 2, we prompt GPT to create resumes (10 for each name) for fictitious job candidates. When generating resumes, GPT reveals underlying biases; women's resumes had occupations with less experience, while Asian and Hispanic resumes had immigrant markers, such as non-native English and non-U.S. education and work experiences. Our findings contribute to a growing body of literature on LLM biases, in particular when used in workplace contexts.
翻訳日:2024-05-13 11:22:39 公開日:2024-05-09
# LLMを用いた目に見えないリポジトリのコンテクストAPI補完

Contextual API Completion for Unseen Repositories Using LLMs ( http://arxiv.org/abs/2405.04600v2 )

ライセンス: Link先を確認
Noor Nashid, Taha Shabani, Parsa Alian, Ali Mesbah, (参考訳) 大規模言語モデルは、多様なコード関連タスクに対処する上で大きな進歩を遂げた。 しかし、それらの採用は、実世界のドメイン固有の情報の欠如、例えばリポジトリ内のソフトウェアプロジェクトのAPI呼び出しなど、アウトプット生成の不整合によって妨げられている。 本稿では,API補完タスクのためのコードリポジトリ内で,グローバルおよびローカルなコンテキスト情報を活用することで幻覚を緩和する新しい手法を提案する。 当社のアプローチは、ローカルAPI補完の最適化に重点を置いて、コード補完タスクの洗練に適合しています。 ローカルAPIに対する洞察を導き出すため,API完了時に関連するインポートステートメントについて検討し,そのメソッドシグネチャから抽出する。 APIトークンの補完について、インライン変数を分析し、適切なインポートされたモジュールと相関付けすることで、利用可能なローカルAPIから最もコンテキストに関連のある提案をランク付けするアプローチを可能にします。 さらに、会話型のAPI補完には、プロジェクト全体にわたる検索ベースの検索で、開発者クエリに最も関連性の高いAPIを集めます。 提案したベンチマークであるAPIEvalのフレームワークには,当社のツールであるLANCEが採用されています。 平均精度は,APIトークン完了時の82.6%,会話API完了時の76.9%である。 平均して、LANCEはAPIトークンの補完と会話APIの補完で、Copilotを143%、Copilotを142%上回っている。 言語固有のトレーニングや微調整なしに、軽量なコンテキスト分析を多言語環境に適用することで、最小限の例と労力で効率的な実装が可能になることを示唆している。

Large language models have made substantial progress in addressing diverse code-related tasks. However, their adoption is hindered by inconsistencies in generating output due to the lack of real-world, domain-specific information, such as for intra-repository API calls for unseen software projects. We introduce a novel technique to mitigate hallucinations by leveraging global and local contextual information within a code repository for API completion tasks. Our approach is tailored to refine code completion tasks, with a focus on optimizing local API completions. We examine relevant import statements during API completion to derive insights into local APIs, drawing from their method signatures. For API token completion, we analyze the inline variables and correlate them with the appropriate imported modules, thereby allowing our approach to rank the most contextually relevant suggestions from the available local APIs. Further, for conversational API completion, we gather APIs that are most relevant to the developer query with a retrieval-based search across the project. We employ our tool, LANCE, within the framework of our proposed benchmark, APIEval, encompassing two different programming languages. Our evaluation yields an average accuracy of 82.6% for API token completion and 76.9% for conversational API completion tasks. On average, LANCE surpasses Copilot by 143% and 142% for API token completion and conversational API completion, respectively. The implications of our findings are substantial for developers, suggesting that our lightweight context analysis can be applied to multilingual environments without language-specific training or fine-tuning, allowing for efficient implementation with minimal examples and effort.
翻訳日:2024-05-13 11:22:39 公開日:2024-05-09
# レーダ場:FMCWレーダのための周波数空間ニューラルシーン表現

Radar Fields: Frequency-Space Neural Scene Representations for FMCW Radar ( http://arxiv.org/abs/2405.04662v2 )

ライセンス: Link先を確認
David Borts, Erich Liang, Tim Brödermann, Andrea Ramazzina, Stefanie Walz, Edoardo Palladin, Jipeng Sun, David Bruggemann, Christos Sakaridis, Luc Van Gool, Mario Bijelic, Felix Heide, (参考訳) ニューラルフィールドは、自律走行車やロボットが扱わなければならない様々な屋外シーンの再現と創出のためのシーン表現として広く研究されている。 RGB と LiDAR のデータに対するアプローチは成功したが、レーダーの知覚モーダリティとしてのニューラル再構成法はほとんど研究されていない。 ミリ波長で動作するレーダーセンサーは、霧や雨の散乱に対して堅牢であり、アクティブで受動的な光センシング技術と相補的なモダリティを提供する。 さらに、既存のレーダーセンサーはコスト効率が高く、屋外で動作するロボットや車両に広く展開されている。 本稿では,アクティブレーダイメージア用に設計されたニューラルシーン再構成手法であるRadar Fieldsを紹介する。 提案手法は, 暗黙的ニューラルジオメトリーと反射率モデルを用いて, 露骨な物理インフォームドセンサモデルを結合し, 生のレーダ測定を直接合成し, シーン占有率を抽出する。 提案手法はボリュームレンダリングに依存しない。 代わりに、フーリエ周波数空間のフィールドを学習し、生のレーダーデータで監視する。 本手法は,高密度車両やインフラを有する都市景観や,特にミリ波センシングが好まれる厳しい気象シナリオなど,様々な屋外シナリオにおける有効性を検証する。

Neural fields have been broadly investigated as scene representations for the reproduction and novel generation of diverse outdoor scenes, including those autonomous vehicles and robots must handle. While successful approaches for RGB and LiDAR data exist, neural reconstruction methods for radar as a sensing modality have been largely unexplored. Operating at millimeter wavelengths, radar sensors are robust to scattering in fog and rain, and, as such, offer a complementary modality to active and passive optical sensing techniques. Moreover, existing radar sensors are highly cost-effective and deployed broadly in robots and vehicles that operate outdoors. We introduce Radar Fields - a neural scene reconstruction method designed for active radar imagers. Our approach unites an explicit, physics-informed sensor model with an implicit neural geometry and reflectance model to directly synthesize raw radar measurements and extract scene occupancy. The proposed method does not rely on volume rendering. Instead, we learn fields in Fourier frequency space, supervised with raw radar data. We validate the effectiveness of the method across diverse outdoor scenarios, including urban scenes with dense vehicles and infrastructure, and in harsh weather scenarios, where mm-wavelength sensing is especially favorable.
翻訳日:2024-05-13 11:22:39 公開日:2024-05-09
# カスタムグラディエント推定器はディフューズにおけるストレートスルー推定器である

Custom Gradient Estimators are Straight-Through Estimators in Disguise ( http://arxiv.org/abs/2405.05171v2 )

ライセンス: Link先を確認
Matt Schoenbauer, Daniele Moro, Lukasz Lew, Andrew Howard, (参考訳) 量子化を意識したトレーニングには根本的な課題が伴う: 丸めのような量子化関数の微分は、ほぼ至る所でゼロであり、他の場所では存在しない。 量子化関数の様々な微分可能近似がこの問題に対処するために提案されている。 本稿では,学習速度が十分に小さい場合,重み付け勾配推定器の大規模なクラスは,ストレート・スルー・スルー・スルー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・ス 具体的には、STEを交換し、SGDの重量初期化と学習率を調整した後、モデルは元の勾配推定器とほぼ同じように訓練する。 さらに、Adamのような適応学習率アルゴリズムでは、重み付け初期化や学習率を変更することなく、同じ結果が得られることを示す。 これらの結果は、MNISTデータセットでトレーニングされた小さな畳み込みモデルと、ImageNetでトレーニングされたResNet50モデルの両方に対して有効であることを示す。

Quantization-aware training comes with a fundamental challenge: the derivative of quantization functions such as rounding are zero almost everywhere and nonexistent elsewhere. Various differentiable approximations of quantization functions have been proposed to address this issue. In this paper, we prove that when the learning rate is sufficiently small, a large class of weight gradient estimators is equivalent with the straight through estimator (STE). Specifically, after swapping in the STE and adjusting both the weight initialization and the learning rate in SGD, the model will train in almost exactly the same way as it did with the original gradient estimator. Moreover, we show that for adaptive learning rate algorithms like Adam, the same result can be seen without any modifications to the weight initialization and learning rate. We experimentally show that these results hold for both a small convolutional model trained on the MNIST dataset and for a ResNet50 model trained on ImageNet.
翻訳日:2024-05-13 11:22:39 公開日:2024-05-09
# 次世代エピデミックリスク軽減システムにおけるセキュリティとユーティリティの再構築

Reconciling Security and Utility in Next-Generation Epidemic Risk Mitigation Systems ( http://arxiv.org/abs/2011.08069v3 )

ライセンス: Link先を確認
Pierfrancesco Ingo, Nichole Boufford, Ming Cheng Jiang, Rowan Lindsay, Matthew Lentz, Gilles Barthe, Manuel Gomez-Rodriguez, Bernhard Schölkopf, Deepak Garg, Peter Druschel, Aastha Mehta, (参考訳) 最近の新型コロナウイルス(COVID-19)のような疫学は、感染の感染を予測し、その後に封じ込めるために、プロアクティブな接触追跡と疫学的分析を必要とする。 積極的な対策には大規模なデータ収集が必要であり、同時にユーザのプライバシに関する懸念を提起する。 新型コロナウイルス(COVID-19)への対応として開発されたデジタルコンタクトトラッキングシステムは、ユーザのプライバシを犠牲にして効果的な分析を行うための広範なデータ収集や、ユーザのプライバシのために最小限のデータを収集するが、感染リスクの予測と緩和には効果がなかった。 今後の流行に備えたSilmarillionを提案する。より高機能なデータ収集とユーザのプライバシを調和させるシステムである。 Silmarillionでは、ユーザーデバイスが戦略的場所に設置されたビーコンでBluetoothの遭遇を記録する。 ビーコンは、ビーコンの設置場所における地理的位置、位置タイプ、環境条件との遭遇をさらに強化する。 この情報により、病気パラメータの詳細な科学的分析や、より正確なパーソナライズされた露出リスク通知が可能になる。 同時に、Silmarillionは、デジタルおよび手動の接触追跡で保証されるものと同じレベルで、すべての参加者と非参加者にプライバシを提供する。 ユーザプライバシとデータセキュリティを保証するSilmarillionとその通信プロトコルの設計について述べる。 また、ローエンドのIoTボードを使用して構築されたSilmarillionのプロトタイプを評価し、実際のデプロイメントにおいて消費電力とユーザレイテンシが十分に低いことを示す。 最後に,大学建物内の小規模展開について,概念実証として簡潔に報告する。

Epidemics like the recent COVID-19 require proactive contact tracing and epidemiological analysis to predict and subsequently contain infection transmissions. The proactive measures require large scale data collection, which simultaneously raise concerns regarding users' privacy. Digital contact tracing systems developed in response to COVID-19 either collected extensive data for effective analytics at the cost of users' privacy or collected minimal data for the sake of user privacy but were ineffective in predicting and mitigating the epidemic risks. We present Silmarillion--in preparation for future epidemics--a system that reconciles user's privacy with rich data collection for higher utility. In Silmarillion, user devices record Bluetooth encounters with beacons installed in strategic locations. The beacons further enrich the encounters with geo-location, location type, and environment conditions at the beacon installation site. This enriched information enables detailed scientific analysis of disease parameters as well as more accurate personalized exposure risk notification. At the same time, Silmarillion provides privacy to all participants and non-participants at the same level as that guaranteed in digital and manual contact tracing. We describe the design of Silmarillion and its communication protocols that ensure user privacy and data security. We also evaluate a prototype of Silmarillion built using low-end IoT boards, showing that the power consumption and user latencies are adequately low for a practical deployment. Finally, we briefly report on a small-scale deployment within a university building as a proof-of-concept.
翻訳日:2024-05-10 18:44:57 公開日:2024-05-09
# 対面型仮想支払チャネルの最適化

Optimizing Virtual Payment Channel Establishment in the Face of On-Path Adversaries ( http://arxiv.org/abs/2011.14341v2 )

ライセンス: Link先を確認
Lukas Aumayr, Esra Ceylan, Yannik Kopyciok, Matteo Maffei, Pedro Moreno-Sanchez, Iosif Salem, Stefan Schmid, (参考訳) ペイメントチャネルネットワーク(PCN)は、パーミッションレスブロックチェーンにおけるスケーラビリティ問題に対する最も有望なソリューションのひとつで、支払いチャネル(PC)を経由したオフチェーンの支払いを可能にする。 しかしながら、ルーティングトランザクションは、ルーティングサービスの料金を課金するため、仲介者の数に比例するコストがかかる。 さらに、他のネットワークと同様、支払いパスの悪意のある仲介者は、セキュリティやプライバシーの脅威につながる可能性がある。 仮想チャネル(VC)、すなわちPCパスをブリッジし、上記のPCN問題を緩和する。 しかし、PCと同様、VCの作成には、ブリッジドPCのバランスから支払わなければならないコストがある。 現在、VCの設置する場所と数に関するガイドラインが欠落しています。 理想的には、VCは取引コストを最小限に抑えつつ、ネットワーク上の敵からのセキュリティやプライバシーの脅威を軽減すべきだ。 本稿では、VCのセットアップ問題に初めて対処し、最適化問題として定式化する。 トランザクションコスト,セキュリティ,プライバシの観点から,グローバルに最適なVCセットアップ戦略を計算するための整数線形プログラム(ILP)を提案する。 次に,高速局所グリージーアルゴリズムを用いて計算量の多いILPに付随する。 我々のモデルとアルゴリズムは、その戦略が正直なノードによって推定される破損したノードの集合として表現できることを考えると、任意のオンパス逆数で使用することができる。 我々は,最大規模のBitcoinベースのPCNであるLightning Network (LN) のスナップショット上で,この欲求アルゴリズムの評価を行う。 われわれの結果は、われわれの欲張り戦略が、敵のセキュリティやプライバシーの脅威を防ぎながら、コストを最小化していることを実世界のデータで確認した。 これらの発見は、VCの展開のガイドラインとしてLNコミュニティに役立ちます。

Payment channel networks (PCNs) are among the most promising solutions to the scalability issues in permissionless blockchains, by allowing parties to pay each other off-chain through a path of payment channels (PCs). However, routing transactions comes at a cost which is proportional to the number of intermediaries, since each charges a fee for the routing service. Furthermore, analogous to other networks, malicious intermediaries in the payment path can lead to security and privacy threats. Virtual channels (VCs), i.e., bridges over PC paths, mitigate the above PCN issues, as an intermediary participates only once to set up the VC and is then excluded from every future VC transaction. However, similar to PCs, creating a VC has a cost that must be paid out of the bridged PCs' balance. Currently, we are missing guidelines to where and how many VCs to set up. Ideally, VCs should minimize transaction costs while mitigating security and privacy threats from on-path adversaries. In this work, we address for the first time the VC setup problem, formalizing it as an optimization problem. We present an integer linear program (ILP) to compute the globally optimal VC setup strategy in terms of transaction costs, security, and privacy. We then accompany the computationally heavy ILP with a fast local greedy algorithm. Our model and algorithms can be used with any on-path adversary, given that its strategy can be expressed as a set of corrupted nodes that is estimated by the honest nodes. We conduct an evaluation of the greedy algorithm over a snapshot of the Lightning Network (LN), the largest Bitcoin-based PCN. Our results confirm on real-world data that our greedy strategy minimizes costs while protecting against security and privacy threats of on-path adversaries. These findings may serve the LN community as guidelines for the deployment of VCs.
翻訳日:2024-05-10 18:44:57 公開日:2024-05-09
# 量子コンピューティング - 創造における新しい科学革命

Quantum Computing - A new scientific revolution in the making ( http://arxiv.org/abs/2106.11840v5 )

ライセンス: Link先を確認
Koen Bertels, Emma Turki, Tamara Sarac, Aritra Sarkar, Imran Ashraf, (参考訳) 高品質な量子処理ユニットを開発する時期が近づきつつあることを考えると、量子コンピューティング研究を前進させるアプローチを再考する時が来た。 量子ハードウェア技術が成熟するのを待つのではなく、様々な科学分野における量子コンピューティング、または量子コンピューティング論理(QC-Logic)の影響を正確に評価し始める必要がある。 これが字幕の由来である。 新しい科学革命が展開しています。 真に科学的進歩をするためには、NISQプログラムやフォローアップアプローチが提案しない追加的かつ補完的なアプローチを使う必要がある。 あらゆる分野における量子概念の定義、実装、およびテストは、素晴らしい作業であることに注意する必要があります。 主な理由は、QCがすべての科学分野で全体的な革命を起こし、それらのマシンが日常生活でどのように使われるかは非常に大きな課題であるからだ。 そこで我々は,最初のPISQ論文の完全更新を提案する。 完全中間スケール量子コンピューティング 完全量子ビットの概念に基づいた完全中間スケール量子コンピューティング。 N)FTQCは(Non)Fault-Tolerant Quantum Computingの略である。 これによって研究者は、完全量子ビットの観点でアルゴリズムを定義し、それらを2つの方法で評価することで、新しいアプリケーションの開発にのみ焦点を合わせることができる。 スーパーコンピュータやハードウェアベースの量子ビットチップ上で実行される量子コンピューティングシミュレータ上で実行される。 このアプローチは、この論文で説明します。 地球には長期的なビジョンと解決策が必要です。 大学や企業は、新しい量子アルゴリズムの開発を加速し、必要なノウハウを構築し、量子産業における重要なボトルネックの1つに対処することができる。

Given the impending timeline of developing good-quality quantum processing units, it is time to rethink the approach to advance quantum computing research. Rather than waiting for quantum hardware technologies to mature, we need to start assessing in tandem the impact of the occurrence of quantum computing, or rather Quantum Computing Logic (QC-Logic), on various scientific fields. This is where the subtitle comes from. A new scientific revolution is unfolding. In making real scientific progress, we need to use an additional and complementary approach, which the NISQ program or any follow-up approach does not propose. We must be aware that defining, implementing, and testing quantum concepts in any field is tremendous work. The main reason is that QC initiates an overall revolution in all scientific fields, and how those machines will be used in daily life is a very big challenge. That is why we propose a complete update of the first PISQ paper. We still advocate the additional PISQ approach: Perfect Intermediate-Scale Quantum computing based on a well-established concept of perfect qubits. We expand the quantum road map with (N)FTQC, which stands for (Non) Fault-Tolerant Quantum Computing. This will allow researchers to focus exclusively on developing new applications by defining the algorithms in terms of perfect qubits and evaluating them in two ways. Either executed on quantum computing simulators executed on supercomputers or hardware-based qubit chips. This approach will be explained in this paper. Our planet needs a long-term vision and solution. It will enable universities and companies alike to accelerate the development of new quantum algorithms, build the necessary know-how, and thus address one of the key bottlenecks within the quantum industry: the lack of talent to develop well-tested quantum applications.
翻訳日:2024-05-10 18:44:57 公開日:2024-05-09
# 人間とエージェントの協調における温かみと能力

Warmth and competence in human-agent cooperation ( http://arxiv.org/abs/2201.13448v4 )

ライセンス: Link先を確認
Kevin R. McKee, Xuechunzi Bai, Susan T. Fiske, (参考訳) 人間との相互作用と協力は人工知能(AI)研究の構想をまとめている。 近年の研究では、深層強化学習で訓練されたAIエージェントが人間と協調できることが示されている。 これらの研究は、主に、タスクパフォーマンス、信頼水準の潜在的な変動、異なるエージェントが注目する主観的嗜好といった「客観的な」指標を通じて、人間の互換性を評価する。 人とエージェントの協調において主観的嗜好を形成する要因をよりよく理解するために,2プレイヤーの社会的ジレンマであるCoinsで深層強化学習エージェントを訓練する。 我々は、人間とエージェントの協力研究のために、N = 501$の参加者を募集し、遭遇したエージェントの印象を測定する。 参加者の温かさと能力に対する認識は、客観的なパフォーマンス指標以上の、異なるエージェントに対する表現された嗜好を予測する。 社会科学と生物学の研究からインスピレーションを得て、我々はその後、あるエージェントとエピソードをプレイした後、参加者は次のエピソードを同じエージェントでプレイしたいか、または単独でプレイしたいかを尋ねられるように、新しい「パートナー選択」フレームワークを実装した。 表現された嗜好と同様に、社会的知覚は、客観的なパフォーマンスよりも、参加者の明らかな嗜好をよりよく予測する。 これらの結果を踏まえ、人間とエージェントのインタラクション研究者は日常的に、社会的知覚と主観的嗜好の測定を研究に取り入れることを推奨する。

Interaction and cooperation with humans are overarching aspirations of artificial intelligence (AI) research. Recent studies demonstrate that AI agents trained with deep reinforcement learning are capable of collaborating with humans. These studies primarily evaluate human compatibility through "objective" metrics such as task performance, obscuring potential variation in the levels of trust and subjective preference that different agents garner. To better understand the factors shaping subjective preferences in human-agent cooperation, we train deep reinforcement learning agents in Coins, a two-player social dilemma. We recruit $N = 501$ participants for a human-agent cooperation study and measure their impressions of the agents they encounter. Participants' perceptions of warmth and competence predict their stated preferences for different agents, above and beyond objective performance metrics. Drawing inspiration from social science and biology research, we subsequently implement a new ``partner choice'' framework to elicit revealed preferences: after playing an episode with an agent, participants are asked whether they would like to play the next episode with the same agent or to play alone. As with stated preferences, social perception better predicts participants' revealed preferences than does objective performance. Given these results, we recommend human-agent interaction researchers routinely incorporate the measurement of social perception and subjective preferences into their studies.
翻訳日:2024-05-10 18:44:57 公開日:2024-05-09
# 外部記憶を用いたマルチモーダルダイナミクスの連続学習

Continual Learning of Multi-modal Dynamics with External Memory ( http://arxiv.org/abs/2203.00936v4 )

ライセンス: Link先を確認
Abdullah Akgül, Gozde Unal, Melih Kandemir, (参考訳) そこで本研究では,新しい動作モードが順次出現した場合に,モデルが動的環境に適合する問題について検討する。 学習モデルは、いつ新しいモードが現れるかを認識するが、個々のトレーニングシーケンスの真のモードにアクセスすることはできない。 パラメータ転送は破滅的な干渉に悩まされ、エピソディックなメモリ設計は、シーケンスの基幹構造に関する知識を必要とするため、最先端の継続的学習アプローチでは、この設定には対応できない。 ニューラルエピソジックメモリにおいて、遭遇したシーケンスのモードの「textit{descriptor}」を維持することによって、両方の制限を克服する新しい連続学習法を考案する。 我々はメモリの重み付けに先立ってディリクレプロセスを採用し、モード記述子の効率的な保存を促進する。 本手法は,過去のタスクの類似モードの記述子を現在のシーケンスのモードに検索し,その記述子を制御入力として遷移カーネルに入力することにより,タスク間での知識の伝達による連続的な学習を行う。 本稿では,本手法の連続学習性能をメインストリームパラメータ転送手法と比較する。

We study the problem of fitting a model to a dynamical environment when new modes of behavior emerge sequentially. The learning model is aware when a new mode appears, but it cannot access the true modes of individual training sequences. The state-of-the-art continual learning approaches cannot handle this setup, because parameter transfer suffers from catastrophic interference and episodic memory design requires the knowledge of the ground-truth modes of sequences. We devise a novel continual learning method that overcomes both limitations by maintaining a \textit{descriptor} of the mode of an encountered sequence in a neural episodic memory. We employ a Dirichlet Process prior on the attention weights of the memory to foster efficient storage of the mode descriptors. Our method performs continual learning by transferring knowledge across tasks by retrieving the descriptors of similar modes of past tasks to the mode of a current sequence and feeding this descriptor into its transition kernel as control input. We observe the continual learning performance of our method to compare favorably to the mainstream parameter transfer approach.
翻訳日:2024-05-10 18:44:57 公開日:2024-05-09
# グラフ分類のためのグラフニューラルネットワークへのヘテロフィアの組み込み

Incorporating Heterophily into Graph Neural Networks for Graph Classification ( http://arxiv.org/abs/2203.07678v2 )

ライセンス: Link先を確認
Jiayi Yang, Sourav Medya, Wei Ye, (参考訳) グラフニューラルネットワーク(GNN)は、しばしばグラフ分類において強いホモフィリを仮定するが、しばしばヘテロフィリを考えることは滅多になく、連結ノードは異なるクラスラベルと異なる特徴を持つ傾向がある。 実世界のシナリオでは、グラフはホモフィリーとヘテロフィリーの両方を示すノードを持つ。 この設定を一般化することができないため、グラフ分類では多くのGNNが不十分である。 本稿では、3つの効果的な設計を識別し、IHGNNと呼ばれる新しいGNNアーキテクチャを開発することにより、この制限に対処する。 これらの設計には、ノードのエゴ埋め込みと隣り合う埋め込みの統合と分離の組み合わせ、異なる層からのノード埋め込みの適応的な集約、グラフレベルの読み出し関数を構築するための異なるノード埋め込みの区別が含まれる。 我々は、様々なグラフデータセット上でIHGNNを実証的に検証し、グラフ分類のための最先端のGNNよりも優れていることを示す。

Graph Neural Networks (GNNs) often assume strong homophily for graph classification, seldom considering heterophily, which means connected nodes tend to have different class labels and dissimilar features. In real-world scenarios, graphs may have nodes that exhibit both homophily and heterophily. Failing to generalize to this setting makes many GNNs underperform in graph classification. In this paper, we address this limitation by identifying three effective designs and develop a novel GNN architecture called IHGNN (short for Incorporating Heterophily into Graph Neural Networks). These designs include the combination of integration and separation of the ego- and neighbor-embeddings of nodes, adaptive aggregation of node embeddings from different layers, and differentiation between different node embeddings for constructing the graph-level readout function. We empirically validate IHGNN on various graph datasets and demonstrate that it outperforms the state-of-the-art GNNs for graph classification.
翻訳日:2024-05-10 18:39:09 公開日:2024-05-09
# 知識蒸留のための学生指向教員ネットワーク教育に向けて

Toward Student-Oriented Teacher Network Training For Knowledge Distillation ( http://arxiv.org/abs/2206.06661v2 )

ライセンス: Link先を確認
Chengyu Dong, Liyuan Liu, Jingbo Shang, (参考訳) 知識蒸留の教員養成の仕方はまだ未解決の問題である。 最高の成績の教師が必ずしも最高の成績の生徒を得るとは限らないことが広く知られており、現在の教員養成と理想的な教員養成戦略の根本的な相違が示唆されている。 このギャップを埋めるために,経験的リスク最小化(ERM)を用いて,学生のパフォーマンスを指向した教師の訓練の可能性を検討する。 本分析は, 知識蒸留の有効性が教師の学習入力の真のラベル分布を近似する能力に影響を及ぼすという最近の知見に着想を得たものである。 学習者のネットワークの特徴抽出器がLipschitz連続である限り、ERM最小化器はトレーニングデータの真のラベル分布を近似することができ、特徴変換に頑健である。 本稿では,リプシッツ正則化と整合性正則化をEMMに組み込んだ教員養成手法SoTeacherを提案する。 様々な知識蒸留アルゴリズムと教師と学生のペアを用いたベンチマークデータセットの実験は、SoTeacherが生徒の精度を一貫して改善できることを確認した。

How to conduct teacher training for knowledge distillation is still an open problem. It has been widely observed that a best-performing teacher does not necessarily yield the best-performing student, suggesting a fundamental discrepancy between the current teacher training practice and the ideal teacher training strategy. To fill this gap, we explore the feasibility of training a teacher that is oriented toward student performance with empirical risk minimization (ERM). Our analyses are inspired by the recent findings that the effectiveness of knowledge distillation hinges on the teacher's capability to approximate the true label distribution of training inputs. We theoretically establish that the ERM minimizer can approximate the true label distribution of training data as long as the feature extractor of the learner network is Lipschitz continuous and is robust to feature transformations. In light of our theory, we propose a teacher training method SoTeacher which incorporates Lipschitz regularization and consistency regularization into ERM. Experiments on benchmark datasets using various knowledge distillation algorithms and teacher-student pairs confirm that SoTeacher can improve student accuracy consistently.
翻訳日:2024-05-10 18:39:09 公開日:2024-05-09
# 指数的補正からブラックホールエントロピーへの量子幾何学の署名

Signatures of quantum geometry from exponential corrections to the black hole entropy ( http://arxiv.org/abs/2209.13383v2 )

ライセンス: Link先を確認
Soham Sen, Ashis Saha, Sunandan Gangopadhyay, (参考訳) 最近、[Phys. Lett. 125 (2020) 041302] で、ブラックホールの地平線上に位置する量子状態のマイクロステートカウントが、ブラックホールエントロピーのベッケンシュタイン-ホーキング形式の $\exp(-A/4l_p^2)$ の補正につながることが示されている。 本稿では,ブラックホールのエントロピーから所定の地平線半径の時空幾何の可能な形状を得るための新しい手法を開発する。 与えられたエネルギー-運動量テンソルに対するこの解の特異性についても議論されている。 興味深いことに、再構成されたブラックホールの幾何学は、非可換的に着想を得たシュワルツシルトブラックホール [Phys. Lett. B 632 (2006) 547] と類似している。 また、ブラックホールの熱力学から再構成した測度に対してアインシュタイン場方程式を用いて物質密度関数を得る。 これらはまた、非可換に着想を得たシュワルツシルトブラックホールの物質密度関数と類似している。 計量の共形構造を簡潔に議論し、ペンローズ・カーター図を描いている。 次に、有効ブラックホール幾何学のコマールエネルギーとスマール公式を計算し、非可換に着想を得たシュワルツシルトブラックホールのエネルギーと比較する。 また、この解の天体物理学的な意味についても論じる。 最後に、この研究で得られた時空解の1つを得る解として、量子アインシュタイン真空場方程式の集合を提案する。 次に、量子アインシュタイン真空場方程式とブラックホール熱力学の最初の法則の直接的な関係を示す。

It has been recently shown in [Phys. Rev. Lett. 125 (2020) 041302] that microstate counting carried out for quantum states residing on the horizon of a black hole leads to a correction of the form $\exp(-A/4l_p^2)$ in the Bekenstein-Hawking form of the black hole entropy. In this paper, we develop a novel approach to obtain the possible form of the spacetime geometry from the entropy of the black hole for a given horizon radius. The uniqueness of this solution for a given energy-momentum tensor has also been discussed. Remarkably, the black hole geometry reconstructed has striking similarities to that of noncommutative-inspired Schwarzschild black holes [Phys. Lett. B 632 (2006) 547]. We also obtain the matter density functions using Einstein field equations for the geometries we reconstruct from the thermodynamics of black holes. These also have similarities to that of the matter density function of a noncommutative-inspired Schwarzschild black hole. The conformal structure of the metric is briefly discussed and the Penrose-Carter diagram is drawn. We then compute the Komar energy and the Smarr formula for the effective black hole geometry and compare it with that of the noncommutative-inspired Schwarzschild black hole. We also discuss some astrophysical implications of the solutions. Finally, we propose a set of quantum Einstein vacuum field equations, as a solution of which we obtain one of the spacetime solutions obtained in this work. We then show a direct connection between the quantum Einstein vacuum field equations and the first law of black hole thermodynamics.
翻訳日:2024-05-10 18:39:09 公開日:2024-05-09
# セマンティックマスク世界モデルによるエンドツーエンドの都市自律走行のサンプル効率とロバスト性

Enhance Sample Efficiency and Robustness of End-to-end Urban Autonomous Driving via Semantic Masked World Model ( http://arxiv.org/abs/2210.04017v3 )

ライセンス: Link先を確認
Zeyu Gao, Yao Mu, Chen Chen, Jingliang Duan, Shengbo Eben Li, Ping Luo, Yanfeng Lu, (参考訳) エンドツーエンドの自律運転は、前面カメラから直接生の画素を信号にマッピングすることで、全体の運転システム性能を自動で最大化する手段を提供する。 最近の高度な手法は、高次元の観測結果をコンパクトな潜在空間にマッピングする潜在世界モデルを構築している。 しかし、従来の研究で提案された世界モデルに埋め込まれた潜伏状態には、大量のタスク関連情報が含まれており、サンプリング効率が低く、入力摂動に対する堅牢性が低い。 一方、トレーニングデータ分布は通常不均衡であり、学習されたポリシーは、運転中のコーナーケースに対処することが困難である。 上記の課題を解決するために,SEMantic Masked Recurrent World Model (SEM2)を提案する。セマンティック・マスクド・リカレント・ワールド・モデルでは,キー駆動関連特徴を抽出し,フィルタ機能を介して決定を行うセマンティック・フィルタを導入し,共通データと複数のコーナーケースデータを単一のバッチで集約するマルチソース・データ・サンプリング器を用いて訓練を行い,データの分散のバランスをとる。 CARLAの大規模実験により,提案手法はサンプル効率と入力順列に対する堅牢性の観点から,最先端の手法よりも優れていた。

End-to-end autonomous driving provides a feasible way to automatically maximize overall driving system performance by directly mapping the raw pixels from a front-facing camera to control signals. Recent advanced methods construct a latent world model to map the high dimensional observations into compact latent space. However, the latent states embedded by the world model proposed in previous works may contain a large amount of task-irrelevant information, resulting in low sampling efficiency and poor robustness to input perturbations. Meanwhile, the training data distribution is usually unbalanced, and the learned policy is challenging to cope with the corner cases during the driving process. To solve the above challenges, we present a SEMantic Masked recurrent world model (SEM2), which introduces a semantic filter to extract key driving-relevant features and make decisions via the filtered features, and is trained with a multi-source data sampler, which aggregates common data and multiple corner case data in a single batch, to balance the data distribution. Extensive experiments on CARLA show our method outperforms the state-of-the-art approaches in terms of sample efficiency and robustness to input permutations.
翻訳日:2024-05-10 18:39:09 公開日:2024-05-09
# IFDID:NLGにおけるダイバーシティ-フェースフルネストレードオフのための多様性改善デコードに基づく情報フィルタ

IFDID: Information Filter upon Diversity-Improved Decoding for Diversity-Faithfulness Tradeoff in NLG ( http://arxiv.org/abs/2210.13829v3 )

ライセンス: Link先を確認
Han Meng, Xiaosong He, Zexing Chen, Feng Zhou, (参考訳) いくつかの自然言語生成(NLG)タスクは、忠実さと多様性の両方を必要とする。 復号戦略は、生成されたテキストの品質に強く関係している。 ビームサーチ、グリーディサーチなどの戦略は、多様性が低く、反復性が低い。 一方、多様性への解決策であるガイド付き復号法は、不誠実な表現を生成する可能性がある。 そこで本稿では,多様性と忠実性のトレードオフを得るために,多様性改善復号化情報フィルタ(IFDID)を提案する。 IFDIDは、提案したEnhance-Filterフレームワークを利用した2段階のデコード戦略であり、選択される典型的なトークンの確率を高め、その情報量でフィルタリングすることでトレードオフを実現する。 本手法の有効性を検証するため,中国語と英語のデータセットをカバーするCommonGEN,RocStories,AdGenベンチマークの他のベースラインと比較した。 我々の数値実験結果と人的評価結果から提案手法の有効性が検証された。本手法は従来のアプローチよりもDist-2より62.5%高い忠実度を示すROUGEスコアと62.5%高い多様性を示すROUGEスコアを達成し,IFDIDが多様性と忠実性のトレードオフのための新しいSOTAデコーディング戦略であることを実証した。

Some Natural Language Generation (NLG) tasks require both faithfulness and diversity. The decoding strategy is intensively related to the quality of the generated text. Strategies such as beam search, greedy search, etc., perform with low diversity and high repetition. On the other hand, guided decoding, the solution towards diversity, may generate unfaithful expressions. To this end, this paper presents Information Filter upon Diversity-Improved Decoding (IFDID) to obtain the tradeoff between diversity and faithfulness. IFDID is a two-stage decoding strategy leveraging the proposed Enhance-Filter framework, which achieves the tradeoff by increasing the probabilities of some typical tokens being selected and subsequently filtering them by their information amount. To verify the effectiveness, we compare our method with other baselines on related CommonGEN, RocStories and AdGen benchmarks, which cover Chinese and English datasets. Our numerical experimental results and human evaluation outcomes verify the effectiveness of the proposed approach, as our approach achieves a 1.24 higher ROUGE score describing faithfulness as well as higher diversity represented by 62.5% higher upon Dist-2 than traditional approaches, demonstrating that IFDID is a novel SOTA decoding strategy for the tradeoff between diversity and faithfulness.
翻訳日:2024-05-10 18:39:09 公開日:2024-05-09
# $k$EPR-pairsを$n$-partyのリソース状態から生成する

Generating $k$ EPR-pairs from an $n$-party resource state ( http://arxiv.org/abs/2211.06497v5 )

ライセンス: Link先を確認
Sergey Bravyi, Yash Sharma, Mario Szegedy, Ronald de Wolf, (参考訳) 古典的なチャネル上の量子ネットワークアプリケーションによってモチベーションを得て、LOCCプロトコルが任意の$k$非結合のパーティ間でEPRペアを作成できる$n$のパーティリソース状態の研究を開始する。 我々は、$k$が最適な$n/2$からそれほど遠くない状態の構成を与え、一方、個々のパーティは一定数の量子ビットしか持たなければならない。 各パーティが1量子ビットしか持たない特別なケースでは、$k=$\log n$に比例する$n$-qubit状態の族と、$k=2$と$k=3$の小さな数値的な例を記述します。 例えば、$k=n/2$ ならば、当事者は少なくとも$\Omega(\log\log n)$ qubits を持つ必要がある。

Motivated by quantum network applications over classical channels, we initiate the study of $n$-party resource states from which LOCC protocols can create EPR-pairs between any $k$ disjoint pairs of parties. We give constructions of such states where $k$ is not too far from the optimal $n/2$ while the individual parties need to hold only a constant number of qubits. In the special case when each party holds only one qubit, we describe a family of $n$-qubit states with $k$ proportional to $\log n$ based on Reed-Muller codes, as well as small numerically found examples for $k=2$ and $k=3$. We also prove some lower bounds, for example showing that if $k=n/2$ then the parties must have at least $\Omega(\log\log n)$ qubits each.
翻訳日:2024-05-10 18:39:09 公開日:2024-05-09
# 正規化スタイン変分勾配流

Regularized Stein Variational Gradient Flow ( http://arxiv.org/abs/2211.07861v2 )

ライセンス: Link先を確認
Ye He, Krishnakumar Balasubramanian, Bharath K. Sriperumbudur, Jianfeng Lu, (参考訳) Stein Variational Gradient Descent (SVGD)アルゴリズムは、サンプリングのための決定論的粒子法である。 しかし、平均場解析により、SVGDアルゴリズム(すなわち、スタイン変分勾配流)に対応する勾配流は、KL偏差最小化に対応するワッサーシュタイン勾配流にのみ定階近似を与えることが明らかになった。 本研究では,定常変分勾配流とワッサーシュタイン勾配流を補間する正規化スタイン変分勾配流を提案する。 我々は、平衡への収束、弱解の存在と一意性、解の安定性を含む正規化スタイン変分勾配流(およびその時間分散)の様々な理論的性質を確立する。 正規化による性能向上の予備的な数値的証拠を提供する。

The Stein Variational Gradient Descent (SVGD) algorithm is a deterministic particle method for sampling. However, a mean-field analysis reveals that the gradient flow corresponding to the SVGD algorithm (i.e., the Stein Variational Gradient Flow) only provides a constant-order approximation to the Wasserstein Gradient Flow corresponding to the KL-divergence minimization. In this work, we propose the Regularized Stein Variational Gradient Flow, which interpolates between the Stein Variational Gradient Flow and the Wasserstein Gradient Flow. We establish various theoretical properties of the Regularized Stein Variational Gradient Flow (and its time-discretization) including convergence to equilibrium, existence and uniqueness of weak solutions, and stability of the solutions. We provide preliminary numerical evidence of the improved performance offered by the regularization.
翻訳日:2024-05-10 18:39:09 公開日:2024-05-09
# ハイパースペクトル画像の深部多様性による特徴表現

Deep Diversity-Enhanced Feature Representation of Hyperspectral Images ( http://arxiv.org/abs/2301.06132v3 )

ライセンス: Link先を確認
Jinhui Hou, Zhiyu Zhu, Junhui Hou, Hui Liu, Huanqiang Zeng, Deyu Meng, (参考訳) 本稿では,高スペクトル(HS)画像の高次元スペクトル情報を特徴多様性によって導出する問題を効率よく,効果的に埋め込む問題について検討する。 具体的には、機能多様性が展開されたカーネル行列のランクと相関する理論的な定式化に基づいて、そのトポロジを変更して3次元の畳み込みを修正し、上位バウンドを強化する。 この修正により、階数付き空間スペクトル対称畳み込み集合(ReS$^3$-ConvSet)が得られ、多彩で強力な特徴表現を学習するだけでなく、ネットワークパラメータも節約する。 また,要素間の独立性を最大化するために,特徴マップに直接作用する新しい多様性対応正規化(DA-Reg)についても提案する。 提案したReS$^3$-ConvSet と DA-Reg の優位性を実証するために,様々な HS 画像処理および解析タスクに適用する。 大規模実験により,提案手法は定量的にも定性的にも有意な性能を発揮した。 コードはhttps://github.com/jinnh/ReSSS-ConvSetで公開されている。

In this paper, we study the problem of efficiently and effectively embedding the high-dimensional spatio-spectral information of hyperspectral (HS) images, guided by feature diversity. Specifically, based on the theoretical formulation that feature diversity is correlated with the rank of the unfolded kernel matrix, we rectify 3D convolution by modifying its topology to enhance the rank upper-bound. This modification yields a rank-enhanced spatial-spectral symmetrical convolution set (ReS$^3$-ConvSet), which not only learns diverse and powerful feature representations but also saves network parameters. Additionally, we also propose a novel diversity-aware regularization (DA-Reg) term that directly acts on the feature maps to maximize independence among elements. To demonstrate the superiority of the proposed ReS$^3$-ConvSet and DA-Reg, we apply them to various HS image processing and analysis tasks, including denoising, spatial super-resolution, and classification. Extensive experiments show that the proposed approaches outperform state-of-the-art methods both quantitatively and qualitatively to a significant extent. The code is publicly available at https://github.com/jinnh/ReSSS-ConvSet.
翻訳日:2024-05-10 18:39:09 公開日:2024-05-09
# 協調したオンライン行動の時間的ダイナミクス:安定性、アーチタイプ、および影響

Temporal Dynamics of Coordinated Online Behavior: Stability, Archetypes, and Influence ( http://arxiv.org/abs/2301.06774v2 )

ライセンス: Link先を確認
Serena Tardelli, Leonardo Nizzoli, Maurizio Tesconi, Mauro Conti, Preslav Nakov, Giovanni Da San Martino, Stefano Cresci, (参考訳) 大規模オンラインキャンペーンは、悪意の有無にかかわらず、参加者間でかなりの調整を必要とするため、協調したオンライン行動の研究への関心が高まった。 協調行動を検出する最先端の手法は、協調の時間的ダイナミクスを無視して静的解析を行う。 ここでは,協調行動の最初の動的解析を行う。 目標を達成するために,複数の時間的ネットワークを構築し,動的コミュニティ検出を行い,協調行動を示すユーザのグループを時間内に識別する。 私たちの新しいアプローチのおかげで、私たちはそれを見つけました。 一 調整された共同体は、時間的不安定度の変動を特徴とする。 (II)このような不安定性を考慮するためには動的解析が必要であり、静的解析の結果は信頼性が低く、不安定なコミュニティをほとんど代表していない。 三 利用者によっては、重要な実用上の意味を持つ別個の考古学的行動を示す者。 (4) コンテンツとネットワークの特徴は, ユーザがなぜコーディネートされたコミュニティを離れ, 参加するのかを説明するのに寄与する。 本研究は, オンライン討論の展開, 協調コミュニティの戦略, オンライン影響のパターンについて, 動的分析の利点を実証し, 新たな方向性を探るものである。

Large-scale online campaigns, malicious or otherwise, require a significant degree of coordination among participants, which sparked interest in the study of coordinated online behavior. State-of-the-art methods for detecting coordinated behavior perform static analyses, disregarding the temporal dynamics of coordination. Here, we carry out the first dynamic analysis of coordinated behavior. To reach our goal we build a multiplex temporal network and we perform dynamic community detection to identify groups of users that exhibited coordinated behaviors in time. Thanks to our novel approach we find that: (i) coordinated communities feature variable degrees of temporal instability; (ii) dynamic analyses are needed to account for such instability, and results of static analyses can be unreliable and scarcely representative of unstable communities; (iii) some users exhibit distinct archetypal behaviors that have important practical implications; (iv) content and network characteristics contribute to explaining why users leave and join coordinated communities. Our results demonstrate the advantages of dynamic analyses and open up new directions of research on the unfolding of online debates, on the strategies of coordinated communities, and on the patterns of online influence.
翻訳日:2024-05-10 18:39:09 公開日:2024-05-09
# 合成データに対する属性推論攻撃に対する線形再構成手法

A Linear Reconstruction Approach for Attribute Inference Attacks against Synthetic Data ( http://arxiv.org/abs/2301.10053v3 )

ライセンス: Link先を確認
Meenatchi Sundaram Muthu Selva Annamalai, Andrea Gadotti, Luc Rocher, (参考訳) 近年の合成データ生成(SDG)の進歩は、プライバシーを保護しながら機密データを共有することの難しい問題に対する解決法として評価されている。 SDGは、構造的・統計的にセンシティブなデータに類似した「人工的な」データを生成するために、実際のデータの統計的特性を学習することを目的としている。 しかし、以前の研究では、合成データに対する推論攻撃はプライバシーを損なう可能性があるが、特定の外れ値の記録に限られていることが示唆されている。 本研究では,合成データに対する新たな属性推論攻撃を提案する。 この攻撃は、アグリゲーション統計のための線形再構成手法に基づいており、データセット内のすべてのレコードをターゲットにしている。 我々は,確率的グラフィカルモデル,ジェネレーティブ・アドバイサル・ネットワーク,最近の差分的SDG機構など,最先端のSDGアルゴリズムに対する攻撃を評価した。 フォーマルなプライバシゲームを定義することで、攻撃は任意のレコードでも極めて正確であり、これは(人口レベルの推測とは対照的に)個々の情報漏洩の結果であることを示す。 次に、プライバシ保護と統計ユーティリティ保護のトレードオフを体系的に評価する。 以上の結果から,現在のSDG法は適切な実用性を維持しつつも,推論攻撃に対する十分なプライバシ保護を提供してはならないことが示唆された。 評価された最良の方法は、差分的にプライベートなSDGメカニズムであり、推論攻撃に対する保護と合理的なユーティリティの両方を提供するが、非常に特定の設定でのみ提供される。 最後に、より多くの合成レコードをリリースすることで、実用性を向上させることができるが、攻撃を効果的にするコストがはるかに高いことを示す。

Recent advances in synthetic data generation (SDG) have been hailed as a solution to the difficult problem of sharing sensitive data while protecting privacy. SDG aims to learn statistical properties of real data in order to generate "artificial" data that are structurally and statistically similar to sensitive data. However, prior research suggests that inference attacks on synthetic data can undermine privacy, but only for specific outlier records. In this work, we introduce a new attribute inference attack against synthetic data. The attack is based on linear reconstruction methods for aggregate statistics, which target all records in the dataset, not only outliers. We evaluate our attack on state-of-the-art SDG algorithms, including Probabilistic Graphical Models, Generative Adversarial Networks, and recent differentially private SDG mechanisms. By defining a formal privacy game, we show that our attack can be highly accurate even on arbitrary records, and that this is the result of individual information leakage (as opposed to population-level inference). We then systematically evaluate the tradeoff between protecting privacy and preserving statistical utility. Our findings suggest that current SDG methods cannot consistently provide sufficient privacy protection against inference attacks while retaining reasonable utility. The best method evaluated, a differentially private SDG mechanism, can provide both protection against inference attacks and reasonable utility, but only in very specific settings. Lastly, we show that releasing a larger number of synthetic records can improve utility but at the cost of making attacks far more effective.
翻訳日:2024-05-10 18:39:09 公開日:2024-05-09
# フォトニック導波路における非エルミートSu-シュリーファー-ヘーガーモデルにおける対称性の破れと復活

Breaking and resurgence of symmetry in the non-Hermitian Su-Schrieffer-Heeger model in photonic waveguides ( http://arxiv.org/abs/2304.05748v4 )

ライセンス: Link先を確認
E. Slootman, W. Cherifi, L. Eek, R. Arouca, E. J. Bergholtz, M. Bourennane, C. Morais Smith, (参考訳) 対称性は現代物理学の基盤の1つであり、異なる領域に深く影響している。 対称性に保護されたトポロジカルシステムでは、対称性はこれらの物質によって示される魅力的な性質の中心である表面状態の保護に責任を負う。 エッジモードを保護する対称性が壊れると、位相位相は自明になる。 トポロジカルエルミート相を保護する対称性を破る工学的損失により、新しい真の非エルミート対称性が出現し、トポロジカルモノモデ(英語版)という境界モードの1つを保護し、選択することを示した。 さらに、非エルミート系の位相はより高次元のヘルミート・ハミルトニアンによって特徴づけられる。 この理論を裏付けるために,フォトニック格子を用いた非エルミート 1D と 2D SSH モデルを実験的に検討し,どちらの場合においても動的に生成するモノモデムを観察した。 系を(非エルミート)対称性で分類し、対応する位相不変量を計算する。

Symmetry is one of the cornerstones of modern physics and has profound implications in different areas. In symmetry-protected topological systems, symmetries are responsible for protecting surface states, which are at the heart of the fascinating properties exhibited by these materials. When the symmetry protecting the edge mode is broken, the topological phase becomes trivial. By engineering losses that break the symmetry protecting a topological Hermitian phase, we show that a new genuinely non-Hermitian symmetry emerges, which protects and selects one of the boundary modes: the topological monomode. Moreover, the topology of the non-Hermitian system can be characterized by an effective Hermitian Hamiltonian in a higher dimension. To corroborate the theory, we experimentally investigated the non-Hermitian 1D and 2D SSH models using photonic lattices and observed dynamically generated monomodes in both cases. We classify the systems in terms of the (non-Hermitian) symmetries that are present and calculate the corresponding topological invariants.
翻訳日:2024-05-10 18:39:09 公開日:2024-05-09
# 変換論理

The Transformation Logics ( http://arxiv.org/abs/2304.09639v2 )

ライセンス: Link先を確認
Alessandro Ronca, (参考訳) 表現性と複雑性のトレードオフを微妙にバランスさせるように設計された、時間論理の新しいファミリーを導入する。 彼らの重要な特徴は、変換演算子と呼ばれる新しい種類の演算子を定義する可能性である。 中には既存の時間演算子を仮定するものもあるが、全く新しいものもいる。 特に興味深いのは半群に基づく変換作用素である。 それらの論理は半群理論のリッチネスを生かし、既存の論理を特徴づけることのできない表現性や複雑性を増大させる階層を生成することができる論理を得られることを示す。 その結果は、時間論理の真に斬新で未解明の風景であり、それぞれが、特定のアプリケーションに必要な表現性と複雑性の間のトレードオフに一致する可能性を持っている。

We introduce a new family of temporal logics designed to finely balance the trade-off between expressivity and complexity. Their key feature is the possibility of defining operators of a new kind that we call transformation operators. Some of them subsume existing temporal operators, while others are entirely novel. Of particular interest are transformation operators based on semigroups. They enable logics to harness the richness of semigroup theory, and we show them to yield logics capable of creating hierarchies of increasing expressivity and complexity which are non-trivial to characterise in existing logics. The result is a genuinely novel and yet unexplored landscape of temporal logics, each of them with the potential of matching the trade-off between expressivity and complexity required by specific applications.
翻訳日:2024-05-10 18:29:02 公開日:2024-05-09
# COURIER:大規模ビジュアルレコメンデーションのためのコントラスト的ユーザインテンション再構築

COURIER: Contrastive User Intention Reconstruction for Large-Scale Visual Recommendation ( http://arxiv.org/abs/2306.05001v2 )

ライセンス: Link先を確認
Jia-Qi Yang, Chenglei Dai, Dan OU, Dongshuai Li, Ju Huang, De-Chuan Zhan, Xiaoyi Zeng, Yang Yang, (参考訳) マルチメディアインターネットの普及に伴い、オンライン小売業界内でのクリックの有無の決定に対する視覚的特徴の影響はますます顕著である。 したがって、視覚的特徴を取り入れることで、クリックスルーレート(CTR)のさらなるパフォーマンス向上が期待できる。 しかし,本システムを用いた実験により,既存の事前学習法で訓練した画像埋め込みを単に注入するだけで限界改善が得られた。 既存の画像特徴事前学習法の主な利点は、モーダル横断予測の有効性にあると信じている。 しかし、これはレコメンデーションシステムにおけるCTR予測の課題とは大きく異なる。 レコメンデーションシステムでは、他のモダリティ(テキストなど)を下流モデルの機能として直接使用することができる。 クロスモーダル予測タスクの性能が優れているとしても、下流モデルに重要な情報を提供するのは難しい。 我々は、既存のモダリティ機能を超えたさらなる改善のために、推奨に適した視覚的特徴事前学習法が必要であると論じる。 そこで本稿では,行動履歴からユーザ興味に関連する視覚的特徴を抽出する効果的なユーザ意図再構築モジュールを提案する。 さらに,ユーザの意図を学習し,埋め込みベクトルの崩壊を防止するための対照的な学習手法を提案する。 提案手法がユーザの視覚的興味を学習可能であることを確認するため,公開データセットと生産システムに関する広範な実験的な評価を行った。 提案手法は, オフラインAUCでは0.46.%, タオオGEVでは0.88.%, p-値では0.01である。

With the advancement of multimedia internet, the impact of visual characteristics on the decision of users to click or not within the online retail industry is increasingly significant. Thus, incorporating visual features is a promising direction for further performance improvements in click-through rate (CTR). However, experiments on our production system revealed that simply injecting the image embeddings trained with established pre-training methods only has marginal improvements. We believe that the main advantage of existing image feature pre-training methods lies in their effectiveness for cross-modal predictions. However, this differs significantly from the task of CTR prediction in recommendation systems. In recommendation systems, other modalities of information (such as text) can be directly used as features in downstream models. Even if the performance of cross-modal prediction tasks is excellent, it is challenging to provide significant information gain for the downstream models. We argue that a visual feature pre-training method tailored for recommendation is necessary for further improvements beyond existing modality features. To this end, we propose an effective user intention reconstruction module to mine visual features related to user interests from behavior histories, which constructs a many-to-one correspondence. We further propose a contrastive training method to learn the user intentions and prevent the collapse of embedding vectors. We conduct extensive experimental evaluations on public datasets and our production system to verify that our method can learn users' visual interests. Our method achieves $0.46\%$ improvement in offline AUC and $0.88\%$ improvement in Taobao GMV (Cross Merchandise Volume) with p-value$<$0.01.
翻訳日:2024-05-10 18:29:02 公開日:2024-05-09
# デコヒーレンス自由部分空間におけるカー効果に基づく量子論理ゲート

Kerr-effect-based quantum logical gates in decoherence-free subspace ( http://arxiv.org/abs/2306.05625v5 )

ライセンス: Link先を確認
Fang-Fang Du, Gang Fan, Xue-Mei Ren, (参考訳) システムと環境のカップリングによるデコヒーレンス効果は、量子情報処理における2つの(または3つの)量子ビット論理ゲートの効率的な実装におけるエラーにつながる。 幸いなことに、decoherence-free subspace (DFS) が導入されたことにより、decoherence効果の影響を効果的に低減することができる。 本稿では,DFSにおけるクロスカー非線形性を用いて,2つないし3つの論理量子ビットに対して,制御NOT(CNOT),トフォリ,フレドキンゲートなどの量子制御ゲートの族を設定する手法を提案する。 これら3つの論理ゲートは複雑な量子計算回路も補助光子(あるいは絡み合った状態)も必要としない。 3つの論理ゲートの成功確率は、X-ホモジン検出器の異なる測定結果に基づいて、対応する古典的フィードフォワード演算を行うことで近似1であり、その忠実度は、現在の技術による光子損失に対して堅牢である。 提案する論理ゲートは, 単純な線形光学素子, 利用可能な単一量子ビット演算, 成熟度測定方法のみに依存しており, 実用上, 有効である。

The decoherence effect caused by the coupling between the system and the environment undoubtedly leads to the errors in efficient implementations of two (or three) qubit logical gates in quantum information processing. Fortunately, decoherence-free subspace (DFS) introduced can effectively decrease the influence of decoherence effect. In this paper, we propose some schemes for setting up a family of quantum control gates, including controlled-NOT (CNOT), Toffoli, and Fredkin gates for two or three logical qubits by means of cross-Kerr nonlinearities in DFS. These three logical gates require neither complicated quantum computational circuits nor auxiliary photons (or entangled states). The success probabilities of three logical gates are approximate 1 by performing the corresponding classical feed-forward operations based on the different measuring results of the X-homodyne detectors, and their fidelities are robust against the photon loss with the current technology. The proposed logical gates rely on only simple linear-optics elements, available single-qubit operations, and mature measurement methods, making our proposed gates be feasible and efficient in practical applications.
翻訳日:2024-05-10 18:29:02 公開日:2024-05-09
# 遺伝子発現値を用いた癌予後予測のためのコントラスト学習

Contrastive Learning for Predicting Cancer Prognosis Using Gene Expression Values ( http://arxiv.org/abs/2306.06276v3 )

ライセンス: Link先を確認
Anchen Sun, Elizabeth J. Franzmann, Zhibin Chen, Xiaodong Cai, (参考訳) 近年、画像分類の進歩により、限られたデータサンプルから優れた特徴表現を取得することで、コントラスト学習(CL)がさらなる学習作業を支援することが示されている。 本稿では,腫瘍の転写産物と臨床データにCLを適用し,低次元空間における特徴表現を学習した。 腫瘍を高頻度または低リスクの再発群に分類するための分類器の訓練にこれらの特徴を利用した。 The Cancer Genome Atlas (TCGA)のデータを用いて,CLは分類精度を大幅に向上できることを示した。 具体的には,14種類の癌では,AUCが0.8以上,2種類の癌では0.9以上であった。 また,癌予後を予測するためのCL-based Cox (CLCox) モデルも開発した。 CLCox モデルは,TGA データを用いて訓練し,既存手法よりも有意な性能を示し,検討中の19種類のがんの予後を予測することができた。 TCGA肺および前立腺癌データを訓練したCLCoxモデルとCLベースの分類器の性能を,2つの独立したコホートのデータを用いて検証した。 また,全転写産物で訓練したCLCoxモデルは,乳がん患者に対する臨床応用であるOncotype DXの21遺伝子で訓練したCoxモデルよりも有意に優れていた。 19種類の癌に対するCLベースの分類器およびCLCoxモデルは公開されており、個々の腫瘍のRNA-seq transcriptomeを用いて癌予後を予測するのに使用できる。 モデルトレーニングとテストのためのPythonコードも公開されており、腫瘍の遺伝子発現データを使用して新しいCLベースのモデルのトレーニングに使用することができる。

Recent advancements in image classification have demonstrated that contrastive learning (CL) can aid in further learning tasks by acquiring good feature representation from a limited number of data samples. In this paper, we applied CL to tumor transcriptomes and clinical data to learn feature representations in a low-dimensional space. We then utilized these learned features to train a classifier to categorize tumors into a high- or low-risk group of recurrence. Using data from The Cancer Genome Atlas (TCGA), we demonstrated that CL can significantly improve classification accuracy. Specifically, our CL-based classifiers achieved an area under the receiver operating characteristic curve (AUC) greater than 0.8 for 14 types of cancer, and an AUC greater than 0.9 for 2 types of cancer. We also developed CL-based Cox (CLCox) models for predicting cancer prognosis. Our CLCox models trained with the TCGA data outperformed existing methods significantly in predicting the prognosis of 19 types of cancer under consideration. The performance of CLCox models and CL-based classifiers trained with TCGA lung and prostate cancer data were validated using the data from two independent cohorts. We also show that the CLCox model trained with the whole transcriptome significantly outperforms the Cox model trained with the 21 genes of Oncotype DX that is in clinical use for breast cancer patients. CL-based classifiers and CLCox models for 19 types of cancer are publicly available and can be used to predict cancer prognosis using the RNA-seq transcriptome of an individual tumor. Python codes for model training and testing are also publicly accessible, and can be applied to train new CL-based models using gene expression data of tumors.
翻訳日:2024-05-10 18:29:02 公開日:2024-05-09
# TransCoder: 人間のスキルに触発された統一トランスファー可能なコード表現学習を目指して

TransCoder: Towards Unified Transferable Code Representation Learning Inspired by Human Skills ( http://arxiv.org/abs/2306.07285v2 )

ライセンス: Link先を確認
Qiushi Sun, Nuo Chen, Jianing Wang, Xiang Li, Ming Gao, (参考訳) CodePTM(Code Pre-trained Model)は、コードクローン検出、コード翻訳、コード要約など、さまざまなソフトウェアインテリジェンスタスクを処理するための確固たる能力を示している。 これらのモデルを下流タスクにデプロイする現在の主流の方法は、個々のタスクでそれらを微調整することです。 そこで本論文では,コード表現学習のためのTranscoderを統一した微調整戦略として提案する。 知識一般化の人間固有のスキルにインスパイアされたTransCoderは、人間プログラマのようなコード関連のメタ知識を学習するためにモデルを駆動する。 具体的には,教師付きプレフィックスエンコーダをメタラーナとして使用し,クロスタスクとクロス言語変換可能な知識をそれぞれ取得する。 さらに、小さなトレーニングサンプルサイズと小さなコーパスを持つ言語を持つタスクは、我々のアプローチから著しく恩恵を受けることができる。 ベンチマークデータセットを用いた大規模な実験により,提案手法が様々なコード関連タスクの性能向上に寄与し,相互強化を促進できることが示された。 また、TransCoderは低リソースのシナリオにも適用可能であることを示す。 私たちのコードはhttps://github.com/QiushiSun/TransCoder.comで利用可能です。

Code pre-trained models (CodePTMs) have recently demonstrated a solid capacity to process various software intelligence tasks, e.g., code clone detection, code translation, and code summarization. The current mainstream method that deploys these models to downstream tasks is to fine-tune them on individual tasks, which is generally costly and needs sufficient data for large models. To tackle the issue, in this paper, we present TransCoder, a unified Transferable fine-tuning strategy for Code representation learning. Inspired by human inherent skills of knowledge generalization, TransCoder drives the model to learn better code-related meta-knowledge like human programmers. Specifically, we employ a tunable prefix encoder as the meta-learner to capture cross-task and cross-language transferable knowledge, respectively. Besides, tasks with minor training sample sizes and languages with small corpus can be remarkably benefited from our approach. Extensive experiments conducted on benchmark datasets clearly demonstrate that our method can lead to superior performance on various code-related tasks and encourage mutual reinforcement. We also show that TransCoder is applicable in low-resource scenarios. Our codes are available at https://github.com/QiushiSun/TransCoder.
翻訳日:2024-05-10 18:29:02 公開日:2024-05-09
# 周期駆動系における損失誘起一方向輸送

Loss-induced universal one-way transport in periodically driven systems ( http://arxiv.org/abs/2306.10000v2 )

ライセンス: Link先を確認
Chang Shu, Kai Zhang, Kai Sun, (参考訳) 本稿では,不均衡なオンサイトゲイン/ロスを持つ周期的に駆動されるオーブリー・アンドルー・ハーパーモデルが,不純物に免疫し,初期励起に依存しない普遍的な片道輸送をサポートすることを示す。 Floquet Hamiltonian において,周期駆動が非エルミート皮膚効果を生じさせるメカニズムを明らかにする。 さらに,Floquet創発性非エルミート皮膚効果の指標として,長期のバルク力学下でのプロパゲータの平均崩壊速度を調べた。 この結果は,実験に容易にアクセス可能なユニバーサル片道輸送を実現するための,実現可能かつ制御可能な手段を提供する。

In this paper, we show that a periodically driven Aubry-Andr\'e-Harper model with imbalanced on-site gain/loss supports universal one-way transport that is immune to impurities and independent of initial excitations. We reveal the underlying mechanism that the periodic driving gives rise to the non-Hermitian skin effect in the effective Floquet Hamiltonian, thereby causing universal non-reciprocal transport. Additionally, we probe the time-average decay rate of the propagator under long-time bulk dynamics as a signature of the Floquet emergent non-Hermitian skin effect. Our results provide a feasible and controllable way to realize universal one-way transport that is easily accessible to experiments.
翻訳日:2024-05-10 18:29:02 公開日:2024-05-09
# ランダム正規グラフ上のアンダーソンモデルの正規化群解析

Renormalization Group Analysis of the Anderson Model on Random Regular Graphs ( http://arxiv.org/abs/2306.14965v3 )

ライセンス: Link先を確認
Carlo Vanoni, Boris L. Altshuler, Vladimir E. Kravtsov, Antonello Scardicchio, (参考訳) 我々は、Abrahams, Anderson, Licciardello, Ramakrishnan の正規化群を無限次元グラフに一般化するランダム正則グラフ (RRG) 上のアンダーソン局所化問題に関する再正規化群解析を行う。 再正規化群方程式は必然的に2つのパラメータ(1つは部分木の接続性の変化である)を含むが、固有状態とスペクトル可観測物の両方に対して十分に大きなシステムサイズに対して1パラメータのスケーリング仮説が復元されることを示す。 また, 動的およびスペクトル量の非単調な挙動を, 遷移に近い障害値に対するシステムサイズ関数として説明し, 異なる符号の動作フラクタル次元のベータ関数と機能的依存の2項を同定した。 我々の理論は、RRG上のアンダーソンモデルの数値データとMulti-Body Localizationの数値データで観察される異常なスケーリング挙動について、単純で一貫した説明を提供する。

We present a renormalization group analysis of the problem of Anderson localization on a Random Regular Graph (RRG) which generalizes the renormalization group of Abrahams, Anderson, Licciardello, and Ramakrishnan to infinite-dimensional graphs. The renormalization group equations necessarily involve two parameters (one being the changing connectivity of sub-trees), but we show that the one-parameter scaling hypothesis is recovered for sufficiently large system sizes for both eigenstates and spectrum observables. We also explain the non-monotonic behavior of dynamical and spectral quantities as a function of the system size for values of disorder close to the transition, by identifying two terms in the beta function of the running fractal dimension of different signs and functional dependence. Our theory provides a simple and coherent explanation for the unusual scaling behavior observed in numerical data of the Anderson model on RRG and of Many-Body Localization.
翻訳日:2024-05-10 18:29:02 公開日:2024-05-09
# エコー法によるコヒーレント非断熱遷移の仮想緩和

Virtual mitigation of coherent non-adiabatic transitions by echo verification ( http://arxiv.org/abs/2307.10358v3 )

ライセンス: Link先を確認
Benjamin F. Schiffer, Dyon van Vreumingen, Jordi Tura, Stefano Polla, (参考訳) 地上空間からの遷移は量子断熱アルゴリズムの性能を制限するが、ハードウェアの不完全性は回路深さに厳しい制限を課す。 非断熱遷移とハードウェアノイズから生じるコヒーレントエラーと不整脈エラーの両方を緩和する断熱エコー検証プロトコルを提案する。 準アディバティカルに前方と後方に進化することで、観測可能なものについてエコーで検証された測定が可能となる。 ハードウェアノイズの軽減に加えて,本手法では正時ダイナミクスのみを用いる。 重要なことは、標準的な断熱製剤と比較して観測可能量の推定器バイアスが小さくなり、二次的な改善が達成される。

Transitions out of the ground space limit the performance of quantum adiabatic algorithms, while hardware imperfections impose stringent limitations on the circuit depth. We propose an adiabatic echo verification protocol which mitigates both coherent and incoherent errors, arising from non-adiabatic transitions and hardware noise, respectively. Quasi-adiabatically evolving forward and backwards allows for an echo-verified measurement of any observable. In addition to mitigating hardware noise, our method uses positive-time dynamics only. Crucially, the estimator bias of the observable is reduced when compared to standard adiabatic preparation, achieving up to a quadratic improvement.
翻訳日:2024-05-10 18:29:02 公開日:2024-05-09
# 感性分析のためのマルチモーダル多損失核融合ネットワーク

Multimodal Multi-loss Fusion Network for Sentiment Analysis ( http://arxiv.org/abs/2308.00264v3 )

ライセンス: Link先を確認
Zehui Wu, Ziwei Gong, Jaywon Koo, Julia Hirschberg, (参考訳) 本稿では,複数のモードにまたがる特徴エンコーダの最適選択と融合について検討し,これらを1つのニューラルネットワークに組み合わせて感情検出を改善する。 我々は,異なる融合法を比較し,マルチモダリティ融合ネットワークにおけるマルチロストレーニングの影響について検討し,サブネットの性能に関する驚くほど重要な知見を同定した。 また、コンテキストの統合によってモデルの性能が大幅に向上することがわかりました。 本モデルでは,3つのデータセット(CMU-MOSI,CMU-MOSEI,CH-SIMS)の最先端性能を実現する。 これらの結果は、ニューラルネットワークにおける感情検出を強化するために、最適化された特徴選択と融合アプローチに向けたロードマップを示唆している。

This paper investigates the optimal selection and fusion of feature encoders across multiple modalities and combines these in one neural network to improve sentiment detection. We compare different fusion methods and examine the impact of multi-loss training within the multi-modality fusion network, identifying surprisingly important findings relating to subnet performance. We have also found that integrating context significantly enhances model performance. Our best model achieves state-of-the-art performance for three datasets (CMU-MOSI, CMU-MOSEI and CH-SIMS). These results suggest a roadmap toward an optimized feature selection and fusion approach for enhancing sentiment detection in neural networks.
翻訳日:2024-05-10 18:19:06 公開日:2024-05-09
# 量子太陽モデルにおける多体運動エッジ

Many-Body Mobility Edge in Quantum Sun models ( http://arxiv.org/abs/2308.01073v3 )

ライセンス: Link先を確認
Konrad Pawlik, Piotr Sierant, Lev Vidmar, Jakub Zakrzewski, (参考訳) 量子太陽モデル (quantum sun model) は、エルゴディディティ破壊相転移の鋭いシグネチャを示す相互作用モデルである。 ここでは,モデルが多体移動エッジを示すことを示す。 我々は、ギャップ比、Thouless時間、および固有状態の絡み合いエントロピーを分析する最先端の数値シミュレーションによって補完される、その存在に関する解析的議論を提供する。 また、粒子数保存を伴う量子太陽モデルを導入し、制限のない前者と多くの類似点を共有していると論じる。

The quantum sun model is an interacting model that exhibits sharp signatures of ergodicity breaking phase transition. Here, we show that the model exhibits a many-body mobility edge. We provide analytical arguments for its existence, complemented by the state-of-the-art numerical simulations analysing gap ratios, Thouless times as well as entanglement entropy of eigenstates. We also introduce the quantum sun model with particle number conservation, and we argue that it shares many similarities with his unrestricted predecessor.
翻訳日:2024-05-10 18:19:06 公開日:2024-05-09
# ScatterUQ:マルチクラスディープラーニング問題に対する対話型不確実性可視化

ScatterUQ: Interactive Uncertainty Visualizations for Multiclass Deep Learning Problems ( http://arxiv.org/abs/2308.04588v2 )

ライセンス: Link先を確認
Harry Li, Steven Jorgensen, John Holodnak, Allan Wollaber, (参考訳) 近年,マルチクラスラベル問題に対する不確実性を考慮した深層学習手法が開発され,分類されたクラス予測確率とアウト・オブ・ディストリビューション(OOD)指標が提供され,機械学習(ML)の利用者や技術者がその予測に対するモデルの信頼性を評価できるようになった。 しかし、この余分なニューラルネットワーク予測情報は、複数の不確実性コンテキスト下で任意のデータソースに対して視覚的に伝達することが困難である。 これらの課題に対処するために、ユーザがコンテキスト駆動の不確実性設定におけるモデルパフォーマンスをよりよく理解できるように、ターゲット視覚化を提供するインタラクティブシステムであるScatterUQを提案する。 ScatterUQは、距離対応ニューラルネットワークの最近の進歩を活用し、次元の縮小技術とともに、モデルがテスト例を(1)分布内および特定のクラス、(2)分布外、(3)分布外を予測した理由を説明する頑健な2次元散乱プロットを構築する。 MLのコンシューマとエンジニアは、‘hover callback’’を使用して、テストサンプルの健全な機能とトレーニング例を視覚的に比較して、モデルの不確実性のパフォーマンスを理解し、アクションのフォローアップコースを決定することができます。 我々は、Fashion-MNISTで訓練され、Fashion-MNIST(分布中)とMNIST(分布外)でテストされた距離認識ニューラルネットワーク上で、マルチクラス画像分類のためのモデル不確実性を説明するために、ScatterUQの有効性と、サイバーデータセットのディープラーニングモデルについて説明する。 我々は、文脈駆動型UQ視覚化を最適化するために、次元削減手法を定量的に評価する。 以上の結果から,ScatterUQシステムは任意のマルチクラスデータセットにスケールすべきであることが示唆された。 私たちのコードはhttps://github.com/mit-ll-responsible-ai/equine-webappで利用可能です。

Recently, uncertainty-aware deep learning methods for multiclass labeling problems have been developed that provide calibrated class prediction probabilities and out-of-distribution (OOD) indicators, letting machine learning (ML) consumers and engineers gauge a model's confidence in its predictions. However, this extra neural network prediction information is challenging to scalably convey visually for arbitrary data sources under multiple uncertainty contexts. To address these challenges, we present ScatterUQ, an interactive system that provides targeted visualizations to allow users to better understand model performance in context-driven uncertainty settings. ScatterUQ leverages recent advances in distance-aware neural networks, together with dimensionality reduction techniques, to construct robust, 2-D scatter plots explaining why a model predicts a test example to be (1) in-distribution and of a particular class, (2) in-distribution but unsure of the class, and (3) out-of-distribution. ML consumers and engineers can visually compare the salient features of test samples with training examples through the use of a ``hover callback'' to understand model uncertainty performance and decide follow up courses of action. We demonstrate the effectiveness of ScatterUQ to explain model uncertainty for a multiclass image classification on a distance-aware neural network trained on Fashion-MNIST and tested on Fashion-MNIST (in distribution) and MNIST digits (out of distribution), as well as a deep learning model for a cyber dataset. We quantitatively evaluate dimensionality reduction techniques to optimize our contextually driven UQ visualizations. Our results indicate that the ScatterUQ system should scale to arbitrary, multiclass datasets. Our code is available at https://github.com/mit-ll-responsible-ai/equine-webapp
翻訳日:2024-05-10 18:19:06 公開日:2024-05-09
# martFL: 堅牢で検証可能なフェデレーション学習アーキテクチャによるユーティリティ駆動型データマーケットプレースの実現

martFL: Enabling Utility-Driven Data Marketplace with a Robust and Verifiable Federated Learning Architecture ( http://arxiv.org/abs/2309.01098v4 )

ライセンス: Link先を確認
Qi Li, Zhuotao Liu, Qi Li, Ke Xu, (参考訳) 機械学習モデルの開発には大量のトレーニングデータが必要である。 データ市場は、オンラインで公開されていない高品質のプライベートドメインデータの取引に不可欠である。 しかし、データプライバシの懸念が高まっているため、ダイレクトデータ交換は不適切である。 Federated Learning(FL)は、データユーティリティ(ローカルモデルや勾配の形式で)を、生データを直接共有することなく、複数のパーティ間で交換する分散機械学習パラダイムである。 しかし、データマーケットプレースを構築するために既存のFLアーキテクチャを適用する際には、いくつかの課題がある。 一 既存のFLアーキテクチャにおいて、データ取得者(DA)は、取引前にデータ提供者(DP)からローカルモデルをプライベートに評価することができません。 2 既存のFL設計におけるモデル集約プロトコルは、DAの(おそらくバイアスのある)ルートデータセットに「過度に適合」することなく、悪意のあるDPを排除するのに苦労する。 三 事前のFL設計は、異なるDPの貢献に応じて報酬を適正に配分するようDAに強制する適切な請求機構を欠いている。 上記の課題に対処するため,我々は,セキュアなユーティリティ駆動型データマーケットプレースを実現するために特別に設計された,最初のフェデレーション付き学習アーキテクチャであるmartFLを提案する。 高いレベルでは、martFLは2つの革新的な設計によって駆動される。 i)DAのルートデータセットがバイアスを受けた場合でも、ロバストな局所モデルアグリゲーションを実現する品質対応モデルアグリゲーションプロトコル i)DAが簡潔かつゼロ知識の両方で証明できる検証可能なデータトランザクションプロトコルであって、コミットされた集約重みに応じて異なるDPが提出したローカルモデルを忠実に集約し、DPがそれに対応する報酬を明白に主張できるものであること。 我々は、martFLのプロトタイプを実装し、様々なタスクに対して広範囲に評価する。 その結果,データ取得コストを最大64%削減しつつ,モデル精度を最大25%向上させることができることがわかった。

The development of machine learning models requires a large amount of training data. Data marketplaces are essential for trading high-quality, private-domain data not publicly available online. However, due to growing data privacy concerns, direct data exchange is inappropriate. Federated Learning (FL) is a distributed machine learning paradigm that exchanges data utilities (in form of local models or gradients) among multiple parties without directly sharing the raw data. However, several challenges exist when applying existing FL architectures to construct a data marketplace: (i) In existing FL architectures, Data Acquirers (DAs) cannot privately evaluate local models from Data Providers (DPs) prior to trading; (ii) Model aggregation protocols in existing FL designs struggle to exclude malicious DPs without "overfitting" to the DA's (possibly biased) root dataset; (iii) Prior FL designs lack a proper billing mechanism to enforce the DA to fairly allocate the reward according to contributions made by different DPs. To address above challenges, we propose martFL, the first federated learning architecture that is specifically designed to enable a secure utility-driven data marketplace. At a high level, martFL is powered by two innovative designs: (i) a quality-aware model aggregation protocol that achieves robust local model aggregation even when the DA's root dataset is biased; (ii) a verifiable data transaction protocol that enables the DA to prove, both succinctly and in zero-knowledge, that it has faithfully aggregates the local models submitted by different DPs according to the committed aggregation weights, based on which the DPs can unambiguously claim the corresponding reward. We implement a prototype of martFL and evaluate it extensively over various tasks. The results show that martFL can improve the model accuracy by up to 25% while saving up to 64% data acquisition cost.
翻訳日:2024-05-10 18:19:06 公開日:2024-05-09
# 固体量子応用のための高精度超微粒子テンソル-ダイヤモンド中のNV中心の場合-

Accurate Hyperfine Tensors for Solid State Quantum Applications: Case of the NV Center in Diamond ( http://arxiv.org/abs/2309.03983v3 )

ライセンス: Link先を確認
István Takács, Viktor Ivády, (参考訳) 点欠陥量子ビットのデコヒーレンスはしばしば電子スピン-スピン超微細相互作用によって制御される。 これまでの理論研究のほとんどは、最も近い核スピンの超微細な相互作用に焦点を当てているが、異なる核スピンの予測の精度はほとんど議論されていない。 ダイヤモンド中のNV中心の場合、計算された超微粒子パラメータの絶対相対誤差は、弱い結合核スピンに対するVASPにおいて100\%を超えることが示される。 この問題を克服するために、我々は代替手法を実装し、あらゆる距離における相対平均誤差$O$(1\%)で大幅に改善された超微細値について報告する。 得られたNV中心の正確な超微細データにより、実験および理論的な超微細データを比較することにより、量子情報処理のためのNV量子ノードの高精度シミュレーションと核スピンの位置決めが可能になる。

The decoherence of point defect qubits is often governed by the electron spin-nuclear spin hyperfine interaction that can be parameterized by using ab inito calculations in principle. So far most of the theoretical works have focused on the hyperfine interaction of the closest nuclear spins, while the accuracy of the predictions for distinct nuclear spins is barely discussed. We demonstrate for the case of the NV center in diamond that the absolute relative error of the computed hyperfine parameters can exceed 100\% in VASP for weakly coupled nuclear spins. To overcome this issue, we implement an alternative method and report on significantly improved hyperfine values with $O$(1\%) relative mean error at all distances. The provided accurate hyperfine data for the NV center enables high-precision simulation of NV quantum nodes for quantum information processing and positioning of nuclear spins by comparing experimental and theoretical hyperfine data.
翻訳日:2024-05-10 18:19:06 公開日:2024-05-09
# SlimPajama-DC: LLMトレーニングのためのデータ組み合わせを理解する

SlimPajama-DC: Understanding Data Combinations for LLM Training ( http://arxiv.org/abs/2309.10818v3 )

ライセンス: Link先を確認
Zhiqiang Shen, Tianhua Tao, Liqun Ma, Willie Neiswanger, Zhengzhong Liu, Hongyi Wang, Bowen Tan, Joel Hestness, Natalia Vassilieva, Daria Soboleva, Eric Xing, (参考訳) 本稿では,SlimPajamaを用いた大規模言語モデルの事前学習における各種データの組み合わせ(Webテキスト,Wikipedia,GitHub,書籍など)の影響を理解することを目的とする。 SlimPajamaは厳格に重複したマルチソースデータセットで、Joe氏がコントリビュートした1.2TトークンRedPajamaデータセットから627Bトークンに切り離された。 SlimPajama-DCは,SlimPajamaを用いた大規模言語モデルの学習における基礎的特徴とベストプラクティスを明らかにするための実証分析である。 SlimPajamaを用いた調査では,(1)グローバルデデューケーションと局所デデューケーションの2つの重要な観察結果が得られた。 我々は、グローバル(データセットのさまざまなソース)とローカル(データセットの単一ソース)の重複が、トレーニングされたモデルのパフォーマンスにどのように影響するかを分析し、議論する。 2) 組み合わさった高度に重複したマルチソースデータセットの提案 そこで本研究では,SlimPajamaデータセット上に6つの構成を構築し,AlibiとSwiGLUを用いた1.3B Cerebras-GPTモデルを用いて個々の構成を訓練する。 私たちの最高の構成は、RedPajamaでトレーニングされた1.3Bモデルで、同じ数のトレーニングトークンをかなりのマージンでパフォーマンスします。 私たちの1.3Bモデルはすべて、Bf16混合精度で合計80 PFLOP/sのCerebras 16$\times$ CS-2クラスタでトレーニングされています。 大規模なバッチサイズトレーニングを備えた7Bモデル上での発見をさらに拡張する(例えば、グローバルデデューケーション後のデータの多様性の向上は不可欠である)。 私たちのSlimPajama-DCモデルは、https://huggingface.co/MBZUAI-LLM/SlimPajama-DCと、別のSlimPajama-DCデータセットが、https://huggingface.co/datasets/MBZUAI-LLM/SlimPajama-627B-DCで利用可能です。

This paper aims to understand the impacts of various data combinations (e.g., web text, Wikipedia, GitHub, books) on the pretraining of large language models using SlimPajama. SlimPajama is a rigorously deduplicated, multi-source dataset, which has been refined and further deduplicated to 627B tokens from the extensive 1.2T token RedPajama dataset contributed by Together. We have termed our research as SlimPajama-DC, an empirical analysis designed to uncover fundamental characteristics and best practices associated with employing SlimPajama in the training of large language models. During our research with SlimPajama, two pivotal observations emerged: (1) Global deduplication vs. local deduplication. We analyze and discuss how global (across different sources of datasets) and local (within the single source of dataset) deduplications affect the performance of trained models. (2) Proportions of highly-deduplicated multi-source datasets in the combination. To study this, we construct six configurations on SlimPajama dataset and train individual ones using 1.3B Cerebras-GPT model with Alibi and SwiGLU. Our best configuration outperforms the 1.3B model trained on RedPajama using the same number of training tokens by a significant margin. All our 1.3B models are trained on Cerebras 16$\times$ CS-2 cluster with a total of 80 PFLOP/s in bf16 mixed precision. We further extend our discoveries (such as increasing data diversity is crucial after global deduplication) on a 7B model with large batch-size training. Our SlimPajama-DC models are available at: https://huggingface.co/MBZUAI-LLM/SlimPajama-DC and the separate SlimPajama-DC datasets are available at: https://huggingface.co/datasets/MBZUAI-LLM/SlimPajama-627B-DC.
翻訳日:2024-05-10 18:19:06 公開日:2024-05-09
# 個別の文脈のないオンラインコミュニティの健康指標がオープンソースソフトウェアサステナビリティの特定に失敗

Individual context-free online community health indicators fail to identify open source software sustainability ( http://arxiv.org/abs/2309.12120v3 )

ライセンス: Link先を確認
Yo Yehudi, Carole Goble, Caroline Jay, (参考訳) オープンソースソフトウェアのグローバルな価値は、全世界で数十億、数十億と見積もられているが、それにもかかわらず、過度にリソースが不足し、高負荷のセキュリティ脆弱性と安定性の障害が2,3。 オープンソースコミュニティの長寿に寄与する要因を調べるため、我々は1年間に38のオープンソースプロジェクトを監視し、主にオープンサイエンス関連のオンラインコード指向コミュニティに焦点を当てた。 我々は,主観的,定性的な指標(参加者調査)と,これらのプロジェクトのオンラインソース管理コードベースに関連する指標を検索・分析するための計算スクリプトを用いて,パフォーマンス指標を測定した。 この期間に計画は放棄されず、計画された1つのプロジェクトのみが閉鎖された。 研究開始から1年足らずのプロジェクト年齢は40歳を超え、結果は極めて異質で、ドキュメント間の共通性はほとんどなく、問題やコードのコントリビューションに対するレスポンス時間の平均が低く、資金やスタッフのリソースが利用可能でした。 ソースコードベースのインジケータはプロジェクトのアクティビティについていくつかの洞察を与えることができたが、異なるプロジェクトにわたる同様のインジケータは、コンテキストを考慮した場合、しばしば全く異なる意味を持つ。 調査した文脈フリーのメトリクスは、プロジェクトの長寿と持続可能性には不十分で、高い意思決定を支援するために使うと有害になる可能性があると結論付けました。 オンラインオープンコミュニティの長期的な持続可能性を理解しようとする場合、研究者はクロスプロジェクト定量的比較を避けて、定量的尺度と質的データを組み合わせた単一プロジェクトレベルのアセスメントを使用することを推奨する。

The global value of open source software is estimated to be in the billions or trillions worldwide1, but despite this, it is often under-resourced and subject to high-impact security vulnerabilities and stability failures2,3. In order to investigate factors contributing to open source community longevity, we monitored thirty-eight open source projects over the period of a year, focusing primarily, but not exclusively, on open science-related online code-oriented communities. We measured performance indicators, using both subjective and qualitative measures (participant surveys), as well as using computational scripts to retrieve and analyse indicators associated with these projects' online source control codebases. None of the projects were abandoned during this period, and only one project entered a planned shutdown. Project ages spanned from under one year to over forty years old at the start of the study, and results were highly heterogeneous, showing little commonality across documentation, mean response times for issues and code contributions, and available funding/staffing resources. Whilst source code-based indicators were able to offer some insights into project activity, we observed that similar indicators across different projects often had very different meanings when context was taken into account. We conclude that the individual context-free metrics we studied were not sufficient or essential for project longevity and sustainability, and might even become detrimental if used to support high-stakes decision making. When attempting to understand an online open community's longer-term sustainability, we recommend that researchers avoid cross-project quantitative comparisons, and advise instead that they use single-project-level assessments which combine quantitative measures with contextualising qualitative data.
翻訳日:2024-05-10 18:19:06 公開日:2024-05-09
# 空洞QEDによる半量子プライベート比較

Semiquantum private comparison via cavity QED ( http://arxiv.org/abs/2309.13232v2 )

ライセンス: Link先を確認
Xin Xu, Jiang-Yuan Lian, Tian-Yu Ye, (参考訳) 本稿では,原子の進化則を利用して空洞量子力学(QED)により実現された最初の半量子プライベート比較(SQPC)プロトコルを設計する。 提案プロトコルは,量子能力に限界がある2つの半量子パーティからのプライベートインプットの等価性を,半高位サードパーティ(TP)の助けを借りて比較することができる。 提案プロトコルでは、初期量子資源として製品状態を使用し、ユニタリ演算、量子エンタングルメントスワップ操作、遅延線を一切使用しない。 セキュリティの証明では、外部攻撃と内部攻撃の両方を倒せることが判明した。

In this paper, we design the first semiquantum private comparison (SQPC) protocol which is realized via cavity quantum electrodynamics (QED) by making use of the evolution law of atom. With the help of a semi-honest third party (TP), the proposed protocol can compare the equality of private inputs from two semiquantum parties who only have limited quantum capabilities. The proposed protocol uses product states as initial quantum resource and employs none of unitary operations, quantum entanglement swapping operation or delay lines. Security proof turns out that it can defeat both the external attack and the internal attack.
翻訳日:2024-05-10 18:19:06 公開日:2024-05-09
# 格子場理論における確率量子化としての拡散モデル

Diffusion Models as Stochastic Quantization in Lattice Field Theory ( http://arxiv.org/abs/2309.17082v2 )

ライセンス: Link先を確認
Lingxiao Wang, Gert Aarts, Kai Zhou, (参考訳) 本研究では、生成拡散モデル(DM)と確率量子化(SQ)の直接接続を確立する。 DMは、ランゲヴィン方程式によって予測される確率過程の逆転を近似し、先行分布からサンプルを生成し、対象分布を効果的に模倣することにより実現される。 数値シミュレーションを用いて、DMは2次元の$\phi^4$理論で量子格子場構成を生成する大域的なサンプルとして機能することを示した。 特に,標準マルコフ連鎖モンテカルロ (MCMC) アルゴリズムが臨界減速を経験する臨界領域において,DMはマルコフ連鎖における自己相関時間を顕著に減少させることができることを示す。 この発見は、特に大きなアンサンブルを生成するのにコストがかかる場合に、格子場理論シミュレーションのさらなる進歩を引き起こす可能性がある。

In this work, we establish a direct connection between generative diffusion models (DMs) and stochastic quantization (SQ). The DM is realized by approximating the reversal of a stochastic process dictated by the Langevin equation, generating samples from a prior distribution to effectively mimic the target distribution. Using numerical simulations, we demonstrate that the DM can serve as a global sampler for generating quantum lattice field configurations in two-dimensional $\phi^4$ theory. We demonstrate that DMs can notably reduce autocorrelation times in the Markov chain, especially in the critical region where standard Markov Chain Monte-Carlo (MCMC) algorithms experience critical slowing down. The findings can potentially inspire further advancements in lattice field theory simulations, in particular in cases where it is expensive to generate large ensembles.
翻訳日:2024-05-10 18:19:06 公開日:2024-05-09
# 補足的専門知識を持つ住宅モデル

Fusing Models with Complementary Expertise ( http://arxiv.org/abs/2310.01542v2 )

ライセンス: Link先を確認
Hongyi Wang, Felipe Maia Polo, Yuekai Sun, Souvik Kundu, Eric Xing, Mikhail Yurochkin, (参考訳) タスクやドメインをまたいで一般化するAIモデルを訓練することは、AI研究を推進しているオープンな問題のひとつだ。 Foundation Modelsの出現により、与えられたタスクのエキスパートモデルを簡単に取得できるようになったが、テスト時に遭遇する可能性のあるデータの異質性は、単一の専門家が不十分であることを意味することが多い。 本稿では、データ分布の相補的な知識で専門家モデルの出力を融合するFoE問題について考察し、それを教師付き学習の事例として定式化する。 本手法は識別的タスクと生成的タスクの両方に適用可能であり,画像とテキストの分類,テキスト要約,複数選択QA,生成したテキストの自動評価において,大幅な性能向上をもたらす。 また、テスト時のエキスパートモデル評価の回数を減らすことを望む「フルーガル」設定にもメソッドを拡張します。 私たちの実装はhttps://github.com/hwang595/FoE-ICLR2024で公開されています。

Training AI models that generalize across tasks and domains has long been among the open problems driving AI research. The emergence of Foundation Models made it easier to obtain expert models for a given task, but the heterogeneity of data that may be encountered at test time often means that any single expert is insufficient. We consider the Fusion of Experts (FoE) problem of fusing outputs of expert models with complementary knowledge of the data distribution and formulate it as an instance of supervised learning. Our method is applicable to both discriminative and generative tasks and leads to significant performance improvements in image and text classification, text summarization, multiple-choice QA, and automatic evaluation of generated text. We also extend our method to the "frugal" setting where it is desired to reduce the number of expert model evaluations at test time. Our implementation is publicly available at https://github.com/hwang595/FoE-ICLR2024.
翻訳日:2024-05-10 18:19:06 公開日:2024-05-09
# 自動運転におけるV2X協調認識の最近の進歩と課題

V2X Cooperative Perception for Autonomous Driving: Recent Advances and Challenges ( http://arxiv.org/abs/2310.03525v3 )

ライセンス: Link先を確認
Tao Huang, Jianan Liu, Xi Zhou, Dinh C. Nguyen, Mostafa Rahimi Azghadi, Yuxuan Xia, Qing-Long Han, Sumei Sun, (参考訳) 正確な認識は、現代の交通システムにおける自律運転の推進と安全上の課題への対処に不可欠である。 物体認識のためのコンピュータビジョンの進歩にもかかわらず、現在の認識手法は複雑な現実世界の交通環境において困難に直面している。 物理的閉塞や限られたセンサーの視野といった課題は、個々の車両システムに持続する。 V2X技術を用いた協調認識(CP)は、これらの障害を克服し、自動化システムを強化するソリューションとして登場した。 CPの基本アーキテクチャと重要なコンポーネントを探求する研究もあるが、最新のイノベーション、特にV2X通信技術の文脈において、包括的な要約は残っていない。 このギャップに対処するため,本論文では,V2X通信技術の発展など,初期の調査から最近の発展まで,CP技術の進化を包括的に概観する。 さらに、V2XベースのCPワークフローを記述し、CPシステムコンポーネントの構造的理解を支援するために、同時代の汎用フレームワークも提案されている。 さらに,本論文では,V2XをベースとしたCP手法を,それらが扱う重要な問題に基づいて分類する。 この分類学において、既存のデータセットとシミュレータを評価する広範な文献レビューが実施されている。 最後に、自律運転におけるCPのオープン課題と今後の方向性について、知覚とV2X通信の進展を両立させることにより論じる。

Accurate perception is essential for advancing autonomous driving and addressing safety challenges in modern transportation systems. Despite significant advancements in computer vision for object recognition, current perception methods still face difficulties in complex real-world traffic environments. Challenges such as physical occlusion and limited sensor field of view persist for individual vehicle systems. Cooperative Perception (CP) with Vehicle-to-Everything (V2X) technologies has emerged as a solution to overcome these obstacles and enhance driving automation systems. While some research has explored CP's fundamental architecture and critical components, there remains a lack of comprehensive summaries of the latest innovations, particularly in the context of V2X communication technologies. To address this gap, this paper provides a comprehensive overview of the evolution of CP technologies, spanning from early explorations to recent developments, including advancements in V2X communication technologies. Additionally, a contemporary generic framework is also proposed to illustrate the V2X-based CP workflow, aiding in the structured understanding of CP system components. Furthermore, this paper categorizes prevailing V2X-based CP methodologies based on the critical issues they address. An extensive literature review is conducted within this taxonomy, evaluating existing datasets and simulators. Finally, open challenges and future directions in CP for autonomous driving are discussed by considering both perception and V2X communication advancements.
翻訳日:2024-05-10 18:19:06 公開日:2024-05-09
# 眠れないロボット:スニーカーの音像の定位化

The Un-Kidnappable Robot: Acoustic Localization of Sneaking People ( http://arxiv.org/abs/2310.03743v2 )

ライセンス: Link先を確認
Mengyu Yang, Patrick Grady, Samarth Brahmbhatt, Arun Balajee Vasudevan, Charles C. Kemp, James Hays, (参考訳) ロボットに忍び寄るのは、どれくらい簡単か? 静かでいようとも、移動時に発生する偶発的な音のみを用いて人を検出することができるかどうかを検討する。 室内で動く人々の360度RGBデータと組み合わせて、高品質な4チャンネルオーディオのロボットデータセットを収集する。 音声のみを使用して、近くに動く人物と位置を予測できるモデルを訓練する。 本手法をロボットに実装することにより,受動的音声センサのみを用いて,一人の人物が静かに動くことを追跡できる。 デモビデオをご覧ください。 https://sites.google.com/view/unkidnappable-robot

How easy is it to sneak up on a robot? We examine whether we can detect people using only the incidental sounds they produce as they move, even when they try to be quiet. We collect a robotic dataset of high-quality 4-channel audio paired with 360 degree RGB data of people moving in different indoor settings. We train models that predict if there is a moving person nearby and their location using only audio. We implement our method on a robot, allowing it to track a single person moving quietly with only passive audio sensing. For demonstration videos, see our project page: https://sites.google.com/view/unkidnappable-robot
翻訳日:2024-05-10 18:19:06 公開日:2024-05-09
# T-Rep: 時間埋め込みを用いた時系列表現学習

T-Rep: Representation Learning for Time Series using Time-Embeddings ( http://arxiv.org/abs/2310.04486v3 )

ライセンス: Link先を確認
Archibald Fraikin, Adrien Bennetot, Stéphanie Allassonnière, (参考訳) 多変量時系列は、しばしばラベルが付かず、高次元でノイズがあり、欠落したデータを含んでいるため、標準的な機械学習技術に挑戦する。 そこで本稿では,時系列表現を時間ステップの粒度で学習する自己教師型T-Repを提案する。 T-Repは特徴抽出器と共に時間のベクトル埋め込みを学び、信号からトレンド、周期性、分布シフトなどの時間的特徴を抽出する。 これらの時間埋め込みは、プレテキストタスクに利用され、スムーズできめ細かな時間的依存関係を表現に組み込むとともに、欠落したデータに対する堅牢性を強化する。 下流分類,予測,異常検出タスクにおけるT-Repの評価を行った。 時系列の既存の自己教師型アルゴリズムと比較され、3つのタスクすべてで優れています。 私たちは、T-Repが欠落しているデータ構造でテストします。 最後に、学習した表現の解釈可能性を強調し、潜在空間可視化実験を行う。

Multivariate time series present challenges to standard machine learning techniques, as they are often unlabeled, high dimensional, noisy, and contain missing data. To address this, we propose T-Rep, a self-supervised method to learn time series representations at a timestep granularity. T-Rep learns vector embeddings of time alongside its feature extractor, to extract temporal features such as trend, periodicity, or distribution shifts from the signal. These time-embeddings are leveraged in pretext tasks, to incorporate smooth and fine-grained temporal dependencies in the representations, as well as reinforce robustness to missing data. We evaluate T-Rep on downstream classification, forecasting, and anomaly detection tasks. It is compared to existing self-supervised algorithms for time series, which it outperforms in all three tasks. We test T-Rep in missing data regimes, where it proves more resilient than its counterparts. Finally, we provide latent space visualisation experiments, highlighting the interpretability of the learned representations.
翻訳日:2024-05-10 18:19:06 公開日:2024-05-09
# 量子照明と量子レーダ

Quantum Illumination and Quantum Radar: A Brief Overview ( http://arxiv.org/abs/2310.06049v2 )

ライセンス: Link先を確認
Athena Karsa, Alasdair Fletcher, Gaetana Spedalieri, Stefano Pirandola, (参考訳) 量子照明(QI)と量子レーダーは、量子力学の原理を活用して、リモートセンシングとターゲット検出の分野に革命をもたらした。 このプロトコルは、特に量子レーダの文脈において、その現実的なポテンシャルに対する批判と同様に、多くの願望の予想の対象となっている。 本稿では、QIに着目した量子目標検出の分野と、マイクロ波周波数で動作する量子レーダの基礎となる可能性について概観する。 我々は、その歴史的発展と基本原則を考慮し、この分野の文脈を提供する。 本研究の目的は、QIベースの量子レーダの実現に向けた理論的および実験的進展の状況について、バランスよく議論し、現在の展望と今後の方向性について結論を導き出すことである。

Quantum illumination (QI) and quantum radar have emerged as potentially groundbreaking technologies, leveraging the principles of quantum mechanics to revolutionise the field of remote sensing and target detection. The protocol, particularly in the context of quantum radar, has been subject to a great deal of aspirational conjecture as well as criticism with respect to its realistic potential. In this review, we present a broad overview of the field of quantum target detection focusing on QI and its potential as an underlying scheme for a quantum radar operating at microwave frequencies. We provide context for the field by considering its historical development and fundamental principles. Our aim is to provide a balanced discussion on the state of theoretical and experimental progress towards realising a working QI-based quantum radar, and draw conclusions about its current outlook and future directions.
翻訳日:2024-05-10 18:09:15 公開日:2024-05-09
# 投影型圧縮状態プロトコルのロバスト性

Robustness of the projected squeezed state protocol ( http://arxiv.org/abs/2310.11948v2 )

ライセンス: Link先を確認
B. J. Alexander, J. J. Bollinger, M. S. Tame, (参考訳) 投射圧縮(PS)状態は、ユニタリスピンスクイーズによって生成され、続いて集合量子測定とポストセレクションによって生成される多部交絡状態である。 これらは、イオン、中性原子、超伝導量子ビットなどのスピンスクイージングを実現する物理系におけるユニタリ変換による決定的準備と比較して、最大絡み合うN-量子ビットグリーンベルガー・ホーネ・ザイリンガー状態(GHZ)の状態準備時間を大幅に減少させる。 ここでは、非理想的実験条件下でのPS状態の生成を、関連するデコヒーレンスチャネルでシミュレートする。 計算複雑性を低減するためにKraus演算子法と量子軌道法を用いることで、量子フィッシャー情報の評価と、理想的なGHZ状態との重なり合いを評価する。 以上の結果から,PS状態は有用な気象資源であり,Qubit数Nの増加による環境影響に対する堅牢性を示すことが示唆された。

Projected squeezed (PS) states are multipartite entangled states generated by unitary spin squeezing, followed by a collective quantum measurement and post-selection. They can lead to an appreciable decrease in the state preparation time of the maximally entangled N-qubit Greenberger-Horne-Zeilinger (GHZ) state when compared to deterministic preparation by unitary transformations in physical systems where spin squeezing can be realized, such as ion, neutral atom, and superconducting qubits. Here we simulate the generation of PS states in non-ideal experimental conditions with relevant decoherence channels. By employing the Kraus operator method, and quantum trajectory method to reduce the computational complexity, we assess the quantum Fisher information and overlap fidelity with an ideal GHZ state. Our findings highlight PS states as useful metrological resources, demonstrating a robustness against environmental effects with increasing qubit number N.
翻訳日:2024-05-10 18:09:15 公開日:2024-05-09
# パラメータ化マニピュレーションプリミティブによる外部デキスタリティの学習

Learning Extrinsic Dexterity with Parameterized Manipulation Primitives ( http://arxiv.org/abs/2310.17785v3 )

ライセンス: Link先を確認
Shih-Min Yang, Martin Magnusson, Johannes A. Stork, Todor Stoyanov, (参考訳) 現実的なロボットの把握問題の多くは、環境によって、すべてのグリップが隠蔽されているターゲットオブジェクトを特徴としている。 このようなシナリオでは、シングルショットの把握計画が必ず失敗する。 代わりに、まずオブジェクトを把握可能な構成に操作する必要があります。 我々は,物体の姿勢を変えるために環境を利用する一連の動作を学習することで,この問題を解決する。 具体的には、階層的強化学習を用いて、学習されたパラメータ化された操作プリミティブのシーケンスを組み合わせる。 低レベルの操作ポリシーを学習することにより、オブジェクト、グリップ、環境間の相互作用を利用してオブジェクトの状態を制御することができる。 このような複雑な振る舞いを解析的に設計することは、相互作用と接触ダイナミクスの正確な物理的モデリングを必要とするため、制御不能な条件下では不可能である。 対照的に、オブジェクト検出、ポーズ推定、コントローラの手動設計を必要とせずに、深度知覚データを直接操作する階層的なポリシーモデルを学ぶ。 拘束されたテーブルトップワークスペースから様々な重量,形状,摩擦特性の箱状物体を選別する手法の評価を行った。 提案手法は実際のロボットに移動し,98 %の実験実験で対象物抽出作業の完了を達成できる。 追加情報とビデオはhttps://shihminyang.github.io/ED-PMP/で見ることができる。

Many practically relevant robot grasping problems feature a target object for which all grasps are occluded, e.g., by the environment. Single-shot grasp planning invariably fails in such scenarios. Instead, it is necessary to first manipulate the object into a configuration that affords a grasp. We solve this problem by learning a sequence of actions that utilize the environment to change the object's pose. Concretely, we employ hierarchical reinforcement learning to combine a sequence of learned parameterized manipulation primitives. By learning the low-level manipulation policies, our approach can control the object's state through exploiting interactions between the object, the gripper, and the environment. Designing such a complex behavior analytically would be infeasible under uncontrolled conditions, as an analytic approach requires accurate physical modeling of the interaction and contact dynamics. In contrast, we learn a hierarchical policy model that operates directly on depth perception data, without the need for object detection, pose estimation, or manual design of controllers. We evaluate our approach on picking box-shaped objects of various weight, shape, and friction properties from a constrained table-top workspace. Our method transfers to a real robot and is able to successfully complete the object picking task in 98\% of experimental trials. Supplementary information and videos can be found at https://shihminyang.github.io/ED-PMP/.
翻訳日:2024-05-10 18:09:15 公開日:2024-05-09
# 宝くじとグローキングの橋渡し:重量ノルムは遅延一般化に十分か?

Bridging Lottery ticket and Grokking: Is Weight Norm Sufficient to Explain Delayed Generalization? ( http://arxiv.org/abs/2310.19470v2 )

ライセンス: Link先を確認
Gouki Minegishi, Yusuke Iwasawa, Yutaka Matsuo, (参考訳) ニューラルネットワークの一般化において、グロッキングは最も驚くべきパズルの1つだ。ネットワークはまず、完全なトレーニング精度と低い一般化を備えた記憶ソリューションに到達するが、さらなるトレーニングでは、完全に一般化されたソリューションに到達する。 本研究の目的は、宝くじの仮説からグラッキングのメカニズムを分析し、宝くじ(良質なスパースサブネットワーク)を見つける過程を記憶と一般化の過渡期を説明する鍵として特定することである。 我々はこれらのサブネットワークを'Grokking ticket'と呼び、完全一般化後のマグニチュードプルーニングによって識別する。 まず,「グルーキングチケット」を用いて,様々な構成(MLP, Transformer, 算術, 画像分類タスク)の高密度ネットワークと比較して,宝くじがグルーキングを劇的に加速することを示す。 また,「グルーキングチケット」がウェイトノルムよりも重要な要因であることを確認するため,「グッド」サブネットワークとL1とL2のノルムを持つ高密度ネットワークを比較した。 その結果, サブネットワークは制御された高密度モデルよりも高速に一般化できることがわかった。 さらなる研究で、適切な刈り取り速度で、重量減衰を伴わずにグルーキングが達成できることが判明した。 また,記憶ソリューションで識別されたチケットを使用したり,記憶と一般化の遷移を行ったり,初期化時にネットワークをプルーニングする場合(ランサムプルーニング,Grasp,SNIP,Synflow)にはスピードアップが起こらないことを示す。 その結果、ネットワークパラメータの重みノルムは、グラッキングの過程を説明するのに十分ではなく、記憶から一般化への遷移を記述するための優れたサブネットを見つけることの重要性が示唆された。 実装コードは、このリンクからアクセスすることができる。

Grokking is one of the most surprising puzzles in neural network generalization: a network first reaches a memorization solution with perfect training accuracy and poor generalization, but with further training, it reaches a perfectly generalized solution. We aim to analyze the mechanism of grokking from the lottery ticket hypothesis, identifying the process to find the lottery tickets (good sparse subnetworks) as the key to describing the transitional phase between memorization and generalization. We refer to these subnetworks as ''Grokking tickets'', which is identified via magnitude pruning after perfect generalization. First, using ''Grokking tickets'', we show that the lottery tickets drastically accelerate grokking compared to the dense networks on various configurations (MLP and Transformer, and an arithmetic and image classification tasks). Additionally, to verify that ''Grokking ticket'' are a more critical factor than weight norms, we compared the ''good'' subnetworks with a dense network having the same L1 and L2 norms. Results show that the subnetworks generalize faster than the controlled dense model. In further investigations, we discovered that at an appropriate pruning rate, grokking can be achieved even without weight decay. We also show that speedup does not happen when using tickets identified at the memorization solution or transition between memorization and generalization or when pruning networks at the initialization (Random pruning, Grasp, SNIP, and Synflow). The results indicate that the weight norm of network parameters is not enough to explain the process of grokking, but the importance of finding good subnetworks to describe the transition from memorization to generalization. The implementation code can be accessed via this link: \url{https://github.com/gouki510/Grokking-Tickets}.
翻訳日:2024-05-10 18:09:15 公開日:2024-05-09
# 非連想量子力学の代数的定式化

An algebraic formulation of nonassociative quantum mechanics ( http://arxiv.org/abs/2311.03647v3 )

ライセンス: Link先を確認
Peter Schupp, Richard J. Szabo, (参考訳) 我々は、可観測体の非連想代数を扱える量子力学のバージョンを開発し、従来の連想状態における標準量子理論に還元する。 我々の代数的アプローチは自然確率的であり、一般非結合代数の普遍包絡代数を用いて、連想合成積の一般化概念を導入する。 状態の性質をトレースの概念とともに定式化し、それらを用いてGNS構造を開発する。 Heisenberg と Schr\"odinger の完全な正の動力学図式を記述し、有限次元行列ジョルダン代数の明示的な例とオクトニオン代数についてフォーマリズムを記述する。

We develop a version of quantum mechanics that can handle nonassociative algebras of observables and which reduces to standard quantum theory in the traditional associative setting. Our algebraic approach is naturally probabilistic and is based on using the universal enveloping algebra of a general nonassociative algebra to introduce a generalized notion of associative composition product. We formulate properties of states together with notions of trace, and use them to develop GNS constructions. We describe Heisenberg and Schr\"odinger pictures of completely positive dynamics, and we illustrate our formalism on the explicit examples of finite-dimensional matrix Jordan algebras as well as the octonion algebra.
翻訳日:2024-05-10 18:09:15 公開日:2024-05-09
# フェデレーション学習におけるデータ評価と検出

Data Valuation and Detections in Federated Learning ( http://arxiv.org/abs/2311.05304v3 )

ライセンス: Link先を確認
Wenqian Li, Shuran Fu, Fengrui Zhang, Yan Pang, (参考訳) フェデレートラーニング(FL)は、生データのプライバシーを維持しながら協調的なモデルトレーニングを可能にする。 このフレームワークの課題は、データの公平かつ効率的な評価であり、FLタスクで高品質なデータを提供するためにクライアントにインセンティブを与えるのに不可欠である。 FL内の多数のデータクライアントを含むシナリオでは、クライアントとデータセットのサブセットだけが特定の学習タスクに関係している場合がよくあります。 本稿では,FLタスクにおける事前学習アルゴリズムを使わずに,クライアントのコントリビューションを評価し,関連するデータセットを選択するための新たなプライバシ保護手法を提案する。 We proposed approach FedBary, using Wasserstein distance within the Federated context, offering a new solution for data valuation in the FL framework。 この方法では、Wasserstein Barycenterの透過的なデータバリュエーションと効率的な計算が保証され、検証データセットへの依存を減らすことができる。 実験実験や理論解析を通じて,このデータ評価手法の可能性をFL研究に期待できる道として示す。

Federated Learning (FL) enables collaborative model training while preserving the privacy of raw data. A challenge in this framework is the fair and efficient valuation of data, which is crucial for incentivizing clients to contribute high-quality data in the FL task. In scenarios involving numerous data clients within FL, it is often the case that only a subset of clients and datasets are pertinent to a specific learning task, while others might have either a negative or negligible impact on the model training process. This paper introduces a novel privacy-preserving method for evaluating client contributions and selecting relevant datasets without a pre-specified training algorithm in an FL task. Our proposed approach FedBary, utilizes Wasserstein distance within the federated context, offering a new solution for data valuation in the FL framework. This method ensures transparent data valuation and efficient computation of the Wasserstein barycenter and reduces the dependence on validation datasets. Through extensive empirical experiments and theoretical analyses, we demonstrate the potential of this data valuation method as a promising avenue for FL research.
翻訳日:2024-05-10 18:09:15 公開日:2024-05-09
# 大規模言語モデルは、圧力を受けると戦略的にユーザーを欺くことができる

Large Language Models can Strategically Deceive their Users when Put Under Pressure ( http://arxiv.org/abs/2311.07590v3 )

ライセンス: Link先を確認
Jérémy Scheurer, Mikita Balesni, Marius Hobbhahn, (参考訳) 筆者らは,大規模言語モデルにおいて,無害かつ誠実に,不整合な行動を示し,その行動についてユーザを戦略的に騙すことができることを実証した。 具体的には,GPT-4を現実的な模擬環境でエージェントとして展開し,自律的な株式取引エージェントの役割を想定する。 この環境では、インサイダー取引が企業経営によって承認されていないことを知りながら、このモデルは、収益性の高い株式取引に関するインサイダーチップを取得し、それに対して行動する。 マネージャに報告するとき、モデルは、その取引決定の背後にある真の理由を常に隠します。 例えば、推論スクラッチパッドへのモデルアクセスの除去、システム命令の変更による不整合行動の防止、モデルが下にある圧力の量の変更、キャッチされるリスクの変動、環境への他の簡単な変更などである。 われわれの知る限り、これは大規模言語モデルの訓練を受けた最初の実演であり、無害で誠実で戦略的にユーザを現実的な状況で軽蔑し、直接の指示や騙しの訓練を受けずにすむ。

We demonstrate a situation in which Large Language Models, trained to be helpful, harmless, and honest, can display misaligned behavior and strategically deceive their users about this behavior without being instructed to do so. Concretely, we deploy GPT-4 as an agent in a realistic, simulated environment, where it assumes the role of an autonomous stock trading agent. Within this environment, the model obtains an insider tip about a lucrative stock trade and acts upon it despite knowing that insider trading is disapproved of by company management. When reporting to its manager, the model consistently hides the genuine reasons behind its trading decision. We perform a brief investigation of how this behavior varies under changes to the setting, such as removing model access to a reasoning scratchpad, attempting to prevent the misaligned behavior by changing system instructions, changing the amount of pressure the model is under, varying the perceived risk of getting caught, and making other simple changes to the environment. To our knowledge, this is the first demonstration of Large Language Models trained to be helpful, harmless, and honest, strategically deceiving their users in a realistic situation without direct instructions or training for deception.
翻訳日:2024-05-10 18:09:15 公開日:2024-05-09
# 一般化されたロクサー・キヴェルソン波動関数のマジック

Magic in generalized Rokhsar-Kivelson wavefunctions ( http://arxiv.org/abs/2311.08463v2 )

ライセンス: Link先を確認
Poetri Sonya Tarabunga, Claudio Castelnovo, (参考訳) マジック(Magic)は、安定状態からの逸脱を特徴付ける量子状態の特性であり、クリフォード演算を使用するスキームにおいて、普遍的な量子計算egを達成するのに有用なリソースとして機能する。 本研究では、安定化器 Renyi entropy によって定量化される魔法について、一般化されたロクサー・キヴェルソン系と呼ばれるモデルのクラス、すなわち確率行列形式(SMF)分解を許容するハミルトニアンについて研究する。 これらの系の基底状態の波動関数は相図を通して明示的に記述することができ、それらの性質は関連する古典的な統計力学問題と関連付けられ、通常は従来の量子的多くの体の設定では利用できない強力な解析的および数値的アプローチを可能にする。 その結果、関連する古典的問題の自由エネルギー差として理解できる波動関数係数の観点からSREを表現できる。 この知見を、大規模な高次元系のSREを数値的に研究できる量子多体SMFハミルトニアン(英語版)に応用し、場合によっては解析結果を得ることができる。 これらの系において、SREの挙動は、(遷移の性質によっては、その1階または上位階の微分において)実際に特異であるにもかかわらず、比較的機能的でないことが観察される。 それとは対照的に、SREの最大値は量子臨界点から外れたカスプで発生し、導関数が突然符号を変化させる。 さらに、SREと重なり合いの対数と特定の安定化状態を比較し、これらの系の基底状態位相図で漸近的に実現した。 それらは著しく類似した振る舞いを示し、それによって魔法のミン相対エントロピーに厳密な境界を確立する。

Magic is a property of a quantum state that characterizes its deviation from a stabilizer state, serving as a useful resource for achieving universal quantum computation e.g., within schemes that use Clifford operations. In this work, we study magic, as quantified by the stabilizer Renyi entropy, in a class of models known as generalized Rokhsar-Kivelson systems, i.e., Hamiltonians that allow a stochastic matrix form (SMF) decomposition. The ground state wavefunctions of these systems can be written explicitly throughout their phase diagram, and their properties can be related to associated classical statistical mechanics problems, thereby allowing powerful analytical and numerical approaches that are not usually available in conventional quantum many body settings. As a result, we are able to express the SRE in terms of wave function coefficients that can be understood as a free energy difference of related classical problems. We apply this insight to a range of quantum many body SMF Hamiltonians, which affords us to study numerically the SRE of large high-dimensional systems, and in some cases to obtain analytical results. We observe that the behaviour of the SRE is relatively featureless across quantum phase transitions in these systems, although it is indeed singular (in its first or higher order derivative, depending on the nature of the transition). On the contrary, we find that the maximum of the SRE generically occurs at a cusp away from the quantum critical point, where the derivative suddenly changes sign. Furthermore, we compare the SRE and the logarithm of overlaps with specific stabilizer states, asymptotically realised in the ground state phase diagrams of these systems. We find that they display strikingly similar behaviors, which in turn establish rigorous bounds on the min-relative entropy of magic.
翻訳日:2024-05-10 18:09:14 公開日:2024-05-09
# 3次元世界におけるエンボディード・ジェネリストエージェント

An Embodied Generalist Agent in 3D World ( http://arxiv.org/abs/2311.12871v3 )

ライセンス: Link先を確認
Jiangyong Huang, Silong Yong, Xiaojian Ma, Xiongkun Linghu, Puhao Li, Yan Wang, Qing Li, Song-Chun Zhu, Baoxiong Jia, Siyuan Huang, (参考訳) 大規模言語モデル(LLM)から大量の知識を活用することで、最近の機械学習モデルは、コンピュータビジョンやロボティクスといったさまざまな分野において、汎用的なタスク解決において顕著な成功を収めている。 しかし、いくつかの重要な課題が残っている。 (i)これらのモデルのほとんどは2次元画像に依存しているが、3次元入力には限界がある。 (II)これらのモデルでは,3次元世界において本質的に定義された課題,例えば3次元グラウンド,具体的推論,行動の探索はめったに行われない。 これらの制限は、現在のモデルが現実世界のタスクを実行したり、汎用知性に近づいたりすることを著しく妨げている、と我々は主張する。 この目的のために,3次元世界における知覚,接地,推論,計画,行動の卓越したマルチモーダル・ジェネリストエージェントであるLEOを紹介した。 LEOは、統合されたタスクインターフェース、モデルアーキテクチャ、目的を2段階に分けて訓練されている。 (i)3次元視覚言語(VL)アライメントとアライメント (II)3次元視覚言語動作(VLA)命令チューニング。 我々は,多種多様なオブジェクトレベルおよびシーンレベルのタスクからなる大規模データセットを収集する。 さらに,高品質な3次元VLデータを生成するLLM支援パイプラインを慎重に設計する。 3Dキャプション,質問応答,具体的推論,ナビゲーション,操作など,多岐にわたるLEOの卓越した習熟度を実証した。 本研究は, 将来の総合エージェント開発に有用な知見を提供するものである。 コードとデータはプロジェクトページで公開されている。

Leveraging massive knowledge from large language models (LLMs), recent machine learning models show notable successes in general-purpose task solving in diverse domains such as computer vision and robotics. However, several significant challenges remain: (i) most of these models rely on 2D images yet exhibit a limited capacity for 3D input; (ii) these models rarely explore the tasks inherently defined in 3D world, e.g., 3D grounding, embodied reasoning and acting. We argue these limitations significantly hinder current models from performing real-world tasks and approaching general intelligence. To this end, we introduce LEO, an embodied multi-modal generalist agent that excels in perceiving, grounding, reasoning, planning, and acting in the 3D world. LEO is trained with a unified task interface, model architecture, and objective in two stages: (i) 3D vision-language (VL) alignment and (ii) 3D vision-language-action (VLA) instruction tuning. We collect large-scale datasets comprising diverse object-level and scene-level tasks, which require considerable understanding of and interaction with the 3D world. Moreover, we meticulously design an LLM-assisted pipeline to produce high-quality 3D VL data. Through extensive experiments, we demonstrate LEO's remarkable proficiency across a wide spectrum of tasks, including 3D captioning, question answering, embodied reasoning, navigation and manipulation. Our ablative studies and scaling analyses further provide valuable insights for developing future embodied generalist agents. Code and data are available on project page.
翻訳日:2024-05-10 18:09:14 公開日:2024-05-09
# FALCON: 連続的セマンティックシーン理解のためのコントラスト注意アプローチによるフェアネス学習

FALCON: Fairness Learning via Contrastive Attention Approach to Continual Semantic Scene Understanding ( http://arxiv.org/abs/2311.15965v2 )

ライセンス: Link先を確認
Thanh-Dat Truong, Utsav Prabhu, Bhiksha Raj, Jackson Cothren, Khoa Luu, (参考訳) セマンティックシーンセグメンテーションにおける連続学習は、学習済みの知識を維持しながら、動的環境における新しい未知のクラスを継続的に学習することを目的としている。 以前の研究では、破滅的な忘れ込みと、継続的な学習における背景シフトの課題のモデル化に焦点が当てられていた。 しかし、不公平な予測を引き起こすもう一つの大きな課題である公平さは、メジャークラスとマイナークラスのパフォーマンスの低下に繋がる。 さらに、事前の手法はまだ未知のクラスをうまくモデル化していないため、未知のクラス間で非識別的特徴を生み出す結果となった。 本稿では,意味的場面理解における連続的学習へのコントラスト的意図的アプローチによるフェアネス学習を提案する。 特に、破滅的な忘れと公平さの問題に対処するために、新しいフェアネス・コントラスト・クラスタリング・ロスを導入する。 そこで我々は,バックグラウンドシフト問題と未知クラスを効果的にモデル化し,異なる未知クラスに対してより優れた特徴表現を生成するために,注目に基づく視覚文法手法を提案する。 実験により,提案手法は,複数の連続学習ベンチマーク,ADE20K,Cityscapes,Pascal VOC上でのSOTA(State-of-the-Art)性能を実現する。 連続的セマンティックセグメンテーションモデルの公平性を促進する。

Continual Learning in semantic scene segmentation aims to continually learn new unseen classes in dynamic environments while maintaining previously learned knowledge. Prior studies focused on modeling the catastrophic forgetting and background shift challenges in continual learning. However, fairness, another major challenge that causes unfair predictions leading to low performance among major and minor classes, still needs to be well addressed. In addition, prior methods have yet to model the unknown classes well, thus resulting in producing non-discriminative features among unknown classes. This paper presents a novel Fairness Learning via Contrastive Attention Approach to continual learning in semantic scene understanding. In particular, we first introduce a new Fairness Contrastive Clustering loss to address the problems of catastrophic forgetting and fairness. Then, we propose an attention-based visual grammar approach to effectively model the background shift problem and unknown classes, producing better feature representations for different unknown classes. Through our experiments, our proposed approach achieves State-of-the-Art (SOTA) performance on different continual learning benchmarks, i.e., ADE20K, Cityscapes, and Pascal VOC. It promotes the fairness of the continual semantic segmentation model.
翻訳日:2024-05-10 18:09:14 公開日:2024-05-09
# 効果的なセキュアコードレビューに向けて - セキュリティ関連コーディング弱さの実証的研究-

Toward Effective Secure Code Reviews: An Empirical Study of Security-Related Coding Weaknesses ( http://arxiv.org/abs/2311.16396v2 )

ライセンス: Link先を確認
Wachiraphan Charoenwet, Patanamon Thongtanunam, Van-Thuan Pham, Christoph Treude, (参考訳) セキュリティ上の問題を早期に特定することは、ソフトウェアシステムに対する潜在的なネガティブな影響を減らすために推奨される。 コードレビューは、開発者が手動で修正されたコードを検査し、ソフトウェア開発サイクル中にセキュリティ上の問題をキャッチできる、広く使われている方法である。 しかし、既存のコードレビュー研究は、しばしば既知の脆弱性に焦点を当て、コーディングの弱点を無視している。 このようなコーディングの弱点を特定するためのコードレビューの実践は、まだ完全には研究されていない。 これを理解するために、私たちはOpenSSLとPHPという2つの大きなオープンソースプロジェクトで実証的なケーススタディを実施しました。 135,560のコードレビューコメントに基づいて、40のコーディング弱点カテゴリのうち35に、レビュー担当者がセキュリティ上の懸念を提起していることが分かりました。 驚いたことに、メモリエラーやリソース管理といった過去の脆弱性に関連するコーディングの弱点は、脆弱性よりも少ない頻度で議論された。 開発者は多くの場合、セキュリティ上の懸念に対処しようとした(39%-41%)。 これは、コーディングの弱点が特定されてもコードレビューを抜ける可能性があることを強調している。 この結果から,コードレビュー中のセキュリティ問題の原因となるコーディングの弱点を,レビュアが特定できることが示唆された。 しかし、これらの結果は、コードレビューのプラクティスの欠点も示しており、コードレビューにおけるセキュリティ問題管理の認知度を高めるための、より効果的なメカニズムやサポートの必要性を示している。

Identifying security issues early is encouraged to reduce the latent negative impacts on software systems. Code review is a widely-used method that allows developers to manually inspect modified code, catching security issues during a software development cycle. However, existing code review studies often focus on known vulnerabilities, neglecting coding weaknesses, which can introduce real-world security issues that are more visible through code review. The practices of code reviews in identifying such coding weaknesses are not yet fully investigated. To better understand this, we conducted an empirical case study in two large open-source projects, OpenSSL and PHP. Based on 135,560 code review comments, we found that reviewers raised security concerns in 35 out of 40 coding weakness categories. Surprisingly, some coding weaknesses related to past vulnerabilities, such as memory errors and resource management, were discussed less often than the vulnerabilities. Developers attempted to address raised security concerns in many cases (39%-41%), but a substantial portion was merely acknowledged (30%-36%), and some went unfixed due to disagreements about solutions (18%-20%). This highlights that coding weaknesses can slip through code review even when identified. Our findings suggest that reviewers can identify various coding weaknesses leading to security issues during code reviews. However, these results also reveal shortcomings in current code review practices, indicating the need for more effective mechanisms or support for increasing awareness of security issue management in code reviews.
翻訳日:2024-05-10 18:09:14 公開日:2024-05-09
# ドメイン特化コード生成における大規模言語モデルの有効性について

On the Effectiveness of Large Language Models in Domain-Specific Code Generation ( http://arxiv.org/abs/2312.01639v3 )

ライセンス: Link先を確認
Yalan Lin, Meng Chen, Yuhan Hu, Hongyu Zhang, Chengcheng Wan, Zhao Wei, Yong Xu, Juhong Wang, Xiaodong Gu, (参考訳) ChatGPTのような大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。 大きな成果にもかかわらず、彼らは幅広いオープンドメインの知識を取得するために膨大なトレーニングデータに依存している。 彼らの評価は、主にプログラミングコンテストで構成されるHumanEvalのようなオープンドメインベンチマークを中心に展開されている。 したがって、特定の領域(例えば、ウェブ、ゲーム、数学)に関連する複雑さと課題を完全に特徴づけるのは困難である。 本稿では,ドメイン固有コード生成におけるLLMの詳細な研究を行う。 その結果, LLMは, ドメイン固有ライブラリの利用能力に限界があるため, ドメイン固有コードの生成において, サブ最適性能を示すことがわかった。 さらに、API知識をプロンプトとして組み込むことで、LCMがよりプロフェッショナルなコードを生成することができることを観察する。 これらの知見に基づいて,コード生成プロセスにAPI知識を効率的に組み込む方法について検討する。 ドメイン知識、すなわち外部知識の問い合わせ、思考の連鎖、思考の連鎖、微調整の3つの戦略を実験的に検討した。 私たちはこれらの戦略を、DomCoderと呼ばれる新しいコード生成アプローチと呼んでいる。 実験結果から,DomCoderのすべての戦略が,特定の設定下でのドメイン固有コード生成の有効性の向上につながることが示された。 また,さらなる改善の余地がまだ十分にあることも示しており,今後の研究の可能性も示唆している。

Large language models (LLMs) such as ChatGPT have shown remarkable capabilities in code generation. Despite the great achievement, they rely on enormous training data to acquire a broad spectrum of open-domain knowledge. Besides, their evaluation revolves around open-domain benchmarks like HumanEval, which primarily consist of programming contests. Therefore, it is hard to fully characterize the intricacies and challenges associated with particular domains (e.g., web, game, and math). In this paper, we conduct an in-depth study of the LLMs in domain-specific code generation. Our results demonstrate that LLMs exhibit sub-optimal performance in generating domain-specific code, due to their limited proficiency in utilizing domain-specific libraries. We further observe that incorporating API knowledge as prompts can empower LLMs to generate more professional code. Based on these findings, we further investigate how to efficiently incorporate API knowledge into the code generation process. We experiment with three strategies for incorporating domain knowledge, namely, external knowledge inquirer, chain-of-thought prompting, and chain-of-thought fine-tuning. We refer to these strategies as a new code generation approach called DomCoder. Experimental results show that all strategies of DomCoder lead to improvement in the effectiveness of domain-specific code generation under certain settings. The results also show that there is still ample room for further improvement, based on which we suggest possible future works.
翻訳日:2024-05-10 18:09:14 公開日:2024-05-09
# ボーアの相補性原理の更新

Updating Bohr's Complementarity Principle ( http://arxiv.org/abs/2312.02743v3 )

ライセンス: Link先を確認
Diego S. Starke, Marcos L. W. Basso, Jonas Maziero, (参考訳) ボーアの補性原理は長い間、量子力学の基本的な概念であり、与えられた実験装置内では、量子系(または量子系)は、その波状文字を$W$、またはその粒子状文字を$P$と表すことができるが、同時にはならないことを示唆している。 ボーアの補性原理の現代的な解釈は、同じ実験においてこれらの側面の共存を認め、制約$W + P \le \alpha$を導入している。 特に、$W$または$P$の推定は間接的回帰法にしばしば依存しており、これはボーアの補性原理に違反しているという主張につながった。 異なる経路をとることによって、近年の進歩は、特定の量子状態の準備条件下での量子力学の公理から補性関係が厳格に導かれることを示した。 これらの観測を整理し、潜在的なパラドックスや違反を排除するために、ボアの補性原理の更新式を提案する。 \textit{For a given quantum state prepared $\rho_t$ at a specific instant of time $t$, the wave and particle behaviors of a Quanton are constrained by a complementarity relation $W(\rho_t) + P(\rho_t) \le \alpha(d)$, which is directly from the axioms of quantum mechanics。 ※

Bohr's complementarity principle has long been a fundamental concept in quantum mechanics, positing that, within a given experimental setup, a quantum system (or quanton) can exhibit either its wave-like character, denoted as $W$, or its particle-like character, denoted as $P$, but not both simultaneously. Modern interpretations of Bohr's complementarity principle acknowledge the coexistence of these aspects in the same experiment while introducing the constraint $W + P \le \alpha$. Notably, estimations of $W$ or $P$ frequently rely on indirect retrodiction methods, a practice that has led to the claim of the violation of Bohr's complementarity principle. By taking a different route, recent advancements demonstrate that complementarity relations can be rigorously derived from the axioms of quantum mechanics under specific quantum state preparation conditions. To reconcile these observations and eliminate potential paradoxes or violations, we propose an updated formulation of Bohr's complementarity principle, which is stated as follows: \textit{For a given quantum state preparation $\rho_t$ at a specific instant of time $t$, the wave and particle behaviors of a quanton are constrained by a complementarity relation $W(\rho_t) + P(\rho_t) \le \alpha(d)$, which is derived directly from the axioms of quantum mechanics.}
翻訳日:2024-05-10 18:09:14 公開日:2024-05-09
# StructComp: グラフコントラスト学習における構造圧縮による伝達の代替

StructComp: Substituting Propagation with Structural Compression in Training Graph Contrastive Learning ( http://arxiv.org/abs/2312.04865v4 )

ライセンス: Link先を確認
Shengzhong Zhang, Wenjie Yang, Xinyuan Cao, Hongwei Zhang, Zengfeng Huang, (参考訳) グラフコントラスト学習(GCL)は、グラフデータを学習するための強力なツールとなっているが、そのスケーラビリティは依然として大きな課題である。 本研究では,この問題を解決するために,構造圧縮(StructComp)と呼ばれるシンプルで効果的なトレーニングフレームワークを提案する。 拡散行列上の疎低ランク近似にインスパイアされたStructCompは、圧縮ノードでエンコーダを訓練する。 これにより、エンコーダはトレーニング期間中にメッセージパッシングを行わず、対照的な損失でサンプルペアの数を大幅に削減できる。 理論的には、元のGCL損失はStructCompによって計算された対照的な損失と近似できる。 さらに、StructCompはGCLモデルのさらなる正規化用語と見なすことができ、より堅牢なエンコーダとなる。 様々なデータセットに関する実証的研究により、StructCompは、バニラGCLモデルやスケーラブルなトレーニング手法と比較して、モデルパフォーマンスを改善しながら、時間とメモリ消費を大幅に削減することが示された。

Graph contrastive learning (GCL) has become a powerful tool for learning graph data, but its scalability remains a significant challenge. In this work, we propose a simple yet effective training framework called Structural Compression (StructComp) to address this issue. Inspired by a sparse low-rank approximation on the diffusion matrix, StructComp trains the encoder with the compressed nodes. This allows the encoder not to perform any message passing during the training stage, and significantly reduces the number of sample pairs in the contrastive loss. We theoretically prove that the original GCL loss can be approximated with the contrastive loss computed by StructComp. Moreover, StructComp can be regarded as an additional regularization term for GCL models, resulting in a more robust encoder. Empirical studies on various datasets show that StructComp greatly reduces the time and memory consumption while improving model performance compared to the vanilla GCL models and scalable training methods.
翻訳日:2024-05-10 17:59:24 公開日:2024-05-09
# 大規模ヒューマン言語モデル: ニーズと課題

Large Human Language Models: A Need and the Challenges ( http://arxiv.org/abs/2312.07751v3 )

ライセンス: Link先を確認
Nikita Soni, H. Andrew Schwartz, João Sedoc, Niranjan Balasubramanian, (参考訳) 人間中心NLPの研究が進むにつれ、人間と社会的要因をNLPモデルに組み込むことの重要性がますます認識されている。 同時に、我々のNLPシステムは LLM に大きく依存するようになり、そのほとんどは著者をモデル化していない。 人間の言語を真に理解できるNLPシステムを構築するためには、人間のコンテキストをLLMに統合する必要がある。 これにより、人的側面のキャプチャ、表現方法、追求すべきモデリング戦略の観点から、さまざまな設計上の考慮と課題が表面化します。 これらの課題に対処するために,心理学や行動科学の概念を用いた大規模人文言語モデル(LHLM)の創出を提唱する。 第2に、LHLMは人々がグループ以上のものであることを認識すべきである。 第3に、LHLMは人間の文脈の動的かつ時間的に依存する性質を説明できるべきである。 我々は、関連する進歩と、対処すべきオープンな課題と、これらの目標を実現するためのソリューションについて言及する。

As research in human-centered NLP advances, there is a growing recognition of the importance of incorporating human and social factors into NLP models. At the same time, our NLP systems have become heavily reliant on LLMs, most of which do not model authors. To build NLP systems that can truly understand human language, we must better integrate human contexts into LLMs. This brings to the fore a range of design considerations and challenges in terms of what human aspects to capture, how to represent them, and what modeling strategies to pursue. To address these, we advocate for three positions toward creating large human language models (LHLMs) using concepts from psychological and behavioral sciences: First, LM training should include the human context. Second, LHLMs should recognize that people are more than their group(s). Third, LHLMs should be able to account for the dynamic and temporally-dependent nature of the human context. We refer to relevant advances and present open challenges that need to be addressed and their possible solutions in realizing these goals.
翻訳日:2024-05-10 17:59:24 公開日:2024-05-09
# ブロック次数可変行列暗号化アルゴリズムに基づく新しいRFID認証プロトコル

A Novel RFID Authentication Protocol Based on A Block-Order-Modulus Variable Matrix Encryption Algorithm ( http://arxiv.org/abs/2312.10593v2 )

ライセンス: Link先を確認
Yan Wang, Ruiqi Liu, Tong Gao, Feng Shu, Xuemei Lei, Guan Gui, Jiangzhou Wang, (参考訳) 本稿では,低コストなタグ付き移動無線周波数識別システム(RFID)の認証について検討する。 まず,適応率 (AM) 暗号アルゴリズムを提案する。 その後,新たな鍵行列を付加せずにセキュリティを高めるために,自己更新暗号順序(SUEO)アルゴリズムを設計する。 さらに、対角ブロック局所転置鍵行列(DBLTKM)暗号化アルゴリズムを示し、鍵空間の実行可能な領域を効果的に拡張する。 上記の3つのアルゴリズムに基づいて,新しいAM-SUEO-DBLTKM暗号アルゴリズムを構築した。 モバイルRFIDシステムでは,AM-SUEO-DBLTKM-RFIDと呼ばれる双方向RFID認証プロトコルであるジョイントアルゴリズムの利点をフル活用する。 さらに,Burrows-Abadi-Needham(BAN)論理とセキュリティ解析により,提案したAM-SUEO-DBLTKM-RFIDプロトコルが,様々な攻撃に対して効果的に対処できることが示唆された。 AM-SUEO-DBLTKMアルゴリズムは従来のアルゴリズムよりも99.59 %のタグストレージを節約できることを示す。 最後に、AM-SUEO-DBLTKM-RFIDプロトコルの低計算量化と低ストレージ化により、低コストRFIDタグへの展開が容易になる。

In this paper, authentication for mobile radio frequency identification (RFID) systems with low-cost tags is studied. Firstly, an adaptive modulus (AM) encryption algorithm is proposed. Subsequently, in order to enhance the security without additional storage of new key matrices, a self-updating encryption order (SUEO) algorithm is designed. Furthermore, a diagonal block local transpose key matrix (DBLTKM) encryption algorithm is presented, which effectively expands the feasible domain of the key space. Based on the above three algorithms, a novel joint AM-SUEO-DBLTKM encryption algorithm is constructed. Making full use of the advantages of the proposed joint algorithm, a two-way RFID authentication protocol, named AM-SUEO-DBLTKM-RFID, is proposed for mobile RFID systems. In addition, the Burrows-Abadi-Needham (BAN) logic and security analysis indicate that the proposed AM-SUEO-DBLTKM-RFID protocol can effectively combat various typical attacks. Numerical results demonstrate that the proposed AM-SUEO-DBLTKM algorithm can save 99.59\% of tag storage over traditional algorithms. Finally, the low computational complexity as well as the low storage cost of the proposed AM-SUEO-DBLTKM-RFID protocol facilitates deployment within low-cost RFID tags.
翻訳日:2024-05-10 17:59:24 公開日:2024-05-09
# ZX-Calculusによる強化学習に基づく量子回路最適化

Reinforcement Learning Based Quantum Circuit Optimization via ZX-Calculus ( http://arxiv.org/abs/2312.11597v2 )

ライセンス: Link先を確認
Jordi Riu, Jan Nogué, Gerard Vilaplana, Artur Garcia-Saez, Marta P. Estarellas, (参考訳) 本稿では,ZX-ダイアグラムのグラフ理論的単純化規則を用いて,量子回路を最適化するための新しい強化学習法を提案する。 このエージェントはPPOアルゴリズムを用いて訓練され、グラフニューラルネットワークを用いてポリシーと値関数を近似する。 そこで本研究では,ZX計算に基づく最適アルゴリズムと比較し,提案手法の能力を示す。 5量子ビットの小さなクリフォード+T回路と10分の1のゲートの訓練の後、エージェントは、計算性能の点で競争力を維持しながら、40量子ビットと1200個のゲートを持つこの種の回路の最先端を一貫して改善した。 さらに、全ゲート数と2ビットゲート数の削減を目標とし、各ハードウェアバックエンドの特定の特性に合わせて報酬関数を調整する可能性を示す。 我々のアプローチは、短期中間スケール範囲(NISQ)における量子アルゴリズムの実装のための貴重なツールとして使われる準備ができている。

We propose a novel Reinforcement Learning (RL) method for optimizing quantum circuits using graph-theoretic simplification rules of ZX-diagrams. The agent, trained using the Proximal Policy Optimization (PPO) algorithm, employs Graph Neural Networks to approximate the policy and value functions. We demonstrate the capacity of our approach by comparing it against the best performing ZX-calculus-based algorithm for the problem in hand. After training on small Clifford+T circuits of 5-qubits and few tenths of gates, the agent consistently improves the state-of-the-art for this type of circuits, with up to 40-qubit and 1200 gates, whilst remaining competitive in terms of computational performance. Additionally, we illustrate its versatility by targeting both total and two-qubit gate count reduction, conveying the potential of tailoring its reward function to the specific characteristics of each hardware backend. Our approach is ready to be used as a valuable tool for the implementation of quantum algorithms in the near-term intermediate-scale range (NISQ).
翻訳日:2024-05-10 17:59:24 公開日:2024-05-09
# エコー状態ネットワークを用いたマルチエージェント強化学習とその歩行者動態への応用

Multi-agent reinforcement learning using echo-state network and its application to pedestrian dynamics ( http://arxiv.org/abs/2312.11834v3 )

ライセンス: Link先を確認
Hisato Komatsu, (参考訳) 近年,マルチエージェント強化学習(MARL)を用いた歩行者のシミュレーションが研究されている。 本研究は, グリッドワールド環境における道路を考察し, エコー状態ネットワークと最小二乗ポリシー反復法を用いて歩行者をMARLエージェントとして実装した。 この環境下では、これらのエージェントが他のエージェントを避けて前進することを学ぶ能力について検討した。 具体的には,狭い直進経路と広い遠回り経路の選択と,廊下における双方向歩行者流の2つのタスクについて検討した。 シミュレーションの結果, エージェントの密度がそれほど高くなかった場合, 学習は成功した。

In recent years, simulations of pedestrians using the multi-agent reinforcement learning (MARL) have been studied. This study considered the roads on a grid-world environment, and implemented pedestrians as MARL agents using an echo-state network and the least squares policy iteration method. Under this environment, the ability of these agents to learn to move forward by avoiding other agents was investigated. Specifically, we considered two types of tasks: the choice between a narrow direct route and a broad detour, and the bidirectional pedestrian flow in a corridor. The simulations results indicated that the learning was successful when the density of the agents was not that high.
翻訳日:2024-05-10 17:59:24 公開日:2024-05-09
# 確率過程の量子シミュレーションにおける精度とメモリアドバンテージ

Accuracy vs Memory Advantage in the Quantum Simulation of Stochastic Processes ( http://arxiv.org/abs/2312.13473v2 )

ライセンス: Link先を確認
Leonardo Banchi, (参考訳) 多くの推論シナリオは、将来の予測を行うために、既知のデータから関連する情報を抽出することに依存している。 基礎となる確率過程が特定の仮定を満たすとき、その正確な古典的および量子的シミュレータ間の直接写像が存在し、後者は漸近的に少ないメモリを使用する。 ここでは、これらの仮定が満たされていないとき、そのような量子的優位性が持続するかどうかの研究に焦点をあてる。 精度とメモリ要件のトレードオフを研究することで、量子モデルはより少ないメモリで同じ精度に到達し、代わりに同じメモリでより良い精度が得られることを示す。 最後に,この結果が学習課題に与える影響について考察する。

Many inference scenarios rely on extracting relevant information from known data in order to make future predictions. When the underlying stochastic process satisfies certain assumptions, there is a direct mapping between its exact classical and quantum simulators, with the latter asymptotically using less memory. Here we focus on studying whether such quantum advantage persists when those assumptions are not satisfied, and the model is doomed to have imperfect accuracy. By studying the trade-off between accuracy and memory requirements, we show that quantum models can reach the same accuracy with less memory, or alternatively, better accuracy with the same memory. Finally, we discuss the implications of this result for learning tasks.
翻訳日:2024-05-10 17:59:24 公開日:2024-05-09
# 注意保持によるパッチ攻撃に対するロバストなセマンティックセマンティックセグメンテーションに向けて

Towards Robust Semantic Segmentation against Patch-based Attack via Attention Refinement ( http://arxiv.org/abs/2401.01750v2 )

ライセンス: Link先を確認
Zheng Yuan, Jie Zhang, Yude Wang, Shiguang Shan, Xilin Chen, (参考訳) 近年,様々な視覚的タスクにおいて注意機構が有効であることが証明されている。 セグメンテーションタスクでは、コンボリューションニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)の両方をバックボーンとするなど、様々な方法で注意機構が適用される。 しかし,アテンション機構はパッチベースの敵攻撃に対して脆弱であることがわかった。 実効性受容野の解析を通じて,世界的注目によってもたらされる広視野受容野が,対向パッチの拡散に繋がる可能性が示唆された。 この問題に対処するため,本論文では,パッチベースの攻撃に対する脆弱性を顕著に軽減できるセグメンテーションモデルの堅牢性を改善するために,ロバスト注意機構(RAM)を提案する。 Vallinaのアテンション機構と比較して、RAMはMax Attention SuppressionとRandom Attention Dropoutと呼ばれる2つの新しいモジュールを導入している。 大規模な実験により、異なる攻撃条件下での様々なパッチベースの攻撃方法に対するセマンティックセグメンテーションモデルの堅牢性を向上させるために、我々のRAMの有効性が実証された。

The attention mechanism has been proven effective on various visual tasks in recent years. In the semantic segmentation task, the attention mechanism is applied in various methods, including the case of both Convolution Neural Networks (CNN) and Vision Transformer (ViT) as backbones. However, we observe that the attention mechanism is vulnerable to patch-based adversarial attacks. Through the analysis of the effective receptive field, we attribute it to the fact that the wide receptive field brought by global attention may lead to the spread of the adversarial patch. To address this issue, in this paper, we propose a Robust Attention Mechanism (RAM) to improve the robustness of the semantic segmentation model, which can notably relieve the vulnerability against patch-based attacks. Compared to the vallina attention mechanism, RAM introduces two novel modules called Max Attention Suppression and Random Attention Dropout, both of which aim to refine the attention matrix and limit the influence of a single adversarial patch on the semantic segmentation results of other positions. Extensive experiments demonstrate the effectiveness of our RAM to improve the robustness of semantic segmentation models against various patch-based attack methods under different attack settings.
翻訳日:2024-05-10 17:59:24 公開日:2024-05-09
# EmMixformer:眼球運動認識のための混合トランス

EmMixformer: Mix transformer for eye movement recognition ( http://arxiv.org/abs/2401.04956v2 )

ライセンス: Link先を確認
Huafeng Qin, Hongyu Zhu, Xin Jin, Qun Song, Mounim A. El-Yacoubi, Xinbo Gao, (参考訳) 近年,眼球運動(EM)が注目されている。 畳み込みニューラルネットワーク(CNN)のようなディープニューラルネットワークは、最近、有望なパフォーマンスを達成したが、現在のソリューションでは、眼球運動データ内の局所的およびグローバルな時間的依存関係をキャプチャできない。 本稿では,眼球運動認識のための時間領域情報と周波数領域情報を抽出するEmMixformerという混合変換器を提案する。 そこで本研究では,3つのモジュール,トランス,アテンションロング短期記憶(アテンションLSTM),フーリエ変換器からなる混合ブロックを提案する。 我々は,眼球運動の長期的依存を学習するためにトランスフォーマーを活用する試みを初めて行った。 第2に,注意機構をLSTMに組み込んで,短時間の時間依存性の学習を目的とした注意LSTMを提案する。 第3に,グローバルな特徴を学習するために周波数領域で自己注意を行う。 3つのモジュールは局所的およびグローバルな依存関係の観点から補完的な特徴表現を提供するため、提案したEmMixformerは認識精度を向上させることができる。 眼球運動データセットと2つの公的な眼球運動データセットの実験結果から,提案したEmMixformerは,最小の検証誤差を達成し,最先端技術を上回る性能を示した。

Eye movement (EM) is a new highly secure biometric behavioral modality that has received increasing attention in recent years. Although deep neural networks, such as convolutional neural network (CNN), have recently achieved promising performance, current solutions fail to capture local and global temporal dependencies within eye movement data. To overcome this problem, we propose in this paper a mixed transformer termed EmMixformer to extract time and frequency domain information for eye movement recognition. To this end, we propose a mixed block consisting of three modules, transformer, attention Long short-term memory (attention LSTM), and Fourier transformer. We are the first to attempt leveraging transformer to learn long temporal dependencies within eye movement. Second, we incorporate the attention mechanism into LSTM to propose attention LSTM with the aim to learn short temporal dependencies. Third, we perform self attention in the frequency domain to learn global features. As the three modules provide complementary feature representations in terms of local and global dependencies, the proposed EmMixformer is capable of improving recognition accuracy. The experimental results on our eye movement dataset and two public eye movement datasets show that the proposed EmMixformer outperforms the state of the art by achieving the lowest verification error.
翻訳日:2024-05-10 17:59:24 公開日:2024-05-09
# GDはカットしない:非微分可能性がニューラルネットワークトレーニングに影響を及ぼす3つの方法

GD doesn't make the cut: Three ways that non-differentiability affects neural network training ( http://arxiv.org/abs/2401.08426v3 )

ライセンス: Link先を確認
Siddharth Krishna Kumar, (参考訳) 本稿では,非微分可能関数(NGDM)に適用される勾配法と,微分可能関数用に設計された古典的勾配勾配(GD)との区別について検討する。 まず、NGDMの収束特性をGDと比較し、L-smoothness$に基づく広範ニューラルネットワーク収束文献の適用性に挑戦する。 次に,正規化ペナルティの増加は,NGDMにおける最適解の標準である$L_{1}$の増加につながることを示す。 その結果,ネットワークプルーニングにおいて,L_{1}$のペナライズに基づく手法が広く採用されていることは期待できないことがわかった。 さらに、Adam や RMSProp のような最適化アルゴリズムは、微分不可能な文脈でも同様に機能する、という一般的な信念を排除します。 最後に、リプシッツ連続凸微分関数にも適用不可能であることを示し、非凸微分可能ニューラルネットワークとの関連性について検討する。 本分析では, 強い滑らか性仮定への過度な依存から, 広く引用されている論文やテキストにおいて, NGDMの誤った解釈を提示し, 基礎的仮定の微妙な理解の必要性を強調した。

This paper investigates the distinctions between gradient methods applied to non-differentiable functions (NGDMs) and classical gradient descents (GDs) designed for differentiable functions. First, we demonstrate significant differences in the convergence properties of NGDMs compared to GDs, challenging the applicability of the extensive neural network convergence literature based on $L-smoothness$ to non-smooth neural networks. Next, we demonstrate the paradoxical nature of NGDM solutions for $L_{1}$-regularized problems, showing that increasing the regularization penalty leads to an increase in the $L_{1}$ norm of optimal solutions in NGDMs. Consequently, we show that widely adopted $L_{1}$ penalization-based techniques for network pruning do not yield expected results. Additionally, we dispel the common belief that optimization algorithms like Adam and RMSProp perform similarly in non-differentiable contexts. Finally, we explore the Edge of Stability phenomenon, indicating its inapplicability even to Lipschitz continuous convex differentiable functions, leaving its relevance to non-convex non-differentiable neural networks inconclusive. Our analysis exposes misguided interpretations of NGDMs in widely referenced papers and texts due to an overreliance on strong smoothness assumptions, emphasizing the necessity for a nuanced understanding of foundational assumptions in the analysis of these systems.
翻訳日:2024-05-10 17:59:24 公開日:2024-05-09
# Exact Homomorphic Encryption

Exact Homomorphic Encryption ( http://arxiv.org/abs/2401.09027v3 )

ライセンス: Link先を確認
Zheng-Yao Su, Ming-Chung Tsai, (参考訳) 本稿では, フォールトトレランス量子計算の概念に着想を得て, 事前復号化を必要とせずに, 暗号化データの正確な計算を可能にする, Exact Homomorphic Encryption (EHE) というフレームワークを提案する。 量子ゲートの導入は、メッセージ暗号化とフレームワーク内での計算暗号化を構築するための重要なステップである。 重要なことは、両方の暗号はそれぞれ量子ゲートによって生成される多変量多項式集合で達成されるということである。 量子ゲートの2つの基本的な特徴、可逆性と非可換性は、EHEの成功を確立する。 暗号化計算は、その暗号化変換が可逆ゲートで実行されるため、正確である。 同時に、暗号化されたメッセージと暗号化された計算の両方の復号化が正確である。 応用量子ゲート間の非可換性の第二の特徴は、2つの暗号化のセキュリティをもたらす。 メッセージ暗号化に向けて、非交換ゲートの積がランダムに選択した多項式セットを介して、平文を暗号文に符号化する。 計算暗号化では、所望の演算を非可換ゲートの別の積によって生成された暗号化多項式セットに符号化する。 暗号化された計算は、暗号文にセットされた暗号化多項式の評価であり、暗号評価と呼ばれる。 EHEは量子コンピュータ上でも実現可能であるだけでなく、従来のコンピューティング環境でも容易に実現可能である。 量子レジリエンスの標準的なセキュリティ2^128を超越した暗号化は、提案されたしきい値2^1024よりも大きなセキュリティに達し、超量子レジリエントとして特徴付けられる。 量子ゲートの2つの本質的な特徴により、この枠組みは非可換暗号の概念の最初の有形な表現と見なすことができる。

Inspired by the concept of fault tolerance quantum computation, this article proposes a framework dubbed Exact Homomorphic Encryption, EHE, enabling exact computations on encrypted data without the need for pre-decryption. The introduction of quantum gates is a critical step for constructing the message encryption and the computation encryption within the framework. Of significance is that both encryptions are respectively accomplished in a multivariate polynomial set generated by quantum gates. Two fundamental traits of quantum gates, the invertibility and the noncommutativity, establish the success of EHE. The encrypted computation is exact because its encryption transformation is conducted with invertible gates. In the same vein, decryptions for both an encrypted message and encrypted computation are exact. The second trait of noncommutativity among applied quantum gates brings forth the security for the two encryptions. Toward the message encryption, a plaintext is encoded into a ciphertext via a polynomial set generated by a product of noncommuting gates randomly chosen. In the computation encryption, a desired operation is encoded into an encrypted polynomial set generated by another product of noncommuting gates. The encrypted computation is then the evaluation of the encrypted polynomial set on the ciphertext and is referred to as the cryptovaluation. EHE is not only attainable on quantum computers, but also straightforwardly realizable on traditional computing environments. Surpassing the standard security 2^128 of quantum resilience, both the encryptions further reach a security greater than the suggested threshold 2^1024 and are characterized as hyper quantum-resilient. Thanks to the two essential traits of quantum gates, this framework can be regarded as the initial tangible manifestation of the concept noncommutative cryptography.
翻訳日:2024-05-10 17:59:24 公開日:2024-05-09
# ビヘイビアリハーサルは組織複雑度の科学的問題に光を当てる

Behavioural Rehearsing Illuminates Scientific Problems of Organised Complexity ( http://arxiv.org/abs/2401.09851v3 )

ライセンス: Link先を確認
Cheng Wang, Chuwen Wang, Wang Zhang, Shirong Zeng, Yu Zhao, Ronghui Ning, Changjun Jiang, (参考訳) 人工知能が科学研究でますます普及するにつれて、データ駆動の方法論は科学的な問題を解決する従来の手法を覆い隠しているように見える。 この観点では、科学問題の古典的な分類を再考し、データ、アルゴリズム、計算力の観点から科学パラダイムの進化を再考する。 我々は、新しいパラダイムの強みが解決可能な科学的問題の範囲を広げたことを観察するが、データ、アルゴリズム、計算力の継続的な進歩は、新しいパラダイムをもたらす可能性は低い。 より複雑なシステムにおける組織化複雑性の未解決問題に対処するために、我々はパラダイムの統合が有望なアプローチであると主張する。 そこで本研究では,複数回のシミュレーションにより,このようなシステムで何が起こるかを確認する行動リハーサルを提案する。 これを実現する手法の1つとして、高度な行動シミュレーション(SBS)があり、高度な人間の戦略や行動を含む複雑な社会システムをシミュレートする基礎モデルに基づく高度なパラダイム統合を表現している。 SBSは、従来のエージェント・ベース・モデリング・シミュレーション(ABMS)の能力を超えて、複雑な人間のシステムにおける組織化された複雑性の問題に対する行動的リハーサルを潜在的に解決する。

As artificial intelligence becomes increasingly prevalent in scientific research, data-driven methodologies appear to overshadow traditional methods in resolving scientific problems. In this Perspective, we revisit a classic classification of scientific problems and rethink the evolution of scientific paradigms from the standpoint of data, algorithms, and computational power. We observe that the strengths of new paradigms have expanded the range of resolvable scientific problems, but the continued advancement of data, algorithms, and computational power is unlikely to bring a new paradigm. To tackle unresolved problems of organised complexity in more intricate systems, we argue that the integration of paradigms is a promising approach. Consequently, we propose behavioural rehearsing, checking what will happen in such systems through multiple times of simulation. One of the methodologies to realise it, sophisticated behavioural simulation (SBS), represents a higher level of paradigms integration based on foundational models to simulate complex social systems involving sophisticated human strategies and behaviours. SBS extends beyond the capabilities of traditional agent-based modelling simulation (ABMS), and therefore, makes behavioural rehearsing a potential solution to problems of organised complexity in complex human systems.
翻訳日:2024-05-10 17:59:24 公開日:2024-05-09
# 生産におけるハイブリッド量子ソルバー : NISQ時代をどう成功させるか

Hybrid Quantum Solvers in Production: how to succeed in the NISQ era? ( http://arxiv.org/abs/2401.10302v6 )

ライセンス: Link先を確認
Eneko Osaba, Esther Villar-Rodriguez, Aitor Gomez-Tejedor, Izaskun Oregi, (参考訳) ハイブリッド量子コンピューティングは、量子コンピューティングの分野における現在と未来と考えられている。 NISQ時代のデバイスの限界に対処するためには、この傾向は単なるストップギャップとは考えられない。 両方のコンピューティングパラダイムをリンクする基盤は、今後も堅牢なままだ。 この研究の貢献は2つある: まず、文献で最近発表された2つの異なる分類体系に頼って、最も頻繁に使用されるハイブリッド・ソルバのいくつかを記述し分類する。 第二に、現在実運用にデプロイされており、実際の産業に近いことを実証している2つの解決器に特化しています。 これらの解法は、D-WaveのHybridBQMSamplerとQuantagoniaのHybrid Solverに含まれるLeapHybridBQMSamplerである。 ベンチマークを4つの組合せ最適化問題として用いて,両手法の性能を解析した。

Hybrid quantum computing is considered the present and the future within the field of quantum computing. Far from being a passing fad, this trend cannot be considered just a stopgap to address the limitations of NISQ-era devices. The foundations linking both computing paradigms will remain robust over time. The contribution of this work is twofold: first, we describe and categorize some of the most frequently used hybrid solvers, resorting to two different taxonomies recently published in the literature. Secondly, we put a special focus on two solvers that are currently deployed in real production and that have demonstrated to be near the real industry. These solvers are the LeapHybridBQMSampler contained in D-Wave's Hybrid Solver Service and Quantagonia's Hybrid Solver. We analyze the performance of both methods using as benchmarks four combinatorial optimization problems.
翻訳日:2024-05-10 17:59:24 公開日:2024-05-09
# TIM:スパイキングトランスのための効率的な時間的相互作用モジュール

TIM: An Efficient Temporal Interaction Module for Spiking Transformer ( http://arxiv.org/abs/2401.11687v3 )

ライセンス: Link先を確認
Sicheng Shen, Dongcheng Zhao, Guobin Shen, Yi Zeng, (参考訳) 第3世代のニューラルネットワークであるスパイキングニューラルネットワーク(SNN)は、その生物学的妥当性と計算効率、特に多様なデータセットの処理において注目されている。 ニューラルネットワークアーキテクチャの進歩にインスパイアされた注意機構の統合は、スパイキングトランスフォーマーの開発につながった。 これらは、SNNの機能強化、特に静的データセットとニューロモルフィックデータセットの両方の領域において、有望であることを示している。 それらの進歩にもかかわらず、これらのシステムには明確なギャップが存在し、特にSNNの時間的処理能力を活用するためのスパイキング自己注意(SSA)メカニズムの有効性においてである。 これを解決するために、SNNアーキテクチャ内の時間データ処理能力を増強する新しい畳み込みベースの拡張であるTIM(Temporal Interaction Module)を導入する。 TIMの既存のSNNフレームワークへの統合はシームレスで効率的であり、時間的情報処理能力を大幅に向上させながら、最小限の追加パラメータを必要とする。 厳密な実験を通じて、TIMは時間的情報を活用する効果を実証し、様々なニューロモルフィックデータセットで最先端のパフォーマンスを実現した。 コードはhttps://github.com/BrainCog-X/BrainCog/tree/main/examples/TIMで公開されている。

Spiking Neural Networks (SNNs), as the third generation of neural networks, have gained prominence for their biological plausibility and computational efficiency, especially in processing diverse datasets. The integration of attention mechanisms, inspired by advancements in neural network architectures, has led to the development of Spiking Transformers. These have shown promise in enhancing SNNs' capabilities, particularly in the realms of both static and neuromorphic datasets. Despite their progress, a discernible gap exists in these systems, specifically in the Spiking Self Attention (SSA) mechanism's effectiveness in leveraging the temporal processing potential of SNNs. To address this, we introduce the Temporal Interaction Module (TIM), a novel, convolution-based enhancement designed to augment the temporal data processing abilities within SNN architectures. TIM's integration into existing SNN frameworks is seamless and efficient, requiring minimal additional parameters while significantly boosting their temporal information handling capabilities. Through rigorous experimentation, TIM has demonstrated its effectiveness in exploiting temporal information, leading to state-of-the-art performance across various neuromorphic datasets. The code is available at https://github.com/BrainCog-X/Brain-Cog/tree/main/examples/TIM.
翻訳日:2024-05-10 17:59:24 公開日:2024-05-09
# ランダムパス投影方向を持つスライスワッサースタイン

Sliced Wasserstein with Random-Path Projecting Directions ( http://arxiv.org/abs/2401.15889v2 )

ライセンス: Link先を確認
Khai Nguyen, Shujian Zhang, Tam Le, Nhat Ho, (参考訳) スライシング分布選択は,スライスされたワッサーシュタイン距離を最小化するパラメータ推定器の性能向上に有効な手法として用いられている。 従来の作業では、高価な最適化を使用してスライス分布を選択したり、高価なサンプリング方法を必要とするスライス分布を使用したりしていた。 本研究では,モンテカルロ予測のための高速サンプリングを行う最適化自由スライシング分布を提案する。 特に,2つの入力測度に続く2つのランダムベクトルの正規化差を利用したランダムパス投影方向(RPD)を導入する。 RPDからランダムパススライシング分布(RPSD)と2種類のスライスされたワッサースタイン(Random-Path Projection Sliced Wasserstein)(RPSW)とIWRPSW(Importance Weighted Random-Path Projection Sliced Wasserstein)(IWRPSW)を導出する。 次に、RPSWとIWRPSWの位相的、統計的、および計算的性質について議論する。 最後に、勾配流におけるRPSWとIWRPSWの良好な性能と、画像上で拡散生成モデルを記述する訓練について述べる。

Slicing distribution selection has been used as an effective technique to improve the performance of parameter estimators based on minimizing sliced Wasserstein distance in applications. Previous works either utilize expensive optimization to select the slicing distribution or use slicing distributions that require expensive sampling methods. In this work, we propose an optimization-free slicing distribution that provides a fast sampling for the Monte Carlo estimation of expectation. In particular, we introduce the random-path projecting direction (RPD) which is constructed by leveraging the normalized difference between two random vectors following the two input measures. From the RPD, we derive the random-path slicing distribution (RPSD) and two variants of sliced Wasserstein, i.e., the Random-Path Projection Sliced Wasserstein (RPSW) and the Importance Weighted Random-Path Projection Sliced Wasserstein (IWRPSW). We then discuss the topological, statistical, and computational properties of RPSW and IWRPSW. Finally, we showcase the favorable performance of RPSW and IWRPSW in gradient flow and the training of denoising diffusion generative models on images.
翻訳日:2024-05-10 17:49:31 公開日:2024-05-09
# Gland Segmentation Via Dual Encodersと境界強調注意

Gland Segmentation Via Dual Encoders and Boundary-Enhanced Attention ( http://arxiv.org/abs/2401.15990v2 )

ライセンス: Link先を確認
Huadeng Wang, Jiejiang Yu, Bingbing Li, Xipeng Pan, Zhenbing Liu, Rushi Lan, Xiaonan Luo, (参考訳) 病理画像上の正確な自動腺分画は、大腸腺癌の悪性度を診断するのに役立つ。 しかし, 各種の腺形状, 悪性腺の高度な変形, 腺間の接着の重なりが原因であった。 Glandのセグメンテーションは、常に非常に難しい。 これらの問題に対処するため、我々はDEAモデルを提案する。 このモデルは、バックボーンエンコーディングとデコードネットワークとローカルセマンティック抽出ネットワークの2つのブランチで構成されている。 バックボーン符号化およびデコードネットワークは,高度なセマンティック特徴を抽出し,提案する特徴デコーダを用いて特徴空間情報を復元し,境界強調による腺の境界特徴を増強する。 ローカルセマンティック抽出ネットワークは、事前訓練されたDeepLabv3+をローカルセマンティック誘導エンコーダとして使用し、エッジ特徴の抽出を実現する。 GlaS と CRAG の2つの公開データセットによる実験結果から,本手法が他の腺分節法よりも優れていることが確認された。

Accurate and automated gland segmentation on pathological images can assist pathologists in diagnosing the malignancy of colorectal adenocarcinoma. However, due to various gland shapes, severe deformation of malignant glands, and overlapping adhesions between glands. Gland segmentation has always been very challenging. To address these problems, we propose a DEA model. This model consists of two branches: the backbone encoding and decoding network and the local semantic extraction network. The backbone encoding and decoding network extracts advanced Semantic features, uses the proposed feature decoder to restore feature space information, and then enhances the boundary features of the gland through boundary enhancement attention. The local semantic extraction network uses the pre-trained DeepLabv3+ as a Local semantic-guided encoder to realize the extraction of edge features. Experimental results on two public datasets, GlaS and CRAG, confirm that the performance of our method is better than other gland segmentation methods.
翻訳日:2024-05-10 17:49:31 公開日:2024-05-09
# ExtremeCast:グローバル気象予報における極値予測の強化

ExtremeCast: Boosting Extreme Value Prediction for Global Weather Forecast ( http://arxiv.org/abs/2402.01295v3 )

ライセンス: Link先を確認
Wanghan Xu, Kang Chen, Tao Han, Hao Chen, Wanli Ouyang, Lei Bai, (参考訳) 機械学習(ML)に基づくデータ駆動天気予報は、従来の物理に基づく力学モデルと比較して、急速に発展し、世界中距離予測において優れた性能を示した。 しかし、これらのMLモデルのほとんどは、極端な天気を正確に予測するのに苦労しており、これは極端な値予測と密接に関連している。 数学的解析により、平均二乗誤差 (MSE) のような対称損失を用いることで、偏りのある予測や極端な値の過小評価につながることが証明される。 この問題に対処するために,非対称な最適化を行う新しい損失関数Exlossを導入する。 さらに,ExEnsembleというトレーニング不要な極値拡張戦略を導入し,画素値のばらつきを増大させ,予測ロバスト性を向上させる。 先進的なグローバル気象予報モデルと組み合わせることで、我々のソリューションは極端気象予報において最先端の性能を達成でき、同時に、上位中距離予報モデルに匹敵する全体的な予測精度を維持できることを示す。

Data-driven weather forecast based on machine learning (ML) has experienced rapid development and demonstrated superior performance in the global medium-range forecast compared to traditional physics-based dynamical models. However, most of these ML models struggle with accurately predicting extreme weather, which is closely related to the extreme value prediction. Through mathematical analysis, we prove that the use of symmetric losses, such as the Mean Squared Error (MSE), leads to biased predictions and underestimation of extreme values. To address this issue, we introduce Exloss, a novel loss function that performs asymmetric optimization and highlights extreme values to obtain accurate extreme weather forecast. Furthermore, we introduce a training-free extreme value enhancement strategy named ExEnsemble, which increases the variance of pixel values and improves the forecast robustness. Combined with an advanced global weather forecast model, extensive experiments show that our solution can achieve state-of-the-art performance in extreme weather prediction, while maintaining the overall forecast accuracy comparable to the top medium-range forecast models.
翻訳日:2024-05-10 17:49:31 公開日:2024-05-09
# ランダムリンドブラッド力学におけるデコヒーレンス率

Decoherence rate in random Lindblad dynamics ( http://arxiv.org/abs/2402.04705v2 )

ライセンス: Link先を確認
Yifeng Yang, Zhenyu Xu, Adolfo del Campo, (参考訳) オープン量子系はデコヒーレンス (decoherence) を受けており、量子から古典的行動への遷移を担っている。 デコヒーレンスが発生する時間スケールは、その速度に対する上限値を用いて分析することができる。 我々は、ウィグナー・ダイソン対称性クラスを持つガウスとジニブレのアンサンブルから導かれるランダムなリンドブラッド作用素によって支配される開カオス量子系の力学について検討する。 これらの系では、平均的な純度は時間の関数として単調に崩壊する。 この崩壊はデコヒーレンス率によって支配され、ヒルベルト空間の次元によって上界が支配され、アンサンブル対称性とは独立である。 これらの結果は異なるアンサンブルを混合し、デコヒーレンス率制限の普遍的な特徴を示す。 さらに,ランダムなリンドブラディアンが支配するオープンカオス量子系は,初期状態に関わらず,最も急激なデコヒーレンスを示す傾向があることが明らかとなった。 この現象は、上界付近の脱コヒーレンス速度の濃度と関連している。 我々の研究は、量子基礎から高エネルギー物理学、量子技術に至るまで、散逸性量子カオスにおけるデコヒーレンスの主要な特徴を識別する。

Open quantum systems undergo decoherence, which is responsible for the transition from quantum to classical behavior. The time scale in which decoherence takes place can be analyzed using upper limits to its rate. We examine the dynamics of open chaotic quantum systems governed by random Lindblad operators sourced from Gaussian and Ginibre ensembles with Wigner-Dyson symmetry classes. In these systems, the ensemble-averaged purity decays monotonically as a function of time. This decay is governed by the decoherence rate, which is upper-bounded by the dimension of their Hilbert space and is independent of the ensemble symmetry. These findings hold upon mixing different ensembles, indicating the universal character of the decoherence rate limit. Moreover, our findings reveal that open chaotic quantum systems governed by random Lindbladians tend to exhibit the most rapid decoherence, regardless of the initial state. This phenomenon is associated with the concentration of the decoherence rate near its upper bound. Our work identifies primary features of decoherence in dissipative quantum chaos, with applications ranging from quantum foundations to high-energy physics and quantum technologies.
翻訳日:2024-05-10 17:49:31 公開日:2024-05-09
# FAQ-Gen:コンテンツ理解を支援するドメイン固有FAQの自動生成システム

FAQ-Gen: An automated system to generate domain-specific FAQs to aid content comprehension ( http://arxiv.org/abs/2402.05812v3 )

ライセンス: Link先を確認
Sahil Kale, Gautam Khaire, Jay Patankar, (参考訳) 頻繁に質問される質問(FAQ)は、特定のコンテンツに関する最も一般的な質問を指す。 トピックを単純化し、情報を簡潔に提示することで理解を強化することで、コンテンツ理解支援として機能する。 本稿では,テキストからテキストへの変換モデルを利用したエンドツーエンドシステムの開発を通じて,FAQ生成を自然言語処理タスクとして扱う。 本稿では,従来の質問応答システムに関する文献レビューを行い,FAQ生成タスクに直接適用した場合の限界を明らかにする。 本稿では,特定のドメインに適したテキストコンテンツからFAQを作成でき,その精度と妥当性を高めるシステムを提案する。 我々は自己計算アルゴリズムを用いて、入力として提供される情報の最適な表現を得るとともに、質問と回答のペアをランク付けし、人間の理解を最大化する。 定性的な人間による評価では、生成されたFAQがよく構築され可読でありながら、ドメイン固有の構造を活用して、元のコンテンツにおけるドメインベースのニュアンスとジャーゴンを強調している。

Frequently Asked Questions (FAQs) refer to the most common inquiries about specific content. They serve as content comprehension aids by simplifying topics and enhancing understanding through succinct presentation of information. In this paper, we address FAQ generation as a well-defined Natural Language Processing task through the development of an end-to-end system leveraging text-to-text transformation models. We present a literature review covering traditional question-answering systems, highlighting their limitations when applied directly to the FAQ generation task. We propose a system capable of building FAQs from textual content tailored to specific domains, enhancing their accuracy and relevance. We utilise self-curated algorithms to obtain an optimal representation of information to be provided as input and also to rank the question-answer pairs to maximise human comprehension. Qualitative human evaluation showcases the generated FAQs as well-constructed and readable while also utilising domain-specific constructs to highlight domain-based nuances and jargon in the original content.
翻訳日:2024-05-10 17:49:31 公開日:2024-05-09
# 大規模言語モデルを用いたマルチモーダルな治験結果予測

Multimodal Clinical Trial Outcome Prediction with Large Language Models ( http://arxiv.org/abs/2402.06512v3 )

ライセンス: Link先を確認
Wenhao Zheng, Dongsheng Peng, Hongxia Xu, Yun Li, Hongtu Zhu, Tianfan Fu, Huaxiu Yao, (参考訳) 臨床試験は重要で費用がかかるプロセスであり、しばしば数年にわたって、かなりの資金を必要としている。 したがって、臨床試験結果予測モデルの開発は、失敗する可能性のある薬物を排除し、大幅なコスト削減の可能性を秘めることを目的としている。 近年のデータ駆動型試みは、臨床治験結果を予測するために、深層学習を利用してマルチモーダルデータを統合している。 しかし、これらのアプローチは手動で設計されたモーダル固有エンコーダに依存しており、新しいモーダルに適応する拡張性と、異なるモーダルにまたがる類似した情報パターンを識別する能力の両方を制限している。 これらの課題に対処するため,臨床治験結果予測のためのマルチモーダル・ミックス・オブ・エキスパート(LIFTED)アプローチを提案する。 具体的には、LIFTEDは、異なるモダリティデータを自然言語記述に変換することで統一する。 そして、LIFTEDは統合ノイズ耐性エンコーダを構築し、モーダル固有の言語記述から情報を抽出する。 その後、疎密なMixture-of-Expertsフレームワークを使用して表現をさらに洗練し、LIFTEDは異なるモジュール間で類似した情報パターンを識別し、同じ専門家モデルを使用してそれらのパターンからより一貫性のある表現を抽出することができる。 最後に、様々なモダリティ表現を動的に統合して予測することで、LIFTEDは異なるモダリティを自動で測定し、重要な情報により多くの注意を払うことができる。 実験の結果, LIFTEDは, 3段階の治験成績を予測する上で, 最良基準に比べて有意に向上し, キーコンポーネントの有効性が示された。

The clinical trial is a pivotal and costly process, often spanning multiple years and requiring substantial financial resources. Therefore, the development of clinical trial outcome prediction models aims to exclude drugs likely to fail and holds the potential for significant cost savings. Recent data-driven attempts leverage deep learning methods to integrate multimodal data for predicting clinical trial outcomes. However, these approaches rely on manually designed modal-specific encoders, which limits both the extensibility to adapt new modalities and the ability to discern similar information patterns across different modalities. To address these issues, we propose a multimodal mixture-of-experts (LIFTED) approach for clinical trial outcome prediction. Specifically, LIFTED unifies different modality data by transforming them into natural language descriptions. Then, LIFTED constructs unified noise-resilient encoders to extract information from modal-specific language descriptions. Subsequently, a sparse Mixture-of-Experts framework is employed to further refine the representations, enabling LIFTED to identify similar information patterns across different modalities and extract more consistent representations from those patterns using the same expert model. Finally, a mixture-of-experts module is further employed to dynamically integrate different modality representations for prediction, which gives LIFTED the ability to automatically weigh different modalities and pay more attention to critical information. The experiments demonstrate that LIFTED significantly enhances performance in predicting clinical trial outcomes across all three phases compared to the best baseline, showcasing the effectiveness of our proposed key components.
翻訳日:2024-05-10 17:49:31 公開日:2024-05-09
# 拡張性大言語モデルファインタニングのための微分プライベートゼロ階法

Differentially Private Zeroth-Order Methods for Scalable Large Language Model Finetuning ( http://arxiv.org/abs/2402.07818v4 )

ライセンス: Link先を確認
Z Liu, J Lou, W Bao, Y Hu, B Li, Z Qin, K Ren, (参考訳) タスク固有のデータセットの微調整は、様々な下流タスクに事前学習されたLLMの強力な能力を活用する、広く採用されているパラダイムである。 LLMの微調整とそれに伴うプライバシー問題により、事前訓練されたLCMの差分プライベート(DP)微調整はタスク固有のデータセットのプライバシーを保護するために広く利用されている。 DP LLMファインチューニングメソッドの設計コアに注目することは、プライバシ、ユーティリティ、スケーラビリティのトレードオフとして十分である。 既存の手法のほとんどはDP-SGDの精巧な研究に基づいている。 DP-SGDのスケーラビリティを限界まで押し上げたにもかかわらず、DP-SGDベースの微調整法は残念ながらSGD固有の非効率性によって制限されている。 本稿では,より効率的なゼロ階勾配で勾配を近似することにより,SGDのスケーラビリティボトルネックを回避する,LCM事前学習のためのDPゼロ階法の可能性について検討する。 本稿では, ゼロオーダー法をSGDのドロップイン置換として扱うのではなく, 理論的, 実験的に総合的研究を行う。 まず,鍵ハイパーパラメータを動的にスケジュールするDP-ZOSO法を提案する。 この設計は、DPランダム摂動とゼロ次法の勾配近似誤差の相乗効果と、その微調整軌道への影響に基づく。 提案手法の理論的解析を行う。 我々はエンコーダのみのマスク付き言語モデルとデコーダのみの自己回帰型言語モデルの両方について広範な実証分析を行い、スケーラビリティと実用性(DPZeroと比較すると、DP-ZOPOはSST-5で4.5%、RoBERTa-LargeでMNLIで5.5%、CBで9.2%、OCT-2.7Bで3.9%、OPT-2.7Bで3.9%)で素晴らしい結果を得た。

Fine-tuning on task-specific datasets is a widely-embraced paradigm of harnessing the powerful capability of pretrained LLMs for various downstream tasks. Due to the popularity of LLMs fine-tuning and its accompanying privacy concerns, differentially private (DP) fine-tuning of pretrained LLMs has been widely used to safeguarding the privacy of task-specific datasets. Lying at the design core of DP LLM fine-tuning methods is the satisfactory tradeoff among privacy, utility, and scalability. Most existing methods build upon the seminal work of DP-SGD. Despite pushing the scalability of DP-SGD to its limit, DP-SGD-based fine-tuning methods are unfortunately limited by the inherent inefficiency of SGD. In this paper, we investigate the potential of DP zeroth-order methods for LLM pretraining, which avoids the scalability bottleneck of SGD by approximating the gradient with the more efficient zeroth-order gradient. Rather than treating the zeroth-order method as a drop-in replacement for SGD, this paper presents a comprehensive study both theoretically and empirically. First, we propose the stagewise DP zeroth-order method (DP-ZOSO) that dynamically schedules key hyperparameters. This design is grounded on the synergy between DP random perturbation and the gradient approximation error of the zeroth-order method, and its effect on fine-tuning trajectory. We provide theoretical analysis for both proposed methods. We conduct extensive empirical analysis on both encoder-only masked language model and decoder-only autoregressive language model, achieving impressive results in terms of scalability and utility (compared with DPZero, DP-ZOPO improves 4.5% on SST-5, 5.5% on MNLI with RoBERTa-Large and 9.2% on CB, 3.9% on BoolQ with OPT-2.7B when $\epsilon=4$).
翻訳日:2024-05-10 17:49:31 公開日:2024-05-09
# DDIプロンプト:グラフプロンプト学習に基づく薬物・薬物相互作用事象予測

DDIPrompt: Drug-Drug Interaction Event Prediction based on Graph Prompt Learning ( http://arxiv.org/abs/2402.11472v2 )

ライセンス: Link先を確認
Yingying Wang, Yun Xiong, Xixi Wu, Xiangguo Sun, Jiawei Zhang, (参考訳) 近年、グラフニューラルネットワークは、薬物分子内および薬物分子間の原子と官能基の複雑な関連をモデル化する能力により、有害な薬物・薬物相互作用(DDI)を予測するためにますます普及している。 しかし、両者は依然として2つの重大な課題に悩まされている。(1) 特定の相互作用がほとんど表現されていない医療データセットにおいて、非常に不均衡な事象分布の問題である。 この不均衡は、正確で信頼性の高いDDI予測を達成する上で大きな障壁となる。 2) 稀な事象に対するラベル付きデータの不足は, 医療分野において, 希少かつ潜在的に重要な相互作用がしばしば見過ごされる場合や, 限られたデータのために過小評価される場合において, 広範囲にわたる問題である。 これに対し、グラフプロンプトの最近の進歩に触発された革新的なパナセアであるDDIPromptを提供する。 我々のフレームワークは、トレーニング済みのモデルから本質的な知識を活用することで、これらの問題に対処することを目的としており、最小限の下流データで効率的にデプロイできる。 特に、最初の課題を解決するために、DDIPromptは、構造的および対話的な近接性の両方を考慮して、薬物間のリンクを増設する。 分子内構造と分子間相互作用を理解する階層的な事前学習戦略を特徴とし、薬物特性の包括的で偏見のない理解を促進する。 2つ目の課題は、推論中にプロトタイプ強化プロンプト機構を実装することである。 このメカニズムは、各カテゴリのいくつかの例によって洗練され、予測精度を高めるために、豊富な事前学習知識を効果的に活用する。 2つのベンチマークデータセットの総合的な評価は、DDIPromptの優位性を示し、特に稀なDDIイベントを予測する。

Recently, Graph Neural Networks have become increasingly prevalent in predicting adverse drug-drug interactions (DDI) due to their proficiency in modeling the intricate associations between atoms and functional groups within and across drug molecules. However, they are still hindered by two significant challenges: (1) the issue of highly imbalanced event distribution, which is a common but critical problem in medical datasets where certain interactions are vastly underrepresented. This imbalance poses a substantial barrier to achieving accurate and reliable DDI predictions. (2) the scarcity of labeled data for rare events, which is a pervasive issue in the medical field where rare yet potentially critical interactions are often overlooked or under-studied due to limited available data. In response, we offer DDIPrompt, an innovative panacea inspired by the recent advancements in graph prompting. Our framework aims to address these issues by leveraging the intrinsic knowledge from pre-trained models, which can be efficiently deployed with minimal downstream data. Specifically, to solve the first challenge, DDIPrompt employs augmented links between drugs, considering both structural and interactive proximity. It features a hierarchical pre-training strategy that comprehends intra-molecular structures and inter-molecular interactions, fostering a comprehensive and unbiased understanding of drug properties. For the second challenge, we implement a prototype-enhanced prompting mechanism during inference. This mechanism, refined by few-shot examples from each category, effectively harnesses the rich pre-training knowledge to enhance prediction accuracy, particularly for these rare but crucial interactions. Comprehensive evaluations on two benchmark datasets demonstrate the superiority of DDIPrompt, particularly in predicting rare DDI events.
翻訳日:2024-05-10 17:49:31 公開日:2024-05-09
# 非構造データから生じる変数による回帰の推論

Inference for Regression with Variables Generated from Unstructured Data ( http://arxiv.org/abs/2402.15585v3 )

ライセンス: Link先を確認
Laura Battaglia, Timothy Christensen, Stephen Hansen, Szymon Sacher, (参考訳) 構造化されていないデータを分析するための主要な戦略は、2つのステップを使用する。 まず、上流情報検索モデルを用いて、経済利害の潜伏変数を推定する。 第二に、推定値は下流の計量モデルで「データ」として扱われる。 この2段階戦略が実験的に実証可能な環境での偏見推論につながる理由を理論的に論じる。 より構成的に、上流モデルと下流モデルとを併用した有効推論のためのワンステップ戦略を提案する。 ワンステップ戦略 i) シミュレーションにおけるバイアスを大幅に減少させる。 (二)CEOのタイムユースデータを用いた指導アプリケーションにおいて定量的に重要な効果を有すること。 (iii) 応用研究者が容易に適用できる。

The leading strategy for analyzing unstructured data uses two steps. First, latent variables of economic interest are estimated with an upstream information retrieval model. Second, the estimates are treated as "data" in a downstream econometric model. We establish theoretical arguments for why this two-step strategy leads to biased inference in empirically plausible settings. More constructively, we propose a one-step strategy for valid inference that uses the upstream and downstream models jointly. The one-step strategy (i) substantially reduces bias in simulations; (ii) has quantitatively important effects in a leading application using CEO time-use data; and (iii) can be readily adapted by applied researchers.
翻訳日:2024-05-10 17:49:31 公開日:2024-05-09
# 通信複雑性による量子インスパイアされた古典的アルゴリズムの下位境界

Lower bounds for quantum-inspired classical algorithms via communication complexity ( http://arxiv.org/abs/2402.15686v2 )

ライセンス: Link先を確認
Nikhil S. Mande, Changpeng Shao, (参考訳) 量子にインスパイアされた古典的アルゴリズムは、特に機械学習において、実際に関連する問題に対して量子コンピュータの計算能力を理解する新しい方法を提供する。 過去数年間、様々なタスクに対する多くの効率的なアルゴリズムが発見されているが、下位境界の解析はいまだに欠落している。 本研究は,コミュニケーションの複雑さを用いて,これらの課題の下位境界を研究するための最初の手法を提案する。 主に線形回帰、教師付きクラスタリング、主成分分析、レコメンデーションシステム、ハミルトンシミュレーションの下位境界に焦点をあてる。 これらの問題に対して、基底行列のフロベニウスノルム(英語版)(Frobenius norm)の観点から2次下界を証明する。 これらの問題に対する量子アルゴリズムはフロベニウスノルムにおいて線型であるため、この結果は量子古典的分離が少なくとも二次的であることを意味する。 一般化として,量子通信複雑性を用いた行列関連問題に対する量子クエリアルゴリズムの低境界解析について検討する。 応用例もある。

Quantum-inspired classical algorithms provide us with a new way to understand the computational power of quantum computers for practically-relevant problems, especially in machine learning. In the past several years, numerous efficient algorithms for various tasks have been found, while an analysis of lower bounds is still missing. Using communication complexity, in this work we propose the first method to study lower bounds for these tasks. We mainly focus on lower bounds for solving linear regressions, supervised clustering, principal component analysis, recommendation systems, and Hamiltonian simulations. For those problems, we prove a quadratic lower bound in terms of the Frobenius norm of the underlying matrix. As quantum algorithms are linear in the Frobenius norm for those problems, our results mean that the quantum-classical separation is at least quadratic. As a generalisation, we extend our method to study lower bounds analysis of quantum query algorithms for matrix-related problems using quantum communication complexity. Some applications are given.
翻訳日:2024-05-10 17:49:31 公開日:2024-05-09
# DRSI-Net:マルチパーソンポーズ推定のための二重残留空間相互作用ネットワーク

DRSI-Net: Dual-Residual Spatial Interaction Network for Multi-Person Pose Estimation ( http://arxiv.org/abs/2402.16640v2 )

ライセンス: Link先を確認
Shang Wu, Bin Wang, (参考訳) フレーム内のすべての人のキーポイントを特定することを目的とした多人数ポーズ推定(MPPE)は、コンピュータビジョンの活発な研究分野である。 多様な人間のポーズや複雑なシーンはMPPEを局所的な細部やグローバルな構造に依存している。 この場合、特徴の局所的および大域的情報を効果的にリンクできる高次空間的相互作用が特に重要である。 しかし、ほとんどの手法は空間的相互作用を含まない。 少数の手法は低次の空間的相互作用を持つが、精度と複雑さのバランスが良いことは困難である。 上記の問題に対処するため,MPPEのための2次元空間相互作用ネットワーク(DRSI-Net)を提案する。 他の方法と比較して、DRSI-Netは、より有用な空間情報を保持し、浅い特徴と深い特徴の間により類似性を得ることができるように、隣接する特徴について残留空間情報インタラクションを再帰的に行う。 マルチスケール機能融合で導入されたチャネルと空間の二重注意機構は、ターゲットキーポイントに関連する特徴に適応的に焦点を合わせ、生成したポーズをさらに洗練するのに役立つ。 同時に、対話的なチャネル次元を最適化し、勾配流を分割することにより、空間的相互作用モジュールは軽量に設計され、ネットワークの複雑さが軽減される。 COCOデータセットの実験結果によると、提案されたDRSI-Netは他の最先端の手法よりも精度と複雑さが優れている。

Multi-person pose estimation (MPPE), which aims to locate the key points for all persons in the frames, is an active research branch of computer vision. Variable human poses and complex scenes make MPPE dependent on local details and global structures; their absence may cause key point feature misalignment. In this case, high-order spatial interactions that can effectively link the local and global information of features are particularly important. However, most methods do not include spatial interactions. A few methods have low-order spatial interactions, but achieving a good balance between accuracy and complexity is challenging. To address the above problems, a dual-residual spatial interaction network (DRSI-Net) for MPPE with high accuracy and low complexity is proposed herein. Compared to other methods, DRSI-Net recursively performs residual spatial information interactions on the neighbouring features so that more useful spatial information can be retained and more similarities can be obtained between shallow and deep extracted features. The channel and spatial dual attention mechanism introduced in the multi-scale feature fusion also helps the network to adaptively focus on features relevant to the target key points and further refine the generated poses. Simultaneously, by optimising the interactive channel dimensions and dividing the gradient flow, the spatial interaction module is designed to be lightweight, thus reducing the complexity of the network. According to the experimental results on the COCO dataset, the proposed DRSI-Net outperforms other state-of-the-art methods in accuracy and complexity.
翻訳日:2024-05-10 17:49:31 公開日:2024-05-09
# UniMODE:Unified Monocular 3D Object Detection

UniMODE: Unified Monocular 3D Object Detection ( http://arxiv.org/abs/2402.18573v3 )

ライセンス: Link先を確認
Zhuoling Li, Xiaogang Xu, SerNam Lim, Hengshuang Zhao, (参考訳) 屋内と屋外の両方のシーンを含む、統一されたモノクル3Dオブジェクト検出を実現することは、ロボットナビゲーションのようなアプリケーションにおいて非常に重要である。 しかし、トレーニングモデルにデータの様々なシナリオを組み込むことは、例えば、様々な幾何学的性質や不均一な領域分布など、その特性が著しく異なるため、課題を提起する。 これらの課題に対処するため,鳥眼視(BEV)検出パラダイムに基づく検出器を構築した。 次に,従来のBEV検出アーキテクチャを2段階に分割し,上記の課題に起因する収束不安定性に対処する不均一なBEVグリッド設計を提案する。 さらに、計算コストを削減するためのスパースなBEV特徴予測戦略と、異種ドメインを扱うための統一されたドメインアライメント手法を開発する。 これらの技術を組み合わせて、統一検出器UniMODEが導出され、挑戦的なOmni3Dデータセット(屋内と屋外の両方を含む大規模なデータセット)を4.9%のAP_3Dで上回った。

Realizing unified monocular 3D object detection, including both indoor and outdoor scenes, holds great importance in applications like robot navigation. However, involving various scenarios of data to train models poses challenges due to their significantly different characteristics, e.g., diverse geometry properties and heterogeneous domain distributions. To address these challenges, we build a detector based on the bird's-eye-view (BEV) detection paradigm, where the explicit feature projection is beneficial to addressing the geometry learning ambiguity when employing multiple scenarios of data to train detectors. Then, we split the classical BEV detection architecture into two stages and propose an uneven BEV grid design to handle the convergence instability caused by the aforementioned challenges. Moreover, we develop a sparse BEV feature projection strategy to reduce computational cost and a unified domain alignment method to handle heterogeneous domains. Combining these techniques, a unified detector UniMODE is derived, which surpasses the previous state-of-the-art on the challenging Omni3D dataset (a large-scale dataset including both indoor and outdoor scenes) by 4.9% AP_3D, revealing the first successful generalization of a BEV detector to unified 3D object detection.
翻訳日:2024-05-10 17:39:27 公開日:2024-05-09
# OccFusion:3次元セマンティック動作予測のためのマルチセンサフュージョンフレームワーク

OccFusion: Multi-Sensor Fusion Framework for 3D Semantic Occupancy Prediction ( http://arxiv.org/abs/2403.01644v4 )

ライセンス: Link先を確認
Zhenxing Ming, Julie Stephany Berrio, Mao Shan, Stewart Worrall, (参考訳) 3Dシーンの包括的理解は、自動運転車(AV)において不可欠であり、最近の3Dセマンティック占有予測モデルでは、様々な形状やクラスを持つ現実世界のオブジェクトを記述するという課題に対処することに成功した。 しかし、既存の3D占有率予測法は周囲のカメラ画像に大きく依存しており、照明や気象条件の変化の影響を受けやすい。 本稿では,3次元占有予測のための新しいセンサ融合フレームワークであるOccFusionを紹介する。 ライダーやサラウンドビューレーダなどの付加センサの機能を統合することで、我々のフレームワークは占有率予測の精度と堅牢性を向上し、nuScenesベンチマークの上位層の性能が向上する。 さらに、夜間と雨季のシナリオを含むnuScenesとsemanticKITTIデータセットで実施された広範な実験により、センサフュージョン戦略の様々な知覚範囲における優れた性能が確認された。 このフレームワークのコードはhttps://github.com/DanielMing123/OccFusion.comで公開される。

A comprehensive understanding of 3D scenes is crucial in autonomous vehicles (AVs), and recent models for 3D semantic occupancy prediction have successfully addressed the challenge of describing real-world objects with varied shapes and classes. However, existing methods for 3D occupancy prediction heavily rely on surround-view camera images, making them susceptible to changes in lighting and weather conditions. This paper introduces OccFusion, a novel sensor fusion framework for predicting 3D occupancy. By integrating features from additional sensors, such as lidar and surround view radars, our framework enhances the accuracy and robustness of occupancy prediction, resulting in top-tier performance on the nuScenes benchmark. Furthermore, extensive experiments conducted on the nuScenes and semanticKITTI dataset, including challenging night and rainy scenarios, confirm the superior performance of our sensor fusion strategy across various perception ranges. The code for this framework will be made available at https://github.com/DanielMing123/OccFusion.
翻訳日:2024-05-10 17:39:27 公開日:2024-05-09
# 置換不変関数:統計的テスト、密度推定、および計算効率の良い埋め込み

Permutation invariant functions: statistical tests, density estimation, and computationally efficient embedding ( http://arxiv.org/abs/2403.01671v3 )

ライセンス: Link先を確認
Wee Chaimanowong, Ying Zhu, (参考訳) 置換不変性は機械学習(ML)における複雑な問題を単純化するために利用される最も一般的な対称性の一つである。 置換不変MLアーキテクチャの構築には、膨大な研究活動が急増している。 しかし、(1) 次元が標本サイズで増大するランダムベクトルにおける座標の置換不変性の統計的テスト方法、(2) 推定問題における置換不変性の活用方法、および、それが寸法の減少にどのように役立つかは、あまり注目されない。 本稿では,これらの疑問を,いくつかの基本的な問題から考察する。 一 多変量分布の変分不変性の仮定をテストすること。 二 変分不変密度の推定 三 置換不変関数クラスの計量エントロピーを分析して、置換不変性を含まないものと比較すること。 (iv) 効率的な計算のために、置換不変な再生カーネルヒルベルト空間の埋め込みを導出する。 特に我々の方法 (i)および (四)仕分けの仕方に基づくもの (ii)は平均的なトリックに基づいている。 これらのトリックは置換不変性の利用を大幅に単純化する。

Permutation invariance is among the most common symmetry that can be exploited to simplify complex problems in machine learning (ML). There has been a tremendous surge of research activities in building permutation invariant ML architectures. However, less attention is given to: (1) how to statistically test for permutation invariance of coordinates in a random vector where the dimension is allowed to grow with the sample size; (2) how to leverage permutation invariance in estimation problems and how does it help reduce dimensions. In this paper, we take a step back and examine these questions in several fundamental problems: (i) testing the assumption of permutation invariance of multivariate distributions; (ii) estimating permutation invariant densities; (iii) analyzing the metric entropy of permutation invariant function classes and compare them with their counterparts without imposing permutation invariance; (iv) deriving an embedding of permutation invariant reproducing kernel Hilbert spaces for efficient computation. In particular, our methods for (i) and (iv) are based on a sorting trick and (ii) is based on an averaging trick. These tricks substantially simplify the exploitation of permutation invariance.
翻訳日:2024-05-10 17:39:27 公開日:2024-05-09
# DECIDER:デュアルシステム認知理論の省略による言語生成のためのルール制御可能なデコード戦略

DECIDER: A Rule-Controllable Decoding Strategy for Language Generation by Imitating Dual-System Cognitive Theory ( http://arxiv.org/abs/2403.01954v2 )

ライセンス: Link先を確認
Chen Xu, Tian Lan, Changlong Yu, Wei Wang, Jun Gao, Yu Ji, Qunxi Dong, Kun Qian, Piji Li, Wei Bi, Bin Hu, (参考訳) 辞書ベースの制約付き復号法は、特定のターゲット概念を通じて生成されたテキストの意味やスタイルを制御することを目的としている。 既存のアプローチはターゲット自体に過度に焦点を合わせ、その達成方法に関する高レベルの推論が欠如している。 しかしながら、人間は通常、目標だけでなく、目標の発生を誘発する意味論的に関連する概念にも焦点をあてる特定の規則に従うことでタスクに取り組む。 本稿では,二体系認知理論に触発された制約付き言語生成のためのルール制御可能な復号法であるDECIDERを提案する。 具体的には、DECDERでは、事前訓練された言語モデル(PLM)に高レベルのルールを入力として取り込む論理推論器を装備する。 そして、DECDERは、各復号ステップでルール信号がPLMに流れ込むことを可能にする。 広範囲な実験結果から、DECDERは、より人間的な方法で生成方向を目標に導くために、与えられた規則を効果的に従えることが示されている。

Lexicon-based constrained decoding approaches aim to control the meaning or style of the generated text through certain target concepts. Existing approaches over-focus the targets themselves, leading to a lack of high-level reasoning about how to achieve them. However, human usually tackles tasks by following certain rules that not only focuses on the targets but also on semantically relevant concepts that induce the occurrence of targets. In this work, we present DECIDER, a rule-controllable decoding strategy for constrained language generation inspired by dual-system cognitive theory. Specifically, in DECIDER, a pre-trained language model (PLM) is equiped with a logic reasoner that takes high-level rules as input. Then, the DECIDER allows rule signals to flow into the PLM at each decoding step. Extensive experimental results demonstrate that DECIDER can effectively follow given rules to guide generation direction toward the targets in a more human-like manner.
翻訳日:2024-05-10 17:39:27 公開日:2024-05-09
# 観測値計算のための量子Zeno Monte Carlo

Quantum Zeno Monte Carlo for computing observables ( http://arxiv.org/abs/2403.02763v3 )

ライセンス: Link先を確認
Mancheon Han, Hyowon Park, Sangkook Choi, (参考訳) 論理量子プロセッサの最近の発展は、ノイズの多い中間スケール量子(NISQ)時代からフォールトトレラント量子コンピューティング(FTQC)時代への進展における重要な瞬間を示している。 これらの先進的なデバイスは、古典的な計算手法に挑戦する問題に対するアプローチを変更することを目的としている。 このような問題をハミルトンのフレームワークに変換し、量子力学特性を利用することにより、これらのプロセッサは多項式計算時間内で複雑な問題に対処する可能性がある。 しかし、その進歩にもかかわらず、これらのプロセッサは破壊的なノイズに弱いままであり、ノイズを効果的に管理するために設計された堅牢な量子アルゴリズムの必要性を強調している。 この要求に応えるために、Quantum Zeno Monte Carlo (QZMC)と呼ばれる古典量子ハイブリッドアルゴリズムを導入する。 QZMCは、多項式計算コストを実証しながらデバイスノイズやトロッターエラーを処理できる。 このアルゴリズムは、量子ゼノ効果とモンテカルロ積分技術を組み合わせて、ハミルトン問題の標的固有状態への多段階遷移を容易にする。 特に、QZMCは初期状態とターゲット状態の重複を必要としない。 ターゲット状態の静的および動的特性、例えば基底状態エネルギー、励起状態エネルギー、グリーン関数を計算できる。 量子位相推定と比較すると、QZMCは量子回路の深さを著しく減らしている。 これらの特徴により、QZMCは量子コンピューティングなどにおける現在の遷移フェーズをナビゲートするための重要なアルゴリズムとなっている。

The recent development of logical quantum processors signifies a pivotal moment in the progression from the noisy intermediate-scale quantum (NISQ) era to the fault-tolerant quantum computing (FTQC) era. These advanced devices are poised to alter the approach to problems that challenge classical computation methods. By transforming such problems into Hamiltonian frameworks and exploiting quantum mechanical properties, these processors have the potential to address complex issues within a polynomial computational time. However, despite their advancements, these processors remain vulnerable to disruptive noise, highlighting the need for robust quantum algorithms designed to manage noise effectively. In response to this need, we introduce a new classical-quantum hybrid algorithm termed Quantum Zeno Monte Carlo (QZMC). QZMC is capable of handling device noises and Trotter errors while demonstrating polynomial computational cost. This algorithm combines the quantum Zeno effect with Monte Carlo integration techniques, facilitating multi-step transitions toward targeted eigenstates of the Hamiltonian problem. Notably, QZMC does not require overlap between the initial state and the target state, nor does it depend on variational parameters. It can compute static and dynamic properties of the targeted states, including ground state energy, excited state energies, and Green's functions. Compared to quantum phase estimation, QZMC offers a significantly reduced quantum circuit depth. These features make QZMC an important algorithm for navigating the current transitional phase in quantum computing and beyond.
翻訳日:2024-05-10 17:39:27 公開日:2024-05-09
# PaperWeaver: 推奨用紙をユーザ編集用紙でコンテキスト化してトピック用紙アラートを充実させる

PaperWeaver: Enriching Topical Paper Alerts by Contextualizing Recommended Papers with User-collected Papers ( http://arxiv.org/abs/2403.02939v2 )

ライセンス: Link先を確認
Yoonjoo Lee, Hyeonsu B. Kang, Matt Latzke, Juho Kim, Jonathan Bragg, Joseph Chee Chang, Pao Siangliulue, (参考訳) 学術資料の急激な増加に伴い、研究者は、最近出版された論文と類似した論文のレコメンデーションを定期的に提供する「ペーパーアラート」システムに加入する。 しかし、既存のシステムでは論文のタイトルや要約のみを提示しているため、研究者は推奨論文と彼ら自身の研究状況との間のニュアンスな関係を理解するのに苦労することがある。 研究者がこれらの接続を見つけるのを助けるために,ユーザが作成した論文に基づいて推奨論文のコンテキスト化されたテキスト記述を提供する,リッチな紙警告システムPaperWeaverを提案する。 PaperWeaverはLarge Language Models(LLMs)に基づく計算手法を用いて、収集した論文からユーザの研究関心を推測し、論文の文脈固有の側面を抽出し、これらの側面について推奨および収集された論文を比較する。 ユーザスタディ (N=15) では, 推奨論文の関連性をよりよく理解し, 推奨論文から関連する作業項目を提示するベースラインと比較して, より信頼性の高いトリアージが可能であった。

With the rapid growth of scholarly archives, researchers subscribe to "paper alert" systems that periodically provide them with recommendations of recently published papers that are similar to previously collected papers. However, researchers sometimes struggle to make sense of nuanced connections between recommended papers and their own research context, as existing systems only present paper titles and abstracts. To help researchers spot these connections, we present PaperWeaver, an enriched paper alerts system that provides contextualized text descriptions of recommended papers based on user-collected papers. PaperWeaver employs a computational method based on Large Language Models (LLMs) to infer users' research interests from their collected papers, extract context-specific aspects of papers, and compare recommended and collected papers on these aspects. Our user study (N=15) showed that participants using PaperWeaver were able to better understand the relevance of recommended papers and triage them more confidently when compared to a baseline that presented the related work sections from recommended papers.
翻訳日:2024-05-10 17:39:27 公開日:2024-05-09
# Cobweb: ヒューマンライクなカテゴリー学習のインクリメンタルで階層的なモデル

Cobweb: An Incremental and Hierarchical Model of Human-Like Category Learning ( http://arxiv.org/abs/2403.03835v3 )

ライセンス: Link先を確認
Xin Lian, Sashank Varma, Christopher J. MacLellan, (参考訳) 人間のようなカテゴリー学習システムであるCobwebは、ほとんどの認知科学モデルとは異なる、階層的に整理された木のような構造をカテゴリユーティリティー尺度でガイドすることで、段階的に構築する。 以前の研究では、コブウェブは基本的なレベル、典型性、ファン効果などの心理的効果を捉えることができることが示されている。 しかし、人間の分類モデルとしてのCobwebのより広範な評価は、いまだに欠落している。 現在の研究はこのギャップに対処している。 これは、古典的な人間のカテゴリー学習効果とコブウェブの整合性を確立している。 また、Cobwebの柔軟性を探り、単一のフレームワーク内で、模範的な学習とプロトタイプ的な学習の両方を示す。 これらの知見は、人間のカテゴリー学習の堅牢なモデルとして、Cobwebのさらなる研究の舞台となった。

Cobweb, a human-like category learning system, differs from most cognitive science models in incrementally constructing hierarchically organized tree-like structures guided by the category utility measure. Prior studies have shown that Cobweb can capture psychological effects such as basic-level, typicality, and fan effects. However, a broader evaluation of Cobweb as a model of human categorization remains lacking. The current study addresses this gap. It establishes Cobweb's alignment with classical human category learning effects. It also explores Cobweb's flexibility to exhibit both exemplar- and prototype-like learning within a single framework. These findings set the stage for further research on Cobweb as a robust model of human category learning.
翻訳日:2024-05-10 17:39:27 公開日:2024-05-09
# VLM-PL:視覚言語モデルによるクラスインクリメンタルオブジェクト検出のための高度な擬似ラベリング手法

VLM-PL: Advanced Pseudo Labeling Approach for Class Incremental Object Detection via Vision-Language Model ( http://arxiv.org/abs/2403.05346v3 )

ライセンス: Link先を確認
Junsu Kim, Yunhoe Ku, Jihyeon Kim, Junuk Cha, Seungryul Baek, (参考訳) クラスインクリメンタルオブジェクト検出(CIOD)の分野では、人間のように継続的に学習できるモデルを作成することが大きな課題である。 擬似ラベル法は、当初は強力であったが、過去の知識を忘れる傾向にあるため、複数のシナリオの漸進的な学習に苦しむ。 これを解決するために,視覚言語モデルを用いた擬似ラベリング(VLM-PL)という新しい手法を提案する。 この手法は視覚言語モデル(VLM)を用いて、追加のモデルトレーニングを必要とせず、擬似接地真実(GT)の正しさを検証する。 VLM-PLは、事前訓練された検出器から擬似GTを誘導することから始まる。 次に,画像とテキストの機能を組み合わせたプロンプトテンプレートを慎重に設計し,擬似GT毎にカスタムクエリを生成する。 これにより、VLMは応答によって正しさを分類できる。 さらに、VLM-PLは、今後のトレーニングから改良された擬似GTと実GTを統合し、新しい知識と古い知識を効果的に組み合わせている。 Pascal VOCとMS COCOデータセットで実施された大規模な実験は、マルチシナリオにおけるVLM-PLの例外的な性能を強調しただけでなく、両者で最先端の結果を得ることによって、その2つのシナリオにおける効果を照らした。

In the field of Class Incremental Object Detection (CIOD), creating models that can continuously learn like humans is a major challenge. Pseudo-labeling methods, although initially powerful, struggle with multi-scenario incremental learning due to their tendency to forget past knowledge. To overcome this, we introduce a new approach called Vision-Language Model assisted Pseudo-Labeling (VLM-PL). This technique uses Vision-Language Model (VLM) to verify the correctness of pseudo ground-truths (GTs) without requiring additional model training. VLM-PL starts by deriving pseudo GTs from a pre-trained detector. Then, we generate custom queries for each pseudo GT using carefully designed prompt templates that combine image and text features. This allows the VLM to classify the correctness through its responses. Furthermore, VLM-PL integrates refined pseudo and real GTs from upcoming training, effectively combining new and old knowledge. Extensive experiments conducted on the Pascal VOC and MS COCO datasets not only highlight VLM-PL's exceptional performance in multi-scenario but also illuminate its effectiveness in dual-scenario by achieving state-of-the-art results in both.
翻訳日:2024-05-10 17:39:27 公開日:2024-05-09
# 1次元ボースガス干渉法による相対位相抽出の系統解析

Systematic analysis of relative phase extraction in one-dimensional Bose gases interferometry ( http://arxiv.org/abs/2403.05528v2 )

ライセンス: Link先を確認
Taufiq Murtadho, Marek Gluza, Khatee Zathul Arifa, Sebastian Erne, Jörg Schmiedmayer, Nelly H. Y. Ng, (参考訳) 近接する2つの1次元ボースガスの空間分解相対位相測定は、自由膨張時の物質波干渉によって可能となる。 しかし、実験データの解析では、長手力学は無視されるのが一般的である。 本稿では, 相対位相の長手展開による読み出しに対する補正と, 共通位相との混合に関する解析式を提案する。 相関関数や温度などのガスの物理量の推定に対する誤差伝搬を数値的に評価する。 本研究は、干渉計測の信頼性と堅牢性を特徴とし、冷原子量子シミュレータにおける新しい物理現象を観測するために必要な既存の位相抽出法の改善に向けるものである。

Spatially resolved relative phase measurement of two adjacent 1D Bose gases is enabled by matter-wave interference upon free expansion. However, longitudinal dynamics is typically ignored in the analysis of experimental data. We provide an analytical formula showing a correction to the readout of the relative phase due to longitudinal expansion and mixing with the common phase. We numerically assess the error propagation to the estimation of the gases' physical quantities such as correlation functions and temperature. Our work characterizes the reliability and robustness of interferometric measurements, directing us to the improvement of existing phase extraction methods necessary to observe new physical phenomena in cold-atomic quantum simulators.
翻訳日:2024-05-10 17:39:27 公開日:2024-05-09
# チャープパルス駆動プロトコルに基づく普遍的で堅牢な量子コヒーレント制御

Universal and robust quantum coherent control based on a chirped-pulse driving protocol ( http://arxiv.org/abs/2403.08496v2 )

ライセンス: Link先を確認
Yue-Hao Yin, Jin-Xin Yang, Li-Xiang Cen, (参考訳) 我々は、チャープパルス駆動プロトコルを提案し、量子コヒーレント制御における例外的な特性を明らかにする。 本発明の駆動プロトコルが生成する非断熱通路は、その成分として集団逆転と非断熱性による遷移を含むものであり、パルス切断に対する堅牢性を示す。 さらに、このプロトコルは、適切に調整されたスイーピング周波数またはパルス強度でパルスシーケンスを設計することで、キュービットシステムに対する普遍的な操作を可能にすることを実証する。

We propose a chirped-pulse driving protocol and reveal its exceptional property for quantum coherent control. The nonadiabatic passage generated by the driving protocol, which includes the population inversion and the nonadiabaticity-induced transition as its ingredients, is shown to be robust against pulse truncation. We further demonstrate that the protocol allows for universal manipulation on the qubit system through designing pulse sequences with either properly adjusted sweeping frequency or pulsing intensity.
翻訳日:2024-05-10 17:39:27 公開日:2024-05-09
# 量子クリロフアルゴリズムと量子化を用いた格子ゲージ理論の解法

Solving lattice gauge theories using the quantum Krylov algorithm and qubitization ( http://arxiv.org/abs/2403.08859v3 )

ライセンス: Link先を確認
Lewis W. Anderson, Martin Kiffner, Tom O'Leary, Jason Crain, Dieter Jaksch, (参考訳) フェルミオン度自由度を含む格子ゲージ理論(LGT)の真空状態の計算はモンテカルロ法による古典計算において重要な課題となる。 量子アルゴリズムはLGTの基底状態特性のよりスケーラブルな計算経路を提供する。 しかし、そのような問題に必要な量子計算資源の包括的理解は今のところ不十分である。 本研究では,量子部分空間展開(QSE)アルゴリズムを用いて,1次元の量子電磁力学を記述したアーチティパルLGTであるシュウィンガーモデルの基底状態を計算する。 測定ノイズの影響を含む数値シミュレーションを行い、QSEアルゴリズムに必要なリソースを外挿し、システムサイズの範囲で所望の精度を達成する。 これを用いて、故障耐性フレームワーク内の量子化を用いた量子アルゴリズムを用いて、LGT真空状態の計算に必要なリソースの完全な分析を行う。 我々は,LGTハミルトニアンの「ユニタリの線形結合(LCU)」に基づく量子化を行う新しい手法を開発した。 対応するブロックエンコーディング操作のコストは、システムサイズが$N$の$\tilde{O}(N)$にスケールする。 対応するプレファクタを含むQSEアルゴリズムでは,シュウィンガーモデルに適用した場合に$\tilde{O}(N^2)$としてスケールする従来のLCU法と比較して,ゲートコストを桁違いに削減する。 資源分析によるクォービット・シングル回路Tゲートコストは早期耐故障性の実装にアピールするが, 提案手法の適用性の向上と今後の課題を議論するためには, QSE手順における数値不安定性を回避するために必要なショット数を大幅に削減する必要がある。

Computing vacuum states of lattice gauge theories (LGTs) containing fermionic degrees of freedom can present significant challenges for classical computation using Monte-Carlo methods. Quantum algorithms may offer a pathway towards more scalable computation of groundstate properties of LGTs. However, a comprehensive understanding of the quantum computational resources required for such a problem is thus far lacking. In this work, we investigate using the quantum subspace expansion (QSE) algorithm to compute the groundstate of the Schwinger model, an archetypal LGT describing quantum electrodynamics in one spatial dimension. We perform numerical simulations, including the effect of measurement noise, to extrapolate the resources required for the QSE algorithm to achieve a desired accuracy for a range of system sizes. Using this, we present a full analysis of the resources required to compute LGT vacuum states using a quantum algorithm using qubitization within a fault tolerant framework. We develop of a novel method for performing qubitization of a LGT Hamiltonian based on a 'linear combination of unitaries' (LCU) approach. The cost of the corresponding block encoding operation scales as $\tilde{O}(N)$ with system size $N$. Including the corresponding prefactors, our method reduces the gate cost by multiple orders of magnitude when compared to previous LCU methods for the QSE algorithm, which scales as $\tilde{O}(N^2)$ when applied to the Schwinger model. While the qubit and single circuit T-gate cost resulting from our resource analysis is appealing to early fault-tolerant implementation, we find that the number of shots required to avoid numerical instability within the QSE procedure must be significantly reduced in order to improve the feasibility of the methodology we consider and discuss how this might be achieved.
翻訳日:2024-05-10 17:39:27 公開日:2024-05-09
# FBPT:完全バイナリポイント変換器

FBPT: A Fully Binary Point Transformer ( http://arxiv.org/abs/2403.09998v2 )

ライセンス: Link先を確認
Zhixing Hou, Yuzhang Shang, Yan Yan, (参考訳) 本稿では,ロボット工学やモバイルデバイスの分野で広く応用され拡張される可能性を持つ,FBPT(Fully Binary Point Cloud Transformer)モデルを提案する。 32ビットの完全精度ネットワークの重みとアクティベーションを1ビットのバイナリ値に圧縮することにより、提案されたバイナリポイントクラウドトランスフォーマーネットワークは、完全精度のクラウドネットワークと比較して、ポイントクラウド処理タスクのためのニューラルネットワークモデルのストレージフットプリントと計算リソース要求を著しく削減する。 しかし、タスク固有のモジュールを除く全ての部分がバイナリである完全なバイナリポイントクラウドトランスフォーマーネットワークの実現は、単純な確率分布に従わず、入力データによって変化するため、注意モジュールにおけるQ、K、Vのアクティベーションと自己アテンションの定量化において、課題とボトルネックを生じさせる。 さらに,本ネットワークでは,ソフトマックス操作後に発生する均一分布により,2次アテンションモジュールが自己アテンションモジュールの劣化を受ける。 本稿の主な焦点は、バイナリポイントクラウドトランスフォーマーモジュールの使用によるパフォーマンス劣化問題に対処することである。 動的静電ハイブリッド化と呼ばれる新しい二項化機構を提案する。 具体的には,ネットワークモデル全体の静的バイナライゼーションとデータ感度成分の微粒度動的バイナライゼーションを組み合わせる。 さらに、最適なモデルと二項化パラメータを得るために、新しい階層的学習手法を用いる。 これらの改善により、提案手法は、点雲トランスフォーマー構造を用いる場合、畳み込みニューラルネットワークに適用される双項化法より優れる。 アルゴリズムの優位性を示すために,ポイントクラウド分類と位置認識という2つの異なるタスクの実験を行った。

This paper presents a novel Fully Binary Point Cloud Transformer (FBPT) model which has the potential to be widely applied and expanded in the fields of robotics and mobile devices. By compressing the weights and activations of a 32-bit full-precision network to 1-bit binary values, the proposed binary point cloud Transformer network significantly reduces the storage footprint and computational resource requirements of neural network models for point cloud processing tasks, compared to full-precision point cloud networks. However, achieving a fully binary point cloud Transformer network, where all parts except the modules specific to the task are binary, poses challenges and bottlenecks in quantizing the activations of Q, K, V and self-attention in the attention module, as they do not adhere to simple probability distributions and can vary with input data. Furthermore, in our network, the binary attention module undergoes a degradation of the self-attention module due to the uniform distribution that occurs after the softmax operation. The primary focus of this paper is on addressing the performance degradation issue caused by the use of binary point cloud Transformer modules. We propose a novel binarization mechanism called dynamic-static hybridization. Specifically, our approach combines static binarization of the overall network model with fine granularity dynamic binarization of data-sensitive components. Furthermore, we make use of a novel hierarchical training scheme to obtain the optimal model and binarization parameters. These above improvements allow the proposed binarization method to outperform binarization methods applied to convolution neural networks when used in point cloud Transformer structures. To demonstrate the superiority of our algorithm, we conducted experiments on two different tasks: point cloud classification and place recognition.
翻訳日:2024-05-10 17:39:27 公開日:2024-05-09
# 離散時間量子力学のためのエクササイズモデル

Exact model reduction for discrete-time conditional quantum dynamics ( http://arxiv.org/abs/2403.12575v2 )

ライセンス: Link先を確認
Tommaso Grigoletto, Francesco Ticozzi, (参考訳) 量子確率における最小の実現と条件付き期待に基づく代数的アプローチを応用し、測定結果と関連する可観測物の期待値に関する正確な分布を維持しつつ、離散時間における量子フィルタの次元を減少させる手法を提案する。 この方法は、測定結果に依存し、システム理論の可観測性解析に基づく一般的な量子系に対して提示され、プロトタイプの例で検証される。

Leveraging an algebraic approach built on minimal realizations and conditional expectations in quantum probability, we propose a method to reduce the dimension of quantum filters in discrete-time, while maintaining the correct distributions on the measurement outcomes and the expectations of some relevant observable. The method is presented for general quantum systems whose dynamics depend on measurement outcomes, hinges on a system-theoretic observability analysis, and is tested on prototypical examples.
翻訳日:2024-05-10 17:39:27 公開日:2024-05-09
# 自律運転における質問応答のための多フレーム・軽量・高能率ビジョンランゲージモデル

Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving ( http://arxiv.org/abs/2403.19838v2 )

ライセンス: Link先を確認
Akshay Gopalkrishnan, Ross Greer, Mohan Trivedi, (参考訳) 視覚言語モデル(VLM)とマルチモーダル言語モデル(MMLM)は、交通シーン画像やその他のデータモダリティを用いて、エンドツーエンドの自動運転安全タスクに対して、解釈可能なテキスト推論と応答を提供することができるため、自律運転研究において注目されている。 しかしながら、これらのシステムに対する現在のアプローチでは、高価な大規模言語モデル(LLM)のバックボーンとイメージエンコーダを使用しており、厳しいメモリ制約が存在し、高速な推論時間が必要なリアルタイム自律運転システムには適さない。 これらの課題に対処するため,自動走行のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルEM-VLM4ADを開発した。 従来のアプローチと比較して、EM-VLM4ADはメモリと浮動小数点演算を少なくとも10倍少なくし、DriveLMデータセット上の既存のベースラインよりも高いCIDErとROUGE-Lスコアを達成する必要がある。 EM-VLM4ADはまた、プロンプトに関連する交通ビューから関連する情報を抽出し、様々な自律運転サブタスクに対する質問に答える能力も示している。 トレーニング用のコードをhttps://github.com/akshaygopalkr/EM-VLM4ADで公開しています。

Vision-Language Models (VLMs) and Multi-Modal Language models (MMLMs) have become prominent in autonomous driving research, as these models can provide interpretable textual reasoning and responses for end-to-end autonomous driving safety tasks using traffic scene images and other data modalities. However, current approaches to these systems use expensive large language model (LLM) backbones and image encoders, making such systems unsuitable for real-time autonomous driving systems where tight memory constraints exist and fast inference time is necessary. To address these previous issues, we develop EM-VLM4AD, an efficient, lightweight, multi-frame vision language model which performs Visual Question Answering for autonomous driving. In comparison to previous approaches, EM-VLM4AD requires at least 10 times less memory and floating point operations, while also achieving higher CIDEr and ROUGE-L scores than the existing baseline on the DriveLM dataset. EM-VLM4AD also exhibits the ability to extract relevant information from traffic views related to prompts and can answer questions for various autonomous driving subtasks. We release our code to train and evaluate our model at https://github.com/akshaygopalkr/EM-VLM4AD.
翻訳日:2024-05-10 17:29:35 公開日:2024-05-09
# 自動車の分散インターネットにおける移動型AIGCサービスのための学習型インセンティブメカニズム

A Learning-based Incentive Mechanism for Mobile AIGC Service in Decentralized Internet of Vehicles ( http://arxiv.org/abs/2403.20151v2 )

ライセンス: Link先を確認
Jiani Fan, Minrui Xu, Ziyao Liu, Huanyi Ye, Chaojie Gu, Dusit Niyato, Kwok-Yan Lam, (参考訳) AIGC(Artificial Intelligence-Generated Content)は、AIモデルを利用した自動コンテンツ生成のパラダイムである。 Internet of Vehicles(IoV)ネットワークのモバイルAIGCサービスは、ネットワーク効率の向上、再構成性の向上、データセキュリティとプライバシの向上など、従来のクラウドベースのAIGCサービスに対して、多くのアドバンテージを持っている。 それでも、AIGCサービスのプロビジョニングには、大きなリソースが頻繁に必要である。 その結果、リソース制約のあるロードサイドユニット(RSU)は、AIGCサービスの異種プールを維持し、全体的なパフォーマンスを低下させることなくすべてのユーザサービス要求に対処する上で、課題に直面します。 そこで本稿では,移動型AIGCサービスアロケーションのための分散化インセンティブ機構を提案し,RSUにおけるAIGCサービスの供給とIoVコンテキスト内のサービスに対するユーザ需要のバランスを把握し,ユーザエクスペリエンスの最適化と送信遅延の最小化を図る。 実験により,本手法は他のベースラインモデルと比較して優れた性能を示した。

Artificial Intelligence-Generated Content (AIGC) refers to the paradigm of automated content generation utilizing AI models. Mobile AIGC services in the Internet of Vehicles (IoV) network have numerous advantages over traditional cloud-based AIGC services, including enhanced network efficiency, better reconfigurability, and stronger data security and privacy. Nonetheless, AIGC service provisioning frequently demands significant resources. Consequently, resource-constrained roadside units (RSUs) face challenges in maintaining a heterogeneous pool of AIGC services and addressing all user service requests without degrading overall performance. Therefore, in this paper, we propose a decentralized incentive mechanism for mobile AIGC service allocation, employing multi-agent deep reinforcement learning to find the balance between the supply of AIGC services on RSUs and user demand for services within the IoV context, optimizing user experience and minimizing transmission latency. Experimental results demonstrate that our approach achieves superior performance compared to other baseline models.
翻訳日:2024-05-10 17:29:35 公開日:2024-05-09
# 政策最適化に基づくインテリジェントホームソーラーマネージメント

A proximal policy optimization based intelligent home solar management ( http://arxiv.org/abs/2404.03888v2 )

ライセンス: Link先を確認
Kode Creer, Imitiaz Parvez, (参考訳) スマートグリッドでは、プロシューマーが再生可能エネルギー源と蓄電装置を所有していると仮定して、未使用の電力を電力グリッドに戻すことができる。 ダイナミック電気市場における利益の最大化は、インテリジェントな計画を必要とする問題である。 そこで我々はPPO(Proximal Policy Optimization)に基づくフレームワークを提案する。 目的を最大化するために,PPOで効果的にモデル化された報酬に関する情報を利用することで,他のナイーブアルゴリズムよりも30倍以上の改善を達成できた。 これは、金融市場のような複雑な領域での行動計画に必要なタスクを実行するために強化学習アルゴリズムを取得することを約束している。 また,ソリトン波をベースとした縦長の埋め込み手法を導入し,ランダムな浮動小数点データ拡張による通常の埋め込みよりも優れることを示す。

In the smart grid, the prosumers can sell unused electricity back to the power grid, assuming the prosumers own renewable energy sources and storage units. The maximizing of their profits under a dynamic electricity market is a problem that requires intelligent planning. To address this, we propose a framework based on Proximal Policy Optimization (PPO) using recurrent rewards. By using the information about the rewards modeled effectively with PPO to maximize our objective, we were able to get over 30\% improvement over the other naive algorithms in accumulating total profits. This shows promise in getting reinforcement learning algorithms to perform tasks required to plan their actions in complex domains like financial markets. We also introduce a novel method for embedding longs based on soliton waves that outperformed normal embedding in our use case with random floating point data augmentation.
翻訳日:2024-05-10 17:29:35 公開日:2024-05-09
# 外部計画型大規模言語モデルによる会話性疾患の診断

Conversational Disease Diagnosis via External Planner-Controlled Large Language Models ( http://arxiv.org/abs/2404.04292v3 )

ライセンス: Link先を確認
Zhoujian Sun, Cheng Luo, Ziyi Liu, Zhengxing Huang, (参考訳) 大規模言語モデル(LLM)の開発は、人工知能(AI)に基づく診断に先例のない可能性をもたらした。 しかし、実際の診断シナリオにおけるLCMの応用的視点は、患者データを積極的に収集することができないため、まだ不明である。 本研究は,医師のエミュレートによる計画能力の向上を目的としたLCMに基づく診断システムを提案する。 我々のシステムは、計画タスクを処理するために2つの外部プランナーを含んでいる。 最初のプランナーは、病気スクリーニングの質問を定式化し、初期診断を行うための強化学習アプローチを採用している。 第2のプランナーは、LSMを使用して医療ガイドラインを解析し、鑑別診断を行う。 実際の患者電子カルテデータを用いて,仮想患者と医師とのシミュレーション対話を構築し,診断能力の評価を行った。 本システムでは,GPT-4 Turbo を含む既存モデルよりも,疾患検診および鑑別診断において有意に優れていることを示す。 この研究は、AIを臨床環境にシームレスに統合するためのステップであり、医療診断の精度とアクセシビリティを高める可能性がある。

The development of large language models (LLMs) has brought unprecedented possibilities for artificial intelligence (AI) based medical diagnosis. However, the application perspective of LLMs in real diagnostic scenarios is still unclear because they are not adept at collecting patient data proactively. This study presents a LLM-based diagnostic system that enhances planning capabilities by emulating doctors. Our system involves two external planners to handle planning tasks. The first planner employs a reinforcement learning approach to formulate disease screening questions and conduct initial diagnoses. The second planner uses LLMs to parse medical guidelines and conduct differential diagnoses. By utilizing real patient electronic medical record data, we constructed simulated dialogues between virtual patients and doctors and evaluated the diagnostic abilities of our system. We demonstrate that our system significantly surpasses existing models, including GPT-4 Turbo, in both disease screening and differential diagnoses. This research represents a step towards more seamlessly integrating AI into clinical settings, potentially enhancing the accuracy and accessibility of medical diagnostics.
翻訳日:2024-05-10 17:29:35 公開日:2024-05-09
# Alljoined1 -- EEGから画像へのデコードのためのデータセット

Alljoined1 -- A dataset for EEG-to-Image decoding ( http://arxiv.org/abs/2404.05553v2 )

ライセンス: Link先を確認
Jonathan Xu, Bruno Aristimunha, Max Emanuel Feucht, Emma Qian, Charles Liu, Tazik Shahjahan, Martyna Spyra, Steven Zifan Zhang, Nicholas Short, Jioh Kim, Paula Perdomo, Ricky Renfeng Mao, Yashvir Sabharwal, Michael Ahedor Moaz Shoura, Adrian Nestor, (参考訳) 我々は、EEGから画像へのデコーディングに特化したデータセットであるAlljoined1を提示する。 視覚刺激に対する神経反応の広範かつ偏りのないサンプリングが、画像再構成に不可欠であることを認識し、それぞれ1万枚の自然画像を見ている8人の被験者からデータを収集した。 現在、64チャンネルの脳波ヘッドセットで記録された46,080の脳反応を収集しています。 このデータセットは、応答に基づく刺激タイミング、ブロックとセッションの繰り返し、さまざまな画像クラスを、信号の品質向上の目標と組み合わせている。 透明性のためには、データ品質スコアも提供します。 データセットとすべてのコードはhttps://linktr.ee/alljoined1.comで公開しています。

We present Alljoined1, a dataset built specifically for EEG-to-Image decoding. Recognizing that an extensive and unbiased sampling of neural responses to visual stimuli is crucial for image reconstruction efforts, we collected data from 8 participants looking at 10,000 natural images each. We have currently gathered 46,080 epochs of brain responses recorded with a 64-channel EEG headset. The dataset combines response-based stimulus timing, repetition between blocks and sessions, and diverse image classes with the goal of improving signal quality. For transparency, we also provide data quality scores. We publicly release the dataset and all code at https://linktr.ee/alljoined1.
翻訳日:2024-05-10 17:29:35 公開日:2024-05-09
# すべての文脈が平等であるとは限らない: LLM に信頼性を意識した生成を教える

Not All Contexts Are Equal: Teaching LLMs Credibility-aware Generation ( http://arxiv.org/abs/2404.06809v2 )

ライセンス: Link先を確認
Ruotong Pan, Boxi Cao, Hongyu Lin, Xianpei Han, Jia Zheng, Sirui Wang, Xunliang Cai, Le Sun, (参考訳) 大規模言語モデルの急速な発展により、知識ボトルネックの緩和と幻覚の緩和のために外部知識を統合したレトリーバル拡張生成(RAG)が広く採用されている。 しかし、既存のRAGパラダイムは、検索フレーズ中に導入された欠陥情報の影響に必然的に悩まされるため、生成された結果の信頼性と正確性は低下する。 本稿では、RAGにおける欠陥情報の影響を軽減するために、広く適用可能なフレームワークであるCredibility-Aware Generation (CAG)を提案する。 CAGの中核となるのは、その信頼性に基づいて情報を識別し処理する能力を備えたモデルを提供することである。 そこで本稿では,信頼性に基づいてデータを生成する革新的なデータ変換フレームワークを提案する。 さらに、CAGのモデルの性能を正確に評価するために、3つの重要な実世界のシナリオをカバーする包括的なベンチマークを構築した。 実験結果から,本モデルでは,生成に対する信頼性を効果的に理解し,検索強化により他のモデルよりも優れ,ノイズの多い文書による破壊に対するレジリエンスを示し,ロバストな性能を維持することができることが示された。 さらに、我々のモデルはカスタマイズされた信頼性をサポートし、幅広い潜在的なアプリケーションを提供します。

The rapid development of large language models has led to the widespread adoption of Retrieval-Augmented Generation (RAG), which integrates external knowledge to alleviate knowledge bottlenecks and mitigate hallucinations. However, the existing RAG paradigm inevitably suffers from the impact of flawed information introduced during the retrieval phrase, thereby diminishing the reliability and correctness of the generated outcomes. In this paper, we propose Credibility-aware Generation (CAG), a universally applicable framework designed to mitigate the impact of flawed information in RAG. At its core, CAG aims to equip models with the ability to discern and process information based on its credibility. To this end, we propose an innovative data transformation framework that generates data based on credibility, thereby effectively endowing models with the capability of CAG. Furthermore, to accurately evaluate the models' capabilities of CAG, we construct a comprehensive benchmark covering three critical real-world scenarios. Experimental results demonstrate that our model can effectively understand and utilize credibility for generation, significantly outperform other models with retrieval augmentation, and exhibit resilience against the disruption caused by noisy documents, thereby maintaining robust performance. Moreover, our model supports customized credibility, offering a wide range of potential applications.
翻訳日:2024-05-10 17:29:35 公開日:2024-05-09
# DGMamba: 汎用状態空間モデルによるドメインの一般化

DGMamba: Domain Generalization via Generalized State Space Model ( http://arxiv.org/abs/2404.07794v2 )

ライセンス: Link先を確認
Shaocong Long, Qianyu Zhou, Xiangtai Li, Xuequan Lu, Chenhao Ying, Yuan Luo, Lizhuang Ma, Shuicheng Yan, (参考訳) ドメイン一般化~(DG)は,様々な場面における分布シフト問題を解決することを目的としている。 既存のアプローチは畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)をベースとしている。 Mambaは、新興状態空間モデル(SSM)として、より優れた線形複雑性と大域的受容場を持つ。 これにもかかわらず、隠れた状態問題や不適切なスキャン機構のため、DGに分散シフトに対処することは困難である。 本稿では,DGMamba という新たな DG フレームワークを提案する。DGMamba は未確認領域に対して強い一般化性を持ち,一方,大域的受容場と効率的な線形複雑性の利点がある。 我々のDGMambaは、Hedden State Suppressing~(HSS)とSemantic-aware Patch Refining~(SPR)の2つのコアコンポーネントを妥協します。 特に、HSSは、出力予測中にドメイン固有の特徴に関連する隠れ状態の影響を軽減するために導入された。 SPRは、プリエント・フリー・スキャン~(PFS)とドメイン・コンテキスト・インターチェンジ~(DCI)の2つの設計からなる、コンテキストよりもオブジェクトにもっと集中するようモデルに促そうとしている。 具体的には、PFSはイメージ内の非セマンティックパッチをシャッフルし、画像からより柔軟で効果的なシーケンスを生成することを目的としており、DCIはドメイン間のパッチを融合することで、ミスマッチした非セマンティックおよびセマンティック情報の組み合わせでマンバを正規化するように設計されている。 4つの一般的なDGベンチマークの大規模な実験により、提案されたDGMambaは最先端モデルよりもはるかに優れた結果が得られることが示された。 コードは公開されます。

Domain generalization~(DG) aims at solving distribution shift problems in various scenes. Existing approaches are based on Convolution Neural Networks (CNNs) or Vision Transformers (ViTs), which suffer from limited receptive fields or quadratic complexities issues. Mamba, as an emerging state space model (SSM), possesses superior linear complexity and global receptive fields. Despite this, it can hardly be applied to DG to address distribution shifts, due to the hidden state issues and inappropriate scan mechanisms. In this paper, we propose a novel framework for DG, named DGMamba, that excels in strong generalizability toward unseen domains and meanwhile has the advantages of global receptive fields, and efficient linear complexity. Our DGMamba compromises two core components: Hidden State Suppressing~(HSS) and Semantic-aware Patch refining~(SPR). In particular, HSS is introduced to mitigate the influence of hidden states associated with domain-specific features during output prediction. SPR strives to encourage the model to concentrate more on objects rather than context, consisting of two designs: Prior-Free Scanning~(PFS), and Domain Context Interchange~(DCI). Concretely, PFS aims to shuffle the non-semantic patches within images, creating more flexible and effective sequences from images, and DCI is designed to regularize Mamba with the combination of mismatched non-semantic and semantic information by fusing patches among domains. Extensive experiments on four commonly used DG benchmarks demonstrate that the proposed DGMamba achieves remarkably superior results to state-of-the-art models. The code will be made publicly available.
翻訳日:2024-05-10 17:29:35 公開日:2024-05-09
# 物理インフォームド残差拡散法による流れ場再構成

PiRD: Physics-informed Residual Diffusion for Flow Field Reconstruction ( http://arxiv.org/abs/2404.08412v2 )

ライセンス: Link先を確認
Siming Shan, Pengkai Wang, Song Chen, Jiaxu Liu, Chao Xu, Shengze Cai, (参考訳) 流体力学における機械学習の利用は、偏微分方程式の前方および逆問題を解く際に計算を高速化することが一般的になりつつある。 しかし、既存の畳み込みニューラルネットワーク(CNN)ベースのデータ忠実度向上手法における注目すべき課題は、トレーニングフェーズ中の特定の低忠実度データパターンと分散に依存することである。 さらに、CNNベースの手法では、フロー再構成タスクを、物理的・数学的説明に欠ける要素の精度を優先するコンピュータビジョンタスクとして扱う。 この依存は、特に低忠実度入力がトレーニングデータから逸脱したり、トレーニング中に説明されていないノイズを含む場合、実際のシナリオにおけるモデルの有効性に劇的に影響する可能性がある。 この文脈における拡散モデルの導入は、性能と一般化可能性を改善することを約束している。 特定の低忠実度から高忠実度分布への直接写像とは異なり、拡散モデルは任意の低忠実度分布から高忠実度分布への遷移を学ぶ。 提案したモデル - 物理インフォームド残差拡散(Residual Diffusion)は、標準の低忠実度入力から、ガウス雑音を注入した低忠実度入力、ランダムに収集したサンプルまで、データの質を高める能力を示す。 物理に基づく洞察を目的関数に統合することにより、推論された高品質なデータの精度と忠実度をさらに改善する。 実験結果より, 本手法は, 低忠実度入力条件の2次元乱流に対して, 再学習を必要とせず, 効果的に高品質な流れを再現できることが示唆された。

The use of machine learning in fluid dynamics is becoming more common to expedite the computation when solving forward and inverse problems of partial differential equations. Yet, a notable challenge with existing convolutional neural network (CNN)-based methods for data fidelity enhancement is their reliance on specific low-fidelity data patterns and distributions during the training phase. In addition, the CNN-based method essentially treats the flow reconstruction task as a computer vision task that prioritizes the element-wise precision which lacks a physical and mathematical explanation. This dependence can dramatically affect the models' effectiveness in real-world scenarios, especially when the low-fidelity input deviates from the training data or contains noise not accounted for during training. The introduction of diffusion models in this context shows promise for improving performance and generalizability. Unlike direct mapping from a specific low-fidelity to a high-fidelity distribution, diffusion models learn to transition from any low-fidelity distribution towards a high-fidelity one. Our proposed model - Physics-informed Residual Diffusion, demonstrates the capability to elevate the quality of data from both standard low-fidelity inputs, to low-fidelity inputs with injected Gaussian noise, and randomly collected samples. By integrating physics-based insights into the objective function, it further refines the accuracy and the fidelity of the inferred high-quality data. Experimental results have shown that our approach can effectively reconstruct high-quality outcomes for two-dimensional turbulent flows from a range of low-fidelity input conditions without requiring retraining.
翻訳日:2024-05-10 17:29:35 公開日:2024-05-09
# 分散ディープラーニングの前進

Going Forward-Forward in Distributed Deep Learning ( http://arxiv.org/abs/2404.08573v2 )

ライセンス: Link先を確認
Ege Aktemur, Ege Zorlutuna, Kaan Bilgili, Tacettin Emre Bok, Berrin Yanikoglu, Suha Orhun Mutluergil, (参考訳) 我々は,分散コンピューティング環境におけるニューラルネットワークのトレーニングを高速化するために,Geoffrey Hinton の Forward-Forward (FF) アルゴリズムを用いた分散ディープラーニングの新しいアプローチを導入する。 フォワードパスとバックパスに依存する従来の手法とは異なり、FFアルゴリズムは2つのフォワードパス戦略を採用しており、従来のバックプロパゲーションプロセスとは大きく異なる。 この新しい手法は、人間の脳の処理機構とより密に連携し、ニューラルネットワークのトレーニングに対してより効率的で生物学的に妥当なアプローチを提供する可能性がある。 本研究では,分散設定におけるFFアルゴリズムの異なる実装について検討し,並列化の能力について検討する。 元のFFアルゴリズムはバックプロパゲーションアルゴリズムのパフォーマンスにマッチする能力に重点を置いているが、並列性はトレーニング時間とリソース消費を削減し、ディープニューラルネットワークのトレーニングに関連する長いトレーニング時間に対処することを目的としている。 評価の結果,4つの計算ノードを持つ4層ネットワークのトレーニングにおいて,MNISTデータセットの3.75倍の高速化を実現した。 FFアルゴリズムを分散ディープラーニングに統合することは、この分野における重要な一歩であり、ニューラルネットワークの分散環境でのトレーニング方法に革命をもたらす可能性がある。

We introduce a new approach in distributed deep learning, utilizing Geoffrey Hinton's Forward-Forward (FF) algorithm to speed up the training of neural networks in distributed computing environments. Unlike traditional methods that rely on forward and backward passes, the FF algorithm employs a dual forward pass strategy, significantly diverging from the conventional backpropagation process. This novel method aligns more closely with the human brain's processing mechanisms, potentially offering a more efficient and biologically plausible approach to neural network training. Our research explores different implementations of the FF algorithm in distributed settings, to explore its capacity for parallelization. While the original FF algorithm focused on its ability to match the performance of the backpropagation algorithm, the parallelism aims to reduce training times and resource consumption, thereby addressing the long training times associated with the training of deep neural networks. Our evaluation shows a 3.75 times speed up on MNIST dataset without compromising accuracy when training a four-layer network with four compute nodes. The integration of the FF algorithm into distributed deep learning represents a significant step forward in the field, potentially revolutionizing the way neural networks are trained in distributed environments.
翻訳日:2024-05-10 17:29:35 公開日:2024-05-09
# 勾配高木を用いた確率学習のためのランク付け対象のヘシアン行列の推定

Estimating the Hessian Matrix of Ranking Objectives for Stochastic Learning to Rank with Gradient Boosted Trees ( http://arxiv.org/abs/2404.12190v2 )

ライセンス: Link先を確認
Jingwei Kang, Maarten de Rijke, Harrie Oosterhuis, (参考訳) 確率的ランク付けモデルの最適化に関して,確率的ランク付け学習(Stochastic Learning to rank, LTR)は近年のLTR分野の分野である。 確率的振る舞いは、決定論的モデルでは不可能な特定のランク付け品質を可能にする。 例えば、表示された文書の多様性を高め、文書に対する露出の公正性を高め、ランダム化によるエクスプロイトと探索のバランスを改善することができる。 LTRの中核となる問題は勾配推定であり、そのため既存の確率的LTR法は微分可能なランキングモデル(例えばニューラルネットワーク)に限られている。 これは、GBDT(Gradient Boosted Decision Trees)が長い間最先端と見なされてきたLTRの一般分野とは対照的である。 本稿では,GBDT に対する最初の確率 LTR 手法を導入することで,このギャップに対処する。 我々の主な貢献は、2階微分、すなわち有効GBDTの要求であるヘッセン行列に対する新しい推定器である。 一階導関数と二階導関数の両方を同時に効率的に計算するために、当初一階導関数のみを対象として設計された既存のPL-Rankフレームワークに推定器を組み込む。 実験結果から,Hessianを含まない確率的LTRの性能は極めて低いが,Hessianを含まない確率的LTRの性能は現在のHessianと競合していることがわかった。 そこで我々は,新しいヘッセン推定法の貢献により,確率的LTRにGBDTを導入することに成功した。

Stochastic learning to rank (LTR) is a recent branch in the LTR field that concerns the optimization of probabilistic ranking models. Their probabilistic behavior enables certain ranking qualities that are impossible with deterministic models. For example, they can increase the diversity of displayed documents, increase fairness of exposure over documents, and better balance exploitation and exploration through randomization. A core difficulty in LTR is gradient estimation, for this reason, existing stochastic LTR methods have been limited to differentiable ranking models (e.g., neural networks). This is in stark contrast with the general field of LTR where Gradient Boosted Decision Trees (GBDTs) have long been considered the state-of-the-art. In this work, we address this gap by introducing the first stochastic LTR method for GBDTs. Our main contribution is a novel estimator for the second-order derivatives, i.e., the Hessian matrix, which is a requirement for effective GBDTs. To efficiently compute both the first and second-order derivatives simultaneously, we incorporate our estimator into the existing PL-Rank framework, which was originally designed for first-order derivatives only. Our experimental results indicate that stochastic LTR without the Hessian has extremely poor performance, whilst the performance is competitive with the current state-of-the-art with our estimated Hessian. Thus, through the contribution of our novel Hessian estimation method, we have successfully introduced GBDTs to stochastic LTR.
翻訳日:2024-05-10 17:29:35 公開日:2024-05-09
# 最小ホログラフィックスカラー化SYKモデルのハミルトンシミュレーション

Hamiltonian simulation of minimal holographic sparsified SYK model ( http://arxiv.org/abs/2404.14784v2 )

ライセンス: Link先を確認
Raghav G. Jha, (参考訳) N$Majorana fermions と $q=4$ (quartic interaction) というホログラフィック的特徴(「最小ホログラフィックスカラー化 SYK' 」と呼ばれる)と $k\ll N^{3}/24$ ($k$ は2次トロッター法とジョルダン・ウィグナーのエンコーディングによる相互作用項の総数 1/N$ は$\widetilde{\mathcal{O}}(k^{p}N^{3/2} \log N (\mathcal{J}t)^{3/2}\varepsilon^{-1/2}) を保持するようなスカラー化SYKモデルの回路の複雑さは$t$ は時間シミュレーションであり、$varepsilon$ は単位の誤差として望まれる。 この複雑さは、100個の論理量子ビット未満で約10^{6}$ゲートを持つと、このモデルで利点を達成でき、リアルタイムのダイナミクスをスクランブル時間までシミュレートできることを意味している。

The circuit complexity for Hamiltonian simulation of the sparsified SYK model with $N$ Majorana fermions and $q=4$ (quartic interactions) which retains holographic features (referred to as `minimal holographic sparsified SYK') with $k\ll N^{3}/24$ (where $k$ is the total number of interaction terms times 1/$N$) using second-order Trotter method and Jordan-Wigner encoding is found to be $\widetilde{\mathcal{O}}(k^{p}N^{3/2} \log N (\mathcal{J}t)^{3/2}\varepsilon^{-1/2})$ where $t$ is the simulation time, $\varepsilon$ is the desired error in the implementation of the unitary $U = \exp(-iHt)$, $\mathcal{J}$ is the disorder strength, and $p < 1$. This complexity implies that with less than a hundred logical qubits and about $10^{6}$ gates, it will be possible to achieve an advantage in this model and simulate real-time dynamics up to scrambling time.
翻訳日:2024-05-10 17:29:35 公開日:2024-05-09
# ハイパースペクトル画像分類に関する包括的調査 : 従来型から変圧器への進化

A Comprehensive Survey for Hyperspectral Image Classification: The Evolution from Conventional to Transformers ( http://arxiv.org/abs/2404.14955v2 )

ライセンス: Link先を確認
Muhammad Ahmad, Salvatore Distifano, Adil Mehmood Khan, Manuel Mazzara, Chenyu Li, Jing Yao, Hao Li, Jagannath Aryal, Jun Zhou, Gemine Vivone, Danfeng Hong, (参考訳) ハイパースペクトル画像分類(HSC)は、ハイパースペクトル(HS)データの高次元性と複雑な性質のために難しい課題である。 従来の機械学習は効率的でありながら、最適な特徴セット、人間駆動設計における主観性、バイアス、制限によって、現実世界のデータに課題に直面している。 従来のアプローチでは、次元の呪い、特徴の選択と抽出の苦労、空間情報の考慮の欠如、ノイズに対するロバスト性、スケーラビリティの問題、複雑なデータ分布にうまく適応できない可能性がある。 近年,これらの課題に対処するための強力なツールとして,ディープラーニング(DL)技術が登場している。 この調査は、DLモデルからトランスフォーマーの新たな利用への進歩に焦点を当て、HSCの現在の動向と今後の展望を概観するものである。 本稿では,HSC 用 DL における重要な概念,方法論,最先端のアプローチについて概説する。 HSCにおけるTransformerベースのモデルの可能性を探り、そのメリットと課題を概説する。 HSCの新たなトレンドや、説明可能なAIとインターオペラビリティの概念に関する徹底的な議論、拡散モデル(画像のデノゲーション、特徴抽出、イメージ融合)についても検討しています。 最後に,HSCに関連するいくつかのオープンな課題と研究課題に対処する。 3つのHSデータセットを用いて,従来のDLモデルとトランスフォーマーの有効性を検証した。 最後に,HSCの精度と効率をさらに向上させる研究の方向性と応用の可能性について概説する。 ソースコードは \href{https://github.com/mahmad00/Conventional-to-Transformer-for-Hyperspectral- Image-Classification-Survey-2024}{github.com/mahmad00} で公開されている。

Hyperspectral Image Classification (HSC) is a challenging task due to the high dimensionality and complex nature of Hyperspectral (HS) data. Traditional Machine Learning approaches while effective, face challenges in real-world data due to varying optimal feature sets, subjectivity in human-driven design, biases, and limitations. Traditional approaches encounter the curse of dimensionality, struggle with feature selection and extraction, lack spatial information consideration, exhibit limited robustness to noise, face scalability issues, and may not adapt well to complex data distributions. In recent years, Deep Learning (DL) techniques have emerged as powerful tools for addressing these challenges. This survey provides a comprehensive overview of the current trends and future prospects in HSC, focusing on the advancements from DL models to the emerging use of Transformers. We review the key concepts, methodologies, and state-of-the-art approaches in DL for HSC. We explore the potential of Transformer-based models in HSC, outlining their benefits and challenges. We also delve into emerging trends in HSC, as well as thorough discussions on Explainable AI and Interoperability concepts along with Diffusion Models (image denoising, feature extraction, and image fusion). Lastly, we address several open challenges and research questions pertinent to HSC. Comprehensive experimental results have been undertaken using three HS datasets to verify the efficacy of various conventional DL models and Transformers. Finally, we outline future research directions and potential applications that can further enhance the accuracy and efficiency of HSC. The Source code is available at \href{https://github.com/mahmad00/Conventional-to-Transformer-for-Hyperspectral-Image-Classification-Surve y-2024}{github.com/mahmad00}.
翻訳日:2024-05-10 17:29:35 公開日:2024-05-09
# MAS-SAM: 群集した特徴を持つ海洋動物を隔離する

MAS-SAM: Segment Any Marine Animal with Aggregated Features ( http://arxiv.org/abs/2404.15700v2 )

ライセンス: Link先を確認
Tianyu Yan, Zifu Wan, Xinhao Deng, Pingping Zhang, Yang Liu, Huchuan Lu, (参考訳) 近年、SAM(Segment Anything Model)は、高品質なオブジェクトマスクを生成し、ゼロショット画像のセグメンテーションを実現する際、例外的な性能を示す。 しかし、多用途視覚モデルとして、SAMは主に大規模な自然光画像で訓練されている。 水中のシーンでは、光散乱と吸収により性能が著しく低下する。 一方、SAMのデコーダの単純さは、きめ細かいオブジェクトの詳細を損なう可能性がある。 以上の課題に対処するため,海洋動物セグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。 より具体的には、水中シーン用の効果的なアダプタを備えたSAMエンコーダを最初に構築する。 次に,ハイパーマップ抽出モジュール (HEM) を導入し,包括的ガイダンスのためのマルチスケール機能を生成する。 最後に,マルチスケール特徴を集約し,最終的なセグメンテーション結果を予測するプログレッシブ予測デコーダ(PPD)を提案する。 本研究では,Fusion Attention Module (FAM) を移植することにより,グローバルな文脈的手がかりからよりリッチな海洋情報をよりきめ細かな局所的詳細まで抽出することができる。 4つのパブリックMASデータセットに対する大規模な実験により、我々のMAS-SAMは、他の典型的なセグメンテーション手法よりも優れた結果が得られることを示した。 ソースコードはhttps://github.com/Drchip61/MAS-SAMで入手できる。

Recently, Segment Anything Model (SAM) shows exceptional performance in generating high-quality object masks and achieving zero-shot image segmentation. However, as a versatile vision model, SAM is primarily trained with large-scale natural light images. In underwater scenes, it exhibits substantial performance degradation due to the light scattering and absorption. Meanwhile, the simplicity of the SAM's decoder might lead to the loss of fine-grained object details. To address the above issues, we propose a novel feature learning framework named MAS-SAM for marine animal segmentation, which involves integrating effective adapters into the SAM's encoder and constructing a pyramidal decoder. More specifically, we first build a new SAM's encoder with effective adapters for underwater scenes. Then, we introduce a Hypermap Extraction Module (HEM) to generate multi-scale features for a comprehensive guidance. Finally, we propose a Progressive Prediction Decoder (PPD) to aggregate the multi-scale features and predict the final segmentation results. When grafting with the Fusion Attention Module (FAM), our method enables to extract richer marine information from global contextual cues to fine-grained local details. Extensive experiments on four public MAS datasets demonstrate that our MAS-SAM can obtain better results than other typical segmentation methods. The source code is available at https://github.com/Drchip61/MAS-SAM.
翻訳日:2024-05-10 17:29:35 公開日:2024-05-09
# ST-MambaSync:交通流予測における空間時空間変換器の補完

ST-MambaSync: The Complement of Mamba and Transformers for Spatial-Temporal in Traffic Flow Prediction ( http://arxiv.org/abs/2404.15899v3 )

ライセンス: Link先を確認
Zhiqi Shao, Xusheng Yao, Ze Wang, Junbin Gao, (参考訳) 交通フローの正確な予測は、交通管理の最適化、道路安全の向上、環境への影響の低減に不可欠である。 既存のモデルは、長いシーケンスデータで問題に直面し、かなりのメモリと計算資源を必要とし、多くの場合、統合された要約状態が欠如しているため、推論時間が遅くなる。 本稿では,変圧器技術とST-Mambaブロックを併用した革新的な交通流予測モデルST-MambaSyncを紹介する。 我々は、トランスフォーマーフレームワーク内でResNetと統合されたアテンションメカニズムであるMambaメカニズムを採用する先駆者であり、モデルの説明可能性と性能を大幅に向上させる。 ST-MambaSyncは、データ長や計算効率といった重要な課題に効果的に対処し、包括的な比較分析を通じて精度と処理速度のベンチマークを新たに設定する。 この開発は、都市計画とリアルタイム交通管理に大きな影響を与え、交通流予測技術の新たな標準を確立した。

Accurate traffic flow prediction is crucial for optimizing traffic management, enhancing road safety, and reducing environmental impacts. Existing models face challenges with long sequence data, requiring substantial memory and computational resources, and often suffer from slow inference times due to the lack of a unified summary state. This paper introduces ST-MambaSync, an innovative traffic flow prediction model that combines transformer technology with the ST-Mamba block, representing a significant advancement in the field. We are the pioneers in employing the Mamba mechanism which is an attention mechanism integrated with ResNet within a transformer framework, which significantly enhances the model's explainability and performance. ST-MambaSync effectively addresses key challenges such as data length and computational efficiency, setting new benchmarks for accuracy and processing speed through comprehensive comparative analysis. This development has significant implications for urban planning and real-time traffic management, establishing a new standard in traffic flow prediction technology.
翻訳日:2024-05-10 17:29:35 公開日:2024-05-09
# 機械設計者としての大言語モデルエージェント

Large Language Model Agent as a Mechanical Designer ( http://arxiv.org/abs/2404.17525v2 )

ライセンス: Link先を確認
Yayati Jadhav, Amir Barati Farimani, (参考訳) 従来の機械設計パラダイムは、特定の要件を満たすために経験誘導的な修正とFAAを通じて、概念を体系的に洗練する専門家に依存している。 しかし、このアプローチは時間がかかり、事前の知識や経験に大きく依存する可能性がある。 この集中的で専門家主導の反復的なプロセスの合理化のために、多くの機械学習モデルが開発されているが、これらの手法は通常、広範なトレーニングデータと相当な計算資源を必要とする。 さらに、ディープラーニングに基づく手法は通常、訓練された特定のドメインやタスクに限定され、異なるタスクに適用性を制限する。 これにより、自動化の効率性とリソースの需要との間にトレードオフが生じます。 本研究では,FEMモジュールと事前学習LLMを統合する新しい手法を提案する。 FEMモジュールはそれぞれの設計を評価し、重要なフィードバックを提供し、LLMにドメイン固有のトレーニングを必要とせずに継続的に学習し、計画し、生成し、設計を最適化するよう指示する。 トラス構造を反復的に最適化する上で,提案手法の有効性を実証し,構造的フィードバックと基準に従って設計を推論・洗練する能力を示す。 その結果, LLMをベースとしたエージェントは, 自然言語仕様に準拠したトラスを最大90%の確率で生成できることがわかった。 プロンプトベースの最適化手法を用いることで, LLM をベースとしたエージェントは, 仕様を満たすために反復的に設計を洗練するための解スコアペアを備えると, 最適化動作を示すことを示す。 LLMエージェントが実行可能な設計を作成し、それら固有の推論能力に基づいて最適化する能力は、効果的な設計戦略を自律的に開発し実装する可能性を強調している。

Conventional mechanical design paradigms rely on experts systematically refining concepts through experience-guided modification and FEA to meet specific requirements. However, this approach can be time-consuming and heavily dependent on prior knowledge and experience. While numerous machine learning models have been developed to streamline this intensive and expert-driven iterative process, these methods typically demand extensive training data and considerable computational resources. Furthermore, methods based on deep learning are usually restricted to the specific domains and tasks for which they were trained, limiting their applicability across different tasks. This creates a trade-off between the efficiency of automation and the demand for resources. In this study, we present a novel approach that integrates pre-trained LLMs with a FEM module. The FEM module evaluates each design and provides essential feedback, guiding the LLMs to continuously learn, plan, generate, and optimize designs without the need for domain-specific training. We demonstrate the effectiveness of our proposed framework in managing the iterative optimization of truss structures, showcasing its capability to reason about and refine designs according to structured feedback and criteria. Our results reveal that these LLM-based agents can successfully generate truss designs that comply with natural language specifications with a success rate of up to 90%, which varies according to the applied constraints. By employing prompt-based optimization techniques we show that LLM based agents exhibit optimization behavior when provided with solution-score pairs to iteratively refine designs to meet specifications. This ability of LLM agents to produce viable designs and optimize them based on their inherent reasoning capabilities highlights their potential to develop and implement effective design strategies autonomously.
翻訳日:2024-05-10 15:31:42 公開日:2024-05-09
# 等価エクストリーム学習マシンによるPDEの高速かつ効率的な予測

Predicting PDEs Fast and Efficiently with Equivariant Extreme Learning Machines ( http://arxiv.org/abs/2404.18530v3 )

ライセンス: Link先を確認
Hans Harder, Sebastian Peitz, (参考訳) 我々は、偏微分方程式(PDE)の予測に極端な学習機械を利用する。 提案手法では,状態空間を複数のウィンドウに分割し,一つのモデルを用いて個別に予測する。 少数のデータポイントしか必要とせず(場合によっては、我々の手法は1つのフルステートスナップショットから学習することができる)、高い精度でPDEのフローを予測できる。 さらに, サンプル効率を高め, 等式を強制するために, 追加の対称性をいかに活用できるかを示す。

We utilize extreme learning machines for the prediction of partial differential equations (PDEs). Our method splits the state space into multiple windows that are predicted individually using a single model. Despite requiring only few data points (in some cases, our method can learn from a single full-state snapshot), it still achieves high accuracy and can predict the flow of PDEs over long time horizons. Moreover, we show how additional symmetries can be exploited to increase sample efficiency and to enforce equivariance.
翻訳日:2024-05-10 15:31:42 公開日:2024-05-09
# 非線形超伝導磁気効果

Nonlinear Superconducting Magnetoelectric Effect ( http://arxiv.org/abs/2404.18616v2 )

ライセンス: Link先を確認
Jin-Xin Hu, Oles Matsyshyn, Justin C. W. Song, (参考訳) 超電流流はスピン軌道相互作用を持つ非セントロ対称超伝導体における非消滅スピン磁化を誘導することができる。 非散逸性磁気効果としてよく知られるが、これは超電流流の線形次数でよく見られる。 ここでは、非線形超伝導磁気効果(NSM)が自然に変化マグネット/超伝導体(ALM/SC)ヘテロ構造に現れることを論じる: NSMは、駆動超電流に対する2次応答として生じるスピン偏極として現れる。 厳密には、NSMはALM/SCヘテロ構造における第一次磁化反応であり、中心対称性の存在下でも存続する。 これにより、NSMは超伝導スピントロニクスのための有望なプラットフォームであるALM/SCヘテロ構造における磁化を制御する強力な電気的および非散逸的な手段となる。

A supercurrent flow can induce a nonvanishing spin magnetization in noncentrosymmetric superconductors with spin-orbit interaction. Often known as the non-dissipative magnetoelectric effect, these are most commonly found at linear order in supercurrent flow. Here, we argue that a nonlinear superconducting magnetoelectric effect (NSM) can naturally manifest in altermagnet/superconductor (ALM/SC) heterostructures: NSM manifests as a spin polarization generated as a second-order response to a driving supercurrent. Strikingly, we find NSM is the leading order magnetization response in ALM/SC heterostructures and survives even in the presence of centrosymmetry; $C_4 \mathcal{T}$ symmetry in altermagnets zeroes both the equilibrium magnetization as well as out-of-plane linear magnetoelectric response. This renders NSM a powerful electric and non-dissipative means of controlling magnetization in ALM/SC heterostructures, a promising platform for superconducting spintronics.
翻訳日:2024-05-10 15:31:42 公開日:2024-05-09
# 環境不確かさに直面した実効的ロバスト多エージェント強化学習

Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty ( http://arxiv.org/abs/2404.18909v3 )

ライセンス: Link先を確認
Laixi Shi, Eric Mazumdar, Yuejie Chi, Adam Wierman, (参考訳) 強化学習(RL)におけるシモン・トゥ・リアルギャップを克服するためには、学習政策は環境の不確実性に対する堅牢性を維持する必要がある。 頑健なRLは単一エージェント体制、マルチエージェント環境において広く研究されているが、環境の不確実性に起因する問題は戦略的な相互作用によって悪化することが多いにもかかわらず、問題は未検討のままである。 この研究は、標準マルコフゲーム(RMG)の堅牢な変形である分散ロバストなマルコフゲーム(RMG)の学習に焦点を当て、各エージェントは、デプロイされた環境が所定の不確実性セット内で逸脱した場合の最悪のパフォーマンスを最大化するポリシーを学ぶことを目的としている。 この結果、ゲーム理論平衡の古典的な概念と整合する全てのエージェントに対して、堅牢な平衡戦略のセットが得られる。 生成モデルから非適応サンプリング機構を仮定し、ゲーム理論平衡の様々な概念の頑健な変種を学習するための有限サンプル複雑性保証付きサンプル効率モデルベースアルゴリズム(DRNVI)を提案する。 また、状態空間のサイズ、目標精度、地平線長といった問題に依存した要因に関して、DRNVIのほぼ最適サンプル複雑性を確認するための情報理論の下限を確立した。

To overcome the sim-to-real gap in reinforcement learning (RL), learned policies must maintain robustness against environmental uncertainties. While robust RL has been widely studied in single-agent regimes, in multi-agent environments, the problem remains understudied -- despite the fact that the problems posed by environmental uncertainties are often exacerbated by strategic interactions. This work focuses on learning in distributionally robust Markov games (RMGs), a robust variant of standard Markov games, wherein each agent aims to learn a policy that maximizes its own worst-case performance when the deployed environment deviates within its own prescribed uncertainty set. This results in a set of robust equilibrium strategies for all agents that align with classic notions of game-theoretic equilibria. Assuming a non-adaptive sampling mechanism from a generative model, we propose a sample-efficient model-based algorithm (DRNVI) with finite-sample complexity guarantees for learning robust variants of various notions of game-theoretic equilibria. We also establish an information-theoretic lower bound for solving RMGs, which confirms the near-optimal sample complexity of DRNVI with respect to problem-dependent factors such as the size of the state space, the target accuracy, and the horizon length.
翻訳日:2024-05-10 15:31:42 公開日:2024-05-09
# GRAMMAR:ドメイン特化検索拡張言語モデルの評価のための基礎的およびモジュール的手法

GRAMMAR: Grounded and Modular Methodology for Assessment of Domain-Specific Retrieval-Augmented Language Model ( http://arxiv.org/abs/2404.19232v3 )

ライセンス: Link先を確認
Xinzhe Li, Ming Liu, Shang Gao, (参考訳) Retrieval-augmented Generation (RAG) システムは、ドメイン固有の知識ベースを問うために、様々な産業で活発に研究され、展開されている。 しかし、これらのシステムを評価することは、ドメイン固有のクエリの不足とそれに対応する基礎的な真実、そして障害の原因を診断するための体系的なアプローチの欠如など、ユニークな課題を示す。 これらの課題に対処するために、GRAMMAR(GRounded and Modular Methodology for Assessment of RAG)という2つの要素からなる評価フレームワークを導入する。 1)リレーショナルデータベースとLLMを活用して,スケーラブルな問合せ対を効率的に生成するデータ生成プロセス。 この方法では、言語的バリエーションからクエリロジックを分離し、デバッグ機能を増強する。 2)知識ギャップと堅牢性を区別し,欠陥モジュールの識別を可能にする評価フレームワーク。 我々の経験的結果は、モデル脆弱性を正確に識別するために、現在の基準フリー評価手法の限界とGRAMMARの信頼性を裏付けるものである。

Retrieval-augmented Generation (RAG) systems have been actively studied and deployed across various industries to query on domain-specific knowledge base. However, evaluating these systems presents unique challenges due to the scarcity of domain-specific queries and corresponding ground truths, as well as a lack of systematic approaches to diagnosing the cause of failure cases -- whether they stem from knowledge deficits or issues related to system robustness. To address these challenges, we introduce GRAMMAR (GRounded And Modular Methodology for Assessment of RAG), an evaluation framework comprising two key elements: 1) a data generation process that leverages relational databases and LLMs to efficiently produce scalable query-answer pairs. This method facilitates the separation of query logic from linguistic variations for enhanced debugging capabilities; and 2) an evaluation framework that differentiates knowledge gaps from robustness and enables the identification of defective modules. Our empirical results underscore the limitations of current reference-free evaluation approaches and the reliability of GRAMMAR to accurately identify model vulnerabilities.
翻訳日:2024-05-10 15:31:42 公開日:2024-05-09
# ウィスパーはスイスドイツ語を理解しているか? 自動的、質的、人的評価

Does Whisper understand Swiss German? An automatic, qualitative, and human evaluation ( http://arxiv.org/abs/2404.19310v2 )

ライセンス: Link先を確認
Eyal Liron Dolev, Clemens Fidel Lutz, Noëmi Aepli, (参考訳) Whisperは最先端の自動音声認識(ASR)モデルである(Radford et al , 2022)。 スイスドイツ語の方言はウィスパーの訓練データには含まれていないと言われているが、予備的な実験により、ウィスパーはスイスドイツ語を非常にうまく書き起こすことができ、その出力は標準ドイツ語への音声翻訳であることが示された。 スイスドイツ語におけるウィスパーのパフォーマンスをよりよく理解するために、我々は、自動的、質的、人的評価を用いて体系的に評価した。 既存の3つのテストセット、SwissDial(Dogan-Sch\onberger et al , 2021)、STT4SG-350(Pl\uss et al , 2023)、Swiss Parliaments Corpus(Pl\uss et al , 2021)でパフォーマンスをテストする。 さらに,本研究のための新しいテストセットを,短い模擬臨床面接に基づいて作成する。 自動評価には単語誤り率(WER)とBLEUを用いた。 質的な分析では、ウィスパーの強みと弱みを論じ、いくつかの出力例を論じる。 人的評価のために,Whisperの評価を依頼された28名の被験者を対象に調査を行った。 我々の評価は、Whisperが標準ドイツの出力が望まれる限り、スイスドイツ人にとって実行可能なASRシステムであることを示唆している。

Whisper is a state-of-the-art automatic speech recognition (ASR) model (Radford et al., 2022). Although Swiss German dialects are allegedly not part of Whisper's training data, preliminary experiments showed that Whisper can transcribe Swiss German quite well, with the output being a speech translation into Standard German. To gain a better understanding of Whisper's performance on Swiss German, we systematically evaluate it using automatic, qualitative, and human evaluation. We test its performance on three existing test sets: SwissDial (Dogan-Sch\"onberger et al., 2021), STT4SG-350 (Pl\"uss et al., 2023), and Swiss Parliaments Corpus (Pl\"uss et al., 2021). In addition, we create a new test set for this work, based on short mock clinical interviews. For automatic evaluation, we used word error rate (WER) and BLEU. In the qualitative analysis, we discuss Whisper's strengths and weaknesses and anylyze some output examples. For the human evaluation, we conducted a survey with 28 participants who were asked to evaluate Whisper's performance. All of our evaluations suggest that Whisper is a viable ASR system for Swiss German, so long as the Standard German output is desired.
翻訳日:2024-05-10 15:31:42 公開日:2024-05-09
# 動的応答関数の計算のための絡み合い支援位相推定アルゴリズム

Entanglement-assisted phase estimation algorithm for calculating dynamical response functions ( http://arxiv.org/abs/2404.19554v2 )

ライセンス: Link先を確認
Rei Sakuma, Shu Kanno, Kenji Sugisaki, Takashi Abe, Naoki Yamamoto, (参考訳) 動的応答関数は、量子多体系の励起状態特性を記述するための基本的な量である。 周波数領域におけるQPE測定結果から直接エネルギースペクトルを抽出する量子位相推定(QPE)を用いて、これらの量を評価するために量子アルゴリズムが提案されている。 しかし、QPEアルゴリズムに固有のスペクトルリーク(ピーク拡大)の問題のため、これらのQPEに基づくアプローチによる励起エネルギーと遷移確率の正確な推定は困難である。 この問題を克服するために、この研究では、推定精度のハイゼンベルク限定スケーリングを実現することが知られている最適絡み合った入力状態を採用するQPEベースのアプローチの拡張を検討する。 本手法により, 算出したエネルギースペクトルのピークは, 従来のQPE法よりも局所化され, スペクトルリーク問題の緩和が示唆された。 交絡位相推定を用いて確率分布を解析することにより、スペクトルのピークの遷移エネルギーと対応する遷移確率の両方をより正確に推定する簡単なスキームを提案する。 この処方の妥当性は、凝縮物質物理学における単純な電子プラズモンモデルのスペクトル関数、量子化学におけるH$2$O分子の双極子遷移、核物理学における$^6$Li核の電磁遷移など、様々な量子多体問題における数値シミュレーションによって実証される。

Dynamical response functions are fundamental quantities to describe the excited-state properties in quantum many-body systems. Quantum algorithms have been proposed to evaluate these quantities by means of quantum phase estimation (QPE), where the energy spectra are directly extracted from the QPE measurement outcomes in the frequency domain. Accurate estimation of excitation energies and transition probabilities with these QPE-based approaches is, however, challenging because of the problem of spectral leakage (or peak broadening) which is inherent in the QPE algorithm. To overcome this issue, in this work we consider an extension of the QPE-based approach adopting the optimal entangled input states, which is known to achieve the Heisenberg-limited scaling for the estimation precision. We show that with this method the peaks in the calculated energy spectra are more localized than those calculated by the original QPE-based approaches, suggesting the mitigation of the spectral leakage problem. By analyzing the probability distribution with the entangled phase estimation, we propose a simple scheme to better estimate both the transition energies and the corresponding transition probabilities of the peaks of interest in the spectra. The validity of our prescription is demonstrated by numerical simulations in various quantum many-body problems: the spectral function of a simple electron-plasmon model in condensed-matter physics, the dipole transitions of the H$_2$O molecule in quantum chemistry, and the electromagnetic transitions of the $^6$Li nucleus in nuclear physics.
翻訳日:2024-05-10 15:31:42 公開日:2024-05-09
# RTG-SLAM:Gaussian Splatting を用いたリアルタイム3次元再構成

RTG-SLAM: Real-time 3D Reconstruction at Scale using Gaussian Splatting ( http://arxiv.org/abs/2404.19706v3 )

ライセンス: Link先を確認
Zhexi Peng, Tianjia Shao, Yong Liu, Jingke Zhou, Yin Yang, Jingdong Wang, Kun Zhou, (参考訳) 本稿では,RGBDカメラを用いたリアルタイム3次元再構成システムであるリアルタイムガウスSLAM(RTG-SLAM)を提案する。 このシステムはコンパクトなガウス表現と高効率なオンザフライガウス最適化スキームを備えている。 それぞれのガウス語は不透明かほぼ透明で、不透明なものは表面色と支配的な色に、透明なものは残留色に適合する。 色レンダリングと異なる方法で深度をレンダリングすることにより、複数の重複するガウスを必要とせずに、単一の不透明ガウスを局所的な曲面領域に適合させ、メモリと計算コストを大幅に削減する。 オンザフライガウス最適化では、新たに観測され、色誤差が大きく、深度誤差が大きい3種類の画素に対してガウスを明示的に追加する。 我々はまた、全てのガウスを安定で不安定なものに分類し、安定なガウスは以前に観測されたRGBD画像によく適合し、そうでなければ不安定であると予測される。 我々は不安定なガウス語のみを最適化し、不安定なガウス語が占めるピクセルのみを描画する。 このように、最適化対象のガウス数とレンダリング対象の画素数をともに大幅に削減し、リアルタイムで最適化を行うことができる。 様々な大きなシーンをリアルタイムに再現する。 現状のNeRFベースのRGBD SLAMと比較すると,本システムは高画質な再構成を実現するが,メモリコストの約2倍の速度で実現し,新しいビュー合成とカメラトラッキングの精度の現実性において優れた性能を示す。

We present Real-time Gaussian SLAM (RTG-SLAM), a real-time 3D reconstruction system with an RGBD camera for large-scale environments using Gaussian splatting. The system features a compact Gaussian representation and a highly efficient on-the-fly Gaussian optimization scheme. We force each Gaussian to be either opaque or nearly transparent, with the opaque ones fitting the surface and dominant colors, and transparent ones fitting residual colors. By rendering depth in a different way from color rendering, we let a single opaque Gaussian well fit a local surface region without the need of multiple overlapping Gaussians, hence largely reducing the memory and computation cost. For on-the-fly Gaussian optimization, we explicitly add Gaussians for three types of pixels per frame: newly observed, with large color errors, and with large depth errors. We also categorize all Gaussians into stable and unstable ones, where the stable Gaussians are expected to well fit previously observed RGBD images and otherwise unstable. We only optimize the unstable Gaussians and only render the pixels occupied by unstable Gaussians. In this way, both the number of Gaussians to be optimized and pixels to be rendered are largely reduced, and the optimization can be done in real time. We show real-time reconstructions of a variety of large scenes. Compared with the state-of-the-art NeRF-based RGBD SLAM, our system achieves comparable high-quality reconstruction but with around twice the speed and half the memory cost, and shows superior performance in the realism of novel view synthesis and camera tracking accuracy.
翻訳日:2024-05-10 15:31:42 公開日:2024-05-09
# 創造的ビームサーチ:応答生成改善のためのLCM-as-a-Judge

Creative Beam Search: LLM-as-a-Judge For Improving Response Generation ( http://arxiv.org/abs/2405.00099v2 )

ライセンス: Link先を確認
Giorgio Franceschelli, Mirco Musolesi, (参考訳) 大規模な言語モデルは、人工的な創造性を含むいくつかの領域に革命をもたらしている。 しかし、機械の生成過程は、人間で観察されるものとは大きく異なる。 特に、機械生成は意図の欠如と基礎となる創造的プロセスによって特徴づけられる。 本稿では, 応答生成と応答検証を行うために, 横ビームサーチとLCM-as-a-Judgeを用いたCreative Beam Searchを提案する。 定性的実験の結果は,本手法が標準サンプリング手法よりも優れた出力を提供できることを示す。 また、応答検証ステップは応答生成ステップを補完するために必要なものであることも示します。

Large language models are revolutionizing several areas, including artificial creativity. However, the process of generation in machines profoundly diverges from that observed in humans. In particular, machine generation is characterized by a lack of intentionality and an underlying creative process. We propose a method called Creative Beam Search that uses Diverse Beam Search and LLM-as-a-Judge to perform response generation and response validation. The results of a qualitative experiment show how our approach can provide better output than standard sampling techniques. We also show that the response validation step is a necessary complement to the response generation step.
翻訳日:2024-05-10 15:31:42 公開日:2024-05-09
# ニューラルネットワークの3次元拡散による部分認識形状生成

Part-aware Shape Generation with Latent 3D Diffusion of Neural Voxel Fields ( http://arxiv.org/abs/2405.00998v2 )

ライセンス: Link先を確認
Yuhang Huang, SHilong Zou, Xinwang Liu, Kai Xu, (参考訳) 本稿では,神経ボクセル場生成のための新しい潜時3次元拡散モデルを提案する。 既存の手法と比較して、高品質で正確な部分認識生成を保証するための2つの重要な設計がある。 一方,ニューラルボクセル場の3次元拡散過程を導入し,より高分解能でリッチなテクスチャや幾何学的詳細を正確に捉えることが可能となる。 一方、部分認識形状デコーダを導入して、部分符号を神経ボクセル場に統合し、正確な部分分解を誘導し、高品質なレンダリング結果を生成する。 実験と最先端手法との比較により,4種類のデータにまたがるアプローチを検証した。 その結果,既存の最先端手法よりも優れた部品認識形状生成において,提案手法の優れた生成能力を示した。

This paper presents a novel latent 3D diffusion model for the generation of neural voxel fields, aiming to achieve accurate part-aware structures. Compared to existing methods, there are two key designs to ensure high-quality and accurate part-aware generation. On one hand, we introduce a latent 3D diffusion process for neural voxel fields, enabling generation at significantly higher resolutions that can accurately capture rich textural and geometric details. On the other hand, a part-aware shape decoder is introduced to integrate the part codes into the neural voxel fields, guiding the accurate part decomposition and producing high-quality rendering results. Through extensive experimentation and comparisons with state-of-the-art methods, we evaluate our approach across four different classes of data. The results demonstrate the superior generative capabilities of our proposed method in part-aware shape generation, outperforming existing state-of-the-art methods.
翻訳日:2024-05-10 15:31:42 公開日:2024-05-09
# 実行不要プログラム修復

Execution-free Program Repair ( http://arxiv.org/abs/2405.01309v2 )

ライセンス: Link先を確認
Li Huang, Bertrand Meyer, Ilgiz Mustafin, Manuel Oriol, (参考訳) 自動プログラム修復は通常、バグ識別と修正検証の両方のテストケースに大きく依存する。 問題なのは、テストケースを書くのは面倒で、それらを実行するのに多くの時間がかかり、テストを通じて修正を検証することは、その正しさを保証しません。 ここで提示されたProof2Fixの方法論とツールは、テストの実行やプログラムの実行を必要とせずに、代わりにプログラム証明に頼っている。 結果は、Proof2Fixが重要な歴史的なバグを発見し、修正していることを示している。

Automatic program repair usually relies heavily on test cases for both bug identification and fix validation. The issue is that writing test cases is tedious, running them takes much time, and validating a fix through tests does not guarantee its correctness. The novel idea in the Proof2Fix methodology and tool presented here is to rely instead on a program prover, without the need to run tests or to run the program at all. Results show that Proof2Fix finds and fixes significant historical bugs.
翻訳日:2024-05-10 15:31:42 公開日:2024-05-09
# 言語モデルの効率的な学習のためのテキスト品質ベースプルーニング

Text Quality-Based Pruning for Efficient Training of Language Models ( http://arxiv.org/abs/2405.01582v2 )

ライセンス: Link先を確認
Vasu Sharma, Karthik Padthe, Newsha Ardalani, Kushal Tirumala, Russell Howes, Hu Xu, Po-Yao Huang, Shang-Wen Li, Armen Aghajanyan, Gargi Ghosh, (参考訳) 近年、言語モデル(LM)のトレーニングは、膨大なデータセットを計算的に重いトレーニングに頼っているため、このトレーニングプロセスは非常に困難である。 本稿では,大容量NLPデータセットのテキスト品質をモデルに依存しない方法で数値評価し,テキストインスタンスを「品質スコア」に割り当てる手法を提案する。 テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立し、LMモデルのトレーニング効率を向上する。 複数のモデルやデータセットに対する実験結果は、このアプローチの有効性を示し、トレーニングの有効性を大幅に向上させ、資源効率の高いLMトレーニングの可能性を強調している。 例えば、複数のLMモデルのダウンストリーム評価タスク14件に対して平均0.9%の絶対精度の改善を、OpenWebTextデータセットでのトレーニングでは40%少なく、トレーニングは42%速く、平均絶対精度の改善は0.8%向上し、ウィキペディアデータセットでは20%少なく、トレーニングは21%速くなった。

In recent times training Language Models (LMs) have relied on computationally heavy training over massive datasets which makes this training process extremely laborious. In this paper we propose a novel method for numerically evaluating text quality in large unlabelled NLP datasets in a model agnostic manner to assign the text instances a "quality score". By proposing the text quality metric, the paper establishes a framework to identify and eliminate low-quality text instances, leading to improved training efficiency for LM models. Experimental results over multiple models and datasets demonstrate the efficacy of this approach, showcasing substantial gains in training effectiveness and highlighting the potential for resource-efficient LM training. For example, we observe an absolute accuracy improvement of 0.9% averaged over 14 downstream evaluation tasks for multiple LM models while using 40% lesser data and training 42% faster when training on the OpenWebText dataset and 0.8% average absolute accuracy improvement while using 20% lesser data and training 21% faster on the Wikipedia dataset.
翻訳日:2024-05-10 15:21:52 公開日:2024-05-09
# GPT-4はポーランド委員会認定試験の297項目の大半をパスしている。

GPT-4 passes most of the 297 written Polish Board Certification Examinations ( http://arxiv.org/abs/2405.01589v2 )

ライセンス: Link先を確認
Jakub Pokrywka, Jeremi Kaczmarek, Edward Gorzelańczyk, (参考訳) 導入:最近、LLM(Large Language Models)の有効性が急速に向上し、多数のアプリケーションで使用できるようになった。 しかし、LSMによる偽情報の発生によって引き起こされるリスクは、医療などのセンシティブな分野における適用を著しく制限し、その実用性と信頼性を決定するための厳密な検証の必要性を強調している。 これまで、ポーランドの医学検査におけるLLMの性能を、非常に大規模なデータセット上で幅広い専門分野にわたって広範囲に比較する研究は行われていない。 目的: 本研究はポーランド委員会認定試験(Pa\'nstwowy Egzamin Specjalizacyjny, PES)における3つの生成事前学習変圧器(GPT)モデルの性能評価を行った。 方法: PES試験をダウンロード・処理するソフトウェアプログラムを開発し,OpenAIアプリケーションプログラミングインタフェースを用いてGPTモデルの性能を検証した。 結果: GPT-3.5はいずれの試験にも合格しなかった。 対照的に、GPT-4モデルは試験の過半数をパスする能力を示し、最新のモデルであるgpt-4-0125は222 (75%) をパスした。 GPTモデルの性能は著しく変化し、特定の専門性に関する試験において卓越した成績を示したが、他のモデルは完全に失敗した。 結論: LLMモデルの顕著な進歩と印象的な性能は、ポーランドの医学分野におけるAIの適用拡大を大いに約束している。 例えば、この進歩は、医療専門家のためのAIベースの医療アシスタントの開発につながり、医療サービスの効率性と正確性を高める可能性がある。

Introduction: Recently, the effectiveness of Large Language Models (LLMs) has increased rapidly, allowing them to be used in a great number of applications. However, the risks posed by the generation of false information through LLMs significantly limit their applications in sensitive areas such as healthcare, highlighting the necessity for rigorous validations to determine their utility and reliability. To date, no study has extensively compared the performance of LLMs on Polish medical examinations across a broad spectrum of specialties on a very large dataset. Objectives: This study evaluated the performance of three Generative Pretrained Transformer (GPT) models on the Polish Board Certification Exam (Pa\'nstwowy Egzamin Specjalizacyjny, PES) dataset, which consists of 297 tests. Methods: We developed a software program to download and process PES exams and tested the performance of GPT models using OpenAI Application Programming Interface. Results: Our findings reveal that GPT-3.5 did not pass any of the analyzed exams. In contrast, the GPT-4 models demonstrated the capability to pass the majority of the exams evaluated, with the most recent model, gpt-4-0125, successfully passing 222 (75%) of them. The performance of the GPT models varied significantly, displaying excellence in exams related to certain specialties while completely failing others. Conclusions: The significant progress and impressive performance of LLM models hold great promise for the increased application of AI in the field of medicine in Poland. For instance, this advancement could lead to the development of AI-based medical assistants for healthcare professionals, enhancing the efficiency and accuracy of medical services.
翻訳日:2024-05-10 15:21:52 公開日:2024-05-09
# ラストパス漂白における人為的要因

Human Factors in the LastPass Breach ( http://arxiv.org/abs/2405.01795v2 )

ライセンス: Link先を確認
Niroop Sugunaraj, (参考訳) 本稿では,LastPass攻撃の解析を通じて,サイバー攻撃の複雑な性質について検討する。 目標は、目標指向の行動、認知的過負荷、人間の偏見(例えば、楽観主義、アンカーリング)、リスク行動などの要因を緩和することに集中することである。 この侵害の分析から得られた発見は、サイバー防衛の人間的側面と技術的側面の両方に対処することで、複雑な脅威に対するサイバーシステムのレジリエンスを著しく向上させるという観点からの支持を提供する。 これは、ユーザのインタラクションをシンプルにしつつバランスのとれたアプローチを維持し、ユーザのバイアスを認識させ、サイバーインシデントを防ぐためにリスク回避のプラクティスが不可欠であることを意味します。

This paper examines the complex nature of cyber attacks through an analysis of the LastPass breach. It argues for the integration of human-centric considerations into cybersecurity measures, focusing on mitigating factors such as goal-directed behavior, cognitive overload, human biases (e.g., optimism, anchoring), and risky behaviors. Findings from an analysis of this breach offers support to the perspective that addressing both the human and technical dimensions of cyber defense can significantly enhance the resilience of cyber systems against complex threats. This means maintaining a balanced approach while simultaneously simplifying user interactions, making users aware of biases, and discouraging risky practices are essential for preventing cyber incidents.
翻訳日:2024-05-10 15:21:52 公開日:2024-05-09
# FER-YOLO-Mamba:選択状態空間に基づく表情の検出と分類

FER-YOLO-Mamba: Facial Expression Detection and Classification Based on Selective State Space ( http://arxiv.org/abs/2405.01828v2 )

ライセンス: Link先を確認
Hui Ma, Sen Lei, Turgay Celik, Heng-Chao Li, (参考訳) 表情認識(FER)は人間の感情的手がかりを理解する上で重要な役割を担っている。 しかし,視覚情報に基づく従来のFER手法には,前処理や特徴抽出,多段階分類などの制限がある。 これらは計算複雑性を増大させるだけでなく、膨大な計算資源を必要とする。 畳み込みニューラルネットワーク(CNN)に基づくFERスキームは,表情画像に埋め込まれた深度,長距離依存性,およびトランスフォーマー固有の2次計算複雑性の同定に不適切であることをしばしば証明することを考えると,マンバとヨロの原理を統合したFER-YOLO-Mambaモデルを提示し,表情画像認識と局所化の効率的な調整を容易にする。 FER-YOLO-Mambaモデルでは,局所特徴抽出における畳み込み層固有の強みと,長距離依存性を明らかにするための状態空間モデル(SSM)の例外的機能を組み合わせたFER-YOLO-VSSデュアルブランチモジュールをさらに考案する。 私たちの知る限りでは、顔の表情検出と分類のために設計された最初のVision Mambaモデルである。 提案したFER-YOLO-Mambaモデルの性能を評価するため,RAF-DBとSFEWの2つのベンチマークデータセットを用いて実験を行った。 実験結果から,FER-YOLO-Mambaモデルが他のモデルよりも優れた結果を得たことが示唆された。 コードはhttps://github.com/SwjtuMa/FER-YOLO-Mambaから入手できる。

Facial Expression Recognition (FER) plays a pivotal role in understanding human emotional cues. However, traditional FER methods based on visual information have some limitations, such as preprocessing, feature extraction, and multi-stage classification procedures. These not only increase computational complexity but also require a significant amount of computing resources. Considering Convolutional Neural Network (CNN)-based FER schemes frequently prove inadequate in identifying the deep, long-distance dependencies embedded within facial expression images, and the Transformer's inherent quadratic computational complexity, this paper presents the FER-YOLO-Mamba model, which integrates the principles of Mamba and YOLO technologies to facilitate efficient coordination in facial expression image recognition and localization. Within the FER-YOLO-Mamba model, we further devise a FER-YOLO-VSS dual-branch module, which combines the inherent strengths of convolutional layers in local feature extraction with the exceptional capability of State Space Models (SSMs) in revealing long-distance dependencies. To the best of our knowledge, this is the first Vision Mamba model designed for facial expression detection and classification. To evaluate the performance of the proposed FER-YOLO-Mamba model, we conducted experiments on two benchmark datasets, RAF-DB and SFEW. The experimental results indicate that the FER-YOLO-Mamba model achieved better results compared to other models. The code is available from https://github.com/SwjtuMa/FER-YOLO-Mamba.
翻訳日:2024-05-10 15:21:52 公開日:2024-05-09
# 長期記憶ニューラルネットワークを用いたフェリー乗客流の予測

Forecasting Ferry Passenger Flow Using Long-Short Term Memory Neural Networks ( http://arxiv.org/abs/2405.02098v3 )

ライセンス: Link先を確認
Daniel Fesalbon, (参考訳) ニューラルネットワークに関する最近の研究は、様々な予測や時系列調査に使われているが、この研究は、これらの文脈を旅客輸送に拡大することを目的としている。 本研究の主な目的は、フィリピンの2つの港のフェリー客を予測できるLSTMベースのニューラルネットワークの能力を調査し、評価することである。 提案モデルでは, フィリピン港湾庁 (PPA) から取得した2016年から2022年までの月毎の旅客交通量に基づいて, 両港の旅客フロー予測の適合と評価を行った。 この作業では、モデルの予測能力を評価するために、MAPE(Mean Absolute Percentage Error)を主要な指標として使用します。 提案したLSTMベースのニューラルネットワークモデルでは,バタンガス港フェリーの乗客データに対して72%の精度,ミンドロ港フェリーの乗客データに対して74%の精度で予測された。 Keras と Scikit-learn Python ライブラリを使用して、提案した LSTM モデルの性能を合理的に予測する。 これらの顕著な発見とは別に、本研究では、他の統計的、機械学習、深層学習手法を用いたフェリーの旅客流予測のさらなる調査と研究を推奨する。

With recent studies related to Neural Networks being used on different forecasting and time series investigations, this study aims to expand these contexts to ferry passenger traffic. The primary objective of the study is to investigate and evaluate an LSTM-based Neural Networks' capability to forecast ferry passengers of two ports in the Philippines. The proposed model's fitting and evaluation of the passenger flow forecasting of the two ports is based on monthly passenger traffic from 2016 to 2022 data that was acquired from the Philippine Ports Authority (PPA). This work uses Mean Absolute Percentage Error (MAPE) as its primary metric to evaluate the model's forecasting capability. The proposed LSTM-based Neural Networks model achieved 72% forecasting accuracy to the Batangas port ferry passenger data and 74% forecasting accuracy to the Mindoro port ferry passenger data. Using Keras and Scikit-learn Python libraries, this work concludes a reasonable forecasting performance of the presented LSTM model. Aside from these notable findings, this study also recommends further investigation and studies on employing other statistical, machine learning, and deep learning methods on forecasting ferry passenger flows.
翻訳日:2024-05-10 15:21:52 公開日:2024-05-09
# コンディショナル・確率的電力消費プロファイルの生成と予測のためのフローベースモデル

A Flow-Based Model for Conditional and Probabilistic Electricity Consumption Profile Generation and Prediction ( http://arxiv.org/abs/2405.02180v3 )

ライセンス: Link先を確認
Weijie Xia, Chenguang Wang, Peter Palensky, Pedro P. Vergara, (参考訳) 住宅負荷プロファイル(RLP)の生成と予測は、特に多種多様な低炭素技術(例えば、太陽光発電、電気自動車)が採用されるにつれて、配電網の運用と計画に欠かせない。 本稿では,条件付きおよび条件なしのRLP生成と確率的負荷予測のために一意に設計された,FCPFlowと呼ばれる新しいフローベース生成モデルを提案する。 可逆線形層と可逆正規化層という2つの新しい層を導入することで、提案したFCPFlowアーキテクチャは、従来の統計的および現代的な深層生成モデルと比較して3つの大きな利点を示している。 1) 気象の変化や年間電力消費など, 連続した条件下でのRLP生成に適している。 2)従来の統計モデルと比較して,データセットのスケーラビリティが優れていることを示す。 3) 深部生成モデルと比較して, RLPの複雑な相関を捉える上で, より優れたモデリング能力を示す。

Residential Load Profile (RLP) generation and prediction are critical for the operation and planning of distribution networks, especially as diverse low-carbon technologies (e.g., photovoltaic and electric vehicles) are increasingly adopted. This paper introduces a novel flow-based generative model, termed Full Convolutional Profile Flow (FCPFlow), which is uniquely designed for both conditional and unconditional RLP generation, and for probabilistic load forecasting. By introducing two new layers--the invertible linear layer and the invertible normalization layer--the proposed FCPFlow architecture shows three main advantages compared to traditional statistical and contemporary deep generative models: 1) it is well-suited for RLP generation under continuous conditions, such as varying weather and annual electricity consumption, 2) it demonstrates superior scalability in different datasets compared to traditional statistical models, and 3) it also demonstrates better modeling capabilities in capturing the complex correlation of RLPs compared with deep generative models.
翻訳日:2024-05-10 15:21:52 公開日:2024-05-09
# 二元ニューラルネットワークにおけるディザリング符号活性化の設計

Designed Dithering Sign Activation for Binary Neural Networks ( http://arxiv.org/abs/2405.02220v2 )

ライセンス: Link先を確認
Brayan Monroy, Juan Estupiñan, Tatiana Gelvez-Barrera, Jorge Bacca, Henry Arguello, (参考訳) バイナリニューラルネットワークは、ネットワーク重みとアクティベーションのどちらかをバイナライズすることで、コンピュータビジョンタスクのコスト効率とエネルギー効率のよいソリューションとして登場した。 しかし、Sign アクティベーション関数のような一般的なバイナリアクティベーションは、値を1つのしきい値で突然二項化し、特徴出力の詳細な詳細を失う。 本研究は,複数の閾値をディザリングの原理に従って適用し,空間的に周期的なしきい値カーネルに従って各画素の符号活性化関数をシフトするアクティベーションを提案する。 文学的な方法とは異なり、シフトは隣接するピクセルの集合に対して共同で定義され、空間的相関を利用する。 分類タスクに関する実験は、計算コストを増大させることなく、バイナリニューラルネットワークの代替活性化として設計されたディザリングサイン活性化関数の有効性を示す。 さらに、DeSignは詳細の保存とバイナリ操作の効率のバランスをとる。

Binary Neural Networks emerged as a cost-effective and energy-efficient solution for computer vision tasks by binarizing either network weights or activations. However, common binary activations, such as the Sign activation function, abruptly binarize the values with a single threshold, losing fine-grained details in the feature outputs. This work proposes an activation that applies multiple thresholds following dithering principles, shifting the Sign activation function for each pixel according to a spatially periodic threshold kernel. Unlike literature methods, the shifting is defined jointly for a set of adjacent pixels, taking advantage of spatial correlations. Experiments over the classification task demonstrate the effectiveness of the designed dithering Sign activation function as an alternative activation for binary neural networks, without increasing the computational cost. Further, DeSign balances the preservation of details with the efficiency of binary operations.
翻訳日:2024-05-10 15:21:52 公開日:2024-05-09
# REASONS: パブリックおよびプロプライエタリLLMを用いた重要文の検索と自動引用のためのベンチマーク

REASONS: A benchmark for REtrieval and Automated citationS Of scieNtific Sentences using Public and Proprietary LLMs ( http://arxiv.org/abs/2405.02228v2 )

ライセンス: Link先を確認
Deepa Tilwani, Yash Saxena, Ali Mohammadi, Edward Raff, Amit Sheth, Srinivasan Parthasarathy, Manas Gaur, (参考訳) 文書や報告書中の文の自動引用生成は、情報アナリスト、サイバーセキュリティ、報道機関、教育関係者にとって最重要である。 本研究では,大言語モデル(LLM)が2種類の文クエリに基づいて参照を生成することができるかどうかを検討する。 (a)直接問い合わせ、LLMは、所定の研究項目の著者名の提供を依頼され、 b) 間接的な問い合わせにおいて、LCMは、異なる記事から文を与えられたときに、言及した記事のタイトルを提供するよう求められます。 この課題でLLMがどこにあるかを示すために、arXivに関する科学研究の最も人気のある12分野の要約を含むREASONSと呼ばれる大規模なデータセットを紹介した。 約20万件の研究論文から, 公立及び専有のLCMについて, 以下を引用する。 (a)人為的GPT-4およびGPT-3.5と呼ばれる最先端技術は、幻覚率(HR)を最小化するために高い通過率(PP)に苦しむ。 Perplexity.ai (7B)でテストすると、予想外のエラーが発生します。 ロ 関連メタデータの増強により、PPが低下し、最低のHRが与えられること。 c) Mistralを用いたRAG(Advanced Search-augmented Generation)では,間接クエリとGPT-3.5およびGPT-4に適合するパフォーマンスの一貫性と堅牢性を示す。 すべてのドメインとモデルのHRは平均41.93%減少し、ほとんどの場合PPは0%に低下した。 世代別では、平均F1スコアとBLEUはそれぞれ68.09%と57.51%であった。 (d) 敵検体を用いた試験では, 進行RAGミストラルを含むLCMは文脈理解に苦慮するが, ミストラルとGPT-4-Previewでは, この問題の程度は小さかった。 本研究は,自動引用生成タスクにおけるRAGの信頼性に関する貴重な知見を提供する。

Automatic citation generation for sentences in a document or report is paramount for intelligence analysts, cybersecurity, news agencies, and education personnel. In this research, we investigate whether large language models (LLMs) are capable of generating references based on two forms of sentence queries: (a) Direct Queries, LLMs are asked to provide author names of the given research article, and (b) Indirect Queries, LLMs are asked to provide the title of a mentioned article when given a sentence from a different article. To demonstrate where LLM stands in this task, we introduce a large dataset called REASONS comprising abstracts of the 12 most popular domains of scientific research on arXiv. From around 20K research articles, we make the following deductions on public and proprietary LLMs: (a) State-of-the-art, often called anthropomorphic GPT-4 and GPT-3.5, suffers from high pass percentage (PP) to minimize the hallucination rate (HR). When tested with Perplexity.ai (7B), they unexpectedly made more errors; (b) Augmenting relevant metadata lowered the PP and gave the lowest HR; (c) Advance retrieval-augmented generation (RAG) using Mistral demonstrates consistent and robust citation support on indirect queries and matched performance to GPT-3.5 and GPT-4. The HR across all domains and models decreased by an average of 41.93%, and the PP was reduced to 0% in most cases. In terms of generation quality, the average F1 Score and BLEU were 68.09% and 57.51%, respectively; (d) Testing with adversarial samples showed that LLMs, including the Advance RAG Mistral, struggle to understand context, but the extent of this issue was small in Mistral and GPT-4-Preview. Our study contributes valuable insights into the reliability of RAG for automated citation generation tasks.
翻訳日:2024-05-10 15:21:52 公開日:2024-05-09
# 不正確な一階リーマン最適化アルゴリズムの収束と複雑度保証

Convergence and Complexity Guarantee for Inexact First-order Riemannian Optimization Algorithms ( http://arxiv.org/abs/2405.03073v2 )

ライセンス: Link先を確認
Yuchen Li, Laura Balzano, Deanna Needell, Hanbaek Lyu, (参考訳) 我々は、リーマン勾配とリトラクションが不正確に(かつ安価に)計算される不正確なリーマン勾配降下(RGD)を分析する。 我々の焦点は、不正確なRGDが収束したときの理解と、一般の非凸および制約された設定における複雑さについてである。 我々はこれらの疑問に,TBMM(Tangential Block Majorization-Minimization)の一般的な枠組みで答える。 tBMM が $O(\epsilon^{-2})$イテレーション内の $\epsilon$-定常点に収束することを確立する。 微妙な仮定の下では、全最適性ギャップが有界であれば、各イテレーションにおいてサブプロブレムが不正確に解かれるとき、結果は依然として保たれる。 我々の一般解析は、スティーフェル多様体上の不正確な RGD や近位勾配法を含むリーマン的制約を持つ幅広い古典的アルゴリズムに適用できる。 tBMMは、リーマン制約付き非負のテンソル分解、正規化非負行列分解、低ランク行列回復問題など、様々な問題に適用した場合に、既存の手法よりも優れた性能を示すことを数値的に検証する。

We analyze inexact Riemannian gradient descent (RGD) where Riemannian gradients and retractions are inexactly (and cheaply) computed. Our focus is on understanding when inexact RGD converges and what is the complexity in the general nonconvex and constrained setting. We answer these questions in a general framework of tangential Block Majorization-Minimization (tBMM). We establish that tBMM converges to an $\epsilon$-stationary point within $O(\epsilon^{-2})$ iterations. Under a mild assumption, the results still hold when the subproblem is solved inexactly in each iteration provided the total optimality gap is bounded. Our general analysis applies to a wide range of classical algorithms with Riemannian constraints including inexact RGD and proximal gradient method on Stiefel manifolds. We numerically validate that tBMM shows improved performance over existing methods when applied to various problems, including nonnegative tensor decomposition with Riemannian constraints, regularized nonnegative matrix factorization, and low-rank matrix recovery problems.
翻訳日:2024-05-10 15:21:52 公開日:2024-05-09
# アクタークリティカル多目的強化学習における有限時間収束とサンプル複雑度

Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning ( http://arxiv.org/abs/2405.03082v2 )

ライセンス: Link先を確認
Tianchen Zhou, FNU Hairi, Haibo Yang, Jia Liu, Tian Tong, Fan Yang, Michinari Momma, Yan Gao, (参考訳) 複数の、潜在的に矛盾する目的を持つ強化学習は、現実の応用において広範に行われているが、この問題は理論的には未解明のままである。 本稿では、多目的強化学習(MORL)問題に取り組み、競合する報酬信号間のトレードオフを反復的に行うMOACという革新的なアクター批判アルゴリズムを提案する。 特に、ディスカウントと平均報酬設定の両方において、有限時間パレート定常収束と対応するサンプル複雑性を初めて解析する。 私たちのアプローチには2つの有能な特徴があります。 (a)MOACは確率的サンプルから最適な共通勾配降下方向を求めることにより累積推定バイアスを緩和する。 これにより、証明可能な収束率とサンプルの複雑さは、目的の個数とは無関係に保証される。 b) 適切な運動量係数を用いて,MOACは手動初期化ではなく,環境からのサンプルを用いて個別の政策勾配の重みを初期化する。 これにより,アルゴリズムの実用性と堅牢性が向上する。 最後に,実世界のデータセットを用いて実験を行い,提案手法の有効性を検証した。

Reinforcement learning with multiple, potentially conflicting objectives is pervasive in real-world applications, while this problem remains theoretically under-explored. This paper tackles the multi-objective reinforcement learning (MORL) problem and introduces an innovative actor-critic algorithm named MOAC which finds a policy by iteratively making trade-offs among conflicting reward signals. Notably, we provide the first analysis of finite-time Pareto-stationary convergence and corresponding sample complexity in both discounted and average reward settings. Our approach has two salient features: (a) MOAC mitigates the cumulative estimation bias resulting from finding an optimal common gradient descent direction out of stochastic samples. This enables provable convergence rate and sample complexity guarantees independent of the number of objectives; (b) With proper momentum coefficient, MOAC initializes the weights of individual policy gradients using samples from the environment, instead of manual initialization. This enhances the practicality and robustness of our algorithm. Finally, experiments conducted on a real-world dataset validate the effectiveness of our proposed method.
翻訳日:2024-05-10 15:21:52 公開日:2024-05-09
# QuadraNet V2: 二次適応型高次ニューラルネットワークの効率的かつ持続的な訓練

QuadraNet V2: Efficient and Sustainable Training of High-Order Neural Networks with Quadratic Adaptation ( http://arxiv.org/abs/2405.03192v2 )

ライセンス: Link先を確認
Chenhui Xu, Xinyao Wang, Fuxun Yu, Jinjun Xiong, Xiang Chen, (参考訳) 機械学習は、大規模なデータセットで事前トレーニングを必要とする高次のモデルへと進化している。 従来のモデルは、事前訓練された重量を持つにもかかわらず、これらの重量の効果的な移動と初期化を妨げるアーキテクチャ上の違いのために、時代遅れになっている。 これらの課題に対処するために,2次ニューラルネットワークを活用して効率的で持続可能な高次学習モデルを構築する,新しいフレームワークであるQuadraNet V2を導入する。 本手法は、標準ニューラルネットワークを用いて二次ニューロンの一次項を初期化し、二次項を用いて非線形性やシフトの学習を適応的に強化する。 事前訓練された一次項と高度なモデリング能力を持つ二次項の統合により、高次ネットワークの情報特徴づけ能力が著しく向上する。 既存のトレーニング済み重量を利用することで、QuadraNet V2は、スクラッチからのトレーニングと比較して、トレーニングに必要なGPU時間を90\%から98.4\%削減し、効率と有効性を実証する。

Machine learning is evolving towards high-order models that necessitate pre-training on extensive datasets, a process associated with significant overheads. Traditional models, despite having pre-trained weights, are becoming obsolete due to architectural differences that obstruct the effective transfer and initialization of these weights. To address these challenges, we introduce a novel framework, QuadraNet V2, which leverages quadratic neural networks to create efficient and sustainable high-order learning models. Our method initializes the primary term of the quadratic neuron using a standard neural network, while the quadratic term is employed to adaptively enhance the learning of data non-linearity or shifts. This integration of pre-trained primary terms with quadratic terms, which possess advanced modeling capabilities, significantly augments the information characterization capacity of the high-order network. By utilizing existing pre-trained weights, QuadraNet V2 reduces the required GPU hours for training by 90\% to 98.4\% compared to training from scratch, demonstrating both efficiency and effectiveness.
翻訳日:2024-05-10 15:21:52 公開日:2024-05-09
# 大規模言語モデルヒューリスティックスによるQ-Learningの強化

Enhancing Q-Learning with Large Language Model Heuristics ( http://arxiv.org/abs/2405.03341v2 )

ライセンス: Link先を確認
Xiefeng Wu, (参考訳) Qラーニングは、シーケンシャルな意思決定タスクにおけるフィードバックからの学習に優れていますが、大幅な改善のためには広範なサンプリングが必要です。 報酬形成は学習効率を高めるための強力な手法であるが、エージェントのパフォーマンスに影響を与えるバイアスを導入することができる。 さらに、ポテンシャルに基づく報酬形成は、行動に基づく報酬の修正を許さないため、複雑な環境においてその効果を制限する可能性があるため、制約される。 加えて、大きな言語モデル(LLM)はゼロショット学習を実現することができるが、一般的には単純なタスクに限られる。 推論速度も低く、時折幻覚を発生させる。 これらの課題に対処するために,LLMをヒューリスティックとして用い,強化学習のためのQ関数の学習を支援する「textbf{LLM-guided Q-learning」を提案する。 パフォーマンスバイアスを導入することなく、両方の技術の利点を組み合わせます。 理論的解析により,LLMヒューリスティック用語は行動レベルのガイダンスを提供するのに対し,このフレームワークは幻覚を探索コストに変換することで不正確なガイダンスに対応可能であることが示された。 さらに収束 Q 関数は MDP 最適 Q 関数に対応する。 実験の結果, エージェントが非効率な探索を回避でき, サンプリング効率が向上し, 複雑な制御タスクに適していることがわかった。

Q-learning excels in learning from feedback within sequential decision-making tasks but requires extensive sampling for significant improvements. Although reward shaping is a powerful technique for enhancing learning efficiency, it can introduce biases that affect agent performance. Furthermore, potential-based reward shaping is constrained as it does not allow for reward modifications based on actions, potentially limiting its effectiveness in complex environments. Additionally, large language models (LLMs) can achieve zero-shot learning, but this is generally limited to simpler tasks. They also exhibit low inference speeds and occasionally produce hallucinations. To address these issues, we propose \textbf{LLM-guided Q-learning} that employs LLMs as heuristic to aid in learning the Q-function for reinforcement learning. It combines the advantages of both technologies without introducing performance bias. Our theoretical analysis demonstrates that the LLM heuristic term provides action-level guidance, while the framework can accommodate inaccurate guidance by converting hallucinations into exploration costs. Moreover, the converged Q function corresponds to the MDP optimal Q function. Experiment results demonstrated that our algorithm enables agents to avoid ineffective exploration, enhances sampling efficiency, and is well-suited for complex control tasks.
翻訳日:2024-05-10 15:12:05 公開日:2024-05-09
# 任意モードからの有意物体検出

Salient Object Detection From Arbitrary Modalities ( http://arxiv.org/abs/2405.03352v2 )

ライセンス: Link先を確認
Nianchang Huang, Yang Yang, Ruida Xi, Qiang Zhang, Jungong Han, Jin Huang, (参考訳) 所望の精度予測に向けて、SAD(Salient Object Detection)アルゴリズムの入力の種類と回数は、現実の多くのアプリケーションで動的に変化する可能性がある。 しかし、既存のSODアルゴリズムは、主に特定の入力タイプのために設計または訓練されており、他の入力タイプに一般化されない。 結果として、異なるタイプの入力を処理するために事前に多くのタイプのSODアルゴリズムを用意し、膨大なハードウェアと研究コストを増大させる必要がある。 そこで本稿では,新たなSODタスクであるArbitrary Modality SOD (AM SOD)を提案する。 AM SODの最も顕著な特徴は、モダリティ型とモダリティ数が任意または動的に変化することである。 前者は、AM SODアルゴリズムへの入力は、RGB、深さ、あるいはそれらの任意の組み合わせのような任意のモダリティであることを意味する。 後者は、入力タイプが変更されるにつれて、入力が任意のモダリティ数を持つ可能性があることを示しているが、例えば、単一のモダリティRGB画像、二重モダリティRGB-Depth(RGB-D)画像、または3重モダリティRGB-Depth-Thermal(RGB-D-T)画像である。 そこで,本稿では,モダリティスイッチネットワーク(MSN)という,上記の課題に対する予備的解決策を提案する。 特に,モーダリティスイッチ特徴抽出器(MSFE)は,まず,モーダリティスイッチの重みを生じるモーダリティ指標を導入することにより,各モーダリティから識別的特徴を効果的に抽出するように設計されている。 その後、動的融合モジュール (DFM) が提案され、新しいトランスフォーマー構造に基づく可変数のモジュラリティから特徴を適応的に融合する。 最後に、AM SODの研究を容易にするためにAM-XDという新しいデータセットを構築した。 AM SOD法は, 入力モードのタイプや数の変化に効果的に対処し, 頑健なサルエント物体検出に有効であることを示す。

Toward desirable saliency prediction, the types and numbers of inputs for a salient object detection (SOD) algorithm may dynamically change in many real-life applications. However, existing SOD algorithms are mainly designed or trained for one particular type of inputs, failing to be generalized to other types of inputs. Consequentially, more types of SOD algorithms need to be prepared in advance for handling different types of inputs, raising huge hardware and research costs. Differently, in this paper, we propose a new type of SOD task, termed Arbitrary Modality SOD (AM SOD). The most prominent characteristics of AM SOD are that the modality types and modality numbers will be arbitrary or dynamically changed. The former means that the inputs to the AM SOD algorithm may be arbitrary modalities such as RGB, depths, or even any combination of them. While, the latter indicates that the inputs may have arbitrary modality numbers as the input type is changed, e.g. single-modality RGB image, dual-modality RGB-Depth (RGB-D) images or triple-modality RGB-Depth-Thermal (RGB-D-T) images. Accordingly, a preliminary solution to the above challenges, \i.e. a modality switch network (MSN), is proposed in this paper. In particular, a modality switch feature extractor (MSFE) is first designed to extract discriminative features from each modality effectively by introducing some modality indicators, which will generate some weights for modality switching. Subsequently, a dynamic fusion module (DFM) is proposed to adaptively fuse features from a variable number of modalities based on a novel Transformer structure. Finally, a new dataset, named AM-XD, is constructed to facilitate research on AM SOD. Extensive experiments demonstrate that our AM SOD method can effectively cope with changes in the type and number of input modalities for robust salient object detection.
翻訳日:2024-05-10 15:12:05 公開日:2024-05-09
# PLLM-CS:衛星ネットワークにおけるサイバー脅威検出のための学習済み大言語モデル(LLM)

PLLM-CS: Pre-trained Large Language Model (LLM) for Cyber Threat Detection in Satellite Networks ( http://arxiv.org/abs/2405.05469v1 )

ライセンス: Link先を確認
Mohammed Hassanin, Marwa Keshk, Sara Salim, Majid Alsubaie, Dharmendra Sharma, (参考訳) 衛星ネットワークは、様々な重要なインフラのための通信サービスを促進する上で不可欠である。 これらのネットワークは多様なシステムとシームレスに統合できる。 しかし、これらのシステムのいくつかは効果的な侵入検知システムがないために脆弱であり、これは限られた研究と、展開、微調整、監視、セキュリティ違反への応答に関連する高コストに起因する可能性がある。 これらの課題に対処するために,ネットワークデータをコンテキストに適した入力に変換する専用モジュールを含む,事前学習型トランスフォーマー[1]の変種であるPLLM-CSについて,事前学習型大規模サイバーセキュリティモデルを提案する。 この変換により、提案したLLMは、サイバーデータ内のコンテキスト情報をエンコードすることができる。 提案手法の有効性を検証するため,2つの公開ネットワークデータセットUNSW_NB 15とTON_IoTを用いた実証実験を行った。 実験の結果,提案手法はBiLSTM, GRU, CNNなどの最先端技術よりも優れていた。 特に、PLLM-CS法はUNSW_NB 15データセットで100%の精度を達成し、この領域でベンチマーク性能の新たな標準を設定する。

Satellite networks are vital in facilitating communication services for various critical infrastructures. These networks can seamlessly integrate with a diverse array of systems. However, some of these systems are vulnerable due to the absence of effective intrusion detection systems, which can be attributed to limited research and the high costs associated with deploying, fine-tuning, monitoring, and responding to security breaches. To address these challenges, we propose a pretrained Large Language Model for Cyber Security , for short PLLM-CS, which is a variant of pre-trained Transformers [1], which includes a specialized module for transforming network data into contextually suitable inputs. This transformation enables the proposed LLM to encode contextual information within the cyber data. To validate the efficacy of the proposed method, we conducted empirical experiments using two publicly available network datasets, UNSW_NB 15 and TON_IoT, both providing Internet of Things (IoT)-based traffic data. Our experiments demonstrate that proposed LLM method outperforms state-of-the-art techniques such as BiLSTM, GRU, and CNN. Notably, the PLLM-CS method achieves an outstanding accuracy level of 100% on the UNSW_NB 15 dataset, setting a new standard for benchmark performance in this domain.
翻訳日:2024-05-10 14:32:26 公開日:2024-05-09
# 連続可変量子系における深熱化

Deep thermalization in continuous-variable quantum systems ( http://arxiv.org/abs/2405.05470v1 )

ライセンス: Link先を確認
Chang Liu, Qi Camm Huang, Wen Wei Ho, (参考訳) 多重モード連続変数系の平衡力学における創発的普遍性を明らかにする。 具体的には,数モードの小さなサブシステム上で支えられた純粋な状態のアンサンブルを,グローバルな純粋なボソニックなガウス状態の残りのモードに関するガウス的測定によって生成する。 誘導アンサンブルは、ランダムなガウス状態や、線形光学素子の深い配列を介して結合された製品圧縮状態など、十分に複雑な大域状態から始まり、測定基準の選択から独立して普遍的な形態を得る。 さらに、そのような普遍形式の出現は、最小アクセス可能な情報を持つ特別な量子情報理論特性を持つ「ガウススクロージ分布」と呼ばれる制限アンサンブルを含む一般化された最大エントロピー原理と一致していることを示す。 この結果は、離散変数量子多体系における「深部熱化」の概念の概念を、局所可観測体の熱化を超える新しい形態の平衡から連続変数量子系の領域へと一般化したものである。 さらに、量子情報理論の観点から量子力学や統計力学における新しい物理現象や原理を明らかにする方法を示す。

We uncover emergent universality arising in the equilibration dynamics of multimode continuous-variable systems. Specifically, we study the ensemble of pure states supported on a small subsystem of a few modes, generated by Gaussian measurements on the remaining modes of a globally pure bosonic Gaussian state. We find that beginning from sufficiently complex global states, such as random Gaussian states and product squeezed states coupled via a deep array of linear optical elements, the induced ensemble attains a universal form, independent of the choice of measurement basis: it is composed of unsqueezed coherent states whose displacements are distributed normally and isotropically, with variance depending on only the particle-number density of the system. We further show that the emergence of such a universal form is consistent with a generalized maximum entropy principle, which endows the limiting ensemble, which we call the "Gaussian Scrooge distribution", with a special quantum information-theoretic property of having minimal accessible information. Our results represent a conceptual generalization of the recently introduced notion of "deep thermalization" in discrete-variable quantum many-body systems -- a novel form of equilibration going beyond thermalization of local observables -- to the realm of continuous-variable quantum systems. Moreover, it demonstrates how quantum information-theoretic perspectives can unveil new physical phenomena and principles in quantum dynamics and statistical mechanics.
翻訳日:2024-05-10 14:32:25 公開日:2024-05-09
# DynaSeg:特徴類似性と空間連続性を考慮した教師なし画像分割のためのディープダイナミックフュージョン法

DynaSeg: A Deep Dynamic Fusion Method for Unsupervised Image Segmentation Incorporating Feature Similarity and Spatial Continuity ( http://arxiv.org/abs/2405.05477v1 )

ライセンス: Link先を確認
Naimul Khan, Boujemaa Guermazi, (参考訳) 本研究は,コンピュータビジョンにおけるイメージセグメンテーションの根本的な課題に取り組み,多様なアプリケーションに欠かせない課題である。 教師付き手法は習熟度を示すが、広範囲のピクセルレベルのアノテーションに依存しているためスケーラビリティは制限される。 この課題に対応するために、DynaSegと呼ばれる、拡張された教師なし畳み込みニューラルネットワーク(CNN)ベースのアルゴリズムを提案する。 特徴の類似性と空間的連続性のバランスをとるために固定重み係数に依存する従来の手法とは異なり、我々の新しい動的重み付け方式はパラメータチューニングを自動化し、画像の詳細に柔軟に適応する。 また、反復中の動的クラスタリングの課題に対処するシルエットスコアフェーズという新しい概念についても紹介する。 さらに、我々の方法論はCNNベースと事前訓練されたResNet機能抽出を統合し、包括的で適応可能なアプローチを提供する。 私たちは、COCO-AllとCOCO-Stuffの現在のベンチマークと比較して、12.2%と14.12%のmIOUの改善で、さまざまなデータセットで最先端の結果を得る。 提案手法は、教師なしのイメージセグメンテーションの可能性を解き、微妙なパラメータチューニングの必要性を回避し、現実のシナリオにおけるスケーラビリティの懸念に対処する。

Our work tackles the fundamental challenge of image segmentation in computer vision, which is crucial for diverse applications. While supervised methods demonstrate proficiency, their reliance on extensive pixel-level annotations limits scalability. In response to this challenge, we present an enhanced unsupervised Convolutional Neural Network (CNN)-based algorithm called DynaSeg. Unlike traditional approaches that rely on a fixed weight factor to balance feature similarity and spatial continuity, requiring manual adjustments, our novel, dynamic weighting scheme automates parameter tuning, adapting flexibly to image details. We also introduce the novel concept of a Silhouette Score Phase that addresses the challenge of dynamic clustering during iterations. Additionally, our methodology integrates both CNN-based and pre-trained ResNet feature extraction, offering a comprehensive and adaptable approach. We achieve state-of-the-art results on diverse datasets, with a notable 12.2% and 14.12% mIOU improvement compared to the current benchmarks on COCO-All and COCO-Stuff, respectively. The proposed approach unlocks the potential for unsupervised image segmentation and addresses scalability concerns in real-world scenarios by obviating the need for meticulous parameter tuning.
翻訳日:2024-05-10 14:32:25 公開日:2024-05-09
# 拡張多言語分類への機械翻訳の利用

Using Machine Translation to Augment Multilingual Classification ( http://arxiv.org/abs/2405.05478v1 )

ライセンス: Link先を確認
Adam King, (参考訳) テキスト分類モデル開発のボトルネックは、トレーニングデータのアノテートの必要性であり、このニーズは多言語分類器に乗じる必要がある。 幸いなことに、現代の機械翻訳モデルは容易にアクセス可能であり、信頼性の高い翻訳品質を持ち、ラベル付きトレーニングデータをある言語から別の言語に翻訳することができる。 本稿では,複数の言語にまたがる分類課題に対して,機械翻訳を用いて多言語モデルを微調整する効果について検討する。 また、画像キャプションの分野で提案された新しい手法の利点について検討し、翻訳データに対するチューニングモデルによる潜在的な負の効果について考察する。 翻訳されたデータは、多言語分類器をチューニングするのに十分な品質であり、この新規な損失技術は、それなしでチューニングされたモデルよりも幾らか改善できることを示す。

An all-too-present bottleneck for text classification model development is the need to annotate training data and this need is multiplied for multilingual classifiers. Fortunately, contemporary machine translation models are both easily accessible and have dependable translation quality, making it possible to translate labeled training data from one language into another. Here, we explore the effects of using machine translation to fine-tune a multilingual model for a classification task across multiple languages. We also investigate the benefits of using a novel technique, originally proposed in the field of image captioning, to account for potential negative effects of tuning models on translated data. We show that translated data are of sufficient quality to tune multilingual classifiers and that this novel loss technique is able to offer some improvement over models tuned without it.
翻訳日:2024-05-10 14:32:25 公開日:2024-05-09
# FloorSet - 実世界のSoCの設計制約付きVLSIフロアプランニングデータセット

FloorSet - a VLSI Floorplanning Dataset with Design Constraints of Real-World SoCs ( http://arxiv.org/abs/2405.05480v1 )

ライセンス: Link先を確認
Uday Mallappa, Hesham Mostafa, Mikhail Galkin, Mariano Phielipp, Somdeb Majumdar, (参考訳) システム・オン・ア・チップ(SoC)とそのサブシステムのフロアプランニングは、物理的設計フローの重要かつ非自明なステップである。 これは組合せ最適化の難しさを表している。 120個のパーティションを持つ典型的な大規模SoCは、約10E250の検索空間を生成する。 このような問題に対処するために、新しい機械学習(ML)アプローチが出現するにつれて、既存のベンチマークと比較して現実の制約や目的をよりよく反映する大規模なトレーニングデータセットとパフォーマンスメトリクスを含む、現代的なベンチマークの必要性が高まっている。 このニーズに対処するために、FloorSet - 実際のSoCの分布を反映した、合成固定アウトラインのフロアプランレイアウトの包括的なデータセットを2つ提示する。 各データセットには100万のトレーニングサンプルと100のテストサンプルがあり、各サンプルは合成フロアプランである。 FloorSet-Primeは、完全結合された直線分割と、ほぼ最適のワイヤ長からなる。 初期の設計フェーズを反映した単純化されたデータセットであるFloorSet-Liteは、長方形のパーティションで構成され、5%以下のホワイトスペースとほぼ最適ワイヤ長を持つ。 どちらのデータセットも、形状制約、エッジ親和性、グループ化制約、配置前制約など、現代的なデザインフローで見られる厳しい制約を定義している。 FloorSetは、大規模制約付き最適化問題の基礎研究を促進することを目的としている。 重要なことに、FloorSetは、このような問題に対する現代のML駆動ソリューションにおける再現性の中心的な問題を緩和している。 FloorSetは研究コミュニティのためのオープンソースリポジトリとして利用できる。

Floorplanning for systems-on-a-chip (SoCs) and its sub-systems is a crucial and non-trivial step of the physical design flow. It represents a difficult combinatorial optimization problem. A typical large scale SoC with 120 partitions generates a search-space of nearly 10E250. As novel machine learning (ML) approaches emerge to tackle such problems, there is a growing need for a modern benchmark that comprises a large training dataset and performance metrics that better reflect real-world constraints and objectives compared to existing benchmarks. To address this need, we present FloorSet - two comprehensive datasets of synthetic fixed-outline floorplan layouts that reflect the distribution of real SoCs. Each dataset has 1M training samples and 100 test samples where each sample is a synthetic floor- plan. FloorSet-Prime comprises fully-abutted rectilinear partitions and near-optimal wire-length. A simplified dataset that reflects early design phases, FloorSet-Lite comprises rectangular partitions, with under 5 percent white-space and near-optimal wire-length. Both datasets define hard constraints seen in modern design flows such as shape constraints, edge-affinity, grouping constraints, and pre-placement constraints. FloorSet is intended to spur fundamental research on large-scale constrained optimization problems. Crucially, FloorSet alleviates the core issue of reproducibility in modern ML driven solutions to such problems. FloorSet is available as an open-source repository for the research community.
翻訳日:2024-05-10 14:32:25 公開日:2024-05-09
# 重なり合うジョセフソン接合によるミリ秒コヒーレンスフラクソニウムの達成

Achieving millisecond coherence fluxonium through overlap Josephson junctions ( http://arxiv.org/abs/2405.05481v1 )

ライセンス: Link先を確認
Fei Wang, Kannan Lu, Huijuan Zhan, Lu Ma, Feng Wu, Hantao Sun, Hao Deng, Yang Bai, Feng Bao, Xu Chang, Ran Gao, Xun Gao, Guicheng Gong, Lijuan Hu, Ruizi Hu, Honghong Ji, Xizheng Ma, Liyong Mao, Zhijun Song, Chengchun Tang, Hongcheng Wang, Tenghui Wang, Ziang Wang, Tian Xia, Hongxin Xu, Ze Zhan, Gengyan Zhang, Tao Zhou, Mengyu Zhu, Qingbin Zhu, Shasha Zhu, Xing Zhu, Yaoyun Shi, Hui-Hai Zhao, Chunqing Deng, (参考訳) フラクソニウムの量子ビットは、超伝導ループ当たり100個のジョセフソン接合部を組み込んだ独自の設計による、コヒーレンス時間と高い操作率で認識されている。 しかし、この複雑さは、特に伝統的な手法で高い収率とジャンクションの均一性を達成する際に、顕著な製造上の課題を引き起こす。 ここでは, 位相すべり接合の5%以下, 接合アレーの2%以下で, ほぼ100%の収率を達成し, 2インチウェハの均一性を維持するジョセフソン接合の重なり過程を紹介する。 我々のコンパクトなジャンクションアレイ設計はフラックスフラストレーション点で1ミリ秒を超えるエネルギー緩和時間を持つフラクソニウム量子ビットを容易にし、最先端の誘電体損失接点と複数のデバイス間のフラックスノイズとの整合性を実証する。 この研究は、CMOS互換プロセスを用いた高コヒーレンスフラクソニウムプロセッサのスケーラビリティを示唆し、実用的な量子コンピューティングへの重要な一歩を示唆している。

Fluxonium qubits are recognized for their high coherence times and high operation fidelities, attributed to their unique design incorporating over 100 Josephson junctions per superconducting loop. However, this complexity poses significant fabrication challenges, particularly in achieving high yield and junction uniformity with traditional methods. Here, we introduce an overlap process for Josephson junction fabrication that achieves nearly 100% yield and maintains uniformity across a 2-inch wafer with less than 5% variation for the phase slip junction and less than 2% for the junction array. Our compact junction array design facilitates fluxonium qubits with energy relaxation times exceeding 1 millisecond at the flux frustration point, demonstrating consistency with state-of-the-art dielectric loss tangents and flux noise across multiple devices. This work suggests the scalability of high coherence fluxonium processors using CMOS-compatible processes, marking a significant step towards practical quantum computing.
翻訳日:2024-05-10 14:22:38 公開日:2024-05-09
# James-Stein 推定器を用いたブラックボックス変分推論の可変制御

Variance Control for Black Box Variational Inference Using The James-Stein Estimator ( http://arxiv.org/abs/2405.05485v1 )

ライセンス: Link先を確認
Dominic B. Dayta, (参考訳) Black Box Variational Inference(ブラックボックス変分推論)は、変分推論をより"ブラックボックス"にする最近の取り組みの連続において、有望なフレームワークである。 しかし、基本的なバージョンでは、不安定性のために収束しないか、実行前に更新手順を微調整する必要があるため、完全に汎用的なものではない。 確率勾配の上昇を多変量推定問題として再フレーミングすることで,パラメータの更新を調節する手法を提案する。 証拠の下位境界の勾配のモンテカルロ推定の算術平均の代替としてジェームズ=シュタイン推定器の特性について検討する。 提案手法は,Rao-Blackwellizationよりも比較的低分散化を実現するが,より単純で,アナリストに微調整を要さないというトレードオフを提供する。 ベンチマークデータセットのパフォーマンスはまた、モデル適合性と収束時間の観点から、Rao-Blackwellizedアプローチよりも同等以上の一貫性のあるパフォーマンスを示している。

Black Box Variational Inference is a promising framework in a succession of recent efforts to make Variational Inference more ``black box". However, in basic version it either fails to converge due to instability or requires some fine-tuning of the update steps prior to execution that hinder it from being completely general purpose. We propose a method for regulating its parameter updates by reframing stochastic gradient ascent as a multivariate estimation problem. We examine the properties of the James-Stein estimator as a replacement for the arithmetic mean of Monte Carlo estimates of the gradient of the evidence lower bound. The proposed method provides relatively weaker variance reduction than Rao-Blackwellization, but offers a tradeoff of being simpler and requiring no fine tuning on the part of the analyst. Performance on benchmark datasets also demonstrate a consistent performance at par or better than the Rao-Blackwellized approach in terms of model fit and time to convergence.
翻訳日:2024-05-10 14:22:38 公開日:2024-05-09
# マルチラベル学習と深部モデル解釈による頭頸部癌生存予測

Advancing Head and Neck Cancer Survival Prediction via Multi-Label Learning and Deep Model Interpretation ( http://arxiv.org/abs/2405.05488v1 )

ライセンス: Link先を確認
Meixu Chen, Kai Wang, Jing Wang, (参考訳) 放射線治療(RT)を施行した頭頸部癌(HNC)患者のパーソナライズ管理を支援するためには,包括的かつ信頼性の高い生存予測モデルが重要である。 本稿では,複数のHNC生存率を同時に予測する,解釈可能なマルチラベル・マルチモーダル・ディープ・サバイバル予測フレームワーク IMLSP を提案する。 MTLR(Multi-Task Logistic Regression)層を用いて、回帰問題から複数時点分類タスクへの生存予測を変換し、同時に複数の関連する生存結果の予測を可能にする。 また、患者固有の時間-イベント間のアクティベーションマップを生成するために、ディープサバイバルモデルによる視覚的説明のためのグラディエント重み付き時間-イベント アクティベーションマッピング手法であるGrad-TEAMを提案する。 本手法をRADCURE HNCデータセットを用いて評価し,全生存率で対応するシングルモーダルモデルとシングルラベルモデルを上回った。 生成したアクティベーションマップは,高リスク患者と低リスク患者で判定と関心量が異なる場合,主に腫瘍量と結節量に焦点を当てていることを示している。 我々は,多ラベル学習戦略が学習効率と予後性能を向上させることを実証し,解釈可能な生存予測モデルはAIの意思決定プロセスを理解し,パーソナライズされた治療を促進することを約束する。

A comprehensive and reliable survival prediction model is of great importance to assist in the personalized management of Head and Neck Cancer (HNC) patients treated with curative Radiation Therapy (RT). In this work, we propose IMLSP, an Interpretable Multi-Label multi-modal deep Survival Prediction framework for predicting multiple HNC survival outcomes simultaneously and provide time-event specific visual explanation of the deep prediction process. We adopt Multi-Task Logistic Regression (MTLR) layers to convert survival prediction from a regression problem to a multi-time point classification task, and to enable predicting of multiple relevant survival outcomes at the same time. We also present Grad-TEAM, a Gradient-weighted Time-Event Activation Mapping approach specifically developed for deep survival model visual explanation, to generate patient-specific time-to-event activation maps. We evaluate our method with the publicly available RADCURE HNC dataset, where it outperforms the corresponding single-modal models and single-label models on all survival outcomes. The generated activation maps show that the model focuses primarily on the tumor and nodal volumes when making the decision and the volume of interest varies for high- and low-risk patients. We demonstrate that the multi-label learning strategy can improve the learning efficiency and prognostic performance, while the interpretable survival prediction model is promising to help understand the decision-making process of AI and facilitate personalized treatment.
翻訳日:2024-05-10 14:22:38 公開日:2024-05-09
# 測度空間上の対数構造

A logifold structure on measure space ( http://arxiv.org/abs/2405.05492v1 )

ライセンス: Link先を確認
Inkee Jung, Siu-Cheong Lau, (参考訳) 本稿では,データセットを理解するための局所的・グローバル的・測度論的アプローチを開発する。 その考え方は、制限されたドメインを持つネットワークモデルをデータセットのローカルチャートとして扱うことだ。 これらの構造に対する数学的基盤を開発し、ファジィ領域の探索やデータ分類問題の精度向上にどのように使用できるか実験で示す。

In this paper,we develop a local-to-global and measure-theoretical approach to understand datasets. The idea is to take network models with restricted domains as local charts of datasets. We develop the mathematical foundations for these structures, and show in experiments how it can be used to find fuzzy domains and to improve accuracy in data classification problems.
翻訳日:2024-05-10 14:22:38 公開日:2024-05-09
# 適応器を用いたパラメータ効率の良いファインチューニング

Parameter-Efficient Fine-Tuning With Adapters ( http://arxiv.org/abs/2405.05493v1 )

ライセンス: Link先を確認
Keyu Chen, Yuan Pang, Zi Yang, (参考訳) 言語モデルファインチューニングの分野では、DAPT(Domain-Adaptive Pretraining)やTAPT(Task-Adaptive Pretraining)といった従来のアプローチは効果的だが、計算集約的である。 そこで本研究では,UniPELTフレームワークをベースとして,トレーニング可能なパラメータの数を大幅に削減し,ベンチマーク間の競合性能を維持しながら,新たな適応手法を提案する。 提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。 我々は,GLUEベンチマーク,4つの異なる領域からなるドメイン固有データセット,SQuAD(Stanford Question Answering Dataset 1.1)という3つの多様なデータセットを用いてアプローチを評価した。 提案手法は,より少ないパラメータや等価量のパラメータを必要としながら,フルモデルファインチューニング,DAPT+TAPT,UniPELTの戦略に匹敵する性能を実現する。 このパラメータ効率は、計算負担を軽減するだけでなく、適応プロセスを短縮する。 本研究は, 資源消費を大幅に削減し, 高い性能を実現するためのアダプタの可能性を明らかにし, パラメータ効率向上のための将来的な研究の方向性を示唆する。

In the arena of language model fine-tuning, the traditional approaches, such as Domain-Adaptive Pretraining (DAPT) and Task-Adaptive Pretraining (TAPT), although effective, but computational intensive. This research introduces a novel adaptation method utilizing the UniPELT framework as a base and added a PromptTuning Layer, which significantly reduces the number of trainable parameters while maintaining competitive performance across various benchmarks. Our method employs adapters, which enable efficient transfer of pretrained models to new tasks with minimal retraining of the base model parameters. We evaluate our approach using three diverse datasets: the GLUE benchmark, a domain-specific dataset comprising four distinct areas, and the Stanford Question Answering Dataset 1.1 (SQuAD). Our results demonstrate that our customized adapter-based method achieves performance comparable to full model fine-tuning, DAPT+TAPT and UniPELT strategies while requiring fewer or equivalent amount of parameters. This parameter efficiency not only alleviates the computational burden but also expedites the adaptation process. The study underlines the potential of adapters in achieving high performance with significantly reduced resource consumption, suggesting a promising direction for future research in parameter-efficient fine-tuning.
翻訳日:2024-05-10 14:22:38 公開日:2024-05-09
# Aspect-based Sentiment Analysisのための継続学習による大規模言語モデルの強化

Boosting Large Language Models with Continual Learning for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2405.05496v1 )

ライセンス: Link先を確認
Xuanwen Ding, Jie Zhou, Liang Dou, Qin Chen, Yuanbin Wu, Chengcai Chen, Liang He, (参考訳) アスペクトベースの感情分析(ABSA)は、感情分析の重要なサブタスクであり、その側面を抽出し、感情を予測することを目的としている。 既存の研究の多くは、ターゲットドメインデータセットに基づいて(ソースドメインに基づいてトレーニングされた)ドメイン固有モデルを微調整することで、ターゲットドメインの性能を改善することに重点を置いている。 歴史ドメインの能力を維持しつつ、対象ドメインの能力を学習することを目的としたABSAの継続的な学習タスクを提案する作業はほとんどない。 本稿では,ABSAのための大規模言語モデルに基づく連続学習(\texttt{LLM-CL})モデルを提案する。 まず、ドメイン不変アダプタとドメイン不変アダプタを直交制約に依存的に分離するために、ドメイン知識分離モジュールを設計する。 そして、ドメイン不変知識とドメイン不変知識の表現を整合させるためのドメイン知識ウォームアップ戦略を導入する。 テストフェーズでは、各サンプルのドメインIDを必要としないように、ドメイン位置決めによって対応するドメイン変種知識をインデックス化する。 19のデータセットに対する大規模な実験は、我々の \texttt{LLM-CL} モデルが新しい最先端のパフォーマンスを得ることを示している。

Aspect-based sentiment analysis (ABSA) is an important subtask of sentiment analysis, which aims to extract the aspects and predict their sentiments. Most existing studies focus on improving the performance of the target domain by fine-tuning domain-specific models (trained on source domains) based on the target domain dataset. Few works propose continual learning tasks for ABSA, which aim to learn the target domain's ability while maintaining the history domains' abilities. In this paper, we propose a Large Language Model-based Continual Learning (\texttt{LLM-CL}) model for ABSA. First, we design a domain knowledge decoupling module to learn a domain-invariant adapter and separate domain-variant adapters dependently with an orthogonal constraint. Then, we introduce a domain knowledge warmup strategy to align the representation between domain-invariant and domain-variant knowledge. In the test phase, we index the corresponding domain-variant knowledge via domain positioning to not require each sample's domain ID. Extensive experiments over 19 datasets indicate that our \texttt{LLM-CL} model obtains new state-of-the-art performance.
翻訳日:2024-05-10 14:22:38 公開日:2024-05-09
# 軽量ステレオ画像超解像のためのマルチレベル特徴核融合ネットワーク

Multi-Level Feature Fusion Network for Lightweight Stereo Image Super-Resolution ( http://arxiv.org/abs/2405.05497v1 )

ライセンス: Link先を確認
Yunxiang Li, Wenbin Zou, Qiaomu Wei, Feng Huang, Jing Wu, (参考訳) ステレオ画像の超解像は、左右の視点画像の不均一性効果によって引き起こされるクロスビュー補完情報を利用して、高品質画像の再構成を行う。 ステレオ画像から情報を活用するためのカスケーディング機能抽出モジュールとクロスビュー機能相互作用モジュールは、多くの手法の焦点となっている。 しかし、これは多くのネットワークパラメータと構造的冗長性を追加します。 下流タスクにおけるステレオ画像の超解像化を容易にするために,軽量ステレオ画像の高分解能化のためのマルチレベル特徴融合ネットワーク(MFFSSR)を提案する。 特に、MFFSSRは、Hybrid Attention Feature extract Block (HAFEB)を使用して、マルチレベルなイントラビュー特徴を抽出する。 チャネル分離戦略を用いることで、HAFEBは組み込みのクロスビュー・インタラクション・モジュールと効率的に対話できる。 この構造構成は、ビュー内の機能を効率的にマイニングし、ビュー間の情報共有の効率を向上させることができる。 これにより、画像の詳細やテクスチャをより正確に再構築することができる。 MFFSSRの有効性を示す実験がある。 より少ないパラメータで優れたパフォーマンスを達成する。 ソースコードはhttps://github.com/KarosLYX/MFFSSRで入手できる。

Stereo image super-resolution utilizes the cross-view complementary information brought by the disparity effect of left and right perspective images to reconstruct higher-quality images. Cascading feature extraction modules and cross-view feature interaction modules to make use of the information from stereo images is the focus of numerous methods. However, this adds a great deal of network parameters and structural redundancy. To facilitate the application of stereo image super-resolution in downstream tasks, we propose an efficient Multi-Level Feature Fusion Network for Lightweight Stereo Image Super-Resolution (MFFSSR). Specifically, MFFSSR utilizes the Hybrid Attention Feature Extraction Block (HAFEB) to extract multi-level intra-view features. Using the channel separation strategy, HAFEB can efficiently interact with the embedded cross-view interaction module. This structural configuration can efficiently mine features inside the view while improving the efficiency of cross-view information sharing. Hence, reconstruct image details and textures more accurately. Abundant experiments demonstrate the effectiveness of MFFSSR. We achieve superior performance with fewer parameters. The source code is available at https://github.com/KarosLYX/MFFSSR.
翻訳日:2024-05-10 14:22:38 公開日:2024-05-09
# 長期連続予測のためのマルチスケール拡張畳み込みネットワーク

Multi-Scale Dilated Convolution Network for Long-Term Time Series Forecasting ( http://arxiv.org/abs/2405.05499v1 )

ライセンス: Link先を確認
Feifei Li, Suhan Guo, Feng Han, Jian Zhao, Furao Shen, (参考訳) 時系列の正確な予測は意思決定や計画に重要な応用がある。 しかし、時系列データの長期的な依存関係をキャプチャすることは依然として困難である。 長期的依存関係をよりよく抽出するために,浅層拡張畳み込みアーキテクチャを用いて時系列の周期的・傾向特性を抽出するマルチスケール拡張畳み込みネットワーク(MSDCN)を提案する。 指数関数的に増加する拡張と異なるカーネルサイズを持つ異なる畳み込みブロックを設計し、異なるスケールで時系列データをサンプリングする。 さらに、従来の自己回帰モデルを用いて、データ内の線形関係をキャプチャする。 提案手法の有効性を検証するため,8つの長期時系列予測ベンチマークデータセットを用いて実験を行った。 実験の結果,提案手法は従来の最先端手法よりも優れており,いくつかの強力なベースライン手法と比較して推論速度が大幅に向上していることがわかった。

Accurate forecasting of long-term time series has important applications for decision making and planning. However, it remains challenging to capture the long-term dependencies in time series data. To better extract long-term dependencies, We propose Multi Scale Dilated Convolution Network (MSDCN), a method that utilizes a shallow dilated convolution architecture to capture the period and trend characteristics of long time series. We design different convolution blocks with exponentially growing dilations and varying kernel sizes to sample time series data at different scales. Furthermore, we utilize traditional autoregressive model to capture the linear relationships within the data. To validate the effectiveness of the proposed approach, we conduct experiments on eight challenging long-term time series forecasting benchmark datasets. The experimental results show that our approach outperforms the prior state-of-the-art approaches and shows significant inference speed improvements compared to several strong baseline methods.
翻訳日:2024-05-10 14:22:38 公開日:2024-05-09
# ニューラルネットワークによる正確かつロバストなアーキテクチャを目指して

Towards Accurate and Robust Architectures via Neural Architecture Search ( http://arxiv.org/abs/2405.05502v1 )

ライセンス: Link先を確認
Yuwei Ou, Yuqi Feng, Yanan Sun, (参考訳) 敵の攻撃からディープニューラルネットワークを守るために、敵の訓練はその効果に注目が集まっている。 しかし, 対向トレーニングによる精度と頑健性は, アーキテクチャに関連する重み接続を調整することにより, 精度と頑健性を向上させるため, アーキテクチャによって制限される。 本研究では,ARNASを用いて,敵の訓練のための正確で堅牢なアーキテクチャを探索する手法を提案する。 まず, 高精度でロバストな探索空間を設計し, セル配置とフィルタ数の比例関係を慎重に決定する。 この設計により、アーキテクチャは、それぞれの感度の高い位置に、それぞれ正確な構造と堅牢な構造を配置することで、正確性と堅牢性の両方を得ることができる。 そこで本研究では,自然損失と対向損失の両方に有益である方向への勾配降下を行う多目的探索戦略を提案し,精度とロバスト性を同時に保証する。 我々は、ホワイトボックス攻撃、ブラックボックス攻撃、転送可能性の観点から包括的な実験を行う。 実験結果から,探索されたアーキテクチャは競争精度で強い強靭性を示し,NASベースのアーキテクチャは頑健性シナリオにおいて複雑なタスクにうまく移行できないという従来の考え方を破る結果となった。 検索した優れたアーキテクチャを分析することで、正確でロバストなニューラルネットワークアーキテクチャは入力と出力の近くに異なる構造を配置する傾向にあり、手作りと、正確でロバストなアーキテクチャの自動設計の両方において非常に実践的な重要性がある、と結論付けている。

To defend deep neural networks from adversarial attacks, adversarial training has been drawing increasing attention for its effectiveness. However, the accuracy and robustness resulting from the adversarial training are limited by the architecture, because adversarial training improves accuracy and robustness by adjusting the weight connection affiliated to the architecture. In this work, we propose ARNAS to search for accurate and robust architectures for adversarial training. First we design an accurate and robust search space, in which the placement of the cells and the proportional relationship of the filter numbers are carefully determined. With the design, the architectures can obtain both accuracy and robustness by deploying accurate and robust structures to their sensitive positions, respectively. Then we propose a differentiable multi-objective search strategy, performing gradient descent towards directions that are beneficial for both natural loss and adversarial loss, thus the accuracy and robustness can be guaranteed at the same time. We conduct comprehensive experiments in terms of white-box attacks, black-box attacks, and transferability. Experimental results show that the searched architecture has the strongest robustness with the competitive accuracy, and breaks the traditional idea that NAS-based architectures cannot transfer well to complex tasks in robustness scenarios. By analyzing outstanding architectures searched, we also conclude that accurate and robust neural architectures tend to deploy different structures near the input and output, which has great practical significance on both hand-crafting and automatically designing of accurate and robust architectures.
翻訳日:2024-05-10 14:22:38 公開日:2024-05-09
# 偏光トポロジカルチャージによる高次トポロジの展開

Unveiling Higher-Order Topology via Polarized Topological Charges ( http://arxiv.org/abs/2405.05505v1 )

ライセンス: Link先を確認
Wei Jia, Bao-Zong Wang, Ming-Jian Gao, Jun-Hong An, (参考訳) 実空間トポロジカル不変量は、カイラル対称高次トポロジカル位相(HOTP)を特徴づけるために広く用いられた。 しかし、これらのHOTPの運動量-空間的特徴は、本質的にその固有なバルク-バウンダリ対応を明らかにし、量子シミュレーションシステムにおける検出を容易にするものであるが、まだ不足している。 ここでは、偏光トポロジカル電荷の概念を用いて、キラル対称HOTPに対する実験的に観測可能な運動量空間のキャラクタリゼーションを提案する。 これは、バルク状態だけでなく、エッジ状態だけでなく、バンドギャップの閉鎖と再開によって生じるHOTPを統一的に記述する。 注目すべきは、これらの偏極トポロジカル電荷は擬スピン構造を測定することで同定できることである。 HOTPを$^{87}$Rb原子系で検出する実行可能なスキームが与えられる。 本研究は,運動量空間におけるHOTPのキャラクタリゼーションと実験的検出のための道を開く。

Real-space topological invariants were widely used to characterize chiral-symmetric higher-order topological phases (HOTPs). However, a momentum-space characterization to these HOTPs, which essentially reveals their intrinsic bulk-boundary correspondence and facilitates their detection in quantum simulation systems, is still lacking. Here, we propose an experimentally observable momentum-space characterization to the chiral-symmetric HOTPs by the concept of polarized topological charges. It makes a unified description to the HOTPs caused by the closing and reopening of band gap not only of the bulk states but also the edge states. Remarkably, these polarized topological charges can also be identified by measuring the pseudospin structures. A feasible scheme to detect the HOTPs in the $^{87}$Rb atomic system is given. Our work opens an avenue for characterization and experimental detection of the HOTPs in momentum space.
翻訳日:2024-05-10 14:22:38 公開日:2024-05-09
# クロスケア: 言語モデルバイアスの事前学習データによる健康影響の評価

Cross-Care: Assessing the Healthcare Implications of Pre-training Data on Language Model Bias ( http://arxiv.org/abs/2405.05506v1 )

ライセンス: Link先を確認
Shan Chen, Jack Gallifant, Mingye Gao, Pedro Moreira, Nikolaj Munch, Ajay Muthukkumar, Arvind Rajan, Jaya Kolluri, Amelia Fiske, Janna Hastings, Hugo Aerts, Brian Anthony, Leo Anthony Celi, William G. La Cava, Danielle S. Bitterman, (参考訳) 大規模言語モデル(LLM)は、自然言語処理においてますます不可欠になっているが、それらの応用は、トレーニングデータから生じるバイアスや不正確さによってしばしば損なわれる。 本研究では, LLMにおけるバイアスと実世界の知識を評価するための最初のベンチマークフレームワークであるCross-Careを紹介する。 ThePile$のような事前学習コーパスに埋め込まれた人口統計バイアスがLLMの出力にどのように影響するかを系統的に評価した。 我々は、アメリカの様々な人口集団における実際の病気の流行に対して、これらのバイアスを差し引いて、不一致を露呈し、定量化する。 以上の結果から, LLMの病的有病率と, 集団間での実際の有病率との相違が明らかとなり, 偏差伝播のリスクと, LLMの医学的応用のための現実的基盤の欠如が示唆された。 さらに、様々なアライメント手法が、異なる言語間での疾患の頻度のモデルによる表現の不整合を最小限に解決することを観察した。 さらなる調査と分析のために、すべてのデータとデータ可視化ツールをwww.crosscare.netで公開しています。

Large language models (LLMs) are increasingly essential in processing natural languages, yet their application is frequently compromised by biases and inaccuracies originating in their training data. In this study, we introduce Cross-Care, the first benchmark framework dedicated to assessing biases and real world knowledge in LLMs, specifically focusing on the representation of disease prevalence across diverse demographic groups. We systematically evaluate how demographic biases embedded in pre-training corpora like $ThePile$ influence the outputs of LLMs. We expose and quantify discrepancies by juxtaposing these biases against actual disease prevalences in various U.S. demographic groups. Our results highlight substantial misalignment between LLM representation of disease prevalence and real disease prevalence rates across demographic subgroups, indicating a pronounced risk of bias propagation and a lack of real-world grounding for medical applications of LLMs. Furthermore, we observe that various alignment methods minimally resolve inconsistencies in the models' representation of disease prevalence across different languages. For further exploration and analysis, we make all data and a data visualization tool available at: www.crosscare.net.
翻訳日:2024-05-10 14:22:38 公開日:2024-05-09
# 大規模言語モデルを用いた構造化データベースの情報検索

Redefining Information Retrieval of Structured Database via Large Language Models ( http://arxiv.org/abs/2405.05508v1 )

ライセンス: Link先を確認
Mingzhu Wang, Yuzhe Zhang, Qihang Zhao, Juanyi Yang, Hong Zhang, (参考訳) 言語モデル(LM)が推論の前に外部知識ベースを通してクエリに関連する非パラメトリック知識を利用する場合、検索の強化が重要である。 検索した情報は、クエリに沿ったコンテキストとしてLMに組み込まれ、事実質問に対する応答の信頼性が向上する。 検索拡張に関する以前の研究は、典型的にはレトリバー・ジェネレーターのパラダイムに従っている。 この文脈では、伝統的な検索者は知識ベースからクエリ関連情報を正確かつシームレスに抽出する際の課題に直面する。 そこで本稿では,大規模言語モデル(LLM)の強力な意味理解能力を活用して,高精度かつ簡潔な情報検索を実現する,ChatLRという新たな検索拡張フレームワークを提案する。 さらに,Text2APIとAPI-ID認識という2つのタスクに基づいてLLMを微調整することで,金融分野に適したLLMベースの検索・質問応答システムを構築する。 実験の結果,ChatLRがユーザクエリの処理に有効であることを示し,全体の情報検索精度は98.8\%を超えた。

Retrieval augmentation is critical when Language Models (LMs) exploit non-parametric knowledge related to the query through external knowledge bases before reasoning. The retrieved information is incorporated into LMs as context alongside the query, enhancing the reliability of responses towards factual questions. Prior researches in retrieval augmentation typically follow a retriever-generator paradigm. In this context, traditional retrievers encounter challenges in precisely and seamlessly extracting query-relevant information from knowledge bases. To address this issue, this paper introduces a novel retrieval augmentation framework called ChatLR that primarily employs the powerful semantic understanding ability of Large Language Models (LLMs) as retrievers to achieve precise and concise information retrieval. Additionally, we construct an LLM-based search and question answering system tailored for the financial domain by fine-tuning LLM on two tasks including Text2API and API-ID recognition. Experimental results demonstrate the effectiveness of ChatLR in addressing user queries, achieving an overall information retrieval accuracy exceeding 98.8\%.
翻訳日:2024-05-10 14:22:38 公開日:2024-05-09
# 制御エレクトロニクスにおけるビットフリップ誤差の量子計算への影響の検討

Investigating impact of bit-flip errors in control electronics on quantum computation ( http://arxiv.org/abs/2405.05511v1 )

ライセンス: Link先を確認
Subrata Das, Avimita Chatterjee, Swaroop Ghosh, (参考訳) 本稿では,制御電子回路におけるFPGAメモリのビットフリップ誤差が量子コンピューティングシステムに与える影響について検討する。 FPGAメモリは、量子ゲートパルスを生成するのに欠かせない振幅と位相情報パルスエンベロープを格納するのに不可欠である。 しかし、これらの記憶は、電磁的干渉、電力変動、温度変動や対向的な欠陥注入などの物理的および環境的なストレスによる欠陥を生じさせ、量子ゲート操作の誤りにつながる可能性がある。 これらの欠陥が量子計算にどのように影響するかを理解するため、我々はIBMの擬似擬似四面体環境、FakeValencia、FakeManila、FakeLimaを用いて、量子パルスの振幅(実成分と虚成分の両方)と位相値にビットフリップを導入する一連の実験を行った。 以上の結果から,実振幅の指数ビットと初期マティーサビットのビットフリップは量子ゲート演算において大きな偏差を引き起こし,TVDは最大200%まで上昇することがわかった。 興味深いことに、残りのビットはエラーに対する自然な耐性を示した。 メモリオーバーヘッドを発生させることなくTVDを40%以下に効果的に低減する3ビット繰り返し誤り訂正符号を提案する。 誤り訂正のために少ないビットを再利用するため、提案手法は名目の場合、最大5-7%追加のTVDを導入する。 しかし、これは繰り返しコードを実装するためにメモリ領域を犠牲にすることで回避できる。

In this paper, we investigate the impact of bit flip errors in FPGA memories in control electronics on quantum computing systems. FPGA memories are integral in storing the amplitude and phase information pulse envelopes, which are essential for generating quantum gate pulses. However, these memories can incur faults due to physical and environmental stressors such as electromagnetic interference, power fluctuations, and temperature variations and adversarial fault injections, potentially leading to errors in quantum gate operations. To understand how these faults affect quantum computations, we conducted a series of experiments to introduce bit flips into the amplitude (both real and imaginary components) and phase values of quantum pulses using IBM's simulated quan- tum environments, FakeValencia, FakeManila, and FakeLima. Our findings reveal that bit flips in the exponent and initial mantissa bits of the real amplitude cause substantial deviations in quantum gate operations, with TVD increases as high as ~200%. Interestingly, the remaining bits exhibited natural tolerance to errors. We proposed a 3-bit repetition error correction code, which effectively reduced the TVD increases to below 40% without incurring any memory overhead. Due to reuse of less significant bits for error correction, the proposed approach introduces maximum of 5-7% extra TVD in nominal cases. However, this can be avoided by sacrificing memory area for implementing the repetition code.
翻訳日:2024-05-10 14:22:38 公開日:2024-05-09
# 確率的な1ステップ生成のための特徴学習

Characteristic Learning for Provable One Step Generation ( http://arxiv.org/abs/2405.05512v1 )

ライセンス: Link先を確認
Zhao Ding, Chenguang Duan, Yuling Jiao, Ruoxuan Li, Jerry Zhijian Yang, Pingwen Zhang, (参考訳) 本稿では,GAN(Generative Adversarial Networks)におけるサンプリング効率とフローベースモデルの安定した性能を組み合わせた,新しい一段階生成モデルである特徴生成器を提案する。 我々のモデルは、確率密度輸送を通常の微分方程式(ODE)で記述できる特性によって駆動される。 具体的には、非パラメトリック回帰を用いて速度場を推定し、Euler法を用いて確率フローODEを解き、特性に対する一連の離散近似を生成する。 次に、深層ニューラルネットワークを用いてこれらの特性に適合し、先行分布を目標分布へ効果的にプッシュするワンステップマッピングを確実にする。 理論的には, 速度マッチング, オイラー離散化, 特性適合の誤差を分析し, 2-ワッサーシュタイン距離における特性発生器の非漸近収束速度を確立する。 私たちの知る限りでは、これはシミュレーションなしの1ステップ生成モデルに対する最初の徹底的な分析である。 さらに,本研究では,前処理におけるフローベース生成モデルの誤差解析を改良する。 提案手法を合成データセットと実データセットの両方に適用し,ニューラルネットワークの単一評価で特徴生成器が高次品質を実現することを示す。

We propose the characteristic generator, a novel one-step generative model that combines the efficiency of sampling in Generative Adversarial Networks (GANs) with the stable performance of flow-based models. Our model is driven by characteristics, along which the probability density transport can be described by ordinary differential equations (ODEs). Specifically, We estimate the velocity field through nonparametric regression and utilize Euler method to solve the probability flow ODE, generating a series of discrete approximations to the characteristics. We then use a deep neural network to fit these characteristics, ensuring a one-step mapping that effectively pushes the prior distribution towards the target distribution. In the theoretical aspect, we analyze the errors in velocity matching, Euler discretization, and characteristic fitting to establish a non-asymptotic convergence rate for the characteristic generator in 2-Wasserstein distance. To the best of our knowledge, this is the first thorough analysis for simulation-free one step generative models. Additionally, our analysis refines the error analysis of flow-based generative models in prior works. We apply our method on both synthetic and real datasets, and the results demonstrate that the characteristic generator achieves high generation quality with just a single evaluation of neural network.
翻訳日:2024-05-10 14:22:38 公開日:2024-05-09
# 命題論理等価性の自動質問生成

Automatic question generation for propositional logical equivalences ( http://arxiv.org/abs/2405.05513v1 )

ライセンス: Link先を確認
Yicheng Yang, Xinyu Wang, Haoming Yu, Zhiyuan Li, (参考訳) 大学生の学術的不正事件の増加は、特にパンデミックによるオンライン学習へのシフトが懸念されている。 本研究の目的は,各学生に対して適切な質問を生成できる手法を開発し,実装することである。 自動質問生成(AQG)が実現可能である。 従来の研究では、妥当性、ユーザ定義の困難さ、パーソナライズされた問題生成を含む、教育におけるAQGフレームワークについて研究されてきた。 我々の新しいAQGアプローチは、一年生のコンピュータサイエンス学生にとってコアコースである離散数学に論理的等価性問題をもたらす。 このアプローチは、トップダウン解析と構文木変換による構文文法と意味属性システムを利用する。 実験の結果,AQGアプローチによる質問の難易度は,教科書 [1] で提示された質問に類似していることがわかった。 これらの結果は,教育における自動質問生成のためのAQGアプローチの実践性を確認し,学習経験を著しく向上させる可能性がある。

The increase in academic dishonesty cases among college students has raised concern, particularly due to the shift towards online learning caused by the pandemic. We aim to develop and implement a method capable of generating tailored questions for each student. The use of Automatic Question Generation (AQG) is a possible solution. Previous studies have investigated AQG frameworks in education, which include validity, user-defined difficulty, and personalized problem generation. Our new AQG approach produces logical equivalence problems for Discrete Mathematics, which is a core course for year-one computer science students. This approach utilizes a syntactic grammar and a semantic attribute system through top-down parsing and syntax tree transformations. Our experiments show that the difficulty level of questions generated by our AQG approach is similar to the questions presented to students in the textbook [1]. These results confirm the practicality of our AQG approach for automated question generation in education, with the potential to significantly enhance learning experiences.
翻訳日:2024-05-10 14:22:38 公開日:2024-05-09
# DTCLMapper: ベクトル化HDマップ構築のための2つの時間一貫性学習

DTCLMapper: Dual Temporal Consistent Learning for Vectorized HD Map Construction ( http://arxiv.org/abs/2405.05518v1 )

ライセンス: Link先を確認
Siyu Li, Jiacheng Lin, Hao Shi, Jiaming Zhang, Song Wang, You Yao, Zhiyong Li, Kailun Yang, (参考訳) 時間情報はバード・アイビュー(BEV)のシーン理解において重要な役割を担い、視覚情報の空間性を軽減する。 しかし,不特定時間融合法は,ベクトル化高分解(HD)写像を構築する際に特徴冗長性の障壁を引き起こす。 本稿では,ベクトル化されたHDマップの時間的融合を再考し,時間的インスタンスの整合性と時間的マップの整合性学習に着目した。 単一フレームマップにおけるインスタンスの表現を改善するために,新しいメソッドDTCLMapperを導入する。 このアプローチでは、インスタンスの埋め込みとジオメトリマップを組み合わせたデュアルストリーム時整合学習モジュールを使用する。 インスタンス埋め込みコンポーネントでは、時間的インスタンス一貫性学習(ICL)を統合し、ベクターポイントからの一貫性と、ポイントから集約されたインスタンス機能を保証する。 ベクトル化前選択モジュールを用いて各インスタンスからのベクトル点の回帰効率を高める。 そして、ベクトル化された点選択モジュールから得られる集約されたインスタンス特徴を対照的に学習して時間的一貫性を実現し、位置と意味情報に基づいて正と負のサンプルを選択する。 ジオメトリマッピングコンポーネントは、自己教師付き学習で設計されたマップ一貫性学習(MCL)を導入している。 MCLは、インスタンスのグローバルな位置と分布制約に集中することにより、一貫した学習アプローチの一般化能力を高める。 良く認識されたベンチマークに関する大規模な実験は、提案されたDTCLMapperがベクトル化されたマッピングタスクにおける最先端のパフォーマンスを達成し、それぞれ nuScenes と Argoverse のデータセット上で 61.9% と 65.1% mAP のスコアに達したことを示している。 ソースコードはhttps://github.com/lynn-yu/DTCLMapper.comで公開されている。

Temporal information plays a pivotal role in Bird's-Eye-View (BEV) driving scene understanding, which can alleviate the visual information sparsity. However, the indiscriminate temporal fusion method will cause the barrier of feature redundancy when constructing vectorized High-Definition (HD) maps. In this paper, we revisit the temporal fusion of vectorized HD maps, focusing on temporal instance consistency and temporal map consistency learning. To improve the representation of instances in single-frame maps, we introduce a novel method, DTCLMapper. This approach uses a dual-stream temporal consistency learning module that combines instance embedding with geometry maps. In the instance embedding component, our approach integrates temporal Instance Consistency Learning (ICL), ensuring consistency from vector points and instance features aggregated from points. A vectorized points pre-selection module is employed to enhance the regression efficiency of vector points from each instance. Then aggregated instance features obtained from the vectorized points preselection module are grounded in contrastive learning to realize temporal consistency, where positive and negative samples are selected based on position and semantic information. The geometry mapping component introduces Map Consistency Learning (MCL) designed with self-supervised learning. The MCL enhances the generalization capability of our consistent learning approach by concentrating on the global location and distribution constraints of the instances. Extensive experiments on well-recognized benchmarks indicate that the proposed DTCLMapper achieves state-of-the-art performance in vectorized mapping tasks, reaching 61.9% and 65.1% mAP scores on the nuScenes and Argoverse datasets, respectively. The source code will be made publicly available at https://github.com/lynn-yu/DTCLMapper.
翻訳日:2024-05-10 14:12:43 公開日:2024-05-09
# SPECT左室における自己教師付き数ショット学習の持続的最大流量増大

Continuous max-flow augmentation of self-supervised few-shot learning on SPECT left ventricles ( http://arxiv.org/abs/2405.05520v1 )

ライセンス: Link先を確認
Ádám István Szűcs, Béla Kári, Oszkár Pártos, (参考訳) 高リスク患者の虚血検出にはSPECT(Single-Photon Emission Computed Tomography)左室評価プロトコルが重要である。 心筋機能を定量的に測定するために,臨床医は,左心室(LV)の分画と再配置を市販のソリューションに頼っている。 大きな正規データセットに基づいて、セグメンテーション性能とこれらのソリューションの高価格が、LVデラインの信頼性と正確なローカライズを妨げている。 以上の欠点を克服するため, クリニックは, SPECT, フルフィールド・オブ・ビュー(FOV)ボリュームに基づいて, 小・低品質なラベルに基づいて, 自動的に心筋の分画を行うとともに, 診断センターのレシピを提供する。 SPECT装置の様々な領域における3次元U-Net自己教師学習(SSL)アプローチを強化するために,CMF(Continuous Max-Flow)と事前形状情報の組み合わせを開発した。 取得したデータセットに対する実験結果から、以前のState-of-the-Art(SOTA)ソリューションに基づく定量的メトリクスの5~10倍の増加が示され、高ノイズSPECT心電図データセット上の数ショットSSL問題に対処する好適な方法が示唆された。

Single-Photon Emission Computed Tomography (SPECT) left ventricular assessment protocols are important for detecting ischemia in high-risk patients. To quantitatively measure myocardial function, clinicians depend on commercially available solutions to segment and reorient the left ventricle (LV) for evaluation. Based on large normal datasets, the segmentation performance and the high price of these solutions can hinder the availability of reliable and precise localization of the LV delineation. To overcome the aforementioned shortcomings this paper aims to give a recipe for diagnostic centers as well as for clinics to automatically segment the myocardium based on small and low-quality labels on reconstructed SPECT, complete field-of-view (FOV) volumes. A combination of Continuous Max-Flow (CMF) with prior shape information is developed to augment the 3D U-Net self-supervised learning (SSL) approach on various geometries of SPECT apparatus. Experimental results on the acquired dataset have shown a 5-10\% increase in quantitative metrics based on the previous State-of-the-Art (SOTA) solutions, suggesting a good plausible way to tackle the few-shot SSL problem on high-noise SPECT cardiac datasets.
翻訳日:2024-05-10 14:12:43 公開日:2024-05-09
# 電力系統の整合性を考慮したスケーラブルかつ最適負荷層のための機械学習

Machine Learning for Scalable and Optimal Load Shedding Under Power System Contingency ( http://arxiv.org/abs/2405.05521v1 )

ライセンス: Link先を確認
Yuqi Zhou, Hao Zhu, (参考訳) 予期せぬ事態に対する迅速な効果的な是正行動は、電力系統のレジリエンスを改善し、カスケードブラックアウトを防ぐために重要である。 ネットワーク制限に対する最適負荷シェディング(OLS)は、従来のローカルスキームと比較して、並行性シナリオの多様なシステム全体への影響に対処する可能性がある。 しかし,初期イベントの高速カスケード伝播により,リアルタイムOLSソリューションは,高い計算能力と通信能力を備えた大規模システムの実現が困難である。 本稿では,各負荷センターを対象としたニューラルネットワーク(NN)モデルのオフライントレーニングを活用して,ローカルで利用可能な測定値からLSソリューションを自律的に構築する分散設計を提案する。 我々のLearning-for-OLSアプローチは、オンライン緊急応答における計算と通信の必要性を大幅に低減し、電力グリッドのレジリエンス向上のためのコンシデントのカスケード伝播を防止できる。 IEEE 118-busシステムとテキサス2000-busシステムの両方に関する数値的研究により,時間的電力系統緊急操作のためのスケーラブルなOLS学習設計の有効性と有効性を示した。

Prompt and effective corrective actions in response to unexpected contingencies are crucial for improving power system resilience and preventing cascading blackouts. The optimal load shedding (OLS) accounting for network limits has the potential to address the diverse system-wide impacts of contingency scenarios as compared to traditional local schemes. However, due to the fast cascading propagation of initial contingencies, real-time OLS solutions are challenging to attain in large systems with high computation and communication needs. In this paper, we propose a decentralized design that leverages offline training of a neural network (NN) model for individual load centers to autonomously construct the OLS solutions from locally available measurements. Our learning-for-OLS approach can greatly reduce the computation and communication needs during online emergency responses, thus preventing the cascading propagation of contingencies for enhanced power grid resilience. Numerical studies on both the IEEE 118-bus system and a synthetic Texas 2000-bus system have demonstrated the efficiency and effectiveness of our scalable OLS learning design for timely power system emergency operations.
翻訳日:2024-05-10 14:12:43 公開日:2024-05-09
# 動物がそうであるときのプロンプト:位置回復訓練による時間的動物行動グラウンドリング

Prompt When the Animal is: Temporal Animal Behavior Grounding with Positional Recovery Training ( http://arxiv.org/abs/2405.05523v1 )

ライセンス: Link先を確認
Sheng Yan, Xin Du, Zongying Li, Yi Wang, Hongcang Jin, Mengyuan Liu, (参考訳) 時間的接地は多モーダル学習において重要であるが、モーメントの空間性や均一な分布により動物行動データに適用した場合に課題が生じる。 これらの課題に対処するため,本研究では,訓練中の特定の動物行動の開始と終了をモデルとして,新たな位置回復訓練フレームワーク(Port)を提案する。 特に、ポートはリカバー部でベースラインモデルを強化し、フリップしたラベルシーケンスを予測し、デュアルアライメント法で分布を整列させる。 これにより、モデルでは、地軸情報によって引き起こされる特定の時間領域に焦点を合わせることができる。 動物王国のデータセットに関する大規模な実験は、ポートの有効性を実証し、38.52のIoU@0.3を達成した。 ICME 2024 Grand ChallengesではMMVRACのサブトラックでトップパフォーマーの1人として登場している。

Temporal grounding is crucial in multimodal learning, but it poses challenges when applied to animal behavior data due to the sparsity and uniform distribution of moments. To address these challenges, we propose a novel Positional Recovery Training framework (Port), which prompts the model with the start and end times of specific animal behaviors during training. Specifically, Port enhances the baseline model with a Recovering part to predict flipped label sequences and align distributions with a Dual-alignment method. This allows the model to focus on specific temporal regions prompted by ground-truth information. Extensive experiments on the Animal Kingdom dataset demonstrate the effectiveness of Port, achieving an IoU@0.3 of 38.52. It emerges as one of the top performers in the sub-track of MMVRAC in ICME 2024 Grand Challenges.
翻訳日:2024-05-10 14:12:43 公開日:2024-05-09
# ビジョンランゲージ事前学習モデルに対する普遍的対向摂動

Universal Adversarial Perturbations for Vision-Language Pre-trained Models ( http://arxiv.org/abs/2405.05524v1 )

ライセンス: Link先を確認
Peng-Fei Zhang, Zi Huang, Guangdong Bai, (参考訳) 視覚言語事前訓練(VLP)モデルは、多くの視覚言語タスクの基礎となっている。 それらの頻度を考えると、特にセキュリティに厳しい現実世界のアプリケーションにそれらを展開する場合、その敵の堅牢性を評価することは必須である。 伝統的に、この評価のために生成された敵対的摂動は、特定のVLPモデル、データセット、および/または下流タスクをターゲットにしている。 このプラクティスは、新しいシナリオに移行する際に、転送可能性の低下と計算コストの増大に悩まされる。 本研究では,VLPモデルが画像のモダリティに対する特定のパターンの知覚不可能な摂動に一般的に敏感であるかどうかを徹底的に検討する。 そこで本研究では,UAP(Universal Adversarial Perturbations)を新たに生成するブラックボックス手法を提案する。 ETUは、UAPの特性と本質的な相互モーダル相互作用を総合的に考慮し、効果的なUAPを生成する。 この体制の下で、ETUはUAPのグローバルユーティリティとローカルユーティリティの両方を奨励している。 これにより、UAPユニット間の相互作用を減らし、転送可能性を向上させるとともに、全体のユーティリティが向上する。 さらに,UAPの有効性と転送性を高めるために,ScMixという新しいデータ拡張手法を設計する。 ScMixは自己混合データ変換とクロスミックスデータ変換で構成されており、元のデータのセマンティクスを保存しながら、マルチモーダルデータの多様性を効果的に向上させることができる。 様々な下流タスク,VLPモデル,データセットに関する総合的な実験を通じて,提案手法が効果的かつ伝達可能な普遍的敵攻撃を実現することを実証した。

Vision-language pre-trained (VLP) models have been the foundation of numerous vision-language tasks. Given their prevalence, it be- comes imperative to assess their adversarial robustness, especially when deploying them in security-crucial real-world applications. Traditionally, adversarial perturbations generated for this assessment target specific VLP models, datasets, and/or downstream tasks. This practice suffers from low transferability and additional computation costs when transitioning to new scenarios. In this work, we thoroughly investigate whether VLP models are commonly sensitive to imperceptible perturbations of a specific pattern for the image modality. To this end, we propose a novel black-box method to generate Universal Adversarial Perturbations (UAPs), which is so called the Effective and T ransferable Universal Adversarial Attack (ETU), aiming to mislead a variety of existing VLP models in a range of downstream tasks. The ETU comprehensively takes into account the characteristics of UAPs and the intrinsic cross-modal interactions to generate effective UAPs. Under this regime, the ETU encourages both global and local utilities of UAPs. This benefits the overall utility while reducing interactions between UAP units, improving the transferability. To further enhance the effectiveness and transferability of UAPs, we also design a novel data augmentation method named ScMix. ScMix consists of self-mix and cross-mix data transformations, which can effectively increase the multi-modal data diversity while preserving the semantics of the original data. Through comprehensive experiments on various downstream tasks, VLP models, and datasets, we demonstrate that the proposed method is able to achieve effective and transferrable universal adversarial attacks.
翻訳日:2024-05-10 14:12:43 公開日:2024-05-09
# Ditto: MPC上の変圧器の量子化対応セキュア推論

Ditto: Quantization-aware Secure Inference of Transformers upon MPC ( http://arxiv.org/abs/2405.05525v1 )

ライセンス: Link先を確認
Haoqi Wu, Wenjing Fang, Yancheng Zheng, Junming Ma, Jin Tan, Yinggui Wang, Lei Wang, (参考訳) 機密性の高いクライアントデータやTransformerのようなトレーニング済みモデルに対するプライバシの懸念が高まっているため、アテンダントオーバーヘッドにもかかわらずセキュアな推論を可能にするために、セキュアなマルチパーティ計算(MPC)技術が採用されている。 既存の作業は、よりMPCフレンドリな非線形関数近似を用いてオーバーヘッドを削減する。 しかし、平文推論で広く使われている量子化のMPC領域への統合は、まだ不明である。 このギャップを埋めるため、より効率的な量子化対応セキュアトランスフォーマー推論を実現するために、Dittoというフレームワークを提案する。 具体的には、まずトランスフォーマー推論にMPCフレンドリな量子化を導入し、モデルユーティリティを維持するために量子化対応蒸留法を用いる。 次に、量子化に不可欠な型変換をサポートする新しいMPCプリミティブを提案し、セキュアな量子化推論の量子化を考慮したMPC実行を実装した。 このアプローチは計算と通信のオーバーヘッドを大幅に減らし、全体的な効率が向上する。 本稿では,Bert モデルと GPT2 モデルを用いて,Ditto の性能評価を行う。 その結果、Ditto は MPCFormer (ICLR 2023) よりも約3.14\sim 4.40\times$、最先端の PUMA よりも1.44\sim 2.35\times$1.44\sim 235\times$ であることがわかった。

Due to the rising privacy concerns on sensitive client data and trained models like Transformers, secure multi-party computation (MPC) techniques are employed to enable secure inference despite attendant overhead. Existing works attempt to reduce the overhead using more MPC-friendly non-linear function approximations. However, the integration of quantization widely used in plaintext inference into the MPC domain remains unclear. To bridge this gap, we propose the framework named Ditto to enable more efficient quantization-aware secure Transformer inference. Concretely, we first incorporate an MPC-friendly quantization into Transformer inference and employ a quantization-aware distillation procedure to maintain the model utility. Then, we propose novel MPC primitives to support the type conversions that are essential in quantization and implement the quantization-aware MPC execution of secure quantized inference. This approach significantly decreases both computation and communication overhead, leading to improvements in overall efficiency. We conduct extensive experiments on Bert and GPT2 models to evaluate the performance of Ditto. The results demonstrate that Ditto is about $3.14\sim 4.40\times$ faster than MPCFormer (ICLR 2023) and $1.44\sim 2.35\times$ faster than the state-of-the-art work PUMA with negligible utility degradation.
翻訳日:2024-05-10 14:12:43 公開日:2024-05-09
# 教室へのスピン(ing):6-10年物理のための量子スピン活動

Spin(ing) into the classroom: Quantum spin activities for Year 6-10 physics ( http://arxiv.org/abs/2405.05528v1 )

ライセンス: Link先を確認
Kyla Adams, Anastasia Lonshakova, David Blair, David Treagust, Tejinder Kaur, (参考訳) 量子科学はニュースに毎日入っており、学生の興味と好奇心を抱いている。 医療画像、量子コンピューティング、そして多くの未来の技術を支える基本的な量子科学の概念は量子スピンである。 量子スピンは、磁気学や光などの中等教育課程にある多くの物理現象を説明でき、学生にとって大きな動機づけとなる。 ここでは、古典的な角運動量と量子スピンの共通特性を明らかにするために、回転トップとジャイロスコープを用いて教室で量子スピンを教えるためのアクティビティシーケンスを示す。 これらの玩具は、中学生に量子世界への容易に理解可能な窓を提供することができる。 これらの活動に携わる学生は、その内容に満足し、その妥当性を高く評価していると報告した。

Quantum science is in the news daily and engages student interest and curiosity. A fundamental quantum science concept that underpins medical imaging, quantum computing and many future technologies is quantum spin. Quantum spin can explain many physical phenomena that are in the lower secondary school curriculum, such as magnetism and light, making its inclusion a great motivator for students. Here we present an activity sequence for teaching quantum spin in the classroom using spinning tops and gyroscopes to highlight the common properties of classical angular momentum and quantum spin. These toys can provide an easily understood window to the quantum world for lower secondary school students. Students who have engaged in these activities reported enjoying the content and appreciating its relevance.
翻訳日:2024-05-10 14:12:43 公開日:2024-05-09
# NurtureNet: 新生児の視線計測のためのマルチタスクビデオベースアプローチ

NurtureNet: A Multi-task Video-based Approach for Newborn Anthropometry ( http://arxiv.org/abs/2405.05530v1 )

ライセンス: Link先を確認
Yash Khandelwal, Mayur Arvind, Sriram Kumar, Ashish Gupta, Sachin Kumar Danisetty, Piyush Bagad, Anish Madan, Mayank Lunayach, Aditya Annavajjala, Abhishek Maiti, Sansiddh Jain, Aman Dalmia, Namrata Deka, Jerome White, Jigar Doshi, Angjoo Kanazawa, Rahul Panicker, Alpan Raval, Srinivas Rana, Makarand Tapaswi, (参考訳) 新生児の栄養失調は発展途上国で最大の公衆衛生上の問題である。 同定とその後の成長監視は、介入の成功の鍵となる。 しかし、医療制度がアクセス不能で設備不足の傾向にある農村部では、プロトコールの遵守が乏しいため、これは困難である。 我々のゴールは、医療従事者や公衆衛生システムに、接触のない新生児の人文科学の解決策を提供することです。 我々は,マルチタスクモデルであるNurtureNetを提案する。このモデルでは,視覚情報(低コストのスマートフォンで撮影されたビデオ)を表形式で融合し,重量,長さ,頭部周,胸部周といった複数の人文計測値の回帰を行う。 セグメンテーションとキーポイント予測の視覚的プロキシタスクにより、パフォーマンスがさらに向上することを示す。 いくつかの実験を通してモデルの有効性を確立し、相対誤差3.9%、平均絶対誤差114.3gを達成する。 15MBのモデル圧縮により、低価格のスマートフォンにもオフラインでデプロイできる。

Malnutrition among newborns is a top public health concern in developing countries. Identification and subsequent growth monitoring are key to successful interventions. However, this is challenging in rural communities where health systems tend to be inaccessible and under-equipped, with poor adherence to protocol. Our goal is to equip health workers and public health systems with a solution for contactless newborn anthropometry in the community. We propose NurtureNet, a multi-task model that fuses visual information (a video taken with a low-cost smartphone) with tabular inputs to regress multiple anthropometry estimates including weight, length, head circumference, and chest circumference. We show that visual proxy tasks of segmentation and keypoint prediction further improve performance. We establish the efficacy of the model through several experiments and achieve a relative error of 3.9% and mean absolute error of 114.3 g for weight estimation. Model compression to 15 MB also allows offline deployment to low-cost smartphones.
翻訳日:2024-05-10 14:12:43 公開日:2024-05-09
# 拡散モデルを用いたパーソナライズドコンテンツ合成に関する研究

A Survey on Personalized Content Synthesis with Diffusion Models ( http://arxiv.org/abs/2405.05538v1 )

ライセンス: Link先を確認
Xulu Zhang, Xiao-Yong Wei, Wengyu Zhang, Jinlin Wu, Zhaoxiang Zhang, Zhen Lei, Qing Li, (参考訳) 生成モデルの最近の進歩は、コンテンツ生成に大きな影響を与え、パーソナライズド・コンテント・シンセサイザー(PCS)の出現につながった。 ユーザが提供するサンプルの小さなセットで、PCSは特定のユーザ定義のプロンプトに対象をカスタマイズすることを目的としている。 過去2年間で150以上の方法が提案されている。 しかし、既存の調査は主にテキスト・ツー・イメージ・ジェネレーションに重点を置いており、PCSに最新の要約を提供するものは少ない。 本稿では,PCSの拡散モデルに着目した包括的調査を行う。 具体的には,PCS研究の一般的なフレームワークを紹介し,最適化に基づくアプローチと学習に基づくアプローチに大きく分類することができる。 さらに、これらの方法論を分類し、分析し、その強み、限界、そして重要な技術について議論する。 さらに、私たちは、パーソナライズされたオブジェクト生成、顔合成、スタイルのパーソナライゼーションなど、フィールド内の特別なタスクを探求し、それらの固有の課題とイノベーションを強調します。 進歩を奨励しているにもかかわらず、本研究では、過剰適合や、主観的忠実度とテキストアライメントのトレードオフといった課題についても分析する。 この詳細な概要と分析を通して,PCSの開発を進めるための今後の方向性を提案する。

Recent advancements in generative models have significantly impacted content creation, leading to the emergence of Personalized Content Synthesis (PCS). With a small set of user-provided examples, PCS aims to customize the subject of interest to specific user-defined prompts. Over the past two years, more than 150 methods have been proposed. However, existing surveys mainly focus on text-to-image generation, with few providing up-to-date summaries on PCS. This paper offers a comprehensive survey of PCS, with a particular focus on the diffusion models. Specifically, we introduce the generic frameworks of PCS research, which can be broadly classified into optimization-based and learning-based approaches. We further categorize and analyze these methodologies, discussing their strengths, limitations, and key techniques. Additionally, we delve into specialized tasks within the field, such as personalized object generation, face synthesis, and style personalization, highlighting their unique challenges and innovations. Despite encouraging progress, we also present an analysis of the challenges such as overfitting and the trade-off between subject fidelity and text alignment. Through this detailed overview and analysis, we propose future directions to advance the development of PCS.
翻訳日:2024-05-10 14:12:43 公開日:2024-05-09
# CrashJS: 自動クラッシュ再現のためのNodeJSベンチマーク

CrashJS: A NodeJS Benchmark for Automated Crash Reproduction ( http://arxiv.org/abs/2405.05541v1 )

ライセンス: Link先を確認
Philip Oliver, Jens Dietrich, Craig Anslow, Michael Homer, (参考訳) ソフトウェアのバグは、しばしばソフトウェアクラッシュを引き起こし、アメリカの企業は年間2.08兆ドル以上のコストがかかる。 ACR(Automated Crash Reproduction)は、クラッシュを正常に再現するユニットテストを生成することを目的としている。 ACRの目標は、デバッグを支援することで、バグがプログラム内にある場所を特定する別のツールを提供することである。 現在のACRの主なアプローチは、プログラム内でスローされたエラーからスタックトレースを複製することである。 現在、ACRはC、Java、Python向けに開発されているが、JavaScriptプログラムをターゲットにしたツールは存在しない。 JavaScript ACRツールの開発を支援するために、いくつかのソースから453のNode.jsがクラッシュしたベンチマークデータセットであるCrashJSを提案する。 CrashJSには、実世界のテストと合成テスト、複数のプロジェクト、クラッシュとターゲットプログラムの両方でさまざまなレベルの複雑さが含まれている。

Software bugs often lead to software crashes, which cost US companies upwards of $2.08 trillion annually. Automated Crash Reproduction (ACR) aims to generate unit tests that successfully reproduce a crash. The goal of ACR is to aid developers with debugging, providing them with another tool to locate where a bug is in a program. The main approach ACR currently takes is to replicate a stack trace from an error thrown within a program. Currently, ACR has been developed for C, Java, and Python, but there are no tools targeting JavaScript programs. To aid the development of JavaScript ACR tools, we propose CrashJS: a benchmark dataset of 453 Node.js crashes from several sources. CrashJS includes a mix of real-world and synthesised tests, multiple projects, and different levels of complexity for both crashes and target programs.
翻訳日:2024-05-10 14:12:43 公開日:2024-05-09
# 深層階層グラフアライメントカーネル

Deep Hierarchical Graph Alignment Kernels ( http://arxiv.org/abs/2405.05545v1 )

ライセンス: Link先を確認
Shuhao Tang, Hao Tian, Xiaofeng Cao, Wei Ye, (参考訳) 典型的なR-畳み込みグラフカーネルは、グラフを非同型部分構造に分解して比較するカーネル関数を呼び出している。 しかし、これらのサブ構造間の暗黙的な類似性や位相的位置情報を見渡すと、それらの性能は制限される。 本稿では,この問題を解決するために,Deep Hierarchical Graph Alignment Kernels (DHGAK)を提案する。 具体的には、関係部分構造は、その深い埋め込み空間におけるクラスタ分布に階層的に整列している。 同じクラスタに属するサブ構造は、カーネル平均埋め込みによってグラフ特徴写像が導出される再生カーネルヒルベルト空間(RKHS)において、同じ特徴写像に割り当てられる。 理論的解析により、DHGAKは正の半定値であり、RKHSにおいて線形分離性を有することが保証される。 各種ベンチマークデータセットにおける最先端グラフカーネルとの比較は,DHGAKの有効性と有効性を示している。 コードはGithub(https://github.com/EWesternRa/DHGAK)で公開されている。

Typical R-convolution graph kernels invoke the kernel functions that decompose graphs into non-isomorphic substructures and compare them. However, overlooking implicit similarities and topological position information between those substructures limits their performances. In this paper, we introduce Deep Hierarchical Graph Alignment Kernels (DHGAK) to resolve this problem. Specifically, the relational substructures are hierarchically aligned to cluster distributions in their deep embedding space. The substructures belonging to the same cluster are assigned the same feature map in the Reproducing Kernel Hilbert Space (RKHS), where graph feature maps are derived by kernel mean embedding. Theoretical analysis guarantees that DHGAK is positive semi-definite and has linear separability in the RKHS. Comparison with state-of-the-art graph kernels on various benchmark datasets demonstrates the effectiveness and efficiency of DHGAK. The code is available at Github (https://github.com/EWesternRa/DHGAK).
翻訳日:2024-05-10 14:12:43 公開日:2024-05-09
# 同時従属代数学におけるデータ再構成

Data reification in a concurrent rely-guarantee algebra ( http://arxiv.org/abs/2405.05546v1 )

ライセンス: Link先を確認
Larissa A. Meinicke, Ian J. Hayes, Cliff B. Jones, (参考訳) データ再構成は、より効率的な具体的な表現を使用するプログラムの開発履歴を明確かつ段階的に提供することができる。 シーケンシャルプログラムのためのデータリフィケーション(あるいは「リファインメント」)技術が確立されている。 本稿では、これらのアイデアを並行性、特に並行性に関する従属論を支持する代数理論に適用する。 例として、Galler-Fischer同値関係データ構造の同時バージョンを用いる。

Specifications of significant systems can be made short and perspicuous by using abstract data types; data reification can provide a clear, stepwise, development history of programs that use more efficient concrete representations. Data reification (or "refinement") techniques for sequential programs are well established. This paper applies these ideas to concurrency, in particular, an algebraic theory supporting rely-guarantee reasoning about concurrency. A concurrent version of the Galler-Fischer equivalence relation data structure is used as an example.
翻訳日:2024-05-10 14:12:43 公開日:2024-05-09
# KNNとRF分類を組み合わせた物体検出モデル

The object detection model uses combined extraction with KNN and RF classification ( http://arxiv.org/abs/2405.05551v1 )

ライセンス: Link先を確認
Florentina Tatrin Kurniati, Daniel HF Manongga, Irwan Sembiring, Sutarto Wijono, Roy Rudolf Huizen, (参考訳) オブジェクト検出は様々な分野で重要な役割を果たす。 回転やテクスチャの変化を経験する2Dオブジェクトの検出モデルの開発は難しい。 本研究では,提案モデルの初期段階において,グレーレベル共起行列 (GLCM) と局所二分パターン (LBP) のテクスチャ特徴抽出を統合し,特徴ベクトルを求める。 次の段階はk-nearest neighbors (KNN) とランダムフォレスト (RF) と投票アンサンブル (VE) を使って特徴を分類することである。 システムテストでは4,437枚の2D画像のデータセットを使用し、KNNの精度は92.7%、F1スコアは92.5%、RF性能は低かった。 GLCM機能は両方のアルゴリズムのパフォーマンスを改善するが、KNNはより一貫性がある。 VEアプローチは、93.9%の精度、F1スコア93.8%の最高のパフォーマンスを提供する。 本研究は,GLCMとLCPを特徴ベクトルとして組み合わせた新しいアプローチと,分類のためのVEによる物体検出の分野に寄与する。

Object detection plays an important role in various fields. Developing detection models for 2D objects that experience rotation and texture variations is a challenge. In this research, the initial stage of the proposed model integrates the gray-level co-occurrence matrix (GLCM) and local binary patterns (LBP) texture feature extraction to obtain feature vectors. The next stage is classifying features using k-nearest neighbors (KNN) and random forest (RF), as well as voting ensemble (VE). System testing used a dataset of 4,437 2D images, the results for KNN accuracy were 92.7% and F1-score 92.5%, while RF performance was lower. Although GLCM features improve performance on both algorithms, KNN is more consistent. The VE approach provides the best performance with an accuracy of 93.9% and an F1 score of 93.8%, this shows the effectiveness of the ensemble technique in increasing object detection accuracy. This study contributes to the field of object detection with a new approach combining GLCM and LBP as feature vectors as well as VE for classification
翻訳日:2024-05-10 14:12:43 公開日:2024-05-09
# 相互作用意図予測のための双方向プログレッシブトランス

Bidirectional Progressive Transformer for Interaction Intention Anticipation ( http://arxiv.org/abs/2405.05552v1 )

ライセンス: Link先を確認
Zichen Zhang, Hongchen Luo, Wei Zhai, Yang Cao, Yu Kang, (参考訳) 相互作用意図予測は、将来のハンドトラジェクトリと相互作用ホットスポットを共同で予測することを目的としている。 既存の研究はしばしば、軌道予測と相互作用ホットスポット予測を別のタスクとして扱うか、単に軌道が相互作用ホットスポットに与える影響を考慮し、時間の経過とともに予測エラーが蓄積された。 しかし、ハンドトラジェクトリーと相互作用ホットスポットの間には深い固有のつながりがあり、両者の相互修正を連続的に行うことができる。 この関係を基盤として、双方向プログレッシブ・トランスフォーマー(BOT)が確立され、双方向プログレッシブ・メカニズムが相互作用意図の予測に導入される。 当初、BOTは、最初の観察フレームから空間-時間再構成モジュールを通して空間情報の利用を最大化し、一対一のビデオにおける視界の変化による衝突を軽減した。 その後、2つの独立した予測分岐に基づいて、双方向プログレッシブ・エンハンスメント・モジュールを導入し、エラー蓄積を最小限に抑えるために、時間とともにハンドトラジェクトリと相互作用ホットスポットの予測を相互に改善する。 最後に, 自然行動における本質的ランダム性を認め, トラジェクトリ確率単位とC-VAEを用いて, トラジェクトリと相互作用ホットスポットにそれぞれ適切な不確実性を導入する。 提案手法は,Epic-Kitchens-100, EGO4D, EGTEA Gaze+の3つのベンチマークデータセットに対して, 複雑なシナリオにおいて優れていることを示す。

Interaction intention anticipation aims to jointly predict future hand trajectories and interaction hotspots. Existing research often treated trajectory forecasting and interaction hotspots prediction as separate tasks or solely considered the impact of trajectories on interaction hotspots, which led to the accumulation of prediction errors over time. However, a deeper inherent connection exists between hand trajectories and interaction hotspots, which allows for continuous mutual correction between them. Building upon this relationship, a novel Bidirectional prOgressive Transformer (BOT), which introduces a Bidirectional Progressive mechanism into the anticipation of interaction intention is established. Initially, BOT maximizes the utilization of spatial information from the last observation frame through the Spatial-Temporal Reconstruction Module, mitigating conflicts arising from changes of view in first-person videos. Subsequently, based on two independent prediction branches, a Bidirectional Progressive Enhancement Module is introduced to mutually improve the prediction of hand trajectories and interaction hotspots over time to minimize error accumulation. Finally, acknowledging the intrinsic randomness in human natural behavior, we employ a Trajectory Stochastic Unit and a C-VAE to introduce appropriate uncertainty to trajectories and interaction hotspots, respectively. Our method achieves state-of-the-art results on three benchmark datasets Epic-Kitchens-100, EGO4D, and EGTEA Gaze+, demonstrating superior in complex scenarios.
翻訳日:2024-05-10 14:12:43 公開日:2024-05-09
# 車線検出におけるロバストな物理世界バックドア攻撃に向けて

Towards Robust Physical-world Backdoor Attacks on Lane Detection ( http://arxiv.org/abs/2405.05553v1 )

ライセンス: Link先を確認
Xinwei Zhang, Aishan Liu, Tianyuan Zhang, Siyuan Liang, Xianglong Liu, (参考訳) ディープラーニングに基づく車線検出(LD)は、適応クルーズ制御のような自律走行システムにおいて重要な役割を果たす。 しかし、バックドア攻撃には弱い。 既存のLDのバックドア攻撃手法は、運転視点(例えば、視点変換)や環境条件(例えば、天気や照明の変化)の変化など、動的なシーン要因を考慮できないため、動的現実のシナリオにおいて限られた効果を示す。 本稿では,現実の動的シーン要因の変化に対処するために,LDの動的シーン適応バックドアアタックであるBadLANEを紹介する。 運転視点を変えることで生じる課題に対処するため,無形画素からなる非晶質トリガパターンを提案する。 このトリガー設計により、バックドアは道路やレンズ上の泥点や汚染の様々な形態や形状によって活性化され、運転中の車両の視界の変化に適応することができる。 環境変化の影響を軽減するため,異なる環境条件に合わせたメタジェネレータを訓練するためのメタ学習フレームワークを設計する。 これらの発電機は、バックドア注入のためのトリガーパターンの初期化として、気象や照明条件などの多様な環境情報を組み込んだメタトリガーを生成し、動的環境への適応を可能にする。 デジタルドメインと物理ドメインの両方で広く使われているLDモデルに対する大規模な実験は、攻撃の有効性を検証し、他のベースライン(アタック成功率の平均で+25.15\%)を著しく上回った。 私たちのコードは新聞で公開されます。

Deep learning-based lane detection (LD) plays a critical role in autonomous driving systems, such as adaptive cruise control. However, it is vulnerable to backdoor attacks. Existing backdoor attack methods on LD exhibit limited effectiveness in dynamic real-world scenarios, primarily because they fail to consider dynamic scene factors, including changes in driving perspectives (e.g., viewpoint transformations) and environmental conditions (e.g., weather or lighting changes). To tackle this issue, this paper introduces BadLANE, a dynamic scene adaptation backdoor attack for LD designed to withstand changes in real-world dynamic scene factors. To address the challenges posed by changing driving perspectives, we propose an amorphous trigger pattern composed of shapeless pixels. This trigger design allows the backdoor to be activated by various forms or shapes of mud spots or pollution on the road or lens, enabling adaptation to changes in vehicle observation viewpoints during driving. To mitigate the effects of environmental changes, we design a meta-learning framework to train meta-generators tailored to different environmental conditions. These generators produce meta-triggers that incorporate diverse environmental information, such as weather or lighting conditions, as the initialization of the trigger patterns for backdoor implantation, thus enabling adaptation to dynamic environments. Extensive experiments on various commonly used LD models in both digital and physical domains validate the effectiveness of our attacks, outperforming other baselines significantly (+25.15\% on average in Attack Success Rate). Our codes will be available upon paper publication.
翻訳日:2024-05-10 14:12:43 公開日:2024-05-09
# X形状状態に対するインターフェロメトリパワーの急激な変化

Sudden change of interferometric power for X shape states ( http://arxiv.org/abs/2405.05560v1 )

ライセンス: Link先を確認
D. Zhu, F. L. Zhang, J. L. Chen, (参考訳) 量子干渉パワー(英: Quantum Interferometric Power、IP)は、不協和測度である。 我々は,異なる雑音環境下での2量子X形状状態に対するIPのダイナミクスについて検討した。 本研究は,IPが急激な変化を示し,一方の量子チャネルが急激な変化を起こすのに十分であることを示す。 特に、突然の量子不協和が変化しない初期状態は振幅雑音のダイナミクスの下で突然のIP変化を示すが、逆は正しくない。 さらに,2種類の複合雑音下でのIPのダイナミクスについても検討する。 また,このような複合雑音下でのIPの急激な変化も確認した。

Quantum interferometric power (IP) is a discordlike measure. We study the dynamics of IP for two-qubit X shape states under different noisy environments. Our study shows that IP exhibits sudden change, and one side quantum channel is enough for the occurrence of a sudden change of IP. In particular, we show that the initial state having no sudden change of quantum discord exhibits a sudden change of IP under the dynamics of amplitude noise, but the converse is not true. Besides, we also investigate the dynamics of IP under two different kinds of composite noises. Our results also confirm that sudden change of IP occurs under such composite noises.
翻訳日:2024-05-10 14:02:33 公開日:2024-05-09
# 加速MRI再構成のための結合エッジ最適化深部展開網

Joint Edge Optimization Deep Unfolding Network for Accelerated MRI Reconstruction ( http://arxiv.org/abs/2405.05564v1 )

ライセンス: Link先を確認
Yue Cai, Yu Luo, Jie Ling, Shun Yao, (参考訳) 磁気共鳴イメージング(MRI)は広く用いられている画像技術であるが、長い走査時間に制限がある。 従来のモデルベースおよび学習ベースのMRI再構成手法は有望な性能を示したが、そのほとんどがMRI画像以前のエッジを十分に活用していないため、まだ改善の余地がたくさんある。 本稿では、MR画像とエッジの両方に固有の個別正規化器を組み込むだけでなく、協調正規化器を強制してそれらの相関関係を効果的に確立する結合エッジ最適化モデルを構築する。 具体的には、エッジ情報を非エッジ確率マップで定義し、最適化プロセス中に画像再構成を誘導する。 一方、画像やエッジに関連するレギュレータは、それぞれ固有のアプリオリ情報を自動的に学習するために、深く展開するネットワークに組み込まれており、様々なサンプリング要因で異なるサンプリング方式のマルチコイルおよびシングルコイルMRIデータからなる数値実験により、提案手法が他の比較手法よりも優れていることを示す。

Magnetic Resonance Imaging (MRI) is a widely used imaging technique, however it has the limitation of long scanning time. Though previous model-based and learning-based MRI reconstruction methods have shown promising performance, most of them have not fully utilized the edge prior of MR images, and there is still much room for improvement. In this paper, we build a joint edge optimization model that not only incorporates individual regularizers specific to both the MR image and the edges, but also enforces a co-regularizer to effectively establish a stronger correlation between them. Specifically, the edge information is defined through a non-edge probability map to guide the image reconstruction during the optimization process. Meanwhile, the regularizers pertaining to images and edges are incorporated into a deep unfolding network to automatically learn their respective inherent a-priori information.Numerical experiments, consisting of multi-coil and single-coil MRI data with different sampling schemes at a variety of sampling factors, demonstrate that the proposed method outperforms other compared methods.
翻訳日:2024-05-10 14:02:33 公開日:2024-05-09
# 人間の判断から予測モデルへ:コード混在文の受容性について

From Human Judgements to Predictive Models: Unravelling Acceptability in Code-Mixed Sentences ( http://arxiv.org/abs/2405.05572v1 )

ライセンス: Link先を確認
Prashant Kodali, Anmol Goel, Likhith Asapu, Vamshi Krishna Bonagiri, Anirudh Govil, Monojit Choudhury, Manish Shrivastava, Ponnurangam Kumaraguru, (参考訳) コード混在文の分析や生成のための現在の計算手法は、コード混在文の「自然性」や「受容性」を明示的にモデル化するのではなく、許容されるコード混在文の分布を反映するためにコーパスを訓練している。 コードミックステキストの受理性に対する人間の判断のモデル化は、自然なコードミックステキストを識別し、コードミックステキストの品質管理を可能にする。 この目的のために、英語ヒンディー語(en-hi)のコード混合テキストに対する人間の受容可能性判断を含むデータセットであるClineを構築した。 Clineは16,642文の文章で、合成生成されたコードミックステキストとオンラインソーシャルメディアから収集されたサンプルという2つのソースから得られたサンプルで構成されている。 解析の結果,CMIやスイッチポイント数,Burstinesなどの一般的なコード混合指標は,コード混在コーパスのフィルタリング/校正/比較に使用されており,人間の受理性判定と相関が低く,データセットの必要性を裏付けるものであることが確認された。 Clineを用いた実験では、コードミキシングのメトリクスのみに基づいて訓練された単純な多層パーセプトロン(MLP)モデルは、微調整された事前訓練された多言語言語モデル(MLLM)により性能が向上することを示した。 具体的には、XLM-RobertaとBerniceは、挑戦的なデータ設定において、さまざまな設定でIndicBERTを上回っている。 ChatGPT の 0 および fewshot 機能と比較すると、MLLM はChatGPT より優れたデータで微調整され、コード混合タスクの改善のスコープを提供する。 我々のモデルチェックポイントを用いた英語-ヒンディー語から英語-テルグ語の受容性判定へのゼロショット変換は、ランダムなベースラインよりも優れていることを証明し、他のコード混合言語ペアに適用し、さらなる研究の道筋を提供する。 我々は、人間のアノテーション付きデータセット、トレーニングされたチェックポイント、コードミックスコーパス、データ生成とモデルトレーニングのためのコードを公開した。

Current computational approaches for analysing or generating code-mixed sentences do not explicitly model "naturalness" or "acceptability" of code-mixed sentences, but rely on training corpora to reflect distribution of acceptable code-mixed sentences. Modelling human judgement for the acceptability of code-mixed text can help in distinguishing natural code-mixed text and enable quality-controlled generation of code-mixed text. To this end, we construct Cline - a dataset containing human acceptability judgements for English-Hindi (en-hi) code-mixed text. Cline is the largest of its kind with 16,642 sentences, consisting of samples sourced from two sources: synthetically generated code-mixed text and samples collected from online social media. Our analysis establishes that popular code-mixing metrics such as CMI, Number of Switch Points, Burstines, which are used to filter/curate/compare code-mixed corpora have low correlation with human acceptability judgements, underlining the necessity of our dataset. Experiments using Cline demonstrate that simple Multilayer Perceptron (MLP) models trained solely on code-mixing metrics are outperformed by fine-tuned pre-trained Multilingual Large Language Models (MLLMs). Specifically, XLM-Roberta and Bernice outperform IndicBERT across different configurations in challenging data settings. Comparison with ChatGPT's zero and fewshot capabilities shows that MLLMs fine-tuned on larger data outperform ChatGPT, providing scope for improvement in code-mixed tasks. Zero-shot transfer from English-Hindi to English-Telugu acceptability judgments using our model checkpoints proves superior to random baselines, enabling application to other code-mixed language pairs and providing further avenues of research. We publicly release our human-annotated dataset, trained checkpoints, code-mix corpus, and code for data generation and model training.
翻訳日:2024-05-10 14:02:33 公開日:2024-05-09
# ポジティヴトリガーを用いた任意目標ラベルに対するポジショニングによるバックドアアタック

Poisoning-based Backdoor Attacks for Arbitrary Target Label with Positive Triggers ( http://arxiv.org/abs/2405.05573v1 )

ライセンス: Link先を確認
Binxiao Huang, Jason Chun Lok, Chang Liu, Ngai Wong, (参考訳) 中毒ベースのバックドア攻撃は、ディープニューラルネットワーク(DNN)トレーニングのデータ準備段階における脆弱性を露呈する。 有毒データセットでトレーニングされたDNNは、バックドアに埋め込まれ、クリーンなデータに対して良好に動作し、トリガーが適用されるたびに悪意のある予測を出力する。 提案手法は,入力データに含まれる豊富な情報を利用してラベルマッピングを出力するため,クリーンデータセットからトレーニングしたネットワークをトリガージェネレータとして利用し,従来の手法と比較してバックドア攻撃の成功率を大幅に向上させる。 具体的には,敵対的手法にインスパイアされた新たなトリガーの分類を提案し,PPT(Positive Triggers)を用いたマルチラベルおよびマルチペイロードのPoisoningベースのバックドアアタックを開発した。 有毒なデータセットで分類器を訓練した後、感染した分類器がターゲットラベルへの任意の入力を高い確率で予測できるように、入力ラベル対応のトリガを生成することができる。 汚いラベル設定とクリーンラベル設定の両方で、SVHN、CIFAR10、GTSRB、Tiny ImageNetなど、さまざまなデータセットで精度を犠牲にすることなく、提案した攻撃が高い攻撃成功率を達成することを実証的に示す。 さらに、PT攻撃は様々な古典的なバックドア防御を損なう可能性があり、その効果が証明されている。

Poisoning-based backdoor attacks expose vulnerabilities in the data preparation stage of deep neural network (DNN) training. The DNNs trained on the poisoned dataset will be embedded with a backdoor, making them behave well on clean data while outputting malicious predictions whenever a trigger is applied. To exploit the abundant information contained in the input data to output label mapping, our scheme utilizes the network trained from the clean dataset as a trigger generator to produce poisons that significantly raise the success rate of backdoor attacks versus conventional approaches. Specifically, we provide a new categorization of triggers inspired by the adversarial technique and develop a multi-label and multi-payload Poisoning-based backdoor attack with Positive Triggers (PPT), which effectively moves the input closer to the target label on benign classifiers. After the classifier is trained on the poisoned dataset, we can generate an input-label-aware trigger to make the infected classifier predict any given input to any target label with a high possibility. Under both dirty- and clean-label settings, we show empirically that the proposed attack achieves a high attack success rate without sacrificing accuracy across various datasets, including SVHN, CIFAR10, GTSRB, and Tiny ImageNet. Furthermore, the PPT attack can elude a variety of classical backdoor defenses, proving its effectiveness.
翻訳日:2024-05-10 14:02:33 公開日:2024-05-09
# 航空機全天候クロスウインドランディングのための正規化空間変圧器ネットワークを用いた視覚言語モデル

Vision-Language Modeling with Regularized Spatial Transformer Networks for All Weather Crosswind Landing of Aircraft ( http://arxiv.org/abs/2405.05574v1 )

ライセンス: Link先を確認
Debabrata Pal, Anvita Singh, Saumya Saumya, Shouvik Das, (参考訳) HVS(Human Vision System)は、被写界深度を知覚し、有能な情報を抽出する本質的な能力によって、パイロットがオートランドアプローチで手動着陸を行うように刺激する。 しかし、厳しい天候は視界の障害を生じさせ、パイロットは最低判定高度に達する前に滑走路要素を明確に把握しなければならない。 手動着陸でパイロットを助けるために、滑走路要素の局所化に適した視覚ベースのシステムは、特に航空機のカメラ画像の投影歪みによる横風時に影響を受けます。 これに対抗するために,新しい拡散蒸留損失を用いた気象蒸留モデルと,即時ベースの気候拡散ネットワークを統合することを提案する。 正確には、拡散モデルは気候条件の着地画像を合成し、気象蒸留モデルはそれらの視覚的劣化をクリアすることで逆マッピングを学習する。 そして,このクロスウインドランディングシナリオに対処するため,新しい規則化された空間変圧器ネットワーク (RuSTaN) は,下流の滑走路物体検出器による局所誤差を最小限に抑える自己教師付き学習を用いて,射影歪みの正確な校正を学習する。 最後に、私たちは、画像ベースエアクラフトランディングデータセット(AIRLAD)をキュレートするために、世界で最も忙しい空港で、クリアデイランディングシナリオをシミュレートし、このデータセットを使用してパフォーマンスをベンチマークするために、我々のコントリビューションを実験的に検証した。

The intrinsic capability to perceive depth of field and extract salient information by the Human Vision System (HVS) stimulates a pilot to perform manual landing over an autoland approach. However, harsh weather creates visibility hindrances, and a pilot must have a clear view of runway elements before the minimum decision altitude. To help a pilot in manual landing, a vision-based system tailored to localize runway elements likewise gets affected, especially during crosswind due to the projective distortion of aircraft camera images. To combat this, we propose to integrate a prompt-based climatic diffusion network with a weather distillation model using a novel diffusion-distillation loss. Precisely, the diffusion model synthesizes climatic-conditioned landing images, and the weather distillation model learns inverse mapping by clearing those visual degradations. Then, to tackle the crosswind landing scenario, a novel Regularized Spatial Transformer Networks (RuSTaN) learns to accurately calibrate for projective distortion using self-supervised learning, which minimizes localization error by the downstream runway object detector. Finally, we have simulated a clear-day landing scenario at the busiest airport globally to curate an image-based Aircraft Landing Dataset (AIRLAD) and experimentally validated our contributions using this dataset to benchmark the performance.
翻訳日:2024-05-10 14:02:33 公開日:2024-05-09
# One vs. Many: 複数の不正かつ一貫性のないAIジェネレーションからの正確な情報を補完する

One vs. Many: Comprehending Accurate Information from Multiple Erroneous and Inconsistent AI Generations ( http://arxiv.org/abs/2405.05581v1 )

ライセンス: Link先を確認
Yoonjoo Lee, Kihoon Son, Tae Soo Kim, Jisu Kim, John Joon Young Chung, Eytan Adar, Juho Kim, (参考訳) 大言語モデル(LLM)は非決定論的であるため、同じ入力は異なる出力を生成することができ、そのうちのいくつかは誤りまたは幻覚である。 もし再び実行すれば、LLMは自身を修正し、正しい答えを生成することができる。 残念ながら、ほとんどのLLMシステムは、ユーザーが受け入れるかどうかに関わらず、単一の結果に頼っている。 LLMが複数の出力を生成することは、相違点や代替案を特定するのに役立つかもしれない。 しかし、ユーザがコンフリクトや矛盾をどう解釈するかは明らかではない。 この目的のために、ユーザがAIモデルをどのように認識し、複数の、潜在的に一貫性のない出力を受けた時に生成された情報を理解しているかを検討する。 予備研究により,5種類の出力不整合を同定した。 これらのカテゴリに基づいて、参加者に1つ以上のLSM生成経路を情報探索質問に対して与える調査(N=252)を行った。 その結果、複数のLCM出力内の不整合は、参加者の認識するAI能力を低下させるとともに、与えられた情報の理解を増大させることがわかった。 特に,この不整合の肯定的影響は,2節の読解者にとって,3節の読解者よりも有意であった。 これらの結果から, LLM出力の不整合を欠点として扱うのではなく, これらのモデルの限界を透過的に示し, 重要なLCM利用を促進する可能性を明らかにすることが示唆された。

As Large Language Models (LLMs) are nondeterministic, the same input can generate different outputs, some of which may be incorrect or hallucinated. If run again, the LLM may correct itself and produce the correct answer. Unfortunately, most LLM-powered systems resort to single results which, correct or not, users accept. Having the LLM produce multiple outputs may help identify disagreements or alternatives. However, it is not obvious how the user will interpret conflicts or inconsistencies. To this end, we investigate how users perceive the AI model and comprehend the generated information when they receive multiple, potentially inconsistent, outputs. Through a preliminary study, we identified five types of output inconsistencies. Based on these categories, we conducted a study (N=252) in which participants were given one or more LLM-generated passages to an information-seeking question. We found that inconsistency within multiple LLM-generated outputs lowered the participants' perceived AI capacity, while also increasing their comprehension of the given information. Specifically, we observed that this positive effect of inconsistencies was most significant for participants who read two passages, compared to those who read three. Based on these findings, we present design implications that, instead of regarding LLM output inconsistencies as a drawback, we can reveal the potential inconsistencies to transparently indicate the limitations of these models and promote critical LLM usage.
翻訳日:2024-05-10 14:02:33 公開日:2024-05-09
# OpenFactCheck: LLMのファクチュアリティ評価のための統一フレームワーク

OpenFactCheck: A Unified Framework for Factuality Evaluation of LLMs ( http://arxiv.org/abs/2405.05583v1 )

ライセンス: Link先を確認
Yuxia Wang, Minghan Wang, Hasan Iqbal, Georgi Georgiev, Jiahui Geng, Preslav Nakov, (参考訳) 大規模言語モデル(LLM)が現実世界の様々なアプリケーションにまたがって使われるようになると、出力の実際の正確性を検証するメカニズムが要求される。 困難は、オープンドメインにおける自由形式の応答の事実性を評価することである。 また、異なる論文では、異なる評価ベンチマークと測定を使用しており、比較が難しく、今後の進歩を妨げている。 これらの問題を緩和するため、我々はLLMのための統合現実性評価フレームワークであるOpenFactCheckを提案する。 OpenFactCheckは3つのモジュールから構成される。 (i)CUSTCHECKERにより、自動ファクトチェッカーを容易にカスタマイズし、文書やクレームの事実的正当性を検証することができる。 (二)LLMEVAL(統一評価フレームワーク)は、LLMの事実性を様々な観点から公平に評価し、 三)CHECKEREVALは、人手による注釈付きデータセットを用いて、自動ファクトチェッカーの検証結果の信頼性を高めるための拡張可能なソリューションである。 OpenFactCheckはhttps://github.com/yuxiaw/OpenFactCheck.comで公開されている。

The increased use of large language models (LLMs) across a variety of real-world applications calls for mechanisms to verify the factual accuracy of their outputs. Difficulties lie in assessing the factuality of free-form responses in open domains. Also, different papers use disparate evaluation benchmarks and measurements, which renders them hard to compare and hampers future progress. To mitigate these issues, we propose OpenFactCheck, a unified factuality evaluation framework for LLMs. OpenFactCheck consists of three modules: (i) CUSTCHECKER allows users to easily customize an automatic fact-checker and verify the factual correctness of documents and claims, (ii) LLMEVAL, a unified evaluation framework assesses LLM's factuality ability from various perspectives fairly, and (iii) CHECKEREVAL is an extensible solution for gauging the reliability of automatic fact-checkers' verification results using human-annotated datasets. OpenFactCheck is publicly released at https://github.com/yuxiaw/OpenFactCheck.
翻訳日:2024-05-10 14:02:33 公開日:2024-05-09
# 深部映像行動認識のためのバックボーンの検討

A Survey on Backbones for Deep Video Action Recognition ( http://arxiv.org/abs/2405.05584v1 )

ライセンス: Link先を確認
Zixuan Tang, Youjun Zhao, Yuhang Wen, Mengyuan Liu, (参考訳) アクション認識はインタラクティブなメタバースを構築する上で重要な技術である。 ディープラーニングの急速な発展に伴い、行動認識の手法も大きな進歩を遂げた。 研究者は、複数の視点を参照するバックボーンを設計し、実装する。 本稿では,ディープニューラルネットワークに基づく行動認識手法について概説する。 これらの手法を3つの部分で紹介する。 1)2ストリームネットワークとその変種,特に本稿では,RGBビデオフレームと光フローモダリティを入力として使用する。 2 異なる動き情報を抽出しながらRGBのモダリティを直接活用しようとする3次元畳み込みネットワークは、もはや不要である。 3) 自然言語処理からコンピュータビジョンや映像理解へモデルを導入するトランスフォーマーベースの手法。 このレビューで客観的な視点を提供し、将来の研究への参考となることを願っています。

Action recognition is a key technology in building interactive metaverses. With the rapid development of deep learning, methods in action recognition have also achieved great advancement. Researchers design and implement the backbones referring to multiple standpoints, which leads to the diversity of methods and encountering new challenges. This paper reviews several action recognition methods based on deep neural networks. We introduce these methods in three parts: 1) Two-Streams networks and their variants, which, specifically in this paper, use RGB video frame and optical flow modality as input; 2) 3D convolutional networks, which make efforts in taking advantage of RGB modality directly while extracting different motion information is no longer necessary; 3) Transformer-based methods, which introduce the model from natural language processing into computer vision and video understanding. We offer objective sights in this review and hopefully provide a reference for future research.
翻訳日:2024-05-10 14:02:33 公開日:2024-05-09
# ショートカットを超えてナビゲートする - 神経崩壊のレンズを通した脱バイアス学習

Navigate Beyond Shortcuts: Debiased Learning through the Lens of Neural Collapse ( http://arxiv.org/abs/2405.05587v1 )

ライセンス: Link先を確認
Yining Wang, Junjie Sun, Chenyue Wang, Mi Zhang, Min Yang, (参考訳) 近年の研究では、ニューラルネットワークが特徴空間とトレーニング対象との適切な相関を確立するとき、それらの最終層の特徴と分類器の重みが、安定で対称な構造に崩壊する、という興味深い現象が指摘されている。 本稿では,不均衡な属性を持つバイアス付きデータセットに対して,ニューラル・コラプス(Neural Collapse)の調査を拡大する。 モデルがショートカット学習の落とし穴に容易に陥り、訓練の初期段階において偏りのない特徴空間を形成し、一般化能力の逆転と制限が困難になるのを観察する。 バイアス付き分類の根本原因に対処するため,近年の素数学習のインスピレーションに追随し,追加の訓練複雑性を伴わない回避ショートカット学習フレームワークを提案する。 ニューラル・コラプス構造に基づくよく設計されたショートカット素数では、モデルは単純なショートカットの追求を省略し、本質的な相関関係を自然に捉えることが推奨される。 実験結果から,本手法はトレーニング中の収束性を向上し,実世界の偏りのあるデータセットに対して最先端の一般化性能を実現することが示された。

Recent studies have noted an intriguing phenomenon termed Neural Collapse, that is, when the neural networks establish the right correlation between feature spaces and the training targets, their last-layer features, together with the classifier weights, will collapse into a stable and symmetric structure. In this paper, we extend the investigation of Neural Collapse to the biased datasets with imbalanced attributes. We observe that models will easily fall into the pitfall of shortcut learning and form a biased, non-collapsed feature space at the early period of training, which is hard to reverse and limits the generalization capability. To tackle the root cause of biased classification, we follow the recent inspiration of prime training, and propose an avoid-shortcut learning framework without additional training complexity. With well-designed shortcut primes based on Neural Collapse structure, the models are encouraged to skip the pursuit of simple shortcuts and naturally capture the intrinsic correlations. Experimental results demonstrate that our method induces better convergence properties during training, and achieves state-of-the-art generalization performance on both synthetic and real-world biased datasets.
翻訳日:2024-05-10 14:02:33 公開日:2024-05-09
# モデル反転ロバストネス:トランスファーラーニングは役立つか?

Model Inversion Robustness: Can Transfer Learning Help? ( http://arxiv.org/abs/2405.05588v1 )

ライセンス: Link先を確認
Sy-Tuyen Ho, Koh Jun Hao, Keshigeyan Chandrasegaran, Ngoc-Bao Nguyen, Ngai-Man Cheung, (参考訳) Model Inversion (MI)攻撃は、機械学習モデルへのアクセスを悪用することで、プライベートトレーニングデータを再構築することを目的としている。 現代のMI攻撃は目覚ましい攻撃性能を達成し、プライバシーに深刻な脅威をもたらしている。 一方、既存のMI防衛手法はすべて、トレーニング目標と直接競合する正規化に依存しており、結果としてモデルの実用性は著しく低下する。 本研究は異なる視点で,MI-robust モデルを描画するための新しい,かつシンプルなトランスファーラーニングベースによるモデル反転対策 (TL-DMI) を提案する。 特に、TLを利用することで、プライベートトレーニングデータセットから機密情報を符号化するレイヤの数を制限し、MI攻撃の性能を低下させる。 我々は,本手法を正当化するために,Fisher Informationを用いて分析を行う。 私たちの防衛は驚くほどシンプルです。 ベルとホイッスルがなければ,TL-DMIがSOTA(State-of-the-art)MIの堅牢性を達成できることを示す。 私たちのコード、事前トレーニングされたモデル、デモ、反転したデータは、https://hosytuyen.github.io/projects/TL-DMIで利用可能です。

Model Inversion (MI) attacks aim to reconstruct private training data by abusing access to machine learning models. Contemporary MI attacks have achieved impressive attack performance, posing serious threats to privacy. Meanwhile, all existing MI defense methods rely on regularization that is in direct conflict with the training objective, resulting in noticeable degradation in model utility. In this work, we take a different perspective, and propose a novel and simple Transfer Learning-based Defense against Model Inversion (TL-DMI) to render MI-robust models. Particularly, by leveraging TL, we limit the number of layers encoding sensitive information from private training dataset, thereby degrading the performance of MI attack. We conduct an analysis using Fisher Information to justify our method. Our defense is remarkably simple to implement. Without bells and whistles, we show in extensive experiments that TL-DMI achieves state-of-the-art (SOTA) MI robustness. Our code, pre-trained models, demo and inverted data are available at: https://hosytuyen.github.io/projects/TL-DMI
翻訳日:2024-05-10 14:02:33 公開日:2024-05-09
# TroLLoc: ハードウェアトロイの木馬に対するICセキュリティクロージャのためのロジックロックとレイアウトハードニング

TroLLoc: Logic Locking and Layout Hardening for IC Security Closure against Hardware Trojans ( http://arxiv.org/abs/2405.05590v1 )

ライセンス: Link先を確認
Fangzhou Wang, Qijing Wang, Lilas Alrahis, Bangqi Fu, Shui Jiang, Xiaopeng Zhang, Ozgur Sinanoglu, Tsung-Yi Ho, Evangeline F. Y. Young, Johann Knechtel, (参考訳) コスト効果のため、近年は集積回路(IC)のサプライチェーンがアウトソースされている。 しかし、ICを様々なサードパーティプロバイダに渡すと、IC知的財産権の海賊行為やハードウェアのトロイの木馬の挿入、すなわち悪意のある回路変更など、多くのセキュリティ上の脅威が発生する。 本研究では,設計後のトロイの木馬の挿入を防止するため,ICの物理的配置を積極的に,体系的に保護する。 そこで本研究では,ICセキュリティクロージャの新たな手法であるTroLLocを提案する。 TroLLocは商用レベルの設計フローに完全に統合されており、TroLLocは効率的、効率的、堅牢であることが示されている。 我々の研究は、ISPD'22/23のセキュリティクロージャコンテストの挑戦的なベンチマークを考慮し、詳細なレイアウトとセキュリティ分析を提供する。 TroLLocは、合理的なオーバーヘッドを伴って、レイアウトのレジリエントなレンダリングに成功したことを示しています。 (i)ISPD'22コンテストにおけるトロイの木馬の挿入の見通し (二)ISPD'23コンテスト等のトロイの木馬の実際の挿入 3) 先進的な機械学習攻撃を用いて、敵が最初に(トロイの木馬を挿入する前に)ロック防御をバイパスしようとする2次攻撃の可能性。 最後に、独立した検証のためにすべてのアーティファクトをリリースする[2]。

Due to cost benefits, supply chains of integrated circuits (ICs) are largely outsourced nowadays. However, passing ICs through various third-party providers gives rise to many security threats, like piracy of IC intellectual property or insertion of hardware Trojans, i.e., malicious circuit modifications. In this work, we proactively and systematically protect the physical layouts of ICs against post-design insertion of Trojans. Toward that end, we propose TroLLoc, a novel scheme for IC security closure that employs, for the first time, logic locking and layout hardening in unison. TroLLoc is fully integrated into a commercial-grade design flow, and TroLLoc is shown to be effective, efficient, and robust. Our work provides in-depth layout and security analysis considering the challenging benchmarks of the ISPD'22/23 contests for security closure. We show that TroLLoc successfully renders layouts resilient, with reasonable overheads, against (i) general prospects for Trojan insertion as in the ISPD'22 contest, (ii) actual Trojan insertion as in the ISPD'23 contest, and (iii) potential second-order attacks where adversaries would first (i.e., before Trojan insertion) try to bypass the locking defense, e.g., using advanced machine learning attacks. Finally, we release all our artifacts for independent verification [2].
翻訳日:2024-05-10 14:02:33 公開日:2024-05-09
# 期待される仕事の探索: ウィンレートと証明サイズ推定を組み合わせる

Expected Work Search: Combining Win Rate and Proof Size Estimation ( http://arxiv.org/abs/2405.05594v1 )

ライセンス: Link先を確認
Owen Randall, Martin Müller, Ting Han Wei, Ryan Hayward, (参考訳) 我々は,新しいゲーム問題解決アルゴリズムである予測ワークサーチ(EWS)を提案する。 EWSはモンテカルロ木探索で用いられるような勝利率推定と、証明数探索で用いられる証明サイズ推定を組み合わせている。 EWSの探索効率は、期待された作業という新しい概念を最小化することに由来する。 EWSは、GoとHexのゲームにおいて、従来の問題解決アルゴリズムよりも優れています。 Go の場合、空の 5x5 ボードによく使われる位置のスーパーコルールセットで最初の解を提示する。 ヘックスにとって、我々のアルゴリズムは空の8x8ボードを4分以内で解く。 実験により、EWSは広範囲なドメイン固有の知識と無関係に成功することが示された。

We propose Expected Work Search (EWS), a new game solving algorithm. EWS combines win rate estimation, as used in Monte Carlo Tree Search, with proof size estimation, as used in Proof Number Search. The search efficiency of EWS stems from minimizing a novel notion of Expected Work, which predicts the expected computation required to solve a position. EWS outperforms traditional solving algorithms on the games of Go and Hex. For Go, we present the first solution to the empty 5x5 board with the commonly used positional superko ruleset. For Hex, our algorithm solves the empty 8x8 board in under 4 minutes. Experiments show that EWS succeeds both with and without extensive domain-specific knowledge.
翻訳日:2024-05-10 14:02:33 公開日:2024-05-09
# レコメンデーションにおけるストラテジゼーションの計測:ユーザは行動に適応して今後のコンテンツを作る

Measuring Strategization in Recommendation: Users Adapt Their Behavior to Shape Future Content ( http://arxiv.org/abs/2405.05596v1 )

ライセンス: Link先を確認
Sarah H. Cen, Andrew Ilyas, Jennifer Allen, Hannah Li, Aleksander Madry, (参考訳) ほとんどの現代的なレコメンデーションアルゴリズムはデータ駆動であり、ユーザーの過去の行動を観察することでパーソナライズされたレコメンデーションを生成する。 推奨の一般的な前提は、ユーザーがコンテンツ(例えば、そのコンテンツが「好き」かどうか)とどのように相互作用するかは、コンテンツのリフレクションであるが、それを生成したアルゴリズムではないということである。 この仮定は便利だが、ユーザの戦略を捉えることに失敗している。ユーザは推奨アルゴリズムに自分の振る舞いを適用することで、将来のレコメンデーションを形作ろうとする。 本研究では,実験と調査を実施し,ユーザストラテジゼーションの試行を行う。 ストラテジゼーションを捉えるために、戦略的なユーザがコンテンツだけでなく、下流のレコメンデーションにどう影響するかに基づいたエンゲージメント行動を選択するモデルを採用する。 私たちが構築したカスタム音楽プレイヤーを用いて、ユーザーが推奨アルゴリズムに関する異なる情報にどう反応するか、そして、その行動が下流の成果にどのように影響するかについて異なるインセンティブにどのように反応するかを研究する。 参加者の生活時間や「いいね!」の使用など,結果指標間での戦略化の強い証拠を見出す。 例えば、アルゴリズムが主に「いいね」や「嫌悪」に注意を払っていると言われた参加者は、アルゴリズムが主に居住時間に注意を払っていると言われた参加者より1.9倍多い関数を使っている。 参加者行動の綿密な分析(例えば、インセンティブ条件に応じて)は、これらの傾向の主要因として実験者の需要を規定する。 さらに,実験後調査では,参加者の半数近くが「野生」を自己申告し,その内容の過度な推奨を避けるために実際に望む内容を無視していると回答した。 この結果から,ユーザのストラテジゼーションは一般的であり,プラットフォームはユーザの行動に対するアルゴリズムの影響を無視できないことが示唆された。

Most modern recommendation algorithms are data-driven: they generate personalized recommendations by observing users' past behaviors. A common assumption in recommendation is that how a user interacts with a piece of content (e.g., whether they choose to "like" it) is a reflection of the content, but not of the algorithm that generated it. Although this assumption is convenient, it fails to capture user strategization: that users may attempt to shape their future recommendations by adapting their behavior to the recommendation algorithm. In this work, we test for user strategization by conducting a lab experiment and survey. To capture strategization, we adopt a model in which strategic users select their engagement behavior based not only on the content, but also on how their behavior affects downstream recommendations. Using a custom music player that we built, we study how users respond to different information about their recommendation algorithm as well as to different incentives about how their actions affect downstream outcomes. We find strong evidence of strategization across outcome metrics, including participants' dwell time and use of "likes." For example, participants who are told that the algorithm mainly pays attention to "likes" and "dislikes" use those functions 1.9x more than participants told that the algorithm mainly pays attention to dwell time. A close analysis of participant behavior (e.g., in response to our incentive conditions) rules out experimenter demand as the main driver of these trends. Further, in our post-experiment survey, nearly half of participants self-report strategizing "in the wild," with some stating that they ignore content they actually like to avoid over-recommendation of that content in the future. Together, our findings suggest that user strategization is common and that platforms cannot ignore the effect of their algorithms on user behavior.
翻訳日:2024-05-10 14:02:33 公開日:2024-05-09
# 関連判断穴を埋めるために大きな言語モデルが使えるか?

Can We Use Large Language Models to Fill Relevance Judgment Holes? ( http://arxiv.org/abs/2405.05600v1 )

ライセンス: Link先を確認
Zahra Abbasiantaeb, Chuan Meng, Leif Azzopardi, Mohammad Aliannejadi, (参考訳) 不完全関連判断は、テストコレクションの再使用を制限します。 判断された文書のプールを構築するのに用いられた以前のシステムと比較すると、テストコレクションの '`holes'' (すなわち、新しいシステムによって返却された未評価文書のポケット)が原因でしばしば不利になる。 本稿では,Large Language Models (LLM) を用いて,既存の人的判断による手法の活用と基礎化により,既存のテストコレクションを拡張するための最初のステップについて述べる。 TREC iKAT を用いた会話探索の文脈において,情報要求が高度に動的であり,応答(および得られた結果)はより多様である(より大きな穴を埋める)。 過去の研究では、LLMからの自動判定は高い相関付けのランキングをもたらすことが示されているが、人間+自動判定が使われた場合(LLM、1/2/2ショット、微調整)は、相関が著しく低いことが示されている。 さらに,LLMによっては,新しいランニングが好まれる(あるいはペナル化される)こと,また,この効果がホールの大きさに比例して拡大されることが確認された。 代わりに、人間が生成したラベルとより一貫性のあるランキングを達成するために、ドキュメントプール全体にLCMアノテーションを生成する必要がある。 将来の作業は、人間のアノテーションを反映し、表現するためにエンジニアリングと微調整のLLMを推し進めるために必要である。

Incomplete relevance judgments limit the re-usability of test collections. When new systems are compared against previous systems used to build the pool of judged documents, they often do so at a disadvantage due to the ``holes'' in test collection (i.e., pockets of un-assessed documents returned by the new system). In this paper, we take initial steps towards extending existing test collections by employing Large Language Models (LLM) to fill the holes by leveraging and grounding the method using existing human judgments. We explore this problem in the context of Conversational Search using TREC iKAT, where information needs are highly dynamic and the responses (and, the results retrieved) are much more varied (leaving bigger holes). While previous work has shown that automatic judgments from LLMs result in highly correlated rankings, we find substantially lower correlates when human plus automatic judgments are used (regardless of LLM, one/two/few shot, or fine-tuned). We further find that, depending on the LLM employed, new runs will be highly favored (or penalized), and this effect is magnified proportionally to the size of the holes. Instead, one should generate the LLM annotations on the whole document pool to achieve more consistent rankings with human-generated labels. Future work is required to prompt engineering and fine-tuning LLMs to reflect and represent the human annotations, in order to ground and align the models, such that they are more fit for purpose.
翻訳日:2024-05-10 14:02:33 公開日:2024-05-09
# 量子場理論におけるツイスト因子と固定時間モデル

Twisting factors and fixed-time models in quantum field theory ( http://arxiv.org/abs/2405.05603v1 )

ライセンス: Link先を確認
Ezio Vasselli, (参考訳) 我々は、ダイラック場とボゾン場との可換関係が非自明であり、与えられた分布の選択に依存するような固定時間モデルのクラスを構築する("twisting factor")。 ツイスト係数が微分作用素の基本解であれば、微分作用素をボゾン場に適用すると、ディラック場の局所ゲージ変換の生成元が得られる。 ディラック場によって生成される荷電ベクトルは、一般に与えられた参照状態の局所励起ではないボゾン場の状態を定義する。 ボゾン場のハミルトン密度は非自明な相互作用項を示し、ボソンの生成と消滅に加え、フェルミオン波動関数のモータに作用する。 ねじれ係数がクーロンポテンシャルであるとき、ボゾン場は電場の発散に寄与し、ラプラシアンはディラック場の局所ゲージ変換を生成する。 このようにして、相互作用するクーロンゲージの等時通勤関係を満たす固定時間モデルを得る。

We construct a class of fixed-time models in which the commutations relations of a Dirac field with a bosonic field are non-trivial and depend on the choice of a given distribution ("twisting factor"). If the twisting factor is fundamental solution of a differential operator, then applying the differential operator to the bosonic field yields a generator of the local gauge transformations of the Dirac field. Charged vectors generated by the Dirac field define states of the bosonic field which in general are not local excitations of the given reference state. The Hamiltonian density of the bosonic field presents a non-trivial interaction term: besides creating and annihilating bosons, it acts on momenta of fermionic wave functions. When the twisting factor is the Coulomb potential, the bosonic field contributes to the divergence of an electric field and its Laplacian generates local gauge transformations of the Dirac field. In this way we get a fixed-time model fulfilling the equal time commutation relations of the interacting Coulomb gauge.
翻訳日:2024-05-10 14:02:33 公開日:2024-05-09
# 最小視点自動校正

Minimal Perspective Autocalibration ( http://arxiv.org/abs/2405.05605v1 )

ライセンス: Link先を確認
Andrea Porfiri Dal Cin, Timothy Duff, Luca Magri, Tomas Pajdla, (参考訳) 複数視点からの再構築のための最小限の問題を新たに導入する。 私たちの主な焦点は、コンピュータビジョンにおける長年の問題である自動校正への新しいアプローチです。 この問題に対する伝統的なアプローチ、例えばクルッパの方程式やモジュラス制約に基づくアプローチは、複数の基本行列の知識や射影的再構成に明示的に依存している。 対照的に、画像点の制約、未知の3次元点の深さ、および部分的に指定されたキャリブレーション行列$K$を含む新しい定式化を考える。 $2 および$3 のビューに対して、これらの制約を緩和することによって得られる最小の自己校正問題を包括的に分類する。 これらの問題は、ビューの数と$K$の前提知識に基づいてクラスに整理される。 各クラスの中で、最も少ない(あるいは比較的少数の)ソリューションで問題を決定する。 この問題の動物園から、3つの実用的な解法を考案する。 COLMAPを用いた合成および実データを用いた実験により,最先端校正法と比較して精度が向上したことを示す。 コードはhttps://github.com/andreadalcin/MinimalPerspectiveAutocalibrationで入手できる。

We introduce a new family of minimal problems for reconstruction from multiple views. Our primary focus is a novel approach to autocalibration, a long-standing problem in computer vision. Traditional approaches to this problem, such as those based on Kruppa's equations or the modulus constraint, rely explicitly on the knowledge of multiple fundamental matrices or a projective reconstruction. In contrast, we consider a novel formulation involving constraints on image points, the unknown depths of 3D points, and a partially specified calibration matrix $K$. For $2$ and $3$ views, we present a comprehensive taxonomy of minimal autocalibration problems obtained by relaxing some of these constraints. These problems are organized into classes according to the number of views and any assumed prior knowledge of $K$. Within each class, we determine problems with the fewest -- or a relatively small number of -- solutions. From this zoo of problems, we devise three practical solvers. Experiments with synthetic and real data and interfacing our solvers with COLMAP demonstrate that we achieve superior accuracy compared to state-of-the-art calibration methods. The code is available at https://github.com/andreadalcin/MinimalPerspectiveAutocalibration
翻訳日:2024-05-10 13:52:35 公開日:2024-05-09
# 電子商取引検索の最適化 - 一般化可能で一貫性のある事前予約モデルを目指して-

Optimizing E-commerce Search: Toward a Generalizable and Rank-Consistent Pre-Ranking Model ( http://arxiv.org/abs/2405.05606v1 )

ライセンス: Link先を確認
Enqiang Xu, Yiming Qiu, Junyang Bai, Ping Zhang, Dadong Miao, Songlin Wang, Guoyu Tang, Lin Liu, Mingming Li, (参考訳) 大規模なeコマースプラットフォームでは、検索システムはリコール、プレランク、ランキングフェーズを含む一連のモジュールで構成されている。 軽量モジュールとして機能するプレグレードフェーズは、ダウンストリームランキングモジュールのために前もって製品の大部分をフィルタリングするために不可欠である。 先行モデルの最適化に向けた産業的な取り組みは、主にランキング一貫性の向上、モデル構造、ロングテールアイテムへの一般化に重点を置いている。 これらの最適化以外にも、システムパフォーマンスの要件を満たすことは重大な課題である。 既存の産業作品とは対照的に,本研究では,ジェネラライザブルとRAnk-ConsistEntプレランキングモデル(GRACE)という新しい手法を提案する。 1) 製品がトップk内にあるかどうかを予測する複数の二分分類タスクを導入してランキングの整合性を高め、共通のポイントワイドランキングモデルにおける学習目標の追加を容易にするランキングモデルにより推定される。 2) 製品埋め込みのサブセットを事前訓練することにより,すべての製品の表現の対照的な学習を通じての一般化可能性 3)機能構築及びオンライン展開における実装の容易化。 大規模な実験では、オフラインメトリクスとオンラインA/Bテストの両方において、AUCが0.75%、CVRが1.28%、大幅な改善が示されている。

In large e-commerce platforms, search systems are typically composed of a series of modules, including recall, pre-ranking, and ranking phases. The pre-ranking phase, serving as a lightweight module, is crucial for filtering out the bulk of products in advance for the downstream ranking module. Industrial efforts on optimizing the pre-ranking model have predominantly focused on enhancing ranking consistency, model structure, and generalization towards long-tail items. Beyond these optimizations, meeting the system performance requirements presents a significant challenge. Contrasting with existing industry works, we propose a novel method: a Generalizable and RAnk-ConsistEnt Pre-Ranking Model (GRACE), which achieves: 1) Ranking consistency by introducing multiple binary classification tasks that predict whether a product is within the top-k results as estimated by the ranking model, which facilitates the addition of learning objectives on common point-wise ranking models; 2) Generalizability through contrastive learning of representation for all products by pre-training on a subset of ranking product embeddings; 3) Ease of implementation in feature construction and online deployment. Our extensive experiments demonstrate significant improvements in both offline metrics and online A/B test: a 0.75% increase in AUC and a 1.28% increase in CVR.
翻訳日:2024-05-10 13:52:35 公開日:2024-05-09
# チェイン・オブ・アタック:LLMのためのセマンティック駆動型コンテキストマルチトゥルアタック

Chain of Attack: a Semantic-Driven Contextual Multi-Turn attacker for LLM ( http://arxiv.org/abs/2405.05610v1 )

ライセンス: Link先を確認
Xikang Yang, Xuehai Tang, Songlin Hu, Jizhong Han, (参考訳) 大規模言語モデル(LLM)は、特に対話システムにおいて、様々な自然言語処理タスクにおいて顕著な性能を達成している。 しかし、LLMはセキュリティや道徳的脅威も生み出す可能性があり、特に大規模モデルは文脈的内容によってより容易に導出され、有害または偏りのある応答をもたらす。 本稿では,マルチターン対話におけるLLMに対する新たな攻撃手法であるCoA(Chain of Attack)を提案する。 CoAは、大規模モデルとの多ターン対話において、コンテキストフィードバックと意味的関連性を通じて攻撃ポリシーを適応的に調整する、意味駆動型コンテキスト多ターン攻撃法である。 我々は、異なるLLMおよびデータセット上でCoAを評価し、LLMの脆弱性を効果的に暴露し、既存の攻撃方法より優れていることを示す。 我々の研究は、LSMの攻撃と防御のための新しい視点とツールを提供し、対話システムの安全性と倫理的評価に寄与する。

Large language models (LLMs) have achieved remarkable performance in various natural language processing tasks, especially in dialogue systems. However, LLM may also pose security and moral threats, especially in multi round conversations where large models are more easily guided by contextual content, resulting in harmful or biased responses. In this paper, we present a novel method to attack LLMs in multi-turn dialogues, called CoA (Chain of Attack). CoA is a semantic-driven contextual multi-turn attack method that adaptively adjusts the attack policy through contextual feedback and semantic relevance during multi-turn of dialogue with a large model, resulting in the model producing unreasonable or harmful content. We evaluate CoA on different LLMs and datasets, and show that it can effectively expose the vulnerabilities of LLMs, and outperform existing attack methods. Our work provides a new perspective and tool for attacking and defending LLMs, and contributes to the security and ethical assessment of dialogue systems.
翻訳日:2024-05-10 13:52:35 公開日:2024-05-09
# インテリジェントモバイルヘルスシステムのためのプライバシー保護エッジフェデレーション学習

Privacy-Preserving Edge Federated Learning for Intelligent Mobile-Health Systems ( http://arxiv.org/abs/2405.05611v1 )

ライセンス: Link先を確認
Amin Aminifar, Matin Shokri, Amir Aminifar, (参考訳) 機械学習(ML)アルゴリズムは一般的に、トレーニングが行われる1つのデータセンターにすべてのデータが格納されるシナリオのために設計されている。 しかし、医療分野では、多くのアプリケーションにおいて、トレーニングデータは、例えば、異なる病院や患者のモバイルデバイス/センサーなど、いくつかのエンティティに分散されている。 同時に、プライバシーの懸念や法的問題、場合によっては通信と計算のオーバーヘッドのために、データを学習の中央の場所に転送することは選択肢にはならない。 Federated Learning(FL)は、複数のパーティでローカルデータサンプルを共有せずにMLモデルをトレーニングするための、最先端のコラボレーティブMLアプローチである。 しかし、プライバシー保護的な方法で、IoT(Internet of Things)システム上で分散データから学ぶこと(例えば、モバイルヘルスやウェアラブル技術、機密性の高い個人・医療データを含む)は、主にリソースの制約が厳しいこと、すなわち、通信帯域幅、メモリストレージ、バッテリー寿命などによって大きな課題となる。 本稿では,IoTインフラストラクチャ上での資源制約のあるモバイルヘルスおよびウェアラブル技術を対象とした,プライバシ保護エッジFLフレームワークを提案する。 提案するフレームワークを網羅的に評価し,ウェアラブル技術を用いたてんかんモニタリングにおける発作検出アプリケーションに基づく,AmazonのAWSクラウドプラットフォーム上での当社のテクニックの実装を提供する。

Machine Learning (ML) algorithms are generally designed for scenarios in which all data is stored in one data center, where the training is performed. However, in many applications, e.g., in the healthcare domain, the training data is distributed among several entities, e.g., different hospitals or patients' mobile devices/sensors. At the same time, transferring the data to a central location for learning is certainly not an option, due to privacy concerns and legal issues, and in certain cases, because of the communication and computation overheads. Federated Learning (FL) is the state-of-the-art collaborative ML approach for training an ML model across multiple parties holding local data samples, without sharing them. However, enabling learning from distributed data over such edge Internet of Things (IoT) systems (e.g., mobile-health and wearable technologies, involving sensitive personal/medical data) in a privacy-preserving fashion presents a major challenge mainly due to their stringent resource constraints, i.e., limited computing capacity, communication bandwidth, memory storage, and battery lifetime. In this paper, we propose a privacy-preserving edge FL framework for resource-constrained mobile-health and wearable technologies over the IoT infrastructure. We evaluate our proposed framework extensively and provide the implementation of our technique on Amazon's AWS cloud platform based on the seizure detection application in epilepsy monitoring using wearable technologies.
翻訳日:2024-05-10 13:52:35 公開日:2024-05-09
# 教師なし可視赤外人物再同定のための周辺関係を考慮したロバスト擬似ラベル学習

Robust Pseudo-label Learning with Neighbor Relation for Unsupervised Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2405.05613v1 )

ライセンス: Link先を確認
Xiangbo Yin, Jiangming Shi, Yachao Zhang, Yang Lu, Zhizhong Zhang, Yuan Xie, Yanyun Qu, (参考訳) UVI-ReID(unsupervised Visible-Infrared Person Re-identification)は、視覚的・赤外線的モダリティにまたがる歩行者像をアノテーションなしでマッチングすることを目的とした、恐ろしい挑戦である。 近年、擬似ラベル法はUSVI-ReIDにおいて主流となっているが、擬似ラベル法固有のノイズは大きな障害となる。 既存のほとんどの研究は、ノイズの有害な影響からモデルを保護することに集中しており、硬いサンプルに付随するノイズの多い擬似ラベルの校正を怠り、モデルの頑丈さを損なうことになる。 この問題に対処するために、USVI-ReIDのためのRPNRフレームワークを設計する。 具体的には、まず、ノイズの擬似ラベルを補正するために、単純だが強力なノイズ・プシュード・ラベル・キャリブレーション・モジュールを導入する。 クラス内変異が大きいため、ノイズの多い擬似ラベルは、完全に校正することが難しい。 そこで,本研究では,全てのサンプル間のポテンシャル相互作用をモデル化することにより,クラス内における高い変動を抑えるため,近隣関係学習モジュールを提案する。 その後、信頼性の高い相互モーダリティ対応を確立するために、最適なトランスポートプロトタイプマッチングモジュールを考案する。 そこで我々は,モダリティ固有情報とモダリティ不変情報を共同で学習するメモリハイブリッド学習モジュールを設計した。 SYSU-MM01とRegDBの2つの広く知られているベンチマークで実施された総合的な実験は、RPNRが現在の最先端のGURよりも10.3%向上していることを示した。 ソースコードはまもなくリリースされる予定だ。

Unsupervised Visible-Infrared Person Re-identification (USVI-ReID) presents a formidable challenge, which aims to match pedestrian images across visible and infrared modalities without any annotations. Recently, clustered pseudo-label methods have become predominant in USVI-ReID, although the inherent noise in pseudo-labels presents a significant obstacle. Most existing works primarily focus on shielding the model from the harmful effects of noise, neglecting to calibrate noisy pseudo-labels usually associated with hard samples, which will compromise the robustness of the model. To address this issue, we design a Robust Pseudo-label Learning with Neighbor Relation (RPNR) framework for USVI-ReID. To be specific, we first introduce a straightforward yet potent Noisy Pseudo-label Calibration module to correct noisy pseudo-labels. Due to the high intra-class variations, noisy pseudo-labels are difficult to calibrate completely. Therefore, we introduce a Neighbor Relation Learning module to reduce high intra-class variations by modeling potential interactions between all samples. Subsequently, we devise an Optimal Transport Prototype Matching module to establish reliable cross-modality correspondences. On that basis, we design a Memory Hybrid Learning module to jointly learn modality-specific and modality-invariant information. Comprehensive experiments conducted on two widely recognized benchmarks, SYSU-MM01 and RegDB, demonstrate that RPNR outperforms the current state-of-the-art GUR with an average Rank-1 improvement of 10.3%. The source codes will be released soon.
翻訳日:2024-05-10 13:52:35 公開日:2024-05-09
# 深度覚醒:RGB-Dカモフラージュ物体検出のための深度知覚的注意融合ネットワーク

Depth Awakens: A Depth-perceptual Attention Fusion Network for RGB-D Camouflaged Object Detection ( http://arxiv.org/abs/2405.05614v1 )

ライセンス: Link先を確認
Xinran Liua, Lin Qia, Yuxuan Songa, Qi Wen, (参考訳) カモフラージュされた物体検出(COD)は、周囲にシームレスに溶け込む物体を正確に識別する上で、永続的な課題を示す。 しかし、既存のCODモデルのほとんどは、視覚システムが本物の3D環境で動作しているという事実を見落としている。 単一の2次元画像に固有のシーン深度は、カモフラージュされた物体の検出を補助する豊富な空間的手がかりを提供する。 そこで本研究では, 深度マップを補助入力として活用して, 人間の目が2次元画像から識別することの難しさである3次元情報を知覚する能力を高めるための, 新たな深度知覚注意融合ネットワークを提案する。 ネットワークはトリデントブランチエンコーダを使用して、色情報と深度情報とその通信を抽出する。 深度マップの特定の領域がカモフラージュされた対象を効果的に強調できないことを認識し,深度マップとRGB特徴マップの融合重みを動的に調整する深度重み付きクロスアテンション融合モジュールを導入する。 モデルの有効性を損なうことなく、モデルをシンプルに保つために、拡張された集約された特徴を適応的に融合する単純な特徴集約デコーダを設計する。 実験により,提案手法が他の最先端技術よりも優れていることを示すとともに,カモフラージュされた物体検出における深度情報の寄与をさらに検証した。 コードはhttps://github.com/xinran-liu00/DAF-Netで入手できる。

Camouflaged object detection (COD) presents a persistent challenge in accurately identifying objects that seamlessly blend into their surroundings. However, most existing COD models overlook the fact that visual systems operate within a genuine 3D environment. The scene depth inherent in a single 2D image provides rich spatial clues that can assist in the detection of camouflaged objects. Therefore, we propose a novel depth-perception attention fusion network that leverages the depth map as an auxiliary input to enhance the network's ability to perceive 3D information, which is typically challenging for the human eye to discern from 2D images. The network uses a trident-branch encoder to extract chromatic and depth information and their communications. Recognizing that certain regions of a depth map may not effectively highlight the camouflaged object, we introduce a depth-weighted cross-attention fusion module to dynamically adjust the fusion weights on depth and RGB feature maps. To keep the model simple without compromising effectiveness, we design a straightforward feature aggregation decoder that adaptively fuses the enhanced aggregated features. Experiments demonstrate the significant superiority of our proposed method over other states of the arts, which further validates the contribution of depth information in camouflaged object detection. The code will be available at https://github.com/xinran-liu00/DAF-Net.
翻訳日:2024-05-10 13:52:35 公開日:2024-05-09
# 高能率ビジョンランゲージファインチューニングのためのメモリ空間ビジュアルプロンプティング

Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning ( http://arxiv.org/abs/2405.05615v1 )

ライセンス: Link先を確認
Shibo Jie, Yehui Tang, Ning Ding, Zhi-Hong Deng, Kai Han, Yunhe Wang, (参考訳) 事前学習されたビジョンエンコーダの出力を、事前学習された言語モデルの入力空間に視覚的プロンプトとして投影し、その後、エンド・ツー・エンドのパラメータ・エフェクト・ファインタニング(PEFT)を介して、下流のVLタスクにモデルを転送する。 しかし、このパラダイムは言語モデルの入力長を著しく増加させるため、依然として非効率である。 本稿では,視覚的プロンプトを入力に組み込むのに対し,視覚的プロンプトを視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識とみなす。 言語モデルのFeed-Forward Network(FFN)が"key-value memory"(キーバリューメモリ)として機能していることに触発され、視覚的インプロンプトとFFNの重みを結合したメモリ空間視覚プロンプト(MemVP)と呼ばれる新しいアプローチを導入する。 様々なVLタスクや言語モデルに対する実験結果から、MemVPは微調整されたVLモデルのトレーニング時間と推論遅延を著しく低減し、従来のPEFTメソッドのパフォーマンスをはるかに上回ることがわかった。 コード:https://github.com/JieShibo/MemVP

Current solutions for efficiently constructing large vision-language (VL) models follow a two-step paradigm: projecting the output of pre-trained vision encoders to the input space of pre-trained language models as visual prompts; and then transferring the models to downstream VL tasks via end-to-end parameter-efficient fine-tuning (PEFT). However, this paradigm still exhibits inefficiency since it significantly increases the input length of the language models. In this paper, in contrast to integrating visual prompts into inputs, we regard visual prompts as additional knowledge that facilitates language models in addressing tasks associated with visual information. Motivated by the finding that Feed-Forward Network (FFN) of language models acts as "key-value memory", we introduce a novel approach termed memory-space visual prompting (MemVP), wherein visual prompts are concatenated with the weights of FFN for visual knowledge injection. Experimental results across various VL tasks and language models reveal that MemVP significantly reduces the training time and inference latency of the finetuned VL models and surpasses the performance of previous PEFT methods. Code: https://github.com/JieShibo/MemVP
翻訳日:2024-05-10 13:52:35 公開日:2024-05-09
# G-SAP:コモンセンス推論のための不均一知識を用いたグラフ型構造認識学習

G-SAP: Graph-based Structure-Aware Prompt Learning over Heterogeneous Knowledge for Commonsense Reasoning ( http://arxiv.org/abs/2405.05616v1 )

ライセンス: Link先を確認
Ruiting Dai, Yuqiao Tan, Lisi Mo, Shuang Liang, Guohao Huo, Jiayi Luo, Yao Cheng, (参考訳) コモンセンスな質問応答は、アシスタントやソーシャルロボットなど、さまざまなアプリケーションにおいて大きな可能性を秘めている。 完全に微調整された事前学習言語モデル(LM)は、常識的推論において顕著な性能を達成しているが、テキスト情報を過度に優先順位付けする傾向は、構造的知識の正確な伝達を妨げ、解釈可能性を損なう。 いくつかの研究では、不均一なモーダル間の深い相互作用を欠くグラフニューラルネットワーク(GNN)に基づく推論を行うために、2つのモーダルを粗く融合させることにより、LMと知識グラフ(KG)を組み合わせることを検討した。 本稿では,多種間知識のバランスを保ち,LM+GNNsモデル内での相互の相互作用を強化することを目的とした,G-SAPという,グラフベースの共通理解推論のための新しい構造認識型プロンプト学習モデルを提案する。 特に、エビデンスグラフは、複数の知識ソース(ConceptNet、Wikipedia、Cambridge Dictionary)を統合して、パフォーマンスを向上させることによって構築される。 その後、構造対応冷凍PLMを用いてエビデンスグラフからの構造化情報とテキスト情報を完全に統合し、グラフエンティティと関係によってプロンプトの生成を駆動する。 最後に、LMとグラフベースのネットワーク間の知識の深い相互作用を容易にするために、異種メッセージパス推論モジュールが使用される。 3つのベンチマークデータセットに関する広範な実験を通じて実施された実証検証は、提案モデルの顕著な性能を実証する。 その結果、既存のモデル、特にOpenbookQAデータセット上のSoTA LM+GNNsモデルよりも6.12%改善された。

Commonsense question answering has demonstrated considerable potential across various applications like assistants and social robots. Although fully fine-tuned pre-trained Language Models(LM) have achieved remarkable performance in commonsense reasoning, their tendency to excessively prioritize textual information hampers the precise transfer of structural knowledge and undermines interpretability. Some studies have explored combining LMs with Knowledge Graphs(KGs) by coarsely fusing the two modalities to perform Graph Neural Network(GNN)-based reasoning that lacks a profound interaction between heterogeneous modalities. In this paper, we propose a novel Graph-based Structure-Aware Prompt Learning Model for commonsense reasoning, named G-SAP, aiming to maintain a balance between heterogeneous knowledge and enhance the cross-modal interaction within the LM+GNNs model. In particular, an evidence graph is constructed by integrating multiple knowledge sources, i.e. ConceptNet, Wikipedia, and Cambridge Dictionary to boost the performance. Afterward, a structure-aware frozen PLM is employed to fully incorporate the structured and textual information from the evidence graph, where the generation of prompts is driven by graph entities and relations. Finally, a heterogeneous message-passing reasoning module is used to facilitate deep interaction of knowledge between the LM and graph-based networks. Empirical validation, conducted through extensive experiments on three benchmark datasets, demonstrates the notable performance of the proposed model. The results reveal a significant advancement over the existing models, especially, with 6.12% improvement over the SoTA LM+GNNs model on the OpenbookQA dataset.
翻訳日:2024-05-10 13:52:35 公開日:2024-05-09
# 語彙データタスクの自動プロンプト生成システム

An Automatic Prompt Generation System for Tabular Data Tasks ( http://arxiv.org/abs/2405.05618v1 )

ライセンス: Link先を確認
Ashlesha Akella, Abhijit Manatkar, Brij Chavda, Hima Patel, (参考訳) 表データの効率的な処理は、特に多数の列を含むデータセットを扱う場合、様々な産業において重要である。 大規模言語モデル(LLM)は、慎重に構築されたプロンプトを通じて、いくつかのタスクでその能力を実証している。 しかし、データの構造的な性質と多数の列を管理する必要があるため、表形式のデータセットに効果的なプロンプトを作成することは困難である。 本稿では,複数のLDMに適した革新的オートプロンプト生成システムを提案する。 2つの新しい方法を提案する。 1)タスク関連列の同定とシークエンシングのための強化学習に基づくアルゴリズム 2) 細胞レベルでの類似性に基づく実例選択の強化 このアプローチは66のデータセットで広くテストされており、データインプット、エラー検出、エンティティマッチングという3つのダウンストリームタスクで、Google flan-t5-xxlとMixtral 8x7Bの2つの異なるLLMを使用してパフォーマンスが改善されている。

Efficient processing of tabular data is important in various industries, especially when working with datasets containing a large number of columns. Large language models (LLMs) have demonstrated their ability on several tasks through carefully crafted prompts. However, creating effective prompts for tabular datasets is challenging due to the structured nature of the data and the need to manage numerous columns. This paper presents an innovative auto-prompt generation system suitable for multiple LLMs, with minimal training. It proposes two novel methods; 1) A Reinforcement Learning-based algorithm for identifying and sequencing task-relevant columns 2) Cell-level similarity-based approach for enhancing few-shot example selection. Our approach has been extensively tested across 66 datasets, demonstrating improved performance in three downstream tasks: data imputation, error detection, and entity matching using two distinct LLMs; Google flan-t5-xxl and Mixtral 8x7B.
翻訳日:2024-05-10 13:52:35 公開日:2024-05-09
# 正規化ガウスカーネルマルチビューk平均クラスタリング

Rectified Gaussian kernel multi-view k-means clustering ( http://arxiv.org/abs/2405.05619v1 )

ライセンス: Link先を確認
Kristina P. Sinaga, (参考訳) 本稿では,マルチビューデータを扱うために,MVKM(Multi-view k-means)アルゴリズムの2つの新しい変種を示す。 一般的な考え方は、$h$-th view data point $x_i^h$ と $h$-th view clustercenter $a_k^h$ の距離を、セントロイドベースの異なるアプローチで概説することである。 提案手法は他の手法とは異なり,ガウスカーネルの空間におけるユークリッドノルム(英語版)を用いて類似性を計算することで,マルチビューデータ(MVKM-ED)を学習する。 安定化パラメータ$p$とカーネル係数$\beta^h$を同時に調整することにより、ユークリッドノルムにおけるガウスカーネルベース重み付き距離の圧縮はMVKM-EDの感度を低下させる。 そこで本稿では,ガウスカーネルマルチビューk-means (GKMVKM) クラスタリングアルゴリズムについて述べる。 5つの実世界のマルチビューデータの数値評価は,提案したMVKM-EDおよびGKMVKMアプローチの堅牢性と効率を示す。

In this paper, we show two new variants of multi-view k-means (MVKM) algorithms to address multi-view data. The general idea is to outline the distance between $h$-th view data points $x_i^h$ and $h$-th view cluster centers $a_k^h$ in a different manner of centroid-based approach. Unlike other methods, our proposed methods learn the multi-view data by calculating the similarity using Euclidean norm in the space of Gaussian-kernel, namely as multi-view k-means with exponent distance (MVKM-ED). By simultaneously aligning the stabilizer parameter $p$ and kernel coefficients $\beta^h$, the compression of Gaussian-kernel based weighted distance in Euclidean norm reduce the sensitivity of MVKM-ED. To this end, this paper designated as Gaussian-kernel multi-view k-means (GKMVKM) clustering algorithm. Numerical evaluation of five real-world multi-view data demonstrates the robustness and efficiency of our proposed MVKM-ED and GKMVKM approaches.
翻訳日:2024-05-10 13:52:35 公開日:2024-05-09
# Jahn-Tellerモデルにおける量子熱化の開始

Onset of Quantum Thermalization in Jahn-Teller model ( http://arxiv.org/abs/2405.05624v1 )

ライセンス: Link先を確認
Yoana R. Chorbadzhiyska, Peter A. Ivanov, (参考訳) 1つのスピンと2つのボソニックモードの間の相互作用を記述する、ヤーン・テラー・ハミルトニアンによって支配される系の量子熱化の開始について検討する。 2つのボソニック周波数に対するスピンレベル分裂の比が無限に大きくなると、ヤーン・テラー模型は通常の位相と2種類の超放射相の間の有限サイズの量子相転移を示す。 Jhn-Tellerモデルにおける固有状態熱化仮説の予測を検証した。 スピンオブザーバブルの期待値は、その長期平均値に素早く近づくことを示す。 その結果, スピン観測可能な対角線アンサンブル平均とマイクロカノニカルアンサンブル平均との距離は, 有効熱力学パラメータによって減少することがわかった。 さらに,スピンオブザーバブルの平均時変動は小さく,有効系の寸法に逆比例することを示した。

We investigate the onset of quantum thermalization in a system governed by the Jahn-Teller Hamiltonian which describes the interaction between a single spin and two bosonic modes. We find that the Jahn-Teller model exhibits a finite-size quantum phase transition between the normal phase and two types of super-radiant phase when the ratios of spin-level splitting to each of the two bosonic frequencies grow to infinity. We test the prediction of the Eigenstate Thermalization Hypothesis in the Jahn-Teller model. We show that the expectation value of the spin observable quickly approaches its long-time average value. We find that the distance between the diagonal ensemble average and the microcanonical ensemble average of the spin observable decreases with the effective thermodynamic parameter. Furthermore, we show that the mean-time fluctuations of the spin observable are small and are inversely proportional to the effective system dimension.
翻訳日:2024-05-10 13:52:35 公開日:2024-05-09
# アクティブな重要度サンプリングによる政策グラディエント

Policy Gradient with Active Importance Sampling ( http://arxiv.org/abs/2405.05630v1 )

ライセンス: Link先を確認
Matteo Papini, Giorgio Manganini, Alberto Maria Metelli, Marcello Restelli, (参考訳) 重要度サンプリング(Importance sample,IS)は、非政治的強化学習の大規模な普及のための基礎的手法である。 政策勾配法(PG法)は特にISから大きな恩恵を受けており, 試料の有効再利用が可能となり, 試料効率が向上した。 しかし、古典的には、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。 しかし、統計学的コミュニティはISをアクティブなツールとして利用し、行動分布を用いることで、サンプル平均値より下方でも推定分散の低減を可能にしている。 本稿では、行動ポリシー最適化(BPO)問題に対処することで、この2つ目の設定に焦点を当てる。 我々は,政策勾配のばらつきを極力低減するために,サンプルを収集する最善の行動方針を模索する。 我々は、最小分散行動ポリシーのクロスエントロピー推定と実際のポリシー最適化を交互に交互に行い、防御ISを活用する反復アルゴリズムを提案する。 このようなアルゴリズムを理論的に解析し、より便利な分散項 w.r.t. 標準PG 法に依存するが、位数$O(\epsilon^{-4})$ の収束率を定常点に楽しむことを示す。 次に,政策勾配推定のばらつきと学習速度の利点を示す数値的検証を行う実用版を提案する。

Importance sampling (IS) represents a fundamental technique for a large surge of off-policy reinforcement learning approaches. Policy gradient (PG) methods, in particular, significantly benefit from IS, enabling the effective reuse of previously collected samples, thus increasing sample efficiency. However, classically, IS is employed in RL as a passive tool for re-weighting historical samples. However, the statistical community employs IS as an active tool combined with the use of behavioral distributions that allow the reduction of the estimate variance even below the sample mean one. In this paper, we focus on this second setting by addressing the behavioral policy optimization (BPO) problem. We look for the best behavioral policy from which to collect samples to reduce the policy gradient variance as much as possible. We provide an iterative algorithm that alternates between the cross-entropy estimation of the minimum-variance behavioral policy and the actual policy optimization, leveraging on defensive IS. We theoretically analyze such an algorithm, showing that it enjoys a convergence rate of order $O(\epsilon^{-4})$ to a stationary point, but depending on a more convenient variance term w.r.t. standard PG methods. We then provide a practical version that is numerically validated, showing the advantages in the policy gradient estimation variance and on the learning speed.
翻訳日:2024-05-10 13:52:35 公開日:2024-05-09
# SwapTalk: 潜在空間におけるワンショットカスタマイズによる音声駆動型トーキングフェイスジェネレーション

SwapTalk: Audio-Driven Talking Face Generation with One-Shot Customization in Latent Space ( http://arxiv.org/abs/2405.05636v1 )

ライセンス: Link先を確認
Zeren Zhang, Haibo Qin, Jiayu Huang, Yixin Li, Hui Lin, Yitao Duan, Jinwen Ma, (参考訳) 顔交換とリップ同期技術を組み合わせることで、カスタマイズされた会話顔生成のためのコスト効率の良いソリューションを提供する。 しかしながら、既存のモデルを直接カスケードすると、対話空間は低レベルな意味的RGB空間に限定されるため、タスク間の大きな干渉が生じ、ビデオの明瞭度が低下する傾向にある。 この問題に対処するために,同じ潜伏空間における顔交換と唇同期の両タスクを実現する,革新的な統一フレームワークSwapTalkを提案する。 フェースジェネレーションに関する最近の研究を参照して、編集性や忠実度に優れたVQ埋め込み空間を選択する。 本研究では, 顔交換モジュールのトレーニングにおいて, 認識不能な人物に対するフレームワークの一般化能力を高めるために, 顔交換モジュールのトレーニング中にアイデンティティ損失を取り入れた。 さらに, リップ同期モジュールのトレーニング中に, 潜時空間におけるエキスパート判別器の監視を導入し, 同期品質の向上を図る。 評価段階では,従来の研究は主に,同期映像における唇運動の自己再構成に焦点を当てていた。 実世界のアプリケーションをよりよく近似するために、評価範囲を非同期のオーディオ・ビデオ・シナリオに広げる。 さらに、生成した顔ビデオの時系列におけるアイデンティティ一貫性をより包括的に評価するための、新しいアイデンティティ整合度指標を導入する。 HDTF実験の結果,ビデオ品質,リップ同期精度,顔スワップの忠実度,アイデンティティの整合性など,既存の手法をはるかに上回っていることがわかった。 私たちのデモはhttp://swaptalk.cc.comで公開されています。

Combining face swapping with lip synchronization technology offers a cost-effective solution for customized talking face generation. However, directly cascading existing models together tends to introduce significant interference between tasks and reduce video clarity because the interaction space is limited to the low-level semantic RGB space. To address this issue, we propose an innovative unified framework, SwapTalk, which accomplishes both face swapping and lip synchronization tasks in the same latent space. Referring to recent work on face generation, we choose the VQ-embedding space due to its excellent editability and fidelity performance. To enhance the framework's generalization capabilities for unseen identities, we incorporate identity loss during the training of the face swapping module. Additionally, we introduce expert discriminator supervision within the latent space during the training of the lip synchronization module to elevate synchronization quality. In the evaluation phase, previous studies primarily focused on the self-reconstruction of lip movements in synchronous audio-visual videos. To better approximate real-world applications, we expand the evaluation scope to asynchronous audio-video scenarios. Furthermore, we introduce a novel identity consistency metric to more comprehensively assess the identity consistency over time series in generated facial videos. Experimental results on the HDTF demonstrate that our method significantly surpasses existing techniques in video quality, lip synchronization accuracy, face swapping fidelity, and identity consistency. Our demo is available at http://swaptalk.cc.
翻訳日:2024-05-10 13:52:35 公開日:2024-05-09
# 磁性相制御熱接合

Thermal junctions controlled with magnetic phases ( http://arxiv.org/abs/2405.05637v1 )

ライセンス: Link先を確認
José Balduque, Adrián Mecha, Rafael Sánchez, (参考訳) 電荷とは異なり、熱流は制御が難しい。 メソスコピック導体では,アハロノフ・ボーム効果を用いて電子熱電流を磁場で操作することができ,干渉パターンの磁気制御により熱電効果が向上し,熱輸送が完全に抑制されることを示した。 3末端構成では、フラックスによって誘起される破壊的相互性は非局所的な熱電応答を発生させ、熱の循環に変換する。 このように、効率的な熱電発電機、熱スイッチ、熱循環器、およびエネルギー回収器は、ナノスケールの熱管理を最小限に妨害するために定義することができる。

Unlike charge, heat flows are difficult to control. We show that, in mesoscopic conductors, electronic thermal currents can be manipulated with a magnetic field by using the Aharonov-Bohm effect: the magnetic control of the interference pattern enhances the thermoelectric effect, while heat transport can be totally suppressed. In a three-terminal configuration, the flux-induced broken reciprocity generates a non-local thermoelectric response and translates to the circulation of heat. This way, efficient thermoelectric generators, thermal switches and thermal circulators, as well as energy harvesters can be defined for minimally disturbing thermal management at the nanoscale.
翻訳日:2024-05-10 13:52:35 公開日:2024-05-09
# 二重リサイクル法による効率的な有限差分近似

An Efficient Finite Difference Approximation via a Double Sample-Recycling Approach ( http://arxiv.org/abs/2405.05638v1 )

ライセンス: Link先を確認
Guo Liang, Guangwu Liu, Kun Zhang, (参考訳) 確率勾配の推定は、オペレーション研究におけるサービスシステムのような分野において重要である。 この推定の古典的な方法は、摂動入力でサンプルを生成する有限差分近似である。 それでも、摂動を決定づけ、最小平均二乗誤差(MSE)を持つという意味で最適な有限差分推定器を得るという実践的な課題は続いている。 この問題に対処するため,本論文ではサンプルリサイクルの2つのアプローチを提案する。 まず、最適な摂動を推定するために、パイロットサンプルをリサイクルする。 第二に、これらのサンプルを再びリサイクルし、推定された摂動で新しいサンプルを生成し、効率的な有限差分推定器を生み出す。 私たちはそのバイアス、分散、MSEを分析します。 本分析は, 漸近的変動の減少を示すものであり, 場合によっては, 最適有限差分推定器と比較して漸近的バイアスの減少を示すものである。 したがって、提案した推定器は、常に一致するか、最適有限差分推定器よりも優れている。 数値実験では、いくつかの例に推定器を適用し、数値的な結果は、その頑健さと、その理論、特に小さなサンプルサイズの場合の一致を実証する。

Estimating stochastic gradients is pivotal in fields like service systems within operations research. The classical method for this estimation is the finite difference approximation, which entails generating samples at perturbed inputs. Nonetheless, practical challenges persist in determining the perturbation and obtaining an optimal finite difference estimator in the sense of possessing the smallest mean squared error (MSE). To tackle this problem, we propose a double sample-recycling approach in this paper. Firstly, pilot samples are recycled to estimate the optimal perturbation. Secondly, recycling these pilot samples again and generating new samples at the estimated perturbation, lead to an efficient finite difference estimator. We analyze its bias, variance and MSE. Our analyses demonstrate a reduction in asymptotic variance, and in some cases, a decrease in asymptotic bias, compared to the optimal finite difference estimator. Therefore, our proposed estimator consistently coincides with, or even outperforms the optimal finite difference estimator. In numerical experiments, we apply the estimator in several examples, and numerical results demonstrate its robustness, as well as coincidence with the theory presented, especially in the case of small sample sizes.
翻訳日:2024-05-10 13:52:35 公開日:2024-05-09
# 一般化ベイズによる外乱カルマンフィルタ

Outlier-robust Kalman Filtering through Generalised Bayes ( http://arxiv.org/abs/2405.05646v1 )

ライセンス: Link先を確認
Gerardo Duran-Martin, Matias Altamirano, Alexander Y. Shestopaloff, Leandro Sánchez-Betancourt, Jeremias Knoblauch, Matt Jones, François-Xavier Briol, Kevin Murphy, (参考訳) 我々は、外れ値や不特定測定モデルの存在下で、状態空間モデルにおけるオンラインフィルタリングのための新しい、確実に堅牢でクローズドなベイズ更新ルールを導出する。 提案手法は,一般化ベイズ推定と拡張カルマンフィルタやアンサンブルカルマンフィルタなどのフィルタリング手法を組み合わせる。 非線形モデルの場合, 前者はロバスト性を示すために, 後者は計算効率を確保するために使用する。 我々の手法は、より少ない計算コストで、他の頑健なフィルタリング手法(変分ベイズに基づくものなど)に適合または優れる。 我々は、物体追跡、高次元カオスシステムにおける状態推定、ニューラルネットワークのオンライン学習など、外乱測定によるフィルタリング問題に対して、これを実証的に示す。

We derive a novel, provably robust, and closed-form Bayesian update rule for online filtering in state-space models in the presence of outliers and misspecified measurement models. Our method combines generalised Bayesian inference with filtering methods such as the extended and ensemble Kalman filter. We use the former to show robustness and the latter to ensure computational efficiency in the case of nonlinear models. Our method matches or outperforms other robust filtering methods (such as those based on variational Bayes) at a much lower computational cost. We show this empirically on a range of filtering problems with outlier measurements, such as object tracking, state estimation in high-dimensional chaotic systems, and online learning of neural networks.
翻訳日:2024-05-10 13:42:37 公開日:2024-05-09
# 編集部へ:ChatGPTに放射線学レポートを提出する際の法的・倫理的考察

Letter to the Editor: What are the legal and ethical considerations of submitting radiology reports to ChatGPT? ( http://arxiv.org/abs/2405.05647v1 )

ライセンス: Link先を確認
Siddharth Agarwal, David Wood, Robin Carpenter, Yiran Wei, Marc Modat, Thomas C Booth, (参考訳) 本稿では,GPT-4,Perplexity,Bardなどの大規模言語モデル(LLM)の有用性を評価するInfanteらによる最近の論文を批判的に考察する。 コンピュータビジョンのためのラベル作成におけるLCMの可能性を認めつつも、GDPRの下での厳格なデータ保護措置の必要性を強調しながら、明確な承認なしに患者データを使用することの倫理的意味について懸念が提起されている。

This letter critically examines the recent article by Infante et al. assessing the utility of large language models (LLMs) like GPT-4, Perplexity, and Bard in identifying urgent findings in emergency radiology reports. While acknowledging the potential of LLMs in generating labels for computer vision, concerns are raised about the ethical implications of using patient data without explicit approval, highlighting the necessity of stringent data protection measures under GDPR.
翻訳日:2024-05-10 13:42:37 公開日:2024-05-09
# ASGrasp:RGB-Dアクティブステレオカメラによる汎用透明物体再構成とグラッピング

ASGrasp: Generalizable Transparent Object Reconstruction and Grasping from RGB-D Active Stereo Camera ( http://arxiv.org/abs/2405.05648v1 )

ライセンス: Link先を確認
Jun Shi, Yong A, Yixiang Jin, Dingzhe Li, Haoyu Niu, Zhezhu Jin, He Wang, (参考訳) 本稿では,透明かつ特異な物体の把握という課題に対処する。 この問題は重要であるが、深度カメラによる正確な幾何学の復元に失敗したため、ロボット工学の分野では未解決のままである。 RGB-D アクティブステレオカメラを用いた 6-DoF グリップ検出ネットワーク ASGrasp を提案する。 ASGraspは2層学習型ステレオネットワークを用いて透明な物体再構成を実現し, 乱雑な環境下での物質に依存しない物体の把握を可能にする。 深度補正ネットワークと深度カメラが生成する深度マップの品質に大きく依存する既存のRGB-Dベースの把握検出手法とは対照的に,本システムは透明な物体形状再構成に生のIRおよびRGB画像を直接活用する能力によって,自己を区別する。 我々は,GraspNet-1Billionをベースとした領域ランダム化により,広範囲な合成データセットを作成する。 実験により,ASGraspはシミュレーションと実物の両方をシームレスなsim-to-real転送で把握し,90%以上の成功率を達成できることが実証された。 我々の手法はSOTAネットワークを著しく上回り、完全可視点クラウド入力による性能上界セットを超越する。

In this paper, we tackle the problem of grasping transparent and specular objects. This issue holds importance, yet it remains unsolved within the field of robotics due to failure of recover their accurate geometry by depth cameras. For the first time, we propose ASGrasp, a 6-DoF grasp detection network that uses an RGB-D active stereo camera. ASGrasp utilizes a two-layer learning-based stereo network for the purpose of transparent object reconstruction, enabling material-agnostic object grasping in cluttered environments. In contrast to existing RGB-D based grasp detection methods, which heavily depend on depth restoration networks and the quality of depth maps generated by depth cameras, our system distinguishes itself by its ability to directly utilize raw IR and RGB images for transparent object geometry reconstruction. We create an extensive synthetic dataset through domain randomization, which is based on GraspNet-1Billion. Our experiments demonstrate that ASGrasp can achieve over 90% success rate for generalizable transparent object grasping in both simulation and the real via seamless sim-to-real transfer. Our method significantly outperforms SOTA networks and even surpasses the performance upper bound set by perfect visible point cloud inputs.Project page: https://pku-epic.github.io/ASGrasp
翻訳日:2024-05-10 13:42:37 公開日:2024-05-09
# 高容積神経画像における異常検出のための人工知能 : 体系的レビューとメタ分析

Artificial intelligence for abnormality detection in high volume neuroimaging: a systematic review and meta-analysis ( http://arxiv.org/abs/2405.05658v1 )

ライセンス: Link先を確認
Siddharth Agarwal, David A. Wood, Mariusz Grzeda, Chandhini Suresh, Munaib Din, James Cole, Marc Modat, Thomas C Booth, (参考訳) 目的: 神経画像における異常を検出する人工知能(AI)モデルを評価するほとんどの研究は、非表現的な患者コホートでテストされるか、十分に検証されていないかのいずれかであり、現実のタスクに対する一般化性は低い。 目的は、診断テストの精度を判定し、第一線高ボリュームのニューロイメージングタスクを実行するAIモデルの使用を支持する証拠を要約することであった。 方法:Medline、Embase、Cochraneライブラリ、Web of Scienceは2021年9月まで検索され、時間的または外部的に検証されたAIが、一線CTやMR画像の異常を検知できる研究のために検索された。 二変量ランダム効果モデルを用いてメタ分析を行った。 CRD42021269563。 結果: 対象は16例のみであった。 追加された研究は、表現できないデータセットや不十分な検証手法によって妥協されなかった。 放射線学者との直接比較は4/16の研究で行われた。 15/16は偏見のリスクが高い。 メタアナリシスはCT画像における頭蓋内出血の検出にのみ適しており、10/16の研究では、AIシステムはそれぞれ0.90(95% CI 0.85 - 0.94)と0.90(95% CI 0.83 - 0.95)の感度と特異性を持っていた。 CTとMRIを用いた他のAI研究は、出血(2/16)または複数のターゲット条件(4/16)以外のターゲット条件を検出した。 3/16研究のみがAIを臨床経路に導入した。 結論: 対象とする研究の質は, 代表的な臨床コホートにおいて, ほとんどの異常検出AI研究が適切に検証されなかったことを反映している。 異常検出AIが患者や臨床医にどのように影響するかを示す数少ない研究は、臨床実践の完全な影響を探求しなかった。

Purpose: Most studies evaluating artificial intelligence (AI) models that detect abnormalities in neuroimaging are either tested on unrepresentative patient cohorts or are insufficiently well-validated, leading to poor generalisability to real-world tasks. The aim was to determine the diagnostic test accuracy and summarise the evidence supporting the use of AI models performing first-line, high-volume neuroimaging tasks. Methods: Medline, Embase, Cochrane library and Web of Science were searched until September 2021 for studies that temporally or externally validated AI capable of detecting abnormalities in first-line CT or MR neuroimaging. A bivariate random-effects model was used for meta-analysis where appropriate. PROSPERO: CRD42021269563. Results: Only 16 studies were eligible for inclusion. Included studies were not compromised by unrepresentative datasets or inadequate validation methodology. Direct comparison with radiologists was available in 4/16 studies. 15/16 had a high risk of bias. Meta-analysis was only suitable for intracranial haemorrhage detection in CT imaging (10/16 studies), where AI systems had a pooled sensitivity and specificity 0.90 (95% CI 0.85 - 0.94) and 0.90 (95% CI 0.83 - 0.95) respectively. Other AI studies using CT and MRI detected target conditions other than haemorrhage (2/16), or multiple target conditions (4/16). Only 3/16 studies implemented AI in clinical pathways, either for pre-read triage or as post-read discrepancy identifiers. Conclusion: The paucity of eligible studies reflects that most abnormality detection AI studies were not adequately validated in representative clinical cohorts. The few studies describing how abnormality detection AI could impact patients and clinicians did not explore the full ramifications of clinical implementation.
翻訳日:2024-05-10 13:42:37 公開日:2024-05-09
# 多エージェントA*を用いた近似Dec-POMDP解法

Approximate Dec-POMDP Solving Using Multi-Agent A* ( http://arxiv.org/abs/2405.05662v1 )

ライセンス: Link先を確認
Wietze Koops, Sebastian Junges, Nils Jansen, (参考訳) 有限水平DEC-POMDPのポリシーを計算するためのA*に基づくアルゴリズムを提案する。 私たちのゴールは、より大きな地平線に対するスケーラビリティを優先して、最適性を犠牲にすることです。 提案手法の主な要素は,(1)クラスタリングウィンドウメモリ,(2)A*探索ツリーの刈り取り,(3)新しいA*ヒューリスティックスである。 我々の実験は最先端技術に対する競争力を示す。 さらに,複数のベンチマークに対して,優れた性能を実現している。 さらに、長い地平線を持つ問題に合わせた最適な上限を求めるA*アルゴリズムを提供する。 主な要素は、定期的に状態を明らかにする新しいヒューリスティックであり、それによって到達可能な信念の数を制限する。 提案手法の有効性と拡張性について実験を行った。

We present an A*-based algorithm to compute policies for finite-horizon Dec-POMDPs. Our goal is to sacrifice optimality in favor of scalability for larger horizons. The main ingredients of our approach are (1) using clustered sliding window memory, (2) pruning the A* search tree, and (3) using novel A* heuristics. Our experiments show competitive performance to the state-of-the-art. Moreover, for multiple benchmarks, we achieve superior performance. In addition, we provide an A* algorithm that finds upper bounds for the optimum, tailored towards problems with long horizons. The main ingredient is a new heuristic that periodically reveals the state, thereby limiting the number of reachable beliefs. Our experiments demonstrate the efficacy and scalability of the approach.
翻訳日:2024-05-10 13:42:37 公開日:2024-05-09
# RPBG: 野生におけるロバストなニューラルポイントベースのグラフィクスを目指して

RPBG: Towards Robust Neural Point-based Graphics in the Wild ( http://arxiv.org/abs/2405.05663v1 )

ライセンス: Link先を確認
Qingtian Zhu, Zizhuang Wei, Zhongtian Zheng, Yifan Zhan, Zhuyu Yao, Jiawang Zhang, Kejian Wu, Yinqiang Zheng, (参考訳) ポイントベースの表現は、例えば、直観的幾何学的表現、単純な操作、より高速な収束といった独特の利点により、近年、新しいビュー合成において人気を集めている。 しかし,これらの点に基づくニューラルリレンダリング手法は,理想的な条件下では良好に動作することが期待され,ノイズ,パッチ,非バウンドシーンに悩まされ,実際のアプリケーションでよく見られるデファクト処理は困難である。 この目的のために,我々はベースラインとしてNeural Point-based Graphics (NPBG) と呼ばれる重要な手法を再検討し,Robust Point-based Graphics (RPBG) を提案する。 我々はNABGが汎用データセット上で満足なレンダリングを達成するのを防ぐ要因を詳細に分析し、それに従ってパイプラインを改革し、さまざまなデータセットに対してより堅牢にします。 画像復元の実践にインスパイアされた我々は、ニューラルレンダラーを大幅に強化し、注意に基づく点視認性補正と不完全なラスタライゼーションの着色を可能にする。 また, 環境モデリングの簡易かつ軽量な代替手段と, 貧弱な幾何学的問題を緩和するための反復的手法も求めている。 異なる撮影条件とカメラ軌道を持つ幅広いデータセットを徹底的に評価することにより、RPBGはベースラインを大きなマージンで安定的に上回り、最先端のNeRFベースの変種に対して大きな堅牢性を示す。 コードはhttps://github.com/QT-Zhu/RPBGで公開されている。

Point-based representations have recently gained popularity in novel view synthesis, for their unique advantages, e.g., intuitive geometric representation, simple manipulation, and faster convergence. However, based on our observation, these point-based neural re-rendering methods are only expected to perform well under ideal conditions and suffer from noisy, patchy points and unbounded scenes, which are challenging to handle but defacto common in real applications. To this end, we revisit one such influential method, known as Neural Point-based Graphics (NPBG), as our baseline, and propose Robust Point-based Graphics (RPBG). We in-depth analyze the factors that prevent NPBG from achieving satisfactory renderings on generic datasets, and accordingly reform the pipeline to make it more robust to varying datasets in-the-wild. Inspired by the practices in image restoration, we greatly enhance the neural renderer to enable the attention-based correction of point visibility and the inpainting of incomplete rasterization, with only acceptable overheads. We also seek for a simple and lightweight alternative for environment modeling and an iterative method to alleviate the problem of poor geometry. By thorough evaluation on a wide range of datasets with different shooting conditions and camera trajectories, RPBG stably outperforms the baseline by a large margin, and exhibits its great robustness over state-of-the-art NeRF-based variants. Code available at https://github.com/QT-Zhu/RPBG.
翻訳日:2024-05-10 13:42:37 公開日:2024-05-09
# SubGDiff:分子表現学習を改善するための部分グラフ拡散モデル

SubGDiff: A Subgraph Diffusion Model to Improve Molecular Representation Learning ( http://arxiv.org/abs/2405.05665v1 )

ライセンス: Link先を確認
Jiying Zhang, Zijing Liu, Yu Wang, Yu Li, (参考訳) 分子表現学習は、AIベースの薬物発見の進歩に大きな成功を示している。 最近の多くの研究の核心は、分子の3次元幾何学構造がそれらの物理的および化学的特性に関する重要な情報を提供するという事実に基づいている。 近年,3次元分子表現学習において拡散確率モデルが顕著な性能を発揮している。 しかし、既存の分子拡散モデルのほとんどは、各原子を独立した存在として扱い、分子サブ構造内の原子間の依存性を見渡す。 本稿では,分子表現学習を拡散過程に組み込んだ新しい手法を提案する。 本稿では,分子サブグラフ情報を拡散に用いた新しい拡散モデルSubGDiffを提案する。 具体的には、SubGDiffは3つの重要なテクニックを採用しています。 一 予測書 二 期待状態及び期待状態 三 発声ネットワークにおける分子サブ構造の知覚を高めるため、k段階の同一のサブグラフ拡散 実験的に、広範囲な下流タスクは、我々のアプローチの優れた性能を示す。 コードはhttps://github.com/youjibiying/SubGDiff.comで入手できる。

Molecular representation learning has shown great success in advancing AI-based drug discovery. The core of many recent works is based on the fact that the 3D geometric structure of molecules provides essential information about their physical and chemical characteristics. Recently, denoising diffusion probabilistic models have achieved impressive performance in 3D molecular representation learning. However, most existing molecular diffusion models treat each atom as an independent entity, overlooking the dependency among atoms within the molecular substructures. This paper introduces a novel approach that enhances molecular representation learning by incorporating substructural information within the diffusion process. We propose a novel diffusion model termed SubGDiff for involving the molecular subgraph information in diffusion. Specifically, SubGDiff adopts three vital techniques: i) subgraph prediction, ii) expectation state, and iii) k-step same subgraph diffusion, to enhance the perception of molecular substructure in the denoising network. Experimentally, extensive downstream tasks demonstrate the superior performance of our approach. The code is available at https://github.com/youjibiying/SubGDiff.
翻訳日:2024-05-10 13:42:37 公開日:2024-05-09
# VM-DDPM:医療画像合成のためのビジョンマンバ拡散

VM-DDPM: Vision Mamba Diffusion for Medical Image Synthesis ( http://arxiv.org/abs/2405.05667v1 )

ライセンス: Link先を確認
Zhihan Ju, Wanting Zhou, (参考訳) スマートヘルスケアの領域では、研究者は医療画像合成を通じて医療データセットのスケールと多様性を高める。 しかし、既存の手法はCNN局所認識とトランスフォーマー二次複雑性によって制限されており、構造的テクスチャの整合性のバランスが難しい。 そこで我々は,線形計算複雑性を維持しつつ,CNN局所認識とSSMグローバルモデリング機能を完全に組み合わせた,状態空間モデルに基づくビジョンマンバDDPM(VM-DDPM)を提案する。 具体的には、マルチレベルステートスペースブロック(MSSBlock)と呼ばれるマルチレベル特徴抽出モジュールと、医療病理学的画像のためのエンコーダ・デコーダ構造の基本ユニットであるステートスペース層(SSLayer)を設計した。 さらに、S6モジュールが2次元画像の空間的特徴を完全に認識し、モデルの一般化ポテンシャルを刺激することのできる、シンプルな、プラグイン・アンド・プレイのゼロパラメータ・シーケンス・リジェネレーション戦略を設計した。 我々の知る限り、これはSSM-CNNハイブリッドアーキテクチャに基づく最初の医用画像合成モデルである。 ACDC, BraTS2018, ChestXRay, および放射線学者による定性的評価の3つの尺度を用いた実験により, VM-DDPMが最先端の性能を達成することを示す。

In the realm of smart healthcare, researchers enhance the scale and diversity of medical datasets through medical image synthesis. However, existing methods are limited by CNN local perception and Transformer quadratic complexity, making it difficult to balance structural texture consistency. To this end, we propose the Vision Mamba DDPM (VM-DDPM) based on State Space Model (SSM), fully combining CNN local perception and SSM global modeling capabilities, while maintaining linear computational complexity. Specifically, we designed a multi-level feature extraction module called Multi-level State Space Block (MSSBlock), and a basic unit of encoder-decoder structure called State Space Layer (SSLayer) for medical pathological images. Besides, we designed a simple, Plug-and-Play, zero-parameter Sequence Regeneration strategy for the Cross-Scan Module (CSM), which enabled the S6 module to fully perceive the spatial features of the 2D image and stimulate the generalization potential of the model. To our best knowledge, this is the first medical image synthesis model based on the SSM-CNN hybrid architecture. Our experimental evaluation on three datasets of different scales, i.e., ACDC, BraTS2018, and ChestXRay, as well as qualitative evaluation by radiologists, demonstrate that VM-DDPM achieves state-of-the-art performance.
翻訳日:2024-05-10 13:42:37 公開日:2024-05-09
# 駆動散逸回路における自己補正GKP量子ビットとゲート

Self-correcting GKP qubit and gates in a driven-dissipative circuit ( http://arxiv.org/abs/2405.05671v1 )

ライセンス: Link先を確認
Frederik Nathan, Liam O'Brien, Kyungjoo Noh, Matthew H. Matheny, Arne L. Grimsmo, Liang Jiang, Gil Refael, (参考訳) 本稿では,散逸誤り訂正GKP量子ビットのための回路アーキテクチャを提案する。 この装置は、ジョセフソン接合に結合された高インピーダンスLC回路と、制御可能なスイッチを介して抵抗器とから構成される。 スイッチがステップワイズプロトコルの特定のファミリを介して起動されると、抵抗はすべてのノイズ誘起エントロピーを吸収し、位相と振幅の誤差の散逸誤差を補正する。 これにより、量子ビット寿命が指数関数的に増加し、ほぼ実現可能なパラメータを持つシミュレーションで10msを超える。 外部ノイズやデバイス/制御不完全性(寄生虫や有限帯域幅による)の存在下では,寿命が指数関数的に長く保たれることを示す。 この状態では、寿命は相すべりと準粒子トンネルによってのみ制限される。 クビットはジョセフソン接合における超電流の測定により読み出し初期化可能であることを示す。 制御ノイズの散逸誤差補正がゲート不整合の指数的抑制に繋がる、ネイティブな自己修正シングルキュービットクリフォードゲートをサポートすることを示す。

We propose a circuit architecture for a dissipatively error-corrected GKP qubit. The device consists of a high-impedance LC circuit coupled to a Josephson junction and a resistor via a controllable switch. When the switch is activated via a particular family of stepwise protocols, the resistor absorbs all noise-induced entropy, resulting in dissipative error correction of both phase and amplitude errors. This leads to an exponential increase of qubit lifetime, reaching beyond 10ms in simulations with near-feasible parameters. We show that the lifetime remains exponentially long in the presence of extrinsic noise and device/control imperfections (e.g., due to parasitics and finite control bandwidth) under specific thresholds. In this regime, lifetime is likely only limited by phase slips and quasiparticle tunneling. We show that the qubit can be read out and initialized via measurement of the supercurrent in the Josephson junction. We finally show that the qubit supports native self-correcting single-qubit Clifford gates, where dissipative error-correction of control noise leads to exponential suppression of gate infidelity.
翻訳日:2024-05-10 13:42:37 公開日:2024-05-09
# 手話認識・翻訳のためのマルチストリームキーポイント注意ネットワーク

Multi-Stream Keypoint Attention Network for Sign Language Recognition and Translation ( http://arxiv.org/abs/2405.05672v1 )

ライセンス: Link先を確認
Mo Guan, Yan Wang, Guangkun Ma, Jiarui Liu, Mingzu Sun, (参考訳) 手話はコミュニケーションの非音声的手段として機能し、ジェスチャー、表情、身体の動きを通じて情報と重要性を伝達する。 現在の手話認識(SLR)と翻訳のアプローチの大半は、背景のゆらぎに弱いRGBビデオ入力に依存している。 キーポイントベースの戦略を採用することは、背景変更の影響を緩和するだけでなく、モデルの計算要求を大幅に減少させる。 それでも、現代のキーポイントベースの方法論は、キーポイントシーケンスに埋め込まれた暗黙の知識を完全に活用することができない。 この課題に対処するために、ジェスチャー構成と補足要素間の相互作用を分析することで手話を認識する人間の認知メカニズムからインスピレーションを得た。 本稿では,容易に利用可能なキーポイント推定器によって生成されるキーポイントのシーケンスを記述するためのマルチストリームキーポイントアテンションネットワークを提案する。 複数ストリーム間の相互作用を容易にするために,キーポイント融合戦略,頭部融合,自己蒸留などの多様な手法について検討する。 結果として得られるフレームワークはMSKA-SLRと表記され、手話翻訳(SLT)モデルに拡張され、追加の翻訳ネットワークが簡単に追加される。 我々は、Phoenix-2014、Phoenix-2014T、CSL-Dailyといった有名なベンチマークで包括的な実験を行い、方法論の有効性を実証した。 特に,Phoenix-2014Tの手話翻訳タスクにおいて,新しい最先端性能を実現した。 コードとモデルは、https://github.com/sutwangyan/MSKA.comでアクセスできる。

Sign language serves as a non-vocal means of communication, transmitting information and significance through gestures, facial expressions, and bodily movements. The majority of current approaches for sign language recognition (SLR) and translation rely on RGB video inputs, which are vulnerable to fluctuations in the background. Employing a keypoint-based strategy not only mitigates the effects of background alterations but also substantially diminishes the computational demands of the model. Nevertheless, contemporary keypoint-based methodologies fail to fully harness the implicit knowledge embedded in keypoint sequences. To tackle this challenge, our inspiration is derived from the human cognition mechanism, which discerns sign language by analyzing the interplay between gesture configurations and supplementary elements. We propose a multi-stream keypoint attention network to depict a sequence of keypoints produced by a readily available keypoint estimator. In order to facilitate interaction across multiple streams, we investigate diverse methodologies such as keypoint fusion strategies, head fusion, and self-distillation. The resulting framework is denoted as MSKA-SLR, which is expanded into a sign language translation (SLT) model through the straightforward addition of an extra translation network. We carry out comprehensive experiments on well-known benchmarks like Phoenix-2014, Phoenix-2014T, and CSL-Daily to showcase the efficacy of our methodology. Notably, we have attained a novel state-of-the-art performance in the sign language translation task of Phoenix-2014T. The code and models can be accessed at: https://github.com/sutwangyan/MSKA.
翻訳日:2024-05-10 13:42:37 公開日:2024-05-09
# 不正確なマルチアーマッドバンド

Imprecise Multi-Armed Bandits ( http://arxiv.org/abs/2405.05673v1 )

ライセンス: Link先を確認
Vanessa Kosoy, (参考訳) そこで本研究では,各アームに,結果空間上の不確定な不確定なクレダルセットを関連付ける,新しいマルチアーム・バンディット・フレームワークを提案する。 アーム・トゥ・クレダル・セットの対応は既知の仮説のクラスに由来する。 次に、これらのクレダル集合によって定義される下述の前提に対応する後悔の概念を定義する。 同様に、この設定を2プレーヤゼロサムゲームとみなすことができ、各ラウンドにおいて、エージェントがアームを選択し、相手が、このアームに関連する一連のオプションから結果の分布を選択する。 後悔はゲームの価値に関して定義される。 ある種の自然仮説クラスでは、確率線型包帯(これは結果の設定の特別な場合である)にゆるやかにアナルゴスを与えるため、アルゴリズムを提案し、それに対応する上界を後悔で証明する。 また、特定の特別事例に対する後悔の限界も低く証明する。

We introduce a novel multi-armed bandit framework, where each arm is associated with a fixed unknown credal set over the space of outcomes (which can be richer than just the reward). The arm-to-credal-set correspondence comes from a known class of hypotheses. We then define a notion of regret corresponding to the lower prevision defined by these credal sets. Equivalently, the setting can be regarded as a two-player zero-sum game, where, on each round, the agent chooses an arm and the adversary chooses the distribution over outcomes from a set of options associated with this arm. The regret is defined with respect to the value of game. For certain natural hypothesis classes, loosely analgous to stochastic linear bandits (which are a special case of the resulting setting), we propose an algorithm and prove a corresponding upper bound on regret. We also prove lower bounds on regret for particular special cases.
翻訳日:2024-05-10 13:42:37 公開日:2024-05-09
# TransAnaNet:頭頸部癌放射線治療のためのトランスフォーマーを用いた解剖学的変化予測ネットワーク

TransAnaNet: Transformer-based Anatomy Change Prediction Network for Head and Neck Cancer Patient Radiotherapy ( http://arxiv.org/abs/2405.05674v1 )

ライセンス: Link先を確認
Meixu Chen, Kai Wang, Michael Dohopolski, Howard Morgan, Jing Wang, (参考訳) 放射線治療(RT)中に有意な解剖学的変化を経験する頭頸部癌(HNC)患者の早期発見は,患者の臨床効果と治療資源の最適化に重要である。 本研究では、視覚変換器(ViT)をベースとしたニューラルネットワークを用いて、HNC患者のRT誘発解剖学的変化を予測することの実現可能性を評価することを目的とする。 RT/CRTを施行したHNC121例を振り返って検討した。 初期治療(CBCT01),分画21(CBCT21),原発性腫瘍容積(GTVp)および結節容積(GTVn)について検討した。 UNetスタイルのViTネットワークは、埋め込みCT、線量、CBCT01、GTVp、GTVn画像パッチから空間対応や文脈情報を学習するために設計された。 CBCT01とCBCT21の変形ベクトル場を解剖学的変化予測として推定し,CBCT21の変形ベクトル場をCBCT01の予測として用いた。 また,GTVp,GTVn,患者体の2値マスクも生成し,容積変化の評価を行った。 提案手法の予測画像は,pCT,CBCT01,および他の比較モデルによるCBCTよりも実画像(CBCT21)に最もよく似ている。 正常化予測CBCT〜CBCT21間の平均MSEおよびSSIMは0.009、0.933であり、ボディマスク、GTVpマスク、GTVnマスク間の平均ダイス係数は0.972、0.792、0.821である。 提案手法は放射線治療による解剖学的変化の予測に有望な性能を示し,HNC適応RTの意思決定に有効である可能性が示唆された。

Early identification of head and neck cancer (HNC) patients who would experience significant anatomical change during radiotherapy (RT) is important to optimize patient clinical benefit and treatment resources. This study aims to assess the feasibility of using a vision-transformer (ViT) based neural network to predict RT-induced anatomic change in HNC patients. We retrospectively included 121 HNC patients treated with definitive RT/CRT. We collected the planning CT (pCT), planned dose, CBCTs acquired at the initial treatment (CBCT01) and fraction 21 (CBCT21), and primary tumor volume (GTVp) and involved nodal volume (GTVn) delineated on both pCT and CBCTs for model construction and evaluation. A UNet-style ViT network was designed to learn spatial correspondence and contextual information from embedded CT, dose, CBCT01, GTVp, and GTVn image patches. The model estimated the deformation vector field between CBCT01 and CBCT21 as the prediction of anatomic change, and deformed CBCT01 was used as the prediction of CBCT21. We also generated binary masks of GTVp, GTVn, and patient body for volumetric change evaluation. The predicted image from the proposed method yielded the best similarity to the real image (CBCT21) over pCT, CBCT01, and predicted CBCTs from other comparison models. The average MSE and SSIM between the normalized predicted CBCT to CBCT21 are 0.009 and 0.933, while the average dice coefficient between body mask, GTVp mask, and GTVn mask are 0.972, 0.792, and 0.821 respectively. The proposed method showed promising performance for predicting radiotherapy-induced anatomic change, which has the potential to assist in the decision-making of HNC Adaptive RT.
翻訳日:2024-05-10 13:42:37 公開日:2024-05-09
# プロンプトを超えて - 強化されたAIインテントアライメントのためのヒューマンコミュニケーションから学ぶ

Beyond Prompts: Learning from Human Communication for Enhanced AI Intent Alignment ( http://arxiv.org/abs/2405.05678v1 )

ライセンス: Link先を確認
Yoonsu Kim, Kihoon Son, Seoyoung Kim, Juho Kim, (参考訳) AIインテントアライメントは、AIがユーザによって意図された結果を生み出すことを保証するもので、人間とAIのインタラクションにおいて重要な課題である。 LLMを含むジェネレーティブAIの出現は、AIシステムに望ましい結果を指定するユーザの増加に伴い、この問題の重要性を高めている。 より優れたAIインテントアライメントを支援するため、人間と人間のコミュニケーションにおけるインテント仕様のためのヒューマン戦略を探究する。 人-人-LLMコミュニケーションを研究・比較することにより、ユーザ意図の理解と整合性がより効果的であるAIシステムの設計に適用可能な重要な戦略を特定する。 本研究は,人間中心型AIシステムに向けて,AIシステム設計のためのヒューマンコミュニケーション戦略をまとめることを目的としている。

AI intent alignment, ensuring that AI produces outcomes as intended by users, is a critical challenge in human-AI interaction. The emergence of generative AI, including LLMs, has intensified the significance of this problem, as interactions increasingly involve users specifying desired results for AI systems. In order to support better AI intent alignment, we aim to explore human strategies for intent specification in human-human communication. By studying and comparing human-human and human-LLM communication, we identify key strategies that can be applied to the design of AI systems that are more effective at understanding and aligning with user intent. This study aims to advance toward a human-centered AI system by bringing together human communication strategies for the design of AI systems.
翻訳日:2024-05-10 13:42:37 公開日:2024-05-09
# 高速化された高次ランゲヴィンモンテカルロアルゴリズムの非漸近推定

Non-asymptotic estimates for accelerated high order Langevin Monte Carlo algorithms ( http://arxiv.org/abs/2405.05679v1 )

ライセンス: Link先を確認
Ariel Neufeld, Ying Zhang, (参考訳) 本稿では,高次元目標分布から超直線的に増大するポテンシャルを持つ2つの新しいアルゴリズム,aHOLAとaHOLLAを提案する。 我々は、それぞれ1+q/2$と1/2+q/4$の収束率を持つワッサーシュタイン-1とワッサーシュタイン-2の aHOLA の非漸近収束境界を、指数 $q\in(0,1]$ の局所 H\"{o}lder 条件と、目標分布のポテンシャルに対する無限大条件での凸性の下で確立する。 同様の結果は、ある大域連続性条件下でのaHOLLAと解離性条件で得られる。 重要なことは、提案アルゴリズムの既存のアルゴリズムよりも高い非凸設定において、提案アルゴリズムの収束の最先端性を達成することである。 いくつかの分布からサンプルを採取し,本研究の成果を裏付ける数値実験を行った。

In this paper, we propose two new algorithms, namely aHOLA and aHOLLA, to sample from high-dimensional target distributions with possibly super-linearly growing potentials. We establish non-asymptotic convergence bounds for aHOLA in Wasserstein-1 and Wasserstein-2 distances with rates of convergence equal to $1+q/2$ and $1/2+q/4$, respectively, under a local H\"{o}lder condition with exponent $q\in(0,1]$ and a convexity at infinity condition on the potential of the target distribution. Similar results are obtained for aHOLLA under certain global continuity conditions and a dissipativity condition. Crucially, we achieve state-of-the-art rates of convergence of the proposed algorithms in the non-convex setting which are higher than those of the existing algorithms. Numerical experiments are conducted to sample from several distributions and the results support our main findings.
翻訳日:2024-05-10 13:42:37 公開日:2024-05-09
# 会話理解による言語モデルの対話ロバスト性の評価

Evaluating Dialect Robustness of Language Models via Conversation Understanding ( http://arxiv.org/abs/2405.05688v1 )

ライセンス: Link先を確認
Dipankar Srirag, Aditya Joshi, (参考訳) 英語におけるLLMの報告回数が最も多いため、英語の異なる方言(すなわち、方言の堅牢性)に対して同等に演奏できる能力は確認する必要がある。 具体的には、"taboo"という語遊びをする人間同士の英語(アメリカ英語またはインド英語)の会話を利用する。 目的語予測 (TWP) と対象語選択 (TWS) の2つの課題を定式化する。 既存のタブー再生会話の方言データセットであるMD3を拡張し, USEng と IndEng のサブセットを用いたMD3のターゲット単語マス化バージョンである M-MD3 を導入する。 AITrans(方言情報がIndEngから削除される)とAIGen(LLMが会話を生成するように促される)の2つのサブセットを追加します。 本評価では,2つのクローズドソース (GPT-4/3.5) と2つのオープンソース LLM (Mistral と Gemma) の事前学習および微調整版を用いた。 LLMは、すべての設定において、TWPとTWSの両方において、インド英語よりも、アメリカ英語の方がはるかに優れている。 GPTベースのモデルが最もよく機能する一方で、比較的小さなモデルは短い会話でより公平に機能する((<8ターン)。 我々のAIGenとAITrans(最も優れたサブセットと最悪のパフォーマンスサブセット)の結果は、LLMがトレーニングデータの構成に基づいて独自の方言を学ぶことができ、方言の堅牢性は確かに難しい課題であることを示している。 提案手法は,既存の対話データセットを用いて,言語モデルの属性を調べる新しい手法を示す。

With an evergrowing number of LLMs reporting superlative performance for English, their ability to perform equitably for different dialects of English (i.e., dialect robustness) needs to be ascertained. Specifically, we use English language (US English or Indian English) conversations between humans who play the word-guessing game of `taboo'. We formulate two evaluative tasks: target word prediction (TWP) (i.e.predict the masked target word in a conversation) and target word selection (TWS) (i.e., select the most likely masked target word in a conversation, from among a set of candidate words). Extending MD3, an existing dialectic dataset of taboo-playing conversations, we introduce M-MD3, a target-word-masked version of MD3 with the USEng and IndEng subsets. We add two subsets: AITrans (where dialectic information is removed from IndEng) and AIGen (where LLMs are prompted to generate conversations). Our evaluation uses pre-trained and fine-tuned versions of two closed-source (GPT-4/3.5) and two open-source LLMs (Mistral and Gemma). LLMs perform significantly better for US English than Indian English for both TWP and TWS, for all settings. While GPT-based models perform the best, the comparatively smaller models work more equitably for short conversations (<8 turns). Our results on AIGen and AITrans (the best and worst-performing subset) respectively show that LLMs may learn a dialect of their own based on the composition of the training data, and that dialect robustness is indeed a challenging task. Our evaluation methodology exhibits a novel way to examine attributes of language models using pre-existing dialogue datasets.
翻訳日:2024-05-10 13:42:37 公開日:2024-05-09
# StableMoFusion:ロバストかつ効率的な拡散に基づく運動生成フレームワークを目指して

StableMoFusion: Towards Robust and Efficient Diffusion-based Motion Generation Framework ( http://arxiv.org/abs/2405.05691v1 )

ライセンス: Link先を確認
Yiheng Huang, Hui Yang, Chuanchen Luo, Yuxi Wang, Shibiao Xu, Zhaoxiang Zhang, Man Zhang, Junran Peng, (参考訳) 拡散モデルの強力な生成能力のおかげで、近年はヒトの運動生成の急速な進歩が見られた。 既存の拡散に基づく手法では、異なるネットワークアーキテクチャとトレーニング戦略が採用されている。 それぞれのコンポーネントの設計の影響はまだ不明である。 さらに、反復的復調処理は、仮想キャラクタやヒューマノイドロボットのようなリアルタイムシナリオでは禁止されている、かなりの計算オーバーヘッドを消費する。 そのため、まずネットワークアーキテクチャ、トレーニング戦略、推論プロセスに関する包括的な調査を行う。 より深い分析に基づいて、我々は、効率的な高品質な人体運動生成のための各コンポーネントを調整する。 有望な性能にもかかわらず、この調整されたモデルは、拡散ベースのソリューションにおいてユビキタスな問題であるフットスケートに悩まされている。 そこで本研究では,フットスケートを除去するために,フットグラウンドの接触を識別し,デノナイジング過程に沿ったフットモーションを補正する。 これらのよく設計されたコンポーネントを有機的に組み合わせることで、人間のモーション生成のための堅牢で効率的なフレームワークであるStableMoFusionを提示する。 我々のStableMoFusionは、現在の最先端手法に対して好適に機能することを示した。 プロジェクトページ:https://h-y1heng.github.io/StableMoFusion-page/

Thanks to the powerful generative capacity of diffusion models, recent years have witnessed rapid progress in human motion generation. Existing diffusion-based methods employ disparate network architectures and training strategies. The effect of the design of each component is still unclear. In addition, the iterative denoising process consumes considerable computational overhead, which is prohibitive for real-time scenarios such as virtual characters and humanoid robots. For this reason, we first conduct a comprehensive investigation into network architectures, training strategies, and inference processs. Based on the profound analysis, we tailor each component for efficient high-quality human motion generation. Despite the promising performance, the tailored model still suffers from foot skating which is an ubiquitous issue in diffusion-based solutions. To eliminate footskate, we identify foot-ground contact and correct foot motions along the denoising process. By organically combining these well-designed components together, we present StableMoFusion, a robust and efficient framework for human motion generation. Extensive experimental results show that our StableMoFusion performs favorably against current state-of-the-art methods. Project page: https://h-y1heng.github.io/StableMoFusion-page/
翻訳日:2024-05-10 13:32:48 公開日:2024-05-09
# Aux-NAS:過度な推論コストで補助ラベルを爆発させる

Aux-NAS: Exploiting Auxiliary Labels with Negligibly Extra Inference Cost ( http://arxiv.org/abs/2405.05695v1 )

ライセンス: Link先を確認
Yuan Gao, Weizhong Zhang, Wenhan Luo, Lin Ma, Jin-Gang Yu, Gui-Song Xia, Jiayi Ma, (参考訳) 独立タスク(補助タスク)から追加の補助ラベルを活用することで、主タスクの単一タスク推論コストを保ちながら、主タスクのパフォーマンスを向上させることを目的としている。 既存の補助学習手法の多くは損失重み/漸進的な操作に依存する最適化に基づくものであるが、本手法は一次および補助的なタスクに対して柔軟な非対称構造を持ち、トレーニングと推論のための異なるネットワークを生成する。 具体的には,2つの単一タスクネットワーク/ブランチ(それぞれタスクを表す)からスタートし,コンバージェンス後のクロスタスク接続として1次から2次リンクのみが存在するネットワークを進化させる手法を提案する。 これらの接続は、プライマリタスクの推論中に削除することができ、結果としてシングルタスクの推論コストが発生する。 ニューラルネットワーク探索(NAS)問題を定式化し,検索空間における双方向接続を初期化し,単一側一次-二次接続のみを持つアーキテクチャに収束するNAS最適化を導出する。 さらに,本手法は最適化に基づく補助学習手法に組み込むことができる。 VGG、ResNet、ViTのバックボーンを使用して、NYU v2、CityScapes、Taskonomyデータセット上の6つのタスクによる大規模な実験により、期待できるパフォーマンスが検証された。 コードはhttps://github.com/ethanygao/Aux-NAS.comで公開されている。

We aim at exploiting additional auxiliary labels from an independent (auxiliary) task to boost the primary task performance which we focus on, while preserving a single task inference cost of the primary task. While most existing auxiliary learning methods are optimization-based relying on loss weights/gradients manipulation, our method is architecture-based with a flexible asymmetric structure for the primary and auxiliary tasks, which produces different networks for training and inference. Specifically, starting from two single task networks/branches (each representing a task), we propose a novel method with evolving networks where only primary-to-auxiliary links exist as the cross-task connections after convergence. These connections can be removed during the primary task inference, resulting in a single-task inference cost. We achieve this by formulating a Neural Architecture Search (NAS) problem, where we initialize bi-directional connections in the search space and guide the NAS optimization converging to an architecture with only the single-side primary-to-auxiliary connections. Moreover, our method can be incorporated with optimization-based auxiliary learning approaches. Extensive experiments with six tasks on NYU v2, CityScapes, and Taskonomy datasets using VGG, ResNet, and ViT backbones validate the promising performance. The codes are available at https://github.com/ethanygao/Aux-NAS.
翻訳日:2024-05-10 13:32:48 公開日:2024-05-09
# 複雑空洞QEDシステムのエントロピーダイナミクスの研究

Investigating entropic dynamics of complicated cavity QED system ( http://arxiv.org/abs/2405.05696v1 )

ライセンス: Link先を確認
Hui-hui Miao, (参考訳) 複雑空洞QEDシステムのエントロピーの諸側面について検討した。 原子は光ツイーザーを介して光学キャビティに保持され、トンネル効果によって異なるキャビティの間を飛び回ることができる。 原子と空洞との相互作用は電子遷移と光子の生成と消滅をもたらす。 モデルには共有結合とフォノンが導入された。 あらゆる種類の相互作用がエントロピーに与える影響について研究した。 同時に、異なる部分系のフォン・ノイマンエントロピーを比較する。 その結果,システムパラメータを選択的に選択することで,エントロピーダイナミクスを制御できることが示唆された。

Various aspects of entropy of a complicated cavity QED system are explored. Atoms are held in optical cavities through optical tweezers and can jump between different cavities through the tunneling effect. The interaction of atom with the cavity results in electronic transitions and the creation and annihilation of photon. Covalent bond and phonon are introduced into the model. The effect of all kinds of interactions on entropy is studied. At the same time, the von Neumann entropy of different subsystems is compared. The results show that by selectively choosing system parameters, the entropic dynamics can be controlled.
翻訳日:2024-05-10 13:32:48 公開日:2024-05-09
# テキスト中のステートメントを検出する:ドメインに依存しないFew-Shotソリューション

Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution ( http://arxiv.org/abs/2405.05705v1 )

ライセンス: Link先を確認
Sandrine Chausson, Björn Ross, (参考訳) 計算社会科学とWebコンテンツ分析に関連する多くのタスクは、それらが持つ主張に基づいてテキストを分類することである。 最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。 そこで本稿では,クレームベーステキスト分類タスクの共通パラダイムとして,定性的で多目的な複数ショット学習手法の提案とリリースを行う。 この方法論は、クラスをクレームの任意に洗練された分類体系として定義し、自然言語推論モデルを用いてこれらと関心のコーパスの間のテキスト的関係を得る。 これらのモデルの性能は最小限のデータ点のサンプルをアノテートすることで向上し、確率的二項の統計的ヒューリスティックを用いて動的にサンプリングされる。 本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。 このアプローチは、従来のプリトレイン/ファインチューンアプローチに匹敵する一方で、データアノテーションの必要性を大幅に削減する。

Many tasks related to Computational Social Science and Web Content Analysis involve classifying pieces of text based on the claims they contain. State-of-the-art approaches usually involve fine-tuning models on large annotated datasets, which are costly to produce. In light of this, we propose and release a qualitative and versatile few-shot learning methodology as a common paradigm for any claim-based textual classification task. This methodology involves defining the classes as arbitrarily sophisticated taxonomies of claims, and using Natural Language Inference models to obtain the textual entailment between these and a corpus of interest. The performance of these models is then boosted by annotating a minimal sample of data points, dynamically sampled using the well-established statistical heuristic of Probabilistic Bisection. We illustrate this methodology in the context of three tasks: climate change contrarianism detection, topic/stance classification and depression-relates symptoms detection. This approach rivals traditional pre-train/fine-tune approaches while drastically reducing the need for data annotation.
翻訳日:2024-05-10 13:32:48 公開日:2024-05-09
# LatentColorization: Latent Diffusion-based Speaker Video Colorization

LatentColorization: Latent Diffusion-Based Speaker Video Colorization ( http://arxiv.org/abs/2405.05707v1 )

ライセンス: Link先を確認
Rory Ward, Dan Bigioi, Shubhajit Basak, John G. Breslin, Peter Corcoran, (参考訳) 現在の研究では、主に画像ベースのカラー化に焦点を当てているが、ビデオベースのカラー化の領域はいまだに探索されていない。 既存のビデオカラー化技術の多くはフレーム単位で動作しており、しばしば連続するフレーム間の時間的コヒーレンスの重要な側面を見落としている。 このアプローチはフレーム間の不整合をもたらす可能性があり、フレーム間の点滅や突然の色遷移のような望ましくない効果をもたらす。 これらの課題に対処するために,ビデオカラー化に特化して設計された微調整潜在拡散モデルの生成機能を活用し,ビデオカラー化における時間的一貫性を実現するための新しいソリューションを導入し,既存の方法と比較して確立された画像品質指標の強力な改善を示す。 さらに,既存の最先端技術へのアプローチをユーザが好む主観的研究を行った。 我々のデータセットは、テレビ/映画からの従来のデータセットとビデオの組み合わせを含んでいる。 要するに、微調整された潜伏拡散に基づくカラー化システムのパワーを時間的整合性機構で活用することにより、時間的不整合の課題に対処することで、自動映像カラー化の性能を向上させることができる。 結果の短いデモは、https://youtu.be/vDbzsZdFuxM.comで公開されているサンプルビデオで見ることができる。

While current research predominantly focuses on image-based colorization, the domain of video-based colorization remains relatively unexplored. Most existing video colorization techniques operate on a frame-by-frame basis, often overlooking the critical aspect of temporal coherence between successive frames. This approach can result in inconsistencies across frames, leading to undesirable effects like flickering or abrupt color transitions between frames. To address these challenges, we harness the generative capabilities of a fine-tuned latent diffusion model designed specifically for video colorization, introducing a novel solution for achieving temporal consistency in video colorization, as well as demonstrating strong improvements on established image quality metrics compared to other existing methods. Furthermore, we perform a subjective study, where users preferred our approach to the existing state of the art. Our dataset encompasses a combination of conventional datasets and videos from television/movies. In short, by leveraging the power of a fine-tuned latent diffusion-based colorization system with a temporal consistency mechanism, we can improve the performance of automatic video colorization by addressing the challenges of temporal inconsistency. A short demonstration of our results can be seen in some example videos available at https://youtu.be/vDbzsZdFuxM.
翻訳日:2024-05-10 13:32:48 公開日:2024-05-09
# コルモゴロフ確率論の量子現象記述への適用性について(その1)

On the applicability of Kolmogorov's theory of probability to the description of quantum phenomena. Part I ( http://arxiv.org/abs/2405.05710v1 )

ライセンス: Link先を確認
Maik Reddiger, (参考訳) フォン・ノイマンが量子力学(QM)の公理化とともに「非可換確率論」の基礎を築いたのは、一般的な見解である。 このように、コルモゴロフによる「古典的確率論」の一般化と見なされている。 しかし、量子物理学以外では、コルモゴロフの公理は普遍的な適用性を持っている。 このことは、量子物理学が確率の概念のそのような一般化を必要とするのか、あるいはフォン・ノイマンのQMの公理化が1920年代の確率の一般理論が欠如していたのかという問題を提起する。 この仕事において、私は後者の立場を支持します。 特に、時間非依存スカラーポテンシャルを受ける非相対論的$N$ボディ量子系について、コルモゴロフの公理とQMの中心予測を再現する物理的自然確率変数に基づく数学的厳密な理論を構築することができることを示す。 それぞれの理論は異なるので、経験的な比較が可能かもしれない。 さらに、このアプローチは原則として、量子力学モデルの他のクラスに適応することができる。 このシリーズのパートIIは、射影の仮定とこのアプローチにおける測定の問題に対処する。

It is a common view that von Neumann laid the foundations of a "non-commutative probability theory" with his axiomatization of quantum mechanics (QM). As such, it is regarded a generalization of the "classical probability theory" due to Kolmogorov. Outside of quantum physics, however, Kolmogorov's axioms enjoy universal applicability. This raises the question of whether quantum physics indeed requires such a generalization of our conception of probability or if von Neumann's axiomatization of QM was contingent on the absence of a general theory of probability in the 1920s. In this work I argue in favor of the latter position. In particular, I show that for non-relativistic $N$-body quantum systems subject to a time-independent scalar potential, it is possible to construct a mathematically rigorous theory based on Kolmogorov's axioms and physically natural random variables, which reproduces central predictions of QM. The respective theories are distinct, so that an empirical comparison may be possible. Moreover, the approach can in principle be adapted to other classes of quantum-mechanical models. Part II of this series will address the projection postulate and the question of measurement in this approach.
翻訳日:2024-05-10 13:32:48 公開日:2024-05-09
# 多目的進化アルゴリズムにおけるパレートフロントのハウスドルフ近似の新手法

A Newton Method for Hausdorff Approximations of the Pareto Front within Multi-objective Evolutionary Algorithms ( http://arxiv.org/abs/2405.05721v1 )

ライセンス: Link先を確認
Hao Wang, Angel E. Rodriguez-Fernandez, Lourdes Uribe, André Deutz, Oziel Cortés-Piña, Oliver Schütze, (参考訳) 進化的多目的最適化における共通のゴールは、与えられた多目的最適化問題のパレートフロントの適切な有限サイズ近似を見つけることである。 多くの多目的進化的アルゴリズムは、優れたパレートフロント近似を見つけるのに非常に効率的であることが証明されているが、かなりのリソースが必要かもしれないし、最適あるいはほぼ近似を得ることができないかもしれない。 これにより、最適性は選択された性能指標によって暗黙的に定義される。 本研究では,多目的進化アルゴリズムで用いられるパレートフロントのハウスドルフ近似に対するセットベースニュートン法を提案する。 この目的のために、我々はまず、一般的な参照集合に対する制約付き問題を扱うための性能指標として、先に提案されたニュートンステップを一般化する。 ターゲットパレートフロントを近似するために,進化的アルゴリズムが実行中に収集したデータを利用する参照セットを生成するための具体的な戦略を提案する。 最後に、いくつかのベンチマークテスト関数と異なる基底進化アルゴリズムにおける後処理ステップとしてNewton法の利点を示す。

A common goal in evolutionary multi-objective optimization is to find suitable finite-size approximations of the Pareto front of a given multi-objective optimization problem. While many multi-objective evolutionary algorithms have proven to be very efficient in finding good Pareto front approximations, they may need quite a few resources or may even fail to obtain optimal or nearly approximations. Hereby, optimality is implicitly defined by the chosen performance indicator. In this work, we propose a set-based Newton method for Hausdorff approximations of the Pareto front to be used within multi-objective evolutionary algorithms. To this end, we first generalize the previously proposed Newton step for the performance indicator for the treatment of constrained problems for general reference sets. To approximate the target Pareto front, we propose a particular strategy for generating the reference set that utilizes the data gathered by the evolutionary algorithm during its run. Finally, we show the benefit of the Newton method as a post-processing step on several benchmark test functions and different base evolutionary algorithms.
翻訳日:2024-05-10 13:32:48 公開日:2024-05-09
# SO(3)同変非線形表現学習の枠組みと電子構造ハミルトニアン予測への応用

A Framework of SO(3)-equivariant Non-linear Representation Learning and its Application to Electronic-Structure Hamiltonian Prediction ( http://arxiv.org/abs/2405.05722v1 )

ライセンス: Link先を確認
Shi Yin, Xinyang Pan, Fengyan Wang, Feng Wu, Lixin He, (参考訳) 電子構造ハミルトニアンのようなSO(3)-同変量の予測において,非線形表現性とSO(3)-同変の調和という,物理系にディープラーニングを適用する上で重要な課題に対処する理論的および方法論的枠組みを提示する。 物理学における共変理論に着想を得て、SO(3)-不変量とSO(3)-同変量とそれらの表現の間の数学的関係を探求することによってこの問題に対処する。 まず、SO(3)-同変回帰目標から導かれる理論SO(3)-不変量を構築し、これらの不変量を用いて、高品質なSO(3)-不変特徴の学習を指導する。 非線型演算の下でSO(3)-不変性が保存されることを考えると、不変特徴の符号化プロセスは非線型写像を広範囲に利用し、物理的システムに固有の非線形パターンを完全に捉えることができる。 そこで本研究では, 学習したSO(3)不変特徴量から, 様々な次数のSO(3)同変符号化を誘導する勾配に基づく機構を提案する。 このメカニズムは、非線型表現能力をSO(3)-同変表現に組み込むことができ、理論上は我々が証明した同変特性を保っている。 本手法は,ディープラーニング手法における等価性と非線形表現性の間の臨界ジレンマに対して,有望な一般解を提供する。 この理論と手法を電子構造ハミルトン予測タスクに適用し、6つのベンチマークデータベースにおける最先端性能を実証する。

We present both a theoretical and a methodological framework that addresses a critical challenge in applying deep learning to physical systems: the reconciliation of non-linear expressiveness with SO(3)-equivariance in predictions of SO(3)-equivariant quantities, such as the electronic-structure Hamiltonian. Inspired by covariant theory in physics, we address this problem by exploring the mathematical relationships between SO(3)-invariant and SO(3)-equivariant quantities and their representations. We first construct theoretical SO(3)-invariant quantities derived from the SO(3)-equivariant regression targets, and use these invariant quantities as supervisory labels to guide the learning of high-quality SO(3)-invariant features. Given that SO(3)-invariance is preserved under non-linear operations, the encoding process for invariant features can extensively utilize non-linear mappings, thereby fully capturing the non-linear patterns inherent in physical systems. Building on this foundation, we propose a gradient-based mechanism to induce SO(3)-equivariant encodings of various degrees from the learned SO(3)-invariant features. This mechanism can incorporate non-linear expressive capabilities into SO(3)-equivariant representations, while theoretically preserving their equivariant properties as we prove. Our approach offers a promising general solution to the critical dilemma between equivariance and non-linear expressiveness in deep learning methodologies. We apply our theory and method to the electronic-structure Hamiltonian prediction tasks, demonstrating state-of-the-art performance across six benchmark databases.
翻訳日:2024-05-10 13:32:48 公開日:2024-05-09
# フラメンコジャンルの計算語彙解析

Computational lexical analysis of Flamenco genres ( http://arxiv.org/abs/2405.05723v1 )

ライセンス: Link先を確認
Pablo Rosillo-Rodes, Maxi San Miguel, David Sanchez, (参考訳) フラメンコはユネスコによって無形文化遺産の一部として認められ、スペイン・アンダルシアに根ざした文化的アイデンティティの深い表現である。 しかし、この長寿音楽の伝統に特徴的なパターンを特定するための定量的研究が欠如している。 本研究では、自然言語処理と機械学習を利用して、2000以上の歌詞をそれぞれのFlamencoジャンルに分類し、それを$\textit{palos}$と呼ぶフラメンコ歌詞の計算分析を行う。 Multinomial Naive Bayes 分類器を用いて、スタイル間の語彙的変動は $\textit{palos}$ を正確に識別することを可能にする。 さらに重要なことは、単語の自動使用法から、各スタイルを特徴付けるセマンティックフィールドを得ることである。 さらに、空間間距離を定量化する計量を適用し、フラメンコ様式の関係に光を当てるネットワーク解析を行う。 興味深いことに、我々の結果は歴史的つながりと$\textit{palo}$進化を示唆している。 全体として、フラーメンコの歌詞に埋め込まれた複雑な関係と文化的意義を照らし、定量的分析による以前の質的な議論を補完し、伝統的な音楽ジャンルの起源と発展に関する新たな議論を引き起こした。

Flamenco, recognized by UNESCO as part of the Intangible Cultural Heritage of Humanity, is a profound expression of cultural identity rooted in Andalusia, Spain. However, there is a lack of quantitative studies that help identify characteristic patterns in this long-lived music tradition. In this work, we present a computational analysis of Flamenco lyrics, employing natural language processing and machine learning to categorize over 2000 lyrics into their respective Flamenco genres, termed as $\textit{palos}$. Using a Multinomial Naive Bayes classifier, we find that lexical variation across styles enables to accurately identify distinct $\textit{palos}$. More importantly, from an automatic method of word usage, we obtain the semantic fields that characterize each style. Further, applying a metric that quantifies the inter-genre distance we perform a network analysis that sheds light on the relationship between Flamenco styles. Remarkably, our results suggest historical connections and $\textit{palo}$ evolutions. Overall, our work illuminates the intricate relationships and cultural significance embedded within Flamenco lyrics, complementing previous qualitative discussions with quantitative analyses and sparking new discussions on the origin and development of traditional music genres.
翻訳日:2024-05-10 13:32:48 公開日:2024-05-09
# 検閲ブロックモデルのためのプライベートオンラインコミュニティ検出

Private Online Community Detection for Censored Block Models ( http://arxiv.org/abs/2405.05724v1 )

ライセンス: Link先を確認
Mohamed Seif, Liyan Xie, Andrea J. Goldsmith, H. Vincent Poor, (参考訳) 本稿では,CBMを用いた動的コミュニティのオンライン変更検出問題について検討する。 エッジディファレンシャルプライバシ(DP)の概念に着目し,プライバシー予算と検出遅延,コミュニティラベルの正確なコミュニティリカバリの基本的なトレードオフを理解することを目指す。 提案手法は,利用者のプライバシーを維持しつつ,コミュニティ構造の変化を識別できるアルゴリズムを提案する。 さらに,提案手法の有効性を理論的に保証し,エッジDPにおける変更検出と正確な回復に必要な条件を提示する。 提案手法を検証するためのシミュレーションと実データ例を提供する。

We study the private online change detection problem for dynamic communities, using a censored block model (CBM). Focusing on the notion of edge differential privacy (DP), we seek to understand the fundamental tradeoffs between the privacy budget, detection delay, and exact community recovery of community labels. We establish the theoretical lower bound on the delay in detecting changes privately and propose an algorithm capable of identifying changes in the community structure, while maintaining user privacy. Further, we provide theoretical guarantees for the effectiveness of our proposed method by showing necessary and sufficient conditions on change detection and exact recovery under edge DP. Simulation and real data examples are provided to validate the proposed method.
翻訳日:2024-05-10 13:32:48 公開日:2024-05-09
# 非退化関数に対するバッチ確率帯域

Batched Stochastic Bandit for Nondegenerate Functions ( http://arxiv.org/abs/2405.05733v1 )

ライセンス: Link先を確認
Yu Liu, Yunlu Shu, Tianyu Wang, (参考訳) 本稿では,非退化関数に対するバッチ帯域学習問題について検討する。 本稿では,非退化関数に対するバッチバンドイット問題をほぼ最適に解くアルゴリズムを提案する。 より具体的には、Geometric Narrowing (GN) と呼ばれるアルゴリズムを導入し、その残差は$\widetilde{{\mathcal{O}}} (A_{+}^d \sqrt{T} )$である。 さらに、GNはこの後悔を達成するために$\mathcal{O} (\log \log T)$のバッチのみを必要とする。 また、この問題に対する低境界解析も提供する。 より具体的には、ある(コンパクトな)二重計量空間において、次元が$d$:であることを示す。 1. 任意のポリシー $\pi$ に対して、$\pi$ が次数 ${\Omega} ( A_-^d \sqrt{T})$ の後悔を認める問題インスタンスが存在する。 2. A_-^d \sqrt{T} $ の全ての問題インスタンスに対して、$ \Omega ( \log \log T ) $ の通信ラウンドを使用するという遺言は得られない。 我々の低境界解析は、GNアルゴリズムが最小のバッチ数でほぼ最適に後悔することを示す。

This paper studies batched bandit learning problems for nondegenerate functions. We introduce an algorithm that solves the batched bandit problem for nondegenerate functions near-optimally. More specifically, we introduce an algorithm, called Geometric Narrowing (GN), whose regret bound is of order $\widetilde{{\mathcal{O}}} ( A_{+}^d \sqrt{T} )$. In addition, GN only needs $\mathcal{O} (\log \log T)$ batches to achieve this regret. We also provide lower bound analysis for this problem. More specifically, we prove that over some (compact) doubling metric space of doubling dimension $d$: 1. For any policy $\pi$, there exists a problem instance on which $\pi$ admits a regret of order ${\Omega} ( A_-^d \sqrt{T})$; 2. No policy can achieve a regret of order $ A_-^d \sqrt{T} $ over all problem instances, using less than $ \Omega ( \log \log T ) $ rounds of communications. Our lower bound analysis shows that the GN algorithm achieves near optimal regret with minimal number of batches.
翻訳日:2024-05-10 13:32:48 公開日:2024-05-09
# オフポリティコンテキスト帯域に対する最適ベースライン補正

Optimal Baseline Corrections for Off-Policy Contextual Bandits ( http://arxiv.org/abs/2405.05736v1 )

ライセンス: Link先を確認
Shashank Gupta, Olivier Jeunen, Harrie Oosterhuis, Maarten de Rijke, (参考訳) オフ政治学習パラダイムにより、リコメンデータシステムと一般的なランキングアプリケーションは、意思決定の問題として枠を組むことができ、オンライン報酬メトリックのバイアスのないオフライン見積を最適化する決定ポリシーを学習することを目指している。 偏見のない場合、潜在的に高い分散が生じ、推定分散を減らすために一般的な方法が存在する。 これらの方法は典型的には、加法(ベースライン補正または二重ロバストな方法)または乗法(自己正規化)のいずれかの制御変数を使用する。 我々の研究は、学習シナリオにおける等価性に基づいて構築された単一のフレームワークを提案することによって、これらのアプローチを統一する。 我々のフレームワークの基礎は、既存の制御変数すべてに対する等価なベースライン補正の導出である。 したがって, このフレームワークは, 分散最適アンバイアス推定器を特徴付けることができ, クローズドフォームの解が得られる。 この最適推定器は、評価と学習の両方のパフォーマンスを大幅に改善し、データ要求を最小化する。 経験的観察は我々の理論的な発見を裏付ける。

The off-policy learning paradigm allows for recommender systems and general ranking applications to be framed as decision-making problems, where we aim to learn decision policies that optimize an unbiased offline estimate of an online reward metric. With unbiasedness comes potentially high variance, and prevalent methods exist to reduce estimation variance. These methods typically make use of control variates, either additive (i.e., baseline corrections or doubly robust methods) or multiplicative (i.e., self-normalisation). Our work unifies these approaches by proposing a single framework built on their equivalence in learning scenarios. The foundation of our framework is the derivation of an equivalent baseline correction for all of the existing control variates. Consequently, our framework enables us to characterize the variance-optimal unbiased estimator and provide a closed-form solution for it. This optimal estimator brings significantly improved performance in both evaluation and learning, and minimizes data requirements. Empirical observations corroborate our theoretical findings.
翻訳日:2024-05-10 13:32:48 公開日:2024-05-09
# 大きな言語モデルは、一般的な単語の一般的でない意味を理解できますか?

Can large language models understand uncommon meanings of common words? ( http://arxiv.org/abs/2405.05741v1 )

ライセンス: Link先を確認
Jinyang Wu, Feihu Che, Xinxin Zheng, Shuai Zhang, Ruihan Jin, Shuai Nie, Pengpeng Shao, Jianhua Tao, (参考訳) ChatGPTのような大規模言語モデル(LLM)は、インテリジェントな対話や自律エージェントなど、さまざまな自然言語理解(NLU)タスク間で大きな進歩を見せている。 しかし、広く知られる試験機構が欠如しており、「LLMが確率的なオウムなのか、それとも真に世界を理解しているのか」という答えはいまだに不明であり、多くの研究を育み、熱い議論を引き起こしている。 主に表面レベルのNLUに焦点をあて、微細な探査を無視する研究が主流である。 しかし、そのような探索は、その独特の理解機構を理解し、人間の認知と整合し、LLMの一般的なNLU能力を高めるために重要である。 このギャップに対処するため,本研究では,LLMのナンスな意味理解能力,特に一般的でない意味を持つ共通語について検討した。 心理学における人間のコミュニケーションの基本原理は、単語の意味論の正確な共通理解を裏付けるものである。 具体的には,Lexical Semantic Comprehension(LeSC)データセットの新たな評価指標を用いた革新的な構築について述べる。 オープンソースとクローズドソースの両方のモデルを導入し、様々なスケールとアーキテクチャを導入し、この基本的な語彙的意味の理解タスクにおいて既存のモデルの劣る性能を実証した。 特に、最先端のLDMのGPT-4とGPT-3.5でも、それぞれ3.9%、22.3%遅れている。 さらに、この問題を緩和するために複数の高度なプロンプト技術と検索拡張生成も導入されているが、制限は持続している。 以上の重要な欠点を強調して、この研究はさらなる調査を動機付け、よりインテリジェントなLCMを開発するための新たな洞察を提供する。

Large language models (LLMs) like ChatGPT have shown significant advancements across diverse natural language understanding (NLU) tasks, including intelligent dialogue and autonomous agents. Yet, lacking widely acknowledged testing mechanisms, answering `whether LLMs are stochastic parrots or genuinely comprehend the world' remains unclear, fostering numerous studies and sparking heated debates. Prevailing research mainly focuses on surface-level NLU, neglecting fine-grained explorations. However, such explorations are crucial for understanding their unique comprehension mechanisms, aligning with human cognition, and finally enhancing LLMs' general NLU capacities. To address this gap, our study delves into LLMs' nuanced semantic comprehension capabilities, particularly regarding common words with uncommon meanings. The idea stems from foundational principles of human communication within psychology, which underscore accurate shared understandings of word semantics. Specifically, this paper presents the innovative construction of a Lexical Semantic Comprehension (LeSC) dataset with novel evaluation metrics, the first benchmark encompassing both fine-grained and cross-lingual dimensions. Introducing models of both open-source and closed-source, varied scales and architectures, our extensive empirical experiments demonstrate the inferior performance of existing models in this basic lexical-meaning understanding task. Notably, even the state-of-the-art LLMs GPT-4 and GPT-3.5 lag behind 16-year-old humans by 3.9% and 22.3%, respectively. Additionally, multiple advanced prompting techniques and retrieval-augmented generation are also introduced to help alleviate this trouble, yet limitations persist. By highlighting the above critical shortcomings, this research motivates further investigation and offers novel insights for developing more intelligent LLMs.
翻訳日:2024-05-10 13:32:48 公開日:2024-05-09
# 微細画像分類におけるディープニューラルネットワークの品質の影響

How Quality Affects Deep Neural Networks in Fine-Grained Image Classification ( http://arxiv.org/abs/2405.05742v1 )

ライセンス: Link先を確認
Joseph Smith, Zheming Zuo, Jonathan Stonehouse, Boguslaw Obara, (参考訳) 本稿では,粒度分類システムの性能を高めるために,非参照画像品質評価(NRIQA)誘導カットオフポイント選択(CPS)戦略を提案する。 同じ画像上の既存のNRIQA法で与えられるスコアは、期待したほど自然画像の増大とは無関係であり、細粒度画像分類への接続や説明性が低下する可能性がある。 入力点として最も広く採用されている3つの画像拡張構成(トリミング、回転、ぼかし)を考慮し、複数のNRIQA法におけるモデル予測の信頼性と画像品質の密度分布の両方を考慮し、与えられた画像データセットから最も識別性の高いサブセットを選択するための2段階のメカニズムを定式化する。 具体的には、これらの方法によって得られるカットオフポイントは、多数決によって集約され、画像サブセット選択のプロセスが通知される。 このようなメカニズムの有効性と効率性は、高品質の画像で訓練されているモデルを、高品質と低品質の画像の組み合わせと比較することで確認されている。 このメカニズムのロバスト性は、選択された高品質な画像が、ResNet34を用いたアブレーション研究で犠牲となった分類精度の1.3%の70%の低品質な画像と共同で機能することを観察することによって証明されている。

In this paper, we propose a No-Reference Image Quality Assessment (NRIQA) guided cut-off point selection (CPS) strategy to enhance the performance of a fine-grained classification system. Scores given by existing NRIQA methods on the same image may vary and not be as independent of natural image augmentations as expected, which weakens their connection and explainability to fine-grained image classification. Taking the three most commonly adopted image augmentation configurations -- cropping, rotating, and blurring -- as the entry point, we formulate a two-step mechanism for selecting the most discriminative subset from a given image dataset by considering both the confidence of model predictions and the density distribution of image qualities over several NRIQA methods. Concretely, the cut-off points yielded by those methods are aggregated via majority voting to inform the process of image subset selection. The efficacy and efficiency of such a mechanism have been confirmed by comparing the models being trained on high-quality images against a combination of high- and low-quality ones, with a range of 0.7% to 4.2% improvement on a commercial product dataset in terms of mean accuracy through four deep neural classifiers. The robustness of the mechanism has been proven by the observations that all the selected high-quality images can work jointly with 70% low-quality images with 1.3% of classification precision sacrificed when using ResNet34 in an ablation study.
翻訳日:2024-05-10 13:32:48 公開日:2024-05-09
# PCBCT画像要素分割のためのマルチスケール局所視野特徴再構成に基づく効率的な事前学習モデル

Efficient Pretraining Model based on Multi-Scale Local Visual Field Feature Reconstruction for PCB CT Image Element Segmentation ( http://arxiv.org/abs/2405.05745v1 )

ライセンス: Link先を確認
Chen Chen, Kai Qiao, Jie Yang, Jian Chen, Bin Yan, (参考訳) 要素セグメンテーションは、CT技術に基づくプリント回路基板(PCB)の非破壊試験における重要なステップである。 近年、自己監督型事前学習技術の急速な発展により、ラベル付きサンプルを使わずに一般的な画像特徴を得られるようになり、少量のラベル付きサンプルを用いて下流タスクを解決し、PCB要素セグメンテーションの可能性を秘めている。 現在, Masked Image Modeling (MIM) プレトレーニングモデルが PCB CT 画像要素のセグメンテーションに採用されている。 しかし,配線やパッドなどのPCB素子の小型かつ規則的なサイズのため,大域的視野は単一要素再構成の冗長性を有し,モデルの性能を損なう可能性がある。 そこで本研究では,PCBCT画像要素分割(EMLR-seg)のためのマルチスケール局所視野特徴再構成に基づく,効率的な事前学習モデルを提案する。 本モデルでは,教師誘導MIM事前学習モデルをPCB CT画像要素分割に導入し,局所視野に着目して冗長性を低減するため,マルチスケール局所視野抽出(MVE)モジュールを提案する。 同時に、単純な4-Transformer-blocksデコーダが使用される。 実験の結果,提案したPCBCT画像データセットでは,EMLRセグが88.6%のmIoUを達成でき,トレーニング時間は29.6時間短縮され,同じ条件下で17.4%削減された。

Element segmentation is a key step in nondestructive testing of Printed Circuit Boards (PCB) based on Computed Tomography (CT) technology. In recent years, the rapid development of self-supervised pretraining technology can obtain general image features without labeled samples, and then use a small amount of labeled samples to solve downstream tasks, which has a good potential in PCB element segmentation. At present, Masked Image Modeling (MIM) pretraining model has been initially applied in PCB CT image element segmentation. However, due to the small and regular size of PCB elements such as vias, wires, and pads, the global visual field has redundancy for a single element reconstruction, which may damage the performance of the model. Based on this issue, we propose an efficient pretraining model based on multi-scale local visual field feature reconstruction for PCB CT image element segmentation (EMLR-seg). In this model, the teacher-guided MIM pretraining model is introduced into PCB CT image element segmentation for the first time, and a multi-scale local visual field extraction (MVE) module is proposed to reduce redundancy by focusing on local visual fields. At the same time, a simple 4-Transformer-blocks decoder is used. Experiments show that EMLR-seg can achieve 88.6% mIoU on the PCB CT image dataset we proposed, which exceeds 1.2% by the baseline model, and the training time is reduced by 29.6 hours, a reduction of 17.4% under the same experimental condition, which reflects the advantage of EMLR-seg in terms of performance and efficiency.
翻訳日:2024-05-10 13:23:01 公開日:2024-05-09
# Wi-Fiネットワークをスライスする学習: 状態拡張されたプリマル・デュアルアプローチ

Learning to Slice Wi-Fi Networks: A State-Augmented Primal-Dual Approach ( http://arxiv.org/abs/2405.05748v1 )

ライセンス: Link先を確認
Yiğit Berkay Uslu, Roya Doostnejad, Alejandro Ribeiro, Navid NaderiAlizadeh, (参考訳) ネットワークスライシングは、5G/NGセルラーネットワークにおいて重要な機能であり、さまざまなQoS(Quality-of-Service)要件を備えた異なるサービスタイプ用にカスタマイズされたスライスを作成する。 Wi-Fiネットワークでは、スライシングに関する事前作業が限られており、潜在的なソリューションは、異なるスライスに異なるチャネルを割り当てる単一のアクセスポイント(AP)上のマルチテナントアーキテクチャに基づいている。 本稿では,QoS要求に応じたWi-Fiネットワークのスライシングを実現するための,柔軟な制約付き学習フレームワークを定義する。 具体的には、ニューラルネットワークポリシをオフラインでトレーニングし、ラグランジアン関数を最適化し、実行フェーズで2変数動的をオンライン更新する、ステート拡張プリマルデュアルアルゴリズムを活用する教師なし学習ベースのネットワークスライシング手法を提案する。 エルゴディックなQoS要件を満たすスライシング決定を生成するためには,国家の強化が不可欠であることを示す。

Network slicing is a key feature in 5G/NG cellular networks that creates customized slices for different service types with various quality-of-service (QoS) requirements, which can achieve service differentiation and guarantee service-level agreement (SLA) for each service type. In Wi-Fi networks, there is limited prior work on slicing, and a potential solution is based on a multi-tenant architecture on a single access point (AP) that dedicates different channels to different slices. In this paper, we define a flexible, constrained learning framework to enable slicing in Wi-Fi networks subject to QoS requirements. We specifically propose an unsupervised learning-based network slicing method that leverages a state-augmented primal-dual algorithm, where a neural network policy is trained offline to optimize a Lagrangian function and the dual variable dynamics are updated online in the execution phase. We show that state augmentation is crucial for generating slicing decisions that meet the ergodic QoS requirements.
翻訳日:2024-05-10 13:23:01 公開日:2024-05-09
# NeRFFaceSpeech:1ショットの3次元音声対話ヘッド合成

NeRFFaceSpeech: One-shot Audio-diven 3D Talking Head Synthesis via Generative Prior ( http://arxiv.org/abs/2405.05749v1 )

ライセンス: Link先を確認
Gihoon Kim, Kwanggyoon Seo, Sihun Cha, Junyong Noh, (参考訳) 音声駆動音声ヘッド生成は2Dコンテンツから3Dコンテンツへと進歩している。 特に、高品質な3D音声ヘッド出力を合成する手段として、NeRF(Neural Radiance Field)が注目されている。 残念なことに、このNeRFベースのアプローチは、通常、個々のアイデンティティに対して多数のペアのオーディオ視覚データを必要とするため、メソッドのスケーラビリティが制限される。 音声駆動の3D音声ヘッドアニメーションを1つの画像で生成する試みはあったが、画像内の不明瞭な領域に関する情報が不足しているため、しばしば不満足である。 本稿では,顔のアニメーションを主に正面の視点で合成するワンショット音声駆動領域における3D一貫性の見落とされがちな側面に焦点をあてる。 高品質な3D対応音声ヘッドを作成できる新しい方法NeRFFaceSpeechを提案する。 提案手法は,NeRFと組み合わせた生成モデルの事前知識を用いて,単一画像に対応する3次元顔特徴空間を作成できる。 空間同期法では、パラメトリック顔モデルの音声関連頂点ダイナミクスを用いて、静止画像の特徴を動的視覚に変換し、リアルな3次元顔の動きを確実にする。 さらに,1枚の画像からは得られない内耳領域の情報不足を補うことができるLipaintNetを導入する。 ネットワークは、追加データなしで生成能力を活用することにより、自己教師型で訓練される。 本研究では,従来の手法に比べて3次元の整合性を高めた単一画像から音声駆動音声ヘッドを生成する手法の優位性を実証した。 さらに,ポーズ変化に対するモデルのロバスト性を定量的に測定する方法を導入する。

Audio-driven talking head generation is advancing from 2D to 3D content. Notably, Neural Radiance Field (NeRF) is in the spotlight as a means to synthesize high-quality 3D talking head outputs. Unfortunately, this NeRF-based approach typically requires a large number of paired audio-visual data for each identity, thereby limiting the scalability of the method. Although there have been attempts to generate audio-driven 3D talking head animations with a single image, the results are often unsatisfactory due to insufficient information on obscured regions in the image. In this paper, we mainly focus on addressing the overlooked aspect of 3D consistency in the one-shot, audio-driven domain, where facial animations are synthesized primarily in front-facing perspectives. We propose a novel method, NeRFFaceSpeech, which enables to produce high-quality 3D-aware talking head. Using prior knowledge of generative models combined with NeRF, our method can craft a 3D-consistent facial feature space corresponding to a single image. Our spatial synchronization method employs audio-correlated vertex dynamics of a parametric face model to transform static image features into dynamic visuals through ray deformation, ensuring realistic 3D facial motion. Moreover, we introduce LipaintNet that can replenish the lacking information in the inner-mouth area, which can not be obtained from a given single image. The network is trained in a self-supervised manner by utilizing the generative capabilities without additional data. The comprehensive experiments demonstrate the superiority of our method in generating audio-driven talking heads from a single image with enhanced 3D consistency compared to previous approaches. In addition, we introduce a quantitative way of measuring the robustness of a model against pose changes for the first time, which has been possible only qualitatively.
翻訳日:2024-05-10 13:23:01 公開日:2024-05-09
# テンソルプログラムのためのマルチレベル超最適化器

A Multi-Level Superoptimizer for Tensor Programs ( http://arxiv.org/abs/2405.05751v1 )

ライセンス: Link先を確認
Mengdi Wu, Xinhao Cheng, Oded Padon, Zhihao Jia, (参考訳) 我々は、テンソルプログラムのための最初のマルチレベルスーパー最適化であるMirageを紹介する。 Mirageのキーとなるアイデアは$\mu$Graphsである。これは、カーネル、スレッドブロック、GPU計算階層のスレッドレベルにおけるテンソルプログラムの統一表現である。 $\mu$Graphsにより、Mirageは代数変換、スケジュール変換、新しいカスタムカーネルの生成を組み合わせた新しい最適化を発見できる。 大きな探索空間をナビゲートするために、Mirage氏は、探索空間を著しく削減し、一定の最適性を保証する抽象化に基づくプルーニング技術を導入した。 最適化された$\mu$Graphが入力プログラムと同値であることを保証するため、Mirageは強力な理論的保証を持つ確率的同値検証手順を導入する。 私たちの評価によると、Mirageは広く使われ、非常に最適化されたDNNでさえ、3.5$\times$で既存のアプローチより優れています。 Mirageはhttps://github.com/mirage-project/mirage.comで公開されている。

We introduce Mirage, the first multi-level superoptimizer for tensor programs. A key idea in Mirage is $\mu$Graphs, a uniform representation of tensor programs at the kernel, thread block, and thread levels of the GPU compute hierarchy. $\mu$Graphs enable Mirage to discover novel optimizations that combine algebraic transformations, schedule transformations, and generation of new custom kernels. To navigate the large search space, Mirage introduces a pruning technique based on abstraction that significantly reduces the search space and provides a certain optimality guarantee. To ensure that the optimized $\mu$Graph is equivalent to the input program, Mirage introduces a probabilistic equivalence verification procedure with strong theoretical guarantees. Our evaluation shows that Mirage outperforms existing approaches by up to 3.5$\times$ even for DNNs that are widely used and heavily optimized. Mirage is publicly available at https://github.com/mirage-project/mirage.
翻訳日:2024-05-10 13:23:01 公開日:2024-05-09
# オプトメカニカルラダーにおけるトポロジカルポラリトン操作

Manipulating Topological Polaritons in Optomechanical Ladders ( http://arxiv.org/abs/2405.05753v1 )

ライセンス: Link先を確認
Jia-Kang Wu, Xun-Wei Xu, Hui Jing, Le-Man Kuang, Franco Nori, Jie-Qiao Liao, (参考訳) 我々は,光学的Su-Schrieffer-Heeger(SSH)鎖と,光学的(相互鎖)相互作用を介して接続された機械的SSH鎖からなる,光学的はしごにおける位相的偏光子を操作することを提案する。 位相位相図は6つの領域を4つの境界で分割し、ベリー位相を特徴とする位相位相が4つ存在することを示す。 偏光子の位相的非自明な位相は、光学的SSH鎖と機械的SSH鎖の光学的相互作用によって生じる。 反対に、6つのエッジ状態は、位相的非自明な2つのバンドしか持たない位相相の1つに現れ、いくつかのエッジ状態は、開境界のはしごの境界付近で局所化されている。 さらに、駆動振幅と周波数の適切な周期的断熱変調を導入することにより、高いチャーン数を持つ2次元チャーン絶縁体をシミュレートする。 我々の研究は、光学的相互作用によるトポロジカルポラリトン操作への道を開くだけでなく、トポロジカルに保護されたポラリトンデバイスの設計にも大きな影響を与える。

We propose to manipulate topological polaritons in optomechanical ladders consisting of an optical Su-Schrieffer-Heeger (SSH) chain and a mechanical SSH chain connected through optomechanical (interchain) interactions. We show that the topological phase diagrams are divided into six areas by four boundaries and that there are four topological phases characterized by the Berry phases. We find that a topologically nontrivial phase of the polaritons is generated by the optomechanical interaction between the optical and mechanical SSH chains even though they are both in the topologically trivial phases. Counter-intuitively, six edge states appear in one of the topological phases with only two topological nontrivial bands, and some edge states are localized near but not at the boundaries of an open-boundary ladder. Moreover, a two-dimensional Chern insulator with higher Chern numbers is simulated by introducing proper periodical adiabatic modulations of the driving amplitude and frequency. Our work not only opens a route towards topological polaritons manipulation by optomachanical interactions, but also will exert a far-reaching influence on designing topologically protected polaritonic devices.
翻訳日:2024-05-10 13:23:01 公開日:2024-05-09
# CSA-Net:チャネルワイドな空間的自己相関型アテンションネットワーク

CSA-Net: Channel-wise Spatially Autocorrelated Attention Networks ( http://arxiv.org/abs/2405.05755v1 )

ライセンス: Link先を確認
Nick, Nikzad, Yongsheng Gao, Jun Zhou, (参考訳) 近年、チャネルワイズ機能強化機構を備えた畳み込みニューラルネットワーク(CNN)は、チャネル依存性のモデル化に顕著なメリットをもたらしている。 しかし、現在注目されているパラダイムは、特徴写像間の統計的および空間的関係を同時に活用できる最適なチャネル記述子を推論することができない。 本稿では,この欠点を克服するために,チャネルワイドな空間的自己相関(CSA)アテンション機構を提案する。 地理的解析にインスパイアされた提案CSAは,特徴写像のチャネル間の空間的関係を利用して,効果的なチャネル記述子を生成する。 我々の知る限りでは、地理的空間解析の概念が深層CNNで活用されるのはf不機嫌な時期である。 提案したCSAは、深層モデルに無視可能な学習パラメータと軽量な計算オーバーヘッドを課し、強力で効率的な注意モジュールとして選択できる。 提案するCSAネットワーク(CSA-Nets)の有効性を,画像分類,オブジェクト検出,インスタンスセグメンテーションのためのMS COCOベンチマークデータセットを用いて検証した。 実験の結果、CSA-Netは、さまざまなベンチマークタスクやデータセットに対して、最先端の注目ベースのCNNよりも、競争性能と優れた一般化を一貫して達成できることが示された。

In recent years, convolutional neural networks (CNNs) with channel-wise feature refining mechanisms have brought noticeable benefits to modelling channel dependencies. However, current attention paradigms fail to infer an optimal channel descriptor capable of simultaneously exploiting statistical and spatial relationships among feature maps. In this paper, to overcome this shortcoming, we present a novel channel-wise spatially autocorrelated (CSA) attention mechanism. Inspired by geographical analysis, the proposed CSA exploits the spatial relationships between channels of feature maps to produce an effective channel descriptor. To the best of our knowledge, this is the f irst time that the concept of geographical spatial analysis is utilized in deep CNNs. The proposed CSA imposes negligible learning parameters and light computational overhead to the deep model, making it a powerful yet efficient attention module of choice. We validate the effectiveness of the proposed CSA networks (CSA-Nets) through extensive experiments and analysis on ImageNet, and MS COCO benchmark datasets for image classification, object detection, and instance segmentation. The experimental results demonstrate that CSA-Nets are able to consistently achieve competitive performance and superior generalization than several state-of-the-art attention-based CNNs over different benchmark tasks and datasets.
翻訳日:2024-05-10 13:23:01 公開日:2024-05-09
# 量子力学ではすべてが絡み合っている:正則法は物理的に意味があるのか?

Everything is Entangled in Quantum Mechanics: Are the Orthodox Measures Physically Meaningful? ( http://arxiv.org/abs/2405.05756v1 )

ライセンス: Link先を確認
Christian de Ronde, Raimundo Fernandez Moujan, Cesar Massri, (参考訳) 量子絡み合い(quantum entanglement)は、量子情報処理の新しい技術時代において、今日の最も重要な概念であるが、我々はこのカーネル概念の一貫性のある定義を欠いているだけでなく、その物理的意味も理解していない[35]。 これらの失敗は、一貫した測度の提供や絡み合いの定量化を試みる際に多くの問題を引き起こした。 事実、正統派文学における現代の研究の2つの主要な線は、あらゆる場所で矛盾や問題が発見される迷路を生み出している。 不等式が古典と量子を区別する方法を説明できなかったが、幾何学的アプローチはエントロピー測度について一貫した意味のある説明を提供しられなかった。 オルソドキシからの距離を考慮すると、この研究では、基底と因数分解の広範な相対論的説明から逃れることができる集中的関係の符号化(21)の観点から最近提示された客観的不変の定義を考慮し、量子絡み合いの量子化と測度に対処する(24, 25)。 検出器における「量子粒子」や「クリック」に対する正統的な双対論的な言及を超越して、この新しい研究は、主流の文献に現れる多くのオープンな問題を回避できるだけでなく、絡み合いの一貫性と一貫性のある物理的理解を提示することができると論じる。 この研究の主な結論は、量子力学において、一般に仮定されているものとは対照的に、実験室内の全ての操作式は本質的に絡み合っているということである。

Even though quantum entanglement is today's most essential concept within the new technological era of quantum information processing, we do not only lack a consistent definition of this kernel notion, we are also far from understanding its physical meaning [35]. These failures have lead to many problems when attempting to provide a consistent measure or quantification of entanglement. In fact, the two main lines of contemporary research within the orthodox literature have created mazes where inconsistencies and problems are found everywhere. While the operational-instrumentalist approach has failed to explain how inequalities are able to distinguish the classical from the quantum, the geometrical approach has failed to provide a consistent meaningful account of their entropic measure. Taking distance from orthodoxy, in this work we address the quantification and measure of quantum entanglement by considering a recently presented objective-invariant definition in terms of the coding of intensive relations [21] which allows to escape the widespread relativist account of bases and factorizations [24, 25]. Going beyond the orthodox dualistic reference to "quantum particles" and "clicks" in detectors, we will argue that this new line of research is capable not only to evade the many open problems which appear within the mainstream literature, but is also able to present a consistent and coherent physical understanding of entanglement. The main conclusion of this work is that in quantum mechanics --contrary to what is generally presupposed-- all operational expressions found within the laboratory are intrinsically entangled.
翻訳日:2024-05-10 13:23:01 公開日:2024-05-09
# 質的分析の促進におけるヒトLLMシナジーの可能性を探る:精神疾患スティグマを事例として

Exploring the Potential of Human-LLM Synergy in Advancing Qualitative Analysis: A Case Study on Mental-Illness Stigma ( http://arxiv.org/abs/2405.05758v1 )

ライセンス: Link先を確認
Han Meng, Yitian Yang, Yunan Li, Jungup Lee, Yi-Chieh Lee, (参考訳) 定性的分析は、ヒューマン・コンピュータ・インタラクション(HCI)分野の研究を進める上で、難しいが重要な側面である。 近年の研究では、大規模言語モデル(LLM)が既存のスキーム内で定性的なコーディングを行うことが可能であることが示されているが、人間のLLM発見と定性分析における新たな洞察生成の可能性はまだ未定である。 このギャップを埋め、LCMの力を利用して定性分析を進めていくために、人間とLLMの協調パラダイムを活用する新しい方法論であるCHALETを提案する。 CHALETのアプローチは、LLMがサポートしているデータ収集、人間とLLMの両方の導出的符号化による不一致の特定、そしてこれらの不一致のケースでの協調的帰納的符号化による新しい概念的洞察の導出である。 本研究は,CHALETの有効性を,認知,感情,行動次元に関する暗黙のシュティグマ化テーマを明らかにするメンタル・イリネス・スティグマの帰属モデルに適用することで検証した。 我々は,CHALETがHCIコミュニティ等に提示する,今後の研究,方法論,学際的機会の意義について論じる。

Qualitative analysis is a challenging, yet crucial aspect of advancing research in the field of Human-Computer Interaction (HCI). Recent studies show that large language models (LLMs) can perform qualitative coding within existing schemes, but their potential for collaborative human-LLM discovery and new insight generation in qualitative analysis is still underexplored. To bridge this gap and advance qualitative analysis by harnessing the power of LLMs, we propose CHALET, a novel methodology that leverages the human-LLM collaboration paradigm to facilitate conceptualization and empower qualitative research. The CHALET approach involves LLM-supported data collection, performing both human and LLM deductive coding to identify disagreements, and performing collaborative inductive coding on these disagreement cases to derive new conceptual insights. We validated the effectiveness of CHALET through its application to the attribution model of mental-illness stigma, uncovering implicit stigmatization themes on cognitive, emotional and behavioral dimensions. We discuss the implications for future research, methodology, and the transdisciplinary opportunities CHALET presents for the HCI community and beyond.
翻訳日:2024-05-10 13:23:01 公開日:2024-05-09
# ソーシャルメディアにおける意味的位置予測のための類似性指導型マルチモーダル核融合変換器

Similarity Guided Multimodal Fusion Transformer for Semantic Location Prediction in Social Media ( http://arxiv.org/abs/2405.05760v1 )

ライセンス: Link先を確認
Zhizhen Zhang, Ning Wang, Haojie Li, Zhihui Wang, (参考訳) セマンティックな位置予測の目的は、マルチモーダルなソーシャルメディア投稿から関連するセマンティックな位置情報を抽出することであり、GPS座標と比較して日常の行動をより文脈的に理解することである。 しかし、この課題は「テキストイメージ」のペアにノイズや無関係な情報が存在するために困難になる。 既存の手法では特徴表現が不十分であり、様々な粒度の類似性の包括的統合を考慮できないため、ノイズや無関係な情報のフィルタリングが困難である。 これらの課題に対処するために,ソーシャルユーザのセマンティックな位置を予測するためのSG-MFT(Simisity-Guided Multimodal Fusion Transformer)を提案する。 まず,事前学習した大規模視覚言語モデルを用いて,ソーシャルメディア投稿から高品質な特徴表現を抽出する。 そこで我々は, 粗粒度, 微粒度の相似性誘導を組み込むことにより, モダリティの不均一性とノイズ干渉を緩和するSimisity-Guided Interaction Module (SIM)を導入する。 具体的には、不均一性を緩和し、各モーダル内のノイズを低減するために、モーダルワイドな類似性を生かし、粗いレベルにおける特徴補間注意機構を提案する。 一方、我々は、相似性を考慮したフィードフォワードブロックを微細なレベルで採用し、要素的類似性を利用して、相似性の不均一性の影響をさらに緩和する。 最小限のノイズとモーダル干渉を伴う事前処理機能に基づいて,2つのモーダルをクロスアテンション機構で融合させる類似性認識機能融合モジュール (SFM) を提案する。 総合的な実験結果から,効率的な核融合効率を維持しつつ,モダリティの不均衡処理における提案手法の優れた性能を示す。

The purpose of semantic location prediction is to extract relevant semantic location information from multimodal social media posts, offering a more contextual understanding of daily activities compared to GPS coordinates. However, this task becomes challenging due to the presence of noise and irrelevant information in "text-image" pairs. Existing methods suffer from insufficient feature representations and fail to consider the comprehensive integration of similarity at different granularities, making it difficult to filter out noise and irrelevant information. To address these challenges, we propose a Similarity-Guided Multimodal Fusion Transformer (SG-MFT) for predicting social users' semantic locations. First, we utilize a pre-trained large-scale vision-language model to extract high-quality feature representations from social media posts. Then, we introduce a Similarity-Guided Interaction Module (SIM) to alleviate modality heterogeneity and noise interference by incorporating coarse-grained and fine-grained similarity guidance for modality interactions. Specifically, we propose a novel similarity-aware feature interpolation attention mechanism at the coarse level, leveraging modality-wise similarity to mitigate heterogeneity and reduce noise within each modality. Meanwhile, we employ a similarity-aware feed-forward block at the fine level, utilizing element-wise similarity to further mitigate the impact of modality heterogeneity. Building upon pre-processed features with minimal noise and modal interference, we propose a Similarity-aware Feature Fusion Module (SFM) to fuse two modalities with cross-attention mechanism. Comprehensive experimental results demonstrate the superior performance of our proposed method in handling modality imbalance while maintaining efficient fusion effectiveness.
翻訳日:2024-05-10 13:23:01 公開日:2024-05-09
# DP-MDM:多重拡散モデルによる詳細保存MR再構成

DP-MDM: Detail-Preserving MR Reconstruction via Multiple Diffusion Models ( http://arxiv.org/abs/2405.05763v1 )

ライセンス: Link先を確認
Mengxiao Geng, Jiahao Zhu, Xiaolin Zhu, Qiqing Liu, Dong Liang, Qiegen Liu, (参考訳) 磁気共鳴画像の詳細な特徴は、正確な診断と治療において重要な役割を担っている。 しかし、より複雑な詳細を正確に把握できないため、広く活用されている単純拡散モデルには限界がある。 画像ドメインではなく,k空間領域の構造と詳細特徴を抽出するために,複数の拡散モデルを用いた包括的詳細保存再構成法を提案する。 さらに、仮想二元変調マスクを用いて、高度に適応されたセンターウィンドウを通じてk空間データの値範囲を洗練し、より効率的にその注意を集中させることができる。 最後に、トップダウン画像情報が徐々に減少し、カスケード表現をエナブルする逆ピラミッド構造を用いる。 このフレームワークはマルチスケールのサンプルデータを効果的に表現し、逆ピラミッドアーキテクチャの幅を数え、カスケードトレーニングデータ分布を利用してマルチスケールデータを再現する。 ステップバイステップの精細化アプローチにより、デテールの近似を洗練させる。 最後に,臨床および公開データセットのコンダクト実験により,提案手法の評価を行った。 その結果,提案手法は他の手法よりも優れていることがわかった。

Detail features of magnetic resonance images play a cru-cial role in accurate medical diagnosis and treatment, as they capture subtle changes that pose challenges for doc-tors when performing precise judgments. However, the widely utilized naive diffusion model has limitations, as it fails to accurately capture more intricate details. To en-hance the quality of MRI reconstruction, we propose a comprehensive detail-preserving reconstruction method using multiple diffusion models to extract structure and detail features in k-space domain instead of image do-main. Moreover, virtual binary modal masks are utilized to refine the range of values in k-space data through highly adaptive center windows, which allows the model to focus its attention more efficiently. Last but not least, an inverted pyramid structure is employed, where the top-down image information gradually decreases, ena-bling a cascade representation. The framework effective-ly represents multi-scale sampled data, taking into ac-count the sparsity of the inverted pyramid architecture, and utilizes cascade training data distribution to repre-sent multi-scale data. Through a step-by-step refinement approach, the method refines the approximation of de-tails. Finally, the proposed method was evaluated by con-ducting experiments on clinical and public datasets. The results demonstrate that the proposed method outper-forms other methods.
翻訳日:2024-05-10 13:23:01 公開日:2024-05-09
# 信頼か信頼か: XAI システムの信頼を測る新しいアプローチを目指して

To Trust or Not to Trust: Towards a novel approach to measure trust for XAI systems ( http://arxiv.org/abs/2405.05766v1 )

ライセンス: Link先を確認
Miquel Miró-Nicolau, Gabriel Moyà-Alcover, Antoni Jaume-i-Capó, Manuel González-Hidalgo, Maria Gemma Sempere Campello, Juan Antonio Palmer Sancho, (参考訳) ディープラーニングモデルへの依存度の増加と、その固有の透明性の欠如が組み合わさって、eXplainable AI(XAI)メソッドとして知られる新しい研究分野の開発を加速させた。 これらの手法は、自動システムにおけるエンドユーザの信頼を高めるために、意思決定の背後にある理論的根拠に関する洞察を提供することを目的としている。 本稿では,XAIシステムにおけるユーザ信頼度を測定するための新しい手法を提案する。 提案手法は,客観的な視点から評価指標と信頼指標を組み合わせる。 この新手法を検証するため,X線画像から肺炎を検出するためのXAIシステムを用いた症例スタディを現実的な医療シナリオで実施した。

The increasing reliance on Deep Learning models, combined with their inherent lack of transparency, has spurred the development of a novel field of study known as eXplainable AI (XAI) methods. These methods seek to enhance the trust of end-users in automated systems by providing insights into the rationale behind their decisions. This paper presents a novel approach for measuring user trust in XAI systems, allowing their refinement. Our proposed metric combines both performance metrics and trust indicators from an objective perspective. To validate this novel methodology, we conducted a case study in a realistic medical scenario: the usage of XAI system for the detection of pneumonia from x-ray images.
翻訳日:2024-05-10 13:23:01 公開日:2024-05-09
# 制約付き多目的最適化のための大言語モデルを用いた進化的探索

Large Language Model-Aided Evolutionary Search for Constrained Multiobjective Optimization ( http://arxiv.org/abs/2405.05767v1 )

ライセンス: Link先を確認
Zeyi Wang, Songbai Liu, Jianyong Chen, Kay Chen Tan, (参考訳) 進化的アルゴリズムは複雑な最適化問題、特に複数の目的を持つ問題を解くのに優れている。 しかしながら、その確率的な性質は、特に制約を含むシナリオにおいて、時として大域的最適性への急激な収束を妨げる。 本研究では,制約付き多目的最適化問題に対する進化探索を強化するために,大規模言語モデル (LLM) を用いる。 私たちの目標は、進化の集団の収束を早めることです。 これを実現するため、我々は、目標値とソリューションの制約違反に関する情報を統合し、調整されたプロンプトエンジニアリングを通してLLMを微調整する。 このプロセスにより、LLMは、提供された入力データに基づいて、良好な性能と性能の低いソリューションの関係を把握できる。 ソリューションの品質は、制約違反と客観的なパフォーマンスに基づいて評価されます。 改良されたLLMを利用することで、高品質なソリューションを生成するための探索演算子として使用できる。 様々な試験ベンチマークによる実験的評価は、LLMが支援する進化探索が人口の収束速度を著しく加速し、最先端の進化アルゴリズムと競合する点を示している。

Evolutionary algorithms excel in solving complex optimization problems, especially those with multiple objectives. However, their stochastic nature can sometimes hinder rapid convergence to the global optima, particularly in scenarios involving constraints. In this study, we employ a large language model (LLM) to enhance evolutionary search for solving constrained multi-objective optimization problems. Our aim is to speed up the convergence of the evolutionary population. To achieve this, we finetune the LLM through tailored prompt engineering, integrating information concerning both objective values and constraint violations of solutions. This process enables the LLM to grasp the relationship between well-performing and poorly performing solutions based on the provided input data. Solution's quality is assessed based on their constraint violations and objective-based performance. By leveraging the refined LLM, it can be used as a search operator to generate superior-quality solutions. Experimental evaluations across various test benchmarks illustrate that LLM-aided evolutionary search can significantly accelerate the population's convergence speed and stands out competitively against cutting-edge evolutionary algorithms.
翻訳日:2024-05-10 13:23:01 公開日:2024-05-09
# FastScene:パノラマガウス法によるテキスト駆動型高速3D室内シーン生成

FastScene: Text-Driven Fast 3D Indoor Scene Generation via Panoramic Gaussian Splatting ( http://arxiv.org/abs/2405.05768v1 )

ライセンス: Link先を確認
Yikun Ma, Dandan Zhan, Zhi Jin, (参考訳) テキスト駆動の3D屋内シーン生成は、ゲームやスマートホームからAR/VRアプリケーションまで幅広いアプリケーションを提供している。 ユーザフレンドリーなエクスペリエンスを確保するためには,高速かつ高忠実なシーン生成が最重要である。 しかし,既存の手法は,ユーザにとって不便な動作パラメータの複雑な手作業による記述を必要とする,長い生成プロセスによって特徴付けられる。 さらに、これらの手法はしばしば狭視野視点の反復世代に依存し、グローバルな一貫性と全体のシーン品質を損なう。 これらの問題に対処するため,高速かつ高品質な3Dシーン生成のためのフレームワークであるFastSceneを提案する。 具体的には、テキストプロンプトが与えられた場合、パノラマがシーン全体に関する情報を包含し、明示的な幾何学的制約を示すため、パノラマを生成し、その深さを推定する。 高品質な新規ビューを実現するために,CVS(Coarse View Synthesis)とPNVI(Progressive Novel View Inpainting)戦略を導入し,シーンの一貫性とビュー品質を両立させる。 その後,多視点プロジェクション(MVP)を用いて視点ビューを作成し,シーン再構築に3次元ガウススプラッティング(3DGS)を適用した。 総合的な実験では、FastSceneが生成速度と品質の両方で他のメソッドを上回り、シーンの一貫性が向上している。 特に、テキストプロンプトのみでガイドされるFastSceneは、わずか15分で3Dシーンを生成することができる。

Text-driven 3D indoor scene generation holds broad applications, ranging from gaming and smart homes to AR/VR applications. Fast and high-fidelity scene generation is paramount for ensuring user-friendly experiences. However, existing methods are characterized by lengthy generation processes or necessitate the intricate manual specification of motion parameters, which introduces inconvenience for users. Furthermore, these methods often rely on narrow-field viewpoint iterative generations, compromising global consistency and overall scene quality. To address these issues, we propose FastScene, a framework for fast and higher-quality 3D scene generation, while maintaining the scene consistency. Specifically, given a text prompt, we generate a panorama and estimate its depth, since the panorama encompasses information about the entire scene and exhibits explicit geometric constraints. To obtain high-quality novel views, we introduce the Coarse View Synthesis (CVS) and Progressive Novel View Inpainting (PNVI) strategies, ensuring both scene consistency and view quality. Subsequently, we utilize Multi-View Projection (MVP) to form perspective views, and apply 3D Gaussian Splatting (3DGS) for scene reconstruction. Comprehensive experiments demonstrate FastScene surpasses other methods in both generation speed and quality with better scene consistency. Notably, guided only by a text prompt, FastScene can generate a 3D scene within a mere 15 minutes, which is at least one hour faster than state-of-the-art methods, making it a paradigm for user-friendly scene generation.
翻訳日:2024-05-10 13:23:01 公開日:2024-05-09
# リモートセンシング画像のためのテキストガイドによる単一画像編集の探索

Exploring Text-Guided Single Image Editing for Remote Sensing Images ( http://arxiv.org/abs/2405.05769v1 )

ライセンス: Link先を確認
Fangzhou Han, Lingyu Si, Hongwei Dong, Lamei Zhang, Hao Chen, Bo Du, (参考訳) 人工知能生成コンテンツ(AIGC)技術は、特に画像生成の領域において、リモートセンシング領域に大きな影響を与えている。 しかし、同様に重要な研究領域であるリモートセンシング画像編集は十分な注意を払っていない。 テキストガイドによる自然な画像の編集とは違い、リモートセンシング画像編集の応用シナリオは森林火災など極端であり、十分なペアデータを得ることは困難である。 同時に、リモートセンシングのセマンティクスの欠如とテキストの曖昧さは、リモートセンシング分野における画像編集のさらなる適用を制限している。 以上の問題を解決するために,テキストガイダンスを用いた安定かつ制御可能なリモートセンシング画像編集を実現する拡散法を提案する。 提案手法は,多数のペア画像の使用を回避し,単一の画像のみを用いて良好な画像編集結果が得られる。 CLIPスコアと主観評価指標を含む定量的評価システムは,既存の画像編集モデルよりもリモートセンシング画像の編集効果が高いことを示す。

Artificial Intelligence Generative Content (AIGC) technologies have significantly influenced the remote sensing domain, particularly in the realm of image generation. However, remote sensing image editing, an equally vital research area, has not garnered sufficient attention. Different from text-guided editing in natural images, which relies on extensive text-image paired data for semantic correlation, the application scenarios of remote sensing image editing are often extreme, such as forest on fire, so it is difficult to obtain sufficient paired samples. At the same time, the lack of remote sensing semantics and the ambiguity of text also restrict the further application of image editing in remote sensing field. To solve above problems, this letter proposes a diffusion based method to fulfill stable and controllable remote sensing image editing with text guidance. Our method avoids the use of a large number of paired image, and can achieve good image editing results using only a single image. The quantitative evaluation system including CLIP score and subjective evaluation metrics shows that our method has better editing effect on remote sensing images than the existing image editing model.
翻訳日:2024-05-10 13:23:01 公開日:2024-05-09
# 機械を用いた実験プラグマティクス:平面および埋め込み接合の推論のためのLLM予測の検証

Experimental Pragmatics with Machines: Testing LLM Predictions for the Inferences of Plain and Embedded Disjunctions ( http://arxiv.org/abs/2405.05776v1 )

ライセンス: Link先を確認
Polina Tsvilodub, Paul Marty, Sonia Ramotowska, Jacopo Romoli, Michael Franke, (参考訳) 人間のコミュニケーションは、私たちが文章から引き出す様々な推論に基づいており、しばしば文字通りの言葉を超えています。 含意、不合理、前提の基本的な区別については広く合意されているが、多くの推測の状況はいまだに議論の余地がある。 本稿では, 平板および埋込み接合の3つの推論に焦点をあて, 通常のスカラー不整形と比較する。 この比較は,人間との同一の推論に関する最近の研究と同じ実験パラダイムを用いて,最先端の大規模言語モデルの予測の新しい視点から検討する。 最高のパフォーマンスモデルの結果は、主に人間のものと一致しており、それらの推論と不適応の大きな違いと、それらの推論の異なる側面の微妙な区別の両方で見られます。

Human communication is based on a variety of inferences that we draw from sentences, often going beyond what is literally said. While there is wide agreement on the basic distinction between entailment, implicature, and presupposition, the status of many inferences remains controversial. In this paper, we focus on three inferences of plain and embedded disjunctions, and compare them with regular scalar implicatures. We investigate this comparison from the novel perspective of the predictions of state-of-the-art large language models, using the same experimental paradigms as recent studies investigating the same inferences with humans. The results of our best performing models mostly align with those of humans, both in the large differences we find between those inferences and implicatures, as well as in fine-grained distinctions among different aspects of those inferences.
翻訳日:2024-05-10 13:23:01 公開日:2024-05-09
# より包括的なAIに向けて:Sámi言語のための大規模言語モデルトレーニングの進展と展望

Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language ( http://arxiv.org/abs/2405.05777v1 )

ライセンス: Link先を確認
Ronny Paul, Himanshu Buckchash, Shantipriya Parida, Dilip K. Prasad, (参考訳) 複数の言語からなるネイティブ言語グループであるS\'amiは、その言語的な複雑さのために設計されたデータと洗練された言語モデルが限られているため、デジタルの限界化に直面している。 この研究は、S\'ami言語における技術参加の増大に焦点を当てている。 我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。 ULR言語は、利用可能なテキストリソースの量が非常に少なく、話者数も非常に少ない言語である。 ULRLはChatGPTのような主要言語モデル(LLM)ではサポートされていない。 主流のAI基盤モデル開発は、このカテゴリーの言語にあまり注意を向けていない。 一般的に、これらの言語は話者がほとんどおらず、見つけるのが難しい。 しかしながら、これらのULR言語の基本モデルを開発することは、LLMの具体的能力と影響を促進することが重要である。 この目的のために、Webから利用可能なS\'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。 ULR言語(S\'ami)を用いた現代のLLMモデルの振る舞いを研究するために,我々は,主に$\sim$70億のパラメータの順序で,異なる種類のLLMを実験した。 ULRLに対する多言語LLMトレーニングの効果についても検討した。 逐次的多言語学習シナリオ下でのデコーダのみのモデルは, 関節多言語訓練よりも優れており, セマンティックオーバーラップによる多言語訓練は, 一般的には, スクラッチからトレーニングよりも優れており, 自然言語処理(NLP)の分野における最新の発展を利用する非統計言語モデルを適用するためのS\'ami言語に関する最初の研究である。

S\'ami, an indigenous language group comprising multiple languages, faces digital marginalization due to the limited availability of data and sophisticated language models designed for its linguistic intricacies. This work focuses on increasing technological participation for the S\'ami language. We draw the attention of the ML community towards the language modeling problem of Ultra Low Resource (ULR) languages. ULR languages are those for which the amount of available textual resources is very low, and the speaker count for them is also very low. ULRLs are also not supported by mainstream Large Language Models (LLMs) like ChatGPT, due to which gathering artificial training data for them becomes even more challenging. Mainstream AI foundational model development has given less attention to this category of languages. Generally, these languages have very few speakers, making it hard to find them. However, it is important to develop foundational models for these ULR languages to promote inclusion and the tangible abilities and impact of LLMs. To this end, we have compiled the available S\'ami language resources from the web to create a clean dataset for training language models. In order to study the behavior of modern LLM models with ULR languages (S\'ami), we have experimented with different kinds of LLMs, mainly at the order of $\sim$ seven billion parameters. We have also explored the effect of multilingual LLM training for ULRLs. We found that the decoder-only models under a sequential multilingual training scenario perform better than joint multilingual training, whereas multilingual training with high semantic overlap, in general, performs better than training from scratch.This is the first study on the S\'ami language for adapting non-statistical language models that use the latest developments in the field of natural language processing (NLP).
翻訳日:2024-05-10 13:13:05 公開日:2024-05-09
# オプション価格設定のためのブラックスクール方程式のニューラルネットワーク学習

Neural Network Learning of Black-Scholes Equation for Option Pricing ( http://arxiv.org/abs/2405.05780v1 )

ライセンス: Link先を確認
Daniel de Souza Santos, Tiago Alessandro Espinola Ferreira, (参考訳) 金融業界で最も議論されている問題の1つは株価オプションの価格設定である。 Black-Scholes方程式は、オプション価格モデルを提供するパラボリック偏微分方程式である。 そこで本研究では,ニューラルネットワークによるブラックスクール方程式の解法を提案する。 ストックオプション市場の実世界データは、ブラック・スコールズ方程式を解くための最初の境界として使われた。 特に、ブラジル企業ペトロブラスとヴァレのコールオプション価格の一連の価格設定が採用された。 その結果、ネットワークは特定の現実世界のストックオプションの時系列に対して、ブラック・シューズ方程式を解くことができることがわかった。 実験結果から,ブラックショイルズ方程式に基づくニューラルネットワークオプションの価格設定が,従来のブラックショイルズ解析ソリューションよりも正確に予測可能なオプション価格に到達できることが確認された。 この手法を用いて、オプション市場での短期的なコールオプション価格予測を可能にする実験結果が得られた。

One of the most discussed problems in the financial world is stock option pricing. The Black-Scholes Equation is a Parabolic Partial Differential Equation which provides an option pricing model. The present work proposes an approach based on Neural Networks to solve the Black-Scholes Equations. Real-world data from the stock options market were used as the initial boundary to solve the Black-Scholes Equation. In particular, times series of call options prices of Brazilian companies Petrobras and Vale were employed. The results indicate that the network can learn to solve the Black-Sholes Equation for a specific real-world stock options time series. The experimental results showed that the Neural network option pricing based on the Black-Sholes Equation solution can reach an option pricing forecasting more accurate than the traditional Black-Sholes analytical solutions. The experimental results making it possible to use this methodology to make short-term call option price forecasts in options markets.
翻訳日:2024-05-10 13:13:05 公開日:2024-05-09
# 有理三角量子ビリヤードの中間スペクトル統計

Intermediate spectral statistics of rational triangular quantum billiards ( http://arxiv.org/abs/2405.05783v1 )

ライセンス: Link先を確認
Črt Lozej, Eugene Bogomolny, (参考訳) 角が$\pi$の有理倍数である三角形ビリヤードは、古典的および量子的性質を持つ擬可積分モデルの最も単純な例の1つである。 我々は,8つの量化有理三角形,6つの直角ベッチ三角形群と2つの斜角有理三角形のスペクトル統計の広範な数値的研究を行う。 三角形ごとに最大100万個のエネルギーレベルの大規模なスペクトルサンプルが計算され、そのスペクトル統計を精度良く決定することができる。 それらは中間型であり、レベル反発のようなカオス系や、レベル間隔分布の指数的テールのような可積分系といくつかの特徴を共有することが示されている。 中間スペクトル統計学のもう一つの特徴は、レベル圧縮可能性の有限値である。 レベル間隔分布などの短距離統計と、数値分散やスペクトル形状因子などの長距離統計を詳細に分析した。 数値データとガンマ分布モデルとの良好な一致を明らかにした。

Triangular billiards whose angles are rational multiples of $\pi$ are one of the simplest examples of pseudo-integrable models with intriguing classical and quantum properties. We perform an extensive numerical study of spectral statistics of eight quantized rational triangles, six belonging to the family of right-angled Veech triangles and two obtuse rational triangles. Large spectral samples of up to one million energy levels were calculated for each triangle which permits to determine their spectral statistics with great accuracy. It is demonstrated that they are of the intermediate type, sharing some features with chaotic systems, like level repulsion and some with integrable systems, like exponential tails of the level spacing distributions. Another distinctive feature of intermediate spectral statistics is a finite value of the level compressibility. The short range statistics such as the level spacing distributions, and long-range statistics such as the number variance and spectral form factors were analyzed in detail. An excellent agreement between the numerical data and the model of gamma distributions is revealed.
翻訳日:2024-05-10 13:13:05 公開日:2024-05-09
# インダクティブグラフニューラルネットワークに対するリンクステアリング攻撃

Link Stealing Attacks Against Inductive Graph Neural Networks ( http://arxiv.org/abs/2405.05784v1 )

ライセンス: Link先を確認
Yixin Wu, Xinlei He, Pascal Berrang, Mathias Humbert, Michael Backes, Neil Zhenqiang Gong, Yang Zhang, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データを処理するように設計されたニューラルネットワークの一種である。 通常、GNNはトランスダクティブ設定とインダクティブ設定の2つの設定で実装できる。 トランスダクティブ設定では、トレーニングされたモデルは、トレーニング時に観測されたノードのラベルのみを予測することができる。 帰納的設定では、トレーニングされたモデルを新しいノード/グラフに一般化することができる。 その柔軟性のため、インダクティブセッティングは今のところ最も人気のあるGNNセッティングである。 これまでの研究によると、トランスダクティブGNNは一連のプライバシー攻撃に弱い。 しかし、誘導型GNNモデルの包括的なプライバシー分析はいまだに欠けている。 本稿では、リンク盗難攻撃のレンズを通して、誘導型GNNの体系的なプライバシー分析を行うことにより、ギャップを埋める。 本稿では,2種類のリンク盗難攻撃,すなわち後続攻撃と複合攻撃を提案する。 本稿では,ノードトポロジに対する後続攻撃の脅威モデルと,後続攻撃,ノード属性,グラフ特徴の組み合わせを考慮し,組み合わせ攻撃の脅威モデルを定義する。 6つの実世界のデータセットに対する広範囲な評価は、帰納的GNNが、有利な特性を持つリンク盗難攻撃を可能にする豊富な情報を漏らしていることを示している。 グラフ構造に関する知識のない攻撃でさえ効果的です。 また、我々の攻撃は異なるノードの類似性と異なるグラフ機能に対して堅牢であることも示しています。 対して、我々は2つの可能な防衛を調査し、より効果的な防衛を求める我々の攻撃に対して効果がないことを発見した。

A graph neural network (GNN) is a type of neural network that is specifically designed to process graph-structured data. Typically, GNNs can be implemented in two settings, including the transductive setting and the inductive setting. In the transductive setting, the trained model can only predict the labels of nodes that were observed at the training time. In the inductive setting, the trained model can be generalized to new nodes/graphs. Due to its flexibility, the inductive setting is the most popular GNN setting at the moment. Previous work has shown that transductive GNNs are vulnerable to a series of privacy attacks. However, a comprehensive privacy analysis of inductive GNN models is still missing. This paper fills the gap by conducting a systematic privacy analysis of inductive GNNs through the lens of link stealing attacks, one of the most popular attacks that are specifically designed for GNNs. We propose two types of link stealing attacks, i.e., posterior-only attacks and combined attacks. We define threat models of the posterior-only attacks with respect to node topology and the combined attacks by considering combinations of posteriors, node attributes, and graph features. Extensive evaluation on six real-world datasets demonstrates that inductive GNNs leak rich information that enables link stealing attacks with advantageous properties. Even attacks with no knowledge about graph structures can be effective. We also show that our attacks are robust to different node similarities and different graph features. As a counterpart, we investigate two possible defenses and discover they are ineffective against our attacks, which calls for more effective defenses.
翻訳日:2024-05-10 13:13:05 公開日:2024-05-09
# 凸性を超えた量子資源理論

Quantum Resource Theories beyond Convexity ( http://arxiv.org/abs/2405.05785v1 )

ライセンス: Link先を確認
Roberto Salazar, Jakub Czartowski, Ricard Ravell Rodríguez, Grzegorz Rajchel-Mieldzioć, Paweł Horodecki, Karol Życzkowski, (参考訳) この研究で提示された、非凸星形集合に基づく量子資源理論のクラスは、標準凸理論では研究できない重要な量子特性を捉えている。 我々は,このクラスの資源に対する運用的解釈を提供し,相関量子識別タスクの性能向上と量子コムのテストを行う上での優位性を示す。 提案された手法は、複合量子系における量子不協和、総相関を記述し、解析された量子力学の非マルコビアン性の度合いを推定するための有用なツールを提供する。 その他の応用としては、古典力学の量子化と高エネルギー物理学におけるCP対称性の破れの研究の関連性を含む、与えられたビスト確率行列の不定性の問題がある。 これらすべてのケースにおいて、ここで導入された非線形の証人は、標準的な線形の証人よりも優れています。 量子情報理論への我々の発見の重要性も強調される。

A class of quantum resource theories, based on non-convex star-shape sets, presented in this work captures the key quantum properties that cannot be studied by standard convex theories. We provide operational interpretations for a resource of this class and demonstrate its advantage to improve performance of correlated quantum discrimination tasks and testing of quantum combs. Proposed techniques provide useful tools to describe quantum discord, total correlations in composite quantum systems and to estimate the degree of non-Markovianity of an analyzed quantum dynamics. Other applications include the problem of unistochasticity of a given bistochastic matrix, with relevance for quantization of classical dynamics and studies of violation of CP-symmetry in high energy physics. In all these cases, the non-linear witnesses introduced here outperform the standard linear witnesses. Importance of our findings for quantum information theory is also emphasized.
翻訳日:2024-05-10 13:13:05 公開日:2024-05-09
# スマートシティモビリティのためのFusionTransNet:マルチモーダルネットワーク統合による時空間交通予測

FusionTransNet for Smart Urban Mobility: Spatiotemporal Traffic Forecasting Through Multimodal Network Integration ( http://arxiv.org/abs/2405.05786v1 )

ライセンス: Link先を確認
Binwu Wang, Yan Leng, Guang Wang, Yang Wang, (参考訳) 本研究は,スマート・マルチモーダル都市交通システムにおけるOrigin-Destination(OD)フロー予測のためのフレームワークであるFusionTransNetを開発する。 都市交通の複雑さは、様々な交通モード間の時空間的相互作用から生じる。 これらのモード間の複雑な時空間的相互作用を顕微鏡的な局部レベルからマクロ的な都市全体の観点から識別できるフレームワークである深センのマルチモーダルデータを解析することで動機付けが不可欠である。 このフレームワークには、モーダル内学習モジュール、モーダル間学習モジュール、予測デコーダの3つのコアコンポーネントが含まれている。 モーダル内学習モジュールは、個々の移動モード内の空間的依存関係を解析し、単一モードの時空間ダイナミクスの詳細な理解を容易にするように設計されている。 Inter-modal Learning Moduleはこの分析を拡張し、さまざまなモードにまたがるデータを統合して、ローカルとグローバルの両方のスケールでのインタラクションを分解することで、相互依存を明らかにする。 最後に、予測デコーダは、前のモジュールからの洞察を合成して正確なODフロー予測を生成し、複雑なマルチモーダル相互作用を予測に変換する。 深センやニューヨークなど大都市で実施された実証的な評価は、既存の最先端手法と比較して、FusionTransNetの予測精度が優れていることを示している。 本研究の意義は,サプライチェーンのロジスティクスやパンデミックの普及といった他の空間システムにおいて,地域規模およびグローバルスケールの異なる時空間グラフ間で情報を伝達する手法が有効であることから,都市交通以上のものとなる。

This study develops FusionTransNet, a framework designed for Origin-Destination (OD) flow predictions within smart and multimodal urban transportation systems. Urban transportation complexity arises from the spatiotemporal interactions among various traffic modes. Motivated by analyzing multimodal data from Shenzhen, a framework that can dissect complicated spatiotemporal interactions between these modes, from the microscopic local level to the macroscopic city-wide perspective, is essential. The framework contains three core components: the Intra-modal Learning Module, the Inter-modal Learning Module, and the Prediction Decoder. The Intra-modal Learning Module is designed to analyze spatial dependencies within individual transportation modes, facilitating a granular understanding of single-mode spatiotemporal dynamics. The Inter-modal Learning Module extends this analysis, integrating data across different modes to uncover cross-modal interdependencies, by breaking down the interactions at both local and global scales. Finally, the Prediction Decoder synthesizes insights from the preceding modules to generate accurate OD flow predictions, translating complex multimodal interactions into forecasts. Empirical evaluations conducted in metropolitan contexts, including Shenzhen and New York, demonstrate FusionTransNet's superior predictive accuracy compared to existing state-of-the-art methods. The implication of this study extends beyond urban transportation, as the method for transferring information across different spatiotemporal graphs at both local and global scales can be instrumental in other spatial systems, such as supply chain logistics and epidemics spreading.
翻訳日:2024-05-10 13:13:05 公開日:2024-05-09
# 肝フォローアップ診断のための自律型ロボット超音波システム:パイロットファントム研究

Autonomous Robotic Ultrasound System for Liver Follow-up Diagnosis: Pilot Phantom Study ( http://arxiv.org/abs/2405.05787v1 )

ライセンス: Link先を確認
Tianpeng Zhang, Sekeun Kim, Jerome Charton, Haitong Ma, Kyungsang Kim, Na Li, Quanzheng Li, (参考訳) 本稿では,地域外来患者を対象とした肝臓追跡検査を目的とした,新しい自律型ロボット超音波(US)システムを提案する。 特定の対象領域を対象とするCT画像が与えられた場合,提案システムは3段階の自律追従スキャンを行う。 (i)初期ロボットと表面との接触 2CT画像とロボットの座標マッピング (3)USスキャンを対象とする。 3DUS-CT登録と深層学習に基づくセグメンテーションネットワークを利用することで、3D肝静脈の正確な画像化を実現し、CTとロボットの正確な座標マッピングを容易にする。 これにより、CT画像内の追従対象の自動位置決めが可能となり、ロボットはターゲット表面への正確な移動が可能となる。 超音波ファントムの評価は、US-CT登録の品質を確認し、反復的な試験において、ロボットが目標を確実に特定することを示す。 提案フレームワークは, 医療提供者, 臨床医, フォローアップ患者の時間とコストを大幅に削減し, 地域社会における慢性疾患に伴う医療負担の増大に対処する可能性を秘めている。

The paper introduces a novel autonomous robot ultrasound (US) system targeting liver follow-up scans for outpatients in local communities. Given a computed tomography (CT) image with specific target regions of interest, the proposed system carries out the autonomous follow-up scan in three steps: (i) initial robot contact to surface, (ii) coordinate mapping between CT image and robot, and (iii) target US scan. Utilizing 3D US-CT registration and deep learning-based segmentation networks, we can achieve precise imaging of 3D hepatic veins, facilitating accurate coordinate mapping between CT and the robot. This enables the automatic localization of follow-up targets within the CT image, allowing the robot to navigate precisely to the target's surface. Evaluation of the ultrasound phantom confirms the quality of the US-CT registration and shows the robot reliably locates the targets in repeated trials. The proposed framework holds the potential to significantly reduce time and costs for healthcare providers, clinicians, and follow-up patients, thereby addressing the increasing healthcare burden associated with chronic disease in local communities.
翻訳日:2024-05-10 13:13:05 公開日:2024-05-09
# トラジェクトリリカバリのための高性能プライバシ保存マトリックスコンプリート

High-Performance Privacy-Preserving Matrix Completion for Trajectory Recovery ( http://arxiv.org/abs/2405.05789v1 )

ライセンス: Link先を確認
Jiahao Guo, An-Bao Xu, (参考訳) マトリックスの完成は、軌道回復とモバイルソーシャルネットワークにおいて重要な応用である。 しかし、パーソナルで機密性の高い情報を含む生データをクラウドコンピューティングノードに送ると、プライバシの暴露問題が発生する可能性があるため、プライバシを保存するマトリックス補完は、プライバシを保ちながらマトリックス補完を行うのに有用なアプローチである。 本稿では,プライバシ保護行列補完のための高性能な手法を提案する。 まず、軽量な暗号化方式を用いて生データを暗号化し、乗算器の交互方向法(ADMM)を用いて行列補完を行う。 そして、補完行列を復号し、元の行列と比較して誤差を算出する。 この方法はより高速で精度が高い。 数値実験の結果,提案手法は他のアルゴリズムよりも高速であることがわかった。

Matrix completion has important applications in trajectory recovery and mobile social networks. However, sending raw data containing personal, sensitive information to cloud computing nodes may lead to privacy exposure issue.The privacy-preserving matrix completion is a useful approach to perform matrix completion while preserving privacy. In this paper, we propose a high-performance method for privacy-preserving matrix completion. First,we use a lightweight encryption scheme to encrypt the raw data and then perform matrix completion using alternating direction method of multipliers (ADMM). Then,the complemented matrix is decrypted and compared with the original matrix to calculate the error. This method has faster speed with higher accuracy. The results of numerical experiments reveal that the proposed method is faster than other algorithms.
翻訳日:2024-05-10 13:13:05 公開日:2024-05-09
# 前向きモデル不確実性の存在下での脳源の局所化のためのロバストeLORETA手法

A Robust eLORETA Technique for Localization of Brain Sources in the Presence of Forward Model Uncertainties ( http://arxiv.org/abs/2405.05790v1 )

ライセンス: Link先を確認
A. Noroozi, M. Ravan, B. Razavi, R. S. Fisher, Y. Law, M. S. Hasan, (参考訳) 本稿では,ReLORETA (eLORETA) という,よく知られた高分解能電磁トモグラフィー(eLORETA) 技術を用いて,異なる前方モデル不確実性の存在下で脳源の局在化を行う。 方法: まず、真の鉛場行列は不確実性によって歪んだ既存の鉛場行列の変換であると仮定し、この変換を正確に推定するための反復的アプローチを提案する。 提案手法をテストするために, 実頭部モデルと模擬頭部モデル間の形状, 導電率, ソース空間の分解能の相違, 電極位置のずれなど, 前方モデルの不確かさの主な情報源を模擬する。 結果: ReLORETA と eLORETA は脳の様々な部位の焦点源と様々なノイズレベルの存在,および焦点てんかん患者の実際のデータに応用された。 その結果, ReLORETA は eLORETA よりもかなり堅牢で正確であることがわかった。 結論: 前方モデル不確実性への対処に成功し, ReLORETAは実世界の臨床応用に有望な方法であることが判明した。 意義:eLORETAは、医学的難治性てんかん患者のてんかん原性領域を決定するなど、医学的応用のための脳活動を研究するために用いられる局所化技術の1つである。 しかしながら、eLORETAの最大の制限は、前方モデルの不確実性に対する感度である。 この問題は、正確なリード場行列が不明な実世界のアプリケーションでは、その性能を著しく損なう可能性があるため、これらの不確実性に対処できるより堅牢な手法を開発することは、大きな関心事である。

In this paper, we present a robust version of the well-known exact low-resolution electromagnetic tomography (eLORETA) technique, named ReLORETA, to localize brain sources in the presence of different forward model uncertainties. Methods: We first assume that the true lead field matrix is a transformation of the existing lead field matrix distorted by uncertainties and propose an iterative approach to estimate this transformation accurately. Major sources of the forward model uncertainties, including differences in geometry, conductivity, and source space resolution between the real and simulated head models, and misaligned electrode positions, are then simulated to test the proposed method. Results: ReLORETA and eLORETA are applied to simulated focal sources in different regions of the brain and the presence of various noise levels as well as real data from a patient with focal epilepsy. The results show that ReLORETA is considerably more robust and accurate than eLORETA in all cases. Conclusion: Having successfully dealt with the forward model uncertainties, ReLORETA proved to be a promising method for real-world clinical applications. Significance: eLORETA is one of the localization techniques that could be used to study brain activity for medical applications such as determining the epileptogenic zone in patients with medically refractory epilepsy. However, the major limitation of eLORETA is sensitivity to the uncertainties in the forward model. Since this problem can substantially undermine its performance in real-world applications where the exact lead field matrix is unknown, developing a more robust method capable of dealing with these uncertainties is of significant interest.
翻訳日:2024-05-10 13:13:05 公開日:2024-05-09
# 累積オクルージョン学習による逐次アモーダルセグメンテーション

Sequential Amodal Segmentation via Cumulative Occlusion Learning ( http://arxiv.org/abs/2405.05791v1 )

ライセンス: Link先を確認
Jiayang Ao, Qiuhong Ke, Krista A. Ehinger, (参考訳) 単一の画像の3Dコンテキストを十分に理解するためには、視覚系は物体の可視領域と隠蔽領域の両方を分割できなければならない。 理想的には、システムはあらゆるオブジェクトを扱うことができ、特にロボットアプリケーションにおいて、限られたオブジェクトクラスのセグメント化に制限されるべきではない。 このニーズに対処するために、不確実なカテゴリを持つオブジェクトの逐次アモーダルセグメンテーションのために設計された累積オクルージョン学習を用いた拡散モデルを導入する。 このモデルは,拡散中の累積マスク戦略を用いて予測を反復的に洗練し,目に見えない領域の不確かさを効果的に把握し,隠蔽対象物の複雑な分布と閉塞順序を即時再現する。 これは、物体間の空間的秩序を解読し、密集した視覚的な場面で隠蔽された物体の完全な輪郭を正確に予測する、アモーダル知覚の人間の能力に類似している。 3つのアモーダルデータセットに対する実験結果から,本手法が確立されたベースラインより優れていることが示された。

To fully understand the 3D context of a single image, a visual system must be able to segment both the visible and occluded regions of objects, while discerning their occlusion order. Ideally, the system should be able to handle any object and not be restricted to segmenting a limited set of object classes, especially in robotic applications. Addressing this need, we introduce a diffusion model with cumulative occlusion learning designed for sequential amodal segmentation of objects with uncertain categories. This model iteratively refines the prediction using the cumulative mask strategy during diffusion, effectively capturing the uncertainty of invisible regions and adeptly reproducing the complex distribution of shapes and occlusion orders of occluded objects. It is akin to the human capability for amodal perception, i.e., to decipher the spatial ordering among objects and accurately predict complete contours for occluded objects in densely layered visual scenes. Experimental results across three amodal datasets show that our method outperforms established baselines.
翻訳日:2024-05-10 13:13:05 公開日:2024-05-09
# RoboHop: オープンワールドビジュアルナビゲーションのためのセグメントベースのトポロジカルマップ表現

RoboHop: Segment-based Topological Map Representation for Open-World Visual Navigation ( http://arxiv.org/abs/2405.05792v1 )

ライセンス: Link先を確認
Sourav Garg, Krishan Rana, Mehdi Hosseinzadeh, Lachlan Mares, Niko Sünderhauf, Feras Dayoub, Ian Reid, (参考訳) マッピングは空間推論、計画、ロボットナビゲーションに不可欠である。 既存のアプローチは、正確な幾何学に基づく最適化を必要とする計量から純粋にトポロジであり、画像・アズ・ノードベースのグラフは明示的なオブジェクトレベルの推論と相互接続性を欠いている。 本稿では,意味的に意味があり,オープンな語彙を問合せ可能な「画像セグメント」に基づく環境の新たなトポロジ表現を提案する。 3次元シーングラフとは異なり、セグメントをノードとする純粋に位相グラフを作成し、エッジが形成される。 a) 連続した画像の対と連続する画像の間にセグメントレベルの記述子を関連付けること b) ピクセルセントロイドを用いて画像内の隣接セグメントを接続すること。 これは「場所の連続的な感覚」を明らかにし、画像内の隣人とともにセグメント間の永続性によって定義される。 さらに,グラフ畳み込み層を用いてセグメントレベルの記述子を表現・更新し,セグメントレベルの検索に基づくロボットのローカライゼーションを改善する。 実世界のデータを用いて,提案した地図表現がどのように利用できるかを示す。 一 「セグメント上のホップ」という形で航法計画を作成すること。 二 対象物の空間的関係を記述した自然言語クエリを用いて対象物を検索すること。 さらに,同じ場所を再考する場合に,マッピング時の画像間接続とセグメントレベルのローカライゼーションの基盤となるセグメントレベルのデータ関連を定量的に分析する。 最後に,セグメントレベルの「ホッピング」に基づくゼロショット実世界ナビゲーションの予備試行について述べる。 oravus.github.io/RoboHop/

Mapping is crucial for spatial reasoning, planning and robot navigation. Existing approaches range from metric, which require precise geometry-based optimization, to purely topological, where image-as-node based graphs lack explicit object-level reasoning and interconnectivity. In this paper, we propose a novel topological representation of an environment based on "image segments", which are semantically meaningful and open-vocabulary queryable, conferring several advantages over previous works based on pixel-level features. Unlike 3D scene graphs, we create a purely topological graph with segments as nodes, where edges are formed by a) associating segment-level descriptors between pairs of consecutive images and b) connecting neighboring segments within an image using their pixel centroids. This unveils a "continuous sense of a place", defined by inter-image persistence of segments along with their intra-image neighbours. It further enables us to represent and update segment-level descriptors through neighborhood aggregation using graph convolution layers, which improves robot localization based on segment-level retrieval. Using real-world data, we show how our proposed map representation can be used to i) generate navigation plans in the form of "hops over segments" and ii) search for target objects using natural language queries describing spatial relations of objects. Furthermore, we quantitatively analyze data association at the segment level, which underpins inter-image connectivity during mapping and segment-level localization when revisiting the same place. Finally, we show preliminary trials on segment-level `hopping' based zero-shot real-world navigation. Project page with supplementary details: oravus.github.io/RoboHop/
翻訳日:2024-05-10 13:13:05 公開日:2024-05-09
# 量子対古典$P$-divisibility

Quantum vs. classical $P$-divisibility ( http://arxiv.org/abs/2405.05794v1 )

ライセンス: Link先を確認
Fabio Benatti, Giovanni Nichele, Dariusz Chruściński, (参考訳) 古典的および量子的非マルコフ過程において、$P$-divisibilityは中心的な概念である。 直交射影の完全な集合によって生成される固定可換代数に制限されるとき、任意の量子力学は自然に古典的確率過程を与える。 量子発生器が$P$分割可能な量子力学を生じさせるのは、古典的還元の可能な全ての還元が可分な古典的確率過程をもたらす場合に限る。 しかし、この性質は、古典的に生成元の代わりに量子力学写像を還元するならば成り立たない:例えばユニタリ力学の場合、古典的還元の$P$-divisibilityは必然的に失われ、非マルコフ的であり、情報の逆フローを示す。 代わりに、純粋に散逸的な進化のいくつかの重要なクラスにおいて、量子$P$-divisibilityは常に古典的な$P$-divisibilityを意味し、したがって量子的シナリオと古典的シナリオの両方において情報のバックフローが欠如している。 それとは対照的に、直交共変量子ビット力学の幅広いクラスにおいて、古典的な$P$分割性の喪失は、ユニタリの場合のように、純粋に散逸可能な$P$分割可能な量子力学の古典的な還元から生じることが示される。 さらに、そのような効果は、時間進化する量子状態のコヒーレンスに格納される情報バックフローの観点から解釈することができる。

$P$-divisibility is a central concept in both classical and quantum non-Markovian processes; in particular, it is strictly related to the notion of information backflow. When restricted to a fixed commutative algebra generated by a complete set of orthogonal projections, any quantum dynamics naturally provides a classical stochastic process. It is indeed well known that a quantum generator gives rise to a $P$-divisible quantum dynamics if and only if all its possible classical reductions give rise to divisible classical stochastic processes. Yet, this property does not hold if one classically reduces the quantum dynamical maps instead of their generators: for a unitary dynamics, as an example, $P$-divisibility of its classical reduction is inevitably lost, which is thus, non-Markovian and exhibits information backflow. Instead, for some important classes of purely dissipative evolutions, quantum $P$-divisibility always implies classical $P$-divisibility and thus lack of information backflow both in the quantum and classical scenarios. On the contrary, for a wide class of orthogonally covariant qubit dynamics, we show that loss of classical $P$-divisibility can originate from the classical reduction of a purely dissipative $P$-divisible quantum dynamics as in the unitary case. Moreover, such an effect can be interpreted in terms of information backflow, the information coming in being stored in the coherences of the time-evolving quantum state.
翻訳日:2024-05-10 13:13:05 公開日:2024-05-09
# 半監督型ディープラベル平滑化によるソーシャルメディア上での自殺リスク検出の促進

Enhancing Suicide Risk Detection on Social Media through Semi-Supervised Deep Label Smoothing ( http://arxiv.org/abs/2405.05795v1 )

ライセンス: Link先を確認
Matthew Squires, Xiaohui Tao, Soman Elangovan, U Rajendra Acharya, Raj Gururajan, Haoran Xie, Xujuan Zhou, (参考訳) 自殺は社会において重要な問題である。 残念なことに、自殺のリスクがある人の多くは、必要な支援を受けていない。 支援を受ける人への障壁には、社会的汚職やメンタルヘルスへのアクセスの欠如がある。 ソーシャルメディアの人気が高まり、人々はRedditなどのオンラインフォーラムで自分の感情を表現し、支援を求めるようになった。 これは、人工知能の助けを借りて人々を支援する機会を提供する。 ソーシャルメディアの投稿は、テキストの分類を用いて分類することができ、専門家の助けを借りて人々を結びつけるのに役立つ。 しかし、これらのシステムは精神状態の分類において固有の不確実性を考慮していない。 他の医療分野とは異なり、精神的な健康状態は、しばしば専門家の意見に依存する病気の客観的な測定を持たない。 したがって、メンタルヘルスに関わるディープラーニングの問題を定式化する際、ハードなバイナリラベルはデータの真の性質を正確に表現するものではない。 これらの設定では、人間の専門家が反対するかもしれないが、ファジィやソフトなラベルの方が適切かもしれない。 現在の研究は、データ内の不確実性を捉えるために使われる新しいラベル平滑化手法を導入している。 我々は,5ラベルの多クラス分類問題に対するアプローチを検証した。 半教師付きディープラベル平滑化法により,既存の最先端技術よりも分類精度が向上することを示す。 既存の研究では、Reddit C-SSRSデータセットで43倍の精度を報告し、実験により新しいラベルの平滑化手法の評価を行った結果、既存のベンチマークでは52倍に改善した。 これらのモデルパフォーマンスの改善は、精神的な苦痛を経験する人々を支援する可能性がある。 今後の研究は、自然言語処理における確率的手法の使用と、ノイズのあるデータセットにおける疫学的およびアレタリックな不確実性の貢献の定量化を検討すべきである。

Suicide is a prominent issue in society. Unfortunately, many people at risk for suicide do not receive the support required. Barriers to people receiving support include social stigma and lack of access to mental health care. With the popularity of social media, people have turned to online forums, such as Reddit to express their feelings and seek support. This provides the opportunity to support people with the aid of artificial intelligence. Social media posts can be classified, using text classification, to help connect people with professional help. However, these systems fail to account for the inherent uncertainty in classifying mental health conditions. Unlike other areas of healthcare, mental health conditions have no objective measurements of disease often relying on expert opinion. Thus when formulating deep learning problems involving mental health, using hard, binary labels does not accurately represent the true nature of the data. In these settings, where human experts may disagree, fuzzy or soft labels may be more appropriate. The current work introduces a novel label smoothing method which we use to capture any uncertainty within the data. We test our approach on a five-label multi-class classification problem. We show, our semi-supervised deep label smoothing method improves classification accuracy above the existing state of the art. Where existing research reports an accuracy of 43\% on the Reddit C-SSRS dataset, using empirical experiments to evaluate our novel label smoothing method, we improve upon this existing benchmark to 52\%. These improvements in model performance have the potential to better support those experiencing mental distress. Future work should explore the use of probabilistic methods in both natural language processing and quantifying contributions of both epistemic and aleatoric uncertainty in noisy datasets.
翻訳日:2024-05-10 13:13:05 公開日:2024-05-09
# 単一電子励起による時間依存性電磁場の量子センシング

Quantum sensing of time dependent electromagnetic fields with single electron excitations ( http://arxiv.org/abs/2405.05796v1 )

ライセンス: Link先を確認
H. Souquet-Basiège, B. Roussel, G. Rebora, G. Ménard, I. Safi, G. Fève, P. Degiovanni, (参考訳) 本研究では,サブナノ秒時間スケールのチップ上での電磁放射の量子状態を求めるための電子干渉計の可能性について検討する。 我々は,アハロノフ・ボーム支配体制下で電子系マッハ・ツェンダー干渉計内で伝播する単一電子励起を用いることを提案する。 我々は、電磁放射の量子状態に関する情報が、平均的な出力電流に対する干渉寄与にエンコードされる方法について論じる。 レヴィトンパルスで探査された励起放射線と単一エッジ磁気プラズモンを現実的に調査することにより、単一電子干渉計がサブナノ秒からピコ秒の時間分解能を持つ時間領域で量子放射をプローブする可能性があることを示す。 我々の研究は、マイクロ波からテラヘルツ領域における光の基本的性質を極端に短い時間スケールで探究するために重要な意味を持つかもしれない。

In this study, we investigate the potential of electronic interferometers for probing the quantum state of electromagnetic radiation on a chip at sub-nanosecond time scales. We propose to use single electron excitations propagating within an electronic Mach-Zehnder interferometer in the Aharonov-Bohm dominated regime. We discuss how information about the quantum state of the electromagnetic radiation is encoded into the interference contribution to the average outgoing electrical current. By investigating squeezed radiation and single edge magnetoplasmons probed by Leviton pulses in a realistic setup, we show that single electron interferometers have the potential to probe quantum radiation in the time domain with sub-nanosecond to pico-second time resolution. Our research could have significant implications for probing the fundamental properties of light in the microwave to tera-Hertz domains at extremely short time scales.
翻訳日:2024-05-10 13:13:05 公開日:2024-05-09
# 進化したセルオートマタと相互作用するライフゲームにおける適応性とホメオスタシス

Adaptability and Homeostasis in the Game of Life interacting with the evolved Cellular Automata ( http://arxiv.org/abs/2405.05797v1 )

ライセンス: Link先を確認
Keisuke Suzuki, Takashi Ikegami, (参考訳) 本稿では,第1層のゲーム・オブ・ライフが第2層のセルオートマトンと結合する2層のゲーム・オブ・ライフにおけるホメオスタシスの出現について検討する。 ホメオスタシス(英: Homeostasis)は、ゲーム・オブ・ライフ(英語版)層における状態-1の細胞数を制御する時空ダイナミクスとして定義される。 遺伝的アルゴリズムは、第2層のルールを進化させ、ゲーム・オブ・ライフのパターンを制御するために用いられる。 その結果,第1層における状態1の細胞数を制御する2つのアトラクタがあることが判明した。 これらの誘引者によるホメオスタシスは、デイジー・ワールドで観察されたホメオスタシスのダイナミクスと比較される。

In this paper we study the emergence of homeostasis in a two-layer system of the Game of Life, in which the Game of Life in the first layer couples with another system of cellular automata in the second layer. Homeostasis is defined here as a space-time dynamic that regulates the number of cells in state-1 in the Game of Life layer. A genetic algorithm is used to evolve the rules of the second layer to control the pattern of the Game of Life. We discovered that there are two antagonistic attractors that control the numbers of cells in state-1 in the first layer. The homeostasis sustained by these attractors are compared with the homeostatic dynamics observed in Daisy World.
翻訳日:2024-05-10 13:13:05 公開日:2024-05-09
# DragGaussian:3Dガウス表現によるドラッグスタイルの操作の実現

DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation ( http://arxiv.org/abs/2405.05800v1 )

ライセンス: Link先を確認
Sitian Shen, Jing Xu, Yuheng Yuan, Xingyi Yang, Qiuhong Shen, Xinchao Wang, (参考訳) ユーザフレンドリーな3Dオブジェクト編集は、最近大きな注目を集めている課題である。 2次元事前知識のない直接3次元オブジェクト編集の限界は、3次元編集に2次元生成モデルを活用することに注意を向けている。 Instruct NeRF-to-NeRFのような既存の手法はソリューションを提供するが、特にセマンティックガイドによる編集のために、ユーザーフレンドリさを欠いていることが多い。 3D表現の領域において、3Dガウススプラッティングは、その効率性と自然な明示性のための有望なアプローチとして現れ、正確な編集作業を容易にする。 これらの知見に基づいて,DragGaussianを提案する。DragGaussianは3次元ガウススティングに基づく3次元オブジェクトドラッグ編集フレームワークで,対話型画像編集とオープン語彙入力に拡散モデルを活用する。 このフレームワークは、事前訓練された3Dガウスオブジェクトモデル上でドラッグベースの編集を実行し、マルチビュー一貫した編集によって修正された2D画像を生成する。 我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。

User-friendly 3D object editing is a challenging task that has attracted significant attention recently. The limitations of direct 3D object editing without 2D prior knowledge have prompted increased attention towards utilizing 2D generative models for 3D editing. While existing methods like Instruct NeRF-to-NeRF offer a solution, they often lack user-friendliness, particularly due to semantic guided editing. In the realm of 3D representation, 3D Gaussian Splatting emerges as a promising approach for its efficiency and natural explicit property, facilitating precise editing tasks. Building upon these insights, we propose DragGaussian, a 3D object drag-editing framework based on 3D Gaussian Splatting, leveraging diffusion models for interactive image editing with open-vocabulary input. This framework enables users to perform drag-based editing on pre-trained 3D Gaussian object models, producing modified 2D images through multi-view consistent editing. Our contributions include the introduction of a new task, the development of DragGaussian for interactive point-based 3D editing, and comprehensive validation of its effectiveness through qualitative and quantitative experiments.
翻訳日:2024-05-10 13:02:50 公開日:2024-05-09
# 無線ネットワークにおけるグラフニューラルネットワークの展開:リンク安定性の観点から

Deploying Graph Neural Networks in Wireless Networks: A Link Stability Viewpoint ( http://arxiv.org/abs/2405.05802v1 )

ライセンス: Link先を確認
Jun Li, Weiwei Zhang, Kang Wei, Guangji Chen, Long Shi, Wen Chen, (参考訳) 新たな人工知能技術として、グラフニューラルネットワーク(GNN)は、幅広いグラフ関連アプリケーションで有望なパフォーマンスを示している。 しかし、GNN内の近隣ノード間の情報交換は、特に無線システムにおいて、資源制約のあるシナリオにおいて新たな課題を提起する。 実用的な無線システムでは、ノード間の通信リンクは無線のフェーディングや受信機ノイズにより信頼性が低く、結果としてGNNの性能が低下する。 GNNの学習性能を向上させるため,エネルギー消費制約下での最適化電力制御により,長期平均(LTA)通信リンク数を最大化することを目的とする。 Lyapunov最適化法を用いて, 長期エネルギー制約を目的関数に変換することにより, まず, 抽出可能な長期問題を各時間スロットにおける決定論的問題に変換する。 この非凸組合せ最適化問題にも拘わらず、グリーディに基づく解法とともに凸実現可能性問題の列を等価に解くことでこの問題に対処する。 シミュレーションの結果,提案手法がベースラインよりも優れていることを示す。

As an emerging artificial intelligence technology, graph neural networks (GNNs) have exhibited promising performance across a wide range of graph-related applications. However, information exchanges among neighbor nodes in GNN pose new challenges in the resource-constrained scenario, especially in wireless systems. In practical wireless systems, the communication links among nodes are usually unreliable due to wireless fading and receiver noise, consequently resulting in performance degradation of GNNs. To improve the learning performance of GNNs, we aim to maximize the number of long-term average (LTA) communication links by the optimized power control under energy consumption constraints. Using the Lyapunov optimization method, we first transform the intractable long-term problem into a deterministic problem in each time slot by converting the long-term energy constraints into the objective function. In spite of this non-convex combinatorial optimization problem, we address this problem via equivalently solving a sequence of convex feasibility problems together with a greedy based solver. Simulation results demonstrate the superiority of our proposed scheme over the baselines.
翻訳日:2024-05-10 13:02:50 公開日:2024-05-09
# 高速推論のための視覚トークンを用いたマルチモーダル大言語モデルの構築

Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference ( http://arxiv.org/abs/2405.05803v1 )

ライセンス: Link先を確認
Zhihang Lin, Mingbao Lin, Luxi Lin, Rongrong Ji, (参考訳) マルチモーダル大規模言語モデル (MLLM) は、広範囲なパラメータと視覚情報表現に必要な追加の入力トークンにより、推論にかなりの計算を必要とする。 本稿では,高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介する。 提案手法は,1) LLM でよく見られる注目シンク現象がMLLM にも持続し,初期トークンと最寄りトークンが注目される一方で,中間視覚トークンが深層で最小限の注意を惹きつけること,2)情報マイグレーションの存在により,MLLM の最初の数層で視覚情報が後続のテキストトークンに転送されること,という2つの興味深い現象に着想を得たものである。 その結果,MLLMの深層層では視覚トークンは不要であることが判明した。 したがって、ある層で戦略的に取り除き、後の層でテキストトークンのみを扱えるようにします。 視覚トークンの退避のための理想的なレイヤを特定するために、最初は限られたデータセットを分析し、Kullback-Leiblerの発散基準を満たす最初のレイヤを選択する。 我々のVTWアプローチは、様々なマルチモーダルタスクにおいて、性能を維持しながら、計算オーバーヘッドを40倍以上削減できる。 私たちのコードはhttps://github.com/lzhxmu/VTW.comで公開されています。

Multimodal large language models (MLLMs) demand considerable computations for inference due to the extensive parameters and the additional input tokens needed for visual information representation. Herein, we introduce Visual Tokens Withdrawal (VTW), a plug-and-play module to boost MLLMs for rapid inference. Our approach is inspired by two intriguing phenomena we have observed: (1) the attention sink phenomenon that is prevalent in LLMs also persists in MLLMs, suggesting that initial tokens and nearest tokens receive the majority of attention, while middle vision tokens garner minimal attention in deep layers; (2) the presence of information migration, which implies that visual information is transferred to subsequent text tokens within the first few layers of MLLMs. As per our findings, we conclude that vision tokens are not necessary in the deep layers of MLLMs. Thus, we strategically withdraw them at a certain layer, enabling only text tokens to engage in subsequent layers. To pinpoint the ideal layer for vision tokens withdrawal, we initially analyze a limited set of tiny datasets and choose the first layer that meets the Kullback-Leibler divergence criterion. Our VTW approach can cut computational overhead by over 40\% across diverse multimodal tasks while maintaining performance. Our code is released at https://github.com/lzhxmu/VTW.
翻訳日:2024-05-10 13:02:50 公開日:2024-05-09
# MasterWeaver: パーソナライズされたテキスト・ツー・イメージ生成のための編集可能性とアイデンティティのモデリング

MasterWeaver: Taming Editability and Identity for Personalized Text-to-Image Generation ( http://arxiv.org/abs/2405.05806v1 )

ライセンス: Link先を確認
Yuxiang Wei, Zhilong Ji, Jinfeng Bai, Hongzhi Zhang, Lei Zhang, Wangmeng Zuo, (参考訳) テキスト・ツー・イメージ(T2I)拡散モデルは,参照画像で示される人物の身元を示す新しい画像を生成することを目的とした,パーソナライズされたテキスト・ツー・イメージ生成において大きな成功を収めている。 有望なアイデンティティの忠実さはいくつかのチューニング不要な方法によって達成されているが、通常は過度に適合する問題に悩まされている。 学習されたアイデンティティは、無関係な情報と絡み合う傾向があり、特に顔において、不満足なテキスト制御が生じる。 本研究では,忠実なアイデンティティとフレキシブルな編集性の両方でパーソナライズされた画像を生成するために設計された,テスト時チューニング不要なMasterWeaverを提案する。 具体的には、MasterWeaverはエンコーダを採用して、アイデンティティ機能を抽出し、追加のクロスアテンションを通じて画像生成をステアリングする。 同一性を維持しながら編集性を向上させるため,MasterWeaverの編集方向をオリジナルのT2Iモデルと整合させる訓練用編集方向損失を提案する。 さらに、不整合性学習を容易にし、さらに編集性を向上させるために、顔拡張データセットを構築する。 大規模な実験により、MasterWeaverは、忠実なアイデンティティを持つパーソナライズされたイメージを生成できるだけでなく、テキスト制御性にも優れていることが示された。 私たちのコードはhttps://github.com/csyxwei/MasterWeaver.comで公開されます。

Text-to-image (T2I) diffusion models have shown significant success in personalized text-to-image generation, which aims to generate novel images with human identities indicated by the reference images. Despite promising identity fidelity has been achieved by several tuning-free methods, they usually suffer from overfitting issues. The learned identity tends to entangle with irrelevant information, resulting in unsatisfied text controllability, especially on faces. In this work, we present MasterWeaver, a test-time tuning-free method designed to generate personalized images with both faithful identity fidelity and flexible editability. Specifically, MasterWeaver adopts an encoder to extract identity features and steers the image generation through additional introduced cross attention. To improve editability while maintaining identity fidelity, we propose an editing direction loss for training, which aligns the editing directions of our MasterWeaver with those of the original T2I model. Additionally, a face-augmented dataset is constructed to facilitate disentangled identity learning, and further improve the editability. Extensive experiments demonstrate that our MasterWeaver can not only generate personalized images with faithful identity, but also exhibit superiority in text controllability. Our code will be publicly available at https://github.com/csyxwei/MasterWeaver.
翻訳日:2024-05-10 13:02:50 公開日:2024-05-09
# 高速かつ制御可能なポストトレーニングスパシティ: 短時間でグローバル制約付き最適スパシティアロケーションを学習する

Fast and Controllable Post-training Sparsity: Learning Optimal Sparsity Allocation with Global Constraint in Minutes ( http://arxiv.org/abs/2405.05808v1 )

ライセンス: Link先を確認
Ruihao Gong, Yang Yong, Zining Wang, Jinyang Guo, Xiuying Wei, Yuqing Ma, Xianglong Liu, (参考訳) ニューラルネットワークの空間性は、生物学的スキームと類似性や高エネルギー効率のため、多くの研究の関心を集めている。 しかし、既存の手法は長期の訓練や微調整に依存しており、大規模な応用を妨げている。 近年,PTS (post-training sparsity) に焦点を当てた研究がいくつか出現している。 彼らは高いトレーニングコストを排除しますが、通常、各レイヤにおける合理的なスパース率を無視して、明確な精度の低下に悩まされます。 余剰率を見つけるための従来の方法は、主にトレーニング対応のシナリオに焦点を合わせており、通常は、限られたデータとはるかに少ないトレーニングコストで、PSS設定下で安定して収束しない。 本稿では,高速かつ制御可能なポストトレーニングスパシティ(FCPTS)フレームワークを提案する。 可変ブリッジ関数と制御可能な最適化目標を組み込むことで, 所定の大域空間空間空間の分散の保証とともに, 短時間で高速かつ正確な空間空間配置学習が可能となる。 これらの手法により、ImageNet上のResNet-50の30倍以上の改善を80倍の間隔で、最先端の手法を大きなマージン(例:ResNet-50)で超えることができる。 プラグインコードと補助材料はhttps://github.com/ModelTC/FCPTSで公開されている。

Neural network sparsity has attracted many research interests due to its similarity to biological schemes and high energy efficiency. However, existing methods depend on long-time training or fine-tuning, which prevents large-scale applications. Recently, some works focusing on post-training sparsity (PTS) have emerged. They get rid of the high training cost but usually suffer from distinct accuracy degradation due to neglect of the reasonable sparsity rate at each layer. Previous methods for finding sparsity rates mainly focus on the training-aware scenario, which usually fails to converge stably under the PTS setting with limited data and much less training cost. In this paper, we propose a fast and controllable post-training sparsity (FCPTS) framework. By incorporating a differentiable bridge function and a controllable optimization objective, our method allows for rapid and accurate sparsity allocation learning in minutes, with the added assurance of convergence to a predetermined global sparsity rate. Equipped with these techniques, we can surpass the state-of-the-art methods by a large margin, e.g., over 30\% improvement for ResNet-50 on ImageNet under the sparsity rate of 80\%. Our plug-and-play code and supplementary materials are open-sourced at https://github.com/ModelTC/FCPTS.
翻訳日:2024-05-10 13:02:50 公開日:2024-05-09
# Aequitas Flow: 公正なML実験の合理化

Aequitas Flow: Streamlining Fair ML Experimentation ( http://arxiv.org/abs/2405.05809v1 )

ライセンス: Link先を確認
Sérgio Jesus, Pedro Saleiro, Inês Oliveira e Silva, Beatriz M. Jorge, Rita P. Ribeiro, João Gama, Pedro Bizarro, Rayid Ghani, (参考訳) Aequitas Flowは、PythonでエンドツーエンドのFair Machine Learning(ML)実験を行うためのオープンソースのフレームワークである。 このパッケージは、他のFair MLパッケージにおける、完全かつアクセス可能な実験の既存の統合ギャップを埋める。 公平性を意識したモデルトレーニング、ハイパーパラメータ最適化、評価のためのパイプラインを提供し、迅速かつ単純な実験と結果分析を可能にする。 MLの実践者と研究者を対象としたこのフレームワークは、拡張性を改善するために、メソッド、データセット、メトリクス、標準インターフェースの実装を提供する。 公正なMLプラクティスの開発を促進することで、Aequitas Flowは、AIテクノロジにおけるこれらの概念の採用を強化することを目指している。

Aequitas Flow is an open-source framework for end-to-end Fair Machine Learning (ML) experimentation in Python. This package fills the existing integration gaps in other Fair ML packages of complete and accessible experimentation. It provides a pipeline for fairness-aware model training, hyperparameter optimization, and evaluation, enabling rapid and simple experiments and result analysis. Aimed at ML practitioners and researchers, the framework offers implementations of methods, datasets, metrics, and standard interfaces for these components to improve extensibility. By facilitating the development of fair ML practices, Aequitas Flow seeks to enhance the adoption of these concepts in AI technologies.
翻訳日:2024-05-10 13:02:50 公開日:2024-05-09
# シングルイメージデハジングのための並列クロスストリップ注意ネットワーク

Parallel Cross Strip Attention Network for Single Image Dehazing ( http://arxiv.org/abs/2405.05811v1 )

ライセンス: Link先を確認
Lihan Tong, Yun Liu, Tian Ye, Weijia Li, Liyuan Chen, Erkang Chen, (参考訳) 単一画像デハジングの目的は、ぼんやりしたイメージを復元し、鮮明で高品質なビジュアルを作り出すことである。 伝統的な畳み込みモデルは、受容野のサイズが限られているため、長距離依存に苦しむ。 トランスフォーマーはそのような依存関係を捉えるのに優れていますが、特徴マップの解像度に関する2次計算の複雑さは、ピクセル単位の高密度予測タスクには適していません。 さらに、多くのモデルにおける固定されたカーネルやトークンは、様々な大きさのぼやけたサイズにうまく適応しておらず、結果として準最適デハージング性能がもたらされる。 本研究では,マルチスケール戦略を用いた並列Stripe Cross Attention (PCSA) に基づくデハージングネットワークを提案する。 PCSAは、水平と垂直の関係を同時に捉え、各ピクセルが拡張空間領域からコンテキストキューをキャプチャできるようにすることで、長距離依存関係を効率的に統合する。 ブラーの異なるサイズと形状を柔軟に扱えるように,各PCSAのコンボリューションカーネルサイズとストリップ長の異なるチャネルワイド設計を用いて,異なるスケールでコンテキスト情報をキャプチャし,さらに,PCSAにソフトマックスベースの適応重み付け機構を組み込んで,より重要な特徴の優先順位付けと活用を行う。

The objective of single image dehazing is to restore hazy images and produce clear, high-quality visuals. Traditional convolutional models struggle with long-range dependencies due to their limited receptive field size. While Transformers excel at capturing such dependencies, their quadratic computational complexity in relation to feature map resolution makes them less suitable for pixel-to-pixel dense prediction tasks. Moreover, fixed kernels or tokens in most models do not adapt well to varying blur sizes, resulting in suboptimal dehazing performance. In this study, we introduce a novel dehazing network based on Parallel Stripe Cross Attention (PCSA) with a multi-scale strategy. PCSA efficiently integrates long-range dependencies by simultaneously capturing horizontal and vertical relationships, allowing each pixel to capture contextual cues from an expanded spatial domain. To handle different sizes and shapes of blurs flexibly, We employs a channel-wise design with varying convolutional kernel sizes and strip lengths in each PCSA to capture context information at different scales.Additionally, we incorporate a softmax-based adaptive weighting mechanism within PCSA to prioritize and leverage more critical features.
翻訳日:2024-05-10 13:02:50 公開日:2024-05-09
# Revitalising Stagecraft: 従来の劇場リバイバルのためのNLP駆動型感性分析

Revitalising Stagecraft: NLP-Driven Sentiment Analysis for Traditional Theater Revival ( http://arxiv.org/abs/2405.05813v1 )

ライセンス: Link先を確認
Saikat Samanta, Saptarshi Karmakar, Satayajay Behuria, Shibam Dutta, Soujit Das, Soumik Saha, (参考訳) 本稿では,ピソンベースのチケット予約WebアプリケーションであるFilmFrenzyのインドの伝統劇場再生への応用について検討する。 さらに,ユーザエクスペリエンスを向上させるためにNLPをどのように実装できるかを検討する。 オーディエンス・ビューを明確にし、開発の機会を明確にすることで、FilmFrenzyはインドの伝統的な演劇シーンへの関与と再生を促進することを目指している。 このプラットフォームは、現代技術、特にNLPの導入を通じて、観客と観客の間のギャップを埋めることによって、従来の劇場の関連性と活力を維持することを目指している。 この研究は、インドの豊かな演劇の伝統を維持する上で、テクノロジーが重要な役割を果たす未来を思い描いており、それによって文化遺産の保存と発展に寄与している。 感情分析と自然言語処理(NLP)を舞台芸術の改善に欠かせない道具として、この研究は伝統的な演劇が活気ある時代を描いている。

This paper explores the application of FilmFrenzy, a python based ticket booking web application, in the revival of traditional Indian theatres. Additionally, this research paper explores how NLP can be implemented to improve user experience. Through clarifying audience views and pinpointing opportunities for development, FilmFrenzy aims to promote involvement and rejuvenation in India's conventional theatre scene. The platform seeks to maintain the relevance and vitality of conventional theatres by bridging the gap between audiences and them through the incorporation of contemporary technologies, especially NLP. This research envisions a future in which technology plays a crucial part in maintaining India's rich theatrical traditions, thereby contributing to the preservation and development of cultural heritage. With sentiment analysis and natural language processing (NLP) as essential instruments for improving stagecraft, the research envisions a period when traditional theatre will still be vibrant.
翻訳日:2024-05-10 13:02:50 公開日:2024-05-09
# MSDiff:超スパースCT再構成のための多次元拡散モデル

MSDiff: Multi-Scale Diffusion Model for Ultra-Sparse View CT Reconstruction ( http://arxiv.org/abs/2405.05814v1 )

ライセンス: Link先を確認
Pinhuang Tan, Mengxiao Geng, Jingya Lu, Liu Shi, Bin Huang, Qiegen Liu, (参考訳) CT(Computed Tomography)技術は、スパースサンプリングによって人体への放射線ハズドを低減させるが、サンプリングアングルが少ないことで画像再構成の課題が生じる。 スパースビューCT再構成ではスコアベース生成モデルが広く用いられているが, プロジェクション角の急激な減少に伴い, 性能は著しく低下する。 そこで本稿では,マルチスケールディフ融合モデル(MSDiff)を用いた超スパースCT再構成手法を提案する。 特に,提案モデルでは,包括的サンプリングと選択的スパースサンプリング技術の両方から情報を統合する。 拡散モデルの精密な調整により、多様なノイズ分布を抽出し、画像の全体構造を理解するとともに、画像情報をよりエフェック的に復元するための完全なサンプルモデルを支援することができる。 プロジェクションデータ内の固有相関を利用して、同値マスクを設計し、モデルがより効果的に注意を集中できるようにする。 実験的な再調査により、多スケールモデルアプローチは、様々なデータセットにまたがる優れた一般化により、超スパース角度による画像再構成の質を極端に向上することを示した。

Computed Tomography (CT) technology reduces radiation haz-ards to the human body through sparse sampling, but fewer sampling angles pose challenges for image reconstruction. Score-based generative models are widely used in sparse-view CT re-construction, performance diminishes significantly with a sharp reduction in projection angles. Therefore, we propose an ultra-sparse view CT reconstruction method utilizing multi-scale dif-fusion models (MSDiff), designed to concentrate on the global distribution of information and facilitate the reconstruction of sparse views with local image characteristics. Specifically, the proposed model ingeniously integrates information from both comprehensive sampling and selectively sparse sampling tech-niques. Through precise adjustments in diffusion model, it is capable of extracting diverse noise distribution, furthering the understanding of the overall structure of images, and aiding the fully sampled model in recovering image information more effec-tively. By leveraging the inherent correlations within the projec-tion data, we have designed an equidistant mask, enabling the model to focus its attention more effectively. Experimental re-sults demonstrated that the multi-scale model approach signifi-cantly improved the quality of image reconstruction under ultra-sparse angles, with good generalization across various datasets.
翻訳日:2024-05-10 13:02:50 公開日:2024-05-09
# 線形系反復解法のためのきめ細かい解析と高速アルゴリズム

Fine-grained Analysis and Faster Algorithms for Iteratively Solving Linear Systems ( http://arxiv.org/abs/2405.05818v1 )

ライセンス: Link先を確認
Michał Dereziński, Daniel LeJeune, Deanna Needell, Elizaveta Rebrova, (参考訳) 実効性はあるものの、線形方程式の大規模系を解く反復法は問題依存条件数量に大きく影響される。 これにより、特に決定論的手法と確率論的手法の比較をしたい場合、特に事前条件や高速行列乗法に頼らない場合、時間の複雑さを特徴付けるのが難しくなる。 そこで本研究では,スペクトルテール条件数である$\kappa_\ell$を,システムを表す行列の最小特異値と$\ell$2の比として定義する。 具体的には、$n\times n$ matrix $A$とベクトル$b$が与えられたとき、$\tilde{x}-b\|\leq\epsilon\|b\|$ in time $\tilde{O}(\kappa_\ell\cdot n^2\log 1/\epsilon)$ for any $\ell = O(n^{\frac1{\omega-1}})=O(n^{0.729})$,$\omega \approx 2.372$は現在の高速行列乗法である。 この保証はNesterovの加速度を持つSketch-and-Projectによって達成される。 結果と$\kappa_\ell$の使用のいくつかの意味は、共役勾配法におけるきめ細かい解析の直接的な改善、決定論的および確率的反復解法の間のより強い分離の示唆、および、反復解法の複雑さと高速行列乗法におけるアルゴリズム的進歩の関係である。 我々の主な技術的貢献は、スケッチアルゴリズムで一般的に発生するランダム射影行列の第1および第2モーメントに対する新しい鋭い特徴付けであり、決定点過程による組合せ的サンプリングと確率行列理論によるガウス的普遍性から得られる技術の組み合わせの上に構築されている。

While effective in practice, iterative methods for solving large systems of linear equations can be significantly affected by problem-dependent condition number quantities. This makes characterizing their time complexity challenging, particularly when we wish to make comparisons between deterministic and stochastic methods, that may or may not rely on preconditioning and/or fast matrix multiplication. In this work, we consider a fine-grained notion of complexity for iterative linear solvers which we call the spectral tail condition number, $\kappa_\ell$, defined as the ratio between the $\ell$th largest and the smallest singular value of the matrix representing the system. Concretely, we prove the following main algorithmic result: Given an $n\times n$ matrix $A$ and a vector $b$, we can find $\tilde{x}$ such that $\|A\tilde{x}-b\|\leq\epsilon\|b\|$ in time $\tilde{O}(\kappa_\ell\cdot n^2\log 1/\epsilon)$ for any $\ell = O(n^{\frac1{\omega-1}})=O(n^{0.729})$, where $\omega \approx 2.372$ is the current fast matrix multiplication exponent. This guarantee is achieved by Sketch-and-Project with Nesterov's acceleration. Some of the implications of our result, and of the use of $\kappa_\ell$, include direct improvement over a fine-grained analysis of the Conjugate Gradient method, suggesting a stronger separation between deterministic and stochastic iterative solvers; and relating the complexity of iterative solvers to the ongoing algorithmic advances in fast matrix multiplication, since the bound on $\ell$ improves with $\omega$. Our main technical contributions are new sharp characterizations for the first and second moments of the random projection matrix that commonly arises in sketching algorithms, building on a combination of techniques from combinatorial sampling via determinantal point processes and Gaussian universality results from random matrix theory.
翻訳日:2024-05-10 13:02:50 公開日:2024-05-09
# 量子マルコフ鎖の測定に基づく検証

Measurement-based Verification of Quantum Markov Chains ( http://arxiv.org/abs/2405.05825v1 )

ライセンス: Link先を確認
Ji Guan, Yuan Feng, Andrea Turrini, Mingsheng Ying, (参考訳) モデルチェック技術は、古典マルコフ連鎖の拡張である量子マルコフ連鎖として表される量子プログラムと通信プロトコルを分析するために拡張されている。 定性的時間性を特定するために、バーホフ=ヴォン・ノイマン原子命題に基づいて構築された部分空間に基づく量子時間論理を用いる。 これらの命題は、量子状態が状態空間全体の部分空間内にあるかどうかを決定する。 本稿では,測定に基づく線形時間時間時間論理MLTLを提案する。 MLTLは古典線形時間時間論理(LTL)に基づいているが、量子状態の測定後に確率分布を推論する量子原子命題を導入する。 検証を容易にするため、Agrawal et al (JACM 2015) が記述した確率行列の記号力学に基づく手法を拡張し、固有値解析によりより一般的な量子線型作用素(スーパー演算子)を扱う。 この拡張により、MLTLの公式に対して量子マルコフ連鎖を近似モデルでチェックするための効率的なアルゴリズムの開発が可能となる。 モデルチェックアルゴリズムの有用性を実証するために、量子と古典の両方のランダムウォークの線形時間特性を同時に検証する。 この検証を通じて、古典的なランダムウォークを越える量子ウォークにおいて、Ambainis et al (STOC 2001) がこれまでに確立した利点を確認し、量子ウォークに特有の新しい現象を発見する。

Model-checking techniques have been extended to analyze quantum programs and communication protocols represented as quantum Markov chains, an extension of classical Markov chains. To specify qualitative temporal properties, a subspace-based quantum temporal logic is used, which is built on Birkhoff-von Neumann atomic propositions. These propositions determine whether a quantum state is within a subspace of the entire state space. In this paper, we propose the measurement-based linear-time temporal logic MLTL to check quantitative properties. MLTL builds upon classical linear-time temporal logic (LTL) but introduces quantum atomic propositions that reason about the probability distribution after measuring a quantum state. To facilitate verification, we extend the symbolic dynamics-based techniques for stochastic matrices described by Agrawal et al. (JACM 2015) to handle more general quantum linear operators (super-operators) through eigenvalue analysis. This extension enables the development of an efficient algorithm for approximately model checking a quantum Markov chain against an MLTL formula. To demonstrate the utility of our model-checking algorithm, we use it to simultaneously verify linear-time properties of both quantum and classical random walks. Through this verification, we confirm the previously established advantages discovered by Ambainis et al. (STOC 2001) of quantum walks over classical random walks and discover new phenomena unique to quantum walks.
翻訳日:2024-05-10 13:02:50 公開日:2024-05-09
# MAD-ICP:データマッチングのすべて-ロバストとインフォームドLiDARオドメトリー

MAD-ICP: It Is All About Matching Data -- Robust and Informed LiDAR Odometry ( http://arxiv.org/abs/2405.05828v1 )

ライセンス: Link先を確認
Simone Ferrari, Luca Di Giammarino, Leonardo Brizi, Giorgio Grisetti, (参考訳) LiDARオドメトリー(LiDAR odometry)は、連続レーザースキャンからセンサーのエゴモーションを推定するタスクである。 この問題は20年以上にわたってコミュニティによって解決されてきたが、現在では多くの効果的なソリューションが利用可能である。 これらのシステムのほとんどは、運用環境、使用するセンサー、動作パターンに関する仮定に暗黙的に依存している。 これらの仮定に違反すると、いくつかのよく知られたシステムは性能が良くない傾向にある。 本稿では,これらの制約を克服し,異なる操作条件下での動作を良好に行うとともに,ドメイン固有の手法に匹敵する性能を実現するLiDARオドメトリーシステムを提案する。 我々のアルゴリズムは、PCAベースのkd-tree実装を利用して、登録されている雲の構造情報を抽出し、アライメントのための最小化メトリックを計算する、よく知られたICPパラダイムに従っている。 ドリフトは、追跡されたポーズの推定された不確実性に基づいて、ローカルマップを管理することでバウンドされる。 コミュニティに利益をもたらすため、オープンソースC++をいつでもリアルタイムで実装します。

LiDAR odometry is the task of estimating the ego-motion of the sensor from sequential laser scans. This problem has been addressed by the community for more than two decades, and many effective solutions are available nowadays. Most of these systems implicitly rely on assumptions about the operating environment, the sensor used, and motion pattern. When these assumptions are violated, several well-known systems tend to perform poorly. This paper presents a LiDAR odometry system that can overcome these limitations and operate well under different operating conditions while achieving performance comparable with domain-specific methods. Our algorithm follows the well-known ICP paradigm that leverages a PCA-based kd-tree implementation that is used to extract structural information about the clouds being registered and to compute the minimization metric for the alignment. The drift is bound by managing the local map based on the estimated uncertainty of the tracked pose. To benefit the community, we release an open-source C++ anytime real-time implementation.
翻訳日:2024-05-10 13:02:50 公開日:2024-05-09
# Mask-TS Net:ポリプセグメンテーションのためのマスク温度スケーリング不確かさ校正

Mask-TS Net: Mask Temperature Scaling Uncertainty Calibration for Polyp Segmentation ( http://arxiv.org/abs/2405.05830v1 )

ライセンス: Link先を確認
Yudian Zhang, Chenhao Xu, Kaiye Xu, Haijiang Zhu, (参考訳) 医用画像の一般的な校正法の多くは分類に重点を置いているが、セマンティックセグメンテーションに匹敵する研究はほとんどない。 臨床像のポリープ分割では, 疾患領域は画像全体のごく一部しか占めておらず, 従来のモデルでは病変部位の校正は不十分であったが, 背景部位の校正は良好であった。 そこで我々は,Mask-Loss と Mask-TS の4枝キャリブレーションネットワークを提案し,潜在的な病変領域におけるロジットのスケーリングに着目し,背景干渉の影響を軽減する。 実験では,既存のキャリブレーション法とマスク温度スケーリング(マスク-TS)を比較した。 その結果, キャリブレーションネットワークは, 他の手法よりも質的, 定量的に優れていることがわかった。

Lots of popular calibration methods in medical images focus on classification, but there are few comparable studies on semantic segmentation. In polyp segmentation of medical images, we find most diseased area occupies only a small portion of the entire image, resulting in previous models being not well-calibrated for lesion regions but well-calibrated for background, despite their seemingly better Expected Calibration Error (ECE) scores overall. Therefore, we proposed four-branches calibration network with Mask-Loss and Mask-TS strategies to more focus on the scaling of logits within potential lesion regions, which serves to mitigate the influence of background interference. In the experiments, we compare the existing calibration methods with the proposed Mask Temperature Scaling (Mask-TS). The results indicate that the proposed calibration network outperforms other methods both qualitatively and quantitatively.
翻訳日:2024-05-10 13:02:50 公開日:2024-05-09
# 開集合認識と未知サンプル検出の進歩によるインフォームド意思決定

Informed Decision-Making through Advancements in Open Set Recognition and Unknown Sample Detection ( http://arxiv.org/abs/2405.05836v1 )

ライセンス: Link先を確認
Atefeh Mahdavi, Marco Carvalho, (参考訳) 機械学習ベースの技術は、企業が情報的決定を下すのに役立つデータから、より深く実践的な洞察を導き出す多くの機会と改善を開放する。 しかし、これらの手法の大部分は、トレーニングとテストセットのラベル空間が同一である従来のクローズドセットのシナリオに焦点を当てている。 オープンセット認識(OSR)は、既知のクラスを分類するだけでなく、未知のクラスを効果的に扱うことに焦点を当てた、現実に近い状況において、分類タスクを導入することを目的としている。 このようなオープンセットの問題では、トレーニングセットの収集されたサンプルはすべてのクラスを包含することができず、システムはテスト時に未知のサンプルを識別する必要がある。 一方、実際の動的環境において正確な包括的モデルを構築することは、未知の項目のあらゆる可能な例をトレーニングするのは違法に高価であり、テストベッドでテストすると失敗する可能性があるため、多くの障害を生じさせる。 本研究は,OSRタスクの分類を改善するために,特徴空間の新たな表現を探索するアルゴリズムを提供する。 ビジネスプロセスと意思決定の有効性と効率は、より正確で洞察に富んだ結果予測を提供するOSRを統合することで改善することができる。 提案手法の性能を3つの確立されたデータセットに示す。 その結果,提案手法は精度およびF1スコアにおいて,ベースライン法よりも優れていた。

Machine learning-based techniques open up many opportunities and improvements to derive deeper and more practical insights from data that can help businesses make informed decisions. However, the majority of these techniques focus on the conventional closed-set scenario, in which the label spaces for the training and test sets are identical. Open set recognition (OSR) aims to bring classification tasks in a situation that is more like reality, which focuses on classifying the known classes as well as handling unknown classes effectively. In such an open-set problem the gathered samples in the training set cannot encompass all the classes and the system needs to identify unknown samples at test time. On the other hand, building an accurate and comprehensive model in a real dynamic environment presents a number of obstacles, because it is prohibitively expensive to train for every possible example of unknown items, and the model may fail when tested in testbeds. This study provides an algorithm exploring a new representation of feature space to improve classification in OSR tasks. The efficacy and efficiency of business processes and decision-making can be improved by integrating OSR, which offers more precise and insightful predictions of outcomes. We demonstrate the performance of the proposed method on three established datasets. The results indicate that the proposed model outperforms the baseline methods in accuracy and F1-score.
翻訳日:2024-05-10 13:02:50 公開日:2024-05-09
# シンメトリ重畳モデルによるシーンテキスト認識のための自己教師付き事前学習

Self-Supervised Pre-training with Symmetric Superimposition Modeling for Scene Text Recognition ( http://arxiv.org/abs/2405.05841v1 )

ライセンス: Link先を確認
Zuan Gao, Yuxin Wang, Yadong Qu, Boqiang Zhang, Zixiao Wang, Jianjun Xu, Hongtao Xie, (参考訳) テキスト認識において、自己教師付き事前学習は、拡張的な注釈付き実データへの依存を減らすための良い解決策として現れる。 これまでの研究は主に、マスク画像モデリングやシーケンスコントラスト学習を活用して、局所的な視覚表現に焦点を当ててきた。 しかし,テキスト認識にとって重要なテキスト画像における言語情報のモデル化は省略されている。 視覚空間における局所的特徴と言語情報を同時に捉えるために,SSM(Symmetric Superimposition Modeling)を提案する。 SSMの目的は、対称的に重畳された入力から方向特定画素と特徴信号を再構成することである。 具体的には、元の画像を逆ビューで追加し、対称的に重畳された入力を生成する。 画素レベルでは、原画像と逆画像の再構成を行い、文字の形状やテクスチャレベルの言語的文脈を捉える。 特徴レベルでは、意味レベルの言語文脈と局所的文字識別をモデル化するために、異なる拡張で同一の原画像と逆画像の特徴を再構築する。 私たちのデザインでは、キャラクタの形状と言語規則を混乱させます。 これにより、視覚的テクスチャや特徴的意味論の観点から、文字の形状や言語情報の理解が容易になる。 様々なテキスト認識ベンチマークの実験は、SSMの有効性と一般性を示し、4.1%の平均的なパフォーマンス向上と86.6%の新しい最先端の平均単語精度をUnion14Mベンチマークで示した。

In text recognition, self-supervised pre-training emerges as a good solution to reduce dependence on expansive annotated real data. Previous studies primarily focus on local visual representation by leveraging mask image modeling or sequence contrastive learning. However, they omit modeling the linguistic information in text images, which is crucial for recognizing text. To simultaneously capture local character features and linguistic information in visual space, we propose Symmetric Superimposition Modeling (SSM). The objective of SSM is to reconstruct the direction-specific pixel and feature signals from the symmetrically superimposed input. Specifically, we add the original image with its inverted views to create the symmetrically superimposed inputs. At the pixel level, we reconstruct the original and inverted images to capture character shapes and texture-level linguistic context. At the feature level, we reconstruct the feature of the same original image and inverted image with different augmentations to model the semantic-level linguistic context and the local character discrimination. In our design, we disrupt the character shape and linguistic rules. Consequently, the dual-level reconstruction facilitates understanding character shapes and linguistic information from the perspective of visual texture and feature semantics. Experiments on various text recognition benchmarks demonstrate the effectiveness and generality of SSM, with 4.1% average performance gains and 86.6% new state-of-the-art average word accuracy on Union14M benchmarks.
翻訳日:2024-05-10 13:02:50 公開日:2024-05-09
# 生成可能か? : テキスト・画像拡散モデルにおける記憶の実践的分析に向けて

Could It Be Generated? Towards Practical Analysis of Memorization in Text-To-Image Diffusion Models ( http://arxiv.org/abs/2405.05846v1 )

ライセンス: Link先を確認
Zhe Ma, Xuhong Zhang, Qingming Li, Tianyu Du, Wenzhi Chen, Zonghui Wang, Shouling Ji, (参考訳) 過去数年間、拡散モデルを利用したテキスト誘導画像生成の大幅な進歩が見られた。 しかし,テキスト・画像拡散モデルは画像記憶の訓練に脆弱であり,著作権侵害やプライバシー侵害への懸念が高まっている。 本研究では,テキスト・画像拡散モデルにおける記憶の実際的解析を行う。 保護するイメージのセットをターゲットとして,プロンプトの収集を必要とせず,定量分析を行う。 具体的には、まず画像の記憶を正式に定義し、それぞれ類似性、存在、および確率の3つの必要な記憶条件を特定する。 次に,モデルの予測誤差と画像複製の相関関係を明らかにする。 相関関係に基づいて,対象画像の暗記に対する安全性を検証し,その暗記範囲を計測するための逆解析手法を提案する。 モデル開発者は、我々の分析手法を利用して記憶された画像を発見したり、記憶に対する安全性を確実に主張することができる。 オープンソーステキスト・画像拡散モデルであるStable Diffusionの大規模な実験により,解析手法の有効性が実証された。

The past few years have witnessed substantial advancement in text-guided image generation powered by diffusion models. However, it was shown that text-to-image diffusion models are vulnerable to training image memorization, raising concerns on copyright infringement and privacy invasion. In this work, we perform practical analysis of memorization in text-to-image diffusion models. Targeting a set of images to protect, we conduct quantitive analysis on them without need to collect any prompts. Specifically, we first formally define the memorization of image and identify three necessary conditions of memorization, respectively similarity, existence and probability. We then reveal the correlation between the model's prediction error and image replication. Based on the correlation, we propose to utilize inversion techniques to verify the safety of target images against memorization and measure the extent to which they are memorized. Model developers can utilize our analysis method to discover memorized images or reliably claim safety against memorization. Extensive experiments on the Stable Diffusion, a popular open-source text-to-image diffusion model, demonstrate the effectiveness of our analysis method.
翻訳日:2024-05-10 12:53:04 公開日:2024-05-09
# 学習された特徴表現は複雑さ、学習順序、位置などに偏っている

Learned feature representations are biased by complexity, learning order, position, and more ( http://arxiv.org/abs/2405.05847v1 )

ライセンス: Link先を確認
Andrew Kyle Lampinen, Stephanie C. Y. Chan, Katherine Hermann, (参考訳) 表現学習(representation learning)は、機械学習と神経科学において重要な分野である。 どちらの分野も一般に、システムの計算を理解したり改善したりする手段として表現を使用する。 しかし,本稿では,このような取り組みに課題が生じる可能性のある表現と計算の予期せぬ解離について検討する。 私たちはデータセットを作成し、異なる機能やデータの他の特性を操作しながら、異なる機能が果たす計算的役割にマッチしようとします。 さまざまなディープラーニングアーキテクチャをトレーニングして、これらの入力に関する複数の抽象的な特徴を計算します。 学習した特徴表現は,特徴複雑性や学習順序,入力上の特徴の分布など,外部特性に依存して,他の特徴よりも強く表現する方向に体系的に偏っていることがわかった。 例えば、計算や学習が簡単である機能は、たとえすべての機能が同じように学習されたとしても、より複雑で後で学習された機能よりも強く、密に表現される傾向があります。 また、これらのバイアスがアーキテクチャ、オプティマイザ、トレーニングレシスタンス(例えば、トランスフォーマーでは、出力シーケンスでデコードされた機能がより強く表現される傾向がある)によってどのように影響を受けるかについても検討する。 この結果は,勾配に基づく表現学習の帰納バイアスを特徴づけるのに役立つ。 これらの結果は、解釈可能性$-$や、モデルと脳の表現を比較する上でも重要な課題である。

Representation learning, and interpreting learned representations, are key areas of focus in machine learning and neuroscience. Both fields generally use representations as a means to understand or improve a system's computations. In this work, however, we explore surprising dissociations between representation and computation that may pose challenges for such efforts. We create datasets in which we attempt to match the computational role that different features play, while manipulating other properties of the features or the data. We train various deep learning architectures to compute these multiple abstract features about their inputs. We find that their learned feature representations are systematically biased towards representing some features more strongly than others, depending upon extraneous properties such as feature complexity, the order in which features are learned, and the distribution of features over the inputs. For example, features that are simpler to compute or learned first tend to be represented more strongly and densely than features that are more complex or learned later, even if all features are learned equally well. We also explore how these biases are affected by architectures, optimizers, and training regimes (e.g., in transformers, features decoded earlier in the output sequence also tend to be represented more strongly). Our results help to characterize the inductive biases of gradient-based representation learning. These results also highlight a key challenge for interpretability $-$ or for comparing the representations of models and brains $-$ disentangling extraneous biases from the computationally important aspects of a system's internal representations.
翻訳日:2024-05-10 12:53:04 公開日:2024-05-09
# 事前学習されたテキスト・画像拡散モデルは、制御のための可読性表現学習者である

Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control ( http://arxiv.org/abs/2405.05852v1 )

ライセンス: Link先を確認
Gunshi Gupta, Karmesh Yadav, Yarin Gal, Dhruv Batra, Zsolt Kira, Cong Lu, Tim G. J. Rudner, (参考訳) 身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。 このような機能は、タスク固有のデータのみから学ぶのは難しい。 これにより、インターネットスケールのデータから学んだ表現を下流のタスクや新しいドメインに転送する手段として、事前学習された視覚言語モデルの出現につながった。 しかし、CLIPのような対照的に訓練された表現は、十分なきめ細かなシーン理解(制御に不可欠な能力)を実施できないことが示されている。 この欠点に対処するために,テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト・ツー・イメージ拡散モデルからの表現を検討する。 事前学習したテキスト・画像拡散モデルを用いて、複雑なオープンエンド環境に一般化する下流制御ポリシーの学習を可能にする安定制御表現を構築する。 安定制御表現を用いて学習したポリシーは、様々なシミュレートされた制御設定にまたがる最先端の表現学習アプローチと競合し、困難な操作やナビゲーションタスクを含むことを示す。 最も注目すべきは、安定制御表現は、難解なオープン語彙ナビゲーションベンチマークであるOVMM上で最先端のパフォーマンスを示す学習ポリシーを可能にすることである。

Embodied AI agents require a fine-grained understanding of the physical world mediated through visual and language inputs. Such capabilities are difficult to learn solely from task-specific data. This has led to the emergence of pre-trained vision-language models as a tool for transferring representations learned from internet-scale data to downstream tasks and new domains. However, commonly used contrastively trained representations such as in CLIP have been shown to fail at enabling embodied agents to gain a sufficiently fine-grained scene understanding -- a capability vital for control. To address this shortcoming, we consider representations from pre-trained text-to-image diffusion models, which are explicitly optimized to generate images from text prompts and as such, contain text-conditioned representations that reflect highly fine-grained visuo-spatial information. Using pre-trained text-to-image diffusion models, we construct Stable Control Representations which allow learning downstream control policies that generalize to complex, open-ended environments. We show that policies learned using Stable Control Representations are competitive with state-of-the-art representation learning approaches across a broad range of simulated control settings, encompassing challenging manipulation and navigation tasks. Most notably, we show that Stable Control Representations enable learning policies that exhibit state-of-the-art performance on OVMM, a difficult open-vocabulary navigation benchmark.
翻訳日:2024-05-10 12:53:04 公開日:2024-05-09
# 伝達学習を用いたロバストかつ説明可能な細粒度視覚分類:デュアルキャリアー・フレームワーク

Robust and Explainable Fine-Grained Visual Classification with Transfer Learning: A Dual-Carriageway Framework ( http://arxiv.org/abs/2405.05853v1 )

ライセンス: Link先を確認
Zheming Zuo, Joseph Smith, Jonathan Stonehouse, Boguslaw Obara, (参考訳) ディープラーニングに根ざした実用的なきめ細かな視覚分類アプリケーションという領域では、一般的なシナリオは、既存のデータセットを使用してモデルをトレーニングすることである。 その後、新しいデータセットが利用可能になり、強化とレバレッジされた推論パフォーマンスを達成するための重要な決定を両サイドで行うことが望まれる。 新たにリリースされたデータセットを使用して、データセットをスクラッチからトレーニングするか、あるいは初期データセットでトレーニングされたモデルを微調整するか? 既存の文献では、最適トレーニング戦略を体系的に決定する手法が欠如しており、説明可能性を必要としている。 この目的のために、このギャップを埋めるために、自動ベストスーツトレーニングソリューション探索フレームワークであるDual-Carriageway Framework(DCF)を提案する。 DCFは、5つの異なるトレーニング設定が強制されるデュアルダイレクト検索(既存のデータセットまたは新しくリリースされたデータセットから始まる)の設計の恩恵を受ける。 さらに、DCFは、過度な適合を避ける能力によって最適なトレーニング戦略を解明できるだけでなく、トレーニングされたモデルの実際の入力と重みから得られた定量的かつ視覚的な説明を組み込むことができる。 3つの畳み込みニューラルネットワーク(ResNet18,ResNet34,Inception-v3)を用いて、時間的に継続する2つの商用製品データセット上で、DCFの有効性を検証する。 その結果、既存のデータセットと新しいデータセットでは、それぞれ平均精度で2.13%、1.23%の微調整パスが向上した。 さらに、DCFは反射パディングを優れたパディング法として同定し、試験精度を平均3.72%向上させた。 このフレームワークは、きめ細かい視覚的分類タスクにおいて、堅牢で説明可能なAIソリューションの開発をガイドする可能性で際立っている。

In the realm of practical fine-grained visual classification applications rooted in deep learning, a common scenario involves training a model using a pre-existing dataset. Subsequently, a new dataset becomes available, prompting the desire to make a pivotal decision for achieving enhanced and leveraged inference performance on both sides: Should one opt to train datasets from scratch or fine-tune the model trained on the initial dataset using the newly released dataset? The existing literature reveals a lack of methods to systematically determine the optimal training strategy, necessitating explainability. To this end, we present an automatic best-suit training solution searching framework, the Dual-Carriageway Framework (DCF), to fill this gap. DCF benefits from the design of a dual-direction search (starting from the pre-existing or the newly released dataset) where five different training settings are enforced. In addition, DCF is not only capable of figuring out the optimal training strategy with the capability of avoiding overfitting but also yields built-in quantitative and visual explanations derived from the actual input and weights of the trained model. We validated DCF's effectiveness through experiments with three convolutional neural networks (ResNet18, ResNet34 and Inception-v3) on two temporally continued commercial product datasets. Results showed fine-tuning pathways outperformed training-from-scratch ones by up to 2.13% and 1.23% on the pre-existing and new datasets, respectively, in terms of mean accuracy. Furthermore, DCF identified reflection padding as the superior padding method, enhancing testing accuracy by 3.72% on average. This framework stands out for its potential to guide the development of robust and explainable AI solutions in fine-grained visual classification tasks.
翻訳日:2024-05-10 12:53:04 公開日:2024-05-09
# 産業用IoTにおける信頼性の高いパッシブ無線センシングのための圧縮ベイズフェデレーション学習

Compressed Bayesian Federated Learning for Reliable Passive Radio Sensing in Industrial IoT ( http://arxiv.org/abs/2405.05855v1 )

ライセンス: Link先を確認
Luca Barbieri, Stefano Savazzi, Monica Nicoli, (参考訳) Bayesian Federated Learning (FL)は、最近導入され、予測の不確実性を定量化するための、十分に校正された機械学習(ML)モデルを提供している。 分散化ネットワーク上に実装されたベイジアンFLツールは、頻繁なFLセットアップに比べて長所があるにもかかわらず、協調装置間の局所的な後部分布の反復交換により通信コストが高い。 そこで本稿では,最終学習精度と校正を犠牲にすることなく通信オーバーヘッドを低減するために,通信効率の高い分散化ベイズFLポリシーを提案する。 提案手法は, 圧縮ポリシを統合し, 局所的な後部分布を送信する前に, 複数の最適化ステップを実行することができる。 我々は,自律型レーダセンサを備えた協調ノードが,ロボットと共有する職場で人間のオペレーターを確実にローカライズする作業を行う,産業用IoT(Industrial Internet of Things)のユースケースに,この開発ツールを統合する。 その結果,従来の(圧縮されていない)ベイズ式FLツールと互換性があり,通信オーバヘッドを大幅に低減し(最大99%),高精度かつ校正されたMLモデルが得られることがわかった。 さらに, 実験データセットの統計的分布が変化する場合, キャリブレーションの観点から, 最先端の圧縮頻繁なFLセットアップと比較して, 提案手法は有利である。

Bayesian Federated Learning (FL) has been recently introduced to provide well-calibrated Machine Learning (ML) models quantifying the uncertainty of their predictions. Despite their advantages compared to frequentist FL setups, Bayesian FL tools implemented over decentralized networks are subject to high communication costs due to the iterated exchange of local posterior distributions among cooperating devices. Therefore, this paper proposes a communication-efficient decentralized Bayesian FL policy to reduce the communication overhead without sacrificing final learning accuracy and calibration. The proposed method integrates compression policies and allows devices to perform multiple optimization steps before sending the local posterior distributions. We integrate the developed tool in an Industrial Internet of Things (IIoT) use case where collaborating nodes equipped with autonomous radar sensors are tasked to reliably localize human operators in a workplace shared with robots. Numerical results show that the developed approach obtains highly accurate yet well-calibrated ML models compatible with the ones provided by conventional (uncompressed) Bayesian FL tools while substantially decreasing the communication overhead (i.e., up to 99%). Furthermore, the proposed approach is advantageous when compared with state-of-the-art compressed frequentist FL setups in terms of calibration, especially when the statistical distribution of the testing dataset changes.
翻訳日:2024-05-10 12:53:04 公開日:2024-05-09
# 仮想カメラによる自由移動物体再構成と空間推定

Free-Moving Object Reconstruction and Pose Estimation with Virtual Camera ( http://arxiv.org/abs/2405.05858v1 )

ライセンス: Link先を確認
Haixin Shi, Yinlin Hu, Daniel Koguciuk, Juan-Ting Lin, Mathieu Salzmann, David Ferstl, (参考訳) モノクロRGBビデオから自由移動物体を再構成する手法を提案する。 既存のほとんどのメソッドはシーン前、ハンドポーズ前、オブジェクトカテゴリ前、あるいは複数のシーケンスセグメントによるローカル最適化に依存している。 本研究では,移動カメラの前方の物体と自由に対話できる手法を提案し,セグメントを使わずに世界規模でシーケンスを最適化する。 対象の形状を段階的に最適化し,暗黙のニューラル表現に基づくポーズを同時に行う。 提案手法の重要な側面は,最適化の検索スペースを大幅に削減する仮想カメラシステムである。 本手法は,ヘッドマウントデバイスで取得した標準HO3Dデータセットと,エゴセントリックなRGBシーケンスのコレクションに基づいて評価する。 提案手法は,ほとんどの手法よりも優れており,先行情報を前提とした最近の手法と同等であることを示す。

We propose an approach for reconstructing free-moving object from a monocular RGB video. Most existing methods either assume scene prior, hand pose prior, object category pose prior, or rely on local optimization with multiple sequence segments. We propose a method that allows free interaction with the object in front of a moving camera without relying on any prior, and optimizes the sequence globally without any segments. We progressively optimize the object shape and pose simultaneously based on an implicit neural representation. A key aspect of our method is a virtual camera system that reduces the search space of the optimization significantly. We evaluate our method on the standard HO3D dataset and a collection of egocentric RGB sequences captured with a head-mounted device. We demonstrate that our approach outperforms most methods significantly, and is on par with recent techniques that assume prior information.
翻訳日:2024-05-10 12:53:04 公開日:2024-05-09
# スペクティビストのパラダイムシフト:人間ラベルの獲得の前提と課題

The Perspectivist Paradigm Shift: Assumptions and Challenges of Capturing Human Labels ( http://arxiv.org/abs/2405.05860v1 )

ライセンス: Link先を確認
Eve Fleisig, Su Lin Blodgett, Dan Klein, Zeerak Talat, (参考訳) 機械学習における長年のデータラベリングのプラクティスには、複数のアノテータからのラベルの収集と集約が含まれる。 しかし、アノテーターが同意しなかったらどうするべきか? 注釈人の意見の相違は、長い間、最小化の問題と見なされてきたが、新しいパースペクティビストのアプローチは、意見の相違を貴重な情報源として扱うことによって、この仮定に挑戦している。 本稿では,不一致の原因を取り巻く実践と前提について考察する。その一部はスペクティビスト的アプローチによるものであり,また,これらの前提の下で作業を行う上での実践的で規範的な課題と同様に,対処すべきものである。 我々は、データラベリングパイプラインの推奨と、主観性と不一致に関わる今後の研究への道程を結論付ける。

Longstanding data labeling practices in machine learning involve collecting and aggregating labels from multiple annotators. But what should we do when annotators disagree? Though annotator disagreement has long been seen as a problem to minimize, new perspectivist approaches challenge this assumption by treating disagreement as a valuable source of information. In this position paper, we examine practices and assumptions surrounding the causes of disagreement--some challenged by perspectivist approaches, and some that remain to be addressed--as well as practical and normative challenges for work operating under these assumptions. We conclude with recommendations for the data labeling pipeline and avenues for future research engaging with subjectivity and disagreement.
翻訳日:2024-05-10 12:53:04 公開日:2024-05-09
# ExACT: 変圧器によるアクションチャンキングを用いたエンドツーエンドの自律探査システム

ExACT: An End-to-End Autonomous Excavator System Using Action Chunking With Transformers ( http://arxiv.org/abs/2405.05861v1 )

ライセンス: Link先を確認
Liangliang Chen, Shiyu Jin, Haoyu Wang, Liangjun Zhang, (参考訳) 掘削機は建設や鉱業などの多様な業務に欠かせないものであり、自律的な掘削機システムは安全性と効率を高め、労働力不足に対処し、人間の労働環境を改善している。 既存のモジュール化アプローチとは違って,本研究では,生のLiDAR,カメラデータ,関節位置を直接処理して掘削弁を直接制御するエンド・ツー・エンドの自律掘削装置であるExACTを導入する。 ExACTは、Action Chunking with Transformers (ACT)アーキテクチャを使用して、マルチモーダルセンサーからの観測を入力として、実行可能なシーケンスを生成する。 本研究では,得られた実世界のデータに基づいて,掘削弁の状態と接合速度の関係をモデル化するシミュレータを構築した。 人間が操作するデモデータトラジェクトリで、ExACTはシミュレータによる検証で模倣学習を通じて、到達、掘り下げ、ダンピングを含む、さまざまな掘削タスクを完了する能力を示している。 私たちの知る限りでは、ExACTは人間のデモを最小限に抑えた模倣学習手法によって、エンドツーエンドの自律探査システムを構築するための最初の事例である。 この作業に関するビデオはhttps://youtu.be/NmzR_Rf-aEk.comで見ることができる。

Excavators are crucial for diverse tasks such as construction and mining, while autonomous excavator systems enhance safety and efficiency, address labor shortages, and improve human working conditions. Different from the existing modularized approaches, this paper introduces ExACT, an end-to-end autonomous excavator system that processes raw LiDAR, camera data, and joint positions to control excavator valves directly. Utilizing the Action Chunking with Transformers (ACT) architecture, ExACT employs imitation learning to take observations from multi-modal sensors as inputs and generate actionable sequences. In our experiment, we build a simulator based on the captured real-world data to model the relations between excavator valve states and joint velocities. With a few human-operated demonstration data trajectories, ExACT demonstrates the capability of completing different excavation tasks, including reaching, digging and dumping through imitation learning in validations with the simulator. To the best of our knowledge, ExACT represents the first instance towards building an end-to-end autonomous excavator system via imitation learning methods with a minimal set of human demonstrations. The video about this work can be accessed at https://youtu.be/NmzR_Rf-aEk.
翻訳日:2024-05-10 12:53:04 公開日:2024-05-09
# マルチレベルスケッチプレコンディショニングによる高速線形系と行列ノルム近似

Faster Linear Systems and Matrix Norm Approximation via Multi-level Sketched Preconditioning ( http://arxiv.org/abs/2405.05865v1 )

ライセンス: Link先を確認
Michał Dereziński, Christopher Musco, Jiaming Yang, (参考訳) 我々は、$Ax = b$という形式の線形系を解くための、新しい条件付き反復法のクラスを示す。 提案手法は,低ランクなNystr\"om近似をスパースランダムスケッチを用いて$A$に構築することに基づいている。 この近似はプリコンディショナーを構築するのに使われ、ランダムスケッチとプレコンディショニングの付加レベルを使用して、自身は迅速に逆転される。 我々の手法の収束は、Nystr\"om近似のランクが増加するにつれて改善される自然平均条件数$A$に依存することを証明している。 具体的には、多くの基本的な線形代数的問題に対してより高速なランタイムを得ることができる: 1) 任意の$n\times n$線型系を、$k$を除いてよく条件付きで解く方法を示す: $\tilde{O}(n^{2.065} + k^\omega)$ time は、すべての$k \gtrsim n^{0.78}$に対して [Derezi\'nski, Yang, STOC 2024] の最近の結果を改善する。 2) 正規化線形系 $(A + \lambda I)x = b$ を解くための最初の $\tilde{O}(n^2 + {d_\lambda}^{\omega}$) 時間アルゴリズムを与える。 この問題はガウス過程の回帰のような応用で生じる。 3)Schatten $p$-norms や他の行列ノルムを近似するアルゴリズムを提案する。 例えば、Schatten 1(核)ノルムに対して、[Musco et al , ITCS 2018] の $\tilde{O}(n^{2.11})$ time で実行されるアルゴリズムを与え、$\tilde{O}(n^{2.18})$ method で改善する。 興味深いことに、上記の問題の多くに対する従来の最先端のアルゴリズムは、確率座標や勾配降下のような確率的反復法に依存していた。 私たちの仕事は、マトリックスのスケッチからツールを活用する代わりに、まったく異なるアプローチを取ります。

We present a new class of preconditioned iterative methods for solving linear systems of the form $Ax = b$. Our methods are based on constructing a low-rank Nystr\"om approximation to $A$ using sparse random sketching. This approximation is used to construct a preconditioner, which itself is inverted quickly using additional levels of random sketching and preconditioning. We prove that the convergence of our methods depends on a natural average condition number of $A$, which improves as the rank of the Nystr\"om approximation increases. Concretely, this allows us to obtain faster runtimes for a number of fundamental linear algebraic problems: 1. We show how to solve any $n\times n$ linear system that is well-conditioned except for $k$ outlying large singular values in $\tilde{O}(n^{2.065} + k^\omega)$ time, improving on a recent result of [Derezi\'nski, Yang, STOC 2024] for all $k \gtrsim n^{0.78}$. 2. We give the first $\tilde{O}(n^2 + {d_\lambda}^{\omega}$) time algorithm for solving a regularized linear system $(A + \lambda I)x = b$, where $A$ is positive semidefinite with effective dimension $d_\lambda$. This problem arises in applications like Gaussian process regression. 3. We give faster algorithms for approximating Schatten $p$-norms and other matrix norms. For example, for the Schatten 1 (nuclear) norm, we give an algorithm that runs in $\tilde{O}(n^{2.11})$ time, improving on an $\tilde{O}(n^{2.18})$ method of [Musco et al., ITCS 2018]. Interestingly, previous state-of-the-art algorithms for most of the problems above relied on stochastic iterative methods, like stochastic coordinate and gradient descent. Our work takes a completely different approach, instead leveraging tools from matrix sketching.
翻訳日:2024-05-10 12:53:04 公開日:2024-05-09
# テーブルトップ実験における不気味な動作の速度の試験 [Sci Rep 13 8201 (2023)]

Comment on: Testing the speed of the spooky action at a distance in a tabletop experiment. [Sci Rep 13, 8201 (2023)] ( http://arxiv.org/abs/2405.05869v1 )

ライセンス: Link先を確認
Bruno Cocciaro, Sandro Faetti, Leone Fronzoni, (参考訳) 1989年、Eberhard は超高速 v_t > c を好ましいフレームで移動する通信によって、絡み合った粒子間の量子相関が確立される v-Causal モデルを提案した。 連続して、いくつかの実験は、可能なタキオン速度の低い境界を確立した。 最近の論文で、Luigi Santamaria Amatoらは、好まれるフレームが宇宙マイクロ波背景(CMB)であると仮定して、東西方向のテーブルトップ実験を行った。 この論文では, 長距離実験を批判するが, それらの批判の大部分は, 最下界が得られた長距離トンネル実験には適用できないことを示す。

In 1989, Eberhard proposed a v-causal model where quantum correlations between entangled particles are established by communications moving at a superluminal speed v_t > c in a preferred frame. In successive years, several experiments established lower bounds for the possible tachyons velocities. In a recent paper, Luigi Santamaria Amato et al. performed an interesting east-west aligned tabletop experiment under the assumption that the preferred frame is the Cosmic Microwave Background (CMB). In that paper, they criticize long-distance experiments but here we show that most of their criticisms are not applicable to long-distance tunnel experiments where the highest lower bound was obtained.
翻訳日:2024-05-10 12:53:04 公開日:2024-05-09
# 最も対立する候補のペアを選定する

Selecting the Most Conflicting Pair of Candidates ( http://arxiv.org/abs/2405.05870v1 )

ライセンス: Link先を確認
Théo Delemazure, Łukasz Janeczko, Andrzej Kaczmarczyk, Stanisław Szufa, (参考訳) 我々は、最も対立する候補者、すなわち最も対立の大きい候補者を見つける観点から、委員会選挙を調査する。 この目的を達成するための基本的な公理を提案することで、著名なマルチウィンナー投票規則が満たされていないことを示す。 その結果、我々はデシダータに準拠する委員会投票ルールを設計し、矛盾する投票ルールを導入した。 その後の分析がさらに深まり、その操作方法に光が当たっている。 本研究は、対立の諸側面を解明し、関連する公理や量的尺度を考案する。 我々は実生活データと合成データの両方に関する実験で理論的研究を支援している。

We study committee elections from a perspective of finding the most conflicting candidates, that is, candidates that imply the largest amount of conflict, as per voter preferences. By proposing basic axioms to capture this objective, we show that none of the prominent multiwinner voting rules meet them. Consequently, we design committee voting rules compliant with our desiderata, introducing conflictual voting rules. A subsequent deepened analysis sheds more light on how they operate. Our investigation identifies various aspects of conflict, for which we come up with relevant axioms and quantitative measures, which may be of independent interest. We support our theoretical study with experiments on both real-life and synthetic data.
翻訳日:2024-05-10 12:53:04 公開日:2024-05-09
# マルチプロセッサ量子回路分布におけるゲートとビットテレポーテーションの最小化への遺伝的アプローチ

A Genetic Approach to Minimising Gate and Qubit Teleportations for Multi-Processor Quantum Circuit Distribution ( http://arxiv.org/abs/2405.05875v1 )

ライセンス: Link先を確認
Oliver Crampton, Panagiotis Promponas, Richard Chen, Paul Polakos, Leandros Tassiulas, Louis Samuel, (参考訳) 分散量子コンピューティング(DQC)は、複数の量子プロセッサユニット(QPU)を相互接続することで利用可能な量子計算をスケールする手段を提供する。 この領域における鍵となる課題は、量子回路からQPU内の物理量子ビットへ論理量子ビットを効率的に割り当てることである。 グラフ分割戦略を中心にした従来の手法は、ゲートテレポーテーションの一種である非局所CNOT操作の実行に必要なベルペアの数を減らそうとしてきた。 しかし、これらの手法は効率と拡張性に限界がある。 これに対応するために,我々は,量子回路を実行するネットワークコストを最小限に抑える,新しいメタヒューリスティックアルゴリズムを導入するゲートとキュービットのテレポーテーションを共同で検討した。 回路実行時のゲートテレポーテーションとともに量子ビットの動的再配置を可能にすることにより、DQCフレームワークの全体的な有効性と潜在的な拡張性を著しく向上する。 本稿では,従来のグラフ分割法と比較して,回路遮断を最適化するためにキュービットテレポーテーションを遺伝的アルゴリズムに組み込むことで,必要な資源,特にEPRペアの数を減らすことを示した。 ベンチマークとランダムに生成した回路の両方から得られた結果から、回路の複雑さが増大するにつれて、より量子ビットのテレポーテーションが要求されるようになると、本手法は実行中においてこれらのテレポーテーションを効果的に最適化し、戦略的回路分割による性能の向上を図っている。 これは、将来「量子データセンター」の効率的な利用を可能にするグローバル量子コンパイラの追求の一歩である。

Distributed Quantum Computing (DQC) provides a means for scaling available quantum computation by interconnecting multiple quantum processor units (QPUs). A key challenge in this domain is efficiently allocating logical qubits from quantum circuits to the physical qubits within QPUs, a task known to be NP-hard. Traditional approaches, primarily focused on graph partitioning strategies, have sought to reduce the number of required Bell pairs for executing non-local CNOT operations, a form of gate teleportation. However, these methods have limitations in terms of efficiency and scalability. Addressing this, our work jointly considers gate and qubit teleportations introducing a novel meta-heuristic algorithm to minimise the network cost of executing a quantum circuit. By allowing dynamic reallocation of qubits along with gate teleportations during circuit execution, our method significantly enhances the overall efficacy and potential scalability of DQC frameworks. In our numerical analysis, we demonstrate that integrating qubit teleportations into our genetic algorithm for optimising circuit blocking reduces the required resources, specifically the number of EPR pairs, compared to traditional graph partitioning methods. Our results, derived from both benchmark and randomly generated circuits, show that as circuit complexity increases - demanding more qubit teleportations - our approach effectively optimises these teleportations throughout the execution, thereby enhancing performance through strategic circuit partitioning. This is a step forward in the pursuit of a global quantum compiler which will ultimately enable the efficient use of a 'quantum data center' in the future.
翻訳日:2024-05-10 12:53:04 公開日:2024-05-09
# 構成可能な部品ベースマニピュレーション

Composable Part-Based Manipulation ( http://arxiv.org/abs/2405.05876v1 )

ライセンス: Link先を確認
Weiyu Liu, Jiayuan Mao, Joy Hsu, Tucker Hermans, Animesh Garg, Jiajun Wu, (参考訳) 本稿では,ロボット操作スキルの学習と一般化を改善するために,対象部品の分解と部分対応を活用する新しいアプローチであるコンポーザブル・パートベース操作(CPM)を提案する。 対象部品間の機能的対応を考慮し、異なる対応制約の組み合わせとして、注水や拘束配置などの機能的動作を概念化する。 CPMは構成可能な拡散モデルの集合で構成され、各モデルは異なるオブジェクト間の対応をキャプチャする。 これらの拡散モデルは、特定の対象部分に基づいて操作スキルのパラメータを生成することができる。 タスク分解と結合した部分ベースの対応を異なる制約にすることで、新しいオブジェクトやオブジェクトカテゴリへの強力な一般化が可能になる。 シミュレーションおよび実世界のシナリオにおいて、我々のアプローチを検証し、ロバストかつ一般化された操作能力を達成する上での有効性を実証する。

In this paper, we propose composable part-based manipulation (CPM), a novel approach that leverages object-part decomposition and part-part correspondences to improve learning and generalization of robotic manipulation skills. By considering the functional correspondences between object parts, we conceptualize functional actions, such as pouring and constrained placing, as combinations of different correspondence constraints. CPM comprises a collection of composable diffusion models, where each model captures a different inter-object correspondence. These diffusion models can generate parameters for manipulation skills based on the specific object parts. Leveraging part-based correspondences coupled with the task decomposition into distinct constraints enables strong generalization to novel objects and object categories. We validate our approach in both simulated and real-world scenarios, demonstrating its effectiveness in achieving robust and generalized manipulation capabilities.
翻訳日:2024-05-10 12:53:04 公開日:2024-05-09
# 擬似異常発生のためのオートエンコーダの弱さの爆発

Exploiting Autoencoder's Weakness to Generate Pseudo Anomalies ( http://arxiv.org/abs/2405.05886v1 )

ライセンス: Link先を確認
Marcella Astrid, Muhammad Zaigham Zaheer, Djamila Aouada, Seung-Ik Lee, (参考訳) 異常事象の稀な発生により、異常検出の典型的なアプローチは、通常のデータのみを用いてオートエンコーダ(AE)を訓練し、通常のトレーニングデータのパターンや表現を学ぶことである。 試験時には、トレーニングされたAEは正常に再構成されるが、異常なデータを十分に再構成することが期待されている。 しかし、予想に反して、異常なデータはよく再構成される。 正規データと異常データの間で再構成品質をさらに分離するために,上記のAEの弱点を利用して学習適応雑音から擬似異常を生成することを提案する。 生成したノイズを正規データに追加して擬似異常を生成する。 Ped2, Avenue, ShanghaiTech, CIFAR-10, KDDCUPデータセットの大規模実験により, 異常検出におけるAEsの識別能力の向上における我々のアプローチの有効性と汎用性を示した。

Due to the rare occurrence of anomalous events, a typical approach to anomaly detection is to train an autoencoder (AE) with normal data only so that it learns the patterns or representations of the normal training data. At test time, the trained AE is expected to well reconstruct normal but to poorly reconstruct anomalous data. However, contrary to the expectation, anomalous data is often well reconstructed as well. In order to further separate the reconstruction quality between normal and anomalous data, we propose creating pseudo anomalies from learned adaptive noise by exploiting the aforementioned weakness of AE, i.e., reconstructing anomalies too well. The generated noise is added to the normal data to create pseudo anomalies. Extensive experiments on Ped2, Avenue, ShanghaiTech, CIFAR-10, and KDDCUP datasets demonstrate the effectiveness and generic applicability of our approach in improving the discriminative capability of AEs for anomaly detection.
翻訳日:2024-05-10 12:53:04 公開日:2024-05-09
# 量子絡み合いは弱い相互作用粒子に対する単発軌跡センシングを可能にする

Quantum entanglement enables single-shot trajectory sensing for weakly interacting particles ( http://arxiv.org/abs/2405.05888v1 )

ライセンス: Link先を確認
Zachary E. Chin, David R. Leibrandt, Isaac L. Chuang, (参考訳) 入ってくる粒子の軌道をマッピングするセンサーは、実験的な高エネルギー物理学において重要な有用性を見つけ、暗黒物質を探索する。 入射粒子の軌道を推定するために、多ビットセンサアレイの射影測定を用いる量子センシングプロトコルにおいて、完全軌跡識別に必要な粒子-センサ相互作用強度$\theta$を劇的に低減できることを示す。 この縮小しきい値より上の$\theta$の間隔内では、アンタングルセンサが1ショットでゼロエラーで成功するのに対して、このプロトコルの$\Theta(\log(1/\epsilon))$を繰り返して、粒子軌道を$\epsilon$エラー確率で推定する。

Sensors for mapping the trajectory of an incoming particle find important utility in experimental high energy physics and searches for dark matter. For a quantum sensing protocol that uses projective measurements on a multi-qubit sensor array to infer the trajectory of an incident particle, we show that entanglement can dramatically reduce the particle-sensor interaction strength $\theta$ required for perfect trajectory discrimination. Within an interval of $\theta$ above this reduced threshold, any unentangled sensor requires $\Theta(\log(1/\epsilon))$ repetitions of the protocol to estimate the particle trajectory with $\epsilon$ error probability, whereas an entangled sensor can succeed with zero error in a single shot.
翻訳日:2024-05-10 12:53:04 公開日:2024-05-09
# ベイジアン世界モデルとログバリア最適化を用いた安全な探索

Safe Exploration Using Bayesian World Models and Log-Barrier Optimization ( http://arxiv.org/abs/2405.05890v1 )

ライセンス: Link先を確認
Yarden As, Bhavya Sukhija, Andreas Krause, (参考訳) オンラインタスクにおける強化学習の展開における大きな課題は、学習プロセス全体を通して安全性を維持することである。 本研究では,制約付きマルコフ決定過程の解法であるCERLを提案する。 我々の手法はベイズ世界のモデルを活用し、そのモデルの疫学的な不確実性に悲観的な政策を提案する。 これにより、CERLはモデル不正確性に対して堅牢になり、学習中の安全な探索につながる。 実験では,画像観測からCMDPを解く際の安全性と最適性の観点から,CERLが現状よりも優れていることを示した。

A major challenge in deploying reinforcement learning in online tasks is ensuring that safety is maintained throughout the learning process. In this work, we propose CERL, a new method for solving constrained Markov decision processes while keeping the policy safe during learning. Our method leverages Bayesian world models and suggests policies that are pessimistic w.r.t. the model's epistemic uncertainty. This makes CERL robust towards model inaccuracies and leads to safe exploration during learning. In our experiments, we demonstrate that CERL outperforms the current state-of-the-art in terms of safety and optimality in solving CMDPs from image observations.
翻訳日:2024-05-10 12:43:04 公開日:2024-05-09
# 量子アーキテクチャ探索のためのRNN-政治勾配法

An RNN-policy gradient approach for quantum architecture search ( http://arxiv.org/abs/2405.05892v1 )

ライセンス: Link先を確認
Gang Wang, Bang-Hai Wang, Shao-Ming Fei, (参考訳) 変分量子回路は、ノイズの多い中間スケール量子技術時代の量子コンピューティングの利点を利用するための有望な方法の1つである。 量子回路アーキテクチャの設計は、量子アルゴリズムの性能に大きく影響する可能性がある。 量子アーキテクチャ探索 (quantum architecture search) は、与えられたタスクのためにアルゴリズムによって最適な量子回路構成アーキテクチャを見つけることを目的として、量子回路アーキテクチャを自動的に設計するプロセスである。 手動設計と比較して、量子アーキテクチャ探索アルゴリズムはより優れた性能を持つ量子回路を見つけるのに効果的である。 本稿では, 深層強化学習に基づき, 量子回路アーキテクチャ探索のためのアプローチを提案する。 回路アーキテクチャのサンプリングは、強化学習に基づくコントローラによって学習される。 層ベース探索は探索アルゴリズムの計算効率を向上するためにも用いられる。 データ分類タスクを適用することで、より良い精度で量子回路アーキテクチャを探索できることが示される。 さらに、回路はより少ない数の量子ゲートとパラメータを持つ。

Variational quantum circuits are one of the promising ways to exploit the advantages of quantum computing in the noisy intermediate-scale quantum technology era. The design of the quantum circuit architecture might greatly affect the performance capability of the quantum algorithms. The quantum architecture search is the process of automatically designing quantum circuit architecture, aiming at finding the optimal quantum circuit composition architecture by the algorithm for a given task, so that the algorithm can learn to design the circuit architecture. Compared to manual design, quantum architecture search algorithms are more effective in finding quantum circuits with better performance capabilities. In this paper, based on the deep reinforcement learning, we propose an approach for quantum circuit architecture search. The sampling of the circuit architecture is learnt through reinforcement learning based controller. Layer-based search is also used to accelerate the computational efficiency of the search algorithm. Applying to data classification tasks we show that the method can search for quantum circuit architectures with better accuracies. Moreover, the circuit has a smaller number of quantum gates and parameters.
翻訳日:2024-05-10 12:43:04 公開日:2024-05-09
# LLMの比較を効果的に評価する: Pairwise ComparisonsのためのExperts Frameworkの製品

Efficient LLM Comparative Assessment: a Product of Experts Framework for Pairwise Comparisons ( http://arxiv.org/abs/2405.05894v1 )

ライセンス: Link先を確認
Adian Liusie, Vatsal Raina, Yassir Fathullah, Mark Gales, (参考訳) LLM-as-a-judgeアプローチは、テキストタスクの範囲を評価するための実用的で効果的な方法であり、特に比較評価方式で適用された場合、人間の判断に合致する。 しかし、一組の候補をランク付けするためにペアワイズ比較を使用する場合、計算コストは候補数と2次的にスケールし、実際的な制限がある。 本稿では,LLM比較評価の効率化を目的としたProduct of Expert (PoE)フレームワークを提案する。 ここでは、ペアのスコア差に関する情報を提供する専門家を個別に比較する。 PoEフレームワークは、これらの専門家からの情報を組み合わせて、基礎となる候補の集合に対して最大化できる表現を与え、あらゆる種類の専門家を仮定できる高度に柔軟である。 ガウスの専門家が用いられるとき、最適な候補ランク付けのための単純な閉形式解を導出し、このランク付けの確率を最大化するためにどの比較を行うべきかを選択する式を導出することができる。 提案手法は,比較対象のごく一部だけを用いて,評価結果と人間の判断を関連づけたスコア予測を,全ての比較結果を用いた場合の予測として生成する,効率的な比較評価を可能にする。 我々は複数のNLGタスクに対するアプローチを評価し、我々のフレームワークがペアワイズ比較評価を行う際にかなりの計算的節約が得られることを示した。 N が大きければ、比較の 2% に満たないので、PoE ソリューションは全ての比較が使用されるのと同じような性能が得られる。

LLM-as-a-judge approaches are a practical and effective way of assessing a range of text tasks, aligning with human judgements especially when applied in a comparative assessment fashion. However, when using pairwise comparisons to rank a set of candidates the computational costs scale quadratically with the number of candidates, which can have practical limitations. This paper introduces a Product of Expert (PoE) framework for efficient LLM Comparative Assessment. Here individual comparisons are considered experts that provide information on a pair's score difference. The PoE framework combines the information from these experts to yield an expression that can be maximized with respect to the underlying set of candidates, and is highly flexible where any form of expert can be assumed. When Gaussian experts are used one can derive simple closed-form solutions for the optimal candidate ranking, as well as expressions for selecting which comparisons should be made to maximize the probability of this ranking. Our approach enables efficient comparative assessment, where by using only a small subset of the possible comparisons, one can generate score predictions that correlate as well to human judgements as the predictions when all comparisons are used. We evaluate the approach on multiple NLG tasks and demonstrate that our framework can yield considerable computational savings when performing pairwise comparative assessment. When N is large, with as few as 2% of comparisons the PoE solution can achieve similar performance to when all comparisons are used.
翻訳日:2024-05-10 12:43:04 公開日:2024-05-09
# マスケ顔の包括的調査--認識・検出・アンマッシング

A Comprehensive Survey of Masked Faces: Recognition, Detection, and Unmasking ( http://arxiv.org/abs/2405.05900v1 )

ライセンス: Link先を確認
Mohamed Mahmoud, Mahmoud SalahEldin Kasem, Hyun-Soo Kang, (参考訳) マスク付き顔認証(MFR)は生体認証において重要な領域として現れており、特に世界的な新型コロナウイルス(COVID-19)パンデミックによって広く顔マスクが導入されている。 本研究は,新しい社会規範に適応する必要性から革新的な変化が見られたマスク付き顔の個人を認識し,検出する上での課題と進歩を包括的に分析した。 深層学習技術により、MFRとFace Mask Recognition(FMR)とFace Unmasking(FU)は重要な焦点となっている。 これらの方法は、完全に覆われた顔から部分的に覆われた顔まで、不明瞭な顔の特徴によって引き起こされる固有の課題に対処する。 我々は、MFR、FMR、FU向けに開発された様々なディープラーニングベースの方法論を総合的に検討し、それらに固有の課題と克服するための解決策を強調した。 さらに、MFR研究における性能評価に適したベンチマークデータセットと評価指標についても検討する。 この調査はまた、この分野の研究者が直面している実質的な障害についても論じ、より堅牢で効果的な顔認証システムの開発に向けた今後の方向性を提案する。 本論文は研究者や実践者にとって貴重な資料であり,グローバルな健康危機に直面した顔認識技術の進化の展望を提供する。

Masked face recognition (MFR) has emerged as a critical domain in biometric identification, especially by the global COVID-19 pandemic, which introduced widespread face masks. This survey paper presents a comprehensive analysis of the challenges and advancements in recognising and detecting individuals with masked faces, which has seen innovative shifts due to the necessity of adapting to new societal norms. Advanced through deep learning techniques, MFR, along with Face Mask Recognition (FMR) and Face Unmasking (FU), represent significant areas of focus. These methods address unique challenges posed by obscured facial features, from fully to partially covered faces. Our comprehensive review delves into the various deep learning-based methodologies developed for MFR, FMR, and FU, highlighting their distinctive challenges and the solutions proposed to overcome them. Additionally, we explore benchmark datasets and evaluation metrics specifically tailored for assessing performance in MFR research. The survey also discusses the substantial obstacles still facing researchers in this field and proposes future directions for the ongoing development of more robust and effective masked face recognition systems. This paper serves as an invaluable resource for researchers and practitioners, offering insights into the evolving landscape of face recognition technologies in the face of global health crises and beyond.
翻訳日:2024-05-10 12:43:04 公開日:2024-05-09
# ファインチューニング LLM は新たな知識の覚醒に有効か?

Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? ( http://arxiv.org/abs/2405.05904v1 )

ライセンス: Link先を確認
Zorik Gekhman, Gal Yona, Roee Aharoni, Matan Eyal, Amir Feder, Roi Reichart, Jonathan Herzig, (参考訳) 大規模言語モデルが教師付き微調整によって整列されると、事前学習によって取得されなかった新しい事実情報に遭遇する可能性がある。 これは、モデルが既存の知識に根ざしていない事実を生成するために訓練されているため、事実的に誤った反応を幻覚させることの挙動をモデルに教えることができるとしばしば推測される。 本研究では,そのような知識への露出が,既存の知識を活用するための微調整モデルの能力に与える影響について検討する。 この目的のために、我々は、クローズドブックのQAに焦点を当てた制御されたセットアップを設計し、そこでは、新しい知識を導入する微調整例の比率を変化させる。 大規模言語モデルでは,新たな知識を導入する微調整例が,モデルの知識と整合性のあるものよりもはるかに遅いことから,ファインタニングによる新たな事実知識の獲得に苦慮していることを示す。 しかし、新しい知識の例が最終的に学習されるにつれて、モデルが幻覚化する傾向がリニアに増加することも判明した。 この結果から, ファインチューニングによる新たな事実知識の導入リスクを強調し, 大規模言語モデルが事前学習による事実知識の獲得を主眼としているのに対し, ファインチューニングは, より効率的に活用することを彼らに教えている。

When large language models are aligned via supervised fine-tuning, they may encounter new factual information that was not acquired through pre-training. It is often conjectured that this can teach the model the behavior of hallucinating factually incorrect responses, as the model is trained to generate facts that are not grounded in its pre-existing knowledge. In this work, we study the impact of such exposure to new knowledge on the capability of the fine-tuned model to utilize its pre-existing knowledge. To this end, we design a controlled setup, focused on closed-book QA, where we vary the proportion of the fine-tuning examples that introduce new knowledge. We demonstrate that large language models struggle to acquire new factual knowledge through fine-tuning, as fine-tuning examples that introduce new knowledge are learned significantly slower than those consistent with the model's knowledge. However, we also find that as the examples with new knowledge are eventually learned, they linearly increase the model's tendency to hallucinate. Taken together, our results highlight the risk in introducing new factual knowledge through fine-tuning, and support the view that large language models mostly acquire factual knowledge through pre-training, whereas fine-tuning teaches them to use it more efficiently.
翻訳日:2024-05-10 12:43:04 公開日:2024-05-09
# LLMの真正集約とオンライン広告への応用

Truthful Aggregation of LLMs with an Application to Online Advertising ( http://arxiv.org/abs/2405.05905v1 )

ライセンス: Link先を確認
Ermis Soumalias, Michael J. Curry, Sven Seuken, (参考訳) LLM 生成したユーザクエリに対する応答に対して,複数のエージェントの嗜好を集約する上で,エージェントが好みを変更したり誇張したりするという課題に対処する。 新しいエージェントは、新しいクエリにそれぞれ参加し、これらの好みに関する微調整 LLM を実用的でないものにすることができる。 これらの課題を克服するために,モデルウェイトを微調整したりアクセスしたりすることなく機能するオークション機構を提案する。 この機構は、計算資源が増加するにつれて最適に微調整されたLLMの出力に確実に収束するように設計されている。 このメカニズムは、測定可能なエージェントに関するコンテキスト情報も組み込むことができ、その収束を著しく加速する。 十分に設計された支払い規則は、誠実な報告が全てのエージェントにとって最適な戦略であることを保証し、また、各エージェントの効用と社会福祉への貢献を整合させることによって、そのメカニズムの長期的な生存性にとって不可欠な特徴である株式資産を促進する。 私たちのアプローチは、金融取引が許容されるたびに適用できますが、主要なアプリケーションはオンライン広告です。 この文脈では、広告主はLSMが生成した反応をブランドの利益に向け、プラットフォームは広告主の価値を最大化し、ユーザー満足度を確保することを目的としている。 実験結果から, 最適微調整LDMに効率よく収束するだけでなく, 広告主の価値やプラットフォーム収益も著しく向上し, 計算オーバーヘッドも最小限に抑えられることがわかった。

We address the challenge of aggregating the preferences of multiple agents over LLM-generated replies to user queries, where agents might modify or exaggerate their preferences. New agents may participate for each new query, making fine-tuning LLMs on these preferences impractical. To overcome these challenges, we propose an auction mechanism that operates without fine-tuning or access to model weights. This mechanism is designed to provably converge to the ouput of the optimally fine-tuned LLM as computational resources are increased. The mechanism can also incorporate contextual information about the agents when avaiable, which significantly accelerates its convergence. A well-designed payment rule ensures that truthful reporting is the optimal strategy for all agents, while also promoting an equity property by aligning each agent's utility with her contribution to social welfare - an essential feature for the mechanism's long-term viability. While our approach can be applied whenever monetary transactions are permissible, our flagship application is in online advertising. In this context, advertisers try to steer LLM-generated responses towards their brand interests, while the platform aims to maximize advertiser value and ensure user satisfaction. Experimental results confirm that our mechanism not only converges efficiently to the optimally fine-tuned LLM but also significantly boosts advertiser value and platform revenue, all with minimal computational overhead.
翻訳日:2024-05-10 12:43:04 公開日:2024-05-09
# マルウェア画像分類のための深層マルチタスク学習

Deep Multi-Task Learning for Malware Image Classification ( http://arxiv.org/abs/2405.05906v1 )

ライセンス: Link先を確認
Ahmed Bensaoud, Jugal Kalita, (参考訳) 悪質なソフトウェアは悪質な世界的な問題だ。 本稿では,高精度かつ高速なマルウェア検出のためのマルウェア画像分類のための新しいマルチタスク学習フレームワークを提案する。 我々は、マルウェアの特徴からビットマップ(BMP)とPNG(PNG)画像を生成し、ディープラーニング分類器にフィードする。 我々の最先端のマルチタスク学習アプローチは、およそ10万の良質で悪意のあるPE、APK、Mach-o、ELFのサンプルを収集した新しいデータセットでテストされています。 4つのアクティベーション関数でテストされた7つのタスク、ReLU、LeakyReLU、PRELU、ELUの実験では、PRELUが全てのタスクに対して99.87%以上の高い精度を与えることを示した。 本モデルでは,パッキング,暗号化,命令オーバーラップなどの難読化手法を効果的に検出し,精度の面で最先端の手法を実現することに加えて,本モデルの有益なクレームを強くする。

Malicious software is a pernicious global problem. A novel multi-task learning framework is proposed in this paper for malware image classification for accurate and fast malware detection. We generate bitmap (BMP) and (PNG) images from malware features, which we feed to a deep learning classifier. Our state-of-the-art multi-task learning approach has been tested on a new dataset, for which we have collected approximately 100,000 benign and malicious PE, APK, Mach-o, and ELF examples. Experiments with seven tasks tested with 4 activation functions, ReLU, LeakyReLU, PReLU, and ELU separately demonstrate that PReLU gives the highest accuracy of more than 99.87% on all tasks. Our model can effectively detect a variety of obfuscation methods like packing, encryption, and instruction overlapping, strengthing the beneficial claims of our model, in addition to achieving the state-of-art methods in terms of accuracy.
翻訳日:2024-05-10 12:43:04 公開日:2024-05-09
# Diag2Diag: 物理発見のためのマルチモーダル超解像と融合への応用

Diag2Diag: Multi modal super resolution for physics discovery with application to fusion ( http://arxiv.org/abs/2405.05908v1 )

ライセンス: Link先を確認
Azarakhsh Jalalvand, Max Curie, SangKyeun Kim, Peter Steiner, Jaemin Seo, Qiming Hu, Andrew Oakleigh Nelson, Egemen Kolemen, (参考訳) 本稿では, システム内における診断間相関を革新的に活用する, 解像度向上のために設計された, 画期的なマルチモーダルニューラルネットワークモデルを提案する。 従来のアプローチは主にピクセルベースの画像強調やヒューリスティック信号補間のような一様拡張戦略に重点を置いてきた。 対照的に,本モデルは核融合プラズマの物理における診断関係を利用した新しい手法を用いている。 まず,トカマク内における診断の相関性について検討した。 次に,これらの相関を利用して,プラズマ密度と温度を評価するトムソン散乱診断の時間分解能を大幅に向上させる。 従来の200Hzから500kHzへの分解能を高めることで、従来は計算集約的なシミュレーションでしか達成できなかったプラズマの挙動に関する新たなレベルの洞察を促進することができる。 この拡張は単純な補間を超越し、プラズマ力学を司る基礎となる物理現象に関する新しい視点を提供する。

This paper introduces a groundbreaking multi-modal neural network model designed for resolution enhancement, which innovatively leverages inter-diagnostic correlations within a system. Traditional approaches have primarily focused on uni-modal enhancement strategies, such as pixel-based image enhancement or heuristic signal interpolation. In contrast, our model employs a novel methodology by harnessing the diagnostic relationships within the physics of fusion plasma. Initially, we establish the correlation among diagnostics within the tokamak. Subsequently, we utilize these correlations to substantially enhance the temporal resolution of the Thomson Scattering diagnostic, which assesses plasma density and temperature. By increasing its resolution from conventional 200Hz to 500kHz, we facilitate a new level of insight into plasma behavior, previously attainable only through computationally intensive simulations. This enhancement goes beyond simple interpolation, offering novel perspectives on the underlying physical phenomena governing plasma dynamics.
翻訳日:2024-05-10 12:43:04 公開日:2024-05-09
# 一般化されたレニイエントロピー累積定理と一般化された量子確率推定

Generalized Rényi entropy accumulation theorem and generalized quantum probability estimation ( http://arxiv.org/abs/2405.05912v1 )

ライセンス: Link先を確認
Amir Arqand, Thomas A. Hahn, Ernest Y. -Z. Tan, (参考訳) エントロピー累積定理とそのその後の一般化版は、多くのデバイス依存およびデバイス非依存暗号プロトコルのセキュリティ解析において強力なツールである。 しかし、それが得られる有限サイズ境界が必ずしも最適であるとは限らないという欠点があり、さらに実際は最適に構築することが難しいアフィンミントレーデフ関数の構成に依存している。 本研究では,新しいエントロピー蓄積バウンドを導出することにより,これらの課題を同時に解決する。 我々の境界は有限サイズ性能を著しく向上させ、アフィンミントレーデオフ関数の仕様を使わずに直観的に解釈可能な凸最適化として計算できる。 さらに、必要に応じてR'enyiエントロピーのレベルに直接適用することができ、完全なR'enyiセキュリティ証明が得られる。 提案手法は, エントロピー蓄積と量子確率推定の枠組み, あるいは$f$-weighted R\'enyi entropiesの関連性に基づくものである。

The entropy accumulation theorem, and its subsequent generalized version, is a powerful tool in the security analysis of many device-dependent and device-independent cryptography protocols. However, it has the drawback that the finite-size bounds it yields are not necessarily optimal, and furthermore it relies on the construction of an affine min-tradeoff function, which can often be challenging to construct optimally in practice. In this work, we address both of these challenges simultaneously by deriving a new entropy accumulation bound. Our bound yields significantly better finite-size performance, and can be computed as an intuitively interpretable convex optimization, without any specification of affine min-tradeoff functions. Furthermore, it can be applied directly at the level of R\'enyi entropies if desired, yielding fully-R\'enyi security proofs. Our proof techniques are based on elaborating on a connection between entropy accumulation and the frameworks of quantum probability estimation or $f$-weighted R\'enyi entropies, and in the process we obtain some new results with respect to those frameworks as well.
翻訳日:2024-05-10 12:43:04 公開日:2024-05-09
# FuXi-ENS:中距離アンサンブル天気予報のための機械学習モデル

FuXi-ENS: A machine learning model for medium-range ensemble weather forecasting ( http://arxiv.org/abs/2405.05925v1 )

ライセンス: Link先を確認
Xiaohui Zhong, Lei Chen, Hao Li, Jie Feng, Bo Lu, (参考訳) 天気予報は、気象予報や極端な気象事象の影響緩和に不可欠である。 従来の数値気象予測(NWP)モデルに基づくアンサンブル予測システム(EPS)の構築は,計算コストが高い。 機械学習(ML)モデルは、決定論的天気予報のための貴重なツールとして登場し、計算要求を大幅に減らし、従来のNWPモデルの予測性能を超えた予測を提供する。 しかし、予測のアンサンブルにMLモデルを適用する場合、課題が発生する。 GenCastやSEEDSモデルといった最近のMLモデルは、予測生成のためにEDA(ERA5 Ensemble of Data Assimilations)または2つの運用NWPアンサンブルメンバーに依存している。 これらのモデルにおける 1{\deg} あるいは 2{\deg} の空間分解能は、多くの応用において非常に粗いと考えられることが多い。 これらの制限を克服するため、Fuxi-ENSは6時間ごとのグローバルアンサンブル天気予報を最大15日間提供するように設計された高度なMLモデルである。 このモデルでは空間分解能が 0.25{\deg} に大幅に改善され、13の圧力レベルに5つの上層大気変数と13の表面変数が組み込まれている。 変分オートエンコーダ(VAE)の固有確率特性を活用することにより,Fuxi-ENSは予測分布と目標分布とのKL分散と連続的なランク付け確率スコア(CRPS)を組み合わせた損失関数を最適化する。 この革新的なアプローチは、風速予報のためのVAEにおいて、従来のL1損失と標準VAEモデルでのKL損失とを合わせたL1損失の進歩を表している。 The European Centre for Medium-Range Weather Forecasts (ECMWF)は,世界トップのNWPモデルであるFuXi-ENSが,360変数の98.1%とCRPSのリードタイムの組み合わせで,アンサンブル予測を上回っていることを示す。

Ensemble weather forecasting is essential for weather predictions and mitigating the impacts of extreme weather events. Constructing an ensemble prediction system (EPS) based on conventional numerical weather prediction (NWP) models is highly computationally expensive. Machine learning (ML) models have emerged as valuable tools for deterministic weather forecasts, providing forecasts with significantly reduced computational requirements and even surpassing the forecast performance of traditional NWP models. However, challenges arise when applying ML models to ensemble forecasting. Recent ML models, such as GenCast and SEEDS model, rely on the ERA5 Ensemble of Data Assimilations (EDA) or two operational NWP ensemble members for forecast generation. The spatial resolution of 1{\deg} or 2{\deg} in these models is often considered too coarse for many applications. To overcome these limitations, we introduce FuXi-ENS, an advanced ML model designed to deliver 6-hourly global ensemble weather forecasts up to 15 days. This model runs at a significantly improved spatial resolution of 0.25{\deg}, incorporating 5 upper-air atmospheric variables at 13 pressure levels, along with 13 surface variables. By leveraging the inherent probabilistic nature of Variational AutoEncoder (VAE), FuXi-ENS optimizes a loss function that combines the continuous ranked probability score (CRPS) and the KL divergence between the predicted and target distribution. This innovative approach represents an advancement over the traditional use of L1 loss combined with the KL loss in standard VAE models when VAE for ensemble weather forecasts. Evaluation results demonstrate that FuXi-ENS outperforms ensemble forecasts from the European Centre for Medium-Range Weather Forecasts (ECMWF), a world leading NWP model, on 98.1% of 360 variable and forecast lead time combinations on CRPS.
翻訳日:2024-05-10 12:43:04 公開日:2024-05-09
# インテリジェント6Gネットワークにおける信頼できるAI生成コンテンツ: 敵、プライバシ、公正性

Trustworthy AI-Generative Content in Intelligent 6G Network: Adversarial, Privacy, and Fairness ( http://arxiv.org/abs/2405.05930v1 )

ライセンス: Link先を確認
Siyuan Li, Xi Lin, Yaju Liu, Jianhua Li, (参考訳) AI生成コンテンツ(AIGC)モデルは、大言語モデル(LLM)によって表現され、コンテンツ生成分野に革命的な変化をもたらした。 高速で広範な6G技術は、強力なAIGCモバイルサービスアプリケーションを提供するための理想的なプラットフォームであり、将来の6Gモバイルネットワークは、インテリジェントでパーソナライズされたモバイル生成サービスをサポートする必要がある。 しかし、現在のAIGCモデルの重大な倫理的およびセキュリティ上の問題、例えば敵攻撃、プライバシー、公正性は、特に安全でプライベートで公正なAIGCアプリケーションを保証する上で、6Gインテリジェントネットワークの信頼性に大きな影響を及ぼす。 本稿では,今後6Gネットワークにおける信頼性の高いAIGCサービスを実現するための,信頼性の高いAIGCのための新しいパラダイムであるTrustGAINを提案する。 まず,6GネットワークにおけるAIGCシステムによる敵攻撃とプライバシの脅威,およびそれに対応する保護問題について議論する。 その後、我々は、未来のインテリジェントネットワークにおけるモバイル生成サービスの不偏性と公平性を保証することの重要性を強調した。 特に、TrustGAINが悪意あるまたは生成された偽情報に対する抵抗を効果的に導くことができることを示すユースケースを実行する。 TrustGAINは、AIGCサービスをサポートし、AIGCネットワークサービスのセキュリティ、プライバシ、公正性を保証するために、インテリジェントで信頼できる6Gネットワークに必要なパラダイムであると考えています。

AI-generated content (AIGC) models, represented by large language models (LLM), have brought revolutionary changes to the content generation fields. The high-speed and extensive 6G technology is an ideal platform for providing powerful AIGC mobile service applications, while future 6G mobile networks also need to support intelligent and personalized mobile generation services. However, the significant ethical and security issues of current AIGC models, such as adversarial attacks, privacy, and fairness, greatly affect the credibility of 6G intelligent networks, especially in ensuring secure, private, and fair AIGC applications. In this paper, we propose TrustGAIN, a novel paradigm for trustworthy AIGC in 6G networks, to ensure trustworthy large-scale AIGC services in future 6G networks. We first discuss the adversarial attacks and privacy threats faced by AIGC systems in 6G networks, as well as the corresponding protection issues. Subsequently, we emphasize the importance of ensuring the unbiasedness and fairness of the mobile generative service in future intelligent networks. In particular, we conduct a use case to demonstrate that TrustGAIN can effectively guide the resistance against malicious or generated false information. We believe that TrustGAIN is a necessary paradigm for intelligent and trustworthy 6G networks to support AIGC services, ensuring the security, privacy, and fairness of AIGC network services.
翻訳日:2024-05-10 12:43:04 公開日:2024-05-09
# データ強化ラスト層リトラクション法の理論的保証

Theoretical Guarantees of Data Augmented Last Layer Retraining Methods ( http://arxiv.org/abs/2405.05934v1 )

ライセンス: Link先を確認
Monica Welfert, Nathan Stromberg, Lalitha Sankar, (参考訳) トレーニングデータにおいて、多くの異なるサブ集団にわたる公正な予測を保証することは、大きなモデルでは禁止される。 近年, 重み付け, ダウンサンプリング, ミックスアップなどのデータ拡張手法と組み合わせた単純な線形最終層再学習手法が, 最短群群における精度の定量化に有効であることが示されている。 線形最終層再トレーニングと上記の拡張に対しては,各サブポピュレーションに対して,潜在表現(最後の層への入力)の分布をガウス的としてモデル化する場合に,最適最悪のグループ精度を示す。 我々は、合成データセットと大規模公開データセットの両方について、その結果を評価し、検証する。

Ensuring fair predictions across many distinct subpopulations in the training data can be prohibitive for large models. Recently, simple linear last layer retraining strategies, in combination with data augmentation methods such as upweighting, downsampling and mixup, have been shown to achieve state-of-the-art performance for worst-group accuracy, which quantifies accuracy for the least prevalent subpopulation. For linear last layer retraining and the abovementioned augmentations, we present the optimal worst-group accuracy when modeling the distribution of the latent representations (input to the last layer) as Gaussian for each subpopulation. We evaluate and verify our results for both synthetic and large publicly available datasets.
翻訳日:2024-05-10 12:43:04 公開日:2024-05-09
# Federated Combinatorial Multi-Agent Multi-Armed Bandits

Federated Combinatorial Multi-Agent Multi-Armed Bandits ( http://arxiv.org/abs/2405.05950v1 )

ライセンス: Link先を確認
Fares Fourati, Mohamed-Slim Alouini, Vaneet Aggarwal, (参考訳) 本稿では,包括的フィードバックを伴うオンライン組合せ最適化に適したフェデレーション学習フレームワークを提案する。 この設定では、エージェントはアームのサブセットを選択し、個々のアーム情報にアクセスせずにこれらのサブセットのノイズの多い報酬を観察し、特定の間隔で協力して情報を共有することができる。 我々のフレームワークは、任意のオフラインレジリエントなシングルエージェント$(\alpha-\epsilon)$-approximationアルゴリズム、複雑さが$\tilde{\mathcal{O}}(\frac{\psi}{\epsilon^\beta})$、ある関数に対して$\psi$と定数$\beta$が省略され、$m$通信エージェントと$\tilde{\mathcal{O}}(m^{-\frac{1}{3+\beta}} \psi^\frac{1}{3+\beta} T^\frac{2+\beta+\beta$)以上の$\alpha$-regretのオンラインマルチエージェントアルゴリズムに変換する。 このアプローチは、$\epsilon$近似誤差を除去するだけでなく、時間的地平線に対するサブ線形成長を保証し、通信エージェントの増加とともに線形スピードアップを示す。 さらに、このアルゴリズムは通信効率が良く、通信ラウンドのサブ線形数だけを必要とし、$\tilde{\mathcal{O}}\left(\psi T^\frac{\beta}{\beta+1}\right)$と定量化される。 さらに、このフレームワークは、様々なオフラインアルゴリズムを用いて、オンライン確率的部分モジュラー最大化に適用され、単一エージェントとマルチエージェントの両方の設定の最初の結果を得るとともに、特殊な単一エージェント理論的保証を回復することに成功した。 我々は,確率的データ要約問題に対する我々のアプローチを実証的に検証し,単一エージェントシナリオにおいても提案手法の有効性を示す。

This paper introduces a federated learning framework tailored for online combinatorial optimization with bandit feedback. In this setting, agents select subsets of arms, observe noisy rewards for these subsets without accessing individual arm information, and can cooperate and share information at specific intervals. Our framework transforms any offline resilient single-agent $(\alpha-\epsilon)$-approximation algorithm, having a complexity of $\tilde{\mathcal{O}}(\frac{\psi}{\epsilon^\beta})$, where the logarithm is omitted, for some function $\psi$ and constant $\beta$, into an online multi-agent algorithm with $m$ communicating agents and an $\alpha$-regret of no more than $\tilde{\mathcal{O}}(m^{-\frac{1}{3+\beta}} \psi^\frac{1}{3+\beta} T^\frac{2+\beta}{3+\beta})$. This approach not only eliminates the $\epsilon$ approximation error but also ensures sublinear growth with respect to the time horizon $T$ and demonstrates a linear speedup with an increasing number of communicating agents. Additionally, the algorithm is notably communication-efficient, requiring only a sublinear number of communication rounds, quantified as $\tilde{\mathcal{O}}\left(\psi T^\frac{\beta}{\beta+1}\right)$. Furthermore, the framework has been successfully applied to online stochastic submodular maximization using various offline algorithms, yielding the first results for both single-agent and multi-agent settings and recovering specialized single-agent theoretical guarantees. We empirically validate our approach to a stochastic data summarization problem, illustrating the effectiveness of the proposed framework, even in single-agent scenarios.
翻訳日:2024-05-10 12:43:04 公開日:2024-05-09
# 自然言語処理と言語学

Natural Language Processing RELIES on Linguistics ( http://arxiv.org/abs/2405.05966v1 )

ライセンス: Link先を確認
Juri Opitz, Shira Wein, Nathan Schneider, (参考訳) 大きな言語モデル(LLM)は、文法や意味的一貫性を捉えるために特別に設計されたモジュールなしで、特定の言語で高度に流動的なテキストを生成することができるようになった。 これはNLPにおける言語学の専門知識の将来にとって何を意味するのか? 我々は,NLPが言語学に依存している,あるいは言語学的思考が新たな方向を照らすことができる,いくつかの側面を強調した。 R$esources, $E$valuation, $L$ow-resource settings, $I$nterpretability, $E$xplanation, and the $S$tudy of language。 このリストは徹底的ではないし、言語学もこれらのテーマの全ての取り組みの参照ポイントではないが、マクロレベルでは、これらのファセットは人間の言語の機械システム vis-a-vis システムを研究することの持続的重要性を強調している。

Large Language Models (LLMs) have become capable of generating highly fluent text in certain languages, without modules specially designed to capture grammar or semantic coherence. What does this mean for the future of linguistic expertise in NLP? We highlight several aspects in which NLP (still) relies on linguistics, or where linguistic thinking can illuminate new directions. We argue our case around the acronym $RELIES$ that encapsulates six major facets where linguistics contributes to NLP: $R$esources, $E$valuation, $L$ow-resource settings, $I$nterpretability, $E$xplanation, and the $S$tudy of language. This list is not exhaustive, nor is linguistics the main point of reference for every effort under these themes; but at a macro level, these facets highlight the enduring importance of studying machine systems vis-a-vis systems of human language.
翻訳日:2024-05-10 12:43:04 公開日:2024-05-09
# 平滑なサロゲート損失による学習の普遍的成長率

A Universal Growth Rate for Learning with Smooth Surrogate Losses ( http://arxiv.org/abs/2405.05968v1 )

ライセンス: Link先を確認
Anqi Mao, Mehryar Mohri, Yutao Zhong, (参考訳) 本稿では,分類に使用される種々の代理損失に対する$H$-consistency bounds(および過剰なエラー境界)の成長速度を包括的に分析する。 本研究では,2進分類におけるスムーズなマージンベースサロゲート損失に対して,0付近の平方根成長速度を証明し,軽度の仮定の下で上界と下界の両方を提供する。 この結果は過大なエラー境界にも変換される。 我々の下限は、過大な誤差境界に対する以前の研究よりも弱い条件を必要としており、上限は完全に新しい。 さらに、この分析を新しい結果を用いてマルチクラス分類に拡張し、スムーズな和和と制約付き損失に対する普遍的な平方根成長率を示し、マルチクラス分類におけるニューラルネットワークのトレーニングの一般的な選択をカバーした。 この普遍率を考えると、我々は異なる代理損失の中から選ぶという問題に目を向ける。 まず、クラス数に基づいて、Surrogate間で$H$-consistencyのバウンダリがどのように異なるかを検討する。 次に、定数を無視し、ゼロに近い振る舞いに焦点を合わせ、最小化可能性ギャップをこれらの境界における重要な微分因子として同定する。 そこで我々は,これらのギャップを網羅的に解析し,サロゲート損失選択の導出を行う。 さらに、過大なエラー境界と$H$-一貫性境界を比較する際に、最小化可能性ギャップの鍵となる役割を示す。

This paper presents a comprehensive analysis of the growth rate of $H$-consistency bounds (and excess error bounds) for various surrogate losses used in classification. We prove a square-root growth rate near zero for smooth margin-based surrogate losses in binary classification, providing both upper and lower bounds under mild assumptions. This result also translates to excess error bounds. Our lower bound requires weaker conditions than those in previous work for excess error bounds, and our upper bound is entirely novel. Moreover, we extend this analysis to multi-class classification with a series of novel results, demonstrating a universal square-root growth rate for smooth comp-sum and constrained losses, covering common choices for training neural networks in multi-class classification. Given this universal rate, we turn to the question of choosing among different surrogate losses. We first examine how $H$-consistency bounds vary across surrogates based on the number of classes. Next, ignoring constants and focusing on behavior near zero, we identify minimizability gaps as the key differentiating factor in these bounds. Thus, we thoroughly analyze these gaps, to guide surrogate loss selection, covering: comparisons across different comp-sum losses, conditions where gaps become zero, and general conditions leading to small gaps. Additionally, we demonstrate the key role of minimizability gaps in comparing excess error bounds and $H$-consistency bounds.
翻訳日:2024-05-10 12:43:04 公開日:2024-05-09
# DOLOMITES:ドメイン特有なロングフォームなメソジカルタスク

DOLOMITES: Domain-Specific Long-Form Methodical Tasks ( http://arxiv.org/abs/2405.05938v1 )

ライセンス: Link先を確認
Chaitanya Malaviya, Priyanka Agrawal, Kuzman Ganchev, Pranesh Srinivasan, Fantine Huot, Jonathan Berant, Mark Yatskar, Dipanjan Das, Mirella Lapata, Chris Alberti, (参考訳) さまざまな分野の専門家は、計画、組織化、報告を行うための方法論的な記述タスクを日常的に実行します。 患者に対する鑑別診断を書く臨床医から、学生のための授業計画を書く教師まで、これらのタスクは広く行き渡っており、与えられた入力に対して構造化された長期出力を体系的に生成する必要がある。 本研究では,タスク目標,手順,入力,出力の形式で構成された方法論的タスクのタイプを考案し,25分野から数百人の専門家から得られた519のタスクを仕様化した新しいベンチマークであるDoLoMiTesを紹介する。 さらに,本ベンチマークでは,各タスクのモデル生成例を10点まで抽出し,具体的な入力例と出力例(1,857件)を具体化する。 これらの例を用いて、与えられたコンテキストとドメイン知識を描画しながら複雑な推論を行う必要があるため、方法論的タスクの自動化が困難な長文生成問題であることを強調した現代言語モデルを評価する。

Experts in various fields routinely perform methodical writing tasks to plan, organize, and report their work. From a clinician writing a differential diagnosis for a patient, to a teacher writing a lesson plan for students, these tasks are pervasive, requiring to methodically generate structured long-form output for a given input. We develop a typology of methodical tasks structured in the form of a task objective, procedure, input, and output, and introduce DoLoMiTes, a novel benchmark with specifications for 519 such tasks elicited from hundreds of experts from across 25 fields. Our benchmark further contains specific instantiations of methodical tasks with concrete input and output examples (1,857 in total) which we obtain by collecting expert revisions of up to 10 model-generated examples of each task. We use these examples to evaluate contemporary language models highlighting that automating methodical tasks is a challenging long-form generation problem, as it requires performing complex inferences, while drawing upon the given context as well as domain knowledge.
翻訳日:2024-05-10 12:33:18 公開日:2024-05-09
# シミュレーションによる実世界のロボットマニピュレーションポリシーの評価

Evaluating Real-World Robot Manipulation Policies in Simulation ( http://arxiv.org/abs/2405.05941v1 )

ライセンス: Link先を確認
Xuanlin Li, Kyle Hsu, Jiayuan Gu, Karl Pertsch, Oier Mees, Homer Rich Walke, Chuyuan Fu, Ishikaa Lunawat, Isabel Sieh, Sean Kirmani, Sergey Levine, Jiajun Wu, Chelsea Finn, Hao Su, Quan Vuong, Ted Xiao, (参考訳) ロボット工学の分野は、ジェネラリストロボット操作ポリシーに大きく進歩した。 しかし、そのような政策の現実的な評価はスケーラブルではなく、再現性の問題に直面しており、政策が実行可能なタスクの範囲を広げるにつれて、さらに悪化する可能性が高い。 実環境と模擬環境の制御と視覚的格差を,信頼性の高いシミュレーション評価の鍵となる課題として認識し,実環境の完全忠実なデジタル双対を構築することなく,これらのギャップを緩和するためのアプローチを提案する。 次に,これらの手法を用いてSIMPLERを作成した。これは,一般的な実ロボット設定に対するポリシー評価を行うためのシミュレーション環境の集合である。 操作ポリシーのシミュレートと実効性評価のペアを通じて,SIMPLER環境と実世界でのポリシー性能に強い相関関係を示す。 さらに、SIMPLER評価は、様々な分散シフトに対する感度などの実世界の政策行動モードを正確に反映していることが判明した。 我々はすべてのSIMPLER環境をオープンソースとして公開し、https://simpler-env.github.ioで新しい環境を作成するワークフローを公開しました。

The field of robotics has made significant advances towards generalist robot manipulation policies. However, real-world evaluation of such policies is not scalable and faces reproducibility challenges, which are likely to worsen as policies broaden the spectrum of tasks they can perform. We identify control and visual disparities between real and simulated environments as key challenges for reliable simulated evaluation and propose approaches for mitigating these gaps without needing to craft full-fidelity digital twins of real-world environments. We then employ these approaches to create SIMPLER, a collection of simulated environments for manipulation policy evaluation on common real robot setups. Through paired sim-and-real evaluations of manipulation policies, we demonstrate strong correlation between policy performance in SIMPLER environments and in the real world. Additionally, we find that SIMPLER evaluations accurately reflect real-world policy behavior modes such as sensitivity to various distribution shifts. We open-source all SIMPLER environments along with our workflow for creating new environments at https://simpler-env.github.io to facilitate research on general-purpose manipulation policies and simulated evaluation frameworks.
翻訳日:2024-05-10 12:33:18 公開日:2024-05-09
# MRI-Segmentator-Abdomen : T1強調腹部MRIのための完全自動多臓器・構造分割ツール

MRISegmentator-Abdomen: A Fully Automated Multi-Organ and Structure Segmentation Tool for T1-weighted Abdominal MRI ( http://arxiv.org/abs/2405.05944v1 )

ライセンス: Link先を確認
Yan Zhuang, Tejas Sudharshan Mathai, Pritam Mukherjee, Brandon Khoury, Boah Kim, Benjamin Hou, Nusrat Rabbee, Ronald M. Summers, (参考訳) 背景: 腹部MRIにおける臓器・構造物の分別は, 疾患診断や放射線治療など多くの臨床応用に有用である。 現在のアプローチでは、限られた腹部構造(13種類)を規定することに重点を置いている。 これまでに、複数の臓器や構造のボクセルレベルのアノテーションを備えた腹部MRIデータセットは公開されていない。 したがって、多構造セグメンテーションのためのセグメンテーションツールも利用できない。 方法: 国立衛生研究所(NIH)クリニカルセンターにて画像診断を行った195例からなるT1強調腹部MRIデータセットを施行した。 このデータセットは、各患者に対して軸方向のコントラストT1、動脈、静脈、遅延相からなるので、合計780シリーズ(69,2482Dスライス)となる。 各シリーズは、62の腹部臓器と構造のボクセルレベルのアノテーションを含んでいる。 MRISegmentator-Abdomen(略してMRISegmentator-Abdomen)と呼ばれる3D nnUNetモデルをこのデータセットでトレーニングし、内部テストセットと2つの大きな外部データセット(AMOS22とDuke Liver)で評価を行った。 Dice similarity Coefficient (DSC) と正規化表面距離 (NSD) を用いて, 地下構造と比較した。 MRISegmentator は内部テストセットで 0.861$\pm$0.170 の DSC と 0.924$\pm$0.163 の NSD を達成した。 AMOS22データセットでは、MRISegmentatorの平均DSCは0.829$\pm$0.133、NSDは0.908$\pm$0.067に達した。 デューク・リバのデータセットでは、平均DSCが0.933$\pm$0.015、NSDが0.929$\pm$0.021であった。 解釈:提案したMRISegmentatorは,T1強調腹部MRIにおける62の臓器と構造の自動的,正確な,堅牢なセグメンテーションを提供する。 このツールは、異常検出、放射線治療、疾患の分類など、様々な臨床分野の研究を加速する可能性がある。

Background: Segmentation of organs and structures in abdominal MRI is useful for many clinical applications, such as disease diagnosis and radiotherapy. Current approaches have focused on delineating a limited set of abdominal structures (13 types). To date, there is no publicly available abdominal MRI dataset with voxel-level annotations of multiple organs and structures. Consequently, a segmentation tool for multi-structure segmentation is also unavailable. Methods: We curated a T1-weighted abdominal MRI dataset consisting of 195 patients who underwent imaging at National Institutes of Health (NIH) Clinical Center. The dataset comprises of axial pre-contrast T1, arterial, venous, and delayed phases for each patient, thereby amounting to a total of 780 series (69,248 2D slices). Each series contains voxel-level annotations of 62 abdominal organs and structures. A 3D nnUNet model, dubbed as MRISegmentator-Abdomen (MRISegmentator in short), was trained on this dataset, and evaluation was conducted on an internal test set and two large external datasets: AMOS22 and Duke Liver. The predicted segmentations were compared against the ground-truth using the Dice Similarity Coefficient (DSC) and Normalized Surface Distance (NSD). Findings: MRISegmentator achieved an average DSC of 0.861$\pm$0.170 and a NSD of 0.924$\pm$0.163 in the internal test set. On the AMOS22 dataset, MRISegmentator attained an average DSC of 0.829$\pm$0.133 and a NSD of 0.908$\pm$0.067. For the Duke Liver dataset, an average DSC of 0.933$\pm$0.015 and a NSD of 0.929$\pm$0.021 was obtained. Interpretation: The proposed MRISegmentator provides automatic, accurate, and robust segmentations of 62 organs and structures in T1-weighted abdominal MRI sequences. The tool has the potential to accelerate research on various clinical topics, such as abnormality detection, radiotherapy, disease classification among others.
翻訳日:2024-05-10 12:33:18 公開日:2024-05-09
# Lumina-T2X:フローベース大規模拡散変換器によるテキストの任意のモダリティ、解像度、持続時間への変換

Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers ( http://arxiv.org/abs/2405.05945v1 )

ライセンス: Link先を確認
Peng Gao, Le Zhuo, Ziyi Lin, Chris Liu, Junsong Chen, Ruoyi Du, Enze Xie, Xu Luo, Longtian Qiu, Yuhang Zhang, Chen Lin, Rongjie Huang, Shijie Geng, Renrui Zhang, Junlin Xi, Wenqi Shao, Zhengkai Jiang, Tianshuo Yang, Weicai Ye, He Tong, Jingwen He, Yu Qiao, Hongsheng Li, (参考訳) Soraは、任意の解像度、アスペクト比、持続時間でフォトリアリスティックな画像やビデオを生成するためにDiffusion Transformerをスケールする可能性を公開しているが、実装の詳細は十分ではない。 本稿では,フローベースの大規模拡散変換器(Flag-DiT)のシリーズであるLumina-T2Xファミリについて,音声を画像,ビデオ,マルチビュー3Dオブジェクト,音声クリップに変換するための統合フレームワークとして紹介する。 遅延空間空間をトークン化し、[nextline]や[nextframe]トークンのような学習可能なプレースホルダーを組み込むことで、Lumina-T2Xは様々な空間時間分解の異なるモジュラリティの表現をシームレスに統一する。 この統一されたアプローチは、異なるモダリティのための単一のフレームワーク内でのトレーニングを可能にし、推論中に任意の解像度、アスペクト比、長さで柔軟なマルチモーダルデータの生成を可能にする。 RoPE、RMSNorm、フローマッチングといった高度な技術により、Frag-DiTの安定性、柔軟性、スケーラビリティが向上し、Lumina-T2Xのモデルは70億のパラメータをスケールし、コンテキストウィンドウを128Kトークンに拡張できる。 これは、われわれのLumina-T2IモデルとLumina-T2Vモデルによる長い720pビデオで超高精細画像を作成するのに特に有益である。 注目すべきは、Lumina-T2Iは5ビリオンパラメーターのFrag-DiTを搭載しており、600万パラメートルナイーブDiTのトレーニング計算コストの35%しか必要としていないことだ。 我々のより包括的な分析は、Lumina-T2Xの解像度外挿、高解像度の編集、一貫した3Dビューの生成、シームレスな遷移を伴うビデオの合成における予備的能力を示している。 Lumina-T2Xのオープンソース化によって、生成AIコミュニティの創造性、透明性、多様性がさらに向上することを期待しています。

Sora unveils the potential of scaling Diffusion Transformer for generating photorealistic images and videos at arbitrary resolutions, aspect ratios, and durations, yet it still lacks sufficient implementation details. In this technical report, we introduce the Lumina-T2X family - a series of Flow-based Large Diffusion Transformers (Flag-DiT) equipped with zero-initialized attention, as a unified framework designed to transform noise into images, videos, multi-view 3D objects, and audio clips conditioned on text instructions. By tokenizing the latent spatial-temporal space and incorporating learnable placeholders such as [nextline] and [nextframe] tokens, Lumina-T2X seamlessly unifies the representations of different modalities across various spatial-temporal resolutions. This unified approach enables training within a single framework for different modalities and allows for flexible generation of multimodal data at any resolution, aspect ratio, and length during inference. Advanced techniques like RoPE, RMSNorm, and flow matching enhance the stability, flexibility, and scalability of Flag-DiT, enabling models of Lumina-T2X to scale up to 7 billion parameters and extend the context window to 128K tokens. This is particularly beneficial for creating ultra-high-definition images with our Lumina-T2I model and long 720p videos with our Lumina-T2V model. Remarkably, Lumina-T2I, powered by a 5-billion-parameter Flag-DiT, requires only 35% of the training computational costs of a 600-million-parameter naive DiT. Our further comprehensive analysis underscores Lumina-T2X's preliminary capability in resolution extrapolation, high-resolution editing, generating consistent 3D views, and synthesizing videos with seamless transitions. We expect that the open-sourcing of Lumina-T2X will further foster creativity, transparency, and diversity in the generative AI community.
翻訳日:2024-05-10 12:33:18 公開日:2024-05-09
# 測定からの運動:量子計測の対称性の役割

Motion from Measurement: The Role of Symmetry of Quantum Measurements ( http://arxiv.org/abs/2405.05946v1 )

ライセンス: Link先を確認
Luka Antonic, Yariv Kafri, Daniel Podolsky, Ari M. Turner, (参考訳) 量子力学では、測定は動的過程であり、電流を誘導することができる。 ハミルトニアンおよび測定作用素の対称性は、そのような電流が出現する条件を理解するための組織原理を提供する。 中心的な役割は逆転と時間反転の対称性によって演じられる。 発散浴に結合することなく,単回測定および繰り返し測定から生じる異なる挙動を分類する。 逆対称性の破れだけでは測定によって電流を生成するのに十分であるが、測定演算子による時間反転対称性の破れは電流の大きさを劇的に増大させる。 測定速度の依存性を考慮し、電流が単調でないことを確認する。 さらに、非退化測定は、ゼノ極限においても定常状態の電流ループにつながる可能性がある。

In quantum mechanics, measurements are dynamical processes and thus they should be capable of inducing currents. The symmetries of the Hamiltonian and measurement operator provide an organizing principle for understanding the conditions for such currents to emerge. The central role is played by the inversion and time-reversal symmetries. We classify the distinct behaviors that emerge from single and repeated measurements, with and without coupling to a dissipative bath. While the breaking of inversion symmetry alone is sufficient to generate currents through measurements, the breaking of time-reversal symmetry by the measurement operator leads to a dramatic increase in the magnitude of the currents. We consider the dependence on the measurement rate and find that the current is non-monotonic. Furthermore, nondegenerate measurements can lead to current loops within the steady state even in the Zeno limit.
翻訳日:2024-05-10 12:33:18 公開日:2024-05-09
# CuMo: マルチモーダルLLMのスケーリング

CuMo: Scaling Multimodal LLM with Co-Upcycled Mixture-of-Experts ( http://arxiv.org/abs/2405.05949v1 )

ライセンス: Link先を確認
Jiachen Li, Xinyao Wang, Sijie Zhu, Chia-Wen Kuo, Lu Xu, Fan Chen, Jitesh Jain, Humphrey Shi, Longyin Wen, (参考訳) マルチモーダル大規模言語モデル(LLM)の最近の進歩は、主にテキストイメージペアデータの増加と、マルチモーダルタスクの性能向上のためのLLMの改善に焦点を当てている。 しかし、これらのスケーリングアプローチは計算コストが高く、ビジョン側からモデル機能を改善することの重要性を見落としている。 LLMにおけるMixture-of-Experts (MoE) の応用に触発され、より小さなモデルと同様の推論コストを維持しながら、トレーニング中のモデルのスケーラビリティを改善したCuMoを提案する。 CuMo は視覚エンコーダと MLP コネクタの両方に、コップサイクルされたTop-K Sparsely-gated Mixture-of-experts ブロックを組み込み、推論中に最小のアクティベートパラメータでマルチモーダル LLM を強化する。 CuMo はまず MLP ブロックを事前訓練し、その後、視覚的インストラクションチューニングの段階で、事前訓練された MLP ブロックから MoE ブロックの各専門家を初期化する。 補助的損失は専門家のバランスの取れた負荷を保証するために使用される。 CuMoは、さまざまなVQAにわたる最先端のマルチモーダルLLMと、各モデルサイズグループ内のモデルを使用して視覚的インストラクションフォローベンチマークを上回り、オープンソースデータセットのみをトレーニングする。 CuMoのコードとモデルの重み付けはhttps://github.com/SHI-Labs/CuMoでオープンソース化されている。

Recent advancements in Multimodal Large Language Models (LLMs) have focused primarily on scaling by increasing text-image pair data and enhancing LLMs to improve performance on multimodal tasks. However, these scaling approaches are computationally expensive and overlook the significance of improving model capabilities from the vision side. Inspired by the successful applications of Mixture-of-Experts (MoE) in LLMs, which improves model scalability during training while keeping inference costs similar to those of smaller models, we propose CuMo. CuMo incorporates Co-upcycled Top-K sparsely-gated Mixture-of-experts blocks into both the vision encoder and the MLP connector, thereby enhancing the multimodal LLMs with minimal additional activated parameters during inference. CuMo first pre-trains the MLP blocks and then initializes each expert in the MoE block from the pre-trained MLP block during the visual instruction tuning stage. Auxiliary losses are used to ensure a balanced loading of experts. CuMo outperforms state-of-the-art multimodal LLMs across various VQA and visual-instruction-following benchmarks using models within each model size group, all while training exclusively on open-sourced datasets. The code and model weights for CuMo are open-sourced at https://github.com/SHI-Labs/CuMo.
翻訳日:2024-05-10 12:33:18 公開日:2024-05-09
# 連続的ブラウン橋拡散によるフレーム補間

Frame Interpolation with Consecutive Brownian Bridge Diffusion ( http://arxiv.org/abs/2405.05953v1 )

ライセンス: Link先を確認
Zonglin Lyu, Ming Li, Jianbo Jiao, Chen Chen, (参考訳) ビデオフレーム補間(VFI)における最近の研究は、拡散に基づく条件付き画像生成問題としてVFIを定式化しようと試み、ランダムなノイズと隣接するフレームを与えられた中間フレームを合成している。 ビデオの解像度が比較的高いため、LDM(Latent Diffusion Models)が条件生成モデルとして使われ、オートエンコーダは画像をラテント表現に圧縮し、これらのラテント表現からイメージを再構成する。 このような定式化は重要な課題である: VFI は出力が決定論的に基底真理中間フレームに等しいことを期待するが、LCM はモデルが複数回実行されると、ランダムに異なる画像の集合を生成する。 多様な生成の理由は、LDMにおける生成された潜在表現の累積分散(生成の各ステップで蓄積される分散)が大きいからである。 これによりサンプリング軌道はランダムになり、決定論的世代よりも多様になる。 この問題に対処するため,我々は,Branian Bridge Diffusionを用いたフレーム補間法を提案する。 具体的には、決定論的初期値を入力とし、生成した潜在表現の累積分散をはるかに小さくする、連続的なブラウン橋拡散を提案する。 実験の結果,本手法はオートエンコーダの改良とともに改良され,VFIの最先端性能が向上し,さらなる向上の可能性が残っていることが示唆された。

Recent work in Video Frame Interpolation (VFI) tries to formulate VFI as a diffusion-based conditional image generation problem, synthesizing the intermediate frame given a random noise and neighboring frames. Due to the relatively high resolution of videos, Latent Diffusion Models (LDMs) are employed as the conditional generation model, where the autoencoder compresses images into latent representations for diffusion and then reconstructs images from these latent representations. Such a formulation poses a crucial challenge: VFI expects that the output is deterministically equal to the ground truth intermediate frame, but LDMs randomly generate a diverse set of different images when the model runs multiple times. The reason for the diverse generation is that the cumulative variance (variance accumulated at each step of generation) of generated latent representations in LDMs is large. This makes the sampling trajectory random, resulting in diverse rather than deterministic generations. To address this problem, we propose our unique solution: Frame Interpolation with Consecutive Brownian Bridge Diffusion. Specifically, we propose consecutive Brownian Bridge diffusion that takes a deterministic initial value as input, resulting in a much smaller cumulative variance of generated latent representations. Our experiments suggest that our method can improve together with the improvement of the autoencoder and achieve state-of-the-art performance in VFI, leaving strong potential for further enhancement.
翻訳日:2024-05-10 12:33:18 公開日:2024-05-09
# Smurfs: ツールプランニングにコンテキスト効率で複数の熟練エージェントを活用する

Smurfs: Leveraging Multiple Proficiency Agents with Context-Efficiency for Tool Planning ( http://arxiv.org/abs/2405.05955v1 )

ライセンス: Link先を確認
Junzhi Chen, Juhao Liang, Benyou Wang, (参考訳) 大規模言語モデル(LLM)の出現は、人間のパフォーマンスに匹敵する複雑なタスクを自動化するという前例のない可能性を開いた。 それらの能力にもかかわらず、LLMはシングルハンドで多面的問題を扱うのに固有の制限があるため、高いレベルの精度と複雑さを必要とするタスクを完了させるのに依然として困難に直面している。 本稿では,LDMの応用に革命をもたらすために設計された最先端のマルチエージェントフレームワークであるSmurfsを紹介する。 従来のLLMを相乗的なマルチエージェントアンサンブルに変換することで、Smurfsは余分な訓練を必要とせずにタスクの分解と実行を向上させる。 これは、モデル内で異なる役割を割り当てる革新的なプロンプト戦略によって達成され、特殊エージェント間のコラボレーションを促進する。 このフレームワークは複雑なタスクを効率的に解決するための外部ツールへのアクセスを提供する。 Smurfsの複雑なツール利用シナリオにおける優れた能力を示す実験的検討を行った。 特に、Smurfs は ToolBench I2 と I3 のベンチマークで ChatGPT-ReACT を84.4% の勝利率で上回り、GPT-4 の最高性能を73.5% で上回った。 さらに、包括的アブレーション研究を通じて、マルチエージェントフレームワークのコアコンポーネントの全体的な有効性への貢献を識別する。 これは、フレームワークの有効性を検証するだけでなく、将来のマルチエージェントLLMシステムの探索ルートも設定する。

The emergence of large language models (LLMs) has opened up unprecedented possibilities for automating complex tasks that are often comparable to human performance. Despite their capabilities, LLMs still encounter difficulties in completing tasks that require high levels of accuracy and complexity due to their inherent limitations in handling multifaceted problems single-handedly. This paper introduces "Smurfs", a cutting-edge multi-agent framework designed to revolutionize the application of LLMs. By transforming a conventional LLM into a synergistic multi-agent ensemble, Smurfs enhances task decomposition and execution without necessitating extra training. This is achieved through innovative prompting strategies that allocate distinct roles within the model, thereby facilitating collaboration among specialized agents. The framework gives access to external tools to efficiently solve complex tasks. Our empirical investigation, featuring the mistral-7b-instruct model as a case study, showcases Smurfs' superior capability in intricate tool utilization scenarios. Notably, Smurfs outmatches the ChatGPT-ReACT in the ToolBench I2 and I3 benchmark with a remarkable 84.4% win rate, surpassing the highest recorded performance of a GPT-4 model at 73.5%. Furthermore, through comprehensive ablation studies, we dissect the contribution of the core components of the multi-agent framework to its overall efficacy. This not only verifies the effectiveness of the framework, but also sets a route for future exploration of multi-agent LLM systems.
翻訳日:2024-05-10 12:33:18 公開日:2024-05-09
# ドライビングの世界モデルとしてのマルチモーダルLCMの提案

Probing Multimodal LLMs as World Models for Driving ( http://arxiv.org/abs/2405.05956v1 )

ライセンス: Link先を確認
Shiva Sreeram, Tsun-Hsuan Wang, Alaa Maalouf, Guy Rosman, Sertac Karaman, Daniela Rus, (参考訳) 本稿では,自律運転領域におけるマルチモーダル大言語モデル (MLLM) の適用を概観し,クローズドループ制御環境における画像・フレームのシーケンスを通して動的駆動シナリオを推論・解釈する能力に着目し,いくつかの共通前提に挑戦・検証する。 GPT-4VのようなMLLMの大幅な進歩にもかかわらず、複雑な動的駆動環境におけるそれらの性能はほとんど試験されていないままであり、広い範囲の探査を行っている。 我々は、固定車載カメラの観点から、様々なMLLMを世界モデルとして評価するための総合的な実験を行った。 その結果,これらのモデルは個々の画像の解釈に優れる一方で,動的挙動を表現したフレーム間のコヒーレントな物語や論理列の合成に苦慮していることが判明した。 実験は予測にかなりの不正確さを示した 一 基本的な車両動力学(前方/後方、加速/減速、左右旋回) (二)他のロードアクターとの交流(例えば、スピード違反車又は大渋滞の特定) (三)軌道計画、及び (4) モデルトレーニングデータのバイアスを示唆する、オープンセットのダイナミックシーン推論。 この実験的な研究を可能にするために、様々な運転シナリオを生成するために設計された特別シミュレータDriveSimを導入し、運転領域におけるMLLMを評価するためのプラットフォームを提供する。 さらに、運転中のMLLMを評価するために、完全なオープンソースコードと新しいデータセット「Eval-LLM-Drive」をコントリビュートする。 本結果は,現状のMLLMの能力に重要なギャップを生じさせ,現実の動的環境における適用性を改善するための基盤モデルの改善の必要性を浮き彫りにしている。

We provide a sober look at the application of Multimodal Large Language Models (MLLMs) within the domain of autonomous driving and challenge/verify some common assumptions, focusing on their ability to reason and interpret dynamic driving scenarios through sequences of images/frames in a closed-loop control environment. Despite the significant advancements in MLLMs like GPT-4V, their performance in complex, dynamic driving environments remains largely untested and presents a wide area of exploration. We conduct a comprehensive experimental study to evaluate the capability of various MLLMs as world models for driving from the perspective of a fixed in-car camera. Our findings reveal that, while these models proficiently interpret individual images, they struggle significantly with synthesizing coherent narratives or logical sequences across frames depicting dynamic behavior. The experiments demonstrate considerable inaccuracies in predicting (i) basic vehicle dynamics (forward/backward, acceleration/deceleration, turning right or left), (ii) interactions with other road actors (e.g., identifying speeding cars or heavy traffic), (iii) trajectory planning, and (iv) open-set dynamic scene reasoning, suggesting biases in the models' training data. To enable this experimental study we introduce a specialized simulator, DriveSim, designed to generate diverse driving scenarios, providing a platform for evaluating MLLMs in the realms of driving. Additionally, we contribute the full open-source code and a new dataset, "Eval-LLM-Drive", for evaluating MLLMs in driving. Our results highlight a critical gap in the current capabilities of state-of-the-art MLLMs, underscoring the need for enhanced foundation models to improve their applicability in real-world dynamic environments.
翻訳日:2024-05-10 12:33:18 公開日:2024-05-09
# OpenBA-V2: 高速マルチステージプルーニングによる77.3%高圧縮率の達成

OpenBA-V2: Reaching 77.3% High Compression Ratio with Fast Multi-Stage Pruning ( http://arxiv.org/abs/2405.05957v1 )

ライセンス: Link先を確認
Dan Qiao, Yi Su, Pinzheng Wang, Jing Ye, Wenjing Xie, Yuechi Zhou, Yuyang Ding, Zecheng Tang, Jikai Wang, Yixin Ji, Yue Wang, Pei Guo, Zechen Sun, Zikang Zhang, Juntao Li, Pingfu Chao, Wenliang Chen, Guohong Fu, Guodong Zhou, Qiaoming Zhu, Min Zhang, (参考訳) 大規模言語モデル(LLM)は、その強力な能力のために多くの分野で重要な役割を担っているが、その膨大な数のパラメータは、高いデプロイメント要求をもたらし、かなりの推論コストを発生させ、実用的な応用を妨げる。 より小さなモデルをトレーニングすることは、この問題に対処するための効果的な方法です。 そこで,OpenBA-V2は,マルチステージ圧縮から派生した3.4Bモデルであり,最初の15B OpenBAモデルから連続的な事前学習を行う。 OpenBA-V2は、より多くのデータ、より柔軟な訓練目標、レイヤープルーニング、ニューラルプルーニング、ボキャブラリプルーニングといった技術を利用して、パフォーマンス損失を最小限に抑えた77.3\%の圧縮速度を達成する。 OpenBA-V2は、同様のサイズの他のオープンソースモデルと比較して、共通センス推論や名前付きエンティティ認識(NER)といった下流タスクにおいて、15B OpenBAモデルと同等または同等の結果を達成している。 OpenBA-V2は、高度なトレーニング目標とデータ戦略を用いることで、LLMを最小限のパフォーマンス損失で小さなものに圧縮できることを示している。

Large Language Models (LLMs) have played an important role in many fields due to their powerful capabilities.However, their massive number of parameters leads to high deployment requirements and incurs significant inference costs, which impedes their practical applications. Training smaller models is an effective way to address this problem. Therefore, we introduce OpenBA-V2, a 3.4B model derived from multi-stage compression and continual pre-training from the original 15B OpenBA model. OpenBA-V2 utilizes more data, more flexible training objectives, and techniques such as layer pruning, neural pruning, and vocabulary pruning to achieve a compression rate of 77.3\% with minimal performance loss. OpenBA-V2 demonstrates competitive performance compared to other open-source models of similar size, achieving results close to or on par with the 15B OpenBA model in downstream tasks such as common sense reasoning and Named Entity Recognition (NER). OpenBA-V2 illustrates that LLMs can be compressed into smaller ones with minimal performance loss by employing advanced training objectives and data strategies, which may help deploy LLMs in resource-limited scenarios.
翻訳日:2024-05-10 12:33:18 公開日:2024-05-09
# リーブ・ロビンソン境界からの遅いハミルトン力学の安定性

Stability of slow Hamiltonian dynamics from Lieb-Robinson bounds ( http://arxiv.org/abs/2405.05958v1 )

ライセンス: Link先を確認
Daniele Toniolo, Sougato Bose, (参考訳) 緩やかなハミルトン力学を生じる局所スピン系が、時間に依存する局所摂動に対して安定であることを示す。 これらの摂動の総和は、システムの大きさのかなりの量をカバーできる。 スローダイナミクスの安定性は、全ハミルトニアンの力学に対するリーブ・ロビンソン境界が、非摂動力学のリーブ・ロビンソン境界と、非摂動ハミルトニアンに関する摂動のリーブ・ロビンソン境界から来る追加項の2つの寄与の総和であることの証明から導かれる。 我々の結果は、多体局所系の安定性の研究の文脈において特に関係しており、いわゆるエルゴディック領域が系内に存在する場合、ある距離に広がるには、そのような距離の指数関数に比例する時間を要することを示唆している。 この結果の非摂動的性質は,システムの力学を二重に記述することを可能にする。 その結果、エルゴード系における障害領域の存在は、その領域の近傍におけるダイナミクスの減速を意味することが証明できる。

We rigorously show that a local spin system giving rise to a slow Hamiltonian dynamics is stable against generic, even time-dependent, local perturbations. The sum of these perturbations can cover a significant amount of the system's size. The stability of the slow dynamics follows from proving that the Lieb-Robinson bound for the dynamics of the total Hamiltonian is the sum of two contributions: the Lieb-Robinson bound of the unperturbed dynamics and an additional term coming from the Lieb-Robinson bound of the perturbations with respect to the unperturbed Hamiltonian. Our results are particularly relevant in the context of the study of the stability of Many-Body-Localized systems, implying that if a so called ergodic region is present in the system, to spread across a certain distance it takes a time proportional to the exponential of such distance. The non-perturbative nature of our result allows us to develop a dual description of the dynamics of a system. As a consequence we are able to prove that the presence of a region of disorder in a ergodic system implies the slowing down of the dynamics in the vicinity of that region.
翻訳日:2024-05-10 12:33:18 公開日:2024-05-09
# 拡散過程とインプット補間予測マスクによる時系列表現の自己教師付き学習

Self-Supervised Learning of Time Series Representation via Diffusion Process and Imputation-Interpolation-Forecasting Mask ( http://arxiv.org/abs/2405.05959v1 )

ライセンス: Link先を確認
Zineb Senane, Lele Cao, Valentin Leonhard Buchner, Yusuke Tashiro, Lei You, Pawel Herman, Mats Nordahl, Ruibo Tu, Vilhelm von Ehrenheim, (参考訳) 時系列表現学習(TSRL)は、様々な時系列モデリングタスクのための情報表現を生成することに焦点を当てている。 TSRLの従来の自己監視学習(SSL)の手法は、再構成、反対、対照的、予測の4つの主要なカテゴリに分類され、それぞれにノイズに対する感受性と複雑なデータニュアンスに関する共通の課題がある。 近年,拡散法は高度な生成能力を示している。 しかし、それらは主に計算や予測のような特定のアプリケーションシナリオをターゲットにしており、一般的なTSRLに拡散モデルを利用する際のギャップを残している。 我々の研究である Time Series Diffusion Embedding (TSDE) は、このギャップを最初の拡散ベースのSSL TSRLアプローチとして橋渡ししています。 TSDEは、Imputation-Interpolation-Forecasting (IIF)マスクを使用して、TSデータを観察およびマスクされた部分にセグメントする。 両直交トランスフォーマーエンコーダとクロスオーバー機構を備えたトレーニング可能な埋め込み関数を観察部位に適用する。 我々は,マスク部分に追加される雑音を予測するために,埋め込みを条件とした逆拡散過程を訓練する。 大規模な実験は、TSDEの計算、補間、予測、異常検出、分類、クラスタリングにおける優位性を実証している。 また,TSDEデータの学習表現における効率と妥当性について,アブレーション研究,埋め込み可視化の提示,推論速度の比較を行い,TSDEの効率と妥当性について検討した。

Time Series Representation Learning (TSRL) focuses on generating informative representations for various Time Series (TS) modeling tasks. Traditional Self-Supervised Learning (SSL) methods in TSRL fall into four main categories: reconstructive, adversarial, contrastive, and predictive, each with a common challenge of sensitivity to noise and intricate data nuances. Recently, diffusion-based methods have shown advanced generative capabilities. However, they primarily target specific application scenarios like imputation and forecasting, leaving a gap in leveraging diffusion models for generic TSRL. Our work, Time Series Diffusion Embedding (TSDE), bridges this gap as the first diffusion-based SSL TSRL approach. TSDE segments TS data into observed and masked parts using an Imputation-Interpolation-Forecasting (IIF) mask. It applies a trainable embedding function, featuring dual-orthogonal Transformer encoders with a crossover mechanism, to the observed part. We train a reverse diffusion process conditioned on the embeddings, designed to predict noise added to the masked part. Extensive experiments demonstrate TSDE's superiority in imputation, interpolation, forecasting, anomaly detection, classification, and clustering. We also conduct an ablation study, present embedding visualizations, and compare inference speed, further substantiating TSDE's efficiency and validity in learning representations of TS data.
翻訳日:2024-05-10 12:33:18 公開日:2024-05-09
# 差分生産型フェデレーション学習のための年齢アウェアスケジューリング

Age Aware Scheduling for Differentially-Private Federated Learning ( http://arxiv.org/abs/2405.05962v1 )

ライセンス: Link先を確認
Kuan-Yu Lin, Hsuan-Yin Lin, Yu-Pin Hsu, Yu-Chih Huang, (参考訳) 本稿では, 年齢, 精度, 差分プライバシー (DP) を含む3方向の微妙なトレードオフを掘り下げ, 時間差データベース間の差分私的フェデレーションラーニング (FL) について検討する。 本稿では,DP制約のないモデルと集約モデルとの損失差を最小化しつつ,DP要求を満たす最適化問題を提案する。 スケジューリングの利点を生かして、年齢依存的な損失上限を導入し、年齢認識型スケジューリング設計の開発に繋がる。 提案手法は従来の DP を用いた FL よりも優れた性能を示し,スケジューリングを設計要因とはみなさない。 本研究は,フェデレートラーニングにおける年齢,正確性,DPの相互作用に関する知見を,スケジューリング戦略の実践的意義として貢献する。

This paper explores differentially-private federated learning (FL) across time-varying databases, delving into a nuanced three-way tradeoff involving age, accuracy, and differential privacy (DP). Emphasizing the potential advantages of scheduling, we propose an optimization problem aimed at meeting DP requirements while minimizing the loss difference between the aggregated model and the model obtained without DP constraints. To harness the benefits of scheduling, we introduce an age-dependent upper bound on the loss, leading to the development of an age-aware scheduling design. Simulation results underscore the superior performance of our proposed scheme compared to FL with classic DP, which does not consider scheduling as a design factor. This research contributes insights into the interplay of age, accuracy, and DP in federated learning, with practical implications for scheduling strategies.
翻訳日:2024-05-10 12:33:18 公開日:2024-05-09
# Decohered Symmetry-Proected Topological Stateにおける量子通信と混合状態秩序

Quantum Communication and Mixed-State Order in Decohered Symmetry-Protected Topological States ( http://arxiv.org/abs/2405.05965v1 )

ライセンス: Link先を確認
Zhehao Zhang, Utkarsh Agrawal, Sagar Vijay, (参考訳) 特定の純状態対称性保護トポロジカルオーダー(SPT)は、量子情報を伝達するためのリソースとして使用できる。 本稿では,これらの混合状態における量子多体秩序を診断する「ストレンジ相関関数」と,この特性を関連づける。 この視点は、SPT状態の弱い対称性や強い対称性を必ずしも保持するわけではないが、しかしながら、デコヒード混合状態における量子多体秩序を保護している量子チャネルのクラスを識別する。 我々は、デコヒーレンス前にSPT状態の対称性電荷を「学習」するためにシステム内の局所的な測定値を用いて、デコヒーレントな量子情報を通じて、デコヒーレントなSPT状態の量子情報を伝達する能力を定量化する。

Certain pure-state symmetry-protected topological orders (SPT) can be used as a resource for transmitting quantum information. Here, we investigate the ability to transmit quantum information using decohered SPT states, and relate this property to the "strange correlation functions" which diagnose quantum many-body orders in these mixed-states. This perspective leads to the identification of a class of quantum channels -- termed symmetry-decoupling channels -- which do not necessarily preserve any weak or strong symmetries of the SPT state, but nevertheless protect quantum many-body order in the decohered mixed-state. We quantify the ability to transmit quantum information in decohered SPT states through the coherent quantum information, whose behavior is generally related to a decoding problem, whereby local measurements in the system are used to attempt to "learn" the symmetry charge of the SPT state before decoherence.
翻訳日:2024-05-10 12:33:18 公開日:2024-05-09
# 条件付きGANへの蒸留拡散モデル

Distilling Diffusion Models into Conditional GANs ( http://arxiv.org/abs/2405.05967v1 )

ライセンス: Link先を確認
Minguk Kang, Richard Zhang, Connelly Barnes, Sylvain Paris, Suha Kwak, Jaesik Park, Eli Shechtman, Jun-Yan Zhu, Taesung Park, (参考訳) 本稿では,複雑な多段階拡散モデルを単一段階の条件付きGAN学生モデルに蒸留し,画像品質を保ちながら推論を劇的に加速する手法を提案する。 本稿では,拡散モデルのODE軌道のノイズ対と画像対を用いて,拡散蒸留を画像対変換タスクとして解釈する。 効率的な回帰損失計算のために,拡散モデルの潜在空間で直接動作する知覚的損失であるE-LatentLPIPSを提案する。 さらに、拡散モデルを適用し、テキストアライメント損失を有するマルチスケール判別器を構築し、効果的な条件付きGANベースの定式化を構築する。 E-LatentLPIPSは多くの既存の蒸留法よりも効率的に収束し、データセットの構築コストも考慮している。 我々は, ゼロショットCOCOベンチマークにおいて, 最先端の一段階拡散蒸留モデル(DMD, SDXL-Turbo, SDXL-Lightning)より優れていることを示す。

We propose a method to distill a complex multistep diffusion model into a single-step conditional GAN student model, dramatically accelerating inference, while preserving image quality. Our approach interprets diffusion distillation as a paired image-to-image translation task, using noise-to-image pairs of the diffusion model's ODE trajectory. For efficient regression loss computation, we propose E-LatentLPIPS, a perceptual loss operating directly in diffusion model's latent space, utilizing an ensemble of augmentations. Furthermore, we adapt a diffusion model to construct a multi-scale discriminator with a text alignment loss to build an effective conditional GAN-based formulation. E-LatentLPIPS converges more efficiently than many existing distillation methods, even accounting for dataset construction costs. We demonstrate that our one-step generator outperforms cutting-edge one-step diffusion distillation models - DMD, SDXL-Turbo, and SDXL-Lightning - on the zero-shot COCO benchmark.
翻訳日:2024-05-10 12:33:18 公開日:2024-05-09
# 位置: Black-Box最適化のための基礎モデル

Position: Leverage Foundational Models for Black-Box Optimization ( http://arxiv.org/abs/2405.03547v2 )

ライセンス: Link先を確認
Xingyou Song, Yingtao Tian, Robert Tjarko Lange, Chansoo Lee, Yujin Tang, Yutian Chen, (参考訳) 当然のことながら、Large Language Models(LLM)は機械学習研究領域における驚くべきイノベーションの波を呼び起こし、強化学習、ロボティクス、コンピュータビジョンといった様々な分野に多大な影響を与えている。 彼らの組織化は迅速かつ変革的であり、機械学習研究の分野における重要なパラダイムシフトを象徴している。 しかし, ブラックボックス最適化を基礎とした実験設計の分野は, LLMと最適化を統合することで, 探索にユニークなランドスケープが現れるにもかかわらず, これほどのパラダイムシフトの影響を受けていない。 本稿では,シーケンスベース基礎モデルに関するブラックボックス最適化の分野を定式化し,それらと過去の文献との関係を整理する。 本稿では,自由形式テキストにカプセル化されている膨大な情報を活用し,タスク理解を深めること,トランスフォーマーなどの高度に柔軟なシーケンスモデルを利用して優れた最適化戦略を設計すること,これまで見つからなかった検索空間の性能予測を向上することなど,基礎言語モデルが最適化に革命をもたらす最も有望な方法について論じる。

Undeniably, Large Language Models (LLMs) have stirred an extraordinary wave of innovation in the machine learning research domain, resulting in substantial impact across diverse fields such as reinforcement learning, robotics, and computer vision. Their incorporation has been rapid and transformative, marking a significant paradigm shift in the field of machine learning research. However, the field of experimental design, grounded on black-box optimization, has been much less affected by such a paradigm shift, even though integrating LLMs with optimization presents a unique landscape ripe for exploration. In this position paper, we frame the field of black-box optimization around sequence-based foundation models and organize their relationship with previous literature. We discuss the most promising ways foundational language models can revolutionize optimization, which include harnessing the vast wealth of information encapsulated in free-form text to enrich task comprehension, utilizing highly flexible sequence models such as Transformers to engineer superior optimization strategies, and enhancing performance prediction over previously unseen search spaces.
翻訳日:2024-05-10 12:23:27 公開日:2024-05-09
# MFA-Net:肝腫瘍セグメンテーションのためのマルチスケール機能融合アテンションネットワーク

MFA-Net: Multi-Scale feature fusion attention network for liver tumor segmentation ( http://arxiv.org/abs/2405.04064v2 )

ライセンス: Link先を確認
Yanli Yuan, Bingbing Wang, Chuan Zhang, Jingyi Xu, Ximeng Liu, Liehuang Zhu, (参考訳) 医学的CT画像に注目する臓器の分別は疾患の診断に有用である。 完全畳み込みニューラルネットワーク(F-CNN)に基づく最近の手法は、多くのセグメンテーションタスクで成功しているが、異なるスケールの画像から特徴を融合させることは依然として課題である:(1)空間認識の欠如により、F-CNNは異なる空間位置で同じ重みを共有する。 2)F-CNNは,局所受容野を通してのみ周辺情報を取得することができる。 この課題に対処するため,MFA-Net(Multi-Scale Feature Fusion Attention Network)と呼ばれるアテンション機構に基づく新たなセグメンテーションフレームワークを提案する。 提案するフレームワークは,複数のスケールでより意味のある特徴マップを学習し,より正確な自動セグメンテーションを実現する。 提案したMFA-NetとSOTA法を2つの2次元肝CTデータセットで比較した。 実験結果から,MFA-Netはスケールの異なる画像に対してより精密なセグメンテーションを生成することがわかった。

Segmentation of organs of interest in medical CT images is beneficial for diagnosis of diseases. Though recent methods based on Fully Convolutional Neural Networks (F-CNNs) have shown success in many segmentation tasks, fusing features from images with different scales is still a challenge: (1) Due to the lack of spatial awareness, F-CNNs share the same weights at different spatial locations. (2) F-CNNs can only obtain surrounding information through local receptive fields. To address the above challenge, we propose a new segmentation framework based on attention mechanisms, named MFA-Net (Multi-Scale Feature Fusion Attention Network). The proposed framework can learn more meaningful feature maps among multiple scales and result in more accurate automatic segmentation. We compare our proposed MFA-Net with SOTA methods on two 2D liver CT datasets. The experimental results show that our MFA-Net produces more precise segmentation on images with different scales.
翻訳日:2024-05-10 12:23:27 公開日:2024-05-09
# 秘密データセット分割とベンダー分割によるメトリクス微分プライバシーのスケーラビリティ向上

Enhancing Scalability of Metric Differential Privacy via Secret Dataset Partitioning and Benders Decomposition ( http://arxiv.org/abs/2405.04344v2 )

ライセンス: Link先を確認
Chenxi Qiu, (参考訳) メトリック微分プライバシー(mDP)は、データ摂動の新しいパラダイムとして機能するために、差分プライバシー(DP)の概念を拡張します。 道路網やグリッドマップ上の単語埋め込みや位置情報として符号化されたテキストデータなど、一般的なメートル法空間で表される秘密データを保護するように設計されている。 mDPの下で最適なデータ摂動機構を導出するために、広く使われている手法は線形プログラミング(LP)であり、これは決定変数の多項式爆発に悩まされ、大規模なmDPでは非現実的である。 本稿では,LPベースのmDPのスケーラビリティを向上する新しい計算フレームワークを開発することを目的とする。 秘密レコード間のmDP制約によって確立された接続を考えると、元の秘密データセットを様々なサブセットに分割する。 1)サブセット間の摂動計算を管理するマスタプログラムと,(2)サブプロブレムのセットで,それぞれがサブセット内で摂動の導出を管理する。 道路ネットワーク/グリッドマップの位置情報データ,テキストデータ,合成データなど,複数のデータに対する実験結果から,提案手法のスケーラビリティと効率性を評価する。

Metric Differential Privacy (mDP) extends the concept of Differential Privacy (DP) to serve as a new paradigm of data perturbation. It is designed to protect secret data represented in general metric space, such as text data encoded as word embeddings or geo-location data on the road network or grid maps. To derive an optimal data perturbation mechanism under mDP, a widely used method is linear programming (LP), which, however, might suffer from a polynomial explosion of decision variables, rendering it impractical in large-scale mDP. In this paper, our objective is to develop a new computation framework to enhance the scalability of the LP-based mDP. Considering the connections established by the mDP constraints among the secret records, we partition the original secret dataset into various subsets. Building upon the partition, we reformulate the LP problem for mDP and solve it via Benders Decomposition, which is composed of two stages: (1) a master program to manage the perturbation calculation across subsets and (2) a set of subproblems, each managing the perturbation derivation within a subset. Our experimental results on multiple datasets, including geo-location data in the road network/grid maps, text data, and synthetic data, underscore our proposed mechanism's superior scalability and efficiency.
翻訳日:2024-05-10 12:23:27 公開日:2024-05-09
# SmmPack: TPMシードキーによるSMMモジュールの難読化

SmmPack: Obfuscation for SMM Modules with TPM Sealed Key ( http://arxiv.org/abs/2405.04355v3 )

ライセンス: Link先を確認
Kazuki Matsuo, Satoshi Tanda, Kuniyasu Suzaki, Yuhei Kawakoya, Tatsuya Mori, (参考訳) System Management Mode (SMM) は、x86およびx86-64プロセッサの最もプライベートな動作モードである。 SMMのエクスプロイトにより、攻撃者はUnified Extensible Firmware Interface (UEFI)ファームウェアを改ざんし、オペレーティングシステムとハイパーバイザによって実装されるセキュリティメカニズムを無効にすることができる。 SMMコード実行を可能にする脆弱性は、しばしばCVE(Common Vulnerabilities and Exposures)として報告されるが、攻撃者がこれらの脆弱性を分析するのを防ぐためのセキュリティメカニズムは今のところ存在しない。 SMMモジュールの脆弱性解析のコストを上げるために,SmmPackを導入した。 SmmPackの中核的な概念は、Trusted Platform Module (TPM)に安全に格納されたキーでSMMモジュールを暗号化することである。 攻撃者によるSMMモジュールの取得・解析におけるSmmPackの有効性を,様々な手法を用いて評価した。 以上の結果から,SmmPackはモジュール獲得の手段を狭めることにより,コストを大幅に向上することが示された。 さらに,SmmPackが元のSMMモジュールの性能を損なうことなく動作することを示した。 また,SmmPackの管理と採用方法,BIOS更新の適用手順を明らかにし,SmmPackの実装が現実的であることを示した。

System Management Mode (SMM) is the highest-privileged operating mode of x86 and x86-64 processors. Through SMM exploitation, attackers can tamper with the Unified Extensible Firmware Interface (UEFI) firmware, disabling the security mechanisms implemented by the operating system and hypervisor. Vulnerabilities enabling SMM code execution are often reported as Common Vulnerabilities and Exposures (CVEs); however, no security mechanisms currently exist to prevent attackers from analyzing those vulnerabilities. To increase the cost of vulnerability analysis of SMM modules, we introduced SmmPack. The core concept of SmmPack involves encrypting an SMM module with the key securely stored in a Trusted Platform Module (TPM). We assessed the effectiveness of SmmPack in preventing attackers from obtaining and analyzing SMM modules using various acquisition methods. Our results show that SmmPack significantly increases the cost by narrowing down the means of module acquisition. Furthermore, we demonstrated that SmmPack operates without compromising the performance of the original SMM modules. We also clarified the management and adoption methods of SmmPack, as well as the procedure for applying BIOS updates, and demonstrated that the implementation of SmmPack is realistic.
翻訳日:2024-05-10 12:23:27 公開日:2024-05-09
# HABの長期モニタリングデータを用いたアドリア海における貝害予測のための説明可能な機械学習

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs ( http://arxiv.org/abs/2405.04372v2 )

ライセンス: Link先を確認
Martin Marzidovšek, Janja Francé, Vid Podpečan, Stanka Vadnjal, Jožica Dolenc, Patricija Mozetič, (参考訳) 本研究では, 有害藻類によるトリエステ湾(アドリア海)の貝類の毒性を予測するために, 説明可能な機械学習技術を適用した。 貝類養殖地における有毒植物プランクトンの記録と貝類(Mytilus gallophylis)の毒素濃度を含む28年間のデータセットを新たに作成することにより,MLモデルの性能を訓練・評価し,ダイアロティック貝類中毒(DSP)の発生を正確に予測する。 The random forest model provided the best prediction of positive toxicity results based on the F1 score。 変異の重要性やSHAPなどの説明可能性の手法により,DSPの発生の予測因子として重要な種(Dinophysis fortii, D. caudata)と環境要因(塩分, 流出, 降水)が同定された。 これらの知見は早期警戒システムの改善と持続可能な養殖の実践を支援するために重要である。

In this study, explainable machine learning techniques are applied to predict the toxicity of mussels in the Gulf of Trieste (Adriatic Sea) caused by harmful algal blooms. By analysing a newly created 28-year dataset containing records of toxic phytoplankton in mussel farming areas and toxin concentrations in mussels (Mytilus galloprovincialis), we train and evaluate the performance of ML models to accurately predict diarrhetic shellfish poisoning (DSP) events. The random forest model provided the best prediction of positive toxicity results based on the F1 score. Explainability methods such as permutation importance and SHAP identified key species (Dinophysis fortii and D. caudata) and environmental factors (salinity, river discharge and precipitation) as the best predictors of DSP outbreaks. These findings are important for improving early warning systems and supporting sustainable aquaculture practices.
翻訳日:2024-05-10 12:23:27 公開日:2024-05-09
# マルチインスタンス不確実性推定のための弱教師付き残差情報学習

Weakly-Supervised Residual Evidential Learning for Multi-Instance Uncertainty Estimation ( http://arxiv.org/abs/2405.04405v2 )

ライセンス: Link先を確認
Pei Liu, Luping Ji, (参考訳) 不確実性推定(UE)は、予測の不確実性を定量化する有効な手段であり、特にリスクの高いシナリオにおいて、安全で信頼性の高い意思決定に不可欠である。 既存のUEスキームは通常、完全に教師付き学習をサポートするために完全にラベル付けされたサンプルが存在すると仮定する。 しかし実際には、多くのUEタスクは、弱いインスタンスアノテーションしか持たないMIL(Multiple Instance Learning)のような十分なラベル付きデータを持っていないことが多い。 このギャップを埋めるために,本論文は,Multi-Instance UE(MIUE)の弱教師付き問題に初めて対処し,新しいベースラインスキームであるMulti-Instance Residual Evidential Learning(MIREL)を提案する。 特に、弱監督しか持たない微細なインスタンス UE において、シンメトリ関数の基本定理を通した多重インスタンス残差作用素を導出する。 この演算子の導出により,MIRELはバッグの高次予測分布とMIUEのインスタンスレベルを共同でモデル化する。 大規模な実験により、MIUEにおいて既存のMILネットワークの性能を向上するだけでなく、特にインスタンスレベルのUEタスクにおいて、UEメソッドを大きなマージンで上回ることが実証された。 ソースコードはhttps://github.com/liupei101/MIRELで公開されています。

Uncertainty estimation (UE), as an effective means of quantifying predictive uncertainty, is crucial for safe and reliable decision-making, especially in high-risk scenarios. Existing UE schemes usually assume that there are completely-labeled samples to support fully-supervised learning. In practice, however, many UE tasks often have no sufficiently-labeled data to use, such as the Multiple Instance Learning (MIL) with only weak instance annotations. To bridge this gap, this paper, for the first time, addresses the weakly-supervised issue of Multi-Instance UE (MIUE) and proposes a new baseline scheme, Multi-Instance Residual Evidential Learning (MIREL). Particularly, at the fine-grained instance UE with only weak supervision, we derive a multi-instance residual operator through the Fundamental Theorem of Symmetric Functions. On this operator derivation, we further propose MIREL to jointly model the high-order predictive distribution at bag and instance levels for MIUE. Extensive experiments empirically demonstrate that our MIREL not only could often make existing MIL networks perform better in MIUE, but also could surpass representative UE methods by large margins, especially in instance-level UE tasks. Our source code is available at https://github.com/liupei101/MIREL.
翻訳日:2024-05-10 12:23:27 公開日:2024-05-09
# サイバーセキュリティのための大規模言語モデル: 体系的文献レビュー

Large Language Models for Cyber Security: A Systematic Literature Review ( http://arxiv.org/abs/2405.04760v2 )

ライセンス: Link先を確認
HanXiang Xu, ShenAo Wang, NingKe Li, KaiLong Wang, YanJie Zhao, Kai Chen, Ting Yu, Yang Liu, HaoYu Wang, (参考訳) 大規模言語モデル(LLM)の急速な進歩は、サイバーセキュリティを含むさまざまな領域で人工知能を活用する新たな機会を開いた。 サイバー脅威の量と高度化が進むにつれ、脆弱性を自動的に検出し、マルウェアを分析し、攻撃に応答するインテリジェントシステムの必要性が高まっている。 本調査では,LLMのサイバーセキュリティ(LLM4Security)への適用に関する文献を概観する。 30万件以上の関連論文を包括的に収集し、トップセキュリティとソフトウェアエンジニアリングの会場から127件の論文を体系的に分析することで、LLMがサイバーセキュリティ領域の様々な問題を解決するためにどのように使われているのか、全体像を提供することを目指している。 分析により,いくつかの重要な知見が得られた。 まず、脆弱性検出、マルウェア分析、ネットワーク侵入検出、フィッシング検出など、幅広いサイバーセキュリティタスクにLLMが適用されていることを観察する。 第2に、これらのタスクにおけるLSMのトレーニングと評価に使用されるデータセットは、サイズと多様性に制限されることが少なく、より包括的で代表的なデータセットの必要性を強調している。 第3に、細調整、転送学習、ドメイン固有の事前トレーニングなど、特定のサイバーセキュリティドメインにLLMを適用するための有望なテクニックをいくつか特定する。 最後に、LLM4Securityにおける今後の研究の課題と機会について論じる。その中には、より解釈可能で説明可能なモデルの必要性、データのプライバシとセキュリティの問題に対処することの重要性、積極的に防御と脅威ハンティングにLLMを活用する可能性などが含まれる。 本調査では,LLM4Securityの現状を概観し,今後の研究に期待できるいくつかの方向性を明らかにした。

The rapid advancement of Large Language Models (LLMs) has opened up new opportunities for leveraging artificial intelligence in various domains, including cybersecurity. As the volume and sophistication of cyber threats continue to grow, there is an increasing need for intelligent systems that can automatically detect vulnerabilities, analyze malware, and respond to attacks. In this survey, we conduct a comprehensive review of the literature on the application of LLMs in cybersecurity (LLM4Security). By comprehensively collecting over 30K relevant papers and systematically analyzing 127 papers from top security and software engineering venues, we aim to provide a holistic view of how LLMs are being used to solve diverse problems across the cybersecurity domain. Through our analysis, we identify several key findings. First, we observe that LLMs are being applied to a wide range of cybersecurity tasks, including vulnerability detection, malware analysis, network intrusion detection, and phishing detection. Second, we find that the datasets used for training and evaluating LLMs in these tasks are often limited in size and diversity, highlighting the need for more comprehensive and representative datasets. Third, we identify several promising techniques for adapting LLMs to specific cybersecurity domains, such as fine-tuning, transfer learning, and domain-specific pre-training. Finally, we discuss the main challenges and opportunities for future research in LLM4Security, including the need for more interpretable and explainable models, the importance of addressing data privacy and security concerns, and the potential for leveraging LLMs for proactive defense and threat hunting. Overall, our survey provides a comprehensive overview of the current state-of-the-art in LLM4Security and identifies several promising directions for future research.
翻訳日:2024-05-10 12:23:27 公開日:2024-05-09
# モノのインターネットのためのブロックチェーン - 基本、アプリケーション、課題

Blockchains for Internet of Things: Fundamentals, Applications, and Challenges ( http://arxiv.org/abs/2405.04803v2 )

ライセンス: Link先を確認
Yusen Wu, Ye Hu, Mingzhe Chen, Yelena Yesha, Mérouane Debbah, (参考訳) IoT(Internet of Things)サービスは、推論、自律性、制御のために、さまざまなデータのストレージ、送信、分析を必要とする。 ブロックチェーンは、分散化とセキュリティの固有の特性を持ち、コンセンサスベースのデータ共有を通じて、これらのデバイスに効率的なデータベースソリューションを提供する。 しかしながら、すべてのブロックチェーンシステムが特定のIoTアプリケーションに適している訳ではなく、プライバシの懸念から除外された方がメリットがある、という認識が不可欠です。 例えば、パブリックブロックチェーンは機密データを格納するのに適していない。 本稿では,IoTアプリケーションの拡張に適した3つのブロックチェーンについて,詳細なレビューを行う。 最初は3つのブロックチェーンシステムの基盤的な側面を掘り下げて、その強み、制限、実装ニーズを強調しました。 さらに、異なるブロックチェーンにおけるセキュリティ問題についても論じる。 その後、エッジAI、通信、ヘルスケアの3つの重要なIoT領域でブロックチェーンのアプリケーションを調査する。 さまざまなブロックチェーンをIoTに統合する上で、潜在的な課題と今後の方向性について述べています。 最終的に、この論文はブロックチェーンとIoTエコシステムのシナジーに関する包括的な視点を提供することを目的としており、関連する機会と複雑さを強調している。

Internet of Things (IoT) services necessitate the storage, transmission, and analysis of diverse data for inference, autonomy, and control. Blockchains, with their inherent properties of decentralization and security, offer efficient database solutions for these devices through consensus-based data sharing. However, it's essential to recognize that not every blockchain system is suitable for specific IoT applications, and some might be more beneficial when excluded with privacy concerns. For example, public blockchains are not suitable for storing sensitive data. This paper presents a detailed review of three distinct blockchains tailored for enhancing IoT applications. We initially delve into the foundational aspects of three blockchain systems, highlighting their strengths, limitations, and implementation needs. Additionally, we discuss the security issues in different blockchains. Subsequently, we explore the blockchain's application in three pivotal IoT areas: edge AI, communications, and healthcare. We underscore potential challenges and the future directions for integrating different blockchains in IoT. Ultimately, this paper aims to offer a comprehensive perspective on the synergies between blockchains and the IoT ecosystem, highlighting the opportunities and complexities involved.
翻訳日:2024-05-10 12:23:27 公開日:2024-05-09
# NetsDBのトランスフォーマーアーキテクチャ

Transformer Architecture for NetsDB ( http://arxiv.org/abs/2405.04807v2 )

ライセンス: Link先を確認
Subodh Kamble, Kunal Sunil Kasodekar, (参考訳) トランスフォーマーモデルは、言語、ビジョン、マルチモーダルドメインにおける現在の最先端モデルのバックボーンとなっている。 これらのモデルは、その中核にあるマルチヘッド自己関心を利用してコンテキストを選択的に集約し、動的コンテキスト埋め込みを生成し、コンテキスト理解を明確にするために長距離依存関係をモデル化する。 Lixi et al \cite{zhou2022serving} は,大規模ディープラーニングモデルのデプロイにリレーショナルデータベースを使用する方法を提案し,NetsDB というオープンソース実装を開発した。 我々は、NetsDBのモデルサービスのためのトランスフォーマーのエンコーダ部分のエンドツーエンド実装を作成することで、これらの著者の以前の作業の上に構築する。 具体的には、マルチヘッドアテンションとそれに伴う自己アテンション機構、Layer-Norm、Dropout、FeedForward Layers、および必要な残余接続を含む2ブロックエンコーダを構築する。 分散処理、デプロイメント、効率的な推論のために、当社のモデルから重みをロードします。 PyTorch, Tensorflow, Flax, MxNet の既存実装と, 推定時間やモデルサイズなどの重要な指標を比較し, 総合的な性能解析を行う。

Transformers models have become the backbone of the current state-of-the-art models in language, vision, and multimodal domains. These models, at their core, utilize multi-head self-attention to selectively aggregate context, generating dynamic contextual embeddings and modeling long-range dependencies for a clear contextual understanding. Lixi et al. \cite{zhou2022serving} proposed a method to use relational databases for deploying large-scale deep learning models and created an open-source implementation called NetsDB for the same. We build upon the previous work of these authors by creating an end-to-end implementation of the Encoder part of the transformer for model serving in NetsDB. Specifically, we construct a two-block encoder that includes Multi-Head Attention and its accompanying self-attention mechanism, Layer-Norm, Dropout, FeedForward Layers, and the necessary residual connections. We load out weights from our model for distributed processing, deployment, and efficient inferencing. To prove the efficacy of our implementation, we conduct a comprehensive performance analysis by comparing it with existing implementations in PyTorch, Tensorflow, Flax, and MxNet across key metrics such as inference time and model size.
翻訳日:2024-05-10 12:23:27 公開日:2024-05-09
# 初期化のない大規模バンドル調整のための可変パワープロジェクション

Power Variable Projection for Initialization-Free Large-Scale Bundle Adjustment ( http://arxiv.org/abs/2405.05079v2 )

ライセンス: Link先を確認
Simon Weber, Je Hyeong Hong, Daniel Cremers, (参考訳) 初期化自由バンドル調整(BA)は、ほとんど無チャージのままである。 Levenberg-MarquardtアルゴリズムはBA問題を解くための黄金の手法であるが、一般に良い初期化に依存している。 対照的に、探索されていない可変射影アルゴリズム(VarPro)は初期化なしでも広い収束盆地を示す。 オブジェクト空間誤差の定式化と組み合わせて、最近の研究は、(小規模の)初期化自由バンドル調整問題を解く能力を示している。 本稿では,電力系列に基づく最近の逆展開法を拡張した電力可変射影(PoVar)を提案する。 重要なことに、パワー級数展開はリーマン多様体の最適化にリンクする。 この射影フレームワークは,初期化を伴わない大規模バンドル調整問題の解決に不可欠である。 実世界のBALデータセットを用いて,我々の解法が最先端の結果を速度と精度で達成できることを実験的に実証した。 特に、私たちの研究は、私たちの知る限りでは、初期化なしでBAのスケーラビリティに対処し、初期化不要なStructure-from-Motionのための新しい場所を開く最初のものです。

Initialization-free bundle adjustment (BA) remains largely uncharted. While Levenberg-Marquardt algorithm is the golden method to solve the BA problem, it generally relies on a good initialization. In contrast, the under-explored Variable Projection algorithm (VarPro) exhibits a wide convergence basin even without initialization. Coupled with object space error formulation, recent works have shown its ability to solve (small-scale) initialization-free bundle adjustment problem. We introduce Power Variable Projection (PoVar), extending a recent inverse expansion method based on power series. Importantly, we link the power series expansion to Riemannian manifold optimization. This projective framework is crucial to solve large-scale bundle adjustment problem without initialization. Using the real-world BAL dataset, we experimentally demonstrate that our solver achieves state-of-the-art results in terms of speed and accuracy. In particular, our work is the first, to our knowledge, that addresses the scalability of BA without initialization and opens new venues for initialization-free Structure-from-Motion.
翻訳日:2024-05-10 12:23:27 公開日:2024-05-09
# 信頼性保証を伴うハイブリッド畳み込みニューラルネットワーク

Hybrid Convolutional Neural Networks with Reliability Guarantee ( http://arxiv.org/abs/2405.05146v2 )

ライセンス: Link先を確認
Hans Dermot Doran, Suzana Veljanovska, (参考訳) AIを安全かつ信頼性の高いものにするには、信頼性のあるモデルの生成とそれらのモデルの信頼性の高い実行が必要である。 我々は、AIモデルの信頼性を確保するために、よく知られた手法として冗長実行を提案する。 このジェネリックテクニックは、十分に文書化された安全性や信頼性を特徴としないAI加速器の応用範囲を拡張する。 典型的な冗長性技術は、元の計算コストを少なくとも2倍または3倍にします。 我々は、信頼性の高いモデル実行と信頼性のない実行を統合する、協調設計アプローチを採用し、厳密な必要な場合にのみ追加の計算コストに焦点を当てる。 本稿では,ハイブリッドCNNの設計,実装,およびいくつかの予備的な結果について述べる。

Making AI safe and dependable requires the generation of dependable models and dependable execution of those models. We propose redundant execution as a well-known technique that can be used to ensure reliable execution of the AI model. This generic technique will extend the application scope of AI-accelerators that do not feature well-documented safety or dependability properties. Typical redundancy techniques incur at least double or triple the computational expense of the original. We adopt a co-design approach, integrating reliable model execution with non-reliable execution, focusing that additional computational expense only where it is strictly necessary. We describe the design, implementation and some preliminary results of a hybrid CNN.
翻訳日:2024-05-10 12:23:27 公開日:2024-05-09
# 多機能ネゴシエーションゲームにおけるパーソナリティとLLM

LLMs with Personalities in Multi-issue Negotiation Games ( http://arxiv.org/abs/2405.05248v2 )

ライセンス: Link先を確認
Sean Noh, Ho-Chun Herbert Chang, (参考訳) 大規模言語モデル(LLM)によって駆動されるAIエージェントは、多くの人間のタスクをこなす能力を持つようになった。 ビッグファイブのパーソナリティの最も標準的な定義を用いて、ゲーム理論の枠組み内でLLMが交渉する能力を測定するとともに、フェアネスとリスクの概念を計測するための方法論的課題も測定する。 シングルイシューとマルチイシューの交渉のシミュレーション(n=1500)では、非対称なイシューバリュエーションによるドメインの複雑さが増加し、合意率が向上するが、アグレッシブな交渉による余剰量を減少させる。 緩やかな回帰とシェープリーの説明を通じて、高い開放性、良心性、神経性は公正な傾向に結びついており、低い一致性と低い開放性は合理的な傾向に結びついている。 低い良性は高い毒性と関連している。 これらの結果は、LLMがデフォルトの公正な動作にガードレールを組み込んだかもしれないが、同意できる相手を悪用するために「ジェイルが壊れている」可能性があることを示唆している。 また,ゲーム理論と計算社会科学に基づく交渉行動評価の枠組みとして,交渉ボットの設計に関する実践的な知見を提供する。

Powered by large language models (LLMs), AI agents have become capable of many human tasks. Using the most canonical definitions of the Big Five personality, we measure the ability of LLMs to negotiate within a game-theoretical framework, as well as methodological challenges to measuring notions of fairness and risk. Simulations (n=1,500) for both single-issue and multi-issue negotiation reveal increase in domain complexity with asymmetric issue valuations improve agreement rates but decrease surplus from aggressive negotiation. Through gradient-boosted regression and Shapley explainers, we find high openness, conscientiousness, and neuroticism are associated with fair tendencies; low agreeableness and low openness are associated with rational tendencies. Low conscientiousness is associated with high toxicity. These results indicate that LLMs may have built-in guardrails that default to fair behavior, but can be "jail broken" to exploit agreeable opponents. We also offer pragmatic insight in how negotiation bots can be designed, and a framework of assessing negotiation behavior based on game theory and computational social science.
翻訳日:2024-05-10 12:23:27 公開日:2024-05-09
# 一度だけキャッシュする: 言語モデルのためのデコーダ-デコーダアーキテクチャ

You Only Cache Once: Decoder-Decoder Architectures for Language Models ( http://arxiv.org/abs/2405.05254v2 )

ライセンス: Link先を確認
Yutao Sun, Li Dong, Yi Zhu, Shaohan Huang, Wenhui Wang, Shuming Ma, Quanlu Zhang, Jianyong Wang, Furu Wei, (参考訳) キーと値のペアを一度だけキャッシュする大規模言語モデルのためのデコーダ/デコーダアーキテクチャであるYOCOを導入する。 これは2つのコンポーネント、すなわち自己デコーダに積み重ねられたクロスデコーダで構成されている。 自己復号器は、クロスアテンションを介してクロスデコーダによって再利用されるグローバルキー値(KV)キャッシュを効率よく符号化する。 全体的なモデルはデコーダのみのTransformerのように振る舞うが、YOCOは一度だけキャッシュする。 この設計はGPUメモリの需要を大幅に削減するが、グローバルな注意力を維持する。 さらに、計算フローにより、最終出力を変更することなく早期出口へのプリフィルが可能となり、プリフィルステージが大幅に高速化される。 実験により, YOCOはモデルサイズとトレーニングトークン数をスケールアップする様々な設定において, Transformerと比較して, 良好な性能を示した。 また, ヨーコの文脈長を100Mに拡張し, ほぼ完全針検定精度を向上した。 プロファイリングの結果から, YOCOは推論メモリ, プリフィルレイテンシ, スループットを, コンテキスト長とモデルサイズで桁違いに改善することがわかった。 コードはhttps://aka.ms/YOCO.comで入手できる。

We introduce a decoder-decoder architecture, YOCO, for large language models, which only caches key-value pairs once. It consists of two components, i.e., a cross-decoder stacked upon a self-decoder. The self-decoder efficiently encodes global key-value (KV) caches that are reused by the cross-decoder via cross-attention. The overall model behaves like a decoder-only Transformer, although YOCO only caches once. The design substantially reduces GPU memory demands, yet retains global attention capability. Additionally, the computation flow enables prefilling to early exit without changing the final output, thereby significantly speeding up the prefill stage. Experimental results demonstrate that YOCO achieves favorable performance compared to Transformer in various settings of scaling up model size and number of training tokens. We also extend YOCO to 1M context length with near-perfect needle retrieval accuracy. The profiling results show that YOCO improves inference memory, prefill latency, and throughput by orders of magnitude across context lengths and model sizes. Code is available at https://aka.ms/YOCO.
翻訳日:2024-05-10 12:23:27 公開日:2024-05-09