このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240307となっている論文です。

PDF登録状況(公開日: 20240307)

TitleAuthorsAbstract論文公表日・翻訳日
# 表現学習における視点歪みの緩和のためのメビウス変換

Möbius Transform for Mitigating Perspective Distortions in Representation Learning ( http://arxiv.org/abs/2405.02296v1 )

ライセンス: Link先を確認
Prakash Chandra Chhipa, Meenakshi Subhash Chippa, Kanjar De, Rajkumar Saini, Marcus Liwicki, Mubarak Shah, (参考訳) 視線歪み(PD)は、画像における視覚概念の形状、大きさ、方向、角度、その他の空間的関係に前例のない変化を引き起こす。 カメラ内在パラメータと外在パラメータを正確に推定することは、視点歪みの合成を防止するための課題である。 専用トレーニングデータの非可用性は、堅牢なコンピュータビジョン手法を開発する上で重要な障壁となる。 さらに、歪み補正法は、他のコンピュータビジョンタスクを多段階的なアプローチとし、性能を欠いている。 本研究では,M\\\obius変換の特定のファミリーに対して,カメラ内在パラメータや外在パラメータを推定することなく,実世界の歪みをモデル化するための細粒度パラメータ制御を用いることにより,MPDを緩和する手法を提案する。 また、この新たなデータセットに対してディープラーニングモデルの堅牢性を評価するために、視点的に歪んだベンチマークデータセットであるImageNet-PDを提案する。 提案手法は既存のベンチマークである ImageNet-E と ImageNet-X より優れている。 さらに、ImageNet-PDのパフォーマンスが大幅に向上し、標準データ分散でも一貫してパフォーマンスが向上する。 さらに,本手法は,3つのPD影響実世界のアプリケーション(群集カウント,魚眼画像認識,人物再識別)の性能向上を示す。 さらなる研究を促進するために、ソースコード、データセット、モデルをリリースします。

Perspective distortion (PD) causes unprecedented changes in shape, size, orientation, angles, and other spatial relationships of visual concepts in images. Precisely estimating camera intrinsic and extrinsic parameters is a challenging task that prevents synthesizing perspective distortion. Non-availability of dedicated training data poses a critical barrier to developing robust computer vision methods. Additionally, distortion correction methods make other computer vision tasks a multi-step approach and lack performance. In this work, we propose mitigating perspective distortion (MPD) by employing a fine-grained parameter control on a specific family of M\"obius transform to model real-world distortion without estimating camera intrinsic and extrinsic parameters and without the need for actual distorted data. Also, we present a dedicated perspectively distorted benchmark dataset, ImageNet-PD, to benchmark the robustness of deep learning models against this new dataset. The proposed method outperforms on existing benchmarks, ImageNet-E and ImageNet-X. Additionally, it significantly improves performance on ImageNet-PD while consistently performing on standard data distribution. Further, our method shows improved performance on three PD-affected real-world applications: crowd counting, fisheye image recognition, and person re-identification. We will release source code, dataset, and models for foster further research.
翻訳日:2024-07-01 11:09:59 公開日:2024-03-07
# QubiCSV: 協調的クビット制御のためのオープンソースのデータストレージと可視化プラットフォーム

QubiCSV: An Open-Source Data Storage and Visualization Platform for Collaborative Qubit Control ( http://arxiv.org/abs/2403.14672v1 )

ライセンス: Link先を確認
Devanshu Brahmbhatt, Yilun Xu, Neel Vora, Larry Chen, Neelay Fruitwala, Gang Huang, Qing Ji, Phuc Nguyen, (参考訳) 量子ビット制御のための共同研究プラットフォームの開発は、アイデア、データ、実装の交換がより影響力のある結果を達成するために、この分野におけるイノベーションを促進するために不可欠である。 さらに、量子実験装置の高コストを考えると、資源利用を効率的に最大化するには協調環境が不可欠である。 しかし、専用データ管理プラットフォームの欠如は進歩の大きな障害を示しており、この目的に合わせた必須の補助ツールの必要性を強調している。 現在の量子ビット制御システムは、広範なキャリブレーションデータの複雑な管理を扱うことができず、複雑な量子実験結果の視覚化を効果的にサポートしていない。 本稿では,量子コンピューティング研究の要求に応えるために設計されたQubiCSV(Qubit Control Storage and Visualization)を紹介する。 オープンソースのツールであるQubiCSVは、量子コンピューティングの効率的なデータ管理を促進し、データストレージにデータバージョニング機能を提供する。 複雑な量子実験を解釈し、量子ビット性能を最適化するために、洞察に富んだ可視化が開発された。 QubiCSVは、キュービット制御システムのデータの処理を効率化するだけでなく、直感的な視覚化機能によってユーザエクスペリエンスを改善し、量子コンピューティング領域の研究者にとって貴重な資産である。

Developing collaborative research platforms for quantum bit control is crucial for driving innovation in the field, as they enable the exchange of ideas, data, and implementation to achieve more impactful outcomes. Furthermore, considering the high costs associated with quantum experimental setups, collaborative environments are vital for maximizing resource utilization efficiently. However, the lack of dedicated data management platforms presents a significant obstacle to progress, highlighting the necessity for essential assistive tools tailored for this purpose. Current qubit control systems are unable to handle complicated management of extensive calibration data and do not support effectively visualizing intricate quantum experiment outcomes. In this paper, we introduce QubiCSV (Qubit Control Storage and Visualization), a platform specifically designed to meet the demands of quantum computing research, focusing on the storage and analysis of calibration and characterization data in qubit control systems. As an open-source tool, QubiCSV facilitates efficient data management of quantum computing, providing data versioning capabilities for data storage and allowing researchers and programmers to interact with qubits in real time. The insightful visualization are developed to interpret complex quantum experiments and optimize qubit performance. QubiCSV not only streamlines the handling of qubit control system data but also improves the user experience with intuitive visualization features, making it a valuable asset for researchers in the quantum computing domain.
翻訳日:2024-04-01 03:33:23 公開日:2024-03-07
# ロボットは日本を救えないのか? 高齢者自動化のエスノグラフィーを振り返る

Can 'Robots Won't Save Japan' Save Robotics? Reviewing an Ethnography of Eldercare Automation ( http://arxiv.org/abs/2403.14673v1 )

ライセンス: Link先を確認
Andrew Hundt, (参考訳) 高齢者医療施設のスタッフを支援するための新しいロボットの活性化を想像してみてほしい。 彼らは仕事の最も意味のある瞬間を台無しにし、従業員の作業量を増やす。 最終的にそれらは返却される。 このヴィグネットは、ジェームス・エイドリアン・ライトのエスノグラフィー『ロボットは救わない日本』の重要な要素を捉えており、高齢者介護ロボティクスの状況を理解するのに欠かせない資源である。 ライトの豊富なエスノグラフィーのインタビューと観察は、ロボティクスの資金、研究、開発パラダイムに挑戦している。 高齢者ケアの住民は障害に陥る傾向があるため、この記事では障害とロボティクスの研究から見過ごされた視点で、ライトズの洞察を補強する。 この記事では、養護ロボットのアザラシであるパロが、ケアチームや著者が示したよりも優れたパフォーマンスを示すことを示し、高齢者、民族学、ロボット工学における急激なパラダイムシフトを支持する洞察につながっている。 本書は、本書の中核的な物語に対して、より強い技術的地位のいくつかを論証し、その後、彼ら自身の仮定に直面する。 さらに、日本人や国際ロボット工学者が介護労働者や受給者に付き添うという例外的な事例を探求し、ライトの説得力のある本における重要な議論を正当化する。 そして最後に、ロボットがいかに日本を救わないかに対処する。

Imagine activating new robots meant to aid staff in an elder care facility, only to discover the robots are counterproductive. They undermine the most meaningful moments of the jobs and increase staff workloads, because robots demand care too. Eventually, they're returned. This vignette captures key elements of James Adrian Wright's ethnography, "Robots Won't Save Japan", an essential resource for understanding the state of elder care robotics. Wright's rich ethnographic interviews and observations challenge the prevailing funding, research, and development paradigms for robotics. Elder care residents tend to be Disabled, so this review article augments Wrights' insights with overlooked perspectives from Disability and Robotics research. This article highlights how care recipients' portrayal suggests that Paro, a plush robot seal, might perform better than the care team and author indicated -- leading to insights that support urgent paradigm shifts in elder care, ethnographic studies, and robotics. It presents some of the stronger technical status quo counter-arguments to the book's core narratives, then confronts their own assumptions. Furthermore, it explores exceptional cases where Japanese and international roboticists attend to care workers and recipients, justifying key arguments in Wright's compelling book. Finally, it addresses how "Robots won't save Japan" will save Robotics.
翻訳日:2024-04-01 03:33:23 公開日:2024-03-07
# 不均一脳波データセットを用いた機械学習のための物理インフォームドおよび教師なしリーマン領域適応

Physics-informed and Unsupervised Riemannian Domain Adaptation for Machine Learning on Heterogeneous EEG Datasets ( http://arxiv.org/abs/2403.15415v1 )

ライセンス: Link先を確認
Apolline Mellot, Antoine Collas, Sylvain Chevallier, Denis Engemann, Alexandre Gramfort, (参考訳) 教師あり機械学習(ML)のための脳波(EEG)データセットの組み合わせは、セッション、主題、デバイスの多様性のために困難である。 MLアルゴリズムは通常、トレーニング時とテスト時に同じ機能を必要とし、データセット間のセンサー数や位置の変化による分析を複雑にする。 単純なチャネル選択は、貴重なデータを破棄し、特に少ないチャネルを共有するデータセットにおいて、パフォーマンスが低下する。 そこで本研究では,脳波信号物理を利用した教師なしアプローチを提案する。 我々は脳波チャンネルをフィールド補間を用いて固定位置にマッピングし、ソースフリーなドメイン適応を容易にする。 本手法は,脳-コンピュータインタフェース(BCI)タスクおよび潜在的なバイオマーカー応用における頑健な性能を示す。 ComImpと呼ばれる信号に基づく計算法であるDigitality Transcendingと、共通チャネル選択法と球面スプライン補間法を比較した。 数値実験により、列車や試験において共有チャネルが少ない場合、フィールド補間は他の手法よりも優れた性能を示し、全てのデータセットの分類性能が向上することを示した。 より多くのチャネルが共有されると、フィールド補間は他のメソッドと競合し、ソースに依存したメソッドよりも高速に計算できることが判明した。

Combining electroencephalogram (EEG) datasets for supervised machine learning (ML) is challenging due to session, subject, and device variability. ML algorithms typically require identical features at train and test time, complicating analysis due to varying sensor numbers and positions across datasets. Simple channel selection discards valuable data, leading to poorer performance, especially with datasets sharing few channels. To address this, we propose an unsupervised approach leveraging EEG signal physics. We map EEG channels to fixed positions using field interpolation, facilitating source-free domain adaptation. Leveraging Riemannian geometry classification pipelines and transfer learning steps, our method demonstrates robust performance in brain-computer interface (BCI) tasks and potential biomarker applications. Comparative analysis against a statistical-based approach known as Dimensionality Transcending, a signal-based imputation called ComImp, source-dependent methods, as well as common channel selection and spherical spline interpolation, was conducted with leave-one-dataset-out validation on six public BCI datasets for a right-hand/left-hand classification task. Numerical experiments show that in the presence of few shared channels in train and test, the field interpolation consistently outperforms other methods, demonstrating enhanced classification performance across all datasets. When more channels are shared, field interpolation was found to be competitive with other methods and faster to compute than source-dependent methods.
翻訳日:2024-04-01 03:04:05 公開日:2024-03-07
# Presenting Terrorizer: 特許割り当て者における企業名の統合アルゴリズム

Presenting Terrorizer: an algorithm for consolidating company names in patent assignees ( http://arxiv.org/abs/2403.12083v1 )

ライセンス: Link先を確認
Grazia Sveva Ascione, Valerio Sterzi, (参考訳) 企業名の曖昧化という問題は、特許から有用な情報を抽出する上で大きな課題となっている。 この問題は、主に企業、特に複数の名称で特許を提出する多国籍企業、例えば同一企業の代替の綴りや、最終的には子会社の番号などによる特許の数を過小評価しているため、研究成果に偏っている。 これまで、これらの課題に対処するには、労働集約型辞書や文字列マッチングアプローチを頼りにしており、特許の大規模データセットに対する割譲調和の問題はほとんど解決されていない。 このギャップを埋めるために、本論文では、自然言語処理(NLP)、ネットワーク理論、ルールベースの手法を利用したテキストベースのアルゴリズムであるTerrorizerアルゴリズムについて述べる。 特に、アルゴリズムは前任者の三部構造、すなわちパース、マッチング、フィルタリングの段階に従っており、各割り当て者名に利用可能な情報を強化するために使用される、元の"知識増強"フェーズを追加する。 我々は、2005年から2022年までUSPTOが付与した特許を割り当てる325'917社の名前にTerrorizerを使用します。 Terrorizerのパフォーマンスは4つのゴールド標準データセットで評価される。 ひとつは、Terrorizerのパフォーマンスが、異なる種類のデータセットに似ており、我々のアルゴリズムがうまく一般化していることを証明することです。 第2に、現在PatentsViewで使われている同じタスク(Monath et al , 2021)のパフォーマンスを比較すると、より高いF1スコアが得られる。 最後に,木構造型Parzen Estimator (TPE) 最適化アルゴリズムを用いてハイパーパラメータのチューニングを行う。 最終結果は、最初の42%以上の名前のセットを減らしたことです。

The problem of disambiguation of company names poses a significant challenge in extracting useful information from patents. This issue biases research outcomes as it mostly underestimates the number of patents attributed to companies, particularly multinational corporations which file patents under a plethora of names, including alternate spellings of the same entity and, eventually, companies' subsidiaries. To date, addressing these challenges has relied on labor-intensive dictionary based or string matching approaches, leaving the problem of patents' assignee harmonization on large datasets mostly unresolved. To bridge this gap, this paper describes the Terrorizer algorithm, a text-based algorithm that leverages natural language processing (NLP), network theory, and rule-based techniques to harmonize the variants of company names recorded as patent assignees. In particular, the algorithm follows the tripartite structure of its antecedents, namely parsing, matching and filtering stage, adding an original "knowledge augmentation" phase which is used to enrich the information available on each assignee name. We use Terrorizer on a set of 325'917 companies' names who are assignees of patents granted by the USPTO from 2005 to 2022. The performance of Terrorizer is evaluated on four gold standard datasets. This validation step shows us two main things: the first is that the performance of Terrorizer is similar over different kind of datasets, proving that our algorithm generalizes well. Second, when comparing its performance with the one of the algorithm currently used in PatentsView for the same task (Monath et al., 2021), it achieves a higher F1 score. Finally, we use the Tree-structured Parzen Estimator (TPE) optimization algorithm for the hyperparameters' tuning. Our final result is a reduction in the initial set of names of over 42%.
翻訳日:2024-03-25 07:36:54 公開日:2024-03-07
# DecompOpt:構造に基づく分子最適化のための可制御・分解拡散モデル

DecompOpt: Controllable and Decomposed Diffusion Models for Structure-based Molecular Optimization ( http://arxiv.org/abs/2403.13829v1 )

ライセンス: Link先を確認
Xiangxin Zhou, Xiwei Cheng, Yuwei Yang, Yu Bao, Liang Wang, Quanquan Gu, (参考訳) 近年, 3次元生成モデルは, 標的結合部位のリガンドの生成を学習することで, 構造に基づく医薬品設計において有望な性能を示した。 しかし、ターゲットリガンド分布をモデル化するだけでは、薬物発見の主要な目標の1つを達成できない。 この課題は、訓練に使用される目標リガンド対がこれらの望ましい性質と一致しない場合、特に顕著になる。 さらに、既存のほとんどの手法は \textit{de novo} の設計課題を解決することを目的としているが、R群最適化や足場ホッピングのような柔軟な制御性を必要とする多くの生成シナリオはほとんど注目されていない。 本研究では,制御可能かつ分解可能な拡散モデルに基づく構造に基づく分子最適化手法であるDecompOptを提案する。 DecompOptは、最適化と条件付き拡散モデルを組み合わせて、分子文法に固執しながら望ましい特性を達成する新しい世代パラダイムを提案する。 さらにDecompOptは、textit{de novo}設計と制御可能な生成の両方をカバーする統一されたフレームワークを提供している。 そのため、リガンドは細粒度制御と局所最適化が可能なサブ構造に分解される。 実験により、DecompOptは強いデノボ塩基よりも優れた特性を持つ分子を効率よく生成し、制御可能な生成タスクにおいて大きな可能性を示すことが示された。

Recently, 3D generative models have shown promising performances in structure-based drug design by learning to generate ligands given target binding sites. However, only modeling the target-ligand distribution can hardly fulfill one of the main goals in drug discovery -- designing novel ligands with desired properties, e.g., high binding affinity, easily synthesizable, etc. This challenge becomes particularly pronounced when the target-ligand pairs used for training do not align with these desired properties. Moreover, most existing methods aim at solving \textit{de novo} design task, while many generative scenarios requiring flexible controllability, such as R-group optimization and scaffold hopping, have received little attention. In this work, we propose DecompOpt, a structure-based molecular optimization method based on a controllable and decomposed diffusion model. DecompOpt presents a new generation paradigm which combines optimization with conditional diffusion models to achieve desired properties while adhering to the molecular grammar. Additionally, DecompOpt offers a unified framework covering both \textit{de novo} design and controllable generation. To achieve so, ligands are decomposed into substructures which allows fine-grained control and local optimization. Experiments show that DecompOpt can efficiently generate molecules with improved properties than strong de novo baselines, and demonstrate great potential in controllable generation tasks.
翻訳日:2024-03-25 07:07:37 公開日:2024-03-07
# ブリジングテキストと分子: 分子のマルチモーダルフレームワークに関する調査

Bridging Text and Molecule: A Survey on Multimodal Frameworks for Molecule ( http://arxiv.org/abs/2403.13830v1 )

ライセンス: Link先を確認
Yi Xiao, Xiangxin Zhou, Qiang Liu, Liang Wang, (参考訳) 人工知能は科学研究において大きな可能性を証明している。 分子科学の分野では、従来のコンピュータ支援パラダイムに革命をもたらし、新たなディープラーニングの時代を迎えている。 近年のマルチモーダル学習と自然言語処理の進歩により、テキストドメイン知識で分子を協調的にモデル化するマルチモーダルフレームワークの構築が目指されている。 本稿では,分子研究のためのマルチモーダルフレームワークに関する最初の体系的研究について述べる。 具体的には、分子深層学習の発展から始まり、テキストモダリティの関与の必要性を指摘する。 次に、テキスト・分子アライメント手法の最近の進歩に注目し、現在のモデルをアーキテクチャに基づいて2つのグループに分類し、関連する事前学習タスクを列挙する。 さらに, 大規模言語モデルの利用, 分子課題の促進, 創薬における重要な応用について検討した。 最後に,本分野の限界について論じ,今後の研究に向けてのいくつかの有望な方向性を強調した。

Artificial intelligence has demonstrated immense potential in scientific research. Within molecular science, it is revolutionizing the traditional computer-aided paradigm, ushering in a new era of deep learning. With recent progress in multimodal learning and natural language processing, an emerging trend has targeted at building multimodal frameworks to jointly model molecules with textual domain knowledge. In this paper, we present the first systematic survey on multimodal frameworks for molecules research. Specifically,we begin with the development of molecular deep learning and point out the necessity to involve textual modality. Next, we focus on recent advances in text-molecule alignment methods, categorizing current models into two groups based on their architectures and listing relevant pre-training tasks. Furthermore, we delves into the utilization of large language models and prompting techniques for molecular tasks and present significant applications in drug discovery. Finally, we discuss the limitations in this field and highlight several promising directions for future research.
翻訳日:2024-03-25 07:07:37 公開日:2024-03-07
# 正規化された最適輸送を伴う硬質・軟質クラスタリングのための統一的枠組み

A unified framework for hard and soft clustering with regularized optimal transport ( http://arxiv.org/abs/1711.04366v2 )

ライセンス: Link先を確認
Jean-Frédéric Diebold, Nicolas Papadakis, Arnaud Dessein, Charles-Alban Deledalle, (参考訳) 本稿では,パラメータ$\lambda\geq 0$のエントロピー正規化を用いた最適輸送問題として,離散データから有限混合モデルを推定する問題を定式化する。 我々の手法はハードとソフトのクラスタリングを統一し、期待最大化(EM)アルゴリズムは$\lambda=1$で正確に回収される。 クラスタリングアルゴリズムのファミリは、交互最小化を用いた非凸問題の解法に依存する。 一般化された$\lambda-$EMアルゴリズムの収束性について検討し、指数列の有限混合モデルを推定する際に、最小化過程の各ステップが閉じた解を持つことを示す。 実験では、推論性能を改善するためにパラメータ $\lambda>1$ と分類のための $\lambda\to 0$ の利点を強調している。

In this paper, we formulate the problem of inferring a Finite Mixture Model from discrete data as an optimal transport problem with entropic regularization of parameter $\lambda\geq 0$. Our method unifies hard and soft clustering, the Expectation-Maximization (EM) algorithm being exactly recovered for $\lambda=1$. The family of clustering algorithm we propose rely on the resolution of nonconvex problems using alternating minimization. We study the convergence property of our generalized $\lambda-$EM algorithms and show that each step in the minimization process has a closed form solution when inferring finite mixture models of exponential families. Experiments highlight the benefits of taking a parameter $\lambda>1$ to improve the inference performance and $\lambda\to 0$ for classification.
翻訳日:2024-03-17 17:28:01 公開日:2024-03-07
# 特定エミッタ識別のためのRIS支援無線リンク署名

RIS-Assisted Wireless Link Signatures for Specific Emitter Identification ( http://arxiv.org/abs/2309.07736v2 )

ライセンス: Link先を確認
Ning Gao, Shuchen Meng, Cen Li, Shengguo Meng, Wankai Tang, Shi Jin, Michail Matthaiou, (参考訳) 物理層認証(PLA)は,近い将来,多数のデバイスのアクセスセキュリティを高める,有望な技術である。 本稿では、RISのON-OFF状態を制御することで、PLA中のチャネル指紋を正規送信者がカスタマイズできる、再構成可能なインテリジェントサーフェス(RIS)支援PLAシステムを提案する。 一般性を失うことなく、受信信号強度(RSS)に基づくスプーフィング検出手法を用いて、提案アーキテクチャの有効性を解析する。 具体的には、RSSに基づいてPLAの統計特性を導出し、RIS支援PLAが理論的に実現可能であることを示す興味深い洞察を与える。 そして,提案した性能指標の文脈における性能を最大化するために,最適検出閾値を導出する。 次に,RIS支援PLAプロトタイププラットフォーム上での概念実証実験により,提案システムの実現可能性を検証する。 実験の結果,送信元が異なる場所と同一位置にある場合,それぞれ3.5%と76%の性能改善が見られた。

The physical layer authentication (PLA) is a promising technology which can enhance the access security of a massive number of devices in the near future. In this paper, we propose a reconfigurable intelligent surface (RIS)-assisted PLA system, in which the legitimate transmitter can customize the channel fingerprints during PLA by controlling the ON-OFF state of the RIS. Without loss of generality, we use the received signal strength (RSS) based spoofing detection approach to analyze the feasibility of the proposed architecture. Specifically, based on the RSS, we derive the statistical properties of PLA and give some interesting insights, which showcase that the RIS-assisted PLA is theoretically feasible. Then, we derive the optimal detection threshold to maximize the performance in the context of the presented performance metrics. Next, the actual feasibility of the proposed system is verified via proof-of-concept experiments on a RIS-assisted PLA prototype platform. The experiment results show that there are 3.5% and 76% performance improvements when the transmission sources are at different locations and at the same location, respectively.
翻訳日:2024-03-17 17:10:47 公開日:2024-03-07
# VAEMax: OpenMaxと変分オートエンコーダに基づくオープンセット侵入検出

VAEMax: Open-Set Intrusion Detection based on OpenMax and Variational Autoencoder ( http://arxiv.org/abs/2403.04193v1 )

ライセンス: Link先を確認
Zhiyin Qiu, Ding Zhou, Yahui Zhai, Bo Liu, Lei He, Jiuxin Cao, (参考訳) 未知のネットワーク攻撃を迅速に発見することは、システムや機器に課される大きな損失のリスクを低減するために重要である。 本稿では、未知の攻撃を推定するだけでなく、既知の攻撃を分類するオープンセット侵入検知モデルを開発することを目的とする。 そこで我々はOpenMaxと変分オートエンコーダを用いて二重検出モデルVAEMaxを提案する。 まず,一次元畳み込みニューラルネットワークに基づくフローペイロードの特徴を抽出する。 その後、OpenMaxはフローの分類に使用され、その間に未知の攻撃が検出され、残りは既知のフローの特定のクラスに誤って分類される。 最後に、VAEを用いて、フローのクラス毎に二次的な検出を行い、リコンストラクション損失に基づいてフローが未知の攻撃であるかどうかを判定する。 CIC-IDS2017とCSE-CIC-IDS2018で行った実験は、我々のアプローチがベースラインモデルより優れていることを示し、現実的なネットワーク環境に効果的に適用できることを示している。

Promptly discovering unknown network attacks is critical for reducing the risk of major loss imposed on system or equipment. This paper aims to develop an open-set intrusion detection model to classify known attacks as well as inferring unknown ones. To achieve this, we employ OpenMax and variational autoencoder to propose a dual detection model, VAEMax. First, we extract flow payload feature based on one-dimensional convolutional neural network. Then, the OpenMax is used to classify flows, during which some unknown attacks can be detected, while the rest are misclassified into a certain class of known flows. Finally, use VAE to perform secondary detection on each class of flows, and determine whether the flow is an unknown attack based on the reconstruction loss. Experiments performed on dataset CIC-IDS2017 and CSE-CIC-IDS2018 show our approach is better than baseline models and can be effectively applied to realistic network environments.
翻訳日:2024-03-17 16:51:18 公開日:2024-03-07
# ブロックチェーンを用いたコラボレーション型サイバーセキュリティ: 調査

Collaborative Cybersecurity Using Blockchain: A Survey ( http://arxiv.org/abs/2403.04410v1 )

ライセンス: Link先を確認
Loïc Miller, Marc-Oliver Pahl, (参考訳) 協力型サイバーセキュリティは、セキュリティを高めるために情報を共有する組織に依存しているが、信頼管理は重要な関心事である。 分散台帳のような分散ソリューション、特にブロックチェーンは、単一障害点の排除に不可欠である。 しかし、ブロックチェーンベースのコラボレーティブサイバーセキュリティに関する既存の文献は限定的であり、包括的な洞察が欠如している。 本稿は、2016年から2023年までのコラボレーティブサイバーセキュリティにおけるブロックチェーンの役割を調査することで、このギャップに対処する。 アクセス制御、データバリデーションポリシ、基盤技術、コンセンサスメカニズムに重点を置いて、さまざまなアプリケーション、トレンド、ブロックチェーン技術の進化について検討している。 重要な発見は、支配的な研究グループや会場を持たない分野の断片化である。 最近の多くのプロジェクトはブロックチェーンのコンセンサスプロトコルを貧弱に選択している。 研究者や実践者を支援するため、本稿では、特定の目的のために適切なブロックチェーンを選択するためのガイドラインを提供し、過去のブロックチェーンアプリケーションから学んだ教訓とオープンな研究領域を強調し、この分野でさらなる調査を奨励する。

Collaborative cybersecurity relies on organizations sharing information to boost security, but trust management is a key concern. Decentralized solutions like distributed ledgers, particularly blockchain, are crucial for eliminating single points of failure. However, the existing literature on blockchain-based collaborative cybersecurity is limited, lacking comprehensive insights. This paper addresses this gap by surveying blockchain's role in collaborative cybersecurity from 2016 to 2023. It explores various applications, trends, and the evolution of blockchain technology, focusing on access control, data validation policies, underlying tech, and consensus mechanisms. A key finding is the fragmentation of the field with no dominant research group or venue. Many recent projects poorly select consensus protocols for their blockchain. To aid researchers and practitioners, this paper offers guidelines for choosing the right blockchain for specific purposes and highlights open research areas and lessons learned from past blockchain applications in collaborative cybersecurity, encouraging further exploration in this field.
翻訳日:2024-03-17 16:51:18 公開日:2024-03-07
# 没入型コーディングによるクラウドコンピューティングのプライバシ

Privacy in Cloud Computing through Immersion-based Coding ( http://arxiv.org/abs/2403.04485v1 )

ライセンス: Link先を確認
Haleh Hayati, Nathan van de Wouw, Carlos Murguia, (参考訳) クラウドコンピューティングにより、ユーザはインターネット上でデータを共有することによって、高性能コンピュータやサーバ上でデータをリモートで処理し、保存することができる。 しかし、データをクラウドに転送することは、避けられないプライバシー上の懸念を引き起こす。 本稿では、データユーティリティとアルゴリズム性能を犠牲にすることなく、プライバシ保護方式でデータの共有と処理を可能にするコーディング機構の設計のための合成フレームワークを提案する。 ユーザがプライベートデータを使ってクラウド上でアルゴリズムを実行するためのセットアップを検討する。 クラウドは、いくつかのデータユーティリティをユーザに返します(ユーティリティは、アルゴリズムが提供するサービス、例えば、分類、予測、AIモデルなどを指します)。 プライバシー上の懸念を避けるため、提案されたスキームは、共同設計のためのツールを提供する。 1) 原データを歪曲し,所定の差分プライバシーレベルを保証するための符号化機構 2) 歪んだデータ上で動作し、歪んだユーティリティを生成する等分差分アルゴリズム(ここでは対象アルゴリズムと呼ぶ) 3)歪んだものから真の有用性を無視可能な誤りで抽出する復号機能。 そして、元のデータとアルゴリズムをクラウドと共有する代わりに、歪んだデータとターゲットのアルゴリズムだけが開示されるため、プライバシー上の懸念は回避される。 提案手法は,制御理論に基づく差分プライバシとシステム浸漬ツールの相乗効果に基づいて構築される。 鍵となる考え方は、元のアルゴリズムのすべての軌跡を埋め込んだ高次元ターゲットアルゴリズムを設計し、ランダムに符号化されたデータに基づいてランダムに符号化されたユーティリティを生成することである。 提案手法は,アルゴリズムの有用性を損なうことなく,任意のレベルの差分プライバシーを提供するように設計されていることを示す。 本稿では,最適化/学習アルゴリズムにおけるプライバシと非線形ネットワーク制御システムという,開発ツールの性能を示す2つのユースケースを提案する。

Cloud computing enables users to process and store data remotely on high-performance computers and servers by sharing data over the Internet. However, transferring data to clouds causes unavoidable privacy concerns. Here, we present a synthesis framework to design coding mechanisms that allow sharing and processing data in a privacy-preserving manner without sacrificing data utility and algorithmic performance. We consider the setup where the user aims to run an algorithm in the cloud using private data. The cloud then returns some data utility back to the user (utility refers to the service that the algorithm provides, e.g., classification, prediction, AI models, etc.). To avoid privacy concerns, the proposed scheme provides tools to co-design: 1) coding mechanisms to distort the original data and guarantee a prescribed differential privacy level; 2) an equivalent-but-different algorithm (referred here to as the target algorithm) that runs on distorted data and produces distorted utility; and 3) a decoding function that extracts the true utility from the distorted one with a negligible error. Then, instead of sharing the original data and algorithm with the cloud, only the distorted data and target algorithm are disclosed, thereby avoiding privacy concerns. The proposed scheme is built on the synergy of differential privacy and system immersion tools from control theory. The key underlying idea is to design a higher-dimensional target algorithm that embeds all trajectories of the original algorithm and works on randomly encoded data to produce randomly encoded utility. We show that the proposed scheme can be designed to offer any level of differential privacy without degrading the algorithm's utility. We present two use cases to illustrate the performance of the developed tools: privacy in optimization/learning algorithms and a nonlinear networked control system.
翻訳日:2024-03-17 16:51:18 公開日:2024-03-07
# 時間を考慮した予測:連続観測による真にノード固有のグラフ統計

Time-Aware Projections: Truly Node-Private Graph Statistics under Continual Observation ( http://arxiv.org/abs/2403.04630v1 )

ライセンス: Link先を確認
Palak Jain, Adam Smith, Connor Wagaman, (参考訳) 本稿では,ノード差分プライバシの標準概念を連続的なリリース設定で満たすアルゴリズムについて述べる。 従来の作業は、グラフの最大度に対して強制されない約束を仮定することで、ノードプライベートなリリースに対処する。 我々のアルゴリズムは疎グラフ上で正確であり、エッジ、三角形、その他の部分グラフ、連結成分の計数、等級ヒストグラムの放出など、いくつかの基本的なグラフ問題に対して正確である。 我々の非条件プライベートアルゴリズムは一般に、多対数係数と低次項を含む最適誤差を持つ。 我々は、約束される次数境界を満たすストリームに対してのみプライベートである必要のある連続リリース設定のベースアルゴリズムを基本変換とし、ストリームが次数境界を満たすときにベースアルゴリズムを非条件で模倣するアルゴリズムを生成する(そして、ベースアルゴリズムの時間と空間の複雑さに線形オーバーヘッドのみを加える)。 そこで我々は,Day et al 2016とBlocki et al 2013のバッチモデルに基づく,グラフストリームの新しいプロジェクションアルゴリズムを設計した。 我々の主要な技術的革新は、入力ストリームがプライベートにテスト可能な安全条件を満たすとき、プロジェクションが安定していること(つまり、類似の入力グラフが同様のプロジェクションを持っていること)を示すことです。 当社のトランスフォーメーションは、Propose-Test-Releaseフレームワーク(Dwork and Lei, 2009)の新たなオンライン版に従い、各ステップで出力をリリースする前に、安全条件をプライベートにテストします。

We describe the first algorithms that satisfy the standard notion of node-differential privacy in the continual release setting (i.e., without an assumed promise on input streams). Previous work addresses node-private continual release by assuming an unenforced promise on the maximum degree in a graph; indeed, the algorithms from these works exhibit blatant privacy violations when the degree bound is not met. Our algorithms are accurate on sparse graphs, for several fundamental graph problems: counting edges, triangles, other subgraphs, and connected components; and releasing degree histograms. Our unconditionally private algorithms generally have optimal error, up to polylogarithmic factors and lower-order terms. We provide general transformations that take a base algorithm for the continual release setting, which need only be private for streams satisfying a promised degree bound, and produce an algorithm that is unconditionally private yet mimics the base algorithm when the stream meets the degree bound (and adds only linear overhead to the time and space complexity of the base algorithm). To do so, we design new projection algorithms for graph streams, based on the batch-model techniques of Day et al. 2016 and Blocki et al. 2013, which modify the stream to limit its degree. Our main technical innovation is to show that the projections are stable -- meaning that similar input graphs have similar projections -- when the input stream satisfies a privately testable safety condition. Our transformation then follows a novel online variant of the Propose-Test-Release framework (Dwork and Lei, 2009), privately testing the safety condition before releasing output at each step.
翻訳日:2024-03-17 16:51:18 公開日:2024-03-07
# 「そうなのか?」:画像による性的虐待に対する予防的保護によるデジタル親密性保護

"Did They Consent to That?": Safer Digital Intimacy via Proactive Protection Against Image-Based Sexual Abuse ( http://arxiv.org/abs/2403.04659v1 )

ライセンス: Link先を確認
Lucy Qin, Vaughn Hamilton, Sharon Wang, Yigit Aydinalp, Marin Scarlett, Elissa M. Redmiles, (参考訳) 成人10人に8人がヌード画像やレウド画像などの親密なコンテンツを共有している。 このようなコンテンツを共有することは、関係の親密さと身体像に大きな利益をもたらし、雇用を提供する。 しかし、態度の厳格化と技術的な緩和の欠如により、そのようなコンテンツをシェアする人々は性的暴力のリスクに晒された。 推定3人に1人が画像に基づく性的虐待(IBSA)を受けており、これは非合意的な配布や、合意によって作成された親密なコンテンツ(NDIIとも呼ばれる)の配布の脅威を含む暴力のスペクトルである。 本研究では,ヨーロッパ人52人の親密なコンテンツ制作者を対象に,親密なコンテンツ共有の異なる利用事例の文脈と,それらのコンテンツを保存・共有する技術の選択を背景として,彼らが直面している脅威とそれらに対する防御方法について,厳密なインタビューを行った。 本研究は,NDIIの技術的防止に関する先行研究の限定的な部分と組み合わせて,プラットフォームとセキュリティ・プライバシ研究者の双方にとって,積極的な保護を通じて,より安全な親密なコンテンツ共有に向けた具体的な次のステップを提供する。

As many as 8 in 10 adults share intimate content such as nude or lewd images. Sharing such content has significant benefits for relationship intimacy and body image, and can offer employment. However, stigmatizing attitudes and a lack of technological mitigations put those sharing such content at risk of sexual violence. An estimated 1 in 3 people have been subjected to image-based sexual abuse (IBSA), a spectrum of violence that includes the nonconsensual distribution or threat of distribution of consensually-created intimate content (also called NDII). In this work, we conducted a rigorous empirical interview study of 52 European creators of intimate content to examine the threats they face and how they defend against them, situated in the context of their different use cases for intimate content sharing and their choice of technologies for storing and sharing such content. Synthesizing our results with the limited body of prior work on technological prevention of NDII, we offer concrete next steps for both platforms and security & privacy researchers to work toward safer intimate content sharing through proactive protection.
翻訳日:2024-03-17 16:51:18 公開日:2024-03-07
# 差動式私設施設における下界改善

Improved Lower Bound for Differentially Private Facility Location ( http://arxiv.org/abs/2403.04874v1 )

ライセンス: Link先を確認
Pasin Manurangsi, (参考訳) 我々はGuptaらによるいわゆるスーパーセット出力設定(SODA 2010)における差分プライベート(DP)施設配置問題について考察する。 現在最も知られている$\epsilon$-DPアルゴリズムの近似比は$O\left(\frac{\log n}{\sqrt{\epsilon}}\right)$である。 Cohen-Addad et al [AISTATS 2022] による。 本稿では、任意の$\epsilon$-DPアルゴリズムの予想近似比に対して、$\tilde{\Omega}\left(\min\left\{\log n, \sqrt{\frac{\log n}{\epsilon}}\right\right)$を与える。

We consider the differentially private (DP) facility location problem in the so called super-set output setting proposed by Gupta et al. [SODA 2010]. The current best known expected approximation ratio for an $\epsilon$-DP algorithm is $O\left(\frac{\log n}{\sqrt{\epsilon}}\right)$ due to Cohen-Addad et al. [AISTATS 2022] where $n$ denote the size of the metric space, meanwhile the best known lower bound is $\Omega(1/\sqrt{\epsilon})$ [NeurIPS 2019]. In this short note, we give a lower bound of $\tilde{\Omega}\left(\min\left\{\log n, \sqrt{\frac{\log n}{\epsilon}}\right\}\right)$ on the expected approximation ratio of any $\epsilon$-DP algorithm, which is the first evidence that the approximation ratio has to grow with the size of the metric space.
翻訳日:2024-03-17 16:51:18 公開日:2024-03-07
# 法医学的3次元フィンガープリントにおける安全な情報埋め込みと抽出

Secure Information Embedding and Extraction in Forensic 3D Fingerprinting ( http://arxiv.org/abs/2403.04918v1 )

ライセンス: Link先を確認
Canran Wang, Jinwen Wang, Mi Zhou, Vinh Pham, Senyue Hao, Chao Zhou, Ning Zhang, Netanel Raviv, (参考訳) 3Dプリンティングの流行は、インターネットアクセスとコモディティプリンタが追跡不能な銃器、キー、偽造品などを製造できるため、公衆の安全に重大なリスクをもたらす。 政府当局がこれらの新たなセキュリティ脅威と戦うのを助けるために、情報を識別する3Dプリントのタグ付けにいくつかのアプローチが取られている。 指紋として知られるこの情報は、様々なビット埋め込み技術を用いてオブジェクトに書き込まれ、例えば、溶融熱可塑性層の高さの変化や、磁気特性の異なる金属粉末の堆積などである。 しかし、現実の法医学的な環境でのこれらの手法の実践性は、この問題の逆境性によって妨げられている。 つまり、3Dプリンティングのプロセスは、いかなる法執行機関にも及ばず、印刷のあらゆる側面を制御し、印刷物を保有する敵である。 これらの脅威に対処するため、法執行機関は指紋認証を強制する3Dプリンターの製造を規制し、法医学的な調査中に敵に改ざんされた遺物(例:壊れた3Dプリント銃の破片)を収集することができる。 そのため、敵が印刷を行っても指紋を抽出できるように指紋認証技術を考案することが重要である。 そこで我々は,3Dプリントにおける法医学的フィンガープリントの相反する性質に対処する指紋抽出フレームワークであるSIDE(Secure Information Embedding and extract)を,セキュアな情報埋め込みとセキュアな情報抽出の両方を提供して提案する。

The prevalence of 3D printing poses a significant risk to public safety, as any individual with internet access and a commodity printer is able to produce untraceable firearms, keys, counterfeit products, etc. To aid government authorities in combating these new security threats, several approaches have been taken to tag 3D-prints with identifying information. Known as fingerprints, this information is written into the object using various bit embedding techniques; examples include varying the height of the molten thermoplastic layers, and depositing metallic powder with different magnetic properties. Yet, the practicality of theses techniques in real-world forensic settings is hindered by the adversarial nature of this problem. That is, the 3D-printing process is out of reach of any law enforcement agencies; it is the adversary who controls all aspects of printing and possesses the printed object. To combat these threats, law enforcement agencies can regulate the manufacturing of 3D printers, on which they may enforce a fingerprinting scheme, and collect adversarially tampered remains (e.g., fragments of a broken 3D-printed firearm) during forensic investigation. Therefore, it is important to devise fingerprinting techniques so that the fingerprint could be extracted even if printing is carried out by the adversary. To this end, we present SIDE (Secure Information Embedding and Extraction), a fingerprinting framework that tackles the adversarial nature of forensic fingerprinting in 3D prints by offering both secure information embedding and secure information extraction.
翻訳日:2024-03-17 16:41:26 公開日:2024-03-07
# 凸メッセージパッシングアルゴリズムの固定点への収束

Convergence of Some Convex Message Passing Algorithms to a Fixed Point ( http://arxiv.org/abs/2403.07004v1 )

ライセンス: Link先を確認
Vaclav Voracek, Tomas Werner(参考訳) グラフィカルモデルにおけるMAP推論問題に対する一般的なアプローチは、双対線形計画法や(ブロック-)座標降下によるラグランジュ緩和から得られる上限を最小化することである。 そのようなアルゴリズムの例としては、最大拡散と逐次木重み付きメッセージパッシングがある。 これらの手法の収束性は現在完全には理解されていない。 それらは、活性制約の局所的な一貫性と未知の収束率によって特徴づけられる集合に収束することが証明されているが、イテレートが(任意の単一点へ)完全に収束するかどうかは明らかではない。 より強い結果(以前は予想されていたが、証明されなかった):イテレートはアルゴリズムの不動点に収束する。 さらに、精度$\varepsilon>0$ in $\mathcal{O}(1/\varepsilon)$ iterations が得られることを示す。 まず, 一般のファイン凸対象物に適用した座標降下法を, 新規な証明手法を用いて検証する。 次に,本手法の汎用性を示すために,一般的な座標拡散アルゴリズムをこの問題に還元する。 最後に、我々の主な結果とは対照的に、制約付き最適化問題に適用された座標降下の類似バージョンは収束する必要はないことを示す。

A popular approach to the MAP inference problem in graphical models is to minimize an upper bound obtained from a dual linear programming or Lagrangian relaxation by (block-)coordinate descent. Examples of such algorithms are max-sum diffusion and sequential tree-reweighted message passing. Convergence properties of these methods are currently not fully understood. They have been proved to converge to the set characterized by local consistency of active constraints, with unknown convergence rate; however, it was not clear if the iterates converge at all (to any single point). We prove a stronger result (which was conjectured before but never proved): the iterates converge to a fixed point of the algorithm. Moreover, we show that they achieve precision $\varepsilon>0$ in $\mathcal{O}(1/\varepsilon)$ iterations. We first prove this for a version of coordinate descent applied to a general piecewise-affine convex objective, using a novel proof technique. Then we demonstrate the generality of this approach by reducing some popular coordinate-descent algorithms to this problem. Finally we show that, in contrast to our main result, a similar version of coordinate descent applied to a constrained optimization problem need not converge.
翻訳日:2024-03-14 00:26:44 公開日:2024-03-07
# スマートシティワイドインテリジェント緊急対応システムのための避難管理枠組み

Evacuation Management Framework towards Smart City-wide Intelligent Emergency Interactive Response System ( http://arxiv.org/abs/2403.07003v1 )

ライセンス: Link先を確認
Anuj Abraham and Yi Zhang and Shitala Prasad(参考訳) 将来の6gネットワーク展開に向けたスマートシティソリューションは、中小企業(smes)、業界、政府機関がインフラと接続し、高度なセンサーによる緊急対応を強化する上で重要な役割を果たす。 本研究の目的は、既存の緊急対応システムをインテリジェントな対話システムに転換し、在宅、道路、病院、交通ハブ等における公共サービスと生活の質を向上させるための、協調した一連の技術ソリューションを提案することである。 この文脈では,生活に密接な関係を持つ3つの異なるアプリケーションシーンからの都市ワイドビューを考察し,関連する部署のアクションを最適化する。 そのため、次世代の自動車体験を実現するために人工知能(ai)と機械学習(ml)技術を用いて、特に屋内、都市部、大規模公共施設で発生した事故に焦点を当てている。 このスマートインタラクティブ応答システムは、リアルタイム動的モデルを作成することによって、高度なセンサー融合とaiの恩恵を受ける。

A smart city solution toward future 6G network deployment allows small and medium sized enterprises (SMEs), industry, and government entities to connect with the infrastructures and play a crucial role in enhancing emergency preparedness with advanced sensors. The objective of this work is to propose a set of coordinated technological solutions to transform an existing emergency response system into an intelligent interactive system, thereby improving the public services and the quality of life for residents at home, on road, in hospitals, transport hubs, etc. In this context, we consider a city wide view from three different application scenes that are closely related to peoples daily life, to optimize the actions taken at relevant departments. Therefore, using artificial intelligence (AI) and machine learning (ML) techniques to enable the next generation connected vehicle experiences, we specifically focus on accidents happening in indoor households, urban roads, and at large public facilities. This smart interactive response system will benefit from advanced sensor fusion and AI by formulating a real time dynamic model.
翻訳日:2024-03-14 00:26:24 公開日:2024-03-07
# 機能的転写ネットワークの伝達学習による細胞再プログラミング設計

Cell reprogramming design by transfer learning of functional transcriptional networks ( http://arxiv.org/abs/2403.04837v1 )

ライセンス: Link先を確認
Thomas P. Wytock and Adilson E. Motter(参考訳) 合成生物学、次世代シークエンシング、機械学習における最近の進歩は、遺伝子変異や薬物による細胞再プログラムに対する測定された反応に基づいて、新しい疾患治療を合理的に設計する前例のない機会を提供する。 この機会を奪取するための主な課題は、細胞ネットワークの不完全な知識と、実験によって克服できない、潜在的介入の組合せ的な爆発である。 これらの課題に対処するため,我々は,ヒト細胞運命に関連する転写学データに基づいて事前学習された細胞行動制御のためのトランスファーラーニング手法を開発し,それによって,特定の再プログラミング目標に伝達可能なネットワークダイナミクスのモデルを生成する。 このアプローチは、遺伝子摂動に対する転写応答を組み合わせて、与えられた初期状態とターゲットの転写状態の差を最小限に抑える。 54種類の細胞と227個の独特な摂動からなる9000マイクロアレイデータセットと、36種類の細胞と138個の摂動からなる10000以上のシーケンシング実行からなるrnaseqデータセットに適用することにより、このアプローチの汎用性を示す。 提案手法は,AUROCが0.91の既知再プログラミングプロトコルを再現すると同時に,特定の再プログラミング遷移に合わせて適応可能なモデルを事前学習することで,既存の手法を革新する。 発達的関連性が低下するにつれて,ある運命から別の運命へと作用するために必要な遺伝子摂動の数は増加し,レグレッシブよりも発達経路に沿って進行する遺伝子が少なくなることが示された。 これらの知見は、制御戦略を計算的に設計し、遺伝子制御ネットワークが表現型を管理する方法に関する洞察を提供するための、我々のアプローチの実証となる。

Recent developments in synthetic biology, next-generation sequencing, and machine learning provide an unprecedented opportunity to rationally design new disease treatments based on measured responses to gene perturbations and drugs to reprogram cells. The main challenges to seizing this opportunity are the incomplete knowledge of the cellular network and the combinatorial explosion of possible interventions, both of which are insurmountable by experiments. To address these challenges, we develop a transfer learning approach to control cell behavior that is pre-trained on transcriptomic data associated with human cell fates, thereby generating a model of the network dynamics that can be transferred to specific reprogramming goals. The approach combines transcriptional responses to gene perturbations to minimize the difference between a given pair of initial and target transcriptional states. We demonstrate our approach's versatility by applying it to a microarray dataset comprising >9,000 microarrays across 54 cell types and 227 unique perturbations, and an RNASeq dataset consisting of >10,000 sequencing runs across 36 cell types and 138 perturbations. Our approach reproduces known reprogramming protocols with an AUROC of 0.91 while innovating over existing methods by pre-training an adaptable model that can be tailored to specific reprogramming transitions. We show that the number of gene perturbations required to steer from one fate to another increases with decreasing developmental relatedness and that fewer genes are needed to progress along developmental paths than to regress. These findings establish a proof-of-concept for our approach to computationally design control strategies and provide insights into how gene regulatory networks govern phenotype.
翻訳日:2024-03-13 13:19:01 公開日:2024-03-07
# 密度回帰:分布シフトによる不確かさ推定のための効率的かつ距離認識型深回帰器

Density-Regression: Efficient and Distance-Aware Deep Regressor for Uncertainty Estimation under Distribution Shifts ( http://arxiv.org/abs/2403.05600v1 )

ライセンス: Link先を確認
Manh Ha Bui and Anqi Liu(参考訳) morden deep ensemblesテクニックは、異なるモデルを持つ複数のフォワードパスを通り抜けて、強い不確実性推定性能を達成する。 これは、高いストレージスペースと推論(テスト)時間の遅いスピードの値段です。 そこで本研究では, 不確実性推定において密度関数を活用し, 単一のフォワードパスによる高速推定を実現する密度回帰法を提案する。 分布シフト下では、ニューラルネットワークが高品質の不確実性推定を行うために必要な条件である特徴空間に距離を認識できることを実証する。 実験では,立方体玩具のデータセットを用いた回帰作業,UCIのベンチマーク,時系列による天気予報,実世界シフトによる深度推定実験を行った。 密度回帰は, モデルサイズを小さくし, 予測速度を高速化しつつ, 現代のディープレグレプタを用いた分布シフト下での競合的不確実性推定性能を有することを示す。

Morden deep ensembles technique achieves strong uncertainty estimation performance by going through multiple forward passes with different models. This is at the price of a high storage space and a slow speed in the inference (test) time. To address this issue, we propose Density-Regression, a method that leverages the density function in uncertainty estimation and achieves fast inference by a single forward pass. We prove it is distance aware on the feature space, which is a necessary condition for a neural network to produce high-quality uncertainty estimation under distribution shifts. Empirically, we conduct experiments on regression tasks with the cubic toy dataset, benchmark UCI, weather forecast with time series, and depth estimation under real-world shifted applications. We show that Density-Regression has competitive uncertainty estimation performance under distribution shifts with modern deep regressors while using a lower model size and a faster inference speed.
翻訳日:2024-03-13 13:12:13 公開日:2024-03-07
# 境界付きサポートによるガウス機構のプライバシ増幅

Privacy Amplification for the Gaussian Mechanism via Bounded Support ( http://arxiv.org/abs/2403.05598v1 )

ライセンス: Link先を確認
Shengyuan Hu, Saeed Mahloujifar, Virginia Smith, Kamalika Chaudhuri, Chuan Guo(参考訳) per-instance differential privacy(pdp)やfisher information loss(fil)といったデータ依存のプライバシー会計フレームワークは、固定トレーニングデータセット内の個人に対する詳細なプライバシー保証を提供する。 これらの保証は、最悪のデータセットを考慮せずに、$\textit{specific}$ individual in a $\textit{actual}$ datasetのプライバシーリークを厳しく上位にバウンドしている、実世界のバニラDPと比較して望ましい。 これらのフレームワークは人気を得始めているが、これまでは、データ依存会計の利点を完全に活用できるプライベートなメカニズムが欠如している。 このギャップを埋めるため,データ依存会計下でのプライバシー保証を向上することを示すとともに,境界付きサポートによるガウス機構の簡単な修正を提案する。 DP-SGDを用いたモデルトレーニング実験により,有界支持ガウス機構を用いることで,モデル実用性に悪影響を与えることなく,最大30%のpDPバウンドを削減できることが示された。

Data-dependent privacy accounting frameworks such as per-instance differential privacy (pDP) and Fisher information loss (FIL) confer fine-grained privacy guarantees for individuals in a fixed training dataset. These guarantees can be desirable compared to vanilla DP in real world settings as they tightly upper-bound the privacy leakage for a $\textit{specific}$ individual in an $\textit{actual}$ dataset, rather than considering worst-case datasets. While these frameworks are beginning to gain popularity, to date, there is a lack of private mechanisms that can fully leverage advantages of data-dependent accounting. To bridge this gap, we propose simple modifications of the Gaussian mechanism with bounded support, showing that they amplify privacy guarantees under data-dependent accounting. Experiments on model training with DP-SGD show that using bounded support Gaussian mechanisms can provide a reduction of the pDP bound $\epsilon$ by as much as 30% without negative effects on model utility.
翻訳日:2024-03-13 13:11:58 公開日:2024-03-07
# AdvQuNN:準進化型ニューラルネットワークの逆ロバスト性解析手法

AdvQuNN: A Methodology for Analyzing the Adversarial Robustness of Quanvolutional Neural Networks ( http://arxiv.org/abs/2403.05596v1 )

ライセンス: Link先を確認
Walid El Maouaki, Alberto Marchisio, Taoufik Said, Mohamed Bennai, Muhammad Shafique(参考訳) 量子コンピューティングの最近の進歩は、クオン進化ニューラルネットワーク(QuNN)のような量子層と古典的な層を混合したハイブリッド量子ニューラルネットワーク(HQNN)の開発につながっている。 敵対的な攻撃など、古典的なニューラルネットワークのセキュリティの脅威を示すいくつかの研究があるが、qunnへの影響はいまだに未解明である。 この作業は、QuNNのようなHQNNの敵攻撃に対する堅牢性を調べる特殊な方法論であるAdvQuNNを設計することで、この問題に対処する。 パラメトリズド量子回路として様々な種類のアンサtzeと、様々な種類の敵対攻撃を用いる。 本研究は,量子回路アーキテクチャがqunnモデルの弾力性に与える影響を厳密に評価することを目的としており,qunnのロバスト性向上と量子サイバーセキュリティの分野の進展のための新たな経路を開拓する。 その結果,従来の畳み込みネットワークと比較して,MNISTでは最大60倍,FMNISTでは40倍の堅牢性が得られることがわかった。

Recent advancements in quantum computing have led to the development of hybrid quantum neural networks (HQNNs) that employ a mixed set of quantum layers and classical layers, such as Quanvolutional Neural Networks (QuNNs). While several works have shown security threats of classical neural networks, such as adversarial attacks, their impact on QuNNs is still relatively unexplored. This work tackles this problem by designing AdvQuNN, a specialized methodology to investigate the robustness of HQNNs like QuNNs against adversarial attacks. It employs different types of Ansatzes as parametrized quantum circuits and different types of adversarial attacks. This study aims to rigorously assess the influence of quantum circuit architecture on the resilience of QuNN models, which opens up new pathways for enhancing the robustness of QuNNs and advancing the field of quantum cybersecurity. Our results show that, compared to classical convolutional networks, QuNNs achieve up to 60\% higher robustness for the MNIST and 40\% for FMNIST datasets.
翻訳日:2024-03-13 13:11:36 公開日:2024-03-07
# 従来の機械学習とディープラーニングを用いた歩行位相検出の比較

Comparison of gait phase detection using traditional machine learning and deep learning techniques ( http://arxiv.org/abs/2403.05595v1 )

ライセンス: Link先を確認
Farhad Nazari, Navid Mohajer, Darius Nahavandi, and Abbas Khosravi(参考訳) 人間の歩行は、身体内の様々なシステム間の高いレベルの協力と相互作用を持つ複雑な活動である。 歩行の位相をリアルタイムで正確に検出することは、外骨格や義肢などの下肢補助装置を制御するのに不可欠である。 歩行歩行の位相を検出する方法はいくつかあり、カメラや深度センサーからデバイス本体や人体に取り付けられたセンサーまで様々である。 筋電図 (EMG) は、その正確さと神経筋活動と筋運動の時間遅延により多くの注意を引いた入力手法の1つである。 本研究では,人間歩行のための低レベルEMGデータに基づく機械学習(ML)モデルを提案する。 提案モデルは,Gaussian Naive Bayes (NB), Decision Tree (DT), Random Forest (RF), Linear Discriminant Analysis (LDA), Deep Convolutional Neural Networks (DCNN)に基づく。 従来のMLモデルは、プリンシパルコンポーネント分析(PCA)を使用して手作りのフィーチャや、それらの削減されたコンポーネントに基づいて訓練されている。 逆にDCNNモデルは、畳み込み層を利用して生データから特徴を抽出する。 その結果,従来のMLモデルでは75%,ディープラーニング(DL)モデルでは79%の精度が得られた。 訓練用DLモデルの50試験における最高精度は89.5%である。

Human walking is a complex activity with a high level of cooperation and interaction between different systems in the body. Accurate detection of the phases of the gait in real-time is crucial to control lower-limb assistive devices like exoskeletons and prostheses. There are several ways to detect the walking gait phase, ranging from cameras and depth sensors to the sensors attached to the device itself or the human body. Electromyography (EMG) is one of the input methods that has captured lots of attention due to its precision and time delay between neuromuscular activity and muscle movement. This study proposes a few Machine Learning (ML) based models on lower-limb EMG data for human walking. The proposed models are based on Gaussian Naive Bayes (NB), Decision Tree (DT), Random Forest (RF), Linear Discriminant Analysis (LDA) and Deep Convolutional Neural Networks (DCNN). The traditional ML models are trained on hand-crafted features or their reduced components using Principal Component Analysis (PCA). On the contrary, the DCNN model utilises convolutional layers to extract features from raw data. The results show up to 75% average accuracy for traditional ML models and 79% for Deep Learning (DL) model. The highest achieved accuracy in 50 trials of the training DL model is 89.5%.
翻訳日:2024-03-13 13:11:17 公開日:2024-03-07
# 可視化のためのイメージベースタイポロジー

An Image-based Typology for Visualization ( http://arxiv.org/abs/2403.05594v1 )

ライセンス: Link先を確認
Jian Chen and Petra Isenberg and Robert S. Laramee and Tobias Isenberg and Michael Sedlmair and Torsten Moeller and Rui Li(参考訳) 本稿では,画像からの視覚的表現の質的分析結果について考察する。 それぞれの画像の本質的な刺激をラベル付けし、それを除去すると、視覚化は解釈不能になります。 その結果,定義群を可視化する10種類の型を導出する。 私たちが関わった類型論の導出過程について述べる。 The resulting typology and image analysis can serve a number of purposes: enabling researchers to study the evolution of the community and its research output over time, facilitating the categorization of visualization images for the purpose of research and teaching, allowing researchers and practitioners to identify visual design styles to further align the quantification of any visual information processor, be that a person or an algorithm observer, and it facilitates a discussion of standardization in visualization. 画像からの可視化タイポロジーに加えて,6,833枚のタグ付き画像のデータセットと,ラベル付き画像の大規模集合を探索および解析するためのオンラインツールを提供する。 ツールとデータセットは、学者が使用する多様なビジュアルデザインと、コミュニティ内でどのように公開され、コミュニケーションされるかを詳細に調べることを可能にする。 事前登録、この論文の無料コピー、および全ての補足材料はosf.io/dxjwtで入手できる。

We present and discuss the results of a qualitative analysis of visual representations from images. We labeled each image's essential stimuli, the removal of which would render a visualization uninterpretable. As a result, we derive a typology of 10 visualization types of defined groups. We describe the typology derivation process in which we engaged. The resulting typology and image analysis can serve a number of purposes: enabling researchers to study the evolution of the community and its research output over time, facilitating the categorization of visualization images for the purpose of research and teaching, allowing researchers and practitioners to identify visual design styles to further align the quantification of any visual information processor, be that a person or an algorithm observer, and it facilitates a discussion of standardization in visualization. In addition to the visualization typology from images, we provide a dataset of 6,833 tagged images and an online tool that can be used to explore and analyze the large set of labeled images. The tool and data set enable scholars to closely examine the diverse visual designs used and how they are published and communicated in our community. A pre-registration, a free copy of this paper, and all supplemental materials are available via osf.io/dxjwt.
翻訳日:2024-03-13 13:10:59 公開日:2024-03-07
# 商品の差別化としての形状:フォント市場分析に埋め込まれたニューラルネットワーク

Shapes as Product Differentiation: Neural Network Embedding in the Analysis of Markets for Fonts ( http://arxiv.org/abs/2107.02739v2 )

ライセンス: Link先を確認
Sukjin Han, Eric H. Schulman, Kristen Grauman, and Santhosh Ramakrishnan(参考訳) 多くの差別化された製品には、非構造化で高次元(例えば、設計、テキスト)のキー属性がある。 経済モデルにおいて、非構造化属性を観測不能として扱う代わりに、それらを定量化することは、興味深い経済問題に答えることが重要である。 この種の製品の分析フレームワークを提案するため,本論文では,最もシンプルなデザイン製品であるフォントの1つを考察し,世界最大規模のオンラインフォント市場からのオリジナルデータセットを用いたマージと製品差別化について検討する。 深層畳み込みニューラルネットワークから埋め込みを構成することでフォント形状を定量化する。 各埋め込みはフォントの形状を低次元ベクトルにマッピングする。 結果として得られる製品領域では、デザイナーはホテル型空間競技に参加すると仮定される。 画像埋め込みから、デザインの差別化の度合いを捉える2つの代替手段を構築する。 次に,合併の因果関係が合併企業の創造的意思決定に及ぼす影響を,合成制御法を用いて検討した。 合併により、合併会社はフォントデザインの視覚的多様性を増すことになる。 特に、構造化データから構築された製品提供(仕様や製品数など)の伝統的な尺度を使用する場合、このような効果は捉えられません。

Many differentiated products have key attributes that are unstructured and thus high-dimensional (e.g., design, text). Instead of treating unstructured attributes as unobservables in economic models, quantifying them can be important to answer interesting economic questions. To propose an analytical framework for these types of products, this paper considers one of the simplest design products-fonts-and investigates merger and product differentiation using an original dataset from the world's largest online marketplace for fonts. We quantify font shapes by constructing embeddings from a deep convolutional neural network. Each embedding maps a font's shape onto a low-dimensional vector. In the resulting product space, designers are assumed to engage in Hotelling-type spatial competition. From the image embeddings, we construct two alternative measures that capture the degree of design differentiation. We then study the causal effects of a merger on the merging firm's creative decisions using the constructed measures in a synthetic control method. We find that the merger causes the merging firm to increase the visual variety of font design. Notably, such effects are not captured when using traditional measures for product offerings (e.g., specifications and the number of products) constructed from structured data.
翻訳日:2024-03-12 00:00:54 公開日:2024-03-07
# novoゲノムアセンブラの強化学習に向けて

A step toward a reinforcement learning de novo genome assembler ( http://arxiv.org/abs/2102.02649v4 )

ライセンス: Link先を確認
Kleber Padovani, Roberto Xavier, Rafael Cabral Borges, Andre Carvalho, Anna Reali, Annie Chateau, Ronnie Alves(参考訳) de novoゲノムアセンブリーは、ゲノム学において関連するが計算的に複雑なタスクである。 de novoアセンブラはいくつかのゲノミクスプロジェクトでうまく使われているが、「最高のアセンブラ」は存在せず、アセンブラの選択とセットアップは依然としてバイオインフォマティクスの専門家に依存している。 したがって、他の計算に複雑な問題と同様に、機械学習はより正確で自動化されたアセンブラを開発するための代替(または補完)方法として現れるかもしれない。 強化学習は、監督なしで複雑なアクティビティ(そのようなゲーム)を解決できることが証明されており、dfa問題のような「現実的な」問題に対するこのアプローチの限界を理解する必要がある。 本研究は, ゲノム組立における強化学習(RL)を用いた機械学習の応用に光を当てることを目的とした。 本稿では,Q-learningアルゴリズムを用いた知的エージェントの学習面を慎重に検討することにより,本問題の解決に向け,文献で見られる唯一のアプローチを拡張した上で,自動ゲノム組立の次のステップについて考察した。 我々は報奨システムを改良し、プルーニングと進化コンピューティングとの協調による状態空間の探索を最適化した。 新しいアプローチを23の大規模環境でテストしましたが、すべてインターネット上で利用可能です。 結果から一貫した性能向上が示唆されたが,特に状態空間と行動空間の高次元性には限界が認められた。 最後に, 深層強化学習を含むRLアプリケーションの成功を考慮した実シナリオにおいて, 効率的かつ自動化されたゲノム組立を実現するための経路について論じる。

De novo genome assembly is a relevant but computationally complex task in genomics. Although de novo assemblers have been used successfully in several genomics projects, there is still no 'best assembler', and the choice and setup of assemblers still rely on bioinformatics experts. Thus, as with other computationally complex problems, machine learning may emerge as an alternative (or complementary) way for developing more accurate and automated assemblers. Reinforcement learning has proven promising for solving complex activities without supervision - such games - and there is a pressing need to understand the limits of this approach to 'real' problems, such as the DFA problem. This study aimed to shed light on the application of machine learning, using reinforcement learning (RL), in genome assembly. We expanded upon the sole previous approach found in the literature to solve this problem by carefully exploring the learning aspects of the proposed intelligent agent, which uses the Q-learning algorithm, and we provided insights for the next steps of automated genome assembly development. We improved the reward system and optimized the exploration of the state space based on pruning and in collaboration with evolutionary computing. We tested the new approaches on 23 new larger environments, which are all available on the internet. Our results suggest consistent performance progress; however, we also found limitations, especially concerning the high dimensionality of state and action spaces. Finally, we discuss paths for achieving efficient and automated genome assembly in real scenarios considering successful RL applications - including deep reinforcement learning.
翻訳日:2024-03-12 00:00:17 公開日:2024-03-07
# 光量子状態に対する複素値非ガウス性測度の可能性を探る

Exploring the possibility of a complex-valued non-Gaussianity measure for quantum states of light ( http://arxiv.org/abs/2303.00880v2 )

ライセンス: Link先を確認
Andrew J. Pizzimenti, Prajit Dhara, Zacharie Van Herstraeten, Sijie Cheng, and Christos N. Gagatsos(参考訳) 一般ウィグナー関数とガウス関数の間の微分相対エントロピーである量を考える。 ウィグナー微分エントロピーの議論におけるウィグナー函数が同じ第1と第2のモーメント、すなわち、ガウスの議論が他の一般ウィグナー函数のガウス的関連であるなら、その量はそのガウス的議論に対して最小化されることを証明している。 そこで,任意のウィグナー関数とそのガウス関連関数間の微分相対エントロピーを導入し,そのポテンシャルを非ガウス性測度として検討する。 この量はガウスユニタリ演算の下で不変であり忠実であることが証明され、ガウスチャネルの下での単調な振る舞いに十分条件を見出す。 予測条件を支持する数値結果を提供する。 提案した位相空間に基づく非ガウス性測度は複素数値であり、その虚部はウィグナー関数の負体積の物理的意味を持つ。 同時に、この測度の実部分は余分な情報層を提供し、複素数値の量はウィグナー函数の負性のみに関連する量ではなく、非ガウス性の測度となる。 部分測定による非ガウス量子状態工学への我々の測定の有用性について検討する。

We consider a quantity that is the differential relative entropy between a generic Wigner function and a Gaussian one. We prove that said quantity is minimized with respect to its Gaussian argument, if both Wigner functions in the argument of the Wigner differential entropy have the same first and second moments, i.e., if the Gaussian argument is the Gaussian associate of the other, generic Wigner function. Therefore, we introduce the differential relative entropy between any Wigner function and its Gaussian associate and we examine its potential as a non-Gaussianity measure. We prove that said quantity is faithful, invariant under Gaussian unitary operations, and find a sufficient condition on its monotonic behavior under Gaussian channels. We provide numerical results supporting aforesaid condition. The proposed, phase-space based non-Gaussianity measure is complex-valued, with its imaginary part possessing the physical meaning of the negative volume of the Wigner function. At the same time, the real part of this measure provides an extra layer of information, rendering the complex-valued quantity a measure of non-Gaussianity, instead of a quantity pertaining only to the negativity of the Wigner function. We examine the usefulness of our measure to non-Gaussian quantum state engineering with partial measurements.
翻訳日:2024-03-11 23:46:29 公開日:2024-03-07
# アベリア集団行動の量子マネー

Quantum Money from Abelian Group Actions ( http://arxiv.org/abs/2307.12120v4 )

ライセンス: Link先を確認
Mark Zhandry(参考訳) 我々は、公鍵量子マネーの構築と、アーベル群作用から量子雷と呼ばれる強化版も与え、楕円曲線上の適切な等質性から構築することができる。 本稿では,グループ行動の一般群モデルにおけるセキュリティの検証を行い,このモデルにおける量子セキュリティを証明する汎用ツールキットを開発した。 その過程で、量子設定における知識仮定と代数群作用を探求し、一般的な群作用と比較してこれらの仮定/モデルに重大な制限を見いだす。

We give a construction of public key quantum money, and even a strengthened version called quantum lightning, from abelian group actions, which can in turn be constructed from suitable isogenies over elliptic curves. We prove security in the generic group model for group actions under a plausible computational assumption, and develop a general toolkit for proving quantum security in this model. Along the way, we explore knowledge assumptions and algebraic group actions in the quantum setting, finding significant limitations of these assumptions/models compared to generic group actions.
翻訳日:2024-03-11 23:37:38 公開日:2024-03-07
# バンディットフィードバックの最も近い隣人

Nearest Neighbour with Bandit Feedback ( http://arxiv.org/abs/2306.13773v3 )

ライセンス: Link先を確認
Stephen Pasteris, Chris Hicks, Vasilios Mavroudis(参考訳) 本稿では,最寄りの隣接規則を文脈的バンディット問題に適用する。 当社のアルゴリズムは,データ生成プロセスに関する仮定がまったくない,完全に敵対的な設定を処理します。 ナビゲーティングネットのような(おそらく近似的な)適応的近距離探索のための十分高速なデータ構造と組み合わせると、アルゴリズムは非常に効率的で、試行数とアクションの両方において試行時間当たりの多対数を持ち、準線形空間のみを取る。 ユークリッド空間における確率的バンディット問題に適用した場合、アルゴリズムに一般的な後悔境界を与え、さらに解析する。 また,本アルゴリズムはオンライン分類問題にも適用可能であることに留意する。

In this paper we adapt the nearest neighbour rule to the contextual bandit problem. Our algorithm handles the fully adversarial setting in which no assumptions at all are made about the data-generation process. When combined with a sufficiently fast data-structure for (perhaps approximate) adaptive nearest neighbour search, such as a navigating net, our algorithm is extremely efficient - having a per trial running time polylogarithmic in both the number of trials and actions, and taking only quasi-linear space. We give generic regret bounds for our algorithm and further analyse them when applied to the stochastic bandit problem in euclidean space. We note that our algorithm can also be applied to the online classification problem.
翻訳日:2024-03-11 23:35:46 公開日:2024-03-07
# 画像超解像のための動的注意誘導拡散

Dynamic Attention-Guided Diffusion for Image Super-Resolution ( http://arxiv.org/abs/2308.07977v3 )

ライセンス: Link先を確認
Brian B. Moser, Stanislav Frolov, Federico Raue, Sebastian Palacio and Andreas Dengel(参考訳) 画像超解法(SR)における拡散モデルは、全ての画像領域を均一な強度で処理し、全体の画質を損なうリスクがある。 そこで本稿では,画像SRのための動的注意誘導拡散法である"You Only Diffuse Areas"(YODA)を紹介する。 低解像度画像から得られた注意マップと拡散過程における現在の時間ステップを用いて空間領域に選択的に焦点をあてる。 この時間依存のターゲティングにより、反復的なリファインメントプロセス、すなわち詳細リッチなオブジェクトの恩恵を受ける領域に集中することで、より効率的な高分解能出力への変換が可能になる。 我々は,先導拡散法SR3とSRDiffを拡張して,YODAを実証的に検証した。 実験では,PSNR,SSIM,LPIPSの計測値にまたがって,最先端のSRと汎用SRの新たな性能を示す。 注目すべき発見は、特に小さなバッチサイズでのトレーニングにおいて、カラーシフトを減らすことで、YODAの安定化効果である。

Diffusion models in image Super-Resolution (SR) treat all image regions with uniform intensity, which risks compromising the overall image quality. To address this, we introduce "You Only Diffuse Areas" (YODA), a dynamic attention-guided diffusion method for image SR. YODA selectively focuses on spatial regions using attention maps derived from the low-resolution image and the current time step in the diffusion process. This time-dependent targeting enables a more efficient conversion to high-resolution outputs by focusing on areas that benefit the most from the iterative refinement process, i.e., detail-rich objects. We empirically validate YODA by extending leading diffusion-based methods SR3 and SRDiff. Our experiments demonstrate new state-of-the-art performance in face and general SR across PSNR, SSIM, and LPIPS metrics. A notable finding is YODA's stabilization effect by reducing color shifts, especially when training with small batch sizes.
翻訳日:2024-03-11 23:23:16 公開日:2024-03-07
# 決定論的対流許容モデルによる生成的アンサンブル深層気象予測

Generative ensemble deep learning severe weather prediction from a deterministic convection-allowing model ( http://arxiv.org/abs/2310.06045v2 )

ライセンス: Link先を確認
Yingkai Sha, Ryan A. Sobash, David John Gagne II(参考訳) 大陸性アメリカ合衆国(CONUS)上での厳しい天候(竜巻、干ばつ、風速)の確率予測のためのアンサンブル後処理法を開発した。 本手法は、深層生成モデルの一種である条件付き生成敵ネットワーク(cgans)と畳み込みニューラルネットワーク(cnn)と、cam(post-process convection-allowing model)予測とを組み合わせる。 CGANは決定論的CAM予測から合成アンサンブル部材を作成するように設計されており、その出力はCNNによって処理され、厳しい天候の確率を推定する。 本手法は,高分解能ラピッドリフレッシュ(HRRR)1--24時間予測を入力として,強風予報センター(SPC)を目標とした。 2021年にHRRR予測のテストデータセットを用いた他のニューラルネットワークベースの参照手法と比較して、BSS(Brier Skill Score)が最大20%向上した熟練した予測を生成する。 不確実性の定量化を評価するために、この手法は過信であるが、良い予測と悪い予測を区別できる有意義なアンサンブル展開を生成する。 また,CGAN出力の品質も評価した。 その結果,CGANの出力は数値アンサンブルと同様の振る舞いを示し,従来のHRRR予測と同様,変数間の相関や影響のある予測器の寄与を保存した。 この研究は、厳しい気象予報に適用可能なニューラルネットワークを用いた、プロセス後CAM出力に対する新しいアプローチを提供する。

An ensemble post-processing method is developed for the probabilistic prediction of severe weather (tornadoes, hail, and wind gusts) over the conterminous United States (CONUS). The method combines conditional generative adversarial networks (CGANs), a type of deep generative model, with a convolutional neural network (CNN) to post-process convection-allowing model (CAM) forecasts. The CGANs are designed to create synthetic ensemble members from deterministic CAM forecasts, and their outputs are processed by the CNN to estimate the probability of severe weather. The method is tested using High-Resolution Rapid Refresh (HRRR) 1--24 hr forecasts as inputs and Storm Prediction Center (SPC) severe weather reports as targets. The method produced skillful predictions with up to 20% Brier Skill Score (BSS) increases compared to other neural-network-based reference methods using a testing dataset of HRRR forecasts in 2021. For the evaluation of uncertainty quantification, the method is overconfident but produces meaningful ensemble spreads that can distinguish good and bad forecasts. The quality of CGAN outputs is also evaluated. Results show that the CGAN outputs behave similarly to a numerical ensemble; they preserved the inter-variable correlations and the contribution of influential predictors as in the original HRRR forecasts. This work provides a novel approach to post-process CAM output using neural networks that can be applied to severe weather prediction.
翻訳日:2024-03-11 23:12:49 公開日:2024-03-07
# 風化が続く不確実性:時間変化のある部分観測可能な環境での学習と計画

Weathering Ongoing Uncertainty: Learning and Planning in a Time-Varying Partially Observable Environment ( http://arxiv.org/abs/2312.03263v3 )

ライセンス: Link先を確認
Gokul Puthumanaillam, Xiangyu Liu, Negar Mehr and Melkior Ornik(参考訳) 最適な意思決定は、不確実で確率的、時間的な環境で動作する自律システムにとって大きな課題となる。 時間による環境変動は、ミッション完了のための最適な意思決定戦略に大きな影響を与える。 このような環境をモデル化するために,従来のTVMDP(Time-Varying Markov Decision Process)の概念と部分的可観測性を組み合わせて,TV-POMDP(Time-Varying partially Observable Markov Decision Process)を導入している。 我々は,TV-POMDP内の正確な推定と計画を行うための2つのアプローチを提案する。 1)より正確な時間変化遷移推定を提供するために重み付けメモリを利用するメモリ優先状態推定(MPSE) 2)時間制約を考慮した長期報酬を最適化したmpse統合計画戦略。 提案するフレームワークとアルゴリズムをシミュレーションとハードウェアを用いて検証し,部分的に観測可能な時間変動環境を探索する。 本結果は,標準手法よりも優れた性能を示し,確率的かつ不確実な時間変化領域におけるフレームワークの有効性を強調した。

Optimal decision-making presents a significant challenge for autonomous systems operating in uncertain, stochastic and time-varying environments. Environmental variability over time can significantly impact the system's optimal decision making strategy for mission completion. To model such environments, our work combines the previous notion of Time-Varying Markov Decision Processes (TVMDP) with partial observability and introduces Time-Varying Partially Observable Markov Decision Processes (TV-POMDP). We propose a two-pronged approach to accurately estimate and plan within the TV-POMDP: 1) Memory Prioritized State Estimation (MPSE), which leverages weighted memory to provide more accurate time-varying transition estimates; and 2) an MPSE-integrated planning strategy that optimizes long-term rewards while accounting for temporal constraint. We validate the proposed framework and algorithms using simulations and hardware, with robots exploring a partially observable, time-varying environments. Our results demonstrate superior performance over standard methods, highlighting the framework's effectiveness in stochastic, uncertain, time-varying domains.
翻訳日:2024-03-11 22:53:14 公開日:2024-03-07
# 森林火災検知用連成データセットにおける支持ベクトルマシン(SVM)の性能解析

Performance Analysis of Support Vector Machine (SVM) on Challenging Datasets for Forest Fire Detection ( http://arxiv.org/abs/2401.12924v2 )

ライセンス: Link先を確認
Ankan Kar, Nirjhar Nath, Utpalraj Kemprai, Aman(参考訳) 本稿では,イメージデータセットを用いた森林火災検知の重要課題に対する支援ベクトルマシン(SVM)の性能と利用について検討する。 森林火災が生態系や人的居住地への脅威が高まる中、迅速かつ正確な検知システムの必要性が最も重要である。 強力な分類能力で知られるSVMは、画像内の火災に関連するパターンを認識する能力を示す。 ラベル付きデータに基づいてトレーニングすることで、SVMは、森林地域の視覚的特性における炎、煙、変化といった、火災に関連する特徴を識別する能力を得る。 この文書は、データ前処理、特徴抽出、モデルトレーニングといった重要な要素を網羅し、SVMの使用を徹底的に調査している。 正確性、効率性、実用性などのパラメータを厳格に評価する。 本研究から得られた知識は,効率的な森林火災検知システムの開発を支援し,迅速な対応を可能にし,災害管理を改善する。 さらに,SVMの精度と高次元データセットが提示する困難度との関係を,明らかにしたケーススタディを通じて詳細に検討した。 トレーニングデータセットのリサイズに使用する精度スコアと解像度の違いとの関係についても,本論文で論じている。 これらの包括的な研究は、直面する困難と潜在的なセクターがさらなる改善と焦点を必要とする決定的な概要をもたらす。

This article delves into the analysis of performance and utilization of Support Vector Machines (SVMs) for the critical task of forest fire detection using image datasets. With the increasing threat of forest fires to ecosystems and human settlements, the need for rapid and accurate detection systems is of utmost importance. SVMs, renowned for their strong classification capabilities, exhibit proficiency in recognizing patterns associated with fire within images. By training on labeled data, SVMs acquire the ability to identify distinctive attributes associated with fire, such as flames, smoke, or alterations in the visual characteristics of the forest area. The document thoroughly examines the use of SVMs, covering crucial elements like data preprocessing, feature extraction, and model training. It rigorously evaluates parameters such as accuracy, efficiency, and practical applicability. The knowledge gained from this study aids in the development of efficient forest fire detection systems, enabling prompt responses and improving disaster management. Moreover, the correlation between SVM accuracy and the difficulties presented by high-dimensional datasets is carefully investigated, demonstrated through a revealing case study. The relationship between accuracy scores and the different resolutions used for resizing the training datasets has also been discussed in this article. These comprehensive studies result in a definitive overview of the difficulties faced and the potential sectors requiring further improvement and focus.
翻訳日:2024-03-11 22:45:43 公開日:2024-03-07
# 条件付き相互情報に基づく知識蒸留のためのベイズ条件分布推定

Bayes Conditional Distribution Estimation for Knowledge Distillation Based on Conditional Mutual Information ( http://arxiv.org/abs/2401.08732v2 )

ライセンス: Link先を確認
Linfeng Ye, Shayan Mohajer Hamidi, Renhao Tan, En-Hui Yang(参考訳) 知識蒸留 (kd) において, 教師の役割は, 学生の学習過程において使用する未知のベイズ条件確率分布 (bcpd) の推定を提供することであると考えられている。 従来は,最大log-likelihood (mll) 法を用いて教師の訓練を行った。 本稿では,この推定値を改善するために,条件付き相互情報(CMI)の概念をBCPDの推定に導入し,MCMI法と呼ばれる新しい推定手法を提案する。 特に、mcmi推定では、教師のログ様相とcmiの両方が、教師の訓練時に同時に最大化される。 Eigen-CAMを通じて、教師のCMI値の最大化により、教師はイメージクラスタ内でより多くのコンテキスト情報をキャプチャできることを示す。 総合的な実験を行ない,MCMI推定で訓練した教師を,様々な最先端KDフレームワークでMLL推定で訓練した教師ではなく,MCMI推定で訓練した教師を採用することにより,生徒の分類精度は最大3.32倍に向上することを示した。 このことから,MCMI法による教師のBCPD推定はMLL法よりも精度が高いことが示唆された。 さらに,ゼロショット設定や少数ショット設定では,学生の精度が向上することが示唆された。 特筆すべきは、トレーニングサンプルの5\%が学生に提供されると、最大5.72\%のゲインで生徒の精度が向上し(few-shot)、省略されたクラス(zero-shot)では0\%から84\%まで増加することである。 コードは \url{https://github.com/iclr2024mcmi/iclrmcmi} で入手できる。

It is believed that in knowledge distillation (KD), the role of the teacher is to provide an estimate for the unknown Bayes conditional probability distribution (BCPD) to be used in the student training process. Conventionally, this estimate is obtained by training the teacher using maximum log-likelihood (MLL) method. To improve this estimate for KD, in this paper we introduce the concept of conditional mutual information (CMI) into the estimation of BCPD and propose a novel estimator called the maximum CMI (MCMI) method. Specifically, in MCMI estimation, both the log-likelihood and CMI of the teacher are simultaneously maximized when the teacher is trained. Through Eigen-CAM, it is further shown that maximizing the teacher's CMI value allows the teacher to capture more contextual information in an image cluster. Via conducting a thorough set of experiments, we show that by employing a teacher trained via MCMI estimation rather than one trained via MLL estimation in various state-of-the-art KD frameworks, the student's classification accuracy consistently increases, with the gain of up to 3.32\%. This suggests that the teacher's BCPD estimate provided by MCMI method is more accurate than that provided by MLL method. In addition, we show that such improvements in the student's accuracy are more drastic in zero-shot and few-shot settings. Notably, the student's accuracy increases with the gain of up to 5.72\% when 5\% of the training samples are available to the student (few-shot), and increases from 0\% to as high as 84\% for an omitted class (zero-shot). The code is available at \url{https://github.com/iclr2024mcmi/ICLRMCMI}.
翻訳日:2024-03-11 22:43:47 公開日:2024-03-07
# フィルターバブルか均質化か? ユーザの消費パターンに対するレコメンデーションの長期的影響に関する分析

Filter Bubble or Homogenization? Disentangling the Long-Term Effects of Recommendations on User Consumption Patterns ( http://arxiv.org/abs/2402.15013v2 )

ライセンス: Link先を確認
Md Sanzeed Anwar, Grant Schoenebeck, Paramveer S. Dhillon(参考訳) 推奨アルゴリズムは、メディアの選択を形作る上で重要な役割を担います。 これらのアルゴリズムは、2つの重要な結果に関連付けられている: 均質化(homogenization)、ユーザーは異なる好みにもかかわらず類似したコンテンツを消費する、フィルターバブル効果(Filter bubble effect)。 以前の研究は、均質化とフィルターバブル効果のトレードオフを仮定し、パーソナライズドレコメンデーションが均質化を促進することによってフィルターバブルを緩和することを示している。 しかし、この2つの効果のトレードオフという仮定のため、事前の作業は、いかにレコメンデーションシステムがホモゲン化とフィルターバブル効果に独立にどのように影響するかについてより微妙な視点を築けない。 本研究では, ユーザ間での平均消費がどの程度異なるか(ユーザ間多様性)と, 個人の消費がいかに異なるか(ユーザ間多様性)という2つの重要な指標に分解することで, 均質化とフィルタバブル効果のより洗練された定義を開発する。 次に,提案手法が均質化およびフィルタバブル効果に与える影響を総合的に把握する新しいエージェント・ベース・シミュレーション・フレームワークを用いる。 シミュレーションの結果,従来のレコメンデーションアルゴリズム(過去の行動に基づく)は,ユーザ間の多様性に大きな影響を与えることなく,フィルタバブルを低減していることがわかった。 これらの結果をもとに,両種の多様性を考慮し,より微妙なアプローチによる推薦アルゴリズムを2つ導入した。

Recommendation algorithms play a pivotal role in shaping our media choices, which makes it crucial to comprehend their long-term impact on user behavior. These algorithms are often linked to two critical outcomes: homogenization, wherein users consume similar content despite disparate underlying preferences, and the filter bubble effect, wherein individuals with differing preferences only consume content aligned with their preferences (without much overlap with other users). Prior research assumes a trade-off between homogenization and filter bubble effects and then shows that personalized recommendations mitigate filter bubbles by fostering homogenization. However, because of this assumption of a tradeoff between these two effects, prior work cannot develop a more nuanced view of how recommendation systems may independently impact homogenization and filter bubble effects. We develop a more refined definition of homogenization and the filter bubble effect by decomposing them into two key metrics: how different the average consumption is between users (inter-user diversity) and how varied an individual's consumption is (intra-user diversity). We then use a novel agent-based simulation framework that enables a holistic view of the impact of recommendation systems on homogenization and filter bubble effects. Our simulations show that traditional recommendation algorithms (based on past behavior) mainly reduce filter bubbles by affecting inter-user diversity without significantly impacting intra-user diversity. Building on these findings, we introduce two new recommendation algorithms that take a more nuanced approach by accounting for both types of diversity.
翻訳日:2024-03-11 22:38:11 公開日:2024-03-07
# 変換型教師マッチングに基づく知識蒸留

Knowledge Distillation Based on Transformed Teacher Matching ( http://arxiv.org/abs/2402.11148v2 )

ライセンス: Link先を確認
Kaixiang Zheng and En-Hui Yang(参考訳) ロジットマッチングと確率分布マッチングを橋渡しする技術として、温度スケーリングは知識蒸留(KD)において重要な役割を果たす。 伝統的に、KDにおける教師のロジットと生徒のロジットの両方に温度スケーリングが適用される。 本稿では,近年の研究成果に動機づけられて,生徒側の温度スケールを下げ,kdの変種であるttm(transform teacher matching)を体系的に研究する。 温度スケーリングを確率分布のパワー変換として再解釈することにより、元のKDと比較して、TTMは目的関数に固有のR'enyiエントロピー項を持ち、余剰正規化項として機能することを示す。 この本質的な正規化により、TTMは元のKDよりも優れた一般化の訓練を受けた学生を導いた。 さらに,教師のパワー変換確率分布に適合する生徒の能力を高めるために,サンプル適応重み付け係数をTTMに導入し,新しい蒸留手法をWTTM(hetered TTM)と呼ぶ。 包括的実験により、WTTMは単純であるが、有効であり、TTMにより改善され、最先端の精度性能が得られることを示した。 ソースコードはhttps://github.com/zkxufo/ttmで入手できます。

As a technique to bridge logit matching and probability distribution matching, temperature scaling plays a pivotal role in knowledge distillation (KD). Conventionally, temperature scaling is applied to both teacher's logits and student's logits in KD. Motivated by some recent works, in this paper, we drop instead temperature scaling on the student side, and systematically study the resulting variant of KD, dubbed transformed teacher matching (TTM). By reinterpreting temperature scaling as a power transform of probability distribution, we show that in comparison with the original KD, TTM has an inherent R\'enyi entropy term in its objective function, which serves as an extra regularization term. Extensive experiment results demonstrate that thanks to this inherent regularization, TTM leads to trained students with better generalization than the original KD. To further enhance student's capability to match teacher's power transformed probability distribution, we introduce a sample-adaptive weighting coefficient into TTM, yielding a novel distillation approach dubbed weighted TTM (WTTM). It is shown, by comprehensive experiments, that although WTTM is simple, it is effective, improves upon TTM, and achieves state-of-the-art accuracy performance. Our source code is available at https://github.com/zkxufo/TTM.
翻訳日:2024-03-11 22:35:01 公開日:2024-03-07
# 不均衡データセット上のバイナリセマンティックセマンティックセグメンテーションのための生成逆ネットワークの再検討

Revisiting Generative Adversarial Networks for Binary Semantic Segmentation on Imbalanced Datasets ( http://arxiv.org/abs/2402.02245v2 )

ライセンス: Link先を確認
Lei Xu and Moncef Gabbouj(参考訳) 異常き裂領域検出は、アルゴリズムによって舗装面画像のき裂を表す画素を自動的に検出することを目的とした、典型的なバイナリセマンティックセグメンテーションタスクである。 既存のディープラーニングベースの手法は、特定の公共舗装のデータセットで優れた結果を得たが、不均衡なデータセットでは性能が劇的に低下する。 このようなタスクで使用される入力データセットは、クラス間の不均衡な問題に苦しむため、汎用的なディープラーニングモデルを備えた多種多様な舗装データセットにおいて、堅牢なパフォーマンスを得ることが重要な課題である。 この問題に対処するため,本研究では,画素レベルの異常き裂領域検出タスクに対して,条件付き生成逆数ネットワーク(cGAN)に基づくディープラーニングフレームワークを提案する。 特に,ヘテロジニアス入力と不均衡入力から多元的確率特徴マップを反復的に推定する場合に,cgansと新しい補助ネットワークを含むフレームワークを開発し,2つの代替訓練段階において発電機の性能を向上・安定化する。 さらに,cGANsアーキテクチャと補助ネットワークにいくつかの注意機構とエントロピー戦略を組み込んで,重度の不均衡データセット上でのモデルトレーニングの性能劣化を軽減する。 6つのアクセス可能な舗装データセットについて広範な実験を行った。 視覚的および定量的評価の両方による実験結果から,提案するフレームワークは,計算複雑性の加速を伴わずに,これらのデータセットの最先端結果を効率的にかつ堅牢に達成できることが示唆された。

Anomalous crack region detection is a typical binary semantic segmentation task, which aims to detect pixels representing cracks on pavement surface images automatically by algorithms. Although existing deep learning-based methods have achieved outcoming results on specific public pavement datasets, the performance would deteriorate dramatically on imbalanced datasets. The input datasets used in such tasks suffer from severely between-class imbalanced problems, hence, it is a core challenge to obtain a robust performance on diverse pavement datasets with generic deep learning models. To address this problem, in this work, we propose a deep learning framework based on conditional Generative Adversarial Networks (cGANs) for the anomalous crack region detection tasks at the pixel level. In particular, the proposed framework containing a cGANs and a novel auxiliary network is developed to enhance and stabilize the generator's performance under two alternative training stages, when estimating a multiscale probability feature map from heterogeneous and imbalanced inputs iteratively. Moreover, several attention mechanisms and entropy strategies are incorporated into the cGANs architecture and the auxiliary network separately to mitigate further the performance deterioration of model training on severely imbalanced datasets. We implement extensive experiments on six accessible pavement datasets. The experimental results from both visual and quantitative evaluation show that the proposed framework can achieve state-of-the-art results on these datasets efficiently and robustly without acceleration of computation complexity.
翻訳日:2024-03-11 22:32:53 公開日:2024-03-07
# 量子コンピュータにおけるmach-zehnder干渉法によるanyonic statisticsの探索

Probing anyonic statistics via Mach-Zehnder interferometry in quantum computers ( http://arxiv.org/abs/2402.16944v2 )

ライセンス: Link先を確認
Shiyu Zhou, Yi Teng, Claudio Chamon, Claudio Castelnovo, Armin Rahmani(参考訳) 我々は,量子スピン液体に現れる陽電子励起の分数交換統計を調べるために,量子コンピューティングデバイスのための合成マッハ・ツェンダー干渉計を導入する。 量子コンピュータIonQを用いて、このスキームをトーリック符号の準1次元還元であるトーリックラダーに適用する。 我々は「電磁」励起の移動と「電磁」励起の存在による干渉パターンを観察する。 我々は、イオンqのノイズを非分極化リンドブラジアンダイナミクスを用いてモデル化し、量子デバイスから得られた測定値と定量的に一致させる。 したがって、合成マッハ・ツェンダー干渉計は、マルチキュービットノイズ量子デバイスのコヒーレンス長と時間スケールを探索する有効な手段としても機能する。

We introduce a synthetic Mach-Zehnder interferometer for digitized quantum computing devices to probe fractional exchange statistics of anyonic excitations that appear in quantum spin liquids. Employing an IonQ quantum computer, we apply this scheme to the toric ladder, a quasi-one-dimensional reduction of the toric code. We observe interference patterns resulting from the movement of `electric' excitations in the presence and absence of `magnetic' ones. We model the noise in IonQ via depolarizing Lindbladian dynamics, and find quantitative agreement with the measurements obtained from the quantum device. The synthetic Mach-Zehnder interferometer can thus also serve as an effective means to probe the coherence length and time scales of multi-qubit noisy quantum devices.
翻訳日:2024-03-11 22:22:37 公開日:2024-03-07
# ComTraQ-MPC: 限定アクティブローカライゼーション更新による軌跡追跡のためのメタトレーニングDQN-MPC統合

ComTraQ-MPC: Meta-Trained DQN-MPC Integration for Trajectory Tracking with Limited Active Localization Updates ( http://arxiv.org/abs/2403.01564v2 )

ライセンス: Link先を確認
Gokul Puthumanaillam, Manav Vora and Melkior Ornik(参考訳) エージェントがセンサーから真の状態情報を取得するプロセスである、アクティブなローカライゼーション更新の回数が制限された部分的に観測可能な確率的な環境での軌道追跡の最適決定は、重大な課題である。 伝統的な手法は、しばしば資源保存、正確な状態推定、正確な追跡のバランスをとるのに苦労する。 この問題は、頻繁に正確な状態データを必要とする環境において特に顕著であるが、アクティブなローカライゼーション更新の能力は外部の制限によって制限されている。 本稿では,DQN(Deep Q-Networks)とモデル予測制御(Model Predictive Control,MPC)を組み合わせた新しいフレームワークであるComTraQ-MPCを紹介する。 メタトレーニングされたDQNは適応的なアクティブなローカライゼーションスケジューリングを保証し、MPCは利用可能な状態情報を活用してトラッキングを改善する。 DQNの更新決定はMPCのコントロール戦略を知らせ、MPCの結果はDQNの学習を洗練させ、結合的で適応的なシステムを作り出す。 シミュレーションおよび実世界の環境における経験的評価は、comtraq-mpcが運用効率と精度を大幅に向上させ、複雑な部分観測可能な環境での軌道追跡の一般化と近似的最適解を提供することを示している。

Optimal decision-making for trajectory tracking in partially observable, stochastic environments where the number of active localization updates -- the process by which the agent obtains its true state information from the sensors -- are limited, presents a significant challenge. Traditional methods often struggle to balance resource conservation, accurate state estimation and precise tracking, resulting in suboptimal performance. This problem is particularly pronounced in environments with large action spaces, where the need for frequent, accurate state data is paramount, yet the capacity for active localization updates is restricted by external limitations. This paper introduces ComTraQ-MPC, a novel framework that combines Deep Q-Networks (DQN) and Model Predictive Control (MPC) to optimize trajectory tracking with constrained active localization updates. The meta-trained DQN ensures adaptive active localization scheduling, while the MPC leverages available state information to improve tracking. The central contribution of this work is their reciprocal interaction: DQN's update decisions inform MPC's control strategy, and MPC's outcomes refine DQN's learning, creating a cohesive, adaptive system. Empirical evaluations in simulated and real-world settings demonstrate that ComTraQ-MPC significantly enhances operational efficiency and accuracy, providing a generalizable and approximately optimal solution for trajectory tracking in complex partially observable environments.
翻訳日:2024-03-11 22:15:02 公開日:2024-03-07
# 構文対応型コードフィルインザミドルタスクにおけるLCMの評価

Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks ( http://arxiv.org/abs/2403.04814v1 )

ライセンス: Link先を確認
Linyuan Gong, Sida Wang, Mostafa Elhoushi, Alvin Cheung(参考訳) 本研究では,SAFIM (Syntax-Aware Fill-in-the-Middle) を導入し,File-in-the-Middle (FIM) タスク上でLLM(Large Language Models) を評価する。 このベンチマークは、コードブロックや条件式などのプログラム構造の構文対応補完に焦点を当てており、データ汚染を最小限に抑えるため、2022年4月以降の最近のコード提出から得られた、複数のプログラミング言語の17,720の例を含んでいる。 SAFIMは、様々なプロンプト設計と新しい構文認識後処理技術を備えた堅牢なフレームワークを提供し、LLM間の正確かつ公正な比較を容易にする。 15LLMの総合評価の結果,FIMプレトレーニングはFIMの熟練度を高めるだけでなく,L2R(Left-to-Right)推論も改善することがわかった。 本研究は従来の信念に挑戦し,事前学習法とデータ品質がモデルサイズよりも影響が大きいことを示唆する。 したがって、SAFIMは将来のコードLLMの効果的な事前学習戦略研究の基盤となる。 評価ツールキットとデータセットはhttps://github.com/gonglinyuan/safimで、リーダーボードはhttps://safimbenchmark.comで入手できる。

We introduce Syntax-Aware Fill-In-the-Middle (SAFIM), a new benchmark for evaluating Large Language Models (LLMs) on the code Fill-in-the-Middle (FIM) task. This benchmark focuses on syntax-aware completions of program structures such as code blocks and conditional expressions, and includes 17,720 examples from multiple programming languages, sourced from recent code submissions after April 2022 to minimize data contamination. SAFIM provides a robust framework with various prompt designs and novel syntax-aware post-processing techniques, facilitating accurate and fair comparisons across LLMs. Our comprehensive evaluation of 15 LLMs shows that FIM pretraining not only enhances FIM proficiency but also improves Left-to-Right (L2R) inference using LLMs. Our findings challenge conventional beliefs and suggest that pretraining methods and data quality have more impact than model size. SAFIM thus serves as a foundational platform for future research in effective pretraining strategies for code LLMs. The evaluation toolkit and dataset are available at https://github.com/gonglinyuan/safim, and the leaderboard is available at https://safimbenchmark.com.
翻訳日:2024-03-11 22:07:16 公開日:2024-03-07
# 偏極写像における非マルコフダイナミクスの探索

Exploring the Non-Markovian Dynamics in Depolarizing Maps ( http://arxiv.org/abs/2403.04813v1 )

ライセンス: Link先を確認
Ali Abu-Nada and Subhashish Banerjee and Vivek Balasaheb Sabale(参考訳) 非マルコフ非分極チャネルは、その非マルコフ挙動の理解と特異点の発生の観点から研究されている。 この研究は、非マルコビアン性を同定し定量化する様々な方法をもたらす。 これには量子情報バックフロー目撃者、BLP、RHP、HCLA測定などの動的手法が含まれる。 さらに、非マルコフ効果の幾何学的可視化は、動的進化中のアクセス可能な状態の体積の変動を用いて提示される。 さらに、パラメータ空間内の脱分極チャネルの動的マップの軌跡に基づく可視化を示す。 進化の過程で追跡された軌道は、CPの多様性の喪失とシステムのパラメータの体系的な変動の下での非マルコフ性の出現を示す。

The non-Markovian depolarizing channel is explored from the perspective of understanding its non-Markovian behaviour as well as the occurrence of singularities. The study brings together the various ways to identify and quantify non-Markovianity. This includes dynamical techniques such as quantum information backflow witness, BLP, RHP and HCLA measures. In addition, geometrical visualization of non-Markovian effects is presented using the variation in the volume of accessible states during dynamical evolution. Further, a trajectory-based visualization of the dynamical map, of the depolarizing channel, within the parameter space is presented. The trajectories traced during evolution, demonstrate the loss of CP-divisibility and the emergence of non-Markovianity under systematic variations of the system parameters.
翻訳日:2024-03-11 22:06:50 公開日:2024-03-07
# trafps: トラフィックを解釈するshapleyベースのビジュアル分析アプローチ

TrafPS: A Shapley-based Visual Analytics Approach to Interpret Traffic ( http://arxiv.org/abs/2403.04812v1 )

ライセンス: Link先を確認
Zezheng Feng, Yifan Jiang, Hongjun Wang, Zipei Fan, Yuxin Ma, Shuang-Hua Yang, Huamin Qu, Xuan Song(参考訳) 近年のディープラーニング(DL)の成果は,交通流予測の可能性を示している。 このような予測は、状況の理解と交通制御の決定に有用である。 しかしながら、最先端のDLモデルは、基盤となるメカニズムに関してエンドユーザーにはほとんど、あるいは全く透明性のない「ブラックボックス」と見なされている。 いくつかの以前の研究は「ブラックボックスをオープン」し、予測の生成方法の解釈可能性を高めようとした。 しかし、大規模時空間データ上で複雑なモデルを扱うことは依然として困難であり、交通の流れに大きな影響を及ぼす時空間パターンや時空間パターンを発見することは困難である。 そこで我々は,交通管理と都市計画における意思決定を支援するために,交通予測結果の視覚的分析手法であるTrafPSを提案する。 異なるレベルの都市交通に対する流れパターンの影響を定量化するために, 地域SHAP, 軌道SHAPの測定を行った。 ドメインエキスパートのタスク要求に基づいて、重要なフローパターンのマルチスペクトル探索と分析にインタラクティブなビジュアルインターフェースを用いています。 2つの実世界のケーススタディは、TrafPSが重要なルートを特定し、都市計画における意思決定支援に有効であることを実証している。

Recent achievements in deep learning (DL) have shown its potential for predicting traffic flows. Such predictions are beneficial for understanding the situation and making decisions in traffic control. However, most state-of-the-art DL models are considered "black boxes" with little to no transparency for end users with respect to the underlying mechanisms. Some previous work tried to "open the black boxes" and increase the interpretability of how predictions are generated. However, it still remains challenging to handle complex models on large-scale spatio-temporal data and discover salient spatial and temporal patterns that significantly influence traffic flows. To overcome the challenges, we present TrafPS, a visual analytics approach for interpreting traffic prediction outcomes to support decision-making in traffic management and urban planning. The measurements, region SHAP and trajectory SHAP, are proposed to quantify the impact of flow patterns on urban traffic at different levels. Based on the task requirement from the domain experts, we employ an interactive visual interface for multi-aspect exploration and analysis of significant flow patterns. Two real-world case studies demonstrate the effectiveness of TrafPS in identifying key routes and decision-making support for urban planning.
翻訳日:2024-03-11 22:06:37 公開日:2024-03-07
# コンテキスト依存型健康問題におけるバイアス評価

Evaluating Biases in Context-Dependent Health Questions ( http://arxiv.org/abs/2403.04858v1 )

ライセンス: Link先を確認
Sharon Levy, Tahilin Sanchez Karver, William D. Adler, Michelle R. Kaufman, Mark Dredze(参考訳) チャットベースの大規模言語モデルは、高品質な医療アクセスを欠いている個人に、さまざまなトピックでパーソナライズされた情報を受信する機会を与える。 しかし、ユーザーはモデルが正しく答えるために追加のコンテキストを必要とする不特定な質問をすることができる。 医療領域におけるこれらの文脈的質問を通して,言語モデルのバイアスがいかに大きいかを検討する。 これを達成するために、年齢、性別、位置属性に依存する性的および生殖的な医療質問のデータセットをキュレートする。 モデルのアウトプットを人口統計学的コンテキストと無関係に比較して,文脈質問間のグループアライメントを決定する。 実験の結果, それぞれの属性に偏りがみられ, 成人女性の利用者が好まれることがわかった。

Chat-based large language models have the opportunity to empower individuals lacking high-quality healthcare access to receive personalized information across a variety of topics. However, users may ask underspecified questions that require additional context for a model to correctly answer. We study how large language model biases are exhibited through these contextual questions in the healthcare domain. To accomplish this, we curate a dataset of sexual and reproductive healthcare questions that are dependent on age, sex, and location attributes. We compare models' outputs with and without demographic context to determine group alignment among our contextual questions. Our experiments reveal biases in each of these attributes, where young adult female users are favored.
翻訳日:2024-03-11 21:58:57 公開日:2024-03-07
# 量子コムとテンソルネットワーク形式を用いた量子計測

Quantum metrology using quantum combs and tensor network formalism ( http://arxiv.org/abs/2403.04854v1 )

ライセンス: Link先を確認
Stanislaw Kurdzialek, Piotr Dulian, Joanna Majsak, Sagnik Chakraborty, Rafal Demkowicz-Dobrzanski(参考訳) 我々は,探索されたチャネル間の任意の量子制御操作による最適適応量子推定プロトコルを決定するための効率的なアルゴリズムを開発し,提案アルゴリズムの時間とメモリ消費を大幅に削減するテンソルネットワーク表現を導入し,最大$N=50$ qubitチャネルの使用を含むメカノロジープロトコルを解析できる一方で,最先端のアプローチは$N<5$に制限されている。 本手法は,相関雑音を含む様々なノイズタイプが存在する場合の最適適応メロジカルプロトコルの性能について検討する。

We develop an efficient algorithm for determining optimal adaptive quantum estimation protocols with arbitrary quantum control operations between subsequent uses of a probed channel.We introduce a tensor network representation of an estimation strategy, which drastically reduces the time and memory consumption of the algorithm, and allows us to analyze metrological protocols involving up to $N=50$ qubit channel uses, whereas the state-of-the-art approaches are limited to $N<5$. The method is applied to study the performance of the optimal adaptive metrological protocols in presence of various noise types, including correlated noise.
翻訳日:2024-03-11 21:58:36 公開日:2024-03-07
# モデルベースアーキテクチャにおける未学習ニューラルネットワークを用いたモデルミスマッチによる逆問題の解法

Solving Inverse Problems with Model Mismatch using Untrained Neural Networks within Model-based Architectures ( http://arxiv.org/abs/2403.04847v1 )

ライセンス: Link先を確認
Peimeng Guan, Naveed Iqbal, Mark A. Davenport, Mudassir Masood(参考訳) モデルに基づく深層学習手法である「emph{loop unrolling}」(LU)や「emph{deep equilibrium model}」(DEQ)は、逆問題(IP)の解法において優れた性能を提供する。 これらの手法は最適化イテレーションをニューラルネットワークのシーケンスに展開し、実際にデータから正規化関数を学習する。 これらのアーキテクチャは現在多くのアプリケーションで最先端のアーキテクチャであるが、その成功はフォワードモデルの精度に大きく依存している。 この仮定は多くの物理的応用において、装置のモデルの単純化や不確実性のために制限される。 フォワードモデルミスマッチに対処するために、各インスタンスの計測領域におけるデータ一貫性を一致させるために、モデルベースアーキテクチャ内でトレーニングされていないフォワードモデル残差ブロックを導入する。 本稿では,よく知られたモデルベースアーキテクチャ (LU と DEQ) の2つの変種を提案する。 実験は, アーティファクトの除去と, 非線形逆問題と非線形逆問題の両方を含む3つの異なる応用の詳細な保存において, 大幅な品質向上を示した。 さらに,中間段階における再構築の有効性を強調し,評価中の残差ブロックのランダム初期化やイテレーション数の増加に対するロバスト性を示す。

Model-based deep learning methods such as \emph{loop unrolling} (LU) and \emph{deep equilibrium model} (DEQ) extensions offer outstanding performance in solving inverse problems (IP). These methods unroll the optimization iterations into a sequence of neural networks that in effect learn a regularization function from data. While these architectures are currently state-of-the-art in numerous applications, their success heavily relies on the accuracy of the forward model. This assumption can be limiting in many physical applications due to model simplifications or uncertainties in the apparatus. To address forward model mismatch, we introduce an untrained forward model residual block within the model-based architecture to match the data consistency in the measurement domain for each instance. We propose two variants in well-known model-based architectures (LU and DEQ) and prove convergence under mild conditions. The experiments show significant quality improvement in removing artifacts and preserving details across three distinct applications, encompassing both linear and nonlinear inverse problems. Moreover, we highlight reconstruction effectiveness in intermediate steps and showcase robustness to random initialization of the residual block and a higher number of iterations during evaluation.
翻訳日:2024-03-11 21:58:17 公開日:2024-03-07
# 熱的操作のための触媒変換

We can catalyse it for you thermally: Catalytic transformations for thermal operations ( http://arxiv.org/abs/2403.04845v1 )

ライセンス: Link先を確認
Jakub Czartowski and A. de Oliveira Junior(参考訳) 量子系間の熱力学的変換を支援する触媒の基本的な限界と利点は何か? 本研究は, システム, 触媒, 熱環境間の最も一般的なエネルギー保存相互作用の下でのエネルギー不整合状態間の変換に着目し, この問題に答えるものである。 唯一の制約は、触媒は他のサブシステムと非飽和で非相関な状態に戻さなければならないことである。 より正確には、与えられた初期状態が熱力学的に(触媒可能な未来)に進化できる状態の集合を、厳密な触媒の助けを借りて(触媒可能な過去)進化できる状態の集合を特徴づける。 第二に, 熱過程下での触媒存在に必要な次元に対する下界と, 触媒の状態形成における境界を導出する。 最後に、触媒可能な将来の体積の観点から触媒の長所を定量化し、熱資源を用いた絡み合い生成の例題としてその有用性を示す。

What are the fundamental limits and advantages of using a catalyst to aid thermodynamic transformations between quantum systems? In this work, we answer this question by focusing on transformations between energy-incoherent states under the most general energy-conserving interactions among the system, the catalyst, and a thermal environment. The sole constraint is that the catalyst must return unperturbed and uncorrelated with the other subsystems. More precisely, we first characterise the set of states to which a given initial state can thermodynamically evolve (the catalysable future) or from which it can evolve (the catalysable past) with the help of a strict catalyst. Secondly, we derive lower bounds on the dimensionality required for the existence of catalysts under thermal process, along with bounds on the catalyst's state preparation. Finally, we quantify the catalytic advantage in terms of the volume of the catalysable future and demonstrate its utility in an exemplary task of generating entanglement using thermal resources.
翻訳日:2024-03-11 21:57:33 公開日:2024-03-07
# どんな深さでもバレン高原のないハードウェア効率のアンサッツ

Hardware-efficient ansatz without barren plateaus in any depth ( http://arxiv.org/abs/2403.04844v1 )

ライセンス: Link先を確認
Chae-Yeun Park, Minhyeok Kang, and Joonsuk Huh(参考訳) 変分量子回路は、コンビネーション最適化、量子シミュレーション、確率分布のモデリングといった実世界の応用における関連性から、近年多くの関心を集めている。 その大きな可能性にもかかわらず、数十量子ビットを超える回路の実用性はほとんど疑問視されている。 主な問題の1つは、いわゆるバレン台地現象である。 ランダム構造を持つ量子回路は、しばしば平坦なコスト関数ランドスケープを持つため、効率的に訓練することはできない。 本稿では,ハードウェア効率のよいアンサッツ(HEA)を任意の回路深さのバレンプラトーから解放する2つの新しいパラメータ条件を提案する。 最初の条件では、HEAは局所ハミルトニアンによって生成される時間進化作用素に近似する。 Park and Killoran, Quantum 8, 1239 (2024)] による最近の結果を利用して、局所観測と大域観測の両方において、任意の深さで勾配の等級が一定に低いことを証明した。 一方、HEAは第2パラメータ条件の多体局在化(MBL)フェーズ内にある。 この相のHEAは、MBL系の現象論的モデルを用いて、局所観測可能な大きな勾配成分を有していると論じる。 これらの条件を用いてHEAのパラメータを初期化することにより,多体ハミルトニアンの解法における総合的な性能が向上することを示す。 その結果,初期パラメータがスマートに選択された場合,不毛高原は問題ではなく,局所的なミニマや回路の表現性といった他の要因がより重要であることが示唆された。

Variational quantum circuits have recently gained much interest due to their relevance in real-world applications, such as combinatorial optimizations, quantum simulations, and modeling a probability distribution. Despite their huge potential, the practical usefulness of those circuits beyond tens of qubits is largely questioned. One of the major problems is the so-called barren plateaus phenomenon. Quantum circuits with a random structure often have a flat cost-function landscape and thus cannot be trained efficiently. In this paper, we propose two novel parameter conditions in which the hardware-efficient ansatz (HEA) is free from barren plateaus for arbitrary circuit depths. In the first condition, the HEA approximates to a time-evolution operator generated by a local Hamiltonian. Utilizing a recent result by [Park and Killoran, Quantum 8, 1239 (2024)], we prove a constant lower bound of gradient magnitudes in any depth both for local and global observables. On the other hand, the HEA is within the many-body localized (MBL) phase in the second parameter condition. We argue that the HEA in this phase has a large gradient component for a local observable using a phenomenological model for the MBL system. By initializing the parameters of the HEA using these conditions, we show that our findings offer better overall performance in solving many-body Hamiltonians. Our results indicate that barren plateaus are not an issue when initial parameters are smartly chosen, and other factors, such as local minima or the expressivity of the circuit, are more crucial.
翻訳日:2024-03-11 21:57:02 公開日:2024-03-07
# 不完全テレポーテーション下の量子臨界

Quantum criticality under imperfect teleportation ( http://arxiv.org/abs/2403.04843v1 )

ライセンス: Link先を確認
Pablo Sala, Sara Murciano, Yue Liu and Jason Alicea(参考訳) 絡み合い、測定、古典的コミュニケーションは、原則として完全な忠実性を持つ、遠隔当事者間の量子状態のテレポーテーションを可能にする。 不完全なテレポーテーションプロトコル下での多体波動関数の相関と絡み合いはどの程度か? 本稿では,不完全伝送された量子臨界波動関数に対して,臨界イジング鎖の基底状態に着目し,この問題に対処する。 例えば、与えられたプロトコルで採用されているエンタングリングゲートにおいて、非完全性は、原則的にテレポートされた臨界状態に作用する弱い測定値として効果的に現れることを実証する。 この視点を活かして, 測定交替量子臨界理論を活用し, さらに発展させ, 臨界状態テレポーテーションの弾力性を定量化する。 不完全性を$とするテレポーテーションプロトコルのクラスを識別する。 (i)$は、元の量子臨界状態の普遍的長距離絡み合いと相関の両方を保存する。 (ii)$はこれらの量をそれらの普遍値から弱め、$ (iii)$は、新しい指数の集合であるにもかかわらず、権力-法則の相関を保ちながら、長距離の絡みを完全に消し去る。 また,一連の連続不完全なテレポーテーションイベントの平均を記述する混合状態は,各プロトコルの実行時と同様の誤差に依存するが,'組込み'復号アルゴリズムによるプリスタント・パワー・ローの相関が保たれることを示す。 これらの結果は、誤差に対して最適化するテレポーテーションプロトコルを設計することを可能にします。

Entanglement, measurement, and classical communication together enable teleportation of quantum states between distant parties, in principle with perfect fidelity. To what extent do correlations and entanglement of a many-body wavefunction transfer under imperfect teleportation protocols? We address this question for the case of an imperfectly teleported quantum critical wavefunction, focusing on the ground state of a critical Ising chain. We demonstrate that imperfections, e.g., in the entangling gate adopted for a given protocol, effectively manifest as weak measurements acting on the otherwise pristinely teleported critical state. Armed with this perspective, we leverage and further develop the theory of measurement-altered quantum criticality to quantify the resilience of critical-state teleportation. We identify classes of teleportation protocols for which imperfection $(i)$ preserves both the universal long-range entanglement and correlations of the original quantum critical state, $(ii)$ weakly modifies these quantities away from their universal values, and $(iii)$ obliterates long-range entanglement altogether while preserving power-law correlations, albeit with a new set of exponents. We also show that mixed states describing the average over a series of sequential imperfect teleportation events retain pristine power-law correlations due to a `built-in' decoding algorithm, though their entanglement structure measured by the negativity depends on errors similarly to individual protocol runs. These results may allow one to design teleportation protocols that optimize against errors -- highlighting a potential practical application of measurement-altered criticality.
翻訳日:2024-03-11 21:56:34 公開日:2024-03-07
# 熱水性からの絡み合い生成

Entanglement generation from athermality ( http://arxiv.org/abs/2403.04842v1 )

ライセンス: Link先を確認
A. de Oliveira Junior, Jeongrak Son, Jakub Czartowski, Nelly H. Y. Ng(参考訳) 最小仮定のモデル非依存フレームワークを用いて,平衡状態を用いた絡み合い生成の重要課題に関する熱力学的制約について検討した。 熱過程において, 初期分離状態から2成分量子エンタングルメントを生成するための必要十分条件を確立する。 その結果、外部の作業が投資されない場合、絡み合うことができないシステム状態の集合を特定できる。 無限温度の状態では、この集合を解析的に構成し、有限温度では、任意の初期状態がエンタングル可能かどうかを検証するための簡単な基準を提供する。 さらに, エンタングルメントの将来の熱円錐 - 与えられた分離可能な状態が熱力学的に進化できるエンタングル状態の集合 - を明示的に構成する。 我々は,この円錐の性質について詳細な議論を行い,絡み合いとその体積特性の相互作用に着目した。 2量子系以外の絡み合いの発生についていくつかの重要な論点をまとめ、散逸の存在下でのそのダイナミクスについて論じる。

We investigate the thermodynamic constraints on the pivotal task of entanglement generation using out-of-equilibrium states through a model-independent framework with minimal assumptions. We establish a necessary and sufficient condition for a thermal process to generate bipartite qubit entanglement, starting from an initially separable state. Consequently, we identify the set of system states that cannot be entangled, when no external work is invested. In the regime of infinite temperature, we analytically construct this set; while for finite temperature, we provide a simple criterion to verify whether any given initial state is or is not entanglable. Furthermore, we provide an explicit construction of the future thermal cone of entanglement - the set of entangled states that a given separable state can thermodynamically evolve to. We offer a detailed discussion on the properties of this cone, focusing on the interplay between entanglement and its volumetric properties. We conclude with several key remarks on the generation of entanglement beyond two-qubit systems, and discuss its dynamics in the presence of dissipation.
翻訳日:2024-03-11 21:56:09 公開日:2024-03-07
# 量子PCP:局所ハミルトニアンへの適応性、多重プローバーおよび還元について

Quantum PCPs: on Adaptivity, Multiple Provers and Reductions to Local Hamiltonians ( http://arxiv.org/abs/2403.04841v1 )

ライセンス: Link先を確認
Harry Buhrman, Jonas Helsen, Jordi Weggemans(参考訳) 量子PCPの一般的な定式化を定義し、適応性と複数の非絡み合ったプロバーを捕捉し、一定の約束ギャップを持つ局所ハミルトンに量子還元の詳細な構成を与える。 この還元は量子PCPの性質を証明するための多用途サブルーチンであることが判明した。 (i)非適応量子PCPは、証明クエリ数が一定であるときに適応量子PCPをシミュレートすることができる。 実際、非適応量子pcpが証明インデックスを全ての可能なインデックスの組み合わせのサブセットからランダムにランダムに選択し、aharonov、alad、landau、vazirani(stoc '09)によって開かれた質問に答えるときにも、これは成り立つ。 (ii) 一定のpromiseギャップを持つ$q$局所ハミルトン問題は$\mathsf{qcma}$で解くことができるなら、任意の$q \in o(1)$に対して$\mathsf{qpcp}[q] \subseteq \mathsf{qcma}$である。 (iii)$\mathsf{QMA}(k)$ が任意の $k \leq \text{poly}(n)$ に対して量子 PCP を持つなら、$\mathsf{QMA}(2) = \mathsf{QMA}$ が成立し、量子複雑性理論において最長の開問題の2つを接続する。 さらに、ある量子PCPステートメントが偽であるような(量子)オラクルが存在することも示している。 したがって、量子PCP予想を証明しようとする試みは、古典的なPCP定理と同様に、(量子的に)非相対化技術を必要とする。

We define a general formulation of quantum PCPs, which captures adaptivity and multiple unentangled provers, and give a detailed construction of the quantum reduction to a local Hamiltonian with a constant promise gap. The reduction turns out to be a versatile subroutine to prove properties of quantum PCPs, allowing us to show: (i) Non-adaptive quantum PCPs can simulate adaptive quantum PCPs when the number of proof queries is constant. In fact, this can even be shown to hold when the non-adaptive quantum PCP picks the proof indices simply uniformly at random from a subset of all possible index combinations, answering an open question by Aharonov, Arad, Landau and Vazirani (STOC '09). (ii) If the $q$-local Hamiltonian problem with constant promise gap can be solved in $\mathsf{QCMA}$, then $\mathsf{QPCP}[q] \subseteq \mathsf{QCMA}$ for any $q \in O(1)$. (iii) If $\mathsf{QMA}(k)$ has a quantum PCP for any $k \leq \text{poly}(n)$, then $\mathsf{QMA}(2) = \mathsf{QMA}$, connecting two of the longest-standing open problems in quantum complexity theory. Moreover, we also show that there exists (quantum) oracles relative to which certain quantum PCP statements are false. Hence, any attempt to prove the quantum PCP conjecture requires, just as was the case for the classical PCP theorem, (quantumly) non-relativizing techniques.
翻訳日:2024-03-11 21:55:53 公開日:2024-03-07
# 準結晶超低温フェルミオンの双極子相互作用に対する安定性

Stability of quasicrystalline ultracold fermions to dipolar interactions ( http://arxiv.org/abs/2403.04830v1 )

ライセンス: Link先を確認
Paolo Molignini(参考訳) 準周期ポテンシャルは、1次元における局所化と非局在化の間の補間に使うことができる。 しかし、準結晶相と長距離相互作用の安定性についてはほとんど分かっていない。 本研究では,準周期光学格子における反動型超低温双極子フェルミオンの研究を行い,相互作用する準結晶の挙動を特徴づける。 準結晶秩序と局在特性を探索するために用いられる典型的な実験プロトコルのフルタイム進化をシミュレートする。 実験により測定可能な力学オブザーバブルと相関関数を抽出し,非相互作用条件である局所化,中間,拡張の3つの位相を特徴付ける。 次に, 反発的双極子相互作用に対する相の安定性について検討した。 中間相の安定化により、双極子相互作用は位相図の形状を完全に変えることができることが判明した。 さらに, 強相互作用系では, 密度振動を特徴とする共鳴様挙動が現れる。 顕著なことに、強い双極子反発は、一次格子が十分に深くても準周期性がない場合でも粒子を局在させることができる。 我々の研究は、準周期ポテンシャルにおける双極子相互作用が、局所化および拡張量子状態の複雑でチューナブルな共存をもたらすことを示した。

Quasiperiodic potentials can be used to interpolate between localization and delocalization in one dimension. However, little is known about the stability of quasicrystalline phases to long-range interactions. In this work, we study repulsive ultracold dipolar fermions in a quasiperiodic optical lattice to characterize the behavior of interacting quasicrystals. We simulate the full time evolution of the typical experimental protocols used to probe quasicrystalline order and localization properties. We extract experimentally measurable dynamical observables and correlation functions to characterize the three phases observed in the noninteracting setting: localized, intermediate, and extended. We then study the stability of such phases to repulsive dipolar interactions. We find that dipolar interactions can completely alter the shape of the phase diagram by stabilizing the intermediate phase, mostly at the expense of the extended phase. Moreover, in the strongly interacting regime, a resonance-like behavior characterized by density oscillations appears. Remarkably, strong dipolar repulsions can also localize particles even in the absence of quasiperiodicity if the primary lattice is sufficiently deep. Our work shows that dipolar interactions in a quasiperiodic potential can give rise to a complex, tuneable coexistence of localized and extended quantum states.
翻訳日:2024-03-11 21:55:17 公開日:2024-03-07
# 量子コンピュータ上の位相相転移における非局所ゲーム

Playing nonlocal games across a topological phase transition on a quantum computer ( http://arxiv.org/abs/2403.04829v1 )

ライセンス: Link先を確認
Oliver Hart, David T. Stephen, Dominic J. Williamson, Michael Foss-Feig, and Rahul Nandkishore(参考訳) 多体量子ゲームは、量子ハードウェアにおける物質相に関する自然な視点を提供し、物質相に固有の量子相関をデバイス指向のタスクにおける量子優位性の確保と関連付ける。 本稿では、トポロジカルに順序付けられた物質相が量子優位性をもたらす資源であるマルチプレイヤー量子ゲーム群を紹介する。 以前の例とは異なり、量子優位性は正確に解ける点から遠ざかっており、系のサイズに関係なく任意の局所摂動に対して堅牢である。 量子量子コンピュータ h1-1 上でこの頑健性を実験的に実証し,中回路計測とユニタリフィードバックを駆使して一定深さの回路で生成可能な,ランダムに変形したトーリック符号状態の連続系でゲームを行う。 これにより、現在利用可能な量子ハードウェア上で、ロバストな量子アドバンテージが失われることによる、トポロジカルな位相遷移をチューニングできます。 この振舞いは変形したGHZ状態の類似の族と対照的であり、任意に弱い局所摂動は熱力学的極限における量子的優位性を破壊する。 最後に,ゲームの位相的解釈について考察し,任意の数のプレイヤーによる自然な一般化を導く。

Many-body quantum games provide a natural perspective on phases of matter in quantum hardware, crisply relating the quantum correlations inherent in phases of matter to the securing of quantum advantage at a device-oriented task. In this paper we introduce a family of multiplayer quantum games for which topologically ordered phases of matter are a resource yielding quantum advantage. Unlike previous examples, quantum advantage persists away from the exactly solvable point and is robust to arbitrary local perturbations, irrespective of system size. We demonstrate this robustness experimentally on Quantinuum's H1-1 quantum computer by playing the game with a continuous family of randomly deformed toric code states that can be created with constant-depth circuits leveraging mid-circuit measurements and unitary feedback. We are thus able to tune through a topological phase transition - witnessed by the loss of robust quantum advantage - on currently available quantum hardware. This behavior is contrasted with an analogous family of deformed GHZ states, for which arbitrarily weak local perturbations destroy quantum advantage in the thermodynamic limit. Finally, we discuss a topological interpretation of the game, which leads to a natural generalization involving an arbitrary number of players.
翻訳日:2024-03-11 21:54:59 公開日:2024-03-07
# 複雑に制約された量子熱力学

Complexity-constrained quantum thermodynamics ( http://arxiv.org/abs/2403.04828v1 )

ライセンス: Link先を確認
Anthony Munson and Naga Bhavya Teja Kothakonda and Jonas Haferkamp and Nicole Yunger Halpern and Jens Eisert and Philippe Faist(参考訳) 量子複雑性は、状態の準備やユニタリの実装など、量子プロセスを実現することの難しさを測定する。 本稿では,プロセスの複雑さが制限されている場合,プロセス実装に必要な熱力学的資源を定量化する手法を提案する。 我々は,nビットメモリを全ゼロ状態にリセットする,情報消去(Landauer)の原型的タスクに着目した。 任意の状態のリセットに必要な最小熱力学的作業は、複雑性に制約のあるプロセスを通じて、状態の複雑性エントロピーによって定量化される。 したがって、複雑性エントロピーは、作業コストと状態を再セットする複雑性コストの間のトレードオフを定量化する。 量子ビットが非自明な(ただし積)ハミルトニアンを持つ場合、最適作業コストは複雑性相対エントロピーによって決定される。 複雑性エントロピーは、システムが計算的に制限されたオブザーバーに持っているように見えるランダムネスの量を定量化する。 同様に、複雑性相対エントロピーは、2つの状態を区別する観測者の能力を定量化する。 複雑性(相対エントロピー)の基本的な性質を証明し、ランダム回路下での複雑性エントロピーの挙動を決定する。 また,複雑性エントロピーの情報理論的応用も確認する。 複雑性エントロピーは、圧縮アルゴリズムが制限された数のゲートを使用する必要がある場合、データ圧縮に必要なリソースを定量化する。 さらに、複雑性条件付きエントロピーを導入し、情報理論のデカップリングの複雑さに制約のある変種で自然に発生する。 このエントロピーが予想された連鎖則に従うと仮定すると、エントロピーは、計算的に有界な参照者によって判断されるように、参照系から切り離せる量子ビットの数に制限される。 全体として、我々のフレームワークは、複雑性によって定量化される時間の概念を統合するために、熱力学へのリソース理論的アプローチを拡張します。

Quantum complexity measures the difficulty of realizing a quantum process, such as preparing a state or implementing a unitary. We present an approach to quantifying the thermodynamic resources required to implement a process if the process's complexity is restricted. We focus on the prototypical task of information erasure, or Landauer erasure, wherein an n-qubit memory is reset to the all-zero state. We show that the minimum thermodynamic work required to reset an arbitrary state, via a complexity-constrained process, is quantified by the state's complexity entropy. The complexity entropy therefore quantifies a trade-off between the work cost and complexity cost of resetting a state. If the qubits have a nontrivial (but product) Hamiltonian, the optimal work cost is determined by the complexity relative entropy. The complexity entropy quantifies the amount of randomness a system appears to have to a computationally limited observer. Similarly, the complexity relative entropy quantifies such an observer's ability to distinguish two states. We prove elementary properties of the complexity (relative) entropy and determine the complexity entropy's behavior under random circuits. Also, we identify information-theoretic applications of the complexity entropy. The complexity entropy quantifies the resources required for data compression if the compression algorithm must use a restricted number of gates. We further introduce a complexity conditional entropy, which arises naturally in a complexity-constrained variant of information-theoretic decoupling. Assuming that this entropy obeys a conjectured chain rule, we show that the entropy bounds the number of qubits that one can decouple from a reference system, as judged by a computationally bounded referee. Overall, our framework extends the resource-theoretic approach to thermodynamics to integrate a notion of time, as quantified by complexity.
翻訳日:2024-03-11 21:54:35 公開日:2024-03-07
# UniTable: 自己監督型事前学習によるテーブル構造認識のための統一フレームワーク

UniTable: Towards a Unified Framework for Table Structure Recognition via Self-Supervised Pretraining ( http://arxiv.org/abs/2403.04822v1 )

ライセンス: Link先を確認
ShengYun Peng, Seongmin Lee, Xiaojing Wang, Rajarajeswari Balasubramaniyan, Duen Horng Chau(参考訳) テーブルは、機械が解析することがしばしば困難である人間の暗黙の規則で、事実と量的なデータを伝達する。 テーブル構造認識(TSR)の研究は、主に利用可能な入力とツールの複雑なタスク固有の組み合わせに焦点を当てている。 本稿では,tsrのトレーニングパラダイムとトレーニング目標の両方を統合するトレーニングフレームワークであるunitableを提案する。 そのトレーニングパラダイムは、純粋にピクセルレベルの入力の単純さと、さまざまな未注釈の表画像からの自己教師付き事前学習(SSP)によって強化された有効性とスケーラビリティを組み合わせる。 本フレームワークは、テーブル構造、セルコンテンツ、セルバウンディングボックス(bbox)を抽出する3つのTSRタスクのトレーニング目標を、タスク非依存のトレーニング目標である言語モデリングに統一する。 大規模で質的な分析では、最大のTSRデータセットの4つでUniTableのSOTA(State-of-the-art)のパフォーマンスを強調している。 再現可能な研究を促進し、透明性を高め、SOTAのイノベーションを促進するため、私たちはhttps://github.com/poloclub/unitableでコードをオープンソース化し、3つのTSRタスクすべてをサポートする複数のTSRデータセットを微調整した、推論パイプライン全体の最初のJupyter Notebookをリリースしました。

Tables convey factual and quantitative data with implicit conventions created by humans that are often challenging for machines to parse. Prior work on table structure recognition (TSR) has mainly centered around complex task-specific combinations of available inputs and tools. We present UniTable, a training framework that unifies both the training paradigm and training objective of TSR. Its training paradigm combines the simplicity of purely pixel-level inputs with the effectiveness and scalability empowered by self-supervised pretraining (SSP) from diverse unannotated tabular images. Our framework unifies the training objectives of all three TSR tasks - extracting table structure, cell content, and cell bounding box (bbox) - into a unified task-agnostic training objective: language modeling. Extensive quantitative and qualitative analyses highlight UniTable's state-of-the-art (SOTA) performance on four of the largest TSR datasets. To promote reproducible research, enhance transparency, and SOTA innovations, we open-source our code at https://github.com/poloclub/unitable and release the first-of-its-kind Jupyter Notebook of the whole inference pipeline, fine-tuned across multiple TSR datasets, supporting all three TSR tasks.
翻訳日:2024-03-11 21:54:03 公開日:2024-03-07
# 半構造化インタビュー文からの情報抽出の自動化

Automating the Information Extraction from Semi-Structured Interview Transcripts ( http://arxiv.org/abs/2403.04819v1 )

ライセンス: Link先を確認
Angelina Parfenova(参考訳) 本稿では,半構造化面接書から情報を取り出す自動システムの開発と応用について検討する。 コーディングのような伝統的な質的分析方法の労働集約的な性質を考えると、分析プロセスを容易にするツールに対する大きな需要が存在する。 本研究は,様々なトピックモデリング手法を調査し,インタビューテキストの分析に最適なモデルはbert埋め込みとhdbscanクラスタリングの組み合わせであると結論づける。 本稿では,プログラミングスキルのない研究者を含む研究者が,面接データの主題構造を効率的に処理し可視化できる,ユーザフレンドリーなソフトウェアプロトタイプを提案する。 このツールは質的分析の初期段階を容易にするだけでなく、明らかなトピックの相互接続性に関する洞察を提供し、質的分析の深さを高める。

This paper explores the development and application of an automated system designed to extract information from semi-structured interview transcripts. Given the labor-intensive nature of traditional qualitative analysis methods, such as coding, there exists a significant demand for tools that can facilitate the analysis process. Our research investigates various topic modeling techniques and concludes that the best model for analyzing interview texts is a combination of BERT embeddings and HDBSCAN clustering. We present a user-friendly software prototype that enables researchers, including those without programming skills, to efficiently process and visualize the thematic structure of interview data. This tool not only facilitates the initial stages of qualitative analysis but also offers insights into the interconnectedness of topics revealed, thereby enhancing the depth of qualitative analysis.
翻訳日:2024-03-11 21:53:40 公開日:2024-03-07
# AI ERAにおけるストームサージモデリング:予測精度向上のためのLSTMベースの機械学習

Storm Surge Modeling in the AI ERA: Using LSTM-based Machine Learning for Enhancing Forecasting Accuracy ( http://arxiv.org/abs/2403.04818v1 )

ライセンス: Link先を確認
Stefanos Giaremis, Noujoud Nader, Clint Dawson, Hartmut Kaiser, Carola Kaiser, Efstratios Nikidis(参考訳) 自然過程の物理シミュレーションの結果は、通常実世界を完全には捉えない。 これは例えば、物理的プロセスのシミュレーションと精度の制限によって引き起こされる。 本研究では,ハリケーン発生時の観測地点からの実世界の水位観測に関して,高潮予報モデルにおけるシステム誤差の挙動をキャプチャし予測するための,lstmに基づくディープラーニング(ml)アーキテクチャの利用を提案し,解析する。 この研究の全体的な目標は、物理モデルの体系的誤差を予測し、事実後のシミュレーション結果の精度を向上させることにある。 アメリカ合衆国沿岸部における61の歴史的嵐のデータセットを用いて,提案したMLモデルを訓練し,ハリケーンIan(2022年)のモデル水位データ予測に偏り補正を行った。 我々のモデルは、初期データに使用されるすべてのゲージステーション座標において、MLモデルに未知のハリケーンIanの予測精度を一貫して改善できることを示します。 さらに,6つのハリケーンのサブセットのみを用いて,比較的類似した,あるいは異なるハリケーンを含む初期訓練データセットの異なるサブセットを使用することによる影響を調べることにより,同様のバイアス補正の質が得られることがわかった。 これは,事前学習したMLモデルを,バイアス補正とシミュレーション精度の向上を目標としたリアルタイムハリケーン予測結果に適用する可能性を示す重要な結果である。 本研究は,全シミュレーション領域に適用可能なリアルタイム嵐サージ予測のためのバイアス補正システムを構築する上で重要な第一歩である。 また、強風予報以外の幅広い物理シミュレーションシナリオの精度を向上させるために、高度に伝達可能で運用可能な手法を提案する。

Physics simulation results of natural processes usually do not fully capture the real world. This is caused for instance by limits in what physical processes are simulated and to what accuracy. In this work we propose and analyze the use of an LSTM-based deep learning network machine learning (ML) architecture for capturing and predicting the behavior of the systemic error for storm surge forecast models with respect to real-world water height observations from gauge stations during hurricane events. The overall goal of this work is to predict the systemic error of the physics model and use it to improve the accuracy of the simulation results post factum. We trained our proposed ML model on a dataset of 61 historical storms in the coastal regions of the U.S. and we tested its performance in bias correcting modeled water level data predictions from hurricane Ian (2022). We show that our model can consistently improve the forecasting accuracy for hurricane Ian -- unknown to the ML model -- at all gauge station coordinates used for the initial data. Moreover, by examining the impact of using different subsets of the initial training dataset, containing a number of relatively similar or different hurricanes in terms of hurricane track, we found that we can obtain similar quality of bias correction by only using a subset of six hurricanes. This is an important result that implies the possibility to apply a pre-trained ML model to real-time hurricane forecasting results with the goal of bias correcting and improving the produced simulation accuracy. The presented work is an important first step in creating a bias correction system for real-time storm surge forecasting applicable to the full simulation area. It also presents a highly transferable and operationally applicable methodology for improving the accuracy in a wide range of physics simulation scenarios beyond storm surge forecasting.
翻訳日:2024-03-11 21:53:20 公開日:2024-03-07
# すどくの簡単なQUBO式

A Simple QUBO Formulation of Sudoku ( http://arxiv.org/abs/2403.04816v1 )

ライセンス: Link先を確認
Sascha M\"ucke(参考訳) 本稿では,二分最適化(qubo)を用いた数独パズルの解法について述べる。 この目的のために、729の変数を持つQUBOインスタンスが構築され、すべての制約のあるSudokuグリッドをコードし、手掛かりを部分的に考慮するように割り当てられる。 結果として得られたインスタンスは量子アニーラや他の戦略で解くことができ、完全に満たしたsudokuグリッドを得ることができる。 さらに、すべての有効な解が同じエネルギーを持つため、quboインスタンスは有効なsudokuグリッドの空間から一様にサンプリングすることができる。 本稿では,ヒューリスティックな解法と量子アニールを用いて記述法を示す。

This article describes how to solve Sudoku puzzles using Quadratic Unconstrained Binary Optimization (QUBO). To this end, a QUBO instance with 729 variables is constructed, encoding a Sudoku grid with all constraints in place, which is then partially assigned to account for clues. The resulting instance can be solved with a Quantum Annealer, or any other strategy, to obtain the fully filled-out Sudoku grid. Moreover, as all valid solutions have the same energy, the QUBO instance can be used to sample uniformly from the space of valid Sudoku grids. We demonstrate the described method using both a heuristic solver and a Quantum Annealer.
翻訳日:2024-03-11 21:52:52 公開日:2024-03-07
# AI評価とレッドチームのためのセーフハーバー

A Safe Harbor for AI Evaluation and Red Teaming ( http://arxiv.org/abs/2403.04893v1 )

ライセンス: Link先を確認
Shayne Longpre, Sayash Kapoor, Kevin Klyman, Ashwin Ramaswami, Rishi Bommasani, Borhane Blili-Hamelin, Yangsibo Huang, Aviya Skowron, Zheng-Xin Yong, Suhas Kotha, Yi Zeng, Weiyan Shi, Xianjun Yang, Reid Southen, Alexander Robey, Patrick Chao, Diyi Yang, Ruoxi Jia, Daniel Kang, Sandy Pentland, Arvind Narayanan, Percy Liang, Peter Henderson(参考訳) 独立した評価とred teamingは、生成型aiシステムによって引き起こされるリスクを特定するために重要である。 しかし、著名なai企業がモデル誤用を抑止するために使用するサービスおよび執行戦略の条項は、信頼の安全評価に悪影響を与えている。 一部の研究者は、そのような研究の実施や研究成果の公表が、アカウント停止や法的報復につながることを恐れている。 研究者のアクセスプログラムを提供する企業もあるが、コミュニティの表現が限られ、資金が不足し、企業のインセンティブから独立していないため、独立した研究アクセスの代替には不十分である。 我々は、主要なai開発者が法的かつ技術的に安全な港を提供し、公益安全研究を補償し、アカウント停止や法的報復の脅威から保護することを約束することを提案する。 これらの提案は、モデル誤用を悪化させることなく、規範やインセンティブが公共の利益とよりよく一致させることができる、生成型aiシステムに関する安全性、プライバシー、信頼性の研究を行う集団的経験から生まれました。 これらのコミットメントは、ジェネレーティブAIのリスクに取り組むための、より包括的で意図しないコミュニティ努力への必要なステップであると考えています。

Independent evaluation and red teaming are critical for identifying the risks posed by generative AI systems. However, the terms of service and enforcement strategies used by prominent AI companies to deter model misuse have disincentives on good faith safety evaluations. This causes some researchers to fear that conducting such research or releasing their findings will result in account suspensions or legal reprisal. Although some companies offer researcher access programs, they are an inadequate substitute for independent research access, as they have limited community representation, receive inadequate funding, and lack independence from corporate incentives. We propose that major AI developers commit to providing a legal and technical safe harbor, indemnifying public interest safety research and protecting it from the threat of account suspensions or legal reprisal. These proposals emerged from our collective experience conducting safety, privacy, and trustworthiness research on generative AI systems, where norms and incentives could be better aligned with public interests, without exacerbating model misuse. We believe these commitments are a necessary step towards more inclusive and unimpeded community efforts to tackle the risks of generative AI.
翻訳日:2024-03-11 21:48:12 公開日:2024-03-07
# オープンエンド医療質問応答のためのLCMを誘導するチェーン・オブ・シークレット推論

Few shot chain-of-thought driven reasoning to prompt LLMs for open ended medical question answering ( http://arxiv.org/abs/2403.04890v1 )

ライセンス: Link先を確認
Ojas Gramopadhye, Saeel Sandeep Nachane, Prateek Chanda, Ganesh Ramakrishnan, Kshitij Sharad Jadhav, Yatin Nandwani, Dinesh Raghu, Sachindra Joshi(参考訳) 大規模言語モデル(LLM)は、臨床ドキュメント、情報検索、意思決定支援などのタスクを自動化することで、医療を変革する大きな可能性を実証している。 この点において、慎重に設計されたプロンプトは、医療シナリオ、例えば患者の臨床シナリオにLLMを使用するための強力なツールとして現れている。 本稿では,実際の臨床シナリオを模倣するために主観的なmedqa-usmleデータセットの修正版を提案する。 医学的問題に対する適切なLM駆動前方推論を用いた修正MedQA-USMLEデータセットの主観応答生成に基づく思考の連鎖推論(CoT)について検討する。 医療現場における応答検証の重要性を念頭に置いて,言語モデルが臨床質問に対する特定の応答に対して適切な応答を提供するための報酬訓練機構を利用する。 この点に関しては,評価面の異なるHuman-in-the-loopも含んでいる。 主観的medqaデータセットに対するarxiv:2207.08143の5-shot-codex-cot-promptを修正し,インクリメンタルな分析プロンプトを開発することにより,コントラスト内学習戦略を改善する。 評価の結果,特定のシナリオにおいて,インクリメンタル推論のプロンプトはコーデックスのプロンプトよりも優れていた。 また,インクリメンタル推論手法によるグリージーデコーディングは,プロンプト連鎖や固有推論など,他の手法よりも優れていることを示す。

Large Language models (LLMs) have demonstrated significant potential in transforming healthcare by automating tasks such as clinical documentation, information retrieval, and decision support. In this aspect, carefully engineered prompts have emerged as a powerful tool for using LLMs for medical scenarios, e.g., patient clinical scenarios. In this paper, we propose a modified version of the MedQA-USMLE dataset, which is subjective, to mimic real-life clinical scenarios. We explore the Chain of Thought (CoT) reasoning based on subjective response generation for the modified MedQA-USMLE dataset with appropriate LM-driven forward reasoning for correct responses to the medical questions. Keeping in mind the importance of response verification in the medical setting, we utilize a reward training mechanism whereby the language model also provides an appropriate verified response for a particular response to a clinical question. In this regard, we also include human-in-the-loop for different evaluation aspects. We develop better in-contrast learning strategies by modifying the 5-shot-codex-CoT-prompt from arXiv:2207.08143 for the subjective MedQA dataset and developing our incremental-reasoning prompt. Our evaluations show that the incremental reasoning prompt performs better than the modified codex prompt in certain scenarios. We also show that greedy decoding with the incremental reasoning method performs better than other strategies, such as prompt chaining and eliminative reasoning.
翻訳日:2024-03-11 21:47:54 公開日:2024-03-07
# 非マルコフ量子ダイナミクスのためのアンサンブル変分量子アルゴリズム

Ensemble Variational Quantum Algorithm for Non-Markovian Quantum Dynamics ( http://arxiv.org/abs/2403.04885v1 )

ライセンス: Link先を確認
Peter L. Walters, Joachim Tsakanikas, Fei Wang(参考訳) 凝縮相環境における多くの物理的および化学的プロセスは、非マルコフ量子力学を示す。 このようなシミュレーションは従来のコンピュータでは難しいため,NISQデバイス上で非マルコフ力学をシミュレートできる変分量子アルゴリズムを開発した。 モデルハミルトニアンとして,高調波浴に線形結合した量子系を用いた。 非マルコビアン性は、浴槽軌道から補助変数を導入することによって得られる。 モンテカルロが浴槽の自由度をサンプリングすることで、有限温度ダイナミクスが生成される。 このアルゴリズムをシミュレータ上で検証し,IBM量子デバイス上での性能を実証した。 開発されたフレームワークは、システムに非線形結合を持つ任意のアンハーモニック浴に自然に適応し、散逸環境でのスピン鎖ダイナミクスのシミュレーションにも適している。

Many physical and chemical processes in the condensed phase environment exhibit non-Markovian quantum dynamics. As such simulations are challenging on classical computers, we developed a variational quantum algorithm that is capable of simulating non-Markovian dynamics on NISQ devices. We used a quantum system linearly coupled to its harmonic bath as the model Hamiltonian. The non-Markovianity is captured by introducing auxiliary variables from the bath trajectories. With Monte Carlo sampling of the bath degrees of freedom, finite temperature dynamics is produced. We validated the algorithm on the simulator and demonstrated its performance on the IBM quantum device. The framework developed is naturally adapted to any anharmonic bath with non-linear coupling to the system, and is also well suited for simulating spin chain dynamics in a dissipative environment.
翻訳日:2024-03-11 21:47:27 公開日:2024-03-07
# 条件付き可逆ニューラルネットワークを用いた網膜補綴刺激の最適化

Optimizing Retinal Prosthetic Stimuli with Conditional Invertible Neural Networks ( http://arxiv.org/abs/2403.04884v1 )

ライセンス: Link先を確認
Yuli Wu, Julian Wittmann, Peter Walter, Johannes Stegmaier(参考訳) 移植可能な網膜補綴物は、損傷した網膜の光受容体細胞を回避し、残りの機能的な網膜細胞を直接刺激することで部分視覚を回復する有望な解決策を提供する。 しかし、カメラと網膜細胞間の情報伝達は、電極アレイの低分解能と異なるガングリオン細胞タイプに対する特異性の欠如によって制限され、その結果、至適刺激が生じる。 本研究では,フローベース条件付き非可逆ニューラルネットワークの正規化による網膜インプラント刺激の最適化を提案する。 これらのネットワークの可逆性により、入力されたカメラ信号を電極アレイ上で最適化された電気刺激に符号化しながら、視覚系の計算モデルの代理として使用できる。 自明なダウンサンプリング、線形モデル、フィードフォワード畳み込みニューラルネットワークなどの他の手法と比較すると、フローベースの可逆ニューラルネットワークとその条件付き拡張は、生理学的に検証されたシミュレーションツールを使用して、より優れた視覚再構成品質をもたらす。

Implantable retinal prostheses offer a promising solution to restore partial vision by circumventing damaged photoreceptor cells in the retina and directly stimulating the remaining functional retinal cells. However, the information transmission between the camera and retinal cells is often limited by the low resolution of the electrode array and the lack of specificity for different ganglion cell types, resulting in suboptimal stimulations. In this work, we propose to utilize normalizing flow-based conditional invertible neural networks to optimize retinal implant stimulation in an unsupervised manner. The invertibility of these networks allows us to use them as a surrogate for the computational model of the visual system, while also encoding input camera signals into optimized electrical stimuli on the electrode array. Compared to other methods, such as trivial downsampling, linear models, and feed-forward convolutional neural networks, the flow-based invertible neural network and its conditional extension yield better visual reconstruction qualities w.r.t. various metrics using a physiologically validated simulation tool.
翻訳日:2024-03-11 21:47:14 公開日:2024-03-07
# 分離型ガウスニューラルネットワークによる孤立波の学習

Learning Traveling Solitary Waves Using Separable Gaussian Neural Networks ( http://arxiv.org/abs/2403.04883v1 )

ライセンス: Link先を確認
Siyuan Xing and Efstathios G. Charalampidis(参考訳) 本稿では, 偏微分方程式 (PDE) の様々なファミリを横断する単独波を学習するために, 機械学習手法を適用する。 提案手法は,分離型ガウスニューラルネットワーク(SGNN)と呼ばれる新しい解釈可能なニューラルネットワーク(NN)アーキテクチャを物理インフォームドニューラルネットワーク(PINN)のフレームワークに統合する。 空間的・時間的データを独立した入力として扱う従来のPINNとは異なり、本手法は波動特性を利用してデータをいわゆる共振波枠に変換する。 この適応は、大規模計算領域に適用した場合のPINNの伝搬不良の問題に効果的に対処する。 ここで、SGNNアーキテクチャは、(1+1)次元のPDEの$b$ファミリー内の単一ピーク、複数ピーク、および定常解に対する堅牢な近似能力を示す。 さらに、調査を拡張し、$ab$-ファミリーのピークトン解だけでなく、(2+1)次元のコンパクトン解であるPDEのローズナウ・ハイマン族についても調べる。 MLPとの比較分析により、SGNNはニューロンの10分の1未満で同等の精度を達成し、複雑な非線形PDEを解くための効率性と可能性を強調している。

In this paper, we apply a machine-learning approach to learn traveling solitary waves across various families of partial differential equations (PDEs). Our approach integrates a novel interpretable neural network (NN) architecture, called Separable Gaussian Neural Networks (SGNN) into the framework of Physics-Informed Neural Networks (PINNs). Unlike the traditional PINNs that treat spatial and temporal data as independent inputs, the present method leverages wave characteristics to transform data into the so-called co-traveling wave frame. This adaptation effectively addresses the issue of propagation failure in PINNs when applied to large computational domains. Here, the SGNN architecture demonstrates robust approximation capabilities for single-peakon, multi-peakon, and stationary solutions within the (1+1)-dimensional, $b$-family of PDEs. In addition, we expand our investigations, and explore not only peakon solutions in the $ab$-family but also compacton solutions in (2+1)-dimensional, Rosenau-Hyman family of PDEs. A comparative analysis with MLP reveals that SGNN achieves comparable accuracy with fewer than a tenth of the neurons, underscoring its efficiency and potential for broader application in solving complex nonlinear PDEs.
翻訳日:2024-03-11 21:46:54 公開日:2024-03-07
# アテンションクロネッカー分解による高分解能時系列分類

Efficient High-Resolution Time Series Classification via Attention Kronecker Decomposition ( http://arxiv.org/abs/2403.04882v1 )

ライセンス: Link先を確認
Aosong Feng, Jialin Chen, Juan Garza, Brooklyn Berry, Francisco Salazar, Yifeng Gao, Rex Ying, Leandros Tassiulas(参考訳) 高分解能時系列分類問題は、様々な領域で詳細な時間データが利用可能になるために不可欠である。 この課題を効果的に解決するには,高分解能時系列データで典型的に発生するシーケンス長の増大に対応するために,最先端の注意モデルがスケーラブルであること,また,そのようなデータセットに共通する固有ノイズの処理における堅牢性を示すことが不可欠である。 そこで本研究では,長い時系列を対話範囲に基づいて複数のレベルに階層的にエンコードする手法を提案する。 異なるレベルで関係をキャプチャすることで、データの短期的変動と長期的傾向の両方をキャプチャできる、より堅牢で表現力のある効率的なモデルを構築することができます。 次に,クロネッカー分解した注意を,下層から上層への注意を逐次計算するマルチレベル時系列処理に導入し,新しい時系列トランスフォーマーバックボーン(krontime)を提案する。 4つの時系列データセットによる実験は, ベースライン法と比較して, 優れた分類結果が得られた。

The high-resolution time series classification problem is essential due to the increasing availability of detailed temporal data in various domains. To tackle this challenge effectively, it is imperative that the state-of-the-art attention model is scalable to accommodate the growing sequence lengths typically encountered in high-resolution time series data, while also demonstrating robustness in handling the inherent noise prevalent in such datasets. To address this, we propose to hierarchically encode the long time series into multiple levels based on the interaction ranges. By capturing relationships at different levels, we can build more robust, expressive, and efficient models that are capable of capturing both short-term fluctuations and long-term trends in the data. We then propose a new time series transformer backbone (KronTime) by introducing Kronecker-decomposed attention to process such multi-level time series, which sequentially calculates attention from the lower level to the upper level. Experiments on four long time series datasets demonstrate superior classification results with improved efficiency compared to baseline methods.
翻訳日:2024-03-11 21:46:29 公開日:2024-03-07
# アイテムはプロンプトに値する:不連続制御による多彩な画像編集

An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control ( http://arxiv.org/abs/2403.04880v1 )

ライセンス: Link先を確認
Aosong Feng, Weikang Qiu, Jinbin Bai, Kaicheng Zhou, Zhen Dong, Xiao Zhang, Rex Ying, Leandros Tassiulas(参考訳) テキスト・ツー・イメージ拡散モデル(DPM)の成功に基づき、画像編集はAI生成コンテンツとのヒューマンインタラクションを可能にする重要なアプリケーションである。 様々な編集方法のうち、プロンプト空間での編集は、その能力とセマンティクスの制御の単純さにより、より注目を集める。 しかし、拡散モデルは通常、記述的なテキストキャプションで事前学習されるため、テキストプロンプトで単語を直接編集すると、画像編集の要件に違反する全く異なる画像が生成される。 一方、既存の編集手法では、通常はDPMによって無視され、不調和な編集結果につながる未編集領域のアイデンティティを保持するために、通常、空間マスクの導入を検討する。 本稿では,これら2つの課題を目標として,複数の項目間相互作用に包括的イメージ・プロンプト相互作用を分離し,各項目を特別な学習プロンプトに関連付けることを提案する。 D-Editという名前のフレームワークは、クロスアテンション層が絡み合った事前訓練された拡散モデルに基づいており、アイテムプロンプトアソシエーションを構築するために2段階の最適化を採用する。 次に、対応するプロンプトを操作することで、多彩な画像編集を特定のアイテムに適用することができる。 我々は、画像ベース、テキストベース、マスクベースの編集、アイテム削除を含む4種類の編集操作において、ほとんどの種類の編集アプリケーションを1つの統一フレームワークでカバーし、最先端の結果を実証する。 特にD-Editは,(1)マスク編集による項目編集を実現し,(2)画像とテキストベースの編集を組み合わせた最初のフレームワークである。 質的および定量的な評価により,多様な画像の編集結果の品質と汎用性を実証する。

Building on the success of text-to-image diffusion models (DPMs), image editing is an important application to enable human interaction with AI-generated content. Among various editing methods, editing within the prompt space gains more attention due to its capacity and simplicity of controlling semantics. However, since diffusion models are commonly pretrained on descriptive text captions, direct editing of words in text prompts usually leads to completely different generated images, violating the requirements for image editing. On the other hand, existing editing methods usually consider introducing spatial masks to preserve the identity of unedited regions, which are usually ignored by DPMs and therefore lead to inharmonic editing results. Targeting these two challenges, in this work, we propose to disentangle the comprehensive image-prompt interaction into several item-prompt interactions, with each item linked to a special learned prompt. The resulting framework, named D-Edit, is based on pretrained diffusion models with cross-attention layers disentangled and adopts a two-step optimization to build item-prompt associations. Versatile image editing can then be applied to specific items by manipulating the corresponding prompts. We demonstrate state-of-the-art results in four types of editing operations including image-based, text-based, mask-based editing, and item removal, covering most types of editing applications, all within a single unified framework. Notably, D-Edit is the first framework that can (1) achieve item editing through mask editing and (2) combine image and text-based editing. We demonstrate the quality and versatility of the editing results for a diverse collection of images through both qualitative and quantitative evaluations.
翻訳日:2024-03-11 21:46:10 公開日:2024-03-07
# gptrecとbeyond-accuracy目標の連携と強化学習

Aligning GPTRec with Beyond-Accuracy Goals with Reinforcement Learning ( http://arxiv.org/abs/2403.04875v1 )

ライセンス: Link先を確認
Aleksandr Petrov and Craig Macdonald(参考訳) BERT4RecやSASRecのようなトランスフォーマーモデルの適応は、NDCGのような精度に基づくメトリクスに従ってシーケンシャルレコメンデーションタスクにおける最先端のパフォーマンスを達成する。 これらのモデルはアイテムをトークンとして扱い、次にスコアとランクのアプローチ(Top-K戦略)を利用する。 このアプローチは精度ベースのメトリクスではうまく機能するが、多様性のようなより複雑な超精度メトリクスを最適化するために使用するのは難しい。 近年,Top-Kモデルの代替として,Next-K戦略を用いたGPTRecモデルが提案されている。 従来のTop-Kレコメンデーションとは対照的に、Next-Kはアイテム単位のレコメンデーションを生成し、したがって、超精度対策において重要な複雑なアイテム間相互依存性を説明できる。 しかし、GPTRecの論文は実験における精度のみに焦点をあて、複雑な超精度メトリクスに対してモデルを最適化する方法に取り組む必要があった。 実際、レコメンダシステムで利用可能なインタラクショントレーニングデータは、通常、レコメンデーション目標と一致する必要があるため、正確でない目標のためのgptrecのトレーニングは困難である。 2段階のアプローチを用いてGPTRecを訓練する。第1段階では,従来のTop-Kモデルの動作を模倣したGPTRecを教師が学習し,第2段階では強化学習を用いて,モデルが精度以上の目標を達成するように調整する。 特に,レコメンデーションの多様性の増大と人気バイアスの低減を試みている。 2つのデータセットに対する実験により,GPTRecのNext-K生成手法は,古典的なグリーディ・リグレード手法よりも精度とセカンダリメトリクスのトレードオフが優れていることが示された。

Adaptations of Transformer models, such as BERT4Rec and SASRec, achieve state-of-the-art performance in the sequential recommendation task according to accuracy-based metrics, such as NDCG. These models treat items as tokens and then utilise a score-and-rank approach (Top-K strategy), where the model first computes item scores and then ranks them according to this score. While this approach works well for accuracy-based metrics, it is hard to use it for optimising more complex beyond-accuracy metrics such as diversity. Recently, the GPTRec model, which uses a different Next-K strategy, has been proposed as an alternative to the Top-K models. In contrast with traditional Top-K recommendations, Next-K generates recommendations item-by-item and, therefore, can account for complex item-to-item interdependencies important for the beyond-accuracy measures. However, the original GPTRec paper focused only on accuracy in experiments and needed to address how to optimise the model for complex beyond-accuracy metrics. Indeed, training GPTRec for beyond-accuracy goals is challenging because the interaction training data available for training recommender systems typically needs to be aligned with beyond-accuracy recommendation goals. To solve the misalignment problem, we train GPTRec using a 2-stage approach: in the first stage, we use a teacher-student approach to train GPTRec, mimicking the behaviour of traditional Top-K models; in the second stage, we use Reinforcement Learning to align the model for beyond-accuracy goals. In particular, we experiment with increasing recommendation diversity and reducing popularity bias. Our experiments on two datasets show that in 3 out of 4 cases, GPTRec's Next-K generation approach offers a better tradeoff between accuracy and secondary metrics than classic greedy re-ranking techniques.
翻訳日:2024-03-11 21:45:41 公開日:2024-03-07
# Code-Mixed Probesは、事前訓練されたモデルがコード変換されたテキストにどのように一般化するかを示す

Code-Mixed Probes Show How Pre-Trained Models Generalise On Code-Switched Text ( http://arxiv.org/abs/2403.04872v1 )

ライセンス: Link先を確認
Frances A. Laureano De Leon, Harish Tayyar Madabushi, Mark Lee(参考訳) コードスイッチング(code-switching)は、多言語話者が言語をシームレスに切り替える、一般的な言語現象である。 この領域で広く使われていることや最近の研究動向にもかかわらず、コードスイッチングの研究は、ラベル付きデータと利用可能なリソースの不足に起因して、独特な課題を呈している。 本研究では,事前学習した言語モデルがコード交換文を3次元で扱う方法について検討する。 a)plmがコード交換されたテキストを検出する能力 b) PLMがコード変更テキストをキャプチャするために利用する構造情報のバリエーション及び c) コード交換文における意味情報表現の一貫性 問題とする言語モデルの体系的かつ制御された評価を行うために,自然言語への並列翻訳とともに,自然言語的コード切り換えテキストの新しいデータセットを作成する。 この結果から,事前学習された言語モデルは,CSコーパスに表現を一般化するために,これらのモデルの能力に光を当てることで,コード変更テキストへの一般化に有効であることがわかった。 我々は、新しいコーパスを含むすべてのコードとデータをhttps://github.com/francesita/code-mixed-probesでリリースします。

Code-switching is a prevalent linguistic phenomenon in which multilingual individuals seamlessly alternate between languages. Despite its widespread use online and recent research trends in this area, research in code-switching presents unique challenges, primarily stemming from the scarcity of labelled data and available resources. In this study we investigate how pre-trained Language Models handle code-switched text in three dimensions: a) the ability of PLMs to detect code-switched text, b) variations in the structural information that PLMs utilise to capture code-switched text, and c) the consistency of semantic information representation in code-switched text. To conduct a systematic and controlled evaluation of the language models in question, we create a novel dataset of well-formed naturalistic code-switched text along with parallel translations into the source languages. Our findings reveal that pre-trained language models are effective in generalising to code-switched text, shedding light on the abilities of these models to generalise representations to CS corpora. We release all our code and data including the novel corpus at https://github.com/francesita/code-mixed-probes.
翻訳日:2024-03-11 21:45:03 公開日:2024-03-07
# R'enyi差分プライバシーのサブサンプリングによるグループプライバシの増幅と統一増幅

Group Privacy Amplification and Unified Amplification by Subsampling for R\'enyi Differential Privacy ( http://arxiv.org/abs/2403.04867v1 )

ライセンス: Link先を確認
Jan Schuchardt, Mihail Stoian, Arthur Kosmala, Stephan G\"unnemann(参考訳) ディファレンシャルプライバシ(dp)は、後処理に対する堅牢性、グループプライバシ、サブサンプリングによる増幅など、互いに独立して導出できる様々な望ましい特性を持っている。 私たちのゴールは、複数のプロパティを共同で検討することで、より強力なプライバシー保証が得られるかどうかを判断することです。 この目的のために,グループプライバシとサブサンプリングによる増幅の組み合わせに注目した。 機械学習アルゴリズムに適合する保証を提供するため、我々はR'enyi-DPのフレームワークで分析を行い、$(\epsilon,\delta)$-DPよりも好ましい構成特性を持つ。 この分析の一環として,プライバシ会計手法の最初のフレームワークであるR'enyi-DPの保証をサブサンプリングすることで増幅を導出するための統一的なフレームワークを開発し,独立した関心を持つ。 R'enyi-DPの既存の増幅結果の改善と一般化を可能にするだけでなく、既存の原則よりも強力なグループプライバシの増幅保証を確実に引き出すことができる。 これらの結果は, 異なるdp特性の合同研究を有望な研究方向として確立する。

Differential privacy (DP) has various desirable properties, such as robustness to post-processing, group privacy, and amplification by subsampling, which can be derived independently of each other. Our goal is to determine whether stronger privacy guarantees can be obtained by considering multiple of these properties jointly. To this end, we focus on the combination of group privacy and amplification by subsampling. To provide guarantees that are amenable to machine learning algorithms, we conduct our analysis in the framework of R\'enyi-DP, which has more favorable composition properties than $(\epsilon,\delta)$-DP. As part of this analysis, we develop a unified framework for deriving amplification by subsampling guarantees for R\'enyi-DP, which represents the first such framework for a privacy accounting method and is of independent interest. We find that it not only lets us improve upon and generalize existing amplification results for R\'enyi-DP, but also derive provably tight group privacy amplification guarantees stronger than existing principles. These results establish the joint study of different DP properties as a promising research direction.
翻訳日:2024-03-11 21:44:45 公開日:2024-03-07
# 構造化・非構造化データに対するモジュール型エンドツーエンドマルチモーダル学習法

A Modular End-to-End Multimodal Learning Method for Structured and Unstructured Data ( http://arxiv.org/abs/2403.04866v1 )

ライセンス: Link先を確認
Marco D Alessandro, Enrique Calabr\'es, Mikel Elkano(参考訳) マルチモーダル学習は、AIにおけるマルチタスクと生成モデリングに革命をもたらした、急速に成長する研究分野である。 研究の多くは構造化されていないデータ(言語、画像、音声、ビデオなど)を扱うことに重点を置いているが、構造化されたデータ(表データ、時系列、信号など)は、あまり注目されていない。 しかし、業界関連のユースケースの多くは、両方のタイプのデータから恩恵を受けることができる。 本稿では,構造化データと非構造化データの両方をネイティブに処理可能なモジュール型,エンドツーエンドのマルチモーダル学習手法であるmagnumを提案する。 マグナムは柔軟性があり、利用可能な全てのモダリティから情報を抽出、圧縮、融合するために、任意の特別なユニモーダルモジュールを使用する。

Multimodal learning is a rapidly growing research field that has revolutionized multitasking and generative modeling in AI. While much of the research has focused on dealing with unstructured data (e.g., language, images, audio, or video), structured data (e.g., tabular data, time series, or signals) has received less attention. However, many industry-relevant use cases involve or can be benefited from both types of data. In this work, we propose a modular, end-to-end multimodal learning method called MAGNUM, which can natively handle both structured and unstructured data. MAGNUM is flexible enough to employ any specialized unimodal module to extract, compress, and fuse information from all available modalities.
翻訳日:2024-03-11 21:44:26 公開日:2024-03-07
# 複数のインスタンス学習を超えて:フルレゾリューションオールインメモリのエンド・ツー・エンドの病理学モデル

Beyond Multiple Instance Learning: Full Resolution All-In-Memory End-To-End Pathology Slide Modeling ( http://arxiv.org/abs/2403.04865v1 )

ライセンス: Link先を確認
Gabriele Campanella, Eugene Fluder, Jennifer Zeng, Chad Vanderbilt, Thomas J. Fuchs(参考訳) 人工知能(AI)は、巨大なデジタル化された臨床データセットのトレーニングシステムによって健康状態を改善する大きな可能性を秘めている。 計算病理学は、大量の顕微鏡画像データと診断やバイオマーカーへの影響を伴い、この発展の最前線にある。 ギガピクセルの病理図は、その巨大さからユニークな課題であり、通常分析のために数万の小さなタイルに分けられる。 これにより、タイルレベルのエンコーダのトレーニングをスライドレベルのアグリゲータから分離し、弱い教師付き学習戦略を採用することによって、機械学習プロセスが不連続になる。 病理学のスライド全体からのトレーニングモデルは、その計算上の課題のためにほとんど探索されていない。 そこで本研究では,タイルエンコーダとスライドアグリゲータを完全メモリで,エンド・ツー・エンドで高解像度で,入力とスライドレベルの監視のギャップを埋める新しい手法を提案する。 より計算コストが高いが、詳細な定量的検証は、病理基礎モデルの大規模事前学習を約束することを示している。

Artificial Intelligence (AI) has great potential to improve health outcomes by training systems on vast digitized clinical datasets. Computational Pathology, with its massive amounts of microscopy image data and impact on diagnostics and biomarkers, is at the forefront of this development. Gigapixel pathology slides pose a unique challenge due to their enormous size and are usually divided into tens of thousands of smaller tiles for analysis. This results in a discontinuity in the machine learning process by separating the training of tile-level encoders from slide-level aggregators and the need to adopt weakly supervised learning strategies. Training models from entire pathology slides end-to-end has been largely unexplored due to its computational challenges. To overcome this problem, we propose a novel approach to jointly train both a tile encoder and a slide-aggregator fully in memory and end-to-end at high-resolution, bridging the gap between input and slide-level supervision. While more computationally expensive, detailed quantitative validation shows promise for large-scale pre-training of pathology foundation models.
翻訳日:2024-03-11 21:44:11 公開日:2024-03-07
# 二次元量子ドットにおける電子ガスの熱力学的性質:状態密度を用いたアプローチ

Thermodynamic properties of an electron gas in a two-dimensional quantum dot: an approach using density of states ( http://arxiv.org/abs/2403.04864v1 )

ライセンス: Link先を確認
Lu\'is Fernando C. Pereira, Edilberto O. Silva(参考訳) ナノテクノロジー産業における量子ドットの潜在的な応用は、これらのシステムは様々な物理学の分野で重要な研究分野となっている。 特に熱力学は技術革新において重要な役割を果たしている。 このことを念頭において、幅広い温度における磁場の関数として、エントロピーや熱容量といった量子ドットの熱力学的性質を研究した。 状態密度は分析において重要な役割を果たす。 低温では、磁場の変動は全ての熱力学特性の振動挙動を誘導する。 サブバンドの人口減少は振動の出現の引き金となる。

Potential applications of quantum dots in the nanotechnology industry make these systems an important field of study in various areas of physics. In particular, thermodynamics has a significant role in technological innovations. With this in mind, we studied some thermodynamic properties in quantum dots, such as entropy and heat capacity, as a function of the magnetic field over a wide range of temperatures. The density of states plays an important role in our analyses. At low temperatures, the variation in the magnetic field induces an oscillatory behavior in all thermodynamic properties. The depopulation of subbands is the trigger for the appearance of the oscillations.
翻訳日:2024-03-11 21:43:50 公開日:2024-03-07
# 宝くじ仮説に関する調査

A Survey of Lottery Ticket Hypothesis ( http://arxiv.org/abs/2403.04861v1 )

ライセンス: Link先を確認
Bohan Liu, Zijie Zhang, Peixiong He, Zhensen Wang, Yang Xiao, Ruimeng Ye, Yang Zhou, Wei-Shinn Ku, Bo Hui(参考訳) Lottery Ticket hypothesis (LTH) は、高密度ニューラルネットワークモデルには、高度にスパースなサブネット(すなわち、当選チケット)が含まれており、単独で訓練された場合、元のモデルよりもパフォーマンスが向上すると述べている。 lthは多くの作品で実証的かつ理論的に証明されているが、効率やスケーラビリティなど、まだ解決すべき未解決の問題がいくつか残っている。 また、オープンソースフレームワークやコンセンサス実験環境の欠如は、将来のLTHの研究に課題をもたらす。 我々は,LTHに関するこれまでの研究と研究を,異なる視点から初めて検討した。 既存の作業の問題点についても議論し、今後の探索の方向性を列挙する。 この調査は、LTHの現状を詳細に把握し、実験を行い、最も更新されたベースラインと比較する、完全に保守されたプラットフォームを開発することを目的としている。

The Lottery Ticket Hypothesis (LTH) states that a dense neural network model contains a highly sparse subnetwork (i.e., winning tickets) that can achieve even better performance than the original model when trained in isolation. While LTH has been proved both empirically and theoretically in many works, there still are some open issues, such as efficiency and scalability, to be addressed. Also, the lack of open-source frameworks and consensual experimental setting poses a challenge to future research on LTH. We, for the first time, examine previous research and studies on LTH from different perspectives. We also discuss issues in existing works and list potential directions for further exploration. This survey aims to provide an in-depth look at the state of LTH and develop a duly maintained platform to conduct experiments and compare with the most updated baselines.
翻訳日:2024-03-11 21:43:41 公開日:2024-03-07
# 衛星画像のセルフスーパービジョン(S3-TSS):衛星画像におけるSSL技術の新しい手法

Self-Supervision in Time for Satellite Images(S3-TSS): A novel method of SSL technique in Satellite images ( http://arxiv.org/abs/2403.04859v1 )

ライセンス: Link先を確認
Akansh Maurya, Hewan Shrestha, Mohammad Munem Shahriar(参考訳) リモートセンシング画像における様々な大気条件のラベル付きデータの可用性が制限されているため、自己教師付きアルゴリズムで作業することが有用である。 衛星画像には、回転、空間的文脈、ジグソーパズルなどのプリテキストベースのアルゴリズムが適していない。 しばしば、衛星画像は時間周波数が高い。 したがって、リモートセンシングデータの時間次元は、画像の人工的な拡張を必要とせずに自然な拡張を提供する。 本稿では,時間次元における自然増進を利用した自己教師型学習手法であるS3-TSSを提案する。 この結果と現在の最先端手法を比較し,様々な実験を行った。 提案手法は,4つの下流データセットにおいて,ベースラインSeCoよりも優れた性能を示した。 私たちの仕事のコードはこちら。 https://github.com/hewanshrestha/why-self-supervision-in-time。

With the limited availability of labeled data with various atmospheric conditions in remote sensing images, it seems useful to work with self-supervised algorithms. Few pretext-based algorithms, including from rotation, spatial context and jigsaw puzzles are not appropriate for satellite images. Often, satellite images have a higher temporal frequency. So, the temporal dimension of remote sensing data provides natural augmentation without requiring us to create artificial augmentation of images. Here, we propose S3-TSS, a novel method of self-supervised learning technique that leverages natural augmentation occurring in temporal dimension. We compare our results with current state-of-the-art methods and also perform various experiments. We observed that our method was able to perform better than baseline SeCo in four downstream datasets. Code for our work can be found here: https://github.com/hewanshrestha/Why-Self-Supervision-in-Time
翻訳日:2024-03-11 21:43:27 公開日:2024-03-07
# 動的視覚刺激生成のための時空間スタイル伝達アルゴリズム

A spatiotemporal style transfer algorithm for dynamic visual stimulus generation ( http://arxiv.org/abs/2403.04940v1 )

ライセンス: Link先を確認
Antonino Greco and Markus Siegel(参考訳) 視覚情報がどのように生体や人工システムに符号化されているかを理解するには、視覚科学者が特定の仮説をテストする適切な刺激を生成する必要がある。 ディープニューラルネットワークモデルは、画像スタイル転送などの手法で画像生成の分野に革命をもたらしたが、ビデオ生成のための方法はほとんどない。 本稿では、視覚研究のための映像刺激の強力な操作と合成を可能にする動的視覚刺激生成フレームワークである、時空間スタイル転送(STST)アルゴリズムを紹介する。 これは2ストリームのディープニューラルネットワークモデルに基づいており、空間的および時間的特徴を分解し、モデル層の活性化が入力ビデオのものと一致した動的視覚刺激を生成する。 一例として,本アルゴリズムはモデルメタマーを生成できることを示す。2つのストリームモデル内の層活性化が自然映像と一致する動的刺激である。 これらの刺激は, 自然現象の低レベル時空間的特徴と一致しているが, 高レベルな意味的特徴が欠如していることが示され, 物体認識研究の強力なパラダイムとなった。 深層視覚モデルにおける後期層活性化は、初期層に比べて自然刺激とメタマー刺激の類似性が低く、生成した刺激の高レベル情報の欠如が確認された。 最後に、生成した刺激を用いて予測符号化深層ネットワークの表現能力を探索する。 これらの結果は,視覚科学における動的刺激生成のための汎用ツールとしてのアルゴリズムの可能性を示す。

Understanding how visual information is encoded in biological and artificial systems often requires vision scientists to generate appropriate stimuli to test specific hypotheses. Although deep neural network models have revolutionized the field of image generation with methods such as image style transfer, available methods for video generation are scarce. Here, we introduce the Spatiotemporal Style Transfer (STST) algorithm, a dynamic visual stimulus generation framework that allows powerful manipulation and synthesis of video stimuli for vision research. It is based on a two-stream deep neural network model that factorizes spatial and temporal features to generate dynamic visual stimuli whose model layer activations are matched to those of input videos. As an example, we show that our algorithm enables the generation of model metamers, dynamic stimuli whose layer activations within our two-stream model are matched to those of natural videos. We show that these generated stimuli match the low-level spatiotemporal features of their natural counterparts but lack their high-level semantic features, making it a powerful paradigm to study object recognition. Late layer activations in deep vision models exhibited a lower similarity between natural and metameric stimuli compared to early layers, confirming the lack of high-level information in the generated stimuli. Finally, we use our generated stimuli to probe the representational capabilities of predictive coding deep networks. These results showcase potential applications of our algorithm as a versatile tool for dynamic stimulus generation in vision science.
翻訳日:2024-03-11 21:37:45 公開日:2024-03-07
# 勾配のない神経トポロジー最適化

Gradient-free neural topology optimization ( http://arxiv.org/abs/2403.04937v1 )

ライセンス: Link先を確認
Gawel Kus, Miguel A. Bessa(参考訳) 勾配フリーオプティマイザは、目的関数の滑らかさや微分可能性に関係なく問題に取り組むことができるが、勾配ベースのアルゴリズムと比較して収束するのに多くのイテレーションを必要とする。 これにより、反復毎に高い計算コストとこれらの問題の高次元のため、トポロジー最適化は不可能になっている。 そこで本研究では, 潜在空間で設計を最適化する際の反復数を少なくとも1桁減少させる事前学習した神経再パラメータ化戦略を提案する。 トレーニングデータを用いた大規模計算実験によりこれを実証する。 勾配に基づく位相最適化は、構造物のコンプライアンス最適化のような微分可能な問題に対して依然として効率的であるが、勾配情報が容易に利用できない問題(例えば、破壊)に対する新たな経路を開くと我々は信じている。

Gradient-free optimizers allow for tackling problems regardless of the smoothness or differentiability of their objective function, but they require many more iterations to converge when compared to gradient-based algorithms. This has made them unviable for topology optimization due to the high computational cost per iteration and high dimensionality of these problems. We propose a pre-trained neural reparameterization strategy that leads to at least one order of magnitude decrease in iteration count when optimizing the designs in latent space, as opposed to the conventional approach without latent reparameterization. We demonstrate this via extensive computational experiments in- and out-of-distribution with the training data. Although gradient-based topology optimization is still more efficient for differentiable problems, such as compliance optimization of structures, we believe this work will open up a new path for problems where gradient information is not readily available (e.g. fracture).
翻訳日:2024-03-11 21:37:22 公開日:2024-03-07
# LeTac-MPC:Tactile-reactive Graspingのための学習モデル予測制御

LeTac-MPC: Learning Model Predictive Control for Tactile-reactive Grasping ( http://arxiv.org/abs/2403.04934v1 )

ライセンス: Link先を確認
Zhengtong Xu, Yu She(参考訳) グラスピングはロボット工学において重要な課題であり、様々な条件下で物体をしっかりとつかむために触覚フィードバックと反応的な把握調整を必要とする。 本稿では,触覚反応性把握のための学習ベースモデル予測制御(MPC)LeTac-MPCを紹介する。 本手法により, 動的および力動的タスクにおいて, 物理的特性の異なる物体を把握できる。 我々は,物体の物理的特性や状態などの情報を含む高分解能触覚フィードバックを知覚できる視覚ベースの触覚センサGelSightを利用する。 LeTac-MPCには、触覚フィードバックからニューラルネットワーク(NN)によって抽出された埋め込みをモデル化する、微分可能なMPC層が組み込まれている。 この設計は25Hzの周波数で収束性と頑健な把握制御を容易にする。 我々は,完全自動化されたデータ収集パイプラインを提案し,物理特性の異なる標準ブロックのみを用いてデータセットを収集する。 しかし、トレーニングされたコントローラーは、サイズ、形状、材料、テクスチャの異なる日々のオブジェクトに一般化することができます。 実験結果は,提案手法の有効性とロバスト性を示す。 我々はLeTac-MPCを2つの純粋モデルベースの触覚反応制御装置(MPCとPD)とオープンループグルーピングと比較した。 この結果から,LeTac-MPCは動的および力的相互作用タスクにおいて最高の性能を示し,最大一般化能力を示した。 コードとデータセットはhttps://github.com/ZhengtongXu/LeTac-MPCで公開しています。

Grasping is a crucial task in robotics, necessitating tactile feedback and reactive grasping adjustments for robust grasping of objects under various conditions and with differing physical properties. In this paper, we introduce LeTac-MPC, a learning-based model predictive control (MPC) for tactile-reactive grasping. Our approach enables the gripper grasp objects with different physical properties on dynamic and force-interactive tasks. We utilize a vision-based tactile sensor, GelSight, which is capable of perceiving high-resolution tactile feedback that contains the information of physical properties and states of the grasped object. LeTac-MPC incorporates a differentiable MPC layer designed to model the embeddings extracted by a neural network (NN) from tactile feedback. This design facilitates convergent and robust grasping control at a frequency of 25 Hz. We propose a fully automated data collection pipeline and collect a dataset only using standardized blocks with different physical properties. However, our trained controller can generalize to daily objects with different sizes, shapes, materials, and textures. Experimental results demonstrate the effectiveness and robustness of the proposed approach. We compare LeTac-MPC with two purely model-based tactile-reactive controllers (MPC and PD) and open-loop grasping. Our results show that LeTac-MPC has the best performance on dynamic and force-interactive tasks and the best generalization ability. We release our code and dataset at https://github.com/ZhengtongXu/LeTac-MPC.
翻訳日:2024-03-11 21:37:06 公開日:2024-03-07
# 分割と克服:メモリ効率のよいタイルアンサンブルによる高分解能産業異常検出

Divide and Conquer: High-Resolution Industrial Anomaly Detection via Memory Efficient Tiled Ensemble ( http://arxiv.org/abs/2403.04932v1 )

ライセンス: Link先を確認
Bla\v{z} Rolih, Samet Ak\c{c}ay, Dick Ameln, Ashwin Vaidya(参考訳) 産業的異常検出はコンピュータビジョンにおける重要な課題であり、幅広い応用事例がある。 多くの実世界のデータセットにおける異常領域の小さなサイズは、高解像度で画像を処理する必要がある。 これはしばしば、モデルトレーニングと推論段階でのメモリ消費に関する重大な問題を引き起こし、既存のメソッドは広く採用するには実用的でない。 この課題を克服するために,入力画像をタイルのグリッドに分割し,タイル位置ごとに専用モデルをトレーニングすることにより,メモリ消費を低減するタイルアンサンブル方式を提案する。 タイル付きアンサンブルは、基盤となるアーキテクチャを変更することなく既存の異常検出モデルと互換性がある。 重なり合うタイルを導入することで,従来の積み重ねアンサンブルの利点を生かして,高分解能以上の異常検出能力がさらに向上した。 我々はmvtecとvisaという2つの標準異常検出データセット上で,padim,patchcore,fastflow,reverse distillationなどの多様なアーキテクチャを用いて包括的な分析を行う。 提案手法は,GPUメモリ制約内に留まり,単一のモデルで1つのタイルを処理するために必要なGPUメモリだけを消費しながら,セットアップ全体の顕著な改善を示す。

Industrial anomaly detection is an important task within computer vision with a wide range of practical use cases. The small size of anomalous regions in many real-world datasets necessitates processing the images at a high resolution. This frequently poses significant challenges concerning memory consumption during the model training and inference stages, leaving some existing methods impractical for widespread adoption. To overcome this challenge, we present the tiled ensemble approach, which reduces memory consumption by dividing the input images into a grid of tiles and training a dedicated model for each tile location. The tiled ensemble is compatible with any existing anomaly detection model without the need for any modification of the underlying architecture. By introducing overlapping tiles, we utilize the benefits of traditional stacking ensembles, leading to further improvements in anomaly detection capabilities beyond high resolution alone. We perform a comprehensive analysis using diverse underlying architectures, including Padim, PatchCore, FastFlow, and Reverse Distillation, on two standard anomaly detection datasets: MVTec and VisA. Our method demonstrates a notable improvement across setups while remaining within GPU memory constraints, consuming only as much GPU memory as a single model needs to process a single tile.
翻訳日:2024-03-11 21:36:44 公開日:2024-03-07
# 大規模事前学習モデルによるAI連携に関する調査研究

A Survey on Human-AI Teaming with Large Pre-Trained Models ( http://arxiv.org/abs/2403.04931v1 )

ライセンス: Link先を確認
Vanshika Vats, Marzia Binta Nizam, Minghao Liu, Ziyuan Wang, Richard Ho, Mohnish Sai Prasad, Vincent Titterton, Sai Venkat Malreddy, Riya Aggarwal, Yanwen Xu, Lei Ding, Jay Mehta, Nathan Grinnell, Li Liu, Sijia Zhong, Devanathan Nallur Gandamani, Xinyi Tang, Rohan Ghosalkar, Celeste Shen, Rachel Shen, Nafisa Hussain, Kesav Ravichandran, James Davis(参考訳) 人工知能(AI)の急速な発展の中で、ヒューマンAI(Human-AI:Human-AI)チームと呼ばれる人工知能とAIシステムのコラボレーションは、問題解決と意思決定プロセスの前進の基盤として現れてきた。 大規模事前学習モデル(LPtM)の出現は、複雑なパターンを理解し予測するために大量のデータを活用することで、前例のない機能を提供し、この状況を大きく変えた。 本稿では,LPtMsとHAIの統合を重要視し,これらのモデルが従来のアプローチを超えて協調的インテリジェンスを高める方法を強調した。 LPtMsの人間能力増強における相乗的ポテンシャルについて検討し、AIモデルの改善、効果的なチーム編成、倫理的考察、そして様々な分野におけるそれらの広範な応用効果について論じる。 この調査を通じて、この研究はLPtMが強化したHAIチーム(HAI Teaming)の変革的影響に光を当て、今後の研究、政策開発、そしてこのコラボレーションの潜在能力を研究と社会的利益に活用することを目的とした戦略的実装に対する洞察を提供する。

In the rapidly evolving landscape of artificial intelligence (AI), the collaboration between human intelligence and AI systems, known as Human-AI (HAI) Teaming, has emerged as a cornerstone for advancing problem-solving and decision-making processes. The advent of Large Pre-trained Models (LPtM) has significantly transformed this landscape, offering unprecedented capabilities by leveraging vast amounts of data to understand and predict complex patterns. This paper surveys the pivotal integration of LPtMs with HAI, emphasizing how these models enhance collaborative intelligence beyond traditional approaches. It examines the synergistic potential of LPtMs in augmenting human capabilities, discussing this collaboration for AI model improvements, effective teaming, ethical considerations, and their broad applied implications in various sectors. Through this exploration, the study sheds light on the transformative impact of LPtM-enhanced HAI Teaming, providing insights for future research, policy development, and strategic implementations aimed at harnessing the full potential of this collaboration for research and societal benefit.
翻訳日:2024-03-11 21:36:24 公開日:2024-03-07
# ニューラルネットワーク推論のマルコフ特性について:解析と方法

On the Markov Property of Neural Algorithmic Reasoning: Analyses and Methods ( http://arxiv.org/abs/2403.04929v1 )

ライセンス: Link先を確認
Montgomery Bohde, Meng Liu, Alexandra Saxton, Shuiwang Ji(参考訳) ニューラルネットワークの推論は、アルゴリズムの実行をステップバイステップで模倣する能力を備えた、ニューラルネットワークを支援する新たな研究方向である。 既存の設計における共通のパラダイムは、将来の実行手順の結果を予測するために歴史的埋め込みを使用することである。 この研究における我々の見解は、このような歴史的依存がアルゴリズム推論タスクのマルコフの性質と本質的に矛盾しているということである。 このモチベーションに基づいて、歴史的埋め込みを使用しないForgetNetを提示し、タスクのマルコフの性質と整合性を示す。 初期段階におけるg-forgetnetのトレーニングにおける課題に対処するため、g-forgetnetをさらに導入する。 このような拡張された能力は、モデルの早期訓練期間中に貴重な計算経路を提供する。 CLRS-30アルゴリズム推論ベンチマークに基づく大規模な実験により, ForgetNet と G-ForgetNet が既存手法よりも優れた一般化を実現することを示す。 さらに, ゲーティング機構の挙動について検討し, 直観と一致度およびロバスト性能に対する有効性について検討した。

Neural algorithmic reasoning is an emerging research direction that endows neural networks with the ability to mimic algorithmic executions step-by-step. A common paradigm in existing designs involves the use of historical embeddings in predicting the results of future execution steps. Our observation in this work is that such historical dependence intrinsically contradicts the Markov nature of algorithmic reasoning tasks. Based on this motivation, we present our ForgetNet, which does not use historical embeddings and thus is consistent with the Markov nature of the tasks. To address challenges in training ForgetNet at early stages, we further introduce G-ForgetNet, which uses a gating mechanism to allow for the selective integration of historical embeddings. Such an enhanced capability provides valuable computational pathways during the model's early training phase. Our extensive experiments, based on the CLRS-30 algorithmic reasoning benchmark, demonstrate that both ForgetNet and G-ForgetNet achieve better generalization capability than existing methods. Furthermore, we investigate the behavior of the gating mechanism, highlighting its degree of alignment with our intuitions and its effectiveness for robust performance.
翻訳日:2024-03-11 21:36:04 公開日:2024-03-07
# BAGS:マルチスケールカーネルモデリングによるBlur Agnostic Gaussian Splatting

BAGS: Blur Agnostic Gaussian Splatting through Multi-Scale Kernel Modeling ( http://arxiv.org/abs/2403.04926v1 )

ライセンス: Link先を確認
Cheng Peng, Yutao Tang, Yifan Zhou, Nengyu Wang, Xijun Liu, Deming Li, Rama Chellappa(参考訳) 近年,3次元ガウシアンをシーン再構成や新しいビュー合成に活用する試みは,実生活で撮影した画像がぼやけている場合が多い。 本研究では,ガウス・スプティング法を用いて,動きのぼやけ,デフォーカスのぼやけ,ダウンスケーリングのぼやけなど,様々な画像ぼやけに対するロバスト性を解析する。 これらの劣化下では、ガウス方程式に基づく手法は、神経放射場に基づく手法よりも過剰に適合し、より悪い結果をもたらす傾向がある。 この問題に対処するため,Blur Agnostic Gaussian Splatting (BAGS)を提案する。 BAGSは、画像がぼやけているにもかかわらず、3D一貫性と高品質なシーンを再構築できる2Dモデリング能力を導入している。 具体的には,Blur Proposal Network (BPN) から画素単位の畳み込みカーネルを推定することにより,ボケをモデル化する。 BPNは、モデリング能力を最大化するために、シーンの空間、色、深さの変化を考慮するように設計されている。 さらにBPNは、ぼやけた領域を示す品質評価マスクも提案している。 最後に,この最適化手法は高速であり,ぼやけた画像に構造から動きを施す際にしばしば発生する疎点雲初期化による最適化ソリューションを回避している。 本研究では,様々な難解なボケ条件と画像形状下でのフォトリアリスティックなレンダリングを実現するとともに,既存の手法を大幅に改善できることを実証する。

Recent efforts in using 3D Gaussians for scene reconstruction and novel view synthesis can achieve impressive results on curated benchmarks; however, images captured in real life are often blurry. In this work, we analyze the robustness of Gaussian-Splatting-based methods against various image blur, such as motion blur, defocus blur, downscaling blur, \etc. Under these degradations, Gaussian-Splatting-based methods tend to overfit and produce worse results than Neural-Radiance-Field-based methods. To address this issue, we propose Blur Agnostic Gaussian Splatting (BAGS). BAGS introduces additional 2D modeling capacities such that a 3D-consistent and high quality scene can be reconstructed despite image-wise blur. Specifically, we model blur by estimating per-pixel convolution kernels from a Blur Proposal Network (BPN). BPN is designed to consider spatial, color, and depth variations of the scene to maximize modeling capacity. Additionally, BPN also proposes a quality-assessing mask, which indicates regions where blur occur. Finally, we introduce a coarse-to-fine kernel optimization scheme; this optimization scheme is fast and avoids sub-optimal solutions due to a sparse point cloud initialization, which often occurs when we apply Structure-from-Motion on blurry images. We demonstrate that BAGS achieves photorealistic renderings under various challenging blur conditions and imaging geometry, while significantly improving upon existing approaches.
翻訳日:2024-03-11 21:35:47 公開日:2024-03-07
# $\text{r}^2$-bench:摂動下における知覚モデルのロバスト性ベンチマーク

$\text{R}^2$-Bench: Benchmarking the Robustness of Referring Perception Models under Perturbations ( http://arxiv.org/abs/2403.04924v1 )

ライセンス: Link先を確認
Xiang Li, Kai Qiu, Jinglu Wang, Xiaohao Xu, Rita Singh, Kashu Yamazak, Hao Chen, Xiaonan Huang, Bhiksha Raj(参考訳) 視覚オブジェクトをマルチモーダル参照誘導で接地することを目的とした参照認識は、指示を提供する人間と知的システムが知覚する環境とのギャップを埋めるのに不可欠である。 この分野での進歩にもかかわらず、破壊的摂動に対する参照知覚モデル(RPM)の堅牢性は十分に研究されていない。 この研究は、一般および特定の文脈における様々な摂動に対するRPMのレジリエンスを徹底的に評価する。 知覚課題を参照する複雑な性質を認識し,摂動の包括的分類法を提案し,複合外乱の効果を合成評価するための汎用ツールボックスを開発した。 このツールボックスを用いて,5つのタスクのノイズ条件下での知覚モデルのロバスト性を評価するベンチマークである$\text{R}^2$-Benchを構築する。 さらに,自然言語命令によるモデル評価を単純化し,自動化するllmベースのエージェントである$\text{r}^2$-agentを提案する。 今回の調査は、現在のrpmの脆弱性をさまざまな摂動に明らかにし、モデルの堅牢性を評価するツールを提供し、インテリジェントシステムの複雑な現実シナリオへの安全で回復力のある統合を促進する。

Referring perception, which aims at grounding visual objects with multimodal referring guidance, is essential for bridging the gap between humans, who provide instructions, and the environment where intelligent systems perceive. Despite progress in this field, the robustness of referring perception models (RPMs) against disruptive perturbations is not well explored. This work thoroughly assesses the resilience of RPMs against various perturbations in both general and specific contexts. Recognizing the complex nature of referring perception tasks, we present a comprehensive taxonomy of perturbations, and then develop a versatile toolbox for synthesizing and evaluating the effects of composite disturbances. Employing this toolbox, we construct $\text{R}^2$-Bench, a benchmark for assessing the Robustness of Referring perception models under noisy conditions across five key tasks. Moreover, we propose the $\text{R}^2$-Agent, an LLM-based agent that simplifies and automates model evaluation via natural language instructions. Our investigation uncovers the vulnerabilities of current RPMs to various perturbations and provides tools for assessing model robustness, potentially promoting the safe and resilient integration of intelligent systems into complex real-world scenarios.
翻訳日:2024-03-11 21:35:21 公開日:2024-03-07
# コントラスト学習のためのデータ拡張による制御ベースグラフ埋め込み

Control-based Graph Embeddings with Data Augmentation for Contrastive Learning ( http://arxiv.org/abs/2403.04923v1 )

ライセンス: Link先を確認
Obaid Ullah Ahmad, Anwar Said, Mudassir Shabbir, Waseem Abbas, and Xenofon Koutsoukos(参考訳) 本稿では,グラフ上に定義された動的ネットワークの制御特性を利用した教師なしグラフ表現学習の問題点について検討する。 提案手法では,教師なし表現学習の手法として,コントラスト学習の新たな枠組みを導入する。 コントラスト学習における重要なステップは、入力グラフから'導出'グラフを作成することである。 元のグラフと異なるが、これらの拡張グラフは元のグラフの構造的特性を保持する。 本稿では,ネットワークの制御特性を利用して,これらの拡張グラフを生成する一意な手法を提案する。 中心となる概念は、元のグラフを摂動させて新しいグラフを作り、ネットワークやグラフ特有の制御可能性特性を保ったままにする。 既存の手法と比較して,この革新的アプローチがコントラスト学習フレームワークの有効性を高め,分類タスクの精度に優れた結果をもたらすことを実証する。 重要なイノベーションは、これらの制御特性を使ってネットワーク構造をデコードし、教師なしグラフ表現学習のための新たな道を開くことです。

In this paper, we study the problem of unsupervised graph representation learning by harnessing the control properties of dynamical networks defined on graphs. Our approach introduces a novel framework for contrastive learning, a widely prevalent technique for unsupervised representation learning. A crucial step in contrastive learning is the creation of 'augmented' graphs from the input graphs. Though different from the original graphs, these augmented graphs retain the original graph's structural characteristics. Here, we propose a unique method for generating these augmented graphs by leveraging the control properties of networks. The core concept revolves around perturbing the original graph to create a new one while preserving the controllability properties specific to networks and graphs. Compared to the existing methods, we demonstrate that this innovative approach enhances the effectiveness of contrastive learning frameworks, leading to superior results regarding the accuracy of the classification tasks. The key innovation lies in our ability to decode the network structure using these control properties, opening new avenues for unsupervised graph representation learning.
翻訳日:2024-03-11 21:34:57 公開日:2024-03-07
# 同型暗号化方式におけるGroverアルゴリズムの実装

Implementing the Grover Algorithm in Homomorphic Encryption Schemes ( http://arxiv.org/abs/2403.04922v1 )

ライセンス: Link先を確認
Pablo Fern\'andez, Miguel A. Martin-Delgado(参考訳) 我々はGroverのアルゴリズムに多項式数$T/T^{\dagger}$ゲートを持つ回路に適した量子準同型暗号(QHE)スキームを適用し、3量子ビットを含むGrover回路のQiskitでシミュレーションを行う。 グローバーのアルゴリズムの$t/t^{\dagger}$ゲート複雑性は、任意のグローバー回路を効率的な方法で準同型に評価できることを示すために解析される。 我々は、これらのQHEスキームを適用して、$n2$余剰アンシラ量子ビットを用いて$n$ qubitsからなるGrover回路の効率的な準同型評価を可能にする方法について論じる。 また,標準のgroverアルゴリズムと比較して復号処理をより効率的にするためのアルゴリズムを用いて,マークされた項目が1つしか実装できない特殊な場合の準同型評価について述べる。

We apply quantum homomorphic encryption (QHE) schemes suitable for circuits with a polynomial number of $T/T^{\dagger}$-gates to Grover's algorithm, performing a simulation in Qiskit of a Grover circuit that contains 3 qubits. The $T/T^{\dagger}$ gate complexity of Grover's algorithm is also analysed in order to show that any Grover circuit can be evaluated homomorphically in an efficient manner. We discuss how to apply these QHE schemes to allow for the efficient homomorphic evaluation of any Grover circuit composed of $n$ qubits using $n-2$ extra ancilla qubits. We also show how the homomorphic evaluation of the special case where there is only one marked item can be implemented using an algorithm that makes the decryption process more efficient compared to the standard Grover algorithm.
翻訳日:2024-03-11 21:34:42 公開日:2024-03-07
# 機能依存下における因果効果の同定

Identifying Causal Effects Under Functional Dependencies ( http://arxiv.org/abs/2403.04919v1 )

ライセンス: Link先を確認
Yizuo Chen and Adnan Darwiche(参考訳) 因果グラフ内のいくつかの変数が親によって機能的に決定されていることを知っていれば(特定の関数を知ることなく)達成できる2つの識別可能性の改善によって動機づけられた因果効果の同定について検討する。 第一に、特定できない因果効果は、ある変数が機能的であるときに識別できる。 第二に、ある機能変数は因果効果の識別性に影響を与えることなく観察されるのを除外することができ、観測データにおいて必要な変数の数を大幅に減らすことができる。 結果は主に,因果効果の識別性を含む因果グラフの重要な特性を維持しつつ,因果グラフから関数変数を取り除いた除去手順に基づいている。

We study the identification of causal effects, motivated by two improvements to identifiability which can be attained if one knows that some variables in a causal graph are functionally determined by their parents (without needing to know the specific functions). First, an unidentifiable causal effect may become identifiable when certain variables are functional. Second, certain functional variables can be excluded from being observed without affecting the identifiability of a causal effect, which may significantly reduce the number of needed variables in observational data. Our results are largely based on an elimination procedure which removes functional variables from a causal graph while preserving key properties in the resulting causal graph, including the identifiability of causal effects.
翻訳日:2024-03-11 21:34:26 公開日:2024-03-07
# 凸集合のグラフに基づく移動目標走行セールスマン問題に対する混合整数型conicプログラム

A Mixed-Integer Conic Program for the Moving-Target Traveling Salesman Problem based on a Graph of Convex Sets ( http://arxiv.org/abs/2403.04917v1 )

ライセンス: Link先を確認
Allen George Philip, Zhongqiang Ren, Sivakumar Rathinam, Howie Choset(参考訳) 本稿では,移動目標トラベリングセールスマン問題 (MT-TSP) の最適解を求める新たな定式化を提案する。 定式化は、目標が直線に沿って移動するとき、その軌道は時空座標系内の凸集合となるというキーアイデアに依存している。 問題は凸集合のグラフ内で最短経路を見つけることとなり、いくつかの速度制約が課される。 我々は,mt-tsp の現在の混合整数 conic プログラム (micp) 法との比較を行った。 実験結果から,提案手法は最大20のターゲット,最大2桁のランタイム削減,最大60\%の最適化ギャップを持つインスタンスに対して,micpよりも優れることがわかった。 また, この定式化の凸緩和による解コストは, MICP の解よりもMT-TSP の解コストがかなり低いことを示す。

This paper introduces a new formulation that finds the optimum for the Moving-Target Traveling Salesman Problem (MT-TSP), which seeks to find a shortest path for an agent, that starts at a depot, visits a set of moving targets exactly once within their assigned time-windows, and returns to the depot. The formulation relies on the key idea that when the targets move along lines, their trajectories become convex sets within the space-time coordinate system. The problem then reduces to finding the shortest path within a graph of convex sets, subject to some speed constraints. We compare our formulation with the current state-of-the-art Mixed Integer Conic Program (MICP) solver for the MT-TSP. The experimental results show that our formulation outperforms the MICP for instances with up to 20 targets, with up to two orders of magnitude reduction in runtime, and up to a 60\% tighter optimality gap. We also show that the solution cost from the convex relaxation of our formulation provides significantly tighter lower bounds for the MT-TSP than the ones from the MICP.
翻訳日:2024-03-11 21:34:14 公開日:2024-03-07
# 視覚モダリティを横断するエッジデバイスへの自己適応型大規模視覚言語モデル

Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities ( http://arxiv.org/abs/2403.04908v1 )

ライセンス: Link先を確認
Kaiwen Cai, Zhekai Duan, Gaowen Liu, Charles Fleming, and Chris Xiaoxuan Lu(参考訳) 近年のVision-Language(VL)モデルの進歩はエッジデバイスへの展開への関心を喚起しているが、様々な視覚的モダリティ、手動アノテーション、計算制約を扱う上での課題は残されている。 We introduced EdgeVL, a novel framework that bridgeing this gap by seamlessly integration of dual-modality knowledge distillation and Quantization-aware contrastive learning。 このアプローチにより、手動のアノテーションを必要とせずに、リソース制限されたデバイス上でRGBおよび非RGBイメージの両方を効率的に使用するために、CLIPのような大規模なVLモデルの適応が可能になる。 EdgeVLは、視覚言語アライメント機能をコンパクトモデルに転送するだけでなく、特徴品質のポスト量子化も維持し、様々な視覚モーダルのオープン語彙分類性能を大幅に向上させる。 私たちの研究は、エッジデプロイメントに大規模なVLモデルを適応するための最初の体系的な取り組みであり、複数のデータセットで最大15.4%の精度向上と、最大93倍のモデルサイズ削減を示している。

Recent advancements in Vision-Language (VL) models have sparked interest in their deployment on edge devices, yet challenges in handling diverse visual modalities, manual annotation, and computational constraints remain. We introduce EdgeVL, a novel framework that bridges this gap by seamlessly integrating dual-modality knowledge distillation and quantization-aware contrastive learning. This approach enables the adaptation of large VL models, like CLIP, for efficient use with both RGB and non-RGB images on resource-limited devices without the need for manual annotations. EdgeVL not only transfers visual language alignment capabilities to compact models but also maintains feature quality post-quantization, significantly enhancing open-vocabulary classification performance across various visual modalities. Our work represents the first systematic effort to adapt large VL models for edge deployment, showcasing up to 15.4% accuracy improvements on multiple datasets and up to 93-fold reduction in model size.
翻訳日:2024-03-11 21:33:56 公開日:2024-03-07
# シーングラフ予測に向けて

Towards Scene Graph Anticipation ( http://arxiv.org/abs/2403.04899v1 )

ライセンス: Link先を確認
Rohith Peddi, Saksham Singh, Saurabh, Parag Singla, Vibhav Gogate(参考訳) 時空間グラフは、シーンを個々のオブジェクトとペアの時間的関係に分解することで、ビデオ内の相互作用を表現する。 オブジェクト間の微粒なペアワイズ関係の長期予測は難しい問題である。 この目的のために,SGA(Scene Graph Precipation)の課題を紹介した。 現状のシーングラフ生成手法をベースラインとして,オブジェクト間のペア関係を予測し,新しいアプローチSceneSayerを提案する。 SceneSayerでは、オブジェクト中心の関係表現を利用して、観察されたビデオフレームを推論し、オブジェクト間の関係の進化をモデル化する。 我々は,neuralodeとneuralsdeの概念を用いて,オブジェクトインタラクションの進化の潜在ダイナミクスを連続時間視点でモデル化する。 通常の微分方程式と確率微分方程式をそれぞれ解いて将来の関係の表現を推測する。 行動ゲノムデータセットの広範な実験により,提案手法の有効性が検証された。

Spatio-temporal scene graphs represent interactions in a video by decomposing scenes into individual objects and their pair-wise temporal relationships. Long-term anticipation of the fine-grained pair-wise relationships between objects is a challenging problem. To this end, we introduce the task of Scene Graph Anticipation (SGA). We adapt state-of-the-art scene graph generation methods as baselines to anticipate future pair-wise relationships between objects and propose a novel approach SceneSayer. In SceneSayer, we leverage object-centric representations of relationships to reason about the observed video frames and model the evolution of relationships between objects. We take a continuous time perspective and model the latent dynamics of the evolution of object interactions using concepts of NeuralODE and NeuralSDE, respectively. We infer representations of future relationships by solving an Ordinary Differential Equation and a Stochastic Differential Equation, respectively. Extensive experimentation on the Action Genome dataset validates the efficacy of the proposed methods.
翻訳日:2024-03-11 21:33:36 公開日:2024-03-07
# constitutionalexperts: 原則に基づくプロンプトの混合をトレーニングする

ConstitutionalExperts: Training a Mixture of Principle-based Prompts ( http://arxiv.org/abs/2403.04894v1 )

ライセンス: Link先を確認
Savvas Petridis, Ben Wedin, Ann Yuan, James Wexler, Nithum Thain(参考訳) 大きな言語モデル(LLM)は、正しいプロンプトを与えられた様々なタスクに対して高い能力を持つが、それを書くのは難しくて面倒なプロセスである。 そこで本研究では,訓練データセットに与えられた基本原則(すなわち規則)からなるプロンプトを学習する手法であるconstitentexpertsを提案する。 従来の方法とは異なり,本手法は個々の原則を外科的に編集することにより,プロンプトを段階的に改善する。 また、トレーニングデータの異なる意味領域のユニークなプロンプトを学習し、Mix-of-experts(MoE)アーキテクチャを用いて、推論時に入力をルーティングすることで、全体的なパフォーマンスを向上させることができることを示す。 本手法を,6つのベンチマークデータセットにまたがって,アートプロンプト最適化手法の他の状況と比較した。 また,MoEが他の手法を改良するかどうかについても検討する。 以上の結果から,コンスティチューショナル・エクスプットは,他の迅速な最適化手法よりも10.9%向上し,全ての手法が改良され,適用可能性も広いことが示唆された。

Large language models (LLMs) are highly capable at a variety of tasks given the right prompt, but writing one is still a difficult and tedious process. In this work, we introduce ConstitutionalExperts, a method for learning a prompt consisting of constitutional principles (i.e. rules), given a training dataset. Unlike prior methods that optimize the prompt as a single entity, our method incrementally improves the prompt by surgically editing individual principles. We also show that we can improve overall performance by learning unique prompts for different semantic regions of the training data and using a mixture-of-experts (MoE) architecture to route inputs at inference time. We compare our method to other state of the art prompt-optimization techniques across six benchmark datasets. We also investigate whether MoE improves these other techniques. Our results suggest that ConstitutionalExperts outperforms other prompt optimization techniques by 10.9% (F1) and that mixture-of-experts improves all techniques, suggesting its broad applicability.
翻訳日:2024-03-11 21:33:24 公開日:2024-03-07
# 大規模言語モデルに対する自動および普遍的プロンプトインジェクション攻撃

Automatic and Universal Prompt Injection Attacks against Large Language Models ( http://arxiv.org/abs/2403.04957v1 )

ライセンス: Link先を確認
Xiaogeng Liu, Zhiyuan Yu, Yizhe Zhang, Ning Zhang, Chaowei Xiao(参考訳) 大きな言語モデル(LLM)は、人間の言語を解釈し、従う能力によって、処理と生成に優れる。 しかし、それらの能力は即時インジェクション攻撃によって利用することができる。 これらの攻撃は、LDM統合されたアプリケーションを操作して、攻撃者のインジェクトされたコンテンツに対応する応答を生成し、ユーザの実際の要求から逸脱する。 これらの攻撃によって生じる実質的なリスクは、脅威の完全な理解の必要性の核心である。 しかし、こうした攻撃に対する統一的な目標の欠如と手作業によるプロンプトへの依存のため、この分野の研究は課題に直面しており、迅速なインジェクションロバスト性に関する包括的な評価を複雑にしている。 本稿では,プロンプトインジェクション攻撃の目的を理解するための統一フレームワークを導入し,防御的対策に直面することなく,高度に効率的かつ普遍的なプロンプトインジェクションデータを生成するための自動勾配ベース手法を提案する。 5つのトレーニングサンプル(テストデータに対して0.3%)だけで,攻撃はベースラインと比較して優れたパフォーマンスが得られる。 本研究は,特に防御機構において,頑健さの過大評価を回避できる勾配試験の重要性を強調した。

Large Language Models (LLMs) excel in processing and generating human language, powered by their ability to interpret and follow instructions. However, their capabilities can be exploited through prompt injection attacks. These attacks manipulate LLM-integrated applications into producing responses aligned with the attacker's injected content, deviating from the user's actual requests. The substantial risks posed by these attacks underscore the need for a thorough understanding of the threats. Yet, research in this area faces challenges due to the lack of a unified goal for such attacks and their reliance on manually crafted prompts, complicating comprehensive assessments of prompt injection robustness. We introduce a unified framework for understanding the objectives of prompt injection attacks and present an automated gradient-based method for generating highly effective and universal prompt injection data, even in the face of defensive measures. With only five training samples (0.3% relative to the test data), our attack can achieve superior performance compared with baselines. Our findings emphasize the importance of gradient-based testing, which can avoid overestimation of robustness, especially for defense mechanisms.
翻訳日:2024-03-11 21:24:27 公開日:2024-03-07
# 逆攻撃による動き予測のためのニューラルネットワークの操作

Fooling Neural Networks for Motion Forecasting via Adversarial Attacks ( http://arxiv.org/abs/2403.04954v1 )

ライセンス: Link先を確認
Edgar Medina, Leyong Loh(参考訳) 人間の動きの予測は依然としてオープンな問題であり、自動運転や安全アプリケーションにとって非常に重要である。 この領域には大きな進歩があるが、ヒトの動作予測におけるGCNやMLPベースのアーキテクチャのようなマルチ回帰モデルには、広く研究されている敵攻撃のトピックは適用されていない。 この研究は、画像分類における敵攻撃の初期段階と同様、最先端アーキテクチャにおける広範囲な定量的および定性的な実験を用いて、このギャップを減らすことを目的としている。 その結果、モデルが低レベルの摂動でも攻撃を受けやすいことが示唆された。 また,モデル性能に影響を与える3次元変換を用いた実験を行い,特に,ほとんどのモデルが関節間距離を変化させない単純な回転や翻訳に敏感であることを示した。 従来のCNNモデルと同様に、動き予測タスクは小さな摂動や単純な3次元変換の影響を受けやすい。

Human motion prediction is still an open problem, which is extremely important for autonomous driving and safety applications. Although there are great advances in this area, the widely studied topic of adversarial attacks has not been applied to multi-regression models such as GCNs and MLP-based architectures in human motion prediction. This work intends to reduce this gap using extensive quantitative and qualitative experiments in state-of-the-art architectures similar to the initial stages of adversarial attacks in image classification. The results suggest that models are susceptible to attacks even on low levels of perturbation. We also show experiments with 3D transformations that affect the model performance, in particular, we show that most models are sensitive to simple rotations and translations which do not alter joint distances. We conclude that similar to earlier CNN models, motion forecasting tasks are susceptible to small perturbations and simple 3D transformations.
翻訳日:2024-03-11 21:24:06 公開日:2024-03-07
# レポート生成のための心電図インストラクションチューニング

Electrocardiogram Instruction Tuning for Report Generation ( http://arxiv.org/abs/2403.04945v1 )

ライセンス: Link先を確認
Zhongwei Wan, Che Liu, Xin Wang, Chaofan Tao, Hui Shen, Zhenwu Peng, Jie Fu, Rossella Arcucci, Huaxiu Yao, Mi Zhang(参考訳) 心電図(ECG)は、心臓の状態をモニタリングする主要な非侵襲的診断ツールであり、臨床医の補助に不可欠である。 近年の研究では、心電図データを用いた心臓状態の分類に焦点が当てられているが、心電図のレポート生成は見過ごされている。 マルチモーダルECGインストラクションチューニング(MEIT)フレームワークとして,LCMとマルチモーダル命令を用いてECGレポート生成に取り組み,ECGレポート生成を自動化し,その汎用性を確保する。 今後の研究を容易にするため、2つの大規模ECGデータセットにまたがる様々なLLMバックボーンを用いたMEIT評価ベンチマークを構築した。 提案手法はECG信号とレポートの表現を一意に整合させ, 800,000以上のECGレポートを用いて, MEIT を9つのオープンソース LLM でベンチマークする広範囲な実験を行った。 MEITの結果は、命令調整LDMの優れた性能を強調し、高品質なレポート生成、ゼロショット機能、信号摂動に対する耐性を示す。 本研究は,MEITフレームワークの有効性と臨床応用の可能性を明らかにするものである。

Electrocardiogram (ECG) serves as the primary non-invasive diagnostic tool for cardiac conditions monitoring, are crucial in assisting clinicians. Recent studies have concentrated on classifying cardiac conditions using ECG data but have overlooked ECG report generation, which is not only time-consuming but also requires clinical expertise. To automate ECG report generation and ensure its versatility, we propose the Multimodal ECG Instruction Tuning (MEIT) framework, the \textit{first} attempt to tackle ECG report generation with LLMs and multimodal instructions. To facilitate future research, we establish a benchmark to evaluate MEIT with various LLMs backbones across two large-scale ECG datasets. Our approach uniquely aligns the representations of the ECG signal and the report, and we conduct extensive experiments to benchmark MEIT with nine open source LLMs, using more than 800,000 ECG reports. MEIT's results underscore the superior performance of instruction-tuned LLMs, showcasing their proficiency in quality report generation, zero-shot capabilities, and resilience to signal perturbation. These findings emphasize the efficacy of our MEIT framework and its potential for real-world clinical application.
翻訳日:2024-03-11 21:23:53 公開日:2024-03-07
# afreeca: アノテーションフリーのカウント

AFreeCA: Annotation-Free Counting for All ( http://arxiv.org/abs/2403.04943v1 )

ライセンス: Link先を確認
Adriano D'Alessandro, Ali Mahdavi-Amiri, Ghassan Hamarneh(参考訳) オブジェクトカウントメソッドは通常、手動でアノテートされたデータセットに依存する。 このようなデータセットを作成するコストは、特定のクラス(人間やペンギンなど)からオブジェクトを数え、さまざまなカテゴリからオブジェクトを数えるという、これらのネットワークの汎用性を制限している。 堅牢なテキスト・ツー・イメージ遅延拡散モデル(LDMs)の可用性は、これらのモデルをカウントデータセットの生成に利用できるかどうかという疑問を提起する。 しかし、LCMはテキストプロンプトのみに基づいて、正確な数のオブジェクトを持つイメージを作成するのに苦労するが、イメージ内のオブジェクトの追加や削除によって、信頼性の高い \textit{sorting} シグナルを提供するために使用できる。 このデータを活用することで、まず、ldmsで生成されたカウントデータを用いて、計数目的で洗練されアンカーされるオブジェクト関連特徴を学習するための教師なしソート手法を導入する。 さらに,画像を確実にカウント可能な被写体を含むパッチに分割する密度分類器誘導方式を提案する。 その結果、任意の種類のオブジェクトのカウントデータを生成し、教師なしの方法でカウントすることができる。 我々のアプローチは、他の教師なしおよび少数ショットの代替手段よりも優れており、データカウントが利用可能な特定のオブジェクトクラスに限定されない。 受け入れ次第、リリースするコード。

Object counting methods typically rely on manually annotated datasets. The cost of creating such datasets has restricted the versatility of these networks to count objects from specific classes (such as humans or penguins), and counting objects from diverse categories remains a challenge. The availability of robust text-to-image latent diffusion models (LDMs) raises the question of whether these models can be utilized to generate counting datasets. However, LDMs struggle to create images with an exact number of objects based solely on text prompts but they can be used to offer a dependable \textit{sorting} signal by adding and removing objects within an image. Leveraging this data, we initially introduce an unsupervised sorting methodology to learn object-related features that are subsequently refined and anchored for counting purposes using counting data generated by LDMs. Further, we present a density classifier-guided method for dividing an image into patches containing objects that can be reliably counted. Consequently, we can generate counting data for any type of object and count them in an unsupervised manner. Our approach outperforms other unsupervised and few-shot alternatives and is not restricted to specific object classes for which counting data is available. Code to be released upon acceptance.
翻訳日:2024-03-11 21:23:31 公開日:2024-03-07
# スコアベース生成モデルを用いた高忠実画像圧縮

High-Fidelity Image Compression with Score-based Generative Models ( http://arxiv.org/abs/2305.18231v3 )

ライセンス: Link先を確認
Emiel Hoogeboom, Eirikur Agustsson, Fabian Mentzer, Luca Versari, George Toderici, Lucas Theis(参考訳) テキスト対画像生成における拡散生成モデルの成功にもかかわらず、画像圧縮領域におけるこの成功を再現することは困難であることが証明されている。 本稿では,FIDスコアで測定したPO-ELICとHiFiCに比較して,拡散が与えられたビットレートでの知覚品質を著しく向上することを示す。 これはmseをターゲットとしたオートエンコーダと、さらにスコアベースのデコーダを組み合わせた、単純だが理論的に動機付けられた2段階アプローチによって達成される。 しかし、実装の詳細と最適な設計決定は、典型的なテキスト・画像モデルとは大きく異なる可能性がある。

Despite the tremendous success of diffusion generative models in text-to-image generation, replicating this success in the domain of image compression has proven difficult. In this paper, we demonstrate that diffusion can significantly improve perceptual quality at a given bit-rate, outperforming state-of-the-art approaches PO-ELIC and HiFiC as measured by FID score. This is achieved using a simple but theoretically motivated two-stage approach combining an autoencoder targeting MSE followed by a further score-based decoder. However, as we will show, implementation details matter and the optimal design decisions can differ greatly from typical text-to-image models.
翻訳日:2024-03-11 10:55:06 公開日:2024-03-07
# 国家安全保障書簡の使用と報告に関する実証分析

An Empirical Analysis on the Use and Reporting of National Security Letters ( http://arxiv.org/abs/2403.02768v2 )

ライセンス: Link先を確認
Alex Bellon, Miro Haller, Andrey Labunets, Enze Liu, Stefan Savage(参考訳) 国家安全保障書簡(NSL)は行政上の召喚状と類似しており、裁判所や大陪審の事前の承認を必要とせず、行政部門から直接発行することができる。 重要なことは、NSLは受信者に対して非開示命令(別名「ギャグ命令」)を付与することを承認した。 この権限が悪用される可能性に関する論争は、様々な法と政策に関する議論を引き起こした。 これらの懸念に対処するため、公共セクターと民間セクターは、集約形式でのNSLの使用を文書化しようとしています。 しかし、各データソースはスコープ、時間、種類に制限されている。 本稿では,NSLに関する利用可能なデータを整理し,(1) 市民が報告データから効果的に学習できること,そして,この情報がNSLの利用状況を評価するのに十分か,という2つの問いに答える。 2) このデータ収集はどの程度アクセス可能か? また,NSLの使用状況の経年変化を観察できることを示した。 例えば、非米国人に対するNSL要求が大幅に増加し、強制的非開示期間を短縮する政策改革が効果的であることが判明した。 観察された傾向は、現在の透明性メカニズムがNSLの過剰使用に対して有効であることを示している。 しかし、データの集約と正規化には手作業によるレビュー、解析、検証が必要です。 公式データソース内外の矛盾も発見しています。 全体として、残酷なデータ収集プロセスは、外部および内部監査の取り組みを妨げ、NSLの統一的でより有用なデータセットの必要性を実証する。

National Security Letters (NSLs) are similar to administrative subpoenas and can be issued directly by elements of the executive branch without requiring prior approval from a court or grand jury. Importantly, NSLs authorize the imposition of nondisclosure orders (aka "gag orders") on the receiving party. Controversy about potential abuses of this authority has driven a range of legal and policy discussions. To address these concerns, both the public sector and the private sector have sought to document the usage of NSLs in aggregated form. However, each data source is limited in scope, time, and kind. In this paper, we consolidate the available data around NSLs and answer two questions: (1) what can the public effectively learn from the reported data and does this information suffice to assess the NSL usage? (2) how accessible is this data collection? We show that longitudinal trends in the usage of NSLs can be observed. For instance, we find a significant increase in NSL requests for non-US persons and that the policy reforms to decrease the mandated nondisclosure period appear to be effective. The observed trends suggest that the current transparency mechanisms are viable safeguards against the excessive use of NSLs. However, aggregating and normalizing the data requires manual reviewing, parsing, and validating. We even find inconsistencies within and across official data sources. Overall, the laborious data collection process hinders external and internal auditing efforts and demonstrates the need for a unified and more usable dataset for NSLs.
翻訳日:2024-03-11 10:52:31 公開日:2024-03-07
# プライバシー関連androidアプリの10年レビュー:大規模トレンド

A Decade of Privacy-Relevant Android App Reviews: Large Scale Trends ( http://arxiv.org/abs/2403.02292v2 )

ライセンス: Link先を確認
Omer Akgul, Sai Teja Peddinti, Nina Taft, Michelle L. Mazurek, Hamza Harkous, Animesh Srivastava, Benoit Seguin(参考訳) われわれは10年間にわたってGoogle Play Storeで公開されているプライバシー関連レビューの1200万件の分析を行った。 最先端のNLP技術を活用することで、時間、国、アプリタイプ、さまざまなプライバシトピック、さらにはさまざまな感情の範囲にわたるプライバシーについて、ユーザが何を書いているかを調べる。 私たちは、プライバシー関連レビューの一貫した成長を見つけ、トレンド(データ削除やデータ盗難など)や減少中のもの(機密権限に関するプライバシー関連レビューなど)を調査します。 プライバシーレビューは200か国以上から来ているが、33か国がプライバシーレビューの90%を提供している。 我々は、国のユーザーが書いたプライバシートピックの分布を調べて各国の比較を行い、近隣諸国が同様のプライバシー観を持っているという信頼性のある指標ではないことを発見した。 いくつかの国をユニークなパターンで発見し、これらを探索します。 驚いたことに、プライバシーについて議論するレビューが肯定的であるのは珍しいことではない(32%)。 また、デベロッパーにプライバシーの請求書を提供するためのレビューの利用など、予期せぬ行動も明らかにしています。 最後に,ユーザのプライバシに関する視点を理解するための既存手法の補完として,我々のアプローチによるアプリレビューの分析の価値を示す。

We present an analysis of 12 million instances of privacy-relevant reviews publicly visible on the Google Play Store that span a 10 year period. By leveraging state of the art NLP techniques, we examine what users have been writing about privacy along multiple dimensions: time, countries, app types, diverse privacy topics, and even across a spectrum of emotions. We find consistent growth of privacy-relevant reviews, and explore topics that are trending (such as Data Deletion and Data Theft), as well as those on the decline (such as privacy-relevant reviews on sensitive permissions). We find that although privacy reviews come from more than 200 countries, 33 countries provide 90% of privacy reviews. We conduct a comparison across countries by examining the distribution of privacy topics a country's users write about, and find that geographic proximity is not a reliable indicator that nearby countries have similar privacy perspectives. We uncover some countries with unique patterns and explore those herein. Surprisingly, we uncover that it is not uncommon for reviews that discuss privacy to be positive (32%); many users express pleasure about privacy features within apps or privacy-focused apps. We also uncover some unexpected behaviors, such as the use of reviews to deliver privacy disclaimers to developers. Finally, we demonstrate the value of analyzing app reviews with our approach as a complement to existing methods for understanding users' perspectives about privacy
翻訳日:2024-03-11 10:51:02 公開日:2024-03-07
# 壁付きブラウアー代数からの正の写像

Positive maps from the walled Brauer algebra ( http://arxiv.org/abs/2112.12738v3 )

ライセンス: Link先を確認
Maria Balanz\'o-Juand\'o, Micha{\l} Studzi\'nski, Felix Huber(参考訳) 正の錐から変数に対する正の写像と行列の不等式を示す。 これらの不等式は部分的転置および再シャッフル演算を含み、壁付きブラーアー代数の元と一対一の対応を持つ正の多重線型写像として理解することができる。 我々の形式主義を用いて、これらの写像は部分的トレースの下で部分転置置換作用素を操作することによって体系的かつ明確な方法で得ることができる。 さらに、これらの写像は、アルゴリズム的アプローチとグラフ計算を組み合わせることで、合理的に構成が容易である。

We present positive maps and matrix inequalities for variables from the positive cone. These inequalities contain partial transpose and reshuffling operations, and can be understood as positive multilinear maps that are in one-to-one correspondence with elements from the walled Brauer algebra. Using our formalism, these maps can be obtained in a systematic and clear way by manipulating partially transposed permutation operators under a partial trace. Additionally, these maps are reasonably easy in construction by combining an algorithmic approach with graphical calculus.
翻訳日:2024-03-10 19:40:46 公開日:2024-03-07
# ブラインド画像復元に向けた深部変動ネットワーク

Deep Variational Network Toward Blind Image Restoration ( http://arxiv.org/abs/2008.10796v4 )

ライセンス: Link先を確認
Zongsheng Yue, Hongwei Yong, Qian Zhao, Lei Zhang, Deyu Meng and Kwan-Yen K. Wong(参考訳) ブラインド画像復元(IR)はコンピュータビジョンにおいて一般的な問題である。 古典的モデルに基づく手法と最近のディープラーニング(DL)に基づく手法は、この問題に対する2つの異なる方法論を表現している。 本稿では,その両方の利点を統合することを目的とした,新しいブラインド画像復元手法を提案する。 具体的には,劣化過程を明示的に表現したブラインドirの一般ベイズ生成モデルを構築する。 提案モデルでは,画素方向非i.i.d.ガウス分布を用いて画像雑音に適合する。 従来のほとんどの方法で採用されている単純なガウス分布やラプラシア分布よりも柔軟性があり、画像劣化に含まれるより複雑なノイズタイプを扱うことができる。 モデル解くために,予測されるすべての後部分布をディープニューラルネットワークとしてパラメータ化してモデル能力を向上する変分推論アルゴリズムを設計する。 特に、このような推論アルゴリズムは、劣化推定と画像復元のタスクを共同で処理する統一フレームワークを誘導する。 また、前処理で推定される劣化情報を利用して後者のIRプロセスを導出する。 画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を発揮することを示した。

Blind image restoration (IR) is a common yet challenging problem in computer vision. Classical model-based methods and recent deep learning (DL)-based methods represent two different methodologies for this problem, each with their own merits and drawbacks. In this paper, we propose a novel blind image restoration method, aiming to integrate both the advantages of them. Specifically, we construct a general Bayesian generative model for the blind IR, which explicitly depicts the degradation process. In this proposed model, a pixel-wise non-i.i.d. Gaussian distribution is employed to fit the image noise. It is with more flexibility than the simple i.i.d. Gaussian or Laplacian distributions as adopted in most of conventional methods, so as to handle more complicated noise types contained in the image degradation. To solve the model, we design a variational inference algorithm where all the expected posteriori distributions are parameterized as deep neural networks to increase their model capability. Notably, such an inference algorithm induces a unified framework to jointly deal with the tasks of degradation estimation and image restoration. Further, the degradation information estimated in the former task is utilized to guide the latter IR process. Experiments on two typical blind IR tasks, namely image denoising and super-resolution, demonstrate that the proposed method achieves superior performance over current state-of-the-arts.
翻訳日:2024-03-10 19:40:38 公開日:2024-03-07
# 教師付き学習と欠落値の整合性について

On the consistency of supervised learning with missing values ( http://arxiv.org/abs/1902.06931v4 )

ライセンス: Link先を確認
Julie Josse (CMAP, XPOP), Jacob M. Chen, Nicolas Prost (CMAP, XPOP, PARIETAL), Ga\"el Varoquaux (PARIETAL), Erwan Scornet (X, CMAP, SU)(参考訳) 多くのアプリケーション設定において、データは分析を難しくするエントリを欠いている。 豊富な文献は、不完全なテーブルからパラメータとそれらの分散を推定する、推論フレームワークの欠落値に対処する。 ここでは教師あり学習の設定について考察する。訓練データとテストデータの両方に値が欠けている場合の目標を予測する。 予測における2つのアプローチの一貫性を示す。 印象的な結果は、学習前の平均のような定数を暗示する広く使われている方法は、欠落した値が有益でない場合に一貫性がある。 これは、データの分布を歪めるために平均計算を向ける推論設定とは対照的である。 このような単純なアプローチが一貫性を持つことは、実際は重要です。 また,完全観測に適した予測器は,複数のインプテーションを通じて不完全なデータに対して最適に予測できることを示した。 これらは、不完全変数の半々的な性質を扱う能力があるため、値の欠如による経験的リスク最小化に自然に取り組むことができる。 木における理論的および経験的に異なる欠落値戦略を比較した後、非表現的および情報的欠落値の両方を扱える「属性に組み込まれた欠落」手法を推奨する。

In many application settings, the data have missing entries which make analysis challenging. An abundant literature addresses missing values in an inferential framework: estimating parameters and their variance from incomplete tables. Here, we consider supervised-learning settings: predicting a target when missing values appear in both training and testing data. We show the consistency of two approaches in prediction. A striking result is that the widely-used method of imputing with a constant, such as the mean prior to learning is consistent when missing values are not informative. This contrasts with inferential settings where mean imputation is pointed at for distorting the distribution of the data. That such a simple approach can be consistent is important in practice. We also show that a predictor suited for complete observations can predict optimally on incomplete data,through multiple imputation.Finally, to compare imputation with learning directly with a model that accounts for missing values, we analyze further decision trees. These can naturally tackle empirical risk minimization with missing values, due to their ability to handle the half-discrete nature of incomplete variables. After comparing theoretically and empirically different missing values strategies in trees, we recommend using the "missing incorporated in attribute" method as it can handle both non-informative and informative missing values.
翻訳日:2024-03-10 19:39:55 公開日:2024-03-07
# 弱い測定と見なされる量子共鳴

Quantum Resonance viewed as Weak Measurement ( http://arxiv.org/abs/2309.16281v2 )

ライセンス: Link先を確認
Daiki Ueda and Izumi Tsutsui(参考訳) 量子共鳴(quantum resonance)、すなわち特定の条件下で利用可能な遷移確率の増幅は、SI単位で採用される2番目の時間と、CP違反に直接関係する中性子の電気双極子モーメントを含む物理学の基本量を決定する強力な手段を提供する。 本稿では、Rabi共鳴とRamsey共鳴の2つの典型的な例を再検討し、これらがいずれも弱い値増幅であり、共鳴点付近では、感度におけるRamsey共鳴の既知の利点につながる測定強度を除いて、遷移確率の挙動が全く同じであることを示す。 逆に、関係の副産物として、量子共鳴を通じて弱い値を測定することができる。 実際、ラムゼー共鳴に基づく中性子電双極子モーメントの以前の測定は、従来の弱い値測定よりもはるかに高い精度で中性子スピンの弱い値を決定する可能性がある。

Quantum resonance, i.e., amplification in transition probability available under certain conditions, offers a powerful means for determining fundamental quantities in physics, including the time duration of the second adopted in the SI units and neutron's electric dipole moment which is directly linked to CP violation. We revisit two of the typical examples, the Rabi resonance and the Ramsey resonance, and show that both of these represent the weak value amplification and that near the resonance points they share exactly the same behavior of transition probabilities except for the measurement strength whose difference leads to the known advantage of the Ramsey resonance in the sensitivity. Conversely, as a by-product of the relationship, we may measure the weak value through quantum resonance. In fact, we argue that previous measurements of neutron electric dipole moment based on the Ramsey resonance have potentially determined the weak value of neutron's spin with much higher precision than the conventional weak value measurement.
翻訳日:2024-03-08 20:29:41 公開日:2024-03-07
# 部分解釈型ニューラルネットワークによる時空間極端米国山火事の回帰モデリング

Regression modelling of spatiotemporal extreme U.S. wildfires via partially-interpretable neural networks ( http://arxiv.org/abs/2208.07581v4 )

ライセンス: Link先を確認
Jordan Richards and Rapha\"el Huser(参考訳) 多くの環境環境でのリスク管理には、極端な出来事を引き起こすメカニズムを理解する必要がある。 このようなリスクを定量化するための有用な指標は、気候、生物圏、環境状態などの予測変数に条件づけられた応答変数の極端な定量値である。 通常、これらの量子は観測可能なデータの範囲外にあり、推定には回帰フレームワーク内のパラメトリック極値モデルの仕様が必要となる。 この文脈における古典的なアプローチは、予測変数と応答変数の間の線形あるいは付加的な関係を利用しており、その予測能力または計算効率のどちらかに苦しむ。 本稿では,複雑な非線形関係を捉え,高次元データによくスケールできる人工ニュートラルネットワークを用いて,極端に質的回帰を行うための新しい手法を提案する。 ニューラルネットワークの「ブラックボックス」の性質は、実践者がしばしば好む解釈可能性の望ましい特性を欠いていることを意味している。したがって、線形で付加的な回帰方法論をディープラーニングと統合して、統計的推論に使用できるが高い予測精度を維持する部分解釈可能なニューラルネットワークを作成する。 この手法を補完するために,分布の一般化された極値クラスに関連する有限低端点問題を克服する極値の新しい点過程モデルを提案する。 この統一フレームワークの有効性は,高次元予測器セットを用いた米国のワイルドファイアデータに示され,線形回帰法およびスプライン回帰法に比べて予測性能が大幅に向上することを示す。

Risk management in many environmental settings requires an understanding of the mechanisms that drive extreme events. Useful metrics for quantifying such risk are extreme quantiles of response variables conditioned on predictor variables that describe, e.g., climate, biosphere and environmental states. Typically these quantiles lie outside the range of observable data and so, for estimation, require specification of parametric extreme value models within a regression framework. Classical approaches in this context utilise linear or additive relationships between predictor and response variables and suffer in either their predictive capabilities or computational efficiency; moreover, their simplicity is unlikely to capture the truly complex structures that lead to the creation of extreme wildfires. In this paper, we propose a new methodological framework for performing extreme quantile regression using artificial neutral networks, which are able to capture complex non-linear relationships and scale well to high-dimensional data. The "black box" nature of neural networks means that they lack the desirable trait of interpretability often favoured by practitioners; thus, we unify linear, and additive, regression methodology with deep learning to create partially-interpretable neural networks that can be used for statistical inference but retain high prediction accuracy. To complement this methodology, we further propose a novel point process model for extreme values which overcomes the finite lower-endpoint problem associated with the generalised extreme value class of distributions. Efficacy of our unified framework is illustrated on U.S. wildfire data with a high-dimensional predictor set and we illustrate vast improvements in predictive performance over linear and spline-based regression techniques.
翻訳日:2024-03-08 18:43:40 公開日:2024-03-07
# 熱電輸送によるマヨラナ境界状態の探索

Probing Majorana Bound States via Thermoelectric Transport ( http://arxiv.org/abs/2207.01515v3 )

ライセンス: Link先を確認
Colin Benjamin, Ritesh Das(参考訳) 本研究では,アハロノフ-ボーム干渉法による熱電実験のセットを提案し,近接効果による超伝導および強磁性相関の存在下で2次元トポロジカル絶縁体(TI)で生成するマヨラナ境界状態(MBS)を探索する。 これらのMBSの存在と性質(カップリングまたはアンカップリング)は、電荷と熱輸送の研究、具体的には、フェルミエネルギーの関数としてのゼーベック係数、ペルティエ係数、熱伝導率、ウィデマン・フランツ則の違反といった様々な熱電係数の挙動と、TI環を埋め込みMBSで貫通するアハロノフ・ボームフラックスの研究によって決定できる。

We propose a set of thermoelectric experiments based on Aharonov-Bohm interferometry to probe Majorana bound states (MBS), which are generated in 2D topological insulators (TI) in the presence of superconducting and ferromagnetic correlations via the proximity effect. The existence and nature (coupled or uncoupled) of these MBS can be determined by studying the charge and heat transport, specifically, the behavior of various thermoelectric coefficients like the Seebeck coefficient, Peltier coefficient, thermal conductance, and violations of Wiedemann-Franz law as a function of the Fermi energy and Aharonov-Bohm flux piercing the TI ring with the embedded MBS.
翻訳日:2024-03-08 18:43:13 公開日:2024-03-07
# メロジカルに有用な真のマルチパートエンタングルメントの活性化

Activation of metrologically useful genuine multipartite entanglement ( http://arxiv.org/abs/2203.05538v5 )

ライセンス: Link先を確認
R\'obert Tr\'enyi, \'Arp\'ad Luk\'acs, Pawe{\l} Horodecki, Ryszard Horodecki, Tam\'as V\'ertesi, G\'eza T\'oth(参考訳) 両部量子状態と多部量子状態の複部量子状態のコピーについて考察する。 我々は, 分離可能な状態に対して, 状態がどの程度優れているかを決定することにより, メトロロジーの有用性を特徴付ける。 分割可能な状態よりも弱いエンタングル状態であっても,多くのコピーの限界において,メトロロジーにおいて最大に有用となるエンタングル状態のクラスを同定する。 このようにして、metrologically useful real multipartite の絡み合いを活性化する。 注目すべきは、最大達成可能な距離論的有用性がコピー数で指数関数的に高速に達成されるだけでなく、わずかな単純な相関観測値の測定によって達成できることである。 我々はまた、純粋な絡み合った状態の1つのコピーの有用性について一般的な記述をする。 驚くべきことに、hyllus et alで示されるマルチキュービット状態は、非常に多い。 [Phys. Rev. A 82, 012337 (2010)] は役に立たないが、キュービットを局所的にキュートリットに埋め込むと有用になる。 提案手法と誤り訂正との関係,および雑音環境における量子気象学への応用について考察する。

We consider quantum metrology with several copies of bipartite and multipartite quantum states. We characterize the metrological usefulness by determining how much the state outperforms separable states. We identify a large class of entangled states that become maximally useful for metrology in the limit of large number of copies, even if the state is weakly entangled and not even more useful than separable states. This way we activate metrologically useful genuine multipartite entanglement. Remarkably, not only that the maximally achievable metrological usefulness is attained exponentially fast in the number of copies, but it can be achieved by the measurement of few simple correlation observables. We also make general statements about the usefulness of a single copy of pure entangled states. We surprisingly find that the multiqubit states presented in Hyllus et al. [Phys. Rev. A 82, 012337 (2010)], which are not useful, become useful if we embed the qubits locally in qutrits. We discuss the relation of our scheme to error correction, and its possible use for quantum metrology in a noisy environment.
翻訳日:2024-03-08 18:42:37 公開日:2024-03-07
# bi-lipschitz正規化流れの表現性について

On the expressivity of bi-Lipschitz normalizing flows ( http://arxiv.org/abs/2107.07232v3 )

ライセンス: Link先を確認
Alexandre Verine, Benjamin Negrevergne, Fabrice Rossi, Yann Chevaleyre(参考訳) 可逆函数は、函数とその逆函数が有界リプシッツ定数を持つとき、双リプシッツである。 今日では、ほとんどの正規化フローは、設計または数値エラー(その他)を制限するための訓練によってバイリプシッツである。 本稿では,bi-lipschitz正規化流れの表現性について論じ,これらのモデルを用いた近似が難しい複数の対象分布を同定する。 次に, ビリプシッツ正規化流れの表現率を, 特に不適合な分布と最良近似との間の全変動距離のいくつかの下界を与えることにより特徴付ける。 最後に,より複雑な潜在分布を用いた治療の可能性について考察する。

An invertible function is bi-Lipschitz if both the function and its inverse have bounded Lipschitz constants. Nowadays, most Normalizing Flows are bi-Lipschitz by design or by training to limit numerical errors (among other things). In this paper, we discuss the expressivity of bi-Lipschitz Normalizing Flows and identify several target distributions that are difficult to approximate using such models. Then, we characterize the expressivity of bi-Lipschitz Normalizing Flows by giving several lower bounds on the Total Variation distance between these particularly unfavorable distributions and their best possible approximation. Finally, we discuss potential remedies which include using more complex latent distributions.
翻訳日:2024-03-08 18:41:48 公開日:2024-03-07
# FOSI:ハイブリッド第一次および第二次最適化

FOSI: Hybrid First and Second Order Optimization ( http://arxiv.org/abs/2302.08484v4 )

ライセンス: Link先を確認
Hadar Sivan, Moshe Gabel, Assaf Schuster(参考訳) ポピュラーな機械学習は、高次元の曲率の計算が難しいため、二階情報をforgoする。 本稿では,最適化プロセス中に二階情報を効率的に組み込むことにより,任意の一階最適化器の性能を向上させるメタアルゴリズムFOSIを提案する。 各反復において、FOSIは関数を直交部分空間上で定義された2つの二次函数に暗黙的に分割し、次に第1の最小化に二階法を使い、他方の最小化には基底最適化器を使用する。 fosiの収束と基本オプティマイザを改善する条件を形式的に解析する。 実験結果から,fosiはヘビーボールやアダムなどの一階法の収束率と最適化時間を改善し,二階法(k-fac,l-bfgs)を上回った。

Popular machine learning approaches forgo second-order information due to the difficulty of computing curvature in high dimensions. We present FOSI, a novel meta-algorithm that improves the performance of any base first-order optimizer by efficiently incorporating second-order information during the optimization process. In each iteration, FOSI implicitly splits the function into two quadratic functions defined on orthogonal subspaces, then uses a second-order method to minimize the first, and the base optimizer to minimize the other. We formally analyze FOSI's convergence and the conditions under which it improves a base optimizer. Our empirical evaluation demonstrates that FOSI improves the convergence rate and optimization time of first-order methods such as Heavy-Ball and Adam, and outperforms second-order methods (K-FAC and L-BFGS).
翻訳日:2024-03-08 18:39:01 公開日:2024-03-07
# クリロフ宇宙における断熱への近道

Shortcuts to Adiabaticity in Krylov Space ( http://arxiv.org/abs/2302.05460v3 )

ライセンス: Link先を確認
Kazutaka Takahashi, Adolfo del Campo(参考訳) 断熱性へのショートカットは量子状態の準備のための高速なプロトコルを提供し、補助的な反断熱制御を使用することで断熱戦略における緩やかな運転の要求を回避できる。 彼らの開発は単純なシステムで十分に確立されているが、工学と実装は多くの自由度を持つ多体量子システムでは困難である。 逆ダイアバティックな項、すなわち断熱ゲージポテンシャルの方程式は、クリロフ基底を導入することで解くことができる。 クリロフ基底は、ダイナミクスが展開する極小作用素部分空間にまたがり、対ダイアバティックな項を構築する効率的な方法を提供する。 我々はパラダイム的単一粒子モデルと多粒子モデルに戦略を適用する。 反断熱項の性質は、アルゴリズム的手法によりクリロフ基底の構成の過程で得られたランツォス係数に反映される。 クリャロフ基底の膨張が反断熱項における多体相互作用をどのように組み込むかを検討する。

Shortcuts to adiabaticity provide fast protocols for quantum state preparation in which the use of auxiliary counterdiabatic controls circumvents the requirement of slow driving in adiabatic strategies. While their development is well established in simple systems, their engineering and implementation are challenging in many-body quantum systems with many degrees of freedom. We show that the equation for the counterdiabatic term, equivalently the adiabatic gauge potential, is solved by introducing a Krylov basis. The Krylov basis spans the minimal operator subspace in which the dynamics unfolds and provides an efficient way to construct the counterdiabatic term. We apply our strategy to paradigmatic single- and many-particle models. The properties of the counterdiabatic term are reflected in the Lanczos coefficients obtained in the course of the construction of the Krylov basis by an algorithmic method. We examine how the expansion in the Krylov basis incorporates many-body interactions in the counterdiabatic term.
翻訳日:2024-03-08 18:38:45 公開日:2024-03-07
# シミュレーションに基づく推論のための不特定化・ロバスト逐次的確率

Misspecification-robust Sequential Neural Likelihood for Simulation-based Inference ( http://arxiv.org/abs/2301.13368v2 )

ライセンス: Link先を確認
Ryan P. Kelly and David J. Nott and David T. Frazier and David J. Warne and Chris Drovandi(参考訳) シミュレーションに基づく推論手法は、難易度を持つ機械的およびシミュレーション可能なモデルのパラメータ推定に不可欠である。 近似ベイズ計算やベイズ合成推定法のような従来の統計学的手法は、よく特定され誤った設定の下で研究されてきたが、しばしば無駄なモデルシミュレーションによって非効率に苦しめられている。 シーケンシャル・ニューラル・サイエント(SNL)のようなニューラルアプローチは、全てのモデルシミュレーションを利用して、確率関数のためにニューラル・サロゲートを訓練することによって、この無駄を避ける。 しかし, モデル不特定条件下でのSNLの性能は信頼できないため, 不正確なパラメータ推定を中心にした過信後部が生じる可能性がある。 本稿では,追加の調整パラメータを組み込んだ新しいsnl法を提案する。この手法は,モデルの誤特定に頑健であり,モデルが復元できないデータの特徴を識別できる。 本手法は,snlよりも正確な点推定と不確かさの定量化を行うため,いくつかの例を通して,本手法の有効性を示す。

Simulation-based inference techniques are indispensable for parameter estimation of mechanistic and simulable models with intractable likelihoods. While traditional statistical approaches like approximate Bayesian computation and Bayesian synthetic likelihood have been studied under well-specified and misspecified settings, they often suffer from inefficiencies due to wasted model simulations. Neural approaches, such as sequential neural likelihood (SNL) avoid this wastage by utilising all model simulations to train a neural surrogate for the likelihood function. However, the performance of SNL under model misspecification is unreliable and can result in overconfident posteriors centred around an inaccurate parameter estimate. In this paper, we propose a novel SNL method, which through the incorporation of additional adjustment parameters, is robust to model misspecification and capable of identifying features of the data that the model is not able to recover. We demonstrate the efficacy of our approach through several illustrative examples, where our method gives more accurate point estimates and uncertainty quantification than SNL.
翻訳日:2024-03-08 18:38:32 公開日:2024-03-07
# RDesign:第三次構造に基づくRNA設計のための階層的データ効率表現学習

RDesign: Hierarchical Data-efficient Representation Learning for Tertiary Structure-based RNA Design ( http://arxiv.org/abs/2301.10774v3 )

ライセンス: Link先を確認
Cheng Tan, Yijie Zhang, Zhangyang Gao, Bozhen Hu, Siyuan Li, Zicheng Liu, Stan Z. Li(参考訳) 人工知能は、生体高分子の一次配列と第三次構造との関係を明らかにすることに顕著な進歩を遂げているが、特定の第三次構造に基づくrna配列の設計は依然として困難である。 タンパク質設計における既存のアプローチはタンパク質の構造から配列への依存を徹底的に研究してきたが、RNAの設計は構造的な複雑さとデータ不足のために依然として困難に直面している。 さらに、タンパク質設計手法を直接RNA設計に移植しても、同様の構造成分を共有しながら良好な結果が得られない。 本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。 我々は,大規模で精巧なベンチマークデータセットを作成し,複雑なrna3次構造を表現するための包括的構造モデリング手法を設計した。 さらに,クラスタレベルとサンプルレベルでの対比学習を通じて構造表現を学習し,限られたデータを完全に活用する階層型データ効率表現学習フレームワークを提案する。 限られた超球面空間内でデータ表現を制約することで、データポイント間の本質的な関係を明示的に課すことができる。 さらに,RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造を事前知識として組み込んだ。 大規模な実験により提案手法の有効性を実証し,今後のRNA設計タスクの信頼性の高いベースラインを提供する。 ソースコードとベンチマークデータセットはhttps://github.com/a4bio/rdesignで入手できる。

While artificial intelligence has made remarkable strides in revealing the relationship between biological macromolecules' primary sequence and tertiary structure, designing RNA sequences based on specified tertiary structures remains challenging. Though existing approaches in protein design have thoroughly explored structure-to-sequence dependencies in proteins, RNA design still confronts difficulties due to structural complexity and data scarcity. Moreover, direct transplantation of protein design methodologies into RNA design fails to achieve satisfactory outcomes although sharing similar structural components. In this study, we aim to systematically construct a data-driven RNA design pipeline. We crafted a large, well-curated benchmark dataset and designed a comprehensive structural modeling approach to represent the complex RNA tertiary structure. More importantly, we proposed a hierarchical data-efficient representation learning framework that learns structural representations through contrastive learning at both cluster-level and sample-level to fully leverage the limited data. By constraining data representations within a limited hyperspherical space, the intrinsic relationships between data points could be explicitly imposed. Moreover, we incorporated extracted secondary structures with base pairs as prior knowledge to facilitate the RNA design process. Extensive experiments demonstrate the effectiveness of our proposed method, providing a reliable baseline for future RNA design tasks. The source code and benchmark dataset are available at https://github.com/A4Bio/RDesign.
翻訳日:2024-03-08 18:38:14 公開日:2024-03-07
# PDFormer:交通流予測のための伝搬遅延対応ダイナミックロングランジ変圧器

PDFormer: Propagation Delay-Aware Dynamic Long-Range Transformer for Traffic Flow Prediction ( http://arxiv.org/abs/2301.07945v3 )

ライセンス: Link先を確認
Jiawei Jiang, Chengkai Han, Wayne Xin Zhao, Jingyuan Wang(参考訳) インテリジェント交通システムのコア技術として、トラフィックフロー予測には幅広い応用がある。 交通流予測の基本的な課題は、交通データの複雑な空間的依存関係を効果的にモデル化することである。 空間-時間グラフニューラルネットワーク(gnn)モデルは、この問題を解決する最も有望な方法の1つである。 しかし、gnnベースのモデルには交通予測に3つの大きな制限がある。 一 ほとんどの方法は、動的な都市交通パターンを学習する能力を制限する静的な方法で空間依存をモデル化する。 二 殆どの方法は、短距離空間情報のみを考慮し、長距離空間依存を捉えることができない。 三 この方法は、交通システムにおいて、場所間の交通条件の伝搬が遅延しているという事実を無視する。 そこで本研究では,トラヒックフロー予測のための新しい伝搬遅延認識動的長距離変圧器pdformerを提案する。 具体的には,動的空間依存を捕捉する空間自己認識モジュールを設計する。 次に,2つのグラフマスキング行列を導入し,短視野と長視野の空間依存性を強調する。 さらに,空間情報伝達の時間遅延を明示的にモデル化する機能を持つpdformerに対して,トラヒック遅延認識機能変換モジュールを提案する。 6つの実世界の公開トラヒックデータセットの広範な実験結果から,本手法は最先端のパフォーマンスを実現するだけでなく,計算効率も高いことがわかった。 さらに,学習した空間的-時間的注意マップを可視化し,モデルを高度に解釈可能にした。

As a core technology of Intelligent Transportation System, traffic flow prediction has a wide range of applications. The fundamental challenge in traffic flow prediction is to effectively model the complex spatial-temporal dependencies in traffic data. Spatial-temporal Graph Neural Network (GNN) models have emerged as one of the most promising methods to solve this problem. However, GNN-based models have three major limitations for traffic prediction: i) Most methods model spatial dependencies in a static manner, which limits the ability to learn dynamic urban traffic patterns; ii) Most methods only consider short-range spatial information and are unable to capture long-range spatial dependencies; iii) These methods ignore the fact that the propagation of traffic conditions between locations has a time delay in traffic systems. To this end, we propose a novel Propagation Delay-aware dynamic long-range transFormer, namely PDFormer, for accurate traffic flow prediction. Specifically, we design a spatial self-attention module to capture the dynamic spatial dependencies. Then, two graph masking matrices are introduced to highlight spatial dependencies from short- and long-range views. Moreover, a traffic delay-aware feature transformation module is proposed to empower PDFormer with the capability of explicitly modeling the time delay of spatial information propagation. Extensive experimental results on six real-world public traffic datasets show that our method can not only achieve state-of-the-art performance but also exhibit competitive computational efficiency. Moreover, we visualize the learned spatial-temporal attention map to make our model highly interpretable.
翻訳日:2024-03-08 18:37:53 公開日:2024-03-07
# 2レベル最適化のための1次ペナルティ法

First-order penalty methods for bilevel optimization ( http://arxiv.org/abs/2301.01716v2 )

ライセンス: Link先を確認
Zhaosong Lu and Sanyou Mei(参考訳) 本稿では,下層が非滑らかな凸最適化問題であり,上層が非凸最適化問題であるような,制約のない二段階最適化問題のクラスについて検討する。 我々は,これらに対して$\varepsilon$-kkt の解の概念を導入し,$\varepsilon$-kkt の解が適切な仮定の下で $o(\sqrt{\varepsilon})$- または $o(\varepsilon)$-hypergradient based stionary point となることを示す。 また,そのサブプロブレムが構造化されたミニマックス問題となり,著者らによって最近開発された一階法で適切に解けるような,$\varepsilon$-KKTの解を求める一階法を提案する。 適切な仮定の下では、その基本演算によって測定された$O(\varepsilon^{-4}\log\varepsilon^{-1})$と$O(\varepsilon^{-7}\log\varepsilon^{-1})$の \emph{operation complexity} が、制約のない二段階最適化問題の$\varepsilon$-KTソリューションを見つけるための提案されたペナルティ法に対して確立される。 提案手法の性能を示すための予備的な数値結果を示す。 本稿では,この2レベル最適化をミニマックス最適化として大まかに解くことができることを示す最初の研究であり,さらに,このような洗練された2レベル最適化の複雑性を保証する,最初の実装可能な手法を提供する。

In this paper we study a class of unconstrained and constrained bilevel optimization problems in which the lower level is a possibly nonsmooth convex optimization problem, while the upper level is a possibly nonconvex optimization problem. We introduce a notion of $\varepsilon$-KKT solution for them and show that an $\varepsilon$-KKT solution leads to an $O(\sqrt{\varepsilon})$- or $O(\varepsilon)$-hypergradient based stionary point under suitable assumptions. We also propose first-order penalty methods for finding an $\varepsilon$-KKT solution of them, whose subproblems turn out to be a structured minimax problem and can be suitably solved by a first-order method recently developed by the authors. Under suitable assumptions, an \emph{operation complexity} of $O(\varepsilon^{-4}\log\varepsilon^{-1})$ and $O(\varepsilon^{-7}\log\varepsilon^{-1})$, measured by their fundamental operations, is established for the proposed penalty methods for finding an $\varepsilon$-KKT solution of the unconstrained and constrained bilevel optimization problems, respectively. Preliminary numerical results are presented to illustrate the performance of our proposed methods. To the best of our knowledge, this paper is the first work to demonstrate that bilevel optimization can be approximately solved as minimax optimization, and moreover, it provides the first implementable method with complexity guarantees for such sophisticated bilevel optimization.
翻訳日:2024-03-08 18:37:00 公開日:2024-03-07
# 因果発生の原因の定量化:因果構造における不確かさと非対称性の臨界条件

Quantify the Causes of Causal Emergence: Critical Conditions of Uncertainty and Asymmetry in Causal Structure ( http://arxiv.org/abs/2212.01551v3 )

ライセンス: Link先を確認
Liye Jia, Fengyufan Yang, Ka Lok Man, Erick Purwanto, Sheng-Uei Guan, Jeremy Smith, Yutao Yue(参考訳) 高度な計算装置にとって有益であり、目的のシステムのパターンを記述・予測する精度を高めるために、大量のパラメータを持つモデルがより多くの情報を抽出するためにますます使われています。 この現象は、深層学習に関連する研究領域で特に顕著である。 しかし、統計学および情報学理論に基づく因果関係の調査は、近年の大規模モデルにとって興味深い、価値のある課題となっている。 パラメータの少ないマクロモデルは、システムを効果的に表現するより多くのパラメータを持つ顕微鏡的なモデルよりも優れる。 この貴重な状況をカウサル・エネルジェンス(Causal Emergence)と呼ぶ。 本稿では,その発生の理論的制約として因果発生の数値条件を評価するために,有効情報と遷移確率行列に基づいて定量化の枠組みを提案する。 具体的には, 因果発生の原因を定量的に証明した。 特定の粗粒化戦略により、モデルの因果構造における不確かさと非対称性の最適化は、モデルスケールの変化によって最大情報を失うよりも大きな影響を与える。 さらに,部分的情報分解と深層学習ネットワークが生み出す可能性について,因果関係の創発の研究で考察し,今後,定量化フレームワークが有意な役割を担う可能性について考察する。

Beneficial to advanced computing devices, models with massive parameters are increasingly employed to extract more information to enhance the precision in describing and predicting the patterns of objective systems. This phenomenon is particularly pronounced in research domains associated with deep learning. However, investigations of causal relationships based on statistical and informational theories have posed an interesting and valuable challenge to large-scale models in the recent decade. Macroscopic models with fewer parameters can outperform their microscopic counterparts with more parameters in effectively representing the system. This valuable situation is called "Causal Emergence." This paper introduces a quantification framework, according to the Effective Information and Transition Probability Matrix, for assessing numerical conditions of Causal Emergence as theoretical constraints of its occurrence. Specifically, our results quantitatively prove the cause of Causal Emergence. By a particular coarse-graining strategy, optimizing uncertainty and asymmetry within the model's causal structure is significantly more influential than losing maximum information due to variations in model scales. Moreover, by delving into the potential exhibited by Partial Information Decomposition and Deep Learning networks in the study of Causal Emergence, we discuss potential application scenarios where our quantification framework could play a role in future investigations of Causal Emergence.
翻訳日:2024-03-08 18:36:22 公開日:2024-03-07
# 分布シフトのためのラベルアライメント規則化

Label Alignment Regularization for Distribution Shift ( http://arxiv.org/abs/2211.14960v3 )

ライセンス: Link先を確認
Ehsan Imani, Guojun Zhang, Runjia Li, Jun Luo, Pascal Poupart, Philip H.S. Torr, Yangchen Pan(参考訳) 近年の研究では、教師付き学習におけるラベルアライメント特性(lap)を強調している。データセット内のすべてのラベルのベクトルは、データ行列の上位数個の特異ベクトルの範囲内にある。 この観測からインスピレーションを得て、対象領域の予測とその頂点特異ベクトルとの整合性を促進する教師なし領域適応の正規化法を提案する。 正規化表現にフォーカスした従来のドメイン適応アプローチとは異なり、ソース領域とターゲット領域の両方のラップによって導かれる教師なしのターゲットデータと整合するように分類器を規則化する。 理論的解析により、ある仮定の下では、我々の解は対象の領域データの右上特異ベクトルの範囲内にあり、最適解と整合することを示した。 古典的領域適応理論で見られる最適結合リスク仮定を除去することにより,従来の領域適応手法が高い結合誤差のためにしばしば不足する問題に対処する上で,本手法の有効性を示す。 さらに、MNIST-USPSドメイン適応や言語間感情分析などのよく知られたタスクにおいて、ドメイン適応ベースラインよりもパフォーマンスが向上したことを報告した。

Recent work has highlighted the label alignment property (LAP) in supervised learning, where the vector of all labels in the dataset is mostly in the span of the top few singular vectors of the data matrix. Drawing inspiration from this observation, we propose a regularization method for unsupervised domain adaptation that encourages alignment between the predictions in the target domain and its top singular vectors. Unlike conventional domain adaptation approaches that focus on regularizing representations, we instead regularize the classifier to align with the unsupervised target data, guided by the LAP in both the source and target domains. Theoretical analysis demonstrates that, under certain assumptions, our solution resides within the span of the top right singular vectors of the target domain data and aligns with the optimal solution. By removing the reliance on the commonly used optimal joint risk assumption found in classic domain adaptation theory, we showcase the effectiveness of our method on addressing problems where traditional domain adaptation methods often fall short due to high joint error. Additionally, we report improved performance over domain adaptation baselines in well-known tasks such as MNIST-USPS domain adaptation and cross-lingual sentiment analysis.
翻訳日:2024-03-08 18:36:01 公開日:2024-03-07
# 時相正規性と旅行意味論を用いた自己教師付き軌道表現学習

Self-supervised Trajectory Representation Learning with Temporal Regularities and Travel Semantics ( http://arxiv.org/abs/2211.09510v4 )

ライセンス: Link先を確認
Jiawei Jiang, Dayan Pan, Houxing Ren, Xiaohan Jiang, Chao Li, Jingyuan Wang(参考訳) Trajectory Representation Learning (TRL) は空間時間データ分析と管理のための強力なツールである。 TRLは、複雑な生の軌跡を低次元の表現ベクトルに変換し、軌道分類、クラスタリング、類似性計算などの様々な下流タスクに適用することを目的としている。 既存のTRL作業は通常、トラジェクトリを通常のシーケンスデータとして扱うが、時間的規則性や旅行意味論といった重要な時空間特性は、完全には利用されない。 このギャップを埋めるために,TemporAl規則と旅行意味論,すなわちSTARTを用いた自己教師付き軌道表現学習フレームワークを提案する。 提案手法は2段階からなる。 最初の段階はTPE-GAT(Trajectory Pattern-Enhanced Graph Attention Network)であり、道路網の特徴と走行意味を道路セグメントの表現ベクトルに変換する。 第2段階は、時間認識軌道エンコーダ(TAT-Enc)であり、軌跡表現ベクトルと同じ軌跡内の道路セグメントの表現ベクトルを符号化し、同時に軌道表現に時間正規性を組み込む。 さらに,トラジェクタの空間的-時間的特性をスタートフレームワークのトレーニングプロセスに導入するために,スパンマッシュ軌道リカバリと軌道コントラスト学習という2つの自己教師付きタスクも設計した。 提案手法の有効性は,3つのダウンストリームタスクに対する2つの大規模実世界データセットの広範な実験により検証された。 また, 異種軌跡データセットを適応させるために, 異種都市間を移動可能であることを示した。

Trajectory Representation Learning (TRL) is a powerful tool for spatial-temporal data analysis and management. TRL aims to convert complicated raw trajectories into low-dimensional representation vectors, which can be applied to various downstream tasks, such as trajectory classification, clustering, and similarity computation. Existing TRL works usually treat trajectories as ordinary sequence data, while some important spatial-temporal characteristics, such as temporal regularities and travel semantics, are not fully exploited. To fill this gap, we propose a novel Self-supervised trajectory representation learning framework with TemporAl Regularities and Travel semantics, namely START. The proposed method consists of two stages. The first stage is a Trajectory Pattern-Enhanced Graph Attention Network (TPE-GAT), which converts the road network features and travel semantics into representation vectors of road segments. The second stage is a Time-Aware Trajectory Encoder (TAT-Enc), which encodes representation vectors of road segments in the same trajectory as a trajectory representation vector, meanwhile incorporating temporal regularities with the trajectory representation. Moreover, we also design two self-supervised tasks, i.e., span-masked trajectory recovery and trajectory contrastive learning, to introduce spatial-temporal characteristics of trajectories into the training process of our START framework. The effectiveness of the proposed method is verified by extensive experiments on two large-scale real-world datasets for three downstream tasks. The experiments also demonstrate that our method can be transferred across different cities to adapt heterogeneous trajectory datasets.
翻訳日:2024-03-08 18:35:40 公開日:2024-03-07
# エネルギー効率のよい加速度計を用いたクライミング経路のクラスタリング

Climbing Routes Clustering Using Energy-Efficient Accelerometers Attached to the Quickdraws ( http://arxiv.org/abs/2211.02680v2 )

ライセンス: Link先を確認
Sadaf Moaveninejad, Andrea Janes, Camillo Porcaro, Luca Barletta, Lorenzo Mucchi, Massimiliano Pierobon(参考訳) クライミングジムの課題の1つは、登山者がサービスを改善しインフラを最適に活用するために人気のあるルートを見つけることである。 この問題は登山者のプライバシーと利便性と体育館の費用の両方を保護しなければならない。 この目的のために,クライミングロープをボルトアンカーに接続するクイックドリューと呼ばれる壁に取り付けられたクライミング機器に取り付けられた加速度センサを用いて,データを収集するハードウェアプロトタイプを開発した。 対応するセンサはエネルギー効率が良いように構成されており、登山ジムで大量に使用した場合の交換費用や時間消費の面で実用的になる。 本稿では、ハードウェア仕様、超低電力モードでセンサが測定したデータ、異なるルートを登る際のデータのパターンを検出し、経路クラスタリングのための教師なしアプローチを開発する。

One of the challenges for climbing gyms is to find out popular routes for the climbers to improve their services and optimally use their infrastructure. This problem must be addressed preserving both the privacy and convenience of the climbers and the costs of the gyms. To this aim, a hardware prototype is developed to collect data using accelerometer sensors attached to a piece of climbing equipment mounted on the wall, called quickdraw, that connects the climbing rope to the bolt anchors. The corresponding sensors are configured to be energy-efficient, hence becoming practical in terms of expenses and time consumption for replacement when used in large quantities in a climbing gym. This paper describes hardware specifications, studies data measured by the sensors in ultra-low power mode, detect patterns in data during climbing different routes, and develops an unsupervised approach for route clustering.
翻訳日:2024-03-08 18:35:12 公開日:2024-03-07
# 薬物発見のための普遍的プログラム型ガウス型ボソンサンプラー

A universal programmable Gaussian Boson Sampler for drug discovery ( http://arxiv.org/abs/2210.14877v3 )

ライセンス: Link先を確認
Shang Yu, Zhi-Peng Zhong, Yuhua Fang, Raj B. Patel, Qing-Peng Li, Wei Liu, Zhenghao Li, Liang Xu, Steven Sagona-Stophel, Ewan Mer, Sarah E. Thomas, Yu Meng, Zhi-Peng Li, Yuan-Ze Yang, Zhao-An Wang, Nai-Jie Guo, Wen-Hao Zhang, Geoffrey K Tranmer, Ying Dong, Yi-Tao Wang, Jian-Shun Tang, Chuan-Feng Li, Ian A. Walmsley, and Guang-Can Guo(参考訳) gaussian boson sampling (gbs) は、複雑なグラフでクランクを見つけるなど、グラフ問題を解決するユニークな能力を示している。 注目に値するのは、多くの薬物発見タスクがclique-findingプロセスと見なされ、量子計算に適していることである。 しかし、これらのタスクを量子エンハンス方式で実行するには、ユニバーサルプログラム可能な大規模量子ハードウェアが不可欠であり、最も先進的なgbsデバイスでも実現されていない。 そこで我々は,汎用性,プログラム性,ソフトウェアスケーリング性を備えたGBSフォトニック量子プロセッサを構築した。 プロセッサは自由に調整可能なスクイーズパラメータを備え、プログラム可能な干渉計を用いて任意のユニタリ操作を実装できる。 プロセッサを用いて,32ノードグラフでクランク探索タスクを実演し,最大重み付けクランクを,従来のサンプリングに比べて約2倍の成功確率で検出した。 さらに,多機能な量子医薬プラットフォームを開発した。 このGBSプロセッサは、分子ドッキングとRNAの折りたたみ予測という、2つの異なる薬物発見方法の実行に成功している。 本研究はgbs回路における最先端技術を実現し,実世界のアプリケーションに向けてgbsを前進させる,普遍的かつプログラマブルなアーキテクチャを実現している。

Gaussian Boson Sampling (GBS) exhibits a unique ability to solve graph problems, such as finding cliques in complex graphs. It is noteworthy that many drug discovery tasks can be viewed as the clique-finding process, making them potentially suitable for quantum computation. However, to perform these tasks in their quantum-enhanced form, a large-scale quantum hardware with universal programmability is essential, which is yet to be achieved even with the most advanced GBS devices. Here, we construct a time-bin encoded GBS photonic quantum processor that is universal, programmable, and software-scalable. Our processor features freely adjustable squeezing parameters and can implement arbitrary unitary operations with a programmable interferometer. Using our processor, we have demonstrated the clique-finding task in a 32-node graph, where we found the maximum weighted clique with approximately twice the probability of success compared to classical sampling. Furthermore, a multifunctional quantum pharmaceutical platform is developed. This GBS processor is successfully used to execute two different drug discovery methods, namely molecular docking and RNA folding prediction. Our work achieves the state-of-the-art in GBS circuitry with its distinctive universal and programmable architecture which advances GBS towards real-world applications.
翻訳日:2024-03-08 18:34:56 公開日:2024-03-07
# fire: エッジコンピューティング移行のための障害対応強化学習フレームワーク

FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations ( http://arxiv.org/abs/2209.14399v2 )

ライセンス: Link先を確認
Marie Siew, Shikhar Sharma, Zekai Li, Kun Guo, Chao Xu, Tania Lorido-Botran, Tony Q.S. Quek and Carlee Joe-Wong(参考訳) エッジコンピューティングでは、ユーザのサービスプロファイルがユーザモビリティのために移行される。 強化学習(RL)フレームワークは、しばしばシミュレーションデータに基づいて訓練される。 しかし、既存のRLフレームワークは時折サーバの障害を見落としており、これは、自律運転やリアルタイム障害検出のような遅延に敏感なアプリケーションに影響を与えている。 それでも、過去のトレーニングデータで適切に表現されていないこれらの失敗(まれな出来事)は、データ駆動RLアルゴリズムに挑戦する。 実世界のトレーニングアプリケーションで障害頻度を調整するのは現実的ではないため、エッジコンピューティングデジタルツイン環境でrlポリシーをトレーニングすることでレアなイベントに適応するフレームワークfireを導入する。 ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。 FIREは、個々のサービスプロファイルと共有サービスのプロファイル間の遅延、マイグレーション、障害、バックアップの配置コストを考慮する。 我々はImREの有界性と最適性への収束性を証明する。 次に、スケーラビリティを高めるために、新しいQ-learning(ImDQL)とアクタ評論家(ImACRE)バージョンを導入します。 リスクトレランスの異なるユーザに対応するために、当社のフレームワークを拡張しています。 トレース駆動実験により,障害発生時のバニラRLやグリーディベースラインと比較して,FIREはコストを低減できることがわかった。

In edge computing, users' service profiles are migrated due to user mobility. Reinforcement learning (RL) frameworks have been proposed to do so, often trained on simulated data. However, existing RL frameworks overlook occasional server failures, which although rare, impact latency-sensitive applications like autonomous driving and real-time obstacle detection. Nevertheless, these failures (rare events), being not adequately represented in historical training data, pose a challenge for data-driven RL algorithms. As it is impractical to adjust failure frequency in real-world applications for training, we introduce FIRE, a framework that adapts to rare events by training a RL policy in an edge computing digital twin environment. We propose ImRE, an importance sampling-based Q-learning algorithm, which samples rare events proportionally to their impact on the value function. FIRE considers delay, migration, failure, and backup placement costs across individual and shared service profiles. We prove ImRE's boundedness and convergence to optimality. Next, we introduce novel deep Q-learning (ImDQL) and actor critic (ImACRE) versions of our algorithm to enhance scalability. We extend our framework to accommodate users with varying risk tolerances. Through trace driven experiments, we show that FIRE reduces costs compared to vanilla RL and the greedy baseline in the event of failures.
翻訳日:2024-03-08 18:34:36 公開日:2024-03-07
# 準備・測定シナリオにおけるほぼ質疑応答

Almost qudits in the prepare-and-measure scenario ( http://arxiv.org/abs/2208.07887v2 )

ライセンス: Link先を確認
Jef Pauwels, Stefano Pironio, Erik Woodhead and Armin Tavakoli(参考訳) 量子通信はしばしばヒルベルト空間の次元のみが知られているシナリオで研究される。 しかし、正確な次元を割り当てることは、しばしば、実際の高次元過程の近似である。 ここでは,標準量子ビットとほぼ一致するが完全ではないキャリアに符号化された量子情報を紹介し,検討する。 半デバイス非依存の量子情報に対するこの概念の意義を,より小さな高次元成分が確立されたプロトコルの結論を著しく損なうことを示すことによって示す。 次に, 半定値緩和に基づく一般化法を提案し, ほぼクウディト相関の組を束縛し, 実演問題の修正に応用する。 この手法はまた、非絡み合ったデバイスを持つ古典的および量子的次元のデバイス非依存テストでよく知られたタスクに対して、新しい体系的アプローチを提供する。 最後に、量子ビット系を実験者が利用できる物理資源とみなし、よく知られたランダムアクセス符号の最適量子プロトコルを決定することを検討する。

Quantum communication is often investigated in scenarios where only the dimension of Hilbert space is known. However, assigning a precise dimension is often an approximation of what is actually a higher-dimensional process. Here, we introduce and investigate quantum information encoded in carriers that nearly, but not entirely, correspond to standard qudits. We demonstrate the relevance of this concept for semi-device-independent quantum information by showing how small higher-dimensional components can significantly compromise the conclusions of established protocols. Then we provide a general method, based on semidefinite relaxations, for bounding the set of almost qudit correlations, and apply it to remedy the demonstrated issues. This method also offers a novel systematic approach to the well-known task of device-independent tests of classical and quantum dimensions with unentangled devices. Finally, we also consider viewing almost qubit systems as a physical resource available to the experimenter and determine the optimal quantum protocol for the well-known Random Access Code.
翻訳日:2024-03-08 18:33:49 公開日:2024-03-07
# カーネルバナッハ空間を再現する学習のためのスパース表現定理

Sparse Representer Theorems for Learning in Reproducing Kernel Banach Spaces ( http://arxiv.org/abs/2305.12584v2 )

ライセンス: Link先を確認
Rui Wang, Yuesheng Xu, Mingsong Yan(参考訳) 機械学習では、学習ソリューションのスパーシティが望ましい機能である。 ある再生カーネルバナッハ空間(RKBS)はスパース学習法に適した仮説空間である。 本稿の目標は,学習ソリューションにおけるsparsityを促進するrkbsの種類を理解することである。 RKBSにおける2つの典型的な学習モデルを考える:最小ノルム補間(MNI)問題と正規化問題である。 まず、これらの問題の解に対する明示的な表現定理を定め、これはデータ依存のノルム関数の偏微分集合の極点の線型結合によって設定された解の極点を表す。 次に、RKBS上で、観測されたデータの数よりも少ない項を持つスパースカーネル表現に解の明示的な表現を変換できる十分な条件を提案する。 提案する十分条件下では,正規化解のスパーシティに対する正規化パラメータの役割について検討する。 さらに、列空間 $\ell_1(\mathbb{N})$ と測度空間は MNI と正規化モデルの両方に対してスパース表現定理を持つことができる。

Sparsity of a learning solution is a desirable feature in machine learning. Certain reproducing kernel Banach spaces (RKBSs) are appropriate hypothesis spaces for sparse learning methods. The goal of this paper is to understand what kind of RKBSs can promote sparsity for learning solutions. We consider two typical learning models in an RKBS: the minimum norm interpolation (MNI) problem and the regularization problem. We first establish an explicit representer theorem for solutions of these problems, which represents the extreme points of the solution set by a linear combination of the extreme points of the subdifferential set, of the norm function, which is data-dependent. We then propose sufficient conditions on the RKBS that can transform the explicit representation of the solutions to a sparse kernel representation having fewer terms than the number of the observed data. Under the proposed sufficient conditions, we investigate the role of the regularization parameter on sparsity of the regularized solutions. We further show that two specific RKBSs: the sequence space $\ell_1(\mathbb{N})$ and the measure space can have sparse representer theorems for both MNI and regularization models.
翻訳日:2024-03-08 18:30:01 公開日:2024-03-07
# 対称性と状態抽象化の観点からの政策勾配法

Policy Gradient Methods in the Presence of Symmetries and State Abstractions ( http://arxiv.org/abs/2305.05666v2 )

ライセンス: Link先を確認
Prakash Panangaden, Sahand Rezaei-Shoshtari, Rosie Zhao, David Meger, Doina Precup(参考訳) 高次元および複雑な問題に対する強化学習(RL)は、効率と一般化を改善するための抽象化に依存している。 本稿では,連続制御設定における抽象化について検討し,マルコフ決定過程(MDP)の準同型の定義を連続状態と作用空間の設定に拡張する。 確率的および決定論的政策の抽象的mdp上のポリシー勾配定理を導出する。 政策勾配の結果は,政策最適化のために環境の近似対称性を活用できる。 これらの定理に基づいて,laxの双シミュレーションメトリックを用いて,ポリシーとmdp準同型写像を同時に学習できるアクタ-クリティックアルゴリズムのファミリを提案する。 最後に、連続した対称性を持つ一連の環境を紹介し、そのような対称性の存在下での動作抽象化のためのアルゴリズムの能力をさらに実証する。 我々は,DeepMind Control Suiteの視覚的制御タスクだけでなく,我々の環境における手法の有効性を実証する。 提案手法では,表現学習にMDP準同型を利用できるため,性能が向上し,潜在空間の可視化が学習抽象の構造をはっきりと示している。

Reinforcement learning (RL) on high-dimensional and complex problems relies on abstraction for improved efficiency and generalization. In this paper, we study abstraction in the continuous-control setting, and extend the definition of Markov decision process (MDP) homomorphisms to the setting of continuous state and action spaces. We derive a policy gradient theorem on the abstract MDP for both stochastic and deterministic policies. Our policy gradient results allow for leveraging approximate symmetries of the environment for policy optimization. Based on these theorems, we propose a family of actor-critic algorithms that are able to learn the policy and the MDP homomorphism map simultaneously, using the lax bisimulation metric. Finally, we introduce a series of environments with continuous symmetries to further demonstrate the ability of our algorithm for action abstraction in the presence of such symmetries. We demonstrate the effectiveness of our method on our environments, as well as on challenging visual control tasks from the DeepMind Control Suite. Our method's ability to utilize MDP homomorphisms for representation learning leads to improved performance, and the visualizations of the latent space clearly demonstrate the structure of the learned abstraction.
翻訳日:2024-03-08 18:29:14 公開日:2024-03-07
# データ生成とパラメータ歪みによるプライバシー保護型連合学習の至近最適ユーティリティの実現に向けて

Towards Achieving Near-optimal Utility for Privacy-Preserving Federated Learning via Data Generation and Parameter Distortion ( http://arxiv.org/abs/2305.04288v3 )

ライセンス: Link先を確認
Xiaojin Zhang, Kai Chen, Qiang Yang(参考訳) フェデレートラーニング(FL)は、参加者がプライベートデータ情報を開示することなく、強化されたユーティリティでグローバルモデルを構築することを可能にする。 適切な保護機構は、 \textit{privacy} の保存と高モデル \textit{utility} の維持の要件を満たすために採用する必要がある。 広く採用されている保護機構の性質として, モデルパラメータを歪ませることにより, プライバシを保護することが挙げられる。 元のモデルパラメータと歪んだモデルパラメータのギャップを通じて有効性を測定する。 我々は,プライバシ保護フェデレーション学習がデータ生成やパラメータの歪みを通じてほぼ最適に利用できるという,一般的な条件下での認識を望んでいる。 分散還元(distribution-reduction)とモデルパラメータの不一致(model parameter discrepancy)という2つの主な用語を用いて、ユーティリティ損失の上限を別々に測定する。 本分析は,プライバシ要件を同時に満たすために,保護機構の適切な保護パラメータの設計を刺激する。 保護機構の主な技術はパラメータの歪みとデータ生成であり、汎用的で広く適用可能である。 さらに,プライバシとユーティリティのトレードオフに対する上限として,フェデレーション学習におけるフリーランチ定理によって与えられる下限とともに,最適なトレードオフを達成するための条件を定式化する。

Federated learning (FL) enables participating parties to collaboratively build a global model with boosted utility without disclosing private data information. Appropriate protection mechanisms have to be adopted to fulfill the requirements in preserving \textit{privacy} and maintaining high model \textit{utility}. The nature of the widely-adopted protection mechanisms including \textit{Randomization Mechanism} and \textit{Compression Mechanism} is to protect privacy via distorting model parameter. We measure the utility via the gap between the original model parameter and the distorted model parameter. We want to identify under what general conditions privacy-preserving federated learning can achieve near-optimal utility via data generation and parameter distortion. To provide an avenue for achieving near-optimal utility, we present an upper bound for utility loss, which is measured using two main terms called variance-reduction and model parameter discrepancy separately. Our analysis inspires the design of appropriate protection parameters for the protection mechanisms to achieve near-optimal utility and meet the privacy requirements simultaneously. The main techniques for the protection mechanism include parameter distortion and data generation, which are generic and can be applied extensively. Furthermore, we provide an upper bound for the trade-off between privacy and utility, \blue{which together with the lower bound provided by no free lunch theorem in federated learning (\cite{zhang2022no}) form the conditions for achieving optimal trade-off.
翻訳日:2024-03-08 18:28:53 公開日:2024-03-07
# LibCity: 都市空間・時間予測の効率化と総合化を目指す統一図書館

LibCity: A Unified Library Towards Efficient and Comprehensive Urban Spatial-Temporal Prediction ( http://arxiv.org/abs/2304.14343v7 )

ライセンス: Link先を確認
Jiawei Jiang, Chengkai Han, Wenjun Jiang, Wayne Xin Zhao, Jingyuan Wang(参考訳) 深層学習技術が進歩し、都市空間時空間データが蓄積するにつれて、都市空間時空間予測問題を解決するための深層学習モデルが増えている。 しかし、既存の分野には、さまざまなフォーマットで、使いづらいオープンソースのデータ、コードとデータをオープンに利用可能にする論文、さまざまなフレームワークやプラットフォームを使用するオープンソースモデルなど、制限があり、比較が難しい。 これらのメソッドを実装し評価するには、標準化されたフレームワークが緊急に必要です。 これらの問題に対処するために,研究者に信頼性のある実験ツールと便利な開発フレームワークを提供するオープンソースライブラリであるLibCityを提案する。 本図書館では,65の空間-時間予測モデルを再現し,55の空間-時間データセットを収集した。 公平なモデル比較を可能にし、統一されたデータストレージフォーマットを設計し、新しいモデルの開発プロセスを簡単にすることで、libcityは空間-時間予測分野に大きな貢献をする準備が整っている。

As deep learning technology advances and more urban spatial-temporal data accumulates, an increasing number of deep learning models are being proposed to solve urban spatial-temporal prediction problems. However, there are limitations in the existing field, including open-source data being in various formats and difficult to use, few papers making their code and data openly available, and open-source models often using different frameworks and platforms, making comparisons challenging. A standardized framework is urgently needed to implement and evaluate these methods. To address these issues, we propose LibCity, an open-source library that offers researchers a credible experimental tool and a convenient development framework. In this library, we have reproduced 65 spatial-temporal prediction models and collected 55 spatial-temporal datasets, allowing researchers to conduct comprehensive experiments conveniently. By enabling fair model comparisons, designing a unified data storage format, and simplifying the process of developing new models, LibCity is poised to make significant contributions to the spatial-temporal prediction field.
翻訳日:2024-03-08 18:28:30 公開日:2024-03-07
# EasyPortrait - 顔解析とポートレートセグメンテーションデータセット

EasyPortrait -- Face Parsing and Portrait Segmentation Dataset ( http://arxiv.org/abs/2304.13509v3 )

ライセンス: Link先を確認
Karina Kvanchiani, Elizaveta Petrova, Karen Efremyan, Alexander Sautin, Alexander Kapitanov(参考訳) 近年,リアルタイム背景除去や顔の美化など,コンピュータビジョンに基づく機能を実現することで,ビデオ会議アプリが機能するようになっている。 ヘッドポーズ、民族性、シーン、ビデオ会議特有のオクルージョンを含む、既存のポートレートセグメンテーションと顔解析データセットの限定的なバリエーションは、これらのタスクを同時に新しいデータセット、EasyPortraitを作成する動機となった。 13,705人のユニークユーザーと細粒度のセグメンテーションマスクを9つのクラスに分けて、主に4万枚の屋内写真がビデオ会議のシナリオを繰り返している。 他のデータセットからの不適切なアノテーションマスクは、アノテーションガイドラインの改訂を引き起こし、歯の白化や皮膚の平滑化といったケースを処理するEasyPortraitの能力をもたらした。 クラウドソーシングによるデータマイニングと高品質マスクアノテーションのためのパイプラインも提案する。 アブレーション実験では,モデルの効果的な学習のためのデータセットにおける頭部ポーズにおけるデータ量と多様性の重要性を実証した。 クロスデータセット評価実験により,ポートレートセグメンテーションデータセットの最適領域一般化能力が確認された。 さらに、余分なトレーニングトリックなしでEasyPortrait上でのセグメンテーションモデルの簡易性を示す。 提案されたデータセットとトレーニングされたモデルが公開されている。

Recently, video conferencing apps have become functional by accomplishing such computer vision-based features as real-time background removal and face beautification. Limited variability in existing portrait segmentation and face parsing datasets, including head poses, ethnicity, scenes, and occlusions specific to video conferencing, motivated us to create a new dataset, EasyPortrait, for these tasks simultaneously. It contains 40,000 primarily indoor photos repeating video meeting scenarios with 13,705 unique users and fine-grained segmentation masks separated into 9 classes. Inappropriate annotation masks from other datasets caused a revision of annotator guidelines, resulting in EasyPortrait's ability to process cases, such as teeth whitening and skin smoothing. The pipeline for data mining and high-quality mask annotation via crowdsourcing is also proposed in this paper. In the ablation study experiments, we proved the importance of data quantity and diversity in head poses in our dataset for the effective learning of the model. The cross-dataset evaluation experiments confirmed the best domain generalization ability among portrait segmentation datasets. Moreover, we demonstrate the simplicity of training segmentation models on EasyPortrait without extra training tricks. The proposed dataset and trained models are publicly available.
翻訳日:2024-03-08 18:28:11 公開日:2024-03-07
# Rydberg-dressedatomによるハドロン状態の量子シミュレーション

Quantum simulation of hadronic states with Rydberg-dressed atoms ( http://arxiv.org/abs/2304.12623v3 )

ライセンス: Link先を確認
Zihan Wang, Feiyang Wang, Joseph Vovrosh, Johannes Knolle, Florian Mintert and Rick Mukherjee(参考訳) 閉じ込め現象は高エネルギー物理学でよく知られており、一次元量子スピン鎖の低エネルギー領域壁励起に対しても実現可能である。 2つのドメイン壁からなるバウンド状態は中間子のように振る舞うことができ、最近のvovrosh et alの作品ではそうである。 [PRX Quantum 3, 040309 (2022)], 一対の中間子がハドロン状態に類似したメタ安定閉じ込め誘起境界状態(4つのドメイン壁からなる)を動的に形成できることが実証された。 しかし、このプロトコルはVovroshらで議論された。 [prx量子3,040309 (2022)] 特性的に非単調な距離依存性を持つ相互作用の使用は、自然界では容易ではないため、実験的な実現への挑戦となる。 この点において、リドバーグ原子は閉じ込め関連物理学をシミュレートするために必要なプラットフォームを提供することができる。 一次元の逆場イジングモデルに対するスピン-スピン相互作用を工学するために、Rydberg-dressed 原子を相互作用させることによって得られる柔軟性を利用する。 我々の数値シミュレーションは、Rydberg-dressedの相互作用がハドロン生成に適する様々な有効なポテンシャルをもたらすことを示しており、現在の捕捉イオン実験の代替として、Rydbergプラットフォームによる閉じ込め物理学をシミュレートする可能性を開く。

The phenomenon of confinement is well known in high-energy physics and can also be realized for low-energy domain-wall excitations in one-dimensional quantum spin chains. A bound state consisting of two domain-walls can behave like a meson, and in a recent work of Vovrosh et al. [PRX Quantum 3, 040309 (2022)] , it was demonstrated that a pair of mesons could dynamically form a meta-stable confinement-induced bound state (consisting of four domain-walls) akin to a hadronic state. However, the protocol discussed in Vovrosh et al. [PRX Quantum 3, 040309 (2022)] involving the use of interactions with characteristically non-monotonic distance dependence is not easy to come by in nature, thus, posing a challenge for its experimental realization. In this regard, Rydberg atoms can provide the required platform for simulating confinement-related physics. We exploit the flexibility offered by interacting Rydberg-dressed atoms to engineering modified spin-spin interactions for the one-dimensional transverse field Ising model. Our numerical simulations show how Rydberg-dressed interactions can give rise to a variety of effective potentials that are suitable for hadron formation, which opens the possibility of simulating confinement physics with Rydberg platforms as a viable alternative to current trapped-ion experiments.
翻訳日:2024-03-08 18:27:51 公開日:2024-03-07
# tensoir:テンソル逆レンダリング

TensoIR: Tensorial Inverse Rendering ( http://arxiv.org/abs/2304.12461v2 )

ライセンス: Link先を確認
Haian Jin, Isabella Liu, Peijia Xu, Xiaoshuai Zhang, Songfang Han, Sai Bi, Xiaowei Zhou, Zexiang Xu, Hao Su(参考訳) テンソル因子分解と神経場に基づく新しい逆レンダリング手法であるtensoirを提案する。 純粋にMLPベースのニューラルフィールドを使用する従来の研究とは異なり、低容量で計算コストが高いため、照度場モデリングのための最先端のアプローチであるTensoRFを拡張して、未知の照明条件下で撮影された多視点画像からシーン形状、表面反射、環境照明を推定する。 本手法は,放射光場再構成と物理モデル推定を共同で実現し,フォトリアリスティックな新しいビュー合成とリライト結果をもたらす。 テンソRF表現の効率性と拡張性から,本手法は2次シェーディング効果(影や間接照明など)を正確にモデル化し,単一あるいは複数の未知の照明条件下での入力画像の撮影を支援する。 低ランクテンソル表現は、高速かつコンパクトな再構成を実現するだけでなく、任意の数の撮影照明条件下で共有情報を利用することができる。 本手法は,様々な難解な合成シーンと実世界のシーンにおいて,質的かつ定量的にベースライン手法に優れていることを示す。

We propose TensoIR, a novel inverse rendering approach based on tensor factorization and neural fields. Unlike previous works that use purely MLP-based neural fields, thus suffering from low capacity and high computation costs, we extend TensoRF, a state-of-the-art approach for radiance field modeling, to estimate scene geometry, surface reflectance, and environment illumination from multi-view images captured under unknown lighting conditions. Our approach jointly achieves radiance field reconstruction and physically-based model estimation, leading to photo-realistic novel view synthesis and relighting results. Benefiting from the efficiency and extensibility of the TensoRF-based representation, our method can accurately model secondary shading effects (like shadows and indirect lighting) and generally support input images captured under single or multiple unknown lighting conditions. The low-rank tensor representation allows us to not only achieve fast and compact reconstruction but also better exploit shared information under an arbitrary number of capturing lighting conditions. We demonstrate the superiority of our method to baseline methods qualitatively and quantitatively on various challenging synthetic and real-world scenes.
翻訳日:2024-03-08 18:27:27 公開日:2024-03-07
# 組み込みデバイスでの自然言語処理:トランスフォーマーモデルの性能はどの程度か?

Processing Natural Language on Embedded Devices: How Well Do Transformer Models Perform? ( http://arxiv.org/abs/2304.11520v4 )

ライセンス: Link先を確認
Souvika Sarkar, Mohammad Fakhruddin Babar, Md Mahadi Hassan, Monowar Hasan, and Shubhra Kanti Karmaker Santu(参考訳) 本稿では,異なるハードウェア構成と精度要件下でのトランスフォーマー言語モデルの性能調査を行い,これらのリソース/精度トレードオフに関する経験的観察を導出する。 特に,最もよく使われているBERTベースの言語モデル (viz, BERT, RoBERTa, DistilBERT, TinyBERT) が組込みシステム上でどのように動作するかを検討する。 2GBと4GBのメモリ(合計8つのハードウェア構成)と4つのデータセット(HuRIC、GoEmotion、CoNLL、WNUT17)がさまざまなNLPタスクを実行している、既製の4つの組み込みプラットフォーム(Raspberry Pi、Jetson、UP2、UDOO)でテストしました。 組込みシステム上で複雑なNLPタスク(例えば「センチメント」分類)を実行することは、GPUなしでも実現可能である(例:RAMが2GBのRaspberry Pi)。 我々の発見は、デザイナーがトランスフォーマー言語モデル、特にBERTアーキテクチャに基づくモデルのデプロイ性と性能を理解するのに役立つ。

This paper presents a performance study of transformer language models under different hardware configurations and accuracy requirements and derives empirical observations about these resource/accuracy trade-offs. In particular, we study how the most commonly used BERT-based language models (viz., BERT, RoBERTa, DistilBERT, and TinyBERT) perform on embedded systems. We tested them on four off-the-shelf embedded platforms (Raspberry Pi, Jetson, UP2, and UDOO) with 2 GB and 4 GB memory (i.e., a total of eight hardware configurations) and four datasets (i.e., HuRIC, GoEmotion, CoNLL, WNUT17) running various NLP tasks. Our study finds that executing complex NLP tasks (such as "sentiment" classification) on embedded systems is feasible even without any GPUs (e.g., Raspberry Pi with 2 GB of RAM). Our findings can help designers understand the deployability and performance of transformer language models, especially those based on BERT architectures.
翻訳日:2024-03-08 18:27:07 公開日:2024-03-07
# EasyNER: 医用テキストからの深層学習と辞書に基づく名前付きエンティティ認識のためのカスタマイズ可能な使いやすいパイプライン

EasyNER: A Customizable Easy-to-Use Pipeline for Deep Learning- and Dictionary-based Named Entity Recognition from Medical Text ( http://arxiv.org/abs/2304.07805v2 )

ライセンス: Link先を確認
Rafsan Ahmed, Petter Berntsson, Alexander Skafte, Salma Kazemi Rashed, Marcus Klang, Adam Barvesten, Ola Olde, William Lindholm, Antton Lamarca Arrizabalaga, Pierre Nugues, Sonja Aits(参考訳) 背景医療研究は数百万の出版物を生み出しており、その規模と複雑さが人間の読書能力を大きく超えるため、研究者にとってこの情報を完全に活用することは大きな課題である。 自動テキストマイニングは、この膨大な文献にまたがる情報を抽出し、接続するのに役立ちますが、この技術は生命科学者にとって簡単にアクセスできません。 そこで本研究では,病気,細胞,化学物質,遺伝子・タンパク質,種など,医学的な研究論文に見られる典型的なエンティティの,深層学習および辞書に基づく名前付きエンティティ認識(NER)のための,使い易いエンドツーエンドパイプラインを開発した。 このパイプラインは、大規模な医学研究論文コレクション(PubMed、CORD-19)または原文にアクセスおよび処理することができ、HUNERコーパスコレクションに微調整された一連のディープラーニングモデルを組み込むことができる。 さらに、このパイプラインはcovid-19やその他の医学的トピックに関連する辞書ベースのnerを実行できる。 ユーザーは独自のNERモデルや辞書をロードして追加エンティティを含めることもできる。 出力は、検出されたエンティティと注釈付きテキストを含むファイルの公開可能なランクリストとグラフで構成されている。 関連するスクリプトは、特定の興味のあるエンティティに対する結果の迅速な検査を可能にする。 モデルユースケースとして、パイプラインはPubMedと、COVID-19に関連する764の398研究論文の集合であるCORD19データセットの2つのオートファジー関連抽象化にデプロイされた。 結論 私たちが提示するNERパイプラインは、さまざまな医学研究環境に適用でき、カスタマイズ可能なテキストマイニングを生命科学者が利用できるようにする。

Background Medical research generates millions of publications and it is a great challenge for researchers to utilize this information in full since its scale and complexity greatly surpasses human reading capabilities. Automated text mining can help extract and connect information spread across this large body of literature but this technology is not easily accessible to life scientists. Results Here, we developed an easy-to-use end-to-end pipeline for deep learning- and dictionary-based named entity recognition (NER) of typical entities found in medical research articles, including diseases, cells, chemicals, genes/proteins, and species. The pipeline can access and process large medical research article collections (PubMed, CORD-19) or raw text and incorporates a series of deep learning models fine-tuned on the HUNER corpora collection. In addition, the pipeline can perform dictionary-based NER related to COVID-19 and other medical topics. Users can also load their own NER models and dictionaries to include additional entities. The output consists of publication-ready ranked lists and graphs of detected entities and files containing the annotated texts. An associated script allows rapid inspection of the results for specific entities of interest. As model use cases, the pipeline was deployed on two collections of autophagy-related abstracts from PubMed and on the CORD19 dataset, a collection of 764 398 research article abstracts related to COVID-19. Conclusions The NER pipeline we present is applicable in a variety of medical research settings and makes customizable text mining accessible to life scientists.
翻訳日:2024-03-08 18:26:46 公開日:2024-03-07
# 制約領域の拡散モデル

Diffusion Models for Constrained Domains ( http://arxiv.org/abs/2304.05364v2 )

ライセンス: Link先を確認
Nic Fishman, Leo Klarner, Valentin De Bortoli, Emile Mathieu, Michael Hutchinson(参考訳) denoising diffusion modelは、画像生成やテキストから画像へのタスクなど、さまざまな領域で最先端のパフォーマンスを実現する、新しい生成アルゴリズムのクラスである。 この成功を基にした拡散モデルは、最近リーマン多様体の設定に拡張され、自然科学や工学の科学における様々な問題への適用性を広げている。 しかし、これらのリーマン拡散モデルは、それらの前方および後方の過程が常によく定義されているという仮定に基づいて構築され、不等式制約の集合によって定義される多様体を考える重要な一連のタスクに適用できない。 本稿では,このギャップを埋めるための原則的フレームワークを紹介する。 我々は2つの異なるノイズ発生過程を示す。 (i)対数障壁メートル法及び (ii) 制約によって誘導される反射ブラウン運動。 既存の拡散モデル技術はこの設定では適用できないため、我々のフレームワークでそのようなモデルを定義するための新しいツールを導き出す。 次に、ロボット工学やタンパク質設計の応用を含む、多くの合成および実世界のタスクにおいて、我々の手法の実用性を実証する。

Denoising diffusion models are a novel class of generative algorithms that achieve state-of-the-art performance across a range of domains, including image generation and text-to-image tasks. Building on this success, diffusion models have recently been extended to the Riemannian manifold setting, broadening their applicability to a range of problems from the natural and engineering sciences. However, these Riemannian diffusion models are built on the assumption that their forward and backward processes are well-defined for all times, preventing them from being applied to an important set of tasks that consider manifolds defined via a set of inequality constraints. In this work, we introduce a principled framework to bridge this gap. We present two distinct noising processes based on (i) the logarithmic barrier metric and (ii) the reflected Brownian motion induced by the constraints. As existing diffusion model techniques cannot be applied in this setting, we derive new tools to define such models in our framework. We then demonstrate the practical utility of our methods on a number of synthetic and real-world tasks, including applications from robotics and protein design.
翻訳日:2024-03-08 18:26:17 公開日:2024-03-07
# 地理空間植生予測のためのマルチモーダル学習

Multi-modal learning for geospatial vegetation forecasting ( http://arxiv.org/abs/2303.16198v2 )

ライセンス: Link先を確認
Vitus Benson, Claire Robin, Christian Requena-Mesa, Lazaro Alonso, Nuno Carvalhais, Jos\'e Cort\'es, Zhihan Gao, Nora Linscheid, M\'elanie Weynants, Markus Reichstein(参考訳) 正確な地理空間植生予測の革新的な応用は、農業、林業、人道支援、炭素収支など様々な分野にまたがる大きな可能性を秘めている。 このタスクのために衛星画像の膨大な可用性を活用するために、様々な研究が深層ニューラルネットワークを用いて光写実性品質のマルチスペクトル画像を予測する。 しかし、植生動態の重要な領域は十分に研究されていない。 本研究は,高分解能植生予測に特化して設計された最初のデータセットであるGreenEarthNetと,Sentinel 2衛星画像から微細解像度で植生緑度を予測するための新しい深層学習手法Contextformerを導入することで,新たな地盤を打破する。 マルチモーダルトランスフォーマモデルコンテキストフォーマは,視覚バックボーンを通じて空間的コンテキストを活用し,気象時系列をパラメータ効率良く取り入れた局所的コンテキストパッチの時間的ダイナミクスを予測する。 GreenEarthNetデータセットは、学習したクラウドマスクと、植生モデリングのための適切な評価スキームを備えている。 また、既存の衛星画像予測データセットearthnet2021との互換性を維持し、クロスデータセットモデルの比較を可能にする。 定性的かつ定量的な分析により,本手法は幅広いベースライン技術より優れていることが示された。 これには、以前のEarthNet2021の最先端モデルを超えることや、時系列予測やビデオ予測からの適応モデルが含まれる。 我々の知る限り、本研究は、季節周期を超えた異常を捉え、気候の変動と極端な変化に対応して植生の健康と行動を予測するための、大陸規模の植生モデリングのための最初のモデルを示す。

The innovative application of precise geospatial vegetation forecasting holds immense potential across diverse sectors, including agriculture, forestry, humanitarian aid, and carbon accounting. To leverage the vast availability of satellite imagery for this task, various works have applied deep neural networks for predicting multispectral images in photorealistic quality. However, the important area of vegetation dynamics has not been thoroughly explored. Our study breaks new ground by introducing GreenEarthNet, the first dataset specifically designed for high-resolution vegetation forecasting, and Contextformer, a novel deep learning approach for predicting vegetation greenness from Sentinel 2 satellite images with fine resolution across Europe. Our multi-modal transformer model Contextformer leverages spatial context through a vision backbone and predicts the temporal dynamics on local context patches incorporating meteorological time series in a parameter-efficient manner. The GreenEarthNet dataset features a learned cloud mask and an appropriate evaluation scheme for vegetation modeling. It also maintains compatibility with the existing satellite imagery forecasting dataset EarthNet2021, enabling cross-dataset model comparisons. Our extensive qualitative and quantitative analyses reveal that our methods outperform a broad range of baseline techniques. This includes surpassing previous state-of-the-art models on EarthNet2021, as well as adapted models from time series forecasting and video prediction. To the best of our knowledge, this work presents the first models for continental-scale vegetation modeling at fine resolution able to capture anomalies beyond the seasonal cycle, thereby paving the way for predicting vegetation health and behaviour in response to climate variability and extremes.
翻訳日:2024-03-08 18:26:00 公開日:2024-03-07
# 絡み合い軌道とその境界

Entanglement Trajectory and its Boundary ( http://arxiv.org/abs/2303.13587v4 )

ライセンス: Link先を確認
Ruge Lin(参考訳) 本稿では,量子コンピューティングの文脈における絡み合いを調べるための新しい手法を提案する。 本手法は,量子アルゴリズムの実行の異なる段階における密度行列の縮小を解析し,グラフ上の支配的固有値とフォン・ノイマンエントロピーを表現し,「絡み合い軌道」を生成する。 軌道の境界を確立するために、ランダム行列理論を用いる。 量子断熱計算、グローバーアルゴリズム、ショアアルゴリズムなどの例の検証を通じて、エンタングルメント軌道は確立された境界内にとどまり、それぞれの例に特有の特徴を示すことを証明した。 さらに、これらの境界と特徴を、代替エントロピー測度によって定義される軌道へ拡張できることを示した。 絡み合い軌道は量子系の不変性として機能し、様々な状況と絡み合いの定義の整合性を維持する。 この研究に付随する数値シミュレーションはオープンアクセスで利用できる。

In this article, we present a novel approach to investigating entanglement in the context of quantum computing. Our methodology involves analyzing reduced density matrices at different stages of a quantum algorithm's execution and representing the dominant eigenvalue and von Neumann entropy on a graph, creating an "entanglement trajectory." To establish the trajectory's boundaries, we employ random matrix theory. Through the examination of examples such as quantum adiabatic computation, the Grover algorithm, and the Shor algorithm, we demonstrate that the entanglement trajectory remains within the established boundaries, exhibiting unique characteristics for each example. Moreover, we show that these boundaries and features can be extended to trajectories defined by alternative entropy measures. The entanglement trajectory serves as an invariant property of a quantum system, maintaining consistency across varying situations and definitions of entanglement. Numerical simulations accompanying this research are available via open access.
翻訳日:2024-03-08 18:25:31 公開日:2024-03-07
# 統一モデルによる化学反応前訓練と条件分子生成のギャップの橋渡し

Bridging the Gap between Chemical Reaction Pretraining and Conditional Molecule Generation with a Unified Model ( http://arxiv.org/abs/2303.06965v5 )

ライセンス: Link先を確認
Bo Qiang, Yiran Zhou, Yuheng Ding, Ningfeng Liu, Song Song, Liangren Zhang, Bo Huang, Zhenming Liu(参考訳) 化学反応は薬物設計と有機化学研究の基本的な構成要素である。 近年,化学反応の基本ルールを効率的に把握できる大規模ディープラーニングフレームワークの必要性が高まっている。 本稿では,反応表現学習と分子生成タスクの両方に対処し,より総合的なアプローチを可能にする統一的な枠組みを提案する。 有機化学機構にインスパイアされた我々は,モデルに誘導バイアスを組み込むことのできる,新しい事前学習フレームワークを開発した。 我々のフレームワークは、下流タスクに挑戦する最先端の成果を達成する。 化学知識を持つことによって、我々の生成枠組みは、少数の反応テンプレートに依存する現在の分子生成モデルの制限を克服した。 広範な実験において,本モデルは高品質の合成可能な薬物様構造を生成する。 全体として、我々の研究は、さまざまな反応ベースのアプリケーションのための大規模なディープラーニングフレームワークに向けて大きな一歩を踏み出した。

Chemical reactions are the fundamental building blocks of drug design and organic chemistry research. In recent years, there has been a growing need for a large-scale deep-learning framework that can efficiently capture the basic rules of chemical reactions. In this paper, we have proposed a unified framework that addresses both the reaction representation learning and molecule generation tasks, which allows for a more holistic approach. Inspired by the organic chemistry mechanism, we develop a novel pretraining framework that enables us to incorporate inductive biases into the model. Our framework achieves state-of-the-art results on challenging downstream tasks. By possessing chemical knowledge, our generative framework overcome the limitations of current molecule generation models that rely on a small number of reaction templates. In the extensive experiments, our model generates synthesizable drug-like structures of high quality. Overall, our work presents a significant step toward a large-scale deep-learning framework for a variety of reaction-based applications.
翻訳日:2024-03-08 18:25:15 公開日:2024-03-07
# 高次元特徴を持つ集合表現に適した多項式幅

Polynomial Width is Sufficient for Set Representation with High-dimensional Features ( http://arxiv.org/abs/2307.04001v3 )

ライセンス: Link先を確認
Peihao Wang, Shenghao Yang, Shu Li, Zhangyang Wang, Pan Li(参考訳) 入力順序に敏感なニューラルネットワークの帰納的バイアスをモデル化するために、ディープラーニングでは集合表現がユビキタスになってきた。 deepsetsは、最も広く使われているニューラルネットワークアーキテクチャである。 各集合要素を次元$L$で潜在空間に埋め込み、次に総集合埋め込みを得るために総和プーリングを行い、最終的に全体集合埋め込みを出力にマッピングする。 本研究では,次元$L$がDeepSetsの表現力に与える影響について検討する。 以前の分析では、1次元の特徴として過度に単純化された高次元特徴や、分析的アクティベーションに制限されていたため、実用的利用から逸脱するか、設定サイズ$N$と特徴次元$D$で指数関数的に成長する$L$が得られた。 十分な表現力を達成する$l$の最小値を調べるために、2つの集合要素埋め込み層を示す。 (a)線形+電力活性化(lp)及び (b)線形+指数的活性化(LE) L$がpoly$(N, D)$であることは、両方の埋め込み層を用いた集合表現に十分であることを示す。 また、LP埋め込み層に対して$L$の低いバウンダリも提供します。 さらに、この結果を置換同変集合関数と複素体に拡張する。

Set representation has become ubiquitous in deep learning for modeling the inductive bias of neural networks that are insensitive to the input order. DeepSets is the most widely used neural network architecture for set representation. It involves embedding each set element into a latent space with dimension $L$, followed by a sum pooling to obtain a whole-set embedding, and finally mapping the whole-set embedding to the output. In this work, we investigate the impact of the dimension $L$ on the expressive power of DeepSets. Previous analyses either oversimplified high-dimensional features to be one-dimensional features or were limited to analytic activations, thereby diverging from practical use or resulting in $L$ that grows exponentially with the set size $N$ and feature dimension $D$. To investigate the minimal value of $L$ that achieves sufficient expressive power, we present two set-element embedding layers: (a) linear + power activation (LP) and (b) linear + exponential activations (LE). We demonstrate that $L$ being poly$(N, D)$ is sufficient for set representation using both embedding layers. We also provide a lower bound of $L$ for the LP embedding layer. Furthermore, we extend our results to permutation-equivariant set functions and the complex field.
翻訳日:2024-03-08 18:21:38 公開日:2024-03-07
# Align with Purpose: General Plug-and-Play Frameworkを用いたCTCモデルにおけるDesiredプロパティの最適化

Align With Purpose: Optimize Desired Properties in CTC Models with a General Plug-and-Play Framework ( http://arxiv.org/abs/2307.01715v3 )

ライセンス: Link先を確認
Eliya Segev, Maya Alroy, Ronen Katsir, Noam Wies, Ayana Shenhav, Yael Ben-Oren, David Zar, Oren Tadmor, Jacob Bitterman, Amnon Shashua and Tal Rosenwein(参考訳) コネクショニスト時間分類(ctc)は、教師付きシーケンシャル・ツー・シークエンス(seq2seq)モデルの訓練に広く用いられている基準である。 これは不完全なアライメントを犠牲にして、完全なアライメント(基礎となる真実を生み出す)を余分にすることで、入力シーケンスと出力シーケンスの関係を学習することができる。 完全かつ不完全なアライメントのこの二項微分は、他の現実世界の応用において重要な重要なアライメント特性を捉えていない。 ここでは、CTC基準でトレーニングされたモデルにおいて、所望のプロパティを強化するために、$\textbf{ general Plug-and-Play framework}$を提案する。 我々は、所望の特性に応じてアライメントを優先順位付けする追加の損失項でCTCを補完する。 本手法はctc損失関数への干渉を一切必要とせず,様々な特性の最適化を容易にし,完全アライメントと不完全アライメントの区別を可能にする。 我々は,ASR(Automatic Speech Recognition)の領域にフレームワークを適用し,その特性選択,アーキテクチャ選択,トレーニングデータセットのスケール(最大280,000時間)において,その汎用性を示す。 本フレームワークの有効性を実証するため, 出力時間と単語誤り率(WER)の2つの非関連特性に適用した。 前者については、WERの小さな削減によるレイテンシ最適化の最大570msの改善を報告し、後者については、ベースラインモデルよりも4.5%WERの相対的な改善を報告した。 私たちの知る限りでは、これらのアプリケーションは我々のものほど大規模なデータを扱うことが実証されたことはない。 特に,本手法は数行のコードだけで実装可能であり,アライメントフリーな損失関数やASR以外の領域にも拡張可能である。

Connectionist Temporal Classification (CTC) is a widely used criterion for training supervised sequence-to-sequence (seq2seq) models. It enables learning the relations between input and output sequences, termed alignments, by marginalizing over perfect alignments (that yield the ground truth), at the expense of imperfect alignments. This binary differentiation of perfect and imperfect alignments falls short of capturing other essential alignment properties that hold significance in other real-world applications. Here we propose $\textit{Align With Purpose}$, a $\textbf{general Plug-and-Play framework}$ for enhancing a desired property in models trained with the CTC criterion. We do that by complementing the CTC with an additional loss term that prioritizes alignments according to a desired property. Our method does not require any intervention in the CTC loss function, enables easy optimization of a variety of properties, and allows differentiation between both perfect and imperfect alignments. We apply our framework in the domain of Automatic Speech Recognition (ASR) and show its generality in terms of property selection, architectural choice, and scale of training dataset (up to 280,000 hours). To demonstrate the effectiveness of our framework, we apply it to two unrelated properties: emission time and word error rate (WER). For the former, we report an improvement of up to 570ms in latency optimization with a minor reduction in WER, and for the latter, we report a relative improvement of 4.5% WER over the baseline models. To the best of our knowledge, these applications have never been demonstrated to work on a scale of data as large as ours. Notably, our method can be implemented using only a few lines of code, and can be extended to other alignment-free loss functions and to domains other than ASR.
翻訳日:2024-03-08 18:21:17 公開日:2024-03-07
# 量子センサネットワークにおける検出器センサの初期状態の最適化

Optimizing Initial State of Detector Sensors in Quantum Sensor Networks ( http://arxiv.org/abs/2306.17401v5 )

ライセンス: Link先を確認
Caitao Zhan, Himanshu Gupta, Mark Hillery(参考訳) 本稿では、各センサが「発火」する量子ビット検出器である量子センサのネットワークを考える。 検出器の点火による状態の変化は、ネットワーク内のすべてのセンサーで同じユニタリ演算子によって与えられる。 このような検出器のネットワークは、イベントに最も近いものと思われる発射センサを決定するプロトコルを使用して、イベントのローカライズに使用することができる。 点火センサの判定は、初期状態および使用した測定演算子に応じて誤差の確率を発生させる量子状態判別問題として設定することができる。 本稿では, 火災センサの判定において, 誤差の最小化につながる検出器のネットワークの最適初期大域状態を決定する問題に対処する。 この問題に対して、完全判別が可能な初期状態の存在、すなわちエラーの確率をゼロにするための必要かつ十分な条件を導出する。 この結果から, 初期状態に対する推定最適解を導出し, 予想を証明する経路を提供し, ほぼ最適であると思われる複数の探索ヒューリスティックを用いて, 予測を実証的に検証する。

In this paper, we consider a network of quantum sensors, where each sensor is a qubit detector that "fires," i.e., its state changes when an event occurs close by. The change in state due to the firing of a detector is given by a unitary operator which is the same for all sensors in the network. Such a network of detectors can be used to localize an event, using a protocol to determine the firing sensor which is presumably the one closest to the event. The determination of the firing sensor can be posed as a Quantum State Discrimination problem which incurs a probability of error depending on the initial state and the measurement operator used. In this paper, we address the problem of determining the optimal initial global state of a network of detectors that incur a minimum probability of error in determining the firing sensor. For this problem, we derive necessary and sufficient conditions for the existence of an initial state that allows for perfect discrimination, i.e., zero probability of error. Using insights from this result, we derive a conjectured optimal solution for the initial state, provide a pathway to prove the conjecture, and validate the conjecture empirically using multiple search heuristics that seem to perform near-optimally.
翻訳日:2024-03-08 18:20:43 公開日:2024-03-07
# 熱電流の量子制御

Quantum Control of Heat Current ( http://arxiv.org/abs/2306.15937v2 )

ライセンス: Link先を確認
Gobinda Chakraborty, Subhadeep Chakraborty, Tanmoy Basu, and Manas Mukherjee(参考訳) 2つの熱浴に結合した高調波発振器の量子トリマーにおける局所熱輸送について検討した。 それらのカップリングは複雑な相によって増強され、同じ熱浴に接続された2つの発振器間の局所的な非定型熱電流の量子制御につながる。 本研究により, この非定型熱電流はダークモードの上昇の結果であり, この電流の変調はシステム浴の相関のばらつきに起因することが明らかとなった。 提案する量子システムは、熱電流を利用して量子熱・メモリデバイスに応用できるかもしれない。

We investigate the local thermal transport in a quantum trimer of harmonic oscillators connected to two thermal baths. The coupling between them are augmented by complex phases which leads to the quantum control of the local atypical heat current between two oscillators connected to the same heat bath. Our study reveals that this atypical heat current is a consequence of the lifting of the dark mode and the modulation of this current is due to variation in system bath correlations. The proposed quantum system may find application in quantum thermal and memory devices by leveraging the heat current.
翻訳日:2024-03-08 18:19:36 公開日:2024-03-07
# ソーシャルマイクロブログのペルシャ感情分析のための口語データセットの構築

Constructing Colloquial Dataset for Persian Sentiment Analysis of Social Microblogs ( http://arxiv.org/abs/2306.12679v2 )

ライセンス: Link先を確認
Mojtaba Mazoochi (ICT Research Institute, Tehran, Iran), Leila Rabiei (Iran Telecommunication Research Center (ITRC), Tehran, Iran), Farzaneh Rahmani (Computer Department, Mehralborz University, Tehran, Iran), Zeinab Rajabi (Computer Department, Hazrat-e Masoumeh University, Qom, Iran)(参考訳) 紹介:マイクロブログサイトは、感情分析と意見マイニングのために豊富なデータソースを蓄積した。 この点において、感情分類はしばしば非効率であることが証明されている。なぜなら、マイクロブログ投稿には構文的に一貫性のある用語や代表が欠けているからだ。 また、低リソース言語にもいくつかの制限がある。 ペルシア語は例外的な特徴を持ち、英語方言のテキストの特徴と異なる感情分析タスクのための独自の注釈付きデータとモデルを要求する。 方法:本論文はまず,ITRC-Opinionと呼ばれるユーザ意見データセットを協調的かつインソース的に構築する。 当社のデータセットには、twitterやinstagramなどのソーシャルマイクロブログからの非公式で口語的なペルシャのテキストが6万件含まれています。 第2に,畳み込みニューラルネットワーク(convolutional neural network, cnn)モデルに基づく新しいアーキテクチャを提案する。 構築されたデータセットは、提示されたアーキテクチャを評価するために使用される。 さらに、LSTM、CNN-RNN、BiLSTM、BiGRUなどの異なる単語埋め込みを持つモデル(Fasttext、Glove、Word2vec)は、我々のデータセットを調査し、その結果を評価した。 結果: データセットと提案モデルの利点(72%の精度)が示され, 感情分類性能が有意義に向上した。

Introduction: Microblogging websites have massed rich data sources for sentiment analysis and opinion mining. In this regard, sentiment classification has frequently proven inefficient because microblog posts typically lack syntactically consistent terms and representatives since users on these social networks do not like to write lengthy statements. Also, there are some limitations to low-resource languages. The Persian language has exceptional characteristics and demands unique annotated data and models for the sentiment analysis task, which are distinctive from text features within the English dialect. Method: This paper first constructs a user opinion dataset called ITRC-Opinion in a collaborative environment and insource way. Our dataset contains 60,000 informal and colloquial Persian texts from social microblogs such as Twitter and Instagram. Second, this study proposes a new architecture based on the convolutional neural network (CNN) model for more effective sentiment analysis of colloquial text in social microblog posts. The constructed datasets are used to evaluate the presented architecture. Furthermore, some models, such as LSTM, CNN-RNN, BiLSTM, and BiGRU with different word embeddings, including Fasttext, Glove, and Word2vec, investigated our dataset and evaluated the results. Results: The results demonstrate the benefit of our dataset and the proposed model (72% accuracy), displaying meaningful improvement in sentiment classification performance.
翻訳日:2024-03-08 18:19:00 公開日:2024-03-07
# 拡散型生成モデルにおける非漸近収束の高速化に向けて

Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative Models ( http://arxiv.org/abs/2306.09251v3 )

ライセンス: Link先を確認
Gen Li, Yuting Wei, Yuxin Chen, Yuejie Chi(参考訳) マルコフ拡散過程を逆転するために学習することでノイズを新しいデータインスタンスに変換する拡散モデルは、現代の生成モデリングの基盤となっている。 実用的能力は広く認識されているが、理論的基盤は成熟していない。 本研究では,拡散モデルのデータ生成過程を離散時間で理解するための漸近的でない理論の組を開発し,(Stein)スコア関数の$\ell_2$-accurate推定値へのアクセスを仮定する。 一般的な決定論的サンプリング器(確率フローODEに基づく)では、1/T$(ステップ総数$T$)に比例して収束率を確立し、過去の結果により改善し、他の主流確率的サンプリング器(例えば、偏微分確率モデルの一種)では、1/\sqrt{T}$に比例して収束率を導出し、最先端技術理論と整合する。 対象のデータ分布に最小限の仮定(例えば、滑らかさの仮定は課されない)を課すことで、結果が$\ell_2$スコア推定誤差がデータ生成プロセスの品質に与える影響を特徴づける。 従来の研究とは対照的に,本理論はSDEやODEのツールボックスに頼らずに,基本的かつ多目的な非漸近的アプローチに基づいて開発されている。 さらに、2つの加速変種を設計し、その収束性を改善してODE-based samplerに1/T^2$、DDPM-type samplerに1/T$とする。

Diffusion models, which convert noise into new data instances by learning to reverse a Markov diffusion process, have become a cornerstone in contemporary generative modeling. While their practical power has now been widely recognized, the theoretical underpinnings remain far from mature. In this work, we develop a suite of non-asymptotic theory towards understanding the data generation process of diffusion models in discrete time, assuming access to $\ell_2$-accurate estimates of the (Stein) score functions. For a popular deterministic sampler (based on the probability flow ODE), we establish a convergence rate proportional to $1/T$ (with $T$ the total number of steps), improving upon past results; for another mainstream stochastic sampler (i.e., a type of the denoising diffusion probabilistic model), we derive a convergence rate proportional to $1/\sqrt{T}$, matching the state-of-the-art theory. Imposing only minimal assumptions on the target data distribution (e.g., no smoothness assumption is imposed), our results characterize how $\ell_2$ score estimation errors affect the quality of the data generation processes. In contrast to prior works, our theory is developed based on an elementary yet versatile non-asymptotic approach without resorting to toolboxes for SDEs and ODEs. Further, we design two accelerated variants, improving the convergence to $1/T^2$ for the ODE-based sampler and $1/T$ for the DDPM-type sampler, which might be of independent theoretical and empirical interest.
翻訳日:2024-03-08 18:18:09 公開日:2024-03-07
# 関数近似を用いた強化学習における重機付きリワードの処理:ミニマックス最適およびインスタンス依存レグレト境界

Tackling Heavy-Tailed Rewards in Reinforcement Learning with Function Approximation: Minimax Optimal and Instance-Dependent Regret Bounds ( http://arxiv.org/abs/2306.06836v3 )

ライセンス: Link先を確認
Jiayi Huang, Han Zhong, Liwei Wang, Lin F. Yang(参考訳) 多くの研究は、一様有界の報酬を持つ強化学習(rl)のための効率的なアルゴリズムを考案することに焦点をあてているが、いくつかの$\epsilon\in(0,1]$ に対して有限$(1+\epsilon)$-th moments の報酬が \emph{heavy-tailed} である場合、大きな状態作用空間を持つrlのサンプルまたは時間効率のよいアルゴリズムが存在するかどうかという疑問が残されている。 本稿では、線形関数近似を用いたRLにおけるそのような報酬の課題に対処する。 まず,重尾付き線形バンドイットのアルゴリズムである \textsc{heavy-oful} を設計し,$\tilde{o}\big(d t^{\frac{1-\epsilon}{2(1+\epsilon)}} \sqrt{\sum_{t=1}^t \nu_t^2} + d t^{\frac{1-\epsilon}{2(1+\epsilon)}}\big)$,この種の \emph{first} を達成する。 ここで、$d$は特徴次元であり、$\nu_t^{1+\epsilon}$は$(1+\epsilon)$-th central moment of the reward at the $t$-th roundである。 さらに, 確率的および決定論的線形バンドイットの最悪の場合に適用した場合, 上記の境界はミニマックス最適であることを示した。 次に、このアルゴリズムを線形関数近似を用いてRL設定に拡張する。 このアルゴリズムは \textsc{heavy-lsvi-ucb} と呼ばれ、計算効率のよい \emph{instance-dependent} $k$-episode regret of $\tilde{o}(d \sqrt{h \mathcal{u}^*} k^\frac{1}{1+\epsilon} + d \sqrt{h \mathcal{v}^* k})$ を達成する。 ここで、$H$はエピソードの長さであり、$\mathcal{U}^* と \mathcal{V}^*$ はそれぞれ、報酬と値関数の中心モーメントを持つインスタンス依存の量スケーリングである。 また、マッチングされたミニマックス下界 $\Omega(d H K^{\frac{1}{1+\epsilon}} + d \sqrt{H^3K})$ を提供し、最悪の場合、アルゴリズムの最適性を示す。 我々の結果は、オンライン回帰問題全般において重み付きノイズを扱うことに独立した関心を持つような、新しい堅牢な自己正規化集中不等式によって達成される。

While numerous works have focused on devising efficient algorithms for reinforcement learning (RL) with uniformly bounded rewards, it remains an open question whether sample or time-efficient algorithms for RL with large state-action space exist when the rewards are \emph{heavy-tailed}, i.e., with only finite $(1+\epsilon)$-th moments for some $\epsilon\in(0,1]$. In this work, we address the challenge of such rewards in RL with linear function approximation. We first design an algorithm, \textsc{Heavy-OFUL}, for heavy-tailed linear bandits, achieving an \emph{instance-dependent} $T$-round regret of $\tilde{O}\big(d T^{\frac{1-\epsilon}{2(1+\epsilon)}} \sqrt{\sum_{t=1}^T \nu_t^2} + d T^{\frac{1-\epsilon}{2(1+\epsilon)}}\big)$, the \emph{first} of this kind. Here, $d$ is the feature dimension, and $\nu_t^{1+\epsilon}$ is the $(1+\epsilon)$-th central moment of the reward at the $t$-th round. We further show the above bound is minimax optimal when applied to the worst-case instances in stochastic and deterministic linear bandits. We then extend this algorithm to the RL settings with linear function approximation. Our algorithm, termed as \textsc{Heavy-LSVI-UCB}, achieves the \emph{first} computationally efficient \emph{instance-dependent} $K$-episode regret of $\tilde{O}(d \sqrt{H \mathcal{U}^*} K^\frac{1}{1+\epsilon} + d \sqrt{H \mathcal{V}^* K})$. Here, $H$ is length of the episode, and $\mathcal{U}^*, \mathcal{V}^*$ are instance-dependent quantities scaling with the central moment of reward and value functions, respectively. We also provide a matching minimax lower bound $\Omega(d H K^{\frac{1}{1+\epsilon}} + d \sqrt{H^3 K})$ to demonstrate the optimality of our algorithm in the worst case. Our result is achieved via a novel robust self-normalized concentration inequality that may be of independent interest in handling heavy-tailed noise in general online regression problems.
翻訳日:2024-03-08 18:17:38 公開日:2024-03-07
# 説明の活用: 拡張されたテキスト属性グラフ表現学習のためのllm-to-lmインタプリタ

Harnessing Explanations: LLM-to-LM Interpreter for Enhanced Text-Attributed Graph Representation Learning ( http://arxiv.org/abs/2305.19523v5 )

ライセンス: Link先を確認
Xiaoxin He, Xavier Bresson, Thomas Laurent, Adam Perold, Yann LeCun, Bryan Hooi(参考訳) 近年,テキスト対応グラフ(TAG)の表現学習が重要な研究課題となっている。 TAGの典型的な例は、各論文のテキストがノード属性として機能する論文引用グラフである。 初期グラフニューラルネットワーク(gnn)パイプラインは、これらのテキスト属性を、スキップグラムや単語の袋など、浅いあるいは手作りの機能に変換することで処理した。 近年の取り組みは、言語モデル(LM)によるパイプラインの強化に重点を置いている。 GPTやLlama2のような強力な大規模言語モデル(LLM)が出現し、推論能力と一般的な知識を活用できるようになり、LLMのテキストモデリング能力とGNNの構造学習能力を組み合わせた技術の必要性が高まっている。 そこで本研究では,LLMを利用してテキスト情報を特徴として捉え,下流タスクにおけるGNNの性能向上に活用する。 我々はLCMにゼロショット分類の実行を促し、意思決定プロセスのテキスト説明を要求し、LSM-to-LMインタプリタを設計して、これらの説明を下流GNNの情報的特徴に翻訳する。 実験の結果,Cora,PubMed,ogbn-arxiv,および新たに導入した tape-arxiv23 など,確立されたTAG データセットの最先端結果が得られた。 さらに,本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインよりも2.88倍向上した。 最後に,提案手法の汎用性はTAGを超えて拡張され,グラフテキストデータを含む他のタスクを強化する可能性を秘めている。 私たちのコードとデータセットは、https://github.com/xiaoxinhe/tape.com/で利用可能です。

Representation learning on text-attributed graphs (TAGs) has become a critical research problem in recent years. A typical example of a TAG is a paper citation graph, where the text of each paper serves as node attributes. Initial graph neural network (GNN) pipelines handled these text attributes by transforming them into shallow or hand-crafted features, such as skip-gram or bag-of-words features. Recent efforts have focused on enhancing these pipelines with language models (LMs), which typically demand intricate designs and substantial computational resources. With the advent of powerful large language models (LLMs) such as GPT or Llama2, which demonstrate an ability to reason and to utilize general knowledge, there is a growing need for techniques which combine the textual modelling abilities of LLMs with the structural learning capabilities of GNNs. Hence, in this work, we focus on leveraging LLMs to capture textual information as features, which can be used to boost GNN performance on downstream tasks. A key innovation is our use of explanations as features: we prompt an LLM to perform zero-shot classification, request textual explanations for its decision-making process, and design an LLM-to-LM interpreter to translate these explanations into informative features for downstream GNNs. Our experiments demonstrate that our method achieves state-of-the-art results on well-established TAG datasets, including Cora, PubMed, ogbn-arxiv, as well as our newly introduced dataset, tape-arxiv23. Furthermore, our method significantly speeds up training, achieving a 2.88 times improvement over the closest baseline on ogbn-arxiv. Lastly, we believe the versatility of the proposed method extends beyond TAGs and holds the potential to enhance other tasks involving graph-text data. Our codes and datasets are available at: https://github.com/XiaoxinHe/TAPE.
翻訳日:2024-03-08 18:16:04 公開日:2024-03-07
# Simplicity Biasのレンズによる訓練早期の清浄性ビアーゼの同定

Identifying Spurious Biases Early in Training through the Lens of Simplicity Bias ( http://arxiv.org/abs/2305.18761v2 )

ライセンス: Link先を確認
Yu Yang, Eric Gan, Gintare Karolina Dziugaite, Baharan Mirzasoleiman(参考訳) 確率的)勾配降下で訓練されたニューラルネットワークは、より単純なソリューションを学ぶための帰納的バイアスを持つ。 これにより、テスト時に保持できないかもしれないトレーニングデータの急激な相関を学習する傾向がある。 本研究では,単純バイアスが学習スプリアス相関に与える影響について,最初の理論的解析を行う。 特に,予備機能のある例は,訓練の初期段階におけるモデルの出力に基づいて,確実に分離可能であることを示す。 さらに、スプリアス特徴が十分なノイズ-信号比を持つ場合、ほとんどの例におけるネットワーク出力は、スプリアス特徴によって決定され、最悪のグループテスト精度が低下することを示す。 最後に,早期に相関関係を同定し,その影響を緩和するためにサンプリングの重要性を生かしたスペアを提案する。 経験的に、spareは最先端のメソッドを最悪のグループ精度で21.1%まで上回り、最大12倍高速であることを実証する。 また,SPAREはスプリアス相関の発見に非常に効果的だが軽量な手法であることを示す。

Neural networks trained with (stochastic) gradient descent have an inductive bias towards learning simpler solutions. This makes them highly prone to learning spurious correlations in the training data, that may not hold at test time. In this work, we provide the first theoretical analysis of the effect of simplicity bias on learning spurious correlations. Notably, we show that examples with spurious features are provably separable based on the model's output early in training. We further illustrate that if spurious features have a small enough noise-to-signal ratio, the network's output on the majority of examples is almost exclusively determined by the spurious features, leading to poor worst-group test accuracy. Finally, we propose SPARE, which identifies spurious correlations early in training and utilizes importance sampling to alleviate their effect. Empirically, we demonstrate that SPARE outperforms state-of-the-art methods by up to 21.1% in worst-group accuracy, while being up to 12x faster. We also show that SPARE is a highly effective but lightweight method to discover spurious correlations.
翻訳日:2024-03-08 18:15:28 公開日:2024-03-07
# LLMを用いたハイブリッド長文書からの情報を効率的に抽出する方法の解明と解析

Enabling and Analyzing How to Efficiently Extract Information from Hybrid Long Documents with LLMs ( http://arxiv.org/abs/2305.16344v2 )

ライセンス: Link先を確認
Chongjian Yue, Xinrun Xu, Xiaojun Ma, Lun Du, Hengyu Liu, Zhiming Ding, Yanbing Jiang, Shi Han, Dongmei Zhang(参考訳) 大規模言語モデル(LLM)は、テキスト理解や表の推論タスクにおいて、例外的なパフォーマンスを示す。 しかし、テキストデータと表データを含むハイブリッドテキストを理解・分析する能力は未調査のままである。 本研究では,LLMの可能性を生かして,ハイブリッドな長期文書である財務報告から重要な情報を理解することを専門とする。 金融報告から情報を理解し抽出するLLMの能力を高めるための自動財務情報抽出(AFIE)フレームワークを提案する。 afieを評価するために,financial reports numerical extraction (fine)データセットを開発し,広範な実験分析を行う。 このフレームワークはgpt-3.5とgpt-4で効果的に検証され、naive法と比較して53.94%と33.77%の平均精度が向上した。 これらの結果は,afieフレームワークが複雑なハイブリッド文書からの自動数値抽出の精度を提供することを示唆している。

Large Language Models (LLMs) demonstrate exceptional performance in textual understanding and tabular reasoning tasks. However, their ability to comprehend and analyze hybrid text, containing textual and tabular data, remains underexplored. In this research, we specialize in harnessing the potential of LLMs to comprehend critical information from financial reports, which are hybrid long-documents. We propose an Automated Financial Information Extraction (AFIE) framework that enhances LLMs' ability to comprehend and extract information from financial reports. To evaluate AFIE, we develop a Financial Reports Numerical Extraction (FINE) dataset and conduct an extensive experimental analysis. Our framework is effectively validated on GPT-3.5 and GPT-4, yielding average accuracy increases of 53.94% and 33.77%, respectively, compared to a naive method. These results suggest that the AFIE framework offers accuracy for automated numerical extraction from complex, hybrid documents.
翻訳日:2024-03-08 18:15:09 公開日:2024-03-07
# Dual-critique Promptingによるインダクティブインストラクションに対する大規模言語モデルの強化

Enhancing Large Language Models Against Inductive Instructions with Dual-critique Prompting ( http://arxiv.org/abs/2305.13733v2 )

ライセンス: Link先を確認
Rui Wang, Hongru Wang, Fei Mi, Yi Chen, Boyang Xue, Kam-Fai Wong, Ruifeng Xu(参考訳) 大規模言語モデル(LLM)を人間の意図と整合させ、命令をよりよく満たし、信頼性と役に立つことを保証するために、数多くの研究が提案されている。 それにもかかわらず、一部の人間の指示はしばしば悪意または誤解を招くものであり、それに従うと、真正で安全でない応答に繋がる。 以前の研究では、llmが偽の前提に基づいて命令を管理する方法を理解することにほとんど焦点が当てられておらず、ここでは \textit{inductive instructions} と呼ばれる。 本稿では, llm の振る舞いを \textit{inductive instructions} に対して明らかにし, その真理と有用性を高めることを目的とする。 具体的には、まず、複数の異なるスタイルの命令に偽の知識を組み込む、 \underline{\textbf{Indu}}ctive {In\underline{\textbf{st}}ruct}ions (\textsc{\textbf{INDust}})のベンチマークを導入する。 人的および自動的な評価を行った結果,インダクティブ命令処理におけるllmの普遍的脆弱性が確認された。 さらに、異なる帰納的スタイルがモデルに同じエラーを識別する能力に影響を及ぼし、基礎となる仮定の複雑さがモデルの性能にも影響を及ぼすことも確認した。 これらの結果から, LLMのインダクティブ命令に対する堅牢性の向上を促すために, textsc{Dual-critique}を提案する。 我々の実験では、様々なインダクティブ命令の複雑さと異なるインダクティブスタイルに直面した場合でも、多種多様なllmのロバスト性が促進されることが示されている。

Numerous works are proposed to align large language models (LLMs) with human intents to better fulfill instructions, ensuring they are trustful and helpful. Nevertheless, some human instructions are often malicious or misleading and following them will lead to untruthful and unsafe responses. Previous work rarely focused on understanding how LLMs manage instructions based on counterfactual premises, referred to here as \textit{inductive instructions}, which may stem from users' false beliefs or malicious intents. In this paper, we aim to reveal the behaviors of LLMs towards \textit{inductive instructions} and enhance their truthfulness and helpfulness accordingly. Specifically, we first introduce a benchmark of \underline{\textbf{Indu}}ctive {In\underline{\textbf{st}}ruct}ions (\textsc{\textbf{INDust}}), where the false knowledge is incorporated into instructions in multiple different styles. After extensive human and automatic evaluations, we uncovered a universal vulnerability among LLMs in processing inductive instructions. Additionally, we identified that different inductive styles affect the models' ability to identify the same underlying errors, and the complexity of the underlying assumptions also influences the model's performance. Motivated by these results, we propose \textsc{Dual-critique} prompting to improve LLM robustness against inductive instructions. Our experiments demonstrate that \textsc{Dual-critique} prompting significantly bolsters the robustness of a diverse array of LLMs, even when confronted with varying degrees of inductive instruction complexity and differing inductive styles.
翻訳日:2024-03-08 18:14:52 公開日:2024-03-07
# 二次オプション検出器を用いた相関型ファジィクラスタ妥当性指標

A correlation-based fuzzy cluster validity index with secondary options detector ( http://arxiv.org/abs/2308.14785v3 )

ライセンス: Link先を確認
Nathakhun Wiroonsri and Onthada Preedasawakul(参考訳) クラスタ分析を適用する上で,クラスタの最適な数を主な関心事のひとつに挙げる。 この問題に対処するためにいくつかのクラスタ妥当性指標が導入された。 しかし、いくつかの状況では、最後の数のクラスタとして選択できる選択肢が複数存在する。 この側面は、この分野の既存の作品の大半で見過ごされている。 本研究では,Wiroonsri-Preedasawakul(WP)インデックスと呼ばれる相関に基づくファジィクラスタの妥当性指標を提案する。 この指標は、データポイント間の実際の距離と、そのペアに対する調整されたセントロイド間の距離との相関に基づいて定義される。 我々は,Xie-Beni,Pakhira-Bandyopadhyay-Maulik,Tang,Wu-Li,Generalized C,Kwon2などの既存指標と比較した。 この評価をファジィc-meansアルゴリズムを用いて,人工データセット,実世界のデータセット,ランク付きシミュレーションデータセット,画像データセットの4種類のデータセットについて行った。 全体として、wpインデックスは、クラスタの最適な数を正確に検出し、正確な二次オプションを提供するという点で、これらインデックスのほとんどを上回っている。 さらに、ファジィパラメータ$m$が大きな値に設定された場合でも、インデックスは有効である。 この作業で使用されるUniversalCVIと呼ばれるRパッケージはhttps://CRAN.R-project.org/package=UniversalCVIで利用可能です。

The optimal number of clusters is one of the main concerns when applying cluster analysis. Several cluster validity indexes have been introduced to address this problem. However, in some situations, there is more than one option that can be chosen as the final number of clusters. This aspect has been overlooked by most of the existing works in this area. In this study, we introduce a correlation-based fuzzy cluster validity index known as the Wiroonsri-Preedasawakul (WP) index. This index is defined based on the correlation between the actual distance between a pair of data points and the distance between adjusted centroids with respect to that pair. We evaluate and compare the performance of our index with several existing indexes, including Xie-Beni, Pakhira-Bandyopadhyay-Maulik, Tang, Wu-Li, generalized C, and Kwon2. We conduct this evaluation on four types of datasets: artificial datasets, real-world datasets, simulated datasets with ranks, and image datasets, using the fuzzy c-means algorithm. Overall, the WP index outperforms most, if not all, of these indexes in terms of accurately detecting the optimal number of clusters and providing accurate secondary options. Moreover, our index remains effective even when the fuzziness parameter $m$ is set to a large value. Our R package called UniversalCVI used in this work is available at https://CRAN.R-project.org/package=UniversalCVI.
翻訳日:2024-03-08 18:09:26 公開日:2024-03-07
# REFT:不均一・資源制約環境のための資源効率の高いフェデレーショントレーニングフレームワーク

REFT: Resource-Efficient Federated Training Framework for Heterogeneous and Resource-Constrained Environments ( http://arxiv.org/abs/2308.13662v2 )

ライセンス: Link先を確認
Humaid Ahmed Desai, Amr Hilal, Hoda Eldardiry(参考訳) 分散システムでは、フェデレートラーニング(FL)が重要な役割を果たす。 これらのシステムでは、特にスマートホームにデプロイされたIoTデバイスのようなエッジベースのデータ処理システムにおいて、データのプライバシと機密性が最重要となる。 FLは、クライアントデバイスでのモデルトレーニングを可能にする機械学習のプライバシ強化サブドメインとして登場し、中央サーバとプライベートデータを共有する必要がなくなる。 既存の研究は、データの不均一性に関する課題を主に扱っているが、デバイス能力の変化や効率的な通信といった問題に対処する上では、現在のギャップがある。 これらの未適応の問題は、リソース制約のある環境に多くの影響を及ぼす。 特に、FLベースのIoTまたはエッジシステムの実践的実装は、極めて非効率である。 本稿では,資源制限されたデバイスにおいて,これらの課題に対処するために考案された新しい手法であるREFT(Resource-Efficient Federated Training Framework for Heterogeneous and Resource-Constrained Environments)を提案する。 提案手法は,各クライアントの計算能力にpruning戦略を適用し,リソース利用を最適化するために可変pruningを用いる。 さらに,提案手法では,双方向クライアントサーバ通信の必要性を最小限に抑えるため,知識蒸留を用いる。 これにより通信帯域幅が大幅に減少し、リソース全体の効率が向上する。 画像分類タスクの実験を行い、資源制限設定におけるアプローチの有効性を実証した。 我々の技術は、データのプライバシとパフォーマンスの基準を保存するだけでなく、異種モデルアーキテクチャにも対応し、トレーニングプロセスに幅広い多様なクライアントデバイスが参加し、最小限の帯域を消費する。

Federated Learning (FL) plays a critical role in distributed systems. In these systems, data privacy and confidentiality hold paramount importance, particularly within edge-based data processing systems such as IoT devices deployed in smart homes. FL emerges as a privacy-enforcing sub-domain of machine learning that enables model training on client devices, eliminating the necessity to share private data with a central server. While existing research has predominantly addressed challenges pertaining to data heterogeneity, there remains a current gap in addressing issues such as varying device capabilities and efficient communication. These unaddressed issues raise a number of implications in resource-constrained environments. In particular, the practical implementation of FL-based IoT or edge systems is extremely inefficient. In this paper, we propose "Resource-Efficient Federated Training Framework for Heterogeneous and Resource-Constrained Environments (REFT)," a novel approach specifically devised to address these challenges in resource-limited devices. Our proposed method uses Variable Pruning to optimize resource utilization by adapting pruning strategies to the computational capabilities of each client. Furthermore, our proposed REFT technique employs knowledge distillation to minimize the need for continuous bidirectional client-server communication. This achieves a significant reduction in communication bandwidth, thereby enhancing the overall resource efficiency. We conduct experiments for an image classification task, and the results demonstrate the effectiveness of our approach in resource-limited settings. Our technique not only preserves data privacy and performance standards but also accommodates heterogeneous model architectures, facilitating the participation of a broader array of diverse client devices in the training process, all while consuming minimal bandwidth.
翻訳日:2024-03-08 18:09:03 公開日:2024-03-07
# 空中画像におけるインタラクティブセグメンテーション:新しいベンチマークとオープンアクセスwebツール

Interactive segmentation in aerial images: a new benchmark and an open access web-based tool ( http://arxiv.org/abs/2308.13174v2 )

ライセンス: Link先を確認
Zhe Wang, Shoukun Sun, Xiang Que, Xiaogang Ma(参考訳) 深層学習は、空中画像のセグメンテーションと分類において徐々に強力になっている。 しかしながら、リモートセンシングアプリケーションでは、トレーニングデータセットの欠如と正確性評価の難しさが、ディープラーニングに基づく分類において常に課題となっている。 近年,コンピュータビジョンにおける対話型セマンティックセマンティックセマンティクスは,人間とコンピュータの相互作用セマンティクスの理想的な状態を実現している。 エキスパートエクスペリエンスを提供し、効率的なセグメンテーションにディープラーニングを活用することができる。 しかし、リモートセンシング画像への応用について論じる論文はほとんどない。 本研究の目的は,対話型セグメンテーションモデルのベンチマークにより,対話型セグメンテーションとリモートセンシング分析のギャップを埋めることである。 我々は,2つの高分解能空中画像データセットに対して,最先端のインタラクティブセグメンテーション手法(Reviving Iterative Training with Mask Guidance for Interactive Segmentation (RITM), FocalClick, SimpleClick, Iterative Click Loss (ICL), Segment Anything (SAM))の性能を評価した。 対話的なセグメンテーションのための革新的な推論戦略であるカスケード・フォワード・リファインメントアプローチも、セグメンテーション結果を強化するために導入された。 これらの手法を, 各種土地被覆タイプ, 対象物サイズ, バンドの組み合わせで評価した。 simpleclickモデルは実験の他の手法を一貫して上回っていた。 逆にSAMは他のモデルよりも効果的に動作しなかった。 これらの知見に基づいて,遠隔センシングデータの対話的セグメンテーションを行う RSISeg というオンラインツールを開発した。 rsisegには、リモートセンシングデータで微調整された、高性能なインタラクティブモデルが組み込まれている。 既存のインタラクティブセグメンテーションツールと比較して、RSISegは堅牢な対話性、モジュラビリティ、リモートセンシングデータへの適応性を提供する。

Deep learning has gradually become powerful in segmenting and classifying aerial images. However, in remote sensing applications, the lack of training datasets and the difficulty of accuracy assessment have always been challenges for the deep learning based classification. In recent years, interactive semantic segmentation proposed in computer vision has achieved an ideal state of human-computer interaction segmentation. It can provide expert experience and utilize deep learning for efficient segmentation. However, few papers discussed its application in remote sensing imagery. This study aims to bridge the gap between interactive segmentation and remote sensing analysis by conducting a benchmark study on various interactive segmentation models. We assessed the performance of five state-of-the-art interactive segmentation methods (Reviving Iterative Training with Mask Guidance for Interactive Segmentation (RITM), FocalClick, SimpleClick, Iterative Click Loss (ICL), and Segment Anything (SAM)) on two high-resolution aerial imagery datasets. The Cascade-Forward Refinement approach, an innovative inference strategy for interactive segmentation, was also introduced to enhance the segmentation results. We evaluated these methods on various land cover types, object sizes, and band combinations in the datasets. SimpleClick model consistently outperformed the other methods in our experiments. Conversely, the SAM performed less effectively than other models. Building upon these findings, we developed an online tool called RSISeg for interactive segmentation of remote sensing data. RSISeg incorporates a well-performing interactive model that is finetuned with remote sensing data. Compared to existing interactive segmentation tools, RSISeg offers robust interactivity, modifiability, and adaptability to remote sensing data.
翻訳日:2024-03-08 18:08:34 公開日:2024-03-07
# 都市空間時間予測のための統一データ管理と総合的性能評価 [実験, 分析, ベンチマーク]

Unified Data Management and Comprehensive Performance Evaluation for Urban Spatial-Temporal Prediction [Experiment, Analysis & Benchmark] ( http://arxiv.org/abs/2308.12899v3 )

ライセンス: Link先を確認
Jiawei Jiang, Chengkai Han, Wayne Xin Zhao, Jingyuan Wang(参考訳) 深層学習技術の発展と大規模データセットの利用により,都市空間時間予測の分野は急速に進展している。 しかし、様々な情報源から多様な都市空間時空間データセットにアクセスして利用し、異なるフォーマットに保存し、深層学習モデルの普及に伴う効果的なモデル構造やコンポーネントを決定することの課題は続く。 この仕事はこれらの課題に対処し、3つの重要な貢献を提供します。 まず,都市空間時空間ビッグデータ用に設計された統一ストレージフォーマットである"atomic files"を導入し,40の多様なデータセット上での有効性を検証し,データ管理を簡素化する。 次に,都市空間-時空間予測モデルにおける技術進歩の概要を概観し,ロバストモデルの開発を導く。 第3に,多様なモデルとデータセットを用いて広範な実験を行い,パフォーマンスリーダボードを確立し,有望な研究方向を特定する。 本研究は, 都市空間時空間データを効果的に管理し, 今後の取り組みを導くとともに, 正確な都市空間時空間予測モデルの開発を促進する。 都市空間データ管理と予測に長期的な貢献を可能とし、最終的には都市生活水準の改善に繋がる可能性がある。

The field of urban spatial-temporal prediction is advancing rapidly with the development of deep learning techniques and the availability of large-scale datasets. However, challenges persist in accessing and utilizing diverse urban spatial-temporal datasets from different sources and stored in different formats, as well as determining effective model structures and components with the proliferation of deep learning models. This work addresses these challenges and provides three significant contributions. Firstly, we introduce "atomic files", a unified storage format designed for urban spatial-temporal big data, and validate its effectiveness on 40 diverse datasets, simplifying data management. Secondly, we present a comprehensive overview of technological advances in urban spatial-temporal prediction models, guiding the development of robust models. Thirdly, we conduct extensive experiments using diverse models and datasets, establishing a performance leaderboard and identifying promising research directions. Overall, this work effectively manages urban spatial-temporal data, guides future efforts, and facilitates the development of accurate and efficient urban spatial-temporal prediction models. It can potentially make long-term contributions to urban spatial-temporal data management and prediction, ultimately leading to improved urban living standards.
翻訳日:2024-03-08 18:08:01 公開日:2024-03-07
# 校正に関するベンチマーク研究

A Benchmark Study on Calibration ( http://arxiv.org/abs/2308.11838v5 )

ライセンス: Link先を確認
Linwei Tao, Younan Zhu, Haolan Guo, Minjing Dong, Chang Xu(参考訳) ディープニューラルネットワークは、さまざまな機械学習タスクでますます活用されている。 しかし、これらのモデルが複雑化するにつれて、予測精度が向上したにもかかわらず、しばしばキャリブレーションの問題に直面する。 多くの研究が、特定の損失関数、データ前処理、トレーニングフレームワークの使用によるキャリブレーション性能の向上に尽力している。 しかし、キャリブレーション特性に関する調査は見過ごされている。 本研究では,ニューラルアーキテクチャ探索(NAS)探索空間を活用し,徹底的なキャリブレーション特性探索のための網羅的なモデルアーキテクチャ空間を提供する。 具体的には、モデルキャリブレーションデータセットを作成します。 このデータセットは、広く使われているNATS-Bench検索空間内の117,702のユニークなニューラルネットワークに対して、90のビンベースと12のキャリブレーション測定値を評価する。 我々の分析は,提案したデータセットを用いて,この分野における長年の疑問に答えることを目的としている。 i) モデルキャリブレーションは、異なるデータセット間で一般化できるか? (ii)ロバスト性は校正測定に使用できるか? 三)キャリブレーション指標はどの程度信頼できるか。 (iv)ポストホック校正法は全てのモデルに一様に影響するか? (v)校正は精度とどのように相互作用するか。 (vi)キャリブレーション測定におけるビンサイズの影響について (vii)どの建築設計が校正に有用か。 さらに,NAS内のキャリブレーションを探索することで,既存のギャップを埋める。 このデータセットを提供することで、NAS校正のさらなる研究が可能になる。 私たちが知る限り、我々の研究は校正特性に関する最初の大規模調査であり、NASにおける校正問題に関する主要な研究である。 プロジェクトページはhttps://www.taolinwei.com/calibration-studyにある。

Deep neural networks are increasingly utilized in various machine learning tasks. However, as these models grow in complexity, they often face calibration issues, despite enhanced prediction accuracy. Many studies have endeavored to improve calibration performance through the use of specific loss functions, data preprocessing and training frameworks. Yet, investigations into calibration properties have been somewhat overlooked. Our study leverages the Neural Architecture Search (NAS) search space, offering an exhaustive model architecture space for thorough calibration properties exploration. We specifically create a model calibration dataset. This dataset evaluates 90 bin-based and 12 additional calibration measurements across 117,702 unique neural networks within the widely employed NATS-Bench search space. Our analysis aims to answer several longstanding questions in the field, using our proposed dataset: (i) Can model calibration be generalized across different datasets? (ii) Can robustness be used as a calibration measurement? (iii) How reliable are calibration metrics? (iv) Does a post-hoc calibration method affect all models uniformly? (v) How does calibration interact with accuracy? (vi) What is the impact of bin size on calibration measurement? (vii) Which architectural designs are beneficial for calibration? Additionally, our study bridges an existing gap by exploring calibration within NAS. By providing this dataset, we enable further research into NAS calibration. As far as we are aware, our research represents the first large-scale investigation into calibration properties and the premier study of calibration issues within NAS. The project page can be found at https://www.taolinwei.com/calibration-study
翻訳日:2024-03-08 18:07:39 公開日:2024-03-07
# タスク分解による抽象的視覚的推論の学習:レイブン行列を事例として

Learning Abstract Visual Reasoning via Task Decomposition: A Case Study in Raven Progressive Matrices ( http://arxiv.org/abs/2308.06528v2 )

ライセンス: Link先を確認
Jakub Kwiatkowski and Krzysztof Krawiec(参考訳) 抽象的な推論を行うための学習は、しばしば、問題のタスクを事前に指定されていないが学習者によって自律的に考案される中間のサブゴールに分解する必要がある。 Raven Progressive Matrices (RPM) では、コンテキストと回答の両方が様々な空間配置で複数のオブジェクトを特徴とする合成画像である、コンテキストが与えられた解の1つを選択する。 この高レベルの目標が利用可能な唯一のガイダンスであるため、RPMを解決するための学習は難しい。 本研究では,上述の選択を直接行うのではなく,個々の物体の視覚特性とその配置を予測するサブゴールに対処した,トランスフォーマー・ブループリントに基づくディープラーニング・アーキテクチャを提案する。 この方法で得られる多次元予測は、その解を選ぶために直接的に決定される。 我々は,モデルが視覚入力をトークンに解析するいくつかの方法と,自己教師付きトレーニングで入力の一部をマスキングするいくつかの方法を検討する。 実験的な評価では、モデルは最先端の手法を上回るだけでなく、推論に関する興味深い洞察と部分的な説明を提供する。 この方法の設計は、いくつかのRPMベンチマークに存在することが知られているバイアスに免疫を与える。

Learning to perform abstract reasoning often requires decomposing the task in question into intermediate subgoals that are not specified upfront, but need to be autonomously devised by the learner. In Raven Progressive Matrices (RPM), the task is to choose one of the available answers given a context, where both the context and answers are composite images featuring multiple objects in various spatial arrangements. As this high-level goal is the only guidance available, learning to solve RPMs is challenging. In this study, we propose a deep learning architecture based on the transformer blueprint which, rather than directly making the above choice, addresses the subgoal of predicting the visual properties of individual objects and their arrangements. The multidimensional predictions obtained in this way are then directly juxtaposed to choose the answer. We consider a few ways in which the model parses the visual input into tokens and several regimes of masking parts of the input in self-supervised training. In experimental assessment, the models not only outperform state-of-the-art methods but also provide interesting insights and partial explanations about the inference. The design of the method also makes it immune to biases that are known to be present in some RPM benchmarks.
翻訳日:2024-03-08 18:07:18 公開日:2024-03-07
# 大型スキュートコプラモデルと日内等価帰還における非対称依存性

Large Skew-t Copula Models and Asymmetric Dependence in Intraday Equity Returns ( http://arxiv.org/abs/2308.05564v2 )

ライセンス: Link先を確認
Lin Deng, Michael Stanley Smith, Worapree Maneesoonthorn(参考訳) scot-t copulaモデルは、非対称かつ極端なテール依存を可能にするため、金融データのモデリングに魅力的なモデルである。 Azzalini と Capitanio (2003) の skew-t 分布に暗黙的に表されるコプラは、2つの一般的な代替スキュー-t コプラよりも高レベルな対非対称依存を可能にすることを示す。 高次元でのこのコプラの推定は困難であり、高速かつ正確なベイズ変分推論(VI)手法を提案する。 この方法は、スキュート分布の条件付きガウス生成表現を用いて、正確に近似できる拡張後部を定義する。 変分最適化の解法として,高速確率勾配上昇アルゴリズムを用いる。 この新しい手法は、米国93株の2017年から2021年までの日内リターンのスキュー-t因子コプラモデルを推定するために使用される。 コプラは、対相関のばらつきに加えて、エクイティ対に対する非対称依存におけるかなりの不均一性を捉えている。 その結果,スキュート・t・コピュラの日内予測密度は他のコピュラモデルよりも正確であり,一方,推定されたペアワイズ・テール依存性に基づくポートフォリオ選択戦略はベンチマーク指標と比較してパフォーマンスが向上することが示された。

Skew-t copula models are attractive for the modeling of financial data because they allow for asymmetric and extreme tail dependence. We show that the copula implicit in the skew-t distribution of Azzalini and Capitanio (2003) allows for a higher level of pairwise asymmetric dependence than two popular alternative skew-t copulas. Estimation of this copula in high dimensions is challenging, and we propose a fast and accurate Bayesian variational inference (VI) approach to do so. The method uses a conditionally Gaussian generative representation of the skew-t distribution to define an augmented posterior that can be approximated accurately. A fast stochastic gradient ascent algorithm is used to solve the variational optimization. The new methodology is used to estimate skew-t factor copula models for intraday returns from 2017 to 2021 on 93 U.S. equities. The copula captures substantial heterogeneity in asymmetric dependence over equity pairs, in addition to the variability in pairwise correlations. We show that intraday predictive densities from the skew-t copula are more accurate than from some other copula models, while portfolio selection strategies based on the estimated pairwise tail dependencies improve performance relative to the benchmark index.
翻訳日:2024-03-08 18:06:54 公開日:2024-03-07
# 動的推論コストとトップダウン注意のための高レベル並列性とネスト特徴

High-Level Parallelism and Nested Features for Dynamic Inference Cost and Top-Down Attention ( http://arxiv.org/abs/2308.05128v2 )

ライセンス: Link先を確認
Andr\'e Peter Kelm, Niels Hannemann, Bruno Heberle, Lucas Schmidt, Tim Rolff, Christian Wilms, Ehsan Yaghoubi, Simone Frintrop(参考訳) 本稿では,従来のディープラーニングモデルにおいて,動的推論コストとトップダウンアテンション機構をシームレスに統合する新たなネットワークトポロジを提案する。 人間の知覚からインスピレーションを得て,汎用低レベル特徴の逐次処理と並列処理,高レベル特徴の入れ子処理を組み合わせた。 このデザインは、人間の大脳皮質における、空間的および文脈的に異なる神経活性化に関する最近の神経科学の研究からの知見を反映しているだけでなく、新しい「カットアウト」技術も導入している:タスク関連カテゴリのネットワークセグメントのみに対して、ネットワークの%セグメントを選択的に活性化し、推論コストを最適化し、再トレーニングの必要性をなくす能力である。 これは、軽量で適応可能な将来のネットワーク設計の道を開くもので、コンパクトエッジデバイスから大規模クラウドまで、幅広いアプリケーションに適していると考えています。 提案するトポロジーにはトップダウンアテンション機構も組み込まれており,人間の認知で観察される選択的アテンション機構と並行して,カテゴリー特異的なハイレベルな特徴の強化や抑制によって直接処理に影響を与えることができる。 対象とする外部信号を用いて,テスト対象モデル全体の予測を実験的に拡張した。 動的推論コストの面では、我々の方法論は、パラメータの最大73.48\,\%$と84.41\,\%$より少ないギガ乗算累積(GMAC)演算を除外することができる。

This paper introduces a novel network topology that seamlessly integrates dynamic inference cost with a top-down attention mechanism, addressing two significant gaps in traditional deep learning models. Drawing inspiration from human perception, we combine sequential processing of generic low-level features with parallelism and nesting of high-level features. This design not only reflects a finding from recent neuroscience research regarding - spatially and contextually distinct neural activations - in human cortex, but also introduces a novel "cutout" technique: the ability to selectively activate %segments of the network for task-relevant only network segments of task-relevant categories to optimize inference cost and eliminate the need for re-training. We believe this paves the way for future network designs that are lightweight and adaptable, making them suitable for a wide range of applications, from compact edge devices to large-scale clouds. Our proposed topology also comes with a built-in top-down attention mechanism, which allows processing to be directly influenced by either enhancing or inhibiting category-specific high-level features, drawing parallels to the selective attention mechanism observed in human cognition. Using targeted external signals, we experimentally enhanced predictions across all tested models. In terms of dynamic inference cost our methodology can achieve an exclusion of up to $73.48\,\%$ of parameters and $84.41\,\%$ fewer giga-multiply-accumulate (GMAC) operations, analysis against comparative baselines show an average reduction of $40\,\%$ in parameters and $8\,\%$ in GMACs across the cases we evaluated.
翻訳日:2024-03-08 18:06:32 公開日:2024-03-07
# CDUL:マルチラベル画像分類のためのCLIP駆動型教師なし学習

CDUL: CLIP-Driven Unsupervised Learning for Multi-Label Image Classification ( http://arxiv.org/abs/2307.16634v2 )

ライセンス: Link先を確認
Rabab Abdelfattah, Qing Guo, Xiaoguang Li, Xiaofeng Wang, and Song Wang(参考訳) 本稿では,初期化,トレーニング,推論の3段階を含む,アノテーションのないマルチラベル画像分類のためのCLIPに基づく教師なし学習手法を提案する。 初期化段階では、強力なCLIPモデルを完全に活用し、グローバルローカルな画像-テキスト類似性アグリゲーションに基づくマルチラベル予測のためのCLIPの拡張手法を提案する。 より具体的に言うと、各画像をスニペットに分割し、CLIPを活用して、画像全体(グローバル)と各スニペット(ローカル)の類似性ベクトルを生成する。 次に、大域的および局所的類似性ベクトルを活用するために類似性アグリゲータを導入する。 学習段階の擬似ラベルとして集約された類似度スコアを用いて、分類ネットワークのパラメータをトレーニングし、観測されていないラベルの擬似ラベルを洗練するための最適化フレームワークを提案する。 推論中は、入力画像のラベルを予測するために分類ネットワークのみを使用する。 本手法はMS-COCO, PASCAL VOC 2007, PASCAL VOC 2012, NUSデータセットにおいて最先端の教師なし手法よりも優れており, 弱い教師付き分類法と同等の結果が得られる。

This paper presents a CLIP-based unsupervised learning method for annotation-free multi-label image classification, including three stages: initialization, training, and inference. At the initialization stage, we take full advantage of the powerful CLIP model and propose a novel approach to extend CLIP for multi-label predictions based on global-local image-text similarity aggregation. To be more specific, we split each image into snippets and leverage CLIP to generate the similarity vector for the whole image (global) as well as each snippet (local). Then a similarity aggregator is introduced to leverage the global and local similarity vectors. Using the aggregated similarity scores as the initial pseudo labels at the training stage, we propose an optimization framework to train the parameters of the classification network and refine pseudo labels for unobserved labels. During inference, only the classification network is used to predict the labels of the input image. Extensive experiments show that our method outperforms state-of-the-art unsupervised methods on MS-COCO, PASCAL VOC 2007, PASCAL VOC 2012, and NUS datasets and even achieves comparable results to weakly supervised classification methods.
翻訳日:2024-03-08 18:05:24 公開日:2024-03-07
# 多層HEA間の単一絡み合い接続構造

Single entanglement connection architecture between multi-layer bipartite HEA ( http://arxiv.org/abs/2307.12323v3 )

ライセンス: Link先を確認
Shikun Zhang, Zheng Qin, Yang Zhou, Rui Li, Chunxiao Du, Zhisong Xiao(参考訳) 変分量子アルゴリズム(VQA)は、NISQ時代に量子アドバンテージを達成する最も有望なアルゴリズムの一つである。 このようなアルゴリズムを実装する上で重要な課題は、効果的なパラメータ化量子回路(アンザッツとも呼ばれる)を構築することである。 本研究では,その表現性,エンタングル能力,トレーニング性とをバランスさせて,ハードウェア効率の良いアンサツ(HEA)の単一絡み合い接続アーキテクチャを提案する。 1次元ハイゼンベルクモデルと二次連立最適化(qubo)問題を用いた数値シミュレーションを行った。 本結果から,SECAの計算性能は,一般の完全絡み合い接続アーキテクチャ(FECA)よりも優れていることが示された。 さらに,SECAとゲートカット技術を組み合わせて分散量子計算(DQC)を構築することで,NISQデバイスのサイズを低オーバーヘッドで効率的に拡大することができる。 また,DQC方式の有効性と拡張性を示した。 本研究は,実効トレーニング回路に関連する特徴を理解する上で有用な指標である。

Variational quantum algorithms (VQAs) are among the most promising algorithms to achieve quantum advantages in the NISQ era. One important challenge in implementing such algorithms is to construct an effective parameterized quantum circuit (also called an ansatz). In this work, we propose a single entanglement connection architecture (SECA) for a bipartite hardware-efficient ansatz (HEA) by balancing its expressibility, entangling capability, and trainability. Numerical simulations with a one-dimensional Heisenberg model and quadratic unconstrained binary optimization (QUBO) issues were conducted. Our results indicate the superiority of SECA over the common full entanglement connection architecture (FECA) in terms of computational performance. Furthermore, combining SECA with gate-cutting technology to construct distributed quantum computation (DQC) can efficiently expand the size of NISQ devices under low overhead. We also demonstrated the effectiveness and scalability of the DQC scheme. Our study is a useful indication for understanding the characteristics associated with an effective training circuit.
翻訳日:2024-03-08 18:04:58 公開日:2024-03-07
# 変分量子固有解法におけるショット割り当ての最適化

Optimizing Shot Assignment in Variational Quantum Eigensolver Measurement ( http://arxiv.org/abs/2307.06504v2 )

ライセンス: Link先を確認
Linghua Zhu, Senwei Liang, Chao Yang and Xiaosong Li(参考訳) 量子コンピューティングの急速な進歩は、複雑な科学的問題に取り組む新しい可能性を開いた。 変分量子固有解法(VQE)は、量子化学問題を解く可能性を持ち、量子上の利点を達成する。 しかしながら、VQEフレームワークにおける測定ステップは課題を提示している。 限られた測定予算で目的関数を推定しながらノイズや誤差を導入することができる。 このようなエラーは、VQEの収束を遅らせたり、防止することができる。 測定誤差を低減するために、目的関数の雑音を平均化するために多くの繰り返し測定が必要である。 ハミルトン項をクランクにまとめることで、同時測定を行い、全体の計測ショット数を減らすことができる。 しかしながら、測定のノイズレベルなど、各クライクに対する事前知識の制限が課題となっている。 本研究は, 標準偏差推定に基づく2つのショット割当戦略を導入し, vqeの収束を改善し, 所要ショット数を削減する。 これらの戦略は、特に2つの異なるシナリオをターゲットとしている。 最適化ショット割当戦略の有効性は,h$_2$分子上で行った数値実験により実証された。 この研究は、量子化学問題を解決するための実用的なツールとしてvqeの進歩に貢献し、量子コンピュータ上の複雑な科学シミュレーションにおける将来の応用への道を開く。

The rapid progress in quantum computing has opened up new possibilities for tackling complex scientific problems. Variational quantum eigensolver (VQE) holds the potential to solve quantum chemistry problems and achieve quantum advantages. However, the measurement step within the VQE framework presents challenges. It can introduce noise and errors while estimating the objective function with a limited measurement budget. Such error can slow down or prevent the convergence of VQE. To reduce measurement error, many repeated measurements are needed to average out the noise in the objective function. By consolidating Hamiltonian terms into cliques, simultaneous measurements can be performed, reducing the overall measurement shot count. However, limited prior knowledge of each clique, such as noise level of measurement, poses a challenge. This work introduces two shot assignment strategies based on estimating the standard deviation of measurements to improve the convergence of VQE and reduce the required number of shots. These strategies specifically target two distinct scenarios: overallocated and underallocated shots. The efficacy of the optimized shot assignment strategy is demonstrated through numerical experiments conducted on a H$_2$ molecule. This research contributes to the advancement of VQE as a practical tool for solving quantum chemistry problems, paving the way for future applications in complex scientific simulations on quantum computers.
翻訳日:2024-03-08 18:04:43 公開日:2024-03-07
# ディープアンサンブルニューラルネットワークを用いたエンドポイントデバイス上の微小分子可溶性予測

Predicting small molecules solubilities on endpoint devices using deep ensemble neural networks ( http://arxiv.org/abs/2307.05318v4 )

ライセンス: Link先を確認
Mayk Caldas Ramos and Andrew D. White(参考訳) 水溶性は、予測する価値のあるが難しい性質である。 第一原理法による溶解度計算はエントロピーとエンタルピーの競合する効果を考慮しなければならず、結果として長い計算が比較的精度が低い。 ディープラーニングのようなデータ駆動アプローチは、精度と計算効率が向上するが、一般的に不確かさの定量化が欠如している。 さらに、使いやすさはいかなる計算手法にも懸念され続けており、グループベースのコントリビューション手法が持続的に普及している。 本研究では,静的Webサイト上で(サーバなしで)実行される予測の不確実性のあるディープラーニングモデルを用いて,これらの問題に対処する。 このアプローチは、コンピューティングニーズをインストールを必要とせずにwebサイト訪問者に移し、サーバの支払いとメンテナンスを不要にする。 このモデルは溶解度予測に十分な結果が得られる。 さらに,不確実性と使いやすさのバランスをとる分子特性予測モデルの作成方法を示す。 コードはhttps://github.com/ur-whitelab/mol.devで、モデルはhttps://mol.devで利用できる。

Aqueous solubility is a valuable yet challenging property to predict. Computing solubility using first-principles methods requires accounting for the competing effects of entropy and enthalpy, resulting in long computations for relatively poor accuracy. Data-driven approaches, such as deep learning, offer improved accuracy and computational efficiency but typically lack uncertainty quantification. Additionally, ease of use remains a concern for any computational technique, resulting in the sustained popularity of group-based contribution methods. In this work, we addressed these problems with a deep learning model with predictive uncertainty that runs on a static website (without a server). This approach moves computing needs onto the website visitor without requiring installation, removing the need to pay for and maintain servers. Our model achieves satisfactory results in solubility prediction. Furthermore, we demonstrate how to create molecular property prediction models that balance uncertainty and ease of use. The code is available at https://github.com/ur-whitelab/mol.dev, and the model is usable at https://mol.dev.
翻訳日:2024-03-08 18:04:24 公開日:2024-03-07
# 過パラメータニューラルネットワークにおけるマルチタスク学習と微調整の暗黙正則化

Implicit regularization of multi-task learning and finetuning in overparameterized neural networks ( http://arxiv.org/abs/2310.02396v2 )

ライセンス: Link先を確認
Jack W. Lindsey and Samuel Lippl(参考訳) 本研究では,複数タスクの同時学習(マルチタスク学習,MTL)や逐次学習(事前学習,その後の微調整,PT+FT)による帰納的バイアスについて検討する。 勾配降下法で訓練された2層対角線ネットワークの簡易な設定において,MTL と PT+FT に付随する新しい暗黙正則化法則を記述するために,従来の理論的結果を適用した。 これらの結果は、微調整の間、ネットワークが前処理で特定されたカーネル(または「怠け者」)と特徴学習(リッチ」)のハイブリッドで動作することを示している。 さらに, PT+FTは, どちらのレジームにも捕えられず, 事前学習中に学習した特徴のスパースサブセットを抽出する, 新たな「ネストされた特徴選択」行動を示すことを示す。 ReLUネットワークでは、これらの定性的挙動を経験的に再現し、特に非線形の場合において線形理論によって予測される空間バイアスの類似性を検証する。 画像分類タスクを訓練した深層アーキテクチャを定性的に評価し,ネストした特徴選択機構の特性はPT+FTの修正を動機付け,性能を実証的に改善すると考えられる。 また、PT+FT(MTLではない)は補助作業に必要な機能と相関する(ただし、異なる)特徴を学習するために偏りがあるのに対し、MPLは両方のタスクで同一の機能を使用することに偏りがあり、微調整サンプル数の関数として性能のトレードオフにつながる可能性がある。 その結果、補助タスク学習の効果に光を当て、より効果的に活用する方法を提案しました。

In this work, we investigate the inductive biases that result from learning multiple tasks, either simultaneously (multi-task learning, MTL) or sequentially (pretraining and subsequent finetuning, PT+FT). In the simplified setting of two-layer diagonal linear networks trained with gradient descent, we apply prior theoretical results to describe novel implicit regularization penalties associated with MTL and PT+FT, both of which incentivize feature sharing between tasks and sparsity in learned task-specific features. Notably, these results imply that during finetuning, networks operate in a hybrid of the kernel (or "lazy") regime and the feature learning ("rich") regime identified in prior work. Moreover, we show that PT+FT can exhibit a novel "nested feature selection" behavior not captured by either regime, which biases it to extract a sparse subset of the features learned during pretraining. In ReLU networks, we reproduce all of these qualitative behaviors empirically, in particular verifying that analogues of the sparsity biases predicted by the linear theory hold in the nonlinear case. Our findings hold qualitatively for a deep architecture trained on image classification tasks, and our characterization of the nested feature selection regime motivates a modification to PT+FT that we find empirically improves performance. We also observe that PT+FT (but not MTL) is biased to learn features that are correlated with (but distinct from) those needed for the auxiliary task, while MTL is biased toward using identical features for both tasks, which can lead to a tradeoff in performance as a function of the number of finetuning samples. Our results shed light on the impact of auxiliary task learning and suggest ways to leverage it more effectively.
翻訳日:2024-03-08 17:59:35 公開日:2024-03-07
# スコアダイナミクス:条件拡散モデルによるピコ秒時間ステップによる分子動力学のスケーリング

Score dynamics: scaling molecular dynamics with picoseconds timestep via conditional diffusion model ( http://arxiv.org/abs/2310.01678v4 )

ライセンス: Link先を確認
Tim Hsu, Babak Sadigh, Vasily Bulatov, Fei Zhou(参考訳) 分子動力学シミュレーションから大きな時間ステップを持つ加速進化演算子を学習するための一般的なフレームワークであるスコアダイナミクス(SD)を提案する。 sdは、動的自由度に関する遷移ログ確率のスコア、または導関数を中心に構成される。 後者はmdの力場と同じ役割を担っているが、拡散確率モデルを推論し、典型的なmd時間ステップよりも桁違いに大きいsd時間ステップ内の力学変数の離散遷移を生成するのに用いられる。 本研究では,10~psの時間ステップで進化する現実的な分子系のグラフニューラルネットワークに基づくスコアダイナミクスモデルを構築する。 水溶液中におけるアラニンジペプチドおよび短いアルカンのケーススタディにおいてスコアダイナミクスの有効性を示す。 条件付き確率の定常分布から導かれる平衡予測と遷移速度と遷移経路の速度論的予測の両方がMDとよく一致している。 現在のSD実装は,本研究で研究したシステムに対して,MDよりも約2桁高速である。 オープンチャレンジと、スコアダイナミクスを改善するための将来の改善の可能性についても論じる。

We propose score dynamics (SD), a general framework for learning accelerated evolution operators with large timesteps from molecular-dynamics simulations. SD is centered around scores, or derivatives of the transition log-probability with respect to the dynamical degrees of freedom. The latter play the same role as force fields in MD but are used in denoising diffusion probability models to generate discrete transitions of the dynamical variables in an SD timestep, which can be orders of magnitude larger than a typical MD timestep. In this work, we construct graph neural network based score dynamics models of realistic molecular systems that are evolved with 10~ps timesteps. We demonstrate the efficacy of score dynamics with case studies of alanine dipeptide and short alkanes in aqueous solution. Both equilibrium predictions derived from the stationary distributions of the conditional probability and kinetic predictions for the transition rates and transition paths are in good agreement with MD. Our current SD implementation is about two orders of magnitude faster than the MD counterpart for the systems studied in this work. Open challenges and possible future remedies to improve score dynamics are also discussed.
翻訳日:2024-03-08 17:59:00 公開日:2024-03-07
# ReCOMBINER:ベイズ暗黙的ニューラル表現によるロバスト・圧縮の強化

RECOMBINER: Robust and Enhanced Compression with Bayesian Implicit Neural Representations ( http://arxiv.org/abs/2309.17182v2 )

ライセンス: Link先を確認
Jiajun He, Gergely Flamich, Zongyu Guo, Jos\'e Miguel Hern\'andez-Lobato(参考訳) Bayesian Implicit NEural Representation (COMBINER) による圧縮は、従来の Inlicit Neural Representation (INR) ベースのアプローチの重要な非効率性に対処する、最近のデータ圧縮手法である。 しかし、COMBINERには大きな制限がある。 1) 柔軟性に欠ける因子化事前及び後部近似を用いる。 2) データのグローバルなパターンからの局所的なずれに効果的に対応できない。 3) その性能は, モデル選択や変分パラメータの初期化の影響を受けやすい。 提案手法であるRobust and Enhanced COMBINER (RECOMBINER) はこれらの問題に対処する。 1)INR重みの線形再パラメータ化により低計算コストを維持しつつ変動近似を充実させる。 2)局所的な細部への適応を可能にする学習可能な位置エンコーディングによる inrs の強化 3) 高解像度データをパッチに分割し、堅牢性を高め、表現力のある階層的事前を利用してパッチ間の依存関係をキャプチャする。 我々は、複数のデータモダリティにわたる広範な実験を行い、RECOMBINERが最高のINRベースの手法で競合する結果を得ることを示した。 私たちのPyTorch実装はhttps://github.com/cambridge-mlg/RECOMBINER/で利用可能です。

COMpression with Bayesian Implicit NEural Representations (COMBINER) is a recent data compression method that addresses a key inefficiency of previous Implicit Neural Representation (INR)-based approaches: it avoids quantization and enables direct optimization of the rate-distortion performance. However, COMBINER still has significant limitations: 1) it uses factorized priors and posterior approximations that lack flexibility; 2) it cannot effectively adapt to local deviations from global patterns in the data; and 3) its performance can be susceptible to modeling choices and the variational parameters' initializations. Our proposed method, Robust and Enhanced COMBINER (RECOMBINER), addresses these issues by 1) enriching the variational approximation while retaining a low computational cost via a linear reparameterization of the INR weights, 2) augmenting our INRs with learnable positional encodings that enable them to adapt to local details and 3) splitting high-resolution data into patches to increase robustness and utilizing expressive hierarchical priors to capture dependency across patches. We conduct extensive experiments across several data modalities, showcasing that RECOMBINER achieves competitive results with the best INR-based methods and even outperforms autoencoder-based codecs on low-resolution images at low bitrates. Our PyTorch implementation is available at https://github.com/cambridge-mlg/RECOMBINER/.
翻訳日:2024-03-08 17:58:45 公開日:2024-03-07
# キャビティに結合した強駆動不均一エミッタの異常パーセル崩壊

Anomalous Purcell decay of strongly driven inhomogeneous emitters coupled to a cavity ( http://arxiv.org/abs/2309.16641v2 )

ライセンス: Link先を確認
Michael T. Solomon, Martin Koppenh\"ofer, Mikhail Mamaev, Cheng Ji, Gregory Grant, Ignas Masiulionis, Sean E. Sullivan, F. Joseph Heremans, Supratik Guha, David D. Awschalom, Aashish A. Clerk, and Alan M. Dibos(参考訳) ナノキャビティ結合型エルビウムアンサンブルの共振蛍光寿命測定をキャビティレーザの変形とポンプパワーの関数として行う。 その結果,ゼロキャビティ・デチューン・ハイポンプ・フルエンスにおけるアンサンブル・パーセル因子の異常な3次元抑制が認められた。 共役空洞に結合した非相互作用スピンのtavis-cummingsモデルを用いて, この減衰速度抑制の定性的側面を捉える。

We perform resonant fluorescence lifetime measurements on a nanocavity-coupled erbium ensemble as a function of cavity-laser detuning and pump power. Our measurements reveal an anomalous three-fold suppression of the ensemble Purcell factor at zero cavity detuning and high pump fluence. We capture qualitative aspects of this decay rate suppression using a Tavis-Cummings model of non-interacting spins coupled to a common cavity.
翻訳日:2024-03-08 17:58:22 公開日:2024-03-07
# 複雑な長軸ロボットマニピュレーションタスクのための固有言語誘導探索

Intrinsic Language-Guided Exploration for Complex Long-Horizon Robotic Manipulation Tasks ( http://arxiv.org/abs/2309.16347v2 )

ライセンス: Link先を確認
Eleftherios Triantafyllidis, Filippos Christianos and Zhibin Li(参考訳) 現在の強化学習アルゴリズムは、ばらばらで複雑な環境で苦労している。 本稿では,大規模言語モデル(IGE-LLMs)フレームワークの本質的なガイドド・エクスプロレーションを提案する。 IGE-LLMは、LLMを補助的な本質的な報酬として活用することにより、強化学習における探索過程をガイドし、ロボット操作タスクのスパースな報酬で複雑なロングホライゾンに対処する。 我々は,探索に挑戦する環境と,探索とロングホリゾンの両方に挑戦する複雑なロボット操作タスクにおける,フレームワークと関連する本質的学習手法を評価する。 ige-llmsの結果 (i)本質的な方法よりも顕著に高い性能を示し、意思決定にLLMを直接使用すること。 (ii) モジュラリティを強調する既存の学習方法を組み合わせて補完することができる。 (iii) 異なる本質的スケーリングパラメータにかなり敏感であり、 (4)不確実性と地平線の増加に対する堅牢性を維持する。

Current reinforcement learning algorithms struggle in sparse and complex environments, most notably in long-horizon manipulation tasks entailing a plethora of different sequences. In this work, we propose the Intrinsically Guided Exploration from Large Language Models (IGE-LLMs) framework. By leveraging LLMs as an assistive intrinsic reward, IGE-LLMs guides the exploratory process in reinforcement learning to address intricate long-horizon with sparse rewards robotic manipulation tasks. We evaluate our framework and related intrinsic learning methods in an environment challenged with exploration, and a complex robotic manipulation task challenged by both exploration and long-horizons. Results show IGE-LLMs (i) exhibit notably higher performance over related intrinsic methods and the direct use of LLMs in decision-making, (ii) can be combined and complement existing learning methods highlighting its modularity, (iii) are fairly insensitive to different intrinsic scaling parameters, and (iv) maintain robustness against increased levels of uncertainty and horizons.
翻訳日:2024-03-08 17:57:50 公開日:2024-03-07
# わずかな例で全てを検出する

Detect Everything with Few Examples ( http://arxiv.org/abs/2309.12969v3 )

ライセンス: Link先を確認
Xinyu Zhang, Yuting Wang, Abdeslam Boularias(参考訳) 数少ないオブジェクト検出は、いくつかのサンプル画像から新しいカテゴリを検出することを目的としている。 近年の手法は、より広範な適用を禁じる複雑な手順による微調整戦略に重点を置いている。 本稿では、微調整を必要とせず、数発の物体検出器であるDE-ViTを紹介する。 DE-ViTの新しいアーキテクチャは、ローカライゼーションのための新しい領域プロパゲーションメカニズムに基づいている。 伝搬領域マスクは、学習可能な空間積分層を介して境界ボックスに変換される。 プロトタイプ分類器を訓練する代わりに、プロトタイプを用いてViT機能をサブスペースに投影し、ベースクラスに過度に適合するようにすることを提案する。 我々は,Pascal VOC,COCO,LVISを用いて,D-ViTの評価を行った。 DE-ViTはすべてのベンチマークで新しい最先端の結果を確立する。 特にCOCOの場合、DEC-ViTは10ショットで15 mAP、30ショットで7.2 mAP、1ショットで2.8 AP50のSoTAを上回ります。 LVISでは、DE-ViTは20ボックスのAPrで数ショットのSoTAを上回ります。

Few-shot object detection aims at detecting novel categories given a few example images. Recent methods focus on finetuning strategies, with complicated procedures that prohibit a wider application. In this paper, we introduce DE-ViT, a few-shot object detector without the need for finetuning. DE-ViT's novel architecture is based on a new region-propagation mechanism for localization. The propagated region masks are transformed into bounding boxes through a learnable spatial integral layer. Instead of training prototype classifiers, we propose to use prototypes to project ViT features into a subspace that is robust to overfitting on base classes. We evaluate DE-ViT on few-shot, and one-shot object detection benchmarks with Pascal VOC, COCO, and LVIS. DE-ViT establishes new state-of-the-art results on all benchmarks. Notably, for COCO, DE-ViT surpasses the few-shot SoTA by 15 mAP on 10-shot and 7.2 mAP on 30-shot and one-shot SoTA by 2.8 AP50. For LVIS, DE-ViT outperforms few-shot SoTA by 20 box APr.
翻訳日:2024-03-08 17:57:34 公開日:2024-03-07
# PointSSC: セマンティックシーンコンプリートのための協調車両・インフラクラウドベンチマーク

PointSSC: A Cooperative Vehicle-Infrastructure Point Cloud Benchmark for Semantic Scene Completion ( http://arxiv.org/abs/2309.12708v2 )

ライセンス: Link先を確認
Yuxiang Yan, Boda Liu, Jianfei Ai, Qinbu Li, Ru Wan, Jian Pu(参考訳) Semantic Scene Completion (SSC)は、複雑な3Dシーンのための空間占有とセマンティックラベルを共同で生成することを目的としている。 既存のSSCモデルは、大きな屋外空間においてメモリ非効率なボリューム表現に焦点をあてている。 ポイントクラウドは軽量な代替手段を提供するが、既存のベンチマークにはセマンティックラベルを備えた屋外ポイントクラウドシーンがない。 そこで本研究では,セマンティックシーン補完のための最初の協調型車両・インフラ間点クラウドベンチマークであるPointSSCを紹介する。 これらのシーンは長距離の知覚と最小限の閉塞を示す。 セマンティックセグメンテーションを利用した自動アノテーションパイプラインを開発し,セマンティックセグメンテーションを効率的に割り当てる。 本稿では,グローバルかつローカルな特徴抽出のための空間認識変換器と,共同補完とセグメント化のためのコンプリート・セグメンテーション協調モジュールを用いたLiDARモデルを提案する。 PointSSCは、現実世界のナビゲーションのためのセマンティックポイントクラウド補完の進歩を駆動するための挑戦的なテストベッドを提供する。 コードとデータセットはhttps://github.com/yyxsm/pointsscで入手できる。

Semantic Scene Completion (SSC) aims to jointly generate space occupancies and semantic labels for complex 3D scenes. Most existing SSC models focus on volumetric representations, which are memory-inefficient for large outdoor spaces. Point clouds provide a lightweight alternative but existing benchmarks lack outdoor point cloud scenes with semantic labels. To address this, we introduce PointSSC, the first cooperative vehicle-infrastructure point cloud benchmark for semantic scene completion. These scenes exhibit long-range perception and minimal occlusion. We develop an automated annotation pipeline leveraging Semantic Segment Anything to efficiently assign semantics. To benchmark progress, we propose a LiDAR-based model with a Spatial-Aware Transformer for global and local feature extraction and a Completion and Segmentation Cooperative Module for joint completion and segmentation. PointSSC provides a challenging testbed to drive advances in semantic point cloud completion for real-world navigation. The code and datasets are available at https://github.com/yyxssm/PointSSC.
翻訳日:2024-03-08 17:57:19 公開日:2024-03-07
# CoT-BERT:Chain-of-Thoughtによる教師なし文表現の強化

CoT-BERT: Enhancing Unsupervised Sentence Representation through Chain-of-Thought ( http://arxiv.org/abs/2309.11143v3 )

ライセンス: Link先を確認
Bowen Zhang, Kehua Chang, Chunping Li(参考訳) 教師なし文表現学習は、ラベル付きデータへの依存を回避しつつ、複雑な意味情報に富んだ入力文を固定長ベクトルに変換する。 この領域の最近の進歩は、対照的な学習と迅速な工学のブレークスルーによって著しく推進されている。 これらの進歩にもかかわらず、この分野は高原に達し、一部の研究者は文章埋め込みの品質を高めるために外部コンポーネントを組み込んだ。 このような統合は有益ではあるが、解を複雑化し、計算資源の需要を膨らませる。 これらの課題に対応するために,本論文では,事前学習モデルの潜在可能性を活用するために,連鎖的思考の進歩的思考を利用する革新的な手法であるcot-bertを提案する。 さらに,高度なコントラスト学習損失関数を開発し,新しいテンプレート修飾戦略を提案する。 厳密な実験により、CoT-BERTは、事前訓練されたモデルの内在的な強度にのみ依存することで、確立されたベースラインを超越する。

Unsupervised sentence representation learning endeavors to transform input sentences into fixed-length vectors enriched with intricate semantic information while obviating the reliance on labeled data. Recent strides in this domain have been significantly propelled by breakthroughs in contrastive learning and prompt engineering. Despite these advancements, the field has reached a plateau, leading some researchers to incorporate external components to enhance sentence embeddings' quality. Such integration, though beneficial, complicates the solutions and inflates the demand for computational resources. In response to these challenges, this paper presents CoT-BERT, an innovative method that harnesses the progressive thinking of Chain-of-Thought reasoning to tap into the latent potential of pre-trained models like BERT. Additionally, we develop an advanced contrastive learning loss function and propose a novel template denoising strategy. Rigorous experimentation substantiates CoT-BERT surpasses a range of well-established baselines by relying exclusively on the intrinsic strengths of pre-trained models.
翻訳日:2024-03-08 17:57:01 公開日:2024-03-07
# SIB-200:200以上の言語と方言におけるトピック分類のためのシンプルで包括的で大きな評価データセット

SIB-200: A Simple, Inclusive, and Big Evaluation Dataset for Topic Classification in 200+ Languages and Dialects ( http://arxiv.org/abs/2309.07445v3 )

ライセンス: Link先を確認
David Ifeoluwa Adelani, Hannah Liu, Xiaoyu Shen, Nikita Vassilyev, Jesujoba O. Alabi, Yanke Mao, Haonan Gao, Annie En-Shiun Lee(参考訳) 過去数年間に記録した多言語自然言語処理の進歩にもかかわらず、評価は通常、多数の低リソース言語を除外したデータセットを持つ少数の言語に限られる。 本稿では,200言語および方言におけるトピック分類のための大規模オープンソースベンチマークデータセットであるSIB-200を作成し,自然言語理解のための評価データセットの欠如に対処した。 SIB-200でカバーされている多くの言語に対して、これはNLUのための最初の公開評価データセットである。 データセットは flores-200 machine translation corpus に基づいている。 我々は、データセットの英語部分を注釈化し、文レベルのアノテーションをコーパスに含まれる残りの203言語に拡張した。 このタスクの単純さにもかかわらず、我々は、多言語評価が多くの世界言語に拡張される際に、ハイリソース言語と低リソース言語のパフォーマンスの間には、依然として大きなギャップがあることを示す。 我々は,多言語モデルの事前学習中,未表現言語ファミリー(ニロティック語やアルタン語-コンゴ語など)やアフリカ,アメリカ,オセアニア,東南アジアの言語が,トピック分類データセットにおいて最も低いパフォーマンスを示すことが判明した。 我々のデータセットは、より多様な言語セットにおける多言語言語モデルのより包括的評価を促進することを願っている。 https://github.com/dadelani/sib-200

Despite the progress we have recorded in the last few years in multilingual natural language processing, evaluation is typically limited to a small set of languages with available datasets which excludes a large number of low-resource languages. In this paper, we created SIB-200 -- a large-scale open-sourced benchmark dataset for topic classification in 200 languages and dialects to address the lack of evaluation dataset for Natural Language Understanding (NLU). For many of the languages covered in SIB-200, this is the first publicly available evaluation dataset for NLU. The dataset is based on Flores-200 machine translation corpus. We annotated the English portion of the dataset and extended the sentence-level annotation to the remaining 203 languages covered in the corpus. Despite the simplicity of this task, our evaluation in full-supervised setting, cross-lingual transfer setting and prompting of large language model setting show that there is still a large gap between the performance of high-resource and low-resource languages when multilingual evaluation is scaled to numerous world languages. We found that languages unseen during the pre-training of multilingual language models, under-represented language families (like Nilotic and Altantic-Congo), and languages from the regions of Africa, Americas, Oceania and South East Asia, often have the lowest performance on our topic classification dataset. We hope our dataset will encourage a more inclusive evaluation of multilingual language models on a more diverse set of languages. https://github.com/dadelani/sib-200
翻訳日:2024-03-08 17:56:45 公開日:2024-03-07
# 勾配調和によるヘテロジニアスフェデレート学習における非iid問題への取り組み

Tackling the Non-IID Issue in Heterogeneous Federated Learning by Gradient Harmonization ( http://arxiv.org/abs/2309.06692v2 )

ライセンス: Link先を確認
Xinyu Zhang, Weiyu Sun, Ying Chen(参考訳) フェデレートラーニング(Federated Learning, FL)は、分散クライアントからグローバルモデルを協調的にトレーニングするための、プライバシ保護パラダイムである。 しかし、FLの性能は非独立で同一の(非IID)データとデバイスの不均一性によって妨げられる。 本研究では、サーバ側の勾配競合のレンズを通して、この重要な課題を再考する。 具体的には,複数のクライアント間の勾配競合現象を最初に検討し,より強固な不均一性がより重度の勾配衝突を引き起こすことを明らかにした。 この問題に対処するため,グラディエント・ハーモニゼーションによる局所ドリフトを緩和する簡易かつ効果的なFedGHを提案する。 この手法は、一方の勾配ベクトルを、矛盾するクライアントペア内の他方の直交平面に投影する。 大規模な実験により、FedGHは様々なベンチマークと非IIDシナリオで複数の最先端のFLベースラインを一貫して強化することを示した。 特に、FedGHはより強い不均一性を持つシナリオにおいて、より顕著な改善をもたらす。 プラグアンドプレイモジュールとして、FedGHはハイパーパラメータチューニングを必要とせずに任意のFLフレームワークにシームレスに統合できる。

Federated learning (FL) is a privacy-preserving paradigm for collaboratively training a global model from decentralized clients. However, the performance of FL is hindered by non-independent and identically distributed (non-IID) data and device heterogeneity. In this work, we revisit this key challenge through the lens of gradient conflicts on the server side. Specifically, we first investigate the gradient conflict phenomenon among multiple clients and reveal that stronger heterogeneity leads to more severe gradient conflicts. To tackle this issue, we propose FedGH, a simple yet effective method that mitigates local drifts through Gradient Harmonization. This technique projects one gradient vector onto the orthogonal plane of the other within conflicting client pairs. Extensive experiments demonstrate that FedGH consistently enhances multiple state-of-the-art FL baselines across diverse benchmarks and non-IID scenarios. Notably, FedGH yields more significant improvements in scenarios with stronger heterogeneity. As a plug-and-play module, FedGH can be seamlessly integrated into any FL framework without requiring hyperparameter tuning.
翻訳日:2024-03-08 17:55:59 公開日:2024-03-07
# オフライン逆RLを用いたクエリ依存型プロンプト評価と最適化

Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL ( http://arxiv.org/abs/2309.06553v4 )

ライセンス: Link先を確認
Hao Sun, Alihan H\"uy\"uk, Mihaela van der Schaar(参考訳) 本研究では,ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。 このような最適化において、以前見過ごされたクエリ依存の目的を特定し、迅速な最適化手法の成功と経済的設計を妨げる2つの課題を解明する。 第一の問題は、金の答えが利用できないときに推論中にプロンプトを評価する効果的な方法がないことである。 同時に、拡張的な自然言語をナビゲートするためのllmとのインタラクションを通じて学習することで、リソース集約性が証明される。 これに対処するために,オフラインの逆強化学習を利用して,オフラインでプロンプトするデモンストレーションデータから洞察を引き出すprompt-oirlを導入する。 このようなデータは、オープンアクセス可能なデータセット上でさまざまなプロンプトがベンチマークされるときに副産物として存在する。 Prompt-OIRLでは、オフライン報酬モデルを学習することで、クエリ依存のプロンプト最適化の目的を達成する。 このモデルは、llmにアクセスせずに任意のクエリ-promptペアを評価することができる。 その後、最適なプロンプトを推奨するためにベストオブN戦略が展開される。 提案手法の有効性と経済性を評価するために, LLM尺度と算術推論データセットを用いた実験を行った。

In this study, we aim to enhance the arithmetic reasoning ability of Large Language Models (LLMs) through zero-shot prompt optimization. We identify a previously overlooked objective of query dependency in such optimization and elucidate two ensuing challenges that impede the successful and economical design of prompt optimization techniques. One primary issue is the absence of an effective method to evaluate prompts during inference when the golden answer is unavailable. Concurrently, learning via interactions with the LLMs to navigate the expansive natural language prompting space proves to be resource-intensive. To address this, we introduce Prompt-OIRL, which harnesses offline inverse reinforcement learning to draw insights from offline prompting demonstration data. Such data exists as by-products when diverse prompts are benchmarked on open-accessible datasets. With Prompt-OIRL, the query-dependent prompt optimization objective is achieved by first learning an offline reward model. This model can evaluate any query-prompt pairs without accessing LLMs. Subsequently, a best-of-N strategy is deployed to recommend the optimal prompt. Our experimental evaluations across various LLM scales and arithmetic reasoning datasets underscore both the efficacy and economic viability of the proposed approach.
翻訳日:2024-03-08 17:55:33 公開日:2024-03-07
# 共同等変拡散による結晶構造予測

Crystal Structure Prediction by Joint Equivariant Diffusion ( http://arxiv.org/abs/2309.04475v2 )

ライセンス: Link先を確認
Rui Jiao, Wenbing Huang, Peijia Lin, Jiaqi Han, Pin Chen, Yutong Lu, and Yang Liu(参考訳) 結晶構造予測(CSP)は様々な科学分野において重要である。 CSPは、現在普及している生成モデル(例えば拡散モデル)を用いることで対処できるが、このタスクは結晶構造の対称幾何学(翻訳、回転、周期性の不変性)によって固有の課題に直面する。 上記の対称性を組み込むために,安定結晶から構造分布を学ぶための新しい拡散モデルdiffcspを提案する。 具体的には、DiffCSP は周期的-E(3)-等変デノナイジングモデルを用いて各結晶の格子と原子座標を共同で生成し、結晶幾何学をより良くモデル化する。 特に、関連する同変生成アプローチとは異なり、DiffCSPはカルト座標以外の分数座標を利用して結晶を表現し、原子位置の拡散と生成過程を著しく促進する。 我々のDiffCSPは既存のCSP法よりも大幅に優れており、DFT法に比べて計算コストははるかに低い。 さらに、ab initio結晶生成のために拡張すると、diffcspの優性も観察される。

Crystal Structure Prediction (CSP) is crucial in various scientific disciplines. While CSP can be addressed by employing currently-prevailing generative models (e.g. diffusion models), this task encounters unique challenges owing to the symmetric geometry of crystal structures -- the invariance of translation, rotation, and periodicity. To incorporate the above symmetries, this paper proposes DiffCSP, a novel diffusion model to learn the structure distribution from stable crystals. To be specific, DiffCSP jointly generates the lattice and atom coordinates for each crystal by employing a periodic-E(3)-equivariant denoising model, to better model the crystal geometry. Notably, different from related equivariant generative approaches, DiffCSP leverages fractional coordinates other than Cartesian coordinates to represent crystals, remarkably promoting the diffusion and the generation process of atom positions. Extensive experiments verify that our DiffCSP significantly outperforms existing CSP methods, with a much lower computation cost in contrast to DFT-based methods. Moreover, the superiority of DiffCSP is also observed when it is extended for ab initio crystal generation.
翻訳日:2024-03-08 17:54:35 公開日:2024-03-07
# AIハザードマネジメント:AIリスクに対する根本原因の体系的管理のためのフレームワーク

AI Hazard Management: A framework for the systematic management of root causes for AI risks ( http://arxiv.org/abs/2310.16727v2 )

ライセンス: Link先を確認
Ronald Schnitzer, Andreas Hapfelmeier, Sven Gaube, Sonja Zillner(参考訳) 人工知能(ai)分野の最近の進歩は、課題に取り組むための基盤を確立する。 しかし、AIの統合により、新たなリスクが発生する。 したがって、その利点の恩恵を受けるためには、AIに関連するリスクを適切に扱うことが不可欠である。 ソフトウェアシステムなどの関連分野における既存のリスク管理プロセスは、AIの仕様を十分に考慮する必要があります。 重要な課題は、AIリスクの根本原因を体系的かつ透過的に識別し、対処することである。 本稿では、AIハザード管理(AIHM)フレームワークを紹介し、AIハザードを体系的に識別し、評価し、治療するための構造化プロセスを提供する。 提案プロセスは、AIシステムのライフサイクルの最初期の段階でAIのハザードが捕捉されることを保証するため、開発と並行して実行される。 さらに、AIシステムの監査可能性を保証するため、提案されたフレームワークは、特定されたAIハザードの潜在的影響が許容できるレベルに低下する可能性があるという証拠を体系的に文書化している。 このフレームワークは、総合的な最先端分析からAIハザードリストの上に構築されている。 また、特定されたAIハザードの最適処理を支援する分類法も提供する。 さらに、AIHMフレームワークは、特定されたハザードの影響を許容レベルまで体系的に低減することで、電力グリッドAIユースケースの全体的な品質を向上する方法について説明する。

Recent advancements in the field of Artificial Intelligence (AI) establish the basis to address challenging tasks. However, with the integration of AI, new risks arise. Therefore, to benefit from its advantages, it is essential to adequately handle the risks associated with AI. Existing risk management processes in related fields, such as software systems, need to sufficiently consider the specifics of AI. A key challenge is to systematically and transparently identify and address AI risks' root causes - also called AI hazards. This paper introduces the AI Hazard Management (AIHM) framework, which provides a structured process to systematically identify, assess, and treat AI hazards. The proposed process is conducted in parallel with the development to ensure that any AI hazard is captured at the earliest possible stage of the AI system's life cycle. In addition, to ensure the AI system's auditability, the proposed framework systematically documents evidence that the potential impact of identified AI hazards could be reduced to a tolerable level. The framework builds upon an AI hazard list from a comprehensive state-of-the-art analysis. Also, we provide a taxonomy that supports the optimal treatment of the identified AI hazards. Additionally, we illustrate how the AIHM framework can increase the overall quality of a power grid AI use case by systematically reducing the impact of identified hazards to an acceptable level.
翻訳日:2024-03-08 17:49:45 公開日:2024-03-07
# LLMによるエージェント社会調査:アバロンゲームにおける協調と理解

LLM-Based Agent Society Investigation: Collaboration and Confrontation in Avalon Gameplay ( http://arxiv.org/abs/2310.14985v3 )

ライセンス: Link先を確認
Yihuai Lan, Zhiqiang Hu, Lei Wang, Yang Wang, Deheng Ye, Peilin Zhao, Ee-Peng Lim, Hui Xiong, Hao Wang(参考訳) 本稿では, LLM エージェントの社会的行動を明らかにするためのオープンな研究課題について検討する。 この目的を達成するために,我々は環境・利用システムとして代表的コミュニケーションゲームであるAvalonを採用し,LLMエージェントをゲームに誘導する。 llmエージェントによるゲームプレイの予備的な調査は行われているが、社会的行動に関する研究は乏しい。 本稿では,Avalonゲームプレイにシームレスに適応する新しいフレームワークを提案する。 提案フレームワークのコアは,エージェント間の効率的なコミュニケーションとインタラクションを可能にするマルチエージェントシステムである。 我々は, LLMエージェントのゲーム勝利と社会的行動分析という2つの視点から, 指標に基づくフレームワークの性能評価を行った。 本研究は, 適応的・インテリジェントなエージェント生成におけるフレームワークの有効性を実証し, 動的社会環境相互作用に関わる課題に対処するLLMエージェントの可能性を強調した。 協調と対立の両面からLLMエージェントの社会的行動を分析することにより、この領域の研究と応用に関する洞察を提供する。 私たちのコードはhttps://github.com/3DAgentWorld/LLM-Game-Agentで公開されています。

This paper aims to investigate the open research problem of uncovering the social behaviors of LLM-based agents. To achieve this goal, we adopt Avalon, a representative communication game, as the environment and use system prompts to guide LLM agents to play the game. While previous studies have conducted preliminary investigations into gameplay with LLM agents, there lacks research on their social behaviors. In this paper, we present a novel framework designed to seamlessly adapt to Avalon gameplay. The core of our proposed framework is a multi-agent system that enables efficient communication and interaction among agents. We evaluate the performance of our framework based on metrics from two perspectives: winning the game and analyzing the social behaviors of LLM agents. Our results demonstrate the effectiveness of our framework in generating adaptive and intelligent agents and highlight the potential of LLM-based agents in addressing the challenges associated with dynamic social environment interaction. By analyzing the social behaviors of LLM agents from the aspects of both collaboration and confrontation, we provide insights into the research and applications of this domain. Our code is publicly available at https://github.com/3DAgentWorld/LLM-Game-Agent
翻訳日:2024-03-08 17:49:22 公開日:2024-03-07
# 散逸による拡張局在遷移

Dissipation induced extended-localized transition ( http://arxiv.org/abs/2310.14904v2 )

ライセンス: Link先を確認
Yaru Liu, Zeqing Wang, Chao Yang, Jianwen Jie, and Yucheng Wang(参考訳) 拡張状態と局所状態とを区別する臨界エネルギーを表すモビリティエッジ(me)は、不規則状態と準周期システムにおける拡張状態(金属)と局所状態(絶縁状態)の遷移を理解する上で重要な概念である。 本稿では, 定常密度行列を計算し, 急激な散逸導入に伴うクエンチダイナミクスを解析することにより, MEを特徴とする準周期系への散逸の影響を考察し, 初期状態に関わらず, 主に局所状態あるいは局所状態によって特徴づけられる特定の状態への散逸を実証する。 その結果, 粒子の動的挙動を操作するために, 拡張状態と局所状態の遷移を誘導するための新しい経路として散逸の利用が確立された。

Mobility edge (ME), representing the critical energy that distinguishes between extended and localized states, is a key concept in understanding the transition between extended (metallic) and localized (insulating) states in disordered and quasiperiodic systems. Here we explore the impact of dissipation on a quasiperiodic system featuring MEs by calculating steady-state density matrix and analyzing quench dynamics with sudden introduction of dissipation, and demonstrate that dissipation can lead the system into specific states predominantly characterized by either extended or localized states, irrespective of the initial state. Our results establish the use of dissipation as a new avenue for inducing transitions between extended and localized states, and for manipulating dynamic behaviors of particles.
翻訳日:2024-03-08 17:49:04 公開日:2024-03-07
# グラフ分解学習に基づく多因子時空間予測

Multi-Factor Spatio-Temporal Prediction based on Graph Decomposition Learning ( http://arxiv.org/abs/2310.10374v2 )

ライセンス: Link先を確認
Jiahao Ji, Jingyuan Wang, Yu Mou, and Cheng Long(参考訳) 時空間(ST)予測は、特に交通データなどの都市システムにおけるSTデータにおいて、データマイニングや分析において重要かつ広く用いられる手法である。 実際には、STデータ生成は通常、自然現象や人間の社会経済活動に関連する様々な潜在要因に影響され、特定の空間領域に選択的に影響を及ぼす。 しかし、既存のST予測法は、通常、異なる要因の影響を洗練せず、複数の要因の絡み合った影響を直接モデル化する。 これにより、stデータのモデリングの複雑さが増幅され、モデル解釈性が損なわれる。 そこで本研究では,異なる要因下での部分stデータ進化を予測し,それらを組み合わせて最終予測を行う多要素st予測タスクを提案する。 効果的な理論解とポータブルインスタンス化フレームワークという,このタスクに2つの貢献をしています。 具体的には,まず,分解予測戦略(decomposed prediction strategy)と呼ばれる理論解を提案し,情報エントロピー理論の観点からその効果を証明する。 その上で,多要素ST予測のための時空間グラフ分解学習(STGDL)と呼ばれる新しいモデルに依存しないフレームワークをインスタンス化する。 フレームワークは、STデータに固有の元のグラフ構造を異なる因子に対応するサブグラフに分解する自動グラフ分解モジュールと、各サブグラフ上の部分STデータを別々に学習し、最終予測のためにそれらを統合する分解学習ネットワークとからなる。 2種類のグラフ、すなわちグリッドグラフとネットワークグラフの4つの実世界のstデータセットについて広範な実験を行う。 その結果,様々なstモデルの予測誤差を平均9.41%削減した(多くは35.36%)。 さらに,本フレームワークの解釈可能性についても検討した。

Spatio-temporal (ST) prediction is an important and widely used technique in data mining and analytics, especially for ST data in urban systems such as transportation data. In practice, the ST data generation is usually influenced by various latent factors tied to natural phenomena or human socioeconomic activities, impacting specific spatial areas selectively. However, existing ST prediction methods usually do not refine the impacts of different factors, but directly model the entangled impacts of multiple factors. This amplifies the modeling complexity of ST data and compromises model interpretability. To this end, we propose a multi-factor ST prediction task that predicts partial ST data evolution under different factors, and combines them for a final prediction. We make two contributions to this task: an effective theoretical solution and a portable instantiation framework. Specifically, we first propose a theoretical solution called decomposed prediction strategy and prove its effectiveness from the perspective of information entropy theory. On top of that, we instantiate a novel model-agnostic framework, named spatio-temporal graph decomposition learning (STGDL), for multi-factor ST prediction. The framework consists of two main components: an automatic graph decomposition module that decomposes the original graph structure inherent in ST data into subgraphs corresponding to different factors, and a decomposed learning network that learns the partial ST data on each subgraph separately and integrates them for the final prediction. We conduct extensive experiments on four real-world ST datasets of two types of graphs, i.e., grid graph and network graph. Results show that our framework significantly reduces prediction errors of various ST models by 9.41% on average (35.36% at most). Furthermore, a case study reveals the interpretability potential of our framework.
翻訳日:2024-03-08 17:48:48 公開日:2024-03-07
# 機械学習モデルが漏洩したとき - 合成トレーニングデータの探索

When Machine Learning Models Leak: An Exploration of Synthetic Training Data ( http://arxiv.org/abs/2310.08775v2 )

ライセンス: Link先を確認
Manel Slokom and Peter-Paul de Wolf and Martha Larson(参考訳) 今後2年以内に、個人や家庭が移転するかどうかを予測する機械学習モデルに対する攻撃、すなわち、移動先分類器について検討する。 この攻撃は、攻撃者がモデルに問い合わせて予測を得ることができ、モデルがトレーニングされたデータの限界分布が公開されていると仮定する。 この攻撃はまた、攻撃者が特定の数の個人に対して非感受性属性の値を得たと仮定する。 攻撃の目的は、これらの対象個人に対する繊細な属性の値を推測することである。 モデルのトレーニング中に元のデータを合成データに置き換える方法が,攻撃者が機密性の高い属性を推測する上での有効性に与える影響について検討する。

We investigate an attack on a machine learning model that predicts whether a person or household will relocate in the next two years, i.e., a propensity-to-move classifier. The attack assumes that the attacker can query the model to obtain predictions and that the marginal distribution of the data on which the model was trained is publicly available. The attack also assumes that the attacker has obtained the values of non-sensitive attributes for a certain number of target individuals. The objective of the attack is to infer the values of sensitive attributes for these target individuals. We explore how replacing the original data with synthetic data when training the model impacts how successfully the attacker can infer sensitive attributes.
翻訳日:2024-03-08 17:48:21 公開日:2024-03-07
# GenTKG: 時間的知識グラフによる生成予測

GenTKG: Generative Forecasting on Temporal Knowledge Graph ( http://arxiv.org/abs/2310.07793v3 )

ライセンス: Link先を確認
Ruotong Liao, Xu Jia, Yunpu Ma, Yangzhe Li, Volker Tresp(参考訳) 大規模言語モデル(llms)の急速な進歩は、従来の埋め込みベースおよびルールベースメソッドが支配する時間的知識グラフ(tkg)ドメインへの関心を燃やしている。 事前学習したLLMが構造化された時間的関係データを理解でき、時間的関係予測の基礎モデルとして置き換えられるかどうかには疑問が残る。 したがって、時間的知識予測を生成的設定に導入する。 しかし、複雑な時間グラフデータ構造とLLMが扱える逐次自然表現との間の巨大な亀裂や、tKGの巨大なデータサイズとLLMを微調整する重い計算コストとの間には課題が生じる。 そこで,これらの課題を解決するために,時間的論理規則に基づく検索戦略とマイナショットパラメータ効率の良い命令チューニングを組み合わせた新たな検索型生成フレームワークgentkgを提案する。 大規模な実験により、GenTKGは、非常に限られたトレーニングデータから16サンプルまで、計算資源の少ない時間的関係予測法よりも優れた性能を示した。 GenTKGはまた、再トレーニングなしで、目に見えないデータセットのパフォーマンスで優れたクロスドメインの一般化性と、同じデータセット内の時間分割に関わらず、ドメイン内の一般化性を強調している。 本研究は, tKG領域におけるLLMの潜在可能性を明らかにし, tKGの生成予測のための新たなフロンティアを開く。

The rapid advancements in large language models (LLMs) have ignited interest in the temporal knowledge graph (tKG) domain, where conventional embedding-based and rule-based methods dominate. The question remains open of whether pre-trained LLMs can understand structured temporal relational data and replace them as the foundation model for temporal relational forecasting. Therefore, we bring temporal knowledge forecasting into the generative setting. However, challenges occur in the huge chasms between complex temporal graph data structure and sequential natural expressions LLMs can handle, and between the enormous data sizes of tKGs and heavy computation costs of finetuning LLMs. To address these challenges, we propose a novel retrieval-augmented generation framework named GenTKG combining a temporal logical rule-based retrieval strategy and few-shot parameter-efficient instruction tuning to solve the above challenges, respectively. Extensive experiments have shown that GenTKG outperforms conventional methods of temporal relational forecasting with low computation resources using extremely limited training data as few as 16 samples. GenTKG also highlights remarkable cross-domain generalizability with outperforming performance on unseen datasets without re-training, and in-domain generalizability regardless of time split in the same dataset. Our work reveals the huge potential of LLMs in the tKG domain and opens a new frontier for generative forecasting on tKGs.
翻訳日:2024-03-08 17:48:08 公開日:2024-03-07
# VeCLIP: Visual Enriched CaptionsによるCLIPトレーニングの改善

VeCLIP: Improving CLIP Training via Visual-enriched Captions ( http://arxiv.org/abs/2310.07699v2 )

ライセンス: Link先を確認
Zhengfeng Lai, Haotian Zhang, Bowen Zhang, Wentao Wu, Haoping Bai, Aleksei Timofeev, Xianzhi Du, Zhe Gan, Jiulong Shan, Chen-Nee Chuah, Yinfei Yang, Meng Cao(参考訳) 大規模なウェブクローリングデータセットは、クリップのような視覚言語モデルの事前学習の成功に欠かせない。 しかし、Webcrawled AltTextsの本質的なノイズと潜在的な非関連性は、正確な画像テキストアライメントを実現する上での課題である。 キャプション書き換えに大規模な言語モデル(LLM)を利用する既存の手法は、CC3MやCC12Mのような小さなキュレートされたデータセットに約束を示す。 本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。 最近のllm書き換え技術とは異なり、視覚概念を字幕に組み込むことを強調し、視覚エンリッチ字幕 (vecap) と呼ぶ。 データ多様性を確保するため,新たに生成されたVeCapとともにAltTextsの利用を最適化する混合学習手法を提案する。 本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。 このコスト効率のよいパイプラインを使用することで、データセットをVeCapデータセットという3億のサンプルにスケールアップしています。 その結果,画像テキストのアライメントとモデル全体の性能に有意な利点が認められた。 例えば、VeCLIPは最大25.2%のCOCOおよびFlickr30k検索タスクを12M設定で達成している。 データ効率では、VeCLIPは+3%上昇し、バニラCLIPで使用されるデータの14%とALIGNで11%しか使用していない。 また、vecapデータはゼロショット分類タスクに適した他のよく整備されたデータセットと相補的であることも指摘します。 VeCapとDFNを組み合わせると、H/14モデルのImageNetゼロショットでは、画像テキスト検索とゼロショット分類のタスク、例えば83.1%の精度@1で強力なパフォーマンスが得られる。 トレーニング済みのモデルをhttps://github.com/apple/ml-veclip.comでリリースします。

Large-scale web-crawled datasets are fundamental for the success of pre-training vision-language models, such as CLIP. However, the inherent noise and potential irrelevance of web-crawled AltTexts pose challenges in achieving precise image-text alignment. Existing methods utilizing large language models (LLMs) for caption rewriting have shown promise on small, curated datasets like CC3M and CC12M. This study introduces a scalable pipeline for noisy caption rewriting. Unlike recent LLM rewriting techniques, we emphasize the incorporation of visual concepts into captions, termed as Visual-enriched Captions (VeCap). To ensure data diversity, we propose a novel mixed training scheme that optimizes the utilization of AltTexts alongside newly generated VeCap. We showcase the adaptation of this method for training CLIP on large-scale web-crawled datasets, termed VeCLIP. Employing this cost-effective pipeline, we effortlessly scale our dataset up to 300 million samples named VeCap dataset. Our results show significant advantages in image-text alignment and overall model performance. For example, VeCLIP achieves up to +25.2% gain in COCO and Flickr30k retrieval tasks under the 12M setting. For data efficiency, VeCLIP achieves +3% gain while only using 14% of the data employed in the vanilla CLIP and 11% in ALIGN. We also note the VeCap data is complementary with other well curated datasets good for zero-shot classification tasks. When combining VeCap and DFN, our model can achieve strong performance on both of image-text retrieval and zero-shot classification tasks, e.g. 83.1% accuracy@1 on ImageNet zero-shot for a H/14 model. We release the pre-trained models at https://github.com/apple/ml-veclip.
翻訳日:2024-03-08 17:47:44 公開日:2024-03-07
# ProFSA: タンパク質フラグメント・サラウンドアライメントによる自己管理型ポケットトレーニング

ProFSA: Self-supervised Pocket Pretraining via Protein Fragment-Surroundings Alignment ( http://arxiv.org/abs/2310.07229v2 )

ライセンス: Link先を確認
Bowen Gao, Yinjun Jia, Yuanle Mo, Yuyan Ni, Weiying Ma, Zhiming Ma, Yanyan Lan(参考訳) ポケット表現は、薬物性評価、リガンド親和性予測、デ・ノボ薬物設計など、様々なバイオメディカル応用において重要な役割を果たす。 既存の幾何学的特徴と事前学習された表現は有望な結果を示しているが、通常はリガンドとは独立にポケットを扱い、それらの基本的な相互作用を無視する。 しかしながら、PDBデータベースで利用可能な制限されたポケットリガンド複雑な構造(100万以上の非冗長なペア)は、相互作用モデリングのための大規模な事前学習作業を妨げている。 この制約に対処するために,我々は,高分解能原子タンパク質構造からの知識を活用した新しいポケットプリトレーニング手法を提案する。 タンパク質構造を薬物様断片と対応するポケットに分割することで、リガンド-受容体相互作用の合理的なシミュレーションが可能になり、500万以上の錯体が生成される。 その後、ポケットエンコーダは、予め訓練された小さな分子エンコーダによって提供される擬似リガンドの表現と整合するように、対照的に訓練される。 提案手法は,pocket druggability prediction, pocket matching, ligand binding affinity predictionなど,様々なタスクにおいて最先端のパフォーマンスを実現する。 特に、ProFSAは他の事前訓練手法をかなり上回っている。 さらに,本研究は,高品質で多様なタンパク質構造データベースを活用し,タンパク質リガンド複雑なデータの不足を緩和するための新たな道を開いた。

Pocket representations play a vital role in various biomedical applications, such as druggability estimation, ligand affinity prediction, and de novo drug design. While existing geometric features and pretrained representations have demonstrated promising results, they usually treat pockets independent of ligands, neglecting the fundamental interactions between them. However, the limited pocket-ligand complex structures available in the PDB database (less than 100 thousand non-redundant pairs) hampers large-scale pretraining endeavors for interaction modeling. To address this constraint, we propose a novel pocket pretraining approach that leverages knowledge from high-resolution atomic protein structures, assisted by highly effective pretrained small molecule representations. By segmenting protein structures into drug-like fragments and their corresponding pockets, we obtain a reasonable simulation of ligand-receptor interactions, resulting in the generation of over 5 million complexes. Subsequently, the pocket encoder is trained in a contrastive manner to align with the representation of pseudo-ligand furnished by some pretrained small molecule encoders. Our method, named ProFSA, achieves state-of-the-art performance across various tasks, including pocket druggability prediction, pocket matching, and ligand binding affinity prediction. Notably, ProFSA surpasses other pretraining methods by a substantial margin. Moreover, our work opens up a new avenue for mitigating the scarcity of protein-ligand complex data through the utilization of high-quality and diverse protein structure databases.
翻訳日:2024-03-08 17:46:57 公開日:2024-03-07
# 依存入力を持つブラックボックスモデルのホッフィング分解

Hoeffding decomposition of black-box models with dependent inputs ( http://arxiv.org/abs/2310.06567v2 )

ライセンス: Link先を確認
Marouane Il Idrissi (EDF R\&D PRISME, IMT, SINCLAIR AI Lab), Nicolas Bousquet (EDF R\&D PRISME, SINCLAIR AI Lab, LPSM (UMR\_8001)), Fabrice Gamboa (IMT), Bertrand Iooss (EDF R\&D PRISME, IMT, SINCLAIR AI Lab, RT-UQ), Jean-Michel Loubes (IMT)(参考訳) ブラックボックスモデルを解釈する主な課題の1つは、非独立なランダム入力の平方積分可能な関数を変数のあらゆる部分集合の関数の和に一意に分解する能力である。 しかし、入力間の依存関係を扱うのは複雑である。 本稿では, 確率論, 関数解析, コンビネータ論の3分野をリンクして, この問題を研究する新しい枠組みを提案する。 入力に対する2つの妥当な仮定(非完全機能依存と非退化確率依存)の下では、そのような関数を一意に分解することは常に可能であることを示す。 これはよく知られたホッフィング分解を一般化する。 この分解の要素は斜め射影を用いて表現することができ、新しい解釈可能性指標を評価・分散分解目的に適用することができる。 これらの新指標の特性を考察し議論した。 この一般化はより正確な不確実性定量化への道を提供し、入力が依存するたびに感度解析と解釈可能性研究の恩恵を受けることができる。 この分解を解析的に説明し、実際にこれらの結果を採用する上での課題について論じる。

One of the main challenges for interpreting black-box models is the ability to uniquely decompose square-integrable functions of non-independent random inputs into a sum of functions of every possible subset of variables. However, dealing with dependencies among inputs can be complicated. We propose a novel framework to study this problem, linking three domains of mathematics: probability theory, functional analysis, and combinatorics. We show that, under two reasonable assumptions on the inputs (non-perfect functional dependence and non-degenerate stochastic dependence), it is always possible to decompose such a function uniquely. This generalizes the well-known Hoeffding decomposition. The elements of this decomposition can be expressed using oblique projections and allow for novel interpretability indices for evaluation and variance decomposition purposes. The properties of these novel indices are studied and discussed. This generalization offers a path towards a more precise uncertainty quantification, which can benefit sensitivity analysis and interpretability studies whenever the inputs are dependent. This decomposition is illustrated analytically, and the challenges for adopting these results in practice are discussed.
翻訳日:2024-03-08 17:46:34 公開日:2024-03-07
# スパースビューを用いた神経表面再構成のための幾何誘導線増補法

Geometry-Guided Ray Augmentation for Neural Surface Reconstruction with Sparse Views ( http://arxiv.org/abs/2310.05483v4 )

ライセンス: Link先を確認
Jiawei Yao and Chen Wang and Tong Wu and Chuming Li(参考訳) 本稿では,スパース多視点画像からの3次元シーンとオブジェクト再構成の新たな手法を提案する。 シーン間の奥行きや一般化などの付加的な情報を利用する従来の方法とは異なり,マルチビュー入力に埋め込まれたシーンプロパティを活用して,事前のトレーニングなしに最適化のための正確な擬似ラベルを作成する。 具体的には,球面高調波を利用して新しい放射能を予測し,シーン内の点に対するすべての色観測を確率的に考慮しながら,疎視による表面再構成精度を向上させる幾何誘導手法を提案する。 また,このパイプラインはプロキシジオメトリを活用し,従来の画像ウォーピング手法では回避できなかった放射能の擬似ラベルを生成する際に,オクルージョンを正しく処理する。 Ray Augmentation (RayAug) と呼ばれるこの手法は、事前トレーニングを必要とせず、DTUおよびBlenderデータセット上で優れた結果を得ることができ、スパースビュー再構成の問題に対処する効果を実証することができる。 私たちのパイプラインは柔軟で、スパースビューのための他の暗黙的な神経再構成方法に統合できます。

In this paper, we propose a novel method for 3D scene and object reconstruction from sparse multi-view images. Different from previous methods that leverage extra information such as depth or generalizable features across scenes, our approach leverages the scene properties embedded in the multi-view inputs to create precise pseudo-labels for optimization without any prior training. Specifically, we introduce a geometry-guided approach that improves surface reconstruction accuracy from sparse views by leveraging spherical harmonics to predict the novel radiance while holistically considering all color observations for a point in the scene. Also, our pipeline exploits proxy geometry and correctly handles the occlusion in generating the pseudo-labels of radiance, which previous image-warping methods fail to avoid. Our method, dubbed Ray Augmentation (RayAug), achieves superior results on DTU and Blender datasets without requiring prior training, demonstrating its effectiveness in addressing the problem of sparse view reconstruction. Our pipeline is flexible and can be integrated into other implicit neural reconstruction methods for sparse views.
翻訳日:2024-03-08 17:46:16 公開日:2024-03-07
# 同一骨格を持つマルコフ同値類を数える固定パラメータ扱い可能なアルゴリズム

A Fixed-Parameter Tractable Algorithm for Counting Markov Equivalence Classes with the same Skeleton ( http://arxiv.org/abs/2310.04218v3 )

ライセンス: Link先を確認
Vidya Sagar Sharma(参考訳) 因果DAG(Bayesian Network)は、確率変数間の条件依存を符号化する一般的なツールである。 因果的DAGでは、ランダム変数はDAGの頂点としてモデル化され、全てのランダム変数は両親に条件付けられた祖先とは独立である。 しかし、同じ確率変数の集合上の2つの異なる因果DAGに対して、全く同じ条件依存の集合をエンコードすることが可能である。 そのような因果DAGはマルコフ同値であるとされ、マルコフ同値DAGの同値類はマルコフ同値類(Markov Equivalent Classs、MECs)として知られている。 MECの美しい組合せ的特徴はここ数十年で開発され、特に同じMEC内のすべてのDAGは、同じ「スケルトン」と v-構造($a\rightarrow b \leftarrow c$ という形に誘導される部分グラフ)を持つ必要があることが知られている。 これらの組合せ的特徴付けは、いくつかの自然アルゴリズム的問題も示唆する。 入力として無向グラフ$G$を与えられたとき、マルコフ同値類がスケルトン$G$を持つものはいくつあるか? この数年間、多くの作業が、これや他の密接に関連する問題に費やされてきた。 しかしながら、我々の知る限りでは、問題の多項式時間アルゴリズムは未知である。 本稿では,木幅のパラメータと入力グラフの最大値である$g$を用いて,上記の問題に対する固定パラメータの扱い可能なアルゴリズムを提供することにより,この目標に向けて前進する。 我々の研究の主な技術的要素は、私たちがシャドウと呼ぶ構造であり、MECの組合せ的特徴によって課される長距離制約の「局所的な記述」を作成することができる。

Causal DAGs (also known as Bayesian networks) are a popular tool for encoding conditional dependencies between random variables. In a causal DAG, the random variables are modeled as vertices in the DAG, and it is stipulated that every random variable is independent of its ancestors conditioned on its parents. It is possible, however, for two different causal DAGs on the same set of random variables to encode exactly the same set of conditional dependencies. Such causal DAGs are said to be Markov equivalent, and equivalence classes of Markov equivalent DAGs are known as Markov Equivalent Classes (MECs). Beautiful combinatorial characterizations of MECs have been developed in the past few decades, and it is known, in particular that all DAGs in the same MEC must have the same "skeleton" (underlying undirected graph) and v-structures (induced subgraph of the form $a\rightarrow b \leftarrow c$). These combinatorial characterizations also suggest several natural algorithmic questions. One of these is: given an undirected graph $G$ as input, how many distinct Markov equivalence classes have the skeleton $G$? Much work has been devoted in the last few years to this and other closely related problems. However, to the best of our knowledge, a polynomial time algorithm for the problem remains unknown. In this paper, we make progress towards this goal by giving a fixed parameter tractable algorithm for the above problem, with the parameters being the treewidth and the maximum degree of the input graph $G$. The main technical ingredient in our work is a construction we refer to as shadow, which lets us create a "local description" of long-range constraints imposed by the combinatorial characterizations of MECs.
翻訳日:2024-03-08 17:45:56 公開日:2024-03-07
# コンテンツモデレーションに大規模言語モデルを適用する - データエンジニアリングと教師付き微調整の落とし穴-

Adapting Large Language Models for Content Moderation: Pitfalls in Data Engineering and Supervised Fine-tuning ( http://arxiv.org/abs/2310.03400v2 )

ライセンス: Link先を確認
Huan Ma, Changqing Zhang, Huazhu Fu, Peilin Zhao, Bingzhe Wu(参考訳) 今日では何十億という人々がコミュニケーションに携わり、毎日インターネット上で意見を表明している。 残念なことに、これらすべての表現は友好的あるいは準拠的であり、コンテンツモデレーションは必須のタスクである。 一般的なアプローチは、コンテンツを分類するために差別モデルを使用することであるが、この方法は厳密なデータエンジニアリングを必要とすることが多い。 近年、LLM(Large Language Models)の開発が成功し、LLMベースの手法が様々な分野のタスクを扱うための実現可能なソリューションとなった。 ファンデーションモデルの知識のおかげで、これらのファンデーションモデルを微調整することで、限られたデータでより堅牢なプライベートデプロイモデルを開発することができます。 さらに、生成モデルとして、レビュープロセスの詳細な分析を提供し、解釈可能性を高めることができる。 本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。 具体的には、コンテンツモデレーションを例として、識別モデルと生成モデルの違いについて論じる。 さらに,LLMの微調整中に推論プロセスを組み込むことで,モデルが配置中に推論プロセスを直接出力できない場合でも,オーバーフィッティングを効果的に軽減できることを明らかにした。 データ収集や構築からモデルトレーニングやオーバーフィッティング除去まで,垂直領域展開における微調整 LLM の完全なプロセスを提案する。 本論文では,研究プロセス全体と重要な成果を報告し,ドメイン固有の研究にプライベートにデプロイされたモデルを微調整している研究者に貴重な経験を提供することを期待する。

Nowadays, billions of people engage in communication and express their opinions on the internet daily. Unfortunately, not all of these expressions are friendly or compliant, making content moderation an indispensable task. A common approach is to use a discriminative model to classify the content, but this method often requires strict data engineering, otherwise it will face unacceptable overfitting. With the successful development of Large Language Models (LLMs) in recent years, LLM-based methods have become a feasible solution for handling tasks in various domains. Thanks to the knowledge of the foundation models, we can develop more robust privately deployed models with limited data via fine-tuning these foundation models. Moreover, as a generative model, it can provide detailed analysis of the review process, enhancing interpretability. In this paper, we introduce how to fine-tune a LLM model that can be privately deployed for content moderation. Specifically, we discuss the differences between discriminative and generative models using content moderation as an example. Additionally, we reveal that incorporating reasoning processes during the fine-tuning of LLMs can effectively alleviate overfitting, even if the model is not allowed to directly output reasoning processes during deployment. We present a complete process, from data collection and construction to model training and overfitting elimination, for fine-tuning LLMs in vertical domain deployments. We report the entire research process and the key findings in this paper, hoping to provide valuable experience for researchers who are fine-tuning privately deployed models in their domain-specific research.
翻訳日:2024-03-08 17:45:25 公開日:2024-03-07
# スパイキングニューラルネットワークの効果的なトレーニングのためのスパイク累積フォワード

Spike Accumulation Forwarding for Effective Training of Spiking Neural Networks ( http://arxiv.org/abs/2310.02772v5 )

ライセンス: Link先を確認
Ryuji Saiin, Tomoya Shirakawa, Sota Yoshihara, Yoshihide Sawada and Hiroyuki Kusumoto(参考訳) 本稿では、スパイキングニューラルネットワーク(SNN)、スパイク累積フォワード(SAF)をトレーニングするための新しいパラダイムを提案する。 SNNはエネルギー効率が高いが、訓練が難しいことが知られている。 その結果、多くの研究者がこの問題を解決するための様々な方法を提案しており、そのうちの1つは、時間によるオンライントレーニング(OTTT)が、メモリコストを抑えながら各ステップで推論できる方法である。 しかし、GPU上で効率よく計算するためには、OTTTはスパイク列車とフォワード中のスパイク列車の重み付け総和で操作する必要がある。 加えて、otttはスパイク表現との理論的一致が証明されていないが、代替訓練法であるスパイク表現との関係を示した。 提案手法は,SAFが前処理中の操作数を半減し,SAFがSpike RepresentationとOTTTと整合性があることを理論的に証明できる。 さらに,上記の内容を実験により確認し,精度を維持しつつ記憶時間とトレーニング時間を短縮できることを示した。

In this article, we propose a new paradigm for training spiking neural networks (SNNs), spike accumulation forwarding (SAF). It is known that SNNs are energy-efficient but difficult to train. Consequently, many researchers have proposed various methods to solve this problem, among which online training through time (OTTT) is a method that allows inferring at each time step while suppressing the memory cost. However, to compute efficiently on GPUs, OTTT requires operations with spike trains and weighted summation of spike trains during forwarding. In addition, OTTT has shown a relationship with the Spike Representation, an alternative training method, though theoretical agreement with Spike Representation has yet to be proven. Our proposed method can solve these problems; namely, SAF can halve the number of operations during the forward process, and it can be theoretically proven that SAF is consistent with the Spike Representation and OTTT, respectively. Furthermore, we confirmed the above contents through experiments and showed that it is possible to reduce memory and training time while maintaining accuracy.
翻訳日:2024-03-08 17:44:58 公開日:2024-03-07
# 最適トランスポート型対向ネットワークの解析と改善

Analyzing and Improving Optimal-Transport-based Adversarial Networks ( http://arxiv.org/abs/2310.02611v2 )

ライセンス: Link先を確認
Jaemoo Choi, Jaewoong Choi, Myungjoo Kang(参考訳) 最適輸送(ot)問題は、与えられたコスト関数を最小化しながら2つの分布を橋渡しする輸送計画を見つけることを目的としている。 OT理論は生成モデリングに広く利用されている。 当初、OT距離はデータと生成された分布の間の距離を評価する尺度として用いられてきた。 近年,データと先行分布間のOTトランスポートマップを生成モデルとして利用している。 これらのOTベースの生成モデルは、同様の敵の訓練目標を共有している。 本稿では,これらotベースの敵メソッドを一つのフレームワークで統一することから始める。 次に,この統一フレームワークの包括的分析を通じて,学習ダイナミクスにおける各コンポーネントの役割を解明する。 さらに,従来で最も優れたOTモデルを改善するための,単純だが斬新な手法を提案する。 直感的に,本手法では,生成した分布を段階的に洗練し,データ分布と漸進的に調整する。 提案手法はCIFAR-10では2.51点,CelebA-HQ-256では5.99点のFIDスコアを得た。

Optimal Transport (OT) problem aims to find a transport plan that bridges two distributions while minimizing a given cost function. OT theory has been widely utilized in generative modeling. In the beginning, OT distance has been used as a measure for assessing the distance between data and generated distributions. Recently, OT transport map between data and prior distributions has been utilized as a generative model. These OT-based generative models share a similar adversarial training objective. In this paper, we begin by unifying these OT-based adversarial methods within a single framework. Then, we elucidate the role of each component in training dynamics through a comprehensive analysis of this unified framework. Moreover, we suggest a simple but novel method that improves the previously best-performing OT-based model. Intuitively, our approach conducts a gradual refinement of the generated distribution, progressively aligning it with the data distribution. Our approach achieves a FID score of 2.51 on CIFAR-10 and 5.99 on CelebA-HQ-256, outperforming unified OT-based adversarial approaches.
翻訳日:2024-03-08 17:44:39 公開日:2024-03-07
# 雑音光素子を用いたフォトニックデバイスシミュレーション

Simulating photonic devices with noisy optical elements ( http://arxiv.org/abs/2311.10613v3 )

ライセンス: Link先を確認
Michele Vischi, Giovanni Di Bartolomeo, Massimiliano Proietti, Seid Koudia, Filippo Cerocchi, Massimiliano Dispenza and Angelo Bassi(参考訳) 量子コンピュータは本質的にノイズによって影響を受ける。 長期的な誤り訂正符号では、物理的な量子ビットを増やすコストでノイズが考慮されるが、近い将来、あらゆる量子アルゴリズムの性能をテストし、ノイズの存在下でシミュレートする必要がある。 ノイズがハードウェアに作用するので、量子アルゴリズムの古典的なシミュレーションは、計算に使用するプラットフォームに依存すべきではない。 本研究では,最近提案するノイズゲート法を適用し,デュアルレール方式で記述されたノイズ光回路を効率的にシミュレートする。 状態ベクトルの進化は、密度行列フレームワークへのマッピングを必要とせずに直接シミュレートされる。 特に,ゲートベースと測定ベースの両方の量子コンピューティングモデルで本手法を検証したところ,アプローチは非常に汎用性が高いことがわかった。 また,max-2カット問題を解くために,フォトニック変分量子アルゴリズムの性能を評価する。 特に、最大$p \sim 10^{-3}$の光子損失に対して弾力性のあるアンサッツを設計し、シミュレートします。

Quantum computers are inherently affected by noise. While in the long-term error correction codes will account for noise at the cost of increasing physical qubits, in the near-term the performance of any quantum algorithm should be tested and simulated in the presence of noise. As noise acts on the hardware, the classical simulation of a quantum algorithm should not be agnostic on the platform used for the computation. In this work, we apply the recently proposed noisy gates approach to efficiently simulate noisy optical circuits described in the dual rail framework. The evolution of the state vector is simulated directly, without requiring the mapping to the density matrix framework. Notably, we test the method on both the gate-based and measurement-based quantum computing models, showing that the approach is very versatile. We also evaluate the performance of a photonic variational quantum algorithm to solve the MAX-2-CUT problem. In particular we design and simulate an ansatz which is resilient to photon losses up to $p \sim 10^{-3}$ making it relevant for near term applications.
翻訳日:2024-03-08 17:39:51 公開日:2024-03-07
# RED-DOT:関連証拠検出によるマルチモーダルファクトチェック

RED-DOT: Multimodal Fact-checking via Relevant Evidence Detection ( http://arxiv.org/abs/2311.09939v2 )

ライセンス: Link先を確認
Stefanos-Iordanis Papadopoulos, Christos Koutlis, Symeon Papadopoulos, Panagiotis C. Petrantonakis(参考訳) オンライン誤報は、本質的には多様であり、テキストと付随する画像の誤認によって引き起こされる。 ファクトチェックプロセスをサポートするために、研究者は、最近、検査中の画像テキストペアに関連する外部情報、証拠を収集、分析する自動マルチモーダル手法を開発した。 しかし、以前の研究は、Webから収集された外部情報はすべて関連していると仮定していた。 本研究では,各証拠が関連しているかを判断し,その主張を支持するか,あるいは反論する「関連証拠検出(red)」モジュールを導入する。 具体的には、関連エビデンス検出指向変換器(RED-DOT)を開発し、複数のアーキテクチャのバリエーション(例:シングルまたはダブルステージ)とメカニズム(例:「誘導注意」)を探索する。 大規模なアブレーションと比較実験により、RED-DOTはVERITEベンチマークにおける最先端(SotA)よりも33.7%大きな改善を達成している。 以上の結果から, RED-DOT は NewsCLIPings+ の SotA を最大3% 越える結果となり, 多数の証拠や複数のバックボーンエンコーダが不要となった。 コードはhttps://github.com/stevejpapad/relevant-evidence-detectionでリリースします。

Online misinformation is often multimodal in nature, i.e., it is caused by misleading associations between texts and accompanying images. To support the fact-checking process, researchers have been recently developing automatic multimodal methods that gather and analyze external information, evidence, related to the image-text pairs under examination. However, prior works assumed all external information collected from the web to be relevant. In this study, we introduce a "Relevant Evidence Detection" (RED) module to discern whether each piece of evidence is relevant, to support or refute the claim. Specifically, we develop the "Relevant Evidence Detection Directed Transformer" (RED-DOT) and explore multiple architectural variants (e.g., single or dual-stage) and mechanisms (e.g., "guided attention"). Extensive ablation and comparative experiments demonstrate that RED-DOT achieves significant improvements over the state-of-the-art (SotA) on the VERITE benchmark by up to 33.7%. Furthermore, our evidence re-ranking and element-wise modality fusion led to RED-DOT surpassing the SotA on NewsCLIPings+ by up to 3% without the need for numerous evidence or multiple backbone encoders. We release our code at: https://github.com/stevejpapad/relevant-evidence-detection
翻訳日:2024-03-08 17:39:34 公開日:2024-03-07
# 自然言語立位指示の文脈におけるユーザ要求の解釈

Interpreting User Requests in the Context of Natural Language Standing Instructions ( http://arxiv.org/abs/2311.09796v2 )

ライセンス: Link先を確認
Nikita Moghe and Patrick Xia and Jacob Andreas and Jason Eisner and Benjamin Van Durme and Harsh Jhamtani(参考訳) 自然言語インタフェースのユーザは、通常、Large Language Models (LLMs) を使っており、しばしば同様の要求を行うたびに好みを繰り返す必要がある。 llmベースの対話モデリングでは、永続的なユーザ制約と選好 -- 総称してスタンディングインストラクション -- を、そのようなインターフェースのための追加のコンテキストとして記述する。 例えば、ユーザーが「お腹がすいた」と言うと、ペルシャ料理の嗜好がLLMプロンプトに自動的に追加され、関連するレストランの検索に影響を及ぼす。 NLSIは17のドメインにまたがる2.4K以上の対話からなる言語間データセットで、各対話はユーザプロファイル(ユーザ固有のスタンディング命令のセット)と対応する構造化表現(API呼び出し)とがペアリングされる。 NLSIの鍵となる課題は、ある対話に適用可能なスタンディング命令のサブセットを特定することである。 NLSIには、単純な好みから、ユーザーがイベントのチケットを予約しているたびにホテルの検索をトリガーするといった相互依存的な指示まで、さまざまな現象が含まれている。 大規模言語モデルと各種検索アプローチによるプロンプトを用いてnlsi実験を行い,最大44.7%の精度でapi予測を行う。 以上より,関連するスタンディング命令とそのapi呼び出しへの解釈を識別する上での課題を示す。

Users of natural language interfaces, generally powered by Large Language Models (LLMs),often must repeat their preferences each time they make a similar request. We describe an approach to LLM-based dialogue modeling in which persistent user constraints and preferences -- collectively termed standing instructions -- as additional context for such interfaces. For example, when a user states "I'm hungry", a previously expressed preference for Persian food can be automatically added to the LLM prompt, influencing the search for relevant restaurants. We develop NLSI, a language-to-program dataset consisting of over 2.4K dialogues spanning 17 domains, where each dialogue is paired with a user profile (a set of users specific standing instructions) and corresponding structured representations (API calls). A key challenge in NLSI is to identify which subset of the standing instructions is applicable to a given dialogue. NLSI contains diverse phenomena, from simple preferences to interdependent instructions such as triggering a hotel search whenever the user is booking tickets to an event. We conduct experiments on NLSI using prompting with large language models and various retrieval approaches, achieving a maximum of 44.7% exact match on API prediction. Our results demonstrate the challenges in identifying the relevant standing instructions and their interpretation into API calls.
翻訳日:2024-03-08 17:39:12 公開日:2024-03-07
# リモートワークの増加期における従業員の現場での働き方

What Attracts Employees to Work Onsite in Times of Increased Remote Working? ( http://arxiv.org/abs/2311.09232v2 )

ライセンス: Link先を確認
Darja Smite, Eriks Klotins, Nils Brede Moe(参考訳) 新型コロナウイルスのパンデミックは、オフィスの存在に対する態度を不可逆的に変えた。 これまでリモートワーカーは懐疑と不信に満ちていたが、今日ではリモートワークを禁止している企業にも当てはまる。 多くのワークスペースは空です。 本稿では,8社(ericsson, knowit, sparebank 1 utvikling, spotify, storebrand, telenor, company-x, company-y, and their sites in sweden, norway and the uk)におけるオフィスの役割,企業方針,およびリモートワークに関する行動について考察する。 私たちの発見は2倍です。 まず、企業が実際にオフィスの存在に悩まされており、企業スペース(35-67%)が未利用であることがわかりました。 第2に,オフィスの存在動機はコネクティビティとコミュニティであり,それに続く物質提供,選好,義務であることがわかった。 最後に、現場作業を促進するための実行可能なアドバイスをまとめた。これは、他の多くの企業がオフィスでの生活を回復するのに役立ちそうだ。

COVID-19 pandemic has irreversibly changed the attitude towards office presence. While previously remote workers were met with skepticism and distrust, today the same applies to companies prohibiting remote working. Albeit many workspaces are half empty. In this paper, we offer insights into the role of the office, corporate policies and actions regarding remote work in eight companies: Ericsson, Knowit, SpareBank 1 Utvikling, Spotify, Storebrand, Telenor, Company-X, Company-Y, and their sites in Sweden, Norway and the UK. Our findings are twofold. First, we found that companies indeed struggle with office presence and a large share of corporate space (35-67%) is underutilized. Second, we found that the main motivator for office presence is Connection and community, followed by Material offerings, Preference and Duty. Finally, we summarize actionable advice to promote onsite work, which is likely to help many other companies to rejuvenate life in their offices.
翻訳日:2024-03-08 17:38:49 公開日:2024-03-07
# SkelVIT:軽量骨格型行動認識システムのための視覚変換器のコンセンサス

SkelVIT: Consensus of Vision Transformers for a Lightweight Skeleton-Based Action Recognition System ( http://arxiv.org/abs/2311.08094v2 )

ライセンス: Link先を確認
Ozge Oztimur Karadag(参考訳) スケルトンに基づく行動認識は、視点や照明の変化に頑健であり、その処理はビデオフレームの処理よりもはるかに効率的であるため、多くの研究者の注目を集めている。 深層学習モデルの出現に伴い、擬似画像形式で骨格データを表現し、CNNを行動認識に適用することが非常に一般的になった。 その後、研究は擬似画像の形成に有効な方法を見つけることに集中した。 近年、アテンションネットワーク、特にトランスフォーマーは様々な視覚問題に有望な結果をもたらしている。 本研究では,骨格型行動認識におけるVITの有効性について検討し,擬似画像表現方式における頑健性について検討した。 この目的のために、擬似画像の集合を形成する3レベルアーキテクチャであるSkelVitが提案され、それぞれの表現に分類器を適用し、結果を組み合わせて最終的なアクションクラスを見つける。 SkelVitの性能は一連の実験を通して徹底的に検証される。 まず,システムの表現に対する感度を,最先端の2つの擬似画像表現法と比較することにより検討する。 次に、CNNとVITによってSkelVitの分類器を2つの実験装置で実現し、その性能を比較する。 最終実験では,異なる数の分類器を用いたモデルを適用することにより,分類器の組み合わせの寄与を検証した。 実験により,提案方式の軽量化が最先端手法よりも良好な結果が得られることを明らかにした。 また、視覚トランスフォーマーはcnnに比べて初期擬似画像表現に対する感度が低いことも観察された。 それでも、視覚変換器であっても、分類器のコンセンサスにより認識性能をさらに向上させることができる。

Skeleton-based action recognition receives the attention of many researchers as it is robust to viewpoint and illumination changes, and its processing is much more efficient than the processing of video frames. With the emergence of deep learning models, it has become very popular to represent the skeleton data in pseudo-image form and apply CNN for action recognition. Thereafter, studies concentrated on finding effective methods for forming pseudo-images. Recently, attention networks, more specifically transformers have provided promising results in various vision problems. In this study, the effectiveness of VIT for skeleton-based action recognition is examined and its robustness on the pseudo-image representation scheme is investigated. To this end, a three-level architecture, SkelVit is proposed, which forms a set of pseudo images, applies a classifier on each of the representations, and combines their results to find the final action class. The performance of SkelVit is examined thoroughly via a set of experiments. First, the sensitivity of the system to representation is investigated by comparing it with two of the state-of-the-art pseudo-image representation methods. Then, the classifiers of SkelVit are realized in two experimental setups by CNNs and VITs, and their performances are compared. In the final experimental setup, the contribution of combining classifiers is examined by applying the model with a different number of classifiers. Experimental studies reveal that the proposed system with its lightweight representation scheme achieves better results than the state-of-the-art methods. It is also observed that the vision transformer is less sensitive to the initial pseudo-image representation compared to CNN. Nevertheless, even with the vision transformer, the recognition performance can be further improved by the consensus of classifiers.
翻訳日:2024-03-08 17:38:28 公開日:2024-03-07
# 記事推薦のための大規模言語モデルを用いたユーザビューイングフローのモデル化

Modeling User Viewing Flow Using Large Language Models for Article Recommendation ( http://arxiv.org/abs/2311.07619v2 )

ライセンス: Link先を確認
Zhenghao Liu, Zulong Chen, Moufeng Zhang, Shaoyang Duan, Hong Wen, Liangyue Li, Nan Li, Yu Gu and Ge Yu(参考訳) 本稿では,ユーザ毎の嗜好とユーザクリック記事からの即時関心をモデル化する,記事推薦タスクのためのユーザビューイングフローモデリング(SINGLE)手法を提案する。 具体的には,まず,ユーザの関心を要約して記事の推薦を行うために,ユーザ定数視聴フローモデリング手法を用いる。 この場合、大言語モデル(llm)を使用して、以前クリックした記事(スキルや位置など)から一定のユーザー嗜好を捉える。 そして,ユーザクリック記事履歴と候補記事とのインタラクションを構築するために,ユーザ・インスタント・ビューング・フロー・モデリング手法を設計する。 ユーザがクリックした記事の表現を注意深く読み出し、ユーザの異なる関心のビューを学習して候補記事にマッチさせることを目的としている。 Alibaba Technology Association(ATA)のWebサイトでの実験結果は、オンラインA/Bテストにおける以前のベースラインモデルよりも2.4%改善されたSINGLEの利点を示している。 さらなる分析により,singleは,ユーザの異なる記事閲覧行動を模倣し,ユーザの興味に合わせてより適切で多様な記事を推薦することで,よりカスタマイズされたレコメンデーションシステムを構築することができることを示した。

This paper proposes the User Viewing Flow Modeling (SINGLE) method for the article recommendation task, which models the user constant preference and instant interest from user-clicked articles. Specifically, we first employ a user constant viewing flow modeling method to summarize the user's general interest to recommend articles. In this case, we utilize Large Language Models (LLMs) to capture constant user preferences from previously clicked articles, such as skills and positions. Then we design the user instant viewing flow modeling method to build interactions between user-clicked article history and candidate articles. It attentively reads the representations of user-clicked articles and aims to learn the user's different interest views to match the candidate article. Our experimental results on the Alibaba Technology Association (ATA) website show the advantage of SINGLE, achieving a 2.4% improvement over previous baseline models in the online A/B test. Our further analyses illustrate that SINGLE has the ability to build a more tailored recommendation system by mimicking different article viewing behaviors of users and recommending more appropriate and diverse articles to match user interests.
翻訳日:2024-03-08 17:38:02 公開日:2024-03-07
# 商空間量子符号

Quotient Space Quantum Codes ( http://arxiv.org/abs/2311.07265v4 )

ライセンス: Link先を確認
Jing-Lei Xia(参考訳) 加法符号といくつかの非加法符号はスタビライザ g の1つの不変部分空間と複数の不変部分空間を用いて量子符号を構築するため、不変部分空間の選択が鍵となる。 本文では,この問題に必要かつ十分な条件を提供し,量子符号を構成するための商空間符号を初めて確立する。 この新しいコードは、付加符号とコードワード安定化符号を統一し、古典的なコードワードを送信できる。 量子符号の新しい境界も提示され、量子シングルトン境界の簡単な証明が提供される。 商空間アプローチは、量子誤り訂正符号の研究に簡潔で明確な数学的形式を提供する。

Additive codes and some nonadditive codes use the single and multiple invariant subspaces of the stabilizer G to construct quantum codes, respectively, so the selection of invariant subspaces is a key issue. In this letter, I provide the necessary and sufficient conditions for this problem and, for the first time, establish the quotient space codes to construct quantum codes. This new code unifies additive codes and codeword stabilized codes and can transmit classical codewords. New bounds for quantum codes are presented also, and a simple proof of the quantum Singleton bound is provided. The quotient space approach offers a concise and clear mathematical form for the study of quantum error-correcting codes.
翻訳日:2024-03-08 17:37:36 公開日:2024-03-07
# LLMは単純なルールに従うことができるか?

Can LLMs Follow Simple Rules? ( http://arxiv.org/abs/2311.04235v2 )

ライセンス: Link先を確認
Norman Mu, Sarah Chen, Zifan Wang, Sizhe Chen, David Karamardian, Lulwa Aljeraisy, Basel Alomair, Dan Hendrycks, David Wagner(参考訳) LLM(Large Language Models)は,実世界の責任を増大させると同時に展開されるため,これらのシステムの振る舞いを信頼性の高い方法で特定・制約できることが重要である。 モデル開発者は、"乱用コンテンツを生成しない"など、モデルの明示的なルールを設定したがるかもしれませんが、これらはジェイルブレイクのテクニックによって回避されます。 既存のLSMに対する敵の攻撃と防御の評価には、高額な手作業によるレビューまたは信頼性の低いヒューリスティックチェックが必要である。 本稿では,llmsにおけるルール追従能力を測定するためのプログラムフレームワークであるルール追従言語評価シナリオ(rules)を提案する。 ルールは14の単純なテキストシナリオから成り、モデルがユーザと対話しながらさまざまなルールに従うように指示される。 各シナリオにはプログラムによる評価機能があり、モデルが会話におけるルールを破ったかどうかを判断する。 プロプライエタリでオープンなモデルの評価から、現在のモデルのほとんどはシナリオルールに従うのに苦労しています。 また,単純な最適化攻撃では,テストケースの障害率を大幅に向上できることを示す。 テストタイムステアリングと教師付き微調整という,改善のための潜在的な2つの道を探究する。

As Large Language Models (LLMs) are deployed with increasing real-world responsibilities, it is important to be able to specify and constrain the behavior of these systems in a reliable manner. Model developers may wish to set explicit rules for the model, such as "do not generate abusive content", but these may be circumvented by jailbreaking techniques. Existing evaluations of adversarial attacks and defenses on LLMs generally require either expensive manual review or unreliable heuristic checks. To address this issue, we propose Rule-following Language Evaluation Scenarios (RuLES), a programmatic framework for measuring rule-following ability in LLMs. RuLES consists of 14 simple text scenarios in which the model is instructed to obey various rules while interacting with the user. Each scenario has a programmatic evaluation function to determine whether the model has broken any rules in a conversation. Our evaluations of proprietary and open models show that almost all current models struggle to follow scenario rules, even on straightforward test cases. We also demonstrate that simple optimization attacks suffice to significantly increase failure rates on test cases. We conclude by exploring two potential avenues for improvement: test-time steering and supervised fine-tuning.
翻訳日:2024-03-08 17:37:10 公開日:2024-03-07
# 光キャビティ内における量子エミッタのパーセル修飾ドップラー冷却

Purcell modified Doppler cooling of quantum emitters inside optical cavities ( http://arxiv.org/abs/2311.04129v3 )

ライセンス: Link先を確認
Julian Lyne, Nico S. Bassler, Seong eun Park, Guido Pupillo, Claudiu Genes(参考訳) 原子または誘電体粒子の標準キャビティ冷却は、高精細なキャビティにおける分散光学力の作用に基づいている。 本稿では,標準ドップラー冷却法に類似したキャビティ損失を特徴とする相補的な構造について検討する。 単一2レベルエミッタの場合、大きな協調性限界における自発的エミッタのパーセル増強から冷却速度の修正が得られる。 この機構は、クローズドトランジションのない量子エミッタを冷却することを目的としており、これは分子系の場合であり、パーセル効果は冷却サイクルから集団の損失を緩和することができる。 我々は, 弱い個々のカップリングによって制御される多数の粒子の場合に解析的定式化を拡張し, キャビティモードに集合的に強いパーセル強化を示す。

Standard cavity cooling of atoms or dielectric particles is based on the action of dispersive optical forces in high-finesse cavities. We investigate here a complementary regime characterized by large cavity losses, resembling the standard Doppler cooling technique. For a single two-level emitter a modification of the cooling rate is obtained from the Purcell enhancement of spontaneous emission in the large cooperativity limit. This mechanism is aimed at cooling of quantum emitters without closed transitions, which is the case for molecular systems, where the Purcell effect can mitigate the loss of population from the cooling cycle. We extend our analytical formulation to the many particle case governed by weak individual coupling but exhibiting collective strong Purcell enhancement to a cavity mode.
翻訳日:2024-03-08 17:36:50 公開日:2024-03-07
# 可視光状態における電圧制御光透過

Voltage-controlled extraordinary optical transmission in the visible regime ( http://arxiv.org/abs/2311.02949v2 )

ライセンス: Link先を確認
Hira Asif, Alpan Bek, Mehmet Emre Tasgin, Ramazan Sahin(参考訳) 集積フォトニック回路におけるコンポーネントの制御は、プログラム可能なデバイスの実現に不可欠である。 プラズモニックデバイスの動作帯域幅は、特に可視状態において、製造されると一般に調整できない。 ここでは、可視光における異常光伝送(EOT)のための装置の電気的制御を実証する。 一 ナノワイヤを介して印加されたバイアス電圧により、EOT装置の動作周波数を調整することができる。 (ii)または所定の周波数で、eot信号(インシデントフィールドに正規化)を連続的に調整することができる。例えば、$10^{-4}$から$0.4$である。 これは3階の等級変調深さに対応する。 ナノホールに埋め込まれた量子エミッタ~(QE)によって誘起されるファノ共鳴を利用する。 外部バイアス電圧はqe共鳴を調律する。 また,超短パルスによる表面プラズモンポラリトンの寿命延長についても検討した。 提案手法は, バイオセンシング, 高分解能イメージング, 分子分光法において, 集積フォトニック回路において, 実現可能かつコンパクトな素子となるEOT信号のアクティブ電子制御を実現する。

Control of components in integrated photonic circuits is crucial in achieving programmable devices. Operation bandwidth of a plasmonic device cannot be generally tuned once it is manufactured, especially in the visible regime. Here, we demonstrate the electrical control of such a device for extraordinary optical transmission~(EOT) in the visible regime. (i) Operation frequency of the EOT device can be tuned via a bias voltage applied through nanowires. (ii) Or, at a given frequency, the EOT signal (normalized to the incident field) can be tuned continuously, e.g., between $10^{-4}$ and $0.4$. This corresponds to a 3-orders of magnitude modulation depth. We utilize Fano resonances induced by a quantum emitter~(QE) that is embedded into the nanoholes. The external bias-voltage tunes QE's resonance. We also discuss the lifetime extensions of surface plasmon polaritons as a response to an ultra-short optical pulse. Our proposed method provides the active electronic control of EOT signal which makes it a feasible and compact element in integrated photonic circuits, for bio-sensing, high resolution imaging, and molecular spectroscopy applications.
翻訳日:2024-03-08 17:36:37 公開日:2024-03-07
# ChipNeMo: チップ設計のためのドメイン適応LDM

ChipNeMo: Domain-Adapted LLMs for Chip Design ( http://arxiv.org/abs/2311.00176v4 )

ライセンス: Link先を確認
Mingjie Liu, Teodor-Dumitru Ene, Robert Kirby, Chris Cheng, Nathaniel Pinckney, Rongjian Liang, Jonah Alben, Himyanshu Anand, Sanmitra Banerjee, Ismet Bayraktaroglu, Bonita Bhaskaran, Bryan Catanzaro, Arjun Chaudhuri, Sharon Clay, Bill Dally, Laura Dang, Parikshit Deshpande, Siddhanth Dhodhi, Sameer Halepete, Eric Hill, Jiashang Hu, Sumit Jain, Ankit Jindal, Brucek Khailany, George Kokai, Kishor Kunal, Xiaowei Li, Charley Lind, Hao Liu, Stuart Oberman, Sujeet Omar, Sreedhar Pratty, Jonathan Raiman, Ambar Sarkar, Zhengjiang Shao, Hanfei Sun, Pratik P Suthar, Varun Tej, Walker Turner, Kaizhe Xu, Haoxing Ren(参考訳) ChipNeMoは、産業用チップ設計のための大規模言語モデル(LLM)の適用を探求することを目的としている。 ドメイン適応型トークン化(Domain-adaptive tokenization)、ドメイン適応型継続事前トレーニング(Domain-adaptive continued pretraining)、ドメイン固有命令とのモデルアライメント、ドメイン適応型検索モデルなどです。 チップ設計のための3つのLLMアプリケーション(エンジニアリングアシスタントチャットボット、EDAスクリプト生成、バグ要約と解析)でこれらの手法を評価する。 評価の結果,言語モデルのドメイン適応型事前学習は,汎用能力の低下を伴わずに,ベースとなるLLaMA2に比べて,ドメイン関連下流タスクの性能が向上することが示された。 特に、私たちの最大のモデルであるChipNeMo-70Bは、エンジニアリングアシスタントチャットボットとEDAスクリプト生成という2つのユースケースにおいて、高い能力を持つGPT-4よりも優れています。 これらの結果は、特殊アプリケーションにおける大規模言語モデルの有効性を高めるためのドメイン固有のカスタマイズの可能性を強調している。

ChipNeMo aims to explore the applications of large language models (LLMs) for industrial chip design. Instead of directly deploying off-the-shelf commercial or open-source LLMs, we instead adopt the following domain adaptation techniques: domain-adaptive tokenization, domain-adaptive continued pretraining, model alignment with domain-specific instructions, and domain-adapted retrieval models. We evaluate these methods on three selected LLM applications for chip design: an engineering assistant chatbot, EDA script generation, and bug summarization and analysis. Our evaluations demonstrate that domain-adaptive pretraining of language models, can lead to superior performance in domain related downstream tasks compared to their base LLaMA2 counterparts, without degradations in generic capabilities. In particular, our largest model, ChipNeMo-70B, outperforms the highly capable GPT-4 on two of our use cases, namely engineering assistant chatbot and EDA scripts generation, while exhibiting competitive performance on bug summarization and analysis. These results underscore the potential of domain-specific customization for enhancing the effectiveness of large language models in specialized applications.
翻訳日:2024-03-08 17:35:47 公開日:2024-03-07
# 常に晴れる日: 悪化タイプと重大度が悪天候の排除を全て認識する

Always Clear Days: Degradation Type and Severity Aware All-In-One Adverse Weather Removal ( http://arxiv.org/abs/2310.18293v2 )

ライセンス: Link先を確認
Yu-Wei Chen, Soo-Chang Pei(参考訳) 万一の悪天候除去は、画像復元に関する新たなトピックであり、複数の気象劣化を統一モデルで復元することを目的としており、課題は2つある。 まず、複数の気象条件によって形成されるターゲット分布におけるマルチドメインの特性を発見し、扱う。 第二に、異なる劣化に対する設計を効率的かつ効果的に行う。 この問題を解決するために、多くの先行研究は異なる気象タイプによって引き起こされるマルチドメインに焦点を当てている。 気象のタイプだけでなく,気象の重大さも,従来の手法では無視されている各気象ドメインにマルチドメインを導入することで,その性能をさらに制限している。 そこで本研究では,悪天候画像復元のための劣化型・重大度対応モデル「ユーティリティー」を提案する。 単一画像から気象情報を抽出するために,新しいMarginal Quality Ranking Loss (MQRL) を提案し,Contrastive Loss (CL) を用いて気象の重症度と型抽出を誘導し,MHCA (Multi-Head Cross Attention) やLG-Global Adaptive Instance Normalization (LG-AdaIN) などの新しい手法の袋を利用して空間的変動気象劣化を効率的に復元する。 提案手法は, 異なる天候除去タスクにおいて, 主観的かつ客観的に性能を向上し, より少ないモデルパラメータを享受できる。 提案手法では,未検出の複合劣化画像の復元も可能であり,復元レベルを調整できる。 実装コードと事前トレーニングされたウェイトは、 \url{https://github.com/fordevoted/UtilityIR} で利用可能になる。

All-in-one adverse weather removal is an emerging topic on image restoration, which aims to restore multiple weather degradations in an unified model, and the challenge are twofold. First, discover and handle the property of multi-domain in target distribution formed by multiple weather conditions. Second, design efficient and effective operations for different degradations. To resolve this problem, most prior works focus on the multi-domain caused by different weather types. Inspired by inter\&intra-domain adaptation literature, we observe that not only weather type but also weather severity introduce multi-domain within each weather type domain, which is ignored by previous methods, and further limit their performance. To this end, we propose a degradation type and severity aware model, called UtilityIR, for blind all-in-one bad weather image restoration. To extract weather information from single image, we propose a novel Marginal Quality Ranking Loss (MQRL) and utilize Contrastive Loss (CL) to guide weather severity and type extraction, and leverage a bag of novel techniques such as Multi-Head Cross Attention (MHCA) and Local-Global Adaptive Instance Normalization (LG-AdaIN) to efficiently restore spatial varying weather degradation. The proposed method can outperform the state-of-the-art methods subjectively and objectively on different weather removal tasks with a large margin, and enjoy less model parameters. Proposed method even can restore unseen combined multiple degradation images, and modulate restoration level. Implementation code and pre-trained weights will be available at \url{https://github.com/fordevoted/UtilityIR}
翻訳日:2024-03-08 17:35:26 公開日:2024-03-07
# スケーリング学習最適化は価値があるか? VeLO 4000 TPU ヶ月の価値評価

Is Scaling Learned Optimizers Worth It? Evaluating The Value of VeLO's 4000 TPU Months ( http://arxiv.org/abs/2310.18191v2 )

ライセンス: Link先を確認
Fady Rezk, Antreas Antoniou, Henry Gouk, Timothy Hospedales(参考訳) 汎用的な"基礎的"オプティマイザをこれまでで最大規模のトレーニングの試みであるVeLO(versatile learned optimizationr)を分析した。 VeLOは4000 TPUヶ月以上を使用して数千の機械学習タスクをトレーニングし、ハイパーパラメータフリーで新しい問題に一般化し、Adamのような業界標準を上回ったオプティマイザの開発を目標とした。 MLCommonsオプティマイザベンチマークスイート上で,VeLOを独立に評価する。 初期の主張とは対照的に,(1)VeLOは問題固有のチューニングを必要とする臨界ハイパーパラメータを持ち,(2)VeLOはソリューションの品質において必ずしも競合より優れておらず,(3)VeLOはトレーニング損失を減らすために競合するオプティマイザよりも高速ではない。 これらの観察は、ヴェロの一般性とそれを訓練する投資の価値に疑問を投げかける。

We analyze VeLO (versatile learned optimizer), the largest scale attempt to train a general purpose "foundational" optimizer to date. VeLO was trained on thousands of machine learning tasks using over 4000 TPU months with the goal of producing an optimizer capable of generalizing to new problems while being hyperparameter free, and outperforming industry standards such as Adam. We independently evaluate VeLO on the MLCommons optimizer benchmark suite. We find that, contrary to initial claims: (1) VeLO has a critical hyperparameter that needs problem-specific tuning, (2) VeLO does not necessarily outperform competitors in quality of solution found, and (3) VeLO is not faster than competing optimizers at reducing the training loss. These observations call into question VeLO's generality and the value of the investment in training it.
翻訳日:2024-03-08 17:34:47 公開日:2024-03-07
# コントラスト活性化付加による操舵ラマ2

Steering Llama 2 via Contrastive Activation Addition ( http://arxiv.org/abs/2312.06681v3 )

ライセンス: Link先を確認
Nina Rimsky, Nick Gabrieli, Julian Schulz, Meg Tong, Evan Hubinger, Alexander Matt Turner(参考訳) 本稿では,前方通過時のアクティベーションを変更することで,言語モデルをステアリングする革新的な手法であるContrastive Activation Addition (CAA)を紹介する。 CAAは「ステアリングベクター」を計算し、事実と幻覚反応のような特定の行動の正と負の事例のペア間の残ストリームアクティベーションの差を平均化する。 推論中、これらのステアリングベクトルは、ユーザのプロンプト後のすべてのトークン位置に正あるいは負の係数で加算され、ターゲットの行動の度合いを正確に制御できる。 Llama 2 ChatにおけるCAAの有効性を,複数選択行動質問データセットとオープンエンド生成タスクを用いて評価した。 私たちはCAAがモデル動作を著しく変更し、微調整やシステムプロンプト設計といった従来の手法を駆使し、機能を最小限に抑えることを示した。 さらに,様々なアクティベーション空間解釈手法を用いて,CAAのメカニズムについて深い知見を得る。 CAAはモデル出力を正確に制御し、Large Language Models (LLMs) でどのようにハイレベルな概念が表現されるかを明らかにします。

We introduce Contrastive Activation Addition (CAA), an innovative method for steering language models by modifying their activations during forward passes. CAA computes "steering vectors" by averaging the difference in residual stream activations between pairs of positive and negative examples of a particular behavior, such as factual versus hallucinatory responses. During inference, these steering vectors are added at all token positions after the user's prompt with either a positive or negative coefficient, allowing precise control over the degree of the targeted behavior. We evaluate CAA's effectiveness on Llama 2 Chat using multiple-choice behavioral question datasets and open-ended generation tasks. We demonstrate that CAA significantly alters model behavior, is effective over and on top of traditional methods like finetuning and system prompt design, and minimally reduces capabilities. Moreover, we gain deeper insights into CAA's mechanisms by employing various activation space interpretation methods. CAA accurately steers model outputs and sheds light on how high-level concepts are represented in Large Language Models (LLMs).
翻訳日:2024-03-08 17:30:01 公開日:2024-03-07
# 古典的"schr\"odinger方程式の非古典力学の探求

Exploring the nonclassical dynamics of the "classical" Schr\"odinger equation ( http://arxiv.org/abs/2312.02977v2 )

ライセンス: Link先を確認
David Navia, \'Angel S. Sanz(参考訳) Schr\\odinger方程式における非線形性の導入は、文学において外部環境や平均場の作用を記述する効果的な方法として検討されてきた。 Here, in particular, we explore the nonlinear effects induced by subtracting a term proportional to Bohm's quantum potential to the usual (linear) Schr\"odinger equation, which generates the so-called "classical" Schr\"odinger equation. Although a simple nonlinear transformation allows us to recover the well-known classical Hamilton-Jacobi equation, by combining a series of analytical results (in the limiting cases) and simulations (whenever the analytical treatment is unaffordable), we find an analytical explanation to why the dynamics in the nonlinear "classical" regime is still strongly nonclassical. これは、対応する波動関数に付随するボヘミア軌道と、得られるべき古典軌道との1対1の比較を確立することでさらに明らかである。 これらの観測から、量子力学の真に特徴的な特徴であるコヒーレンスの痕跡を取り除くために、完全に古典的な状態への移行が余分な条件を必要とすることは明らかである。 この挙動は、自由伝播局所化粒子の分散、調和発振器、ヤングの2スリット実験の単純化版という3つのパラダイムケースで研究されている。

The introduction of nonlinearities in the Schr\"odinger equation has been considered in the literature as an effective manner to describe the action of external environments or mean fields. Here, in particular, we explore the nonlinear effects induced by subtracting a term proportional to Bohm's quantum potential to the usual (linear) Schr\"odinger equation, which generates the so-called "classical" Schr\"odinger equation. Although a simple nonlinear transformation allows us to recover the well-known classical Hamilton-Jacobi equation, by combining a series of analytical results (in the limiting cases) and simulations (whenever the analytical treatment is unaffordable), we find an analytical explanation to why the dynamics in the nonlinear "classical" regime is still strongly nonclassical. This is even more evident by establishing a one-to-one comparison between the Bohmian trajectories associated with the corresponding wave function and the classical trajectories that one should obtain. Based on these observations, it is clear that the transition to a fully classical regime requires extra conditions in order to remove any trace of coherence, which is the truly distinctive trait of quantum mechanics. This behavior is investigated in three paradigmatic cases, namely, the dispersion of a free propagating localized particle, the harmonic oscillator, and a simplified version of Young's two-slit experiment.
翻訳日:2024-03-08 17:29:03 公開日:2024-03-07
# 拡散雑音の特徴:高精度かつ高速な画像検出

Diffusion Noise Feature: Accurate and Fast Generated Image Detection ( http://arxiv.org/abs/2312.02625v2 )

ライセンス: Link先を確認
Yichi Zhang, Xiaogang Xu(参考訳) 生成モデルは、驚くほどリアルな画像を生成できる高度な段階に達した。 しかし、この顕著な生成能力は、誤った情報や誤解を広めるリスクも生んでいる。 特に、画像生成のための既存の画像検出器は、精度の低下や一般化の制限といった課題に遭遇する。 本稿では,生成画像の検出能力を高めるために,強力な一般化機能を備えた表現を求めることにより,この問題に対処する。 本研究により, 実画像と生成画像は, 事前学習した拡散モデル内の逆拡散過程に従えば, 遅延ガウス表現が異なることが明らかとなった。 この格差を克服することで、生成した画像の微妙なアーティファクトを増幅することができる。 この知見に基づいて,拡散雑音特徴(DNF)と呼ばれる新しい画像表現を導入する。 逆拡散過程中に発生する推定ノイズからDNFを抽出する。 DNFでトレーニングされたResNet50のような単純な分類器は、生成された画像を検出するための高い精度、堅牢性、一般化機能を達成する(対応する生成器は、分類器のトレーニング中に見られないデータセットや構造で構築される)。 4つのトレーニングデータセットと5つのテストセットを用いて実験を行った。

Generative models have reached an advanced stage where they can produce remarkably realistic images. However, this remarkable generative capability also introduces the risk of disseminating false or misleading information. Notably, existing image detectors for generated images encounter challenges such as low accuracy and limited generalization. This paper seeks to address this issue by seeking a representation with strong generalization capabilities to enhance the detection of generated images. Our investigation has revealed that real and generated images display distinct latent Gaussian representations when subjected to an inverse diffusion process within a pre-trained diffusion model. Exploiting this disparity, we can amplify subtle artifacts in generated images. Building upon this insight, we introduce a novel image representation known as Diffusion Noise Feature (DNF). DNF is extracted from the estimated noise generated during the inverse diffusion process. A simple classifier, e.g., ResNet50, trained on DNF achieves high accuracy, robustness, and generalization capabilities for detecting generated images (even the corresponding generator is built with datasets/structures that are not seen during the classifier's training). We conducted experiments using four training datasets and five testsets, achieving state-of-the-art detection performance.
翻訳日:2024-03-08 17:28:13 公開日:2024-03-07
# Dynamic Inertial Poser (DynaIP): スパース慣性センサを用いた人物姿勢推定のためのパートベースモーションダイナミクス学習

Dynamic Inertial Poser (DynaIP): Part-Based Motion Dynamics Learning for Enhanced Human Pose Estimation with Sparse Inertial Sensors ( http://arxiv.org/abs/2312.02196v2 )

ライセンス: Link先を確認
Yu Zhang, Songpengcheng Xia, Lei Chu, Jiarui Yang, Qi Wu, Ling Pei(参考訳) 本稿では,従来の合成データに依存する手法の欠点に対処するため,スパース慣性センサを用いた新しいポーズ推定手法を提案する。 様々なスケルトンフォーマットの実際の慣性モーションキャプチャデータを活用して、動きの多様性とモデルの一般化を改善している。 この方法は、慣性センサを用いた動的モーションキャプチャのための擬似速度回帰モデルと、身体とセンサデータを3つの領域に分割する部分ベースモデルという2つの革新的なコンポーネントを特徴としている。 このアプローチは、5つの公開データセットにわたる最先端モデルよりも優れたパフォーマンスを示し、特にDIP-IMUデータセットにおけるポーズエラーを19倍削減し、慣性センサーに基づく人間のポーズ推定を大幅に改善したことを示す。 我々のコードは {\url{https://github.com/dx118/dynaip}} で入手できる。

This paper introduces a novel human pose estimation approach using sparse inertial sensors, addressing the shortcomings of previous methods reliant on synthetic data. It leverages a diverse array of real inertial motion capture data from different skeleton formats to improve motion diversity and model generalization. This method features two innovative components: a pseudo-velocity regression model for dynamic motion capture with inertial sensors, and a part-based model dividing the body and sensor data into three regions, each focusing on their unique characteristics. The approach demonstrates superior performance over state-of-the-art models across five public datasets, notably reducing pose error by 19\% on the DIP-IMU dataset, thus representing a significant improvement in inertial sensor-based human pose estimation. Our codes are available at {\url{https://github.com/dx118/dynaip}}.
翻訳日:2024-03-08 17:27:56 公開日:2024-03-07
# 各テスト画像は、特定のプロンプトに値する:2次元医用画像分割のための連続的なテスト時間適応

Each Test Image Deserves A Specific Prompt: Continual Test-Time Adaptation for 2D Medical Image Segmentation ( http://arxiv.org/abs/2311.18363v2 )

ライセンス: Link先を確認
Ziyang Chen, Yiwen Ye, Mengkang Lu, Yongsheng Pan, Yong Xia(参考訳) 分布シフトは、異なる医療センターから取得した医療画像に広く存在し、実世界の応用に事前訓練されたセマンティックセグメンテーションモデルを展開する上で重要な障害となる。 テスト時間適応は、推論中にクロスドメイン分布シフトに取り組む際に有効であることが証明されている。 しかし、既存のほとんどの手法は、事前訓練されたモデルを更新することで適応し、一連の分散シフト(すなわち連続的なテスト時間適応設定の下で)に遭遇した場合にエラーの蓄積や破滅的な忘れをしがちである。 本稿では,これらのモデル更新に伴う課題を克服するために,事前学習したモデルを凍結し,バッチ正規化層の統計を整合させるために,各テスト画像に対する特定のプロンプトを訓練する視覚プロンプトベーステスト時間適応(vptta)法を提案する。 具体的には、少数のパラメータしか持たず、単一のイテレーションで効果的に訓練できる軽量な低周波プロンプトを提案する。 迅速な初期化を促進するため、我々はVPTTAをメモリバンクに装備し、現在のプロンプトの恩恵を受ける。 さらに、ソースとターゲット統計を混合してウォームアップ統計を構築し、トレーニングプロセスを容易にするウォームアップ機構を設計する。 2つの医用画像セグメンテーションベンチマークタスクにおける他の最先端手法よりもVPTTAの方が優れていることを示す。 事前トレーニング済みのソースモデルのコードと重みはhttps://github.com/Chen-Ziyang/VPTTAで公開されている。

Distribution shift widely exists in medical images acquired from different medical centres and poses a significant obstacle to deploying the pre-trained semantic segmentation model in real-world applications. Test-time adaptation has proven its effectiveness in tackling the cross-domain distribution shift during inference. However, most existing methods achieve adaptation by updating the pre-trained models, rendering them susceptible to error accumulation and catastrophic forgetting when encountering a series of distribution shifts (i.e., under the continual test-time adaptation setup). To overcome these challenges caused by updating the models, in this paper, we freeze the pre-trained model and propose the Visual Prompt-based Test-Time Adaptation (VPTTA) method to train a specific prompt for each test image to align the statistics in the batch normalization layers. Specifically, we present the low-frequency prompt, which is lightweight with only a few parameters and can be effectively trained in a single iteration. To enhance prompt initialization, we equip VPTTA with a memory bank to benefit the current prompt from previous ones. Additionally, we design a warm-up mechanism, which mixes source and target statistics to construct warm-up statistics, thereby facilitating the training process. Extensive experiments demonstrate the superiority of our VPTTA over other state-of-the-art methods on two medical image segmentation benchmark tasks. The code and weights of pre-trained source models are available at https://github.com/Chen-Ziyang/VPTTA.
翻訳日:2024-03-08 17:27:38 公開日:2024-03-07
# 量子回路のテストとデバッグ

Testing and Debugging Quantum Circuits ( http://arxiv.org/abs/2311.18202v2 )

ライセンス: Link先を確認
Sara Ayman Metwalli and Rodney Van Meter(参考訳) 本稿では,Amplitude Permutation, Phase Modulation, Amplitude Redistribution Circuit blocksの3種類の回路ブロックに着目し,量子回路をデバッグするプロセスフレームワークを提案する。 本研究は,各回路のユニークな特性に合わせた,特殊なデバッグアプローチの必要性に対処する。 振幅置換回路では,古典演算を模倣した振幅置換を補正する手法を提案する。 位相変調回路において,提案手法は量子計算に必要な位相変化の正確な校正を目標としている。 最も複雑な振幅再分配回路は、確率振幅を調整するための高度な方法を要求する。 この研究は、現在の方法論における重要なギャップを埋め、量子回路デバッギングの今後の進歩の基盤となる。 我々は、量子コンピューティングのユニークな要求に合わせて、包括的なユニットテストツール(Cirquo)とデバッギングアプローチを提案し、量子回路性能の最適化におけるその効果の実証的な証拠を提供する。 この研究は、堅牢な量子コンピューティングシステムとその応用を様々な領域で実現するための重要なステップである。

This paper introduces a process framework for debugging quantum circuits, focusing on three distinct types of circuit blocks: Amplitude Permutation, Phase Modulation, and Amplitude Redistribution circuit blocks. Our research addresses the critical need for specialized debugging approaches tailored to the unique properties of each circuit type. For Amplitude Permutation Circuits, we propose techniques to correct amplitude permutations mimicking classical operations. In phase modulation circuits, our proposed strategy targets the precise calibration of phase alterations essential for quantum computations. The most complex Amplitude Redistribution Circuits demand advanced methods to adjust probability amplitudes. This research bridges a vital gap in current methodologies and lays the groundwork for future advancements in quantum circuit debugging. Our contributions are twofold: We present a comprehensive unit testing tool (Cirquo) and debugging approaches tailored to the unique demands of quantum computing, and we provide empirical evidence of its effectiveness in optimizing quantum circuit performance. This work is a crucial step toward realizing robust quantum computing systems and their applications in various domains.
翻訳日:2024-03-08 17:27:10 公開日:2024-03-07
# 半教師付き学習と基礎モデルを用いた効率的な分布外検出

Efficient Out-of-Distribution Detection with Prototypical Semi-Supervised Learning and Foundation Models ( http://arxiv.org/abs/2311.17093v2 )

ライセンス: Link先を確認
Evelyn Mannix and Howard Bondell(参考訳) 本稿では,PAWS-VMKについて述べる。PAWS-VMKは,ニューラルネットワークのバックボーンとして凍結基盤モデルを利用するように設計されたコンピュータビジョンの分野における,プロトタイプ半教師付き学習の改良手法である。 本手法は, 半教師付き学習とアウト・オブ・ディストリビューション(OOD)の検出において, 従来の結果よりも優れており, 半教師付き学習法であるPAWS(Predicting View-Assignments With Support Samples)を改良した。 We introduce (1) parametric von-Mises Fisher Stochastic Neighbour Embedding (vMF-SNE) to pretrain the projection head using the high-quality embeddings of the foundation model; (2) a MixMatch inspired loss, where predictions across multiple views are averaged to provide a more reliable supervision signal compared to the consistency loss used in PAWS and (3) simple $k$-Means prototype selection (SKMPS), a technique that provides superior performance to other unsupervised label selection approaches in this context. PAWS-VMKは、クラス毎に4つのラベル付きインスタンスを持つCIFAR-10 (99.2%)とCIFAR-100 (89.8%)、クラス毎に2つのラベル付きインスタンスを持つFood-101 (90.1%)の半教師付き学習のベンチマークを新たに設定している。 また、PAWS-VMKは、CIFAR-10およびCIFAR-100 OpenOODベンチマークで93.1/98.0および95.2/96.3を達成し、この目的のために特別に設計されたメソッドと競合する方法で、OODサンプルを効率的に検出できる。

This paper describes PAWS-VMK, an improved approach to prototypical semi-supervised learning in the field of computer vision, specifically designed to utilize a frozen foundation model as the neural network backbone. This method outperforms previous results in semi-supervised learning and out-of-distribution (OOD) detection, improving upon the Predicting View-Assignments With Support Samples (PAWS) semi-supervised learning method. We introduce (1) parametric von-Mises Fisher Stochastic Neighbour Embedding (vMF-SNE) to pretrain the projection head using the high-quality embeddings of the foundation model; (2) a MixMatch inspired loss, where predictions across multiple views are averaged to provide a more reliable supervision signal compared to the consistency loss used in PAWS and (3) simple $k$-Means prototype selection (SKMPS), a technique that provides superior performance to other unsupervised label selection approaches in this context. PAWS-VMK sets new benchmarks in semi-supervised learning for CIFAR-10 (99.2%) and CIFAR-100 (89.8%) with four labelled instances per class, and Food-101 (90.1%) with two labelled instances per class. We also observe that PAWS-VMK can efficiently detect OOD samples in a manner that is competitive with specialised methods specifically designed for this purpose, achieving 93.1/98.0 and 95.2/96.3 on the CIFAR-10 and CIFAR-100 OpenOOD benchmarks.
翻訳日:2024-03-08 17:26:55 公開日:2024-03-07
# 選抜完全相補ラベルは多種分類の実用的弱監督である

The Selected-completely-at-random Complementary Label is a Practical Weak Supervision for Multi-class Classification ( http://arxiv.org/abs/2311.15502v2 )

ライセンス: Link先を確認
Wei Wang, Takashi Ishida, Yu-Jie Zhang, Gang Niu, Masashi Sugiyama(参考訳) 補完ラベル学習(complementary-label learning)は、各トレーニング例が1つまたは複数の補完ラベルに関連付けられている弱い教師付き学習問題である。 既存の一貫したアプローチは、補完ラベルの生成をモデル化する一様分布仮定や、非一様の場合の遷移行列を推定するための通常のラベル訓練セットに依存する。 しかし、どちらの条件も現実のシナリオでは満たされない。 本稿では,これらの条件に依存しない新しい一貫したアプローチを提案する。 正の未ラベル学習(PU)学習文献に着想を得て,予備ラベル学習におけるSelected Completely At Random仮定に基づくリスク推定手法を提案する。 次に,過度に適合する問題に対処するために,リスク修正手法を導入する。 さらに, 1-versus-rest 戦略を用いる場合, 相補的ラベル学習は負のラベル付きバイナリ分類問題として表現できることがわかった。 合成および実世界のベンチマークデータセットの大規模な実験結果から,提案手法が最先端手法よりも優れていることを示す。

Complementary-label learning is a weakly supervised learning problem in which each training example is associated with one or multiple complementary labels indicating the classes to which it does not belong. Existing consistent approaches have relied on the uniform distribution assumption to model the generation of complementary labels, or on an ordinary-label training set to estimate the transition matrix in non-uniform cases. However, either condition may not be satisfied in real-world scenarios. In this paper, we propose a novel consistent approach that does not rely on these conditions. Inspired by the positive-unlabeled (PU) learning literature, we propose an unbiased risk estimator based on the Selected Completely At Random assumption for complementary-label learning. We then introduce a risk-correction approach to address overfitting problems. Furthermore, we find that complementary-label learning can be expressed as a set of negative-unlabeled binary classification problems when using the one-versus-rest strategy. Extensive experimental results on both synthetic and real-world benchmark datasets validate the superiority of our proposed approach over state-of-the-art methods.
翻訳日:2024-03-08 17:26:07 公開日:2024-03-07
# 分割共形予測とベイズ深層学習を組み合わせた分散範囲について

On the Out-of-Distribution Coverage of Combining Split Conformal Prediction and Bayesian Deep Learning ( http://arxiv.org/abs/2311.12688v2 )

ライセンス: Link先を確認
Paul Scemama, Ariel Kapusta(参考訳) ベイズ深層学習と共形予測は、不確かさを伝達し、機械学習システムにおける安全性を高めるために用いられてきた2つの手法である。 ベイズ深層学習と分割共形予測の組み合わせと,この組み合わせが分布外範囲,特にマルチクラス画像分類にどのように影響するかに着目した。 モデルが概してキャリブレーション集合に不信感がある場合、結果の共形集合は単純な予測可能な集合に比べて分布外カバレッジが悪くなる可能性があることを示唆する。 逆に、モデルがキャリブレーションセットに自信過剰であれば、共形予測の使用は分散範囲を改善する可能性がある。 分割共形法とニューラルネットワークを併用した予測セットの評価を行った。 (i)確率勾配降下 (二)ディープアンサンブル、及び (iii)平均場変分推論。 その結果,ベイズ型深層学習モデルと分割共形予測を組み合わせると,分散範囲の削減などの意図しない結果が引き起こされる可能性が示唆された。

Bayesian deep learning and conformal prediction are two methods that have been used to convey uncertainty and increase safety in machine learning systems. We focus on combining Bayesian deep learning with split conformal prediction and how this combination effects out-of-distribution coverage; particularly in the case of multiclass image classification. We suggest that if the model is generally underconfident on the calibration set, then the resultant conformal sets may exhibit worse out-of-distribution coverage compared to simple predictive credible sets. Conversely, if the model is overconfident on the calibration set, the use of conformal prediction may improve out-of-distribution coverage. We evaluate prediction sets as a result of combining split conformal methods and neural networks trained with (i) stochastic gradient descent, (ii) deep ensembles, and (iii) mean-field variational inference. Our results suggest that combining Bayesian deep learning models with split conformal prediction can, in some cases, cause unintended consequences such as reducing out-of-distribution coverage.
翻訳日:2024-03-08 17:25:31 公開日:2024-03-07
# PatchCraft: 効率的なAI生成画像検出のためのテクスチャパッチの探索

PatchCraft: Exploring Texture Patch for Efficient AI-generated Image Detection ( http://arxiv.org/abs/2311.12397v3 )

ライセンス: Link先を確認
Nan Zhong, Yiran Xu, Sheng Li, Zhenxing Qian, Xinpeng Zhang(参考訳) 最近の生成モデルは、写真画像の生成において印象的な性能を示している。 人間は、そんな信じられないほどリアルなai画像と実際の画像とを区別できない。 AI生成画像は、ユビキタスな偽情報拡散につながる可能性がある。 したがって、AI生成画像を特定する検出器を開発するのは最も緊急である。 既存の検出器の多くは、目に見えない生成モデルよりも高い性能低下に悩まされている。 本稿では,多種多様な生成モデルにより生成された偽画像を識別できる,新しいAI生成画像検出器を提案する。 画像のテクスチャパッチは,画像の全体的意味情報と比較して,生成モデルが残した痕跡が多くなる傾向が観察された。 グローバルセマンティクス情報の消去とテクスチャパッチの強化を目的として,新しいsmash/reconstruction前処理を提案する。 さらに, 濃厚なテクスチャ領域の画素は, 粗悪なテクスチャ領域のピクセルよりも顕著な変動を示した。 現実的なリッチテクスチャ領域の合成は、既存の生成モデルにとってより困難であることが証明されている。 この原理に基づき,画像中のテクスチャ領域とテクスチャ領域間の画素間相関コントラストを利用して,検出性能をさらに向上させる。 さらに、既存のベースラインの有効性とアプローチを評価するために、17種類の事前生成モデルを含む包括的なAI生成画像検出ベンチマークを構築した。 我々のベンチマークはフォローアップ研究のリーダーボードを提供する。 その結果,本手法は最先端のベースラインよりも有意差が認められた。 私たちのプロジェクト: https://fdmas.github.io/aigcdetect

Recent generative models show impressive performance in generating photographic images. Humans can hardly distinguish such incredibly realistic-looking AI-generated images from real ones. AI-generated images may lead to ubiquitous disinformation dissemination. Therefore, it is of utmost urgency to develop a detector to identify AI generated images. Most existing detectors suffer from sharp performance drops over unseen generative models. In this paper, we propose a novel AI-generated image detector capable of identifying fake images created by a wide range of generative models. We observe that the texture patches of images tend to reveal more traces left by generative models compared to the global semantic information of the images. A novel Smash&Reconstruction preprocessing is proposed to erase the global semantic information and enhance texture patches. Furthermore, pixels in rich texture regions exhibit more significant fluctuations than those in poor texture regions. Synthesizing realistic rich texture regions proves to be more challenging for existing generative models. Based on this principle, we leverage the inter-pixel correlation contrast between rich and poor texture regions within an image to further boost the detection performance. In addition, we build a comprehensive AI-generated image detection benchmark, which includes 17 kinds of prevalent generative models, to evaluate the effectiveness of existing baselines and our approach. Our benchmark provides a leaderboard for follow-up studies. Extensive experimental results show that our approach outperforms state-of-the-art baselines by a significant margin. Our project: https://fdmas.github.io/AIGCDetect
翻訳日:2024-03-08 17:25:09 公開日:2024-03-07
# IEC-61850スマートグリッドにおける通信のSDNに基づく動的サイバーセキュリティフレームワーク

SDN-Based Dynamic Cybersecurity Framework of IEC-61850 Communications in Smart Grid ( http://arxiv.org/abs/2311.12205v2 )

ライセンス: Link先を確認
Mansi Girdhar, Junho Hong, Wencong Su, Akila Herath, Chen-Ching Liu(参考訳) 近年、重要なインフラと電力網が一連のサイバー攻撃を経験しており、一時的な大規模な停電につながっている。 ほとんどの変電所は無人で物理的なセキュリティ保護が制限されているため、電力網の変電所へのサイバー侵入はリスクをもたらす。 ソフトウェア定義ネットワーク(SDN)は現在,サブステーション自動化システムにおいて,OpenFlowプロトコルをベースとした一般的な仮想ネットワーク技術として広く利用されている。 しかし、sdnアーキテクチャのサイバー攻撃に対する感受性は近年、研究結果から明らかなように顕著に向上している。 これはSDNフレームワーク内でのサイバーセキュリティ侵害の可能性に対する懸念が高まっていることを示している。 本稿では、悪意のあるIEC 61850ベースの汎用オブジェクト指向サブステーションイベント(GOOSE)メッセージのデジタルサブステーションへの注入を検知・防止するハイブリッド侵入検知システム(IDS)統合SDNアーキテクチャを提案する。 さらに、このプログラムは障害の位置を特定し、緩和の一形態としてあるポートを無効にする。 さらに、デジタル変電所の機能を模倣したハードウェア・イン・ザ・ループ(hil)テストベッドを用いて実装例を実証し検証する。

In recent years, critical infrastructure and power grids have experienced a series of cyber-attacks, leading to temporary, widespread blackouts of considerable magnitude. Since most substations are unmanned and have limited physical security protection, cyber breaches into power grid substations present a risk. Nowadays, software-defined network (SDN), a popular virtual network technology based on the OpenFlow protocol is being widely used in the substation automation system. However, the susceptibility of SDN architecture to cyber-attacks has exhibited a notable increase in recent years, as indicated by research findings. This suggests a growing concern regarding the potential for cybersecurity breaches within the SDN framework. In this paper, we propose a hybrid intrusion detection system (IDS)-integrated SDN architecture for detecting and preventing the injection of malicious IEC 61850-based generic object-oriented substation event (GOOSE) messages in a digital substation. Additionally, this program locates the fault's location and, as a form of mitigation, disables a certain port. Furthermore, implementation examples are demonstrated and verified using a hardware-in-the-loop (HIL) testbed that mimics the functioning of a digital substation.
翻訳日:2024-03-08 17:24:47 公開日:2024-03-07
# 連続変数を用いた量子カーネル機械学習

Quantum Kernel Machine Learning With Continuous Variables ( http://arxiv.org/abs/2401.05647v2 )

ライセンス: Link先を確認
Laura J. Henderson, Rishi Goel, Sally Shrapnel(参考訳) 人気の高いqubitフレームワークは、量子カーネル機械学習に関する最近の研究を支配しており、表現性、学習可能性、一般化を特徴付けている。 まだ、連続変数(CV)量子コンピューティングプラットフォームに対するこれらの概念を理解するための比較フレームワークは存在しない。 本稿では,CV量子核を正則関数として表現し,この表現を用いていくつかの重要な理論的知見を提供する。 我々はすべてのcv量子カーネルの一般閉形式解を導出し、そのようなすべての核をガウス項と多項式項の積として表現できることを示す。 さらに、全ての量子カーネルの量子古典的分離を「星のランク」という階層的概念を通じて定量化する。 そして、GKP-ステートエンコーディングによって生成されるような無限星級数の核を、有限星級の核によって任意に近似できることを示す。 最後に, 単一モード転置フォック状態エンコーディングによる学習をシミュレートし, その効果を示す。 i) 特定のタスク(環状データセット)の精度は、星級によって増加する。 (ii)低適合モデルの場合、帯域幅ハイパーパラメータを増加させることで精度を向上させることができる。 (iii)過適合なノイズデータの場合、帯域幅を減少させると一般化が改善されるが、効果的な恒星ランクと量子長所のコストがかかる。

The popular qubit framework has dominated recent work on quantum kernel machine learning, with results characterising expressivity, learnability and generalisation. As yet, there is no comparative framework to understand these concepts for continuous variable (CV) quantum computing platforms. In this paper we represent CV quantum kernels as holomorphic functions and use this representation to provide several important theoretical insights. We derive a general closed form solution for all CV quantum kernels and show every such kernel can be expressed as the product of Gaussian and polynomial terms. Furthermore, we present quantification of a quantum-classical separation for all quantum kernels via a hierarchical notion of "stellar rank". We then prove kernels of infinite stellar rank, such as those generated by GKP-state encodings, can be approximated arbitrarily well by kernels of finite stellar rank. Finally, we simulate learning with a single-mode displaced Fock state encoding and show that (i) accuracy on our specific task (an annular data set) increases with stellar rank, (ii) for underfit models, accuracy can be improved by increasing a bandwidth hyperparameter, and (iii) for noisy data that is overfit, decreasing the bandwidth will improve generalisation but does so at the cost of effective stellar rank and thus quantum advantage.
翻訳日:2024-03-08 17:18:56 公開日:2024-03-07
# Er$^{3+}$:CaWO$_4$における光-RF変換

Opto-RF transduction in Er$^{3+}$:CaWO$_4$ ( http://arxiv.org/abs/2401.03845v2 )

ライセンス: Link先を確認
Thierry Chaneli\`ere, R\'emi Dardaillon, Pierre Lemonde, J\'er\'emie J. Viennot, Emmanuel Flurin, Patrice Bertet, Diana Serrano, Philippe Goldner(参考訳) erbiumをドープしたcawo$_4$結晶を、それぞれ12ghzおよび1532nmの光領域間の共振トランスデューサとして使用する。 スピン結合を増大させるためにrf共振器を用いるが、単一パス(無共振)光セットアップは維持する。 全体的な効率は低いが、私たちはトランスダクション過程を慎重に特徴づけ、その性能は、私たちが定義し区別する2つの異なる指標、すなわち電気光学と量子効率によって説明できることを示す。 15.7 dbm rf電力で-84 dbの電気光学効率に達する。 対応する量子効率は 0.4 dbm の光学パワー -142 db である。 我々は変換過程をモデル化するために、原子系における光-物質相互作用を記述することでよく知られるschr\"odinger-maxwell形式論を開発した。 一般に量子トランスダクションを記述するために用いられる空洞量子電磁力学(キャビティQED)アプローチとの接続を明確にする。

We use an erbium doped CaWO$_4$ crystal as a resonant transducer between the RF and optical domains at 12 GHz and 1532 nm respectively. We employ a RF resonator to enhance the spin coupling but keep a single-pass (non-resonant) optical setup. The overall efficiency is low but we carefully characterize the transduction process and show that the performance can be described by two different metrics that we define and distinguish: the electro-optics and the quantum efficiencies. We reach an electro-optics efficiency of -84 dB for 15.7 dBm RF power. The corresponding quantum efficiency is -142 dB for 0.4 dBm optical power. We develop the Schr\"odinger-Maxwell formalism, well-known to describe light-matter interactions in atomic systems, in order to model the conversion process. We explicitly make the connection with the cavity quantum electrodynamics (cavity QED) approach that are generally used to describe quantum transduction.
翻訳日:2024-03-08 17:18:37 公開日:2024-03-07
# AST-T5: コード生成と理解のための構造認識事前トレーニング

AST-T5: Structure-Aware Pretraining for Code Generation and Understanding ( http://arxiv.org/abs/2401.03003v3 )

ライセンス: Link先を確認
Linyuan Gong, Mostafa Elhoushi, Alvin Cheung(参考訳) 大規模言語モデル(LLM)は、コードに関連するタスクにおいて大幅な進歩を遂げているが、多くのLLMは、その構造的性質を無視した単純なシーケンスとしてコードを扱う。 AST-T5は、抽象構文木(AST)を利用してコード生成、トランスパイレーション、理解を向上させる新しい事前トレーニングパラダイムである。 動的プログラミングを用いて、AST-Aware Segmentationはコード構造を保持しますが、AST-Aware Span Corruptionは、さまざまなコード構造を再構築するためのモデルを提供します。 他のモデルとは異なり、AST-T5は複雑なプログラム分析やアーキテクチャの変更を避けるため、エンコーダ・デコーダ変換器とシームレスに統合される。 AST-T5 は、様々なコード関連タスクにおいて、同様の大きさの LM を一貫して上回っている。 AST-T5はコード間タスクにおいて特に強力で、Bug2Fixタスクの正確なマッチスコアの2ポイント、CodeXGLUEのJava-C#トランスパイレーションの正確なマッチスコアの3ポイントを超えている。 私たちのコードとモデルはhttps://github.com/gonglinyuan/ast_t5で公開されています。

Large language models (LLMs) have made significant advancements in code-related tasks, yet many LLMs treat code as simple sequences, neglecting its structured nature. We introduce AST-T5, a novel pretraining paradigm that leverages the Abstract Syntax Tree (AST) for enhanced code generation, transpilation, and understanding. Using dynamic programming, our AST-Aware Segmentation retains code structure, while our AST-Aware Span Corruption objective equips the model to reconstruct various code structures. Unlike other models, AST-T5 avoids intricate program analyses or architectural changes, so it integrates seamlessly with any encoder-decoder Transformer. Evaluations show that AST-T5 consistently outperforms similar-sized LMs across various code-related tasks. Structure-awareness makes AST-T5 particularly powerful in code-to-code tasks, surpassing CodeT5 by 2 points in exact match score for the Bugs2Fix task and by 3 points in exact match score for Java-C# Transpilation in CodeXGLUE. Our code and model are publicly available at https://github.com/gonglinyuan/ast_t5.
翻訳日:2024-03-08 17:18:22 公開日:2024-03-07
# 自動計測のための機械翻訳基準の品質と量

Quality and Quantity of Machine Translation References for Automatic Metrics ( http://arxiv.org/abs/2401.01283v4 )

ライセンス: Link先を確認
Vil\'em Zouhar, Ond\v{r}ej Bojar(参考訳) 自動機械翻訳メトリクスは通常、システム翻訳の品質を決定するために人間の翻訳に依存する。 この分野の一般的な知恵は、人間の参照は非常に高品質であるべきだと規定している。 しかし,機械翻訳評価の参考資料収集を計画する実践者の指導には,費用対効果分析は使用できない。 高品質な参照は、セグメントレベルでの人間とのメトリクス相関をより良くする。 セグメントごとに7つの参照を持ち、その平均値(最大値)を取ることは、すべてのメトリクスに役立つ。 興味深いことに、異なる品質のベンダーからの参照を混ぜ合わせてメトリクスの成功を改善することができる。 しかし、高品質な参照は作成により多くのコストがかかり、これを最適化の問題とみなす:特定の予算が与えられたら、メートル法の成功を最大化するためにどの参照を収集すべきか。 これらの発見は、特定の予算の下で参照を作成する必要がある場合、共有タスクの評価者によって利用することができる。

Automatic machine translation metrics typically rely on human translations to determine the quality of system translations. Common wisdom in the field dictates that the human references should be of very high quality. However, there are no cost-benefit analyses that could be used to guide practitioners who plan to collect references for machine translation evaluation. We find that higher-quality references lead to better metric correlations with humans at the segment-level. Having up to 7 references per segment and taking their average (or maximum) helps all metrics. Interestingly, the references from vendors of different qualities can be mixed together and improve metric success. Higher quality references, however, cost more to create and we frame this as an optimization problem: given a specific budget, what references should be collected to maximize metric success. These findings can be used by evaluators of shared tasks when references need to be created under a certain budget.
翻訳日:2024-03-08 17:18:00 公開日:2024-03-07
# Transformer Multivariate Forecasting: より少ないか?

Transformer Multivariate Forecasting: Less is More? ( http://arxiv.org/abs/2401.00230v2 )

ライセンス: Link先を確認
Jingjing Xu, Caesar Wu, Yuan-Fang Li, Pascal Bouvry(参考訳) 多変量予測の領域では、トランスフォーマーモデルは強力な装置として際立っており、現実世界のコンテキストから散らばったデータセットを扱う特別な能力を示している。 しかし、これらのデータセットの本質的な複雑さは、多数の変数と長い時間的シーケンスによって特徴づけられ、ノイズの増加や拡張モデルランタイムなどの課題を提起する。 本稿では,実行効率を最適化しながら予測精度を高めるために冗長な情報を削減することに焦点を当てる。 本稿では、主成分分析(pca)によって強化された新しいトランスフォーマー予測フレームワークを提案する。 このフレームワークは、5つの最先端(SOTA)モデルと4つの多様な実世界のデータセットによって評価される。 実験の結果、フレームワークがすべてのモデルやデータセットで予測エラーを最小限に抑えつつ、ランタイムを大幅に削減できることを示した。 PCA+Crossformer(PCA+Crossformer)は平均平方誤差(MSE)を33.3%減らし、平均で49.2%減らす。 データセットの観点から、このフレームワークは、Electricityデータセットで14.3%のMSEと76.6%のランタイム削減、およびトラフィックデータセットで4.8%のMSEと86.9%のランタイム削減を提供する。 本研究の目的は,様々なSOTAモデルを開発し,複雑なデータに対するトランスフォーマーに基づく時系列予測を強化することである。 コードは、https://github.com/jingjing-unilu/PCA_Transformer.comで入手できる。

In the domain of multivariate forecasting, transformer models stand out as powerful apparatus, displaying exceptional capabilities in handling messy datasets from real-world contexts. However, the inherent complexity of these datasets, characterized by numerous variables and lengthy temporal sequences, poses challenges, including increased noise and extended model runtime. This paper focuses on reducing redundant information to elevate forecasting accuracy while optimizing runtime efficiency. We propose a novel transformer forecasting framework enhanced by Principal Component Analysis (PCA) to tackle this challenge. The framework is evaluated by five state-of-the-art (SOTA) models and four diverse real-world datasets. Our experimental results demonstrate the framework's ability to minimize prediction errors across all models and datasets while significantly reducing runtime. From the model perspective, one of the PCA-enhanced models: PCA+Crossformer, reduces mean square errors (MSE) by 33.3% and decreases runtime by 49.2% on average. From the dataset perspective, the framework delivers 14.3% MSE and 76.6% runtime reduction on Electricity datasets, as well as 4.8% MSE and 86.9% runtime reduction on Traffic datasets. This study aims to advance various SOTA models and enhance transformer-based time series forecasting for intricate data. Code is available at: https://github.com/jingjing-unilu/PCA_Transformer.
翻訳日:2024-03-08 17:17:46 公開日:2024-03-07
# 量子ランダムオラクルモデルにおけるCRYSTALS-Dilithiumの安全性の評価

Evaluating the security of CRYSTALS-Dilithium in the quantum random oracle model ( http://arxiv.org/abs/2312.16619v2 )

ライセンス: Link先を確認
Kelsey A. Jackson, Carl A. Miller, Daochen Wang(参考訳) 量子コンピューティングハードウェアの最近の進歩を受けて、National Institute of Standards and Technology (NIST)は、量子敵による攻撃に耐性のある暗号プロトコルを標準化している。 NISTが選択した主要なデジタル署名スキームはCRYSTALS-Dilithiumである。 このスキームの難しさは、エラー付きモジュール学習(MLWE)、MSIS(Module Short Integer Solution)、SelfTargetMSIS(SelfTargetMSIS)の3つの計算問題の難しさに基づいている。 MLWEとMSISはよく研究されており、安全であると広く信じられている。 しかし、SelfTargetMSISは新しく、古典的にはMSISと同じくらい硬いが、その量子硬さは不明瞭である。 本稿では,量子ランダムOracleモデル(QROM)におけるMLWEの低減によるSelfTargetMSISの硬さの最初の証明について述べる。 我々の証明は、最近開発された量子再プログラミングと再巻き戻しの技術を用いている。 このアプローチの中心的な部分は、msis問題から派生したハッシュ関数が崩壊していることの証明です。 このアプローチから,ダイアリシウムの適切なパラメータ設定下での新しいセキュリティ証明を推定する。 kiltz氏、lyubashevsky氏、schaffner氏(eurocrypt 2018)によるdilithiumの変種に対する厳密なセキュリティ証明の他に、この証明はq = 1 mod 2n条件の下で適用できるという利点がある。 この条件は元々のディリシウムの提案の一部であり、スキームの効率的な実装に不可欠である。 q = 1 mod 2n という条件の下で、dilithium の新しいセキュアパラメータセットを提供し、セキュリティレベルでkiltzらによって提案されたものよりも、公開鍵サイズと署名サイズがそれぞれ約2.9倍と1.3倍大きいことを見出します。

In the wake of recent progress on quantum computing hardware, the National Institute of Standards and Technology (NIST) is standardizing cryptographic protocols that are resistant to attacks by quantum adversaries. The primary digital signature scheme that NIST has chosen is CRYSTALS-Dilithium. The hardness of this scheme is based on the hardness of three computational problems: Module Learning with Errors (MLWE), Module Short Integer Solution (MSIS), and SelfTargetMSIS. MLWE and MSIS have been well-studied and are widely believed to be secure. However, SelfTargetMSIS is novel and, though classically as hard as MSIS, its quantum hardness is unclear. In this paper, we provide the first proof of the hardness of SelfTargetMSIS via a reduction from MLWE in the Quantum Random Oracle Model (QROM). Our proof uses recently developed techniques in quantum reprogramming and rewinding. A central part of our approach is a proof that a certain hash function, derived from the MSIS problem, is collapsing. From this approach, we deduce a new security proof for Dilithium under appropriate parameter settings. Compared to the previous work by Kiltz, Lyubashevsky, and Schaffner (EUROCRYPT 2018) that gave the only other rigorous security proof for a variant of Dilithium, our proof has the advantage of being applicable under the condition q = 1 mod 2n, where q denotes the modulus and n the dimension of the underlying algebraic ring. This condition is part of the original Dilithium proposal and is crucial for the efficient implementation of the scheme. We provide new secure parameter sets for Dilithium under the condition q = 1 mod 2n, finding that our public key size and signature size are about 2.9 times and 1.3 times larger, respectively, than those proposed by Kiltz et al. at the same security level.
翻訳日:2024-03-08 17:17:02 公開日:2024-03-07
# 小型超伝導共振器を用いたトランスモンの制御と読み出し

Control and readout of a transmon using a compact superconducting resonator ( http://arxiv.org/abs/2312.15753v2 )

ライセンス: Link先を確認
Julia Zotova, Shtefan Sanduleanu, Gleb Fedorov, Rui Wang, Jaw Shen Tsai and Oleg Astafiev(参考訳) 小型集中要素共振器を用いたトランスモン量子ビットに基づく超伝導人工原子の制御と再生を実証する。 共振器はパラレルプレートコンデンサ(PPC)とワイヤ幾何学インダクタから構成される。 共振器のフットプリントは200 {\mu}m×200 {\mu}mであり、これは標準的なトランスモンサイズと似ており、共平面導波路共振器と比較して占有領域では1つか2桁ほどコンパクトである。 我々はコヒーレントラビ振動を観測し、トランスモンの時間領域特性を得る。 この研究は超伝導回路の基本部品を小型化し、超伝導トランスモンで量子システムをさらにスケールアップするための扉を開く。

We demonstrate control and readout of a superconducting artificial atom based on a transmon qubit using a compact lumped-element resonator. The resonator consists of a parallel-plate capacitor (PPC) with a wire geometric inductor. The footprint of the resonators is about 200 {\mu}m by 200 {\mu}m, which is similar to the standard transmon size and one or two orders of magnitude more compact in the occupied area comparing to coplanar waveguide resonators. We observe coherent Rabi oscillations and obtain time-domain properties of the transmon. The work opens a door to miniaturize essential components of superconducting circuits and to further scaling up quantum systems with superconducting transmons.
翻訳日:2024-03-08 17:16:31 公開日:2024-03-07
# 自由空間結合トラップイオンを有する量子リピータノード

Quantum repeater node with free-space coupled trapped ions ( http://arxiv.org/abs/2312.14805v2 )

ライセンス: Link先を確認
Max Bergerhoff, Omar Elshehy, Stephan Kucera, Matthias Kreis, and J\"urgen Eschner(参考訳) 量子中継セル(quantum repeater cell)は、直接伝送におけるファイバー損失が避けられないため、距離制限を克服できる量子ネットワークの基本構成要素である。 我々は、量子記憶として働く同じトラップにおいて、2つの自由空間結合$^{40}$ca$^+$イオンに基づく量子リピータセルの実装を実証する。 本研究では, 個々のイオンからの単一光子の放出を制御し, 原子光子と光子光子の絡み合いの非同期発生を実証する。 我々は,生成率のスケーリングと忠実性について考察する。

The quantum repeater cell is a basic building block for a quantum network, as it allows to overcome the distance limitations due to unavoidable fiber loss in direct transmission. We demonstrate the implementation of a quantum repeater cell, based on two free-space coupled $^{40}$Ca$^+$ ions in the same trap that act as quantum memories. We demonstrate the asynchronous generation of atom-photon and photon-photon entanglement by controlled emission of single photons from the individually addressed ions and entanglement swapping. We discuss the fidelity as well as the scaling of the generated rate.
翻訳日:2024-03-08 17:16:19 公開日:2024-03-07
# 伝達可能表現の学習のための値明示的事前学習

Value Explicit Pretraining for Learning Transferable Representations ( http://arxiv.org/abs/2312.12339v2 )

ライセンス: Link先を確認
Kiran Lekkala, Henghui Bao, Sumedh Sontakke, Laurent Itti(参考訳) 本稿では,伝達強化学習のための一般化表現を学習する手法であるvalue explicit pretraining (vep)を提案する。 VEPは、外見の変化や環境動態によらず、目的条件付き表現のエンコーダを学習することで、以前学習したタスクと同じような目的を共有する新しいタスクの学習を可能にする。 エンコーダを一連の観測から事前学習するために、時間的に滑らかな表現を学習する自己教師付きコントラスト損失を用いる。 VEPは、タスクの進捗を反映したベルマン回帰推定に基づいて、さまざまなタスクの状態を関連付けることを学ぶ。 現実的なナビゲーションシミュレータとatariベンチマークを用いた実験により,本手法で生成したプリトレーニングエンコーダは,未認識のタスクに一般化する能力において,現在のsomaプリトレーニング手法よりも優れていることが示された。 VEPは、Atariとビジュアルナビゲーションの報酬を最大2倍改善し、サンプル効率を最大3倍改善する。 ポリシーパフォーマンスのビデオについては、https://sites.google.com/view/value-explicit-pretraining/

We propose Value Explicit Pretraining (VEP), a method that learns generalizable representations for transfer reinforcement learning. VEP enables learning of new tasks that share similar objectives as previously learned tasks, by learning an encoder for objective-conditioned representations, irrespective of appearance changes and environment dynamics. To pre-train the encoder from a sequence of observations, we use a self-supervised contrastive loss that results in learning temporally smooth representations. VEP learns to relate states across different tasks based on the Bellman return estimate that is reflective of task progress. Experiments using a realistic navigation simulator and Atari benchmark show that the pretrained encoder produced by our method outperforms current SoTA pretraining methods on the ability to generalize to unseen tasks. VEP achieves up to a 2 times improvement in rewards on Atari and visual navigation, and up to a 3 times improvement in sample efficiency. For videos of policy performance visit our https://sites.google.com/view/value-explicit-pretraining/
翻訳日:2024-03-08 17:15:54 公開日:2024-03-07
# 量子機械学習におけるプライバシー保護のための固有ノイズの活用

Harnessing Inherent Noises for Privacy Preservation in Quantum Machine Learning ( http://arxiv.org/abs/2312.11126v2 )

ライセンス: Link先を確認
Keyi Ju, Xiaoqi Qin, Hui Zhong, Xinyue Zhang, Miao Pan, Baoling Liu(参考訳) 量子コンピューティングは複雑な問題を解決する方法に革命をもたらし、膨大なデータセットを扱う。 しかし、量子機械学習(QML)におけるデータ漏洩は、プライバシー上のリスクをもたらす可能性がある。 人工ノイズを注入することでプライバシーを保護する差分プライバシー(DP)は、確立されたアプローチであるが、QMLドメインでのその応用は未検討のままである。 本稿では,QMLにおけるデータプライバシ保護に固有の量子ノイズを活用することを提案する。 特に、NISQ(Noisy Intermediate-Scale Quantum)デバイスを考えると、量子コンピューティングにおける避けられないショットノイズと非コヒーレントノイズを利用して、バイナリ分類のためのQMLモデルのプライバシを保存する。 我々はQMLにおける量子回路パラメータの勾配がガウス分布を満たすことを数学的に解析し、その分散の上下境界を導出し、DP保証を提供する可能性がある。 シミュレーションにより,量子回路を複数回動作させることで,ターゲットのプライバシ保護レベルを実現できることを示す。

Quantum computing revolutionizes the way of solving complex problems and handling vast datasets, which shows great potential to accelerate the machine learning process. However, data leakage in quantum machine learning (QML) may present privacy risks. Although differential privacy (DP), which protects privacy through the injection of artificial noise, is a well-established approach, its application in the QML domain remains under-explored. In this paper, we propose to harness inherent quantum noises to protect data privacy in QML. Especially, considering the Noisy Intermediate-Scale Quantum (NISQ) devices, we leverage the unavoidable shot noise and incoherent noise in quantum computing to preserve the privacy of QML models for binary classification. We mathematically analyze that the gradient of quantum circuit parameters in QML satisfies a Gaussian distribution, and derive the upper and lower bounds on its variance, which can potentially provide the DP guarantee. Through simulations, we show that a target privacy protection level can be achieved by running the quantum circuit a different number of times.
翻訳日:2024-03-08 17:15:38 公開日:2024-03-07
# DTP-Net:マルチスケール特徴再利用による時間周波数領域における脳波信号再構成学習

DTP-Net: Learning to Reconstruct EEG signals in Time-Frequency Domain by Multi-scale Feature Reuse ( http://arxiv.org/abs/2312.09417v2 )

ライセンス: Link先を確認
Yan Pei, Jiahui Xu, Qianhao Chen, Chenhao Wang, Feng Yu, Lisan Zhang and Wei Luo(参考訳) 脳波(EEG)信号は、様々なアーティファクトによって容易に破損し、疾患診断や脳-コンピュータインターフェース(BCI)などのシナリオにおいて、信号品質を改善するためにアーティファクトの除去が重要である。 本稿では、DTP(Densely Connected Temporal Pyramid)と呼ばれる完全な畳み込みニューラルアーキテクチャを、エンド・ツー・エンド脳波(EEG)復調のための学習可能な2つの時間周波数変換の間に挟み込んだ、DTP(Densely Connected Temporal Pyramid)で構成される。 提案手法は,まず任意の長さの単一チャネル脳波信号をエンコーダ層を介して時間周波数領域に変換する。 そして、DTPにより、眼や筋肉のアーチファクトなどのノイズを多種多様な方法で抽出し、低減する。 最後に、デコーダ層を用いて、アーティファクト縮小された脳波信号を再構成する。 さらに,DTP-Netにおける各モジュールの表現学習行動の詳細な解析を行い,その堅牢性と信頼性を実証する。 2つの公開セミシミュレーションデータセットで行った広範囲な実験は、最先端のアプローチを上回るdtp-netの効果的なアーティファクト除去性能を示している。 実験結果から, 提案モデルによる信号対雑音比 (snr) と相対根平均二乗誤差 (rrmse) のクリーナ波形と有意な改善が得られた。 さらに,提案するdtp-netを特定のbci下流タスクに適用し,生信号の分類精度を最大5.55%向上させ,脳波に基づく神経科学および神経工学の分野での応用可能性を検証する。

Electroencephalography (EEG) signals are easily corrupted by various artifacts, making artifact removal crucial for improving signal quality in scenarios such as disease diagnosis and brain-computer interface (BCI). In this paper, we present a fully convolutional neural architecture, called DTP-Net, which consists of a Densely Connected Temporal Pyramid (DTP) sandwiched between a pair of learnable time-frequency transformations for end-to-end electroencephalogram (EEG) denoising. The proposed method first transforms a single-channel EEG signal of arbitrary length into the time-frequency domain via an Encoder layer. Then, noises, such as ocular and muscle artifacts, are extracted by DTP in a multi-scale fashion and reduced. Finally, a Decoder layer is employed to reconstruct the artifact-reduced EEG signal. Additionally, we conduct an in-depth analysis of the representation learning behavior of each module in DTP-Net to substantiate its robustness and reliability. Extensive experiments conducted on two public semi-simulated datasets demonstrate the effective artifact removal performance of DTP-Net, which outperforms state-of-art approaches. Experimental results demonstrate cleaner waveforms and significant improvement in Signal-to-Noise Ratio (SNR) and Relative Root Mean Square Error (RRMSE) after denoised by the proposed model. Moreover, the proposed DTP-Net is applied in a specific BCI downstream task, improving the classification accuracy by up to 5.55% compared to that of the raw signals, validating its potential applications in the fields of EEG-based neuroscience and neuro-engineering.
翻訳日:2024-03-08 17:15:19 公開日:2024-03-07
# RankDVQA-mini:知識蒸留駆動型ディープビデオ品質評価

RankDVQA-mini: Knowledge Distillation-Driven Deep Video Quality Assessment ( http://arxiv.org/abs/2312.08864v2 )

ライセンス: Link先を確認
Chen Feng, Duolikun Danier, Haoran Wang, Fan Zhang, Benoit Vallade, Alex Mackin, and David Bull(参考訳) 深層学習に基づく映像品質評価(Deep VQA)は,人間の知覚との相関性において有望な改善とともに,従来の指標を超える大きな可能性を示している。 しかしながら、そのような深層VQAモデルの実践的な展開は、高い計算複雑性と大きなメモリ要求のために制限されることが多い。 この問題に対処するため,我々はプルーニング駆動モデル圧縮と多段階知識蒸留を統合した2段階のワークフローを用いて,最先端の深層VQA手法であるRandDVQAのモデルサイズと実行時間を大幅に削減することを目指している。 結果として得られた軽量なフルリファレンス品質指標である RankDVQA-mini は、フルバージョンのモデルパラメータの10%未満(FLOPの14%)を必要とする一方で、既存のディープなVQAメソッドよりも優れた品質予測性能を維持している。 RankDVQA-miniのソースコードはhttps://chenfeng-bristol.github.io/RankDVQA-mini/で公開されている。

Deep learning-based video quality assessment (deep VQA) has demonstrated significant potential in surpassing conventional metrics, with promising improvements in terms of correlation with human perception. However, the practical deployment of such deep VQA models is often limited due to their high computational complexity and large memory requirements. To address this issue, we aim to significantly reduce the model size and runtime of one of the state-of-the-art deep VQA methods, RankDVQA, by employing a two-phase workflow that integrates pruning-driven model compression with multi-level knowledge distillation. The resulting lightweight full reference quality metric, RankDVQA-mini, requires less than 10% of the model parameters compared to its full version (14% in terms of FLOPs), while still retaining a quality prediction performance that is superior to most existing deep VQA methods. The source code of the RankDVQA-mini has been released at https://chenfeng-bristol.github.io/RankDVQA-mini/ for public evaluation.
翻訳日:2024-03-08 17:14:45 公開日:2024-03-07
# BVI-Artefact: ストリーミングビデオのアーティファクト検出ベンチマークデータセット

BVI-Artefact: An Artefact Detection Benchmark Dataset for Streamed Videos ( http://arxiv.org/abs/2312.08859v2 )

ライセンス: Link先を確認
Chen Feng, Duolikun Danier, Fan Zhang, Alex Mackin, Andy Collins and David Bull(参考訳) オンラインでストリーミングされるプロフェッショナル生成コンテンツ(PGC)には、ユーザエクスペリエンスの品質を低下させる視覚的アーティファクトが含まれている。 これらのアーティファクトは、取得、ポストプロダクション、圧縮、送信など、ストリーミングパイプラインのさまざまな段階から発生します。 ストリーミング体験の向上を向上するためには、プリスタン参照がない場合に、ユーザエンドで特定のアーティファクトを検出することが重要である。 本研究では,大規模データベースBVI-Artefactの作成と検証を通じて,ストリームされたPGC内のアーティファクト検出のための包括的なベンチマークの欠如に対処する。 ビデオストリーミングで遭遇する最も関連する10種類のアーティファクトタイプを考慮して,480種類のビデオシーケンスを収集して生成し,それぞれに関連するバイナリアーティファクトラベルを含む。 この新たなデータベースに基づいて,既存のアーティファクト検出手法をベンチマークし,この課題の困難な性質を示し,より信頼性の高いアーティファクト検出手法の必要性を示す。 この分野のさらなる研究を促進するため、我々はBVI-Artifactをhttps://chenfeng-bristol.github.io/BVI-Artefact/で公開しました。

Professionally generated content (PGC) streamed online can contain visual artefacts that degrade the quality of user experience. These artefacts arise from different stages of the streaming pipeline, including acquisition, post-production, compression, and transmission. To better guide streaming experience enhancement, it is important to detect specific artefacts at the user end in the absence of a pristine reference. In this work, we address the lack of a comprehensive benchmark for artefact detection within streamed PGC, via the creation and validation of a large database, BVI-Artefact. Considering the ten most relevant artefact types encountered in video streaming, we collected and generated 480 video sequences, each containing various artefacts with associated binary artefact labels. Based on this new database, existing artefact detection methods are benchmarked, with results showing the challenging nature of this tasks and indicating the requirement of more reliable artefact detection methods. To facilitate further research in this area, we have made BVI-Artifact publicly available at https://chenfeng-bristol.github.io/BVI-Artefact/
翻訳日:2024-03-08 17:14:25 公開日:2024-03-07
# NLIに基づくゼロショット感情分類のための英語のプロンプト

English Prompts are Better for NLI-based Zero-Shot Emotion Classification than Target-Language Prompts ( http://arxiv.org/abs/2402.03223v4 )

ライセンス: Link先を確認
Patrick Barei{\ss} and Roman Klinger and Jeremy Barnes(参考訳) テキストにおける感情分類は、潜在的感情刺激のテキスト記述を解釈する際に生じるプロセスのために難しい課題である。 加えて、感情カテゴリのセットは非常にドメイン固有です。 例えば、文学分析は美的感情(例えば、美しいものを見つける)の使用を必要とし、ソーシャルメディア分析は、ポール・エクマン(アンガー、嫌悪感、恐怖、喜び、驚き、悲しみ)が提唱した基本的なカテゴリーを表現するものよりも、細かい集合(例えば、怒りと不快を分ける)の恩恵を受ける可能性がある。 これによりタスクはゼロショット分類の興味深いフィールドとなり、モデル開発時にラベルセットが知られていない。 残念なことに、感情分析のほとんどのリソースは英語であり、それゆえ、感情分析のほとんどの研究は、テキストラベルの言語モデルを促進することを含む、英語で行われている。 どちらの言語で、非英語のテキストに感情ラベルを付けるべきか? 英語以外のデータでも、英語プロンプト付きのラベルをリクエストできるため、多言語大言語モデルにアクセスできる場合、これは特に興味深いことです。 自然言語推論に基づく言語モデルを用いた実験は、データが異なる言語である場合でも、英語のプロンプトを使う方が一貫して良いことを示す。

Emotion classification in text is a challenging task due to the processes involved when interpreting a textual description of a potential emotion stimulus. In addition, the set of emotion categories is highly domain-specific. For instance, literature analysis might require the use of aesthetic emotions (e.g., finding something beautiful), and social media analysis could benefit from fine-grained sets (e.g., separating anger from annoyance) than only those that represent basic categories as they have been proposed by Paul Ekman (anger, disgust, fear, joy, surprise, sadness). This renders the task an interesting field for zero-shot classifications, in which the label set is not known at model development time. Unfortunately, most resources for emotion analysis are English, and therefore, most studies on emotion analysis have been performed in English, including those that involve prompting language models for text labels. This leaves us with a research gap that we address in this paper: In which language should we prompt for emotion labels on non-English texts? This is particularly of interest when we have access to a multilingual large language model, because we could request labels with English prompts even for non-English data. Our experiments with natural language inference-based language models show that it is consistently better to use English prompts even if the data is in a different language.
翻訳日:2024-03-08 17:09:32 公開日:2024-03-07
# 高次元ベイズ最適化に必要な標準ガウス過程

Standard Gaussian Process is All You Need for High-Dimensional Bayesian Optimization ( http://arxiv.org/abs/2402.02746v2 )

ライセンス: Link先を確認
Zhitong Xu, Shandian Zhe(参考訳) 標準ガウス過程 (GP) を持つベイズ最適化 (BO) は高次元最適化問題では有効ではないという長年にわたる広く信じられてきた。 この認識の一部は、GPが共分散モデリングと関数推定のために高次元入力に苦しむ直観に由来するかもしれない。 これらの懸念は妥当に見えるが、この信念を支持する実証的な証拠は不足している。 本稿では,高次元最適化のための様々な合成および実世界のベンチマーク問題に対して,標準GP回帰を用いたBOを体系的に検討した。 驚くべきことに、標準gpのパフォーマンスは一貫して最高のものとなり、特に高次元最適化のために設計された既存のboメソッドを大きなマージンで上回っている。 ステレオタイプとは対照的に,標準GPは高次元対象関数の学習に有効な代理として機能することがわかった。 強い構造的仮定がなければ、標準 GP を持つ BO は高次元最適化に優れるだけでなく、対象関数内の様々な構造を調節する上でも堅牢である。 さらに、標準GPでは、より複雑な代理モデルで必要とされる高価なマルコフ-チェインモンテカルロサンプリング(MCMC)の必要性を排除し、最大推定だけを用いることで、期待できる最適化性能を達成することができる。 そこで我々は,高次元問題に対する標準ボのポテンシャルの再評価と詳細な研究を提唱する。

There has been a long-standing and widespread belief that Bayesian Optimization (BO) with standard Gaussian process (GP), referred to as standard BO, is ineffective in high-dimensional optimization problems. This perception may partly stem from the intuition that GPs struggle with high-dimensional inputs for covariance modeling and function estimation. While these concerns seem reasonable, empirical evidence supporting this belief is lacking. In this paper, we systematically investigated BO with standard GP regression across a variety of synthetic and real-world benchmark problems for high-dimensional optimization. Surprisingly, the performance with standard GP consistently ranks among the best, often outperforming existing BO methods specifically designed for high-dimensional optimization by a large margin. Contrary to the stereotype, we found that standard GP can serve as a capable surrogate for learning high-dimensional target functions. Without strong structural assumptions, BO with standard GP not only excels in high-dimensional optimization but also proves robust in accommodating various structures within the target functions. Furthermore, with standard GP, achieving promising optimization performance is possible by only using maximum likelihood estimation, eliminating the need for expensive Markov-Chain Monte Carlo (MCMC) sampling that might be required by more complex surrogate models. We thus advocate for a re-evaluation and in-depth study of the potential of standard BO in addressing high-dimensional problems.
翻訳日:2024-03-08 17:09:07 公開日:2024-03-07
# マルチリージョンマルコフガウス過程 : 複数の脳領域を横断する方向コミュニケーションを効率的に発見する手法

Multi-Region Markovian Gaussian Process: An Efficient Method to Discover Directional Communications Across Multiple Brain Regions ( http://arxiv.org/abs/2402.02686v2 )

ライセンス: Link先を確認
Weihan Li, Chengrui Li, Yule Wang, Anqi Wu(参考訳) 異なる脳領域間の複雑な相互作用を研究することは神経科学において重要である。 様々な統計的手法が複数の脳領域にわたる潜伏通信を調査している。 主なカテゴリはガウス過程(GP)と線形力学系(LDS)である。 GPに基づくアプローチは、周波数帯域と通信方向を持つ潜伏変数を効果的に発見する。 逆に、LDSベースのアプローチは計算効率が良いが、潜在表現には強力な表現力がない。 本研究では,マルチアウトプットgpを反映するlds(multi-region markovian gaussian process,mrm-gp)を作成し,両手法を融合する。 我々の研究は、LDSとマルチ出力GPの接続を確立し、ニューラル記録の潜在空間内での周波数と位相遅延を明示的にモデル化する最初のものである。 その結果、モデルが線形推論コストをタイムポイントを超えて達成し、解釈可能な低次元表現を提供し、脳領域間の通信方向を明らかにし、振動通信を異なる周波数帯域に分離する。

Studying the complex interactions between different brain regions is crucial in neuroscience. Various statistical methods have explored the latent communication across multiple brain regions. Two main categories are the Gaussian Process (GP) and Linear Dynamical System (LDS), each with unique strengths. The GP-based approach effectively discovers latent variables with frequency bands and communication directions. Conversely, the LDS-based approach is computationally efficient but lacks powerful expressiveness in latent representation. In this study, we merge both methodologies by creating an LDS mirroring a multi-output GP, termed Multi-Region Markovian Gaussian Process (MRM-GP). Our work is the first to establish a connection between an LDS and a multi-output GP that explicitly models frequencies and phase delays within the latent space of neural recordings. Consequently, the model achieves a linear inference cost over time points and provides an interpretable low-dimensional representation, revealing communication directions across brain regions and separating oscillatory communications into different frequency bands.
翻訳日:2024-03-08 17:08:42 公開日:2024-03-07
# ソフトウェアセキュリティの保証

Guarantees in Software Security ( http://arxiv.org/abs/2402.01944v3 )

ライセンス: Link先を確認
Marcel B\"ohme(参考訳) ソフトウェアシステムのセキュリティに関する一般的なアプローチをレビューし、それらが提供する保証を反映する。 我々は,保証の提供に向けた基本的な課題の分類を紹介し,これらの課題が,バグがないという信頼できる保証にもかかわらず,システムを攻撃するために日常的に活用されている方法について論じる。 現在の推論システムの欠陥を特定し、研究し、認識するのは、将来、効果的な緩和戦略を開発することができるときだけです。 そこで我々は,この10年におけるソフトウェアセキュリティの課題に取り組むことを目標とする研究プログラムを,ついに提案する。

We review general approaches to reason about the security of a software system and reflect upon the guarantees they provide. We introduce a taxonomy of fundamental challenges towards the provision of guarantees, and discuss how these challenges are routinely exploited to attack a system in spite of credible assurances about the absence of such bugs. It is only when we identify, study, and acknowledge the flaws in our current reasoning systems today that we can develop effective mitigation strategies in the future. To this end, we finally propose a research programme whose goal it is to tackle the software security challenges of this decade.
翻訳日:2024-03-08 17:08:08 公開日:2024-03-07
# 大規模言語モデルは経済選択予測ラボを置き換えることができるか?

Can Large Language Models Replace Economic Choice Prediction Labs? ( http://arxiv.org/abs/2401.17435v3 )

ライセンス: Link先を確認
Eilam Shapira, Omer Madmon, Roi Reichart, Moshe Tennenholtz(参考訳) 経済選択予測は重要な課題であり、しばしば人間の選択データを取得することの難しさに制約される。 実際、実験経済学の研究は主に単純な選択設定に焦点を当てていた。 aiコミュニティは、最近この取り組みに2つの方法で貢献している: 前述の単純な選択予測設定でllmが人間に代用できるかどうか、そして、不完全な情報、反復遊び、自然言語コミュニケーション、特に言語ベースの説得ゲームを用いた、より精巧だが厳密な実験経済設定のmlレンズを通しての研究。 llmは、経済環境を完全にシミュレートし、効率的な人間の選択予測のためのデータを生成し、精巧な経済研究所の研究に代えることができるか? 我々はこの研究の先駆者であり、その実現可能性を示している。 特に、LLM生成データのみに基づいてトレーニングされたモデルは、言語ベースの説得ゲームにおいて人間の行動を効果的に予測でき、実際の人間のデータに基づいてトレーニングされたモデルよりも優れていることを示す。

Economic choice prediction is an essential challenging task, often constrained by the difficulties in acquiring human choice data. Indeed, experimental economics studies had focused mostly on simple choice settings. The AI community has recently contributed to that effort in two ways: considering whether LLMs can substitute for humans in the above-mentioned simple choice prediction settings, and the study through ML lens of more elaborated but still rigorous experimental economics settings, employing incomplete information, repetitive play, and natural language communication, notably language-based persuasion games. This leaves us with a major inspiration: can LLMs be used to fully simulate the economic environment and generate data for efficient human choice prediction, substituting for the elaborated economic lab studies? We pioneer the study of this subject, demonstrating its feasibility. In particular, we show that a model trained solely on LLM-generated data can effectively predict human behavior in a language-based persuasion game, and can even outperform models trained on actual human data.
翻訳日:2024-03-08 17:07:57 公開日:2024-03-07
# プレイヤープレッシャマップ - 異なるゲームコンテキストにおける選手のパフォーマンス評価のためのサッカーにおける新しいプレッシャ表現

Player Pressure Map -- A Novel Representation of Pressure in Soccer for Evaluating Player Performance in Different Game Contexts ( http://arxiv.org/abs/2401.16235v2 )

ライセンス: Link先を確認
Chaoyi Gu, Jiaming Na, Yisheng Pei, Varuna De Silva(参考訳) サッカーでは、コンテキストプレイヤーのパフォーマンス指標はコーチにとって貴重なものである。 例えば、試合中にプレッシャーの下で実行する能力は、エリートと平均を区別する。 適切な圧力測定により、プレイヤーのパフォーマンスを正確に評価し、ターゲットとするトレーニングシナリオを設計して弱点に対処することができる。 本研究の主な目的は,サッカーゲームシーンにおいて,保持チームが経験したプレッシャーを捉えるために,トラッキングデータとイベント映像の両方を活用することである。 本稿では,ゲームシーンを表現するためのプレイヤー圧力マップを提案する。 チームや個人に対するプレッシャーを視覚化し評価するための効果的なツールとして機能するだけでなく、プレイヤーのパフォーマンスにアクセスするバックボーンとしても利用することができる。 全体的に、私たちのモデルは、データ指向の戦術決定を行うために、選手のパフォーマンスをより深く理解するコーチとアナリストを提供します。

In soccer, contextual player performance metrics are invaluable to coaches. For example, the ability to perform under pressure during matches distinguishes the elite from the average. Appropriate pressure metric enables teams to assess players' performance accurately under pressure and design targeted training scenarios to address their weaknesses. The primary objective of this paper is to leverage both tracking and event data and game footage to capture the pressure experienced by the possession team in a soccer game scene. We propose a player pressure map to represent a given game scene, which lowers the dimension of raw data and still contains rich contextual information. Not only does it serve as an effective tool for visualizing and evaluating the pressure on the team and each individual, but it can also be utilized as a backbone for accessing players' performance. Overall, our model provides coaches and analysts with a deeper understanding of players' performance under pressure so that they make data-oriented tactical decisions.
翻訳日:2024-03-08 17:07:39 公開日:2024-03-07
# 誰を失くした? 人口不足を特徴付けるための原則的アプローチ

Who Are We Missing? A Principled Approach to Characterizing the Underrepresented Population ( http://arxiv.org/abs/2401.14512v2 )

ライセンス: Link先を確認
Harsh Parikh, Rachael Ross, Elizabeth Stuart, Kara Rudolph(参考訳) ランダム化制御試験(RCTs)は因果関係の理解の基盤となるが、対象人口への推論は不均一性や表現不足による課題を呈する。 本稿は,rctsにおける表現不足部分群を同定し特徴付けるという重要な問題に対処し,一般化可能性を改善するためにターゲット集団を洗練するための新しい枠組みを提案する。 我々は,低表現群を特徴付ける最適化ベースアプローチとして,最適木(ルート)のラショモン集合を提案する。 rootは、ターゲット平均処理効果推定の分散を最小化し、より正確な処理効果推定を保証し、ターゲットサブポピュレーション分布を最適化する。 特に、ROOTは人口不足の解釈可能な特性を生成し、研究者の効果的なコミュニケーションを支援する。 提案手法は, 合成データ実験で示すように, 精度と解釈性の向上を示す。 我々は,アゴニスト置換療法による開始療法(START)の臨床試験から,オピオイド使用障害の治療薬の有効性を調査する手法を,治療エピソードデータセット(TEDS-A)で表される現実世界の人口へ拡張する手法を適用した。 ROOTを用いて対象集団を精錬することにより,意思決定精度を高め,多様な集団における今後の試行を通知するための体系的なアプローチを提供する。

Randomized controlled trials (RCTs) serve as the cornerstone for understanding causal effects, yet extending inferences to target populations presents challenges due to effect heterogeneity and underrepresentation. Our paper addresses the critical issue of identifying and characterizing underrepresented subgroups in RCTs, proposing a novel framework for refining target populations to improve generalizability. We introduce an optimization-based approach, Rashomon Set of Optimal Trees (ROOT), to characterize underrepresented groups. ROOT optimizes the target subpopulation distribution by minimizing the variance of the target average treatment effect estimate, ensuring more precise treatment effect estimations. Notably, ROOT generates interpretable characteristics of the underrepresented population, aiding researchers in effective communication. Our approach demonstrates improved precision and interpretability compared to alternatives, as illustrated with synthetic data experiments. We apply our methodology to extend inferences from the Starting Treatment with Agonist Replacement Therapies (START) trial -- investigating the effectiveness of medication for opioid use disorder -- to the real-world population represented by the Treatment Episode Dataset: Admissions (TEDS-A). By refining target populations using ROOT, our framework offers a systematic approach to enhance decision-making accuracy and inform future trials in diverse populations.
翻訳日:2024-03-08 17:07:24 公開日:2024-03-07
# 因果的観点からのグラフコントラスト不変学習

Graph Contrastive Invariant Learning from the Causal Perspective ( http://arxiv.org/abs/2401.12564v2 )

ライセンス: Link先を確認
Yanhu Mo, Xiao Wang, Shaohua Fan, Chuan Shi(参考訳) グラフコントラスト学習(GCL)は、2つの拡張グラフを自己教師付きで対比することでノード表現を学習し、注目されている。 GCLは通常、不変表現を学ぶと考えられている。 しかし、この理解は常に実践的に成り立つだろうか? 本稿ではまず,因果性の観点からGCLについて考察する。 構造因果モデル(SCM)を用いてGCLを解析することにより、従来のGCLはグラフに含まれる非因果情報により不変表現を十分に学習できないことが分かる。 どのように修正し、現在のgclにより良い不変表現を学ぶよう促すか? scmには2つの要件と新しいgcl法を提案する動機がある。 特に,非因果因子の介入をシミュレートするために,スペクトルグラフ拡張を導入する。 そして、因果要因をよりよく捉えるために、不変目的と独立目標を設計する。 具体的には (i)不変目的は、因果変数に含まれる不変情報を取り込むようエンコーダに促すものである。 (ii)独立の目的は、共同設立者の因果変数への影響を減らすことである。 実験の結果,ノード分類におけるアプローチの有効性が示された。

Graph contrastive learning (GCL), learning the node representation by contrasting two augmented graphs in a self-supervised way, has attracted considerable attention. GCL is usually believed to learn the invariant representation. However, does this understanding always hold in practice? In this paper, we first study GCL from the perspective of causality. By analyzing GCL with the structural causal model (SCM), we discover that traditional GCL may not well learn the invariant representations due to the non-causal information contained in the graph. How can we fix it and encourage the current GCL to learn better invariant representations? The SCM offers two requirements and motives us to propose a novel GCL method. Particularly, we introduce the spectral graph augmentation to simulate the intervention upon non-causal factors. Then we design the invariance objective and independence objective to better capture the causal factors. Specifically, (i) the invariance objective encourages the encoder to capture the invariant information contained in causal variables, and (ii) the independence objective aims to reduce the influence of confounders on the causal variables. Experimental results demonstrate the effectiveness of our approach on node classification tasks.
翻訳日:2024-03-08 17:06:29 公開日:2024-03-07
# Q&Aプロンプト:様々な世界知識を必要とするVQAに対する質問応答プロンプトのマイニングを通して、リッチなビジュアルクルーを発見する

Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge ( http://arxiv.org/abs/2401.10712v3 )

ライセンス: Link先を確認
Haibi Wang, Weifeng Ge(参考訳) マルチモーダルな大規模言語モデルのブレークスルーによって、高度な推論能力と世界知識を要求する複雑な視覚的疑問に答えることが、AIモデルを開発する上でこれまで以上に重要なテストベッドになっている。 しかし、人間の認知スキームが体系的に理解されていないため、堅牢な相互モダリティ推論能力を持つAIモデルを装備することは依然として困難である。 本稿では,与えられた画像の視覚的手がかりをできるだけ集めることができれば,画像をより正確に認識し,質問をよりよく理解し,関連する知識をより簡単に思い出し,最終的に答えを推論できると考えている。 画像中の質問応答ペアをマイニングし,複数のモーダルな大言語モデルにプロンプトとして送ることで,これらのリッチな視覚的手がかりを発見する。 提案手法をQ&A Promptsと呼ぶ。 具体的には、まず、視覚的質問生成モデルの入力と出力として、トレーニングセットのイメージ・アンサー・ペアと対応する質問を使用する。 そして,画像タグモデルを用いて,様々なインスタンスを識別し,パッケージ化された画像タグペアを視覚質問生成モデルに送信し,抽出した画像タグと関連する質問を回答として生成する。 最後に、これらの生成した問合せペアを視覚認識プロンプトモジュールでプロンプトとしてエンコードし、学習済みのマルチモーダルな大言語モデルに送信し、最終的な答えを推論する。 実験結果から,我々のQ&A Promptsは最先端の手法と比較して,OK-VQAやA-OKVQAといった多種多様な世界知識の推論を必要とするデータセットに対する挑戦的な視覚的質問応答の精度向上を実現していることがわかった。

With the breakthrough of multi-modal large language models, answering complex visual questions that demand advanced reasoning abilities and world knowledge has become a much more important testbed for developing AI models than ever. However, equipping AI models with robust cross-modality reasoning ability remains challenging since the cognition scheme of humans has not been understood systematically. In this paper, we believe that if we can collect visual clues in the given image as much as possible, we will recognize the image more accurately, understand the question better, recall relevant knowledge more easily, and finally reason out the answer. We discover these rich visual clues by mining question-answer pairs in images and sending them into multi-modal large language models as prompts. We call the proposed method Q&A Prompts. Specifically, we first use the image-answer pairs and the corresponding questions in the training set as inputs and outputs to train a visual question generation model. Then, we use an image tagging model to identify various instances and send packaged image-tag pairs into the visual question generation model to generate relevant questions with the extracted image tags as answers. Finally, we encode these generated question-answer pairs as prompts with a visual-aware prompting module and send them into pre-trained multi-modal large language models to reason out the final answers. Experimental results show that, compared with state-of-the-art methods, our Q&A Prompts achieves substantial improvements on the challenging visual question answering datasets requiring reasoning over diverse world knowledge, such as OK-VQA and A-OKVQA.
翻訳日:2024-03-08 17:06:11 公開日:2024-03-07
# AutoFT:ロバストなファインチューニングの目的を学ぶ

AutoFT: Learning an Objective for Robust Fine-Tuning ( http://arxiv.org/abs/2401.10220v2 )

ライセンス: Link先を確認
Caroline Choi, Yoonho Lee, Annie Chen, Allan Zhou, Aditi Raghunathan, Chelsea Finn(参考訳) ファンデーションモデルは、微調整によって下流タスクに適応できるリッチな表現をエンコードする。 しかし、あるデータ分布上のモデルを微調整すると、分散シフト時に性能が低下することが多い。 強固な微調整への最近のアプローチでは、手作りの正則化技術を使用して、事前訓練されたモデルに微調整プロセスを制約している。 しかし、事前トレーニング、微調整、テストデータの分散が相互にどう関係しているかに依存するため、微調整時に基礎モデルの適切な特性をどのように適応するかを特定することは困難である。 我々は、堅牢な微調整のためのデータ駆動型アプローチであるAutoFTを提案する。 タスクが与えられたとき、AutoFTはアウト・オブ・ディストリビューション(OOD)の一般化を強化する微調整手順を検索する。 特に、AutoFTは2レベル最適化を用いて、小さなOOD検証セットにおける適応後のパフォーマンスを最大化する目的関数とハイパーパラメータを探索する。 我々は9つの自然分布シフトでAutoFTを評価する。 実験の結果、AutoFTはOOD入力への一般化を著しく改善し、既存の頑健な微調整方法よりも優れていることがわかった。 特に、AutoFT は WILDS iWildCam と FMoW のベンチマークにおいて、それぞれ 6.0\%$ と $1.5\%$ を上回り、新しい最先端技術を実現している。

Foundation models encode rich representations that can be adapted to downstream tasks by fine-tuning. However, fine-tuning a model on one data distribution often degrades performance under distribution shifts. Current approaches to robust fine-tuning use hand-crafted regularization techniques to constrain the fine-tuning process towards the pretrained model. Yet, it is hard to specify how to adapt relevant characteristics of the foundation model during fine-tuning, as this depends on how the pre-training, fine-tuning, and test data distributions relate to each other. We propose AutoFT, a data-driven approach for robust fine-tuning. Given a task, AutoFT searches for a fine-tuning procedure that enhances out-of-distribution (OOD) generalization. Specifically, AutoFT uses bi-level optimization to search for an objective function and hyperparameters that maximize post-adaptation performance on a small OOD validation set. We evaluate AutoFT on nine natural distribution shifts. Our experiments show that AutoFT significantly improves generalization to OOD inputs, outperforming existing robust fine-tuning methods. Notably, AutoFT achieves a new state-of-the-art on the WILDS iWildCam and FMoW benchmarks, outperforming the previous best methods by $6.0\%$ and $1.5\%$, respectively.
翻訳日:2024-03-08 17:05:38 公開日:2024-03-07
# DurFlex-EVC:並列生成による持続的フレキシブル感情音声変換

DurFlex-EVC: Duration-Flexible Emotional Voice Conversion with Parallel Generation ( http://arxiv.org/abs/2401.08095v2 )

ライセンス: Link先を確認
Hyung-Seok Oh, Sang-Hoon Lee, Deok-Hyeon Cho, Seong-Whan Lee(参考訳) 感情音声変換(EVC)は、元の言語内容と話者の独特の声質を保ちながら、話者の声の感情的トーンを変更しようとするものである。 EVCの最近の進歩は、Sequence-to-Sequence(seq2seq)モデルのポテンシャルを利用して、ピッチと持続時間の同時モデリングに関わっている。 変換の信頼性と効率を高めるため,本研究は並列音声生成に焦点を移す。 本研究では,Duration-Flexible EVC (DurFlex-EVC) について紹介する。 従来のモデルは、言語情報とパラ言語情報の両方を含む自己教師付き学習(SSL)表現を取り入れているが、この二重性を無視しており、制御性が低下している。 この問題に対処するため、これらの表現を様々な感情と同期させるクロスアテンションを実装した。 さらに、スタイル要素の切り離しと操作のためのスタイルオートエンコーダも開発されている。 このアプローチの有効性は主観的評価と客観的評価の両方を通して検証され、この分野の既存モデルに対する優位性が確立される。

Emotional voice conversion (EVC) seeks to modify the emotional tone of a speaker's voice while preserving the original linguistic content and the speaker's unique vocal characteristics. Recent advancements in EVC have involved the simultaneous modeling of pitch and duration, utilizing the potential of sequence-to-sequence (seq2seq) models. To enhance reliability and efficiency in conversion, this study shifts focus towards parallel speech generation. We introduce Duration-Flexible EVC (DurFlex-EVC), which integrates a style autoencoder and unit aligner. Traditional models, while incorporating self-supervised learning (SSL) representations that contain both linguistic and paralinguistic information, have neglected this dual nature, leading to reduced controllability. Addressing this issue, we implement cross-attention to synchronize these representations with various emotions. Additionally, a style autoencoder is developed for the disentanglement and manipulation of style elements. The efficacy of our approach is validated through both subjective and objective evaluations, establishing its superiority over existing models in the field.
翻訳日:2024-03-08 17:05:17 公開日:2024-03-07
# 無限可変量子モンテカルロにおける擬似高速化

Quadratic Speed-up in Infinite Variance Quantum Monte Carlo ( http://arxiv.org/abs/2401.07497v2 )

ライセンス: Link先を確認
Jose Blanchet, Mario Szegedy, Guanyang Wang(参考訳) 本研究ではモンタナロのarXiv/archive:1504.06987 量子モンテカルロ法の拡張について述べる。 これは、様々な科学・工学分野でよく見られる重尾分布の分析における課題に対処する。 我々の量子アルゴリズムは、有限の$(1+\delta)^{\text{th}}$ moment を持つ変数に対して平均を効率的に推定する。 これは、古典的モンテカルロ法よりも精度パラメータ$\epsilon$と分布の指定モーメントの両方で二次的なスピードアップを提供する。 古典的下界と量子下界の両方を確立し、量子法の中でアルゴリズムの最適に近い効率を示す。 我々の研究は、新しいアルゴリズムを作成することではなく、確率変数に関する追加情報を用いて既存のアルゴリズムの実行を分析することに焦点を当てている。 さらに、これらのシナリオを分類し、提供可能な補足情報の種類における階層構造を示す。

In this study, we give an extension of Montanaro's arXiv/archive:1504.06987 quantum Monte Carlo method, tailored for computing expected values of random variables that exhibit infinite variance. This addresses a challenge in analyzing heavy-tailed distributions, which are commonly encountered in various scientific and engineering fields. Our quantum algorithm efficiently estimates means for variables with a finite $(1+\delta)^{\text{th}}$ moment, where $\delta$ lies between 0 and 1. It provides a quadratic speedup over the classical Monte Carlo method in both the accuracy parameter $\epsilon$ and the specified moment of the distribution. We establish both classical and quantum lower bounds, showcasing the near-optimal efficiency of our algorithm among quantum methods. Our work focuses not on creating new algorithms, but on analyzing the execution of existing algorithms with available additional information about the random variable. Additionally, we categorize these scenarios and demonstrate a hierarchy in the types of supplementary information that can be provided.
翻訳日:2024-03-08 17:04:58 公開日:2024-03-07
# 開量子系におけるページカーブ様絡み合いダイナミクス

Page-curve-like entanglement dynamics in open quantum systems ( http://arxiv.org/abs/2401.06042v2 )

ライセンス: Link先を確認
Jonas Glatthard(参考訳) ブラックホールの絡み合いエントロピーとそのホーキング放射のエントロピーは、いわゆるページ曲線に従うことが期待されており、ホーキングの計算と一致して、ユニタリティーによって要求されるようにブラックホールが完全に蒸発した後は、ゼロに戻ることが期待されている。 近年,同様の行動を示す単純なシステムプラスバスモデルが提案されている。 ここでは, 系が平衡から遠い純粋な状態に初期化される場合, システム+バスモデルに対して, システム+バスモデルに対して, 一般にそのようなページ曲線的絡み合いのダイナミクスが維持されるべき理由を概説する。 浴槽との相互作用によって絡み合いエントロピーが生じるが、最終的には対応する平均力ギブズ状態の値に減少する。 これらの条件下では、システム基底状態に近い。 数値的に解くことができる高調波量子ブラウン運動とスピンボーソンモデルという2つのパラダイム的開量子系モデルについて述べる。 最初の例では、初期局所化不純物の中間エントロピーがより局所化された初期状態に対して高いことが分かる。 第二の例では、励起状態において初期化された不純物の場合、エントロピーが最大値に達するページタイムは、励起が半減した時に発生する。

The entanglement entropy of a black hole, and that of its Hawking radiation, are expected to follow the so-called Page curve: After an increase in line with Hawking's calculation, it is expected to decrease back to zero once the black hole has fully evaporated, as demanded by unitarity. Recently, a simple system-plus-bath model has been proposed which shows a similar behaviour. Here, we make a general argument as to why such a Page-curve-like entanglement dynamics should be expected to hold generally for system-plus-bath models at small coupling and low temperatures, when the system is initialised in a pure state far from equilibrium. The interaction with the bath will then generate entanglement entropy, but it eventually has to decrease to the value prescribed by the corresponding mean-force Gibbs state. Under those conditions, it is close to the system ground state. We illustrate this on two paradigmatic open-quantum-system models, the exactly solvable harmonic quantum Brownian motion and the spin-boson model, which we study numerically. In the first example we find that the intermediate entropy of an initially localised impurity is higher for more localised initial states. In the second example, for an impurity initialised in the excited state, the Page time--when the entropy reaches its maximum--occurs when the excitation has half decayed.
翻訳日:2024-03-08 17:04:39 公開日:2024-03-07
# 強化学習支援量子アーキテクチャによる変分量子アルゴリズムの探索

Reinforcement learning-assisted quantum architecture search for variational quantum algorithms ( http://arxiv.org/abs/2402.13754v3 )

ライセンス: Link先を確認
Akash Kundu(参考訳) ノイズの多い中間スケール量子(NISQ)時代の重要なハードルは、機能量子回路を特定することである。 これらの回路は、現在の量子ハードウェアの制限によって課される制約にも従わなければならない。 量子古典最適化アルゴリズムのクラスである変分量子アルゴリズム(VQA)は、現在利用可能な量子デバイスにおけるこれらの課題に対処するために開発された。 しかしながら、VQAの全体的な性能は、変動回路の初期化戦略、回路の構造(アンザッツとも呼ばれる)、コスト関数の設定に依存する。 回路の構造に着目し,この論文では,強化学習(RL)を用いた変分回路の最適構造探索を自動化することにより,VQAの性能を向上させる。 論文の中で、回路の最適性は、その深さ、ゲートとパラメータの全体数、および与えられた問題を解決するための精度を評価することによって決定される。 最適量子回路の探索を自動化するタスクは量子アーキテクチャサーチ(QAS)として知られている。 QASの研究の大部分は、主にノイズのないシナリオに焦点を当てている。 しかし、QASに対するノイズの影響はいまだに不十分である。 本稿では,テンソルをベースとした量子回路の符号化,可能回路の探索空間を効率的に探索するための環境力学の制限,より短い回路を見つけるためにエージェントを操るエピソード停止スキーム,安定性向上のための$\epsilon$-greedyポリシを備えたDDQN(Double Deep Q-network)を導入することで課題に取り組む。 ノイズレスおよびノイズの多い量子ハードウェアに関する数値実験は、様々なVQAを扱う際に、我々のRLベースのQASが既存のQASより優れていることを示している。 一方、論文で提案する手法は、他の幅広いvqaに対応するために容易に適用できる。

A significant hurdle in the noisy intermediate-scale quantum (NISQ) era is identifying functional quantum circuits. These circuits must also adhere to the constraints imposed by current quantum hardware limitations. Variational quantum algorithms (VQAs), a class of quantum-classical optimization algorithms, were developed to address these challenges in the currently available quantum devices. However, the overall performance of VQAs depends on the initialization strategy of the variational circuit, the structure of the circuit (also known as ansatz), and the configuration of the cost function. Focusing on the structure of the circuit, in this thesis, we improve the performance of VQAs by automating the search for an optimal structure for the variational circuits using reinforcement learning (RL). Within the thesis, the optimality of a circuit is determined by evaluating its depth, the overall count of gates and parameters, and its accuracy in solving the given problem. The task of automating the search for optimal quantum circuits is known as quantum architecture search (QAS). The majority of research in QAS is primarily focused on a noiseless scenario. Yet, the impact of noise on the QAS remains inadequately explored. In this thesis, we tackle the issue by introducing a tensor-based quantum circuit encoding, restrictions on environment dynamics to explore the search space of possible circuits efficiently, an episode halting scheme to steer the agent to find shorter circuits, a double deep Q-network (DDQN) with an $\epsilon$-greedy policy for better stability. The numerical experiments on noiseless and noisy quantum hardware show that in dealing with various VQAs, our RL-based QAS outperforms existing QAS. Meanwhile, the methods we propose in the thesis can be readily adapted to address a wide range of other VQAs.
翻訳日:2024-03-08 16:59:43 公開日:2024-03-07
# 自動車運転のための大規模言語モデルに基づくハイブリッド推論

Hybrid Reasoning Based on Large Language Models for Autonomous Car Driving ( http://arxiv.org/abs/2402.13602v2 )

ライセンス: Link先を確認
Mehdi Azarafza, Mojtaba Nayyeri, Charles Steinmetz, Steffen Staab, Achim Rettberg(参考訳) 大きな言語モデル(LLM)は、テキストや画像を理解し、人間に似たテキストを生成し、複雑な推論タスクを実行する能力に対して、大きな注目を集めている。 しかし、この高度な推論を自然言語テキストと組み合わせて、動的状況における意思決定を一般化する能力は、さらなる探索を必要とする。 本研究では,LLMが算術的推論と常識的推論の組み合わせ,特に自律運転シナリオにおいてどの程度うまく適応できるかを考察する。 LLMのハイブリッド推論能力は、検出された物体やセンサデータを分析し、運転規則や物理法則を理解し、追加のコンテキストを提供することによって、自律運転を改善することができると仮定する。 これは、(天候条件による)視認性の低い意思決定のような複雑なシナリオに対処します。 我々は,CARLA内の人間生成の真実と比較し,その精度に基づいてLarge Language Models(LLMs)を評価した。 その結果、LLMに画像(検出対象物)とセンサーデータを組み合わせると、様々な天候条件下での自動運転車のブレーキやスロットル制御の正確な情報が得られることがわかった。 この定式化と回答は自動操縦システムの意思決定に役立つ。

Large Language Models (LLMs) have garnered significant attention for their ability to understand text and images, generate human-like text, and perform complex reasoning tasks. However, their ability to generalize this advanced reasoning with a combination of natural language text for decision-making in dynamic situations requires further exploration. In this study, we investigate how well LLMs can adapt and apply a combination of arithmetic and common-sense reasoning, particularly in autonomous driving scenarios. We hypothesize that LLMs hybrid reasoning abilities can improve autonomous driving by enabling them to analyze detected object and sensor data, understand driving regulations and physical laws, and offer additional context. This addresses complex scenarios, like decisions in low visibility (due to weather conditions), where traditional methods might fall short. We evaluated Large Language Models (LLMs) based on accuracy by comparing their answers with human-generated ground truth inside CARLA. The results showed that when a combination of images (detected objects) and sensor data is fed into the LLM, it can offer precise information for brake and throttle control in autonomous vehicles across various weather conditions. This formulation and answers can assist in decision-making for auto-pilot systems.
翻訳日:2024-03-08 16:59:14 公開日:2024-03-07
# Eコマース製品記述生成のためのマルチモーダルインコンテキストチューニング手法

A Multimodal In-Context Tuning Approach for E-Commerce Product Description Generation ( http://arxiv.org/abs/2402.13587v2 )

ライセンス: Link先を確認
Yunxin Li, Baotian Hu, Wenhan Luo, Lin Ma, Yuxin Ding, Min Zhang(参考訳) 本稿では,マーケティングキーワードを付加した画像から製品記述を生成するための新しい設定を提案する。 視覚情報とテキスト情報の組み合わせを活用して、製品のユニークな特徴に合わせた説明を生成する。 この設定のために、以前の手法では視覚的およびテキスト的エンコーダを使用して画像とキーワードをエンコードし、言語モデルに基づくデコーダを使用して製品記述を生成する。 しかし、生成した記述はしばしば不正確であり、同じカテゴリの製品も同様のコピーライティングを持ち、大規模なサンプルに対する全体的なフレームワークを最適化することで、モデルは一般的な単語に集中するが、製品の特徴を無視する。 この問題を軽減するために, ModICT というシンプルなマルチモーダル・インコンテキスト・チューニング手法を提案し, 類似した製品サンプルを参照として導入し, 言語モデルのインコンテキスト学習機能を用いて記述を生成する。 トレーニング中、私たちはビジュアルエンコーダと言語モデルを凍結し続け、マルチモーダルなインコンテキスト参照と動的プロンプトを作成するモジュールの最適化に重点を置いています。 このアプローチは、大きな言語モデル(LLM)の言語生成能力を保ち、記述の多様性を大幅に向上させる。 様々な言語モデルスケールとタイプにおけるModICTの有効性を評価するため,Eコマース領域内の3つの異なる製品カテゴリからデータを収集した。 広範な実験により、modictは生成した結果の精度(ルージュlでは最大3.3%)と多様性(d-5では最大9.4%)を従来の方法と比較して大幅に改善することが示されている。 当社の調査結果は,幅広いアプリケーションで製品記述の自動生成を促進する貴重なツールとしてのmodictの可能性を強調している。 https://github.com/HITsz-TMG/Multimodal-In-Context-Tuning

In this paper, we propose a new setting for generating product descriptions from images, augmented by marketing keywords. It leverages the combined power of visual and textual information to create descriptions that are more tailored to the unique features of products. For this setting, previous methods utilize visual and textual encoders to encode the image and keywords and employ a language model-based decoder to generate the product description. However, the generated description is often inaccurate and generic since same-category products have similar copy-writings, and optimizing the overall framework on large-scale samples makes models concentrate on common words yet ignore the product features. To alleviate the issue, we present a simple and effective Multimodal In-Context Tuning approach, named ModICT, which introduces a similar product sample as the reference and utilizes the in-context learning capability of language models to produce the description. During training, we keep the visual encoder and language model frozen, focusing on optimizing the modules responsible for creating multimodal in-context references and dynamic prompts. This approach preserves the language generation prowess of large language models (LLMs), facilitating a substantial increase in description diversity. To assess the effectiveness of ModICT across various language model scales and types, we collect data from three distinct product categories within the E-commerce domain. Extensive experiments demonstrate that ModICT significantly improves the accuracy (by up to 3.3% on Rouge-L) and diversity (by up to 9.4% on D-5) of generated results compared to conventional methods. Our findings underscore the potential of ModICT as a valuable tool for enhancing automatic generation of product descriptions in a wide range of applications. Code is at: https://github.com/HITsz-TMG/Multimodal-In-Context-Tuning
翻訳日:2024-03-08 16:58:52 公開日:2024-03-07
# 閉じ込めイオン量子ビットに対するロバストかつ高速マイクロ波駆動量子論理

Robust and fast microwave-driven quantum logic for trapped-ion qubits ( http://arxiv.org/abs/2402.12955v2 )

ライセンス: Link先を確認
M. A. Weber, M. F. Gely, R. K. Hanley, T. P. Harty, A. D. Leu, C. M. L\"oschnauer, D. P. Nadlinger, D. M. Lucas(参考訳) マイクロ波駆動論理は、閉じ込められたイオンベースの量子プロセッサのスケーリングにおいて、レーザー制御に代わる有望な方法である。 しかし、そのような電子ゲートはレーザー駆動のゲートの速度にまだ一致していない。 ここで、m{\o}lmer-s{\o}rensenの2量子ビットゲートを、極低温(約25~\text{k}$)の表面トラップ(近接場マイクロ波によって駆動される)に、$^{43}\text{ca}^+$ hyperfine clock qubits上に実装する。 我々は、154〜\mu\text{s}$(1.0(2)\%$エラー)と331〜\mu\text{s}$$(0.5(1)\%$エラー)のゲート持続時間を達成する。 331~\mu\text{s}$ gateでは、量子ビット周波数のゆらぎによる誤差やデカップリングドライブ自体の不完全さを抑える新しいウォルシュ変調動的デカップリングスキームを実演する。

Microwave-driven logic is a promising alternative to laser control in scaling trapped-ion based quantum processors. However, such electronic gates have yet to match the speed offered by their laser-driven counterparts. Here, we implement M{\o}lmer-S{\o}rensen two-qubit gates on $^{43}\text{Ca}^+$ hyperfine clock qubits in a cryogenic ($\approx25~\text{K}$) surface trap, driven by near-field microwaves. We achieve gate durations of $154~\mu\text{s}$ (with $1.0(2)\%$ error) and $331~\mu\text{s}$ ($0.5(1)\%$ error), which approaches the performance of typical laser-driven gates. In the $331~\mu\text{s}$ gate, we demonstrate a new Walsh-modulated dynamical decoupling scheme which suppresses errors due to fluctuations in the qubit frequency as well as imperfections in the decoupling drive itself.
翻訳日:2024-03-08 16:58:21 公開日:2024-03-07
# 多変量時系列予測の活性化:系列間依存による学習可能な分解と系列内変動モデリング

Revitalizing Multivariate Time Series Forecasting: Learnable Decomposition with Inter-Series Dependencies and Intra-Series Variations Modeling ( http://arxiv.org/abs/2402.12694v3 )

ライセンス: Link先を確認
Guoqi Yu, Jing Zou, Xiaowei Hu, Angelica I. Aviles-Rivero, Jing Qin and Shujun Wang(参考訳) 多変量時系列の予測は重要であり、系列間の依存性や系列内変動を含む複雑なパターンの正確なモデリングを要求する。 時系列ごとに特徴的な傾向特性が問題となり、既存の手法は基本的な移動平均カーネルに依存しており、現実のデータにおける非線形構造や複雑な傾向に苦しむことがある。 そこで我々は,動的傾向情報をより合理的に捉えるための学習可能な分解戦略を導入する。 さらに,チャネルワイドな自己注意と自己回帰的自己注意によって実装された時系列予測の精度向上のために,シリーズ間の依存関係とシリーズ内変動を同時にキャプチャする2重注意モジュールを提案する。 本手法の有効性を評価するために,8つのオープンソースデータセットを対象に実験を行い,最新手法と比較した。 その結果,Leddam (Learnable Decomposition and Dual Attention Module) は,予測性能の大幅な向上を示すだけでなく,提案した分解戦略を11.87%から48.56%のMSE誤差劣化率で他の手法にプラグインできることがわかった。

Predicting multivariate time series is crucial, demanding precise modeling of intricate patterns, including inter-series dependencies and intra-series variations. Distinctive trend characteristics in each time series pose challenges, and existing methods, relying on basic moving average kernels, may struggle with the non-linear structure and complex trends in real-world data. Given that, we introduce a learnable decomposition strategy to capture dynamic trend information more reasonably. Additionally, we propose a dual attention module tailored to capture inter-series dependencies and intra-series variations simultaneously for better time series forecasting, which is implemented by channel-wise self-attention and autoregressive self-attention. To evaluate the effectiveness of our method, we conducted experiments across eight open-source datasets and compared it with the state-of-the-art methods. Through the comparison results, our Leddam (LEarnable Decomposition and Dual Attention Module) not only demonstrates significant advancements in predictive performance, but also the proposed decomposition strategy can be plugged into other methods with a large performance-boosting, from 11.87% to 48.56% MSE error degradation.
翻訳日:2024-03-08 16:57:55 公開日:2024-03-07
# AnyGPT:離散シーケンスモデリングによる統一型マルチモーダルLCM

AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling ( http://arxiv.org/abs/2402.12226v3 )

ライセンス: Link先を確認
Jun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Zhou, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, Hang Yan, Jie Fu, Tao Gui, Tianxiang Sun, Yugang Jiang, Xipeng Qiu(参考訳) 我々は、音声、テキスト、画像、音楽を含む様々なモーダルの統一処理に離散表現を利用する、任意のマルチモーダル言語モデルであるAnyGPTを紹介する。 任意のGPTは、現在の大規模言語モデル(LLM)アーキテクチャやトレーニングパラダイムを変更することなく、安定してトレーニングすることができる。 代わりに、それはデータレベルのプリプロセッシングにのみ依存し、新しい言語の導入に似たllmへの新しいモダリティのシームレスな統合を促進する。 我々はマルチモーダルアライメント事前学習のためのマルチモーダルテキスト中心データセットを構築する。 生成モデルを用いて、我々は最初の大規模任意のマルチモーダル命令データセットを合成する。 様々なモダリティを複雑に織り交ぜるマルチターン会話の108kのサンプルで構成されており、マルチモーダル入力と出力の任意の組み合わせを扱うためのモデルを備えている。 実験結果から,AnyGPTは任意のマルチモーダル対話を促進できると同時に,すべてのモダリティにまたがる特殊モデルに匹敵する性能を実現し,言語モデル内の複数のモダリティを効果的かつ便利に統一できることが証明された。 デモはhttps://junzhan2000.github.io/AnyGPT.github.io/で見ることができる。

We introduce AnyGPT, an any-to-any multimodal language model that utilizes discrete representations for the unified processing of various modalities, including speech, text, images, and music. AnyGPT can be trained stably without any alterations to the current large language model (LLM) architecture or training paradigms. Instead, it relies exclusively on data-level preprocessing, facilitating the seamless integration of new modalities into LLMs, akin to the incorporation of new languages. We build a multimodal text-centric dataset for multimodal alignment pre-training. Utilizing generative models, we synthesize the first large-scale any-to-any multimodal instruction dataset. It consists of 108k samples of multi-turn conversations that intricately interweave various modalities, thus equipping the model to handle arbitrary combinations of multimodal inputs and outputs. Experimental results demonstrate that AnyGPT is capable of facilitating any-to-any multimodal conversation while achieving performance comparable to specialized models across all modalities, proving that discrete representations can effectively and conveniently unify multiple modalities within a language model. Demos are shown in https://junzhan2000.github.io/AnyGPT.github.io/
翻訳日:2024-03-08 16:57:32 公開日:2024-03-07
# Knowledge-to-SQL: データエキスパートLLMによるSQL生成の強化

Knowledge-to-SQL: Enhancing SQL Generation with Data Expert LLM ( http://arxiv.org/abs/2402.11517v2 )

ライセンス: Link先を確認
Zijin Hong, Zheng Yuan, Hao Chen, Qinggang Zhang, Feiran Huang, Xiao Huang(参考訳) ユーザクエリ(text-to-SQL)に対する正確なSQLの生成は、SQLの生成がクエリとデータベースを補完し、データベースから正確なデータを取得する必要があるため、長年にわたる問題である。 既存のモデルはデータベーススキーマに従ってSQLを生成するためのLLM(Large Language Models)の包括的な能力に依存している。 しかし、データベーススキーマに明示的に含まれていない、あるいはllmsによって学習された必要な知識がある。 したがって、生成した知識不足クエリのsqlは不正確であり、テキスト対sqlモデルのロバスト性に悪影響を及ぼす可能性がある。 この状況に対処するため,データエキスパートのLLM(DELLM)を用いて,すべてのタイプのテキスト・トゥ・SQLモデルに有用な知識を提供するKnowledge-to-SQLフレームワークを提案する。 具体的には,DELLMの詳細設計とテーブル読解,および基礎的な微調整プロセスについて述べる。 さらに、PLDBF(Preference Learning via Database Feedback)トレーニング戦略を提供し、DELLMを誘導し、LLMのより有用な知識を生成する。 大規模な実験により、DELLMはテキストからSQLタスクにおける最先端のLLMを強化することができる。 DELLMのモデル構造とパラメータ重量は、さらなる研究のために公表される。

Generating accurate SQL for user queries (text-to-SQL) is a long-standing problem since the generation of the SQL requires comprehending the query and database and retrieving the accurate data from the database accordingly. Existing models rely on the comprehensive ability of Large Language Models (LLMs) to generate the SQL according to the database schema. However, there is some necessary knowledge that is not explicitly included in the database schema or has been learned by LLMs. Thus, the generated SQL of the knowledge-insufficient queries may be inaccurate, which negatively impacts the robustness of the text-to-SQL models. To deal with this situation, we propose the Knowledge-to-SQL framework, which employs tailored Data Expert LLM (DELLM) to provide helpful knowledge for all types of text-to-SQL models. Specifically, we provide the detailed design of DELLM, in terms of table reading, and the basic fine-tuning process. We further provide a Preference Learning via Database Feedback (PLDBF) training strategy to guide the DELLM to generate more helpful knowledge for LLMs. Extensive experiments verify DELLM can enhance the state-of-the-art LLMs on text-to-SQL tasks. The model structure and the parameter weight of DELLM are released for further research.
翻訳日:2024-03-08 16:57:09 公開日:2024-03-07
# コヒーレント光間相互作用の多光子共鳴における波動粒子相関

Wave-particle correlations in multiphoton resonances of coherent light-matter interaction ( http://arxiv.org/abs/2402.09308v2 )

ライセンス: Link先を確認
Th. K. Mavrogordatos(参考訳) 多光子動作下でのJaynes-Cummings(JC)モデルにおける非古典光子列による場振幅の条件測定について検討する。 我々は、[G. T. Foster et al., Phys. Rev. Lett. 85 3149 (2000)] の精神における明確な非古典的進化を明らかにするために、即時的な実験関係の相関子を用いる。 相関子は、JCソースマスター方程式の異なる解から得られる画像の相補的な性質に依存する。 直接光検出は、時間スケール、量子ビート、半古典的振動の条件付き分離を伴い、その強い結合限界においてコヒーレントな光-物質相互作用によって生じることを実証する。 我々は、散乱光の粒子の性質に関連する待ち時間分布の解析式において量子ビートを抽出し、特定の動作条件においてその波動特性の特徴である二次振幅の負のスペクトルを求める。 最後に、波動-粒子相関器による二重面の同時検出を行い、測定中の二次振幅に依存する定常状態に対する変動の非対称回帰を示す。

We discuss the conditional measurement of field amplitudes by a nonclassical photon sequence in the Jaynes-Cummings (JC) model under multiphoton operation. We do so by employing a correlator of immediate experimental relevance to reveal a distinct nonclassical evolution in the spirit of [G. T. Foster et al., Phys. Rev. Lett. 85 3149 (2000)]. The correlator relies on the complementary nature of the pictures obtained from different unravelings of a JC source master equation. We demonstrate that direct photodetection entails a conditioned separation of timescales, a quantum beat and a semiclassical oscillation, produced by the coherent light-matter interaction in its strong-coupling limit. We single the quantum beat out in the analytical expression for the waiting-time distribution, pertaining to the particle nature of the scattered light, and find a negative spectrum of quadrature amplitude squeezing, characteristic of its wave nature for certain operation settings. Finally, we jointly detect the dual aspects through the wave-particle correlator, showing an asymmetric regression of fluctuations to the steady state which depends on the quadrature amplitude being measured.
翻訳日:2024-03-08 16:56:22 公開日:2024-03-07
# MUSTARD:理論と証明データの一様合成をマスターする

MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data ( http://arxiv.org/abs/2402.08957v2 )

ライセンス: Link先を確認
Yinya Huang, Xiaohan Lin, Zhengying Liu, Qingxing Cao, Huajian Xin, Haiming Wang, Zhenguo Li, Linqi Song, Xiaodan Liang(参考訳) 最近の大規模言語モデル(llm)は、数学的推論や定理証明を含む様々なタスクにおいて重要な進歩を遂げている。 これらの2つのタスクは厳密で形式的な多段階推論を必要とするため、LLMの推論能力を探究するドメインにアピールするが、それでも重要な課題に直面している。 先行研究であるchain-of-thought (cot) は、中間ステップ指導の有効性を明らかにしている。 しかし、このようなステップワイズアノテーションは多大な労力を必要とするため、現在のベンチマークのトレーニングステップは不十分である。 このギャップを埋めるため、本研究では、高品質と多様性の証明データと定理の均一な合成を習得するデータ生成フレームワークである mustard を紹介する。 mustardはデータを3つの段階に合成する:(1)いくつかの数学的概念の種を問題カテゴリとしてサンプリングする。 2) サンプル概念を用いた生成言語モデルを構築し,問題とステップワイドな形式的解の両立を図った。 (3) 最後に、このフレームワークは証明アシスタント(例:Lean Prover)を使って有効な証明をフィルタリングする。 提案するマスタードを用いて、5,866点の有効データ点を持つ定理と証明のベンチマークを示す。 各データポイントは、非公式なステートメント、非公式な証明、そして証明者検証を通した変換された形式的証明を含む。 広範囲な分析を行い,検証された高品質なステップバイステップデータを生成することを実証する。 さらに、より小型の言語モデルにMUSTARDSAUCEを適用する。 微調整されたllama 2-7bは、自動定理証明で平均15.41%、数学用語問題で8.18%のパフォーマンス向上を達成している。 コードとデータはhttps://github.com/eleanor-h/mustardで入手できる。

Recent large language models (LLMs) have witnessed significant advancement in various tasks, including mathematical reasoning and theorem proving. As these two tasks require strict and formal multi-step inference, they are appealing domains for exploring the reasoning ability of LLMs but still face important challenges. Previous studies such as Chain-of-Thought (CoT) have revealed the effectiveness of intermediate steps guidance. However, such step-wise annotation requires heavy labor, leading to insufficient training steps for current benchmarks. To fill this gap, this work introduces MUSTARD, a data generation framework that masters uniform synthesis of theorem and proof data of high quality and diversity. MUSTARD synthesizes data in three stages: (1) It samples a few mathematical concept seeds as the problem category. (2) Then, it prompts a generative language model with the sampled concepts to obtain both the problems and their step-wise formal solutions. (3) Lastly, the framework utilizes a proof assistant (e.g., Lean Prover) to filter the valid proofs. With the proposed MUSTARD, we present a theorem-and-proof benchmark MUSTARDSAUCE with 5,866 valid data points. Each data point contains an informal statement, an informal proof, and a translated formal proof that passes the prover validation. We perform extensive analysis and demonstrate that MUSTARD generates validated high-quality step-by-step data. We further apply the MUSTARDSAUCE for fine-tuning smaller language models. The fine-tuned Llama 2-7B achieves a 15.41% average relative performance gain in automated theorem proving, and 8.18% in math word problems. Codes and data are available at https://github.com/Eleanor-H/MUSTARD.
翻訳日:2024-03-08 16:56:00 公開日:2024-03-07
# 任意の次元におけるLandau-Streater(Werner-Holevo)チャネル

The noisy Landau-Streater(Werner-Holevo) channel in arbitrary dimensions ( http://arxiv.org/abs/2402.07700v4 )

ライセンス: Link先を確認
Vahid Karimipour(参考訳) 量子チャネルの2つの重要なクラス、namly the werner-holevoとlandau-streater channelは、3次元、すなわちクトリット上で振る舞うときのみ関連していることが知られている。 本研究において、ランダウ・セプターチャネルの定義は、すべての次元のヴェルナー・ホルボチャネルと同値を保つような方法で拡張される。 このチャネルは、quditsに作用するノイズのモデルとして表現できるように修正される。 次に, 結果として発生する雑音チャネルのプロピテンスを調査し, マルコフ進化の結果では得られない条件を決定する。 さらに,古典的および量子的情報を絡み合うことなく伝達する能力について検討する。 特に、純(または高ノイズ)ランダウ・セプタまたはヴェルナー・ホールボチャネルが絡み合っており、従って容量がゼロであるのに対し、量子容量に対する下界を見つけることにより、ノイズレベルが臨界値よりも低い場合、量子容量はゼロでないことを示す。 この値は、すべての次元においておよそ0.4$である。 最後に、偶数次元において、このチャネルはユニタリ操作の観点で分解されることを示す。 これは、そのような分解が可能であることが証明された3次元の場合とは対照的であり、他の量子写像の観点でも不可能である。

Two important classes of quantum channels, namly the Werner-Holevo and the Landau-Streater channels are known to be related only in three dimensions, i.e. when acting on qutrits. In this work, the definition of the Landau-Streater channel is extended in such a way which retains its equivalence to the Werner-Holevo channel in all dimensions. This channel is then modified to be representable as a model of noise acting on qudits. We then investigate propeties of the resulting noisy channel and determine the conditions under which it cannot be the result of a Markovian evolution. Furthermore, we investigate its different capacities for transmitting classical and quantum information with or without entanglement. In particular, while the pure (or high noise) Landau-Streater or the Werner-Holevo channel is entanglement breaking and hence has zero capacity, by finding a lower bound for the quantum capacity, we show that when the level of noise is lower than a critical value the quantum capacity will be non-zero. Surprizingly this value turns out to be approximately equal to $0.4$ in all dimensions. Finally we show that, in even dimensions, this channel has a decomposition in terms of unitary operations. This is in contrast with the three dimensional case where it has been proved that such a decomposition is possible is impossible, even in terms of other quantum maps.
翻訳日:2024-03-08 16:55:33 公開日:2024-03-07
# pathformer:時系列予測のための適応経路を持つマルチスケールトランスフォーマ

Pathformer: Multi-scale Transformers with Adaptive Pathways for Time Series Forecasting ( http://arxiv.org/abs/2402.05956v4 )

ライセンス: Link先を確認
Peng Chen, Yingying Zhang, Yunyao Cheng, Yang Shu, Yihang Wang, Qingsong Wen, Bin Yang, Chenjuan Guo(参考訳) 時系列予測のための変換器は、主に制限または固定されたスケールからモデル時系列を予測し、様々なスケールにまたがる異なる特性を捉えることは困難である。 適応経路を持つマルチスケールトランスであるPathformerを提案する。 時間分解能と時間距離を統合してマルチスケールモデリングを行う。 マルチスケール分割は、時系列を異なる時間分解能に分割する。 各スケールの分割に基づいて、グローバル相関と局所的詳細を時間的依存関係として捉えるために、これらのパッチに対して二重の注意が払われる。 さらに,入力の時間的ダイナミクスの変化に基づいて適応的にマルチスケールモデリングプロセスを調整し,パスフォーマの精度と一般化を改善した適応経路を持つマルチスケールトランスフォーマをさらに強化する。 11の実世界のデータセットに対する大規模な実験により、Pathformerは現在のモデルをすべて越えて最先端のパフォーマンスを達成するだけでなく、さまざまな移行シナリオ下でのより強力な一般化能力も示している。 コードはhttps://github.com/decisionintelligence/pathformerで入手できる。

Transformers for time series forecasting mainly model time series from limited or fixed scales, making it challenging to capture different characteristics spanning various scales. We propose Pathformer, a multi-scale Transformer with adaptive pathways. It integrates both temporal resolution and temporal distance for multi-scale modeling. Multi-scale division divides the time series into different temporal resolutions using patches of various sizes. Based on the division of each scale, dual attention is performed over these patches to capture global correlations and local details as temporal dependencies. We further enrich the multi-scale Transformer with adaptive pathways, which adaptively adjust the multi-scale modeling process based on the varying temporal dynamics of the input, improving the accuracy and generalization of Pathformer. Extensive experiments on eleven real-world datasets demonstrate that Pathformer not only achieves state-of-the-art performance by surpassing all current models but also exhibits stronger generalization abilities under various transfer scenarios. The code is made available at https://github.com/decisionintelligence/pathformer.
翻訳日:2024-03-08 16:55:07 公開日:2024-03-07
# 非平衡最適輸送による生成モデリングのためのスケーラブルワッサースタイン勾配流

Scalable Wasserstein Gradient Flow for Generative Modeling through Unbalanced Optimal Transport ( http://arxiv.org/abs/2402.05443v2 )

ライセンス: Link先を確認
Jaemoo Choi, Jaewoong Choi, Myungjoo Kang(参考訳) Wasserstein Gradient Flow (WGF) は、Wasserstein空間内の確率密度の勾配力学を記述する。 WGFは確率分布を最適化するために有望なアプローチを提供する。 連続WGFを数値的に近似するには時間離散化が必要である。 最もよく知られている方法はJKOスキームである。 この点において、従来のWGFモデルは、各JKOステップに対して、JKOスキームとパラメタライズトランスポートマップを使用する。 しかし、このアプローチは、JKOのステップ数$K$の2次トレーニング複雑性$O(K^2)$となる。 これによりWGFモデルのスケーラビリティが著しく制限される。 本稿では,Semi-dual JKO(S-JKO)と呼ばれるスケーラブルなWGFベースの生成モデルを提案する。 我々のモデルは、JKOステップと不均衡最適輸送の等価性から導かれるJKOステップの半二重形式に基づいている。 我々のアプローチは、トレーニングの複雑さを$O(K)$に減らします。 CIFAR-10ではFIDスコアが2.62、CelebA-HQ-256では5.46と、最先端の画像生成モデルに匹敵する結果を得た。

Wasserstein Gradient Flow (WGF) describes the gradient dynamics of probability density within the Wasserstein space. WGF provides a promising approach for conducting optimization over the probability distributions. Numerically approximating the continuous WGF requires the time discretization method. The most well-known method for this is the JKO scheme. In this regard, previous WGF models employ the JKO scheme and parametrize transport map for each JKO step. However, this approach results in quadratic training complexity $O(K^2)$ with the number of JKO step $K$. This severely limits the scalability of WGF models. In this paper, we introduce a scalable WGF-based generative model, called Semi-dual JKO (S-JKO). Our model is based on the semi-dual form of the JKO step, derived from the equivalence between the JKO step and the Unbalanced Optimal Transport. Our approach reduces the training complexity to $O(K)$. We demonstrate that our model significantly outperforms existing WGF-based generative models, achieving FID scores of 2.62 on CIFAR-10 and 5.46 on CelebA-HQ-256, which are comparable to state-of-the-art image generative models.
翻訳日:2024-03-08 16:54:48 公開日:2024-03-07
# 微分プログラミングによるSGP4と高精度伝播のギャップの解消

Closing the Gap Between SGP4 and High-Precision Propagation via Differentiable Programming ( http://arxiv.org/abs/2402.04830v4 )

ライセンス: Link先を確認
Giacomo Acciarini, At{\i}l{\i}m G\"une\c{s} Baydin, Dario Izzo(参考訳) SGP4(Simplified General Perturbations 4)軌道伝搬法は、地球周回物体の位置と速度を迅速かつ確実に予測するために広く用いられている。 連続的な改良にもかかわらず、SGPモデルは数値プロパゲータの精度に欠けており、誤差は大幅に小さい。 本研究では、PyTorchを用いて実装されたSGP4の新しい微分可能バージョンであるdSGP4を提案する。 SGP4を微分可能にすることで、dSGP4は、宇宙船の軌道決定、状態変換、共分散変換、状態遷移行列計算、共分散伝播など、様々な宇宙関連の応用を促進する。 さらに、dsgp4のpytorch実装は、2ライン要素セット(tles)のバッチをまたいだ恥ずかしいほど並列な軌道伝播を可能にし、将来の衛星位置の分散予測にcpu、gpu、高度なハードウェアの計算能力を活用する。 さらに、dSGP4の微分性は、現代の機械学習技術との統合を可能にする。 そこで我々は,ニューラルネットを軌道伝搬器に統合した新しい軌道伝搬パラダイムML-dSGP4を提案する。 確率勾配降下により、この合成モデルの入力、出力、パラメータは反復的に洗練され、SGP4の精度を超える。 ニューラルネットワークはデフォルトでアイデンティティ演算子として機能し、SGP4の振舞いに固執する。 しかし、dSGP4の微分性は、エフェメリスデータによる微調整を可能にし、計算速度を維持しながら精度を向上させる。 これにより、衛星オペレーターや研究者は、特定のエフェミリや高精度数値伝播データを用いてモデルを訓練し、軌道予測能力を大幅に向上させることができる。

The Simplified General Perturbations 4 (SGP4) orbital propagation method is widely used for predicting the positions and velocities of Earth-orbiting objects rapidly and reliably. Despite continuous refinement, SGP models still lack the precision of numerical propagators, which offer significantly smaller errors. This study presents dSGP4, a novel differentiable version of SGP4 implemented using PyTorch. By making SGP4 differentiable, dSGP4 facilitates various space-related applications, including spacecraft orbit determination, state conversion, covariance transformation, state transition matrix computation, and covariance propagation. Additionally, dSGP4's PyTorch implementation allows for embarrassingly parallel orbital propagation across batches of Two-Line Element Sets (TLEs), leveraging the computational power of CPUs, GPUs, and advanced hardware for distributed prediction of satellite positions at future times. Furthermore, dSGP4's differentiability enables integration with modern machine learning techniques. Thus, we propose a novel orbital propagation paradigm, ML-dSGP4, where neural networks are integrated into the orbital propagator. Through stochastic gradient descent, this combined model's inputs, outputs, and parameters can be iteratively refined, surpassing SGP4's precision. Neural networks act as identity operators by default, adhering to SGP4's behavior. However, dSGP4's differentiability allows fine-tuning with ephemeris data, enhancing precision while maintaining computational speed. This empowers satellite operators and researchers to train the model using specific ephemeris or high-precision numerical propagation data, significantly advancing orbital prediction capabilities.
翻訳日:2024-03-08 16:54:31 公開日:2024-03-07
# Read to Play (R2-Play):マルチモーダルゲーム指導による決定変換器

Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction ( http://arxiv.org/abs/2402.04154v4 )

ライセンス: Link先を確認
Yonggang Jin, Ge Zhang, Hao Zhao, Tianyu Zheng, Jiawei Guo, Liuyu Xiang, Shawn Yue, Stephen W. Huang, Wenhu Chen, Zhaofeng He and Jie Fu(参考訳) 汎用エージェントの開発は、人工知能の長年の目標である。 様々なタスクから広範囲なオフラインデータセットを利用する以前の取り組みは、強化学習におけるマルチタスクシナリオにおいて顕著なパフォーマンスを示している。 しかし、これらの作業は、新しいタスクに能力を拡張する上での課題に遭遇する。 近年,テキスト指導や視覚的軌跡を意思決定ネットワークに統合し,タスク固有の文脈的手がかりを提供する。 しかし,タスクの文脈情報を正確に伝達するには,テキスト指導や視覚的軌跡のみに頼るだけでは不十分であることがわかった。 本稿では,エージェントに対するタスクガイダンスの強化について検討し,ゲームプレイの指示を理解することで「読み上げ」機能を実現する。 視覚タスクにおけるマルチモーダル命令チューニングの成功から着想を得て,視覚ベースのrlタスクをロングホリゾンビジョンタスクとして扱い,マルチモーダルゲーム命令セットを構築し,命令チューニングを決定変換器に組み込む。 実験の結果,マルチモーダルゲームインストラクションの導入は,決定トランスフォーマーのマルチタスクと一般化能力を大幅に向上させることがわかった。

Developing a generalist agent is a longstanding objective in artificial intelligence. Previous efforts utilizing extensive offline datasets from various tasks demonstrate remarkable performance in multitasking scenarios within Reinforcement Learning. However, these works encounter challenges in extending their capabilities to new tasks. Recent approaches integrate textual guidance or visual trajectory into decision networks to provide task-specific contextual cues, representing a promising direction. However, it is observed that relying solely on textual guidance or visual trajectory is insufficient for accurately conveying the contextual information of tasks. This paper explores enhanced forms of task guidance for agents, enabling them to comprehend gameplay instructions, thereby facilitating a "read-to-play" capability. Drawing inspiration from the success of multimodal instruction tuning in visual tasks, we treat the visual-based RL task as a long-horizon vision task and construct a set of multimodal game instructions to incorporate instruction tuning into a decision transformer. Experimental results demonstrate that incorporating multimodal game instructions significantly enhances the decision transformer's multitasking and generalization capabilities.
翻訳日:2024-03-08 16:54:04 公開日:2024-03-07
# DAMSDet: 競合クエリ選択と適応特徴融合を備えた動的適応型マルチスペクトル検出変換器

DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with Competitive Query Selection and Adaptive Feature Fusion ( http://arxiv.org/abs/2403.00326v3 )

ライセンス: Link先を確認
Junjie Guo, Chenqiang Gao, Fangcen Liu, Deyu Meng and Xinbo Gao(参考訳) 赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。 しかし, 動的に変化する相補的特徴と既存の相補的不一致は, 相補的情報の融合を困難にする。 本稿では,この2つの課題に同時に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。 具体的には、有用な事前情報を提供するためのModality Competitive Query Selection戦略を提案する。 この戦略は、各オブジェクトに対する基本的なsalient modality feature表現を動的に選択することができる。 補完情報を効果的にマイニングし,不整合状況に適応するために,赤外線と可視画像の多面的特徴を適応的にサンプリング・集約する多スペクトル変形型クロスアテンションモジュールを提案する。 さらに,detrのカスケード構造を応用し,補完的情報をよりよくマイニングする。 異なるシーンの4つの公開データセットに関する実験は、他の最先端の方法に比べて大幅に改善されている。 コードはhttps://github.com/gjj45/damsdetでリリースされる。

Infrared-visible object detection aims to achieve robust even full-day object detection by fusing the complementary information of infrared and visible images. However, highly dynamically variable complementary characteristics and commonly existing modality misalignment make the fusion of complementary information difficult. In this paper, we propose a Dynamic Adaptive Multispectral Detection Transformer (DAMSDet) to simultaneously address these two challenges. Specifically, we propose a Modality Competitive Query Selection strategy to provide useful prior information. This strategy can dynamically select basic salient modality feature representation for each object. To effectively mine the complementary information and adapt to misalignment situations, we propose a Multispectral Deformable Cross-attention module to adaptively sample and aggregate multi-semantic level features of infrared and visible images for each object. In addition, we further adopt the cascade structure of DETR to better mine complementary information. Experiments on four public datasets of different scenes demonstrate significant improvements compared to other state-of-the-art methods. The code will be released at https://github.com/gjj45/DAMSDet.
翻訳日:2024-03-08 16:50:12 公開日:2024-03-07
# AlloyASG: Alloy Predicate Code Representation as a compact structurely Balanced Graph

AlloyASG: Alloy Predicate Code Representation as a Compact Structurally Balanced Graph ( http://arxiv.org/abs/2403.00170v2 )

ライセンス: Link先を確認
Guanxuan Wu and Allison Sullivan(参考訳) プログラム解析と自動バグ修正の分野では、プログラムのソースコードの抽象的な解釈を抽象構文木(ast)として作成することが一般的である。 しかし、ASTはデータサイズが指数関数的に大きくなるのは、ASTが木に別々にリストされた同一ノードを持つことが多いためである。 この問題を解決するために,新しいコード表現スキーマであるcsbasg(complex structurely balanced abstract semantic graph)を導入する。これはコードを,グラフ内のノードとして意味要素をリストアップする複雑な重み付け有向グラフとして表現し,モデリング言語アロイなど,ほぼ有限個の数え上げ可能なコードセグメントに対する構造的バランスを保証する。 CSBASGは複雑な重み付きグラフに対する合金述語を1対1で対応させる。 我々は,合金モデルに対するCSBASG表現の有効性と有効性を評価し,CSBASGのアロイコード生成と自動修復への応用について検討する。

In the program analysis and automated bug-fixing fields, it is common to create an abstract interpretation of a program's source code as an Abstract Syntax Tree (AST), which enables programs written in a high-level language to have various static and dynamic analyses applied. However, ASTs suffer from exponential growth in their data size due to the limitation that ASTs will often have identical nodes separately listed in the tree. To address this issue, we introduce a novel code representation schema, Complex Structurally Balanced Abstract Semantic Graph (CSBASG), which represents code as a complex-weighted directed graph that lists a semantic element as a node in the graph and ensures its structural balance for almost finitely enumerable code segments, such as the modeling language Alloy. Our experiment ensures that CSBASG provides a one-on-one correspondence of Alloy predicates to complex-weighted graphs. We evaluate the effectiveness and efficiency of our CSBASG representation for Alloy models and identify future applications of CSBASG for Alloy code generation and automated repair.
翻訳日:2024-03-08 16:49:54 公開日:2024-03-07
# Distrifusion:高分解能拡散モデルのための分散並列推論

DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models ( http://arxiv.org/abs/2402.19481v2 )

ライセンス: Link先を確認
Muyang Li, Tianle Cai, Jiaxin Cao, Qinsheng Zhang, Han Cai, Junjie Bai, Yangqing Jia, Ming-Yu Liu, Kai Li and Song Han(参考訳) 拡散モデルは高品質な画像の合成において大きな成功を収めた。 しかし、拡散モデルによる高分解能画像の生成は、膨大な計算コストのため依然として困難であり、インタラクティブなアプリケーションでは制限的なレイテンシーをもたらす。 本稿では,複数のGPUにまたがる並列性を活用することで,この問題に対処するDistriFusionを提案する。 提案手法では,モデル入力を複数のパッチに分割し,各パッチをGPUに割り当てる。 しかし、そのようなアルゴリズムの実装は、パッチ間のインタラクションを壊し、忠実性を失うが、そのようなインタラクションを組み込むことで、通信のオーバーヘッドが大幅に増大する。 このジレンマを克服するために,隣接する拡散ステップからの入力間の高い類似性を観察し,従来の時間ステップから予め計算された特徴マップを再利用して現在のステップのコンテキストを提供する拡散プロセスの逐次的性質を生かしたパッチ並列性を提案する。 そこで本手法は,計算によってパイプライン化可能な非同期通信をサポートする。 広範な実験により,最近の安定拡散xlに品質劣化を伴わずに適用でき,nvidia a100s8台で6.1$\times$のスピードアップを達成できた。 私たちのコードはhttps://github.com/mit-han-lab/distrifuser.comで公開されています。

Diffusion models have achieved great success in synthesizing high-quality images. However, generating high-resolution images with diffusion models is still challenging due to the enormous computational costs, resulting in a prohibitive latency for interactive applications. In this paper, we propose DistriFusion to tackle this problem by leveraging parallelism across multiple GPUs. Our method splits the model input into multiple patches and assigns each patch to a GPU. However, naively implementing such an algorithm breaks the interaction between patches and loses fidelity, while incorporating such an interaction will incur tremendous communication overhead. To overcome this dilemma, we observe the high similarity between the input from adjacent diffusion steps and propose displaced patch parallelism, which takes advantage of the sequential nature of the diffusion process by reusing the pre-computed feature maps from the previous timestep to provide context for the current step. Therefore, our method supports asynchronous communication, which can be pipelined by computation. Extensive experiments show that our method can be applied to recent Stable Diffusion XL with no quality degradation and achieve up to a 6.1$\times$ speedup on eight NVIDIA A100s compared to one. Our code is publicly available at https://github.com/mit-han-lab/distrifuser.
翻訳日:2024-03-08 16:49:30 公開日:2024-03-07
# 深層強化学習:凸最適化アプローチ

Deep Reinforcement Learning: A Convex Optimization Approach ( http://arxiv.org/abs/2402.19212v2 )

ライセンス: Link先を確認
Ather Gattami(参考訳) 本稿では,連続状態と行動空間を有する非線形システムの強化学習について考察する。 本稿では,各エピソードごとに凸最適化を用いて最適な$q$-関数の2層ニューラルネットワーク近似を求める,エピソディック学習アルゴリズムを提案する。 凸最適化手法は、与えられたサンプル状態と現在のエピソードの動作に関して、各エピソードで計算された重みが最適であることを保証する。 安定な非線形システムでは、アルゴリズムが収束し、訓練されたニューラルネットワークの収束パラメータを最適なニューラルネットワークパラメータに任意に近づけることができることを示す。 特に、正規化パラメータが$\rho$で時間地平線が$T$であれば、トレーニングされたニューラルネットワークのパラメータは$w$に収束し、最適なパラメータ$w^\star$から$w$までの距離は$\mathcal{O}(\rho T^{-1})$に制限される。 すなわち、エピソード数が無限大となると、[\|w-w^\star\| \le C\cdot\frac{\rho}{T} となるような一定の$C$が存在する。 特に,時間的地平線の増加や正規化パラメータの減少に伴い,我々のアルゴリズムは最適なニューラルネットワークパラメータに任意に収束する。

In this paper, we consider reinforcement learning of nonlinear systems with continuous state and action spaces. We present an episodic learning algorithm, where we for each episode use convex optimization to find a two-layer neural network approximation of the optimal $Q$-function. The convex optimization approach guarantees that the weights calculated at each episode are optimal, with respect to the given sampled states and actions of the current episode. For stable nonlinear systems, we show that the algorithm converges and that the converging parameters of the trained neural network can be made arbitrarily close to the optimal neural network parameters. In particular, if the regularization parameter is $\rho$ and the time horizon is $T$, then the parameters of the trained neural network converge to $w$, where the distance between $w$ from the optimal parameters $w^\star$ is bounded by $\mathcal{O}(\rho T^{-1})$. That is, when the number of episodes goes to infinity, there exists a constant $C$ such that \[\|w-w^\star\| \le C\cdot\frac{\rho}{T}.\] In particular, our algorithm converges arbitrarily close to the optimal neural network parameters as the time horizon increases or as the regularization parameter decreases.
翻訳日:2024-03-08 16:49:09 公開日:2024-03-07
# アクティブトランスファー学習による空間依存型環境仮説の自動テスト

Automated Testing of Spatially-Dependent Environmental Hypotheses through Active Transfer Learning ( http://arxiv.org/abs/2402.18064v3 )

ライセンス: Link先を確認
Nicholas Harrison, Nathan Wallace, Salah Sukkarieh(参考訳) サンプルの効率的な収集は、時間、エネルギー、環境破壊の可能性といった高いサンプリングコストを考慮した屋外情報収集アプリケーションにおいて重要な要素である。 利用可能なa-prioriデータの利用は、効率を上げるための強力なツールである。 しかし、このデータと関心の量との関係は、しばしば事前に分かっておらず、計画効率を向上させるためにこの知識を活用する能力を制限する。 この目的のために,多タスクガウス過程と情報に基づく客観関数による伝達学習と能動的学習を組み合わせる。 この組み合わせにより、仮説間量関係の空間を探索し、これらの仮説をリアルタイムで評価し、この新しい知識をすぐに将来の計画に活用することができる。 提案手法の性能を合成データに対して評価し,複数の仮説を正しく評価した。 その効果は実際のデータセットにも示される。 この手法は、中間的または強い相関を示す仮説を同定し、最初の7つのサンプルのうち1.4〜3.4の因子で予測誤差を減少させ、悪い仮説を迅速に同定し、最終的に悪影響を生じずに拒絶することができる。

The efficient collection of samples is an important factor in outdoor information gathering applications on account of high sampling costs such as time, energy, and potential destruction to the environment. Utilization of available a-priori data can be a powerful tool for increasing efficiency. However, the relationships of this data with the quantity of interest are often not known ahead of time, limiting the ability to leverage this knowledge for improved planning efficiency. To this end, this work combines transfer learning and active learning through a Multi-Task Gaussian Process and an information-based objective function. Through this combination it can explore the space of hypothetical inter-quantity relationships and evaluate these hypotheses in real-time, allowing this new knowledge to be immediately exploited for future plans. The performance of the proposed method is evaluated against synthetic data and is shown to evaluate multiple hypotheses correctly. Its effectiveness is also demonstrated on real datasets. The technique is able to identify and leverage hypotheses which show a medium or strong correlation to reduce prediction error by a factor of 1.4--3.4 within the first 7 samples, and poor hypotheses are quickly identified and rejected eventually having no adverse effect.
翻訳日:2024-03-08 16:48:44 公開日:2024-03-07
# 大規模言語モデルの検出性とセマンティックコヒーレンスを向上したトークン特有な透かし

Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models ( http://arxiv.org/abs/2402.18059v2 )

ライセンス: Link先を確認
Mingjia Huo, Sai Ashish Somayajula, Youwei Liang, Ruisi Zhang, Farinaz Koushanfar, Pengtao Xie(参考訳) 大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成し、AI生成テキストと人文テキストを区別することで、規制の必要性を強調する。 ウォーターマーキングは、LLM推論フェーズ中にテキストに隠れたマーカーを埋め込むという文脈において重要な役割を担っている。 しかし、現在の透かしアルゴリズムは、挿入された透かしの検出可能性と生成されたテキストのセマンティックな整合性の両方を達成するという課題に直面している。 そこで本研究では,軽量ネットワークを用いてトークン特異的なウォーターマーキングロジットと分割比率を生成する,新しい多目的最適化(moo)手法を提案する。 本手法は,MOOを利用して検出性と意味的目的関数の両方を最適化することにより,検出性と意味的整合性を同時に達成する。 実験結果から,本手法は,LLMが生成するテキストのセマンティックコヒーレンスを維持しつつ,検出可能性を高めるために,現在の透かし技術よりも優れていることがわかった。 私たちのコードはhttps://github.com/mignonjia/TS_watermarkで利用可能です。

Large language models generate high-quality responses with potential misinformation, underscoring the need for regulation by distinguishing AI-generated and human-written texts. Watermarking is pivotal in this context, which involves embedding hidden markers in texts during the LLM inference phase, which is imperceptible to humans. Current watermarking algorithms, however, face the challenge of achieving both the detectability of inserted watermarks and the semantic integrity of generated texts, where enhancing one aspect often undermines the other. To overcome this, we introduce a novel multi-objective optimization (MOO) approach for watermarking that utilizes lightweight networks to generate token-specific watermarking logits and splitting ratios. By leveraging MOO to optimize for both detection and semantic objective functions, our method simultaneously achieves detectability and semantic integrity. Experimental results show that our method outperforms current watermarking techniques in enhancing the detectability of texts generated by LLMs while maintaining their semantic coherence. Our code is available at https://github.com/mignonjia/TS_watermark.
翻訳日:2024-03-08 16:48:25 公開日:2024-03-07
# ByteComposer:言語モデルエージェントに基づく人間ライクなメロディ構成法

ByteComposer: a Human-like Melody Composition Method based on Language Model Agent ( http://arxiv.org/abs/2402.17785v2 )

ライセンス: Link先を確認
Xia Liang, Xingjian Du, Jiaju Lin, Pei Zou, Yuan Wan, Bilei Zhu(参考訳) 大規模言語モデル(LLM)はマルチモーダル理解と生成タスクの進歩を奨励している。 しかし,人間と解釈可能なメロディ合成システムの設計方法はまだ未検討である。 そこで我々は,人間の創造的パイプラインを4段階に分けてエミュレートするエージェントフレームワークByteComposerを提案する。 このフレームワークは、LLMの対話的および知識に基づく特徴と既存のシンボリック音楽生成モデルとをシームレスにブレンドし、人間のクリエイターに匹敵するメロディ合成エージェントを実現する。 我々は、GPT4およびオープンソースの大規模言語モデルに関する広範な実験を行い、フレームワークの有効性を実証した。 さらに、プロの作曲家が多次元評価に携わった結果、楽曲のさまざまな面にまたがって、バイト合成エージェントが初心者のメロディ作曲家のレベルに達することが判明した。

Large Language Models (LLM) have shown encouraging progress in multimodal understanding and generation tasks. However, how to design a human-aligned and interpretable melody composition system is still under-explored. To solve this problem, we propose ByteComposer, an agent framework emulating a human's creative pipeline in four separate steps : "Conception Analysis - Draft Composition - Self-Evaluation and Modification - Aesthetic Selection". This framework seamlessly blends the interactive and knowledge-understanding features of LLMs with existing symbolic music generation models, thereby achieving a melody composition agent comparable to human creators. We conduct extensive experiments on GPT4 and several open-source large language models, which substantiate our framework's effectiveness. Furthermore, professional music composers were engaged in multi-dimensional evaluations, the final results demonstrated that across various facets of music composition, ByteComposer agent attains the level of a novice melody composer.
翻訳日:2024-03-08 16:48:03 公開日:2024-03-07
# 入射直交バイアスによる対称性群構造の発見

Discovering Symmetry Group Structures via Implicit Orthogonality Bias ( http://arxiv.org/abs/2402.17002v3 )

ライセンス: Link先を確認
Dongsung Huh(参考訳) データ内の対称性グループ構造を自律的に発見するための新しいアプローチであるHyperCubeネットワークを導入する。 重要なイノベーションは、直交表現を学ぶための強力な帰納的バイアスを注入する新しい正規化子と組み合わされたユニークな分解アーキテクチャである。 これはすべてのコンパクトかつ有限な群は直交行列で表せるという表現論の基本的な定理を利用する。 HyperCubeは、部分的に観測されたデータからグループ操作を効率よく学習し、完全な操作テーブルを回復する。 驚くべきことに、学習された因子は基礎となる群の正確な行列表現に直接対応している。 さらに、これらの因子は群の既約表現の完全な集合を捉え、群畳み込みを行うための一般化されたフーリエ基底を形成する。 グループおよび非グループのシンボル操作による広範な実験では、HyperCubeはTransformerベースラインに比べてトレーニング速度が100~1000倍、サンプル効率が2~10倍向上した。 これらの結果から,本手法は,データ固有の対称性を活用可能な新たな学習モデルのクラスを開放し,性能と適用性に大きな改善をもたらすことが示唆された。

We introduce the HyperCube network, a novel approach for autonomously discovering symmetry group structures within data. The key innovation is a unique factorization architecture coupled with a novel regularizer that instills a powerful inductive bias towards learning orthogonal representations. This leverages a fundamental theorem of representation theory that all compact/finite groups can be represented by orthogonal matrices. HyperCube efficiently learns general group operations from partially observed data, successfully recovering complete operation tables. Remarkably, the learned factors correspond directly to exact matrix representations of the underlying group. Moreover, these factors capture the group's complete set of irreducible representations, forming the generalized Fourier basis for performing group convolutions. In extensive experiments with both group and non-group symbolic operations, HyperCube demonstrates a dramatic 100-1000x improvement in training speed and 2-10x greater sample efficiency compared to the Transformer baseline. These results suggest that our approach unlocks a new class of deep learning models capable of harnessing inherent symmetries within data, leading to significant improvements in performance and broader applicability.
翻訳日:2024-03-08 16:47:47 公開日:2024-03-07
# 連続時間強化学習における深層残留ネットワークの事前推定

A priori Estimates for Deep Residual Network in Continuous-time Reinforcement Learning ( http://arxiv.org/abs/2402.16899v3 )

ライセンス: Link先を確認
Shuyu Yin, Qixuan Zhou, Fei Wen, Tao Luo(参考訳) 深層強化学習は多くの大規模応用において優れている。 しかし、既存の性能解析は、連続時間制御問題の特徴を無視し、ベルマン最適損失の一般化誤差を直接見積もることができず、有界性仮定を必要とする。 本研究は,連続時間制御問題に着目し,遷移関数が半群およびリプシッツ特性を満たすようなすべての問題に適用可能な手法を提案する。 この方法では、ベルマン最適損失のemph{a priori}汎化誤差を直接解析することができる。 この方法の核心は損失関数の2つの変換にある。 変換を完了させるために,最大演算子の分解法を提案する。 さらに、この解析方法は境界性仮定を必要としない。 最後に、次元の呪いを伴わない 'emph{a priori} 一般化誤差を得る。

Deep reinforcement learning excels in numerous large-scale practical applications. However, existing performance analyses ignores the unique characteristics of continuous-time control problems, is unable to directly estimate the generalization error of the Bellman optimal loss and require a boundedness assumption. Our work focuses on continuous-time control problems and proposes a method that is applicable to all such problems where the transition function satisfies semi-group and Lipschitz properties. Under this method, we can directly analyze the \emph{a priori} generalization error of the Bellman optimal loss. The core of this method lies in two transformations of the loss function. To complete the transformation, we propose a decomposition method for the maximum operator. Additionally, this analysis method does not require a boundedness assumption. Finally, we obtain an \emph{a priori} generalization error without the curse of dimensionality.
翻訳日:2024-03-08 16:47:28 公開日:2024-03-07
# コードの大規模言語モデルにおけるトロイの木馬シグネチャについて

On Trojan Signatures in Large Language Models of Code ( http://arxiv.org/abs/2402.16896v2 )

ライセンス: Link先を確認
Aftab Hussain, Md Rafiqul Islam Rabin, Mohammad Amin Alipour(参考訳) Fields et al. (2021) で説明されているようなトロイジャンシグネチャは、トロイジャンモデルのトロイジャンクラスパラメータ(重み)と非トロイジャンクラスパラメータの分布において顕著な違いであり、トロイジャンモデルを検出するのに使用できる。 Fields et al. (2021) は、コンピュータビジョンの分類タスクにおいて、Resnet、WideResnet、Densenet、VGGなどの画像モデルでトロヤ符号を発見した。 本稿では,ソースコードの大規模言語モデルの分類器層パラメータにおけるそのようなシグネチャについて検討する。 この結果から,トロイジャン符号はLLMに一般化できないことが示唆された。 トロイの木馬のコードモデルは、より明示的な設定で毒を盛られたとしても、頑丈であることがわかった。 クローンと欠陥検出という2つの二項分類タスクに対して,9つのトロイの木馬モデルを解析した。 我々の知る限りでは、これは、大規模言語のコードモデルに対する重みに基づくトロイの木馬署名の啓示技術を調べる最初の試みであり、さらに、そのようなモデルの重みからのみトロイの木馬を検出することが難しいことを実証するものである。

Trojan signatures, as described by Fields et al. (2021), are noticeable differences in the distribution of the trojaned class parameters (weights) and the non-trojaned class parameters of the trojaned model, that can be used to detect the trojaned model. Fields et al. (2021) found trojan signatures in computer vision classification tasks with image models, such as, Resnet, WideResnet, Densenet, and VGG. In this paper, we investigate such signatures in the classifier layer parameters of large language models of source code. Our results suggest that trojan signatures could not generalize to LLMs of code. We found that trojaned code models are stubborn, even when the models were poisoned under more explicit settings (finetuned with pre-trained weights frozen). We analyzed nine trojaned models for two binary classification tasks: clone and defect detection. To the best of our knowledge, this is the first work to examine weight-based trojan signature revelation techniques for large-language models of code and furthermore to demonstrate that detecting trojans only from the weights in such models is a hard problem.
翻訳日:2024-03-08 16:47:17 公開日:2024-03-07
# 分散シフト下のグラフ学習:ドメイン適応、アウト・オブ・ディストリビューション、継続的な学習に関する包括的調査

Graph Learning under Distribution Shifts: A Comprehensive Survey on Domain Adaptation, Out-of-distribution, and Continual Learning ( http://arxiv.org/abs/2402.16374v2 )

ライセンス: Link先を確認
Man Wu, Xin Zheng, Qin Zhang, Xiao Shen, Xiong Luo, Xingquan Zhu, Shirui Pan(参考訳) グラフ学習は重要な役割を担っており、ソーシャルネットワーク分析からレコメンデーションシステムまで、グラフ構造データで表現される複雑なデータ関係のモデリングに効果があることから、さまざまなアプリケーションシナリオにおいて大きな注目を集めています。 実際、実世界のグラフデータは通常、ノード属性やエッジ構造を変更することで、時間とともにダイナミクスを示し、深刻なグラフデータの分散シフト問題に繋がる。 この問題は分散シフトの多様かつ複雑な性質によって複雑化され、グラフ学習法の性能が劣化した一般化と適応能力に大きく影響し、その効果に重大な課題が生じる。 本調査では,グラフ学習の文脈における分布変化に対処する最新のアプローチ,戦略,洞察の総合的なレビューと概要について述べる。 具体的には, 推定段階における分布の可観測性, 訓練段階における十分な監督情報の提供状況に応じて, 既存のグラフ学習方法を, グラフ領域適応学習, 分散学習, グラフ連続学習など, いくつかの重要なシナリオに分類する。 各シナリオに対して、分散シフトグラフ学習における既存の進歩に関する具体的な記述と議論を含む詳細な分類法を提案する。 さらに, 分散シフト下でのグラフ学習の可能性と今後の展開について, この分野の現状を体系的に分析して考察する。 本調査は, グラフ分布シフト処理における効率的なグラフ学習アルゴリズム開発のための一般的なガイダンスを提供するとともに, 今後の研究・発展の促進を目的としている。

Graph learning plays a pivotal role and has gained significant attention in various application scenarios, from social network analysis to recommendation systems, for its effectiveness in modeling complex data relations represented by graph structural data. In reality, the real-world graph data typically show dynamics over time, with changing node attributes and edge structure, leading to the severe graph data distribution shift issue. This issue is compounded by the diverse and complex nature of distribution shifts, which can significantly impact the performance of graph learning methods in degraded generalization and adaptation capabilities, posing a substantial challenge to their effectiveness. In this survey, we provide a comprehensive review and summary of the latest approaches, strategies, and insights that address distribution shifts within the context of graph learning. Concretely, according to the observability of distributions in the inference stage and the availability of sufficient supervision information in the training stage, we categorize existing graph learning methods into several essential scenarios, including graph domain adaptation learning, graph out-of-distribution learning, and graph continual learning. For each scenario, a detailed taxonomy is proposed, with specific descriptions and discussions of existing progress made in distribution-shifted graph learning. Additionally, we discuss the potential applications and future directions for graph learning under distribution shifts with a systematic analysis of the current state in this field. The survey is positioned to provide general guidance for the development of effective graph learning algorithms in handling graph distribution shifts, and to stimulate future research and advancements in this area.
翻訳日:2024-03-08 16:46:52 公開日:2024-03-07
# 部分選択フィルタによる単一光子量子レーダー検出の最適化

Optimizing single-photon quantum radar detection through partially postselected filtering ( http://arxiv.org/abs/2402.16031v2 )

ライセンス: Link先を確認
Liangsheng Li, Maoxin Liu, Wen-Long You, Chengjie Zhang, Shengli Zhang, Hongcheng Yin, Zhihe Xiao, and Yong Zhu(参考訳) 本研究では,絡み合った光子状態の結合測定を活用し,吸収材料の透過率や反射係数を高めることを目的とした手法を検討する。 一方,光子触媒を反射チャネルに実装することにより,伝送チャネルの状態が効果的に変化し,伝送比が顕著に向上する。 同様に、この手法は吸収材料の反射率を著しく増幅する可能性があり、これは協調目標の検出に有用である。 一方,ゼロ光子に対するヘラルド法に基づく統計的計数法を用いて,ガウス白色雑音に影響を受ける量子レーダのモンテカルロシミュレーションによって検証される非協力目標検出のための反射強調プロトコルの影響を評価する。 その結果,平均二乗誤差の増加とともに,画像の信号-雑音比が著しく向上した。 これらの知見は、量子レーダの実装における我々のアプローチの実用的応用の可能性を強調している。

In this study, we explore an approach aimed at enhancing the transmission or reflection coefficients of absorbing materials through the utilization of joint measurements of entangled photon states. On the one hand, through the implementation of photon catalysis in the reflected channel, we can effectively modify the state of the transmission channel, leading to a notable improvement in the transmission ratio. Similarly, this approach holds potential for significantly amplifying the reflection ratio of absorbing materials, which is useful for detecting cooperative targets. On the other hand, employing statistical counting methods based on the technique of heralding on zero photons, we evaluate the influence of our reflection enhancement protocol for detecting noncooperative targets, which is validated through Monte Carlo simulations of a quantum radar setup affected by Gaussian white noise. Our results demonstrate a remarkable enhancement in the signal-to-noise ratio of imaging, albeit with an increase in mean-square error. These findings highlight the potential practical applications of our approach in the implementation of quantum radar.
翻訳日:2024-03-08 16:46:26 公開日:2024-03-07
# IRConStyle:コントラスト学習とスタイル伝達を用いた画像復元フレームワーク

IRConStyle: Image Restoration Framework Using Contrastive Learning and Style Transfer ( http://arxiv.org/abs/2402.15784v3 )

ライセンス: Link先を確認
Dongqi Fan, Xin Zhao, Liang Chang(参考訳) 近年, 比較学習パラダイムは, 分類, 検出, セグメンテーションといった高度なタスクにおいて顕著な成功を収めている。 しかし、画像復元のような低レベルのタスクに適用される対照的な学習は限られており、その効果は不確かである。 なぜコントラスト学習パラダイムは、画像復元に十分な結果をもたらすのか? 本稿では,詳細な分析を行い,上記の問題に対処するための3つのガイドラインを提案する。 さらに, スタイル伝達に着想を得て, コントラスト学習に基づいて, 任意の u-net 構造ネットワークに効率的に統合可能な \textbf{constyle} と呼ばれる画像復元のための新しいモジュールを提案する。 ConStyle の柔軟性を活用し,画像復元のための \textbf{ General restoration network} を開発した。 ConStyleと一般的な復元ネットワークは、画像復元フレームワーク、つまり \textbf{IRConStyle}を形成する。 ConStyle の機能と互換性を実証するため, 汎用復元ネットワークをトランスフォーマーベース, CNNベース, MLPベースネットワークに置き換える。 我々は, 脱臭, 脱臭, 脱臭, 脱湿など, 様々な画像修復作業について広範囲にわたる実験を行った。 19のベンチマークの結果は、ConStyleが任意のU-Netネットワークと統合でき、性能を大幅に向上できることを示している。 例えば、ConStyle NAFNetは、オリジナルのNAFNetをSOTSの屋外(脱毛)とRain100Hのデータセットで大幅に上回り、PSNRの4.16dBと3.58dBのパラメータが85%少ない。

Recently, the contrastive learning paradigm has achieved remarkable success in high-level tasks such as classification, detection, and segmentation. However, contrastive learning applied in low-level tasks, like image restoration, is limited, and its effectiveness is uncertain. This raises a question: Why does the contrastive learning paradigm not yield satisfactory results in image restoration? In this paper, we conduct in-depth analyses and propose three guidelines to address the above question. In addition, inspired by style transfer and based on contrastive learning, we propose a novel module for image restoration called \textbf{ConStyle}, which can be efficiently integrated into any U-Net structure network. By leveraging the flexibility of ConStyle, we develop a \textbf{general restoration network} for image restoration. ConStyle and the general restoration network together form an image restoration framework, namely \textbf{IRConStyle}. To demonstrate the capability and compatibility of ConStyle, we replace the general restoration network with transformer-based, CNN-based, and MLP-based networks, respectively. We perform extensive experiments on various image restoration tasks, including denoising, deblurring, deraining, and dehazing. The results on 19 benchmarks demonstrate that ConStyle can be integrated with any U-Net-based network and significantly enhance performance. For instance, ConStyle NAFNet significantly outperforms the original NAFNet on SOTS outdoor (dehazing) and Rain100H (deraining) datasets, with PSNR improvements of 4.16 dB and 3.58 dB with 85% fewer parameters.
翻訳日:2024-03-08 16:46:09 公開日:2024-03-07
# ハニカム格子と三角形格子上の平行場におけるトーリック符号の量子ロバスト性

Quantum robustness of the toric code in a parallel field on the honeycomb and triangular lattice ( http://arxiv.org/abs/2402.15389v2 )

ライセンス: Link先を確認
V. Kott, M. M\"uhlhauser, J.A. Koziol, K.P. Schmidt(参考訳) 本研究では,一様平行場の存在下でのハニカム格子上のトーリック符号における位相秩序の量子ロバスト性について検討する。 z$-direction の体に対して、低エネルギー物理学はフラックスフリーセクターにあり、ハニカム格子上の横フィールドイジングモデルに写像することができる。 場の両方の符号に対する3D Ising$^\star$普遍性クラスにおいて、2階量子相転移が見つかる。 電荷のないセクターにおけるアナログ写像が三角格子上の強磁性横場イジングモデルを生み出し、相転移がまだ 3D Ising$^\star$ であるような$x$-direction の体に対しても同様である。 対照的に、負のx$-フィールドに対しては、電荷フリーセクタは3d xy$^\star$ 普遍性クラスで量子相転移を持つことが知られている三角格子上の非常にフラストレーションの反強磁性横磁場イジングモデルにマッピングされる。 さらに、電荷フリーセクターは負の$x$-フィールドに対する低エネルギー物理学を常に含んでおらず、電荷フルセクターにおける偏極相への1次位相遷移はより大きな負のフィールド値で起こる。 量子モンテカルロシミュレーションと高磁場級数展開を比較することにより, この遷移の位置を定量化する。 x$- および $z$-フィールドの存在下で位相相の完全な拡張は、全グラフ分解を用いた摂動連結クラスター展開によって決定される。 電荷の高次級数とフラックスギャップを外挿することで、ギャップ閉じの臨界指数を推定することができる。 この分析は、3D Ising$^\star$ と 3D XY$^\star$ の臨界線によって位相的順序が破られることを示している。 さらに, ハニカム格子上のトーリック符号のすべての発見が, 三角形格子上のトーリック符号に正確に転送可能であることを示す。

We investigate the quantum robustness of the topological order in the toric code on the honeycomb lattice in the presence of a uniform parallel field. For a field in $z$-direction, the low-energy physics is in the flux-free sector and can be mapped to the transverse-field Ising model on the honeycomb lattice. One finds a second-order quantum phase transition in the 3D Ising$^\star$ universality class for both signs of the field. The same is true for a postive field in $x$-direction where an analogue mapping in the charge-free sector yields a ferromagnetic transverse-field Ising model on the triangular lattice and the phase transition is still 3D Ising$^\star$. In contrast, for negative $x$-field, the charge-free sector is mapped to the highly frustrated antiferromagnetic transverse-field Ising model on the triangular lattice which is known to host a quantum phase transition in the 3D XY$^\star$ universality class. Further, the charge-free sector does not always contain the low-energy physics for negative $x$-fields and a first-order phase transition to the polarized phase in the charge-full sector takes place at larger negative field values. We quantify the location of this transition by comparing quantum Monte Carlo simulations and high-field series expansions. The full extension of the topological phase in the presence of $x$- and $z$-fields is determined by perturbative linked-cluster expansions using a full graph decomposition. Extrapolating the high-order series of the charge and the flux gap allows to estimate critical exponents of the gap closing. This analysis indicates that the topological order breaks down by critical lines of 3D Ising$^\star$ and 3D XY$^\star$ type with interesting potential multi-critical crossing points. We further demonstrate that all findings for the toric code on the honeycomb lattice can be transferred exactly to the toric code on a triangular lattice.
翻訳日:2024-03-08 16:45:41 公開日:2024-03-07
# OffLanDat: プロンプトエンジニアリングによる大規模言語モデルによるコミュニティベースの攻撃的言語データセット

OffLanDat: A Community Based Implicit Offensive Language Dataset Generated by Large Language Model Through Prompt Engineering ( http://arxiv.org/abs/2403.02472v3 )

ライセンス: Link先を確認
Amit Das, Mostafa Rahgouy, Dongji Feng, Zheng Zhang, Tathagata Bhattacharya, Nilanjana Raychawdhary, Mary Sandage, Lauramarie Pope, Gerry Dozier and Cheryl Seals(参考訳) ソーシャルメディアにおける攻撃的言語の存在は、社会的幸福に悪影響を及ぼしている。 その結果、この問題に高い優先度で対処することが非常に重要になった。 攻撃的な言語は明示的な形式と暗黙的な形式の両方に存在し、後者はより検出が難しい。 現在のこの分野の研究はいくつかの課題に直面している。 第一に、既存のデータセットは主に明示的な攻撃的キーワードを含むテキストの集合に依存しているため、これらのキーワードを欠いた暗黙的に攻撃的なコンテンツをキャプチャすることが困難である。 第二に、通常の方法論は、コミュニティ情報が提供できる貴重な洞察を無視して、テキスト分析のみに焦点を当てる傾向がある。 本稿では,38の異なる対象グループを対象としたデータを含むchatgptによって生成された,コミュニティベースの暗黙的攻撃言語データセットであるofflandatを提案する。 倫理上の制約により chatgpt を用いた攻撃的テキストの生成が制限されているにもかかわらず,暗黙的攻撃的言語を効果的に生成するプロンプトベースアプローチを提案する。 データ品質を確保するために、我々はデータを人間で評価する。 さらに,ChatGPTを用いたプロンプトベースのZero-Shot法を用いて,人間のアノテーションとChatGPTアノテーションの検知結果を比較する。 既存の最先端モデルを用いて、そのような言語を検出するのがいかに効果的かを確認する。 他の研究者のためにコードとデータセットを公開します。

The widespread presence of offensive languages on social media has resulted in adverse effects on societal well-being. As a result, it has become very important to address this issue with high priority. Offensive languages exist in both explicit and implicit forms, with the latter being more challenging to detect. Current research in this domain encounters several challenges. Firstly, the existing datasets primarily rely on the collection of texts containing explicit offensive keywords, making it challenging to capture implicitly offensive contents that are devoid of these keywords. Secondly, usual methodologies tend to focus solely on textual analysis, neglecting the valuable insights that community information can provide. In this research paper, we introduce a novel dataset OffLanDat, a community based implicit offensive language dataset generated by ChatGPT containing data for 38 different target groups. Despite limitations in generating offensive texts using ChatGPT due to ethical constraints, we present a prompt-based approach that effectively generates implicit offensive languages. To ensure data quality, we evaluate our data with human. Additionally, we employ a prompt-based Zero-Shot method with ChatGPT and compare the detection results between human annotation and ChatGPT annotation. We utilize existing state-of-the-art models to see how effective they are in detecting such languages. We will make our code and dataset public for other researchers.
翻訳日:2024-03-08 16:39:15 公開日:2024-03-07
# トランスモン型単一マイクロ波光子カウンタを用いたアクシオンダークマターの量子強調センシング

Quantum-enhanced sensing of axion dark matter with a transmon-based single microwave photon counter ( http://arxiv.org/abs/2403.02321v2 )

ライセンス: Link先を確認
C. Braggio, L. Balembois, R. Di Vora, Z. Wang, J. Travesedo, L. Pallegoix, G. Carugno, A. Ortolan, G. Ruoso, U. Gambardella, D. D'Agostino, P. Bertet, E. Flurin(参考訳) マイクロ波光子カウンタを備えたハロスコープを用いたアクシオン暗黒物質探索について報告する。 ハロスコープは、磁場中に置かれた調整可能な高品質な3次元マイクロ波空洞である。 光子カウンタは周期的に動作し、入ってくるマイクロ波光子を超伝導トランスモン量子ビットの状態にマッピングする。 測定プロトコルは、ハロスコープキャビティから放出される電力とダークカウント背景を継続的に監視し、キャビティ周波数のチューニングにより異なるアクシオン質量を検出できる。 この装置により、量子制限線形増幅器で到達可能な探索速度を因子20で向上させ、共振検出器で軸の存在を検出するための新しい標準を設定する。

We report an axion dark matter search with a haloscope equipped with a microwave photon counter. The haloscope is a tunable high quality factor 3-dimensional microwave cavity placed in a magnetic field. The photon counter, operated cyclically, maps an incoming microwave photon onto the state of a superconducting transmon qubit. The measurement protocol continuously monitors the power emitted by the haloscope cavity as well as the dark count background, and enables tuning of the cavity frequency to probe different axion masses. With this apparatus we enhance by a factor 20 the search speed that can be reached with quantum-limited linear amplifiers, and set a new standard for probing the existence of axions with resonant detectors.
翻訳日:2024-03-08 16:38:52 公開日:2024-03-07
# Vision-RWKV: RWKV風アーキテクチャによる効率的かつスケーラブルな視覚知覚

Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures ( http://arxiv.org/abs/2403.02308v2 )

ライセンス: Link先を確認
Yuchen Duan, Weiyun Wang, Zhe Chen, Xizhou Zhu, Lewei Lu, Tong Lu, Yu Qiao, Hongsheng Li, Jifeng Dai, Wenhai Wang(参考訳) トランスフォーマーはコンピュータビジョンと自然言語処理に革命をもたらしたが、その高い計算複雑性は高解像度の画像処理と長文解析における応用を制限する。 本稿では,nlp領域で使用されるrwkvモデルから適応したモデルである vision-rwkv (vrwkv) について紹介する。 Vision Transformer (ViT) と同様に、我々のモデルはスパース入力を効率的に処理し、ロバストなグローバル処理能力を示すように設計されている。 その顕著な利点は空間集約の複雑さの低減であり、これは高解像度画像のシームレスな処理に非常に適しており、ウィンドウ操作の必要性を排除している。 評価の結果、VRWKVは画像分類におけるViTの性能を上回り、メモリ使用量を大幅に高速化し、高解像度入力を処理する。 密集予測タスクでは、ウィンドウベースのモデルよりも優れ、同等の速度を維持する。 これらの結果は、視覚知覚タスクのより効率的な代替手段としてのVRWKVの可能性を強調している。 コードは \url{https://github.com/OpenGVLab/Vision-RWKV} で公開されている。

Transformers have revolutionized computer vision and natural language processing, but their high computational complexity limits their application in high-resolution image processing and long-context analysis. This paper introduces Vision-RWKV (VRWKV), a model adapted from the RWKV model used in the NLP field with necessary modifications for vision tasks. Similar to the Vision Transformer (ViT), our model is designed to efficiently handle sparse inputs and demonstrate robust global processing capabilities, while also scaling up effectively, accommodating both large-scale parameters and extensive datasets. Its distinctive advantage lies in its reduced spatial aggregation complexity, which renders it exceptionally adept at processing high-resolution images seamlessly, eliminating the necessity for windowing operations. Our evaluations demonstrate that VRWKV surpasses ViT's performance in image classification and has significantly faster speeds and lower memory usage processing high-resolution inputs. In dense prediction tasks, it outperforms window-based models, maintaining comparable speeds. These results highlight VRWKV's potential as a more efficient alternative for visual perception tasks. Code is released at \url{https://github.com/OpenGVLab/Vision-RWKV}.
翻訳日:2024-03-08 16:38:40 公開日:2024-03-07
# 動的アルゴリズム選択のための深層強化学習:微分進化の原理実証研究

Deep Reinforcement Learning for Dynamic Algorithm Selection: A Proof-of-Principle Study on Differential Evolution ( http://arxiv.org/abs/2403.02131v3 )

ライセンス: Link先を確認
Hongshu Guo, Yining Ma, Zeyuan Ma, Jiacheng Chen, Xinglin Zhang, Zhiguang Cao, Jun Zhang, Yue-Jiao Gong(参考訳) 微分進化のような進化的アルゴリズムは、実パラメータ最適化の課題を解決するのに優れている。 しかし、1つのアルゴリズムの有効性は異なる問題インスタンスによって異なり、アルゴリズムの選択や構成にかなりの労力を要する。 本稿では,アルゴリズム群を補完する強みを生かし,特定の問題に対する最適化の進捗を動的にスケジューリングすることで,その限界に対処することを目的とする。 この課題を達成するために,深層強化学習に基づく動的アルゴリズム選択フレームワークを提案する。 提案手法は,マルコフ決定プロセスを選択する動的アルゴリズムをモデル化し,最適化過程で観察された特徴に応じて最適なアルゴリズムを選択するために,エージェントをポリシー勾配に訓練する。 エージェントに必要な情報を与えるため,我々のフレームワークはランドスケープとアルゴリズム的特徴の思慮深い設計を取り入れている。 一方,高度な深層ニューラルネットワークモデルを用いて最適動作を推定し,アルゴリズム選択のインフォームドを保証する。 さらに、異なるアルゴリズム間のスムーズな切り替えを容易にするために、アルゴリズムコンテキスト復元機構が組み込まれている。 これらのメカニズムを組み合わせることで、動的オンライン方式でアルゴリズムをシームレスに選択および切り替えすることが可能になります。 特に、提案されたフレームワークは単純で汎用的であり、幅広い進化的アルゴリズムにまたがる潜在的な改善を提供する。 原理実証研究として,この枠組みを微分進化アルゴリズム群に適用する。 実験結果は,最適化性能を向上するだけでなく,様々な問題クラスにまたがる優れた一般化能力を示すとともに,提案フレームワークの顕著な有効性を示した。

Evolutionary algorithms, such as Differential Evolution, excel in solving real-parameter optimization challenges. However, the effectiveness of a single algorithm varies across different problem instances, necessitating considerable efforts in algorithm selection or configuration. This paper aims to address the limitation by leveraging the complementary strengths of a group of algorithms and dynamically scheduling them throughout the optimization progress for specific problems. We propose a deep reinforcement learning-based dynamic algorithm selection framework to accomplish this task. Our approach models the dynamic algorithm selection a Markov Decision Process, training an agent in a policy gradient manner to select the most suitable algorithm according to the features observed during the optimization process. To empower the agent with the necessary information, our framework incorporates a thoughtful design of landscape and algorithmic features. Meanwhile, we employ a sophisticated deep neural network model to infer the optimal action, ensuring informed algorithm selections. Additionally, an algorithm context restoration mechanism is embedded to facilitate smooth switching among different algorithms. These mechanisms together enable our framework to seamlessly select and switch algorithms in a dynamic online fashion. Notably, the proposed framework is simple and generic, offering potential improvements across a broad spectrum of evolutionary algorithms. As a proof-of-principle study, we apply this framework to a group of Differential Evolution algorithms. The experimental results showcase the remarkable effectiveness of the proposed framework, not only enhancing the overall optimization performance but also demonstrating favorable generalization ability across different problem classes.
翻訳日:2024-03-08 16:38:19 公開日:2024-03-07
# ContrastRepair: コントラストテストケースペアによる会話に基づく自動プログラム修復の促進

ContrastRepair: Enhancing Conversation-Based Automated Program Repair via Contrastive Test Case Pairs ( http://arxiv.org/abs/2403.01971v2 )

ライセンス: Link先を確認
Jiaolong Kong, Mingfei Cheng, Xiaofei Xie, Shangqing Liu, Xiaoning Du, Qi Guo(参考訳) 自動プログラム修正(APR)は、ソフトウェアバグを修正するパッチを自動的に生成することを目的としている。 ChatGPTのようなLarge Language Models(LLM)の最近の進歩は、特に会話駆動のAPRフレームワークにおいて、APRにおいて奨励的な結果をもたらしている。 それでも,会話駆動型APRの有効性はフィードバック情報の質に左右される。 本稿では,コントラストテストペアをllmで提供することにより,会話駆動型aprを強化する新しい対話型aprアプローチであるcon contrastrepairを提案する。 テストペアは、失敗するテストと、LLMに対して対照的なフィードバックを提供するパステストで構成される。 私たちの重要な洞察は、生成されたパステストと与えられた失敗テストの違いを最小限に抑えることです。 情報と具体的なフィードバックを提供することで、con contrastrepairはllmが効果的なバグ修正を可能にする。 ContrastRepairの実装は最先端のLLMであるChatGPTに基づいており、プラウシブルパッチが生成されるまでChatGPTと反復的に対話する。 Defects4j、QuixBugs、HumanEval-Javaなど、複数のベンチマークデータセット上でContrastRepairを評価する。 その結果、ContrastRepairは既存の方法よりも大幅に優れており、プログラムの修復における新しい最先端を実現している。 例えば、Defects4j 1.2と2.0では、ContrastRepairは337のバグケースのうち143を正しく修正する。

Automated Program Repair (APR) aims to automatically generate patches for rectifying software bugs. Recent strides in Large Language Models (LLM), such as ChatGPT, have yielded encouraging outcomes in APR, especially within the conversation-driven APR framework. Nevertheless, the efficacy of conversation-driven APR is contingent on the quality of the feedback information. In this paper, we propose ContrastRepair, a novel conversation-based APR approach that augments conversation-driven APR by providing LLMs with contrastive test pairs. A test pair consists of a failing test and a passing test, which offer contrastive feedback to the LLM. Our key insight is to minimize the difference between the generated passing test and the given failing test, which can better isolate the root causes of bugs. By providing informative and specific feedback, ContrastRepair enables the LLM to produce effective bug fixes. The implementation of ContrastRepair is based on the state-of-the-art LLM, ChatGPT, and it iteratively interacts with ChatGPT until plausible patches are generated. We evaluate ContrastRepair on multiple benchmark datasets, including Defects4j, QuixBugs, and HumanEval-Java. The results demonstrate that ContrastRepair significantly outperforms existing methods, achieving a new state-of-the-art in program repair. For instance, among Defects4j 1.2 and 2.0, ContrastRepair correctly repairs 143 out of all 337 bug cases, while the best-performing baseline fixes 124 bugs.
翻訳日:2024-03-08 16:37:55 公開日:2024-03-07
# OnePerc:フォトニック量子コンピューティングのためのランダム性対応コンパイラ

OnePerc: A Randomness-aware Compiler for Photonic Quantum Computing ( http://arxiv.org/abs/2403.01829v2 )

ライセンス: Link先を確認
Hezi Zhang, Jixuan Ruan, Hassan Shapourian, Ramana Rao Kompella, Yufei Ding(参考訳) フォトニックプラットフォームは、量子コンピューティングを大いに約束する。 それでも、ネイティブ融合操作の本質的な確率的特性は、計算プロセスに実質的なランダム性をもたらし、プログラム実行におけるスケーラビリティと効率性を達成する上で大きな課題となっている。 本稿では,スケーラビリティと効率を両立するランダム性を考慮したコンパイルフレームワークを提案する。 我々の手法は、オフラインとオンラインの最適化パスの革新的な組み合わせを活用し、新しい中間表現がそれらの間に重要な橋渡しとなる。 包括的評価を通じて、このフレームワークがスケーラブルな方法で最も効率的なベースラインコンパイラを著しく上回り、スケーラブルなフォトニック量子コンピューティングを実現する新たな可能性を開くことを実証する。

The photonic platform holds great promise for quantum computing. Nevertheless, the intrinsic probabilistic characteristics of its native fusion operations introduces substantial randomness into the computing process, posing significant challenges to achieving scalability and efficiency in program execution. In this paper, we introduce a randomness-aware compilation framework designed to concurrently achieve scalability and efficiency. Our approach leverages an innovative combination of offline and online optimization passes, with a novel intermediate representation serving as a crucial bridge between them. Through a comprehensive evaluation, we demonstrate that this framework significantly outperforms the most efficient baseline compiler in a scalable manner, opening up new possibilities for realizing scalable photonic quantum computing.
翻訳日:2024-03-08 16:37:29 公開日:2024-03-07
# ランク付き:ランク付けによるエッジ検出における不均衡と不確かさの対応

RankED: Addressing Imbalance and Uncertainty in Edge Detection Using Ranking-based Losses ( http://arxiv.org/abs/2403.01795v2 )

ライセンス: Link先を確認
Bedrettin Cetinkaya, Sinan Kalkan, Emre Akbas(参考訳) 画像のエッジを検出するには, (P1) と (P2) の負のクラス間の重大不均衡や, (P2) のラベルの不確かさが問題となる。 既存のソリューションは、クラスバランスのクロスエントロピー損失とダイス損失を使ってp1に対処する。 本稿では,不均衡問題 (p1) と不確実性問題 (p2) の両方を解決する,統一的なランキングベースアプローチを提案する。 Rankedは2つの問題に対処する: 負のピクセルよりも正のピクセルをランク付けするコンポーネントと、高信頼のエッジピクセルをラベルの確実性を高めるコンポーネントである。 Rankedは過去の研究より優れており、NYUD-v2、BSDS500、Multi-cueのデータセットに新しい最先端のデータセットをセットしている。 コードはhttps://ranked-cvpr24.github.ioで入手できる。

Detecting edges in images suffers from the problems of (P1) heavy imbalance between positive and negative classes as well as (P2) label uncertainty owing to disagreement between different annotators. Existing solutions address P1 using class-balanced cross-entropy loss and dice loss and P2 by only predicting edges agreed upon by most annotators. In this paper, we propose RankED, a unified ranking-based approach that addresses both the imbalance problem (P1) and the uncertainty problem (P2). RankED tackles these two problems with two components: One component which ranks positive pixels over negative pixels, and the second which promotes high confidence edge pixels to have more label certainty. We show that RankED outperforms previous studies and sets a new state-of-the-art on NYUD-v2, BSDS500 and Multi-cue datasets. Code is available at https://ranked-cvpr24.github.io.
翻訳日:2024-03-08 16:37:17 公開日:2024-03-07
# ootdiffusion: 制御可能な仮想トライオンのための潜在拡散型核融合装置

OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on ( http://arxiv.org/abs/2403.01779v2 )

ライセンス: Link先を確認
Yuhao Xu, Tao Gu, Weifeng Chen, and Chengcai Chen(参考訳) 本稿では,現実的で制御可能な仮想トライオン(VTON)のための新しいネットワークアーキテクチャOOTDiffusionを提案する。 我々は,事前学習された潜在拡散モデルのパワーを活用し,衣料品の細部を学習するためのunetをデザインする。 冗長な反り処理がなければ、被着物の特徴は、消音unetの自己着脱層において提案された着脱融合により、ターゲットの人体と正確に整合する。 制御性をさらに向上するため,トレーニングプロセスに着脱機能を導入し,分類者なし指導による衣服特徴の強さの調整を可能にした。 VITON-HDとDress Codeのデータセットに関する包括的な実験は、OOTDiffusionが任意の人や衣服の画像に対して効率よく高品質な試行結果を生成することを示した。 ソースコードはhttps://github.com/levihsu/ootdiffusionから入手できます。

We present OOTDiffusion, a novel network architecture for realistic and controllable image-based virtual try-on (VTON). We leverage the power of pretrained latent diffusion models, designing an outfitting UNet to learn the garment detail features. Without a redundant warping process, the garment features are precisely aligned with the target human body via the proposed outfitting fusion in the self-attention layers of the denoising UNet. In order to further enhance the controllability, we introduce outfitting dropout to the training process, which enables us to adjust the strength of the garment features through classifier-free guidance. Our comprehensive experiments on the VITON-HD and Dress Code datasets demonstrate that OOTDiffusion efficiently generates high-quality try-on results for arbitrary human and garment images, which outperforms other VTON methods in both realism and controllability, indicating an impressive breakthrough in virtual try-on. Our source code is available at https://github.com/levihsu/OOTDiffusion.
翻訳日:2024-03-08 16:36:56 公開日:2024-03-07
# あまり普及しない知識のためのファインチューニング vs. 検索拡張生成

Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge ( http://arxiv.org/abs/2403.01432v2 )

ライセンス: Link先を確認
Heydar Soudani, Evangelos Kanoulas, Faegheh Hasibi(参考訳) 大規模言語モデル(LLM)は膨大な量の事実知識を記憶し、多様なタスクやドメイン間で強力なパフォーマンスを示す。 しかし、例えばドメイン固有のアプリケーションにおいて、あまり人気のない概念や低周波の概念や実体を扱う場合、性能は低下する。 低頻度トピックにおけるLLMの性能向上のための2つの顕著なアプローチは、検索型拡張生成(RAG)と合成データに対する微調整(FT)である。 本稿では,RAGとFTが低周波エンティティの問合せ処理におけるLLMのカスタマイズに与える影響について検討し,評価する。 以上の結果から,FTは,最も人気の高いグループ,特に最も人気の高いグループにおいて,パフォーマンスを著しく向上させる一方,RAGは他のメソッドを上回ります。 さらに、RAGおよびFTアプローチの成功は、検索およびデータ拡張技術の進歩によって増幅される。 データとコードはhttps://github.com/informagi/ragvsft.com/でリリースします。

Large language models (LLMs) memorize a vast amount of factual knowledge, exhibiting strong performance across diverse tasks and domains. However, it has been observed that the performance diminishes when dealing with less-popular or low-frequency concepts and entities, for example in domain specific applications. The two prominent approaches to enhance the performance of LLMs on low-frequent topics are: Retrieval Augmented Generation (RAG) and fine-tuning (FT) over synthetic data. This paper explores and evaluates the impact of RAG and FT on customizing LLMs in handling low-frequency entities on question answering task. Our findings indicate that FT significantly boosts the performance across entities of varying popularity, especially in the most and least popular groups, while RAG surpasses other methods. Additionally, the success of both RAG and FT approaches is amplified by advancements in retrieval and data augmentation techniques. We release our data and code at https://github.com/informagi/RAGvsFT.
翻訳日:2024-03-08 16:36:37 公開日:2024-03-07
# 協調型多エージェント強化学習の効率的なエピソード記憶利用

Efficient Episodic Memory Utilization of Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2403.01112v2 )

ライセンス: Link先を確認
Hyungho Na, Yunkyeong Seo, Il-chul Moon(参考訳) 協調型マルチエージェント強化学習(marl)では、エージェントは敵を倒したり、ゴールを決めたりといった共通の目標を達成することを目指している。 既存のMARLアルゴリズムは有効であるが、依然としてかなりの学習時間を必要としており、複雑なタスクによって局所的な最適状態に陥り、その結果、目標達成ポリシーの発見に失敗することが多い。 これを解決するために,MARLのための効率的なエピソードメモリ利用法(EMU)を紹介した。 (a)エピソードバッファからのセマンティックコヒーレントメモリを活用して強化学習を促進すること b) 局所収束を防ぐために望ましい遷移を選択的に促進する。 達成するために (a) EMUは、MARLと共にトレーニング可能なエンコーダ/デコーダ構造を採用し、探索メモリリコールを容易にするコヒーレントなメモリ埋め込みを生成する。 達成するために (b)EMUは、国家の望ましさに基づく叙述的インセンティブと呼ばれる新しい報酬構造を導入する。 この報酬はQラーニングにおけるTD目標を改善し、望ましい移行のための追加のインセンティブとして機能する。 提案するインセンティブを理論的に支援し,従来のエピソード制御と比較してEMUの有効性を示す。 提案手法はStarCraft II と Google Research Football で評価され,実験結果から最先端の手法よりも性能が向上したことを示す。

In cooperative multi-agent reinforcement learning (MARL), agents aim to achieve a common goal, such as defeating enemies or scoring a goal. Existing MARL algorithms are effective but still require significant learning time and often get trapped in local optima by complex tasks, subsequently failing to discover a goal-reaching policy. To address this, we introduce Efficient episodic Memory Utilization (EMU) for MARL, with two primary objectives: (a) accelerating reinforcement learning by leveraging semantically coherent memory from an episodic buffer and (b) selectively promoting desirable transitions to prevent local convergence. To achieve (a), EMU incorporates a trainable encoder/decoder structure alongside MARL, creating coherent memory embeddings that facilitate exploratory memory recall. To achieve (b), EMU introduces a novel reward structure called episodic incentive based on the desirability of states. This reward improves the TD target in Q-learning and acts as an additional incentive for desirable transitions. We provide theoretical support for the proposed incentive and demonstrate the effectiveness of EMU compared to conventional episodic control. The proposed method is evaluated in StarCraft II and Google Research Football, and empirical results indicate further performance improvement over state-of-the-art methods.
翻訳日:2024-03-08 16:36:19 公開日:2024-03-07
# 異なる初期化によるテキストトランスモデルの融合

Merging Text Transformer Models from Different Initializations ( http://arxiv.org/abs/2403.00986v2 )

ライセンス: Link先を確認
Neha Verma, Maha Elbayad(参考訳) 最近の1ショットの置換に基づくモデルマージの研究は、全く異なる初期化からモデル間の顕著な低またはゼロバリアモード接続を示している。 しかし、言語領域での主要な人気にもかかわらず、この一連の作業はまだTransformerアーキテクチャにまで拡張されていない。 そこで本研究では,トランスフォーマー・ミニマが類似した特徴を学習する程度について検討し,損失景観におけるこれらのミニマの関係を調べるためのモデルマージ手法を提案する。 アーキテクチャの特異性、例えば残差接続、マルチヘッドの注意、離散的な逐次入力は、同じ関数同値クラスに属するモデル置換を計算するために特定の介入を必要とする。 これらのモデルと手法をマージすると、マスク付き言語モデリングタスクや言語理解ベンチマークで微調整された複数のモデルに対して、モデル平均化よりもミニマ間の損失障壁が小さくなる。 以上の結果から,これらのモデルのミニマは従来よりシャープで孤立度が低く,今後は個別に訓練したTransformerモデルを統合するための基盤となることが示唆された。

Recent work on one-shot permutation-based model merging has shown impressive low- or zero-barrier mode connectivity between models from completely different initializations. However, this line of work has not yet extended to the Transformer architecture, despite its dominant popularity in the language domain. Therefore, in this work, we investigate the extent to which separate Transformer minima learn similar features, and propose a model merging technique to investigate the relationship between these minima in the loss landscape. The specifics of the architecture, like its residual connections, multi-headed attention, and discrete, sequential input, require specific interventions in order to compute model permutations that remain within the same functional equivalence class. In merging these models with our method, we consistently find lower loss barriers between minima compared to model averaging for several models trained on a masked-language modeling task or fine-tuned on a language understanding benchmark. Our results show that the minima of these models are less sharp and isolated than previously understood, and provide a basis for future work on merging separately trained Transformer models.
翻訳日:2024-03-08 16:35:42 公開日:2024-03-07
# 分散型マルチTower:高効率大規模レコメンデーションのためのトポロジー・アウェア・モデリング技術

Disaggregated Multi-Tower: Topology-aware Modeling Technique for Efficient Large-Scale Recommendation ( http://arxiv.org/abs/2403.00877v2 )

ライセンス: Link先を確認
Liang Luo, Buyun Zhang, Michael Tsang, Yinbin Ma, Ching-Hsiang Chu, Yuxin Chen, Shen Li, Yuchen Hao, Yanli Zhao, Guna Lakshminarayanan, Ellie Dingqiao Wen, Jongsoo Park, Dheevatsa Mudigere, Maxim Naumov(参考訳) 本研究では,ディープラーニングレコメンデーションモデルのフラットアーキテクチャ,共通分散トレーニングパラダイム,階層型データセンタトポロジのミスマッチについて検討する。 To address the associated inefficiencies, we propose Disaggregated Multi-Tower (DMT), a modeling technique that consists of (1) Semantic-preserving Tower Transform (SPTT), a novel training paradigm that decomposes the monolithic global embedding lookup process into disjoint towers to exploit data center locality; (2) Tower Module (TM), a synergistic dense component attached to each tower to reduce model complexity and communication volume through hierarchical feature interaction; and (3) Tower Partitioner (TP), a feature partitioner to systematically create towers with meaningful feature interactions and load balanced assignments to preserve model quality and training throughput via learned embeddings. 大規模データセンターにおける複数世代のハードウェアの精度を損なうことなく,最先端のベースラインと比較して,dmtは最大1.9倍のスピードアップを達成できることを示した。

We study a mismatch between the deep learning recommendation models' flat architecture, common distributed training paradigm and hierarchical data center topology. To address the associated inefficiencies, we propose Disaggregated Multi-Tower (DMT), a modeling technique that consists of (1) Semantic-preserving Tower Transform (SPTT), a novel training paradigm that decomposes the monolithic global embedding lookup process into disjoint towers to exploit data center locality; (2) Tower Module (TM), a synergistic dense component attached to each tower to reduce model complexity and communication volume through hierarchical feature interaction; and (3) Tower Partitioner (TP), a feature partitioner to systematically create towers with meaningful feature interactions and load balanced assignments to preserve model quality and training throughput via learned embeddings. We show that DMT can achieve up to 1.9x speedup compared to the state-of-the-art baselines without losing accuracy across multiple generations of hardware at large data center scales.
翻訳日:2024-03-08 16:35:25 公開日:2024-03-07
# Chat-Fine-Tuned LLMを用いた投機復号のためのドラフトモデルの直接アライメント

Direct Alignment of Draft Model for Speculative Decoding with Chat-Fine-Tuned LLMs ( http://arxiv.org/abs/2403.00858v2 )

ライセンス: Link先を確認
Raghavv Goel, Mukul Gagrani, Wonseok Jeon, Junyoung Park, Mingu Lee, Christopher Lott(参考訳) 大規模言語モデル(llms)を用いたテキスト生成は、その自己回帰性、巨大なパラメータ数、メモリ帯域幅の制限の組み合わせによってメモリバインドであることが知られており、トークンレートが低くなることが多い。 LLM推論加速の解法として投機的復号法が提案されている。 しかし、Llama 2 7Bのような現代のオープンソースのLLMファミリでは、ドラフトモデルは利用できないことが多いため、投機的復号化による推論アクセラレーションを可能にするために、高品質のドラフトモデルを訓練する必要がある。 本稿では,チャット可能なターゲットモデルに直接アライメントするための簡易なモデルトレーニングフレームワークを提案する。 提案したフレームワークでは、Llama 2 Chat 7B以上のドラフトモデルであるLlama 2 Chat Drafter 115Mを、オリジナルサイズのわずか1.64\%でトレーニングする。 トレーニングフレームワークは,事前学習,蒸留データセット生成,知識蒸留による微調整のみで,追加のアライメント処理は行わない。 微調整のステップでは,ターゲットモデルが生成した命令応答対を用いて可算データ分布の蒸留を行い,強化学習におけるポリシー勾配法に触発された分散低減手法を組み込んだ新しい全変動距離++(tvd++)損失を提案する。 実験結果から,llama 2 chat drafter 115mの投機的復号化は,最大2.3ブロック効率と2.4$\times$の高速化を実現する。

Text generation with Large Language Models (LLMs) is known to be memory bound due to the combination of their auto-regressive nature, huge parameter counts, and limited memory bandwidths, often resulting in low token rates. Speculative decoding has been proposed as a solution for LLM inference acceleration. However, since draft models are often unavailable in the modern open-source LLM families, e.g., for Llama 2 7B, training a high-quality draft model is required to enable inference acceleration via speculative decoding. In this paper, we propose a simple draft model training framework for direct alignment to chat-capable target models. With the proposed framework, we train Llama 2 Chat Drafter 115M, a draft model for Llama 2 Chat 7B or larger, with only 1.64\% of the original size. Our training framework only consists of pretraining, distillation dataset generation, and finetuning with knowledge distillation, with no additional alignment procedure. For the finetuning step, we use instruction-response pairs generated by target model for distillation in plausible data distribution, and propose a new Total Variation Distance++ (TVD++) loss that incorporates variance reduction techniques inspired from the policy gradient method in reinforcement learning. Our empirical results show that Llama 2 Chat Drafter 115M with speculative decoding achieves up to 2.3 block efficiency and 2.4$\times$ speed-up relative to autoregressive decoding on various tasks with no further task-specific fine-tuning.
翻訳日:2024-03-08 16:35:08 公開日:2024-03-07
# セマンティクス・アウェア・置換訓練による逆転的呪いの軽減

Mitigating Reversal Curse via Semantic-aware Permutation Training ( http://arxiv.org/abs/2403.00758v2 )

ライセンス: Link先を確認
Qingyan Guo, Rui Wang, Junliang Guo, Xu Tan, Jiang Bian, Yujiu Yang(参考訳) 大規模言語モデル(LLM)は様々なタスクにまたがって顕著なパフォーマンスを達成したが、最近の研究では、因果LLMが「逆の呪い」に苦しむことが示されている。 モデルが「Aの父親はB」を知っているのが典型例であるが、「Bの子はA」と説明できない。 この制限は、モデルが双方向の推論を理解し、適用する能力のギャップを示唆するため、人工知能(AGI)の発展に挑戦する。 本稿では,まず,学習段階と推論段階の異なる単語順,すなわち,学習データ内の先行する単語を予測できる因果的言語モデルの能力の低下が,反逆的呪いの根本原因であることを示す。 したがって、トレーニングデータの順列化は、先行する単語やトークンを予測できるため、潜在的な解決策であると考えられる。 しかし、以前の置換法は完全な句や実体を乱す可能性があるため、モデルが理解し、トレーニングデータから学ぶことが困難となる。 この問題に対処するために,SPT (Semantic-Aware Permutation Training) を提案する。これは,学習文をセマンティック単位(エンティティやフレーズなど)に分割し,それらの単位をモデルに入力する前に置換することでこの問題に対処する。 広範囲な実験により,SPTは逆問題のパフォーマンスが前方に近似していることから,逆の呪いを効果的に軽減し,既存の作品の性能を著しく向上させることが示されている。

While large language models (LLMs) have achieved impressive performance across diverse tasks, recent studies showcase that causal LLMs suffer from the "reversal curse". It is a typical example that the model knows "A's father is B", but is unable to reason "B's child is A". This limitation poses a challenge to the advancement of artificial general intelligence (AGI), as it suggests a gap in the models' ability to comprehend and apply bidirectional reasoning. In this paper, we first conduct substantial evaluation and identify that the root cause of the reversal curse lies in the different word order between the training and inference stage, namely, the poor ability of causal language models to predict antecedent words within the training data. Accordingly, permutation on the training data is considered as a potential solution, since this can make the model predict antecedent words or tokens. However, previous permutation methods may disrupt complete phrases or entities, thereby posing challenges for the model to comprehend and learn from training data. To address this issue, we propose Semantic-aware Permutation Training (SPT), which addresses this issue by segmenting the training sentences into semantic units (i.e., entities or phrases) with an assistant language model and permuting these units before feeding into the model. Extensive experiments demonstrate that SPT effectively mitigates the reversal curse since the performance on reversed questions approximates that on the forward ones, and significantly advances the performance of existing works.
翻訳日:2024-03-08 16:34:41 公開日:2024-03-07
# 拡散による多様体上のスペクトルアルゴリズム

Spectral Algorithms on Manifolds through Diffusion ( http://arxiv.org/abs/2403.03669v2 )

ライセンス: Link先を確認
Weichun Xia and Lei Shi(参考訳) 再現カーネルヒルベルト空間(RKHS)に適用されるスペクトルアルゴリズムの研究は、主に一般的なカーネル関数に焦点を合わせており、しばしば入力特徴空間の固有の構造を無視している。 本稿では, 入力データが高次元ユークリッド空間に埋め込まれた低次元多様体内に存在することを主張する新しい視点を紹介する。 rkhssにおけるスペクトルアルゴリズムの収束性能、特に拡散空間として知られる熱核によって生成される収束性能について検討する。 入力の多様体構造を組み入れ、一般化ノルムに関する厳密な収束上限を導出する積分作用素技術を用いて、推定子は強い意味で対象関数に収束し、関数自身とその微分の収束を伴うことを示す。 これらの境界は二つの大きな利点をもたらす: まず、それらは入力多様体の内在次元にのみ従属し、より焦点を絞った解析を提供する。 第二に、これらは任意のk次導関数の収束率の効率的な導出を可能にするが、それらはすべて同じスペクトルアルゴリズムのアンビット内で達成できる。 さらに,これらの結論の漸近的最適性を示すために,ミニマックス下限を定式化する。 本研究は,高次元近似のより広い文脈において,スペクトルアルゴリズムが実質的に重要であることを確認する。

The existing research on spectral algorithms, applied within a Reproducing Kernel Hilbert Space (RKHS), has primarily focused on general kernel functions, often neglecting the inherent structure of the input feature space. Our paper introduces a new perspective, asserting that input data are situated within a low-dimensional manifold embedded in a higher-dimensional Euclidean space. We study the convergence performance of spectral algorithms in the RKHSs, specifically those generated by the heat kernels, known as diffusion spaces. Incorporating the manifold structure of the input, we employ integral operator techniques to derive tight convergence upper bounds concerning generalized norms, which indicates that the estimators converge to the target function in strong sense, entailing the simultaneous convergence of the function itself and its derivatives. These bounds offer two significant advantages: firstly, they are exclusively contingent on the intrinsic dimension of the input manifolds, thereby providing a more focused analysis. Secondly, they enable the efficient derivation of convergence rates for derivatives of any k-th order, all of which can be accomplished within the ambit of the same spectral algorithms. Furthermore, we establish minimax lower bounds to demonstrate the asymptotic optimality of these conclusions in specific contexts. Our study confirms that the spectral algorithms are practically significant in the broader context of high-dimensional approximation.
翻訳日:2024-03-08 16:29:38 公開日:2024-03-07
# 空間資源配分における強化学習の適用に関する調査研究

A Survey on Applications of Reinforcement Learning in Spatial Resource Allocation ( http://arxiv.org/abs/2403.03643v2 )

ライセンス: Link先を確認
Di Zhang, Moyang Wang, Joseph Mango, Xiang Li, Xianrui Xu(参考訳) 空間的資源配分の課題は、輸送、産業、日常生活といった様々な分野にまたがっている。 現実世界の課題の規模が拡大し続け、リアルタイムソリューションの需要が増大するにつれ、従来のアルゴリズムは、最適な効率とリアルタイム能力を達成するのに苦戦している。 近年、コンピュータの計算能力の増大に伴い、goやロボティクスといった分野における強化学習の顕著な成果が、その堅牢な学習とシーケンシャルな意思決定能力を示している。 これらの進歩を考えると、空間資源配分問題に取り組むために強化学習を用いる新しい手法が急増している。 これらの手法は, 空間資源配分問題の解法として, 高速解収束や強モデル一般化能力などの利点を示す。 そこで本稿では,近年の理論的手法を概説し,空間資源配分問題への強化学習を応用した応用研究について概説する。 基本的な原則、関連する方法論、応用研究の概要と包括的な概要を提供する。 さらに、この方向性に緊急の注意を必要とするいくつかの未解決問題を強調している。

The challenge of spatial resource allocation is pervasive across various domains such as transportation, industry, and daily life. As the scale of real-world issues continues to expand and demands for real-time solutions increase, traditional algorithms face significant computational pressures, struggling to achieve optimal efficiency and real-time capabilities. In recent years, with the escalating computational power of computers, the remarkable achievements of reinforcement learning in domains like Go and robotics have demonstrated its robust learning and sequential decision-making capabilities. Given these advancements, there has been a surge in novel methods employing reinforcement learning to tackle spatial resource allocation problems. These methods exhibit advantages such as rapid solution convergence and strong model generalization abilities, offering a new perspective on resolving spatial resource allocation problems. Therefore, this paper aims to summarize and review recent theoretical methods and applied research utilizing reinforcement learning to address spatial resource allocation problems. It provides a summary and comprehensive overview of its fundamental principles, related methodologies, and applied research. Additionally, it highlights several unresolved issues that urgently require attention in this direction for the future.
翻訳日:2024-03-08 16:29:15 公開日:2024-03-07
# 燃焼制御のための周期変動を持つデータベースインシリンダ圧力モデル:RCCIエンジンへの適用

Data-Based In-Cylinder Pressure Model with Cyclic Variations for Combustion Control: A RCCI Engine Application ( http://arxiv.org/abs/2403.03602v2 )

ライセンス: Link先を確認
Maarten Vlaswinkel and Frank Willems(参考訳) シリンダ圧力に基づく制御は、先進的な予混合燃焼の概念の鍵となる。 堅牢で安全な運転の保証に加えて、シリンダー圧力と放熱成形が可能である。 これは高速制御指向燃焼モデルを必要とする。 長年にわたって、燃焼対策を予測できる平均値モデル(例えば、グロス指標平均有効圧力または全熱の50%が放出されるクランク角度)や、全気筒内圧力を予測するモデルが提案されてきた。 しかし、これらのモデルは周期的変動を捉えることができない。 これは反応制御圧縮着火のような燃焼概念の制御設計において重要であり、大きな循環変動に悩まされる。 本研究では, 筒内圧力と周期変動をデータベース手法を用いてモデル化した。 このモデルは原理成分分解とガウス過程回帰を組み合わせたものである。 異なるハイパーパラメータとカーネル選択の影響について詳細な研究が行われている。 この手法はあらゆる燃焼概念に適用できるが、大きなサイクル変動を持つ先進燃焼概念には最も有用である。 提案手法のポテンシャルは, ディーゼルおよびE85で作動する反応性制御圧縮着火エンジンで実証される。 評価された燃焼指標の予測精度はそれぞれ平均的挙動と標準偏差の13.5%と65.5%である。 ピーク圧上昇速度は伝統的に予測が困難であり、提案モデルでは平均挙動と標準偏差がそれぞれ22.7%と96.4%である。 この主成分分解に基づくアプローチは、シリンダー内圧力形成への重要なステップである。 Gaussian Process Regressionの使用は、周期的変動に関する重要な情報を提供し、安全性と性能基準に関する次サイクル制御情報を提供する。

Cylinder pressure-based control is a key enabler for advanced pre-mixed combustion concepts. Besides guaranteeing robust and safe operation, it allows for cylinder pressure and heat release shaping. This requires fast control-oriented combustion models. Over the years, mean-value models have been proposed that can predict combustion measures (e.g., Gross Indicated Mean Effective Pressure, or the crank angle where 50% of the total heat is released) or models that predict the full in-cylinder pressure. However, these models are not able to capture cyclic variations. This is important in the control design for combustion concepts, like Reactivity Controlled Compression Ignition, that can suffer from large cyclic variations. In this study, the in-cylinder pressure and cyclic variation are modelled using a data-based approach. The model combines Principle Component Decomposition and Gaussian Process Regression. A detailed study is performed on the effects of the different hyperparameters and kernel choices. The approach is applicable to any combustion concept, but most valuable for advance combustion concepts with large cyclic variation. The potential of the proposed approach is demonstrated for an Reactivity Controlled Compression Ignition engine running on Diesel and E85. The prediction quality of the evaluated combustion measures has an overall accuracy of 13.5% and 65.5% in mean behaviour and standard deviation, respectively. The peak-pressure rise-rate is traditionally hard to predict, in the proposed model it has an accuracy of 22.7% and 96.4% in mean behaviour and standard deviation, respectively. This Principle Component Decomposition-based approach is an important step towards in-cylinder pressure shaping. The use of Gaussian Process Regression provides important information on cyclic variation and provides next-cycle controls information on safety and performance criteria.
翻訳日:2024-03-08 16:28:57 公開日:2024-03-07
# DPOT:大規模PDE事前訓練のための自動回帰デノイング演算子変換器

DPOT: Auto-Regressive Denoising Operator Transformer for Large-Scale PDE Pre-Training ( http://arxiv.org/abs/2403.03542v2 )

ライセンス: Link先を確認
Zhongkai Hao, Chang Su, Songming Liu, Julius Berner, Chengyang Ying, Hang Su, Anima Anandkumar, Jian Song, Jun Zhu(参考訳) データ・スカース・セッティングにおけるニューラル演算子の訓練効率と性能を向上させるために,事前学習を行った。 しかし、それは主に、長い軌跡、多重スケール、偏微分方程式(PDE)データの様々な次元など、固有の複雑さと多様性のため、その初期段階にある。 本稿では,pdeデータに対して,より安定かつ効率的な事前学習を可能にし,様々な下流タスクに一般化する,新しい自己回帰脱調プリトレーニング戦略を提案する。 さらに,フーリエ注意に基づくフレキシブルでスケーラブルなモデルアーキテクチャを設計することにより,大規模事前トレーニングのためのモデルスケールアップが容易になる。 我々は,100k以上の軌道を持つ10以上のPDEデータセットに対して,最大0.5BパラメータでPDEファンデーションモデルをトレーニングする。 大規模な実験により、これらのベンチマークでSOTAを達成し、3Dデータのような様々な下流PDEタスクの性能を大幅に向上させるため、モデルの強力な一般化可能性を検証する。 コードは \url{https://github.com/thu-ml/DPOT} で入手できる。

Pre-training has been investigated to improve the efficiency and performance of training neural operators in data-scarce settings. However, it is largely in its infancy due to the inherent complexity and diversity, such as long trajectories, multiple scales and varying dimensions of partial differential equations (PDEs) data. In this paper, we present a new auto-regressive denoising pre-training strategy, which allows for more stable and efficient pre-training on PDE data and generalizes to various downstream tasks. Moreover, by designing a flexible and scalable model architecture based on Fourier attention, we can easily scale up the model for large-scale pre-training. We train our PDE foundation model with up to 0.5B parameters on 10+ PDE datasets with more than 100k trajectories. Extensive experiments show that we achieve SOTA on these benchmarks and validate the strong generalizability of our model to significantly enhance performance on diverse downstream PDE tasks like 3D data. Code is available at \url{https://github.com/thu-ml/DPOT}.
翻訳日:2024-03-08 16:28:33 公開日:2024-03-07
# DLP-GAN : 生成的対向ネットワークによる近代中国の風景画像の描画学習

DLP-GAN: learning to draw modern Chinese landscape photos with generative adversarial network ( http://arxiv.org/abs/2403.03456v2 )

ライセンス: Link先を確認
Xiangquan Gui, Binxuan Zhang, Li Li, Yi Yang(参考訳) 中国の風景画は独特で芸術的な様式であり、その画法は色と現実的な物体表現の両方において非常に抽象的である。 以前の手法では、現代の写真から古代のインク絵画への移譲に焦点を当てていた。 しかし、風景画を現代写真に翻訳するのにはほとんど注意が払われていない。 そこで本稿では,(1)新しい非対称サイクルマッピングを用いた非教師付きクロスドメイン画像翻訳フレームワークであるdlp-ganを提案し,(2)異なる翻訳方向にマッチする高密度融合モジュールを用いたジェネレータを導入する。 さらに,モデルペインティングのリアリズムと抽象化のバランスをとるために,双矛盾損失が提案されている。 このようにして、われわれのモデルは現代の意味で風景写真やスケッチを描くことができる。 最後に、最新のランドスケープとスケッチデータセットのコレクションに基づいて、我々のモデルによって生成された画像と他のベンチマークを比較します。 ユーザスタディを含む広範な実験により,本モデルが最先端手法よりも優れていることが示された。

Chinese landscape painting has a unique and artistic style, and its drawing technique is highly abstract in both the use of color and the realistic representation of objects. Previous methods focus on transferring from modern photos to ancient ink paintings. However, little attention has been paid to translating landscape paintings into modern photos. To solve such problems, in this paper, we (1) propose DLP-GAN (Draw Modern Chinese Landscape Photos with Generative Adversarial Network), an unsupervised cross-domain image translation framework with a novel asymmetric cycle mapping, and (2) introduce a generator based on a dense-fusion module to match different translation directions. Moreover, a dual-consistency loss is proposed to balance the realism and abstraction of model painting. In this way, our model can draw landscape photos and sketches in the modern sense. Finally, based on our collection of modern landscape and sketch datasets, we compare the images generated by our model with other benchmarks. Extensive experiments including user studies show that our model outperforms state-of-the-art methods.
翻訳日:2024-03-08 16:28:16 公開日:2024-03-07
# 伝統的東洋景観絵画からの景観深度推定

Scene Depth Estimation from Traditional Oriental Landscape Paintings ( http://arxiv.org/abs/2403.03408v2 )

ライセンス: Link先を確認
Sungho Kang, YeongHyeon Park, Hyunkyu Park and Juneho Yi(参考訳) 絵画からのシーン深度推定は、視覚障害者が触覚で絵画を鑑賞できるように、3D彫刻作成の過程を合理化することができる。 しかし、奥行きや保存不足を描写する独自の方法により、東洋の風景画の深さを測定することは極めて困難である。 東洋の風景画画像からシーン深度を推定する問題に対処するため,CLIPをベースとした2段階の画像変換手法を前面に配置し,与えられた東洋の風景画画像と最もよく一致する実景画像を予測する新しい枠組みを提案する。 次に,生成された実シーン画像に対して,事前学習したSOTA深度推定モデルを用いる。 最初のステップでは、CycleGANは、東洋の風景画画像を擬似現実の風景画に変換する。 我々はCLIPを用いて風景画像と東洋の風景画像とをセマンティックにマッチングし、CycleGANを教師なしで訓練する。 そして、擬似現実風景画像と東洋風景絵画画像とをDiffuseITに入力し、第2ステップで最終現実風景画像を予測する。 最後に,midasのような事前学習した深度推定モデルを用いて,生成した実景画像の深さを測定する。 実験結果から,本手法はオリエンタル・ランドスケープ・ペインティング・イメージに対応する実際のシーン画像を予測するのに十分な性能を示した。 我々の知る限りでは、これは東洋の風景画の深さを測定する最初の研究である。 私たちの研究は、視覚障害者が様々な方法で絵を体験するのに役立つ可能性がある。 コードと結果のデータセットをリリースします。

Scene depth estimation from paintings can streamline the process of 3D sculpture creation so that visually impaired people appreciate the paintings with tactile sense. However, measuring depth of oriental landscape painting images is extremely challenging due to its unique method of depicting depth and poor preservation. To address the problem of scene depth estimation from oriental landscape painting images, we propose a novel framework that consists of two-step Image-to-Image translation method with CLIP-based image matching at the front end to predict the real scene image that best matches with the given oriental landscape painting image. Then, we employ a pre-trained SOTA depth estimation model for the generated real scene image. In the first step, CycleGAN converts an oriental landscape painting image into a pseudo-real scene image. We utilize CLIP to semantically match landscape photo images with an oriental landscape painting image for training CycleGAN in an unsupervised manner. Then, the pseudo-real scene image and oriental landscape painting image are fed into DiffuseIT to predict a final real scene image in the second step. Finally, we measure depth of the generated real scene image using a pre-trained depth estimation model such as MiDaS. Experimental results show that our approach performs well enough to predict real scene images corresponding to oriental landscape painting images. To the best of our knowledge, this is the first study to measure the depth of oriental landscape painting images. Our research potentially assists visually impaired people in experiencing paintings in diverse ways. We will release our code and resulting dataset.
翻訳日:2024-03-08 16:27:58 公開日:2024-03-07
# CoRMF:臨界オーダーのリカレント平均値が解ける

CoRMF: Criticality-Ordered Recurrent Mean Field Ising Solver ( http://arxiv.org/abs/2403.03391v2 )

ライセンス: Link先を確認
Zhenyu Pan, Ammar Gilani, En-Jui Kuo, Zhuo Liu(参考訳) 本稿では,RNNに基づく効率的なIsingモデル解法であるCriticality-ordered Recurrent Mean Field (CoRMF)を提案する。 N$-spin Isingモデルの臨界順序付きスピン列は、ミッションクリティカルエッジをgreedyアルゴリズムでソートすることで導入され、自己回帰的平均場分解をリカレントニューラルネットワーク(RNN)で利用し最適化することができる。 我々の方法には2つの特徴がある。 (i) 基礎となるIsingグラフの近似木構造を活用することにより、新たに得られた臨界度順序は、変動平均場とRNNの統一を可能にし、一般的な難解なIsingモデルを確率的推論で効率的に探索することができる。 (ii)十分にモジュール化され、モデル非依存であり、同時に十分に表現可能であり、そのため最小限の努力で全ての前方イジング推論問題に適用できる。 分散還元モンテカルロ勾配推定器を用いて、CoRFMはデータ/エビデンスなしで自己学習方式でIsing問題を解き、RNNから直接サンプリングすることで推論タスクを実行することができる。 理論的には, 行列カット分解機械を用いて, ナイーブ平均場よりも強固な誤差境界を確立する。 数値的には、一連のイジングデータセット上でこのフレームワークの有用性を示す。

We propose an RNN-based efficient Ising model solver, the Criticality-ordered Recurrent Mean Field (CoRMF), for forward Ising problems. In its core, a criticality-ordered spin sequence of an $N$-spin Ising model is introduced by sorting mission-critical edges with greedy algorithm, such that an autoregressive mean-field factorization can be utilized and optimized with Recurrent Neural Networks (RNNs). Our method has two notable characteristics: (i) by leveraging the approximated tree structure of the underlying Ising graph, the newly-obtained criticality order enables the unification between variational mean-field and RNN, allowing the generally intractable Ising model to be efficiently probed with probabilistic inference; (ii) it is well-modulized, model-independent while at the same time expressive enough, and hence fully applicable to any forward Ising inference problems with minimal effort. Computationally, by using a variance-reduced Monte Carlo gradient estimator, CoRFM solves the Ising problems in a self-train fashion without data/evidence, and the inference tasks can be executed by directly sampling from RNN. Theoretically, we establish a provably tighter error bound than naive mean-field by using the matrix cut decomposition machineries. Numerically, we demonstrate the utility of this framework on a series of Ising datasets.
翻訳日:2024-03-08 16:27:34 公開日:2024-03-07
# 合成データに自然画像パターンを埋め込んだゼロショット物質状態セグメンテーションの学習

Learning Zero-Shot Material States Segmentation, by Implanting Natural Image Patterns in Synthetic Data ( http://arxiv.org/abs/2403.03309v2 )

ライセンス: Link先を確認
Sagi Eppel, Jolina Li, Manuel Drehwald, Alan Aspuru-Guzik(参考訳) 物質とその状態の視覚的理解とセグメンテーションは、物理的世界を理解するのに不可欠である。 無限のテクスチャ、形状、しばしば材料によって形成されるぼやけた境界は、このタスクを特に一般化するのが困難である。 地表の湿った地域、岩石の鉱物、植物に感染した地域、水に汚染されている地域など、それぞれの物質状態には独自の形態があります。 ニューラルネットがクラス非依存の材料セグメンテーションを学ぶためには、まずこの複雑さを捉えたデータを収集し、注釈付けする必要がある。 実世界の画像の収集と手作業による注釈は、手作業のコストと精度の両方によって制限される。 対照的に、合成データは精度が高く、ほとんどコストがかからないが、物質世界の膨大な多様性を再現できない。 本研究では,実画像から抽出したパターンを合成データに埋め込むことにより,この重要なギャップを埋める手法を提案する。 そのため、自然画像から自動的に収集されたパターンを用いて、素材を合成シーンにマッピングする。 この教師なしのアプローチにより、生成されたデータは合成データの精度とスケールを維持しながら、現実世界の膨大な複雑さを捉えることができる。 また、クラス非依存の物質状態セグメンテーションのための最初の一般的なベンチマークを示す。 ベンチマーク画像には、料理、食べ物、岩、建設、植物、そして液体など、さまざまな状態の物質状態(Wet/Dry/stained/cooked/cooked/worned/rusted/sediment/foam...)の幅広い現実世界の画像が含まれている。 本アノテーションは、類似するが同一ではない領域間の部分的類似性と、全く同一の材料状態の点のみのハードセグメント化の両方を含む。 ここでは,MatchSeg 上のネット列車が既存の最先端手法を著しく上回っていることを示す。

Visual understanding and segmentation of materials and their states is fundamental for understanding the physical world. The infinite textures, shapes and often blurry boundaries formed by material make this task particularly hard to generalize. Whether it's identifying wet regions of a surface, minerals in rocks, infected regions in plants, or pollution in water, each material state has its own unique form. For neural nets to learn class-agnostic materials segmentation it is necessary to first collect and annotate data that capture this complexity. Collecting real-world images and manually annotating is limited both by the cost and limited precision of manual labor. In contrast, synthetic data is highly accurate and almost cost-free but fails to replicate the vast diversity of the material world. In this work, we suggest a method to bridge this crucial gap, by implanting patterns extracted from real-world images, in synthetic data. Hence, patterns automatically collected from natural images are used to map materials into synthetic scenes. This unsupervised approach allows the generated data to capture the vast complexity of the real world while maintaining the precision and scale of synthetic data. We also present the first general benchmark for class-agnostic material state segmentation. The benchmark images contain a wide range of real-world images of material states, from cooking, food, rocks, construction, plants, and liquids each in various states (wet/dry/stained/cooked/burned/worned/rusted/sediment/foam...). The annotation includes both partial similarity between regions with similar but not identical materials, and hard segmentation of only points of the exact same material state. We show that net trains on MatSeg significantly outperform existing state-of-the-art methods on this task.
翻訳日:2024-03-08 16:27:10 公開日:2024-03-07
# 逐次物理インフォームドニューラルネットワークにおける時間連続性の厳密化

Exact Enforcement of Temporal Continuity in Sequential Physics-Informed Neural Networks ( http://arxiv.org/abs/2403.03223v2 )

ライセンス: Link先を確認
Pratanu Roy and Stephen Castonguay(参考訳) 科学計算におけるディープラーニング手法の利用は、エンジニアリング問題解決における潜在的なパラダイムシフトを表している。 最も顕著な展開の1つは物理情報ニューラルネットワーク(PINN)であり、ニューラルネットワークは偏微分方程式(PDE)を満たすように訓練されている。 この手法は将来性を示すが、標準バージョンは時間依存問題の動的挙動を正確に予測するのに苦労している。 この課題に対処するために、時間領域を複数のセグメントに分解し、各セグメントに異なるニューラルネットワークを導入し、最小化問題の損失関数にそれらの連続性を直接組み込む手法が提案されている。 本研究では,解 ansatz を用いて逐次時間セグメント間の連続性を正確に強制する手法を提案する。 この厳密な制約付きシーケンシャルPINN(HCS-PINN)法は実装が簡単で、時間的連続性に関連する損失項は不要である。 この手法は、線形PDEと非線形PDEの両方を含む多くのベンチマーク問題に対して試験される。 例えば、伝統的なピンが苦しむ様々な一階時間依存問題(advection, allen-cahn, korteweg-de vries equation)がある。 さらに、第2次および第3次時間依存問題は、それぞれwaveとjerky dynamicsの例で示される。 特に、ジャーキー・ダイナミクス問題はカオス的であり、特に時間的正確さに敏感である。 提案手法を用いて行った数値実験により,従来のPINNとソフトコントラストのどちらよりも優れた収束と精度を示した。

The use of deep learning methods in scientific computing represents a potential paradigm shift in engineering problem solving. One of the most prominent developments is Physics-Informed Neural Networks (PINNs), in which neural networks are trained to satisfy partial differential equations (PDEs). While this method shows promise, the standard version has been shown to struggle in accurately predicting the dynamic behavior of time-dependent problems. To address this challenge, methods have been proposed that decompose the time domain into multiple segments, employing a distinct neural network in each segment and directly incorporating continuity between them in the loss function of the minimization problem. In this work we introduce a method to exactly enforce continuity between successive time segments via a solution ansatz. This hard constrained sequential PINN (HCS-PINN) method is simple to implement and eliminates the need for any loss terms associated with temporal continuity. The method is tested for a number of benchmark problems involving both linear and non-linear PDEs. Examples include various first order time dependent problems in which traditional PINNs struggle, namely advection, Allen-Cahn, and Korteweg-de Vries equations. Furthermore, second and third order time-dependent problems are demonstrated via wave and Jerky dynamics examples, respectively. Notably, the Jerky dynamics problem is chaotic, making the problem especially sensitive to temporal accuracy. The numerical experiments conducted with the proposed method demonstrated superior convergence and accuracy over both traditional PINNs and the soft-constrained counterparts.
翻訳日:2024-03-08 16:26:40 公開日:2024-03-07
# 汎用コンピュータ制御に向けて--red dead redemption ii のマルチモーダルエージェントを事例として

Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study ( http://arxiv.org/abs/2403.03186v2 )

ライセンス: Link先を確認
Weihao Tan, Ziluo Ding, Wentao Zhang, Boyu Li, Bohan Zhou, Junpeng Yue, Haochong Xia, Jiechuan Jiang, Longtao Zheng, Xinrun Xu, Yifei Bi, Pengjie Gu, Xinrun Wang, B\"orje F. Karlsson, Bo An, Zongqing Lu(参考訳) 特定のタスクやシナリオの成功にもかかわらず、大きなモデル(LM)と高度なツールによって強化された既存のファンデーションエージェントは、主にシナリオ間の観察とアクションの劇的な違いのために、さまざまなシナリオに一般化できない。 本研究では,コンピュータの画面イメージ(および音声)のみを入力とし,キーボードとマウスの操作を出力として生成することにより,コンピュータタスクをマスターできる基盤エージェントを構築することを提案する。 GCCの達成の主な課題は次のとおりである。 1)意思決定のためのマルチモーダルな観察 2)キーボードとマウスの正確な制御の要件 3)長期記憶と推論の必要性 4)効率的な探索と自己改善の能力。 GCCをターゲットにして、以下の6つの主要なモジュールを持つエージェントフレームワークであるCradleを紹介します。 1)マルチモダリティ情報抽出のための情報収集 2)過去の経験を再考する自省 3) 最良の次のタスクを選択するためのタスク推論。 4)所定の課題に関するスキルを生成・更新するためのスキルキュレーション 5) キーボード及びマウス制御のための特定の操作を生成するための行動計画 6)過去の経験と既知のスキルの記憶と検索のためのメモリ。 クラドルの一般化と自己改善の能力を実証するため、複雑なAAAゲーム『Red Dead Redemption II』にデプロイし、挑戦的な目標を持つGCCに向けた予備的な試みとして機能する。 私たちの最善の知識として、私たちの仕事は、lmmベースのエージェントがメインのストーリーラインに従って、事前の知識やリソースに最小限の依存で、複雑なaaaゲームで実際のミッションを完了できるようにします。 プロジェクトのwebサイトはhttps://baai-agents.github.io/cradle/。

Despite the success in specific tasks and scenarios, existing foundation agents, empowered by large models (LMs) and advanced tools, still cannot generalize to different scenarios, mainly due to dramatic differences in the observations and actions across scenarios. In this work, we propose the General Computer Control (GCC) setting: building foundation agents that can master any computer task by taking only screen images (and possibly audio) of the computer as input, and producing keyboard and mouse operations as output, similar to human-computer interaction. The main challenges of achieving GCC are: 1) the multimodal observations for decision-making, 2) the requirements of accurate control of keyboard and mouse, 3) the need for long-term memory and reasoning, and 4) the abilities of efficient exploration and self-improvement. To target GCC, we introduce Cradle, an agent framework with six main modules, including: 1) information gathering to extract multi-modality information, 2) self-reflection to rethink past experiences, 3) task inference to choose the best next task, 4) skill curation for generating and updating relevant skills for given tasks, 5) action planning to generate specific operations for keyboard and mouse control, and 6) memory for storage and retrieval of past experiences and known skills. To demonstrate the capabilities of generalization and self-improvement of Cradle, we deploy it in the complex AAA game Red Dead Redemption II, serving as a preliminary attempt towards GCC with a challenging target. To our best knowledge, our work is the first to enable LMM-based agents to follow the main storyline and finish real missions in complex AAA games, with minimal reliance on prior knowledge or resources. The project website is at https://baai-agents.github.io/Cradle/.
翻訳日:2024-03-08 16:25:50 公開日:2024-03-07
# PromptKD:ビジョンランゲージモデルのための教師なしプロンプト蒸留

PromptKD: Unsupervised Prompt Distillation for Vision-Language Models ( http://arxiv.org/abs/2403.02781v3 )

ライセンス: Link先を確認
Zheng Li, Xiang Li, Xinyi Fu, Xing Zhang, Weiqiang Wang, Shuo Chen, Jian Yang(参考訳) プロンプト学習は、特定のドメインの下流タスクのためのCLIPのような視覚言語モデル(VLM)を強化するための貴重なテクニックとして登場した。 既存の研究は主に様々な学習形態のプロンプトの設計に重点を置いており、より大きな教師モデルから学ぶための効果的な蒸留器としてのプロンプトの可能性を無視している。 本稿では,大規模教師モデルの知識を,ラベルなしドメイン画像を用いた即時模倣により軽量ターゲットモデルに伝達することを目的とした,教師なしドメインプロンプト蒸留フレームワークを提案する。 具体的には,2つの異なる段階から構成される。 最初の段階では、ドメインラベルを用いて大規模なCLIP教師モデルを事前訓練する。 事前学習後,教師のテキストエンコーダを通じてのみ,テキスト特徴をクラスベクトルとして事前計算し,保存することにより,CLIPの独特な分離モダリティ特性を活用する。 その後の段階では、記憶されたクラスベクトルを教師と生徒の画像エンコーダ間で共有し、予測ロジットを算出する。 さらに,教師と生徒モデルのロジットをklダイバージェンスを通じて調整し,学習可能なプロンプトを通じて,生徒画像エンコーダが教師と同じような確率分布を生成するように促す。 提案するプロンプト蒸留プロセスはラベル付きデータへの依存をなくし、アルゴリズムはドメイン内の大量のラベル付き画像を活用することができる。 最後に、よく訓練された学生画像エンコーダと事前記憶されたテキスト特徴(クラスベクトル)を推論に利用する。 最善の知識として,(1)非教師付きドメイン特化プロンプト型知識蒸留をクリップに対して実施し,(2)教師と生徒の共有クラスベクトルとしてテキスト特徴の実用的事前保存機構を確立する。 11のデータセットに関する広範囲な実験により,本手法の有効性が示された。

Prompt learning has emerged as a valuable technique in enhancing vision-language models (VLMs) such as CLIP for downstream tasks in specific domains. Existing work mainly focuses on designing various learning forms of prompts, neglecting the potential of prompts as effective distillers for learning from larger teacher models. In this paper, we introduce an unsupervised domain prompt distillation framework, which aims to transfer the knowledge of a larger teacher model to a lightweight target model through prompt-driven imitation using unlabeled domain images. Specifically, our framework consists of two distinct stages. In the initial stage, we pre-train a large CLIP teacher model using domain (few-shot) labels. After pre-training, we leverage the unique decoupled-modality characteristics of CLIP by pre-computing and storing the text features as class vectors only once through the teacher text encoder. In the subsequent stage, the stored class vectors are shared across teacher and student image encoders for calculating the predicted logits. Further, we align the logits of both the teacher and student models via KL divergence, encouraging the student image encoder to generate similar probability distributions to the teacher through the learnable prompts. The proposed prompt distillation process eliminates the reliance on labeled data, enabling the algorithm to leverage a vast amount of unlabeled images within the domain. Finally, the well-trained student image encoders and pre-stored text features (class vectors) are utilized for inference. To our best knowledge, we are the first to (1) perform unsupervised domain-specific prompt-driven knowledge distillation for CLIP, and (2) establish a practical pre-storing mechanism of text features as shared class vectors between teacher and student. Extensive experiments on 11 datasets demonstrate the effectiveness of our method.
翻訳日:2024-03-08 16:24:55 公開日:2024-03-07
# 偽正サンプリングに基づく3次元物体検出精度向上のためのデータ拡張

False Positive Sampling-based Data Augmentation for Enhanced 3D Object Detection Accuracy ( http://arxiv.org/abs/2403.02639v2 )

ライセンス: Link先を確認
Jiyong Oh, Junhaeng Lee, Woongchan Byun, Minsang Kong and Sang Hun Lee(参考訳) 近年,3次元物体検出モデルの性能向上に焦点が当てられている。 様々なアプローチの中で、接地サンプリングは、限られた接地データによって生じる課題に対処するための拡張技術として提案されている。 しかし、地中真実サンプリングの固有の問題は、偽陽性の増加傾向にある。 そこで本研究では, 偽陽性サンプリングと呼ばれる新しい拡張手法を開発し, 3次元物体検出モデルの性能向上を図ることを目的としている。 偽陽性サンプリングは、モデルの予測において偽陽性と認識される点雲を用いてモデルを再訓練する。 本研究では, 地中正と偽正のサンプリングを併用するアルゴリズムと, 偽正のサンプルデータベース構築のためのアルゴリズムを提案する。 さらに, 偽陽性サンプリングによる性能向上の背景にある原則を分析し, 偽陽性サンプリング技術と地味サンプリング技術の両方を含むサンプリング戦略にカリキュラム学習の概念を適用した手法を提案する。 実験の結果,偽陽性サンプリングを用いたモデルでは偽陽性が減少し,オブジェクト検出性能が向上した。 KITTIとWaymo Openのデータセットでは、偽陽性サンプリングモデルがベースラインモデルを上回っている。

Recent studies have focused on enhancing the performance of 3D object detection models. Among various approaches, ground-truth sampling has been proposed as an augmentation technique to address the challenges posed by limited ground-truth data. However, an inherent issue with ground-truth sampling is its tendency to increase false positives. Therefore, this study aims to overcome the limitations of ground-truth sampling and improve the performance of 3D object detection models by developing a new augmentation technique called false-positive sampling. False-positive sampling involves retraining the model using point clouds that are identified as false positives in the model's predictions. We propose an algorithm that utilizes both ground-truth and false-positive sampling and an algorithm for building the false-positive sample database. Additionally, we analyze the principles behind the performance enhancement due to false-positive sampling and propose a technique that applies the concept of curriculum learning to the sampling strategy that encompasses both false-positive and ground-truth sampling techniques. Our experiments demonstrate that models utilizing false-positive sampling show a reduction in false positives and exhibit improved object detection performance. On the KITTI and Waymo Open datasets, models with false-positive sampling surpass the baseline models by a large margin.
翻訳日:2024-03-08 16:24:03 公開日:2024-03-07
# Black-Box $k$-to-1$-PCAの削減:理論と応用

Black-Box $k$-to-$1$-PCA Reductions: Theory and Applications ( http://arxiv.org/abs/2403.03905v2 )

ライセンス: Link先を確認
Arun Jambulapati, Syamantak Kumar, Jerry Li, Shourya Pandey, Ankit Pensia, Kevin Tian(参考訳) k$-principal component analysis(k$-PCA)問題は基本的なアルゴリズムプリミティブであり、データ解析や次元減少アプリケーションで広く利用されている。 統計的設定では、$k$-PCA の目標は、分布の共分散行列のトップ固有空間を特定することである。 これらの暗黙的な設定により、ブラックボックスデフレ法を$k$-PCAアルゴリズムを設計するためのフレームワークとして分析し、近似近似の2つの一般的な概念の下で、ブラックボックスの1ドル$-PCAオーラクルを介して未知のターゲット行列へのアクセスをモデル化する。 k$-pcaアルゴリズム設計に対する最も自然な還元ベースのアプローチであるにもかかわらず、このようなブラックボックスメソッドは再帰的に1$-pca oracle $k$ timesと呼ばれ、以前はあまり理解されていなかった。 我々の主な貢献は、$k$-pcaのデフレ法における近似パラメータの分解に関するかなり鋭い境界である。 ePCA (Energy PCA) と呼ぶ近似の二次形式として、デフレ法はパラメータ損失を伴わないことを示す。 cPCA(correlation PCA)という別のよく研究された近似概念に対して、デフレ法が実現可能なパラメータ構造を厳しく特徴づける。 さらに、全ての実現可能なレシエーションにおいて、$k$-cPCAデフレアルゴリズムは、任意の定数$k$に対して漸近パラメータ損失を生じないことを示す。 我々は,最先端の$k$-PCAアルゴリズムを用いて,汚染を解析し,サンプルの複雑さと近似品質の両方において先行作業を改善する。

The $k$-principal component analysis ($k$-PCA) problem is a fundamental algorithmic primitive that is widely-used in data analysis and dimensionality reduction applications. In statistical settings, the goal of $k$-PCA is to identify a top eigenspace of the covariance matrix of a distribution, which we only have implicit access to via samples. Motivated by these implicit settings, we analyze black-box deflation methods as a framework for designing $k$-PCA algorithms, where we model access to the unknown target matrix via a black-box $1$-PCA oracle which returns an approximate top eigenvector, under two popular notions of approximation. Despite being arguably the most natural reduction-based approach to $k$-PCA algorithm design, such black-box methods, which recursively call a $1$-PCA oracle $k$ times, were previously poorly-understood. Our main contribution is significantly sharper bounds on the approximation parameter degradation of deflation methods for $k$-PCA. For a quadratic form notion of approximation we term ePCA (energy PCA), we show deflation methods suffer no parameter loss. For an alternative well-studied approximation notion we term cPCA (correlation PCA), we tightly characterize the parameter regimes where deflation methods are feasible. Moreover, we show that in all feasible regimes, $k$-cPCA deflation algorithms suffer no asymptotic parameter loss for any constant $k$. We apply our framework to obtain state-of-the-art $k$-PCA algorithms robust to dataset contamination, improving prior work both in sample complexity and approximation quality.
翻訳日:2024-03-08 16:15:03 公開日:2024-03-07
# SaulLM-7B: 法のための大規模言語モデル

SaulLM-7B: A pioneering Large Language Model for Law ( http://arxiv.org/abs/2403.03883v2 )

ライセンス: Link先を確認
Pierre Colombo, Telmo Pessoa Pires, Malik Boudiaf, Dominic Culver, Rui Melo, Caio Corro, Andre F. T. Martins, Fabrizio Esposito, Vera L\'ucia Raposo, Sofia Morgado, Michael Desa(参考訳) 本稿では,法律ドメインに適した大規模言語モデル (LLM) である SaulLM-7B を紹介する。 70億のパラメータを持つ SaulLM-7B は、法的テキストの理解と生成のために明示的に設計された最初の LLM である。 Mistral 7Bアーキテクチャを基盤として、SaulLM-7Bは300億以上のトークンからなるイングランドの法定コーパスで訓練されている。 SaulLM-7Bは、法律文書の理解と処理における最先端の能力を示す。 さらに、法的なデータセットを利用して法務タスクにおけるsullm-7bの性能をさらに向上させる新しい指導的微調整法を提案する。 SaulLM-7BはMITライセンス下でリリースされた。

In this paper, we introduce SaulLM-7B, a large language model (LLM) tailored for the legal domain. With 7 billion parameters, SaulLM-7B is the first LLM designed explicitly for legal text comprehension and generation. Leveraging the Mistral 7B architecture as its foundation, SaulLM-7B is trained on an English legal corpus of over 30 billion tokens. SaulLM-7B exhibits state-of-the-art proficiency in understanding and processing legal documents. Additionally, we present a novel instructional fine-tuning method that leverages legal datasets to further enhance SaulLM-7B's performance in legal tasks. SaulLM-7B is released under the MIT License.
翻訳日:2024-03-08 16:14:30 公開日:2024-03-07
# Emojinize: 絵文字翻訳でテキストを豊かにする

Emojinize: Enriching Any Text with Emoji Translations ( http://arxiv.org/abs/2403.03857v2 )

ライセンス: Link先を確認
Lars Henning Klein, Roland Aydin, Robert West(参考訳) Emojiは、Web上など、手書きのコミュニケーションでユビキタスになった。 感情を強調したり、明確にしたり、会話に詳細を追加したり、あるいは単に装飾的な目的に役立てることができる。 しかし、このカジュアルな使い方は、絵文字の表現力の表面をほとんど傷つけない。 この力をさらに解き放つために、任意のテキスト句を人間の入力を必要とせずに1つ以上の絵文字の配列に変換する方法であるemojinizeを提案する。 大規模な言語モデルのパワーを活用することで、emojinizeは文脈(例えば、クリケットバット対バット)に基づいて曖昧さをなくし、複数の絵文字を組み合わせることで複雑な概念を合成的に表現することで適切な絵文字を選択できる(eq、emojinizeは入力ラテンレターに翻訳される)。 クローズテストベースのユーザスタディでは,Emojinizeの絵文字翻訳がマスクされた単語の人間の推測可能性を55%増加させるのに対して,人間の絵文字翻訳はわずか29%向上した。 これらの結果は、絵文字が様々な単語を正確に翻訳するのに十分な豊富な語彙を提供することを示している。 さらに、Emojinizeの絵文字翻訳による単語やフレーズの注釈付けは、子どもたちが読み方を学ぶこと、外国語を学ぶこと、学習障害のある人々のためのテキスト理解など、多くの下流アプリケーションへの扉を開く。

Emoji have become ubiquitous in written communication, on the Web and beyond. They can emphasize or clarify emotions, add details to conversations, or simply serve decorative purposes. This casual use, however, barely scratches the surface of the expressive power of emoji. To further unleash this power, we present Emojinize, a method for translating arbitrary text phrases into sequences of one or more emoji without requiring human input. By leveraging the power of large language models, Emojinize can choose appropriate emoji by disambiguating based on context (eg, cricket-bat vs bat) and can express complex concepts compositionally by combining multiple emoji (eq, "Emojinize" is translated to input-latin-letters right-arrow grinning-face). In a cloze test--based user study, we show that Emojinize's emoji translations increase the human guessability of masked words by 55%, whereas human-picked emoji translations do so by only 29%. These results suggest that emoji provide a sufficiently rich vocabulary to accurately translate a wide variety of words. Moreover, annotating words and phrases with Emojinize's emoji translations opens the door to numerous downstream applications, including children learning how to read, adults learning foreign languages, and text understanding for people with learning disabilities.
翻訳日:2024-03-08 16:14:20 公開日:2024-03-07
# ShortGPT:大規模言語モデルのレイヤーは、予想以上に冗長である

ShortGPT: Layers in Large Language Models are More Redundant Than You Expect ( http://arxiv.org/abs/2403.03853v2 )

ライセンス: Link先を確認
Xin Men, Mingyu Xu, Qingyu Zhang, Bingning Wang, Hongyu Lin, Yaojie Lu, Xianpei Han, Weipeng Chen(参考訳) 大規模言語モデル(LLM)のパフォーマンスが向上するにつれて、そのサイズは大幅に拡大し、現在のLLMには数十億または数兆のパラメータが含まれている。 しかし,本研究では,多くのllm層が高い類似性を示し,ネットワーク機能において無視できない役割を担っていることを発見した。 この観測に基づいてブロック影響(BI)と呼ばれる指標を定義し,LLMにおける各層の重要性を評価する。 そこで我々は, BIスコアに基づいて, LLMの冗長層を直接除去する, 簡単なプルーニング手法を提案する。 実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA法よりも大幅に優れていることを示した。 さらに、shortgptは量子化のような方法と直交し、パラメータと計算のさらなる削減を可能にする。 より複雑な刈り取り技術とは対照的に、単純な層除去によってよりよい結果を得る能力は、モデルアーキテクチャにおける高い冗長性を示している。

As Large Language Models (LLMs) continue to advance in performance, their size has escalated significantly, with current LLMs containing billions or even trillions of parameters. However, in this study, we discovered that many layers of LLMs exhibit high similarity, and some layers play a negligible role in network functionality. Based on this observation, we define a metric called Block Influence (BI) to gauge the significance of each layer in LLMs. We then propose a straightforward pruning approach: layer removal, in which we directly delete the redundant layers in LLMs based on their BI scores. Experiments demonstrate that our method, which we call ShortGPT, significantly outperforms previous state-of-the-art (SOTA) methods in model pruning. Moreover, ShortGPT is orthogonal to quantization-like methods, enabling further reduction in parameters and computation. The ability to achieve better results through simple layer removal, as opposed to more complex pruning techniques, suggests a high degree of redundancy in the model architecture.
翻訳日:2024-03-08 16:13:54 公開日:2024-03-07
# テレビ番組のマルチモーダル要約のためのモジュール的アプローチ

A Modular Approach for Multimodal Summarization of TV Shows ( http://arxiv.org/abs/2403.03823v2 )

ライセンス: Link先を確認
Louis Mahon, Mirella Lapata(参考訳) 本稿では,複雑な推論,複数モーダル性,長い物語など,AI研究の重要な領域に触発するテレビ番組を要約する作業について述べる。 我々は、個別のコンポーネントが個別のサブタスクを実行するようなモジュラーアプローチを提案する。 モジュールはシーン境界の検出、異なるイベント間のカット回数を最小化するためにシーンの順序を変更し、視覚情報をテキストに変換し、各シーンの対話を要約し、シーン要約をエピソード全体の最終要約に融合する。 我々はまた、生成した要約の精度とリコールを計測し、原子事実に分解するPreFS(Precision and Recall Evaluation of Summary FactS)という新しい指標も提示する。 最近リリースされたSummScreen3DデータセットPapalampidiとLapata(2023年)を用いて、ROUGEと新しいファクトベースの測定値を用いて、比較モデルよりも高品質な要約を生成する。

In this paper we address the task of summarizing television shows, which touches key areas in AI research: complex reasoning, multiple modalities, and long narratives. We present a modular approach where separate components perform specialized sub-tasks which we argue affords greater flexibility compared to end-to-end methods. Our modules involve detecting scene boundaries, reordering scenes so as to minimize the number of cuts between different events, converting visual information to text, summarizing the dialogue in each scene, and fusing the scene summaries into a final summary for the entire episode. We also present a new metric, PREFS (Precision and Recall Evaluation of Summary FactS), to measure both precision and recall of generated summaries, which we decompose into atomic facts. Tested on the recently released SummScreen3D dataset Papalampidi and Lapata (2023), our method produces higher quality summaries than comparison models, as measured with ROUGE and our new fact-based metric.
翻訳日:2024-03-08 16:13:37 公開日:2024-03-07
# 相対化は自然に面白い

Relativization is naturally functorial ( http://arxiv.org/abs/2403.03755v2 )

ライセンス: Link先を確認
Jan G{\l}owacki(参考訳) 本稿では、対称性の存在下での量子計測理論から生じる相対化構成と、量子参照フレームに対する操作的アプローチにおける中心的位置の占有について、いくつかの分類学的視点を示す。 この構成は、任意の量子系に対して、システムの代数から複合系上の不変代数への量子チャネルも選択された参照を包含し、ポインタの可観測性の選択に付随する。 これらの写像は、量子参照フレームの仕様に基づいて、系上の可観測値の相対化として理解される。 まず、作用素の代数の部分空間に基づいてモデル化された系に構成を拡張し、次に、参照フレームと系からなるペアを取る関手を定義し、対応する相対化写像の像で定義される相対作用素の部分空間を割り当てる。 単一フレームと同変チャネルを考えるとき、相対化写像は自然変換として理解することができる。 システムを修正するとき、ファンクターは私たちが外部と呼ぶ新しい種類のフレーム変換を提供する。 その結果、興味の枠組みのより深い構造的理解と、その分類と代数的量子場理論の局所系への潜在的な応用が得られた。

In this note, we provide some categorical perspectives on the relativization construction arising from quantum measurement theory in the presence of symmetries and occupying a central place in the operational approach to quantum reference frames. This construction provides, for any quantum system, a quantum channel from the system's algebra to the invariant algebra on the composite system also encompassing the chosen reference, contingent upon a choice of the pointer observable. These maps are understood as relativizing observables on systems upon the specification of a quantum reference frame. We begin by extending the construction to systems modelled on subspaces of algebras of operators to then define a functor taking a pair consisting of a reference frame and a system and assigning to them a subspace of relative operators defined in terms of an image of the corresponding relativization map. When a single frame and equivariant channels are considered, the relativization maps can be understood as a natural transformation. Upon fixing a system, the functor provides a novel kind of frame transformation that we call external. Results achieved provide a deeper structural understanding of the framework of interest and point towards its categorification and potential application to local systems of algebraic quantum field theories.
翻訳日:2024-03-08 16:13:17 公開日:2024-03-07
# CMDA:LiDARに基づく3Dオブジェクト検出のためのクロスモーダル・ドメイン適応

CMDA: Cross-Modal and Domain Adversarial Adaptation for LiDAR-Based 3D Object Detection ( http://arxiv.org/abs/2403.03721v2 )

ライセンス: Link先を確認
Gyusam Chang, Wonseok Roh, Sujin Jang, Dongwook Lee, Daehyun Ji, Gyeongrok Oh, Jinsun Park, Jinkyu Kim, Sangpil Kim(参考訳) 最近のLiDARベースの3Dオブジェクト検出(3DOD)手法は有望な結果を示すが、ソース(またはトレーニング)データ配信の外部のドメインに対してうまく一般化しないことが多い。 このような領域ギャップを低減し、3dodモデルをより一般化するために、cmdaと呼ばれる新しいunsupervised domain adaptation (uda)法を導入する。 (i)画像モダリティ(すなわちカメラ画像)からの視覚的意味的手がかりを効果的な意味橋として活用し、鳥の視覚(bev)表現の領域ギャップを閉じる。 さらに (II) 自己学習型学習戦略も導入し, モデルが逆向きに訓練されてドメイン不変な特徴が生成され, 特徴インスタンスがソースや未確認対象ドメインから来ているかどうかの判別が阻害される。 全体として、CMDAフレームワークは3DODモデルをガイドし、新しいデータ配信のための高情報かつドメイン適応的な特徴を生成する。 nuScenes、Waymo、KITTIといった大規模ベンチマークによる大規模な実験では、前述のようなものがUDAタスクに対して大きなパフォーマンス向上をもたらし、最先端のパフォーマンスを実現しています。

Recent LiDAR-based 3D Object Detection (3DOD) methods show promising results, but they often do not generalize well to target domains outside the source (or training) data distribution. To reduce such domain gaps and thus to make 3DOD models more generalizable, we introduce a novel unsupervised domain adaptation (UDA) method, called CMDA, which (i) leverages visual semantic cues from an image modality (i.e., camera images) as an effective semantic bridge to close the domain gap in the cross-modal Bird's Eye View (BEV) representations. Further, (ii) we also introduce a self-training-based learning strategy, wherein a model is adversarially trained to generate domain-invariant features, which disrupt the discrimination of whether a feature instance comes from a source or an unseen target domain. Overall, our CMDA framework guides the 3DOD model to generate highly informative and domain-adaptive features for novel data distributions. In our extensive experiments with large-scale benchmarks, such as nuScenes, Waymo, and KITTI, those mentioned above provide significant performance gains for UDA tasks, achieving state-of-the-art performance.
翻訳日:2024-03-08 16:12:57 公開日:2024-03-07
# 画像データ拡張におけるクラス依存バイアスに対するデータ中心アプローチ

A data-centric approach to class-specific bias in image data augmentation ( http://arxiv.org/abs/2403.04120v1 )

ライセンス: Link先を確認
Athanasios Angelakis and Andrey Rass(参考訳) データ拡張(da)はコンピュータビジョンにおけるモデルの一般化を増強するが、偏りをもたらし、クラス精度に不均一に影響を及ぼす可能性がある。 この調査は、ImageNetと異なるデータセットを含む様々なデータセットにおけるDAのクラス固有のバイアスをランダムな収穫によって調べ、拡張する。 我々はResNet50,EfficientNetV2S,SWIN ViTを用いてこの現象を評価し,残差モデルが類似したバイアス効果を示したが,ビジョントランスフォーマーはより堅牢性や動的変化を示した。 これは、バイアス緩和を強調する、モデル選択に対する微妙なアプローチを示唆する。 また,da誘発バイアスをより効率的に管理する「データ強化ロバストネススカウティング」手法を洗練し,計算要求を大幅に削減した(1860年ではなく112モデルのトレーニング,第16.2因子の削減)。

Data augmentation (DA) enhances model generalization in computer vision but may introduce biases, impacting class accuracy unevenly. Our study extends this inquiry, examining DA's class-specific bias across various datasets, including those distinct from ImageNet, through random cropping. We evaluated this phenomenon with ResNet50, EfficientNetV2S, and SWIN ViT, discovering that while residual models showed similar bias effects, Vision Transformers exhibited greater robustness or altered dynamics. This suggests a nuanced approach to model selection, emphasizing bias mitigation. We also refined a "data augmentation robustness scouting" method to manage DA-induced biases more efficiently, reducing computational demands significantly (training 112 models instead of 1860; a reduction of factor 16.2) while still capturing essential bias trends.
翻訳日:2024-03-08 15:45:48 公開日:2024-03-07
# 世界安定型ニューラルイミテーション政策

Globally Stable Neural Imitation Policies ( http://arxiv.org/abs/2403.04118v1 )

ライセンス: Link先を確認
Amin Abyaneh, Mariana Sosa Guzm\'an, Hsiu-Chin Lin(参考訳) 模倣学習は、ソリューション空間における政策学習の資源集約的で時間のかかる性質をゼロから緩和する効果的なアプローチを示す。 結果として得られた政策は専門家のデモンストレーションを確実に模倣することができるが、国家空間の未調査領域では予測可能性に欠けることが多く、摂動に直面した場合に重大な安全上の懸念が生じる。 これらの課題に対処するために,形式的安定性を保証するポリシーを生成する模倣学習システムであるSNDS(Stable Neural Dynamical System)を導入する。 我々は,lyapunovの定理に基づく安定性の表現を容易にするニューラルネットワークのポリシアーキテクチャを展開し,そのポリシとその対応するlyapunov候補を共同で訓練し,グローバル安定性を確保する。 シミュレーション実験を行い、実世界のマニピュレータアームにトレーニングされたポリシーをうまく展開することで、我々のアプローチを検証する。 提案手法は,従来の模倣学習法と関連する不安定性,正確性,計算強度の問題を克服し,複雑な計画シナリオにおける安定な政策学習に有望な解決策となることを示す。

Imitation learning presents an effective approach to alleviate the resource-intensive and time-consuming nature of policy learning from scratch in the solution space. Even though the resulting policy can mimic expert demonstrations reliably, it often lacks predictability in unexplored regions of the state-space, giving rise to significant safety concerns in the face of perturbations. To address these challenges, we introduce the Stable Neural Dynamical System (SNDS), an imitation learning regime which produces a policy with formal stability guarantees. We deploy a neural policy architecture that facilitates the representation of stability based on Lyapunov theorem, and jointly train the policy and its corresponding Lyapunov candidate to ensure global stability. We validate our approach by conducting extensive experiments in simulation and successfully deploying the trained policies on a real-world manipulator arm. The experimental results demonstrate that our method overcomes the instability, accuracy, and computational intensity problems associated with previous imitation learning methods, making our method a promising solution for stable policy learning in complex planning scenarios.
翻訳日:2024-03-08 15:45:30 公開日:2024-03-07
# 効率的なX線新規合成のための放射型ガウス散乱

Radiative Gaussian Splatting for Efficient X-ray Novel View Synthesis ( http://arxiv.org/abs/2403.04116v1 )

ライセンス: Link先を確認
Yuanhao Cai, Yixun Liang, Jiahao Wang, Angtian Wang, Yulun Zhang, Xiaokang Yang, Zongwei Zhou, Alan Yuille(参考訳) X線は自然光よりも強い透過性のために透過イメージングに広く応用されている。 新規なx線投影をレンダリングする際には、nerfを主とする既存の手法は長いトレーニング時間と遅い推論速度に苦しむ。 本稿では,x線新規ビュー合成のための3次元ガウス型スプレーティングベースフレームワーク,すなわちx-gaussianを提案する。 まず、X線イメージングの等方性に着想を得た放射型ガウス点雲モデルを再設計する。 本モデルでは,3次元点の放射強度を学習する際の視線方向の影響を除外する。 このモデルに基づき、cuda実装を用いた微分可能なラジエーティブラスタライズ(drr)を開発した。 次に,x線スキャナのパラメータを直接使用してカメラ情報を計算し,スキャン対象を囲む立方体内の点位置を一様にサンプリングするアングルポス立方体初期化(acui)戦略をカスタマイズする。 実験の結果,X-Gaussianは6.5dBの最先端手法より優れており,トレーニング時間は15%未満であり,推論速度は73倍であることがわかった。 Sparse-view CT 再構成への応用は,本手法の実用的価値も明らかにする。 コードとモデルはhttps://github.com/caiyuanhao1998/X-Gaussianで公開される。 トレーニングプロセスの視覚化のビデオデモはhttps://www.youtube.com/watch? v=gDVf_Ngeghg。

X-ray is widely applied for transmission imaging due to its stronger penetration than natural light. When rendering novel view X-ray projections, existing methods mainly based on NeRF suffer from long training time and slow inference speed. In this paper, we propose a 3D Gaussian splatting-based framework, namely X-Gaussian, for X-ray novel view synthesis. Firstly, we redesign a radiative Gaussian point cloud model inspired by the isotropic nature of X-ray imaging. Our model excludes the influence of view direction when learning to predict the radiation intensity of 3D points. Based on this model, we develop a Differentiable Radiative Rasterization (DRR) with CUDA implementation. Secondly, we customize an Angle-pose Cuboid Uniform Initialization (ACUI) strategy that directly uses the parameters of the X-ray scanner to compute the camera information and then uniformly samples point positions within a cuboid enclosing the scanned object. Experiments show that our X-Gaussian outperforms state-of-the-art methods by 6.5 dB while enjoying less than 15% training time and over 73x inference speed. The application on sparse-view CT reconstruction also reveals the practical values of our method. Code and models will be publicly available at https://github.com/caiyuanhao1998/X-Gaussian . A video demo of the training process visualization is at https://www.youtube.com/watch?v=gDVf_Ngeghg .
翻訳日:2024-03-08 15:45:11 公開日:2024-03-07
# DNAct: 拡散誘導型マルチタスク3D政策学習

DNAct: Diffusion Guided Multi-Task 3D Policy Learning ( http://arxiv.org/abs/2403.04115v1 )

ライセンス: Link先を確認
Ge Yan, Yueh-Hua Wu, Xiaolong Wang(参考訳) 本稿では,ニューラルネットワークによる事前学習と拡散学習を統合し,アクションシーケンス空間におけるマルチモダリティ学習を実現する,言語条件付きマルチタスクポリシフレームワークであるdnactを提案する。 デモの少ない一般化可能なマルチタスクポリシを学ぶために、DNActの事前学習フェーズでは、ニューラルネットワークを利用して、安定拡散のような基礎モデルから3D空間への2Dセマンティックな特徴を抽出し、シーンに関する包括的なセマンティック理解を提供する。 そのため、複雑な3dセマンティクスと正確な幾何学を必要とするロボットタスクに対して、様々な応用が可能となる。 さらに,拡散学習を利用した視覚・言語の特徴を学習し,マルチタスクのデモにおいて固有のマルチモーダリティをカプセル化する手法を提案する。 拡散過程を通じて異なるタスクから動作シーケンスを再構成することにより、モデルは異なるモードを区別し、学習された表現の堅牢性と一般化性を改善することができる。 DNActはSOTA NeRFベースのマルチタスク操作アプローチを大幅に上回り、30%以上の成功率向上を実現している。 プロジェクトサイト: dnact.github.io

This paper presents DNAct, a language-conditioned multi-task policy framework that integrates neural rendering pre-training and diffusion training to enforce multi-modality learning in action sequence spaces. To learn a generalizable multi-task policy with few demonstrations, the pre-training phase of DNAct leverages neural rendering to distill 2D semantic features from foundation models such as Stable Diffusion to a 3D space, which provides a comprehensive semantic understanding regarding the scene. Consequently, it allows various applications to challenging robotic tasks requiring rich 3D semantics and accurate geometry. Furthermore, we introduce a novel approach utilizing diffusion training to learn a vision and language feature that encapsulates the inherent multi-modality in the multi-task demonstrations. By reconstructing the action sequences from different tasks via the diffusion process, the model is capable of distinguishing different modalities and thus improving the robustness and the generalizability of the learned representation. DNAct significantly surpasses SOTA NeRF-based multi-task manipulation approaches with over 30% improvement in success rate. Project website: dnact.github.io.
翻訳日:2024-03-08 15:44:48 公開日:2024-03-07
# オブジェクト合成可能なNeRFを用いたビジュアル・シム・トゥ・リアルギャップのクローズ

Closing the Visual Sim-to-Real Gap with Object-Composable NeRFs ( http://arxiv.org/abs/2403.04114v1 )

ライセンス: Link先を確認
Nikhil Mishra and Maximilian Sieb and Pieter Abbeel and Xi Chen(参考訳) 知覚のための深層学習法は、多くのロボットシステムの基盤である。 印象的なパフォーマンスの可能性にもかかわらず、実世界のトレーニングデータを取得することは高価であり、一部のタスクでは非現実的に難しい。 ドメイン・ランダム化を伴うシム・トゥ・リアル転送は潜在的な回避策を提供するが、しばしば手動チューニングと、シムとリアルの間の分散シフトに脆弱なモデルにおける結果を必要とする。 本研究では,実世界のシーンやオブジェクトを対象としたトレーニングデータを合成する,リアル・トゥ・シムパイプラインの中心となるオブジェクト合成可能なNeRFモデルであるComposable Object Volume NeRF(COV-NeRF)を紹介する。 COV-NeRFは、実際の画像からオブジェクトを抽出し、それらを新しいシーンに合成し、フォトリアリスティックなレンダリングと深度マップ、セグメンテーションマスク、メッシュを含む多くのタイプの2Dおよび3D監視を生成する。 cov-nerfは現代のnerf法のレンダリング品質に適合しており、様々な知覚的モダリティにまたがるsim-to-realギャップを迅速に閉じることができる。

Deep learning methods for perception are the cornerstone of many robotic systems. Despite their potential for impressive performance, obtaining real-world training data is expensive, and can be impractically difficult for some tasks. Sim-to-real transfer with domain randomization offers a potential workaround, but often requires extensive manual tuning and results in models that are brittle to distribution shift between sim and real. In this work, we introduce Composable Object Volume NeRF (COV-NeRF), an object-composable NeRF model that is the centerpiece of a real-to-sim pipeline for synthesizing training data targeted to scenes and objects from the real world. COV-NeRF extracts objects from real images and composes them into new scenes, generating photorealistic renderings and many types of 2D and 3D supervision, including depth maps, segmentation masks, and meshes. We show that COV-NeRF matches the rendering quality of modern NeRF methods, and can be used to rapidly close the sim-to-real gap across a variety of perceptual modalities.
翻訳日:2024-03-08 15:44:30 公開日:2024-03-07
# map: ソースフリーな知的財産保護のためのマスクプルーニング

MAP: MAsk-Pruning for Source-Free Model Intellectual Property Protection ( http://arxiv.org/abs/2403.04149v1 )

ライセンス: Link先を確認
Boyang Peng, Sanqing Qu, Yong Wu, Tianpei Zou, Lianghua He, Alois Knoll, Guang Chen, changjun jiang(参考訳) ディープラーニングは様々な応用において著しく進歩し、十分に訓練されたモデルの知的財産(ip)を保護する重要性を高めている。 使用を許可するだけでなく、特定のターゲットドメインに限定したモデルを作成することで、認証されたデータドメインにモデルをデプロイすることを保証する。 従来の方法では、ソーストレーニングデータへの同時アクセスが必要であり、ip保護を行う際に不正なデータをターゲットにしており、分散プライベートデータに対してリスクが高く非効率である。 本稿では、十分に訓練されたソースモデルのみを利用できる実践的な設定を目標とし、IP保護を実現する方法について検討する。 そこで我々は,新しいMAsk Pruning(MAP)フレームワークを提案する。 MAPは直感的な仮説、すなわち、よく訓練されたモデルにターゲットに関連するパラメータがあり、それらを位置決めしてプルーニングすることがIP保護の鍵である。 技術的には、MAPはソースモデルを凍結し、ターゲット固有のバイナリマスクを学習し、認証データの性能劣化を最小限に抑えながら、不正なデータ使用を防止する。 さらに、ソースとターゲットのパフォーマンス劣化のバランスを改善するための新しい指標を提案する。 有効性と汎用性を検証するため,バニラソースフリー,実用的なソースフリー,挑戦的なデータフリーなど,さまざまなシナリオでMAPを評価した。 広範な実験により、mapは新しい最先端のパフォーマンスをもたらすことが示されている。

Deep learning has achieved remarkable progress in various applications, heightening the importance of safeguarding the intellectual property (IP) of well-trained models. It entails not only authorizing usage but also ensuring the deployment of models in authorized data domains, i.e., making models exclusive to certain target domains. Previous methods necessitate concurrent access to source training data and target unauthorized data when performing IP protection, making them risky and inefficient for decentralized private data. In this paper, we target a practical setting where only a well-trained source model is available and investigate how we can realize IP protection. To achieve this, we propose a novel MAsk Pruning (MAP) framework. MAP stems from an intuitive hypothesis, i.e., there are target-related parameters in a well-trained model, locating and pruning them is the key to IP protection. Technically, MAP freezes the source model and learns a target-specific binary mask to prevent unauthorized data usage while minimizing performance degradation on authorized data. Moreover, we introduce a new metric aimed at achieving a better balance between source and target performance degradation. To verify the effectiveness and versatility, we have evaluated MAP in a variety of scenarios, including vanilla source-available, practical source-free, and challenging data-free. Extensive experiments indicate that MAP yields new state-of-the-art performance.
翻訳日:2024-03-08 15:36:15 公開日:2024-03-07
# 非エルミート系の双対称分類と非ユニタリ量子ウォークの $\mathbb{z}_2$ point-gap位相

Dual Symmetry Classification of Non-Hermitian Systems and $\mathbb{Z}_2$ Point-Gap Topology of a Non-Unitary Quantum Walk ( http://arxiv.org/abs/2403.04147v1 )

ライセンス: Link先を確認
Zhiyu Jiang, Ryo Okamoto, Hideaki Obuse(参考訳) 非エルミート系は、エルミート系よりもリッチな位相特性を示す。 非エルミート系は、非エルミートハミルトニアンの対称性関係またはフロケ位相の文脈における非単位時間進化作用素の対称性関係に基づいて分類されたことが知られている。 本研究では,非エルミート系は常に2つの方法で分類できることを示す。非エルミート系は,フロケット位相位相によらず,非エルミートハミルトン系や時間発展作用素の対称性関係を用いて分類することができる。 これを二重対称性分類と呼ぶ。 これを実証するために, 2次元対称性の分類を適用した$\mathbb{Z}_2$点ギャップ位相を用いて点ギャップを示す新しい非ユニタリ量子ウォークを導入し,この量子ウォークの時間進化作用素を非エルミート・ハミルトニアンとして扱う。

Non-Hermitian systems exhibit richer topological properties compared to their Hermitian counterparts. It is well known that non-Hermitian systems have been classified based on either the symmetry relations for non-Hermitian Hamiltonians or the symmetry relations for non-unitary time-evolution operators in the context of Floquet topological phases. In this work, we propose that non-Hermitian systems can always be classified in two ways; a non-Hermitian system can be classified using the symmetry relations for non-Hermitian Hamiltonians or time-evolution operator regardless of the Floquet topological phases or not. We refer to this as dual symmetry classification. To demonstrate this, we successfully introduce a new non-unitary quantum walk that exhibits point gaps with a $\mathbb{Z}_2$ point-gap topological phase applying the dual symmetry classification and treating the time-evolution operator of this quantum walk as the non-Hermitian Hamiltonian.
翻訳日:2024-03-08 15:35:52 公開日:2024-03-07
# fl-guard: 負のフェデレーション学習のランタイム検出とリカバリのための総合的フレームワーク

FL-GUARD: A Holistic Framework for Run-Time Detection and Recovery of Negative Federated Learning ( http://arxiv.org/abs/2403.04146v1 )

ライセンス: Link先を確認
Hong Lin, Lidan Shou, Ke Chen, Gang Chen, Sai Wu(参考訳) フェデレーション学習(federated learning, fl)は、大規模クライアントに分散したデータからデータプライバシを公開することなくモデルを学習するための有望なアプローチである。 クライアントが均質なデータ分散と学習行動を共有する理想的なフェデレーションで効果的に機能する。 しかし、NFL(Negative Federated Learning)と呼ばれる不健康な状態の中で、フェデレーションが理想的でない場合、FLは適切に機能しない可能性がある。 多くの研究がnflに挑戦している。 しかし,1)学習ライフサイクル全体においてNFLを予防するか,あるいは(2)多くの学習ラウンドの後にNFLに取り組むかのどちらかである。 したがって、(1)FLがそのようなコストを伴わずに良好な性能を発揮できたり、(2)多数の学習ラウンドを無駄にしたりしても、不差別に余分なコストがかかる。 さらに、これらのソリューションを使用して使用中のflシステムをアップグレードする際に、nflのソリューションを望まない/できないかもしれないクライアントを考慮に入れていない。 本稿では,nfl を実行時パラダイムでタックリングするための fl システムに適用可能な包括的フレームワーク fl-guard を提案する。 すなわち、学習の初期段階(ラウンド数)でnflを動的に検出し、必要に応じて回復措置を発動させる。 具体的には、顧客によるパフォーマンス向上の推定に依存するコスト効率の高いnfl検出機構を考案する。 NFLが検出されたときのみ、各クライアントがグローバルモデルをトレーニングする際に、適応モデルと並列に学習するNFLリカバリプロセスを起動する。 FL-GUARDのNFL検出およびNFLから健全な学習状態への回復における有効性を確認した。 また、FL-GUARDは従来のNFLソリューションと互換性があり、リカバリ対策を取らないクライアントに対して堅牢であることを示す。

Federated learning (FL) is a promising approach for learning a model from data distributed on massive clients without exposing data privacy. It works effectively in the ideal federation where clients share homogeneous data distribution and learning behavior. However, FL may fail to function appropriately when the federation is not ideal, amid an unhealthy state called Negative Federated Learning (NFL), in which most clients gain no benefit from participating in FL. Many studies have tried to address NFL. However, their solutions either (1) predetermine to prevent NFL in the entire learning life-cycle or (2) tackle NFL in the aftermath of numerous learning rounds. Thus, they either (1) indiscriminately incur extra costs even if FL can perform well without such costs or (2) waste numerous learning rounds. Additionally, none of the previous work takes into account the clients who may be unwilling/unable to follow the proposed NFL solutions when using those solutions to upgrade an FL system in use. This paper introduces FL-GUARD, a holistic framework that can be employed on any FL system for tackling NFL in a run-time paradigm. That is, to dynamically detect NFL at the early stage (tens of rounds) of learning and then to activate recovery measures when necessary. Specifically, we devise a cost-effective NFL detection mechanism, which relies on an estimation of performance gain on clients. Only when NFL is detected, we activate the NFL recovery process, in which each client learns in parallel an adapted model when training the global model. Extensive experiment results confirm the effectiveness of FL-GUARD in detecting NFL and recovering from NFL to a healthy learning state. We also show that FL-GUARD is compatible with previous NFL solutions and robust against clients unwilling/unable to take any recovery measures.
翻訳日:2024-03-08 15:35:30 公開日:2024-03-07
# FedClust: 軽量クライアントクラスタリングによる非IIDデータによるフェデレーション学習の最適化

FedClust: Optimizing Federated Learning on Non-IID Data through Weight-Driven Client Clustering ( http://arxiv.org/abs/2403.04144v1 )

ライセンス: Link先を確認
Md Sirajul Islam, Simin Javaherian, Fei Xu, Xu Yuan, Li Chen, Nian-Feng Tzeng(参考訳) Federated Learning(FL)は、分散型デバイス上で、ローカルデータを公開せずにコラボレーティブなモデルトレーニングを可能にする、新興の分散機械学習パラダイムである。 flの鍵となる課題は、クライアントデバイス間の不均一なデータ分散であり、従来の機械学習における独立および分散(iid)トレーニングサンプルの周知の前提に違反している。 CFL(Clustered Federated Learning)は、データ分散の類似性に基づいてクライアントをグループ化する。 しかし、既存のCFLアプローチでは、安定したクラスタ形成のために多数の通信ラウンドを必要とし、予め定義された数のクラスタに依存しているため、柔軟性と適応性が制限される。 本稿では,局所モデル重みとクライアントデータ分布の相関を利用した新しいCFL手法であるFedClustを提案する。 fedclustは、戦略的に選択された部分モデル重みを使って、クライアントをワンショットでクラスタにグループ化し、リアルタイムに新参者を動的に適応させる。 実験によりFedClustは精度と通信コストの点でベースラインのアプローチより優れていた。

Federated learning (FL) is an emerging distributed machine learning paradigm enabling collaborative model training on decentralized devices without exposing their local data. A key challenge in FL is the uneven data distribution across client devices, violating the well-known assumption of independent-and-identically-distributed (IID) training samples in conventional machine learning. Clustered federated learning (CFL) addresses this challenge by grouping clients based on the similarity of their data distributions. However, existing CFL approaches require a large number of communication rounds for stable cluster formation and rely on a predefined number of clusters, thus limiting their flexibility and adaptability. This paper proposes FedClust, a novel CFL approach leveraging correlations between local model weights and client data distributions. FedClust groups clients into clusters in a one-shot manner using strategically selected partial model weights and dynamically accommodates newcomers in real-time. Experimental results demonstrate FedClust outperforms baseline approaches in terms of accuracy and communication costs.
翻訳日:2024-03-08 15:34:56 公開日:2024-03-07
# ショット連続学習のための対比強化Graph2グラフメモリインタラクション

Contrastive Augmented Graph2Graph Memory Interaction for Few Shot Continual Learning ( http://arxiv.org/abs/2403.04140v1 )

ライセンス: Link先を確認
Biqing Qi, Junqi Gao, Xingquan Chen, Dong Li, Jianxing Liu, Ligang Wu and Bowen Zhou(参考訳) 近年,FSCIL(Few-Shot Class-Incremental Learning)が注目されている。 しかし、追加の課題に遭遇する。 新しいセッションでのサンプルの不足はオーバーフィッティングを増大させ、新しいクラスと古いクラスの出力特性の互換性を損なう。 一般的な戦略は、クラスプロトタイプを構成するExplicit Memory (EM) を通じて破滅的な忘れを緩和することである。 しかし、現在のEMベースの手法は、EMに格納された入力とプロトタイプに対応する特徴間のベクトル-ベクトル(V2V)相互作用を実行し、局所特徴の幾何学的構造を無視して、メモリをグローバルに検索する。 これにより、位置関係の正確なモデル化が妨げられる。 局所幾何学構造の情報を組み込むため、V2V相互作用をグラフ間相互作用(G2G)に拡張する。 g2gアライメントの改善と局所的特徴崩壊の防止を目的として,局所的グラフ保存(lgp)機構を提案する。 さらに、新しいセッションからのクラスにおけるサンプルの不足に対処するために、同じクラスの機能の集約を促進するために、Contrast-Augmented G2G(CAG2G)が導入された。 CIFAR100, CUB200, およびImageNet-Rデータセットの大規模比較により, 既存の手法に比べて, 提案手法が優れていることを示す。

Few-Shot Class-Incremental Learning (FSCIL) has gained considerable attention in recent years for its pivotal role in addressing continuously arriving classes. However, it encounters additional challenges. The scarcity of samples in new sessions intensifies overfitting, causing incompatibility between the output features of new and old classes, thereby escalating catastrophic forgetting. A prevalent strategy involves mitigating catastrophic forgetting through the Explicit Memory (EM), which comprise of class prototypes. However, current EM-based methods retrieves memory globally by performing Vector-to-Vector (V2V) interaction between features corresponding to the input and prototypes stored in EM, neglecting the geometric structure of local features. This hinders the accurate modeling of their positional relationships. To incorporate information of local geometric structure, we extend the V2V interaction to Graph-to-Graph (G2G) interaction. For enhancing local structures for better G2G alignment and the prevention of local feature collapse, we propose the Local Graph Preservation (LGP) mechanism. Additionally, to address sample scarcity in classes from new sessions, the Contrast-Augmented G2G (CAG2G) is introduced to promote the aggregation of same class features thus helps few-shot learning. Extensive comparisons on CIFAR100, CUB200, and the challenging ImageNet-R dataset demonstrate the superiority of our method over existing methods.
翻訳日:2024-03-08 15:34:21 公開日:2024-03-07
# コード品質テンプレートを用いたニューラルHSMMに基づく高調波解析の教師なし学習

Unsupervised Learning of Harmonic Analysis Based on Neural HSMM with Code Quality Templates ( http://arxiv.org/abs/2403.04135v1 )

ライセンス: Link先を確認
Yui Uehara(参考訳) 本稿では,隠れセミマルコフモデル(HSMM)に基づく調和解析の教師なし学習法を提案する。 そこで,本研究では,音符と和音品質が与えられたピッチクラス排出確率を規定するコード品質テンプレートを提案する。 HSMMを構成する他の確率分布は、教師なし学習によって自動的に学習される。 既存のラベル付きデータを用いて,提案モデルの調和解析結果を評価した。 提案手法は,教師付き学習と複雑なルール設計を用いた既存モデルと同様に,まだ動作していないが,高額なラベル付きデータやルール作成を必要としない利点がある。 さらに,マルコフモデルの遷移確率に基づいて,事前知識なしにトニックを認識する方法を示す。

This paper presents a method of unsupervised learning of harmonic analysis based on a hidden semi-Markov model (HSMM). We introduce the chord quality templates, which specify the probability of pitch class emissions given a root note and a chord quality. Other probability distributions that comprise the HSMM are automatically learned via unsupervised learning, which has been a challenge in existing research. The results of the harmonic analysis of the proposed model were evaluated using existing labeled data. While our proposed method has yet to perform as well as existing models that used supervised learning and complex rule design, it has the advantage of not requiring expensive labeled data or rule elaboration. Furthermore, we also show how to recognize the tonic without prior knowledge, based on the transition probabilities of the Markov model.
翻訳日:2024-03-08 15:33:53 公開日:2024-03-07
# 学習に基づく計画に向けて:現実世界の自動運転のためのnuPlanベンチマーク

Towards learning-based planning:The nuPlan benchmark for real-world autonomous driving ( http://arxiv.org/abs/2403.04133v1 )

ライセンス: Link先を確認
Napat Karnchanachari, Dimitris Geromichalos, Kok Seang Tan, Nanxiang Li, Christopher Eriksen, Shakiba Yaghoubi, Noushin Mehdipour, Gianmarco Bernasconi, Whye Kit Fong, Yiluan Guo, Holger Caesar(参考訳) 機械学習(ML)は、自動運転車の知覚と予測のための手作りの手法を置き換える。 しかし、同様に重要な計画タスクでは、MLベースの技術の採用は遅い。 世界で最初の実世界の自動運転データセットであるnuPlanとベンチマークを紹介します。 このベンチマークは、MLベースのプランナーがさまざまな運転状況に対処し、安全かつ効率的な意思決定を行う能力をテストするように設計されている。 その目的のために,4都市(ラスベガス,ボストン,ピッツバーグ,シンガポール)から1282時間の多様な運転シナリオで構成され,高品質な自動ラベルオブジェクトトラックと交通信号データを含む,新たな大規模データセットを導入する。 評価に使用される一般的で稀な運転シナリオを徹底的にマイニングし分類し、プランナーの性能と特性を詳細に把握する。 データセット以外にも、他のトラフィック参加者とのインタラクションを考慮に入れたクローズドループでプランナーのアクションをシミュレートできるシミュレーションおよび評価フレームワークを提供する。 本稿では,多数のベースラインの詳細な解析を行い,MLに基づく手法と従来の手法とのギャップについて検討する。 nuPlanデータセットとコードをnuplan.orgで見つける。

Machine Learning (ML) has replaced traditional handcrafted methods for perception and prediction in autonomous vehicles. Yet for the equally important planning task, the adoption of ML-based techniques is slow. We present nuPlan, the world's first real-world autonomous driving dataset, and benchmark. The benchmark is designed to test the ability of ML-based planners to handle diverse driving situations and to make safe and efficient decisions. To that end, we introduce a new large-scale dataset that consists of 1282 hours of diverse driving scenarios from 4 cities (Las Vegas, Boston, Pittsburgh, and Singapore) and includes high-quality auto-labeled object tracks and traffic light data. We exhaustively mine and taxonomize common and rare driving scenarios which are used during evaluation to get fine-grained insights into the performance and characteristics of a planner. Beyond the dataset, we provide a simulation and evaluation framework that enables a planner's actions to be simulated in closed-loop to account for interactions with other traffic participants. We present a detailed analysis of numerous baselines and investigate gaps between ML-based and traditional methods. Find the nuPlan dataset and code at nuplan.org.
翻訳日:2024-03-08 15:33:41 公開日:2024-03-07
# Chatbot Arena: 人間の選好によるLLM評価のためのオープンプラットフォーム

Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference ( http://arxiv.org/abs/2403.04132v1 )

ライセンス: Link先を確認
Wei-Lin Chiang, Lianmin Zheng, Ying Sheng, Anastasios Nikolas Angelopoulos, Tianle Li, Dacheng Li, Hao Zhang, Banghua Zhu, Michael Jordan, Joseph E. Gonzalez, Ion Stoica(参考訳) 大きな言語モデル(LLM)は、新しい機能とアプリケーションをアンロックしているが、人間の好みとの整合性を評価することは依然として大きな課題である。 この問題に対処するために,人間の好みに基づいてLLMを評価するオープンプラットフォームであるChatbot Arenaを紹介する。 提案手法は,クラウドソーシングを通じて,多種多様なユーザベースからの入力を活用する。 プラットフォームは数ヶ月間運用されており、240万以上の票を集めている。 本稿では,このプラットフォームについて述べるとともに,これまでに収集したデータを分析し,モデルの評価と評価に用いている統計的手法について述べる。 クラウドソースの質問は十分に多様で差別的であり、クラウドソースの人間票は専門家の投票率と良好に一致していることを確認した。 これらの分析により、チャトボット・アリーナの信頼性の強固な基盤が確立された。 ユニークな価値とオープンさのため、Chatbot Arena は LLM のリーダーボードとして最もよく言及されており、主要な LLM 開発者や企業から広く引用されている。 デモは \url{https://chat.lmsys.org} で公開されている。

Large Language Models (LLMs) have unlocked new capabilities and applications; however, evaluating the alignment with human preferences still poses significant challenges. To address this issue, we introduce Chatbot Arena, an open platform for evaluating LLMs based on human preferences. Our methodology employs a pairwise comparison approach and leverages input from a diverse user base through crowdsourcing. The platform has been operational for several months, amassing over 240K votes. This paper describes the platform, analyzes the data we have collected so far, and explains the tried-and-true statistical methods we are using for efficient and accurate evaluation and ranking of models. We confirm that the crowdsourced questions are sufficiently diverse and discriminating and that the crowdsourced human votes are in good agreement with those of expert raters. These analyses collectively establish a robust foundation for the credibility of Chatbot Arena. Because of its unique value and openness, Chatbot Arena has emerged as one of the most referenced LLM leaderboards, widely cited by leading LLM developers and companies. Our demo is publicly available at \url{https://chat.lmsys.org}.
翻訳日:2024-03-08 15:33:23 公開日:2024-03-07
# 医療物の人工知能のための説明可能なAIフレームワーク

An Explainable AI Framework for Artificial Intelligence of Medical Things ( http://arxiv.org/abs/2403.04130v1 )

ライセンス: Link先を確認
Al Amin, Kamrul Hasan, Saleh Zein-Sabatto, Deo Chimba, Imtiaz Ahmed, and Tariqul Islam(参考訳) 医療産業はAIoMT(Artificial Intelligence of Medical Things)の合併によって革新され、高度なデータ駆動型ソリューションによって医療システムが改善されている。 人工知能(ai)モデルの複雑さが増す中、説明可能な人工知能(xai)技術の必要性は、特に透明で解釈可能な意思決定が重要となる医療領域において、最も重要視されている。 そこで本研究では,AIoMTのドメイン用に明示的に設計された,ローカル解釈型モデル非依存記述(LIME)やSHAP(SHAP),Gradient-weighted Class Activation Mapping(Grad-Cam)といったテクニックを取り入れた,独自のXAIフレームワークを活用する。 提案手法は, 戦略的医療手法の有効性を高め, 信頼度を高め, 医療応用の理解を促進することを目的としている。 さらに,複数の畳み込みニューラルネットワーク(cnns)からの予測を集約し,その集団的知性を活用して,医療システムにおいて堅牢かつ正確な意思決定を行う,多数決手法を活用する。 この意思決定プロセスに基づいて、xaiフレームワークを脳腫瘍検出に適用し、正確かつ透明な診断を示すユースケースとした。 評価結果は,XAIフレームワークの優れた性能を示し,高い精度,リコール,F1スコアをトレーニング精度99%,検証精度98%で達成した。 高度なXAI技術とアンサンブルベースのディープラーニング(DL)手法を組み合わせることで、AIoMTの適用として正確で信頼性の高い脳腫瘍の診断が可能になる。

The healthcare industry has been revolutionized by the convergence of Artificial Intelligence of Medical Things (AIoMT), allowing advanced data-driven solutions to improve healthcare systems. With the increasing complexity of Artificial Intelligence (AI) models, the need for Explainable Artificial Intelligence (XAI) techniques become paramount, particularly in the medical domain, where transparent and interpretable decision-making becomes crucial. Therefore, in this work, we leverage a custom XAI framework, incorporating techniques such as Local Interpretable Model-Agnostic Explanations (LIME), SHapley Additive exPlanations (SHAP), and Gradient-weighted Class Activation Mapping (Grad-Cam), explicitly designed for the domain of AIoMT. The proposed framework enhances the effectiveness of strategic healthcare methods and aims to instill trust and promote understanding in AI-driven medical applications. Moreover, we utilize a majority voting technique that aggregates predictions from multiple convolutional neural networks (CNNs) and leverages their collective intelligence to make robust and accurate decisions in the healthcare system. Building upon this decision-making process, we apply the XAI framework to brain tumor detection as a use case demonstrating accurate and transparent diagnosis. Evaluation results underscore the exceptional performance of the XAI framework, achieving high precision, recall, and F1 scores with a training accuracy of 99% and a validation accuracy of 98%. Combining advanced XAI techniques with ensemble-based deep-learning (DL) methodologies allows for precise and reliable brain tumor diagnoses as an application of AIoMT.
翻訳日:2024-03-08 15:33:05 公開日:2024-03-07
# 経路分解によるグラフ状態の最適スケジューリング

Optimal Scheduling of Graph States via Path Decompositions ( http://arxiv.org/abs/2403.04126v1 )

ライセンス: Link先を確認
Samuel J. Elman, Jason Gavriel, Ryan L. Mann(参考訳) 測定に基づく量子計算におけるグラフ状態の最適スケジューリングについて検討し、測定スケジュールとグラフの経路分解の等価性を確立する。 本研究では,同時アクティブな量子ビット数に基づく計測スケジュールの空間コストを定義し,最小幅の経路分解に対応する最適測定スケジュールを示す。 解析により,グラフの空間コストの近似は「textsf{NP}-hard」であるが,空間コストが有界なグラフに対しては,最適な測定スケジュールを計算するための効率的なアルゴリズムを確立する。

We study the optimal scheduling of graph states in measurement-based quantum computation, establishing an equivalence between measurement schedules and path decompositions of graphs. We define the spatial cost of a measurement schedule based on the number of simultaneously active qubits and prove that an optimal measurement schedule corresponds to a path decomposition of minimal width. Our analysis shows that approximating the spatial cost of a graph is \textsf{NP}-hard, while for graphs with bounded spatial cost, we establish an efficient algorithm for computing an optimal measurement schedule.
翻訳日:2024-03-08 15:32:34 公開日:2024-03-07
# 基礎モデルを用いた解釈可能な画像分類のためのスケーラブル・ロバスト変換器デコーダ

Scalable and Robust Transformer Decoders for Interpretable Image Classification with Foundation Models ( http://arxiv.org/abs/2403.04125v1 )

ライセンス: Link先を確認
Evelyn Mannix and Howard Bondell(参考訳) 解釈可能なコンピュータビジョンモデルは、画像の特徴をトレーニングデータセットのプロトタイプと比較し、それらの類似性が分類の基礎となる透明な予測を生成することができる。 にもかかわらず、これらの手法は計算コストが高く、さらに複雑さをもたらし、新しいデータセットにハイパーパラメータを適用するためにドメイン知識を必要とする可能性がある。 オブジェクト検出,セグメンテーション,大規模自己監督型ファンデーションビジョンモデルの開発に触発されて,トランスフォーマデコーダヘッドと階層的混合モデリングを用いた新しい画像分類手法であるComFe(Component Features)を導入する。 グローバルイメージラベルのみを使用して、セグメンテーションや部分アノテーションを使わずに、comfeは鳥の頭、体、翼、尾、背景などの一貫したイメージコンポーネントを識別し、これらの特徴のうちどれが予測に役立っているかを決定することができる。 我々は,各データセットのハイパーパラメータを個別にチューニングすることなく,細粒度ビジョンベンチマークにおいて,これまでの解釈可能なモデルよりも高い精度が得られることを実証する。 また、ComFeは、ImageNetを含むさまざまなデータセットで非解釈可能な線形ヘッドよりも優れており、一般化や堅牢性ベンチマークのパフォーマンスが向上していることを示す。

Interpretable computer vision models can produce transparent predictions, where the features of an image are compared with prototypes from a training dataset and the similarity between them forms a basis for classification. Nevertheless these methods are computationally expensive to train, introduce additional complexity and may require domain knowledge to adapt hyper-parameters to a new dataset. Inspired by developments in object detection, segmentation and large-scale self-supervised foundation vision models, we introduce Component Features (ComFe), a novel explainable-by-design image classification approach using a transformer-decoder head and hierarchical mixture-modelling. With only global image labels and no segmentation or part annotations, ComFe can identify consistent image components, such as the head, body, wings and tail of a bird, and the image background, and determine which of these features are informative in making a prediction. We demonstrate that ComFe obtains higher accuracy compared to previous interpretable models across a range of fine-grained vision benchmarks, without the need to individually tune hyper-parameters for each dataset. We also show that ComFe outperforms a non-interpretable linear head across a range of datasets, including ImageNet, and improves performance on generalisation and robustness benchmarks.
翻訳日:2024-03-08 15:32:24 公開日:2024-03-07
# 平坦性による大規模言語モデルのプライバシー保護微調整

Privacy-preserving Fine-tuning of Large Language Models through Flatness ( http://arxiv.org/abs/2403.04124v1 )

ライセンス: Link先を確認
Tiejin Chen, Longchao Da, Huixue Zhou, Pingzhi Li, Kaixiong Zhou, Tianlong Chen, Hua Wei(参考訳) LLM(Large Language Models)の使用に伴うプライバシの懸念は、ChatGPTのようなLLMの開発によって、近年増大している。 微分プライバシ(DP)技術は、一般化劣化のコストでプライバシーリスクを軽減するために、既存の研究で検討されている。 本稿では,DP学習モデルの損失景観の平坦さが,プライバシと一般化のトレードオフにおいて重要な役割を果たすことを明らかにした。 さらに,プライバシ保護の競争によるモデル一般化を大幅に改善する,適切な重み平坦性を実現するための総合的枠組みを提案する。 層内のモデル重みに対する摂動認識min-max最適化、層間の重みに対する平坦性誘導プレフィックス調整、dp \および非dp重みコピー間の重み知識蒸留を含む3つの粗粒度レベルから革新する。 ブラックボックスシナリオとホワイトボックスシナリオの総合実験を行い, 一般化とDP特性の維持における提案の有効性を実証した。 例えば、テキスト分類データセットのQNLIでは、DP-Flatは、プライベートでない完全な微調整で同様のパフォーマンスを達成するが、DP保証はプライバシー予算で$\epsilon=3$、さらに高いプライバシー予算でパフォーマンスが向上する。 コードはサプリメントに記載されている。

The privacy concerns associated with the use of Large Language Models (LLMs) have grown recently with the development of LLMs such as ChatGPT. Differential Privacy (DP) techniques are explored in existing work to mitigate their privacy risks at the cost of generalization degradation. Our paper reveals that the flatness of DP-trained models' loss landscape plays an essential role in the trade-off between their privacy and generalization. We further propose a holistic framework to enforce appropriate weight flatness, which substantially improves model generalization with competitive privacy preservation. It innovates from three coarse-to-grained levels, including perturbation-aware min-max optimization on model weights within a layer, flatness-guided sparse prefix-tuning on weights across layers, and weight knowledge distillation between DP \& non-DP weights copies. Comprehensive experiments of both black-box and white-box scenarios are conducted to demonstrate the effectiveness of our proposal in enhancing generalization and maintaining DP characteristics. For instance, on text classification dataset QNLI, DP-Flat achieves similar performance with non-private full fine-tuning but with DP guarantee under privacy budget $\epsilon=3$, and even better performance given higher privacy budgets. Codes are provided in the supplement.
翻訳日:2024-03-08 15:31:59 公開日:2024-03-07
# 根本原因解析のためのLCMエージェントの探索

Exploring LLM-based Agents for Root Cause Analysis ( http://arxiv.org/abs/2403.04123v1 )

ライセンス: Link先を確認
Devjeet Roy, Xuchao Zhang, Rashi Bhave, Chetan Bansal, Pedro Las-Casas, Rodrigo Fonseca, Saravan Rajmohan(参考訳) クラウドベースのソフトウェアシステムの複雑さが増大し、インシデント管理がソフトウェア開発ライフサイクルの不可欠な部分となった。 インシデント管理プロセスの重要な部分であるルート原因分析(rca)は、オンコールエンジニアにとって要求の厳しいタスクであり、チームの特定のサービスに関する深いドメイン知識と豊富な経験を必要とする。 RCAの自動化は、時間を大幅に節約し、オンコールエンジニアのインシデント管理の負担を軽減する。 近年、研究者は大規模言語モデル(LLM)を用いてRCAを行い、有望な結果を示した。 しかしながら、これらのアプローチはインシデント関連ログやメトリクス、データベースなどの追加の診断情報を動的に収集することができず、根本原因の診断能力を著しく制限している。 本研究では,この制限に対処するため,LCMをベースとしたRCAエージェントの利用について検討する。 本稿では,microsoft が収集した製品インシデントに関するアウトオブディストリビューションデータセット上に,検索ツールを備えた react エージェントを徹底的に評価する。 その結果、ReActは強力な検索と推論ベースラインと競合するが、事実精度は高い。 次に,モデルに対する追加入力としてインシデントレポートに関する議論を取り込むことで,この評価を拡張した。 最後に、Microsoftのチームとケーススタディを行い、手動RCAに使用される外部診断サービスへのアクセスを可能にするツールをReActエージェントに装備する。 以上の結果から,エージェントが事前作業の限界を克服できることを示すとともに,実際にシステムを実装するための実践的考察を行った。

The growing complexity of cloud based software systems has resulted in incident management becoming an integral part of the software development lifecycle. Root cause analysis (RCA), a critical part of the incident management process, is a demanding task for on-call engineers, requiring deep domain knowledge and extensive experience with a team's specific services. Automation of RCA can result in significant savings of time, and ease the burden of incident management on on-call engineers. Recently, researchers have utilized Large Language Models (LLMs) to perform RCA, and have demonstrated promising results. However, these approaches are not able to dynamically collect additional diagnostic information such as incident related logs, metrics or databases, severely restricting their ability to diagnose root causes. In this work, we explore the use of LLM based agents for RCA to address this limitation. We present a thorough empirical evaluation of a ReAct agent equipped with retrieval tools, on an out-of-distribution dataset of production incidents collected at Microsoft. Results show that ReAct performs competitively with strong retrieval and reasoning baselines, but with highly increased factual accuracy. We then extend this evaluation by incorporating discussions associated with incident reports as additional inputs for the models, which surprisingly does not yield significant performance improvements. Lastly, we conduct a case study with a team at Microsoft to equip the ReAct agent with tools that give it access to external diagnostic services that are used by the team for manual RCA. Our results show how agents can overcome the limitations of prior work, and practical considerations for implementing such a system in practice.
翻訳日:2024-03-08 15:31:33 公開日:2024-03-07
# 大きな言語モデルは理屈と計画を立てられるか?

Can Large Language Models Reason and Plan? ( http://arxiv.org/abs/2403.04121v1 )

ライセンス: Link先を確認
Subbarao Kambhampati(参考訳) 人間は自分自身の誤った推測を自己判断で修正する能力を示すことがあるが、LLMの場合、その仮定の根拠はないようである。

While humans sometimes do show the capability of correcting their own erroneous guesses with self-critiquing, there seems to be no basis for that assumption in the case of LLMs.
翻訳日:2024-03-08 15:31:03 公開日:2024-03-07
# メトリック認識LDM推論

Metric-aware LLM inference ( http://arxiv.org/abs/2403.04182v1 )

ライセンス: Link先を確認
Michal Lukasik, Harikrishna Narasimhan, Aditya Krishna Menon, Felix Yu, Sanjiv Kumar(参考訳) 大規模言語モデル(LLM)は、様々なNLPタスクに対して強い結果を示している。 通常、出力はLLMの基底分布から自己回帰サンプリングによって得られる。 我々は,この推論戦略が,タスクや関連する評価指標に最適であることを示す。 そこで,我々はメトリクス認識型llm推論を提案する: 推論時にカスタムメトリクスを最適化する決定論的アプローチ。 学術ベンチマークと公開モデルに基づくベースラインの改善について報告する。

Large language models (LLMs) have demonstrated strong results on a range of NLP tasks. Typically, outputs are obtained via autoregressive sampling from the LLM's underlying distribution. We show that this inference strategy can be suboptimal for a range of tasks and associated evaluation metrics. As a remedy, we propose metric aware LLM inference: a decision theoretic approach optimizing for custom metrics at inference time. We report improvements over baselines on academic benchmarks and publicly available models.
翻訳日:2024-03-08 15:26:28 公開日:2024-03-07
# RATSF: Retrieval-Augmented Time-Series Forecastingによる顧客サービスボリューム管理の強化

RATSF: Empowering Customer Service Volume Management through Retrieval-Augmented Time-Series Forecasting ( http://arxiv.org/abs/2403.04180v1 )

ライセンス: Link先を確認
Tianfeng Wang, Gaojie Cui(参考訳) 効率的な顧客サービス管理システムは、サービス量の正確な予測に依存する。 このシナリオでは、データ非定常性が発音されるが、予測の成功は、単に周期パターンを要約するのではなく、類似した履歴データの識別と活用に大きく依存する。 RNNやTransformerアーキテクチャに基づく既存のモデルは、この柔軟性と効果的な利用に苦慮することが多い。 この課題に対処するために,予測タスクにおける履歴セグメントを効果的に活用するRACAという,効率的かつ適応可能なクロスアテンションモジュールを提案し,知識リポジトリの設計と合わせて,履歴シーケンスをクエリする正確な表現方式を考案した。 これらの重要なコンポーネントは、我々の検索拡張時間シーケンス予測フレームワーク(RATSF)を構成する。 ratfはfliggy hotel service volume forecastingの文脈でパフォーマンスを著しく向上させるだけでなく、より重要な点として、様々なアプリケーションシナリオにわたるトランスフォーマーベースの時系列予測モデルにシームレスに統合することができる。 大規模な実験により、このシステム設計の有効性と一般化性は、様々な異なる文脈で検証されている。

An efficient customer service management system hinges on precise forecasting of service volume. In this scenario, where data non-stationarity is pronounced, successful forecasting heavily relies on identifying and leveraging similar historical data rather than merely summarizing periodic patterns. Existing models based on RNN or Transformer architectures often struggle with this flexible and effective utilization. To address this challenge, we propose an efficient and adaptable cross-attention module termed RACA, which effectively leverages historical segments in forecasting task, and we devised a precise representation scheme for querying historical sequences, coupled with the design of a knowledge repository. These critical components collectively form our Retrieval-Augmented Temporal Sequence Forecasting framework (RATSF). RATSF not only significantly enhances performance in the context of Fliggy hotel service volume forecasting but, more crucially, can be seamlessly integrated into other Transformer-based time-series forecasting models across various application scenarios. Extensive experimentation has validated the effectiveness and generalizability of this system design across multiple diverse contexts.
翻訳日:2024-03-08 15:26:24 公開日:2024-03-07
# 音声音声機械翻訳におけるストレス伝達の試み

Attempt Towards Stress Transfer in Speech-to-Speech Machine Translation ( http://arxiv.org/abs/2403.04178v1 )

ライセンス: Link先を確認
Sai Akarsh, Vamshi Raghusimha, Anindita Mondal, Anil Vuppala(参考訳) インドの教育分野における言語多様性は、排他性を妨げる重要な課題となっている。 オンライン教育コンテンツによる知識の民主化にもかかわらず、インターネットのリンガ・フランカのように英語の支配はアクセシビリティを制限し、インド語への翻訳の必要性を強調した。 既存の音声音声機械翻訳(SSMT)技術にもかかわらず、これらのシステムにおけるイントネーションの欠如は単調な翻訳をもたらし、視聴者の関心を失い、コンテンツから切り離された。 そこで本研究では,インド英語のストレスアノテーションを用いたデータセットと,合成音声にストレスを組み込むことができるテクスト・トゥ・スペーチ(TTS)アーキテクチャを提案する。 このデータセットは、ストレス検出モデルをトレーニングするために使用され、SSMTシステムでソース音声中のストレスを検出し、ターゲット言語音声に転送するために使用される。 ttsアーキテクチャはfastpitchをベースとしており、与えられた強調語に基づいて分散を変更できる。 本稿では、ストレスを伝達し、教育コンテンツの全体的な品質とエンゲージメントを高めることを目的とした、インド英語とヒンディー語のSSMTシステムを提案する。

The language diversity in India's education sector poses a significant challenge, hindering inclusivity. Despite the democratization of knowledge through online educational content, the dominance of English, as the internet's lingua franca, limits accessibility, emphasizing the crucial need for translation into Indian languages. Despite existing Speech-to-Speech Machine Translation (SSMT) technologies, the lack of intonation in these systems gives monotonous translations, leading to a loss of audience interest and disengagement from the content. To address this, our paper introduces a dataset with stress annotations in Indian English and also a Text-to-Speech (TTS) architecture capable of incorporating stress into synthesized speech. This dataset is used for training a stress detection model, which is then used in the SSMT system for detecting stress in the source speech and transferring it into the target language speech. The TTS architecture is based on FastPitch and can modify the variances based on stressed words given. We present an Indian English-to-Hindi SSMT system that can transfer stress and aim to enhance the overall quality and engagement of educational content.
翻訳日:2024-03-08 15:26:06 公開日:2024-03-07
# トランスフォーマーモデルを用いた放射線療法と免疫療法の併用によるPULSAR効果の解明

Understanding the PULSAR Effect in Combined Radiotherapy and Immunotherapy through Attention Mechanisms with a Transformer Model ( http://arxiv.org/abs/2403.04175v1 )

ライセンス: Link先を確認
Hao Peng, Casey Moore, Debabrata Saha, Steve Jiang and Robert Timmerman(参考訳) PULSAR(Personalized, Ultra-fractionated stereotactic Adaptive Radiotherapy)は、パーソナライズされたがん管理に対する定位的アブレーションの適応である。 マウス癌モデル(lewis lung cancer, llc)に基づいたpd-l1阻害免疫療法とパルサーとの相互作用を初めて検討するためにトランスフォーマを用いた注意機構を適用した。 提案手法は,腫瘍体積変化の傾向を半定量的に予測でき,自発性および交叉性スコアの双方を通して,潜在的因果関係の同定に優れている。

PULSAR (personalized, ultra-fractionated stereotactic adaptive radiotherapy) is the adaptation of stereotactic ablative radiotherapy towards personalized cancer management. For the first time, we applied a transformer-based attention mechanism to investigate the underlying interactions between combined PULSAR and PD-L1 blockade immunotherapy based on a murine cancer model (Lewis Lung Carcinoma, LLC). The proposed approach is able to predict the trend of tumor volume change semi-quantitatively, and excels in identifying the potential causal relationships through both self-attention and cross-attention scores.
翻訳日:2024-03-08 15:25:47 公開日:2024-03-07
# セグメント情報を用いたエッジ情報学習マシンの画像符号化

Image Coding for Machines with Edge Information Learning Using Segment Anything ( http://arxiv.org/abs/2403.04173v1 )

ライセンス: Link先を確認
Takahiro Shindo, Kein Yamada, Taiju Watanabe, Hiroshi Watanabe(参考訳) Image Coding for Machines (ICM) は画像認識のための画像圧縮技術である。 この技術は、画像認識AIの需要が高まっているため、不可欠である。 本稿では,SA-ICMと呼ぶ画像中の対象部分のエッジ情報のみを符号化・復号するICMの手法を提案する。 これは、segment anythingによって作成されたエッジ情報を使用してトレーニングされた学習画像圧縮(lic)モデルである。 本手法は様々なタスクを持つ画像認識モデルに利用できる。 sa-icmは入力データの変更にも堅牢であり、様々なユースケースに効果的である。 さらに,プライバシの観点からは,エンコーダ側の顔情報を削除することにより,プライバシを保護するというメリットがある。 さらに、このlicモデルトレーニング方法は、ビデオ圧縮モデルであるnerv(neural representations for videos)のトレーニングに使用することができる。 Segment Anythingによって生成されたエッジ情報を用いてNeRVをトレーニングすることにより、画像認識(SA-NeRV)に有効なNeRVを作成することができる。 実験により,SA-ICMの利点が確認され,画像認識に最適な画像圧縮性能が得られた。 また,SA-NeRVはビデオ圧縮において通常のNeRVよりも優れていることを示す。

Image Coding for Machines (ICM) is an image compression technique for image recognition. This technique is essential due to the growing demand for image recognition AI. In this paper, we propose a method for ICM that focuses on encoding and decoding only the edge information of object parts in an image, which we call SA-ICM. This is an Learned Image Compression (LIC) model trained using edge information created by Segment Anything. Our method can be used for image recognition models with various tasks. SA-ICM is also robust to changes in input data, making it effective for a variety of use cases. Additionally, our method provides benefits from a privacy point of view, as it removes human facial information on the encoder's side, thus protecting one's privacy. Furthermore, this LIC model training method can be used to train Neural Representations for Videos (NeRV), which is a video compression model. By training NeRV using edge information created by Segment Anything, it is possible to create a NeRV that is effective for image recognition (SA-NeRV). Experimental results confirm the advantages of SA-ICM, presenting the best performance in image compression for image recognition. We also show that SA-NeRV is superior to ordinary NeRV in video compression for machines.
翻訳日:2024-03-08 15:25:34 公開日:2024-03-07
# SDPL:UAV-Viewジオローカライゼーションのためのシフト-ディエンス分割学習

SDPL: Shifting-Dense Partition Learning for UAV-View Geo-Localization ( http://arxiv.org/abs/2403.04172v1 )

ライセンス: Link先を確認
Quan Chen and Tingyu Wang and Zihao Yang and Haoran Li and Rongfeng Lu and Yaoqi Sun and Bolun Zheng and Chenggang Yan(参考訳) クロスビュージオローカライゼーションは、例えばドローンや衛星など、異なるプラットフォームから同じターゲットの画像とマッチングすることを目的としている。 異なる視点から対象の外観と環境内容が変化するため、これは困難な課題である。 既存の手法は主に特徴マップのセグメンテーションを通じてより包括的な情報を掘り下げることに重点を置いているが、画像構造を必然的に破壊し、クエリにおけるターゲットのシフトとスケールに敏感である。 上記の課題に対処するために,シフト・デンス分割学習 (SDPL) と呼ばれる,シンプルだが効果的な部分ベース表現学習を導入する。 具体的には,画像を複数の部分に分けて文脈情報を探索し,グローバル構造を明示的に維持する,高密度分割戦略(dps)を提案する。 様々なセグメンテーションセンタに基づいて複数の部品セットを並列に生成し、すべての機能を適応的に融合して最適なパーティションを選択するシフト・フュージョン戦略を提案する。 拡張実験の結果,SDPLは位置ずれやスケールのばらつきに頑健であり,University-1652 と SUES-200 の2つのベンチマークで競合性能を達成できた。

Cross-view geo-localization aims to match images of the same target from different platforms, e.g., drone and satellite. It is a challenging task due to the changing both appearance of targets and environmental content from different views. Existing methods mainly focus on digging more comprehensive information through feature maps segmentation, while inevitably destroy the image structure and are sensitive to the shifting and scale of the target in the query. To address the above issues, we introduce a simple yet effective part-based representation learning, called shifting-dense partition learning (SDPL). Specifically, we propose the dense partition strategy (DPS), which divides the image into multiple parts to explore contextual-information while explicitly maintain the global structure. To handle scenarios with non-centered targets, we further propose the shifting-fusion strategy, which generates multiple sets of parts in parallel based on various segmentation centers and then adaptively fuses all features to select the best partitions. Extensive experiments show that our SDPL is robust to position shifting and scale variations, and achieves competitive performance on two prevailing benchmarks, i.e., University-1652 and SUES-200.
翻訳日:2024-03-08 15:25:14 公開日:2024-03-07
# ロレンツ量子コンピュータのパワー

The Power of Lorentz Quantum Computer ( http://arxiv.org/abs/2403.04170v1 )

ライセンス: Link先を確認
Qi Zhang and Biao Wu(参考訳) 最近提案されたローレンツ量子コンピュータ(LQC)の優れた性能を従来の量子コンピュータと比較した。 我々は、関連する計算複雑性クラス、有界エラーローレンツ量子多項式時間(BLQP)を導入し、複雑性クラス ${\text P}^{\sharp \text{P}}$ が BLQP に含まれることを証明した。 最大独立集合の問題とNP、co-NP、PH(多項式階層)、PP(確率多項式時間)、${\text P}^{\sharp \text{P}}$のクラスにおける問題を多項式時間で解くLQCアルゴリズムを提案する。 Aaronsonが提案したポストセレクションによる量子コンピューティングはLQCで効率的にシミュレートできるが、その逆ではない。

We demonstrate the superior capabilities of the recently proposed Lorentz quantum computer (LQC) compared to conventional quantum computers. We introduce an associated computational complexity class, bounded-error Lorentz quantum polynomial-time (BLQP), and prove that the complexity class ${\text P}^{\sharp \text{P}}$ is contained within BLQP. We present LQC algorithms that solve in polynomial time the problem of maximum independent set and the problems in the classes of NP, co-NP, PH (polynomial hierarchy), PP (probabilistic polynomial-time), and ${\text P}^{\sharp \text{P}}$. We show that the quantum computing with postselection proposed by Aaronson can be simulated efficiently by LQC, but not vice versa.
翻訳日:2024-03-08 15:24:50 公開日:2024-03-07
# ProMISe:SAMを用いた医用画像のプロンプト

ProMISe: Promptable Medical Image Segmentation using SAM ( http://arxiv.org/abs/2403.04164v1 )

ライセンス: Link先を確認
Jinfeng Wang, Sifan Song, Xinkun Wang, Yiyi Wang, Yiyi Miao, Jionglong Su, S. Kevin Zhou(参考訳) SAM (Segment Anything Model) の提案により,医療画像分割のための細調整SAM (MIS) が普及している。 しかし,SAMモデルのサイズが大きく,自然画像と医用画像の間に大きな領域ギャップがあるため,微調整ベースの戦略は不安定性,特徴的損傷,破滅的忘れのリスクを伴う。 さらに、微調整戦略によってSAMをドメイン固有のMISに転送するいくつかの方法は、モデルのプロンプト機能を無効にし、利用シナリオを著しく制限する。 本稿では,ターゲット領域のユークリッド適応プロンプトをSAMベースとした基礎モデルを提供する自動プロンプトモジュール(APM)を提案する。 実験により,MISにおけるSAMの非微調整性能が著しく向上することが示された。 また,インクリメンタル・パターン・シフト(IPS)と呼ばれる新しい非侵襲的手法を提案し,SAMを特定の医療領域に適用する。 実験結果から、SAMは微調整を必要とせず、MISの最先端または競争性能を実現することができることがわかった。 これら2つの手法を結合することにより,ProMISe(Promptable Medical Image Segmentation)のエンドツーエンドな非微調整フレームワークを提案する。 本実験は,提案手法を個別に,あるいは組み合わせて使用することにより,SAMのパラメータを凍結した低コストパターンシフトにおいて良好な性能が得られることを示す。

With the proposal of the Segment Anything Model (SAM), fine-tuning SAM for medical image segmentation (MIS) has become popular. However, due to the large size of the SAM model and the significant domain gap between natural and medical images, fine-tuning-based strategies are costly with potential risk of instability, feature damage and catastrophic forgetting. Furthermore, some methods of transferring SAM to a domain-specific MIS through fine-tuning strategies disable the model's prompting capability, severely limiting its utilization scenarios. In this paper, we propose an Auto-Prompting Module (APM), which provides SAM-based foundation model with Euclidean adaptive prompts in the target domain. Our experiments demonstrate that such adaptive prompts significantly improve SAM's non-fine-tuned performance in MIS. In addition, we propose a novel non-invasive method called Incremental Pattern Shifting (IPS) to adapt SAM to specific medical domains. Experimental results show that the IPS enables SAM to achieve state-of-the-art or competitive performance in MIS without the need for fine-tuning. By coupling these two methods, we propose ProMISe, an end-to-end non-fine-tuned framework for Promptable Medical Image Segmentation. Our experiments demonstrate that both using our methods individually or in combination achieves satisfactory performance in low-cost pattern shifting, with all of SAM's parameters frozen.
翻訳日:2024-03-08 15:24:36 公開日:2024-03-07
# 動的符号における誤り訂正

Error Correction in Dynamical Codes ( http://arxiv.org/abs/2403.04163v1 )

ライセンス: Link先を確認
Xiaozhen Fu and Daniel Gottesman(参考訳) 我々は、一連の測定によって定義される量子エラー訂正符号の一般的なフレームワークについて尋ねる。 近年、Floquet符号や時空符号に多くの関心が寄せられている。 本研究では, 動的コードの距離を定義し, 検討する。 これは微妙な概念であり、決定が難しい: どんな時でも、システムは、ある距離の量子誤り訂正符号を形成する部分空間に置かれるが、そのコードに関連する測定のスケジュールのため、そのコードの完全な誤り訂正機能は利用できないかもしれない。 この課題に対処するために、プロトコルを通じて私たちが学んだエラーシンドロームに関する情報を追跡し、非フォールトトレラントな文脈で動的コードの距離を決定するアルゴリズムを開発する。 アルゴリズム用に開発されたツールを用いて,一般的なフロッケコードの初期化とマスキング特性を分析する。 さらに, 幾何学的局所性の制約の下での動的符号の性質について考察し, 論理ゲートの基本的な制限や, 従来の符号に対する幾何学的局所性によって課されるコードパラメータが動的パラダイムで超過できるかどうかを理解する。 長い範囲の接続が限られているコードでは、2D設定で有限深度回路で非クリフォードゲートを実装できないことがわかった。

We ask what is the general framework for a quantum error correcting code that is defined by a sequence of measurements. Recently, there has been much interest in Floquet codes and space-time codes. In this work, we define and study the distance of a dynamical code. This is a subtle concept and difficult to determine: At any given time, the system will be in a subspace which forms a quantum error-correcting code with a given distance, but the full error correction capability of that code may not be available due to the schedule of measurements associated with the code. We address this challenge by developing an algorithm that tracks information we have learned about the error syndromes through the protocol and put that together to determine the distance of a dynamical code, in a non-fault-tolerant context. We use the tools developed for the algorithm to analyze the initialization and masking properties of a generic Floquet code. Further, we look at properties of dynamical codes under the constraint of geometric locality with a view to understand whether the fundamental limitations on logical gates and code parameters imposed by geometric locality for traditional codes can be surpassed in the dynamical paradigm. We find that codes with a limited number of long range connectivity will not allow non-Clifford gates to be implemented with finite depth circuits in the 2D setting.
翻訳日:2024-03-08 15:24:11 公開日:2024-03-07
# 探索用ノイズスパイクアクターネットワーク

Noisy Spiking Actor Network for Exploration ( http://arxiv.org/abs/2403.04162v1 )

ライセンス: Link先を確認
Ding Chen, Peixi Peng, Tiejun Huang and Yonghong Tian(参考訳) 深層強化学習(rl)の一般的な探索方法として、ノイズネットは問題固有の探索戦略を生成することができる。 スパイキングニューラルネットワーク(SNN)は、2連発の発火機構のため、ノイズに対して強い堅牢性を持ち、局所的な障害による効率的な探索を実現することは困難である。 そこで本研究では,帯電と伝送中に時間相関ノイズを発生させるノイズスパイキングアクタネットワーク(noisysan)を提案する。 さらに, 騒音低減手法を提案し, エージェントの安定対策について検討した。 広範な実験結果から,openai gym の幅広い連続制御タスクにおいて,本手法が最先端のパフォーマンスを上回っていることが判明した。

As a general method for exploration in deep reinforcement learning (RL), NoisyNet can produce problem-specific exploration strategies. Spiking neural networks (SNNs), due to their binary firing mechanism, have strong robustness to noise, making it difficult to realize efficient exploration with local disturbances. To solve this exploration problem, we propose a noisy spiking actor network (NoisySAN) that introduces time-correlated noise during charging and transmission. Moreover, a noise reduction method is proposed to find a stable policy for the agent. Extensive experimental results demonstrate that our method outperforms the state-of-the-art performance on a wide range of continuous control tasks from OpenAI gym.
翻訳日:2024-03-08 15:23:40 公開日:2024-03-07
# SWAP-NAS:超高速NASのためのサンプルワイズ活性化パターン

SWAP-NAS: Sample-Wise Activation Patterns For Ultra-Fast NAS ( http://arxiv.org/abs/2403.04161v1 )

ライセンス: Link先を確認
Yameng Peng, Andy Song, Haytham M. Fayek, Vic Ciesielski, Xiaojun Chang(参考訳) トレーニングフリーメトリクス(すなわちゼロコストプロキシ)は、リソース集約型ニューラルネットワークトレーニング、特にニューラルネットワーク検索(nas)を避けるために広く使われている。 近年の研究では、既存のトレーニングフリーメトリクスには、相関の限定や、異なる検索空間やタスク間の一般化の欠如など、いくつかの制限があることが示された。 そこで本研究では,Sample-Wise Activation Patternsとその派生品であるSWAP-Scoreを提案する。 入力サンプルのバッチ上でのネットワークの表現性を測定する。 SWAPスコアは,NAS-Bench-101/201/301 と TransNAS-Bench-101 において,既存のトレーニング不要の指標を15 以上上回った。 SWAP-Scoreは正規化によってさらに強化され、セルベースの検索空間の相関がさらに高められ、検索中のモデルサイズ制御が可能となる。 例えば、NAS-Bench-201ネットワーク上の正規化SWAP-ScoreとCIFAR-100の検証精度のSpearmanのランク相関係数は0.90であり、第2の基準であるNWOTよりは0.80よりかなり高い。 NASの進化的アルゴリズムと統合すると、SWAP-NASは、約6分9分でCIFAR-10とImageNetの競合性能を達成する。

Training-free metrics (a.k.a. zero-cost proxies) are widely used to avoid resource-intensive neural network training, especially in Neural Architecture Search (NAS). Recent studies show that existing training-free metrics have several limitations, such as limited correlation and poor generalisation across different search spaces and tasks. Hence, we propose Sample-Wise Activation Patterns and its derivative, SWAP-Score, a novel high-performance training-free metric. It measures the expressivity of networks over a batch of input samples. The SWAP-Score is strongly correlated with ground-truth performance across various search spaces and tasks, outperforming 15 existing training-free metrics on NAS-Bench-101/201/301 and TransNAS-Bench-101. The SWAP-Score can be further enhanced by regularisation, which leads to even higher correlations in cell-based search space and enables model size control during the search. For example, Spearman's rank correlation coefficient between regularised SWAP-Score and CIFAR-100 validation accuracies on NAS-Bench-201 networks is 0.90, significantly higher than 0.80 from the second-best metric, NWOT. When integrated with an evolutionary algorithm for NAS, our SWAP-NAS achieves competitive performance on CIFAR-10 and ImageNet in approximately 6 minutes and 9 minutes of GPU time respectively.
翻訳日:2024-03-08 15:23:20 公開日:2024-03-07
# コーパストピックロノミーを用いた主題特定アプリケーションにおける検索の改善

Improving Retrieval in Theme-specific Applications using a Corpus Topical Taxonomy ( http://arxiv.org/abs/2403.04160v1 )

ライセンス: Link先を確認
SeongKu Kang, Shivam Agarwal, Bowen Jin, Dongha Lee, Hwanjo Yu, and Jiawei Han(参考訳) 文書検索は、大規模事前訓練言語モデル(PLM)の進歩の恩恵を受けている。 しかし,特定の分野や産業において,ユニークな用語,ユーザクエリの不完全なコンテキスト,特殊な検索意図によって,その有効性は限定されることが多い。 テーマ固有の情報を抽出し、検索を改善するために、ユーザ関心を反映しつつ、コーパスの潜在トピック構造を概説するコーパストピック分類法を提案する。 ToTER(Topical Taxonomy Enhanced Retrieval)フレームワークを導入し,クエリやドキュメントの中心的なトピックを分類のガイダンスで識別し,そのトピック的関連性を利用して,欠落したコンテキストを補う。 プラグイン・アンド・プレイのフレームワークとして、ToTERは様々なPLMベースのレトリバーを強化するために柔軟に使用できる。 本研究では,2つの実世界のデータセットの定量的,アブレーション的,探索的実験を通じて,トピック分類学をテーマ固有のアプリケーションで検索し,ToTERの有効性を実証する。

Document retrieval has greatly benefited from the advancements of large-scale pre-trained language models (PLMs). However, their effectiveness is often limited in theme-specific applications for specialized areas or industries, due to unique terminologies, incomplete contexts of user queries, and specialized search intents. To capture the theme-specific information and improve retrieval, we propose to use a corpus topical taxonomy, which outlines the latent topic structure of the corpus while reflecting user-interested aspects. We introduce ToTER (Topical Taxonomy Enhanced Retrieval) framework, which identifies the central topics of queries and documents with the guidance of the taxonomy, and exploits their topical relatedness to supplement missing contexts. As a plug-and-play framework, ToTER can be flexibly employed to enhance various PLM-based retrievers. Through extensive quantitative, ablative, and exploratory experiments on two real-world datasets, we ascertain the benefits of using topical taxonomy for retrieval in theme-specific applications and demonstrate the effectiveness of ToTER.
翻訳日:2024-03-08 15:22:38 公開日:2024-03-07
# DA-Net:マルチソース言語間変換学習のための分散適応型ネットワーク

DA-Net: A Disentangled and Adaptive Network for Multi-Source Cross-Lingual Transfer Learning ( http://arxiv.org/abs/2403.04158v1 )

ライセンス: Link先を確認
Ling Ge, Chunming Hu, Guanghui Ma, Jihong Liu, Hong Zhang(参考訳) マルチソースの言語間変換学習は、複数のラベル付きソース言語から、言語シフトの下でラベルなしのターゲット言語へのタスク知識の転送を扱う。 既存の手法は通常、共有エンコーダに従う異なるソースの言語固有の分類器によって生成される予測の重み付けに焦点を当てている。 しかし、すべてのソース言語は同じエンコーダを共有し、これらすべての言語によって更新される。 抽出された表現は必然的に異なるソース言語の情報を含んでいるため、言語固有の分類器の学習を妨げる可能性がある。 さらに、言語ギャップのため、ソースラベルでトレーニングされた言語固有の分類器では、ターゲット言語の正確な予測ができない。 どちらの事実もモデルのパフォーマンスを損なう。 これらの課題に対処するため,Distangled and Adaptive Network (DA-Net)を提案する。 まず,複数の情報源からの相互干渉を緩和し,分類器の入力表現の純化を目指すフィードバックガイドによる協調的不等角化手法を考案する。 次に,各言語対のクラスレベル分布を整合させ,言語対の言語間ギャップを緩和するクラス認識並列適応法を提案する。 38の言語を含む3つの異なるタスクに関する実験結果は、このアプローチの有効性を検証する。

Multi-Source cross-lingual transfer learning deals with the transfer of task knowledge from multiple labelled source languages to an unlabeled target language under the language shift. Existing methods typically focus on weighting the predictions produced by language-specific classifiers of different sources that follow a shared encoder. However, all source languages share the same encoder, which is updated by all these languages. The extracted representations inevitably contain different source languages' information, which may disturb the learning of the language-specific classifiers. Additionally, due to the language gap, language-specific classifiers trained with source labels are unable to make accurate predictions for the target language. Both facts impair the model's performance. To address these challenges, we propose a Disentangled and Adaptive Network (DA-Net). Firstly, we devise a feedback-guided collaborative disentanglement method that seeks to purify input representations of classifiers, thereby mitigating mutual interference from multiple sources. Secondly, we propose a class-aware parallel adaptation method that aligns class-level distributions for each source-target language pair, thereby alleviating the language pairs' language gap. Experimental results on three different tasks involving 38 languages validate the effectiveness of our approach.
翻訳日:2024-03-08 15:22:10 公開日:2024-03-07
# 摂動過程との整合性による確率微分方程式の安定化

Stabilizing Policy Gradients for Stochastic Differential Equations via Consistency with Perturbation Process ( http://arxiv.org/abs/2403.04154v1 )

ライセンス: Link先を確認
Xiangxin Zhou, Liang Wang, Yichi Zhou(参考訳) 高報酬でサンプルを生成することを考慮し,高表現性を持つ高次生成モデルである深層ニューラルネットワークパラメータ化確率微分方程式(sdes)の最適化に焦点をあてた。 それでも、政策勾配をSDEに適用する場合、政策勾配は有限の軌道上で推定されるため、不確定であり、データスカース領域の政策挙動は制御されない可能性がある。 この課題は政策勾配の安定性を妥協し、サンプルの複雑さに悪影響を及ぼす。 これらの問題に対処するため、我々はSDEが関連する摂動過程と一致するように制約することを提案する。 摂動過程は空間全体をカバーし、サンプリングが容易であるため、上記の問題を緩和することができる。 我々のフレームワークは、SDEを効果的かつ効率的に訓練するためのポリシー勾配法を多目的に選択できる一般的なアプローチを提供する。 本アルゴリズムは, 創製リガンド分子の結合親和性を最適化し, 構造に基づく薬物設計の課題として評価する。 提案手法は,CrossDocked2020データセット上で最高のVinaスコア-9.07を達成する。

Considering generating samples with high rewards, we focus on optimizing deep neural networks parameterized stochastic differential equations (SDEs), the advanced generative models with high expressiveness, with policy gradient, the leading algorithm in reinforcement learning. Nevertheless, when applying policy gradients to SDEs, since the policy gradient is estimated on a finite set of trajectories, it can be ill-defined, and the policy behavior in data-scarce regions may be uncontrolled. This challenge compromises the stability of policy gradients and negatively impacts sample complexity. To address these issues, we propose constraining the SDE to be consistent with its associated perturbation process. Since the perturbation process covers the entire space and is easy to sample, we can mitigate the aforementioned problems. Our framework offers a general approach allowing for a versatile selection of policy gradient methods to effectively and efficiently train SDEs. We evaluate our algorithm on the task of structure-based drug design and optimize the binding affinity of generated ligand molecules. Our method achieves the best Vina score -9.07 on the CrossDocked2020 dataset.
翻訳日:2024-03-08 15:21:38 公開日:2024-03-07
# ファウショット異常検出のためのデュアルパス周波数判別器

Dual-path Frequency Discriminators for Few-shot Anomaly Detection ( http://arxiv.org/abs/2403.04151v1 )

ライセンス: Link先を確認
Yuhu Bai, Jiangning Zhang, Yuhang Dong, Guanzhong Tian, Yunkang Cao, Yabiao Wang, Chengjie Wang(参考訳) 工業生産にはFSAD(Few-shot Anomaly Detection)が不可欠である。 しかし、既存のfsad法は限られた数の正常なサンプルを効果的に利用するのに苦労しており、空間領域で目立たない異常の検出や発見に失敗する可能性がある。 さらに、これらの微妙な異常が周波数領域でより顕著であることが分かる。 本稿では、これらの問題に対処するために、周波数観点からDual-Path Frequency Discriminator (DFD)ネットワークを提案する。 具体的には、画像レベルと特徴レベルの両方で異常を生成する。 多周波情報構築モジュールにより差分周波数成分を抽出し、微細な特徴構築モジュールに供給して適合した特徴を提供する。 本稿では,特徴空間における画像レベルおよび特徴レベル異常の検出と同定にデュアルパス特徴識別モジュールを用いる識別分類問題として,異常検出法を提案する。 識別者は、潜在空間における異常特徴と正規特徴の合同表現を学習することを目的としている。 MVTec AD と VisA のベンチマークで実施された大規模な実験により、DFD が現在の最先端手法を超越していることが示されている。 ソースコードは利用可能である。

Few-shot anomaly detection (FSAD) is essential in industrial manufacturing. However, existing FSAD methods struggle to effectively leverage a limited number of normal samples, and they may fail to detect and locate inconspicuous anomalies in the spatial domain. We further discover that these subtle anomalies would be more noticeable in the frequency domain. In this paper, we propose a Dual-Path Frequency Discriminators (DFD) network from a frequency perspective to tackle these issues. Specifically, we generate anomalies at both image-level and feature-level. Differential frequency components are extracted by the multi-frequency information construction module and supplied into the fine-grained feature construction module to provide adapted features. We consider anomaly detection as a discriminative classification problem, wherefore the dual-path feature discrimination module is employed to detect and locate the image-level and feature-level anomalies in the feature space. The discriminators aim to learn a joint representation of anomalous features and normal features in the latent space. Extensive experiments conducted on MVTec AD and VisA benchmarks demonstrate that our DFD surpasses current state-of-the-art methods. Source code will be available.
翻訳日:2024-03-08 15:21:02 公開日:2024-03-07
# HeteroSwitch:フェデレートラーニングにおけるシステムによるデータ不均一性の特徴とモデリング

HeteroSwitch: Characterizing and Taming System-Induced Data Heterogeneity in Federated Learning ( http://arxiv.org/abs/2403.04207v1 )

ライセンス: Link先を確認
Gyudong Kim, Mehdi Ghasemi, Soroush Heidari, Seungryong Kim, Young Geun Kim, Sarma Vrudhula, Carole-Jean Wu(参考訳) Federated Learning(FL)は、デバイス上で生データを保持することによってユーザのプライバシを保護することによって、ユーザエンドデバイス間でディープラーニングモデルを協調的にトレーニングする実践的なアプローチである。 flでは、参加するユーザエンドデバイスは、ハードウェアとソフトウェア構成の点で非常に断片化されている。 このようなフラグメンテーションは、ハードウェアやソフトウェアの設定によって異なるデータを生成するため、flにおける新しいタイプのデータ不均一性、すなわち \textit{system-induced data heterogeneity} を導入する。 本稿では,まず,システム誘導データの不均一性がflモデル性能に与える影響を特徴付ける。 ベンダーやパフォーマンス層によって異なる異種デバイスを使用してデータセットを収集します。 このデータセットを用いることで, <textit{system-induced data heterogeneity} が精度に悪影響を及ぼし, FLにおける公平性や領域一般化の問題を悪化させることを示した。 これらの課題に対処するために,HW と SW の設定の変化によるバイアスレベルに応じて,一般化技術(ISP 変換と SWAD)を適応的に採用する HeteroSwitch を提案する。 現実的なFLデータセット(FLAIR)による評価において,HeteroSwitchはデバイスタイプ間の平均精度のばらつきを6.3\%削減する。

Federated Learning (FL) is a practical approach to train deep learning models collaboratively across user-end devices, protecting user privacy by retaining raw data on-device. In FL, participating user-end devices are highly fragmented in terms of hardware and software configurations. Such fragmentation introduces a new type of data heterogeneity in FL, namely \textit{system-induced data heterogeneity}, as each device generates distinct data depending on its hardware and software configurations. In this paper, we first characterize the impact of system-induced data heterogeneity on FL model performance. We collect a dataset using heterogeneous devices with variations across vendors and performance tiers. By using this dataset, we demonstrate that \textit{system-induced data heterogeneity} negatively impacts accuracy, and deteriorates fairness and domain generalization problems in FL. To address these challenges, we propose HeteroSwitch, which adaptively adopts generalization techniques (i.e., ISP transformation and SWAD) depending on the level of bias caused by varying HW and SW configurations. In our evaluation with a realistic FL dataset (FLAIR), HeteroSwitch reduces the variance of averaged precision by 6.3\% across device types.
翻訳日:2024-03-08 15:17:00 公開日:2024-03-07
# grawa: ディープラーニングモデルの分散トレーニングのための勾配に基づく重み付け平均化

GRAWA: Gradient-based Weighted Averaging for Distributed Training of Deep Learning Models ( http://arxiv.org/abs/2403.04206v1 )

ライセンス: Link先を確認
Tolga Dimlioglu, Anna Choromanska(参考訳) 時間制約環境におけるディープラーニングモデルの分散トレーニングについて検討した。 本研究では,作業者の重み付け平均として計算された中心変数に対して,作業者の重み付けが作業者の勾配ノルムに反比例し,最適化景観における平坦領域の回復を優先する新しいアルゴリズムを提案する。 本稿では,モデルレベルと階層レベルのグラディエントに基づく重み付き平均化(MGRAWAとLGRAWA)と呼ぶアルゴリズムの非同期な2つの変種を開発し,モデル全体の重み付け方式や層単位で適用される重み付け方式が異なる。 理論的には、凸と非凸の両方の設定において、提案手法の収束保証を証明する。 提案アルゴリズムは,より高速な収束を実現し,より良い品質とより平坦な局所最適性を回復することにより,競合手法よりも優れていることを示す。 また,より混み合った分散学習環境において提案アルゴリズムのスケーラビリティを分析するため,アブレーション研究を行った。 最後に、我々のアプローチでは、最先端のベースラインと比較して、頻繁なコミュニケーションや分散更新がより少ないことを報告します。

We study distributed training of deep learning models in time-constrained environments. We propose a new algorithm that periodically pulls workers towards the center variable computed as a weighted average of workers, where the weights are inversely proportional to the gradient norms of the workers such that recovering the flat regions in the optimization landscape is prioritized. We develop two asynchronous variants of the proposed algorithm that we call Model-level and Layer-level Gradient-based Weighted Averaging (resp. MGRAWA and LGRAWA), which differ in terms of the weighting scheme that is either done with respect to the entire model or is applied layer-wise. On the theoretical front, we prove the convergence guarantee for the proposed approach in both convex and non-convex settings. We then experimentally demonstrate that our algorithms outperform the competitor methods by achieving faster convergence and recovering better quality and flatter local optima. We also carry out an ablation study to analyze the scalability of the proposed algorithms in more crowded distributed training environments. Finally, we report that our approach requires less frequent communication and fewer distributed updates compared to the state-of-the-art baselines.
翻訳日:2024-03-08 15:16:36 公開日:2024-03-07
# エッセンスと展望:ビッグモデルにおけるアライメントアプローチの検討

On the Essence and Prospect: An Investigation of Alignment Approaches for Big Models ( http://arxiv.org/abs/2403.04204v1 )

ライセンス: Link先を確認
Xinpeng Wang, Shitong Duan, Xiaoyuan Yi, Jing Yao, Shanlin Zhou, Zhihua Wei, Peng Zhang, Dongkuan Xu, Maosong Sun, Xing Xie(参考訳) 大きなモデルはaiの分野で画期的なブレークスルーを達成したが、潜在的な懸念をもたらす可能性もある。 このような懸念に対処するため、これらのモデルを人間の嗜好や価値観に適合させるアライメント技術が導入された。 過去1年間にかなりの進歩があったにもかかわらず、データコストやスケーラブルな監視といった最適なアライメント戦略を確立する上で、さまざまな課題がある。 本稿では,価値アライメントアプローチを包括的に検討する。 最初は、1920年代に遡るアライメントの歴史的文脈を解き放ち、その後、アライメントの数学的本質(それは何であるか)を掘り下げて、固有の課題に光を当てた。 本稿では, 既存のアライメント手法について, 強化学習, 監視ファインタニング, インコンテクスト学習の3つのカテゴリに分類し, 本研究領域における本質的な関係, 強み, 限界の検証を行い, 読者の理解を深める。 また,この分野の新たなフロンティアとして,パーソナルアライメントとマルチモーダルアライメントという2つのトピックが議論されている。 今後,今後のアライメントのパラダイムや課題への対処方法,今後のアライメントの方向性などについて検討する。

Big models have achieved revolutionary breakthroughs in the field of AI, but they might also pose potential concerns. Addressing such concerns, alignment technologies were introduced to make these models conform to human preferences and values. Despite considerable advancements in the past year, various challenges lie in establishing the optimal alignment strategy, such as data cost and scalable oversight, and how to align remains an open question. In this survey paper, we comprehensively investigate value alignment approaches. We first unpack the historical context of alignment tracing back to the 1920s (where it comes from), then delve into the mathematical essence of alignment (what it is), shedding light on the inherent challenges. Following this foundation, we provide a detailed examination of existing alignment methods, which fall into three categories: Reinforcement Learning, Supervised Fine-Tuning, and In-context Learning, and demonstrate their intrinsic connections, strengths, and limitations, helping readers better understand this research area. In addition, two emerging topics, personal alignment, and multimodal alignment, are also discussed as novel frontiers in this field. Looking forward, we discuss potential alignment paradigms and how they could handle remaining challenges, prospecting where future alignment will go.
翻訳日:2024-03-08 15:16:14 公開日:2024-03-07
# 学習エージェントの不均質集団におけるモラル行動のダイナミクス

Dynamics of Moral Behavior in Heterogeneous Populations of Learning Agents ( http://arxiv.org/abs/2403.04202v1 )

ライセンス: Link先を確認
Elizaveta Tennant, Stephen Hailes, Mirco Musolesi(参考訳) aiシステムの安全性とアライメントに関する懸念が高まる中、aiエージェントに道徳的能力を埋め込むことの重要性が強調される。 有望な解決策は、経験から学ぶこと、すなわち強化学習を使うことである。 マルチエージェント(社会)環境では、複雑な集団レベルの現象が個々の学習エージェント間の相互作用から生じることがある。 既存の研究の多くは、独立した学習エージェントの相互作用を研究するために、シミュレーションされた社会的ジレンマ環境に依存している。 しかし、実際にはエージェントの社会に存在するであろう道徳的不均一性を無視する傾向がある。 例えば、異なる時点において、単一の学習エージェントは、連続主義者である相手(すなわち、時間とともに結果の最大化に気を配る)やノルムベース(すなわち、ここでは特定の規範に従うことに集中する)と対決することがある。 エージェントの共同開発が集団におけるそのような道徳的不均一性によってどの程度影響を受けるかはよく理解されていない。 本稿では,道徳的に異質な集団が社会的ジレンマ設定で相互作用する学習動態について考察する。 パートナー選択機構を備えた囚人のジレンマ環境を用いて,集団における多様な道徳的エージェントの出現が,個々のエージェントの学習行動や集団レベルの創発的成果に与える影響について検討する。 我々は,反社会的エージェントと反社会的エージェントの非自明な相互作用を数種類観察し,ある種の道徳的エージェントが,より協調的な行動に向けて利己的なエージェントを操ることができることを発見した。

Growing concerns about safety and alignment of AI systems highlight the importance of embedding moral capabilities in artificial agents. A promising solution is the use of learning from experience, i.e., Reinforcement Learning. In multi-agent (social) environments, complex population-level phenomena may emerge from interactions between individual learning agents. Many of the existing studies rely on simulated social dilemma environments to study the interactions of independent learning agents. However, they tend to ignore the moral heterogeneity that is likely to be present in societies of agents in practice. For example, at different points in time a single learning agent may face opponents who are consequentialist (i.e., caring about maximizing some outcome over time) or norm-based (i.e., focusing on conforming to a specific norm here and now). The extent to which agents' co-development may be impacted by such moral heterogeneity in populations is not well understood. In this paper, we present a study of the learning dynamics of morally heterogeneous populations interacting in a social dilemma setting. Using a Prisoner's Dilemma environment with a partner selection mechanism, we investigate the extent to which the prevalence of diverse moral agents in populations affects individual agents' learning behaviors and emergent population-level outcomes. We observe several types of non-trivial interactions between pro-social and anti-social agents, and find that certain classes of moral agents are able to steer selfish agents towards more cooperative behavior.
翻訳日:2024-03-08 15:15:48 公開日:2024-03-07
# ACC-ViT : 視覚変換器におけるアトラス畳み込みの復活

ACC-ViT : Atrous Convolution's Comeback in Vision Transformers ( http://arxiv.org/abs/2403.04200v1 )

ライセンス: Link先を確認
Nabil Ibtehaz, Ning Yan, Masood Mortazavi, Daisuke Kihara(参考訳) トランスフォーマーは、視覚知覚にインスパイアされた注意メカニズムの革新を通じて、最先端のビジョンアーキテクチャに昇格した。 現在、視覚変換器、地域的、まばらな注意の2つのクラスが注目されている。 前者は領域内のピクセル相互作用を境界とし、後者はスパースグリッドに展開する。 それらの対立する性質は、階層的関係を維持するか、大域的な文脈に到達するかのどちらかにジレンマをもたらす。 本研究では,アトラス・コンボリューションからインスピレーションを得て,アトラス・アテンション(Atrous Attention)を導入し,地域情報とグローバル情報の両方を適応的に統合し,階層的関係を維持する。 アトルス畳み込みのさらなる貢献として、アトルス畳み込みを伴うユビキタス逆転残し畳み込みブロックを再設計する。 最後に、標準的な視覚タスクの慣行に従って、ACC-ViTと呼ばれる一般化されたハイブリッドビジョントランスフォーマーバックボーンを提案する。 私たちの小さなバージョンモデルは、ImageNet-1Kで$\sim 84 \%$精度を実現しており、パラメータは28.5ドル以下で、最新版MaxViTよりも0.42\%$改善され、パラメータは8.4\%低い。 また, 画像解析, 物体検出, 言語画像のコントラスト学習などのタスクにおいて, 微調整, 線形探索, ゼロショット学習などの異なる評価条件下でのACC-ViTバックボーンの有効性を検討した。 そのためACC-ViTは強力なビジョンバックボーンであり、モバイルスケールバージョンでも競争力があり、小さなデータセットを持つニッチアプリケーションに理想的である。

Transformers have elevated to the state-of-the-art vision architectures through innovations in attention mechanism inspired from visual perception. At present two classes of attentions prevail in vision transformers, regional and sparse attention. The former bounds the pixel interactions within a region; the latter spreads them across sparse grids. The opposing natures of them have resulted in a dilemma between either preserving hierarchical relation or attaining a global context. In this work, taking inspiration from atrous convolution, we introduce Atrous Attention, a fusion of regional and sparse attention, which can adaptively consolidate both local and global information, while maintaining hierarchical relations. As a further tribute to atrous convolution, we redesign the ubiquitous inverted residual convolution blocks with atrous convolution. Finally, we propose a generalized, hybrid vision transformer backbone, named ACC-ViT, following conventional practices for standard vision tasks. Our tiny version model achieves $\sim 84 \%$ accuracy on ImageNet-1K, with less than $28.5$ million parameters, which is $0.42\%$ improvement over state-of-the-art MaxViT while having $8.4\%$ less parameters. In addition, we have investigated the efficacy of ACC-ViT backbone under different evaluation settings, such as finetuning, linear probing, and zero-shot learning on tasks involving medical image analysis, object detection, and language-image contrastive learning. ACC-ViT is therefore a strong vision backbone, which is also competitive in mobile-scale versions, ideal for niche applications with small datasets.
翻訳日:2024-03-08 15:15:22 公開日:2024-03-07
# b\"ottcher-wenzel不等式による重み付きフロベニウスノルムとその量子物理学への応用

B\"ottcher-Wenzel inequality for weighted Frobenius norms and its application to quantum physics ( http://arxiv.org/abs/2403.04199v1 )

ライセンス: Link先を確認
Aina Mayumi, Gen Kimura, Hiromichi Ohno, Dariusz Chru\'sci\'nski(参考訳) 正行列 $\omega$ の重み付きフロベニウスノルムを用いることで、有名な B\'ottcher-Wenzel (BW) の不等式を自然に一般化する。 具体的には6種類の境界を探索し (i) から (vi) までの可換子 $[a,b]:= ab - ba$ のノルムは、重み付きフロベニウスノルム $\|a\|_\omega := \sqrt{{\rm tr}(a^\ast a \omega)} と通常のフロベニウスノルム $\|a\| := \sqrt{{\rm tr}(a^\ast a)} の組み合わせに基づいている。 ケース(vi)のタイトバウンドはbw不等式そのものに対応するが、ケース(iii)および(v)のタイトバウンドを確立し、ケースのタイトバウンドに対する予想を提案する。 (i)および (ii)ケース(iv)のタイトなバウンドがケースの支柱として提示されるさま (i)。 逆に これらの境界は i)-(v) は BW の不等式を一般化する。 ケースの予想された境界 (i)および (ii) は最大サイズ $n=15$ の行列に対して数値的にサポートされ、2\times 2$ 行列の証明を提供する。 さらに、量子物理学、特に不確実性関係と開量子力学の文脈におけるこれらの境界の応用について述べる。

By employing a weighted Frobenius norm with a positive matrix $\omega$, we introduce natural generalizations of the famous B\"ottcher-Wenzel (BW) inequality. Specifically, we explore six types of bounds, labeled (i) through (vi), on the norms of the commutator $[A,B]:= AB - BA$, based on the combination of the weighted Frobenius norm $\|A\|_\omega := \sqrt{{\rm tr}(A^\ast A \omega)}$ and the usual Frobenius norm $\|A\| := \sqrt{{\rm tr}(A^\ast A)}$. While the tight bound for the case (vi) corresponds to the BW inequality itself, we establish the tight bounds for cases (iii) and (v), and propose conjectures for the tight bounds of cases (i) and (ii), with the tight bound for case (iv) presented as a corollary of case (i). Conversely, all these bounds (i)-(v) serve as generalizations of the BW inequality. The conjectured bounds for cases (i) and (ii) are numerically supported for matrices up to size $n=15$, and we provide proofs for $2\times 2$ matrices. Additionally, we present applications of these bounds in quantum physics, particularly in the contexts of the uncertainty relation and open quantum dynamics.
翻訳日:2024-03-08 15:14:52 公開日:2024-03-07
# CN-RMA:マルチビュー画像からの3次元室内物体検出のためのレイマーキングアグリゲーション併用ネットワーク

CN-RMA: Combined Network with Ray Marching Aggregation for 3D Indoors Object Detection from Multi-view Images ( http://arxiv.org/abs/2403.04198v1 )

ライセンス: Link先を確認
Guanlin Shen, Jingwei Huang, Zhihua Hu, Bin Wang(参考訳) マルチビュー画像からの3次元屋内物体検出のための新しいアプローチであるCN-RMAを提案する。 画像のあいまいさと3D対応の曖昧さを明示的な幾何を伴わずに観察し、オクルージョン情報を提供する。 この問題に対処するため、CN-RMAは3次元再構成ネットワークと3次元オブジェクト検出ネットワークの相乗効果を活用し、再構成ネットワークは粗切り符号距離関数(TSDF)を提供し、画像特徴をエンドツーエンドで正しく3次元空間に投票するように誘導する。 具体的には、画像中の画素が対応する3d位置への寄与を表すレイマーチングを通じて、各レイのサンプル点に重みを関連付ける。 このような重みは、予測された符号付き距離によって決定され、画像特徴が再構成面近傍の領域にのみ投票される。 ScanNet および ARKitScenes データセットの mAP@0.25 と mAP@0.5 を用いて, マルチビュー画像からの3次元オブジェクト検出における最先端性能を実現する。 コードとモデルはhttps://github.com/SerCharles/CN-RMAで公開されている。

This paper introduces CN-RMA, a novel approach for 3D indoor object detection from multi-view images. We observe the key challenge as the ambiguity of image and 3D correspondence without explicit geometry to provide occlusion information. To address this issue, CN-RMA leverages the synergy of 3D reconstruction networks and 3D object detection networks, where the reconstruction network provides a rough Truncated Signed Distance Function (TSDF) and guides image features to vote to 3D space correctly in an end-to-end manner. Specifically, we associate weights to sampled points of each ray through ray marching, representing the contribution of a pixel in an image to corresponding 3D locations. Such weights are determined by the predicted signed distances so that image features vote only to regions near the reconstructed surface. Our method achieves state-of-the-art performance in 3D object detection from multi-view images, as measured by mAP@0.25 and mAP@0.5 on the ScanNet and ARKitScenes datasets. The code and models are released at https://github.com/SerCharles/CN-RMA.
翻訳日:2024-03-08 15:14:16 公開日:2024-03-07
# 大規模言語モデルは文脈内分子学習者である

Large Language Models are In-Context Molecule Learners ( http://arxiv.org/abs/2403.04197v1 )

ライセンス: Link先を確認
Jiatong Li, Wei Liu, Zhihao Ding, Wenqi Fan, Yuqiang Li, Qing Li(参考訳) 大言語モデル(LLM)は、特に分子と自然言語のテキストのギャップを埋めることを目的とした分子キャプション翻訳タスクにおいて、例外的な性能を示した。 しかし、従来のLLMの分子キャプション翻訳タスクへの適応には、ドメイン固有の事前学習段階が必要であり、分子空間とテキスト空間の整合性は弱かった。 これらの課題を解決するために,LLM が文脈例から分子文アライメントを学習するための新しいパラダイムとして,In-Context Molecule Adaptation (ICMA) を提案する。 具体的には、ICMAは、クロスモーダル検索、ポストモーダル検索、インコンテクスト・モレクルチューニングの3段階を取り入れている。 当初、Cross-modal RetrievalはBM25 Caption RetrievalとMorecule Graph Retrievalを使用して情報的コンテキストのサンプルを取得する。 さらに,検索結果の質をさらに向上させるために,シーケンス反転とランダムウォークを用いたリトライ後の再ランキングを提案する。 最後に、In-Context Molecule Tuningは、LLMのコンテキスト内分子学習能力を検索例で解き、LLMのパラメータを分子カプセル翻訳タスクに適用する。 実験により, ICMTは, LLMが本来は文脈内分子学習者であることを示すため, 余分な訓練コーパスや複雑な構造を伴わずに, 最先端または同等の性能を達成することができることを示した。

Large Language Models (LLMs) have demonstrated exceptional performance in biochemical tasks, especially the molecule caption translation task, which aims to bridge the gap between molecules and natural language texts. However, previous methods in adapting LLMs to the molecule-caption translation task required extra domain-specific pre-training stages, suffered weak alignment between molecular and textual spaces, or imposed stringent demands on the scale of LLMs. To resolve the challenges, we propose In-Context Molecule Adaptation (ICMA), as a new paradigm allowing LLMs to learn the molecule-text alignment from context examples via In-Context Molecule Tuning. Specifically, ICMA incorporates the following three stages: Cross-modal Retrieval, Post-retrieval Re-ranking, and In-context Molecule Tuning. Initially, Cross-modal Retrieval utilizes BM25 Caption Retrieval and Molecule Graph Retrieval to retrieve informative context examples. Additionally, we also propose Post-retrieval Re-ranking with Sequence Reversal and Random Walk to further improve the quality of retrieval results. Finally, In-Context Molecule Tuning unlocks the in-context molecule learning capability of LLMs with retrieved examples and adapts the parameters of LLMs for the molecule-caption translation task. Experimental results demonstrate that ICMT can empower LLMs to achieve state-of-the-art or comparable performance without extra training corpora and intricate structures, showing that LLMs are inherently in-context molecule learners.
翻訳日:2024-03-08 15:13:51 公開日:2024-03-07
# fill-and-spill: 貯留層操作決定と制御のための深層強化学習政策勾配法

Fill-and-Spill: Deep Reinforcement Learning Policy Gradient Methods for Reservoir Operation Decision and Control ( http://arxiv.org/abs/2403.04195v1 )

ライセンス: Link先を確認
Sadegh Sadeghi Tabas, Vidya Samadi(参考訳) 水道管理者や政策立案者が定期的に直面する課題は、需要の変化、様々な水文入力、環境ストレス要因である。 これらの懸念は、貯水池の運営方針の決定に異なる手法を適用することへの関心を招いた。 解析の解決が進むにつれて、最適な貯水池運用方針を決定するために、動的プログラミング(DP)や確率動的プログラミング(SDP)といった従来の手法を用いて、現実のシステムを効果的に表現することがより困難になる。 課題の1つは「次元の曲線」であり、与えられた精度で任意の関数を推定するのに必要なサンプル数が、関数の入力変数(すなわち次元)の数に対して指数関数的に増加することを意味する。 深層強化学習(drl)は,貯水池の運用方針決定における確率的最適化問題の呪いを克服するためのインテリジェントなアプローチである。 本研究は, 深層決定政策勾配法 (DDPG) , Twin Delayed DDPG (TD3) , SAC18 と SAC19 の2種類のソフト・アクター・クライブ法 (SAC19) など, 様々な新しいDRL連続行動政策勾配法 (PGM) について検討した最初の試みである。 本研究では,米国カリフォルニア州のFolsom Reservoirの最適運用方針を明らかにするために,複数のDRL手法を実装した。 この貯水池システムはサクラメント市に農業、自治体、水力、および環境負荷と洪水制御の操作を供給している。 分析によると、TD3とSACはフォルソム貯水池の要求を満たし、貯水池の運用方針を最適化するのに堅牢である。

Changes in demand, various hydrological inputs, and environmental stressors are among the issues that water managers and policymakers face on a regular basis. These concerns have sparked interest in applying different techniques to determine reservoir operation policy decisions. As the resolution of the analysis increases, it becomes more difficult to effectively represent a real-world system using traditional methods such as Dynamic Programming (DP) and Stochastic Dynamic Programming (SDP) for determining the best reservoir operation policy. One of the challenges is the "curse of dimensionality," which means the number of samples needed to estimate an arbitrary function with a given level of accuracy grows exponentially with respect to the number of input variables (i.e., dimensionality) of the function. Deep Reinforcement Learning (DRL) is an intelligent approach to overcome the curses of stochastic optimization problems for reservoir operation policy decisions. To our knowledge, this study is the first attempt that examine various novel DRL continuous-action policy gradient methods (PGMs), including Deep Deterministic Policy Gradients (DDPG), Twin Delayed DDPG (TD3), and two different versions of Soft Actor-Critic (SAC18 and SAC19) for optimizing reservoir operation policy. In this study, multiple DRL techniques were implemented in order to find the optimal operation policy of Folsom Reservoir in California, USA. The reservoir system supplies agricultural, municipal, hydropower, and environmental flow demands and flood control operations to the City of Sacramento. Analysis suggests that the TD3 and SAC are robust to meet the Folsom Reservoir's demands and optimize reservoir operation policies.
翻訳日:2024-03-08 15:13:20 公開日:2024-03-07
# SAM-PD:SAMがプロンプトのデノイングでビデオ中のあらゆるものを追跡し、セグメンテーションするのにどれくらいの時間がかかるか

SAM-PD: How Far Can SAM Take Us in Tracking and Segmenting Anything in Videos by Prompt Denoising ( http://arxiv.org/abs/2403.04194v1 )

ライセンス: Link先を確認
Tao Zhou, Wenhan Luo, Qi Ye, Zhiguo Shi, Jiming Chen(参考訳) 近年,segment anything model (sam) などのプロンプトブルセグメンテーションモデルでは,静的画像に対するロバストなゼロショット一般化が実現されている。 これらのプロンプトモデルでは、不正確なバウンディングボックスなど、不正確なプロンプト入力のデノイジング能力を示す。 本稿では,追跡タスクを瞬時に発生するタスクとして認識するビデオにおけるオブジェクトの追跡とセグメンテーションにsamを適用する可能性について検討する。 具体的には、次のフレームのプロンプトとして、前フレーム内の各オブジェクトのマスクの境界ボックスを反復的に伝播する。 さらに,SAMの位置や大きさの変動に対する認知能力を高めるために,複数のジッタリングおよび拡張ボックスプロンプトを各オブジェクトに対して提供し,テンプレートマスクに最もセマンティックな類似性でマスク予測を保持するマルチプロンプト戦略を提案する。 また,オクルージョンの処理や累積誤差の低減を目的としたポイントベースリファインメントステージも導入する。 DAVIS2017、YouTubeVOS2018、UVOの3つのデータセット上で、トラッキングモジュールを伴わずに、ビデオオブジェクト/インスタンスセグメンテーションタスクで同等のパフォーマンスを示し、簡潔なベースラインとして機能し、トラッキング機能を備えたSAMベースのダウンストリームアプリケーションを提供する。

Recently, promptable segmentation models, such as the Segment Anything Model (SAM), have demonstrated robust zero-shot generalization capabilities on static images. These promptable models exhibit denoising abilities for imprecise prompt inputs, such as imprecise bounding boxes. In this paper, we explore the potential of applying SAM to track and segment objects in videos where we recognize the tracking task as a prompt denoising task. Specifically, we iteratively propagate the bounding box of each object's mask in the preceding frame as the prompt for the next frame. Furthermore, to enhance SAM's denoising capability against position and size variations, we propose a multi-prompt strategy where we provide multiple jittered and scaled box prompts for each object and preserve the mask prediction with the highest semantic similarity to the template mask. We also introduce a point-based refinement stage to handle occlusions and reduce cumulative errors. Without involving tracking modules, our approach demonstrates comparable performance in video object/instance segmentation tasks on three datasets: DAVIS2017, YouTubeVOS2018, and UVO, serving as a concise baseline and endowing SAM-based downstream applications with tracking capabilities.
翻訳日:2024-03-08 15:12:45 公開日:2024-03-07
# 合成データ生成のための生成AI:方法と課題と将来

Generative AI for Synthetic Data Generation: Methods, Challenges and the Future ( http://arxiv.org/abs/2403.04190v1 )

ライセンス: Link先を確認
Xu Guo, Yiqiang Chen(参考訳) 大規模言語モデル(llm)から合成データを生成することに焦点を当てた最近の研究の急増、特にデータ可用性が制限されたシナリオは、生成型人工知能(ai)に顕著な変化をもたらしている。 実世界のデータに対して両立できる能力は、このアプローチを低リソースの課題に対する説得力のあるソリューションと位置づけている。 本稿では,これらの巨大llmをタスク固有のトレーニングデータ生成に活用する技術について述べる。 我々は, 方法論, 評価手法, 実践的応用について概説し, 現在の限界を議論し, 今後の研究への道筋を示唆する。

The recent surge in research focused on generating synthetic data from large language models (LLMs), especially for scenarios with limited data availability, marks a notable shift in Generative Artificial Intelligence (AI). Their ability to perform comparably to real-world data positions this approach as a compelling solution to low-resource challenges. This paper delves into advanced technologies that leverage these gigantic LLMs for the generation of task-specific training data. We outline methodologies, evaluation techniques, and practical applications, discuss the current limitations, and suggest potential pathways for future research.
翻訳日:2024-03-08 15:12:22 公開日:2024-03-07
# 大規模機械学習ハードウェアアクセラレータにおける通信基盤克服のためのシリコンフォトニック2.5Dインターポーザネットワーク

Silicon Photonic 2.5D Interposer Networks for Overcoming Communication Bottlenecks in Scale-out Machine Learning Hardware Accelerators ( http://arxiv.org/abs/2403.04189v1 )

ライセンス: Link先を確認
Febin Sunny, Ebadollah Taheri, Mahdi Nikdast, Sudeep Pasricha(参考訳) 現代の機械学習(ML)アプリケーションはますます複雑になり、モノリシックな(シングルチップ)アクセラレータアーキテクチャは、そのエネルギー効率とスループットの要求に追いついていない。 現代のデジタル電子加速器は、拡張性を改善するために複数の小型チップレットを備えた2.5dアーキテクチャを徐々に採用しているが、低速な金属配線に依存するため、基本的な制限に直面している。 本稿では,光通信と計算を2.5Dプラットフォームで活用し,エネルギー効率と高スループットの2.5D MLアクセラレータアーキテクチャを実現する方法について概説する。

Modern machine learning (ML) applications are becoming increasingly complex and monolithic (single chip) accelerator architectures cannot keep up with their energy efficiency and throughput demands. Even though modern digital electronic accelerators are gradually adopting 2.5D architectures with multiple smaller chiplets to improve scalability, they face fundamental limitations due to a reliance on slow metallic interconnects. This paper outlines how optical communication and computation can be leveraged in 2.5D platforms to realize energy-efficient and high throughput 2.5D ML accelerator architectures.
翻訳日:2024-03-08 15:12:09 公開日:2024-03-07
# 多目的バインダー設計パラダイムとしてのタンパク質言語モデルの優先最適化

Preference optimization of protein language models as a multi-objective binder design paradigm ( http://arxiv.org/abs/2403.04187v1 )

ライセンス: Link先を確認
Pouria Mistani, Venkatesh Mysore(参考訳) 自己回帰タンパク質言語モデル(pLM)の命令微調整と直接選好最適化(DPO)に基づく多目的バインダー設計パラダイムを提案する。 複数の設計目的を言語モデルに符号化し,好ましくも好ましくない分布からなる専門家の選好シーケンスデータセットを直接最適化する。 提案したアライメント戦略により,ProtGPT2は特定の受容体に条件付けられたバインダーを効果的に設計し,薬物発生性基準を策定できることを示す。 生成したバインダー試料は, 正中等電点 (pI) の改善を17-60-%$で示した。

We present a multi-objective binder design paradigm based on instruction fine-tuning and direct preference optimization (DPO) of autoregressive protein language models (pLMs). Multiple design objectives are encoded in the language model through direct optimization on expert curated preference sequence datasets comprising preferred and dispreferred distributions. We show the proposed alignment strategy enables ProtGPT2 to effectively design binders conditioned on specified receptors and a drug developability criterion. Generated binder samples demonstrate median isoelectric point (pI) improvements by $17\%-60\%$.
翻訳日:2024-03-08 15:11:59 公開日:2024-03-07
# 短時間ビデオ消費におけるオピニオン偏光の影響を探る

Exploring the Impact of Opinion Polarization on Short Video Consumption ( http://arxiv.org/abs/2403.04184v1 )

ライセンス: Link先を確認
Bangde Du, Ziyi Ye, Zhijing Wu, Qingyao Ai, Yiqun Liu(参考訳) 本研究は,映像の短い消費の領域を探求し,世論や社会的相互作用に影響を及ぼすデジタルランドスケープの重要な要因であるオピニオン分極(OP)の影響に焦点を当てた。 視聴者の知覚や行動に対するopの効果を分析し、likeやwatch timeのような従来のフィードバック指標がopを完全に捉えて測定できないことを発見した。 このギャップに対処するため,本研究は脳波(eeg)信号を用いて,opに対する神経反応を評価し,知覚と認知に影響を与える新しい非侵襲的アプローチを導入する。 経験的分析により、opが視聴者の感情に与える影響が明らかとなり、脳活動の変化が証明された。 また, 偏光映像コンテンツへの露出予測における脳波データの可能性を明らかにするとともに, 短いビデオ消費のダイナミクスとOPの効果を定量化するためのユニークな方法の新たな視点を提供する。

Investigating the increasingly popular domain of short video consumption, this study focuses on the impact of Opinion Polarization (OP), a significant factor in the digital landscape influencing public opinions and social interactions. We analyze OP's effect on viewers' perceptions and behaviors, finding that traditional feedback metrics like likes and watch time fail to fully capture and measure OP. Addressing this gap, our research utilizes Electroencephalogram (EEG) signals to introduce a novel, non-invasive approach for evaluating neural responses to OP, affecting perception and cognition. Empirical analysis reveals OP's considerable impact on viewers' emotions, evidenced by changes in brain activity. Our findings also highlight the potential of EEG data in predicting exposure to polarized short video content, offering a new perspective on the dynamics of short video consumption and a unique method for quantifying OP's effects.
翻訳日:2024-03-08 15:11:50 公開日:2024-03-07
# YYDS: 粗い記述による可視赤外人物の再同定

YYDS: Visible-Infrared Person Re-Identification with Coarse Descriptions ( http://arxiv.org/abs/2403.04183v1 )

ライセンス: Link先を確認
Yunhao Du, Zhicheng Zhao, Fei Su(参考訳) Visible-Infrared person re-identification (VI-ReID) はモダリティの相違により困難である。 既存の研究は主にモダリティ固有の特徴を抑えながら、モダリティ不変の特徴を学習することに焦点を当てている。 しかし,カラー情報がないため,赤外線サンプルのみによる可視画像の検索は極めて困難である。 この目的のために,色情報不足を補うために,赤外線画像と粗い言語記述(例えば,赤トップと黒いズボンの男性)の両方から対象の可視画像とをマッチングするRefer-VI-ReID設定を提案する。 この課題に対処するために,YYDSと呼ばれるY-Y形分解構造を設計し,ターゲットのテクスチャや色の特徴を分解・集約する。 具体的には, テキストIoU正規化戦略をまず, 分解訓練を容易にするために提示し, 結合関係モジュールを提案し, 集約を推測する。 さらに,k-reciprocal re-level algorithm のクロスモーダルバージョン CMKR について検討し,隣接する3つの探索戦略と1つの局所クエリ拡張法を探索して,近隣住民のモダリティバイアス問題を緩和した。 SYSU-MM01, RegDB, LLCMのデータセットを手動で注釈付き記述を用いて実験する。 YYDSとCMKRはいずれも3つのデータセットのSOTAメソッドよりも大幅に改善されている。 コードはhttps://github.com/dyhBUPT/YYDSで入手できる。

Visible-infrared person re-identification (VI-ReID) is challenging due to considerable cross-modality discrepancies. Existing works mainly focus on learning modality-invariant features while suppressing modality-specific ones. However, retrieving visible images only depends on infrared samples is an extreme problem because of the absence of color information. To this end, we present the Refer-VI-ReID settings, which aims to match target visible images from both infrared images and coarse language descriptions (e.g., "a man with red top and black pants") to complement the missing color information. To address this task, we design a Y-Y-shape decomposition structure, dubbed YYDS, to decompose and aggregate texture and color features of targets. Specifically, the text-IoU regularization strategy is firstly presented to facilitate the decomposition training, and a joint relation module is then proposed to infer the aggregation. Furthermore, the cross-modal version of k-reciprocal re-ranking algorithm is investigated, named CMKR, in which three neighbor search strategies and one local query expansion method are explored to alleviate the modality bias problem of the near neighbors. We conduct experiments on SYSU-MM01, RegDB and LLCM datasets with our manually annotated descriptions. Both YYDS and CMKR achieve remarkable improvements over SOTA methods on all three datasets. Codes are available at https://github.com/dyhBUPT/YYDS.
翻訳日:2024-03-08 15:11:33 公開日:2024-03-07
# 音声・映像音声認識用ビデオフレームのロバスト性に対するドロップアウト誘発モーダリティバイアスの検討

A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition ( http://arxiv.org/abs/2403.04245v1 )

ライセンス: Link先を確認
Yusheng Dai, Hang Chen, Jun Du, Ruoyu Wang, Shihao Chen, Jiefeng Ma, Haotian Wang, Chin-Hui Lee(参考訳) avsr(advanced audio-visual speech recognition)システムは、ビデオフレームの欠落に敏感であり、シングルモダリティモデルよりもさらに悪い。 ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。 本稿では,このコントラスト現象をモダリティバイアスの観点から検討し,ドロップアウトによる音声に対する過度なモダリティバイアスが根本原因であることを明らかにする。 さらに,マルチモーダルシステムにおけるモダリティバイアスとロバストネスの関係を体系的に記述するために,モダリティバイアス仮説(MBH)を提案する。 これらの知見に基づいて,音響モダリティの過度な信頼度を低減し,性能と堅牢性を同時に維持する,新しいMDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。 最後に、完全に欠落したモダリティに対処するために、動的に決定戦略を切り替えるためにアダプタを採用します。 提案手法の有効性は,MISP2021とMISP2022データセットを用いた一連の総合的な実験により評価・検証される。 私たちのコードはhttps://github.com/dalision/ModalBiasAVSRで利用可能です。

Advanced Audio-Visual Speech Recognition (AVSR) systems have been observed to be sensitive to missing video frames, performing even worse than single-modality models. While applying the dropout technique to the video modality enhances robustness to missing frames, it simultaneously results in a performance loss when dealing with complete data input. In this paper, we investigate this contrasting phenomenon from the perspective of modality bias and reveal that an excessive modality bias on the audio caused by dropout is the underlying reason. Moreover, we present the Modality Bias Hypothesis (MBH) to systematically describe the relationship between modality bias and robustness against missing modality in multimodal systems. Building on these findings, we propose a novel Multimodal Distribution Approximation with Knowledge Distillation (MDA-KD) framework to reduce over-reliance on the audio modality and to maintain performance and robustness simultaneously. Finally, to address an entirely missing modality, we adopt adapters to dynamically switch decision strategies. The effectiveness of our proposed approach is evaluated and validated through a series of comprehensive experiments using the MISP2021 and MISP2022 datasets. Our code is available at https://github.com/dalision/ModalBiasAVSR
翻訳日:2024-03-08 15:05:38 公開日:2024-03-07
# 吸収イメージングのための画像強調アルゴリズム

Image enhancement algorithm for absorption imaging ( http://arxiv.org/abs/2403.04240v1 )

ライセンス: Link先を確認
Pengcheng Zheng, Songqian Zhang, Zhu Ma, Haipo Niu, Jiatao Wu, Zerui Huang, Chengyin Han, Bo Lu, Peiliang Liu and Chaohong Lee(参考訳) 低温原子の吸収イメージングにおけるノイズは、超低温原子を用いた様々な応用における測定精度に大きな影響を及ぼす。 原子のユニークな構造を損なうことなく効果的な分極能力を提供するアプローチを採用することが重要である。 本稿では,冷原子吸光イメージングのための新しい画像強調アルゴリズムを提案する。 このアルゴリズムは背景雑音の抑制に成功し、画像コントラストを著しく向上させる。 実験の結果, 本手法は必須情報を保存しつつ, 冷媒粒子数測定の精度を約10倍に向上できることがわかった。 さらに,フェクトノイズや多成分イメージングのシナリオに直面する場合,優れた性能とロバスト性を示し,高い安定性を実現する。 重要なことは、最適化プロセスは完全に自動化され、手動パラメータの選択が不要になる。 この方法は互換性があり実用的であり、様々な吸収イメージング分野に適用できる。

The noise in absorption imaging of cold atoms significantly impacts measurement accuracy across a range of applications with ultracold atoms. It is crucial to adopt an approach that offers effective denoising capabilities without compromising the unique structure of the atoms. Here we introduce a novel image enhancement algorithm for cold atomic absorption imaging. The algorithm successfully suppresses background noise, enhancing image contrast significantly. Experimental results showcase that this approach can enhance the accuracy of cold atom particle number measurements by approximately tenfold, all while preserving essential information. Moreover, the method exhibits exceptional performance and robustness when confronted with fringe noise and multi-component imaging scenarios, offering high stability. Importantly, the optimization process is entirely automated, eliminating the need for manual parameter selection. The method is both compatible and practical, making it applicable across various absorption imaging fields.
翻訳日:2024-03-08 15:05:15 公開日:2024-03-07
# モデル選択による正規化DeepIV

Regularized DeepIV with Model Selection ( http://arxiv.org/abs/2403.04236v1 )

ライセンス: Link先を確認
Zihao Li, Hui Lan, Vasilis Syrgkanis, Mengdi Wang, Masatoshi Uehara(参考訳) 本稿では,機器変数(IV)回帰の非パラメトリック推定について検討する。 近年の機械学習はフレキシブルなIV推定法を導入しているが、(1)IV回帰を一意に識別するために制限すること、(2)極小計算オラクルを必要とすること、(3)モデル選択手順の欠如など、いくつかの制限に直面している。 本稿では,3つの制限をすべて回避しつつ,一般関数近似を可能とした最初の手法と解析について述べる。 具体的には,最小ノルムIV解に収束可能なRegularized DeepIV(RDIV)回帰法を提案する。 まず,共変量の条件分布を学習し,学習した分布を利用して,Tikhonov-regularized loss関数を最小化して推定器を学習する。 さらに,本手法により,不特定状態におけるオラクルレートを達成できるモデル選択が可能であることを示す。 反復推定器に拡張すると、現在の最先端収束率と一致する。 本手法は,非パラメトリックなmle第1段階推定器を持つ一般的なdeepiv法であるtikhonov正規化型であり,本手法の実証的使用法として最初の厳密な保証を提供し,本手法にない正規化の重要性を示した。

In this paper, we study nonparametric estimation of instrumental variable (IV) regressions. While recent advancements in machine learning have introduced flexible methods for IV estimation, they often encounter one or more of the following limitations: (1) restricting the IV regression to be uniquely identified; (2) requiring minimax computation oracle, which is highly unstable in practice; (3) absence of model selection procedure. In this paper, we present the first method and analysis that can avoid all three limitations, while still enabling general function approximation. Specifically, we propose a minimax-oracle-free method called Regularized DeepIV (RDIV) regression that can converge to the least-norm IV solution. Our method consists of two stages: first, we learn the conditional distribution of covariates, and by utilizing the learned distribution, we learn the estimator by minimizing a Tikhonov-regularized loss function. We further show that our method allows model selection procedures that can achieve the oracle rates in the misspecified regime. When extended to an iterative estimator, our method matches the current state-of-the-art convergence rate. Our method is a Tikhonov regularized variant of the popular DeepIV method with a non-parametric MLE first-stage estimator, and our results provide the first rigorous guarantees for this empirically used method, showcasing the importance of regularization which was absent from the original work.
翻訳日:2024-03-08 15:05:03 公開日:2024-03-07
# 非線形低ランク行列推定の基本限界

Fundamental limits of Non-Linear Low-Rank Matrix Estimation ( http://arxiv.org/abs/2403.04234v1 )

ライセンス: Link先を確認
Pierre Mergny, Justin Ko, Florent Krzakala, Lenka Zdeborov\'a(参考訳) 非線形および雑音観測から低ランク行列を推定する作業を検討する。 ベイズ最適性能は、非線形関数の拡張によってパラメータが完全に決定される有効事前を持つ等価ガウスモデルによって特徴づけられることを証明した。 特に、信号の正確な再構成には、$N^{\frac 12 (1-1/k_F)}$として増加する信号対雑音比が必要であり、$k_F$は関数の最初のゼロでないフィッシャー情報係数であることを示す。 本稿では,最小到達平均二乗誤差(MMSE)に対する漸近的特徴付けと,問題の線形バージョンに類似した条件下でMMSEに到達する近似メッセージパスアルゴリズムを提案する。 また,主成分分析法とベイズ分法を組み合わせた手法によって得られた漸近的誤差をベイズ最適mmseと比較した。

We consider the task of estimating a low-rank matrix from non-linear and noisy observations. We prove a strong universality result showing that Bayes-optimal performances are characterized by an equivalent Gaussian model with an effective prior, whose parameters are entirely determined by an expansion of the non-linear function. In particular, we show that to reconstruct the signal accurately, one requires a signal-to-noise ratio growing as $N^{\frac 12 (1-1/k_F)}$, where $k_F$ is the first non-zero Fisher information coefficient of the function. We provide asymptotic characterization for the minimal achievable mean squared error (MMSE) and an approximate message-passing algorithm that reaches the MMSE under conditions analogous to the linear version of the problem. We also provide asymptotic errors achieved by methods such as principal component analysis combined with Bayesian denoising, and compare them with Bayes-optimal MMSE.
翻訳日:2024-03-08 15:04:35 公開日:2024-03-07
# DEEP-ICL:言語モデルインコンテキスト学習のための定義豊富なエキスパート

DEEP-ICL: Definition-Enriched Experts for Language Model In-Context Learning ( http://arxiv.org/abs/2403.04233v1 )

ライセンス: Link先を確認
Xingwei Qu, Yiming Liang, Yucheng Wang, Tianyu Zheng, Tommy Yue, Lei Ma, Stephen W. Huang, Jiajun Zhang, Wenhu Chen, Chenghua Lin, Jie Fu, Ge Zhang(参考訳) 大規模言語モデル(LLM)のパラメータ数が多ければ多いほど、コンテキスト内学習(ICL)の能力が向上し、タスク固有のデモンストレーションを活用することで、大幅なパフォーマンス向上が期待できる。 ICLのための新しいタスク定義拡張ExPert Ensembling法であるDEEP-ICLを導入する。 DEEP-ICLは与えられたデモからタスク定義を明示的に抽出し、タスク固有の例を学習することで応答を生成する。 iclによる改善はモデルサイズに直接依存しないが、本質的にタスク定義とタスクガイド学習を理解することに起因していると論じている。 これに触発されて、DEEP-ICLは2つの3Bモデルと異なる役割(ひとつはタスク定義をまとめ、もう一つはタスクのデモを学習する)を組み合わせ、LLaMA2-13Bに匹敵するパフォーマンスを達成する。 さらに,本フレームワークは,プリトレーニングシーケンス長制限を克服し,無制限のデモンストレーションをサポートすることにより,従来のiclを上回っている。 我々は,DEEP-ICLが従来のICLを超越した,効率的な数ショット学習を実現する新しい代替手段であると主張している。

It has long been assumed that the sheer number of parameters in large language models (LLMs) drives in-context learning (ICL) capabilities, enabling remarkable performance improvements by leveraging task-specific demonstrations. Challenging this hypothesis, we introduce DEEP-ICL, a novel task Definition Enriched ExPert Ensembling methodology for ICL. DEEP-ICL explicitly extracts task definitions from given demonstrations and generates responses through learning task-specific examples. We argue that improvement from ICL does not directly rely on model size, but essentially stems from understanding task definitions and task-guided learning. Inspired by this, DEEP-ICL combines two 3B models with distinct roles (one for concluding task definitions and the other for learning task demonstrations) and achieves comparable performance to LLaMA2-13B. Furthermore, our framework outperforms conventional ICL by overcoming pretraining sequence length limitations, by supporting unlimited demonstrations. We contend that DEEP-ICL presents a novel alternative for achieving efficient few-shot learning, extending beyond the conventional ICL.
翻訳日:2024-03-08 15:04:19 公開日:2024-03-07
# 多目的タスク学習による協調運転の一般化

Generalizing Cooperative Eco-driving via Multi-residual Task Learning ( http://arxiv.org/abs/2403.04232v1 )

ライセンス: Link先を確認
Vindula Jayawardana, Sirui Li, Cathy Wu, Yashar Farid, Kentaro Oguchi(参考訳) モデルベース制御のような従来の制御は、その効率性と信頼性のため、自律運転に一般的に利用される。 しかし、現実の自動運転は、これらの計画アルゴリズムに挑戦するさまざまな交通シナリオと競合する。 モデルフリーのDeep Reinforcement Learning (DRL)はこの方向に有望な道を示すが、複数のトラフィックシナリオに一般化するDRL制御ポリシーを学ぶことは依然として難しい。 マルチタスク学習に基づく汎用学習フレームワークであるMRTL(Multi-Residual Task Learning)を導入し、タスクシナリオの集合に対して、従来の制御手法と学習を用いて解決された残語によって効果的に解決される名目コンポーネントに制御を分解する。 システム制御手段として自律走行車を用いた混合交通のフリートレベル排出削減にmtlを用いる。 約600の信号通信交差点と1200の交通シナリオにおけるMRTLの性能を解析することにより、DRLの強度と従来の制御手法を相乗化するための有望なアプローチとして現れることを示す。

Conventional control, such as model-based control, is commonly utilized in autonomous driving due to its efficiency and reliability. However, real-world autonomous driving contends with a multitude of diverse traffic scenarios that are challenging for these planning algorithms. Model-free Deep Reinforcement Learning (DRL) presents a promising avenue in this direction, but learning DRL control policies that generalize to multiple traffic scenarios is still a challenge. To address this, we introduce Multi-residual Task Learning (MRTL), a generic learning framework based on multi-task learning that, for a set of task scenarios, decomposes the control into nominal components that are effectively solved by conventional control methods and residual terms which are solved using learning. We employ MRTL for fleet-level emission reduction in mixed traffic using autonomous vehicles as a means of system control. By analyzing the performance of MRTL across nearly 600 signalized intersections and 1200 traffic scenarios, we demonstrate that it emerges as a promising approach to synergize the strengths of DRL and conventional methods in generalizable control.
翻訳日:2024-03-08 15:03:57 公開日:2024-03-07
# マルチ露光HDRイメージングのための単一画像HDR再構成によるゴースト抑制と詳細保存ネットワーク

Single-Image HDR Reconstruction Assisted Ghost Suppression and Detail Preservation Network for Multi-Exposure HDR Imaging ( http://arxiv.org/abs/2403.04228v1 )

ライセンス: Link先を確認
Huafeng Li, Zhenmei Yang, Yafei Zhang, Dapeng Tao, Zhengtao Yu(参考訳) ダイナミックシーンにおけるマルチ露光低ダイナミックレンジ(LDR)画像からの高ダイナミックレンジ(HDR)画像の再構成は,特に過飽和地域における情報の保存・復元やゴースト化の回避に重要な課題を呈している。 現状の手法ではこれらの課題に対処するのに苦労することが多いが,本研究は,一フレームのHDR画像再構成を補完した動的シーンのためのマルチ露光HDR画像再構成ネットワークを開発することで,このギャップを埋めることを目的としている。 拡張停止画像(SHDR-ESI)とSHDR-ESI支援マルチ露光HDR再構成(SHDRA-MHDR)を併用した単一フレームHDR再構成を含むネットワークは、単一フレームHDR再構成のゴーストフリー特性と、過飽和領域におけるESIの詳細な拡張能力を有効活用する。 具体的には、SHDR-ESIは、単一フレームHDR再構成とESIの利用を革新的に統合する。 この統合は、単一画像HDR再構成プロセスを最適化するだけでなく、SHDR-AMHDRにおけるマルチ露光HDR画像の合成を効果的に導く。 本手法では,マルチ露光HDR合成におけるゴースト効果を低減するため,単一フレームHDR再構成を特に適用し,ESI画像を用いることでHDR合成プロセスの詳細な情報を高めることができる。 技術的には、SHDR-ESIには、自己表現モジュールと相互表現モジュールを含む詳細拡張機構が組み込まれており、参照画像とESIの両方から重要な情報を集約するように設計されている。 非参照画像からの補完情報をフル活用するために、SHDRA-MHDR内に特徴相互作用融合モジュールを統合する。 また、SHDR-ESIのゴーストフリー結果に導かれるゴースト抑制モジュールを用いてゴーストアーティファクトの抑制を行う。

The reconstruction of high dynamic range (HDR) images from multi-exposure low dynamic range (LDR) images in dynamic scenes presents significant challenges, especially in preserving and restoring information in oversaturated regions and avoiding ghosting artifacts. While current methods often struggle to address these challenges, our work aims to bridge this gap by developing a multi-exposure HDR image reconstruction network for dynamic scenes, complemented by single-frame HDR image reconstruction. This network, comprising single-frame HDR reconstruction with enhanced stop image (SHDR-ESI) and SHDR-ESI-assisted multi-exposure HDR reconstruction (SHDRA-MHDR), effectively leverages the ghost-free characteristic of single-frame HDR reconstruction and the detail-enhancing capability of ESI in oversaturated areas. Specifically, SHDR-ESI innovatively integrates single-frame HDR reconstruction with the utilization of ESI. This integration not only optimizes the single image HDR reconstruction process but also effectively guides the synthesis of multi-exposure HDR images in SHDR-AMHDR. In this method, the single-frame HDR reconstruction is specifically applied to reduce potential ghosting effects in multiexposure HDR synthesis, while the use of ESI images assists in enhancing the detail information in the HDR synthesis process. Technically, SHDR-ESI incorporates a detail enhancement mechanism, which includes a self-representation module and a mutual-representation module, designed to aggregate crucial information from both reference image and ESI. To fully leverage the complementary information from non-reference images, a feature interaction fusion module is integrated within SHDRA-MHDR. Additionally, a ghost suppression module, guided by the ghost-free results of SHDR-ESI, is employed to suppress the ghosting artifacts.
翻訳日:2024-03-08 15:03:39 公開日:2024-03-07
# シンポジウム:機械学習のトレードオフに関する社会技術的視点

Disciplining deliberation: a sociotechnical perspective on machine learning trade-offs ( http://arxiv.org/abs/2403.04226v1 )

ライセンス: Link先を確認
Sina Fazelpour(参考訳) 本稿では,責任ある人工知能(ai)の分野において,予測精度と公平性,予測精度と解釈可能性の2つの高度に公表された形式的トレードオフに焦点を当てる。 これらの正式なトレードオフは、しばしば研究者、実践者、政策立案者によって、基礎となる価値間の緊張を直接暗示するために取られる。 このように、トレードオフはAIガバナンスにおける規範的関与の核心となる焦点を形成し、規律の線に沿って特定の分業を伴っている。 本稿では,この一般的な解釈に対して,形式的トレードオフとそれに関連する価値への影響を橋渡しする上で重要な3つの考慮事項に注意を向けて論じる。 これらの考察を無視することで、我々の規範的な熟考を歪め、コストと不一致の介入と正当化につながるかを示します。 総合すると、これらの考察は、aiガバナンスに関わる人たちを導く社会学的枠組みを形成し、多くの場合において、トレードオフの一般的な解釈よりも高い願望を持つことを評価できる。 最終的には、これらの考慮から生まれる規範的な機会と課題を抽出し、責任あるAIを育むための学際的なコラボレーションの衝動を強調します。

This paper focuses on two highly publicized formal trade-offs in the field of responsible artificial intelligence (AI) -- between predictive accuracy and fairness and between predictive accuracy and interpretability. These formal trade-offs are often taken by researchers, practitioners, and policy-makers to directly imply corresponding tensions between underlying values. Thus interpreted, the trade-offs have formed a core focus of normative engagement in AI governance, accompanied by a particular division of labor along disciplinary lines. This paper argues against this prevalent interpretation by drawing attention to three sets of considerations that are critical for bridging the gap between these formal trade-offs and their practical impacts on relevant values. I show how neglecting these considerations can distort our normative deliberations, and result in costly and misaligned interventions and justifications. Taken together, these considerations form a sociotechnical framework that could guide those involved in AI governance to assess how, in many cases, we can and should have higher aspirations than the prevalent interpretation of the trade-offs would suggest. I end by drawing out the normative opportunities and challenges that emerge out of these considerations, and highlighting the imperative of interdisciplinary collaboration in fostering responsible AI.
翻訳日:2024-03-08 15:03:03 公開日:2024-03-07
# 3DTexture Transformer:任意メッシュトポロジーのための幾何学的テクスチャ生成

3DTextureTransformer: Geometry Aware Texture Generation for Arbitrary Mesh Topology ( http://arxiv.org/abs/2403.04225v1 )

ライセンス: Link先を確認
Dharma KC, Clayton T. Morrison(参考訳) 3dメッシュと現実世界の2dイメージのコレクションを与えられた新しい3dメッシュのテクスチャ生成の学習は、3dシミュレーション、拡張現実、仮想現実、ゲーム、アーキテクチャ、デザインといった様々な分野のアプリケーションにとって重要な問題である。 既存のソリューションは、高品質なテクスチャを生成したり、元の高解像度の入力メッシュトポロジを正規のグリッドに変形させたりすることで、この生成を容易にするが、元のメッシュトポロジを失う。 本稿では,従来の高分解能入力メッシュを変形することなく高品質なテクスチャを生成できる3dtexturetransformerと呼ばれる新しいフレームワークを提案する。 我々のソリューションは幾何学的なディープラーニングとStyleGANのようなアーキテクチャのハイブリッドであり、任意のメッシュトポロジを扱うのに十分な柔軟性があり、ポイントクラウド表現のためのテクスチャ生成にも容易に対応できる。 3dテクスチャ生成のためのstyleganライクなアーキテクチャと合わせて,メッセージパッシングフレームワークを3dで採用する。 このアーキテクチャは、任意のメッシュトポロジで作業しながら、3D幾何学と実世界の2D画像の集合から学習できるソリューションのクラスの中で、最先端のパフォーマンスを達成する。

Learning to generate textures for a novel 3D mesh given a collection of 3D meshes and real-world 2D images is an important problem with applications in various domains such as 3D simulation, augmented and virtual reality, gaming, architecture, and design. Existing solutions either do not produce high-quality textures or deform the original high-resolution input mesh topology into a regular grid to make this generation easier but also lose the original mesh topology. In this paper, we present a novel framework called the 3DTextureTransformer that enables us to generate high-quality textures without deforming the original, high-resolution input mesh. Our solution, a hybrid of geometric deep learning and StyleGAN-like architecture, is flexible enough to work on arbitrary mesh topologies and also easily extensible to texture generation for point cloud representations. Our solution employs a message-passing framework in 3D in conjunction with a StyleGAN-like architecture for 3D texture generation. The architecture achieves state-of-the-art performance among a class of solutions that can learn from a collection of 3D geometry and real-world 2D images while working with any arbitrary mesh topology.
翻訳日:2024-03-08 15:02:40 公開日:2024-03-07
# Aligners: LLMとアライメントの分離

Aligners: Decoupling LLMs and Alignment ( http://arxiv.org/abs/2403.04224v1 )

ライセンス: Link先を確認
Lilian Ngweta, Mayank Agarwal, Subha Maity, Alex Gittens, Yuekai Sun, Mikhail Yurochkin(参考訳) 大きな言語モデル(LLM)は、ほとんどのアプリケーションで安全性と実用性を確保するために、人間の期待に沿う必要がある。 アライメントは困難でコストがかかり、すべてのLCMとアライメント基準を繰り返す必要があります。 そこで本稿では,LLM とアライメントをトレーニングアライメントモデルによって分離し,任意の基準をアライメントすることで,アライメントがパフォーマンスに与える影響を低減することを提案する。 リライナーモデルをトレーニングするためのレシピは、(入力された)llmで生成された合成データのみに依存しており、様々なアライメント基準に容易に調整することができます。 本手法を「倫理的」なライナーを訓練し,その効果を実証的に検証する。

Large Language Models (LLMs) need to be aligned with human expectations to ensure their safety and utility in most applications. Alignment is challenging, costly, and needs to be repeated for every LLM and alignment criterion. We propose to decouple LLMs and alignment by training aligner models that can be used to align any LLM for a given criteria on an as-needed basis, thus also reducing the potential negative impacts of alignment on performance. Our recipe for training the aligner models solely relies on synthetic data generated with a (prompted) LLM and can be easily adjusted for a variety of alignment criteria. We illustrate our method by training an "ethical" aligner and verify its efficacy empirically.
翻訳日:2024-03-08 15:02:20 公開日:2024-03-07
# ガラス箱の特徴に基づく大規模言語モデルの自己評価

Self-Evaluation of Large Language Model based on Glass-box Features ( http://arxiv.org/abs/2403.04222v1 )

ライセンス: Link先を確認
Hui Huang, Yingqi Qu, Jing Liu, Muyun Yang, Tiejun Zhao(参考訳) オープンソースのLarge Language Models (LLMs) の普及は,評価手法の必要性を浮き彫りにしている。 既存の作業は主に外部評価に頼っており、トレーニングと戦略の推進に重点を置いている。 しかし、重要な側面であるモデル対応のガラスボックス機能は見過ごされている。 本研究では,ガラス箱の特徴を自己評価のシナリオ,すなわち LLM を適用して独自の出力を評価することによる有用性について検討する。 ガラス箱の特徴群を調査し,ソフトマックス分布が品質評価の信頼性指標となることを発見した。 さらに,参照から派生した特徴を組み込むことにより,評価を高めるための2つの戦略を提案する。 ガラス箱の特徴を用いたLCMの自己評価の実現可能性を検証する。

The proliferation of open-source Large Language Models (LLMs) underscores the pressing need for evaluation methods. Existing works primarily rely on external evaluators, focusing on training and prompting strategies. However, a crucial aspect - model-aware glass-box features - is overlooked. In this study, we explore the utility of glass-box features under the scenario of self-evaluation, namely applying an LLM to evaluate its own output. We investigate various glass-box feature groups and discovered that the softmax distribution serves as a reliable indicator for quality evaluation. Furthermore, we propose two strategies to enhance the evaluation by incorporating features derived from references. Experimental results on public benchmarks validate the feasibility of self-evaluation of LLMs using glass-box features.
翻訳日:2024-03-08 15:02:06 公開日:2024-03-07
# オンライン強化学習が重要な理由

Why Online Reinforcement Learning is Causal ( http://arxiv.org/abs/2403.04221v1 )

ライセンス: Link先を確認
Oliver Schulte, Pascal Poupart(参考訳) 強化学習(RL)と因果モデリングは自然に互いに補完する。 因果モデリングの目的は、環境における介入の効果を予測することであり、強化学習の目的は、エージェントが環境から受ける報酬を最大化する介入を選択することである。 強化学習には、時間的順序付けと環境に作用する能力という、因果関係を推定するための2つの最も強力な情報源が含まれる。 本稿では,因果モデリングのメリットを期待できる強化学習設定と方法を検討する。 オンライン学習では、エージェントは環境と直接対話し、探索から学ぶことができる。 オンライン学習においては、条件付き確率は因果的であり、従ってオフラインRLは因果的学習が最大の可能性を持つ環境である。 本質的には、エージェントが自身の経験から学ぶと、エージェント自身の探索行動と受け取った報酬の両方に影響を与える、観察されていない共同創設者がいないからである。 私たちの論文はこの議論を形式化する。 エージェントが"em other"の経験から学び、典型的に学習するオフラインrlでは、カウンターファクトクエリのサポートを含む因果モデルを活用するための、以前の新しい方法と新しい方法について説明する。

Reinforcement learning (RL) and causal modelling naturally complement each other. The goal of causal modelling is to predict the effects of interventions in an environment, while the goal of reinforcement learning is to select interventions that maximize the rewards the agent receives from the environment. Reinforcement learning includes the two most powerful sources of information for estimating causal relationships: temporal ordering and the ability to act on an environment. This paper examines which reinforcement learning settings we can expect to benefit from causal modelling, and how. In online learning, the agent has the ability to interact directly with their environment, and learn from exploring it. Our main argument is that in online learning, conditional probabilities are causal, and therefore offline RL is the setting where causal learning has the most potential to make a difference. Essentially, the reason is that when an agent learns from their {\em own} experience, there are no unobserved confounders that influence both the agent's own exploratory actions and the rewards they receive. Our paper formalizes this argument. For offline RL, where an agent may and typically does learn from the experience of {\em others}, we describe previous and new methods for leveraging a causal model, including support for counterfactual queries.
翻訳日:2024-03-08 15:01:55 公開日:2024-03-07
# 感情支援対話生成のための意味的類似性によるペルソナ抽出

Persona Extraction Through Semantic Similarity for Emotional Support Conversation Generation ( http://arxiv.org/abs/2403.04212v1 )

ライセンス: Link先を確認
Seunghee Han, Se Jin Park, Chae Won Kim, Yong Man Ro(参考訳) 対話システムを通じた感情的支援は、多くの会話シナリオにおいてメンタルヘルスと社会的インタラクションの両方をサポートすることができるため、今日の世界でますます重要になっている。 以前の研究では、ペルソナの使用が共感的かつ支援的な反応の生成に有効であることが示されている。 彼らは会話中に推論するよりも、事前に提供されたペルソナに頼ることが多い。 しかし,会話開始前にユーザペルソナを取得することは必ずしも不可能ではない。 この課題に対処するために,対話から情報的かつ一貫性のあるペルソナを自動的に推測できる新しいフレームワークであるPESS(Persona extract through Semantic similarity)を提案する。 意味的類似度スコアに基づいて完全性損失と整合性損失を考案する。 完全性喪失はモデルが欠落しているペルソナ情報を生成することを奨励し、一貫性の喪失はモデルが一貫性のあるパーソナリティと一貫性のないパーソナリティを区別することを導く。 PESSによって推定される高品質のペルソナ情報が,情緒的支援反応の生成に有効であることを示す実験結果を得た。

Providing emotional support through dialogue systems is becoming increasingly important in today's world, as it can support both mental health and social interactions in many conversation scenarios. Previous works have shown that using persona is effective for generating empathetic and supportive responses. They have often relied on pre-provided persona rather than inferring them during conversations. However, it is not always possible to obtain a user persona before the conversation begins. To address this challenge, we propose PESS (Persona Extraction through Semantic Similarity), a novel framework that can automatically infer informative and consistent persona from dialogues. We devise completeness loss and consistency loss based on semantic similarity scores. The completeness loss encourages the model to generate missing persona information, and the consistency loss guides the model to distinguish between consistent and inconsistent persona. Our experimental results demonstrate that high-quality persona information inferred by PESS is effective in generating emotionally supportive responses.
翻訳日:2024-03-08 15:01:34 公開日:2024-03-07
# 多面光変換器を用いた高次元量子鍵分布

High-dimensional quantum key distribution using a multi-plane light converter ( http://arxiv.org/abs/2403.04210v1 )

ライセンス: Link先を確認
Ohad Lib, Kfir Sulimany, Michael Ben-Or, Yaron Bromberg(参考訳) 高次元量子鍵分布(QKD)は、2進法に比べて高い情報容量と強い雑音耐性を提供する。 しかし、これらの利点は、必要な高次元の計測と変換を実現することの難しさによってしばしば妨げられる。 本稿では,大規模マルチプレーン光コンバータ(MPLC)を実装し,QKDの空間モードの高次元モードソータとしてプログラムする。 我々はMPLCを用いて、6つの非バイアスベースと2つの相互バイアスベースを持つ25次元QKDを同じ実験装置で5次元QKDを示す。 さらに,実験誤差に頑健な相互に偏りのない基底の対の構成を提案し,それらの測定複雑性は符号化次元の平方根のみにスケールし,高次元のqkd実装への道を開く。

High-dimensional quantum key distribution (QKD) offers higher information capacity and stronger resilience to noise compared to its binary counterpart. However, these advantages are often hindered by the difficulty of realizing the required high-dimensional measurements and transformations. Here, we implement a large-scale multi-plane light converter (MPLC) and program it as a high-dimensional mode sorter of spatial modes for QKD. We use the MPLC to demonstrate five-dimensional QKD using six mutually unbiased bases and 25-dimensional QKD with two mutually unbiased bases in the same experimental setup. We further propose a construction of pairs of mutually unbiased bases that are robust to experimental errors, and their measurement complexity scales only with the square root of the encoded dimension, paving the way for QKD implementations in higher dimensions.
翻訳日:2024-03-08 15:01:16 公開日:2024-03-07
# 光励起固体中の電子相関ダイナミクスのフォノン状態トモグラフィー

Phonon state tomography of electron correlation dynamics in optically excited solids ( http://arxiv.org/abs/2403.04209v1 )

ライセンス: Link先を確認
M. Moroder, M. Mitrano, U. Schollw\"ock, S. Paeckel and J. Sous(参考訳) 我々は、フォノンがレーザーパルスによって光励起される固体中の電子動力学の診断プローブとして、フォノン状態トモグラフィ(pst)を導入する。 PSTは、PP-MPSアルゴリズムを用いて、正確な相関電子フォノン波動関数を、光学的にアクセス可能なフォノン応答の統計的に典型的な構成に対応する純粋電子状態からの寄与に分解し、フォノンが生成する電子力学の「トモグラフィ」再構築を可能にする。 したがって、PSTは熱拡散X線や電子散乱のようなフォノン反応のみにアクセスする実験で電子挙動を診断するために用いられる。 PSTの有用性を実証するため,光パルスで初期励起された金属の力学を解析し,試料平均運動量分解フォノン占有率をシミュレーションし,電子二重占有率とスタッガード磁化を実験的に正確に再構成した。 また、PSTを用いて異なるパルス形状が光誘起による電子相関の増強と抑制に与える影響を分析する。

We introduce phonon state tomography (PST) as a diagnostic probe of electron dynamics in solids whose phonons are optically excited by a laser pulse at an initial time. Using a projected-purified matrix-product states (PP-MPS) algorithm, PST decomposes the exact correlated electron-phonon wavefunction into contributions from purely electronic states corresponding to statistically typical configurations of the optically accessible phononic response, enabling a 'tomographic' reconstruction of the electronic dynamics generated by the phonons. Thus, PST may be used to diagnose electronic behavior in experiments that access only the phonon response, such as thermal diffuse x-ray and electron scattering. To demonstrate the usefulness of PST, we study the dynamics of a metal whose infrared phonons are excited by an optical pulse at initial time and use it to simulate the sample-averaged momentum-resolved phonon occupancy as would be measured experimentally and accurately reconstruct the electronic double occupancy and staggered magnetization. We also use PST to analyze the influence of different pulse shapes on the light-induced enhancement and suppression of electronic correlations.
翻訳日:2024-03-08 15:01:01 公開日:2024-03-07
# チップベース連続可変量子鍵分布系の高安定電力制御

Highly stable power control for chip-based continuous-variable quantum key distribution system ( http://arxiv.org/abs/2403.04284v1 )

ライセンス: Link先を確認
Yiming Bian, Yang Li, Xuesong Xu, Tao Zhang, Yan Pan, Wei Huang, Song Yu, Lei Zhang, Yichen Zhang and Bingjie Xu(参考訳) 量子鍵分布は情報理論セキュリティを備えた秘密鍵生成を可能にする。 フォトニック集積回路により、小さなフットプリントと大規模製造能力の恩恵を受けることができる。 連続可変量子鍵分布は、成熟した光通信デバイスとの互換性のため、チップベースの統合に適している。 しかし、成熟したフォトニック集積プロセスと互換性のある量子信号電力制御は、システムの性能を制限し、実用的なセキュリティホールを開く秘密鍵レートを過大評価する安定性に直面する。 ここでは, 偏光マッハ・ツェンダー干渉計構造に基づく高安定なチップベースの量子信号電力制御手法を提案し, 理論解析を行い, 標準シリコンフォトニクス技術を用いて実験的に実装した。 シミュレーションおよび実験結果から,提案手法は,従来の設計法に比べて秘密鍵レートの標準偏差を桁違いに抑えるシステム安定性を著しく向上させ,チップ上での高安定な連続可変量子鍵分布システムを実現するための有望かつ実践的な方法を示す。

Quantum key distribution allows secret key generation with information theoretical security. It can be realized with photonic integrated circuits to benefit the tiny footprints and the large-scale manufacturing capacity. Continuous-variable quantum key distribution is suitable for chip-based integration due to its compatibility with mature optical communication devices. However, the quantum signal power control compatible with the mature photonic integration process faces difficulties on stability, which limits the system performance and causes the overestimation of secret key rate that opens practical security loopholes. Here, a highly stable chip-based quantum signal power control scheme based on a biased Mach-Zehnder interferometer structure is proposed, theoretically analyzed and experimentally implemented with standard silicon photonic techniques. Simulations and experimental results show that the proposed scheme significantly improves the system stability, where the standard deviation of the secret key rate is suppressed by an order of magnitude compared with the system using traditional designs, showing a promising and practicable way to realize highly stable continuous-variable quantum key distribution system on chip.
翻訳日:2024-03-08 14:58:08 公開日:2024-03-07
# Proxy-RLHF: Proxyを用いた大規模言語モデルにおけるデカップリング生成とアライメント

Proxy-RLHF: Decoupling Generation and Alignment in Large Language Model with Proxy ( http://arxiv.org/abs/2403.04283v1 )

ライセンス: Link先を確認
Yu Zhu, Chuxiong Sun, Wenfei Yang, Wenqiang Wei, Bo Tang, Tianzhu Zhang, Zhiyu Li, Shifeng Zhang, Feiyu Xiong, Jie Hu, Mingchuan yang(参考訳) Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) が人間の価値と一致することを確実にするための一般的なアプローチである。 しかし、既存のRLHF法は高い計算コストを必要とするため、RLHFは生成タスクとアライメントタスクを同時にLLMに割り当てる。 本稿では,LLMの生成とアライメントを分離するProxy-RLHFを提案する。 我々は、アライメントプロセス用に設計された新しいマルコフ決定プロセス(MDP)から始まり、強化学習(RL)を用いてLLM自体を変更することなく、LLMのトークン生成を監督する合理化されたプロキシモデルを訓練する。 実験により,本手法は他の手法のトレーニングパラメータの1\%と同等のアライメントが得られることがわかった。

Reinforcement Learning from Human Feedback (RLHF) is the prevailing approach to ensure Large Language Models (LLMs) align with human values. However, existing RLHF methods require a high computational cost, one main reason being that RLHF assigns both the generation and alignment tasks to the LLM simultaneously. In this paper, we introduce Proxy-RLHF, which decouples the generation and alignment processes of LLMs, achieving alignment with human values at a much lower computational cost. We start with a novel Markov Decision Process (MDP) designed for the alignment process and employ Reinforcement Learning (RL) to train a streamlined proxy model that oversees the token generation of the LLM, without altering the LLM itself. Experiments show that our method achieves a comparable level of alignment with only 1\% of the training parameters of other methods.
翻訳日:2024-03-08 14:57:50 公開日:2024-03-07
# アラビアコールドメインにおける音声認識評価のための新しいベンチマーク

A New Benchmark for Evaluating Automatic Speech Recognition in the Arabic Call Domain ( http://arxiv.org/abs/2403.04280v1 )

ライセンス: Link先を確認
Qusai Abo Obaidah, Muhy Eddin Zater, Adnan Jaljuli, Ali Mahboub, Asma Hakouz, Bashar Alfrou, Yazan Estaitia(参考訳) この研究は、アラビア語における電話会話の課題に対処するために、アラビア語音声認識のための包括的なベンチマークを導入する試みである。 アラビア語は方言の多様性と音声の複雑さを特徴とし、自動音声認識(ASR)システムに固有の課題を数多く提示している。 これらの課題は、音声品質、背景雑音、会話音声スタイルが認識精度に悪影響を及ぼす電話の領域においてさらに増幅される。 我々の研究は、アラビア方言の幅広い範囲を包含するだけでなく、コールベースのコミュニケーションの現実的な条件をエミュレートする堅牢なベンチマークを確立することを目的としている。 本ベンチマークは,多様な方言表現を取り入れ,通話記録の変動品質を考慮し,アラビア語音声の複雑度を電話で操作できるASRシステムの開発と評価のための厳密な試験基盤を提供することを目的とする。 この研究は、最先端のASR技術を用いたベースライン性能評価の確立も試みている。

This work is an attempt to introduce a comprehensive benchmark for Arabic speech recognition, specifically tailored to address the challenges of telephone conversations in Arabic language. Arabic, characterized by its rich dialectal diversity and phonetic complexity, presents a number of unique challenges for automatic speech recognition (ASR) systems. These challenges are further amplified in the domain of telephone calls, where audio quality, background noise, and conversational speech styles negatively affect recognition accuracy. Our work aims to establish a robust benchmark that not only encompasses the broad spectrum of Arabic dialects but also emulates the real-world conditions of call-based communications. By incorporating diverse dialectical expressions and accounting for the variable quality of call recordings, this benchmark seeks to provide a rigorous testing ground for the development and evaluation of ASR systems capable of navigating the complexities of Arabic speech in telephonic contexts. This work also attempts to establish a baseline performance evaluation using state-of-the-art ASR technologies.
翻訳日:2024-03-08 14:57:33 公開日:2024-03-07
# テキスト・画像拡散モデルによる制御可能生成:サーベイ

Controllable Generation with Text-to-Image Diffusion Models: A Survey ( http://arxiv.org/abs/2403.04279v1 )

ライセンス: Link先を確認
Pu Cao, Feng Zhou, Qing Song, Lu Yang(参考訳) 急速に進歩する視覚生成の領域では、拡散モデルが風景に革命をもたらし、その印象的なテキスト誘導生成機能によって能力が大幅に変化した。 しかし、これらのモデルを条件付けするためにテキストのみに頼ることは、異なるアプリケーションやシナリオの多様な複雑な要求に完全に従わない。 この欠点を認識した様々な研究は、新しい条件をサポートするために事前訓練されたテキスト・ツー・イメージ(T2I)モデルを制御することを目的としている。 本調査では,T2I拡散モデルを用いた制御可能世代に関する文献を概観し,理論的基礎と実用的発展の両面を概観する。 本稿では,拡散確率モデル (DDPM) と広く使用されているT2I拡散モデルについて概説する。 次に, 拡散モデルの制御機構を明らかにし, 条件生成過程に新しい条件がどのように導入されるかを理論的に解析する。 さらに,本研究の詳細な概要を述べるとともに,特定の条件による生成,複数の条件による生成,普遍的な制御可能な生成など,条件の観点から異なるカテゴリに分類する。 調査対象となったコントロール可能な世代文献の完全なリストについては、'url{https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models}のキュレートされたリポジトリを参照してください。

In the rapidly advancing realm of visual generation, diffusion models have revolutionized the landscape, marking a significant shift in capabilities with their impressive text-guided generative functions. However, relying solely on text for conditioning these models does not fully cater to the varied and complex requirements of different applications and scenarios. Acknowledging this shortfall, a variety of studies aim to control pre-trained text-to-image (T2I) models to support novel conditions. In this survey, we undertake a thorough review of the literature on controllable generation with T2I diffusion models, covering both the theoretical foundations and practical advancements in this domain. Our review begins with a brief introduction to the basics of denoising diffusion probabilistic models (DDPMs) and widely used T2I diffusion models. We then reveal the controlling mechanisms of diffusion models, theoretically analyzing how novel conditions are introduced into the denoising process for conditional generation. Additionally, we offer a detailed overview of research in this area, organizing it into distinct categories from the condition perspective: generation with specific conditions, generation with multiple conditions, and universal controllable generation. For an exhaustive list of the controllable generation literature surveyed, please refer to our curated repository at \url{https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models}.
翻訳日:2024-03-08 14:57:16 公開日:2024-03-07
# アクティブな一般化カテゴリー発見

Active Generalized Category Discovery ( http://arxiv.org/abs/2403.04272v1 )

ライセンス: Link先を確認
Shijie Ma, Fei Zhu, Zhun Zhong, Xu-Yao Zhang, Cheng-Lin Liu(参考訳) Generalized Category Discovery (GCD)は、新しいクラスと古いクラスの両方からラベルなしのサンプルをクラスタリングし、古いクラスのラベル付きデータを活用する、実用的で挑戦的なオープンワールドタスクである。 古いクラスから学んだ知識が新しいクラスに完全に移行できないことや、新しいカテゴリが完全にラベル付けされていないことを考えると、gcdは本質的に不均衡な分類性能や古いクラスと新しいクラスの間の一貫性の欠如といった難題に直面している。 そのため、新しいクラスのアノテーションが必要になる。 しかし、新しいクラスのラベル付けは非常にコストがかかる。 この問題に対処するために,我々はアクティブラーニングの精神を取り入れ,active generalized category discovery (agcd) と呼ばれる新しい設定を提案する。 目的は、オラクルからラベル付けするための貴重なサンプルを限定的に選択することで、GCDの性能を向上させることである。 そこで本研究では,新規性,情報性,多様性を共同で考慮し,適切な不確実性を有する新規標本を適応的に選択する適応サンプリング戦略を考案する。 しかし,新クラスのクラスタリングによるラベル表示の順序の多様性から,クエリされたラベルはその後のトレーニングには直接適用されない。 この問題を克服するため,本研究では,基底真理ラベルを分類器のラベル空間に変換する安定なラベルマッピングアルゴリズムを提案する。 提案手法は,汎用および微細なデータセット上での最先端性能を実現する。 私たちのコードはhttps://github.com/mashijie1028/ActiveGCDで利用可能です。

Generalized Category Discovery (GCD) is a pragmatic and challenging open-world task, which endeavors to cluster unlabeled samples from both novel and old classes, leveraging some labeled data of old classes. Given that knowledge learned from old classes is not fully transferable to new classes, and that novel categories are fully unlabeled, GCD inherently faces intractable problems, including imbalanced classification performance and inconsistent confidence between old and new classes, especially in the low-labeling regime. Hence, some annotations of new classes are deemed necessary. However, labeling new classes is extremely costly. To address this issue, we take the spirit of active learning and propose a new setting called Active Generalized Category Discovery (AGCD). The goal is to improve the performance of GCD by actively selecting a limited amount of valuable samples for labeling from the oracle. To solve this problem, we devise an adaptive sampling strategy, which jointly considers novelty, informativeness and diversity to adaptively select novel samples with proper uncertainty. However, owing to the varied orderings of label indices caused by the clustering of novel classes, the queried labels are not directly applicable to subsequent training. To overcome this issue, we further propose a stable label mapping algorithm that transforms ground truth labels to the label space of the classifier, thereby ensuring consistent training across different active selection stages. Our method achieves state-of-the-art performance on both generic and fine-grained datasets. Our code is available at https://github.com/mashijie1028/ActiveGCD
翻訳日:2024-03-08 14:56:52 公開日:2024-03-07
# 変分量子回路のqubit-wiseアーキテクチャ探索法

Qubit-Wise Architecture Search Method for Variational Quantum Circuits ( http://arxiv.org/abs/2403.04268v1 )

ライセンス: Link先を確認
Jialin Chen, Zhiqiang Cai, Ke Xu, Di Wu, Wei Cao(参考訳) ノイズレベル制限を考えると、量子機械学習の重要な側面は、少数の量子ゲートを持つ高パフォーマンスな変分量子回路アーキテクチャを設計することである。 古典的ニューラルネットワーク探索(nas)として、量子アーキテクチャ探索法(qas)は強化学習、進化アルゴリズム、スーパーネットオプティミザメントなどの手法を用いて探索効率を向上させる。 本稿では,QWAS(qubit-wise architec-ture search)手法を提案する。この手法は,各ステージごとに1量子構成を多角的に探索し,モンテカルロ木探索と組み合わせて,探索空間をいくつかの良い部分と悪い部分に分割することで,優れた量子アーキテクチャを求める。 数値実験の結果,提案手法は,mnist, fashion,mosiなどの実世界のタスクにおけるcir-cuitの性能と大きさの探索と活用を両立できることがわかった。 我々の知る限り、QWASは正確さと回路サイズの観点から全てのタスクの最先端のリサートを達成する。

Considering the noise level limit, one crucial aspect for quantum machine learning is to design a high-performing variational quantum circuit architecture with small number of quantum gates. As the classical neural architecture search (NAS), quantum architecture search methods (QAS) employ methods like reinforcement learning, evolutionary algorithms and supernet optimiza-tion to improve the search efficiency. In this paper, we propose a novel qubit-wise architec-ture search (QWAS) method, which progres-sively search one-qubit configuration per stage, and combine with Monte Carlo Tree Search al-gorithm to find good quantum architectures by partitioning the search space into several good and bad subregions. The numerical experimental results indicate that our proposed method can balance the exploration and exploitation of cir-cuit performance and size in some real-world tasks, such as MNIST, Fashion and MOSI. As far as we know, QWAS achieves the state-of-art re-sults of all tasks in the terms of accuracy and circuit size.
翻訳日:2024-03-08 14:56:08 公開日:2024-03-07
# ランダム利用と経路制約下における競争施設配置

Competitive Facility Location under Random Utilities and Routing Constraints ( http://arxiv.org/abs/2403.04264v1 )

ライセンス: Link先を確認
Hoang Giang Pham, Tien Thanh Dam, Ngan Ha Duong, Tien Mai and Minh Hoang Ha(参考訳) 本稿では,顧客需要をランダムなユーティリティ選択モデルによって予測する競争市場環境における施設立地問題について検討する。 選択した場所数に対する基数制約などの単純な制約に主に焦点をあてた先行研究とは異なり、指定されたツアー長上限に固執しながら、選択した場所を訪問するツアーの存在を保証するために、場所の選択を必要とするルーティング制約を導入する。 このようなルーティング制約は、現実世界のさまざまなシナリオにおいて重要なアプリケーションを見つける。 この問題は、複雑なルーティング制約とともにランダムなユーティリティの利用による非線形目的関数が特徴であり、計算的に困難である。 この問題に対処するために,非線形目的関数を扱うための外周切断と部分モジュラー切断,複雑なルーティング制約に対処する部分変数除去切断の3種類の有効切断について検討した。 これらは、ネストカットプレーンとネストブランチ・アンド・カットアルゴリズムの2つの厳密な解法の開発につながり、これらの有効なカットを2つのネストループを通じてマスター問題に反復的に付加する。 また、ネストされた切断平面法は有限反復の後に常に最適に収束することを示す。 さらに,大規模インスタンスの解決に適した局所探索型メタヒューリスティクスを開発し,その長所と短所を正確な方法と比較した。 様々なサイズの問題インスタンスについて広範な実験を行い、我々のアプローチが、他のベースラインアプローチと比較してソリューションの品質と計算時間において優れていることを実証した。

In this paper, we study a facility location problem within a competitive market context, where customer demand is predicted by a random utility choice model. Unlike prior research, which primarily focuses on simple constraints such as a cardinality constraint on the number of selected locations, we introduce routing constraints that necessitate the selection of locations in a manner that guarantees the existence of a tour visiting all chosen locations while adhering to a specified tour length upper bound. Such routing constraints find crucial applications in various real-world scenarios. The problem at hand features a non-linear objective function, resulting from the utilization of random utilities, together with complex routing constraints, making it computationally challenging. To tackle this problem, we explore three types of valid cuts, namely, outer-approximation and submodular cuts to handle the nonlinear objective function, as well as sub-tour elimination cuts to address the complex routing constraints. These lead to the development of two exact solution methods: a nested cutting plane and nested branch-and-cut algorithms, where these valid cuts are iteratively added to a master problem through two nested loops. We also prove that our nested cutting plane method always converges to optimality after a finite number of iterations. Furthermore, we develop a local search-based metaheuristic tailored for solving large-scale instances and show its pros and cons compared to exact methods. Extensive experiments are conducted on problem instances of varying sizes, demonstrating that our approach excels in terms of solution quality and computation time when compared to other baseline approaches.
翻訳日:2024-03-08 14:55:34 公開日:2024-03-07
# コミュニティチャレンジによる生物医学テキストマイニングの進展

Advancing Biomedical Text Mining with Community Challenges ( http://arxiv.org/abs/2403.04261v1 )

ライセンス: Link先を確認
Hui Zong, Rongrong Wu, Jiaxue Cha, Erman Wu, Jiakun Li, Liang Tao, Zuofeng Li, Buzhou Tang, Bairong Shen(参考訳) 生物医学研究の分野は、科学文献、電子健康記録、臨床試験報告、ソーシャルメディアなど、様々な情報源からの膨大なテキストデータの蓄積が著しく増加している。 しかし、これらの広範囲で複雑なリソースを手動で処理し分析することは、時間がかかり非効率である。 この課題に対処するため、バイオメディカル自然言語処理として知られるバイオメディカルテキストマイニングが注目されている。 バイオメディカルテキストマイニング研究における技術革新と学際的コラボレーションを促進する上で,コミュニティの課題評価競技が重要な役割を担っている。 これらの課題は、研究者が生物医学研究におけるデータマイニングと情報処理のための最先端のソリューションを開発するためのプラットフォームを提供する。 本稿では,中国の生物医学的テキストマイニングに特有なコミュニティ・チャレンジの最近の進歩を概観する。 まず,データソースやタスクタイプなど,これらの評価タスクに関する情報を収集する。 第2に、名前付きエンティティ認識、エンティティ正規化、属性抽出、関係抽出、イベント抽出、テキスト分類、テキスト類似性、知識グラフ構築、質問応答、テキスト生成、大規模言語モデル評価を含む、系統的な要約と比較分析を行う。 次に,これらのコミュニティチャレンジ課題の潜在的な臨床応用について,翻訳情報学の観点から概説する。 最後に,大きな言語モデルの時代における今後の方向性を強調しながら,コミュニティの課題に対する貢献と限界について論じる。

The field of biomedical research has witnessed a significant increase in the accumulation of vast amounts of textual data from various sources such as scientific literatures, electronic health records, clinical trial reports, and social media. However, manually processing and analyzing these extensive and complex resources is time-consuming and inefficient. To address this challenge, biomedical text mining, also known as biomedical natural language processing, has garnered great attention. Community challenge evaluation competitions have played an important role in promoting technology innovation and interdisciplinary collaboration in biomedical text mining research. These challenges provide platforms for researchers to develop state-of-the-art solutions for data mining and information processing in biomedical research. In this article, we review the recent advances in community challenges specific to Chinese biomedical text mining. Firstly, we collect the information of these evaluation tasks, such as data sources and task types. Secondly, we conduct systematic summary and comparative analysis, including named entity recognition, entity normalization, attribute extraction, relation extraction, event extraction, text classification, text similarity, knowledge graph construction, question answering, text generation, and large language model evaluation. Then, we summarize the potential clinical applications of these community challenge tasks from translational informatics perspective. Finally, we discuss the contributions and limitations of these community challenges, while highlighting future directions in the era of large language models.
翻訳日:2024-03-08 14:54:47 公開日:2024-03-07
# 小さな言語モデルは逐次レコメンデーションの正当な理由になるのだろうか?

Can Small Language Models be Good Reasoners for Sequential Recommendation? ( http://arxiv.org/abs/2403.04260v1 )

ライセンス: Link先を確認
Yuling Wang, Changxin Tian, Binbin Hu, Yanhua Yu, Ziqi Liu, Zhiqiang Zhang, Jun Zhou, Liang Pang, Xiao Wang(参考訳) 大きな言語モデル(LLM)は、目立った言語理解と生成能力のために、シーケンシャルなレコメンデーションのための新しい地平を開く。 しかし、LLMによって強化されたシーケンシャルなレコメンデーションをうまく実装するには、まだ多くの課題がある。 第一に、ユーザ行動パターンはしばしば複雑で、LCMからのワンステップ推論のみに依存すると、誤った、あるいはタスク非関連な応答につながる可能性がある。 第二に、llm(例えばchatgpt-175b)のリソース要件は、実際の逐次レコメンデーションシステムにおいて圧倒的に高く、非実用的である。 本稿では,レコメンデーションのためのステップ・バイ・ステップのnowLedge dIstillation fraMework(SLIM)を提案する。 より大規模な教師モデルのためのユーザ行動系列に基づくCoTプロンプトを導入する。 教師モデルによって生成される理論的根拠は、下流のより小さな学生モデル(例えばLLaMA2-7B)を蒸留するためにラベルとして使用される。 このようにして、学生モデルはレコメンデーションタスクにおけるステップバイステップ推論能力を取得する。 学生モデルから生成した有理を高密度ベクトルにエンコードし、IDベースおよびID非依存のシナリオで推奨する。 SLIMが最先端のベースラインに対する効果を示し、さらに分析することで、安価なコストで有意義なレコメンデーション推論を生成する能力を示している。

Large language models (LLMs) open up new horizons for sequential recommendations, owing to their remarkable language comprehension and generation capabilities. However, there are still numerous challenges that should be addressed to successfully implement sequential recommendations empowered by LLMs. Firstly, user behavior patterns are often complex, and relying solely on one-step reasoning from LLMs may lead to incorrect or task-irrelevant responses. Secondly, the prohibitively resource requirements of LLM (e.g., ChatGPT-175B) are overwhelmingly high and impractical for real sequential recommender systems. In this paper, we propose a novel Step-by-step knowLedge dIstillation fraMework for recommendation (SLIM), paving a promising path for sequential recommenders to enjoy the exceptional reasoning capabilities of LLMs in a "slim" (i.e., resource-efficient) manner. We introduce CoT prompting based on user behavior sequences for the larger teacher model. The rationales generated by the teacher model are then utilized as labels to distill the downstream smaller student model (e.g., LLaMA2-7B). In this way, the student model acquires the step-by-step reasoning capabilities in recommendation tasks. We encode the generated rationales from the student model into a dense vector, which empowers recommendation in both ID-based and ID-agnostic scenarios. Extensive experiments demonstrate the effectiveness of SLIM over state-of-the-art baselines, and further analysis showcasing its ability to generate meaningful recommendation reasoning at affordable costs.
翻訳日:2024-03-08 14:54:07 公開日:2024-03-07
# 分散・等価最適輸送

Decentralized and Equitable Optimal Transport ( http://arxiv.org/abs/2403.04259v1 )

ライセンス: Link先を確認
Ivan Lau, Shiqian Ma, C\'esar A. Uribe(参考訳) 本稿では,分散(離散)最適輸送(d-ot)問題を検討する。 この設定において、エージェントのネットワークは、費用関数が各エージェントのプライベート保持コストの合計である輸送計画の設計を共同で行おうとする。 制約結合最適化問題としてD-OT問題を再構成し,O(1/{\epsilon})の反復複雑性を持つ単一ループ分散アルゴリズムを提案する。 さらに,分散等方的最適輸送(DE-OT)問題を提案する。 DE-OTでは、輸送コストを最小限に抑える交通計画の協調設計に加えて、エージェントは個々のコストの公平性を確保する。 de-ot を解くための提案手法の反復複雑性も o(1/{\epsilon}) である。 このレートは既存の集中型アルゴリズムを改善し、最良の反復複雑性はo(1/{\epsilon}^2)である。

This paper considers the decentralized (discrete) optimal transport (D-OT) problem. In this setting, a network of agents seeks to design a transportation plan jointly, where the cost function is the sum of privately held costs for each agent. We reformulate the D-OT problem as a constraint-coupled optimization problem and propose a single-loop decentralized algorithm with an iteration complexity of O(1/{\epsilon}) that matches existing centralized first-order approaches. Moreover, we propose the decentralized equitable optimal transport (DE-OT) problem. In DE-OT, in addition to cooperatively designing a transportation plan that minimizes transportation costs, agents seek to ensure equity in their individual costs. The iteration complexity of the proposed method to solve DE-OT is also O(1/{\epsilon}). This rate improves existing centralized algorithms, where the best iteration complexity obtained is O(1/{\epsilon}^2).
翻訳日:2024-03-08 14:53:19 公開日:2024-03-07
# ゼロショットビデオオブジェクトセグメンテーションのための深さ認識テストタイムトレーニング

Depth-aware Test-Time Training for Zero-shot Video Object Segmentation ( http://arxiv.org/abs/2403.04258v1 )

ライセンス: Link先を確認
Weihuang Liu, Xi Shen, Haolun Li, Xiuli Bi, Bo Liu, Chi-Man Pun, Xiaodong Cun(参考訳) ゼロショットビデオオブジェクトセグメンテーション(zsvos)は、人間のアノテーションを使わずに主要な移動オブジェクトをセグメンテーションすることを目的としている。 メインストリームのソリューションは主に、1つのモデルを大規模ビデオデータセットで学習することに焦点を当てている。 本研究では,この問題に対処するためのテストタイムトレーニング(TTT)戦略を導入する。 我々の重要な洞察は、TTプロセス中に一貫した深さを予測するためにモデルを強制することである。 詳細は、まず1つのネットワークを訓練して、セグメンテーションと深さ予測の両方を実行する。 これは、設計した奥行き変調層で効果的に学習できる。 そして、tttプロセスでは、異なるデータ拡張の下で同一フレームの一貫した深度マップを予測してモデルを更新する。 さらに,TTT重み更新戦略についても検討した。 実験結果から,運動量に基づく初期化とループリングに基づくトレーニングが,より安定した改善をもたらすことが示唆された。 実験の結果,提案手法はZSVOSに明確な改善をもたらすことがわかった。 提案するビデオTT戦略は,最先端のTT法よりも優れている。 コードはhttps://nifangbaage.github.io/dattt.com/。

Zero-shot Video Object Segmentation (ZSVOS) aims at segmenting the primary moving object without any human annotations. Mainstream solutions mainly focus on learning a single model on large-scale video datasets, which struggle to generalize to unseen videos. In this work, we introduce a test-time training (TTT) strategy to address the problem. Our key insight is to enforce the model to predict consistent depth during the TTT process. In detail, we first train a single network to perform both segmentation and depth prediction tasks. This can be effectively learned with our specifically designed depth modulation layer. Then, for the TTT process, the model is updated by predicting consistent depth maps for the same frame under different data augmentations. In addition, we explore different TTT weight updating strategies. Our empirical results suggest that the momentum-based weight initialization and looping-based training scheme lead to more stable improvements. Experiments show that the proposed method achieves clear improvements on ZSVOS. Our proposed video TTT strategy provides significant superiority over state-of-the-art TTT methods. Our code is available at: https://nifangbaage.github.io/DATTT.
翻訳日:2024-03-08 14:53:05 公開日:2024-03-07
# ハイブリッド検索拡張生成によるフェデレーションレコメンデーション

Federated Recommendation via Hybrid Retrieval Augmented Generation ( http://arxiv.org/abs/2403.04256v1 )

ライセンス: Link先を確認
Huimin Zeng, Zhenrui Yue, Qian Jiang, Dong Wang(参考訳) Federated Recommendation (FR)は、プライバシ保護レコメンデーションを可能にする新しいパラダイムとして登場した。 しかし、従来のFRシステムは、データ空間とFRの不均一性による性能劣化に苦しむ、個々のIDを持つユーザ/イテムを表すのが一般的である。 一方、レコメンデータとしてのLarge Language Models(LLM)は、さまざまなレコメンデーションシナリオで有効であることが証明されている。 しかし、llmベースのレコメンダは、低い推論効率や潜在的な幻覚といった課題に遭遇し、現実のシナリオでのパフォーマンスを損なう。 そこで本研究では,ChatGPTと新しいハイブリッド検索拡張生成(RAG)機構を活用した,協調推薦フレームワークであるGPT-FedRecを提案する。 GPT-FedRecは2段階のソリューションである。 第1段階は、idベースのユーザーパターンとテキストベースのアイテム特徴をマイニングするハイブリッド検索プロセスである。 次に、検索した結果をテキストプロンプトに変換し、再ランク付けのためにGPTに入力する。 提案したハイブリッド検索機構とLLMに基づく再ランクは,データから一般化された特徴を抽出し,LLM内の事前学習知識を活用することを目的としている。 さらに、RAGアプローチはLLM幻覚を防止し、現実世界のユーザのためのレコメンデーションパフォーマンスを向上させる。 多様なベンチマークデータセットの実験結果から,GPT-FedRecの最先端のベースライン手法に対する優れた性能を示す。

Federated Recommendation (FR) emerges as a novel paradigm that enables privacy-preserving recommendations. However, traditional FR systems usually represent users/items with discrete identities (IDs), suffering from performance degradation due to the data sparsity and heterogeneity in FR. On the other hand, Large Language Models (LLMs) as recommenders have proven effective across various recommendation scenarios. Yet, LLM-based recommenders encounter challenges such as low inference efficiency and potential hallucination, compromising their performance in real-world scenarios. To this end, we propose GPT-FedRec, a federated recommendation framework leveraging ChatGPT and a novel hybrid Retrieval Augmented Generation (RAG) mechanism. GPT-FedRec is a two-stage solution. The first stage is a hybrid retrieval process, mining ID-based user patterns and text-based item features. Next, the retrieved results are converted into text prompts and fed into GPT for re-ranking. Our proposed hybrid retrieval mechanism and LLM-based re-rank aims to extract generalized features from data and exploit pretrained knowledge within LLM, overcoming data sparsity and heterogeneity in FR. In addition, the RAG approach also prevents LLM hallucination, improving the recommendation performance for real-world users. Experimental results on diverse benchmark datasets demonstrate the superior performance of GPT-FedRec against state-of-the-art baseline methods.
翻訳日:2024-03-08 14:52:48 公開日:2024-03-07
# 世界モデルによるメモリタスクのマスタリング

Mastering Memory Tasks with World Models ( http://arxiv.org/abs/2403.04253v1 )

ライセンス: Link先を確認
Mohammad Reza Samsami and Artem Zholus and Janarthanan Rajendran and Sarath Chandar(参考訳) 現在のモデルベース強化学習(MBRL)エージェントは、長期依存に苦慮している。 これにより、行動と結果の間の時間的ギャップを延長するタスクや、現在の行動を伝えるために遠方からの観測のリコールを要求するタスクを効果的に解決する能力が制限される。 時間的コヒーレンスを改善するため、MBRLエージェントの世界モデルに新しい状態空間モデル(SSM)を統合し、新しい方法であるRecall to Imagine(R2I)を提案する。 この統合は、長期記憶と長期信用割り当ての両方を強化することを目的としている。 多様な説明課題を通じて、我々はR2IがBSuiteやPOPGymのようなメモリおよびクレジット割り当てRLタスクに挑戦するための新しい最先端技術を確立するだけでなく、メモリ迷路の複雑なメモリ領域において超人的なパフォーマンスを示すことを体系的に示す。 同時に、Atari や DMC といった古典的 RL タスクでは同等のパフォーマンスを保ち、本手法の一般化を示唆している。 また,R2Iは最先端のMBRL法であるDreamerV3よりも高速であり,壁面の収束が速いことを示す。

Current model-based reinforcement learning (MBRL) agents struggle with long-term dependencies. This limits their ability to effectively solve tasks involving extended time gaps between actions and outcomes, or tasks demanding the recalling of distant observations to inform current actions. To improve temporal coherence, we integrate a new family of state space models (SSMs) in world models of MBRL agents to present a new method, Recall to Imagine (R2I). This integration aims to enhance both long-term memory and long-horizon credit assignment. Through a diverse set of illustrative tasks, we systematically demonstrate that R2I not only establishes a new state-of-the-art for challenging memory and credit assignment RL tasks, such as BSuite and POPGym, but also showcases superhuman performance in the complex memory domain of Memory Maze. At the same time, it upholds comparable performance in classic RL tasks, such as Atari and DMC, suggesting the generality of our method. We also show that R2I is faster than the state-of-the-art MBRL method, DreamerV3, resulting in faster wall-time convergence.
翻訳日:2024-03-08 14:52:25 公開日:2024-03-07
# UltraWiki: 負の種子を持つ超微細なエンティティセットの拡張

UltraWiki: Ultra-fine-grained Entity Set Expansion with Negative Seed Entities ( http://arxiv.org/abs/2403.04247v1 )

ライセンス: Link先を確認
Yangning Li, Qingsong Lv, Tianyu Yu, Yinghui Li, Shulin Huang, Tingwei Lu, Xuming Hu, Wenhao JIang, Hai-Tao Zheng, Hui Wang(参考訳) entity set expansion (ese) は、シードエンティティのセットと同じセマンティクスクラスに属する新しいエンティティを特定することを目的としている。 従来のメソッドは、ターゲットセマンティッククラスを表現するために、主に正のシードエンティティに依存していた。 超微粒なセマンティッククラスは、より特定の属性制約を持つ細粒なセマンティッククラスに基づいて定義される。 ポジティブなシードエンティティだけで記述することは、2つの問題を引き起こす。 (i)超細粒度意味クラス間の曖昧性。 (ii)「望ましくない」意味を定義できないこと。 これらの固有の欠点のため、従来の手法は超微細な ESE (Ultra-ESE) に対処するのに苦労していた。 この問題を解決するために,まず,正のシードエンティティと同じ細粒度のセマンティクスクラスに属するが,特定の属性が異なる入力に負のシードエンティティを導入する。 負の種実体は、正と負の属性の対比によって意味的曖昧さを排除している。 一方、これは「望ましくない」表現の簡単な方法を提供する。 我々はUltra-ESEのモデル性能を評価するために,Ultra-ESEに適した最初の大規模データセットであるUltraWikiを構築した。 UltraWikiは236の超微細なセマンティッククラスを含み、それぞれのクエリは3-5の正と負のシードエンティティで表現される。 検索に基づくフレームワークRetExpanと世代ベースのフレームワークGenExpanを提案し,Ultra-ESEにおける2つの異なるパラダイムから大規模言語モデルの有効性を総合的に評価した。 さらに,コントラスト学習,検索強化,思考連鎖推論という超きめのエンティティセマンティクスの理解を深めるための3つの戦略を考案した。 また,提案手法の有効性を確認し,Ultra-ESEに改善の余地があることも明らかにした。

Entity Set Expansion (ESE) aims to identify new entities belonging to the same semantic class as a given set of seed entities. Traditional methods primarily relied on positive seed entities to represent a target semantic class, which poses challenge for the representation of ultra-fine-grained semantic classes. Ultra-fine-grained semantic classes are defined based on fine-grained semantic classes with more specific attribute constraints. Describing it with positive seed entities alone cause two issues: (i) Ambiguity among ultra-fine-grained semantic classes. (ii) Inability to define "unwanted" semantic. Due to these inherent shortcomings, previous methods struggle to address the ultra-fine-grained ESE (Ultra-ESE). To solve this issue, we first introduce negative seed entities in the inputs, which belong to the same fine-grained semantic class as the positive seed entities but differ in certain attributes. Negative seed entities eliminate the semantic ambiguity by contrast between positive and negative attributes. Meanwhile, it provide a straightforward way to express "unwanted". To assess model performance in Ultra-ESE, we constructed UltraWiki, the first large-scale dataset tailored for Ultra-ESE. UltraWiki encompasses 236 ultra-fine-grained semantic classes, where each query of them is represented with 3-5 positive and negative seed entities. A retrieval-based framework RetExpan and a generation-based framework GenExpan are proposed to comprehensively assess the efficacy of large language models from two different paradigms in Ultra-ESE. Moreover, we devised three strategies to enhance models' comprehension of ultra-fine-grained entities semantics: contrastive learning, retrieval augmentation, and chain-of-thought reasoning. Extensive experiments confirm the effectiveness of our proposed strategies and also reveal that there remains a large space for improvement in Ultra-ESE.
翻訳日:2024-03-08 14:52:03 公開日:2024-03-07
# レビー駆動確率微分方程式の効率的なCNN-LSTMに基づくパラメータ推定

Efficient CNN-LSTM based Parameter Estimation of Levy Driven Stochastic Differential Equations ( http://arxiv.org/abs/2403.04246v1 )

ライセンス: Link先を確認
Shuaiyu Li, Yang Ruan, Changzhou Long, Yuzhong Cheng(参考訳) 本研究は,価格変動や感染症の拡散といった動的現象を理解する上で重要である非ガウシアンノイズによって駆動される確率微分方程式のパラメータ推定における課題に対処する。 以前の研究では、アルファ安定化レヴィ駆動SDEのパラメータを推定する上で、LSTMネットワークの可能性を強調したが、リアルタイムの複雑さやLSTM連鎖特性の制約など、制限に直面していた。 これらの問題を緩和するために,新しいcnn-lstmベースの3段階モデルであるpenetを導入し,様々なデータ構造への精度と適応性,cnnによる初期データ特徴量凝縮による長いシーケンス観測の推論速度の向上,高汎化能力,複雑なsdeシナリオへの応用を可能にした。 合成データセットの実験により、PEnetはノイズ特性に関連するSDEパラメータを推定し、レヴィノイズの存在下でのSDEパラメータ推定の競合方法として確立した。

This study addresses the challenges in parameter estimation of stochastic differential equations driven by non-Gaussian noises, which are critical in understanding dynamic phenomena such as price fluctuations and the spread of infectious diseases. Previous research highlighted the potential of LSTM networks in estimating parameters of alpha stable Levy driven SDEs but faced limitations including high time complexity and constraints of the LSTM chaining property. To mitigate these issues, we introduce the PEnet, a novel CNN-LSTM-based three-stage model that offers an end to end approach with superior accuracy and adaptability to varying data structures, enhanced inference speed for long sequence observations through initial data feature condensation by CNN, and high generalization capability, allowing its application to various complex SDE scenarios. Experiments on synthetic datasets confirm PEnet significant advantage in estimating SDE parameters associated with noise characteristics, establishing it as a competitive method for SDE parameter estimation in the presence of Levy noise.
翻訳日:2024-03-08 14:51:34 公開日:2024-03-07
# あなたのモデルは模倣から否定を区別できますか。 インテントエンコーダによる課題の解決

Can Your Model Tell a Negation from an Implicature? Unravelling Challenges With Intent Encoders ( http://arxiv.org/abs/2403.04314v1 )

ライセンス: Link先を確認
Yuwei Zhang, Siffi Singh, Sailik Sengupta, Igor Shalyminov, Hang Su, Hwanjun Song, Saab Mansour(参考訳) 会話システムは、しばしば意図分類と意図的クラスタリングタスクのための埋め込みモデルに依存する。 インストラクショナル組込みを可能にする大規模言語モデル(llms)の出現は、プロンプトを使用して埋め込み空間上で意味を調整可能にする。 しかしながら、従来の評価ベンチマークは、意味理解に関するギャップを特に測定しないタスクメトリクスのみに依存しています。 そこで本研究では,(1)意図分類,(2)意図クラスタリング,(3)新規な三重項タスクを考慮し,意図埋め込みモデルのより包括的なビューを提供する意図意味的ツールキットを提案する。 トリプレットタスクは、実世界の会話システムにおいて最も重要な2つの意味概念のモデルの理解を計測する。 現在の埋め込みモデルは、これらの概念のセマンティックな理解が不十分である。 そこで本研究では,自己回帰モデルと対照損失項を併用することで組込みモデルを改善するための事前学習手法を提案する。 提案手法は,上記言語次元における意図埋め込みモデルのセマンティック理解を改善しつつ,下流タスクメトリクスの性能にわずかに影響を及ぼす。

Conversational systems often rely on embedding models for intent classification and intent clustering tasks. The advent of Large Language Models (LLMs), which enable instructional embeddings allowing one to adjust semantics over the embedding space using prompts, are being viewed as a panacea for these downstream conversational tasks. However, traditional evaluation benchmarks rely solely on task metrics that don't particularly measure gaps related to semantic understanding. Thus, we propose an intent semantic toolkit that gives a more holistic view of intent embedding models by considering three tasks-- (1) intent classification, (2) intent clustering, and (3) a novel triplet task. The triplet task gauges the model's understanding of two semantic concepts paramount in real-world conversational systems-- negation and implicature. We observe that current embedding models fare poorly in semantic understanding of these concepts. To address this, we propose a pre-training approach to improve the embedding model by leveraging augmentation with data generated by an auto-regressive model and a contrastive loss term. Our approach improves the semantic understanding of the intent embedding model on the aforementioned linguistic dimensions while slightly effecting their performance on downstream task metrics.
翻訳日:2024-03-08 14:46:43 公開日:2024-03-07
# ALTO:複合AIシステムのための効率的なネットワークオーケストレータ

ALTO: An Efficient Network Orchestrator for Compound AI Systems ( http://arxiv.org/abs/2403.04311v1 )

ライセンス: Link先を確認
Keshav Santhanam, Deepti Raghavan, Muhammad Shahir Rahman, Thejas Venkatesh, Neha Kunjal, Pratiksha Thaker, Philip Levis, Matei Zaharia(参考訳) 本稿では,言語モデルのパイプラインなどの複合AIシステムを実現するネットワークオーケストレータであるALTOを提案する。 altoは生成言語モデルに特有の最適化機会を活用することで、高いスループットと低レイテンシを実現している。 言語モデルがトークン単位で出力トークンを生成すると、ALTOは可能であればステージ間で中間出力をストリームする機会を公開する。 分散パイプラインステージインスタンス間で中間データをストリーミングする際に発生する、正確性とロードバランシングの2つの新たな課題に注目した。 また、これらの課題に対処するために、アグリゲーション対応のルーティングインターフェースと分散プロンプト対応のスケジューリングの必要性も動機付けている。 複雑なチャットボット検証パイプラインにおけるALTOの部分出力ストリーミングの影響を実証し、固定遅延目標の4秒/要求に対してスループットを最大3倍にし、ベースラインサービスアプローチと比較してテールレイテンシを1.8倍に削減した。

We present ALTO, a network orchestrator for efficiently serving compound AI systems such as pipelines of language models. ALTO achieves high throughput and low latency by taking advantage of an optimization opportunity specific to generative language models: streaming intermediate outputs. As language models produce outputs token by token, ALTO exposes opportunities to stream intermediate outputs between stages when possible. We highlight two new challenges of correctness and load balancing which emerge when streaming intermediate data across distributed pipeline stage instances. We also motivate the need for an aggregation-aware routing interface and distributed prompt-aware scheduling to address these challenges. We demonstrate the impact of ALTO's partial output streaming on a complex chatbot verification pipeline, increasing throughput by up to 3x for a fixed latency target of 4 seconds / request while also reducing tail latency by 1.8x compared to a baseline serving approach.
翻訳日:2024-03-08 14:46:25 公開日:2024-03-07
# AO-DETR:X線禁止アイテム検出のためのアンチオーバーラップDETR

AO-DETR: Anti-Overlapping DETR for X-Ray Prohibited Items Detection ( http://arxiv.org/abs/2403.04309v1 )

ライセンス: Link先を確認
Mingyuan Li, Tong Jia, Hao Wang, Bowen Ma, Shuyang Lin, Da Cai, and Dongyue Chen(参考訳) X線画像における禁止項目の検出は、様々なセキュリティ検査シナリオで広く用いられている最も重要かつ効果的な方法の1つである。 本稿では,x線禁止項目画像における重なり現象を考慮し,最先端の一般物体検出器であるdinoに基づく重なり防止detr(ao-detr)を提案する。 具体的には、重なり合う現象に起因する特徴結合問題に対処するため、固定カテゴリーの禁止項目を予測する際にカテゴリ固有のオブジェクトクエリを制約するカテゴリ特化一対一割り当て(CSA)戦略を導入し、重なり合う前景特徴から特定のカテゴリの禁止項目に特有の特徴を抽出する能力を向上する。 重なり合う現象によるエッジのぼやけ問題に対処するために,中間層から高レベルデコーダ層における参照ボックスの局在精度を向上し,最終層のぼやけたエッジを見つける能力を高める,フォワード・フォワード・デントリー(lfd)方式を提案する。 DINOと同様、AO-DETRは異なるバックボーンを持つ2つの異なるバージョンを提供しています。 PIXray と OPIXray データセットの大規模な実験により、提案手法が最先端の物体検出器を超越し、禁止アイテム検出の分野におけるその可能性を示している。 ソースコードはhttps://github.com/Limingyuan001/AO-DETR-testで公開される。

Prohibited item detection in X-ray images is one of the most essential and highly effective methods widely employed in various security inspection scenarios. Considering the significant overlapping phenomenon in X-ray prohibited item images, we propose an Anti-Overlapping DETR (AO-DETR) based on one of the state-of-the-art general object detectors, DINO. Specifically, to address the feature coupling issue caused by overlapping phenomena, we introduce the Category-Specific One-to-One Assignment (CSA) strategy to constrain category-specific object queries in predicting prohibited items of fixed categories, which can enhance their ability to extract features specific to prohibited items of a particular category from the overlapping foreground-background features. To address the edge blurring problem caused by overlapping phenomena, we propose the Look Forward Densely (LFD) scheme, which improves the localization accuracy of reference boxes in mid-to-high-level decoder layers and enhances the ability to locate blurry edges of the final layer. Similar to DINO, our AO-DETR provides two different versions with distinct backbones, tailored to meet diverse application requirements. Extensive experiments on the PIXray and OPIXray datasets demonstrate that the proposed method surpasses the state-of-the-art object detectors, indicating its potential applications in the field of prohibited item detection. The source code will be released at https://github.com/Limingyuan001/AO-DETR-test.
翻訳日:2024-03-08 14:46:09 公開日:2024-03-07
# HaluEval-Wild:野生の言語モデルの幻覚を評価する

HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild ( http://arxiv.org/abs/2403.04307v1 )

ライセンス: Link先を確認
Zhiying Zhu, Zhiqing Sun, Yiming Yang(参考訳) 幻覚は、臨界領域における大きな言語モデル(LLM)の信頼性に重大な課題をもたらす。 近年、知識集約型質問応答(QA)や要約のような従来のNLPタスクにおけるLLM幻覚を評価するために設計されたベンチマークは、動的な実世界の環境でのユーザ-LLMインタラクションの複雑さを捉えるには不十分である。 このギャップに対処するために、野生におけるLSM幻覚を評価するために特別に設計された最初のベンチマークであるHaluEval-Wildを紹介する。 既存の実世界のユーザ-LLMインタラクションデータセット(ShareGPTなど)から,難解な(Alpacaによって逆フィルタリングされた)ユーザクエリを慎重に収集し,種々のLSMの幻覚率を評価する。 収集したクエリを解析すると、5つの異なるタイプに分類し、LLMが示す幻覚の種類を詳細に分析し、強力なGPT-4モデルと検索拡張生成(RAG)を用いて参照回答を合成する。 実世界の相互作用を反映したシナリオにおけるLCMの理解と信頼性向上に向けた新しいアプローチを提案する。

Hallucinations pose a significant challenge to the reliability of large language models (LLMs) in critical domains. Recent benchmarks designed to assess LLM hallucinations within conventional NLP tasks, such as knowledge-intensive question answering (QA) and summarization, are insufficient for capturing the complexities of user-LLM interactions in dynamic, real-world settings. To address this gap, we introduce HaluEval-Wild, the first benchmark specifically designed to evaluate LLM hallucinations in the wild. We meticulously collect challenging (adversarially filtered by Alpaca) user queries from existing real-world user-LLM interaction datasets, including ShareGPT, to evaluate the hallucination rates of various LLMs. Upon analyzing the collected queries, we categorize them into five distinct types, which enables a fine-grained analysis of the types of hallucinations LLMs exhibit, and synthesize the reference answers with the powerful GPT-4 model and retrieval-augmented generation (RAG). Our benchmark offers a novel approach towards enhancing our comprehension and improvement of LLM reliability in scenarios reflective of real-world interactions.
翻訳日:2024-03-08 14:45:40 公開日:2024-03-07
# 最近の大規模視覚言語モデルの有効性評価

Effectiveness Assessment of Recent Large Vision-Language Models ( http://arxiv.org/abs/2403.04306v1 )

ライセンス: Link先を確認
Yao Jiang, Xinyu Yan, Ge-Peng Ji, Keren Fu, Meijun Sun, Huan Xiong, Deng-Ping Fan, Fahad Shahbaz Khan(参考訳) 大規模視覚言語モデル(LVLM)の出現は、人工知能の追求に向けた注目すべき進歩を表している。 しかし、特殊任務と一般任務の両方において有効性の範囲はさらなる調査を必要とする。 本稿は,これらの革新的方法論の包括的理解を提供することを目的として,専門的タスクと一般タスクにおける一般的なlvlmの能力を評価することを目的としている。 特定タスクにおける有効性を評価するため、我々は、自然、医療、産業の3つの異なるシナリオからなる総合的なテストベッドを調整した。 これらのタスクには、サルエント、カモフラージュ、透明な物体検出、ポリープ、皮膚病変検出、産業的異常検出が含まれる。 視覚認識とローカライゼーションの領域における最近の3つのオープンソースLVLM(MiniGPT-v2,LLaVA-1.5,Shikra)の性能について検討する。 さらに,上記のモデルをgpt-4vと共に活用し,対象のカウント,不条理な質問応答,代価推論,属性認識,空間関係推論といった一般的なタスクにおけるマルチモーダル理解能力を評価する。 本研究により, これらのモデルは, 特殊タスクだけでなく, 一般タスクにおいても限られた習熟度を示すことが明らかとなった。 我々は、この欠陥を深く掘り下げ、特殊タスクにおける認知の制限、物体幻覚、テキスト・ツー・イメージの干渉、複雑な問題における堅牢性の低下など、いくつかの潜在的な要因を提案する。 本研究は,LVLMの今後の発展に有用な知見を提供し,一般用途と専門用途の両方に対処する能力を高めることを願っている。

The advent of large vision-language models (LVLMs) represents a noteworthy advancement towards the pursuit of artificial general intelligence. However, the extent of their efficacy across both specialized and general tasks warrants further investigation. This article endeavors to evaluate the competency of popular LVLMs in specialized and general tasks, respectively, aiming to offer a comprehensive comprehension of these innovative methodologies. To gauge their efficacy in specialized tasks, we tailor a comprehensive testbed comprising three distinct scenarios: natural, healthcare, and industrial, encompassing six challenging tasks. These tasks include salient, camouflaged, and transparent object detection, as well as polyp and skin lesion detection, alongside industrial anomaly detection. We examine the performance of three recent open-source LVLMs -- MiniGPT-v2, LLaVA-1.5, and Shikra -- in the realm of visual recognition and localization. Moreover, we conduct empirical investigations utilizing the aforementioned models alongside GPT-4V, assessing their multi-modal understanding capacities in general tasks such as object counting, absurd question answering, affordance reasoning, attribute recognition, and spatial relation reasoning. Our investigations reveal that these models demonstrate limited proficiency not only in specialized tasks but also in general tasks. We delve deeper into this inadequacy and suggest several potential factors, including limited cognition in specialized tasks, object hallucination, text-to-image interference, and decreased robustness in complex problems. We hope this study would provide valuable insights for the future development of LVLMs, augmenting their power in coping with both general and specialized applications.
翻訳日:2024-03-08 14:45:19 公開日:2024-03-07
# LORS:パラメータ効率の良いネットワークスタックングのための低ランク残留構造

LORS: Low-rank Residual Structure for Parameter-Efficient Network Stacking ( http://arxiv.org/abs/2403.04303v1 )

ライセンス: Link先を確認
Jialin Li, Qiang Nie, Weifu Fu, Yuhuan Lin, Guangpin Tao, Yong Liu, Chengjie Wang(参考訳) ディープラーニングモデル、特にトランスフォーマーに基づくモデルでは、同じアーキテクチャを持ち、同様の機能を持つ多数の積み重ね構造を用いることが多い。 効果的ではあるが、この積み重ねパラダイムはパラメータの数を大幅に増加させ、実用的なアプリケーションに挑戦する。 現在の大規模モデルの展望では、積み重ねの深さは数十に達する可能性があり、この問題はさらに悪化する。 この問題を軽減するため,LORS(Low-rank Residual Structure)を導入する。 LORSにより、スタックされたモジュールがパラメータの大部分を共有できるようになり、モジュールごとのユニークなモジュールの数が非常に少なくなり、完全に異なるモジュールを使用するパフォーマンスを上回り、パラメータの使用量が大幅に削減される。 問合せ型オブジェクト検出器の積み重ねデコーダに適用し,MS COCOデータセットの広範な実験を行い,本手法の有効性を検証した。 実験結果から,デコーダのパラメータを70%削減した場合でも,モデルが同等あるいは同等の精度で達成できることが確認された。

Deep learning models, particularly those based on transformers, often employ numerous stacked structures, which possess identical architectures and perform similar functions. While effective, this stacking paradigm leads to a substantial increase in the number of parameters, posing challenges for practical applications. In today's landscape of increasingly large models, stacking depth can even reach dozens, further exacerbating this issue. To mitigate this problem, we introduce LORS (LOw-rank Residual Structure). LORS allows stacked modules to share the majority of parameters, requiring a much smaller number of unique ones per module to match or even surpass the performance of using entirely distinct ones, thereby significantly reducing parameter usage. We validate our method by applying it to the stacked decoders of a query-based object detector, and conduct extensive experiments on the widely used MS COCO dataset. Experimental results demonstrate the effectiveness of our method, as even with a 70\% reduction in the parameters of the decoder, our method still enables the model to achieve comparable or
翻訳日:2024-03-08 14:44:51 公開日:2024-03-07
# 光浮遊ナノ粒子の運動状態の実験的増幅とスクイーズ

Experimental amplification and squeezing of a motional state of an optically levitated nanoparticle ( http://arxiv.org/abs/2403.04302v1 )

ライセンス: Link先を確認
Martin Ducha\v{n}, Martin \v{S}iler, Petr J\'akl, Oto Brzobohat\'y, Andrey Rakhubovsky, Radim Filip, Pavel Zem\'anek(参考訳) ナノオブジェクトの位相空間変数のゆらぎの非接触制御は、超精密ナノテクノロジーと今後のマクロシステムの量子技術に必要な重要な方法の一つである。 ここでは, 単一浮遊ナノ粒子(NP)の実験プラットフォームを用いて, 相空間分布のスキューズとともに, 機械的位相空間変数の線形増幅を提供する重要なプロトコルを実証する。 このプロトコルは、放物的トラップ電位と弱い放物的または逆放物的増幅電位との制御された高速スイッチングを組み合わせ、任意の位相空間変数に沿って平均値と分散(ゆらぎ)を増幅し、相補的なものに沿ってスクイーズする。 このプロトコルは、NP位相空間変数の初期変動を制御する冷減衰方式で完成する。 我々は増幅値$|G|>2$,4dB以上のスクイーズ係数,および確率的非平衡古典状態の最大値に対応する2階エネルギー相関関数3に到達した。 これらの実験結果により、NP冷却を基底状態へ適用すれば、全ての量子プロトコルに対するナノメカニカルNP運動の事前増幅と操作が可能となる。

A contactless control of fluctuations of phase space variables of a nanoobject belongs among the key methods needed for ultra-precise nanotechnology and the upcoming quantum technology of macroscopic systems. Here we utilize the experimental platform of a single levitating nanoparticle (NP) to demonstrate essential protocols providing linear amplification of the mechanical phase space variables together with squeezing of phase space probability distribution. The protocol combines a controlled fast switching between the parabolic trapping potential and either weak parabolic or inverted parabolic amplifying potential leading to amplification of mean value and variance (fluctuations) along an arbitrary phase space variable and squeezing along the complementary one. The protocol is completed with cold damping scheme to control the initial fluctuations of the NP phase space variables. We reached the amplification gain $|G|>2$, the squeezing coefficient above 4 dB, and the second-order energy correlation function approaching 3 which corresponds to a maximum for a stochastic non-equilibrium classical state. These experimental results will already allow pre-amplification and manipulation of nanomechanical NP motion for all quantum protocols if the NP cooling towards the ground state is applied.
翻訳日:2024-03-08 14:44:34 公開日:2024-03-07
# キャビティQEDにおける分離キャビティモードの工学的絡み合い

Engineering Entangled Schrodinger Cat States of Separated Cavity Modes in Cavity-QED ( http://arxiv.org/abs/2403.04300v1 )

ライセンス: Link先を確認
Abdul Q. Batin, Suranjana Ghosh, Utpal Roy and David Vitali(参考訳) 本研究では,2つのキャビティ・フィールドの量子力学的絡み合った状態を生成するために,2キャビティ・セットアップを利用する手法を提案する。 基底となる原子-場相互作用はオフ共鳴と見なされ、3つの原子はキャビティを通して順次送信され、最初はコヒーレント場が供給される。 プロトコルの分析解は、続いて原子の条件測定によって、8つの絡み合った状態の族を生成する。 得られた状態の絡み合い特性はフォン・ノイマンエントロピーによって特徴づけられる。 エンタングルメントをチューニングするためのパラメータドメイン、原子-場相互作用時間である素チューニングパラメータ、フィールド振幅を明らかにする。 準ベル状態と非準ベル状態の両方のパラメータ領域について論じる。 また,キャビティの縮小状態のウィグナー位相空間表現を示し,その大きなエントロピーにもかかわらず,コンパス状態と同様の負の値と干渉パターンを示す。

We provide a scheme by utilizing a two-cavity setup to generate useful quantum mechanically entangled states of two cavity fields, which themselves are prepared in Schrodinger cat states. The underlying atom-field interaction is considered off-resonant and three atoms are successively sent through the cavities, initially fed with coherent fields. Analytical solution of the protocol, followed by conditional measurements on the atoms, produce a family of eight such entangled states. Entanglement properties of the obtained states are characterized by the Von Neumann entropy. We reveal the parameter domain for tuning the entanglement, the prime tuning parameters being the atom-field interaction time and the field amplitudes. The parameter domains for both quasi-Bell and non quasi-Bell states are discussed. We also present a Wigner phase space representation of the reduced state of the cavity, showing negative values and interference patterns similar to those of a compass state, used in quantum precision measurements, and despite its large entropy.
翻訳日:2024-03-08 14:44:12 公開日:2024-03-07
# LitSim: 長期対話型トラフィックシミュレーションのための競合認識ポリシー

LitSim: Conflict-aware Policy for Long-term Interactive Traffic Simulation ( http://arxiv.org/abs/2403.04299v1 )

ライセンス: Link先を確認
Haojie Xin, Xiaodong Zhang, Renzhi Tang, Songyang Yan, Qianrui Zhao, Chunze Yang, Zijiang Yang(参考訳) シミュレーションは、路上テストに比べて効率とコストが優れているため、自動運転システムの性能を評価する上で重要である。 シミュレーションと現実の間のギャップを狭めるためには、現実的なマルチエージェント行動(例えば、対話的、長期的)が必要である。 1) ログ再生は現実的なシナリオを提供するが、動的相互作用の欠如による非現実的な衝突を引き起こす。 本研究では,非現実的衝突を回避しつつ,リアリズムを最大化する長期対話型シミュレーション手法LitSimを提案する。 特に、ほとんどのシナリオでログを再生し、LitSimが非現実的な競合を予測する場合にのみ介入します。 エージェント間の相互作用を奨励し、紛争を解決し、非現実的な衝突の可能性を減らす。 我々は、実世界のデータセットNGSIMでモデルをトレーニングし、検証し、実験結果により、LitSimが現実主義と反応性の現在の一般的なアプローチより優れていることを示す。

Simulation is pivotal in evaluating the performance of autonomous driving systems due to the advantages in efficiency and cost compared to on-road testing. Realistic multi-agent behavior~(e.g., interactive and long-term) is needed to narrow the gap between the simulation and the reality. The existing work has the following shortcomings in achieving this goal:~(1) log replay offers realistic scenarios but leads to unrealistic collisions due to lacking dynamic interactions, and~(2) model-based and learning-based solutions encourage interactions but often deviate from real-world data in long horizons. In this work, we propose LitSim, a long-term interactive simulation approach that maximizes realism while avoiding unrealistic collisions. Specifically, we replay the log for most scenarios and intervene only when LitSim predicts unrealistic conflicts. We then encourage interactions among the agents and resolve the conflicts, thereby reducing the likelihood of unrealistic collisions. We train and validate our model on the real-world dataset NGSIM, and the experimental results demonstrate that LitSim outperforms the current popular approaches in realism and reactivity.
翻訳日:2024-03-08 14:43:54 公開日:2024-03-07
# ステイン符号のフォールトトレラント符号化・復号方式における最大しきい値と量子セキュリティの解析

Analysis of Maximum Threshold and Quantum Security for Fault-Tolerant Encoding and Decoding Scheme Base on Steane Code ( http://arxiv.org/abs/2403.04297v1 )

ライセンス: Link先を確認
Qiqing Xia, Huiqin Xie, Li Yang(参考訳) ステイン符号は最も広く研究されている量子誤り訂正符号の1つであり、フォールトトレラント量子計算(FTQC)の自然な選択である。 しかし、元のステインコードは、符号化ブロック内のcnotゲートがエラー伝搬を引き起こす可能性があるため、フォールトトレラントではない。 本稿では、まず、誤り訂正期間において各量子ゲートによって起こりうる全てのエラーを解析するフォールトトレラント符号化・復号方式を提案する。 本手法では,冗長な量子ビットの測定結果とシンドローム測定結果を組み合わせて,異なる種類のエラーに対する特定のエラーを識別する。 しかし、誤差伝播のため、異なる誤差が同じ測定結果を生成する場合もあります。 そこで本研究では,誤りの干渉を可能な限り低減するための「フラッグ量子ビット(flag qubits)」スキームを導入し,導入した量子ゲートによる誤りを考慮し,真にフォールトトレラントなステインコードを実現する。 その後、障害耐性な準備と漸近状態の検証を含むユニバーサル量子ゲート集合のフォールトトレラントスキームを提供する。 FTQCのすべてのプロセスで耐障害性を考慮するのはこれが初めてである。 最後に,より正確なしきい値推定と最適誤り訂正周期選択のためのアルゴリズムを提案する。 本手法に基づくシミュレーション結果は,しきい値定理と現在広く認識されているしきい値を満たすアルゴリズムの有効性を示す。 本研究では,最大しきい値,連結レベル,量子論理的深さの関係を分析し,量子演算がしきい値の増大に重要な役割を果たしていることを示す。 さらに,我々のFTQCスキームに基づく攻撃・アクティブディフェンスの観点から,量子コンピュータの計算理論的限界を解析し,システムのセキュリティを評価する。

Steane code is one of the most widely studied quantum error-correction codes, which is a natural choice for fault-tolerant quantum computation (FTQC). However, the original Steane code is not fault-tolerant because the CNOT gates in an encoded block may cause error propagation. In this paper, we first propose a fault-tolerant encoding and decoding scheme, which analyzes all possible errors caused by each quantum gate in an error-correction period. In this scheme, we combine the results of measuring redundant qubits with those of syndrome measurements to identify specific errors for different types of errors. But due to the error propagation, there may be cases where different errors produce the same measurement results. Therefore, we introduce the "flag qubits" scheme (providing its usage conditions) to reduce error interference as much as possible, and we consider the errors caused by the introduced quantum gates, realizing the truly fault-tolerant Steane code. Afterwards, we provide the fault-tolerant scheme of the universal quantum gate set, including fault-tolerant preparation and verification of ancillary states. This is the first time that fault tolerance has been considered for every process of FTQC. Finally, We propose an algorithm for a more accurate estimation of thresholds and optimal error-correction period selection. Our simulation results based on this entire scheme demonstrate the effectiveness of this algorithm, satisfying the threshold theorem and the currently widely recognized threshold. We analyze the relationship among the maximum threshold, concatenated levels, and quantum logical depth, showing that quantum operations play a crucial role in increasing the threshold. Furthermore, we analyze the computational theoretical limits of quantum computers from the perspectives of attack and active defense based on our FTQC scheme, thereby assessing the security of a system.
翻訳日:2024-03-08 14:43:37 公開日:2024-03-07
# 線形奥行き問題にインスパイアされたansatzを用いた変動量子固有ソルバによるファイナンスにおけるポートフォリオ最適化

Variational quantum eigensolver with linear depth problem-inspired ansatz for solving portfolio optimization in finance ( http://arxiv.org/abs/2403.04296v1 )

ライセンス: Link先を確認
Shengbin Wang, Peng Wang, Guihui Li, Shubin Zhao, Dongyi Zhao, Jing Wang, Yuan Fang, Menghan Dou, Yongjian Gu, Yu-Chun Wu, Guo-Ping Guo(参考訳) 近年、ノイズの多い中間スケール量子(nisq)コンピュータの実用的応用を探求する取り組みが盛んに行われており、これは量子コンピューティングにおける根本的な挑戦的な問題である。 最も有望な方法の1つとして、変分量子固有解法(VQE)が広く研究されている。 本稿では、VQEを用いて、最大2nの2量子ゲート深さとn^2/4パラメータに達する2つのハードウェア効率のDicke状態アンサットを設計し、nを使用数とする。 どちらもパーティショニングフレンドリーであり、高度にスケーラブルな量子/古典ハイブリッド分散コンピューティング(HDC)方式を提案することができる。 超伝導量子コンピュータWu Kong上で55キュービットまでのHDC実験を,同時サンプリング,問題特異的測定誤差軽減,フラグメント再利用技術を組み合わせて実施した。 シミュレーションと実験の結果,少数のパラメータと限られた絡み合いによって引き起こされるansatzeの表現可能性の制限は,nisq時代以降の条件付バリュー・アット・リスク(cvar)のコスト関数を用いて古典的最適化問題を解く上で有利であることが示された。 さらに、HDCスキームは、NISQ時代に量子優位を達成する大きな可能性を示している。 この論文で提示されたヒューリスティックなアイデアが、現在の量子コンピューティングパラダイムと将来の量子コンピューティングパラダイムにおける実りある研究を動機付けることを願っている。

Great efforts have been dedicated in recent years to explore practical applications for noisy intermediate-scale quantum (NISQ) computers, which is a fundamental and challenging problem in quantum computing. As one of the most promising methods, the variational quantum eigensolver (VQE) has been extensively studied. In this paper, VQE is applied to solve portfolio optimization problems in finance by designing two hardware-efficient Dicke state ansatze that reach a maximum of 2n two-qubit gate depth and n^2/4 parameters, with n being the number of qubits used. Both ansatze are partitioning-friendly, allowing for the proposal of a highly scalable quantum/classical hybrid distributed computing (HDC) scheme. Combining simultaneous sampling, problem-specific measurement error mitigation, and fragment reuse techniques, we successfully implement the HDC experiments on the superconducting quantum computer Wu Kong with up to 55 qubits. The simulation and experimental results illustrate that the restricted expressibility of the ansatze, induced by the small number of parameters and limited entanglement, is advantageous for solving classical optimization problems with the cost function of the conditional value-at-risk (CVaR) for the NISQ era and beyond. Furthermore, the HDC scheme shows great potential for achieving quantum advantage in the NISQ era. We hope that the heuristic idea presented in this paper can motivate fruitful investigations in current and future quantum computing paradigms.
翻訳日:2024-03-08 14:43:05 公開日:2024-03-07
# A$^{3}$lign-DFER:CLIPを用いた動的顔表情認識のためのパイオニア包括的動的影響アライメント

A$^{3}$lign-DFER: Pioneering Comprehensive Dynamic Affective Alignment for Dynamic Facial Expression Recognition with CLIP ( http://arxiv.org/abs/2403.04294v1 )

ライセンス: Link先を確認
Zeng Tao, Yan Wang, Junxiong Lin, Haoran Wang, Xinji Mai, Jiawen Yu, Xuan Tong, Ziheng Zhou, Shaoqi Yan, Qing Zhao, Liyuan Han, Wenqiang Zhang(参考訳) 動的表情認識(DFER)タスクにおけるCLIPの性能は、他のCLIPベースの分類タスクで見られるような例外的な結果にはならない。 CLIPの主な目的は、特徴空間における画像とテキストのアライメントを達成することであるが、DFERはテキストの抽象的な性質とビデオのダイナミックな性質のため、ラベル表現の制限と完全なアライメントが難しい。 この問題に対処するため、我々はA$^{3}$lign-DFERを設計し、DFERタスクに対するCLIPの適合性を高めるために、包括的にアライメントを実現する新しいDFERラベリングパラダイムを導入した。 具体的には、A$^{3}$lign-DFER法は、複数のモジュールが協調して設計され、分類に最も適した拡張次元の埋め込みを取得し、感情的、動的、双方向の3つの重要な側面でアライメントを実現する。 入力ラベルテキストを学習可能な多次元アライメントトークン(MAT)に置き換え、感情的・動的両次元の表情ビデオサンプルへのテキストのアライメントを可能にする。 クリップ特徴抽出後、ジョイントダイナミックアライメント同期器(jas)を導入し、時間次元における同期とアライメントをさらに促進する。 さらに、双方向アライメントトレーニングパラダイム(BAP)を実装し、パラメータの段階的および定常的なトレーニングを確保する。 DFEW, FERV39k, MAFWを含む複数のDFERデータセットに対して, 我々の洞察と簡潔なA$^{3}$lign-DFER法により最先端の結果が得られる。 大規模なアブレーション実験と可視化実験により、A$^{3}$lign-DFERの有効性が示された。 コードは今後利用可能になる予定である。

The performance of CLIP in dynamic facial expression recognition (DFER) task doesn't yield exceptional results as observed in other CLIP-based classification tasks. While CLIP's primary objective is to achieve alignment between images and text in the feature space, DFER poses challenges due to the abstract nature of text and the dynamic nature of video, making label representation limited and perfect alignment difficult. To address this issue, we have designed A$^{3}$lign-DFER, which introduces a new DFER labeling paradigm to comprehensively achieve alignment, thus enhancing CLIP's suitability for the DFER task. Specifically, our A$^{3}$lign-DFER method is designed with multiple modules that work together to obtain the most suitable expanded-dimensional embeddings for classification and to achieve alignment in three key aspects: affective, dynamic, and bidirectional. We replace the input label text with a learnable Multi-Dimensional Alignment Token (MAT), enabling alignment of text to facial expression video samples in both affective and dynamic dimensions. After CLIP feature extraction, we introduce the Joint Dynamic Alignment Synchronizer (JAS), further facilitating synchronization and alignment in the temporal dimension. Additionally, we implement a Bidirectional Alignment Training Paradigm (BAP) to ensure gradual and steady training of parameters for both modalities. Our insightful and concise A$^{3}$lign-DFER method achieves state-of-the-art results on multiple DFER datasets, including DFEW, FERV39k, and MAFW. Extensive ablation experiments and visualization studies demonstrate the effectiveness of A$^{3}$lign-DFER. The code will be available in the future.
翻訳日:2024-03-08 14:42:38 公開日:2024-03-07
# MKF-ADS:自動車用多知識融合異常検知システム

MKF-ADS: A Multi-Knowledge Fused Anomaly Detection System for Automotive ( http://arxiv.org/abs/2403.04293v1 )

ライセンス: Link先を確認
Pengzhou Cheng, Zongru Wu, and Gongshen Liu(参考訳) 電子制御ユニット(ECU)を外部に広範囲に接続するための知的輸送システム(ITS)の要件により、安全とセキュリティは厳しい問題となっている。 侵入検知システム(IDS)は、制御エリアネットワーク(CAN)バスの脆弱性を修復する上で重要な安全要素である。 しかし、教師付きIDSは複雑性攻撃の特定に失敗し、異常ベースのIDSは機能ボトルネックのため、偽のアラームが高い。 本稿では,MKF-IDSと呼ばれる新しいマルチ知識融合型異常検出モデルを提案する。 具体的には、アテンション機構(STcAM)モジュールとパッチスパース変換モジュール(PatchST)との空間時間相関を含む統合フレームワークを設計する。 微細プルーニングを伴うSTcAMは1次元畳み込み(Conv1D)を用いて空間的特徴を抽出し、次に双方向長短期記憶(Bi-LSTM)を用いて時間的特徴を抽出し、注意機構は重要な時間ステップに集中する。 一方、PatchSTは独立した単変量時系列から長期にわたる歴史的特徴をキャプチャする。 最後に,本提案手法は,本質的な知識を学習し,PatchSTを模倣する能力を横断する学生モデルとして,STcAMへの知識蒸留に基づいている。 検出フェーズでは、MKF-ADSはSTcAMのみをデプロイし、リソース制限IVN環境で効率を維持する。 また、ビットフリップ率と境界決定推定により冗長なノイズ信号が低減される。 我々は,様々なcanidと時間ステップにまたがる6つのシミュレーション攻撃シナリオと,競合予測と検出性能を示す2つの実際の攻撃シナリオについて,広範な実験を行った。 同じパラダイムのベースラインと比較すると、エラー率は2.62%と2.41%であり、有望なf1-scoreは97.3%である。

With the requirements of Intelligent Transport Systems (ITSs) for extensive connectivity of Electronic Control Units (ECUs) to the outside world, safety and security have become stringent problems. Intrusion detection systems (IDSs) are a crucial safety component in remediating Controller Area Network (CAN) bus vulnerabilities. However, supervised-based IDSs fail to identify complexity attacks and anomaly-based IDSs have higher false alarms owing to capability bottleneck. In this paper, we propose a novel multi-knowledge fused anomaly detection model, called MKF-IDS. Specifically, the method designs an integration framework, including spatial-temporal correlation with an attention mechanism (STcAM) module and patch sparse-transformer module (PatchST). The STcAM with fine-pruning uses one-dimensional convolution (Conv1D) to extract spatial features and subsequently utilizes the Bidirectional Long Short Term Memory (Bi-LSTM) to extract the temporal features, where the attention mechanism will focus on the important time steps. Meanwhile, the PatchST captures the combined long-time historical features from independent univariate time series. Finally, the proposed method is based on knowledge distillation to STcAM as a student model for learning intrinsic knowledge and cross the ability to mimic PatchST. In the detection phase, the MKF-ADS only deploys STcAM to maintain efficiency in a resource-limited IVN environment. Moreover, the redundant noisy signal is reduced with bit flip rate and boundary decision estimation. We conduct extensive experiments on six simulation attack scenarios across various CAN IDs and time steps, and two real attack scenarios, which present a competitive prediction and detection performance. Compared with the baseline in the same paradigm, the error rate and FAR are 2.62% and 2.41% and achieve a promising F1-score of 97.3%.
翻訳日:2024-03-08 14:42:04 公開日:2024-03-07
# A(G)Iにおける課題 : 全思考のための一つのアルゴリズムとしてOuroboros Modelで復活したサイバネティクス

A challenge in A(G)I, cybernetics revived in the Ouroboros Model as one algorithm for all thinking ( http://arxiv.org/abs/2403.04292v1 )

ライセンス: Link先を確認
Knud Thomsen(参考訳) アルゴリズム全般と、特に自動画像分類と生成に関する話題的課題は、AIが理解するための図面の形で提示される。 第2の例では、AIは、言葉による記述から似たようなものを生成するよう挑戦される。 論文の目的は、現在の人工知能アプローチの強みと欠陥を強調しつつ、粗いスケッチを前進させることである。 包含するシンボル埋め込みの欠如と、(単に)身体レベルでの接地が現在の欠陥の原因となっている。 階層的な概念の組織を共同で破壊する行為はスイートに従う。 これらの欠点に対する対策として,サイバネティックスとアナログ制御プロセスの側面を新たに取り入れることが提案されている。 有望な総括的視点はouroborosモデルによって提供され、あらゆるアクセス可能な抽象化と能力レベルで一般認知のための有効で多用途なアルゴリズムバックボーンが提供されている。 現実、ルール、真実、自由意志はすべて、ouroborosモデルに従って有用な抽象化である。 論理推論と直感的な推測は、スキーマのための1つの区画化されたメモリとパターンマッチング、すなわち、消費分析と呼ばれるモニタリングプロセスに基づいて作成される。 後者は、短い(アテンション固有)と長い時間スケール(運動バイアス)に注意を向ける。 このサイバネティックなアプローチでは、期待と実際のアクティベーション(例えば感覚概念)の相違が認知の一般的な過程を駆動すると同時に、新しく適応したメモリエントリの保存も行う。 人間の脳内の特定の構造は、このスキームに従って協調して働く。

A topical challenge for algorithms in general and for automatic image categorization and generation in particular is presented in the form of a drawing for AI to understand. In a second vein, AI is challenged to produce something similar from verbal description. The aim of the paper is to highlight strengths and deficiencies of current Artificial Intelligence approaches while coarsely sketching a way forward. A general lack of encompassing symbol-embedding and (not only) -grounding in some bodily basis is made responsible for current deficiencies. A concomitant dearth of hierarchical organization of concepts follows suite. As a remedy for these shortcomings, it is proposed to take a wide step back and to newly incorporate aspects of cybernetics and analog control processes. It is claimed that a promising overarching perspective is provided by the Ouroboros Model with a valid and versatile algorithmic backbone for general cognition at all accessible levels of abstraction and capabilities. Reality, rules, truth, and Free Will are all useful abstractions according to the Ouroboros Model. Logic deduction as well as intuitive guesses are claimed as produced on the basis of one compartmentalized memory for schemata and a pattern-matching, i.e., monitoring process termed consumption analysis. The latter directs attention on short (attention proper) and also on long times scales (emotional biases). In this cybernetic approach, discrepancies between expectations and actual activations (e.g., sensory precepts) drive the general process of cognition and at the same time steer the storage of new and adapted memory entries. Dedicated structures in the human brain work in concert according to this scheme.
翻訳日:2024-03-08 14:41:32 公開日:2024-03-07
# MedM2G:ビジュアル不変量を用いたクロスガイド拡散による医用マルチモーダル生成の統合

MedM2G: Unifying Medical Multi-Modal Generation via Cross-Guided Diffusion with Visual Invariant ( http://arxiv.org/abs/2403.04290v1 )

ライセンス: Link先を確認
Chenlu Zhan, Yu Lin, Gaoang Wang, Hongwei Wang, Jian Wu(参考訳) 高品質なサンプル生成能力で認識された医療生成モデルは、医療応用の急速な成長を加速させた。 しかし、近年の研究は、個別の医療タスクのための個別の医療生成モデルに焦点を合わせており、医学的マルチモーダル知識に乏しく、包括的診断を制限している。 本稿では,医療用マルチモーダル生成フレームワークであるmedm2gを提案し,統一モデル内で医療用マルチモーダルの調整,抽出,生成を行うための重要なイノベーションについて述べる。 単一あるいは2つの医療モダリティを超えて、統一空間における中心的なアライメントアプローチを通じて、医療マルチモーダルを効率的に調整する。 本フレームワークは,各画像の医用画像の不変性を保ち,マルチモーダル生成のための特定の医療情報を強化することで,貴重な臨床知識を抽出する。 適応クロスガイドパラメータをマルチフロー拡散フレームワークに条件付けすることにより,医療用マルチモーダル間のフレキシブルなインタラクションを促進する。 MedM2Gは、テキスト・ツー・イメージ、画像・トゥ・テキスト、医用モダリティ(CT、MRI、X線)の医用生成タスクを統合する最初の医療生成モデルである。 10のデータセットにまたがって5つの医療生成タスクを実行する。

Medical generative models, acknowledged for their high-quality sample generation ability, have accelerated the fast growth of medical applications. However, recent works concentrate on separate medical generation models for distinct medical tasks and are restricted to inadequate medical multi-modal knowledge, constraining medical comprehensive diagnosis. In this paper, we propose MedM2G, a Medical Multi-Modal Generative framework, with the key innovation to align, extract, and generate medical multi-modal within a unified model. Extending beyond single or two medical modalities, we efficiently align medical multi-modal through the central alignment approach in the unified space. Significantly, our framework extracts valuable clinical knowledge by preserving the medical visual invariant of each imaging modal, thereby enhancing specific medical information for multi-modal generation. By conditioning the adaptive cross-guided parameters into the multi-flow diffusion framework, our model promotes flexible interactions among medical multi-modal for generation. MedM2G is the first medical generative model that unifies medical generation tasks of text-to-image, image-to-text, and unified generation of medical modalities (CT, MRI, X-ray). It performs 5 medical generation tasks across 10 datasets, consistently outperforming various state-of-the-art works.
翻訳日:2024-03-08 14:41:08 公開日:2024-03-07
# 課題対応型ロボット政策の対称性に関する考察

Symmetry Considerations for Learning Task Symmetric Robot Policies ( http://arxiv.org/abs/2403.04359v1 )

ライセンス: Link先を確認
Mayank Mittal, Nikita Rudin, Victor Klemm, Arthur Allshire, Marco Hutter(参考訳) 対称性は多くの現実世界のロボットタスクの基本的な側面である。 しかし、現在の深層強化学習(DRL)アプローチでは、対称性を効果的に活用することはめったにない。 しばしば、学習された行動は所望の変換不変性を達成できず、運動アーチファクトに苦しむ。 例えば、四足歩行は、胴部に関して対称であるにもかかわらず、前方または後方に動くように指示された場合、異なる歩行を示すことがある。 この問題は、DRL法が局所最適であり、状態空間の領域を等しく探索できない高次元または複雑な環境でさらに顕著になる。 ロボットタスクの対称性を奨励する過去の手法は、主にシングルタスクの設定で研究されており、対称性は通常、歩行パターンのような動きにおける対称性を指す。 本稿では,ロボット工学における目標条件タスクについて,主にタスク実行に対称性があり,学習動作自体に限らず,このトピックを再考する。 特に,drlに対称性不変性を導入するための2つの方法 -- データ拡張とミラー損失関数 -- について検討した。 オンポリシー設定で拡張サンプルを使用するための理論的基礎を提供する。 そこで本研究では,このアプローチがより高速な収束を達成し,四足歩行からデクスター操作まで,様々な課題ロボットタスクにおける学習行動を改善することを示す。

Symmetry is a fundamental aspect of many real-world robotic tasks. However, current deep reinforcement learning (DRL) approaches can seldom harness and exploit symmetry effectively. Often, the learned behaviors fail to achieve the desired transformation invariances and suffer from motion artifacts. For instance, a quadruped may exhibit different gaits when commanded to move forward or backward, even though it is symmetrical about its torso. This issue becomes further pronounced in high-dimensional or complex environments, where DRL methods are prone to local optima and fail to explore regions of the state space equally. Past methods on encouraging symmetry for robotic tasks have studied this topic mainly in a single-task setting, where symmetry usually refers to symmetry in the motion, such as the gait patterns. In this paper, we revisit this topic for goal-conditioned tasks in robotics, where symmetry lies mainly in task execution and not necessarily in the learned motions themselves. In particular, we investigate two approaches to incorporate symmetry invariance into DRL -- data augmentation and mirror loss function. We provide a theoretical foundation for using augmented samples in an on-policy setting. Based on this, we show that the corresponding approach achieves faster convergence and improves the learned behaviors in various challenging robotic tasks, from climbing boxes with a quadruped to dexterous manipulation.
翻訳日:2024-03-08 14:36:11 公開日:2024-03-07
# 脳波分類のための2次元画像として表現された適切なトポロジカルマップの時空間プール

Spatiotemporal Pooling on Appropriate Topological Maps Represented as Two-Dimensional Images for EEG Classification ( http://arxiv.org/abs/2403.04353v1 )

ライセンス: Link先を確認
Takuto Fukushima and Ryusuke Miyamoto(参考訳) 脳波(EEG)信号に基づく運動画像分類は脳-コンピュータインターフェースの最も重要な応用の1つであるが、さらなる改善が必要である。 変換器などの最近の深層学習技術を用いて,脳波信号から有用な情報を得る方法がいくつかある。 本研究は,t-sneに基づく座標変換による脳波信号から2次元画像として表現される位相マップの生成,空間特徴抽出のためのinterternimageの使用,eeg画像列に隠された時空間情報を活用するためにpoolformerにインスパイアされた時空間プーリングの利用の3つの特徴を有する,脳波に基づく運動画像分類手法を提案する。 PhysioNet EEG Motor Movement/ Imagery データセットを用いた実験の結果,2-,3-,4-クラスの運動画像タスクにおいて,提案手法が88.57%,80.65%,70.17%の分類精度を達成した。

Motor imagery classification based on electroencephalography (EEG) signals is one of the most important brain-computer interface applications, although it needs further improvement. Several methods have attempted to obtain useful information from EEG signals by using recent deep learning techniques such as transformers. To improve the classification accuracy, this study proposes a novel EEG-based motor imagery classification method with three key features: generation of a topological map represented as a two-dimensional image from EEG signals with coordinate transformation based on t-SNE, use of the InternImage to extract spatial features, and use of spatiotemporal pooling inspired by PoolFormer to exploit spatiotemporal information concealed in a sequence of EEG images. Experimental results using the PhysioNet EEG Motor Movement/Imagery dataset showed that the proposed method achieved the best classification accuracy of 88.57%, 80.65%, and 70.17% on two-, three-, and four-class motor imagery tasks in cross-individual validation.
翻訳日:2024-03-08 14:35:49 公開日:2024-03-07
# LoCoDL: ローカルトレーニングと圧縮によるコミュニケーション効率の良い分散学習

LoCoDL: Communication-Efficient Distributed Learning with Local Training and Compression ( http://arxiv.org/abs/2403.04348v1 )

ライセンス: Link先を確認
Laurent Condat, Artavazd Maranjyan, Peter Richt\'arik(参考訳) 分散最適化と学習、さらにはフェデレーション学習の現代的なフレームワークでは、遅くてコストのかかるコミュニケーションが重要です。 そこで我々はLoCoDL(LoCoDL)と,フロートの実次元ベクトルの代わりに短いビットストリームが送信される圧縮(Compression)の2つの手法を応用した通信効率の高いアルゴリズムを提案する。 LoCoDLは、広く使われているスパーシフィケーションと量子化法を含む、多数の非バイアス圧縮機で動作する。 LoCoDLは、局所的な訓練と圧縮の恩恵を受け、強い凸関数を持つ一般的な異種系において、関数の条件数とモデル次元に関して二重に加速された通信複雑性を享受する。 これは実際に確認されており、LoCoDLは既存のアルゴリズムより優れている。

In Distributed optimization and Learning, and even more in the modern framework of federated learning, communication, which is slow and costly, is critical. We introduce LoCoDL, a communication-efficient algorithm that leverages the two popular and effective techniques of Local training, which reduces the communication frequency, and Compression, in which short bitstreams are sent instead of full-dimensional vectors of floats. LoCoDL works with a large class of unbiased compressors that includes widely-used sparsification and quantization methods. LoCoDL provably benefits from local training and compression and enjoys a doubly-accelerated communication complexity, with respect to the condition number of the functions and the model dimension, in the general heterogenous regime with strongly convex functions. This is confirmed in practice, with LoCoDL outperforming existing algorithms.
翻訳日:2024-03-08 14:35:27 公開日:2024-03-07
# 指数的平滑化の新しい理論的枠組み

A Novel Theoretical Framework for Exponential Smoothing ( http://arxiv.org/abs/2403.04345v1 )

ライセンス: Link先を確認
Enrico Bernardi, Alberto Lanconelli, Christopher S. A. Lauria(参考訳) 単純指数平滑化(Simple Exponential Smoothing)は、指数関数的に減少する重みを過去の観測に再帰的方程式で割り当てることで時系列データの平滑化に使用される古典的な手法である。 単純な指数的滑らか化を定義する再帰方程式は、ガウス対数様関数の列を最適化する確率的勾配上昇スキームとして自然に発生する、新しい理論的視点を導入する。 この解析のレンズの下で、我々の主定理は-一般的な設定において、単純な指数的滑らか化はトレンド定常確率過程のトレンドの近傍に収束することを示している。 このことは、指数的平滑化法が、単純な指数的平滑化の堅牢性に関する文献における長年の観測に光を遮る基礎となるトレンドの信頼性の高い推定子をもたらすという新しい理論的な保証を提供する。

Simple Exponential Smoothing is a classical technique used for smoothing time series data by assigning exponentially decreasing weights to past observations through a recursive equation; it is sometimes presented as a rule of thumb procedure. We introduce a novel theoretical perspective where the recursive equation that defines simple exponential smoothing occurs naturally as a stochastic gradient ascent scheme to optimize a sequence of Gaussian log-likelihood functions. Under this lens of analysis, our main theorem shows that -in a general setting- simple exponential smoothing converges to a neighborhood of the trend of a trend-stationary stochastic process. This offers a novel theoretical assurance that the exponential smoothing procedure yields reliable estimators of the underlying trend shedding light on long-standing observations in the literature regarding the robustness of simple exponential smoothing.
翻訳日:2024-03-08 14:35:11 公開日:2024-03-07
# RL-CFR:強化学習による不完全な情報集約型ゲームのためのアクション抽象化の改善

RL-CFR: Improving Action Abstraction for Imperfect Information Extensive-Form Games with Reinforcement Learning ( http://arxiv.org/abs/2403.04344v1 )

ライセンス: Link先を確認
Boning Li, Zhixuan Fang and Longbo Huang(参考訳) 効果的なアクション抽象化は、不完全な情報集約型ゲーム(IIEFG)における大きなアクション空間に関連する課題に取り組む上で重要である。 しかし、IIEFGの膨大な状態空間と計算複雑性のため、既存の手法はしばしば固定された抽象化に依存し、結果として準最適性能をもたらす。 動的動作抽象化のための新しい強化学習(RL)手法であるRL-CFRを導入する。 RL-CFRは、我々の革新的なマルコフ決定プロセス(MDP)の定式化に基づいており、公開情報に対応する状態と、特定のアクション抽象化を示す特徴ベクトルとして表される行動である。 報酬は、選択されたアクション抽象化とデフォルトのアクション抽象化の相違として定義される。 RL-CFRは、RL誘導されたアクション抽象化を備えたゲームツリーを構築し、戦略導出に対実的後悔最小化(CFR)を利用する。 驚くべきことに、scratchからトレーニングでき、cfrの解決時間を増やすことなく、高い期待ペイオフを達成できる。 ヘッドアップノーリミット・テキサスホールディングスの実験では、RL-CFRはReBeLのレプリケーションとスラムボットを上回り、それぞれ6,4\pm 11$と8,4\pm 17$ mbb/handの勝利率差を示した。

Effective action abstraction is crucial in tackling challenges associated with large action spaces in Imperfect Information Extensive-Form Games (IIEFGs). However, due to the vast state space and computational complexity in IIEFGs, existing methods often rely on fixed abstractions, resulting in sub-optimal performance. In response, we introduce RL-CFR, a novel reinforcement learning (RL) approach for dynamic action abstraction. RL-CFR builds upon our innovative Markov Decision Process (MDP) formulation, with states corresponding to public information and actions represented as feature vectors indicating specific action abstractions. The reward is defined as the expected payoff difference between the selected and default action abstractions. RL-CFR constructs a game tree with RL-guided action abstractions and utilizes counterfactual regret minimization (CFR) for strategy derivation. Impressively, it can be trained from scratch, achieving higher expected payoff without increased CFR solving time. In experiments on Heads-up No-limit Texas Hold'em, RL-CFR outperforms ReBeL's replication and Slumbot, demonstrating significant win-rate margins of $64\pm 11$ and $84\pm 17$ mbb/hand, respectively.
翻訳日:2024-03-08 14:34:56 公開日:2024-03-07
# CoTBal: マルチタスクビジュアルインストラクションチューニングのための総合的なタスクバランシング

CoTBal: Comprehensive Task Balancing for Multi-Task Visual Instruction Tuning ( http://arxiv.org/abs/2403.04343v1 )

ライセンス: Link先を確認
Yanqi Dai, Dong Jing, Nanyi Fei, Zhiwu Lu(参考訳) ビジュアルインストラクションチューニングは、大型マルチモーダルモデル(LMM)の重要なトレーニングステージである。 それにもかかわらず、様々なタスクから命令追従データを無差別に混合する一般的なプラクティスは、タスク間で異なる命令形式と知識ドメインのために、全体的なパフォーマンスを最適化する可能性がある。 この問題を軽減するために,LMMのマルチタスク視覚的チューニングのための新しい総合的タスクバランシング(CoTBal)アルゴリズムを提案する。 私たちの知る限り、これはビジュアル命令チューニングにおけるマルチタスク最適化を探求する最初の仕事です。 具体的には,1つのタスクにおけるタスク間の貢献,1つのタスクの学習が他のタスクのパフォーマンスを潜在的に向上させる現象,2つのタスク内の学習難易度について考察する。 これにより、これらの2つの次元をパフォーマンスベースのメトリクスで定量化することにより、タスクバランスが実現される。 実験の結果,CoTBalはマルチタスク・ビジュアル・インストラクション・チューニングにおける全体的な性能に優れていた。

Visual instruction tuning is a key training stage of large multimodal models (LMMs). Nevertheless, the common practice of indiscriminately mixing instruction-following data from various tasks may result in suboptimal overall performance due to different instruction formats and knowledge domains across tasks. To mitigate this issue, we propose a novel Comprehensive Task Balancing (CoTBal) algorithm for multi-task visual instruction tuning of LMMs. To our knowledge, this is the first work that explores multi-task optimization in visual instruction tuning. Specifically, we consider two key dimensions for task balancing: (1) Inter-Task Contribution, the phenomenon where learning one task potentially enhances the performance in other tasks, attributable to the overlapping knowledge domains, and (2) Intra-Task Difficulty, which refers to the learning difficulty within a single task. By quantifying these two dimensions with performance-based metrics, task balancing is thus enabled by assigning more weights to tasks that offer substantial contributions to others, receive minimal contributions from others, and also have great intra-task difficulties. Experiments show that our CoTBal leads to superior overall performance in multi-task visual instruction tuning.
翻訳日:2024-03-08 14:34:31 公開日:2024-03-07
# 組み込みシステム設計のための説明可能なAI:静的冗長NVMメモリ書き込み予測のケーススタディ

Explainable AI for Embedded Systems Design: A Case Study of Static Redundant NVM Memory Write Prediction ( http://arxiv.org/abs/2403.04337v1 )

ライセンス: Link先を確認
Abdoulaye Gamati\'e (LIRMM | ADAC), Yuyang Wang (LIRMM | ADAC)(参考訳) 本稿では,機械学習(ML)を用いた組込みシステムの設計におけるeXplainable Artificial Intelligence(XAI)の適用について検討する。 ケーススタディとして、静的なサイレントストア予測の難しい問題に対処する。 これは、静的プログラム機能のみに基づいて冗長なメモリ書き込みを識別することを含む。 このようなストアの排除は、特に新しい不揮発性メモリ技術の存在下で、メモリアクセスとバストラフィックを減らすことで、パフォーマンスとエネルギー効率を向上させる。 これを実現するために,我々は以下の方法を提案する。 1)サイレントストア予測を説明するための関連MLモデルの開発 2) これらのモデルを説明するためのXAIの適用。 サイレントストアの原因を分析するために,2つの最先端モデル非依存xai手法を用いる。 ケーススタディを通じて,本手法の有効性を評価する。 これらの手法は, 従来研究されていたサイレントストア発生の既知の原因と一致した, サイレントストア予測のための説明を提供する。 典型的には、ゼロ定数をメモリに書き込む操作におけるサイレントストアの頻度や、ループ誘導変数を含む操作におけるサイレントストアの欠如を確認することができる。 これは、組み込みシステム設計におけるmlモデルの判断分析におけるxaiの潜在的関連性を示唆する。 ケーススタディでは、私たちが遭遇した重要な洞察と落とし穴を共有しています。 より一般的には、組み込みシステム設計におけるXAIの新興分野における今後の研究の基盤となることを目的としている。

This paper investigates the application of eXplainable Artificial Intelligence (XAI) in the design of embedded systems using machine learning (ML). As a case study, it addresses the challenging problem of static silent store prediction. This involves identifying redundant memory writes based only on static program features. Eliminating such stores enhances performance and energy efficiency by reducing memory access and bus traffic, especially in the presence of emerging non-volatile memory technologies. To achieve this, we propose a methodology consisting of: 1) the development of relevant ML models for explaining silent store prediction, and 2) the application of XAI to explain these models. We employ two state-of-the-art model-agnostic XAI methods to analyze the causes of silent stores. Through the case study, we evaluate the effectiveness of the methods. We find that these methods provide explanations for silent store predictions, which are consistent with known causes of silent store occurrences from previous studies. Typically, this allows us to confirm the prevalence of silent stores in operations that write the zero constant into memory, or the absence of silent stores in operations involving loop induction variables. This suggests the potential relevance of XAI in analyzing ML models' decision in embedded system design. From the case study, we share some valuable insights and pitfalls we encountered. More generally, this study aims to lay the groundwork for future research in the emerging field of XAI for embedded system design.
翻訳日:2024-03-08 14:34:07 公開日:2024-03-07
# 翼の形状最適化のためのメカニズムインフォームド強化学習フレームワーク

A mechanism-informed reinforcement learning framework for shape optimization of airfoils ( http://arxiv.org/abs/2403.04329v1 )

ライセンス: Link先を確認
Jingfeng Wang and Guanghui Hu(参考訳) 本研究では, 翼形状最適化のための機構型強化学習フレームワークを提案する。 2つの遅延型決定論的ポリシー勾配アルゴリズムをその顕著な安定性のために活用することにより,流体力学に支配される形状の最適化の複雑さに対処した。 pdesベースのソルバは、探索中に構成やジオメトリが異常に変化しても精度が向上する。 二重重み付き残差メッシュ改質戦略を適用し, 目標関数の正確な計算を確実にする。 反復最適化プロセスの合理化と幾何変形の処理のために,我々はラプラシアスムージング,適応的洗練,B'ezierのフィッティング戦略を統合する。 この組み合わせはメッシュタングリングをリミットするだけでなく、翼形状の精密な操作も保証している。 ニューラルネットワークアーキテクチャでは,b\'ezier曲線を効率的に次元化することにより,学習プロセスを強化し,翼形状の幾何学的精度を確保する。 注意機構がネットワーク内に埋め込まれ、状態に対する潜在的なアクションも計算される。 さらに, 翼の最適化の課題に合わせて, 異なる報酬・ペナルティ機構を導入している。 このアルゴリズムは最適化作業を支援するために設計されており、翼形状最適化のためのより標的的で効果的なアプローチを容易にする。

In this study, we present the mechanism-informed reinforcement learning framework for airfoil shape optimization. By leveraging the twin delayed deep deterministic policy gradient algorithm for its notable stability, our approach addresses the complexities of optimizing shapes governed by fluid dynamics. The PDEs-based solver is adopted for its accuracy even when the configurations and geometries are extraordinarily changed during the exploration. Dual-weighted residual-based mesh refinement strategy is applied to ensure the accurate calculation of target functionals. To streamline the iterative optimization process and handle geometric deformations, our approach integrates Laplacian smoothing, adaptive refinement, and a B\'ezier fitting strategy. This combination not only remits mesh tangling but also guarantees a precise manipulation of the airfoil geometry. Our neural network architecture leverages B\'ezier curves for efficient dimensionality reduction, thereby enhancing the learning process and ensuring the geometric accuracy of the airfoil shapes. An attention mechanism is embedded within the network to calculate potential action on the state as well. Furthermore, we have introduced different reward and penalty mechanisms tailored to the specific challenges of airfoil optimization. This algorithm is designed to support the optimization task, facilitating a more targeted and effective approach for airfoil shape optimization.
翻訳日:2024-03-08 14:33:46 公開日:2024-03-07
# ProMoAI: 生成AIによるプロセスモデリング

ProMoAI: Process Modeling with Generative AI ( http://arxiv.org/abs/2403.04327v1 )

ライセンス: Link先を確認
Humam Kourani, Alessandro Berti, Daniel Schuster, Wil M. P. van der Aalst(参考訳) promoaiは、テキスト記述からプロセスモデルを自動的に生成し、高度なプロンプトエンジニアリング、エラー処理、コード生成技術を含む、大きな言語モデル(llm)を活用する新しいツールである。 複雑なプロセスモデルの自動生成に加えて、ProMoAIはプロセスモデルの最適化もサポートする。 生成されたモデルに対するフィードバックを提供することで、ユーザはツールと対話することができる。 ProMoAIは、LLMを使用して、プロセスモデリングに対する新しいAI駆動のアプローチを提供し、プロセスモデリングの深い技術知識のないユーザへの参入障壁を著しく低減する。

ProMoAI is a novel tool that leverages Large Language Models (LLMs) to automatically generate process models from textual descriptions, incorporating advanced prompt engineering, error handling, and code generation techniques. Beyond automating the generation of complex process models, ProMoAI also supports process model optimization. Users can interact with the tool by providing feedback on the generated model, which is then used for refining the process model. ProMoAI utilizes the capabilities LLMs to offer a novel, AI-driven approach to process modeling, significantly reducing the barrier to entry for users without deep technical knowledge in process modeling.
翻訳日:2024-03-08 14:33:26 公開日:2024-03-07
# 知的建築室内環境モデリングのためのエッジベースパラメトリックデジタル双生児

Edge-based Parametric Digital Twins for Intelligent Building Indoor Climate Modeling ( http://arxiv.org/abs/2403.04326v1 )

ライセンス: Link先を確認
Zhongjun Ni (1), Chi Zhang (2), Magnus Karlsson (1), Shaofang Gong (1) ((1) Department of Science and Technology, Link\"oping University, Campus Norrk\"oping, Norrk\"oping, Sweden. (2) Department of Computer Science and Engineering, University of Gothenburg, Gothenburg, Sweden.)(参考訳) 構築された環境におけるデジタルトランスフォーメーションは、構築操作を最適化するデータ駆動モデルを開発するために膨大なデータを生成する。 本研究では, エッジコンピューティング, デジタルツイン, 深層学習を活用し, 建物内の気候の理解を深める統合ソリューションを提案する。 オントロジーを用いて作成されたパラメトリックデジタルツインは、さまざまな建物を備えた多様なサービスシステム間で一貫性のあるデータ表現を保証する。 生成したデジタルツインと収集データに基づいて、深層学習法を用いて、屋内気候のパターンを特定し、洞察を提供する予測モデルを開発する。 パラメトリックデジタルツインモデルとディープラーニングモデルの両方が、低レイテンシとプライバシコンプライアンスのためにエッジにデプロイされる。 実演として,5つのディープラーニングアーキテクチャのパフォーマンスを比較するために,スウェーデンのオステルグ(osterg\)オットランドにある歴史的な建物で事例研究を行った。 その結果, 計算コストの低い室内温度と相対湿度のマルチホリゾン予測において, 時系列高密度エンコーダモデルが強い競合性を示した。

Digital transformation in the built environment generates vast data for developing data-driven models to optimize building operations. This study presents an integrated solution utilizing edge computing, digital twins, and deep learning to enhance the understanding of climate in buildings. Parametric digital twins, created using an ontology, ensure consistent data representation across diverse service systems equipped by different buildings. Based on created digital twins and collected data, deep learning methods are employed to develop predictive models for identifying patterns in indoor climate and providing insights. Both the parametric digital twin and deep learning models are deployed on edge for low latency and privacy compliance. As a demonstration, a case study was conducted in a historic building in \"Osterg\"otland, Sweden, to compare the performance of five deep learning architectures. The results indicate that the time-series dense encoder model exhibited strong competitiveness in performing multi-horizon forecasts of indoor temperature and relative humidity with low computational costs.
翻訳日:2024-03-08 14:33:15 公開日:2024-03-07
# 大規模言語モデルを用いた合成スコアを用いた脳内意味構成の測定

Measuring Meaning Composition in the Human Brain with Composition Scores from Large Language Models ( http://arxiv.org/abs/2403.04325v1 )

ライセンス: Link先を確認
Changjiang Gao, Jixing Li, Jiajun Chen, Shujian Huang(参考訳) 形態素や単語のような小さな単位が組み合わさって語句や文の意味を形成する意味構成の過程は、人間の文章理解に不可欠である。 意味合成に関わる脳領域に関する広範な神経言語学的研究にもかかわらず、構成の程度を定量化する計算指標はまだ不足している。 変換器フィードフォワードネットワークブロックのキー値メモリ解釈に基づいて,文理解中に意味合成の度合いを定量化するために設計された,新しいモデルベースメトリクスであるコンポジションスコアを導入する。 実験の結果, 単語の頻度, 構造処理, 単語に対する一般感性に関連する脳クラスタと相関し, 人間の文章理解における意味構成の多面的特徴が示唆された。

The process of meaning composition, wherein smaller units like morphemes or words combine to form the meaning of phrases and sentences, is essential for human sentence comprehension. Despite extensive neurolinguistic research into the brain regions involved in meaning composition, a computational metric to quantify the extent of composition is still lacking. Drawing on the key-value memory interpretation of transformer feed-forward network blocks, we introduce the Composition Score, a novel model-based metric designed to quantify the degree of meaning composition during sentence comprehension. Experimental findings show that this metric correlates with brain clusters associated with word frequency, structural processing, and general sensitivity to words, suggesting the multifaceted nature of meaning composition during human sentence comprehension.
翻訳日:2024-03-08 14:32:59 公開日:2024-03-07
# 半教師付きクラスタリングのためのmemetic differential evolution法

Memetic Differential Evolution Methods for Semi-Supervised Clustering ( http://arxiv.org/abs/2403.04322v1 )

ライセンス: Link先を確認
Pierluigi Mansueto, Fabio Schoen(参考訳) 本稿では、背景知識がインスタンスレベルの制約の形で与えられる半教師付き最小値クラスタリング(MSSC)問題に対処する。 特に、"must-link"と"cannot-link"の制約を考慮して、それぞれが2つのデータセットポイントが同じあるいは別のクラスタに関連付けられるべきかどうかを示します。 このような制約の存在は、少なくとも教師なしバージョンと同様に問題を難しくする: 各点が最寄りのクラスタ中心に関連付けられていることはもはや事実ではなく、割り当てステップのような重要な操作にいくつかの修正を必要とする。 このシナリオでは,非教師付きクラスタリング文献で最近提案された最先端のフレームワークを直接拡張する,微分進化パラダイムに基づく新しいメメティクス戦略を提案する。 我々が知る限り、我々の貢献は、半教師付きMSSC問題に対する(好ましくは)最適実現可能なソリューションを生成するために設計されたメメティック方法論を定義する最初の試みである。 この提案は、よく知られているデータセットの集合に関する文献の最先端アルゴリズムと比較され、優れたクラスタリングソリューションを見つける上での有効性と効率性を強調している。

In this paper, we deal with semi-supervised Minimum Sum-of-Squares Clustering (MSSC) problems where background knowledge is given in the form of instance-level constraints. In particular, we take into account "must-link" and "cannot-link" constraints, each of which indicates if two dataset points should be associated to the same or to a different cluster. The presence of such constraints makes the problem at least as hard as its unsupervised version: it is no more true that each point is associated to its nearest cluster center, thus requiring some modifications in crucial operations, such as the assignment step. In this scenario, we propose a novel memetic strategy based on the Differential Evolution paradigm, directly extending a state-of-the-art framework recently proposed in the unsupervised clustering literature. As far as we know, our contribution represents the first attempt to define a memetic methodology designed to generate a (hopefully) optimal feasible solution for the semi-supervised MSSC problem. The proposal is compared with some state-of-the-art algorithms from the literature on a set of well-known datasets, highlighting its effectiveness and efficiency in finding good quality clustering solutions.
翻訳日:2024-03-08 14:32:45 公開日:2024-03-07
# テキスト・画像生成のための識別的探索とチューニング

Discriminative Probing and Tuning for Text-to-Image Generation ( http://arxiv.org/abs/2403.04321v1 )

ライセンス: Link先を確認
Leigang Qu, Wenjie Wang, Yongqi Li, Hanwang Zhang, Liqiang Nie, Tat-Seng Chua(参考訳) t2i (text-to-image generation) の進歩にもかかわらず、従来の手法では画像間の関係の混同など、テキスト画像の不一致の問題に直面することが多い。 既存のソリューションには、クロスアテンション操作による構成理解の改善や、レイアウト計画の改善のための大規模言語モデルの統合が含まれる。 しかし、T2Iモデル固有のアライメント能力はまだ不十分である。 生成モデルと識別モデルの関係をレビューすることにより、T2Iモデルの識別能力は、生成中のテキスト画像のアライメント能力を反映する可能性があると仮定する。 本稿では,T2Iモデルの識別能力を向上し,より正確なテキスト・画像アライメントの実現を提唱する。 本稿では,t2iモデルに基づく識別アダプタを提案する。2つの代表的なタスクにおける識別能力を調査し,識別的微調整を利用してテキスト画像アライメントを改善する。 判別アダプタのボーナスとして、自己修正機構は識別勾配を利用して、推論中に生成された画像をよりテキストプロンプトに合わせることができる。 分布内および分布外シナリオを含む3つのベンチマークデータセットの包括的評価は,本手法の優れた世代性能を示す。 一方,2つの識別課題における最先端の識別性能を他の生成モデルと比較して達成する。

Despite advancements in text-to-image generation (T2I), prior methods often face text-image misalignment problems such as relation confusion in generated images. Existing solutions involve cross-attention manipulation for better compositional understanding or integrating large language models for improved layout planning. However, the inherent alignment capabilities of T2I models are still inadequate. By reviewing the link between generative and discriminative modeling, we posit that T2I models' discriminative abilities may reflect their text-image alignment proficiency during generation. In this light, we advocate bolstering the discriminative abilities of T2I models to achieve more precise text-to-image alignment for generation. We present a discriminative adapter built on T2I models to probe their discriminative abilities on two representative tasks and leverage discriminative fine-tuning to improve their text-image alignment. As a bonus of the discriminative adapter, a self-correction mechanism can leverage discriminative gradients to better align generated images to text prompts during inference. Comprehensive evaluations across three benchmark datasets, including both in-distribution and out-of-distribution scenarios, demonstrate our method's superior generation performance. Meanwhile, it achieves state-of-the-art discriminative performance on the two discriminative tasks compared to other generative models.
翻訳日:2024-03-08 14:32:25 公開日:2024-03-07
# amortized contexts を記憶した言語モデルのオンライン適応

Online Adaptation of Language Models with a Memory of Amortized Contexts ( http://arxiv.org/abs/2403.04317v1 )

ライセンス: Link先を確認
Jihoon Tack, Jaehyung Kim, Eric Mitchell, Jinwoo Shin, Yee Whye Teh, Jonathan Richard Schwarz(参考訳) 情報の発生と普及により、膨大な開発コストにもかかわらず、大規模言語モデル(LLM)は急速に時代遅れになった。 モデルをアップデートする必要が生じたため、実世界のアプリケーションでllmを使用する場合、オンライン学習が重要な必要性として浮上した。 しかし、未確認文書の絶え間ないコーパスと現代のLLMの大きなパラメータ空間を考えると、効率的な適応が不可欠である。 これらの課題に対処するために,強力な知識保持を有するLLMのための効率的かつ効果的なオンライン適応フレームワークであるMAC(Memory of Amortized Contexts)を提案する。 本稿では,メモリバンクに格納されたコンパクトな変調に新たな文書から情報を圧縮・抽出する,メモリ拡張手法を提案する。 質問に答えるとき、私たちのモデルは、このメモリバンクから関連する知識を収集します。 インフォメーション変調を効率的に学習するために,エンコーダの1回のフォワードパスで最適化プロセスを代用するamortization-based meta-learningを用いる。 その後,選択した文書の選択と集約を条件付けによって単一の変調にすることで,さらなる勾配更新を必要とせずに,テスト時間中に凍結した言語モデルを適応させることができる。 実験では,オンライン適応性能,時間,メモリ効率など,MACの複数の面での優位性を実証した。 コードはhttps://github.com/jihoontack/mac.com/。

Due to the rapid generation and dissemination of information, large language models (LLMs) quickly run out of date despite enormous development costs. Due to this crucial need to keep models updated, online learning has emerged as a critical necessity when utilizing LLMs for real-world applications. However, given the ever-expanding corpus of unseen documents and the large parameter space of modern LLMs, efficient adaptation is essential. To address these challenges, we propose Memory of Amortized Contexts (MAC), an efficient and effective online adaptation framework for LLMs with strong knowledge retention. We propose an amortized feature extraction and memory-augmentation approach to compress and extract information from new documents into compact modulations stored in a memory bank. When answering questions, our model attends to and extracts relevant knowledge from this memory bank. To learn informative modulations in an efficient manner, we utilize amortization-based meta-learning, which substitutes the optimization process with a single forward pass of the encoder. Subsequently, we learn to choose from and aggregate selected documents into a single modulation by conditioning on the question, allowing us to adapt a frozen language model during test time without requiring further gradient updates. Our experiment demonstrates the superiority of MAC in multiple aspects, including online adaptation performance, time, and memory efficiency. Code is available at: https://github.com/jihoontack/MAC.
翻訳日:2024-03-08 14:32:02 公開日:2024-03-07
# 標準とポートベースのテレポーテーションを橋渡しする漸近的テレポーテーションスキーム

Asymptotic teleportation schemes bridging between standard and port-based teleportation ( http://arxiv.org/abs/2403.04315v1 )

ライセンス: Link先を確認
Ha Eum Kim and Kabgyun Jeong(参考訳) 実験的制約を克服したり、量子通信の特定の応用要件を満たすために、様々な修正量子テレポーテーションスキームが提案されている。 したがって、ほとんどのスキームは独自の方法論で開発・研究され、それぞれ固有の課題がある。 我々の研究は、あるスキームの独特な利点が他のスキームの制限を補うことができるという考えに基づいて、互いに無関係であるように見えるスキームの相互接続に焦点を当てている。 本稿では,レシーバが古典的選択タスクを実行し,量子補正を行うための漸近的テレポーテーション方式を提案する。 このスキームは、共同計測の変換を通じてポートベースのテレポーテーションと標準テレポーテーションを橋渡しする。 具体的には,量子ビットシステムにおけるプロトコルの分類と解析を行う。 ancilla qubitsのない線形光学テレポーテーションプロトコルが2つの非自明なグループに含まれることを考慮し、その拡張に関する新しい視点を提供する。 さらに,汎用プログラマブルプロセッサとしての一群からのプロトコルの適用可能性について検討し,それらのプロトコルを高次元システムに適用し,同一の特性とポテンシャルを維持しつつ,ジョイント計測の形式と性能を提供する。 これらの結果は、高次元システムにおける量子ネットワークを構築するための新しい方法を提案する。

Various modified quantum teleportation schemes are proposed to overcome experimental constraints or to meet specific application requirements for quantum communication. Hence, most schemes are developed and studied with unique methodologies, each with its inherent challenges. Our research focuses on interconnecting these schemes appearing to be unrelated to each other, based on the idea that the unique advantages of one scheme can compensate for the limitations of another. In this paper, we introduce an asymptotic teleportation scheme requiring the receiver to perform a classical selection task followed by a quantum correction. This scheme bridges standard teleportation with port-based teleportation through the transformation of joint measurements. Specifically, we categorize and analytically investigate protocols within this scheme for qubit systems. Given that linear optics teleportation protocol without ancilla qubits is contained in the two non-trivial groups, we provide a novel perspective on its expansion. Furthermore, we discuss the potential application of a protocol from one of these groups as a universal programmable processor and extend these protocols to higher-dimensional systems while maintaining the same properties and potential, providing the analytic form of the joint measurement and its performance. These results thereby propose new avenues for developing a quantum network in higher-dimensional systems.
翻訳日:2024-03-08 14:31:42 公開日:2024-03-07
# MAGR:継続的行動品質評価のためのマニフォールド対応グラフ正規化

MAGR: Manifold-Aligned Graph Regularization for Continual Action Quality Assessment ( http://arxiv.org/abs/2403.04398v1 )

ライセンス: Link先を確認
Kanglei Zhou, Liyuan Wang, Xingxing Zhang, Hubert P. H. Shum, Frederick W. B. Li, Jianguo Li, Xiaohui Liang(参考訳) アクション品質アセスメント(AQA)は多様なスキルを評価するが、モデルは静止しないデータに苦しむ。 スパースデータを用いてモデルを洗練するための連続AQA(Continuous AQA)を提案する。 feature replayは生の入力を保存せずにメモリを保存する。 しかし、静的な古い特徴と動的に変化する特徴多様体との相違は、深刻な破滅的な忘れ物を引き起こす。 この問題に対処するため,従来の特徴を現在の特徴多様体に整列させ,表現整合性を確保するマニフォールド配向グラフ正規化(MAGR)を提案する。 その後、品質スコアに合わせた古い特徴と新しい特徴を共同で配置したグラフを構築する。 実験の結果、MAGRは、MTL-AQA、FinDiving、UNLV-Dive、JDM-MSAスプリットデータセットでそれぞれ6.56%、5.66%、15.64%、9.05%の相関ゲインで、最近の強いベースラインを上回っている。 これは、非定常スキルのバリエーションから生じる継続的な評価課題に対してmagrを検証する。

Action Quality Assessment (AQA) evaluates diverse skills but models struggle with non-stationary data. We propose Continual AQA (CAQA) to refine models using sparse new data. Feature replay preserves memory without storing raw inputs. However, the misalignment between static old features and the dynamically changing feature manifold causes severe catastrophic forgetting. To address this novel problem, we propose Manifold-Aligned Graph Regularization (MAGR), which first aligns deviated old features to the current feature manifold, ensuring representation consistency. It then constructs a graph jointly arranging old and new features aligned with quality scores. Experiments show MAGR outperforms recent strong baselines with up to 6.56%, 5.66%, 15.64%, and 9.05% correlation gains on the MTL-AQA, FineDiving, UNLV-Dive, and JDM-MSA split datasets, respectively. This validates MAGR for continual assessment challenges arising from non-stationary skill variations.
翻訳日:2024-03-08 14:25:49 公開日:2024-03-07
# SGNet: 深層学習を伴う対称タンパク質複合体の成形

SGNet: Folding Symmetrical Protein Complex with Deep Learning ( http://arxiv.org/abs/2403.04395v1 )

ライセンス: Link先を確認
Zhaoqun Li, Jingcheng Yu, Qiwei Ye(参考訳) 深層学習はタンパク質構造予測に大きく進歩し、計算生物学の発展を進展させた。 しかし、単鎖構造の予測において高い精度が得られたにもかかわらず、多数の大きなホモオリゴマー集合は内部対称性を示し、構造決定において大きな課題となっている。 既存のディープラーニング手法の性能は、対称的なタンパク質集合は通常長いシーケンスを持つため、構造計算が不可能である。 さらに、対称タンパク質複合体の複数の同一サブユニットは、ラベル割り当てにおける監督曖昧性の問題を引き起こし、トレーニングのための一貫した構造モデリングを必要とする。 これらの問題に対処するために,SGNetと呼ばれるタンパク質折り畳みフレームワークを提案し,タンパク質-タンパク質相互作用を対称的にモデル化する。 SGNetは1つのサブユニットで特徴抽出を行い、提案した対称性モジュールを用いてアセンブリ全体を生成する。 モデリング対称性の厳密な設計により、第4次タンパク質構造予測において、すべてのグローバル対称性をモデル化することができる。 対称タンパク質複合体のベンチマーク実験により,本手法の有効性が明らかにされた。

Deep learning has made significant progress in protein structure prediction, advancing the development of computational biology. However, despite the high accuracy achieved in predicting single-chain structures, a significant number of large homo-oligomeric assemblies exhibit internal symmetry, posing a major challenge in structure determination. The performances of existing deep learning methods are limited since the symmetrical protein assembly usually has a long sequence, making structural computation infeasible. In addition, multiple identical subunits in symmetrical protein complex cause the issue of supervision ambiguity in label assignment, requiring a consistent structure modeling for the training. To tackle these problems, we propose a protein folding framework called SGNet to model protein-protein interactions in symmetrical assemblies. SGNet conducts feature extraction on a single subunit and generates the whole assembly using our proposed symmetry module, which largely mitigates computational problems caused by sequence length. Thanks to the elaborate design of modeling symmetry consistently, we can model all global symmetry types in quaternary protein structure prediction. Extensive experimental results on a benchmark of symmetrical protein complexes further demonstrate the effectiveness of our method.
翻訳日:2024-03-08 14:25:29 公開日:2024-03-07
# 深層学習における色とテクスチャの歪みが地球観測データに及ぼす影響

Impacts of Color and Texture Distortions on Earth Observation Data in Deep Learning ( http://arxiv.org/abs/2403.04385v1 )

ライセンス: Link先を確認
Martin Willbo, Aleksis Pirinen, John Martinsson, Edvin Listo Zec, Olof Mogren, Mikael Nilsson(参考訳) 土地被覆分類と変化検出は、深層学習の進歩から大きな恩恵を受けたリモートセンシングと地球観測(EO)の2つの重要な応用である。 畳み込みとトランスフォーマーベースのU-netモデルは、これらのタスクの最先端アーキテクチャであり、大規模なアノテーション付きEOデータセットの増加によってパフォーマンスが向上している。 しかし、入力EOデータの異なる視覚特性がモデルの予測に与える影響はよく分かっていない。 本研究では,入力eoデータの複数の色・テクスチャに基づく歪みに対して,そのような歪みを伴わずに学習したモデルに対して,モデル感度を体系的に検討する。 ランドカバー分類のための複数の最先端セグメンテーションネットワークを用いて実験を行い、色歪みよりも一般的にテクスチャに敏感であることを示す。 広く用いられている土地被覆分類モデルの興味深い特徴を明らかにするだけでなく、eoドメイン内のより堅牢なモデルの開発を導くためにも利用できる。

Land cover classification and change detection are two important applications of remote sensing and Earth observation (EO) that have benefited greatly from the advances of deep learning. Convolutional and transformer-based U-net models are the state-of-the-art architectures for these tasks, and their performances have been boosted by an increased availability of large-scale annotated EO datasets. However, the influence of different visual characteristics of the input EO data on a model's predictions is not well understood. In this work we systematically examine model sensitivities with respect to several color- and texture-based distortions on the input EO data during inference, given models that have been trained without such distortions. We conduct experiments with multiple state-of-the-art segmentation networks for land cover classification and show that they are in general more sensitive to texture than to color distortions. Beyond revealing intriguing characteristics of widely used land cover classification models, our results can also be used to guide the development of more robust models within the EO domain.
翻訳日:2024-03-08 14:25:11 公開日:2024-03-07
# 進行光パルスによるJaynes-Cummings相互作用

Jaynes-Cummings interaction with a traveling light pulse ( http://arxiv.org/abs/2403.04383v1 )

ライセンス: Link先を確認
Victor Rueskov Christiansen, Mads Middelhede Lund, Fan Yang and Klaus M{\o}lmer(参考訳) Jaynes-Cummingsモデルは、2レベル量子エミッタと単一モードの量子放射との相互作用をシンプルかつ正確に記述する。 自由空間および導波路における固有モードのマルチモード連続性のため、jaynes-cummingsモデルは、エミッタと量子放射の進行パルスとの相互作用を適切に記述すべきではない。 本稿では、入射量子パルスと量子系の相互作用を正確に記述したカスケード量子システムアプローチについて検討する。 このアプローチは理論の異なる定式化につながり、それぞれの構造はジェインズ・カンミングスモデルと似ているが、重要な修正がなされている。

The Jaynes-Cummings model provides a simple and accurate description of the interaction between a two-level quantum emitter and a single mode of quantum radiation. Due to the multimode continuum of eigenmodes in free space and in waveguides, the Jaynes-Cummings model should not be expected to properly describe the interaction between an emitter and a traveling pulse of quantum radiation. In this article, we review a cascaded quantum system approach that accurately describes the interaction of a quantum system with an incident quantum pulse of radiation. This approach leads to different formulations of the theory, each of a similar structure as the Jaynes-Cummings model but with important modifications.
翻訳日:2024-03-08 14:24:52 公開日:2024-03-07
# Acceleron: 研究思想を加速するためのツール

Acceleron: A Tool to Accelerate Research Ideation ( http://arxiv.org/abs/2403.04382v1 )

ライセンス: Link先を確認
Harshit Nigam, Manasi Patwardhan, Lovekesh Vig, Gautam Shroff(参考訳) 近年,研究ライフサイクルのさまざまな段階で研究者を支援するツールが提案されている。 しかし、それらは主に関連文献の検索と推薦、草稿のレビューと批評、研究写本の執筆といった作業に集中している。 本研究は,研究ライフサイクルの挑戦的な構想段階において,研究者を支援するために特別に設計されたツールの可用性に,大きなギャップがあることを明らかにする。 本研究では,研究ライフサイクルの異なる段階を対象とした研究アクセラレータである「Acceleron」を提案する。 Acceleronは、新しい研究課題を含む包括的な研究提案の定式化を通じて研究者を導く。 本提案のモチベーションは,既存の文献のギャップを識別し,提案問題の解決に有効なテクニックのリストを提案することによって,新規性に検証される。 大規模言語モデル(LLM)の推論とドメイン固有のスキルを活用して,LLMの同僚とメンタペルソナを取り入れたエージェントベースのアーキテクチャを構築する。 LLMエージェントは、研究者が行うアイデア形成プロセスをエミュレートし、研究者が研究提案の開発を支援するインタラクティブな方法で関与する。 特に,本ツールでは,幻覚などのLCM固有の課題に対処し,高精度リコールトレードオフを管理するための2段階のアスペクトベースの検索を実装し,未解決の問題に対処する。 評価として,3人の研究者が提案したMLドメインとNLPドメインの提案に対して,モチベーション検証とメソッド合成ワークフローの実行について述べる。 研究員による観察と評価は、異なる段階の適切な入力を研究者に支援することで、ツールの有効性を示し、時間効率の向上につながった。

Several tools have recently been proposed for assisting researchers during various stages of the research life-cycle. However, these primarily concentrate on tasks such as retrieving and recommending relevant literature, reviewing and critiquing the draft, and writing of research manuscripts. Our investigation reveals a significant gap in availability of tools specifically designed to assist researchers during the challenging ideation phase of the research life-cycle. To aid with research ideation, we propose `Acceleron', a research accelerator for different phases of the research life cycle, and which is specially designed to aid the ideation process. Acceleron guides researchers through the formulation of a comprehensive research proposal, encompassing a novel research problem. The proposals motivation is validated for novelty by identifying gaps in the existing literature and suggesting a plausible list of techniques to solve the proposed problem. We leverage the reasoning and domain-specific skills of Large Language Models (LLMs) to create an agent-based architecture incorporating colleague and mentor personas for LLMs. The LLM agents emulate the ideation process undertaken by researchers, engaging researchers in an interactive fashion to aid in the development of the research proposal. Notably, our tool addresses challenges inherent in LLMs, such as hallucinations, implements a two-stage aspect-based retrieval to manage precision-recall trade-offs, and tackles issues of unanswerability. As evaluation, we illustrate the execution of our motivation validation and method synthesis workflows on proposals from the ML and NLP domain, given by 3 distinct researchers. Our observations and evaluations provided by the researchers illustrate the efficacy of the tool in terms of assisting researchers with appropriate inputs at distinct stages and thus leading to improved time efficiency.
翻訳日:2024-03-08 14:24:39 公開日:2024-03-07
# Egocentric 3D Hand Pose 推定のための一対二の視点適応

Single-to-Dual-View Adaptation for Egocentric 3D Hand Pose Estimation ( http://arxiv.org/abs/2403.04381v1 )

ライセンス: Link先を確認
Ruicong Liu, Takehiko Ohkawa, Mingfang Zhang, Yoichi Sato(参考訳) 正確な3次元手ポーズ推定の追求は、自我中心の視覚領域における人間の活動を理解するための鍵となる。 既存の推定手法の大半は入力として単一ビュー画像に依存しており、視野の制限や奥行きの曖昧さといった潜在的な制限につながっている。 これらの問題に対処するために、手の形をよりよく捉えるために別のカメラを追加することは実用的な方向である。 しかし, 既存の多視点ハンドポーズ推定手法では, 主な欠点が2つある。 1) トレーニングに多視点アノテーションを必要とするが、これは高価である。 2) テスト中は, カメラパラメータやレイアウトがトレーニングで使用するものと同じでない場合, モデルは適用不能となる。 本稿では,事前学習した単一視点推定器をデュアルビューに適応させる新しいS2DHand法を提案する。 既存の多視点訓練法と比較する。 1) 適応プロセスは教師なしであり,マルチビューアノテーションは不要である。 2) 任意のデュアルビュー対を未知のカメラパラメータで処理でき, 多様なカメラ設定に適用できる。 具体的には、s2dhandは、ペアワイズクロスビューコンセンサスや両ビュー間の変換の不変性など、ある種のステレオ制約に基づいて構築されている。 これら2つのステレオ制約は、擬似ラベルを生成するために相補的な方法で使用され、信頼性の高い適応を可能にする。 評価の結果,in-datasetとcross-dataset設定の両方において,s2dhandは任意のカメラペアに対して大幅な改善を達成し,既存の適応手法よりも優れた性能を実現していることがわかった。 プロジェクトページ:https://github.com/MickeyLLG/S2DHand。

The pursuit of accurate 3D hand pose estimation stands as a keystone for understanding human activity in the realm of egocentric vision. The majority of existing estimation methods still rely on single-view images as input, leading to potential limitations, e.g., limited field-of-view and ambiguity in depth. To address these problems, adding another camera to better capture the shape of hands is a practical direction. However, existing multi-view hand pose estimation methods suffer from two main drawbacks: 1) Requiring multi-view annotations for training, which are expensive. 2) During testing, the model becomes inapplicable if camera parameters/layout are not the same as those used in training. In this paper, we propose a novel Single-to-Dual-view adaptation (S2DHand) solution that adapts a pre-trained single-view estimator to dual views. Compared with existing multi-view training methods, 1) our adaptation process is unsupervised, eliminating the need for multi-view annotation. 2) Moreover, our method can handle arbitrary dual-view pairs with unknown camera parameters, making the model applicable to diverse camera settings. Specifically, S2DHand is built on certain stereo constraints, including pair-wise cross-view consensus and invariance of transformation between both views. These two stereo constraints are used in a complementary manner to generate pseudo-labels, allowing reliable adaptation. Evaluation results reveal that S2DHand achieves significant improvements on arbitrary camera pairs under both in-dataset and cross-dataset settings, and outperforms existing adaptation methods with leading performance. Project page: https://github.com/MickeyLLG/S2DHand.
翻訳日:2024-03-08 14:24:10 公開日:2024-03-07
# ニューラルヘッドアバターの映像駆動アニメーション

Video-Driven Animation of Neural Head Avatars ( http://arxiv.org/abs/2403.04380v1 )

ライセンス: Link先を確認
Wolfgang Paier and Paul Hinzer and Anna Hilsmann and Peter Eisert(参考訳) 本稿では,高品質なニューラル3Dヘッドモデルの映像駆動アニメーションに対する新しいアプローチを提案する。 典型的には、高品質な生成モデルは、マルチビュービデオ映像から特定の個人に学習され、生成プロセスを駆動する個人固有の潜在表現となる。 映像入力から人物非依存アニメーションを実現するために,人物非依存表現特徴を個人別3dヘッドモデルのパーソナライズアニメーションパラメータに変換することのできるlstmベースのアニメーションネットワークを提案する。 提案手法は,パーソナライズされた頭部モデル(高品質とリアリズム)の利点と,多対人顔パフォーマンスキャプチャを用いた映像駆動アニメーションの利便性を組み合わせたものである。 我々は,異なるソースビデオに基づく高品質な合成アニメーションに対するアプローチの有効性と,アブレーション研究の有効性を実証する。

We present a new approach for video-driven animation of high-quality neural 3D head models, addressing the challenge of person-independent animation from video input. Typically, high-quality generative models are learned for specific individuals from multi-view video footage, resulting in person-specific latent representations that drive the generation process. In order to achieve person-independent animation from video input, we introduce an LSTM-based animation network capable of translating person-independent expression features into personalized animation parameters of person-specific 3D head models. Our approach combines the advantages of personalized head models (high quality and realism) with the convenience of video-driven animation employing multi-person facial performance capture. We demonstrate the effectiveness of our approach on synthesized animations with high quality based on different source videos as well as an ablation study.
翻訳日:2024-03-08 14:23:41 公開日:2024-03-07
# CARISMA: CAR統合サービスメッシュアーキテクチャ

CARISMA: CAR-Integrated Service Mesh Architecture ( http://arxiv.org/abs/2403.04378v1 )

ライセンス: Link先を確認
Kevin Klein, Pascal Hirmer and Steffen Becker(参考訳) 現代の自動車におけるソフトウェアの量は、例えば帯域幅や計算能力に関する複雑なアプリケーションをデプロイする際に、従来の電気/電子(E/E)アーキテクチャが限界に達するにつれて、継続的に増加している。 このような状況を軽減するため、より強力なコンピューティングプラットフォームが採用され、アプリケーションはマイクロサービスを含む分散アプリケーションとして開発されている。 マイクロサービスは広く採用され、モダンなアプリケーションの開発方法を変えた。 しかしながら、サービス間通信に関する追加の複雑さも導入されている。 これは、この複雑さに対処するための有望なアプローチであるサービスメッシュの出現につながった。 本稿では,複数のインターリンクハイパフォーマンスコンピュータ(HPC)からなる自動車E/Eプラットフォームにサービスメッシュアプローチを適用したアーキテクチャを提案する。 プロトタイプ実装によるアプローチの実現可能性を検証する。

The amount of software in modern cars is increasing continuously with traditional electric/electronic (E/E) architectures reaching their limit when deploying complex applications, e.g., regarding bandwidth or computational power. To mitigate this situation, more powerful computing platforms are being employed and applications are developed as distributed applications, e.g., involving microservices. Microservices received widespread adoption and changed the way modern applications are developed. However, they also introduce additional complexity regarding inter-service communication. This has led to the emergence of service meshes, a promising approach to cope with this complexity. In this paper, we present an architecture applying the service mesh approach to automotive E/E platforms comprising multiple interlinked High-Performance Computers (HPCs). We validate the feasibility of our approach through a prototypical implementation.
翻訳日:2024-03-08 14:23:27 公開日:2024-03-07
# 中国語名詞句の複数性および定性に関する計算モデル

Computational Modelling of Plurality and Definiteness in Chinese Noun Phrases ( http://arxiv.org/abs/2403.04376v1 )

ライセンス: Link先を確認
Yuqi Liu, Guanyi Chen, Kees van Deemter(参考訳) 理論的言語学者は、一部の言語(中国語や日本語など)が他の言語よりも「クール」であると示唆し、これらの言語におけるフレーズの意味は文脈に依存しているという観察に基づく。 その結果、これらの言語の多くの表現は短縮され、その意味は文脈から推測される。 本稿では,中国語の名詞句(NP)における複数の定性マーカーの欠落に着目し,その文脈を考慮した意味の予測可能性について検討する。 この目的のために、我々は中国語のNPのコーパスを構築し、それぞれが対応する文脈を伴い、その特異性/複数性と定性/不定性を示すラベルで表現した。 コーパスの評価と分析を行った。 その結果、中国語話者は確かに複数の定性指標を非常に頻繁に落としていることが示唆された。 コーパスに基づいて、従来の機械学習モデルと最先端の事前学習言語モデルの両方を用いて計算モデルのバンクを訓練し、各NPの多重性と定性を予測する。 我々は,これらのモデルの性能を報告し,その行動を分析する。

Theoretical linguists have suggested that some languages (e.g., Chinese and Japanese) are "cooler" than other languages based on the observation that the intended meaning of phrases in these languages depends more on their contexts. As a result, many expressions in these languages are shortened, and their meaning is inferred from the context. In this paper, we focus on the omission of the plurality and definiteness markers in Chinese noun phrases (NPs) to investigate the predictability of their intended meaning given the contexts. To this end, we built a corpus of Chinese NPs, each of which is accompanied by its corresponding context, and by labels indicating its singularity/plurality and definiteness/indefiniteness. We carried out corpus assessments and analyses. The results suggest that Chinese speakers indeed drop plurality and definiteness markers very frequently. Building on the corpus, we train a bank of computational models using both classic machine learning models and state-of-the-art pre-trained language models to predict the plurality and definiteness of each NP. We report on the performance of these models and analyse their behaviours.
翻訳日:2024-03-08 14:23:16 公開日:2024-03-07
# 深層強化学習に基づく非線形電力系統のモデルフリー負荷周波数制御

Model-Free Load Frequency Control of Nonlinear Power Systems Based on Deep Reinforcement Learning ( http://arxiv.org/abs/2403.04374v1 )

ライセンス: Link先を確認
Xiaodi Chen, Meng Zhang, Zhengguang Wu, Ligang Wu and Xiaohong Guan(参考訳) 負荷周波数制御(LFC)は、周波数変動を安定させ、電力品質を保証するために電力システムに広く用いられている。 しかし、既存のLFC手法の多くは正確な電力系統モデリングに依存しており、通常はシステムの非線形特性を無視し、制御装置の性能を制限している。 そこで本研究では,ddpg(deep deterministic policy gradient)フレームワークに基づく非線形電力システムのためのモデルフリーなlfc手法を提案する。 提案手法は,電力系統のダイナミクスをエミュレートするエミュレータネットワークを確立する。 アクション値関数を定義した後、エミュレータネットワークを批評家ネットワークの代わりに制御アクション評価に適用する。 次に、ゼロ階最適化(ZOO)とバックプロパゲーションアルゴリズムに基づいてポリシー勾配を推定することにより、アクタネットワークコントローラを効果的に最適化する。 シミュレーション結果と対応する比較により、設計したコントローラは適切な制御動作を生成でき、非線形電力システムに対して強い適応性を示す。

Load frequency control (LFC) is widely employed in power systems to stabilize frequency fluctuation and guarantee power quality. However, most existing LFC methods rely on accurate power system modeling and usually ignore the nonlinear characteristics of the system, limiting controllers' performance. To solve these problems, this paper proposes a model-free LFC method for nonlinear power systems based on deep deterministic policy gradient (DDPG) framework. The proposed method establishes an emulator network to emulate power system dynamics. After defining the action-value function, the emulator network is applied for control actions evaluation instead of the critic network. Then the actor network controller is effectively optimized by estimating the policy gradient based on zeroth-order optimization (ZOO) and backpropagation algorithm. Simulation results and corresponding comparisons demonstrate the designed controller can generate appropriate control actions and has strong adaptability for nonlinear power systems.
翻訳日:2024-03-08 14:22:56 公開日:2024-03-07
# グラフからワードバッグ: ドメイン知識の導入から電荷予測の混乱

From Graph to Word Bag: Introducing Domain Knowledge to Confusing Charge Prediction ( http://arxiv.org/abs/2403.04369v1 )

ライセンス: Link先を確認
Ang Li, Qiangchao Chen, Yiquan Wu, Ming Cai, Xiang Zhou, Fei Wu, Kun Kuang(参考訳) 電荷予測の混乱は、事実記述に基づく紛らわしい電荷の予測を含む、法的AIにおける困難なタスクである。 既存のチャージ予測手法は優れたパフォーマンスを示しているが、SnatchやRoberyといった紛らわしいチャージを扱う場合、大きな課題に直面している。 法的領域では、構成要素は紛らわしい電荷を区別する上で重要な役割を果たす。 構成要素は刑事罰の基礎となる基本的な行動であり、罪状間で微妙な区別がある。 本稿では,FWGB(From Graph to Word Bag)アプローチについて紹介する。この手法は,構成要素に関するドメイン知識を導入し,審査員の推論プロセスとよく似た,紛らわしい課金の判断をモデルに導く。 具体的には、まず、課金毎にキーワードを選択するのに役立つ構成要素を含む法的知識グラフを構築し、ワードバッグを形成する。 その後、コンテキスト内の各電荷の差分情報に対するモデルの注意を導くために、注意機構を拡張し、単語バッグ内の単語を通して注意を誘導する新たな損失関数を導入する。 現実の司法文書から紛らわしい料金データセットを構築する。 本手法の有効性を実証する実験は,不均衡ラベル分布における異常な性能の維持に有効である。

Confusing charge prediction is a challenging task in legal AI, which involves predicting confusing charges based on fact descriptions. While existing charge prediction methods have shown impressive performance, they face significant challenges when dealing with confusing charges, such as Snatch and Robbery. In the legal domain, constituent elements play a pivotal role in distinguishing confusing charges. Constituent elements are fundamental behaviors underlying criminal punishment and have subtle distinctions among charges. In this paper, we introduce a novel From Graph to Word Bag (FWGB) approach, which introduces domain knowledge regarding constituent elements to guide the model in making judgments on confusing charges, much like a judge's reasoning process. Specifically, we first construct a legal knowledge graph containing constituent elements to help select keywords for each charge, forming a word bag. Subsequently, to guide the model's attention towards the differentiating information for each charge within the context, we expand the attention mechanism and introduce a new loss function with attention supervision through words in the word bag. We construct the confusing charges dataset from real-world judicial documents. Experiments demonstrate the effectiveness of our method, especially in maintaining exceptional performance in imbalanced label distributions.
翻訳日:2024-03-08 14:22:40 公開日:2024-03-07
# 偏光前処理によるくすんだ透明フィルムの除去学習

Learning to Remove Wrinkled Transparent Film with Polarized Prior ( http://arxiv.org/abs/2403.04368v1 )

ライセンス: Link先を確認
Jiaqi Tang, Ruizheng Wu, Xiaogang Xu, Sixing Hu and Ying-Cong Chen(参考訳) 本稿では, 産業認識用フィルムにおける透明フィルムの干渉を除去し, 元の情報を復元するフィルム除去 (FR) という新たな課題について検討する。 まず, フィルムを被覆した産業材料のイメージングを物理的にモデル化する。 偏光カメラで映像のハイライトを効果的に記録できることを考えると、透明フィルムとのペアデータを含む偏光情報を含む実用的なデータセットを構築する。 エンド・ツー・エンドの枠組みでフィルムからの干渉(特殊ハイライトなど劣化)を除去することを目的としている。 鏡面ハイライトの特定には、角推定ネットワークを用いて、最小の鏡面ハイライトを用いて偏光角度を最適化する。 リコンストラクションネットワークをサポートするためのプリエントとして、最小のスペックハイライトを有する画像を設定する。 先行画像と偏光画像に基づいて、再構成ネットワークはフィルムからすべての劣化を分離することができる。 大規模な実験により,本フレームワークは画像再構成と産業ダウンストリームタスクの両方においてSOTA性能を実現することが示された。 我々のコードは \url{https://github.com/jqtangust/FilmRemoval} でリリースされる。

In this paper, we study a new problem, Film Removal (FR), which attempts to remove the interference of wrinkled transparent films and reconstruct the original information under films for industrial recognition systems. We first physically model the imaging of industrial materials covered by the film. Considering the specular highlight from the film can be effectively recorded by the polarized camera, we build a practical dataset with polarization information containing paired data with and without transparent film. We aim to remove interference from the film (specular highlights and other degradations) with an end-to-end framework. To locate the specular highlight, we use an angle estimation network to optimize the polarization angle with the minimized specular highlight. The image with minimized specular highlight is set as a prior for supporting the reconstruction network. Based on the prior and the polarized images, the reconstruction network can decouple all degradations from the film. Extensive experiments show that our framework achieves SOTA performance in both image reconstruction and industrial downstream tasks. Our code will be released at \url{https://github.com/jqtangust/FilmRemoval}.
翻訳日:2024-03-08 14:22:21 公開日:2024-03-07
# ナレッジインジェクションとガイダンスによる法廷ビュー生成の促進

Enhancing Court View Generation with Knowledge Injection and Guidance ( http://arxiv.org/abs/2403.04366v1 )

ライセンス: Link先を確認
Ang Li, Yiquan Wu, Yifei Liu, Fei Wu, Ming Cai, Kun Kuang(参考訳) 法廷ビュー生成(cvg)は法的人工知能(legalai)の分野で難しい課題であり、原告の主張と事実記述に基づいて裁判所の見解を生成することを目的としている。 事前学習された言語モデル (plm) は自然言語生成に長けているものの、cvgの複雑で知識集約的な領域への応用は、しばしば固有の制限を明らかにする。 本稿では, PLMを用いたCVGの促進を目的とした, 知識注入誘導(KIG)という新しいアプローチを提案する。 訓練段階において,ドメイン知識を効率的に組み込むため,即時チューニングのための知識注入プロンプトエンコーダを導入し,計算オーバーヘッドを低減する。 さらに、モデルがドメイン知識を利用する能力をさらに強化するために、生成ナビゲータを使用し、モデルアーキテクチャを変更することなく推論段階でテキスト生成プロセスを動的にガイドし、容易に転送できるようにする。 実世界のデータに関する総合的な実験は,いくつかの既定ベースラインと比較して,特にクレームの応答性が最良ベースラインを11.87%上回って,我々のアプローチの有効性を示している。

Court View Generation (CVG) is a challenging task in the field of Legal Artificial Intelligence (LegalAI), which aims to generate court views based on the plaintiff claims and the fact descriptions. While Pretrained Language Models (PLMs) have showcased their prowess in natural language generation, their application to the complex, knowledge-intensive domain of CVG often reveals inherent limitations. In this paper, we present a novel approach, named Knowledge Injection and Guidance (KIG), designed to bolster CVG using PLMs. To efficiently incorporate domain knowledge during the training stage, we introduce a knowledge-injected prompt encoder for prompt tuning, thereby reducing computational overhead. Moreover, to further enhance the model's ability to utilize domain knowledge, we employ a generating navigator, which dynamically guides the text generation process in the inference stage without altering the model's architecture, making it readily transferable. Comprehensive experiments on real-world data demonstrate the effectiveness of our approach compared to several established baselines, especially in the responsivity of claims, where it outperforms the best baseline by 11.87%.
翻訳日:2024-03-08 14:21:59 公開日:2024-03-07
# WSNにおけるマルチノードとホップ損失を用いた距離推定に基づくDVホップ位置推定

DV-Hop localization based on Distance Estimation using Multinode and Hop Loss in WSNs ( http://arxiv.org/abs/2403.04365v1 )

ライセンス: Link先を確認
Penghong Wang, Xingtao Wang, Wenrui Li, Xiaopeng Fan, and Debin Zhao(参考訳) 位置認識は無線センサネットワークアプリケーションにおいて重要な問題である。 より正確な位置推定には、この2つの問題を広く考慮する必要がある。 1)複数のノード間の接続情報を十分に活用するには 2) ユークリッド距離損失によって得られる複数の解から適切な解を選択する方法。 本稿では,マルチノード(DEMN)を用いた距離推定とWSNにおけるホップ損失に基づくDVホップの局所化を提案する。 DEMNでは、複数のアンカーノードが未知のノードを検出できる場合、未知のノードとアンカーノードの間の距離期待値をクロスドメイン情報を用いて算出し、それらの間の期待距離とみなし、探索空間を狭める。 伝統的なユークリッド距離損失を最小化する場合、複数の解が存在する。 適切な解を選択するために,実数と予測されたホップの差を最小限に抑えるホップ損失を提案する。 最後に、DEMNによって計算されたユークリッド距離損失とホップ損失を多目的最適化アルゴリズムに埋め込む。 提案手法は,DEM-DV-Hopよりも6.05%,DEMNとホップ損失は2.46%と3.41%の精度で,ランダム分散ネットワークにおける86.11\%の位置精度が得られた。

Location awareness is a critical issue in wireless sensor network applications. For more accurate location estimation, the two issues should be considered extensively: 1) how to sufficiently utilize the connection information between multiple nodes and 2) how to select a suitable solution from multiple solutions obtained by the Euclidean distance loss. In this paper, a DV-Hop localization based on the distance estimation using multinode (DEMN) and the hop loss in WSNs is proposed to address the two issues. In DEMN, when multiple anchor nodes can detect an unknown node, the distance expectation between the unknown node and an anchor node is calculated using the cross-domain information and is considered as the expected distance between them, which narrows the search space. When minimizing the traditional Euclidean distance loss, multiple solutions may exist. To select a suitable solution, the hop loss is proposed, which minimizes the difference between the real and its predicted hops. Finally, the Euclidean distance loss calculated by the DEMN and the hop loss are embedded into the multi-objective optimization algorithm. The experimental results show that the proposed method gains 86.11\% location accuracy in the randomly distributed network, which is 6.05% better than the DEM-DV-Hop, while DEMN and the hop loss can contribute 2.46% and 3.41%, respectively.
翻訳日:2024-03-08 14:21:39 公開日:2024-03-07
# UAV追跡のための多段階時間モデル

Multi-step Temporal Modeling for UAV Tracking ( http://arxiv.org/abs/2403.04363v1 )

ライセンス: Link先を確認
Xiaoying Yuan, Tingfa Xu, Xincong Liu, Ying Wang, Haolin Qin, Yuqiang Fang and Jianan Li(参考訳) 無人航空機(UAV)の追跡の分野では、シームズをベースとしたアプローチは効率と精度の最適なバランスのために牽引力を高めている。 しかし、UAVシナリオはサンプリング解像度の不足、高速動作、限られた特徴情報を持つ小さな物体などの課題をしばしば提示する。 結果として、UAV追跡タスクの時間的コンテキストは、ターゲット位置において重要な役割を担い、ターゲットの正確な特徴を覆い隠す。 本稿では,歴史的フレームからの時間的コンテキストを利用してUAV追跡を向上する,効率的なマルチステップ時間モデリングフレームワークMT-Trackを紹介する。 この時間的統合は相関マップの生成と相関マップの洗練という2つのステップで起こる。 具体的には,テンプレートと検索領域間の相互作用を動的に評価するユニークな時間相関モジュールを提案する。 このモジュールは時間情報を利用してテンプレート機能をリフレッシュし、より正確な相関マップを生成する。 次に,追跡系列の時間的知識をモデル化し,歴史的フレームと現在のフレームの相関マップを洗練するための相互変換モジュールを提案する。 この手法は生の変圧器と比較して計算量を大幅に削減する。 トラッキングフレームワークのコンパクトで強力な性質は、特に拡張されたトラッキングシナリオにおいて、信頼性の高いトラッキング結果を保証する。

In the realm of unmanned aerial vehicle (UAV) tracking, Siamese-based approaches have gained traction due to their optimal balance between efficiency and precision. However, UAV scenarios often present challenges such as insufficient sampling resolution, fast motion and small objects with limited feature information. As a result, temporal context in UAV tracking tasks plays a pivotal role in target location, overshadowing the target's precise features. In this paper, we introduce MT-Track, a streamlined and efficient multi-step temporal modeling framework designed to harness the temporal context from historical frames for enhanced UAV tracking. This temporal integration occurs in two steps: correlation map generation and correlation map refinement. Specifically, we unveil a unique temporal correlation module that dynamically assesses the interplay between the template and search region features. This module leverages temporal information to refresh the template feature, yielding a more precise correlation map. Subsequently, we propose a mutual transformer module to refine the correlation maps of historical and current frames by modeling the temporal knowledge in the tracking sequence. This method significantly trims computational demands compared to the raw transformer. The compact yet potent nature of our tracking framework ensures commendable tracking outcomes, particularly in extended tracking scenarios.
翻訳日:2024-03-08 14:21:18 公開日:2024-03-07
# クラスツール:NLPのパフォーマンスとソーシャルクラスの関係

Classist Tools: Social Class Correlates with Performance in NLP ( http://arxiv.org/abs/2403.04445v1 )

ライセンス: Link先を確認
Amanda Cercas Curry, Giuseppe Attanasio, Zeerak Talat and Dirk Hovy(参考訳) 1964年のウィリアム・ラボフの『言語社会階層化』(labov, 1964)以来、言語学は社会デモグラフィの特徴と言語生産と知覚との関係を探求するために集中的に研究してきた。 しかし, 自然言語処理(NLP)では, 言語における社会デマトグラフィー的特徴の強い証拠は少ない。 年齢と性別は幾分良く表されているが、ラボフの当初の目標である社会経済的地位は顕著に欠落している。 しかし、それは重要だ。 我々はNLPが低特権の社会経済集団に欠点があることを実証的に示す。 社会階級・民族・地理的言語多種多様な映画から95k発話のコーパスをアノテートし,言語モデル,自動音声認識,文法誤り訂正の3タスクにおけるnlpシステムの性能を測定した。 我々は、社会経済的地位、民族性、地理的差異に起因する重要なパフォーマンス格差を見出した。 NLP技術はよりユビキタスでクオリディアンなものとなり、すでに疎外化されているグループへの不便さを避けるために、すべての言語品種に対応しなければならない。 我々は、将来の言語技術における社会経済クラスの導入を議論する。

Since the foundational work of William Labov on the social stratification of language (Labov, 1964), linguistics has made concentrated efforts to explore the links between sociodemographic characteristics and language production and perception. But while there is strong evidence for socio-demographic characteristics in language, they are infrequently used in Natural Language Processing (NLP). Age and gender are somewhat well represented, but Labov's original target, socioeconomic status, is noticeably absent. And yet it matters. We show empirically that NLP disadvantages less-privileged socioeconomic groups. We annotate a corpus of 95K utterances from movies with social class, ethnicity and geographical language variety and measure the performance of NLP systems on three tasks: language modelling, automatic speech recognition, and grammar error correction. We find significant performance disparities that can be attributed to socioeconomic status as well as ethnicity and geographical differences. With NLP technologies becoming ever more ubiquitous and quotidian, they must accommodate all language varieties to avoid disadvantaging already marginalised groups. We argue for the inclusion of socioeconomic class in future language technologies.
翻訳日:2024-03-08 14:16:24 公開日:2024-03-07
# 階層型空間デノイザと時間デノイザを用いた遠方拡散に基づく3次元人物位置推定

Disentangled Diffusion-Based 3D Human Pose Estimation with Hierarchical Spatial and Temporal Denoiser ( http://arxiv.org/abs/2403.04444v1 )

ライセンス: Link先を確認
Qingyuan Cai, Xuecai Hu, Saihui Hou, Li Yao, Yongzhen Huang(参考訳) 近年,2次元ポーズシーケンスから3次元関節座標を直接回帰することにより,モノクル3次元ポーズ推定のための拡散法が最先端(SOTA)性能を達成した。 ヒトの解剖学的骨格に基づく骨の長さと骨方向の予測に分解して、より人体の事前制約を明示的に組み込む方法もいくつかあるが、これらの手法の性能はsota拡散に基づく方法よりもかなり低い。 これはヒトの骨格の木の構造に起因していると考えられる。 disentangledメソッドの直接適用は、階層的なエラーの蓄積を増幅し、各階層に伝播する。 一方,階層的情報は,従来の手法では十分に検討されていない。 これらの問題に対処するために, DDHPose と呼ばれる階層的空間と時間的デノイザを用いた遠方拡散に基づく3次元人文推定法を提案する。 提案手法では,(1)3次元ポーズを分離し,拡散モデルの進行過程中に骨長と骨方向を拡散させ,前者のポーズを効果的にモデル化する。 拡散モデル学習を監督するために, ゆがみ損失を提案する。 2) 逆過程に対して, 階層的空間的および時間的デノイザー (hstdenoiser) を提案し, それぞれの関節の階層的モデリングを改善する。 HSTDenoiserは階層型空間変換器(HRST)と階層型時間変換器(HRTT)の2つのコンポーネントから構成される。 HRSTは各関節の空間的情報と親関節の影響を利用して空間的モデリングを行う一方、HRTTは関節とその隣接した関節からの情報を用いて関節間の階層的時間的相関を探索する。

Recently, diffusion-based methods for monocular 3D human pose estimation have achieved state-of-the-art (SOTA) performance by directly regressing the 3D joint coordinates from the 2D pose sequence. Although some methods decompose the task into bone length and bone direction prediction based on the human anatomical skeleton to explicitly incorporate more human body prior constraints, the performance of these methods is significantly lower than that of the SOTA diffusion-based methods. This can be attributed to the tree structure of the human skeleton. Direct application of the disentangled method could amplify the accumulation of hierarchical errors, propagating through each hierarchy. Meanwhile, the hierarchical information has not been fully explored by the previous methods. To address these problems, a Disentangled Diffusion-based 3D Human Pose Estimation method with Hierarchical Spatial and Temporal Denoiser is proposed, termed DDHPose. In our approach: (1) We disentangle the 3D pose and diffuse the bone length and bone direction during the forward process of the diffusion model to effectively model the human pose prior. A disentanglement loss is proposed to supervise diffusion model learning. (2) For the reverse process, we propose Hierarchical Spatial and Temporal Denoiser (HSTDenoiser) to improve the hierarchical modeling of each joint. Our HSTDenoiser comprises two components: the Hierarchical-Related Spatial Transformer (HRST) and the Hierarchical-Related Temporal Transformer (HRTT). HRST exploits joint spatial information and the influence of the parent joint on each joint for spatial modeling, while HRTT utilizes information from both the joint and its hierarchical adjacent joints to explore the hierarchical temporal correlations among joints.
翻訳日:2024-03-08 14:16:02 公開日:2024-03-07
# FriendNet: 検知フレンドリーなデハージングネットワーク

FriendNet: Detection-Friendly Dehazing Network ( http://arxiv.org/abs/2403.04443v1 )

ライセンス: Link先を確認
Yihua Fan, Yongzhen Wang, Mingqiang Wei, Fu Lee Wang, and Haoran Xie(参考訳) 悪天候は撮影された画像の品質を損なうことが多く、advanced driver assistance systems(adas)とautonomous drivingの最先端の物体検出モデルが必然的に引き起こされる。 本稿では,画像復元と物体検出の組み合わせが,悪天候下での検出性能を高めることができるかという興味深い疑問を提起する。 そこで本研究では,画像のデハジングと物体検出を,誘導情報とタスク駆動学習によって橋渡しし,検出に優しいデハジングを実現する効果的なアーキテクチャを提案する。 FriendNetは、高品質な認識と高い検出能力の両方を提供することを目指している。 イメージデハッシングを前処理として直感的に扱う既存の取り組みとは異なり、FriendNetはこれらの2つのタスクの間に正の相関関係を確立する。 デハジングネットワークによって生成されるクリーンな機能は、オブジェクト検出性能の改善に寄与する可能性がある。 逆に、オブジェクト検出は、タスク駆動学習方式の下で、画像デハージングネットワークの学習過程を決定的に導く。 我々は、ネットワークアーキテクチャと学習目的の両方を考慮して、下流タスクが上流のプロセスをどのように導くのかを説明した。 我々は、検出情報のネットワークへの統合を容易にするために、誘導融合ブロック(GFB)と誘導注意ブロック(GAB)を設計する。 さらに、検出タスク損失の取組みは、最適化プロセスの精錬に役立ちます。 さらに,PFEB(Physical-aware Feature Enhancement Block)を導入し,特徴抽出と表現機能を強化するために物理に基づく事前処理を統合する。 合成および実世界のデータセットに対する大規模な実験は、画像品質と検出精度の両面で、最先端の手法よりも優れていることを示す。 ソースコードはhttps://github.com/fanyihua0309/friendnetで入手できます。

Adverse weather conditions often impair the quality of captured images, inevitably inducing cutting-edge object detection models for advanced driver assistance systems (ADAS) and autonomous driving. In this paper, we raise an intriguing question: can the combination of image restoration and object detection enhance detection performance in adverse weather conditions? To answer it, we propose an effective architecture that bridges image dehazing and object detection together via guidance information and task-driven learning to achieve detection-friendly dehazing, termed FriendNet. FriendNet aims to deliver both high-quality perception and high detection capacity. Different from existing efforts that intuitively treat image dehazing as pre-processing, FriendNet establishes a positive correlation between these two tasks. Clean features generated by the dehazing network potentially contribute to improvements in object detection performance. Conversely, object detection crucially guides the learning process of the image dehazing network under the task-driven learning scheme. We shed light on how downstream tasks can guide upstream dehazing processes, considering both network architecture and learning objectives. We design Guidance Fusion Block (GFB) and Guidance Attention Block (GAB) to facilitate the integration of detection information into the network. Furthermore, the incorporation of the detection task loss aids in refining the optimization process. Additionally, we introduce a new Physics-aware Feature Enhancement Block (PFEB), which integrates physics-based priors to enhance the feature extraction and representation capabilities. Extensive experiments on synthetic and real-world datasets demonstrate the superiority of our method over state-of-the-art methods on both image quality and detection precision. Our source code is available at https://github.com/fanyihua0309/FriendNet.
翻訳日:2024-03-08 14:15:31 公開日:2024-03-07
# 不完全なエージェントに対する協調ベイズ最適化

Cooperative Bayesian Optimization for Imperfect Agents ( http://arxiv.org/abs/2403.04442v1 )

ライセンス: Link先を確認
Ali Khoshvishkaie, Petrus Mikkola, Pierre-Alexandre Murena, Samuel Kaski(参考訳) 2つのエージェントが関数をクエリするポイントを一緒に選択する2つの変数のブラックボックス関数を最適化する協調ベイズ最適化問題を提案する。 この設定は、人間とaiのチームワークにインスパイアされており、aiアシスタントは、人間が問題を解決するのを助ける。 提案手法を逐次意思決定として定式化し,制御するエージェントは,関数に関する事前知識を持つ計算合理的なエージェントとしてユーザをモデル化する。 ユーザが過剰な探索を避けさえすれば,クエリの戦略的計画により,関数のグローバル最大値の識別性が向上することを示す。 この計画は、ベイズ適応モンテカルロ計画と、保守的信念更新と問い合わせポイントの探索的サンプリングを考慮に入れたユーザーモデルを用いてエージェントを内挿することで実現される。

We introduce a cooperative Bayesian optimization problem for optimizing black-box functions of two variables where two agents choose together at which points to query the function but have only control over one variable each. This setting is inspired by human-AI teamwork, where an AI-assistant helps its human user solve a problem, in this simplest case, collaborative optimization. We formulate the solution as sequential decision-making, where the agent we control models the user as a computationally rational agent with prior knowledge about the function. We show that strategic planning of the queries enables better identification of the global maximum of the function as long as the user avoids excessive exploration. This planning is made possible by using Bayes Adaptive Monte Carlo planning and by endowing the agent with a user model that accounts for conservative belief updates and exploratory sampling of the points to query.
翻訳日:2024-03-08 14:15:04 公開日:2024-03-07
# StableDrag: ポイントベースのイメージ編集のための安定したドラッグング

StableDrag: Stable Dragging for Point-based Image Editing ( http://arxiv.org/abs/2403.04437v1 )

ライセンス: Link先を確認
Yutao Cui, Xiaotong Zhao, Guozhen Zhang, Shengming Cao, Kai Ma and Limin Wang(参考訳) 点ベース画像編集はDragGANの出現以来注目されている。 最近DragDiffusionは、このドラッグング技術を拡散モデルに適用することで、生成品質をさらに推し進めている。 これらの大きな成功にもかかわらず、このドラッグングスキームは2つの大きな欠点、すなわち不正確な点追跡と不完全な運動監督を示す。 これらの問題に対処するため,我々は,離散点追跡法と動監視のための信頼度に基づく潜在性拡張戦略を設計することにより,stabledragと呼ばれる,安定で正確なドラッグベースの編集フレームワークを構築した。 前者は更新されたハンドルポイントを正確に見つけることができ、これにより長距離操作の安定性が向上しますが、後者はすべての操作ステップで最適化された潜在性を保証する責任があります。 これらのユニークな設計により、より安定したドラッグ性能を実現するStableDrag-GANとStableDrag-Diffの2種類の画像編集モデルを、広範囲な定性的実験とDragBenchの定量的評価によりインスタンス化する。

Point-based image editing has attracted remarkable attention since the emergence of DragGAN. Recently, DragDiffusion further pushes forward the generative quality via adapting this dragging technique to diffusion models. Despite these great success, this dragging scheme exhibits two major drawbacks, namely inaccurate point tracking and incomplete motion supervision, which may result in unsatisfactory dragging outcomes. To tackle these issues, we build a stable and precise drag-based editing framework, coined as StableDrag, by designing a discirminative point tracking method and a confidence-based latent enhancement strategy for motion supervision. The former allows us to precisely locate the updated handle points, thereby boosting the stability of long-range manipulation, while the latter is responsible for guaranteeing the optimized latent as high-quality as possible across all the manipulation steps. Thanks to these unique designs, we instantiate two types of image editing models including StableDrag-GAN and StableDrag-Diff, which attains more stable dragging performance, through extensive qualitative experiments and quantitative assessment on DragBench.
翻訳日:2024-03-08 14:14:48 公開日:2024-03-07
# 人間から人間へのリアルタイム遠隔操作の学習

Learning Human-to-Humanoid Real-Time Whole-Body Teleoperation ( http://arxiv.org/abs/2403.04436v1 )

ライセンス: Link先を確認
Tairan He, Zhengyi Luo, Wenli Xiao, Chong Zhang, Kris Kitani, Changliu Liu, Guanya Shi(参考訳) 本稿では,RGBカメラのみで実物大のヒューマノイドロボットをリアルタイムに遠隔操作できる強化学習(RL)ベースのフレームワークであるHuman to Humanoid(H2O)を提案する。 ヒューマノイドロボットのための人間の動きの大規模再ターゲティング動作データセットを作成するために,特権的動作模倣器を用いて実現可能な動きをフィルタリング・選択するスケーラブルな"sim-to-data"プロセスを提案する。 その後,これらの洗練された動きを用いてロバストな実時間ヒューマノイド運動模倣器を訓練し,ゼロショット方式で実ヒューマノイドロボットに伝達する。 我々は,歩行,バックジャンプ,キック,ターン,スイング,プッシュ,ボクシングなど,現実のシナリオにおける動的全身運動の遠隔操作に成功した。 私たちの知る限りでは、学習に基づくリアルタイムな人型ロボット遠隔操作を実現する最初のデモとなる。

We present Human to Humanoid (H2O), a reinforcement learning (RL) based framework that enables real-time whole-body teleoperation of a full-sized humanoid robot with only an RGB camera. To create a large-scale retargeted motion dataset of human movements for humanoid robots, we propose a scalable "sim-to-data" process to filter and pick feasible motions using a privileged motion imitator. Afterwards, we train a robust real-time humanoid motion imitator in simulation using these refined motions and transfer it to the real humanoid robot in a zero-shot manner. We successfully achieve teleoperation of dynamic whole-body motions in real-world scenarios, including walking, back jumping, kicking, turning, waving, pushing, boxing, etc. To the best of our knowledge, this is the first demonstration to achieve learning-based real-time whole-body humanoid teleoperation.
翻訳日:2024-03-08 14:14:29 公開日:2024-03-07
# 2光子のウェーブパレット干渉 : 時間的絡み合いからウェーブパレット形成

Wavepacket interference of two photons: from temporal entanglement to wavepacket shaping ( http://arxiv.org/abs/2403.04432v1 )

ライセンス: Link先を確認
Zhaohua Tian, Qi Liu, Yu Tian, Ying Gu(参考訳) ビーム分割に基づく量子干渉は、エンタングルメント世代に利用することができ、量子情報に応用できる。 しかし、時間形状が異なる光子間の干渉はほとんど注目されていない。 本稿では,ビームスプリッタ(bs)による時間形状の異なる2つの光子の干渉を解析的に研究し,光子の時間的絡み合いと形状形成への応用を提案する。 時間的絡み合いは、BSの分裂比と入力光子の時間的不一致性によって決定される。 最大エンタングルメントは50/50 BS構成で実現できる。 そして、絡み合った光子の1つを特定のタイミングで検出することで、他の光子の確率的形成が可能になる。 このプロセスは指数関数的に崩壊する(ED)波束をED正弦形に形成することができ、さらに99\%を超える忠実度を持つガウス形状にすることができる。 干渉に基づく光子の時間的絡み合いと形作りは、複雑な大規模光量子ネットワークにおける形状ミスマッチ問題を解くことができる。

Quantum interference based on beam splitting can be used for entanglement generations and has applications in quantum information. However, interference among photons with different temporal shapes has received little attention. Here we analytically study the interference of two photons with different temporal shapes through a beam splitter (BS), and propose its application in temporal entanglement and shaping of photons. The temporal entanglement is determined by the splitting ratio of BS and the temporal indistinguishability of input photons. Maximum entanglement can be achieved with a 50/50 BS configuration. Then, detecting one of the entangled photons at a specific time enables the probabilistic shaping of the other photon. This process can shape the exponentially decaying (ED) wavepacket into the ED sine shapes, which can be further shaped into Gaussian shapes with a fidelity exceeding 99\%. The temporal entanglement and shaping of photons based on interference may solve the shape mismatch issues in complex large-scale optical quantum networks.
翻訳日:2024-03-08 14:14:12 公開日:2024-03-07
# オーバー・ザ・エア・フェデレーション学習における公平性とロバスト性の向上

Boosting Fairness and Robustness in Over-the-Air Federated Learning ( http://arxiv.org/abs/2403.04431v1 )

ライセンス: Link先を確認
Halil Yigit Oksuz, Fabio Molinari, Henning Sprekeler, Joerg Raisch(参考訳) Over-the-Air Computationは、5Gを超える通信戦略であり、その効率性から機械学習モデルの分散トレーニングに有用であることが最近示されている。 本稿では,minmax最適化による公平性とロバスト性の提供を目的とした,空中フェデレーション学習アルゴリズムを提案する。 問題のエピグラフ形式を用いて,提案アルゴリズムがminmax問題の最適解に収束することを示す。 さらに,提案手法では,最先端の手法とは対照的に,複雑な符号化復号スキームによるチャネル係数の再構成を必要としない。 これにより効率性とプライバシーが向上する。

Over-the-Air Computation is a beyond-5G communication strategy that has recently been shown to be useful for the decentralized training of machine learning models due to its efficiency. In this paper, we propose an Over-the-Air federated learning algorithm that aims to provide fairness and robustness through minmax optimization. By using the epigraph form of the problem at hand, we show that the proposed algorithm converges to the optimal solution of the minmax problem. Moreover, the proposed approach does not require reconstructing channel coefficients by complex encoding-decoding schemes as opposed to state-of-the-art approaches. This improves both efficiency and privacy.
翻訳日:2024-03-08 14:13:55 公開日:2024-03-07
# モバイルエッジネットワークにおけるグリーンフェデレーション拡散のオンデマンド量子化

On-demand Quantization for Green Federated Generative Diffusion in Mobile Edge Networks ( http://arxiv.org/abs/2403.04430v1 )

ライセンス: Link先を確認
Bingkun Lai, Jiayi He, Jiawen Kang, Gaolei Li, Minrui Xu, Tao zhang, Shengli Xie(参考訳) Generative Artificial Intelligence (GAI)は、MetaverseやIndustrial Internet of Thingsといったモバイルエッジネットワークにおいて、顕著な生産性と創造性を示している。 フェデレートラーニングは,データ分散によるモバイルエッジネットワークにおけるGAIモデルを効果的にトレーニングするための,有望なテクニックである。 しかし、モバイルエッジネットワークにおける生成拡散モデルのような大規模GAIモデルをトレーニングする場合、通信消費には顕著な問題がある。 さらに, 拡散モデルモデルのトレーニングに伴うエネルギー消費と, エッジ機器の限られた資源, ネットワーク環境の複雑さは, gaiモデルのトレーニング効率を向上させるための課題を提起する。 この課題に対処するために,モバイルエッジネットワークのためのオンデマンドな量子化エネルギー効率のフェデレート拡散手法を提案する。 具体的には,エッジデバイスからの様々な要求を考慮した動的量子化連体拡散トレーニングスキームをまず設計する。 次に, 特定の量子化要件に基づくエネルギー効率問題について検討する。 その結果,提案手法は,ベースラインフェデレート拡散法と固定量子化フェデレート拡散法と比較して,適切な品質と生成データの多様性を維持しつつ,システムエネルギー消費量と伝達モデルサイズを大幅に削減できることがわかった。

Generative Artificial Intelligence (GAI) shows remarkable productivity and creativity in Mobile Edge Networks, such as the metaverse and the Industrial Internet of Things. Federated learning is a promising technique for effectively training GAI models in mobile edge networks due to its data distribution. However, there is a notable issue with communication consumption when training large GAI models like generative diffusion models in mobile edge networks. Additionally, the substantial energy consumption associated with training diffusion-based models, along with the limited resources of edge devices and complexities of network environments, pose challenges for improving the training efficiency of GAI models. To address this challenge, we propose an on-demand quantized energy-efficient federated diffusion approach for mobile edge networks. Specifically, we first design a dynamic quantized federated diffusion training scheme considering various demands from the edge devices. Then, we study an energy efficiency problem based on specific quantization requirements. Numerical results show that our proposed method significantly reduces system energy consumption and transmitted model size compared to both baseline federated diffusion and fixed quantized federated diffusion methods while effectively maintaining reasonable quality and diversity of generated data.
翻訳日:2024-03-08 14:13:43 公開日:2024-03-07
# 多変量時系列の異常検出性能に及ぼす次元減少の影響の検討

Exploring the Influence of Dimensionality Reduction on Anomaly Detection Performance in Multivariate Time Series ( http://arxiv.org/abs/2403.04429v1 )

ライセンス: Link先を確認
Mahsun Altin, Altan Cakir(参考訳) 本稿では,MUTANTモデルとAnomaly-Transformerモデルに着目し,次元減少技術と高度な教師なし時系列異常検出モデルの統合に関する実験的検討を行った。 この研究は、MSL、SMAP、SWaTの3つの異なるデータセットにわたる包括的な評価を含んでいる。 各データセットにはユニークな課題があり、さまざまなコンテキストにおけるモデルの能力の堅牢な評価が可能になる。 PCA, UMAP, Random Projection, t-SNEなどの次元化技術は, 高次元データを単純化する上で, それぞれ大きな利点がある。 その結果,次元減少は計算複雑性を低減するだけでなく,特定のシナリオにおける異常検出性能を大幅に向上させることがわかった。 さらに, トレーニング時間の顕著な減少が観察され, 寸法を半減して最低寸法に最小化した場合, 約300\%, 650\%の減少が認められた。 この効率向上は、性能向上と運転効率の両面での次元還元の二重利益を裏付けるものである。 MUTANTモデルは、特にUMAP還元において顕著な適応性を示し、一方、Anomaly-Transformerは様々な還元技術にまたがって多角性を示す。 これらの洞察は、次元の縮小と異常検出の相乗効果をより深く理解し、時系列分析の分野に貴重な視点をもたらす。 この研究は、特定のモデル要求とデータセット特性に基づいて適切な次元性低減戦略を選択することの重要性を強調し、異常検出におけるより効率的で正確でスケーラブルなソリューションへの道を開く。

This paper presents an extensive empirical study on the integration of dimensionality reduction techniques with advanced unsupervised time series anomaly detection models, focusing on the MUTANT and Anomaly-Transformer models. The study involves a comprehensive evaluation across three different datasets: MSL, SMAP, and SWaT. Each dataset poses unique challenges, allowing for a robust assessment of the models' capabilities in varied contexts. The dimensionality reduction techniques examined include PCA, UMAP, Random Projection, and t-SNE, each offering distinct advantages in simplifying high-dimensional data. Our findings reveal that dimensionality reduction not only aids in reducing computational complexity but also significantly enhances anomaly detection performance in certain scenarios. Moreover, a remarkable reduction in training times was observed, with reductions by approximately 300\% and 650\% when dimensionality was halved and minimized to the lowest dimensions, respectively. This efficiency gain underscores the dual benefit of dimensionality reduction in both performance enhancement and operational efficiency. The MUTANT model exhibits notable adaptability, especially with UMAP reduction, while the Anomaly-Transformer demonstrates versatility across various reduction techniques. These insights provide a deeper understanding of the synergistic effects of dimensionality reduction and anomaly detection, contributing valuable perspectives to the field of time series analysis. The study underscores the importance of selecting appropriate dimensionality reduction strategies based on specific model requirements and dataset characteristics, paving the way for more efficient, accurate, and scalable solutions in anomaly detection.
翻訳日:2024-03-08 14:13:22 公開日:2024-03-07
# 感作による金融リターンの予測:ベイジアン強化FinBERTアプローチ

Sentiment-driven prediction of financial returns: a Bayesian-enhanced FinBERT approach ( http://arxiv.org/abs/2403.04427v1 )

ライセンス: Link先を確認
Raffaele Giuseppe Cestari and Simone Formentin(参考訳) 金融時系列データに固有の不確実性があるため、財務リターンを正確に予測することは重大な課題となる。 予測モデルのパフォーマンス向上は、社会と金融両方の感情を効果的に捉えることにかかっている。 本研究では、FinBERT大言語モデルを用いて、ツイートから抽出した感情情報を活用する効果を示す。 相関解析により最適な特徴集合を巧みに算出し,ベイズ最適化再帰的特徴除去を自動特徴選択に適用することにより,既存の手法を超越し,テストセット上でF1スコアを70%以上達成する。 この成功は、バックテスト取引中の累積利益を著しく高めることに繋がる。 本研究は、StockTwitsプラットフォームからのツイートと並行して、現実世界のSPY ETFデータに焦点を当てている。

Predicting financial returns accurately poses a significant challenge due to the inherent uncertainty in financial time series data. Enhancing prediction models' performance hinges on effectively capturing both social and financial sentiment. In this study, we showcase the efficacy of leveraging sentiment information extracted from tweets using the FinBERT large language model. By meticulously curating an optimal feature set through correlation analysis and employing Bayesian-optimized Recursive Feature Elimination for automatic feature selection, we surpass existing methodologies, achieving an F1-score exceeding 70% on the test set. This success translates into demonstrably higher cumulative profits during backtested trading. Our investigation focuses on real-world SPY ETF data alongside corresponding tweets sourced from the StockTwits platform.
翻訳日:2024-03-08 14:12:56 公開日:2024-03-07
# 隠れたリスク - githubで教育的だが悪意のあるリポジトリを公開

Unveiling A Hidden Risk: Exposing Educational but Malicious Repositories in GitHub ( http://arxiv.org/abs/2403.04419v1 )

ライセンス: Link先を確認
Md Rayhanul Masud (University of California, Riverside), Michalis Faloutsos (University of California, Riverside)(参考訳) 悪意のあるリポジトリはgithubの教育ラベルの下に隠されているか? 最近の研究で、マルウェアソースコードをホストするGitHubリポジトリのコレクションが特定されている。 したがってgithubリポジトリの分析は、悪意のあるソフトウェアコードやアーティファクトへの容易なアクセスを提供するオープンソースの性質から、必然的に注目に値する。 ここでは、ChatGPTの機能を活用して質的研究を行い、そのメタデータの内容の悪意に基づいて教育用GitHubリポジトリに注釈を付ける。 私たちの貢献は2倍です。 まず,ChatGPTを用いてソフトウェアリポジトリに公開されているコンテンツを理解し,注釈を付ける。 第2に、潜在的脅威や悪意のある意図の機会に寄与する教育レポジトリの隠れたリスクの証拠を提供する。 教育目的のみに作成されたと主張された35.2kのgithubリポジトリのコレクションを体系的に調査した。 まず、毎年発行されるリポジトリの数の増加傾向について調査した。 第2に、その9294はchatgptによって悪質と分類され、さらに悪意のあるものを分類すると、ddos、keylogger、ランサムウェアなど14の異なるマルウェアファミリーが検出される。 全体として、この探索的な研究は、ソフトウェアプラットフォームの理解と分析をより良くするため、コミュニティに警鐘を鳴らします。

Are malicious repositories hiding under the educational label in GitHub? Recent studies have identified collections of GitHub repositories hosting malware source code with notable collaboration among the developers. Thus, analyzing GitHub repositories deserves inevitable attention due to its open-source nature providing easy access to malicious software code and artifacts. Here we leverage the capabilities of ChatGPT in a qualitative study to annotate an educational GitHub repository based on maliciousness of its metadata contents. Our contribution is twofold. First, we demonstrate the employment of ChatGPT to understand and annotate the content published in software repositories. Second, we provide evidence of hidden risk in educational repositories contributing to the opportunities of potential threats and malicious intents. We carry out a systematic study on a collection of 35.2K GitHub repositories claimed to be created for educational purposes only. First, our study finds an increasing trend in the number of such repositories published every year. Second, 9294 of them are labeled by ChatGPT as malicious, and further categorization of the malicious ones detects 14 different malware families including DDoS, keylogger, ransomware and so on. Overall, this exploratory study flags a wake-up call for the community for better understanding and analysis of software platforms.
翻訳日:2024-03-08 14:12:41 公開日:2024-03-07
# 社会・健康計算科学におけるエージェントベースモデルの最先端サロゲート手法の展望と今後の展望

Promising and worth-to-try future directions for advancing state-of-the-art surrogates methods of agent-based models in social and health computational sciences ( http://arxiv.org/abs/2403.04417v1 )

ライセンス: Link先を確認
Atiyah Elsheikh(参考訳) 現実的な大規模AMM(Agent-Based Models)のためのモデルベース解析ツールの実行と実行性能は、過度に長い。 これは、計算需要が指数関数的にモデルサイズ(例えば人口規模)とモデルパラメータの数に比例するためである。 現実的なABMの単一シミュレーションの実行時でさえ、現実的な人口規模を生かそうとするときに膨大な計算資源を必要とする可能性がある。 本報告の主目的は, 様々なモデリング応用分野における非線形力学モデルに対して, 適切かつ計算的に要求の少ないサロゲートモデルをいくつか強調することであり, 著者の知識では, SHCS(Social Health Computational Sciences)分野における ABM には, 少なくとも広く採用されていない。 したがって、SHCSの分野において、ABMのサロゲートモデルを確立するための技術の進歩には、必ずしも有用ではない。

The execution and runtime performance of model-based analysis tools for realistic large-scale ABMs (Agent-Based Models) can be excessively long. This due to the computational demand exponentially proportional to the model size (e.g. Population size) and the number of model parameters. Even the runtime of a single simulation of a realistic ABM may demand huge computational resources when attempting to employ realistic population size. The main aim of this ad-hoc brief report is to highlight some of surrogate models that were adequate and computationally less demanding for nonlinear dynamical models in various modeling application areas.To the author knowledge, these methods have been not, at least extensively, employed for ABMs within the field of (SHCS) Social Health Computational Sciences, yet. Thus, they might be, but not necessarily, useful in progressing state of the art for establishing surrogate models for ABMs in the field of SHCS.
翻訳日:2024-03-08 14:12:21 公開日:2024-03-07
# 署名隔離林

Signature Isolation Forest ( http://arxiv.org/abs/2403.04405v1 )

ライセンス: Link先を確認
Guillaume Staerman, Marta Campi, Gareth W. Peters(参考訳) 関数分離フォレスト (FIF) は、関数データ用に設計された最新の最先端の異常検出 (AD) アルゴリズムである。 これは、線状内積を通して描画辞書に各曲線観察を投影することにより異常スコアを算出する木分割手順に依存する。 このような線形内積と辞書は、アルゴリズムのパフォーマンスに非常に影響を与え、特に複雑なデータセットにおいて信頼性の低い結果をもたらす事前選択である。 この研究は、ラフパス理論のシグネチャ変換を利用した新しいADアルゴリズムクラスである「textit{Signature isolated Forest}」を導入することでこれらの課題に対処する。 本研究の目的は、FIF内部積の線形性と辞書の選択を特に対象とする2つのアルゴリズムの提案により、FIFが課す制約を取り除くことである。 本手法の妥当性を示す実世界のアプリケーションベンチマークなど,いくつかの数値実験を行った。

Functional Isolation Forest (FIF) is a recent state-of-the-art Anomaly Detection (AD) algorithm designed for functional data. It relies on a tree partition procedure where an abnormality score is computed by projecting each curve observation on a drawn dictionary through a linear inner product. Such linear inner product and the dictionary are a priori choices that highly influence the algorithm's performances and might lead to unreliable results, particularly with complex datasets. This work addresses these challenges by introducing \textit{Signature Isolation Forest}, a novel AD algorithm class leveraging the rough path theory's signature transform. Our objective is to remove the constraints imposed by FIF through the proposition of two algorithms which specifically target the linearity of the FIF inner product and the choice of the dictionary. We provide several numerical experiments, including a real-world applications benchmark showing the relevance of our methods.
翻訳日:2024-03-08 14:12:00 公開日:2024-03-07
# NLIにおける構成一般化の継続的な学習

Exploring Continual Learning of Compositional Generalization in NLI ( http://arxiv.org/abs/2403.04400v1 )

ライセンス: Link先を確認
Xiyan Fu, Anette Frank(参考訳) 合成自然言語推論は、ニューラルモデルがNLIを実行する真の能力を評価するために研究されている。 しかし、現在の評価では、推論知識を継続的に取得する人間とは対照的に、モデルが事前にすべてのプリミティブ推論への完全なアクセスを前提としている。 本稿では,モデルが合成推論の基礎として原始推論タスクを構成する知識を継続的に獲得する,推論における連続的合成一般化(c2gen nli)を提案する。 連続学習がNLIの合成一般化にどう影響するかを,構成的NLI推論タスクのための連続学習設定を設計することによって検討する。 我々の実験は、連続的なシナリオにおいてモデルが構成的に一般化できないことを示す。 この問題に対処するために,我々はまず,連続学習アルゴリズムをベンチマークし,その有効性を検証する。 さらにC2Genを解析し、プリミティブとコンポジション推論型の順序付け、サブタスク間の相関について検討する。 本研究は,依存性を観察しながら連続的にサブタスクを学習し,難易度を増すことにより,構成一般化能力を高めることを実証する。

Compositional Natural Language Inference has been explored to assess the true abilities of neural models to perform NLI. Yet, current evaluations assume models to have full access to all primitive inferences in advance, in contrast to humans that continuously acquire inference knowledge. In this paper, we introduce the Continual Compositional Generalization in Inference (C2Gen NLI) challenge, where a model continuously acquires knowledge of constituting primitive inference tasks as a basis for compositional inferences. We explore how continual learning affects compositional generalization in NLI, by designing a continual learning setup for compositional NLI inference tasks. Our experiments demonstrate that models fail to compositionally generalize in a continual scenario. To address this problem, we first benchmark various continual learning algorithms and verify their efficacy. We then further analyze C2Gen, focusing on how to order primitives and compositional inference types and examining correlations between subtasks. Our analyses show that by learning subtasks continuously while observing their dependencies and increasing degrees of difficulty, continual learning can enhance composition generalization ability.
翻訳日:2024-03-08 14:11:46 公開日:2024-03-07
# グラフニューラルネットワークのトポロジー認識と一般化性能について

On the Topology Awareness and Generalization Performance of Graph Neural Networks ( http://arxiv.org/abs/2403.04482v1 )

ライセンス: Link先を確認
Junwei Su, Chuan Wu(参考訳) 多くのコンピュータビジョンと機械学習問題はグラフ上の学習タスクとしてモデル化され、グラフニューラルネットワーク(GNN)がグラフ構造化データの表現を学習するための主要なツールとして登場した。 GNNの重要な特徴は、グラフ構造を入力として使用することで、GNNのトポロジ認識として知られるグラフ固有のトポロジ特性を活用することができる。 GNNの実証的な成功にもかかわらず、トポロジの認識が一般化性能に与える影響は未解明のままであり、特にデータの独立性と同一分散性(I.I.D.)の仮定から分岐するノードレベルのタスクに対してである。 GNNのトポロジ的認識の正確な定義と特徴は、特に異なるトポロジ的特徴に関してまだ不明である。 本稿では,GNNのトポロジ的認識をいかなるトポロジ的特徴においても特徴付けるための包括的枠組みを提案する。 本稿では,GNNの一般化性能に対するトポロジ認識の影響について検討する。 GNNのトポロジ意識を高めることが常に有利であるという一般的な信念とは対照的に、我々の分析では、GNNのトポロジ意識を改善することは、いくつかのシナリオでは望まれないような構造群全体の不当な一般化につながる可能性があるという重要な洞察が示されている。 さらに,様々なベンチマークデータセット上で,最短経路距離である本質グラフメトリックを用いたケーススタディを実施した。 本研究の結果から理論的知見が得られた。 さらに,グラフアクティブ学習におけるコールドスタート問題に対処するために,本フレームワークの実用性を示す。

Many computer vision and machine learning problems are modelled as learning tasks on graphs, where graph neural networks (GNNs) have emerged as a dominant tool for learning representations of graph-structured data. A key feature of GNNs is their use of graph structures as input, enabling them to exploit the graphs' inherent topological properties-known as the topology awareness of GNNs. Despite the empirical successes of GNNs, the influence of topology awareness on generalization performance remains unexplored, particularly for node-level tasks that diverge from the assumption of data being independent and identically distributed (I.I.D.). The precise definition and characterization of the topology awareness of GNNs, especially concerning different topological features, are still unclear. This paper introduces a comprehensive framework to characterize the topology awareness of GNNs across any topological feature. Using this framework, we investigate the effects of topology awareness on GNN generalization performance. Contrary to the prevailing belief that enhancing the topology awareness of GNNs is always advantageous, our analysis reveals a critical insight: improving the topology awareness of GNNs may inadvertently lead to unfair generalization across structural groups, which might not be desired in some scenarios. Additionally, we conduct a case study using the intrinsic graph metric, the shortest path distance, on various benchmark datasets. The empirical results of this case study confirm our theoretical insights. Moreover, we demonstrate the practical applicability of our framework by using it to tackle the cold start problem in graph active learning.
翻訳日:2024-03-08 14:06:55 公開日:2024-03-07
# 大規模言語モデルは多言語音声言語を理解するか?

Do Large Language Model Understand Multi-Intent Spoken Language ? ( http://arxiv.org/abs/2403.04481v1 )

ライセンス: Link先を確認
Shangjian Yin, Peijie Huang, Yuhong Xu, Haojing Huang, Jiatian Chen(参考訳) 本研究は多言語言語理解(SLU)にLLM(Large Language Models, LLMs)を応用し, SLUの文脈におけるLLMの生成力を生かした独自の方法論を提案する。 提案手法は,マルチインテントslu環境におけるllmアプリケーションに特化したエンティティスロットを再構成し,サブインテント命令(sii)の概念を導入し,様々な領域における複雑なマルチインテント通信の分割と解釈を強化する。 LM-MixATISとLM-MixSNIPSと呼ばれるデータセットは、既存のベンチマークから作成されている。 我々の研究は、LLMが現在の最先端のマルチインテリジェントSLUモデルの能力に適合し、潜在的に優れていることを示している。 さらに、LLMの有効性を、様々な意図構成とデータセットの比率で調べる。 さらに、この複雑な分野におけるLLMの精度の詳細な分析を行うために、Entity Slot Accuracy(ESA)とCombined Semantic Accuracy(CSA)の2つの先駆的な指標を紹介した。

This study marks a significant advancement by harnessing Large Language Models (LLMs) for multi-intent spoken language understanding (SLU), proposing a unique methodology that capitalizes on the generative power of LLMs within an SLU context. Our innovative technique reconfigures entity slots specifically for LLM application in multi-intent SLU environments and introduces the concept of Sub-Intent Instruction (SII), enhancing the dissection and interpretation of intricate, multi-intent communication within varied domains. The resultant datasets, dubbed LM-MixATIS and LM-MixSNIPS, are crafted from pre-existing benchmarks. Our research illustrates that LLMs can match and potentially excel beyond the capabilities of current state-of-the-art multi-intent SLU models. It further explores LLM efficacy across various intent configurations and dataset proportions. Moreover, we introduce two pioneering metrics, Entity Slot Accuracy (ESA) and Combined Semantic Accuracy (CSA), to provide an in-depth analysis of LLM proficiency in this complex field.
翻訳日:2024-03-08 14:06:26 公開日:2024-03-07
# 肺結節検出のためのハードサンプルの改善

Improved Focus on Hard Samples for Lung Nodule Detection ( http://arxiv.org/abs/2403.04478v1 )

ライセンス: Link先を確認
Yujiang Chen and Mei Xie(参考訳) 近年,深層学習に基づく肺結節検出法が医用画像処理の分野で優れた性能を示している。 自然画像よりもct画像では肺結節検出が困難であり,肺結節検出では肺結節,特にct画像における硬結の検出に多くのボトルネックが伴う。 これらの問題を解決するため、我々はネットワークの焦点を強化することを計画している。 本研究では,変形可能な畳み込みと自己更新学習を導入することで,肺結節に対するハードサンプルやデータセットにより多くの注意を払って検出ネットワークを改良する。 luna16データセットにおける実験は,提案するコンポーネントの有効性を示し,本手法が競合性能に到達したことを示す。

Recently, lung nodule detection methods based on deep learning have shown excellent performance in the medical image processing field. Considering that only a few public lung datasets are available and lung nodules are more difficult to detect in CT images than in natural images, the existing methods face many bottlenecks when detecting lung nodules, especially hard ones in CT images. In order to solve these problems, we plan to enhance the focus of our network. In this work, we present an improved detection network that pays more attention to hard samples and datasets to deal with lung nodules by introducing deformable convolution and self-paced learning. Experiments on the LUNA16 dataset demonstrate the effectiveness of our proposed components and show that our method has reached competitive performance.
翻訳日:2024-03-08 14:06:07 公開日:2024-03-07
# 確率時系列予測のためのハイパーパラメータチューニングmlp

Hyperparameter Tuning MLPs for Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2403.04477v1 )

ライセンス: Link先を確認
Kiran Madhusudhanan, Shayan Jawed, Lars Schmidt-Thieme(参考訳) 時系列予測は過去の傾向やパターンを分析して将来の出来事を予測する。 よく研究されているが、時系列予測における深層学習の利用に関する批判的な側面はあいまいである。 本研究は主に、時系列予測における最先端mlpモデルの性能に及ぼす、コンテキスト長や検証戦略など、時系列に関連する特定のハイパーパラメータの影響を検討することに焦点を当てた。 我々は20の時系列予測データセットにまたがるデータセット毎の4800構成に関する包括的な実験を行い,これらのパラメータのチューニングの重要性を実証した。 さらに,本稿では,過去作に比べて2倍の増量である97200の評価を含む,現在までの時系列予測のための最大メタデータセットであるtsbenchを紹介する。 最後に,マルチフィデリティハイパーパラメータ最適化タスクにおけるメタデータセットの有用性を実証する。

Time series forecasting attempts to predict future events by analyzing past trends and patterns. Although well researched, certain critical aspects pertaining to the use of deep learning in time series forecasting remain ambiguous. Our research primarily focuses on examining the impact of specific hyperparameters related to time series, such as context length and validation strategy, on the performance of the state-of-the-art MLP model in time series forecasting. We have conducted a comprehensive series of experiments involving 4800 configurations per dataset across 20 time series forecasting datasets, and our findings demonstrate the importance of tuning these parameters. Furthermore, in this work, we introduce the largest metadataset for timeseries forecasting to date, named TSBench, comprising 97200 evaluations, which is a twentyfold increase compared to previous works in the field. Finally, we demonstrate the utility of the created metadataset on multi-fidelity hyperparameter optimization tasks.
翻訳日:2024-03-08 14:05:56 公開日:2024-03-07
# 散逸と非断熱性にロバストな臨界量子論

Critical quantum metrology robust against dissipation and non-adiabaticity ( http://arxiv.org/abs/2403.04475v1 )

ライセンス: Link先を確認
Jia-Hao L\"u, Wen Ning, Fan Wu, Ri-Hua Zheng, Ken Chen, Xin Zhu, Zhen-Biao Yang, Huai-Zhi Wu, and Shi-Biao Zheng(参考訳) 量子相転移近傍の臨界系は、制御ハミルトニアンのわずかな変動に対する超感度応答により、メートル法精度の向上に有用であると予測された。 有望な視点にもかかわらず、臨界エンハンス量子メトロロジーの実現は実験的に困難な課題であり、主に臨界系の物理量に信号を符号化するのに非常に長い時間を要するためである。 本稿では,信号場を結合した単一量子ビットとフォトニック共振器からなるJaynes-Cummingsモデルにおける臨界挙動を利用して,この問題を回避する。 フィールド振幅に関する情報は、ダーク状態のキュービットの励起番号に符号化され、臨界点における分岐変化率を表示する。 この重要なセンサーの最も顕著な特徴は、非コヒーレンスや非断熱効果によって引き起こされる、明るい固有状態への漏れに反応しないことである。 共振器と相互作用するxmon量子ビットを共振器に結合したマイクロ波場の振幅を推定するためのプローブとして用いる超伝導回路において、そのようなメトロロジープロトコルを示す。 測定された量子フィッシャー情報は臨界量子エンハンスメントを示し、量子メトロロジーにおけるこのシステムの可能性を確認する。

Critical systems near quantum phase transitions were predicted to be useful for improvement of metrological precision, thanks to their ultra-sensitive response to a tiny variation of the control Hamiltonian. Despite the promising perspective, realization of criticality-enhanced quantum metrology is an experimentally challenging task, mainly owing to the extremely long time needed to encode the signal to some physical quantity of a critical system. We here circumvent this problem by making use of the critical behaviors in the Jaynes-Cummings model, comprising a single qubit and a photonic resonator, to which the signal field is coupled. The information about the field amplitude is encoded in the qubit's excitation number in the dark state, which displays a divergent changing rate at the critical point. The most remarkable feature of this critical sensor is that the performance is insensitive to the leakage to bright eigenstates, caused by decoherence and non-adiabatic effects. We demonstrate such a metrological protocol in a superconducting circuit, where an Xmon qubit, interacting with a resonator, is used as a probe for estimating the amplitude of a microwave field coupled to the resonator. The measured quantum Fisher information exhibits a critical quantum enhancement, confirming the potential of this system for quantum metrology.
翻訳日:2024-03-08 14:05:44 公開日:2024-03-07
# TextMonkey: ドキュメント理解のためのOCRフリー大規模マルチモーダルモデル

TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document ( http://arxiv.org/abs/2403.04473v1 )

ライセンス: Link先を確認
Yuliang Liu, Biao Yang, Qiang Liu, Zhang Li, Zhiyin Ma, Shuo Zhang, Xiang Bai(参考訳) 文書質問応答(DocVQA)やシーンテキスト分析など,テキスト中心のタスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。 提案手法では,ゼロ初期化によるシフトウィンドウアテンションの導入により,高い入力解像度でのクロスウィンドウ接続を実現し,早期訓練を安定化させることにより,画像に冗長なトークンを含む可能性があること,重要なトークンをフィルタリングする類似性を利用することで,トークン長の合理化だけでなく,モデルの性能の向上も図っている。 さらに,テキストスポッティングとグラウンド化を包含するモデルの能力を拡張し,位置情報を応答に組み込むことで,解釈可能性を高め,幻覚を最小化する。 さらに、textmonkeyを微調整して、スクリーンショットをクリックするコマンドを理解することもできる。 テキスト中心のvqa,ドキュメント指向のvqa,kieでは,それぞれ5.2%,6.9%,2.8%,特にocrbenchでは561点,ドキュメント理解のためにオープンソースの大規模マルチモーダルモデルを上回った。 コードはhttps://github.com/Yuliang-Liu/Monkeyでリリースされる。

We present TextMonkey, a large multimodal model (LMM) tailored for text-centric tasks, including document question answering (DocVQA) and scene text analysis. Our approach introduces enhancement across several dimensions: by adopting Shifted Window Attention with zero-initialization, we achieve cross-window connectivity at higher input resolutions and stabilize early training; We hypothesize that images may contain redundant tokens, and by using similarity to filter out significant tokens, we can not only streamline the token length but also enhance the model's performance. Moreover, by expanding our model's capabilities to encompass text spotting and grounding, and incorporating positional information into responses, we enhance interpretability and minimize hallucinations. Additionally, TextMonkey can be finetuned to gain the ability to comprehend commands for clicking screenshots. Overall, our method notably boosts performance across various benchmark datasets, achieving increases of 5.2%, 6.9%, and 2.8% in Scene Text-Centric VQA, Document Oriented VQA, and KIE, respectively, especially with a score of 561 on OCRBench, surpassing prior open-sourced large multimodal models for document understanding. Code will be released at https://github.com/Yuliang-Liu/Monkey.
翻訳日:2024-03-08 14:05:21 公開日:2024-03-07
# シャットダウン問題:3つの定理

The Shutdown Problem: Three Theorems ( http://arxiv.org/abs/2403.04471v1 )

ライセンス: Link先を確認
Elliott Thornley(参考訳) シャットダウン問題は,(1)シャットダウンボタンを押したときにシャットダウンする,(2)シャットダウンボタンを押したり押したりしない,(3)目標を有能に追求する,人工エージェントを設計する,という問題である。 私は難易度を正確にする3つの定理を証明します。 これらの定理は、ある無害な条件を満たすエージェントが、たとえコストがかかる場合であっても、シャットダウンボタンの押圧を防ぎ、引き起こそうとすることを示している。 そして忍耐はシャットダウン性に反する: エージェントが忍耐強くなればなるほど、エージェントがシャットダウンボタンを操作しようとするコストが大きくなる。 最後に、これらの定理は解の探索を導くことができることに注意する。

I explain the shutdown problem: the problem of designing artificial agents that (1) shut down when a shutdown button is pressed, (2) don't try to prevent or cause the pressing of the shutdown button, and (3) otherwise pursue goals competently. I prove three theorems that make the difficulty precise. These theorems show that agents satisfying some innocuous-seeming conditions will often try to prevent or cause the pressing of the shutdown button, even in cases where it's costly to do so. And patience trades off against shutdownability: the more patient an agent, the greater the costs that agent is willing to incur to manipulate the shutdown button. I end by noting that these theorems can guide our search for solutions.
翻訳日:2024-03-08 14:04:54 公開日:2024-03-07
# 実世界のグラフニューラルネットワークに関するサーベイ:不均衡,ノイズ,プライバシ,OOD問題

A Survey of Graph Neural Networks in Real world: Imbalance, Noise, Privacy and OOD Challenges ( http://arxiv.org/abs/2403.04468v1 )

ライセンス: Link先を確認
Wei Ju, Siyu Yi, Yifan Wang, Zhiping Xiao, Zhengyang Mao, Hourun Li, Yiyang Gu, Yifang Qin, Nan Yin, Senzhang Wang, Xinwang Liu, Xiao Luo, Philip S. Yu, Ming Zhang(参考訳) グラフ構造データは、ソーシャルネットワーク分析、生化学、金融不正検出、ネットワークセキュリティなど、さまざまなドメインにまたがる普遍性と広範な適用性を示す。 グラフニューラルネットワーク(GNN)を活用することで、これらの分野で大きな成功を収めている。 しかしながら、実世界のシナリオでは、モデルのトレーニング環境は理想とは程遠いことが多く、データ分散の不均衡、誤ったデータにおけるノイズの存在、機密情報のプライバシ保護、分散(ood)シナリオの一般化など、さまざまな不利な要因により、gnnモデルの実質的なパフォーマンス低下につながる。 これらの問題に対処するため、現実のシナリオにおけるgnnモデルの性能向上と信頼性と堅牢性の向上に多大な努力が費やされてきた。 本稿では,既存のGNNモデルを体系的にレビューする包括的調査を行い,多くの既存レビューが考慮していない実践シナリオにおいて,不均衡,ノイズ,プライバシ,OODを含む実世界の課題に対する解決策に焦点を当てた。 具体的には、既存のGNNが直面している4つの重要な課題を強調し、現実のGNNモデルを探索する道を開く。 その後、これらの4つの側面について詳細な議論を行い、これらのソリューションがGNNモデルの信頼性と堅牢性の向上にどのように貢献するかを論じる。 最後に重要なことは、将来的な方向性を概説し、将来的な展望を提供することです。

Graph-structured data exhibits universality and widespread applicability across diverse domains, such as social network analysis, biochemistry, financial fraud detection, and network security. Significant strides have been made in leveraging Graph Neural Networks (GNNs) to achieve remarkable success in these areas. However, in real-world scenarios, the training environment for models is often far from ideal, leading to substantial performance degradation of GNN models due to various unfavorable factors, including imbalance in data distribution, the presence of noise in erroneous data, privacy protection of sensitive information, and generalization capability for out-of-distribution (OOD) scenarios. To tackle these issues, substantial efforts have been devoted to improving the performance of GNN models in practical real-world scenarios, as well as enhancing their reliability and robustness. In this paper, we present a comprehensive survey that systematically reviews existing GNN models, focusing on solutions to the four mentioned real-world challenges including imbalance, noise, privacy, and OOD in practical scenarios that many existing reviews have not considered. Specifically, we first highlight the four key challenges faced by existing GNNs, paving the way for our exploration of real-world GNN models. Subsequently, we provide detailed discussions on these four aspects, dissecting how these solutions contribute to enhancing the reliability and robustness of GNN models. Last but not least, we outline promising directions and offer future perspectives in the field.
翻訳日:2024-03-08 14:04:41 公開日:2024-03-07
# pearl: レビュー駆動のペルソナ知識に基づく会話レコメンデーションデータセット

Pearl: A Review-driven Persona-Knowledge Grounded Conversational Recommendation Dataset ( http://arxiv.org/abs/2403.04460v1 )

ライセンス: Link先を確認
Minjin Kim, Minju Kim, Hana Kim, Beong-woo Kwak, Soyeon Chun, Hyunseo Kim, SeongKu Kang, Youngjae Yu, Jinyoung Yeo, Dongha Lee(参考訳) 会話型レコメンデーションシステムは、特に会話入力よりも多様な推論を可能にする大規模言語モデル(llm)の発展に伴い、コミュニティへの関心が高まっている新興分野である。 進歩にもかかわらず、フィールドには探索する多くの側面があります。 現在利用可能な会話レコメンデーション用の公開データセットには、特定のユーザの好みやレコメンデーションの説明がなく、高品質なレコメンデーションを妨げる。 そこで本研究では,パーソナライズとナレッジによるllmシミュレータを用いた対話型レコメンデーションデータセットであるpearlを提案する。 実世界のレビューから詳細なペルソナと知識を取得し,57k以上の対話を伴う大規模データセットを構築した。 実験の結果, PEARLにおける発話には, より具体的なユーザの嗜好, 対象領域における専門知識の提示, 従来のデータセットよりも対話コンテキストに関連のあるレコメンデーションが提供されることがわかった。

Conversational recommender system is an emerging area that has garnered an increasing interest in the community, especially with the advancements in large language models (LLMs) that enable diverse reasoning over conversational input. Despite the progress, the field has many aspects left to explore. The currently available public datasets for conversational recommendation lack specific user preferences and explanations for recommendations, hindering high-quality recommendations. To address such challenges, we present a novel conversational recommendation dataset named PEARL, synthesized with persona- and knowledge-augmented LLM simulators. We obtain detailed persona and knowledge from real-world reviews and construct a large-scale dataset with over 57k dialogues. Our experimental results demonstrate that utterances in PEARL include more specific user preferences, show expertise in the target domain, and provide recommendations more relevant to the dialogue context than those in prior datasets.
翻訳日:2024-03-08 14:04:12 公開日:2024-03-07
# 共通法体系に対する低リソース裁判所判決の要約

Low-Resource Court Judgment Summarization for Common Law Systems ( http://arxiv.org/abs/2403.04454v1 )

ライセンス: Link先を確認
Shuaiqi Liu, Jiannong Cao, Yicong Li, Ruosong Yang, Zhiyuan Wen(参考訳) 一般法裁判所は、彼らの現在の決定を知らせるために、同様の前例の判決を参照する必要がある。 裁判所判決文書の高品質な要約を作成することは、法律実務者が過去の事件を効率よくレビューし、裁判所の運営方法や法の適用方法に一般大衆がアクセスできるようにする。 以前の裁判所判決要約研究は、民事法または特定の管轄区域の判決に焦点を当てている。 しかし、裁判官はすべての司法管轄区域の判決を参照することができる。 現在の要約データセットは、複数の管轄区域にまたがる前例を要約する要求を満たすには不十分である。 データセットの欠如に対処するため, CLSumは, 多審理法裁判所判決文書を要約する最初のデータセットである。 さらに, 大規模言語モデル(LLM)をデータ拡張, 要約生成, 評価に適用した最初の裁判所判決要約作業である。 具体的には,法律知識を組み込んだllmに基づくデータ拡張手法を設計する。 また,生成した判断要約の品質を評価するために,llmに基づく法的知識強化評価指標を提案する。 実験結果から,LLMに基づく要約手法は,複数ショットとゼロショットの設定で良好に動作できることが確認された。 LLMに基づくデータ拡張手法は、低データリソースの影響を軽減することができる。 さらに,要約性能を向上できる重要なモデルコンポーネントや設定を見つけるために,総合的な比較実験を実施している。

Common law courts need to refer to similar precedents' judgments to inform their current decisions. Generating high-quality summaries of court judgment documents can facilitate legal practitioners to efficiently review previous cases and assist the general public in accessing how the courts operate and how the law is applied. Previous court judgment summarization research focuses on civil law or a particular jurisdiction's judgments. However, judges can refer to the judgments from all common law jurisdictions. Current summarization datasets are insufficient to satisfy the demands of summarizing precedents across multiple jurisdictions, especially when labeled data are scarce for many jurisdictions. To address the lack of datasets, we present CLSum, the first dataset for summarizing multi-jurisdictional common law court judgment documents. Besides, this is the first court judgment summarization work adopting large language models (LLMs) in data augmentation, summary generation, and evaluation. Specifically, we design an LLM-based data augmentation method incorporating legal knowledge. We also propose a legal knowledge enhanced evaluation metric based on LLM to assess the quality of generated judgment summaries. Our experimental results verify that the LLM-based summarization methods can perform well in the few-shot and zero-shot settings. Our LLM-based data augmentation method can mitigate the impact of low data resources. Furthermore, we carry out comprehensive comparative experiments to find essential model components and settings that are capable of enhancing summarization performance.
翻訳日:2024-03-08 14:03:54 公開日:2024-03-07
# Vlearn: 効率的な状態値関数推定によるオフポリティ学習

Vlearn: Off-Policy Learning with Efficient State-Value Function Estimation ( http://arxiv.org/abs/2403.04453v1 )

ライセンス: Link先を確認
Fabian Otto, Philipp Becker, Vien Ang Ngo, Gerhard Neumann(参考訳) 既存の非政治強化学習アルゴリズムは、高次元の行動空間において問題となる明示的な状態-作用-値関数表現を必要とする。 これらのアルゴリズムは、そのような空間における状態-作用-値関数の維持がデータ非効率になるため、しばしば次元の呪いに苦しむ問題に直面する。 そこで本研究では,明示的な状態-動作-値関数の要求を排除した,新たな信頼領域最適化手法であるVlearnを提案する。 代わりに、批判者として状態値関数のみを効率的に活用する方法を示し、既存のメソッドのいくつかの制限を克服する。 Vlearnは、高次元のアクション空間によって引き起こされる計算問題に対処する。 さらに、vlearnは、オフポリシー設定で純粋な状態値関数学習に関連する課題に対処するための効率的なアプローチを導入している。 このアプローチは、オフポリシーのポリシー勾配アルゴリズムの実装を単純化するだけでなく、様々なベンチマークタスクで一貫した堅牢なパフォーマンスをもたらす。 具体的には、状態-作用-値関数の必要性を取り除くことにより、Vlearnは学習プロセスを単純化し、複雑な環境でより効率的な探索と利用を可能にする。

Existing off-policy reinforcement learning algorithms typically necessitate an explicit state-action-value function representation, which becomes problematic in high-dimensional action spaces. These algorithms often encounter challenges where they struggle with the curse of dimensionality, as maintaining a state-action-value function in such spaces becomes data-inefficient. In this work, we propose a novel off-policy trust region optimization approach, called Vlearn, that eliminates the requirement for an explicit state-action-value function. Instead, we demonstrate how to efficiently leverage just a state-value function as the critic, thus overcoming several limitations of existing methods. By doing so, Vlearn addresses the computational challenges posed by high-dimensional action spaces. Furthermore, Vlearn introduces an efficient approach to address the challenges associated with pure state-value function learning in the off-policy setting. This approach not only simplifies the implementation of off-policy policy gradient algorithms but also leads to consistent and robust performance across various benchmark tasks. Specifically, by removing the need for a state-action-value function Vlearn simplifies the learning process and allows for more efficient exploration and exploitation in complex environments
翻訳日:2024-03-08 14:03:32 公開日:2024-03-07
# トピックモデリングにおけるメンバーシップ推論攻撃とプライバシ

Membership Inference Attacks and Privacy in Topic Modeling ( http://arxiv.org/abs/2403.04451v1 )

ライセンス: Link先を確認
Nico Manzonelli, Wanrong Zhang, Salil Vadhan(参考訳) 近年の研究では、大規模な言語モデルは、トレーニングデータの側面を推測するプライバシー攻撃の影響を受けやすいことが示されている。 しかし、トピックモデルのような単純な生成モデルが同様の脆弱性を共有しているかどうかは不明だ。 本研究では,潜在ディリクレ割り当てにおけるトレーニングデータのメンバを自信を持って識別できるトピックモデルに対する攻撃を提案する。 以上の結果から,生成モデルに関連するプライバシリスクは大きなニューラルモデルに限定されないことが示唆された。 さらに,これらの脆弱性を軽減するため,差分プライベート(dp)トピックモデリングについても検討する。 本稿では,dp語彙の選択を前処理ステップとして取り入れたプライベートトピックモデリングのフレームワークを提案する。

Recent research shows that large language models are susceptible to privacy attacks that infer aspects of the training data. However, it is unclear if simpler generative models, like topic models, share similar vulnerabilities. In this work, we propose an attack against topic models that can confidently identify members of the training data in Latent Dirichlet Allocation. Our results suggest that the privacy risks associated with generative modeling are not restricted to large neural models. Additionally, to mitigate these vulnerabilities, we explore differentially private (DP) topic modeling. We propose a framework for private topic modeling that incorporates DP vocabulary selection as a pre-processing step, and show that it improves privacy while having limited effects on practical utility.
翻訳日:2024-03-08 14:03:11 公開日:2024-03-07
# GPT-4によるプログラミング演習のためのフィードバック生成

Feedback-Generation for Programming Exercises With GPT-4 ( http://arxiv.org/abs/2403.04449v1 )

ライセンス: Link先を確認
Imen Azaiz, Natalie Kiesler, Sven Strickroth(参考訳) LLM(Large Language Models)とその関連アプリケーションが広く普及して以来、教育者支援や高等教育における支援の可能性を調査してきた。 Codex, GPT-3.5, GPT 4 などの LLM は,大規模なプログラミングコースのコンテキストにおいて有望な結果を示している。 本稿では,プログラミングタスク仕様と学生の提出を入力として含むプロンプトに対して,GPT-4 Turboの出力の品質について検討する。 導入プログラミングコースからの2つの課題が選択され、GPT-4は55のランダムに選択された真正な学生プログラミングの応募に対してフィードバックを生成するように求められた。 結果は, 正しさ, パーソナライゼーション, フォールトローカライゼーション, その他の特徴について定性的に分析した。 GPT-3.5の以前の研究や分析と比較すると、GPT-4ターボは顕著な改善を示した。 例えば、出力はより構造化され、一貫性がある。 GPT-4 Turboは、学生プログラムの出力の不正なケーシングを正確に識別する。 場合によっては、フィードバックには学生プログラムのアウトプットも含まれている。 同時に、提出が正しいがエラーを修正する必要があるというような矛盾したフィードバックも指摘されている。 本研究は, LLMのポテンシャル, 限界, 電子評価システムへの統合方法, 教育シナリオ, GPT-4 を応用した学生の指導方法の理解を深めるものである。

Ever since Large Language Models (LLMs) and related applications have become broadly available, several studies investigated their potential for assisting educators and supporting students in higher education. LLMs such as Codex, GPT-3.5, and GPT 4 have shown promising results in the context of large programming courses, where students can benefit from feedback and hints if provided timely and at scale. This paper explores the quality of GPT-4 Turbo's generated output for prompts containing both the programming task specification and a student's submission as input. Two assignments from an introductory programming course were selected, and GPT-4 was asked to generate feedback for 55 randomly chosen, authentic student programming submissions. The output was qualitatively analyzed regarding correctness, personalization, fault localization, and other features identified in the material. Compared to prior work and analyses of GPT-3.5, GPT-4 Turbo shows notable improvements. For example, the output is more structured and consistent. GPT-4 Turbo can also accurately identify invalid casing in student programs' output. In some cases, the feedback also includes the output of the student program. At the same time, inconsistent feedback was noted such as stating that the submission is correct but an error needs to be fixed. The present work increases our understanding of LLMs' potential, limitations, and how to integrate them into e-assessment systems, pedagogical scenarios, and instructing students who are using applications based on GPT-4.
翻訳日:2024-03-08 14:03:00 公開日:2024-03-07
# frri:ファジィロールール誘導のための新しいアルゴリズム

FRRI: a novel algorithm for fuzzy-rough rule induction ( http://arxiv.org/abs/2403.04447v1 )

ライセンス: Link先を確認
Henri Bollaert, Marko Palangeti\'c, Chris Cornelis, Salvatore Greco, Roman S{\l}owi\'nski(参考訳) 解釈性は、機械学習研究の次のフロンティアである。 ランダムな森林やニューラルネットワークのようなブラックボックスモデルとは対照的に、ホワイトボックスモデルの検索では、ルール誘導アルゴリズムは論理的で有望な選択肢である。 ファジィと粗い集合論は、ほぼ常に別々に、このアーチタイプにうまく適用されてきた。 どちらのルール帰納法も同値クラスの概念に基づく粒度の計算を含むため、それらを組み合わせることは自然である。 quickrules\cite{jensencornelis2009} アルゴリズムはファジィ粗集合理論を規則帰納法として使う最初の試みであった。 QuickReductは意思決定リダクトを構築するための欲張りアルゴリズムである。 QuickRulesは、他のルール誘導方法よりも改善されている。 しかし、ファジィ粗規則誘導アルゴリズムの潜在能力を評価するためには、基礎から始める必要がある。 本稿では,ファジィラフルール誘導(frri)と呼ばれる新しいルール誘導アルゴリズムを提案する。 背景を提供し、アルゴリズムの動作を説明します。 さらに,本アルゴリズムの性能を評価するために計算実験を行い,他の最先端ルール帰納法と比較した。 我々のアルゴリズムは比較的短いルールからなる小さなルールセットを作成しながら、より正確であることがわかった。 今後の作業の方向性を概説することで、論文を締めくくります。

Interpretability is the next frontier in machine learning research. In the search for white box models - as opposed to black box models, like random forests or neural networks - rule induction algorithms are a logical and promising option, since the rules can easily be understood by humans. Fuzzy and rough set theory have been successfully applied to this archetype, almost always separately. As both approaches to rule induction involve granular computing based on the concept of equivalence classes, it is natural to combine them. The QuickRules\cite{JensenCornelis2009} algorithm was a first attempt at using fuzzy rough set theory for rule induction. It is based on QuickReduct, a greedy algorithm for building decision reducts. QuickRules already showed an improvement over other rule induction methods. However, to evaluate the full potential of a fuzzy rough rule induction algorithm, one needs to start from the foundations. In this paper, we introduce a novel rule induction algorithm called Fuzzy Rough Rule Induction (FRRI). We provide background and explain the workings of our algorithm. Furthermore, we perform a computational experiment to evaluate the performance of our algorithm and compare it to other state-of-the-art rule induction approaches. We find that our algorithm is more accurate while creating small rulesets consisting of relatively short rules. We end the paper by outlining some directions for future work.
翻訳日:2024-03-08 14:02:35 公開日:2024-03-07
# 一般化マルチフュージョン弦ネットモデルの弱ホップ対称性と管代数

Weak Hopf symmetry and tube algebra of the generalized multifusion string-net model ( http://arxiv.org/abs/2403.04446v1 )

ライセンス: Link先を確認
Zhian Jia, Sheng Tan, Dagomir Kaszlikowski(参考訳) 弦ネット基底状態と格子ハミルトニアンの多重融合一般化について検討し,その弱ホップ対称性について考察した。 マルチフュージョン弦ネットに対して、ゲージ対称性は一般的な弱ホップ代数として現れ、還元可能な真空弦ラベルへとつながり、ゲージ対称性の量子二重として機能する電荷対称性は連結弱ホップ代数を構成する。 これは、関連する位相位相がユニタリモジュラーテンソル圏(UMTC)によって特徴づけられることを示唆している。 バルク電荷対称性は弱いホップ管代数によっても捉えることができる。 弱ホップ管代数の構造を明示的に構成し,その性質を徹底的に議論する。 ガッピング境界とドメインウォールモデルは広く議論され、これら1ドルのフェーズはユニタリ・マルチフュージョン・カテゴリ(umfcs)によって特徴づけられる。 我々は、これらの 1d$ の位相のゲージと電荷対称性、および境界および磁壁管代数の構成について考察する。 さらに、領域壁管代数は2つの境界管代数の交叉積とみなすことができる。 我々は,umtcsからumfcsへのバルク-バウンダリ-バルク-壁凝縮現象を解明するために,anyon凝縮理論を確立した。 このモデルの応用として、欠陥文字列ネットを制限付きマルチフュージョン文字列ネットとして解釈する方法を解明する。

We investigate the multifusion generalization of string-net ground states and lattice Hamiltonians, delving into its associated weak Hopf symmetry. For the multifusion string-net, the gauge symmetry manifests as a general weak Hopf algebra, leading to a reducible vacuum string label; the charge symmetry, serving as a quantum double of gauge symmetry, constitutes a connected weak Hopf algebra. This implies that the associated topological phase retains its characterization by a unitary modular tensor category (UMTC). The bulk charge symmetry can also be captured by a weak Hopf tube algebra. We offer an explicit construction of the weak Hopf tube algebra structure and thoroughly discuss its properties. The gapped boundary and domain wall models are extensively discussed, with these $1d$ phases characterized by unitary multifusion categories (UMFCs). We delve into the gauge and charge symmetries of these $1d$ phases, as well as the construction of the boundary and domain wall tube algebras. Additionally, we illustrate that the domain wall tube algebra can be regarded as a cross product of two boundary tube algebras. We establish the anyon condensation theory to elucidate the bulk-to-boundary and bulk-to-wall condensation phenomena from UMTCs to a UMFCs. As an application of our model, we elucidate how to interpret the defective string-net as a restricted multifusion string-net.
翻訳日:2024-03-08 14:02:16 公開日:2024-03-07
# 物理制約オートエンコーダによるラマン分光のハイパースペクトルアンミックス

Hyperspectral unmixing for Raman spectroscopy via physics-constrained autoencoders ( http://arxiv.org/abs/2403.04526v1 )

ライセンス: Link先を確認
Dimitar Georgiev, \'Alvaro Fern\'andez-Galiana, Simon Vilms Pedersen, Georgios Papadopoulos, Ruoxiao Xie, Molly M. Stevens, Mauricio Barahona(参考訳) ラマン分光法は、非破壊的でラベルのない方法でサンプルの化学組成を特徴づけるために、科学領域で広く用いられている。 多くの応用では、分子種の混合物からの信号を解き放つことで、個々の成分とその割合を同定するが、化学測定の従来の手法は、実際に遭遇する複雑な混合シナリオに苦しむことが多い。 本稿では,自動エンコーダニューラルネットワークに基づくハイパースペクトルアンミックスアルゴリズムを開発し,内部で作成した合成ベンチマークデータセットと実験ベンチマークデータセットの両方を用いて体系的に検証する。 その結果, アンミックス方式に比べて精度, 堅牢性, 効率性が向上した。 また, 単細胞細胞からの体積ラマンイメージングデータの生化学的特性の改善を図り, 複雑な生物学的環境へのオートエンコーダの適用性を示す。

Raman spectroscopy is widely used across scientific domains to characterize the chemical composition of samples in a non-destructive, label-free manner. Many applications entail the unmixing of signals from mixtures of molecular species to identify the individual components present and their proportions, yet conventional methods for chemometrics often struggle with complex mixture scenarios encountered in practice. Here, we develop hyperspectral unmixing algorithms based on autoencoder neural networks, and we systematically validate them using both synthetic and experimental benchmark datasets created in-house. Our results demonstrate that unmixing autoencoders provide improved accuracy, robustness and efficiency compared to standard unmixing methods. We also showcase the applicability of autoencoders to complex biological settings by showing improved biochemical characterization of volumetric Raman imaging data from a monocytic cell.
翻訳日:2024-03-08 13:57:09 公開日:2024-03-07
# t-tame:畳み込みネットワークと視覚トランスフォーマを説明するための訓練可能な注意機構

T-TAME: Trainable Attention Mechanism for Explaining Convolutional Networks and Vision Transformers ( http://arxiv.org/abs/2403.04523v1 )

ライセンス: Link先を確認
Mariano V. Ntrougkas, Nikolaos Gkalelis, Vasileios Mezaris(参考訳) 画像分類タスクのための視覚トランスフォーマーやその他のディープラーニングアーキテクチャの開発と採用が急速に進んでいる。 しかしながら、ニューラルネットワークの“ブラックボックス”の性質は、説明責任が不可欠であるアプリケーションにおいて、採用の障壁となる。 説明を生成するいくつかの手法が提案されているが、主に畳み込みニューラルネットワークでは、視覚トランスフォーマーの新しいパラダイムへの適応は自明ではない。 本稿では、画像分類タスクで使用されるディープニューラルネットワークを説明する一般的な手法であるT-TAMEについて述べる。 提案したアーキテクチャとトレーニング技術は、任意の畳み込みやビジョントランスフォーマーのようなニューラルネットワークに、合理化されたトレーニングアプローチを使用して容易に適用することができる。 トレーニング後、説明マップは1つの前方通過で計算でき、これらの説明マップは計算に高価な摂動に基づく説明可能性技術の出力に匹敵し、SOTA性能を達成する。 我々は、ImageNetデータセットでトレーニングされた3つの一般的なディープラーニング分類アーキテクチャ、VGG-16、ResNet-50、ViT-B-16にT-TAMEを適用する。 結果の詳細な分析とアブレーション研究は、T-TAMEの設計選択が生成した説明地図の品質にどのように影響するかを洞察する。

The development and adoption of Vision Transformers and other deep-learning architectures for image classification tasks has been rapid. However, the "black box" nature of neural networks is a barrier to adoption in applications where explainability is essential. While some techniques for generating explanations have been proposed, primarily for Convolutional Neural Networks, adapting such techniques to the new paradigm of Vision Transformers is non-trivial. This paper presents T-TAME, Transformer-compatible Trainable Attention Mechanism for Explanations, a general methodology for explaining deep neural networks used in image classification tasks. The proposed architecture and training technique can be easily applied to any convolutional or Vision Transformer-like neural network, using a streamlined training approach. After training, explanation maps can be computed in a single forward pass; these explanation maps are comparable to or outperform the outputs of computationally expensive perturbation-based explainability techniques, achieving SOTA performance. We apply T-TAME to three popular deep learning classifier architectures, VGG-16, ResNet-50, and ViT-B-16, trained on the ImageNet dataset, and we demonstrate improvements over existing state-of-the-art explainability methods. A detailed analysis of the results and an ablation study provide insights into how the T-TAME design choices affect the quality of the generated explanation maps.
翻訳日:2024-03-08 13:56:53 公開日:2024-03-07
# 不確実性を考慮したナレッジグラフ補完のための関係グラフニューラルネットワーク

Uncertainty-Aware Relational Graph Neural Network for Few-Shot Knowledge Graph Completion ( http://arxiv.org/abs/2403.04521v1 )

ライセンス: Link先を確認
Qian Li, Shu Guo, Yingjia Chen, Cheng Ji, Jiawei Sheng, and Jianxin Li(参考訳) FKGC (Few-shot Knowledge Graph completion) は、少数の参照エンティティ対を考えると、関係の見えない事実を問うことを目的としている。 実体と三重項の不確かさによるノイズの副作用は、少数ショット学習を制限する可能性があるが、既存のfkgcワークはそのような不確実性を無視し、ノイズを伴う限定的な参照サンプルの影響を受けやすい。 本稿では,ガウス分布下での学習表現による限られたデータの理解を深めるために,不確実性をモデル化するための新しい不確実性対応小ショットKG補完フレームワーク(UFKGC)を提案する。 不確実性表現は、特徴表現をガウス分布に転送した後、エンティティペアの不確実性の範囲を推定するために最初に設計される。 さらに,近隣住民と実体特性の不確実性特性をよりよく統合するため,ガウス分布間の畳み込み操作を行うために,不確実性を考慮した関係グラフニューラルネットワーク(UR-GNN)を設計する。 次に、ガウス分布内の参照トリプルに対して複数のランダムサンプリングを行い、最適化中にスムーズな参照表現を生成する。 各クエリインスタンスの最終的な完了スコアは、設計の不確実性最適化によって測定され、少数のシナリオにおいてノイズに対してより堅牢なアプローチとなる。 実験の結果,提案手法は2つのベンチマークデータセットに対して,競合相手と比較して優れた性能を示すことがわかった。

Few-shot knowledge graph completion (FKGC) aims to query the unseen facts of a relation given its few-shot reference entity pairs. The side effect of noises due to the uncertainty of entities and triples may limit the few-shot learning, but existing FKGC works neglect such uncertainty, which leads them more susceptible to limited reference samples with noises. In this paper, we propose a novel uncertainty-aware few-shot KG completion framework (UFKGC) to model uncertainty for a better understanding of the limited data by learning representations under Gaussian distribution. Uncertainty representation is first designed for estimating the uncertainty scope of the entity pairs after transferring feature representations into a Gaussian distribution. Further, to better integrate the neighbors with uncertainty characteristics for entity features, we design an uncertainty-aware relational graph neural network (UR-GNN) to conduct convolution operations between the Gaussian distributions. Then, multiple random samplings are conducted for reference triples within the Gaussian distribution to generate smooth reference representations during the optimization. The final completion score for each query instance is measured by the designed uncertainty optimization to make our approach more robust to the noises in few-shot scenarios. Experimental results show that our approach achieves excellent performance on two benchmark datasets compared to its competitors.
翻訳日:2024-03-08 13:56:27 公開日:2024-03-07
# ディープフィルターのバブルを解き明かす: 短いビデオレコメンデーションで露光が狭くなる

Uncovering the Deep Filter Bubble: Narrow Exposure in Short-Video Recommendation ( http://arxiv.org/abs/2403.04511v1 )

ライセンス: Link先を確認
Nicholas Sukiennik, Chen Gao, Nian Li(参考訳) フィルタバブルは、ユーザの不満や偏光といった望ましくない結果をもたらす可能性があるため、オンラインコンテンツプラットフォームの中で広く研究されている。 ショートビデオプラットフォームの台頭に伴い、これらのプラットフォームは関連するコンテンツを提供するために前例のないレコメンダシステムを使用しているため、フィルターバブルが注目されている。 本研究は,ユーザが幅広い関心事の中で狭いコンテンツに晒されていることを示す,深層フィルタバブルについて検討する。 われわれは中国でトップクラスのショートビデオプラットフォームからの1年間のインタラクションデータを用いてこれを達成している。 この文脈内での"ディープ"フィルタバブルの定義を形式化し、データ内のさまざまな相関関係を探索する。まず、時間とともにディープフィルタバブルの進化を理解し、その後、特定のカテゴリ、ユーザ人口統計、フィードバックタイプなど、この現象を引き起こすいくつかの要因を明らかにします。 フィルタバブル内のユーザの割合は時間とともにほぼ一定であるが,フィルタバブルの深さ組成は変化している。 さらに,狭義のコンテンツや暗黙のフィードバック信号を見る確率が高い集団では,気泡形成を減少させる可能性がある。 最後に,ユーザがバブルに巻き込まれるリスクを低減するために,レコメンデータシステムを設計する方法を提案する。

Filter bubbles have been studied extensively within the context of online content platforms due to their potential to cause undesirable outcomes such as user dissatisfaction or polarization. With the rise of short-video platforms, the filter bubble has been given extra attention because these platforms rely on an unprecedented use of the recommender system to provide relevant content. In our work, we investigate the deep filter bubble, which refers to the user being exposed to narrow content within their broad interests. We accomplish this using one-year interaction data from a top short-video platform in China, which includes hierarchical data with three levels of categories for each video. We formalize our definition of a "deep" filter bubble within this context, and then explore various correlations within the data: first understanding the evolution of the deep filter bubble over time, and later revealing some of the factors that give rise to this phenomenon, such as specific categories, user demographics, and feedback type. We observe that while the overall proportion of users in a filter bubble remains largely constant over time, the depth composition of their filter bubble changes. In addition, we find that some demographic groups that have a higher likelihood of seeing narrower content and implicit feedback signals can lead to less bubble formation. Finally, we propose some ways in which recommender systems can be designed to reduce the risk of a user getting caught in a bubble.
翻訳日:2024-03-08 13:56:01 公開日:2024-03-07
# 大規模言語モデルでコンテキスト内翻訳はどこで起こるのか

Where does In-context Translation Happen in Large Language Models ( http://arxiv.org/abs/2403.04510v1 )

ライセンス: Link先を確認
Suzanna Sia, David Mueller, Kevin Duh(参考訳) 自己教師付き大規模言語モデルは、文脈内学習を通じて機械翻訳(MT)を実行する能力を示したが、素早い指示や実演例に関してモデルがどこでタスクを実行するかは分かっていない。 本研究では,大規模言語モデルが文脈内学習者から翻訳モデルへ移行する領域を特徴付ける。 テキストsc{gptneo2.7b}, \textsc{bloom3b}, \textsc{llama7b}, \textsc{llama7b-chat}, \textsc{llama7b-chat} の一連の階層的コンテキストマスキング実験を通じて、翻訳タスクが入力表現にエンコードされ、コンテキストへの注意がもはや不要である「タスク認識」ポイントの証拠を示す。 さらに、全層をマスキングする際の低性能とタスク認識層との対応も観察する。 この冗長性を生かして,5つの例を推し進める場合の計算コストは45倍となり,14/32層でのタスク認識が達成された。 MTファインチューニングにおいて最も効果的な層はタスク認識に不可欠な層であることを示す。

Self-supervised large language models have demonstrated the ability to perform Machine Translation (MT) via in-context learning, but little is known about where the model performs the task with respect to prompt instructions and demonstration examples. In this work, we attempt to characterize the region where large language models transition from in-context learners to translation models. Through a series of layer-wise context-masking experiments on \textsc{GPTNeo2.7B}, \textsc{Bloom3B}, \textsc{Llama7b} and \textsc{Llama7b-chat}, we demonstrate evidence of a "task recognition" point where the translation task is encoded into the input representations and attention to context is no longer necessary. We further observe correspondence between the low performance when masking out entire layers, and the task recognition layers. Taking advantage of this redundancy results in 45\% computational savings when prompting with 5 examples, and task recognition achieved at layer 14 / 32. Our layer-wise fine-tuning experiments indicate that the most effective layers for MT fine-tuning are the layers critical to task recognition.
翻訳日:2024-03-08 13:55:38 公開日:2024-03-07
# waldo発見:nyrfシーン空間の効率的な探索に向けて

Finding Waldo: Towards Efficient Exploration of NeRF Scene Space ( http://arxiv.org/abs/2403.04508v1 )

ライセンス: Link先を確認
Evangelos Skartados, Mehmet Kerim Yucel, Bruno Manganelli, Anastasios Drosou, Albert Sa\`a-Garriga(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は,近年,その顕著な性能から3次元再構成と新しいビュー・シンセサイザーの主要なアプローチとなっている。 NeRF法への大きな関心にもかかわらず、NeRFの実用的なユースケースは無視されており、NeRFをモデルとしたシーン空間の探索が行なわれている。 本稿では,本論文で初めて,ユーザの選択した基準に準拠した新しいビューを描画できる,NeRFモデル入力(座標と視角)の効率的な発見として,シーン探索フレームワークを提案し,正式に定義する。 シーン探索に対処するアプローチの欠如を解消するため,まず誘導ランダム探索 (GRS) と擬似補間探索 (PIBS) という2つのベースライン手法を提案する。 そこで我々は,シーン探索を最適化問題としてキャストし,効率的な探索のための基準に依存しない進化誘導ポーズ探索(EGPS)を提案する。 様々な基準(例えば、サリエンシの最大化、画質の最大化、光合成品質の改善)で3つのアプローチを試験し、EGPSが他のベースラインよりも好適であることを示す。 最終的に重要なポイントと限界を強調し、今後の現場探査研究の方向性を概説する。

Neural Radiance Fields (NeRF) have quickly become the primary approach for 3D reconstruction and novel view synthesis in recent years due to their remarkable performance. Despite the huge interest in NeRF methods, a practical use case of NeRFs has largely been ignored; the exploration of the scene space modelled by a NeRF. In this paper, for the first time in the literature, we propose and formally define the scene exploration framework as the efficient discovery of NeRF model inputs (i.e. coordinates and viewing angles), using which one can render novel views that adhere to user-selected criteria. To remedy the lack of approaches addressing scene exploration, we first propose two baseline methods called Guided-Random Search (GRS) and Pose Interpolation-based Search (PIBS). We then cast scene exploration as an optimization problem, and propose the criteria-agnostic Evolution-Guided Pose Search (EGPS) for efficient exploration. We test all three approaches with various criteria (e.g. saliency maximization, image quality maximization, photo-composition quality improvement) and show that our EGPS performs more favourably than other baselines. We finally highlight key points and limitations, and outline directions for future research in scene exploration.
翻訳日:2024-03-08 13:55:11 公開日:2024-03-07
# NLPre:自然言語前処理システムの言語中心ベンチマークへの改訂アプローチ

NLPre: a revised approach towards language-centric benchmarking of Natural Language Preprocessing systems ( http://arxiv.org/abs/2403.04507v1 )

ライセンス: Link先を確認
Martyna Wi\k{a}cek, Piotr Rybak, {\L}ukasz Pszenny, Alina Wr\'oblewska(参考訳) トランスフォーマティブ・アーキテクチャの進歩に伴い,自然言語前処理(nlpre)ツールの出現を観察し,外部の言語指導を必要とせず,予備的nlpタスク(トークン化,パート・オブ・スパイチ・タギング,依存性解析,形態素解析など)を解決できる。 規則に基づく形態素解析や辞書に依存する、優れた前処理ツールキットと新しいソリューションを比較するのは難しい。 既存のNLPre評価手法の欠点に気付き、信頼性と公正な評価と性能報告の新しい手法について検討する。 GLUEベンチマークにインスパイアされたこの言語中心ベンチマークシステムは、複数のNLPreツールを総合的に評価し、その性能を確実に追跡する。 プロトタイプアプリケーションはポーランド語用に設定されており、完全に組み立てられたNLPre-PLベンチマークと統合されている。 このベンチマークに基づいて,様々なポーランドnlpreシステムを広範囲に評価した。 アイルランド語用NLPre-GAや中国語用NLPre-ZHなど、他の言語のベンチマーク環境の構築を容易にするため、ベンチマークシステムの公開ソースコードの完全なカスタマイズを確実にする。 すべてのリソース(デプロイされたプラットフォーム、ソースコード、トレーニングされたモデル、データセットなど)へのリンクは、プロジェクトのwebサイトにある。

With the advancements of transformer-based architectures, we observe the rise of natural language preprocessing (NLPre) tools capable of solving preliminary NLP tasks (e.g. tokenisation, part-of-speech tagging, dependency parsing, or morphological analysis) without any external linguistic guidance. It is arduous to compare novel solutions to well-entrenched preprocessing toolkits, relying on rule-based morphological analysers or dictionaries. Aware of the shortcomings of existing NLPre evaluation approaches, we investigate a novel method of reliable and fair evaluation and performance reporting. Inspired by the GLUE benchmark, the proposed language-centric benchmarking system enables comprehensive ongoing evaluation of multiple NLPre tools, while credibly tracking their performance. The prototype application is configured for Polish and integrated with the thoroughly assembled NLPre-PL benchmark. Based on this benchmark, we conduct an extensive evaluation of a variety of Polish NLPre systems. To facilitate the construction of benchmarking environments for other languages, e.g. NLPre-GA for Irish or NLPre-ZH for Chinese, we ensure full customization of the publicly released source code of the benchmarking system. The links to all the resources (deployed platforms, source code, trained models, datasets etc.) can be found on the project website: https://sites.google.com/view/nlpre-benchmark.
翻訳日:2024-03-08 13:54:48 公開日:2024-03-07
# グラフニューラルネットワークにおけるレーティング規則の爆発による行列補完の改善

Improving Matrix Completion by Exploiting Rating Ordinality in Graph Neural Networks ( http://arxiv.org/abs/2403.04504v1 )

ライセンス: Link先を確認
Jaehyun Lee, Seonku Kang, Hwanjo Yu(参考訳) マトリックス完成はレコメンデーションシステムにおいて重要な研究領域である。 近年の手法では、評価行列を、観測された評価を示すラベル付きエッジを持つ、ユーザとアイテムノード間のエッジをグラフニューラルネットワーク(GNN)を用いて予測する。 その効果にもかかわらず、彼らはそれぞれのレーティングタイプを独立した関係タイプとして扱うため、レーティングの順序性は十分に考慮できない。 本稿では,本論文ではあまり研究されていないGNNの格付け基準を活用するための新しい手法について検討する。 本稿では,GNN ベースの Matrix Completion におけるレーティング規則性を活用する新しい手法 ROGMC を提案する。 累積的な嗜好の伝搬を利用して、GNNのメッセージパッシングに評価規則を直接組み込むことで、ユーザーのより強い嗜好をより強調することができる。 このプロセスは、基礎となる関心情報を用いた選好学習を容易にする利子正規化によって補完される。 広範にわたる実験により, ROGMC は GNN のレーティング型を用いた既存戦略を一貫して上回っていることがわかった。 我々は、GNNにおける評価基準の適用可能性を探究する試みが、この方向のさらなる研究を刺激する可能性があると期待している。

Matrix completion is an important area of research in recommender systems. Recent methods view a rating matrix as a user-item bi-partite graph with labeled edges denoting observed ratings and predict the edges between the user and item nodes by using the graph neural network (GNN). Despite their effectiveness, they treat each rating type as an independent relation type and thus cannot sufficiently consider the ordinal nature of the ratings. In this paper, we explore a new approach to exploit rating ordinality for GNN, which has not been studied well in the literature. We introduce a new method, called ROGMC, to leverage Rating Ordinality in GNN-based Matrix Completion. It uses cumulative preference propagation to directly incorporate rating ordinality in GNN's message passing, allowing for users' stronger preferences to be more emphasized based on inherent orders of rating types. This process is complemented by interest regularization which facilitates preference learning using the underlying interest information. Our extensive experiments show that ROGMC consistently outperforms the existing strategies of using rating types for GNN. We expect that our attempt to explore the feasibility of utilizing rating ordinality for GNN may stimulate further research in this direction.
翻訳日:2024-03-08 13:54:21 公開日:2024-03-07
# 逆腫瘍成長モデリングにおける先行学習

A Learnable Prior Improves Inverse Tumor Growth Modeling ( http://arxiv.org/abs/2403.04500v1 )

ライセンス: Link先を確認
Jonas Weidner, Ivan Ezhov, Michal Balcerak, Marie-Christin Metz, Sergey Litvinov, Sebastian Kaltenbach, Leonhard Feiner, Laurin Lux, Florian Kofler, Jana Lipkova, Jonas Latz, Daniel Rueckert, Bjoern Menze, Benedikt Wiestler(参考訳) 生体物理モデリング、特に偏微分方程式(PDE)は、個々の患者に疾患治療プロトコルを調整するための重要な可能性を秘めている。 しかしながら、これらのモデルの逆問題解決の側面は、モデルベースアプローチの高度な計算要件や、ディープラーニング(dl)メソッドの限定的堅牢性によって、大きな課題となっている。 我々は,両アプローチの特異な強みを相乗的に活用する新しい枠組みを提案する。 本手法では, パラメータ推定のためのDLアンサンブルを組み込んで, このDLベースで初期化した下流の進化的サンプリングを効率化する。 磁気共鳴画像から脳腫瘍細胞濃度を推定するための高速深層学習アルゴリズムと高精度進化戦略を統合することの有効性を示す。 DL-Priorは重要な役割を担い、効果的なサンプリングパラメータ空間を著しく制限する。 この減少は5倍収束加速と95%のDiceスコアをもたらす。

Biophysical modeling, particularly involving partial differential equations (PDEs), offers significant potential for tailoring disease treatment protocols to individual patients. However, the inverse problem-solving aspect of these models presents a substantial challenge, either due to the high computational requirements of model-based approaches or the limited robustness of deep learning (DL) methods. We propose a novel framework that leverages the unique strengths of both approaches in a synergistic manner. Our method incorporates a DL ensemble for initial parameter estimation, facilitating efficient downstream evolutionary sampling initialized with this DL-based prior. We showcase the effectiveness of integrating a rapid deep-learning algorithm with a high-precision evolution strategy in estimating brain tumor cell concentrations from magnetic resonance images. The DL-Prior plays a pivotal role, significantly constraining the effective sampling-parameter space. This reduction results in a fivefold convergence acceleration and a Dice-score of 95%
翻訳日:2024-03-08 13:54:00 公開日:2024-03-07
# イメージが現実的になる理由?

What makes an image realistic? ( http://arxiv.org/abs/2403.04493v1 )

ライセンス: Link先を確認
Lucas Theis(参考訳) 過去10年間は、画像、テキスト、オーディオ、ビデオなど、現実的なデータを生成する能力が大幅に進歩してきました。 本稿では,非現実的データから現実データを確実に把握できる関数の設計という,実数論を定量化する密接な関係の問題について議論する。 この問題は、機械学習の普及と最近の生成AIのブレークスルーにもかかわらず、解決が極めて困難であることが判明した。 アルゴリズム情報理論からの洞察に基づいて、なぜこの問題が難しいのか、なぜ良い生成モデルだけでは解決できないのか、良い解決策がどのようなものになるのかを論じる。 特に, 敵の批判者とは異なり, 敵の訓練を必要としない普遍的な批判者の概念を導入する。 普遍的批評家はすぐには実践的ではないが、実践的な実践を導くためのノーススターや、現実主義を捉えようとする既存の試みを分析するツールとしても機能する。

The last decade has seen tremendous progress in our ability to generate realistic-looking data, be it images, text, audio, or video. Here, we discuss the closely related problem of quantifying realism, that is, designing functions that can reliably tell realistic data from unrealistic data. This problem turns out to be significantly harder to solve and remains poorly understood, despite its prevalence in machine learning and recent breakthroughs in generative AI. Drawing on insights from algorithmic information theory, we discuss why this problem is challenging, why a good generative model alone is insufficient to solve it, and what a good solution would look like. In particular, we introduce the notion of a universal critic, which unlike adversarial critics does not require adversarial training. While universal critics are not immediately practical, they can serve both as a North Star for guiding practical implementations and as a tool for analyzing existing attempts to capture realism.
翻訳日:2024-03-08 13:53:46 公開日:2024-03-07
# クロスドメインFew-Shot学習のための識別的サンプルガイドとパラメータ効率の良い特徴空間適応

Discriminative Sample-Guided and Parameter-Efficient Feature Space Adaptation for Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2403.04492v1 )

ライセンス: Link先を確認
Rashindrie Perera and Saman Halgamuge(参考訳) 本稿では,ラベル付き例の少ない未熟な領域で新しいクラスを学ぶことの難題を提示する,クロスドメインの少数ショット分類について述べる。 既存のメソッドは、多少有効ではあるが、いくつかの制限に遭遇します。 まず、小データセット上で多数のパラメータを微調整するオーバーフィッティングに対処するため、軽量なパラメータ効率適応戦略を導入する。 この戦略は事前訓練された特徴の線形変換を採用し、トレーニング可能なパラメータ数を著しく削減する。 第2に,従来のCentroid分類器を分散認識損失関数に置き換え,特徴空間におけるクラスタリングを改善するためのトレーニングセット内およびクラス内分散に対するモデルの感度を高める。 meta-datasetベンチマークにおける経験的評価は、このアプローチが、視認されたデータセット上での精度を7.7%と5.3%に向上させるだけでなく、既存の方法よりも少なくとも3倍のパラメータ効率を保ちながら、このパフォーマンスを達成し、クロスドメインのマイノリティ学習における新たな最先端を確立していることを示している。 私たちのコードはhttps://github.com/rashindrie/DIPA.orgで参照できます。

In this paper, we look at cross-domain few-shot classification which presents the challenging task of learning new classes in unseen domains with few labelled examples. Existing methods, though somewhat effective, encounter several limitations, which we address in this work through two significant improvements. First, to address overfitting associated with fine-tuning a large number of parameters on small datasets, we introduce a lightweight parameter-efficient adaptation strategy. This strategy employs a linear transformation of pre-trained features, significantly reducing the trainable parameter count. Second, we replace the traditional nearest centroid classifier with a variance-aware loss function, enhancing the model's sensitivity to the inter- and intra-class variances within the training set for improved clustering in feature space. Empirical evaluations on the Meta-Dataset benchmark showcase that our approach not only improves accuracy up to 7.7% and 5.3% on seen and unseen datasets respectively but also achieves this performance while being at least ~3x more parameter-efficient than existing methods, establishing a new state-of-the-art in cross-domain few-shot learning. Our code can be found at https://github.com/rashindrie/DIPA.
翻訳日:2024-03-08 13:53:30 公開日:2024-03-07
# 非平衡スピンボソンモデルのダイナミクス:マスター方程式のベンチマークとその妥当性

Dynamics of the Non-equilibrium spin Boson Model: A Benchmark of master equations and their validity ( http://arxiv.org/abs/2403.04488v1 )

ライセンス: Link先を確認
Gerardo Su\'arez and Marcin {\L}obejko and Micha{\l} Horodecki(参考訳) 近年、マスター方程式のような開量子システムの効果的な記述が、長い時間限度において正しい定常状態をもたらすかどうかの同定に多大な焦点が当てられている。 正しい定常状態は通常は分かっていないが、ハミルトニアン平均力によってある一定の順序、反応座標マッピング、あるいは他の擬モードのようなアプローチまで近似することができる。 A few years ago a controversy arose concerning the thermalization of master equations, namely, whether steady state coherences actually arise in systems with composite interactions or if they are some artifact caused by nonpositivity of the effective description, in this manuscript we confirm the existence of such steady state coherences in numerically exact dynamics, and see reminiscences of it in a CPTP map, while the steady state coherence seems to be real its oscillatory characyer seems to be an artifact of second order approximations, indicating that rather than being steady state coherences as one may think, the equilibrium state of the system is not diagonal in the basis of the system Hamiltonian. また, 本論文では, 平均力アプローチから計算したハミルトン補正と力学方程式の準定常状態を比較するよりも, 動力学は本論文で示されるような補正を伴う状態になりがちであることを示す。

In recent years, there has been tremendous focus on identifying whether effective descriptions of open quantum systems such as master equations, provide the correct steady state in the long time limit. The correct steady state is usually not known, however it can be approximated by means of the Mean Force Hamiltonian up to some fixed order, the reaction coordinate mapping or other pseudo-mode like approaches. A few years ago a controversy arose concerning the thermalization of master equations, namely, whether steady state coherences actually arise in systems with composite interactions or if they are some artifact caused by nonpositivity of the effective description, in this manuscript we confirm the existence of such steady state coherences in numerically exact dynamics, and see reminiscences of it in a CPTP map, while the steady state coherence seems to be real its oscillatory characyer seems to be an artifact of second order approximations, indicating that rather than being steady state coherences as one may think, the equilibrium state of the system is not diagonal in the basis of the system Hamiltonian. This paper also shows evidence than comparing Hamiltonian corrections calculated from the mean force approach and the quasi-steady states of dynamical equations may be deceiving, as dynamics may not tend to the state with the correction as shown in this paper.
翻訳日:2024-03-08 13:53:07 公開日:2024-03-07
# 2次元自由フェルミオン系における絡み合い非対称性と量子mpemba効果

Entanglement asymmetry and quantum Mpemba effect in two-dimensional free-fermion systems ( http://arxiv.org/abs/2403.04486v1 )

ライセンス: Link先を確認
Shion Yamashika, Filiberto Ares, Pasquale Calabrese(参考訳) 量子ムペンバ効果 (quantum Mpemba effect) は反直観的非平衡現象であり、初期状態がより高い対称性の破れを示すと、崩壊した対称性の動的復元がより速く起こる。 この効果は理論上近年発見され、大域的量子クエンチェの枠組みで実験的に観測されているが、今のところは1次元系でのみ研究されている。 ここでは、交絡非対称性を対称性の破れの尺度として用いた2次元自由フェルミオン格子に焦点を当てる。 我々の研究は、近傍のホッピングと超伝導ペアリングを特徴とするシステムの基底状態解析から始まり、後者は明示的に$U(1)$粒子数対称性を破る。 1次元と2次元の滑らかな交叉を達成し、横サイズの範囲を調整できるアプローチである次元還元を用いて周期帯の絡み合い非対称性を解析的に計算する。 さらに、同じ方法を適用することで、最も近いホッピングのみを持つハミルトニアンに対して、クエンチ後のエンタングルメント非対称性の時間発展を研究し、静止状態において復元される粒子数対称性を保ちながら、エンタングルメント非対称性の時間発展を考察する。 量子Mpemba効果は、初期状態に応じて現象を増強または損なう可能性があり、横次元の系の大きさに強く影響されている。 初期構成の特性に基づいて,その発生条件を確立し,一次元の場合の基準を拡張した。

The quantum Mpemba effect is the counter-intuitive non-equilibrium phenomenon wherein the dynamic restoration of a broken symmetry occurs more rapidly when the initial state exhibits a higher degree of symmetry breaking. The effect has been recently discovered theoretically and observed experimentally in the framework of global quantum quenches, but so far it has only been investigated in one-dimensional systems. Here we focus on a two-dimensional free-fermion lattice employing the entanglement asymmetry as a measure of symmetry breaking. Our investigation begins with the ground state analysis of a system featuring nearest-neighbor hoppings and superconducting pairings, the latter breaking explicitly the $U(1)$ particle number symmetry. We compute analytically the entanglement asymmetry of a periodic strip using dimensional reduction, an approach that allows us to adjust the extent of the transverse size, achieving a smooth crossover between one and two dimensions. Further applying the same method, we study the time evolution of the entanglement asymmetry after a quench to a Hamiltonian with only nearest-neighbor hoppings, preserving the particle number symmetry which is restored in the stationary state. We find that the quantum Mpemba effect is strongly affected by the size of the system in the transverse dimension, with the potential to either enhance or spoil the phenomenon depending on the initial states. We establish the conditions for its occurrence based on the properties of the initial configurations, extending the criteria found in the one-dimensional case.
翻訳日:2024-03-08 13:52:48 公開日:2024-03-07
# 医療画像におけるモデルロバスト性に及ぼすソースデータセットの影響

Source Matters: Source Dataset Impact on Model Robustness in Medical Imaging ( http://arxiv.org/abs/2403.04484v1 )

ライセンス: Link先を確認
Dovile Juodelyte, Yucheng Lu, Amelia Jim\'enez-S\'anchez, Sabrina Bottazzi, Enzo Ferrante, Veronika Cheplygina(参考訳) 転送学習は医療画像分類アルゴリズムの重要な部分となり、しばしば画像ネットの重みを利用する。 しかし、自然画像から医用画像へのドメインシフトはRadImageNetのような代替手段を招き、しばしば同等の分類性能を示している。 しかし, 伝達学習の性能向上は, 一般化やショートカット学習に起因しているかどうかは不明である。 これに対処するため、私たちは、データから合成されるかサンプルされるかに関わらず、2つの公開利用可能な胸部x線およびctデータセットを通して、潜在的な共同創設者を調査します。 ImageNetとRadImageNetは同等の分類性能を達成していますが、ImageNetは共同設立者に過度に適合する傾向があります。 ImageNet-pretrained model を用いた研究者は、同様の実験を行うことで、モデルロバスト性を再検討することを推奨する。 私たちのコードと実験はhttps://github.com/doviledo/source-matters.comで利用可能です。

Transfer learning has become an essential part of medical imaging classification algorithms, often leveraging ImageNet weights. However, the domain shift from natural to medical images has prompted alternatives such as RadImageNet, often demonstrating comparable classification performance. However, it remains unclear whether the performance gains from transfer learning stem from improved generalization or shortcut learning. To address this, we investigate potential confounders -- whether synthetic or sampled from the data -- across two publicly available chest X-ray and CT datasets. We show that ImageNet and RadImageNet achieve comparable classification performance, yet ImageNet is much more prone to overfitting to confounders. We recommend that researchers using ImageNet-pretrained models reexamine their model robustness by conducting similar experiments. Our code and experiments are available at https://github.com/DovileDo/source-matters.
翻訳日:2024-03-08 13:52:21 公開日:2024-03-07
# GraphInstruct: グラフ理解と推論機能を備えた大規模言語モデルの実現

GraphInstruct: Empowering Large Language Models with Graph Understanding and Reasoning Capability ( http://arxiv.org/abs/2403.04483v1 )

ライセンス: Link先を確認
Zihan Luo, Xiran Song, Hong Huang, Jianxun Lian, Chenhao Zhang, Jinqi Jiang, Xing Xie, Hai Jin(参考訳) 大規模言語モデル(llms)の汎用性の評価と拡張は重要な研究テーマである。 グラフは現実世界では一般的なデータ構造であり、グラフデータの理解は汎用インテリジェンスを前進させる重要な要素である。 本稿では, LLMのグラフ理解能力を評価するために, 21の古典的グラフ推論タスクを包括的に含み, 多様なグラフ生成パイプラインと詳細な推論ステップを提供するGraphInstructというベンチマークを提案する。 GraphInstructに基づいて、グラフ理解能力を示す効率的な命令チューニングにより、GraphLMをさらに構築する。 グラフ推論機能を備えたLCMを向上するために,ステップマスクトレーニング戦略を提案し,GraphLM+というモデルを構築した。 LLMのグラフ理解と推論能力を高めるための先駆的な取り組みの1つとして、GraphLMとGraphLM+が他のLLMよりも優れていることを示す広範な実験がある。 GraphInstructを通じてグラフデータマイニング領域におけるLLMの可能性を探究する研究者を楽しみにしています。 GraphInstructを生成するコードは、https://github.com/CGCL-codes/GraphInstructで公開されています。

Evaluating and enhancing the general capabilities of large language models (LLMs) has been an important research topic. Graph is a common data structure in the real world, and understanding graph data is a crucial part for advancing general intelligence. To evaluate and enhance the graph understanding abilities of LLMs, in this paper, we propose a benchmark named GraphInstruct, which comprehensively includes 21 classical graph reasoning tasks, providing diverse graph generation pipelines and detailed reasoning steps. Based on GraphInstruct, we further construct GraphLM through efficient instruction-tuning, which shows prominent graph understanding capability. In order to enhance the LLM with graph reasoning capability as well, we propose a step mask training strategy, and construct a model named GraphLM+. As one of the pioneering efforts to enhance the graph understanding and reasoning abilities of LLMs, extensive experiments have demonstrated the superiority of GraphLM and GraphLM+ over other LLMs. We look forward to more researchers exploring the potential of LLMs in the graph data mining domain through GraphInstruct. Our code for generating GraphInstruct is released publicly at: https://github.com/CGCL-codes/GraphInstruct.
翻訳日:2024-03-08 13:52:05 公開日:2024-03-07
# 分子相空間のトポロジーと絡み合い

Topology and entanglement of molecular phase space ( http://arxiv.org/abs/2403.04572v1 )

ライセンス: Link先を確認
Victor V. Albert and Eric Kubischta and Mikhail Lemeshko and Lee R. Liu(参考訳) 分子回転状態と核スピン状態の量子位相空間を定式化する。 分子幾何学と核スピンデータを用いて、一般化されたフーリエ変換により許容位置と運動量状態を得る。 分子を非対称、回転対称、回転対称の3つのタイプに分類し、最後のタイプは核スピン統計の制約によりマクロな類似性を持たない。 我々は、ハミルトニアン非依存であり、対称性とスピン統計だけで誘導される摂動対称状態空間の2つの特徴を同定する。 第一に、多くの分子種は内在的に回転スピンの絡み合いがあり、他の種への遷移や対称性の破れなくは壊れない。 第2に、各分子位置状態は内部擬似スピンまたは「ファイバー」自由度を有し、位置が断熱的に変化した後のファイバーのベリー相またはマトリックスは、アノニカル準粒子のブレイディングやフォールトトレラント量子ゲートの実現に類似した、自然なロバストな操作をもたらす。 これらの機能を実験的に調査できるシナリオを概説する。

We formulate a quantum phase space for molecular rotational and nuclear-spin states. Taking in molecular geometry and nuclear-spin data, our framework yields admissible position and momentum states, inter-convertible via a generalized Fourier transform. We classify molecules into three types -- asymmetric, rotationally symmetric, and perrotationally symmetric -- with the last type having no macroscopic analogue due to nuclear-spin statistics constraints. We identify two features in perrotationally symmetric state spaces that are Hamiltonian-independent and induced solely by symmetry and spin statistics. First, many molecular species are intrinsically rotation-spin entangled in a way that cannot be broken without transitioning to another species or breaking symmetry. Second, each molecular position state houses an internal pseudo-spin or "fiber" degree of freedom, and the fiber's Berry phase or matrix after adiabatic changes in position yields naturally robust operations, akin to braiding anyonic quasiparticles or realizing fault-tolerant quantum gates. We outline scenarios where these features can be experimentally probed.
翻訳日:2024-03-08 13:47:13 公開日:2024-03-07
# AI数学へ向けた機械学習と情報理論の概念

Machine learning and information theory concepts towards an AI Mathematician ( http://arxiv.org/abs/2403.04571v1 )

ライセンス: Link先を確認
Yoshua Bengio, Nikolay Malkin(参考訳) 人工知能の現在の最先端技術は、特に言語習得の点で印象的だが、数学的推論の点ではあまり重要ではない。 何が足りないの? そのギャップについて、数学者の脳が自分の工芸をどう扱うかから、何か役に立つものを学ぶことができるだろうか? このエッセイは,現在のディープラーニングがシステム1の能力 – 直感と習慣的行動 – で大半を成功させるが,推論や堅牢な不確実性評価など,システム2の能力に関して重要なものはない,という考えに基づいています。 それは情報理論的な姿勢で、興味深い数学的ステートメントを構成するものについて質問する。 その焦点は与えられた定理の証明ではなく、新しく興味深い予想の発見である。 中心的な仮説は、定理の望ましい体は、例えば、小さな記述長を持ちながら(導出ステップの数の観点から)多くの証明可能なステートメントに近づくことによって、証明可能なステートメントの集合をよりよく要約するということである。

The current state-of-the-art in artificial intelligence is impressive, especially in terms of mastery of language, but not so much in terms of mathematical reasoning. What could be missing? Can we learn something useful about that gap from how the brains of mathematicians go about their craft? This essay builds on the idea that current deep learning mostly succeeds at system 1 abilities -- which correspond to our intuition and habitual behaviors -- but still lacks something important regarding system 2 abilities -- which include reasoning and robust uncertainty estimation. It takes an information-theoretical posture to ask questions about what constitutes an interesting mathematical statement, which could guide future work in crafting an AI mathematician. The focus is not on proving a given theorem but on discovering new and interesting conjectures. The central hypothesis is that a desirable body of theorems better summarizes the set of all provable statements, for example by having a small description length while at the same time being close (in terms of number of derivation steps) to many provable statements.
翻訳日:2024-03-08 13:46:54 公開日:2024-03-07
# ShuffleBench: 分散ストリーム処理フレームワークによる大規模データシャッフル運用のためのベンチマーク

ShuffleBench: A Benchmark for Large-Scale Data Shuffling Operations with Distributed Stream Processing Frameworks ( http://arxiv.org/abs/2403.04570v1 )

ライセンス: Link先を確認
S\"oren Henning, Adriano Vogel, Michael Leichtfried, Otmar Ertl, Rick Rabiser(参考訳) 分散ストリーム処理フレームワークは、継続的データストリームで変換と集約を実行するスケーラブルで信頼性の高いアプリケーションの構築を支援する。 本稿では,現代的なストリーム処理フレームワークの性能を評価するための新しいベンチマークであるshufflebenchを紹介する。 他のベンチマークとは対照的に、ストリーム処理フレームワークが主にシャッフル(すなわち、再配布)データレコードを使用して状態局所的な集約を行うユースケースに焦点を当て、実際の集約ロジックはブラックボックスソフトウェアコンポーネントと見なされる。 ShuffleBenchは、大規模なクラウド可観測性プラットフォームのほぼリアルタイム分析の要件にインスパイアされ、パフォーマンスエンジニアリング研究コミュニティで確立されたレイテンシ、スループット、スケーラビリティのベンチマークメトリクスとメソッドを取り上げている。 実世界のオブザーバビリティのユースケースに触発されてはいるが、ドメインに依存しない評価を可能にすることは極めて構成可能である。 ShuffleBenchは、既存のKubernetesツールを活用し、4つの最先端フレームワークの実装を提供するオープンソースソフトウェアとして使える。 したがって、ShuffleBenchは、ストリーム処理アプリケーションを構築する産業実践者と、新しいストリーム処理アプローチに取り組んでいる研究者の両方にとって、貴重な貢献になるだろう。 本稿では、クラウドネイティブ環境でのFlink、Hazelcast、Kafka Streams、Sparkのさまざまな構成を備えたShuffleBenchを使用した、実験的パフォーマンス評価を補完する。 その結果,flinkは最大スループットを達成し,hazelcastは最低レイテンシでデータストリームを処理する。

Distributed stream processing frameworks help building scalable and reliable applications that perform transformations and aggregations on continuous data streams. This paper introduces ShuffleBench, a novel benchmark to evaluate the performance of modern stream processing frameworks. In contrast to other benchmarks, it focuses on use cases where stream processing frameworks are mainly employed for shuffling (i.e., re-distributing) data records to perform state-local aggregations, while the actual aggregation logic is considered as black-box software components. ShuffleBench is inspired by requirements for near real-time analytics of a large cloud observability platform and takes up benchmarking metrics and methods for latency, throughput, and scalability established in the performance engineering research community. Although inspired by a real-world observability use case, it is highly configurable to allow domain-independent evaluations. ShuffleBench comes as a ready-to-use open-source software utilizing existing Kubernetes tooling and providing implementations for four state-of-the-art frameworks. Therefore, we expect ShuffleBench to be a valuable contribution to both industrial practitioners building stream processing applications and researchers working on new stream processing approaches. We complement this paper with an experimental performance evaluation that employs ShuffleBench with various configurations on Flink, Hazelcast, Kafka Streams, and Spark in a cloud-native environment. Our results show that Flink achieves the highest throughput while Hazelcast processes data streams with the lowest latency.
翻訳日:2024-03-08 13:46:35 公開日:2024-03-07
# 帯域フィードバックと未知遷移を考慮した逆線形混合MDPの改良アルゴリズム

Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit Feedback and Unknown Transition ( http://arxiv.org/abs/2403.04568v1 )

ライセンス: Link先を確認
Long-Fei Li, Peng Zhao, Zhi-Hua Zhou(参考訳) バンディットフィードバック設定における線形関数近似,未知遷移,敵対的損失を用いた強化学習について検討した。 具体的には,遷移核が線形混合モデルである線形混合MDPに着目した。 我々は、$\widetilde{o}(d\sqrt{hs^3k} + \sqrt{hsak})$を高い確率で達成する新しいアルゴリズムを提案する。$d$は特徴マッピングの次元、$s$は状態空間のサイズ、$a$はアクション空間のサイズ、$h$はエピソード長、$k$はエピソード数である。 我々の結果は、Zhao et al. (2023a) において、$H \leq S$ は層状 MDP 構造によって成り立つので、以前の最もよく知られた $\widetilde{O}(dS^2 \sqrt{K} + \sqrt{HSAK})$ を厳密に改善する。 私たちの進歩は主に (i)全状態の訪問情報を利用する遷移パラメーターの新規最小二乗推定器であって、先行作業中の1つの状態のみとは対照的であるもの (II)非独立ノイズに特化して調整された新しい自己正規化濃度は、もともと動的配置領域で提案され、まず異なる状態間の相関を扱うために強化学習に適用された。

We study reinforcement learning with linear function approximation, unknown transition, and adversarial losses in the bandit feedback setting. Specifically, we focus on linear mixture MDPs whose transition kernel is a linear mixture model. We propose a new algorithm that attains an $\widetilde{O}(d\sqrt{HS^3K} + \sqrt{HSAK})$ regret with high probability, where $d$ is the dimension of feature mappings, $S$ is the size of state space, $A$ is the size of action space, $H$ is the episode length and $K$ is the number of episodes. Our result strictly improves the previous best-known $\widetilde{O}(dS^2 \sqrt{K} + \sqrt{HSAK})$ result in Zhao et al. (2023a) since $H \leq S$ holds by the layered MDP structure. Our advancements are primarily attributed to (i) a new least square estimator for the transition parameter that leverages the visit information of all states, as opposed to only one state in prior work, and (ii) a new self-normalized concentration tailored specifically to handle non-independent noises, originally proposed in the dynamic assortment area and firstly applied in reinforcement learning to handle correlations between different states.
翻訳日:2024-03-08 13:46:09 公開日:2024-03-07
# 会場外:複合シーンのためのイベントベース動的動作セグメンテーションの一般化

Out of the Room: Generalizing Event-Based Dynamic Motion Segmentation for Complex Scenes ( http://arxiv.org/abs/2403.04562v1 )

ライセンス: Link先を確認
Stamatios Georgoulis, Weining Ren, Alfredo Bochicchio, Daniel Eckert, Yuanyou Li, and Abel Gawel(参考訳) 動的シーン部分の迅速かつ信頼性の高い識別は、モーションセグメンテーションとしても知られ、モバイルセンサーにとって重要な課題である。 現代のRGBカメラベースの手法は、カメラとシーン特性のモデリングに頼っているが、しばしば制約が低く、未知のカテゴリーでは不足している。 イベントカメラは、これらの制限を克服する可能性があるが、対応する方法は、単純なダイナミックオブジェクトを持つ小規模屋内環境でのみ実証されている。 本研究は,複雑な大規模屋外環境にも展開可能な,クラスに依存しない動作セグメンテーションのイベントベース手法を提案する。 この目的のために、新しい分割・結合パイプラインを紹介します。 (a)単眼深度を予測し、カメラのポーズを補助タスクとするシーン理解モジュールによって計算された自我運動補償イベント (b)専用光フローモジュールからの光流れ。 これらの中間表現は、モーションセグメンテーションマスクを予測するセグメンテーションモジュールに入力される。 新しい変圧器ベースのセグメンテーションモジュールは、隣接する「フレーム」間で相関関係を構築し、時間的に一貫性のあるセグメンテーションマスクを得る。 従来のEV-IMOベンチマーク(室内)では2.19の移動物体IoU(2.22mIoU)と4.52の移動物体IoUがそれぞれ改善され、DSECイベントデータセットに基づく新たな動きセグメンテーションとトラッキングベンチマーク(屋外)では12.91の移動物体IoUが改善されている。

Rapid and reliable identification of dynamic scene parts, also known as motion segmentation, is a key challenge for mobile sensors. Contemporary RGB camera-based methods rely on modeling camera and scene properties however, are often under-constrained and fall short in unknown categories. Event cameras have the potential to overcome these limitations, but corresponding methods have only been demonstrated in smaller-scale indoor environments with simplified dynamic objects. This work presents an event-based method for class-agnostic motion segmentation that can successfully be deployed across complex large-scale outdoor environments too. To this end, we introduce a novel divide-and-conquer pipeline that combines: (a) ego-motion compensated events, computed via a scene understanding module that predicts monocular depth and camera pose as auxiliary tasks, and (b) optical flow from a dedicated optical flow module. These intermediate representations are then fed into a segmentation module that predicts motion segmentation masks. A novel transformer-based temporal attention module in the segmentation module builds correlations across adjacent 'frames' to get temporally consistent segmentation masks. Our method sets the new state-of-the-art on the classic EV-IMO benchmark (indoors), where we achieve improvements of 2.19 moving object IoU (2.22 mIoU) and 4.52 point IoU respectively, as well as on a newly-generated motion segmentation and tracking benchmark (outdoors) based on the DSEC event dataset, termed DSEC-MOTS, where we show improvement of 12.91 moving object IoU.
翻訳日:2024-03-08 13:45:33 公開日:2024-03-07
# 自発的パラメトリックダウン変換におけるアインシュタイン-ポドルスキー-ローゼン相関:ガウス近似を超える

Einstein-Podolsky-Rosen correlations in spontaneous parametric down-conversion: Beyond the Gaussian approximation ( http://arxiv.org/abs/2403.04561v1 )

ライセンス: Link先を確認
A. G. da Costa Moura and C. H. Monken(参考訳) 本稿では, 運動量空間と位置空間の自発的パラメトリックダウン変換により発生する光子対の一致検出確率振幅について, ガウス近似を用いず, 非線形結晶の複屈折の影響を考慮に入れた解析式を提案する。 また,Einstein-Podolsky-Rosen相関をベンチマークとして8種類のポンプビーム構成の理論的予測を支持する実験データも提示した。

We present analytic expressions for the coincidence detection probability amplitudes of photon pairs generated by spontaneous parametric down-conversion in both momentum and position spaces, without making use of the Gaussian approximation, and taking into account the effects of birefringence in the nonlinear crystal. We also present experimental data supporting our theoretical predictions, using Einstein-Podolsky-Rosen correlations as benchmarks, for 8 different pump beam configurations.
翻訳日:2024-03-08 13:45:02 公開日:2024-03-07
# 自己教師付き学習複雑性の低減は、計算病理学における弱い教師付き分類性能を改善する

Reducing self-supervised learning complexity improves weakly-supervised classification performance in computational pathology ( http://arxiv.org/abs/2403.04558v1 )

ライセンス: Link先を確認
Tim Lenz, Omar S. M. El Nahhas, Marta Ligero, Jakob Nikolas Kather(参考訳) 深層学習モデルは、日常的に利用可能な組織学的データから臨床的に実行可能な洞察を抽出することに成功している。 一般的にこれらのモデルは、作成が困難で費用がかかる臨床医のアノテーションを必要とする。 自己教師付き学習(SSL)メソッドの出現は、この障壁を排除し、非注釈データに対する大規模な分析を可能にする。 しかし、最近のSSLアプローチは、ますます拡大するモデルアーキテクチャとより大きなデータセットを適用し、データボリューム、ハードウェアの前提条件、全体的なコストの急激なエスカレーションを引き起こし、これらのリソースへのアクセスを少数の機関に制限している。 そこで,計算病理学におけるコントラッシブSSLの複雑性を,コンシューマグレードハードウェアの利用による分類性能との関連で検討した。 具体的には,データ量,アーキテクチャ,アルゴリズムの適応が下流分類タスクに与える影響を分析し,計算資源への影響を強調した。 乳がんファンデーションのモデルを大規模患者コホートで訓練し, 2つの外部患者コホートに対して, 下位分類課題を弱監督的に検証した。 実験により,SSLトレーニング期間を90%短縮しつつ,下流分類性能を向上できることが実証された。 要約して,非資源環境における計算病理学におけるSSLの利用を可能にする適応セットを提案する。

Deep Learning models have been successfully utilized to extract clinically actionable insights from routinely available histology data. Generally, these models require annotations performed by clinicians, which are scarce and costly to generate. The emergence of self-supervised learning (SSL) methods remove this barrier, allowing for large-scale analyses on non-annotated data. However, recent SSL approaches apply increasingly expansive model architectures and larger datasets, causing the rapid escalation of data volumes, hardware prerequisites, and overall expenses, limiting access to these resources to few institutions. Therefore, we investigated the complexity of contrastive SSL in computational pathology in relation to classification performance with the utilization of consumer-grade hardware. Specifically, we analyzed the effects of adaptations in data volume, architecture, and algorithms on downstream clas- sification tasks, emphasizing their impact on computational resources. We trained breast cancer foundation models on a large public patient cohort and validated them on various downstream classification tasks in a weakly supervised manner on two external public patient cohorts. Our experiments demonstrate that we can improve downstream classification performance whilst reducing SSL training duration by 90%. In summary, we propose a set of adaptations which enable the utilization of SSL in computational pathology in non-resource abundant environments.
翻訳日:2024-03-08 13:44:53 公開日:2024-03-07
# MLCommons CloudMaskベンチマークの改善と評価

Improvements & Evaluations on the MLCommons CloudMask Benchmark ( http://arxiv.org/abs/2403.04553v1 )

ライセンス: Link先を確認
Varshitha Chennamsetti, Laiba Mehnaz, Dan Zhao, Banani Ghosh, Sergey V. Samsonau(参考訳) 本稿では,ニューヨーク大学(NYU)の高性能コンピューティングクラスタを用いたMLCommonsのScienceクラウドマスキングベンチマークにおけるディープラーニングモデルの性能ベンチマーク結果について報告する。 MLCommonsは、AIの開発から恩恵を受けることができるいくつかの科学的ベンチマークを開発し、維持するコンソーシアムである。 選択したハイパーパラメータ設定を使用する場合、クラウドマスキングベンチマークタスク、コード更新、このベンチマークの最良のモデルについて説明する。 我々のベンチマーク結果には、NYUシステムで達成された最高精度と、複数のラン/シードでベンチマークのトレーニングと推論に要する平均時間が含まれています。 私たちのコードはGitHubで参照できます。 MLCommonsチームは、私たちの進捗を知り、将来の作業に開発コードを使うかもしれない。

In this paper, we report the performance benchmarking results of deep learning models on MLCommons' Science cloud-masking benchmark using a high-performance computing cluster at New York University (NYU): NYU Greene. MLCommons is a consortium that develops and maintains several scientific benchmarks that can benefit from developments in AI. We provide a description of the cloud-masking benchmark task, updated code, and the best model for this benchmark when using our selected hyperparameter settings. Our benchmarking results include the highest accuracy achieved on the NYU system as well as the average time taken for both training and inference on the benchmark across several runs/seeds. Our code can be found on GitHub. MLCommons team has been kept informed about our progress and may use the developed code for their future work.
翻訳日:2024-03-08 13:44:31 公開日:2024-03-07
# 分割サンプル硬さ:データ中心AIの硬さ評価手法の微粒化解析

Dissecting Sample Hardness: A Fine-Grained Analysis of Hardness Characterization Methods for Data-Centric AI ( http://arxiv.org/abs/2403.04551v1 )

ライセンス: Link先を確認
Nabeel Seedat, Fergus Imrie, Mihaela van der Schaar(参考訳) 学習が難しいサンプルを特徴付けることは、高いパフォーマンスのmlモデルを開発する上で非常に重要です。 これは「硬い」サンプルを識別することを目的とした多くのハードネス評価法(HCM)につながった。 しかし、「硬さ」の定義と評価については合意が得られていない。 残念なことに、現在のHCMは特定の種類の硬さでのみ評価されており、基本的な定量化タスクを見越して、定性的または下流のパフォーマンスに関してのみ評価されている。 このギャップに対処するためには、硬度型のきめ細かい分類を提示する。 さらに、硬度分類におけるHCMの総合的かつ定量的なベンチマークをサポートし、新しいHCM、硬度タイプ、データセットに容易に拡張できるH-CAT(Hardness Characterization Analysis Toolkit)を提案する。 H-CATを用いて8種類の硬度タイプで13種類のHCMを評価した。 この包括的評価は14K以上の設定を含んでおり、異なるHCMの強度と弱点を明らかにし、HCMの選択と今後の発展を導くための実践的なヒントをもたらす。 我々の研究は、より包括的なHCM評価の必要性を強調し、硬度分類学とツールキットがデータ中心のAI手法の原則的評価と取り込みを進めることを願っている。

Characterizing samples that are difficult to learn from is crucial to developing highly performant ML models. This has led to numerous Hardness Characterization Methods (HCMs) that aim to identify "hard" samples. However, there is a lack of consensus regarding the definition and evaluation of "hardness". Unfortunately, current HCMs have only been evaluated on specific types of hardness and often only qualitatively or with respect to downstream performance, overlooking the fundamental quantitative identification task. We address this gap by presenting a fine-grained taxonomy of hardness types. Additionally, we propose the Hardness Characterization Analysis Toolkit (H-CAT), which supports comprehensive and quantitative benchmarking of HCMs across the hardness taxonomy and can easily be extended to new HCMs, hardness types, and datasets. We use H-CAT to evaluate 13 different HCMs across 8 hardness types. This comprehensive evaluation encompassing over 14K setups uncovers strengths and weaknesses of different HCMs, leading to practical tips to guide HCM selection and future development. Our findings highlight the need for more comprehensive HCM evaluation, while we hope our hardness taxonomy and toolkit will advance the principled evaluation and uptake of data-centric AI methods.
翻訳日:2024-03-08 13:44:19 公開日:2024-03-07
# Feature-Guided Gradient Backpropagationによる説明可能な顔認証

Explainable Face Verification via Feature-Guided Gradient Backpropagation ( http://arxiv.org/abs/2403.04549v1 )

ライセンス: Link先を確認
Yuhang Lu, Zewei Xu, and Touradj Ebrahimi(参考訳) 近年、顔認識(FR)技術の進歩が見られ、その応用は人々の生活やセキュリティに敏感な領域に広く浸透している。 このようなシステムの決定の信頼できる解釈の必要性が高まっている。 様々なメカニズムに依存した既存の研究は、説明的アプローチとしてサリエンシマップの使用を調査しているが、異なる制限に悩まされている。 本稿ではまず,勾配逆伝播による顔画像とその深部表現の空間的関係について検討する。 そして、FGGB の新たな説明手法が考案され、FR システムの "Accept" と "Reject" の決定を説明するために、正確で洞察に富んだ類似性と相似な唾液マップを提供する。 広汎な視覚提示と定量的測定により、FGGBは、現在の最先端説明可能な顔認証手法と比較して、類似性と相似性の両方において優れた性能を達成していることが示された。

Recent years have witnessed significant advancement in face recognition (FR) techniques, with their applications widely spread in people's lives and security-sensitive areas. There is a growing need for reliable interpretations of decisions of such systems. Existing studies relying on various mechanisms have investigated the usage of saliency maps as an explanation approach, but suffer from different limitations. This paper first explores the spatial relationship between face image and its deep representation via gradient backpropagation. Then a new explanation approach FGGB has been conceived, which provides precise and insightful similarity and dissimilarity saliency maps to explain the "Accept" and "Reject" decision of an FR system. Extensive visual presentation and quantitative measurement have shown that FGGB achieves superior performance in both similarity and dissimilarity maps when compared to current state-of-the-art explainable face verification approaches.
翻訳日:2024-03-08 13:43:59 公開日:2024-03-07
# CLIP the Bias: マルチモーダル学習におけるデータのバランシングはどの程度有用か?

CLIP the Bias: How Useful is Balancing Data in Multimodal Learning? ( http://arxiv.org/abs/2403.04547v1 )

ライセンス: Link先を確認
Ibrahim Alabdulmohsin, Xiao Wang, Andreas Steiner, Priya Goyal, Alexander D'Amour, Xiaohua Zhai(参考訳) 比較言語画像事前学習(CLIP)におけるバイアス軽減のためのデータバランスの有効性を検討した。 まず、CLIPモデルが社会的ステレオタイプを不注意に吸収できるという以前の結論を再確認する。 これに対応するために,マルチモーダルデータにおける表現バイアスと相関バイアス(一階・二階統計量)の低減を目的とした,Multi-Modal Moment Matching (M4) という新しいアルゴリズムを提案する。 我々はM4を用いて、モデル、表現、データサイズといった様々な要因を考慮した詳細な分析を行う。 また,CLIPが学習し,バイアスを解き放つ方法の動的性質についても検討した。 特に、微調整は表現バイアスに対抗するのに有効であるが、その影響は関連バイアスを減少させる。 また、データバランシングは品質に混ざり、分類を改善しがちだが、検索を損なう可能性がある。 例えば、データ品質フィルタでsiglip-b/16にm4を適用すると、coco画像からテキストへの検索が86%から87%に改善され、imagenet 0-shot分類が77%から77.5%に改善される。 最後に,マルチモーダルシステムにおけるデータバランシングの有効性を向上させることを推奨する。

We study the effectiveness of data-balancing for mitigating biases in contrastive language-image pretraining (CLIP), identifying areas of strength and limitation. First, we reaffirm prior conclusions that CLIP models can inadvertently absorb societal stereotypes. To counter this, we present a novel algorithm, called Multi-Modal Moment Matching (M4), designed to reduce both representation and association biases (i.e. in first- and second-order statistics) in multimodal data. We use M4 to conduct an in-depth analysis taking into account various factors, such as the model, representation, and data size. Our study also explores the dynamic nature of how CLIP learns and unlearns biases. In particular, we find that fine-tuning is effective in countering representation biases, though its impact diminishes for association biases. Also, data balancing has a mixed impact on quality: it tends to improve classification but can hurt retrieval. Interestingly, data and architectural improvements seem to mitigate the negative impact of data balancing on performance; e.g. applying M4 to SigLIP-B/16 with data quality filters improves COCO image-to-text retrieval @5 from 86% (without data balancing) to 87% and ImageNet 0-shot classification from 77% to 77.5%! Finally, we conclude with recommendations for improving the efficacy of data balancing in multimodal systems.
翻訳日:2024-03-08 13:43:42 公開日:2024-03-07
# 異質なレジリエントな連合学習のためのアーキテクチャ青写真

Architectural Blueprint For Heterogeneity-Resilient Federated Learning ( http://arxiv.org/abs/2403.04546v1 )

ライセンス: Link先を確認
Satwat Bashir, Tasos Dagiuklas, Kasra Kassai, Muddesar Iqbal(参考訳) 本稿では,エッジコンピューティング環境を最適化するための3層アーキテクチャを提案する。 提案アーキテクチャは、クライアントデータの不均一性と計算制約に関連する課題に対処する。 分散機械学習の効率を高めるスケーラブルでプライバシの保護フレームワークを導入している。 実験を通じて,従来のフェデレート学習モデルよりも,非IDデータセットを効率的に管理するアーキテクチャ能力を示す。 さらに本論文は,モデル精度を著しく向上し,コミュニケーションオーバーヘッドを低減し,連合学習技術の普及を促進する,この革新的アプローチの可能性を強調している。

This paper proposes a novel three tier architecture for federated learning to optimize edge computing environments. The proposed architecture addresses the challenges associated with client data heterogeneity and computational constraints. It introduces a scalable, privacy preserving framework that enhances the efficiency of distributed machine learning. Through experimentation, the paper demonstrates the architecture capability to manage non IID data sets more effectively than traditional federated learning models. Additionally, the paper highlights the potential of this innovative approach to significantly improve model accuracy, reduce communication overhead, and facilitate broader adoption of federated learning technologies.
翻訳日:2024-03-08 13:43:16 公開日:2024-03-07
# スケーリング係数に適したディープワイド残差ネットワークの一般化能力の向上

Improve Generalization Ability of Deep Wide Residual Network with A Suitable Scaling Factor ( http://arxiv.org/abs/2403.04545v1 )

ライセンス: Link先を確認
Songtao Tian, Zixiong Yu(参考訳) Deep Residual Neural Networks (ResNets)は、さまざまな現実世界のアプリケーションで顕著な成功を収めている。 本稿では,Deep Wide ResNets の残差分における適切なスケーリング係数 ($\alpha$) を特定し,優れた一般化能力を実現する。 例えば、$\alpha$ が定数であれば、Residual Neural Tangent Kernel (RNTK) によって誘導される関数のクラスは漸近的に学習不可能であり、深さは無限大になる。 たとえ$\alpha$ が深度$L$ の増加で減少しても、縮退現象は依然として起こるかもしれない。 しかし、$\alpha$が$L$で急速に減少すると、目標回帰関数が無限深さ RNTK に付随する再生カーネルヒルベルト空間に落ちることを仮定して、早期停止を伴う深い RNTK を持つカーネル回帰は最小値を達成することができる。 MNIST, CIFAR10, CIFAR100 などの合成データおよび実分類タスクに関するシミュレーション研究は, 条件として$\alpha$を選択することを支持する。

Deep Residual Neural Networks (ResNets) have demonstrated remarkable success across a wide range of real-world applications. In this paper, we identify a suitable scaling factor (denoted by $\alpha$) on the residual branch of deep wide ResNets to achieve good generalization ability. We show that if $\alpha$ is a constant, the class of functions induced by Residual Neural Tangent Kernel (RNTK) is asymptotically not learnable, as the depth goes to infinity. We also highlight a surprising phenomenon: even if we allow $\alpha$ to decrease with increasing depth $L$, the degeneration phenomenon may still occur. However, when $\alpha$ decreases rapidly with $L$, the kernel regression with deep RNTK with early stopping can achieve the minimax rate provided that the target regression function falls in the reproducing kernel Hilbert space associated with the infinite-depth RNTK. Our simulation studies on synthetic data and real classification tasks such as MNIST, CIFAR10 and CIFAR100 support our theoretical criteria for choosing $\alpha$.
翻訳日:2024-03-08 13:43:07 公開日:2024-03-07
# 自然言語仕様によるASPプログラムの自動構成に向けて

Towards Automatic Composition of ASP Programs from Natural Language Specifications ( http://arxiv.org/abs/2403.04541v1 )

ライセンス: Link先を確認
Manuel Borroto, Irfan Kareem, Francesco Ricca(参考訳) 本稿では,ASP(Answer Set Programming)仕様の構成を自動化するための第一歩について述べる。 特に以下の貢献がある。 i)ASP自動コーディングのためのツールの開発と評価を目的としたグラフ関連問題仕様に焦点を当てたデータセット。 (ii)自然言語仕様からASPプログラムを生成するためのNL2ASPツールで実装された2段階アーキテクチャ。 NL2ASPはニューラルネットワークを使用して自然言語を制御自然言語(CNL)文に変換する。 その後、CNL2ASPツールを使用してCNLステートメントをASPコードに変換する。 実験はアプローチの生存可能性を確認する。

This paper moves the first step towards automating the composition of Answer Set Programming (ASP) specifications. In particular, the following contributions are provided: (i) A dataset focused on graph-related problem specifications, designed to develop and assess tools for ASP automatic coding; (ii) A two-step architecture, implemented in the NL2ASP tool, for generating ASP programs from natural language specifications. NL2ASP uses neural machine translation to transform natural language into Controlled Natural Language (CNL) statements. Subsequently, CNL statements are converted into ASP code using the CNL2ASP tool. An experiment confirms the viability of the approach.
翻訳日:2024-03-08 13:42:45 公開日:2024-03-07
# ファウンデーションモデルのファインチューニングにおけるデータ品質向上

Enhancing Data Quality in Federated Fine-Tuning of Foundation Models ( http://arxiv.org/abs/2403.04529v1 )

ライセンス: Link先を確認
Wanru Zhao, Yaxin Du, Nicholas Donald Lane, Siheng Chen, Yanfeng Wang(参考訳) ファンデーションモデルトレーニングの現在の状況では、パブリックドメインデータに大きく依存しており、最近の研究によると枯渇に近づいている。 さらにスケールアップするには、複数の専門的で高品質なプライベートドメインデータソース間のコラボレーションを組み込むことが不可欠である。 しかし、プライベートデータを共有せずにローカルでモデルをトレーニングするという課題は、データ品質管理において多くの障害をもたらす。 そこで本研究では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。 このパイプラインは、トレーニングデータの品質を反映したスコアを計算し、グローバルなパフォーマンス向上を目的とした統一標準のグローバルしきい値を決定する。 提案する品質制御パイプラインは,モデルトレーニングの有効性と信頼性が向上し,パフォーマンスが向上することを示す。

In the current landscape of foundation model training, there is a significant reliance on public domain data, which is nearing exhaustion according to recent research. To further scale up, it is crucial to incorporate collaboration among multiple specialized and high-quality private domain data sources. However, the challenge of training models locally without sharing private data presents numerous obstacles in data quality control. To tackle this issue, we propose a data quality control pipeline for federated fine-tuning of foundation models. This pipeline computes scores reflecting the quality of training data and determines a global threshold for a unified standard, aiming for improved global performance. Our experiments show that the proposed quality control pipeline facilitates the effectiveness and reliability of the model training, leading to better performance.
翻訳日:2024-03-08 13:42:36 公開日:2024-03-07
# MedFLIP:マスクオートエンコーダを用いた医用ビジョン・ランゲージ型高速事前訓練

MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training with Masked Autoencoder ( http://arxiv.org/abs/2403.04626v1 )

ライセンス: Link先を確認
Lei Li, Tianfang Zhang, Xinglin Zhang, Jiaqi Liu, Bingqi Ma, Yan Luo, Tao Chen(参考訳) 医学分析の領域内では、マスケッドオートエンコーダ(MAE)とマルチモーダルデータ間の相互学習の可能性について広範な研究が行われている。 しかし、モーダリティに対するMAEsの影響は依然として重要な課題である。 本稿では,医療分析のための高速言語画像事前学習手法であるMedFLIPを紹介する。 クロスドメインによるゼロショット学習のためのmaesについて検討し,医療診断における一般的なシナリオである限定データから学習するモデルの能力を高める。 画像のマスキングがモーダル学習に影響を与えないことを検証する。 さらに,医用画像の特徴の表現学習を強化するためのSVD損失を提案し,そのようなデータの構造的複雑さを活用して分類精度を向上させることを目的とした。 最後に,医療画像解析におけるゼロショット性能の向上を言語を用いて検証する。 マスクプロセスのMedFLIPスケーリングは、従来の計算ボトルネックを伴わずに、迅速かつ正確な医療画像解析のための経路を提供する、この分野の進歩を示す。 実験と検証を通じて、MedFLIPは効率的なパフォーマンス向上を実証し、将来の研究の標準と医療診断への応用を定めている。

Within the domain of medical analysis, extensive research has explored the potential of mutual learning between Masked Autoencoders(MAEs) and multimodal data. However, the impact of MAEs on intermodality remains a key challenge. We introduce MedFLIP, a Fast Language-Image Pre-training method for Medical analysis. We explore MAEs for zero-shot learning with crossed domains, which enhances the model ability to learn from limited data, a common scenario in medical diagnostics. We verify that masking an image does not affect intermodal learning. Furthermore, we propose the SVD loss to enhance the representation learning for characteristics of medical images, aiming to improve classification accuracy by leveraging the structural intricacies of such data. Lastly, we validate using language will improve the zero-shot performance for the medical image analysis. MedFLIP scaling of the masking process marks an advancement in the field, offering a pathway to rapid and precise medical image analysis without the traditional computational bottlenecks. Through experiments and validation, MedFLIP demonstrates efficient performance improvements, setting an explored standard for future research and application in medical diagnostics.
翻訳日:2024-03-08 13:37:51 公開日:2024-03-07
# 時間CCSの強い優先順位と決定性

Strong Priority and Determinacy in Timed CCS ( http://arxiv.org/abs/2403.04618v1 )

ライセンス: Link先を確認
Luigi Liquori and Michael Mendler(参考訳) プロセス代数の古典的理論を優先して構築し、同期プログラミングの本質を捉えるために設計された「逐次構成的還元」と呼ばれる新しいスケジューリング機構を同定する。 この評価戦略の特徴は、マルチキャスト同時通信における決定論的な構築を実現することである。 特に、共有メモリのマルチスレッディングを、プログラミング言語sterylのコアにあるため、欠如に反応してモデル化することが可能です。 クロックと優先順位によって拡張されたccsの技術的な設定では、多くのプロセスが"構造的にコヒーレント"であり、構成的還元の合流特性を証明している。 さらに,いくつかの構文的制約の下では,プレフィックス,要約,並列合成,制約,構造的コヒーレンスを隠蔽する演算子を「ピボタブル」と呼ぶ。 これはミルナーの古典的な CCS 理論に優先順位を持たないものと比較して、非常に大きなプロセスのクラスをカバーする。

Building on the classical theory of process algebra with priorities, we identify a new scheduling mechanism, called "sequentially constructive reduction" which is designed to capture the essence of synchronous programming. The distinctive property of this evaluation strategy is to achieve determinism-by-construction for multi-cast concurrent communication. In particular, it permits us to model shared memory multi-threading with reaction to absence as it lies at the core of the programming language Esterel. In the technical setting of CCS extended by clocks and priorities, we prove for a large class of processes, which we call "structurally coherent" the confluence property for constructive reductions. We further show that under some syntactic restrictions, called "pivotable" the operators of prefix, summation, parallel composition, restriction and hiding preserve structural coherence. This covers a strictly larger class of processes compared to those that are confluent in Milner's classical theory of CCS without priorities.
翻訳日:2024-03-08 13:37:34 公開日:2024-03-07
# 心エコー画像の合成データセット生成のための逆微分モデルを用いたドメイン翻訳フレームワーク

A Domain Translation Framework with an Adversarial Denoising Diffusion Model to Generate Synthetic Datasets of Echocardiography Images ( http://arxiv.org/abs/2403.04612v1 )

ライセンス: Link先を確認
Cristiana Tiago, Sten Roar Snare, Jurica Sprem, and Kristin McLeod(参考訳) 現在,医用画像領域翻訳作業は,研究者や臨床医の需要が高まっている。 その他の機能の中で、このタスクは画像品質が十分に高い新しい医用画像の生成を可能にするため、臨床的に関連性がある。 ディープラーニング(dl)アーキテクチャ、特に深層生成モデルは、あるドメインから別のドメインへの画像の生成と変換に広く使われている。 提案フレームワークは, 心エコー画像の合成とドメイン翻訳を行うために, DDM (Adversarial Denoising Diffusion Model) を利用する。 GAN(Generative Adversarial Networks)とは対照的に,DDMは高画質の画像サンプルを生成することができる。 DDMとGANを組み合わせると、この新たなデータを生成する能力はより高速なサンプリング時間で完了する。 本研究は,GANと併用した対向的DDMを訓練し,ガイド画像に頼って逆復調過程を学習し,各心エコー画像の解剖学的構造を保存し,生成した画像サンプルに表現するようにした。 MSE: 11.50 +/- 3.69, PSNR (dB): 30.48 +/- 0.09, SSIM: 0.47 +/- 0.03。 提案手法は高一般化能力を示し,臨床研究に適した心エコー画像を作成するための枠組みを導入した。

Currently, medical image domain translation operations show a high demand from researchers and clinicians. Amongst other capabilities, this task allows the generation of new medical images with sufficiently high image quality, making them clinically relevant. Deep Learning (DL) architectures, most specifically deep generative models, are widely used to generate and translate images from one domain to another. The proposed framework relies on an adversarial Denoising Diffusion Model (DDM) to synthesize echocardiography images and perform domain translation. Contrary to Generative Adversarial Networks (GANs), DDMs are able to generate high quality image samples with a large diversity. If a DDM is combined with a GAN, this ability to generate new data is completed at an even faster sampling time. In this work we trained an adversarial DDM combined with a GAN to learn the reverse denoising process, relying on a guide image, making sure relevant anatomical structures of each echocardiography image were kept and represented on the generated image samples. For several domain translation operations, the results verified that such generative model was able to synthesize high quality image samples: MSE: 11.50 +/- 3.69, PSNR (dB): 30.48 +/- 0.09, SSIM: 0.47 +/- 0.03. The proposed method showed high generalization ability, introducing a framework to create echocardiography images suitable to be used for clinical research purposes.
翻訳日:2024-03-08 13:37:17 公開日:2024-03-07
# ダイヤモンド中の窒素空孔中心からのキャビティ支援共鳴蛍光

Cavity-assisted resonance fluorescence from a nitrogen-vacancy center in diamond ( http://arxiv.org/abs/2403.04611v1 )

ライセンス: Link先を確認
Viktoria Yurgens and Yannik Fontana and Andrea Corazza and Brendan J. Shields and Patrick Maletinsky and Richard J. Warburton(参考訳) ダイヤモンドの窒素空洞中心は、光学的に対応可能で長寿命な電子スピンのため、遠隔の絡み合った状態を生成するための魅力的な資源である。 しかし、中心のコヒーレント光子放出率の低さである$\sim$3\% は、達成可能なスピン光子絡み合い率を強く減少させる。 ここでは,ミクロン膜にホストされた細長い線幅 (\unit[159]{mhz}) を持つ窒素空洞中心を開光マイクロキャビティモードに結合する。 結果として生じる$\sim$1.8のパーセル係数は、ゼロフォノンライン光子の分画を44\%以上に増加させ、非共鳴励起下での技術の4倍のコヒーレント光子の放出率をもたらす。 キャビティの強化により,10ドルの信号とレーザーの背景比で時間フィルタリングをすることなく,初めて共鳴蛍光を測定する。 私たちのマイクロキャビティプラットフォームは、既存の実装と比較してスピンスピンエンタングルメントの成功確率を1桁以上増加させます。 中心のゼロフォノン遷移の選択的拡張は、ウェーブパペットシェーピングや全光スピン操作のような量子光学技術の効率的な応用をさらに促進する可能性がある。

The nitrogen-vacancy center in diamond, owing to its optically addressable and long-lived electronic spin, is an attractive resource for the generation of remote entangled states. However, the center's low native fraction of coherent photon emission, $\sim$3\%, strongly reduces the achievable spin-photon entanglement rates. Here, we couple a nitrogen-vacancy center with a narrow extrinsically broadened linewidth (\unit[159]{MHz}), hosted in a micron-thin membrane, to the mode of an open optical microcavity. The resulting Purcell factor of $\sim$1.8 increases the fraction of zero-phonon line photons to above 44\%, leading to coherent photon emission rates exceeding four times the state of the art under non-resonant excitation. Bolstered by the enhancement provided by the cavity, we for the first time measure resonance fluorescence without any temporal filtering with $>$10 signal-to-laser background ratio. Our microcavity platform would increase spin-spin entanglement success probabilities by more than an order of magnitude compared to existing implementations. Selective enhancement of the center's zero-phonon transitions could furthermore unlock efficient application of quantum optics techniques such as wave-packet shaping or all-optical spin manipulation.
翻訳日:2024-03-08 13:36:54 公開日:2024-03-07
# ハミルトニアンのモンテカルロを撃退する

Repelling-Attracting Hamiltonian Monte Carlo ( http://arxiv.org/abs/2403.04607v1 )

ライセンス: Link先を確認
Siddharth Vishwanath and Hyungsuk Tak(参考訳) 我々はマルチモーダル分布からサンプリングするために、ハミルトンモンテカルロ (HMC) の変種(Repelling-Attracting Hamiltonian Monte Carlo (RAHMC) )を提案する。 RAHMCを基盤とする鍵となる考え方は、伝統的なHMCの基礎を形成するハミルトン系の保守的力学から離れて、代わりに共形ハミルトン系の散逸的力学に転換することである。 特にRAHMCは、サンプルが高確率密度の領域から遠ざかるように促すモード緩和段階と、サンプルが代替モードに近づいたり落ち着いたりするためのモード抽出段階の2段階を含む。 摩擦係数という1つの追加のチューニングパラメータを導入することでこれを実現する。 提案手法は、例えば、モードや密度リッジなどのターゲット分布の幾何学に適応し、従来のHMCと比較して計算オーバーヘッドがほとんどあるいは全くない低確率障壁を横断する提案を生成する。 特にRAHMCは、以前訪れたモードのターゲット分布やメモリに関する追加情報を必要としない。 我々は,RAHMCの理論的基盤を確立し,文学におけるHMCのいくつかの変種への反発的拡張について論じる。 最後に,マルチモーダル分布とユニモーダル分布の両方から高次元のサンプリングにおいて,その効果を実証する。

We propose a variant of Hamiltonian Monte Carlo (HMC), called the Repelling-Attracting Hamiltonian Monte Carlo (RAHMC), for sampling from multimodal distributions. The key idea that underpins RAHMC is a departure from the conservative dynamics of Hamiltonian systems, which form the basis of traditional HMC, and turning instead to the dissipative dynamics of conformal Hamiltonian systems. In particular, RAHMC involves two stages: a mode-repelling stage to encourage the sampler to move away from regions of high probability density; and, a mode-attracting stage, which facilitates the sampler to find and settle near alternative modes. We achieve this by introducing just one additional tuning parameter -- the coefficient of friction. The proposed method adapts to the geometry of the target distribution, e.g., modes and density ridges, and can generate proposals that cross low-probability barriers with little to no computational overhead in comparison to traditional HMC. Notably, RAHMC requires no additional information about the target distribution or memory of previously visited modes. We establish the theoretical basis for RAHMC, and we discuss repelling-attracting extensions to several variants of HMC in literature. Finally, we provide a tuning-free implementation via dual-averaging, and we demonstrate its effectiveness in sampling from, both, multimodal and unimodal distributions in high dimensions.
翻訳日:2024-03-08 13:36:29 公開日:2024-03-07
# In-n-Out: リンク予測のためのグラフニューラルネットワークの校正

In-n-Out: Calibrating Graph Neural Networks for Link Prediction ( http://arxiv.org/abs/2403.04605v1 )

ライセンス: Link先を確認
Erik Nascimento, Diego Mesquita, Samuel Kaskio, Amauri H Souza(参考訳) ディープニューラルネットワークの出力は、我々が予測しようとしている事象の真の確率を反映していない、という悪名高い。 グラフデータや画像データのネットワークは通常過信されるが、近年の研究では、グラフニューラルネットワーク(GNN)がノードレベルの分類の逆の振る舞いを示すことが示されている。 しかし、リンクを予測するとどうなるのか? この場合、GNNは混合行動を示すことが多い。 より具体的には、負の予測では過信されるが、正の予測では過信される。 本稿では,リンク予測のためのGNNの校正手法であるIN-N-OUTを提案する。 IN-N-OUTは2つの単純な直観に基づいている。 i) GNNの予測を尊重しながら真偽のラベルをエッジに付与することは、そのエッジの埋め込みにおいて小さな変動を引き起こし、逆に ii)GNNと矛盾する同じエッジにラベルを付けると、埋め込みはより大きく変化する。 大規模な実験的キャンペーンでは、IN-N-OUTはリンク予測におけるGNNの校正を大幅に改善し、この特定のタスクのために設計されていないベースラインを一貫して上回っている。

Deep neural networks are notoriously miscalibrated, i.e., their outputs do not reflect the true probability of the event we aim to predict. While networks for tabular or image data are usually overconfident, recent works have shown that graph neural networks (GNNs) show the opposite behavior for node-level classification. But what happens when we are predicting links? We show that, in this case, GNNs often exhibit a mixed behavior. More specifically, they may be overconfident in negative predictions while being underconfident in positive ones. Based on this observation, we propose IN-N-OUT, the first-ever method to calibrate GNNs for link prediction. IN-N-OUT is based on two simple intuitions: i) attributing true/false labels to an edge while respecting a GNNs prediction should cause but small fluctuations in that edge's embedding; and, conversely, ii) if we label that same edge contradicting our GNN, embeddings should change more substantially. An extensive experimental campaign shows that IN-N-OUT significantly improves the calibration of GNNs in link prediction, consistently outperforming the baselines available -- which are not designed for this specific task.
翻訳日:2024-03-08 13:36:04 公開日:2024-03-07
# 重要サンプリングとプロトタイプ・インスタンス関係蒸留を用いたコントラスト連続学習

Contrastive Continual Learning with Importance Sampling and Prototype-Instance Relation Distillation ( http://arxiv.org/abs/2403.04599v1 )

ライセンス: Link先を確認
Jiyong Li, Dilshod Azizov, Yang Li, Shangsong Liang(参考訳) 近年,コントラスト学習手法の質の高い表現のために,伝統的なコントラスト学習における破滅的な忘れ方を避けるために,トランスファー可能な表現埋め込みを継続的に学習する方法を探究するために,リハーサルベースのコントラスト連続学習が提案されている。 この枠組みに基づいて,従来のデータ分布を復元して知識を保存するためのコントラスト型連続学習(Contrastive Continual Learning via Importance Smpling, CCLIS)を提案する。 さらに, 自己蒸留法を用いて, プロトタイプと試料表現の関係を維持するための手法であるprototype-instance relation distillation (prd) lossを提案する。 標準連続学習ベンチマーク実験により,本手法が既存のベースラインよりも知識保存の面で優れていることが明らかとなった。 コードはhttps://github.com/lijy373/cclisで入手できる。

Recently, because of the high-quality representations of contrastive learning methods, rehearsal-based contrastive continual learning has been proposed to explore how to continually learn transferable representation embeddings to avoid the catastrophic forgetting issue in traditional continual settings. Based on this framework, we propose Contrastive Continual Learning via Importance Sampling (CCLIS) to preserve knowledge by recovering previous data distributions with a new strategy for Replay Buffer Selection (RBS), which minimize estimated variance to save hard negative samples for representation learning with high quality. Furthermore, we present the Prototype-instance Relation Distillation (PRD) loss, a technique designed to maintain the relationship between prototypes and sample representations using a self-distillation process. Experiments on standard continual learning benchmarks reveal that our method notably outperforms existing baselines in terms of knowledge preservation and thereby effectively counteracts catastrophic forgetting in online contexts. The code is available at https://github.com/lijy373/CCLIS.
翻訳日:2024-03-08 13:35:43 公開日:2024-03-07
# 量子光学における行列分解:タカギ/オートン、ブロッホ-メシア/オイラー、岩沢、ウィリアムソン

Matrix decompositions in Quantum Optics: Takagi/Autonne, Bloch-Messiah/Euler, Iwasawa, and Williamson ( http://arxiv.org/abs/2403.04596v1 )

ライセンス: Link先を確認
Martin Houde, Will McCutcheon, Nicol\'as Quesada(参考訳) 本稿では,量子光学において一般的に用いられる4つの重要な行列分解(高木/オートン,ブロッホ-メシア/オイラー,岩沢,ウィリアムソン分解)を要約する。 これらの分解の最初の2つは、対称行列やシンプレクティック行列に適用する場合の特異値分解の特殊版である。 第3の因子は、シンプレクティック群の異なる部分群に属する行列という一意的な意味でのシンプレクティック行列である。 最後のものは、偶数の大きさの実正定値行列のシンプレクティック対角化を与える。 これらの分解の存在の証明は文献に存在しているが、標準的な線型代数パッケージや特異値、極性、シュール、QR分解、行列平方根や逆数といった函数を用いてこれらの分解を実装するための明示的な構成を提供することに集中する。

In this note we summarize four important matrix decompositions commonly used in quantum optics, namely the Takagi/Autonne, Bloch-Messiah/Euler, Iwasawa, and Williamson decompositions. The first two of these decompositions are specialized versions of the singular-value decomposition when applied to symmetric or symplectic matrices. The third factors any symplectic matrix in a unique way in terms of matrices that belong to different subgroups of the symplectic group. The last one instead gives the symplectic diagonalization of real, positive definite matrices of even size. While proofs of the existence of these decompositions exist in the literature, we focus on providing explicit constructions to implement these decompositions using standard linear algebra packages and functionalities such as singular-value, polar, Schur and QR decompositions, and matrix square roots and inverses.
翻訳日:2024-03-08 13:35:23 公開日:2024-03-07
# 運転シナリオの身体的理解

Embodied Understanding of Driving Scenarios ( http://arxiv.org/abs/2403.04593v1 )

ライセンス: Link先を確認
Yunsong Zhou, Linyan Huang, Qingwen Bu, Jia Zeng, Tianyu Li, Hang Qiu, Hongzi Zhu, Minyi Guo, Yu Qiao, Hongyang Li(参考訳) 身体的な場面理解は、自律的なエージェントがオープンな運転シナリオを理解し、解釈し、反応するための基盤となる。 このような理解は典型的には視覚言語モデル(vlms)に基づいている。 しかしながら、既存のVLMは2Dドメインに制限されており、空間認識と長い水平外挿能力が欠如している。 自動運転の重要な側面を再考し、適切なルーリックを定式化する。 本稿では,空間的および時間的スパンの大きい運転シーンをエージェントが理解するための包括的フレームワークであるembodied language model(elm)を紹介する。 ELMは、空間的ローカライゼーション能力の強いエージェントを実現するために、空間認識事前トレーニングを組み込んでいる。 さらに、タイムアウェアなトークン選択を使用して、時間的手がかりを正確に問い合わせる。 改良されたマルチフェイスベンチマークでEMMをインスタンス化し、あらゆる面で従来の最先端のアプローチを超越する。 すべてのコード、データ、モデルは公開共有される。

Embodied scene understanding serves as the cornerstone for autonomous agents to perceive, interpret, and respond to open driving scenarios. Such understanding is typically founded upon Vision-Language Models (VLMs). Nevertheless, existing VLMs are restricted to the 2D domain, devoid of spatial awareness and long-horizon extrapolation proficiencies. We revisit the key aspects of autonomous driving and formulate appropriate rubrics. Hereby, we introduce the Embodied Language Model (ELM), a comprehensive framework tailored for agents' understanding of driving scenes with large spatial and temporal spans. ELM incorporates space-aware pre-training to endow the agent with robust spatial localization capabilities. Besides, the model employs time-aware token selection to accurately inquire about temporal cues. We instantiate ELM on the reformulated multi-faced benchmark, and it surpasses previous state-of-the-art approaches in all aspects. All code, data, and models will be publicly shared.
翻訳日:2024-03-08 13:35:07 公開日:2024-03-07
# グローバルワークスペースによる強化学習政策のゼロショットクロスモーダル転送

Zero-shot cross-modal transfer of Reinforcement Learning policies through a Global Workspace ( http://arxiv.org/abs/2403.04588v1 )

ライセンス: Link先を確認
L\'eopold Mayti\'e, Benjamin Devillers, Alexandre Arnold, Rufin VanRullen(参考訳) 人間は複数の感覚を通じて世界を知覚し、周囲を包括的に表現し、ドメイン間の情報を一般化することができる。 例えば、シーンのテキスト記述が与えられると、人間はそれを精神的に可視化することができる。 ロボット工学や強化学習(RL)のような分野では、エージェントは複数のセンサーを通して環境に関する情報にアクセスすることもできるが、センサー間の冗長性と相補性は堅牢性(例えばセンサーの故障)や一般化(ドメイン間の移動など)の源として利用することは困難である。 従来の研究では、「グローバルワークスペース」という認知科学的な概念に基づいて、堅牢で柔軟なマルチモーダル表現を効率的に構築できることが実証されていた。 本稿では,脳に触発されたマルチモーダル表現がRLエージェントに有利であるかどうかを考察する。 まず、2つの入力モダリティ(視覚的入力、またはエージェントの状態とその環境を表す属性ベクトル)を通じて環境に関する情報を活用するために「グローバルワークスペース」を訓練する。 そして、この凍結したGlobal Workspaceを使ってRLエージェントポリシーを訓練する。 2つの異なる環境とタスクにおいて、我々はモデルが入力モダリティ間のゼロショットクロスモーダル転送を行う能力、すなわち、追加のトレーニングや微調整なしに、属性ベクトル(および逆)でトレーニングされたポリシーを画像入力に適用できることを明らかにしている。 完全なグローバルワークスペースの変種とアブレーション(コントラスト学習によって訓練されたクリップのようなマルチモーダル表現を含む)は、同じ一般化能力を見せなかった。

Humans perceive the world through multiple senses, enabling them to create a comprehensive representation of their surroundings and to generalize information across domains. For instance, when a textual description of a scene is given, humans can mentally visualize it. In fields like robotics and Reinforcement Learning (RL), agents can also access information about the environment through multiple sensors; yet redundancy and complementarity between sensors is difficult to exploit as a source of robustness (e.g. against sensor failure) or generalization (e.g. transfer across domains). Prior research demonstrated that a robust and flexible multimodal representation can be efficiently constructed based on the cognitive science notion of a 'Global Workspace': a unique representation trained to combine information across modalities, and to broadcast its signal back to each modality. Here, we explore whether such a brain-inspired multimodal representation could be advantageous for RL agents. First, we train a 'Global Workspace' to exploit information collected about the environment via two input modalities (a visual input, or an attribute vector representing the state of the agent and/or its environment). Then, we train a RL agent policy using this frozen Global Workspace. In two distinct environments and tasks, our results reveal the model's ability to perform zero-shot cross-modal transfer between input modalities, i.e. to apply to image inputs a policy previously trained on attribute vectors (and vice-versa), without additional training or fine-tuning. Variants and ablations of the full Global Workspace (including a CLIP-like multimodal representation trained via contrastive learning) did not display the same generalization abilities.
翻訳日:2024-03-08 13:34:54 公開日:2024-03-07
# クラッター飛行におけるアジリティ適応の学習

Learning Agility Adaptation for Flight in Clutter ( http://arxiv.org/abs/2403.04586v1 )

ライセンス: Link先を確認
Guangyu Zhao, Tianyue Wu, Yeke Chen and Fei Gao(参考訳) 動物は自身の運動の機敏さを能力や活動環境に適応させることを学ぶ。 モバイルロボットは、アジリティと安全性を組み合わせる能力も示すべきだ。 本研究の目的は、未解明かつ部分的に観測可能な乱雑な環境において、機敏性に適応する能力を持つ飛行車両を提供することである。 本研究では,車両の観測をインプットとして,試行錯誤を総合的に学習し,モデルに基づく軌道生成手法を確立させた階層的学習計画フレームワークを提案する。 技術的には、オンラインモデルなし強化学習と、トレーニング済みの微調整報酬スキームを用いて、デプロイ可能なポリシーを得る。 シミュレーションの統計的結果は,一定速度ベースラインと飛行効率と安全性の面での代替手法よりも,本手法の利点を実証するものである。 特に、この方針は認知認識などの知的行動につながり、他のアプローチと区別される。 ポリシーをハードウェアにデプロイすることで、これらの利点が現実世界にもたらされることを確認します。

Animals learn to adapt agility of their movements to their capabilities and the environment they operate in. Mobile robots should also demonstrate this ability to combine agility and safety. The aim of this work is to endow flight vehicles with the ability of agility adaptation in prior unknown and partially observable cluttered environments. We propose a hierarchical learning and planning framework where we utilize both trial and error to comprehensively learn an agility policy with the vehicle's observation as the input, and well-established methods of model-based trajectory generation. Technically, we use online model-free reinforcement learning and a pre-training-fine-tuning reward scheme to obtain the deployable policy. The statistical results in simulation demonstrate the advantages of our method over the constant agility baselines and an alternative method in terms of flight efficiency and safety. In particular, the policy leads to intelligent behaviors, such as perception awareness, which distinguish it from other approaches. By deploying the policy to hardware, we verify that these advantages can be brought to the real world.
翻訳日:2024-03-08 13:34:03 公開日:2024-03-07
# アンシラのないハイゼンベルク制限量子メトロロジー

Heisenberg-Limited Quantum Metrology without Ancilla ( http://arxiv.org/abs/2403.04585v1 )

ライセンス: Link先を確認
Qiushi Liu, Yuxiang Yang(参考訳) 量子チャネル推定の漸近理論はよく確立されているが、一般的には無ノイズで制御可能なアンシラは漸近的理論における究極の限界に達するために必要である。 無騒音の輪郭のないメトロロジー的なパフォーマンスについてはほとんど知られていないが、実際の状況ではより関係がある。 本稿では,量子メソロジーと量子チャネルの漸近理論を橋渡しし,この問題に対処するための新しい理論的枠組みを提案する。 この枠組みを応用し、チャネルの繰り返し適用によるハイゼンベルク限界を達成するための十分な条件を、インターリーブなユニタリ制御操作を適用せずに証明する。 後者の場合、制御動作を特定するアルゴリズムを設計する。 最後に,本手法による興味深い例をいくつか分析する。

The asymptotic theory of quantum channel estimation has been well established, but in general noiseless and controllable ancilla is required for attaining the ultimate limit in the asymptotic regime. Little is known about the metrological performance without noiseless ancilla, which is more relevant in practical circumstances. In this work, we present a novel theoretical framework to address this problem, bridging quantum metrology and the asymptotic theory of quantum channels. Leveraging this framework, we prove sufficient conditions for achieving the Heisenberg limit with repeated application of the channel to estimate, both with and without applying interleaved unitary control operations. For the latter case, we design an algorithm to identify the control operation. Finally, we analyze several intriguing examples by our approach.
翻訳日:2024-03-08 13:33:33 公開日:2024-03-07
# カメラキャリブレーションにおける歪みコニックの非バイアス推定

Unbiased Estimator for Distorted Conics in Camera Calibration ( http://arxiv.org/abs/2403.04583v1 )

ライセンス: Link先を確認
Chaehyeon Song, Jaeho Shin, Myung-Hwan Jeon, Jongwoo Lim, Ayoung Kim(参考訳) 文献では、点と円錐はカメラの幾何学的キャリブレーションの主要な特徴である。 円錐は点よりも情報的特徴が多いが,歪み下での円錐特性の喪失は,カメラキャリブレーションにおける円錐特性の有用性を著しく制限している。 既存の多くのアプローチは、歪みを無視したり、この制限を回避するために3次元球面ターゲットを導入したりすることで、円錐型キャリブレーションに対処した。 本稿では,モーメントを用いた円錐型キャリブレーションの新しい定式化について述べる。 我々の導出は、第1モーメントが歪み下であってもバイアスなしで推定できるという数学的発見に基づいている。 これにより、突起と歪の間のモーメント変化を追跡でき、歪んだ円錐の最初のモーメントを確実に保存できる。 偏りのない推定器では、円パターンをサブピクセルレベルで正確に検出することができ、キャリブレーションパイプライン全体に対して完全に活用することができ、キャリブレーションが大幅に改善される。 コードはgithub.com/ChaehyeonSong/discocalから入手できる。

In the literature, points and conics have been major features for camera geometric calibration. Although conics are more informative features than points, the loss of the conic property under distortion has critically limited the utility of conic features in camera calibration. Many existing approaches addressed conic-based calibration by ignoring distortion or introducing 3D spherical targets to circumvent this limitation. In this paper, we present a novel formulation for conic-based calibration using moments. Our derivation is based on the mathematical finding that the first moment can be estimated without bias even under distortion. This allows us to track moment changes during projection and distortion, ensuring the preservation of the first moment of the distorted conic. With an unbiased estimator, the circular patterns can be accurately detected at the sub-pixel level and can now be fully exploited for an entire calibration pipeline, resulting in significantly improved calibration. The entire code is readily available from github.com/ChaehyeonSong/discocal.
翻訳日:2024-03-08 13:33:11 公開日:2024-03-07
# 主要製品予測を超えて:大規模機械力学データセットで訓練された機械学習モデルによる反応メカニズムの再現

Beyond Major Product Prediction: Reproducing Reaction Mechanisms with Machine Learning Models Trained on a Large-Scale Mechanistic Dataset ( http://arxiv.org/abs/2403.04580v1 )

ライセンス: Link先を確認
Joonyoung F. Joung, Mun Hong Fong, Jihye Roh, Zhengkai Tu, John Bradshaw, Connor W. Coley(参考訳) 有機反応の機械的理解は、反応の発生、不純物予測、そして原則として反応発見を促進する。 いくつかの機械学習モデルは、反応生成物を予測するタスクに対処しようとしているが、反応機構を予測するための拡張は、対応する力学データセットの欠如によって妨げられている。 本研究では,実験によって報告された反応物質と生成物の中間体を専門家反応テンプレートを用いて入力し,その結果の5,184,184個の基本ステップに基づいて機械学習モデルを訓練することにより,そのようなデータセットを構築する。 反応経路を予測し, 触媒や試薬の役割を再認識する能力に着目し, これらのモデルの性能と能力について検討した。 さらに, 従来のモデルでは見過ごされることが多い不純物予測における機械モデルの可能性を示す。 我々は,新しい反応型に対する力学モデルの一般化可能性を評価し,データセットの多様性,連続予測,原子保存違反に関連する課題を明らかにする。

Mechanistic understanding of organic reactions can facilitate reaction development, impurity prediction, and in principle, reaction discovery. While several machine learning models have sought to address the task of predicting reaction products, their extension to predicting reaction mechanisms has been impeded by the lack of a corresponding mechanistic dataset. In this study, we construct such a dataset by imputing intermediates between experimentally reported reactants and products using expert reaction templates and train several machine learning models on the resulting dataset of 5,184,184 elementary steps. We explore the performance and capabilities of these models, focusing on their ability to predict reaction pathways and recapitulate the roles of catalysts and reagents. Additionally, we demonstrate the potential of mechanistic models in predicting impurities, often overlooked by conventional models. We conclude by evaluating the generalizability of mechanistic models to new reaction types, revealing challenges related to dataset diversity, consecutive predictions, and violations of atom conservation.
翻訳日:2024-03-08 13:32:47 公開日:2024-03-07
# Wiki-TabNER:名前付きエンティティ認識によるテーブル解釈の改善

Wiki-TabNER:Advancing Table Interpretation Through Named Entity Recognition ( http://arxiv.org/abs/2403.04577v1 )

ライセンス: Link先を確認
Aneta Koleva, Martin Ringsquandl, Ahmed Hatem, Thomas Runkler, Volker Tresp(参考訳) Webテーブルには大量の貴重な知識が含まれており、テーブル解釈(TI)タスクに取り組むことを目的とした表言語モデルにインスピレーションを与えています。 本稿では,TIタスクの評価に広く用いられているベンチマークデータセットの解析を行い,特にエンティティリンクタスクに着目した。 分析の結果、このデータセットは単純化され、徹底的な評価の有効性が低下し、現実世界に現れるテーブルを正確に表現できない可能性が示唆された。 この欠点を克服するために、私たちは新しい挑戦的なデータセットを構築して注釈付けします。 また,新たなデータセットの導入に加えて,セル内の名前付きエンティティ認識という,エンティティリンクタスクに対処する新たな問題も導入する。 最後に,新たに開発された大規模言語モデル(LLM)を新しいTIタスクで評価するためのプロンプトフレームワークを提案する。 様々な設定下でllmを促す実験を行い,ランダム選択と類似性に基づく選択の両方を用いて,モデルに提示された例を選択する。 私たちのアブレーション研究は、わずかな例の影響についての洞察を得るのに役立ちます。 さらに,モデルが直面する課題を把握し,提案するデータセットの限界を理解するために,定性分析を実施している。

Web tables contain a large amount of valuable knowledge and have inspired tabular language models aimed at tackling table interpretation (TI) tasks. In this paper, we analyse a widely used benchmark dataset for evaluation of TI tasks, particularly focusing on the entity linking task. Our analysis reveals that this dataset is overly simplified, potentially reducing its effectiveness for thorough evaluation and failing to accurately represent tables as they appear in the real-world. To overcome this drawback, we construct and annotate a new more challenging dataset. In addition to introducing the new dataset, we also introduce a novel problem aimed at addressing the entity linking task: named entity recognition within cells. Finally, we propose a prompting framework for evaluating the newly developed large language models (LLMs) on this novel TI task. We conduct experiments on prompting LLMs under various settings, where we use both random and similarity-based selection to choose the examples presented to the models. Our ablation study helps us gain insights into the impact of the few-shot examples. Additionally, we perform qualitative analysis to gain insights into the challenges encountered by the models and to understand the limitations of the proposed dataset.
翻訳日:2024-03-08 13:32:16 公開日:2024-03-07
# テレコム言語モデル: 巨大でなければならないか?

Telecom Language Models: Must They Be Large? ( http://arxiv.org/abs/2403.04666v1 )

ライセンス: Link先を確認
Nicola Piovesan, Antonio De Domenico, Fadhel Ayed(参考訳) 電気通信分野におけるLarge Language Models (LLMs) への関心の高まりは、運用効率に革命をもたらす可能性を示している。 しかし、これらの洗練されたモデルの展開は、リソースが制約された環境での実行可能性に関する懸念を生じさせ、かなりのサイズと計算の要求によってしばしば妨げられる。 この課題に対処するため、最近の進歩は、コーディングや常識推論など、多くのタスクにおいて、より大きな言語モデルに匹敵するパフォーマンスを示す小さな言語モデルが登場した。 コンパクトでパワフルなモデルであるphi-2は、この新しい効率的な小型言語モデルの波を例示している。 本稿では,Phi-2の通信領域に関する本質的な理解を包括的に評価する。 本稿では,Phi-2の能力向上のために,テレコム規格に特化してキュレートされた広範囲な知識基盤を巧みに統合する。 強化されたPhi-2モデルは、よりリソース集約的なGPT-3.5と密接に競合する精度で、テレコム標準に関する質問に答え、精度が大幅に向上したことを示している。 本稿では,通信分野における問題解決シナリオに対処するPhi-2の洗練機能について,その可能性と限界を明らかにする。

The increasing interest in Large Language Models (LLMs) within the telecommunications sector underscores their potential to revolutionize operational efficiency. However, the deployment of these sophisticated models is often hampered by their substantial size and computational demands, raising concerns about their viability in resource-constrained environments. Addressing this challenge, recent advancements have seen the emergence of small language models that surprisingly exhibit performance comparable to their larger counterparts in many tasks, such as coding and common-sense reasoning. Phi-2, a compact yet powerful model, exemplifies this new wave of efficient small language models. This paper conducts a comprehensive evaluation of Phi-2's intrinsic understanding of the telecommunications domain. Recognizing the scale-related limitations, we enhance Phi-2's capabilities through a Retrieval-Augmented Generation approach, meticulously integrating an extensive knowledge base specifically curated with telecom standard specifications. The enhanced Phi-2 model demonstrates a profound improvement in accuracy, answering questions about telecom standards with a precision that closely rivals the more resource-intensive GPT-3.5. The paper further explores the refined capabilities of Phi-2 in addressing problem-solving scenarios within the telecom sector, highlighting its potential and limitations.
翻訳日:2024-03-08 13:27:22 公開日:2024-03-07
# 視覚的人物認証のための動的クロスアテンション

Dynamic Cross Attention for Audio-Visual Person Verification ( http://arxiv.org/abs/2403.04661v1 )

ライセンス: Link先を確認
R. Gnana Praveen, Jahangir Alam(参考訳) 個人や個人認証は顔や声などの個別のモダリティを用いて主に検討されてきたが、近年では音声と視覚の融合が一助的アプローチを上回る可能性を示している。 音声と視覚のモダリティは、しばしば強い相補関係を生じさせ、効果的な視覚融合において重要な役割を果たす。 しかし、必ずしも互いに強く補完するとは限らないし、補間関係が弱く、結果として音声・視覚的特徴表現が貧弱になることもある。 本稿では,音声と視覚のモダリティにおいて,それぞれ強いか弱い相補関係に基づいて,フライ上のクロスタッチまたはアンタッチ特徴を動的に選択できる動的クロスアテンション(dca)モデルを提案する。 特に条件付きゲーティング層は、クロスアテンション機構の寄与を評価し、強い相補的な関係を示す場合にのみクロスアテンション特徴を選択するように設計されている。 Voxceleb1データセットで大規模な実験を行い、提案モデルの堅牢性を実証した。 その結果,提案モデルは最先端手法を上回りつつ,複数種類のクロスアテンションの性能を一貫して向上させることがわかった。

Although person or identity verification has been predominantly explored using individual modalities such as face and voice, audio-visual fusion has recently shown immense potential to outperform unimodal approaches. Audio and visual modalities are often expected to pose strong complementary relationships, which plays a crucial role in effective audio-visual fusion. However, they may not always strongly complement each other, they may also exhibit weak complementary relationships, resulting in poor audio-visual feature representations. In this paper, we propose a Dynamic Cross-Attention (DCA) model that can dynamically select the cross-attended or unattended features on the fly based on the strong or weak complementary relationships, respectively, across audio and visual modalities. In particular, a conditional gating layer is designed to evaluate the contribution of the cross-attention mechanism and choose cross-attended features only when they exhibit strong complementary relationships, otherwise unattended features. Extensive experiments are conducted on the Voxceleb1 dataset to demonstrate the robustness of the proposed model. Results indicate that the proposed model consistently improves the performance on multiple variants of cross-attention while outperforming the state-of-the-art methods.
翻訳日:2024-03-08 13:27:01 公開日:2024-03-07
# 対話状態追跡のための思考説明の連鎖

Chain of Thought Explanation for Dialogue State Tracking ( http://arxiv.org/abs/2403.04656v1 )

ライセンス: Link先を確認
Lin Xu, Ningxin Peng, Daquan Zhou, See-Kiong Ng, Jinlan Fu(参考訳) ダイアログ状態追跡(DST)は、プリドファインドのスロットセットとその対応する値を維持することで達成された対話間におけるユーザクエリと目標を記録することを目的としている。 現在のアプローチではスロット値を不透明に決定するが、人間は通常、関連する対話の順番から情報を集め、適切な値を推論することで、より慎重なアプローチを採用する。 本研究では,DSTタスクに対してChain-of-Thought-Explanation(CoTE)というモデルを提案することにより,スロット値の探索に必要なステップに着目した。 CoTEは生成DSTフレームワーク上に構築されており、スロット値を決定した後、ステップごとに詳細な説明を作成するように設計されている。 このプロセスは、より正確で信頼性の高いスロット値をもたらす。 さらに, コーテの推論能力を向上させるために, より精巧で高品質な説明を自動パラフレージングで構築し, コーテ精製法を導いた。 3つの広く知られているDSTベンチマーク(MultiWOZ 2.2、WoZ 2.0、M2M)の実験結果は、CoTEの顕著な効果を実証している。 さらに,細粒度に細分化した分析を行い,より長い対話の交代,ユーザ応答,推論ステップを特徴とするサンプルに対するコーテの有意な効果を検証した。

Dialogue state tracking (DST) aims to record user queries and goals during a conversational interaction achieved by maintaining a prede- fined set of slots and their corresponding values. Current approaches decide slot values opaquely, while humans usually adopt a more deliberate approach by collecting information from relevant dialogue turns and then reasoning the appropriate values. In this work, we focus on the steps needed to figure out slot values by proposing a model named Chain-of-Thought-Explanation (CoTE) for the DST task. CoTE, which is built on the generative DST framework, is designed to create detailed explanations step by step after determining the slot values. This process leads to more accurate and reliable slot values. More-over, to improve the reasoning ability of the CoTE, we further construct more fluent and high-quality explanations with automatic paraphrasing, leading the method CoTE-refined. Experimental results on three widely recognized DST benchmarks-MultiWOZ 2.2, WoZ 2.0, and M2M-demonstrate the remarkable effectiveness of the CoTE. Furthermore, through a meticulous fine-grained analysis, we observe significant benefits of our CoTE on samples characterized by longer dialogue turns, user responses, and reasoning steps.
翻訳日:2024-03-08 13:26:38 公開日:2024-03-07
# 連立注意の再帰的融合に基づく聴覚的人物の検証

Audio-Visual Person Verification based on Recursive Fusion of Joint Cross-Attention ( http://arxiv.org/abs/2403.04654v1 )

ライセンス: Link先を確認
R. Gnana Praveen, Jahangir Alam(参考訳) 近年,顔や声が互いに密接な関連性を共有しているため,音声・視覚融合による個人認証や身元確認が注目されている。 従来の音声-視覚融合に基づくアプローチは、スコアレベルまたは初期特徴レベルの融合技術に依存している。 既存のアプローチはユニモーダルシステムよりも改善が見られたが、人物認証のための音声と視覚の融合の可能性は完全には活用されていない。 本稿では,音声と視覚のモーダル間におけるモーダル間関係を効果的に把握する可能性について検討し,ユニモーダルシステムにおける融合性能の大幅な向上に重要な役割を果たしている。 特に,共用音声・視覚的特徴表現を相互意図の枠組みで再帰的に活用し,モーダル内およびモーダル間関係を効果的に捉えることのできる特徴表現を段階的に洗練する,連用相互意図モデルの再帰的融合を導入する。 また,音声・視覚特徴表現の時間的モデリングを改善するため,BLSTMについても検討した。 提案モデルを評価するためにvoxceleb1データセットを広範囲に実験した。 提案モデルは,オーディオと視覚のモダリティ間でのモーダル内およびモーダル間関係を適切に捉えることにより,融合性能の向上が期待できることを示す。

Person or identity verification has been recently gaining a lot of attention using audio-visual fusion as faces and voices share close associations with each other. Conventional approaches based on audio-visual fusion rely on score-level or early feature-level fusion techniques. Though existing approaches showed improvement over unimodal systems, the potential of audio-visual fusion for person verification is not fully exploited. In this paper, we have investigated the prospect of effectively capturing both the intra- and inter-modal relationships across audio and visual modalities, which can play a crucial role in significantly improving the fusion performance over unimodal systems. In particular, we introduce a recursive fusion of a joint cross-attentional model, where a joint audio-visual feature representation is employed in the cross-attention framework in a recursive fashion to progressively refine the feature representations that can efficiently capture the intra-and inter-modal relationships. To further enhance the audio-visual feature representations, we have also explored BLSTMs to improve the temporal modeling of audio-visual feature representations. Extensive experiments are conducted on the Voxceleb1 dataset to evaluate the proposed model. Results indicate that the proposed model shows promising improvement in fusion performance by adeptly capturing the intra-and inter-modal relationships across audio and visual modalities.
翻訳日:2024-03-08 13:26:17 公開日:2024-03-07
# 非単位動的進化の量子可能シミュレーションのための変分アンサッツの設計-Dicke supperradianceへの探索

Designing variational ansatz for quantum-enabled simulation of non-unitary dynamical evolution- an excursion into Dicke supperradiance ( http://arxiv.org/abs/2403.04653v1 )

ライセンス: Link先を確認
Saurabh Shivpuje, Manas Sajjan, Yuchen Wang, Zixuan Hu and Sabre Kais(参考訳) Adaptive Variational Quantum Dynamics (AVQD)アルゴリズムは、オープン量子力学進化のパービュー内で処理されたシステムに対して量子可能なソリューションを提供するための有望なアプローチを提供する。 本研究では、AVQDの非制限ベクトル化変種を用いて、様々な非単位進化系をシミュレートし、ベンチマークする。 我々は、FMO(Fenna Matthews Olson complex)や量子光学の置換不変ディックモデル(Dicke model of quantum optics)などの例を分析するために、表現可能なアンザッツユニタリと関連する作用素プールの構成をどのように実装できるかを例示する。 さらに,ansatzの効率的な分解手法を示し,その応用範囲を近い将来,他の広い範囲の量子システムシナリオにも拡張する。 いずれの場合においても、この手法の有効性を高める正確な数値計算と良好に一致している。 私たちの成功例は、光収穫装置や熱、オプト・メカニカルスイッチなど、化学や物理学の複雑なシステムを研究するために、この適応的な変奏法を活用するための道を開いたものです。

Adaptive Variational Quantum Dynamics (AVQD) algorithms offer a promising approach to providing quantum-enabled solutions for systems treated within the purview of open quantum dynamical evolution. In this study, we employ the unrestricted vectorization variant of AVQD to simulate and benchmark various non-unitarily evolving systems. We exemplify how construction of an expressible ansatz unitary and the associated operator pool can be implemented to analyze examples such as the Fenna Matthews Olson complex (FMO) and even the permutational invariant Dicke model of quantum optics. We furthermore show an efficient decomposition scheme for the ansatz used, which can extend its applications to a wide range of other open quantum system scenarios in near future. In all cases the results obtained are in excellent agreement with exact numerical computations which bolsters the effectiveness of this technique. Our successful demonstrations pave the way for utilizing this adaptive variational technique to study complex systems in chemistry and physics, like light harvesting devices, thermal, and opto mechanical switches, to name a few.
翻訳日:2024-03-08 13:25:55 公開日:2024-03-07
# Yi: 01.AIによるオープンファンデーションモデル

Yi: Open Foundation Models by 01.AI ( http://arxiv.org/abs/2403.04652v1 )

ライセンス: Link先を確認
01.AI: Alex Young, Bei Chen, Chao Li, Chengen Huang, Ge Zhang, Guanwei Zhang, Heng Li, Jiangcheng Zhu, Jianqun Chen, Jing Chang, Kaidong Yu, Peng Liu, Qiang Liu, Shawn Yue, Senbin Yang, Shiming Yang, Tao Yu, Wen Xie, Wenhao Huang, Xiaohui Hu, Xiaoyi Ren, Xinyao Niu, Pengcheng Nie, Yuchi Xu, Yudong Liu, Yue Wang, Yuxuan Cai, Zhenyu Gu, Zhiyuan Liu, Zonghong Dai(参考訳) 我々は,強力な多次元能力を示す一連の言語およびマルチモーダルモデルであるyiモデルファミリを紹介する。 Yi モデルは 6B と 34B の事前訓練言語モデルに基づいており、チャットモデル、200K 長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。 当社のベースモデルは、mmluのような幅広いベンチマークで強力なパフォーマンスを達成し、alpacaevalやchatbot arenaといった主要な評価プラットフォームで、微調整されたチャットモデルが強力な人間好み率を提供します。 スケーラブルなスーパーコンピューティングインフラストラクチャと古典的なトランスフォーマーアーキテクチャを基盤として、Yiモデルの性能は、主にデータエンジニアリングの取り組みによるデータ品質に起因しています。 事前学習のために,逐次データ重複と品質フィルタリングパイプラインを用いて,英語と中国語コーパスの3.1兆トークンを構築する。 微調整には、複数のイテレーションで小さな(10K未満)命令データセットを精査し、すべてのインスタンスが機械学習エンジニアによって直接検証されるようにします。 視覚言語については、チャット言語モデルと視覚トランスフォーマーエンコーダを組み合わせることで、視覚表現を言語モデルの意味空間に合わせるようにモデルを訓練する。 さらに, 軽量な連続的事前学習により, コンテキスト長を200kまで拡張し, 強力なニードル・イン・ア・ヘイスタック検索性能を示す。 継続事前学習により事前学習したチェックポイントの深さを延ばすことにより,さらなる性能向上が期待できる。 現在の結果を考えると、高度に最適化されたデータを使用してモデルパラメータをスケールアップし続けることが、より強力なフロンティアモデルにつながると考えています。

We introduce the Yi model family, a series of language and multimodal models that demonstrate strong multi-dimensional capabilities. The Yi model family is based on 6B and 34B pretrained language models, then we extend them to chat models, 200K long context models, depth-upscaled models, and vision-language models. Our base models achieve strong performance on a wide range of benchmarks like MMLU, and our finetuned chat models deliver strong human preference rate on major evaluation platforms like AlpacaEval and Chatbot Arena. Building upon our scalable super-computing infrastructure and the classical transformer architecture, we attribute the performance of Yi models primarily to its data quality resulting from our data-engineering efforts. For pretraining, we construct 3.1 trillion tokens of English and Chinese corpora using a cascaded data deduplication and quality filtering pipeline. For finetuning, we polish a small scale (less than 10K) instruction dataset over multiple iterations such that every single instance has been verified directly by our machine learning engineers. For vision-language, we combine the chat language model with a vision transformer encoder and train the model to align visual representations to the semantic space of the language model. We further extend the context length to 200K through lightweight continual pretraining and demonstrate strong needle-in-a-haystack retrieval performance. We show that extending the depth of the pretrained checkpoint through continual pretraining further improves performance. We believe that given our current results, continuing to scale up model parameters using thoroughly optimized data will lead to even stronger frontier models.
翻訳日:2024-03-08 13:25:29 公開日:2024-03-07
# コンテキストベースマルチモーダル融合

Context-Based Multimodal Fusion ( http://arxiv.org/abs/2403.04650v1 )

ライセンス: Link先を確認
Bilal Faye, Hanane Azzag, Mustapha Lebbah, Djamel Bouchaffra(参考訳) 異なるソースからの情報を効果的に組み合わせた融合モデルは、マルチモーダルタスクの解決に広く利用されている。 しかし、異なるモダリティ間でのデータ分散を調整することには、大きな制限がある。 この課題は、堅牢な表現を学ぶ上での矛盾と困難につながる可能性がある。 アライメントモデルは、特にこの問題に対処しながら、リソースと時間の観点からはコストがかかるが、最適な結果を得るためには、大きなデータセットで「スクラッチから」トレーニングする必要があることが多い。 これらの制約を克服するために,モダリティ融合とデータ分散アライメントを組み合わせたContext-based Multimodal Fusion (CBMF) と呼ばれる革新的なモデルを提案する。 CBMFでは、各モダリティは特定のコンテキストベクトルによって表現され、各モダリティの埋め込みと融合する。 これにより、凍結可能な大規模な事前学習モデルの使用が可能になり、計算およびトレーニングデータ要求が削減される。 さらに、ネットワークはコンテキストとの融合を通じて異なるモーダルの埋め込みを区別することを学び、自己教師型学習のための対照的なアプローチを用いてデータ分布を整列する。 したがって、CBMFは複雑なマルチモーダルタスクを解決するための効果的で経済的ソリューションを提供する。

The fusion models, which effectively combine information from different sources, are widely used in solving multimodal tasks. However, they have significant limitations related to aligning data distributions across different modalities. This challenge can lead to inconsistencies and difficulties in learning robust representations. Alignment models, while specifically addressing this issue, often require training "from scratch" with large datasets to achieve optimal results, which can be costly in terms of resources and time. To overcome these limitations, we propose an innovative model called Context-Based Multimodal Fusion (CBMF), which combines both modality fusion and data distribution alignment. In CBMF, each modality is represented by a specific context vector, fused with the embedding of each modality. This enables the use of large pre-trained models that can be frozen, reducing the computational and training data requirements. Additionally, the network learns to differentiate embeddings of different modalities through fusion with context and aligns data distributions using a contrastive approach for self-supervised learning. Thus, CBMF offers an effective and economical solution for solving complex multimodal tasks.
翻訳日:2024-03-08 13:25:00 公開日:2024-03-07
# 連続監視量子システムに対するオンライン最大度パラメータ推定

Online Maximum Likelihood Parameter Estimation for Continuously-Monitored Quantum Systems ( http://arxiv.org/abs/2403.04648v1 )

ライセンス: Link先を確認
Henrik Glavind Clausen, Pierre Rouchon and Rafal Wisniewski(参考訳) 本研究では,量子力学系における量子軌道に沿った静的パラメータやスローvaryingパラメータのオンライン(リアルタイム,シングルショット)推定の問題を考える。 連続監視量子システムの計測信号に基づいて,log-likelihood関数を用いた確率的勾配上昇に基づくアプローチを用いて,未知パラメータの最大推定値を計算する再帰的アルゴリズムを提案する。 離散時間と連続時間の両方でアルゴリズムを定式化し、複数のパラメータを同時に追跡できるホモダイン測定を行う単純な2レベルシステムのシミュレーションにより、アルゴリズムの性能を示す。

In this work, we consider the problem of online (real-time, single-shot) estimation of static or slow-varying parameters along quantum trajectories in quantum dynamical systems. Based on the measurement signal of a continuously-monitored quantum system, we propose a recursive algorithm for computing the maximum likelihood estimate of unknown parameters using an approach based on stochastic gradient ascent on the log-likelihood function. We formulate the algorithm in both discrete-time and continuous-time and illustrate the performance of the algorithm through simulations of a simple two-level system undergoing homodyne measurement from which we are able to track multiple parameters simultaneously.
翻訳日:2024-03-08 13:24:41 公開日:2024-03-07
# QAQ: LLM KVキャッシュの品質適応量子化

QAQ: Quality Adaptive Quantization for LLM KV Cache ( http://arxiv.org/abs/2403.04643v1 )

ライセンス: Link先を確認
Shichen Dong, Wen Cheng, Jiayu Qin, Wei Wang(参考訳) LLMの出現は、特に質問応答システムやテキスト生成といった分野において、NLPアプリケーションにおける突破口の急増に火をつけた。 長いコンテキストの必要性が増大するにつれて、コンテキスト長のキーバリュー(KV)キャッシュが線形に拡張されるため、モデルデプロイメントの重大なボトルネックが発生する。 既存の方法は、KVキャッシュを圧縮し、モデルスループットを改善するために、置換や消去のために注意スコアに基づいてKVキャッシュをソートするなど、様々な仮説に依存している。 しかし、これらの戦略で使用されるヒューリスティックスは、重要なKVキャッシュを誤って排除し、モデル性能を著しく低下させる可能性がある。 本稿では,KVキャッシュの品質適応量子化方式QAQを提案する。 理論上,キーキャッシュと値キャッシュは量子化に対して異なる感度を示し,非一様量子化のための分離量子化戦略を定式化する。 専用のアウトラヤハンドリングの統合と、注意認識アプローチの改善により、QAQは、モデルパフォーマンスに無視可能な影響で、KVキャッシュサイズの最大10倍の圧縮比を達成する。 QAQはLLMをデプロイする際の現実的なハードルを大幅に減らし、より長いコンテキストアプリケーションに新たな可能性を開く。 コードはgithub.com/ClubieDong/KVCacheQuantizationで入手できる。

The emergence of LLMs has ignited a fresh surge of breakthroughs in NLP applications, particularly in domains such as question-answering systems and text generation. As the need for longer context grows, a significant bottleneck in model deployment emerges due to the linear expansion of the Key-Value (KV) cache with the context length. Existing methods primarily rely on various hypotheses, such as sorting the KV cache based on attention scores for replacement or eviction, to compress the KV cache and improve model throughput. However, heuristics used by these strategies may wrongly evict essential KV cache, which can significantly degrade model performance. In this paper, we propose QAQ, a Quality Adaptive Quantization scheme for the KV cache. We theoretically demonstrate that key cache and value cache exhibit distinct sensitivities to quantization, leading to the formulation of separate quantization strategies for their non-uniform quantization. Through the integration of dedicated outlier handling, as well as an improved attention-aware approach, QAQ achieves up to 10x the compression ratio of the KV cache size with a neglectable impact on model performance. QAQ significantly reduces the practical hurdles of deploying LLMs, opening up new possibilities for longer-context applications. The code is available at github.com/ClubieDong/KVCacheQuantization.
翻訳日:2024-03-08 13:24:31 公開日:2024-03-07
# 強化学習による推論への大規模言語モデル教育

Teaching Large Language Models to Reason with Reinforcement Learning ( http://arxiv.org/abs/2403.04642v1 )

ライセンス: Link先を確認
Alex Havrilla, Yuqing Du, Sharath Chandra Raparthy, Christoforos Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi, Eric Hambro, Sainbayar Sukhbaatar, Roberta Raileanu(参考訳) Reinforcement Learning from Human Feedback (\textbf{RLHF}) は、LLM出力と人間の嗜好を整合させる主要なアプローチとして登場した。 RLHFの成功にインスパイアされた我々は、LLM推論能力を改善するために、フィードバック(Expert Iteration, Proximal Policy Optimization (\textbf{PPO}), Return-Conditioned RL)から学習する複数のアルゴリズムの性能について検討した。 学習報酬モデルを用いて, LLMに与えられた疎度と密度な報酬の両方について検討した。 さらに、教師付き微調整(\textbf{SFT})データとともに、複数のモデルサイズと初期化から始める。 全体として、すべてのアルゴリズムが比較可能であり、ほとんどの場合、エキスパートイテレーションが最善である。 驚くべきことに、Expert Iterationのサンプルの複雑さはPPOのそれと似ており、事前訓練されたチェックポイントから収束するためには、少なくとも10^6$のサンプルのオーダーが必要である。 このような理由を考察し、RLトレーニングモデルにおいて、既にSFTモデルによって作成されているソリューションをはるかに超えていないことを結論づける。 さらに、SFTトレーニング中のmaj@1とpass@96のメトリックパフォーマンスのトレードオフと、逆RLトレーニングが同時にどのように改善するかについても論じる。 LLM微調整におけるRLHFの意義とRLの役割について考察した。

Reinforcement Learning from Human Feedback (\textbf{RLHF}) has emerged as a dominant approach for aligning LLM outputs with human preferences. Inspired by the success of RLHF, we study the performance of multiple algorithms that learn from feedback (Expert Iteration, Proximal Policy Optimization (\textbf{PPO}), Return-Conditioned RL) on improving LLM reasoning capabilities. We investigate both sparse and dense rewards provided to the LLM both heuristically and via a learned reward model. We additionally start from multiple model sizes and initializations both with and without supervised fine-tuning (\textbf{SFT}) data. Overall, we find all algorithms perform comparably, with Expert Iteration performing best in most cases. Surprisingly, we find the sample complexity of Expert Iteration is similar to that of PPO, requiring at most on the order of $10^6$ samples to converge from a pretrained checkpoint. We investigate why this is the case, concluding that during RL training models fail to explore significantly beyond solutions already produced by SFT models. Additionally, we discuss a trade off between maj@1 and pass@96 metric performance during SFT training and how conversely RL training improves both simultaneously. We then conclude by discussing the implications of our findings for RLHF and the future role of RL in LLM fine-tuning.
翻訳日:2024-03-08 13:24:08 公開日:2024-03-07
# cat: 動的音声・視覚シナリオの質問に答えるマルチモーダル大規模言語モデルの拡張

CAT: Enhancing Multimodal Large Language Model to Answer Questions in Dynamic Audio-Visual Scenarios ( http://arxiv.org/abs/2403.04640v1 )

ライセンス: Link先を確認
Qilang Ye, Zitong Yu, Rui Shao, Xinyu Xie, Philip Torr, Xiaochun Cao(参考訳) 本稿では、リッチで複雑な動的オーディオ・ビジュアルコンポーネントからなるシナリオにおける質問に答える課題に焦点を当てる。 既存のMultimodal Large Language Models (MLLM) は、音声・視覚コンテンツに応答できるが、これらの応答は曖昧であり、特定の音声・視覚イベントを記述できないことがある。 この制限を克服するために,MLLM を3つの方法で強化する CAT を導入する。 1) 音声とビデオを直接ブリッジする以外に, 動的視覚シナリオにおける質問関連手がかりを集約して, 大規模言語モデルに必要な詳細な知識を充実させる, 手がかり集約器を設計する。 2) CATは混在したマルチモーダルデータセットで訓練されており,オーディオ・視覚シナリオに直接適用することができる。 特に,AVinstruct という音声-視覚共同指導データセットを収集し,CAT の相互相関をモデル化する能力をさらに強化する。 3) 非曖昧性応答を優先するモデルの再トレーニングと,特定の視聴覚オブジェクトのローカライズを改善するための戦略である,ai支援の曖昧性認識直接選好最適化を提案する。 CATは,特にAVQA(Audio-Visual Question Answering)タスクにおいて,マルチモーダルタスクにおける既存の手法よりも優れていることを示す。 コードはhttps://github.com/rikeilong/Bay-CATで公開されている。

This paper focuses on the challenge of answering questions in scenarios that are composed of rich and complex dynamic audio-visual components. Although existing Multimodal Large Language Models (MLLMs) can respond to audio-visual content, these responses are sometimes ambiguous and fail to describe specific audio-visual events. To overcome this limitation, we introduce the CAT, which enhances MLLM in three ways: 1) besides straightforwardly bridging audio and video, we design a clue aggregator that aggregates question-related clues in dynamic audio-visual scenarios to enrich the detailed knowledge required for large language models. 2) CAT is trained on a mixed multimodal dataset, allowing direct application in audio-visual scenarios. Notably, we collect an audio-visual joint instruction dataset named AVinstruct, to further enhance the capacity of CAT to model cross-semantic correlations. 3) we propose AI-assisted ambiguity-aware direct preference optimization, a strategy specialized in retraining the model to favor the non-ambiguity response and improve the ability to localize specific audio-visual objects. Extensive experimental results demonstrate that CAT outperforms existing methods on multimodal tasks, especially in Audio-Visual Question Answering (AVQA) tasks. The codes and the collected instructions are released at https://github.com/rikeilong/Bay-CAT.
翻訳日:2024-03-08 13:23:40 公開日:2024-03-07
# macms: 感情分析のためのmagahi code-mixedデータセット

MaCmS: Magahi Code-mixed Dataset for Sentiment Analysis ( http://arxiv.org/abs/2403.04639v1 )

ライセンス: Link先を確認
Priya Rani, Gaurav Negi, Theodorus Fransen, John P. McCrae(参考訳) 本稿では,magahiが少ないマイノリティ言語であるmagahi-hindi- english (mhe) code-mixed languageの新しい感情データであるmacmsを紹介する。 このデータセットは、感情分析タスクのための最初のMagahi-Hindi-Englishコードミックスデータセットである。 さらに,コード混合の構造を理解するためのデータセットの言語解析や,異なる極性を持つ話者の言語嗜好を理解するための統計的研究も提供する。 これらの分析により、データセットの品質を評価するためのベースラインモデルのトレーニングも行う。

The present paper introduces new sentiment data, MaCMS, for Magahi-Hindi-English (MHE) code-mixed language, where Magahi is a less-resourced minority language. This dataset is the first Magahi-Hindi-English code-mixed dataset for sentiment analysis tasks. Further, we also provide a linguistics analysis of the dataset to understand the structure of code-mixing and a statistical study to understand the language preferences of speakers with different polarities. With these analyses, we also train baseline models to evaluate the dataset's quality.
翻訳日:2024-03-08 13:23:13 公開日:2024-03-07
# グラフニューラルネットワークにおけるエントロピー認識メッセージパッシング

Entropy Aware Message Passing in Graph Neural Networks ( http://arxiv.org/abs/2403.04636v1 )

ライセンス: Link先を確認
Philipp Nazari, Oliver Lemke, Davide Guidobene, Artiom Gesp(参考訳) Deep Graph Neural Networksはオーバースムーシングに苦戦している。 本稿では,この問題を緩和するために,物理に着想を得た新しいGNNモデルを提案する。 提案手法は既存のGNNアーキテクチャと統合し,エントロピー対応のメッセージパッシング項を導入する。 この用語は、ノードアグリゲーション中のエントロピーの勾配上昇を行い、埋め込みにおけるある程度のエントロピーを保存する。 我々は,様々な共通データセットにおける最先端gnnとの比較分析を行う。

Deep Graph Neural Networks struggle with oversmoothing. This paper introduces a novel, physics-inspired GNN model designed to mitigate this issue. Our approach integrates with existing GNN architectures, introducing an entropy-aware message passing term. This term performs gradient ascent on the entropy during node aggregation, thereby preserving a certain degree of entropy in the embeddings. We conduct a comparative analysis of our model against state-of-the-art GNNs across various common datasets.
翻訳日:2024-03-08 13:23:03 公開日:2024-03-07
# Pix2Gif:GIF生成のためのモーションガイド付き拡散

Pix2Gif: Motion-Guided Diffusion for GIF Generation ( http://arxiv.org/abs/2403.04634v1 )

ライセンス: Link先を確認
Hitesh Kandala, Jianfeng Gao, Jianwei Yang(参考訳) 画像からGIF(ビデオ)生成のための移動誘導拡散モデルPix2Gifを提案する。 そこで本研究では,提案手法が動作誘導に準拠することを保証するため,テクストと動き大小プロンプトによる画像翻訳問題としてタスクを定式化し,これら2種類のプロンプトに条件づけられた音源画像の特徴を空間的に変換する新しいモーションガイド型ワーピングモジュールを提案する。 さらに,変換された特徴マップを対象画像と同じ空間に残し,コンテンツの一貫性と一貫性を確保するための知覚的損失を導入する。 モデル学習に備えて, tgifビデオキャプチャデータセットからコヒーレントな画像フレームを抽出し, 被験者の時間変化に関する豊富な情報を提供する。 事前トレーニング後、多数のビデオデータセットに対してゼロショット方式でモデルを適用します。 広範な質的・定量的実験により,本モデルの有効性が示された。テキストから意味的プロンプトをキャプチャするだけでなく,運動指導から空間的プロンプトをキャプチャする。 16xv100 gpuの単一ノードを使って、すべてのモデルをトレーニングします。 コード、データセット、モデルは、https://hiteshk03.github.io/Pix2Gif/で公開されています。

We present Pix2Gif, a motion-guided diffusion model for image-to-GIF (video) generation. We tackle this problem differently by formulating the task as an image translation problem steered by text and motion magnitude prompts, as shown in teaser fig. To ensure that the model adheres to motion guidance, we propose a new motion-guided warping module to spatially transform the features of the source image conditioned on the two types of prompts. Furthermore, we introduce a perceptual loss to ensure the transformed feature map remains within the same space as the target image, ensuring content consistency and coherence. In preparation for the model training, we meticulously curated data by extracting coherent image frames from the TGIF video-caption dataset, which provides rich information about the temporal changes of subjects. After pretraining, we apply our model in a zero-shot manner to a number of video datasets. Extensive qualitative and quantitative experiments demonstrate the effectiveness of our model -- it not only captures the semantic prompt from text but also the spatial ones from motion guidance. We train all our models using a single node of 16xV100 GPUs. Code, dataset and models are made public at: https://hiteshk03.github.io/Pix2Gif/.
翻訳日:2024-03-08 13:22:56 公開日:2024-03-07
# 共有値によるベイズ最適化の解説と人間とAIの連携

Explaining Bayesian Optimization by Shapley Values Facilitates Human-AI Collaboration ( http://arxiv.org/abs/2403.04629v1 )

ライセンス: Link先を確認
Julian Rodemann, Federico Croppi, Philipp Arens, Yusuf Sale, Julia Herbinger, Bernd Bischl, Eyke H\"ullermeier, Thomas Augustin, Conor J. Walsh, Giuseppe Casalicchio(参考訳) ガウス過程(GP)を用いたベイズ最適化(BO)はブラックボックス最適化問題にとって必須のアルゴリズムとなっている。 皮肉なことに、BOはブラックボックス自体と見なされることが多く、なぜ特定のパラメータが評価されるかについての理由を提供する方法がない。 これは、ロボット工学のようなBOの人間とループの応用に特に関係している。 本稿では,BOの獲得関数に対する各パラメータの寄与を定量化するために,ゲーム理論のShapley値を用いてBOの提案を解釈するフレームワークであるShapleyBOを提案する。 さらに,Shapley値の線形性をエクスプロイトすることで,信頼性境界のような付加的獲得関数に対するBOの探索と利用を,各パラメータがいかに強く推し進めるかを明らかにすることができる。 また、ShapleyBOは、アレタリックおよびてんかん不確実性を探究する人々への探索への貢献を解消できることを示す。 さらに,提案手法はシャプレーボ支援型ヒューマンマシンインタフェース(hmi)を生み出しており,提案が人間の推論と一致しない場合,ユーザがboに干渉できる。 我々は、このHMIのメリットを、人間のループBOによってウェアラブルロボットデバイス(補助バックエクソスーツ)をパーソナライズするユースケースとして示す。 結果から,ShapleyBOにアクセス可能な人間-BOチームは,無関係のチームよりも後悔度が低いことが示唆された。

Bayesian optimization (BO) with Gaussian processes (GP) has become an indispensable algorithm for black box optimization problems. Not without a dash of irony, BO is often considered a black box itself, lacking ways to provide reasons as to why certain parameters are proposed to be evaluated. This is particularly relevant in human-in-the-loop applications of BO, such as in robotics. We address this issue by proposing ShapleyBO, a framework for interpreting BO's proposals by game-theoretic Shapley values.They quantify each parameter's contribution to BO's acquisition function. Exploiting the linearity of Shapley values, we are further able to identify how strongly each parameter drives BO's exploration and exploitation for additive acquisition functions like the confidence bound. We also show that ShapleyBO can disentangle the contributions to exploration into those that explore aleatoric and epistemic uncertainty. Moreover, our method gives rise to a ShapleyBO-assisted human machine interface (HMI), allowing users to interfere with BO in case proposals do not align with human reasoning. We demonstrate this HMI's benefits for the use case of personalizing wearable robotic devices (assistive back exosuits) by human-in-the-loop BO. Results suggest human-BO teams with access to ShapleyBO can achieve lower regret than teams without.
翻訳日:2024-03-08 13:22:34 公開日:2024-03-07
# 未知ユニタリ進化の反転における量子優位

Quantum Advantage in Reversing Unknown Unitary Evolutions ( http://arxiv.org/abs/2403.04704v1 )

ライセンス: Link先を確認
Yu-Ao Chen, Yin Mo, Yingjian Liu, Lei Zhang, Xin Wang(参考訳) 我々は、$\mathcal{O}(d^2)$呼び出しを使って任意の未知のユニタリ変換を普遍的に反転させる決定論的かつ正確な方法である量子ユニタリ逆アルゴリズム(QURA)を導入し、$d$はシステム次元である。 この構成は、閉量子系における時間反転シミュレーションの根本的な問題を、正確な過程を知らずに任意のユニタリ進化を反転する可能性を証明することによって解決する。 このアルゴリズムはまた、量子特異値変換のような量子アルゴリズムフレームワークにおけるユニタリ反転のための鍵オラクルの構築も提供する。 我々の研究は、プロセストモグラフィーに依存する古典的な手法と比較して、量子コンピュータ上の未知のユニタリを逆転させることは、計算複雑性において二次的な量子優位性を持つことを示した。 qura は完全ユニタリ変換を保証するが、古典代名詞は有限個のユニタリ呼び出しを使って完全ユニタリ変換を成すことはできない。

We introduce the Quantum Unitary Reversal Algorithm (QURA), a deterministic and exact approach to universally reverse arbitrary unknown unitary transformations using $\mathcal{O}(d^2)$ calls of the unitary, where $d$ is the system dimension. Our construction resolves a fundamental problem of time-reversal simulations for closed quantum systems by affirming the feasibility of reversing any unitary evolution without knowing the exact process. The algorithm also provides the construction of a key oracle for unitary inversion in quantum algorithm frameworks such as quantum singular value transformation. Notably, our work demonstrates that compared with classical methods relying on process tomography, reversing an unknown unitary on a quantum computer holds a quadratic quantum advantage in computation complexity. QURA ensures an exact unitary inversion while the classical counterpart can never achieve exact inversion using a finite number of unitary calls.
翻訳日:2024-03-08 13:17:38 公開日:2024-03-07
# ObjectCompose: 対象-背景構成変化に対するビジョンベースモデルのレジリエンスの評価

ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes ( http://arxiv.org/abs/2403.04701v1 )

ライセンス: Link先を確認
Hashmat Shadab Malik, Muhammad Huzaifa, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan(参考訳) 最近のビジョンベースモデルとその一般化能力の大規模マルチモーダルトレーニングを考えると、その堅牢さの程度を理解することは、現実のデプロイメントには不可欠である。 本研究では,現状のビジョンに基づくモデルの多様なオブジェクト間コンテキスト変動に対する弾力性を評価する。 多くのロバスト性評価手法は、対象特性(視点、スケール、色)の変化を誘導する合成データセットを導入し、実際の画像上の画像変換技術(逆転、一般的な腐敗)を用いて分布の変化をシミュレートしている。 近年、大きな言語モデルと拡散モデルを利用して背景の変化を発生させる研究が行われている。 しかしながら、これらのメソッドは変更を制御できないか、オブジェクトのセマンティクスを歪めているため、タスクには適さない。 一方,本手法では,オブジェクトの本来の意味や外観を保ちながら,多様なオブジェクト間変化を誘発することができる。 この目的を達成するために、テキストから画像への生成機能、画像からテキストへの生成機能、画像からセグメントへの生成機能を利用して、さまざまなオブジェクトから背景への変更を自動的に生成する。 テキストのプロンプトを変更したり,テキストから画像への埋め込みを最適化したりすることで,自然背景と敵対的背景の変化を誘発する。 これにより、ディープニューラルネットワークの堅牢性と一般化を理解する上で、背景コンテキストの役割を定量化することができる。 標準視覚データセット(ImageNet, COCO)の様々なバージョンを作成し、多様な背景と現実的な背景を画像に組み込んだり、背景に色、テクスチャ、敵対的な変化を導入したりします。 我々は,様々なタスクにまたがる物体間コンテキストの変動に対して,視覚に基づくモデルのロバスト性を分析するための広範囲な実験を行う。

Given the large-scale multi-modal training of recent vision-based models and their generalization capabilities, understanding the extent of their robustness is critical for their real-world deployment. In this work, we evaluate the resilience of current vision-based models against diverse object-to-background context variations. The majority of robustness evaluation methods have introduced synthetic datasets to induce changes to object characteristics (viewpoints, scale, color) or utilized image transformation techniques (adversarial changes, common corruptions) on real images to simulate shifts in distributions. Recent works have explored leveraging large language models and diffusion models to generate changes in the background. However, these methods either lack in offering control over the changes to be made or distort the object semantics, making them unsuitable for the task. Our method, on the other hand, can induce diverse object-to-background changes while preserving the original semantics and appearance of the object. To achieve this goal, we harness the generative capabilities of text-to-image, image-to-text, and image-to-segment models to automatically generate a broad spectrum of object-to-background changes. We induce both natural and adversarial background changes by either modifying the textual prompts or optimizing the latents and textual embedding of text-to-image models. This allows us to quantify the role of background context in understanding the robustness and generalization of deep neural networks. We produce various versions of standard vision datasets (ImageNet, COCO), incorporating either diverse and realistic backgrounds into the images or introducing color, texture, and adversarial changes in the background. We conduct extensive experiment to analyze the robustness of vision-based models against object-to-background context variations across diverse tasks.
翻訳日:2024-03-08 13:17:21 公開日:2024-03-07
# muti-object 追跡のための軌道長尾分布の検討

Delving into the Trajectory Long-tail Distribution for Muti-object Tracking ( http://arxiv.org/abs/2403.04700v1 )

ライセンス: Link先を確認
Sijia Chen, En Yu, Jinyang Li, Wenbing Tao(参考訳) マルチオブジェクト追跡(MOT)はコンピュータビジョンにおいて重要な領域であり、幅広い実践的実装がある。 現在の研究は主に追跡アルゴリズムの開発と後処理技術の強化に焦点を当てている。 しかし、それ自身を追跡するデータの性質について、徹底的な調査が欠落している。 本研究では、追跡データの分布パターンを探索し、既存のMOTデータセットにおける顕著な長期分布問題を特定する。 異なる歩行者にまたがる軌道長の分布が著しく不均衡であることに留意し、この現象を「ペデストリアンの軌道長尾分布」と呼ぶ。 この課題に対処するために,我々は,この歪んだ分布の影響を軽減するために設計された自発的な戦略を導入する。 具体的には,SVA(Stationary Camera View Data Augmentation)とDVA(Dynamic Camera View Data Augmentation)の2つのデータ拡張戦略を提案する。 SVAは、テールクラスの歩行者軌道をバックトラックし予測することであり、DVAは拡散モデルを使用してシーンの背景を変更することである。 GSは歩行者を無関係のグループに分け、各グループでソフトマックス操作を行う。 提案手法は,多数の既存のトラッキングシステムに組み込むことが可能であり,多目的トラッキング性能に対する長期分布の影響を低減させるため,提案手法の有効性を検証した。 コードはhttps://github.com/chen-si-jia/Trajectory-Long-tail-Distribution-for-MOTで公開されている。

Multiple Object Tracking (MOT) is a critical area within computer vision, with a broad spectrum of practical implementations. Current research has primarily focused on the development of tracking algorithms and enhancement of post-processing techniques. Yet, there has been a lack of thorough examination concerning the nature of tracking data it self. In this study, we pioneer an exploration into the distribution patterns of tracking data and identify a pronounced long-tail distribution issue within existing MOT datasets. We note a significant imbalance in the distribution of trajectory lengths across different pedestrians, a phenomenon we refer to as "pedestrians trajectory long-tail distribution". Addressing this challenge, we introduce a bespoke strategy designed to mitigate the effects of this skewed distribution. Specifically, we propose two data augmentation strategies, including Stationary Camera View Data Augmentation (SVA) and Dynamic Camera View Data Augmentation (DVA) , designed for viewpoint states and the Group Softmax (GS) module for Re-ID. SVA is to backtrack and predict the pedestrian trajectory of tail classes, and DVA is to use diffusion model to change the background of the scene. GS divides the pedestrians into unrelated groups and performs softmax operation on each group individually. Our proposed strategies can be integrated into numerous existing tracking systems, and extensive experimentation validates the efficacy of our method in reducing the influence of long-tail distribution on multi-object tracking performance. The code is available at https://github.com/chen-si-jia/Trajectory-Long-tail-Distribution-for-MOT.
翻訳日:2024-03-08 13:16:48 公開日:2024-03-07
# エルゴトロピーと環境誘起作業のダイナミクス

Dynamics of ergotropy and environment-induced work ( http://arxiv.org/abs/2403.04698v1 )

ライセンス: Link先を確認
J. M. Z. Choquehuanca, P. A. C. Obando, F. M. de Paula, M. S. Sarandy(参考訳) マルコフ系および非マルコフ系における開系におけるエルゴトロピーのダイナミクスについて検討する。 このシナリオでは、エネルギーとコヒーレンスの観点から任意の量子ビット状態のエルゴトロピーを定式化することから始める。 そこで本研究では, システムバス相互作用の結果, エルゴトロピー凍結とエルゴトロピー急死の条件を決定する。 オープンシステムシナリオにおける仕事の形でエネルギー抽出の資源としてエルゴトロピーを利用するために、エントロピーに基づく量子熱力学の定式化を採用する。 このアプローチでは、この作業は環境によって引き起こされる追加の構成要素となり、定数ハミルトニアンに対しても存在する可能性がある。 次に,環境誘発作業とエルゴトロピーの関係を解析的に定義し,エルゴトロピーの変動の観点から環境誘発作業の解釈を提供する。 特に、環境によって引き起こされた仕事によるエネルギー移動は、量子力学の初期状態と最後の受動的状態の間を移動するエネルギーコストによって支配される限界まで実行することができる。 非散逸的および散逸的量子過程下で進化する量子ビット状態に対するこれらの結果を示す。

We investigate the dynamics of ergotropy in open systems under Markovian and non-Markovian evolutions. In this scenario, we begin by formulating the ergotropy of an arbitrary qubit state in terms of energy and coherence. Thus, we determine the conditions for ergotropy freezing and ergotropy sudden death as a consequence of the system-bath interaction. In order to use ergotropy as a resource for energy extraction in the form of work in an open-system scenario, we adopt the entropy-based formulation of quantum thermodynamics. In this approach, the work gains an additional environment-induced component, which may be present even for constant Hamiltonians. We then establish an analytical relationship between the environment-induced work and ergotropy, providing an interpretation of environment-induced work in terms of variation of ergotropy. In particular, energy transfer by environment-induced work can be performed up to a limit, which is governed by the energy cost to transit between the initial and final passive states of the quantum dynamics. We illustrate these results for qubit states evolving under non-dissipative and dissipative quantum processes.
翻訳日:2024-03-08 13:16:24 公開日:2024-03-07
# AUFormer:視覚変換器はパラメータ効率の良い顔アクションユニット検出器

AUFormer: Vision Transformers are Parameter-Efficient Facial Action Unit Detectors ( http://arxiv.org/abs/2403.04697v1 )

ライセンス: Link先を確認
Kaishen Yuan, Zitong Yu, Xin Liu, Weicheng Xie, Huanjing Yue, Jingyu Yang(参考訳) AU(Facial Action Units)は、感情コンピューティングの領域において重要な概念であり、AU検出は常にホットな研究トピックである。 既存の方法は、少ないau注釈付きデータセットで多くの学習可能なパラメータを利用するか、実質的な追加関連データに依存するため、過剰に適合する問題に苦しんでいる。 パラメータ効率の高い転送学習(petl)は、これらの課題に対処するための有望なパラダイムを提供するが、既存の手法にはau特性の設計が欠けている。 そこで本研究では,AUFormerを導入し,新しいMixture-of-Knowledge Expert(MoKE)コラボレーション機構を提案する。 最小限の学習可能なパラメータを持つ特定のAUに固有の個々のMoKEは、まずパーソナライズされたマルチスケールおよび相関知識を統合する。 その後、MoKEは専門家グループ内の他のMoKEと協力して集約された情報を取得し、凍結したビジョントランス(ViT)に注入し、パラメータ効率の良いAU検出を実現する。 さらに,モデルがより活性化されたausに焦点を合わせ,未活性化のausの難易度を区別し,潜在的なラベル付きサンプルを破棄するよう促す,マージンマーク付き難易度重み付き非対称損失(mdwa-loss)を設計した。 ドメイン内、クロスドメイン、データ効率、マイクロ圧縮ドメインなど、さまざまな観点からの広範な実験は、AUFormerの最先端性能と堅牢な一般化能力を、追加の関連データに頼ることなく実証している。 AUFormerのコードはhttps://github.com/yuankaishen2001/AUFormerで入手できる。

Facial Action Units (AU) is a vital concept in the realm of affective computing, and AU detection has always been a hot research topic. Existing methods suffer from overfitting issues due to the utilization of a large number of learnable parameters on scarce AU-annotated datasets or heavy reliance on substantial additional relevant data. Parameter-Efficient Transfer Learning (PETL) provides a promising paradigm to address these challenges, whereas its existing methods lack design for AU characteristics. Therefore, we innovatively investigate PETL paradigm to AU detection, introducing AUFormer and proposing a novel Mixture-of-Knowledge Expert (MoKE) collaboration mechanism. An individual MoKE specific to a certain AU with minimal learnable parameters first integrates personalized multi-scale and correlation knowledge. Then the MoKE collaborates with other MoKEs in the expert group to obtain aggregated information and inject it into the frozen Vision Transformer (ViT) to achieve parameter-efficient AU detection. Additionally, we design a Margin-truncated Difficulty-aware Weighted Asymmetric Loss (MDWA-Loss), which can encourage the model to focus more on activated AUs, differentiate the difficulty of unactivated AUs, and discard potential mislabeled samples. Extensive experiments from various perspectives, including within-domain, cross-domain, data efficiency, and micro-expression domain, demonstrate AUFormer's state-of-the-art performance and robust generalization abilities without relying on additional relevant data. The code for AUFormer is available at https://github.com/yuankaishen2001/AUFormer.
翻訳日:2024-03-08 13:16:06 公開日:2024-03-07
# トークンレベル不確実性定量化による大規模言語モデルの出力のFact-Checking

Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification ( http://arxiv.org/abs/2403.04696v1 )

ライセンス: Link先を確認
Ekaterina Fadeeva, Aleksandr Rubashevskii, Artem Shelmanov, Sergey Petrakov, Haonan Li, Hamdy Mubarak, Evgenii Tsymbalov, Gleb Kuzmin, Alexander Panchenko, Timothy Baldwin, Preslav Nakov, Maxim Panov(参考訳) 大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。 このような幻覚は危険であり、生成したテキストの事実的不正確さは、出力の残りが一般的に事実であることによって隠蔽される可能性があるため、ユーザーがそれらを見つけるのは非常に困難である。 LLMを利用する現在のサービスは、通常、信頼できない世代を検出する手段を提供しない。 ここではこのギャップを埋めることを目指しています。 特に,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。 不確実性スコアは、ニューラルネットワークまたはそのレイヤの出力にカプセル化された情報を利用して、信頼できない予測を検知し、LLM出力の原子的クレームをファクトチェックすることができることを示す。 さらに,新たなトークンレベルの不確実性定量化手法を提案する。 提案手法は, モデルが表現する特定のクレーム値の不確実性のみをCCP(Crim Conditioned Probability)で測定する。 バイオグラフィー生成の課題に関する実験は、6つの異なるLLMと3つの言語に対するベースラインと比較してCCPを強く改善した。 人間の評価は、不確実性定量化に基づく事実チェックパイプラインが、外部知識を活用する事実チェックツールと競合していることを示している。

Large language models (LLMs) are notorious for hallucinating, i.e., producing erroneous claims in their output. Such hallucinations can be dangerous, as occasional factual inaccuracies in the generated text might be obscured by the rest of the output being generally factual, making it extremely hard for the users to spot them. Current services that leverage LLMs usually do not provide any means for detecting unreliable generations. Here, we aim to bridge this gap. In particular, we propose a novel fact-checking and hallucination detection pipeline based on token-level uncertainty quantification. Uncertainty scores leverage information encapsulated in the output of a neural network or its layers to detect unreliable predictions, and we show that they can be used to fact-check the atomic claims in the LLM output. Moreover, we present a novel token-level uncertainty quantification method that removes the impact of uncertainty about what claim to generate on the current step and what surface form to use. Our method Claim Conditioned Probability (CCP) measures only the uncertainty of particular claim value expressed by the model. Experiments on the task of biography generation demonstrate strong improvements for CCP compared to the baselines for six different LLMs and three languages. Human evaluation reveals that the fact-checking pipeline based on uncertainty quantification is competitive with a fact-checking tool that leverages external knowledge.
翻訳日:2024-03-08 13:15:30 公開日:2024-03-07
# 自然言語処理競争におけるシステム性能の分析

Analysis of Systems' Performance in Natural Language Processing Competitions ( http://arxiv.org/abs/2403.04693v1 )

ライセンス: Link先を確認
Sergio Nava-Mu\~noz and Mario Graff and Hugo Jair Escalante(参考訳) コンペティションは科学と技術の分野で人気を集めている。 これらのコンペにはタスクの定義、評価スコアの選択、結果検証メソッドの考案が含まれる。 標準的なシナリオでは、参加者はトレーニングセットを受け取り、オーガナイザが保持するホールドアウトデータセットのソリューションを提供する。 オーガナイザにとって重要な課題は、アルゴリズムのパフォーマンスを比較し、複数の参加者を評価し、それらをランク付けする時である。 統計ツールは、しばしばこの目的のために使用されるが、伝統的な統計手法は、システムの性能の決定的な違いを捉えるのに失敗する。 本論文は,競争結果と競争結果を統計的に分析するための評価手法について述べる。 この方法論は普遍的に適用可能なように設計されているが、分類や回帰問題を含むケーススタディとして8つの自然言語コンペティションを用いて示される。 提案手法は,修正機構との比較や信頼区間の包含など,いくつかの利点がある。 さらに,主催者が競争の難しさを評価するための指標も導入する。 本分析は,競争結果を効果的に評価するための方法論の有用性を示す。

Collaborative competitions have gained popularity in the scientific and technological fields. These competitions involve defining tasks, selecting evaluation scores, and devising result verification methods. In the standard scenario, participants receive a training set and are expected to provide a solution for a held-out dataset kept by organizers. An essential challenge for organizers arises when comparing algorithms' performance, assessing multiple participants, and ranking them. Statistical tools are often used for this purpose; however, traditional statistical methods often fail to capture decisive differences between systems' performance. This manuscript describes an evaluation methodology for statistically analyzing competition results and competition. The methodology is designed to be universally applicable; however, it is illustrated using eight natural language competitions as case studies involving classification and regression problems. The proposed methodology offers several advantages, including off-the-shell comparisons with correction mechanisms and the inclusion of confidence intervals. Furthermore, we introduce metrics that allow organizers to assess the difficulty of competitions. Our analysis shows the potential usefulness of our methodology for effectively evaluating competition results.
翻訳日:2024-03-08 13:15:07 公開日:2024-03-07
# PixArt-\Sigma:4Kテキスト・画像生成用拡散変圧器の弱間訓練

PixArt-\Sigma: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation ( http://arxiv.org/abs/2403.04692v1 )

ライセンス: Link先を確認
Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li(参考訳) 本稿では、4K解像度で画像を直接生成できるDiffusion Transformer Model~(DiT)であるPixArt-\Sigmaを紹介する。 pixart-\sigmaは、その前身であるpixart-\alphaよりも大きな進歩を示しており、非常に高い忠実度とテキストプロンプトとの整合を改善した画像を提供している。 pixart-\sigmaの重要な特徴はトレーニング効率である。 pixart-\alphaの基本的な事前トレーニングを活用することで、"weaker"ベースラインから、"weak-to-strong training"と呼ばれるプロセスである高品質データの導入による"strong"モデルへと進化します。 1) 高品質トレーニングデータ: PixArt-\Sigmaは、より正確で詳細な画像キャプションと組み合わせて、高品質な画像データを組み込む。 2)効率的なトークン圧縮: キーと値の両方を圧縮し,効率を大幅に向上し,超高解像度画像生成を容易にする,新しい注目モジュールを提案する。 これらの改善により、PixArt-\SigmaはSDXL (2.6Bパラメータ)やSD Cascade (5.1Bパラメータ)のような既存のテキスト間拡散モデルよりもモデルサイズ(0.6Bパラメータ)が大幅に小さい画像品質とユーザプロンプトアテンデンス機能を達成する。 さらに、4K画像を生成するPixArt-\Sigmaの能力は、高解像度のポスターや壁紙の作成をサポートし、映画やゲームなどの業界における高品質なビジュアルコンテンツの生産を効率的に促進する。

In this paper, we introduce PixArt-\Sigma, a Diffusion Transformer model~(DiT) capable of directly generating images at 4K resolution. PixArt-\Sigma represents a significant advancement over its predecessor, PixArt-\alpha, offering images of markedly higher fidelity and improved alignment with text prompts. A key feature of PixArt-\Sigma is its training efficiency. Leveraging the foundational pre-training of PixArt-\alpha, it evolves from the `weaker' baseline to a `stronger' model via incorporating higher quality data, a process we term "weak-to-strong training". The advancements in PixArt-\Sigma are twofold: (1) High-Quality Training Data: PixArt-\Sigma incorporates superior-quality image data, paired with more precise and detailed image captions. (2) Efficient Token Compression: we propose a novel attention module within the DiT framework that compresses both keys and values, significantly improving efficiency and facilitating ultra-high-resolution image generation. Thanks to these improvements, PixArt-\Sigma achieves superior image quality and user prompt adherence capabilities with significantly smaller model size (0.6B parameters) than existing text-to-image diffusion models, such as SDXL (2.6B parameters) and SD Cascade (5.1B parameters). Moreover, PixArt-\Sigma's capability to generate 4K images supports the creation of high-resolution posters and wallpapers, efficiently bolstering the production of high-quality visual content in industries such as film and gaming.
翻訳日:2024-03-08 13:14:52 公開日:2024-03-07
# 近傍注意の高速化:スレッドブロックレベルでの自己注意のo(n^2)コスト削減

Faster Neighborhood Attention: Reducing the O(n^2) Cost of Self Attention at the Threadblock Level ( http://arxiv.org/abs/2403.04690v1 )

ライセンス: Link先を確認
Ali Hassani, Wen-Mei Hwu, Humphrey Shi(参考訳) 近隣の注意は、それぞれのトークンの注意を隣人に限定することで、自己注意のコストを削減する。 この制限は、ウィンドウサイズと拡張係数によってパラメータ化され、線形投影と自己注意の間の潜在的な注意パターンのスペクトルを引き出す。 近隣の注意と、より一般的なスライディングウィンドウの注意パターンは、特に上位の空間(2-dと3-d)において、インフラストラクチャによって境界化されてきた。 本研究は,まず,従来のGEMM問題と同様のバッチ化問題として近所の注意を表現できることを示し,その実装を1次元,2次元の近所の注意のために行う。 これらのカーネルは、従来の1次元および2次元の近傍注意のためのナイーブカーネルと比較して、平均で895%と272%の精度向上をもたらす。 我々は、その性能と低精度スケーラビリティを束縛する、未利用の周辺注目カーネルに固有の非効率性を見出した。 また,異なる空間軸にまたがる注意の細かな制御を可能にする,融合したドット製品アテンションカーネルを適応させた,融合した近傍アテンションを開発した。 自己注意の二次的な時間の複雑さを線形な複雑さに減らすことで知られ、近隣の注意はメモリフットプリントを減少させ、記録的な半精度のレイテンシを享受できる。 我々の融合カーネルは、未利用実装における避けられない非効率を回避できた。 GEMMをベースとしたカーネルは, 平均496%, 平均113%の1-D問題に対して, 半精度しか改善していないが, 融合カーネルは平均1607%, 平均581%の1-D問題において, それぞれ改善している。

Neighborhood attention reduces the cost of self attention by restricting each token's attention span to its nearest neighbors. This restriction, parameterized by a window size and dilation factor, draws a spectrum of possible attention patterns between linear projection and self attention. Neighborhood attention, and more generally sliding window attention patterns, have long been bounded by infrastructure, particularly in higher-rank spaces (2-D and 3-D), calling for the development of custom kernels, which have been limited in either functionality, or performance, if not both. In this work, we first show that neighborhood attention can be represented as a batched GEMM problem, similar to standard attention, and implement it for 1-D and 2-D neighborhood attention. These kernels on average provide 895% and 272% improvement in full precision latency compared to existing naive kernels for 1-D and 2-D neighborhood attention respectively. We find certain inherent inefficiencies in all unfused neighborhood attention kernels that bound their performance and lower-precision scalability. We also developed fused neighborhood attention; an adaptation of fused dot-product attention kernels that allow fine-grained control over attention across different spatial axes. Known for reducing the quadratic time complexity of self attention to a linear complexity, neighborhood attention can now enjoy a reduced and constant memory footprint, and record-breaking half precision latency. We observe that our fused kernels successfully circumvent some of the unavoidable inefficiencies in unfused implementations. While our unfused GEMM-based kernels only improve half precision performance compared to naive kernels by an average of 496% and 113% in 1-D and 2-D problems respectively, our fused kernels improve naive kernels by an average of 1607% and 581% in 1-D and 2-D problems respectively.
翻訳日:2024-03-08 13:14:19 公開日:2024-03-07
# ベッチ数を推定するための代替方法

Alternative Method for Estimating Betti Numbers ( http://arxiv.org/abs/2403.04686v1 )

ライセンス: Link先を確認
Nhat A. Nghiem(参考訳) トポロジカルデータ分析(TDA)は、トポロジから高度なツールを用いて大規模データを分析する急速に成長する分野である。 トポロジカルデータ解析における中心的な問題は、下層の単純複素数のいわゆるベッチ数の推定である。 この問題の難しさはNPハードとして確立されているが、以前の研究では量子スピードアップが魅力的であった。 本稿では、量子アルゴリズムの最近の結果に基づいて、与えられた単純複素数のベッチ数を推定する代替手法を提案する。 我々の手法は、ベッチ数を見つける最もよく知られた古典的方法よりも高速であり、興味深いことに、補グラフのベッチ数を見つけることもできる。

Topological data analysis (TDA) is a fast-growing field that utilizes advanced tools from topology to analyze large-scale data. A central problem in topological data analysis is estimating the so-called Betti numbers of the underlying simplicial complex. While the difficulty of this problem has been established as NP-hard, previous works have showcased appealing quantum speedup. In this article, we provide an alternative method for estimating Betti numbers of given simplicial complex, based on some recent results on quantum algorithm. Our method can be faster than the best-known classical method for finding Betti numbers, and interestingly, it can also find the Betti numbers of the complement graph to our original one.
翻訳日:2024-03-08 13:13:46 公開日:2024-03-07
# トロイダルコンパクト次元モデルにおけるフェルミオン真空応力

Fermionic vacuum stresses in models with toroidal compact dimensions ( http://arxiv.org/abs/2403.04684v1 )

ライセンス: Link先を確認
A. A. Saharian, R. M. Avagyan, G. H. Harutyunyan, G. H. Nikoghosyan(参考訳) 一般次元のトロイダル部分空間を持つ平坦な時空における大規模ディラック場に対するエネルギー-運動量テンソルの真空期待値について検討する。 任意の位相を持つ準周期性条件は、コンパクト次元に沿って場作用素に課される。 これらの位相は、コンパクト次元で囲まれた磁束によって解釈される。 非コンパクト部分空間の状態方程式は宇宙定数型である。 対角成分に加えて、真空エネルギー-運動量テンソルは非零オフ対角成分を持つことが示されている。 ツイスト(反周期)とアンウィステッド(非周期)の特殊な場合、オフ対角成分は消滅する。 自由場の場合、真空エネルギー密度は正であり、エネルギー-運動量テンソルは強いエネルギー条件に従う。 周期性条件における位相の一般的な値は、エネルギー密度と応力は正か負かのいずれかである。 この数値結果は、2次元余剰なカルザ・クレイン型モデルに対して与えられる。

We investigate vacuum expectation value of the energy-momentum tensor for a massive Dirac field in flat spacetime with a toroidal subspace of a general dimension. Quasiperiodicity conditions with arbitrary phases are imposed on the field operator along compact dimensions. These phases are interpreted in terms of magnetic fluxes enclosed by compact dimensions. The equation of state in the uncompact subspace is of the cosmological constant type. It is shown that, in addition to the diagonal components, the vacuum energy-momentum tensor has nonzero off-diagonal components. In special cases of twisted (antiperiodic) and untwisted (periodic) fields the off diagonal components vanish. For untwisted fields the vacuum energy density is positive and the energy-momentum tensor obeys the strong energy condition. For general values of the phases in the periodicity conditions the energy density and stresses can be either positive or negative. The numerical results are given for a Kaluza-Klein type model with two extra dimensions.
翻訳日:2024-03-08 13:13:34 公開日:2024-03-07
# 量子デバイスキャラクタリゼーションのための微分マスター方程式解法

Differentiable master equation solver for quantum device characterisation ( http://arxiv.org/abs/2403.04678v1 )

ライセンス: Link先を確認
David L. Craig, Natalia Ares, and Erik M. Gauger(参考訳) 物理系の微分モデルは、パラメータ推定と最適制御に特に影響を及ぼす勾配に基づくアルゴリズムのための強力なプラットフォームを提供する。 量子システムは、本質的に確率的な性質と環境パラメータに対する感受性のため、このような特性化と制御に特に挑戦する。 この課題に対処するために,多彩な微分可能な量子マスター方程式解法を示し,この解法をデバイス特性化の枠組みに取り入れる。 本手法は、勾配に基づく最適化とベイズ推論を用いて、量子デバイスパラメータの推定と不確実性を提供する。 このアプローチを示すために,静電的に定義された量子ドットによる定常電荷輸送を考察する。 シミュレーションデータを用いて、1つの量子ドットに対するパラメータの効率的な推定とモデル選択、および2つの量子ドット系の時間発展を計算するための解法の能力を示す。 我々の微分可能解法は、物理を意識した機械学習アルゴリズムが量子デバイスに与える影響を拡大し、キャラクタリゼーションと制御を行う。

Differentiable models of physical systems provide a powerful platform for gradient-based algorithms, with particular impact on parameter estimation and optimal control. Quantum systems present a particular challenge for such characterisation and control, owing to their inherently stochastic nature and sensitivity to environmental parameters. To address this challenge, we present a versatile differentiable quantum master equation solver, and incorporate this solver into a framework for device characterisation. Our approach utilises gradient-based optimisation and Bayesian inference to provide estimates and uncertainties in quantum device parameters. To showcase our approach, we consider steady state charge transport through electrostatically defined quantum dots. Using simulated data, we demonstrate efficient estimation of parameters for a single quantum dot, and model selection as well as the capability of our solver to compute time evolution for a double quantum dot system. Our differentiable solver stands to widen the impact of physics-aware machine learning algorithms on quantum devices for characterisation and control.
翻訳日:2024-03-08 13:13:21 公開日:2024-03-07
# 部分の合計よりも大きい:協調問題解決コミュニケーションにおける少数派と多数派の地位の役割

Greater than the sum of its parts: The role of minority and majority status in collaborative problem-solving communication ( http://arxiv.org/abs/2403.04671v1 )

ライセンス: Link先を確認
Jacqueline G. Cavazos, Nia Nixon(参考訳) 協調問題解決(collaborative problem-solving, cps)は、職場と教育環境の両方で使われる重要なスキルである。 CPSは、ますます複雑化するグローバル、経済、政治的問題に取り組むのに役立ち、21世紀の中心的なスキルと見なされている。 ますますつながりつつあるグローバルコミュニティは、多様な視点を含む創造的で協調的な問題解決インタラクションとソリューションに実りある機会を与えている。 不幸なことに、女性と少数民族(urm)はしばしば、これらの問題解決の会話における主要な参加を妨げる協調的な相互作用の間に障害に直面します。 そこで我々は,CPSタスクで協力して働く少数人と非マイノリティのコミュニケーションパターンについて検討した。 グループコミュニケーション分析 (GCA) は, URMが個人の社会的認知的言語パターンにどのように影響するかを調べるために用いられた。 結果は、有能な協調的相互作用を示す主要な社会認知的特徴において、人種的・民族的グループ間での差異を示す。 また,集団の人種・民族構成が個人・集団間のコミュニケーションパターンに与える影響についても検討した。 一般に、多民族集団の個人は多数派集団の個人よりも生産的なコミュニケーション行動を示した。 CPS中に出現するコミュニケーションパターンに対する個人とグループの多様性の影響と、これらのパターンが協調的な成果にどのように影響するかを論じる。

Collaborative problem-solving (CPS) is a vital skill used both in the workplace and in educational environments. CPS is useful in tackling increasingly complex global, economic, and political issues and is considered a central 21st century skill. The increasingly connected global community presents a fruitful opportunity for creative and collaborative problem-solving interactions and solutions that involve diverse perspectives. Unfortunately, women and underrepresented minorities (URMs) often face obstacles during collaborative interactions that hinder their key participation in these problem-solving conversations. Here, we explored the communication patterns of minority and non-minority individuals working together in a CPS task. Group Communication Analysis (GCA), a temporally-sensitive computational linguistic tool, was used to examine how URM status impacts individuals' sociocognitive linguistic patterns. Results show differences across racial/ethnic groups in key sociocognitive features that indicate fruitful collaborative interactions. We also investigated how the groups' racial/ethnic composition impacts both individual and group communication patterns. In general, individuals in more demographically diverse groups displayed more productive communication behaviors than individuals who were in majority-dominated groups. We discuss the implications of individual and group diversity on communication patterns that emerge during CPS and how these patterns can impact collaborative outcomes.
翻訳日:2024-03-08 13:13:02 公開日:2024-03-07
# 終端条件付きロバスト最適化

End-to-end Conditional Robust Optimization ( http://arxiv.org/abs/2403.04670v1 )

ライセンス: Link先を確認
Abhilash Chenreddy and Erick Delage(参考訳) コンテキスト最適化(CO)の分野は、不確実性の下で意思決定問題を解決する機械学習と最適化を統合している。 近年, 条件付きロバスト最適化 (CRO) と呼ばれるCOのリスク敏感な変種が, 不確実な定量化とロバストな最適化を組み合わせることで, 高利得アプリケーションの安全性と信頼性を向上している。 現代の微分可能最適化手法を考案し、所定の決定の実証リスクとそれをサポートする文脈不確実性セットの条件付きカバレッジの質の両方を考慮し、CROモデルを訓練するための新しいエンドツーエンドアプローチを提案する。 適合予測理論の観点からは,後者の目的に対する成功の保証は得られないが,訓練損失のカバレッジ品質の計算において,ロジスティック回帰微分可能な層を巧みに利用することにより,高品質な条件付きカバレッジを経験的に達成することができる。 提案する学習アルゴリズムは,従来の推定手法に勝る判断を導き,最適化する。

The field of Contextual Optimization (CO) integrates machine learning and optimization to solve decision making problems under uncertainty. Recently, a risk sensitive variant of CO, known as Conditional Robust Optimization (CRO), combines uncertainty quantification with robust optimization in order to promote safety and reliability in high stake applications. Exploiting modern differentiable optimization methods, we propose a novel end-to-end approach to train a CRO model in a way that accounts for both the empirical risk of the prescribed decisions and the quality of conditional coverage of the contextual uncertainty set that supports them. While guarantees of success for the latter objective are impossible to obtain from the point of view of conformal prediction theory, high quality conditional coverage is achieved empirically by ingeniously employing a logistic regression differentiable layer within the calculation of coverage quality in our training loss. We show that the proposed training algorithms produce decisions that outperform the traditional estimate then optimize approaches.
翻訳日:2024-03-08 13:12:39 公開日:2024-03-07
# 生成AIの社会的影響:ChatGPTの分析

The Social Impact of Generative AI: An Analysis on ChatGPT ( http://arxiv.org/abs/2403.04667v1 )

ライセンス: Link先を確認
Maria T. Baldassarre, Danilo Caivano, Berenice Fernandez Nieto, Domenico Gigante, and Azzurra Ragone(参考訳) 近年、人工知能(AI)の社会的影響は、生成型AIモデル、特にChatGPTの出現によって、かなりの関心を集めている。 これらのモデルの急速な発展は、その利点、限界、および関連するリスクに関する熱烈な議論を引き起こした。 生成モデルは、医療、金融、教育など複数の分野にまたがって大きな可能性を秘めており、多様な実践的応用を示している。 それでも、潜在的な悪影響に対する懸念は、プライバシーのリスクから社会的不平等のエスカレートまで、多岐にわたる視点をもたらしている。 本稿では,ChatGPTの事例を中心に,生成型AIツールの社会的意味を探求する方法論を採用する。 いくつかの社会的セクターに対する潜在的な影響を評価し、ポジティブな効果とネガティブな効果の両方、新しいトレンド、そしてジェネレーティブAIモデルの機会の領域に関する包括的な文献レビューの結果を示す。 この分析は、人間中心のAIを育むための政策、規制、責任ある開発プラクティスを刺激する洞察を提供することによって、深い議論を促進することを目的としている。

In recent months, the social impact of Artificial Intelligence (AI) has gained considerable public interest, driven by the emergence of Generative AI models, ChatGPT in particular. The rapid development of these models has sparked heated discussions regarding their benefits, limitations, and associated risks. Generative models hold immense promise across multiple domains, such as healthcare, finance, and education, to cite a few, presenting diverse practical applications. Nevertheless, concerns about potential adverse effects have elicited divergent perspectives, ranging from privacy risks to escalating social inequality. This paper adopts a methodology to delve into the societal implications of Generative AI tools, focusing primarily on the case of ChatGPT. It evaluates the potential impact on several social sectors and illustrates the findings of a comprehensive literature review of both positive and negative effects, emerging trends, and areas of opportunity of Generative AI models. This analysis aims to facilitate an in-depth discussion by providing insights that can inspire policy, regulation, and responsible development practices to foster a human-centered AI.
翻訳日:2024-03-08 13:12:19 公開日:2024-03-07
# 電子構造ハミルトニアンに対する対称性を考慮したスペクトル境界

Symmetry-aware spectral bounds for the electronic structure Hamiltonian ( http://arxiv.org/abs/2403.04737v1 )

ライセンス: Link先を確認
Cristian L. Cortes, Dario Rocca, Jerome Gonthier, Pauline J. Ollitrault, Robert M. Parrish, Gian-Luca R. Anselmetti, Matthias Degroote, Nikolaj Moll, Raffaele Santagati, and Michael Streif(参考訳) 量子アルゴリズムにおいて,ハミルトニアンオラクルの問合せ複雑性を評価するために,対称性を考慮したスペクトル境界を示す。 我々の数値計算では、これらの境界は様々な電子構造系において従来の境界よりも小さく、熱力学および完全基底系におけるユニークなスケーリング挙動を示す。 我々の研究は、テンソル因子化とブロックエンコード法により$\ell_1$ノルムを減らし、物理や化学における量子アルゴリズムのクエリ複雑性の限界を批判的に評価する可能性を強調している。

We present symmetry-aware spectral bounds to assess the query complexity of Hamiltonian oracles in quantum algorithms. Our numerical estimates indicate that these bounds are smaller than traditional ones for a variety of electronic structure systems, including exhibiting unique scaling behavior in thermodynamic and complete basis set limits. Our work highlights potential room for improvement in reducing the $\ell_1$ norm through tensor factorization and block-encoding methods, while also offering a critical evaluation of query complexity limits for quantum algorithms in physics and chemistry.
翻訳日:2024-03-08 13:08:27 公開日:2024-03-07
# SnapNTell: 検索強化マルチモーダルLLMによるエンティティ中心のビジュアル質問応答の実現

SnapNTell: Enhancing Entity-Centric Visual Question Answering with Retrieval Augmented Multimodal LLM ( http://arxiv.org/abs/2403.04735v1 )

ライセンス: Link先を確認
Jielin Qiu, Andrea Madotto, Zhaojiang Lin, Paul A. Crook, Yifan Ethan Xu, Xin Luna Dong, Christos Faloutsos, Lei Li, Babak Damavandi, Seungwhan Moon(参考訳) 視覚拡張LDMは視覚質問応答(VQA)において大きな進歩を遂げている。 これらの進歩にもかかわらず、VLLMは長い尾のエンティティを含むクエリを扱うのにかなりの困難に直面する。 本稿では,エンティティ中心のVQAに特化して,新しい評価ベンチマークであるtextbf{SnapNTell}を紹介する。 このタスクは、エンティティを識別し、詳細なエンティティ固有の知識を提供するモデルの能力をテストすることを目的としている。 従来のvqaデータセットとは異なる, \textbf{snapntell dataset} を開発した。 (1) さまざまな分類されたエンティティを包含し,それぞれに画像で表現され,回答に明示的に名前が付けられている。 データセットは22の主要なカテゴリに分けられ、合計で7,568のユニークなエンティティが含まれている。 各エンティティについて、10のイラストレーションイメージをキュレートし、10の知識集約的なqaペアを作成しました。 この課題に対処するため、我々はスケーラブルで効率的で透明な検索強化マルチモーダルLLMを考案した。 このアプローチは、snapntellデータセットの既存のメソッドを著しく上回り、belurtスコアを66.5\%向上させた。 間もなく、データセットとソースコードを一般公開する予定です。

Vision-extended LLMs have made significant strides in Visual Question Answering (VQA). Despite these advancements, VLLMs still encounter substantial difficulties in handling queries involving long-tail entities, with a tendency to produce erroneous or hallucinated responses. In this work, we introduce a novel evaluative benchmark named \textbf{SnapNTell}, specifically tailored for entity-centric VQA. This task aims to test the models' capabilities in identifying entities and providing detailed, entity-specific knowledge. We have developed the \textbf{SnapNTell Dataset}, distinct from traditional VQA datasets: (1) It encompasses a wide range of categorized entities, each represented by images and explicitly named in the answers; (2) It features QA pairs that require extensive knowledge for accurate responses. The dataset is organized into 22 major categories, containing 7,568 unique entities in total. For each entity, we curated 10 illustrative images and crafted 10 knowledge-intensive QA pairs. To address this novel task, we devised a scalable, efficient, and transparent retrieval-augmented multimodal LLM. Our approach markedly outperforms existing methods on the SnapNTell dataset, achieving a 66.5\% improvement in the BELURT score. We will soon make the dataset and the source code publicly accessible.
翻訳日:2024-03-08 13:08:16 公開日:2024-03-07
# 偏光子系におけるコヒーレント多次元分光

Coherent multidimensional spectroscopy in polariton systems ( http://arxiv.org/abs/2403.04734v1 )

ライセンス: Link先を確認
Daniela Gallego-Valencia, Lars Mewes, Johannes Feist, Jos\'e Luis Sanz-Vicario(参考訳) 分子ポラリトニックの高速動力学は2次元分光プロトコルの実装によって理論的に精査される。 分子の2次元スペクトルを計算するための概念的に単純で計算効率の良い公式を導出し、それぞれが振動緩和を含む2つの電子状態の系としてモデル化され、光学キャビティに浸漬され、量子放射線と結合される。 キャビティ光子損失と分子緩和はハミルトニアンダイナミクスに組み込まれ、マスター方程式によって解かれる開量子系を形成する。 集合的な場合、暗い状態への緩和ダイナミクスは、2次元スペクトルの対角ピークと交差ピークの両方の非対称性を励起と検出の間の長い待ち時間、すなわち最近の実験で示された特徴を説明する重要な要因である。 本手法は,多次元分子分光法において関連する信号を生成する過程について深い知見を与える。

The fast dynamics of molecular polaritonics is scrutinized theoretically through the implementation of two-dimensional spectroscopy protocols. We derive conceptually simple and computationally efficient formulas to calculate two-dimensional spectra for molecules, each of them modeled as a system of two electronic states including vibrational relaxation, immersed in an optical cavity, thus coupled to quantized radiation. Cavity photon losses and molecular relaxation are incorporated into the Hamiltonian dynamics to form an open quantum system that is solved through a master equation. In the collective case, the relaxation dynamics into dark states reveals to be the crucial factor to explain the asymmetries in both the diagonal and cross peaks of two-dimensional spectra for long waiting times between excitation and detection, a feature shown by recent experiments. Our theoretical method provides a deeper insight in those processes that yield relevant signals in multidimensional molecular spectroscopy.
翻訳日:2024-03-08 13:07:55 公開日:2024-03-07
# Intelligent Visual Deductive Reasoningからどのくらい離れているのか?

How Far Are We from Intelligent Visual Deductive Reasoning? ( http://arxiv.org/abs/2403.04732v1 )

ライセンス: Link先を確認
Yizhe Zhang, He Bai, Ruixiang Zhang, Jiatao Gu, Shuangfei Zhai, Josh Susskind, Navdeep Jaitly(参考訳) gpt-4vのような視覚言語モデル(vlms)は最近、多様な視覚言語タスクに関する驚くべき進歩を実証している。 私たちは、より洗練された、より探索の少ない領域であるビジョンに基づく推論を掘り下げ、現在のsoma vlmsで未公開の盲点を見つけます。 具体的には、Ravenのプログレッシブ・マトリクス(RPM)を利用して、視覚的手がかりのみに依存するマルチホップ・リレーショナルおよび帰納的推論を行うVLMの能力を評価する。 我々は、Mensa IQテスト、インテリジェンステスト、RAVENを含む3つの多様なデータセット上で、コンテキスト内学習、自己整合性、チェーン・オブ・シント(CoT)といった標準的な戦略を用いて、いくつかの人気のあるVLMの包括的な評価を行う。 その結果、テキストベース推論におけるllmの印象的な能力にもかかわらず、視覚的推論における同等の能力を達成するには程遠いことが判明した。 LLMに適用した場合に有効な標準的な戦略は、視覚的推論タスクによってもたらされる課題にシームレスに対応しないことがわかった。 さらに、詳細な分析により、VLMは、主にRPMの例において複数の抽象パターンを知覚し理解できないため、これらの課題を解決するのに苦労していることが明らかとなった。

Vision-Language Models (VLMs) such as GPT-4V have recently demonstrated incredible strides on diverse vision language tasks. We dig into vision-based deductive reasoning, a more sophisticated but less explored realm, and find previously unexposed blindspots in the current SOTA VLMs. Specifically, we leverage Raven's Progressive Matrices (RPMs), to assess VLMs' abilities to perform multi-hop relational and deductive reasoning relying solely on visual clues. We perform comprehensive evaluations of several popular VLMs employing standard strategies such as in-context learning, self-consistency, and Chain-of-thoughts (CoT) on three diverse datasets, including the Mensa IQ test, IntelligenceTest, and RAVEN. The results reveal that despite the impressive capabilities of LLMs in text-based reasoning, we are still far from achieving comparable proficiency in visual deductive reasoning. We found that certain standard strategies that are effective when applied to LLMs do not seamlessly translate to the challenges presented by visual reasoning tasks. Moreover, a detailed analysis reveals that VLMs struggle to solve these tasks mainly because they are unable to perceive and comprehend multiple, confounding abstract patterns in RPM examples.
翻訳日:2024-03-08 13:07:27 公開日:2024-03-07
# 量子真空雑音を用いたフォトニック確率機械学習

Photonic probabilistic machine learning using quantum vacuum noise ( http://arxiv.org/abs/2403.04731v1 )

ライセンス: Link先を確認
Seou Choi, Yannick Salamin, Charles Roques-Carmes, Rumen Dangovski, Di Luo, Zhuo Chen, Michael Horodynski, Jamison Sloan, Shiekh Zia Uddin, and Marin Soljacic(参考訳) 確率的機械学習は、不確かさを符号化し統計的モデリングを可能にするために、制御可能なランダム性源を利用する。 変動する電磁場から生じる量子真空ノイズの純粋ランダム性は、高速でエネルギー効率のよいフォトニック素子を約束している。 それでも、確率的要素を制御して確率的機械学習アルゴリズムをプログラムできるフォトニックコンピューティングハードウェアは限られている。 ここでは、制御可能な確率的フォトニック要素、フォトニック確率ニューロン(PPN)からなるフォトニック確率コンピュータを実装した。 我々のPPNは真空レベルのバイアス場を持つバイスタブル光パラメトリック発振器(OPO)に実装されている。 次に、ある確率的機械学習タスクを解決するために、時間多重化PPNと電子プロセッサ(FPGAまたはGPU)の計測フィードバックループをプログラムする。 識別モデルと生成モデルの代表的な例であるMNIST手書き桁の確率的推論と画像生成について述べる。 どちらの実装においても、量子真空ノイズは、分類の不確かさやサンプルの確率的生成を符号化するランダムシードとして用いられる。 さらに,全光学確率計算プラットフォームへの道筋として,推定サンプリングレート~1Gbps,エネルギー消費量~5fJ/MACを提案する。 我々の研究は、スケーラブルで超高速でエネルギー効率の良い機械学習ハードウェアの道を開いた。

Probabilistic machine learning utilizes controllable sources of randomness to encode uncertainty and enable statistical modeling. Harnessing the pure randomness of quantum vacuum noise, which stems from fluctuating electromagnetic fields, has shown promise for high speed and energy-efficient stochastic photonic elements. Nevertheless, photonic computing hardware which can control these stochastic elements to program probabilistic machine learning algorithms has been limited. Here, we implement a photonic probabilistic computer consisting of a controllable stochastic photonic element - a photonic probabilistic neuron (PPN). Our PPN is implemented in a bistable optical parametric oscillator (OPO) with vacuum-level injected bias fields. We then program a measurement-and-feedback loop for time-multiplexed PPNs with electronic processors (FPGA or GPU) to solve certain probabilistic machine learning tasks. We showcase probabilistic inference and image generation of MNIST-handwritten digits, which are representative examples of discriminative and generative models. In both implementations, quantum vacuum noise is used as a random seed to encode classification uncertainty or probabilistic generation of samples. In addition, we propose a path towards an all-optical probabilistic computing platform, with an estimated sampling rate of ~ 1 Gbps and energy consumption of ~ 5 fJ/MAC. Our work paves the way for scalable, ultrafast, and energy-efficient probabilistic machine learning hardware.
翻訳日:2024-03-08 13:06:48 公開日:2024-03-07
# トラップイオン量子コンピューティングのための高速で堅牢でレーザーフリーなユニバーサルエンタングゲート

Fast, robust and laser-free universal entangling gates for trapped-ion quantum computing ( http://arxiv.org/abs/2403.04730v1 )

ライセンス: Link先を確認
Markus N\"unnerich, Daniel Cohen, Patrick Barthel, Patrick H. Huber, Dorna Niroomand, Alex Retzker, and Christof Wunderlich(参考訳) rf制御トラップイオン量子プロセッサのための新しい2量子ビット絡み込みゲートを理論的に提案し,実験的に実証した。 このゲートの速度は、静的磁場勾配において以前に実証された2量子エンタングルゲートよりも桁違いに高い。 同時に、ゲートを駆動する位相変調場は、振幅と周波数ノイズから量子ビットを動的に分離し、量子ビットのコヒーレンス時間を2桁増加させる。 ゲートは1キュービットあたり1つの連続RFフィールドしか必要とせず、量子プロセッサを多数のキュービットに拡張するのに適している。 この絡み合ったゲートを実装すると、ベル状態 $|\Phi^+\rangle$ と $|\Psi^+\rangle$ in $\leq 313$ $\mathrm{\mathrm{\mu}}$s が 98^{+2}_{-3}$ % の静磁場勾配で生成される。 より高磁場勾配では、エンタングルゲートの速度はレーザーベースのものと一致するようにさらに向上することができる。

A novel two-qubit entangling gate for RF-controlled trapped-ion quantum processors is proposed theoretically and demonstrated experimentally. The speed of this gate is an order of magnitude higher than that of previously demonstrated two-qubit entangling gates in static magnetic field gradients. At the same time, the phase-modulated field driving the gate, dynamically decouples the qubits from amplitude and frequency noise, increasing the qubits' coherence time by two orders of magnitude. The gate requires only a single continuous RF field per qubit, making it well suited for scaling a quantum processor to large numbers of qubits. Implementing this entangling gate, we generate the Bell states $|\Phi^+\rangle$ and $|\Psi^+\rangle$ in $\leq 313$ $\mathrm{\mathrm{\mu}}$s with fidelities up to $98^{+2}_{-3}$ % in a static magnetic gradient of only 19.09 T/m. At higher magnetic field gradients, the entangling gate speed can be further improved to match that of laser-based counterparts.
翻訳日:2024-03-08 13:06:11 公開日:2024-03-07
# ロバストスパース平均推定のためのサブ量子時間アルゴリズム

A Sub-Quadratic Time Algorithm for Robust Sparse Mean Estimation ( http://arxiv.org/abs/2403.04726v1 )

ライセンス: Link先を確認
Ankit Pensia(参考訳) 逆数外乱の存在下でのスパース平均推定のアルゴリズム的問題について検討する。 具体的には、アルゴリズムは$\mathcal{n}(\mu,\mathbf{i}_d)$のサンプルの \emph{corrupted} 集合を観察し、未知の平均$\mu \in \mathbb{r}^d$ は $k$-sparse に制約される。 一連の先行研究は、サンプル複雑性による堅牢なスパース平均推定のための効率的なアルゴリズムを開発した。$\mathrm{poly}(k,\log d, 1/\epsilon)$とランタイム $d^2 \mathrm{poly}(k,\log d, 1/\epsilon)$。 特に、既存のアルゴリズムの最速実行時間は、高次元では禁止される二次(\omega(d^2)$)である。 この2次障壁は、これらのアルゴリズムがサンプル共分散行列に依存しており、これはサイズは$d^2$である。 我々の主な貢献は、$\mathrm{poly}(k,\log d,1/\epsilon)$サンプルを用いて、 \emph{subquadratic} 時間で実行される頑健なスパース平均推定アルゴリズムである。 また,頑健なスパースPCAに対する類似結果も提供する。 この結果は,バリアントによる電球問題の一般化版である弱い相関を検出するアルゴリズムの進歩に基づいている。

We study the algorithmic problem of sparse mean estimation in the presence of adversarial outliers. Specifically, the algorithm observes a \emph{corrupted} set of samples from $\mathcal{N}(\mu,\mathbf{I}_d)$, where the unknown mean $\mu \in \mathbb{R}^d$ is constrained to be $k$-sparse. A series of prior works has developed efficient algorithms for robust sparse mean estimation with sample complexity $\mathrm{poly}(k,\log d, 1/\epsilon)$ and runtime $d^2 \mathrm{poly}(k,\log d,1/\epsilon)$, where $\epsilon$ is the fraction of contamination. In particular, the fastest runtime of existing algorithms is quadratic ($\Omega(d^2)$), which can be prohibitive in high dimensions. This quadratic barrier in the runtime stems from the reliance of these algorithms on the sample covariance matrix, which is of size $d^2$. Our main contribution is an algorithm for robust sparse mean estimation which runs in \emph{subquadratic} time using $\mathrm{poly}(k,\log d,1/\epsilon)$ samples. We also provide analogous results for robust sparse PCA. Our results build on algorithmic advances in detecting weak correlations, a generalized version of the light-bulb problem by Valiant.
翻訳日:2024-03-08 13:05:33 公開日:2024-03-07
# マスクカプセルオートエンコーダ

Masked Capsule Autoencoders ( http://arxiv.org/abs/2403.04724v1 )

ライセンス: Link先を確認
Miles Everett, Mingjun Zhong, and Georgios Leontidis(参考訳) 本稿では,事前学習を自己指導的に行う最初のカプセルネットワークであるMasked Capsule Autoencoders (MCAE)を提案する。 カプセルネットワークは畳み込みニューラルネットワーク(cnns)の強力な代替として出現し、視覚トランスフォーマー(vit)と比較すると好ましい特性を示したが、より複雑なデータを提示することで効果的に学習するのに苦労し、現代のタスクにスケールしないカプセルネットワークモデルへと繋がった。 提案するMCAEモデルでは,カプセルネットワークを改良し,マスク付き画像モデリングを事前学習段階として使用し,教師付きで微調整する。 いくつかの実験とアブレーション研究を通じて、cnnやvitsと同様に、カプセルネットワークは自己教師付き事前訓練の恩恵を受け、このニューラルネットワーク領域におけるさらなる進歩への道を開くことができることを実証した。 例えば、Imagenetサイズの10クラスのデータセットであるImagenetteデータセットの事前トレーニングでは、Capsule Networksの最先端結果だけでなく、純粋に教師付きトレーニングよりも9%改善されています。 そこで本研究では,カプセルネットワークの性能向上のために,新しいカプセルデコーダを備えたマスク付き画像モデリングフレームワークにおいて,カプセルネットワークの利点とトレーニングを行うことを提案する。

We propose Masked Capsule Autoencoders (MCAE), the first Capsule Network that utilises pretraining in a self-supervised manner. Capsule Networks have emerged as a powerful alternative to Convolutional Neural Networks (CNNs), and have shown favourable properties when compared to Vision Transformers (ViT), but have struggled to effectively learn when presented with more complex data, leading to Capsule Network models that do not scale to modern tasks. Our proposed MCAE model alleviates this issue by reformulating the Capsule Network to use masked image modelling as a pretraining stage before finetuning in a supervised manner. Across several experiments and ablations studies we demonstrate that similarly to CNNs and ViTs, Capsule Networks can also benefit from self-supervised pretraining, paving the way for further advancements in this neural network domain. For instance, pretraining on the Imagenette dataset, a dataset of 10 classes of Imagenet-sized images, we achieve not only state-of-the-art results for Capsule Networks but also a 9% improvement compared to purely supervised training. Thus we propose that Capsule Networks benefit from and should be trained within a masked image modelling framework, with a novel capsule decoder, to improve a Capsule Network's performance on realistic-sized images.
翻訳日:2024-03-08 13:04:59 公開日:2024-03-07
# 位相拡散と位相拡散の量子エンハンス結合推定

Quantum-enhanced joint estimation of phase and phase diffusion ( http://arxiv.org/abs/2403.04722v1 )

ライセンス: Link先を確認
Jayanth Jayakumar, Monika E. Mycroft, Marco Barbieri, Magdalena Stobi\'nska(参考訳) 未知位相拡散雑音の存在下での正確な位相推定は、ノイズ量子論において極めて難しい課題である。 この問題は、関連するノイズの有害な影響のために特に興味深い。 そこで本研究では, 一般化されたホランド・バーネット状態を用いた位相拡散と位相拡散の連成推定について検討する。 これらの状態は、光子損失が存在する場合でも、単一パラメータ位相推定における最適状態に近い性能を提供する。 二重ホモダイン測定による関節情報抽出と,全プローブ状態における関節情報利用率を解析し,両面的なアプローチを採用する。 解析により、全ての入力光子を平衡ビームスプリッタの一ポートに誘導して生成した状態を用いて、最も高い感度が得られることがわかった。 さらに,弱光子損失の存在下においても良好な感度が持続し,損失条件下でのプローブ状態の顕著なレジリエンスが示唆された。

Accurate phase estimation in the presence of unknown phase diffusive noise is a crucial yet challenging task in noisy quantum metrology. This problem is particularly interesting due to the detrimental impact of the associated noise. Here, we investigate the joint estimation of phase and phase diffusion using generalized Holland-Burnett states, known for their experimental accessibility. These states provide performance close to the optimal state in single-parameter phase estimation, even in the presence of photon losses. We adopt a twofold approach by analyzing the joint information extraction through the double homodyne measurement and the joint information availability across all probe states. Through our analysis, we find that the highest sensitivities are obtained by using states created by directing all input photons into one port of a balanced beam splitter. Furthermore, we infer that good levels of sensitivity persist even in the presence of moderate photon losses, illustrating the remarkable resilience of our probe states under lossy conditions.
翻訳日:2024-03-08 13:04:36 公開日:2024-03-07
# ハイパーパラメータ最適化におけるエンコーダに基づくウォームスタート法の再検討

Rethinking of Encoder-based Warm-start Methods in Hyperparameter Optimization ( http://arxiv.org/abs/2403.04720v1 )

ライセンス: Link先を確認
Dawid P{\l}udowski, Antoni Zajko, Anna Kozak, Katarzyna Wo\'znica(参考訳) メタ学習のための異種表形式のデータセットを効果的に表現することは、未解決の問題である。 以前のアプローチでは、統計指標やランドマークなど、事前定義されたメタ機能に依存していた。 Dataset2Vecのようなエンコーダベースのモデルは、人間の介入なしに重要なメタ機能を自動的に抽出することができる。 この研究は、GitHub https://github.com/azoz01/liltabで利用可能なLiltabパッケージ内に実装された、新しいエンコーダベースのグラフデータセットの表現を導入している。 本パッケージは,[岩田, 熊谷, 2020]で提案された異種表データの確立されたモデルに基づく。 提案手法は,dataset2vecのような既存手法と比較して,特徴関係のエンコーディングに異なるモデルを用いる。 どちらもデータセット類似性学習の基本的な前提を活用している。 本研究では、データセット全体の表現とハイパーパラメータ最適化のウォームスタートという、2つの一般的なメタタスクでDataset2VecとLiltabを評価する。 しかし、独立したメタMIMICデータセットの検証は、表現学習における煩雑な課題を浮き彫りにする。 一般表現は,要求が抽出中に明示的に考慮されないメタタスクでは十分でないことを示す。 (岩田、熊谷、2020年)岩田知治、熊谷敦俊 異種属性空間を持つタスクからのメタラーニング ニューラル情報処理システムの進歩 -2020年-

Effectively representing heterogeneous tabular datasets for meta-learning remains an open problem. Previous approaches rely on predefined meta-features, for example, statistical measures or landmarkers. Encoder-based models, such as Dataset2Vec, allow us to extract significant meta-features automatically without human intervention. This research introduces a novel encoder-based representation of tabular datasets implemented within the liltab package available on GitHub https://github.com/azoz01/liltab. Our package is based on an established model for heterogeneous tabular data proposed in [Iwata and Kumagai, 2020]. The proposed approach employs a different model for encoding feature relationships, generating alternative representations compared to existing methods like Dataset2Vec. Both of them leverage the fundamental assumption of dataset similarity learning. In this work, we evaluate Dataset2Vec and liltab on two common meta-tasks - representing entire datasets and hyperparameter optimization warm-start. However, validation on an independent metaMIMIC dataset highlights the nuanced challenges in representation learning. We show that general representations may not suffice for some meta-tasks where requirements are not explicitly considered during extraction. [Iwata and Kumagai, 2020] Tomoharu Iwata and Atsutoshi Kumagai. Meta-learning from Tasks with Heterogeneous Attribute Spaces. In Advances in Neural Information Processing Systems, 2020.
翻訳日:2024-03-08 13:04:21 公開日:2024-03-07
# トラップ欠陥による準2次元均一双極子量子ボース気体の密度はどのように影響を受けるか?

How is the density of quasi-two-dimensional uniform dipolar quantum Bose gases affected by trap imperfections? ( http://arxiv.org/abs/2403.04719v1 )

ライセンス: Link先を確認
Thibault Bourgeois, Lauriane Chomaz(参考訳) 準二次元双極性ボース気体の密度に及ぼす平面電位の弱い摂動の影響を理論的に検討する。 我々は、潜在的な欠陥に対する平均場摂動処理を用い、平均場安定状態における第一次効果を導出する。 まず,単一の空間周波数を含む欠陥に着目し,密度摂動の波動ベクトル依存性について検討する。 相互作用パラメータの波数依存性の定性的変化と励起方向の感度は、長距離および異方性双極子効果を明らかにする。 これらの効果は、中間波数において最も重要であり、ロートンモードの軟化と局所不安定を連想させる密度摂動の局所的な最大値をもたらす可能性がある。 ガスおよび相互作用パラメータへの依存について検討した。 一定の運動量範囲で白色雑音で乱れた平坦なポテンシャルの場合について検討した。 ここでは, 強度摂動は, 十分に大きければ平均密度から独立することがわかった。 本研究は, 準2次元双極性ボースガスを均一に得るためには, 均一ポテンシャルがどの程度平坦であるかを示唆するものである。

We theoretically investigate the impact of weak perturbations of a flat potential on the density of a quasi-two-dimensional dipolar Bose gas. We use a mean-field perturbative treatment of the potential defects and derive their effects at first order in the mean-field stable regime. We first focus on defects containing a single spatial frequency and study the wavevector dependence of the density perturbation. A qualitative modification of the wavenumber dependence with the interaction parameters and a sensitivity in the excitation direction reveal the long-range and anisotropic dipolar effects. These effects are found to be most important at intermediate wavenumbers and can give rise to a local maximum in the density perturbation reminiscent of the roton mode softening and local instabilities. The dependence on the gas and interaction parameters is studied. The case of a flat potential perturbed with white noise on a certain momentum range is then examined. Here it is found that the strength perturbation becomes independent of the mean density when sufficiently large. Our study touches upon experimentally relevant issues, giving hints on how flat a uniform potential should be to achieve uniform quasi-two-dimensional dipolar Bose gases.
翻訳日:2024-03-08 13:04:04 公開日:2024-03-07
# 持続可能性評価の枠組みと組織へのアプローチに関する文献レビュー

Literature Review of Current Sustainability Assessment Frameworks and Approaches for Organizations ( http://arxiv.org/abs/2403.04717v1 )

ライセンス: Link先を確認
Sarah Farahdel, Chun Wang, Anjali Awasthi(参考訳) 本稿では,サステナビリティ・アセスメント・フレームワーク(SAF)を多種多様な産業に展開する。 本稿では,サステナビリティ・インジケータ(SI)の選択方法,相対的重要性評価,相互依存分析など,SAF設計のアプローチに注目した。 文献レビュー,ステークホルダインタビュー,アンケート,パレート分析,SMARTアプローチ,持続可能性基準の遵守など,さまざまな手法が複雑なSI選択プロセスに貢献している。 Fuzzy-AHPは相対的なSIの重要性を評価するための堅牢な手法である。 動的持続可能性と性能指標は不可欠であるが、DEMATEL、VIKOR、相関解析、相互依存評価のための因果モデルなどの手法は静的な制限を示す。 レビューでは、SAFの強みと限界を示し、設計アプローチのギャップに対処し、包括的な理解に寄与する。 このレビューの洞察は、政策立案者、管理者、リーダー、研究者に利益をもたらし、サステナビリティの実践を促進することを目的としている。 今後の研究勧告には、複数基準決定モデルとハイブリッドアプローチの探索、組織レベルとサプライチェーン間の持続可能性評価の延長などが含まれる。 包括的サステナビリティの実践には,産業種別への適応性と動的グローバルな調整が重視され,組織的サステナビリティがさらに向上する。

This systematic literature review explores sustainability assessment frameworks (SAFs) across diverse industries. The review focuses on SAF design approaches including the methods used for Sustainability Indicator (SI) selection, relative importance assessment, and interdependency analysis. Various methods, including literature reviews, stakeholder interviews, questionnaires, Pareto analysis, SMART approach, and adherence to sustainability standards, contribute to the complex SI selection process. Fuzzy-AHP stands out as a robust technique for assessing relative SI importance. While dynamic sustainability and performance indices are essential, methods like DEMATEL, VIKOR, correlation analysis, and causal models for interdependency assessment exhibit static limitations. The review presents strengths and limitations of SAFs, addressing gaps in design approaches and contributing to a comprehensive understanding. The insights of this review aim to benefit policymakers, administrators, leaders, and researchers, fostering sustainability practices. Future research recommendations include exploring multi-criteria decision-making models and hybrid approaches, extending sustainability evaluation across organizational levels and supply chains. Emphasizing adaptability to industry specifics and dynamic global adjustments is proposed for holistic sustainability practices, further enhancing organizational sustainability.
翻訳日:2024-03-08 13:03:45 公開日:2024-03-07
# デバイス非依存量子暗号用シードレスエクストラクタ

Seedless Extractors for Device-Independent Quantum Cryptography ( http://arxiv.org/abs/2403.04713v1 )

ライセンス: Link先を確認
Cameron Foreman and Lluis Masanes(参考訳) デバイス非依存(DI)量子暗号は、基礎となる量子デバイスを最小限の信頼性で、あるいは特性化したセキュアな暗号を提供することを目的としている。 DIプロトコルにおける重要なステップはランダム性抽出(またはプライバシーの増幅)であり、これはプロトコル中に生成される任意のビットの十分なエントロピーと統計的独立性を持つ追加ビットのシードを持つことを要求する。 本研究では, シードを必要とせず, 計算上非有界な量子敵に対してセキュアなdiプロトコルの抽出法を提案する。 鍵となるアイデアは、ミネラルエントロピーの代わりに、生データのベル違反を抽出器の約束として使うことだ。

Device-independent (DI) quantum cryptography aims at providing secure cryptography with minimal trust in, or characterisation of, the underlying quantum devices. An essential step in DI protocols is randomness extraction (or privacy amplification) which requires the honest parties to have a seed of additional bits with sufficient entropy and statistical independence of any bits generated during the protocol. In this work we introduce a method for extraction in DI protocols which does not require a seed and is secure against computationally unbounded quantum adversary. The key idea is to use the Bell violation of the raw data, instead of its min-entropy, as the extractor promise.
翻訳日:2024-03-08 13:03:20 公開日:2024-03-07
# 共通7B言語モデルはすでに強力な数学能力を持っている

Common 7B Language Models Already Possess Strong Math Capabilities ( http://arxiv.org/abs/2403.04706v1 )

ライセンス: Link先を確認
Chen Li, Weiqi Wang, Jingcheng Hu, Yixuan Wei, Nanning Zheng, Han Hu, Zheng Zhang, Houwen Peng(参考訳) 数学の能力は、以前は、非常に大規模にのみ共通言語モデルに現れると考えられていた。 本稿では,GSM8K と MATH のベンチマークでそれぞれ 9 7% と 72.0% の精度で,256 個の乱数世代から最高の応答を選択する際に,LLaMA-2 7B モデルがすでに強い数学的能力を示すことを示す。 現在のベースモデルの主な問題は、その固有の数学的能力を一貫して引き出すことの難しさである。 特に、最初の回答の精度は GSM8K と MATH のベンチマークでそれぞれ 49.5% と 7.9% に低下した。 SFTデータを単純にスケールアップするだけで、正しい回答を生成する信頼性が大幅に向上することがわかった。 しかし、大規模なスケーリングの可能性は、公開可能な数学質問の不足によって制限されている。 この限界を克服するために,我々は合成データを用い,実データとほぼ同等の効果を示し,約100万サンプルまでスケールアップしても明確な飽和度は示さない。 この単純なアプローチは、GSM8Kで82.6%、MATHで40.6%の精度をLLaMA-2 7Bモデルで達成し、それぞれ14.2%、20.8%を上回りました。 また、さまざまな推論の複雑さとエラータイプにまたがる動作のスケーリングに関する洞察も提供します。

Mathematical capabilities were previously believed to emerge in common language models only at a very large scale or require extensive math-related pre-training. This paper shows that the LLaMA-2 7B model with common pre-training already exhibits strong mathematical abilities, as evidenced by its impressive accuracy of 97.7% and 72.0% on the GSM8K and MATH benchmarks, respectively, when selecting the best response from 256 random generations. The primary issue with the current base model is the difficulty in consistently eliciting its inherent mathematical capabilities. Notably, the accuracy for the first answer drops to 49.5% and 7.9% on the GSM8K and MATH benchmarks, respectively. We find that simply scaling up the SFT data can significantly enhance the reliability of generating correct answers. However, the potential for extensive scaling is constrained by the scarcity of publicly available math questions. To overcome this limitation, we employ synthetic data, which proves to be nearly as effective as real data and shows no clear saturation when scaled up to approximately one million samples. This straightforward approach achieves an accuracy of 82.6% on GSM8K and 40.6% on MATH using LLaMA-2 7B models, surpassing previous models by 14.2% and 20.8%, respectively. We also provide insights into scaling behaviors across different reasoning complexities and error types.
翻訳日:2024-03-08 13:03:09 公開日:2024-03-07
# フォトンボース・アインシュタイン凝縮体における非線形応答とオンザガー回帰の観測

Observation of Nonlinear Response and Onsager Regression in a Photon Bose-Einstein Condensate ( http://arxiv.org/abs/2403.04705v1 )

ライセンス: Link先を確認
Alexander Sazhin, Vladimir N. Gladilin, Andris Erglis, G\"oran Hellmann, Frank Vewinger, Martin Weitz, Michiel Wouters, Julian Schmitt(参考訳) 量子回帰定理は、2つの異なる時間における系の相関が平均値の時間応答と同じ運動方程式によって制御されていることを述べる。 このような関係は、内在的な微視的挙動と外的「原因」によるマクロ的「効果」との形式的接続を確立することによって、物理系の研究のための強力な枠組みを提供する。 このように制御された摂動に対する応答を測定することで、例えば凝縮物質系の構造因子や物質系の他の相関関数を決定できる。 ここでは,光子ボース・アインシュタイン凝縮体中の2時間粒子数相関が,色素分子浴の急激な摂動に対する凝縮物の応答と同じダイナミクスを示すことを実験的に実証した。 これにより、量子気体の回帰定理が証明され、さらに、摂動が浴槽に作用し、凝縮反応のみを監視する非慣習的な形式でこの関係のテストが確立される。 強い摂動に対しては、微視的理論が平衡揺らぎと関連している非線形緩和ダイナミクスを観察し、線形応答の系を超えて回帰定理を拡張する。 凝縮-熱系の非線形性は、駆動散逸光子凝縮格子における新しい初等励起の研究の道を開く。

The quantum regression theorem states that the correlations of a system at two different times are governed by the same equations of motion as the temporal response of the average values. Such a relation provides a powerful framework for the investigation of physical systems by establishing a formal connection between intrinsic microscopic behaviour and a macroscopic 'effect' due to an external 'cause'. Measuring the response to a controlled perturbation in this way allows to determine, for example, structure factors in condensed matter systems as well as other correlation functions of material systems. Here we experimentally demonstrate that the two-time particle number correlations in a photon Bose-Einstein condensate inside a dye-filled microcavity exhibit the same dynamics as the response of the condensate to a sudden perturbation of the dye molecule bath. This confirms the regression theorem for a quantum gas and, moreover, establishes a test of this relation in an unconventional form where the perturbation acts on the bath and only the condensate response is monitored. For strong perturbations, we observe nonlinear relaxation dynamics which our microscopic theory relates to the equilibrium fluctuations, thereby extending the regression theorem beyond the regime of linear response. The demonstrated nonlinearity of the condensate-bath system paves the way for studies of novel elementary excitations in lattices of driven-dissipative photon condensates.
翻訳日:2024-03-08 13:02:46 公開日:2024-03-07
# 表面符号のロバストなテレポーテーションと位相的量子相転移のカスケード

Robust teleportation of a surface code and cascade of topological quantum phase transitions ( http://arxiv.org/abs/2403.04767v1 )

ライセンス: Link先を確認
Finn Eckstein, Bo Han, Simon Trebst, Guo-Yi Zhu(参考訳) テレポーテーション(英: Teleportation)は、量子物理学において量子測定が強力な資源として機能し、局所的な測定によって非局所的な方法で量子情報を操ることができるファセットである。 これは長い間単一のベルペアで確立されてきたが、フォールトトレラント論理量子ビットのテレポーテーションは、多量子ビット状態のテレポーテーションを必要とするため、根本的に異なる課題である。 本稿では,基本ベル測定による長距離絡み合った表面コード状態の伝送プロトコルと,調整可能なコヒーレント誤差の存在下での安定性について検討する。 弱測定下でのエノン凝縮の物理に基礎となるしきい値問題と関連づけ、西森型障害を伴う統計力学のアシュキン・テラーモデル(英語版)(ashkin-teller model of statistical mechanics)の変種にマッピングし、相転移のカスケードを生じさせる。 局所ベル測定の角度をチューニングすると、連続的に変化するしきい値が見つかる。 特に、閾値は自己双対線に沿ってx+z$角度の無限大に移動し、コヒーレントなノイズが存在する場合でもフォールトトレラントな最適なプロトコルを示す。 動的に構成可能なrydberg原子配列に容易に実装できるテレポーテーションプロトコルは、量子測定のパワーを実際に実証するためのガイダンスを提供する。

Teleportation is a facet where quantum measurements can act as a powerful resource in quantum physics, as local measurements allow to steer quantum information in a non-local way. While this has long been established for a single Bell pair, the teleportation of a fault-tolerant logical qubit presents a fundamentally different challenge as it requires the teleportation of a many-qubit state. Here we investigate a tangible protocol for teleporting a long-range entangled surface code state using elementary Bell measurements and its stability in the presence of tunable coherent errors. We relate the underlying threshold problem to the physics of anyon condensation under weak measurements and map it to a variant of the Ashkin-Teller model of statistical mechanics with Nishimori type disorder, which gives rise to a cascade of phase transitions. Tuning the angle of the local Bell measurements, we find a continuously varying threshold. Notably, the threshold moves to infinity for the $X+Z$ angle along the self-dual line -- indicating an optimal protocol that is fault-tolerant even in the presence of coherent noise. Our teleportation protocol, which can be readily implemented in dynamically configurable Rydberg atom arrays, thereby gives guidance for a practical demonstration of the power of quantum measurements.
翻訳日:2024-03-08 12:58:53 公開日:2024-03-07
# 効率的なloftr: スパースライクなスピードでセミデンスなローカル機能マッチング

Efficient LoFTR: Semi-Dense Local Feature Matching with Sparse-Like Speed ( http://arxiv.org/abs/2403.04765v1 )

ライセンス: Link先を確認
Yifan Wang, Xingyi He, Sida Peng, Dongli Tan, Xiaowei Zhou(参考訳) 本稿では,画像間のセミセンスマッチングを効率よく生成する手法を提案する。 従来の検出器フリーのマッチ装置loftrは、大きな視点変化やテクスチャパウアシナリオを扱う際、顕著なマッチング能力を示したが、効率は低かった。 設計上の選択を再検討し、効率と精度の両面で複数の改善を導出する。 特徴マップ全体にわたるトランスフォーマーの実行は共有局所情報による冗長であるため,効率のために適応トークン選択を用いた集中型アテンション機構を提案する。 さらに,LoFTRの微細相関モジュールには空間的ばらつきがあり,マッチング精度に悪影響を及ぼすことがわかった。 精度向上のための高精度サブピクセル対応を実現するために,新しい2段階相関層を提案する。 我々の効率最適化モデルは、LoFTRよりも$\sim 2.5\times$高速で、最先端の効率的なスパースマッチングパイプラインSuperPoint + LightGlueを超えます。 また, 提案手法は, 競争型セミデンスマッチングに比べて高い精度を実現でき, 高い効率性が期待できることを示した。 これにより、画像検索や3D再構成といった大規模または遅延に敏感なアプリケーションに、エキサイティングな展望が開ける。 プロジェクトページ: https://zju3dv.github.io/ efficientloftr。

We present a novel method for efficiently producing semi-dense matches across images. Previous detector-free matcher LoFTR has shown remarkable matching capability in handling large-viewpoint change and texture-poor scenarios but suffers from low efficiency. We revisit its design choices and derive multiple improvements for both efficiency and accuracy. One key observation is that performing the transformer over the entire feature map is redundant due to shared local information, therefore we propose an aggregated attention mechanism with adaptive token selection for efficiency. Furthermore, we find spatial variance exists in LoFTR's fine correlation module, which is adverse to matching accuracy. A novel two-stage correlation layer is proposed to achieve accurate subpixel correspondences for accuracy improvement. Our efficiency optimized model is $\sim 2.5\times$ faster than LoFTR which can even surpass state-of-the-art efficient sparse matching pipeline SuperPoint + LightGlue. Moreover, extensive experiments show that our method can achieve higher accuracy compared with competitive semi-dense matchers, with considerable efficiency benefits. This opens up exciting prospects for large-scale or latency-sensitive applications such as image retrieval and 3D reconstruction. Project page: https://zju3dv.github.io/efficientloftr.
翻訳日:2024-03-08 12:58:29 公開日:2024-03-07
# Thompson Smpling Regret-to-Sigma Ratio (TS-RSR): バッチベイズ最適化のための証明可能なアルゴリズム

Minimizing the Thompson Sampling Regret-to-Sigma Ratio (TS-RSR): a provably efficient algorithm for batch Bayesian Optimization ( http://arxiv.org/abs/2403.04764v1 )

ライセンス: Link先を確認
Zhaolin Ren and Na Li(参考訳) 本稿では,バッチベイズ最適化(bo)のための新しい手法を提案する。この手法では,不確実性に対する後悔の近似を最小化することでサンプリングを行う。 我々の目標は、高い予測手段や高い不確実性のある点に着目しながら、ポイント間の冗長性を最小化する方法で、各バッチで選択されたアクションを調整することである。 我々はアルゴリズムの後悔に対して高い確率理論的保証を提供する。 最後に,本手法が非凸テスト関数の範囲において最先端性能を達成できることを数値的に示し,競合ベンチマークバッチboアルゴリズムを平均1桁上回った。

This paper presents a new approach for batch Bayesian Optimization (BO), where the sampling takes place by minimizing a Thompson Sampling approximation of a regret to uncertainty ratio. Our objective is able to coordinate the actions chosen in each batch in a way that minimizes redundancy between points whilst focusing on points with high predictive means or high uncertainty. We provide high-probability theoretical guarantees on the regret of our algorithm. Finally, numerically, we demonstrate that our method attains state-of-the-art performance on a range of nonconvex test functions, where it outperforms several competitive benchmark batch BO algorithms by an order of magnitude on average.
翻訳日:2024-03-08 12:58:06 公開日:2024-03-07
# BloomGML: 双方向最適化のレンズによるグラフ機械学習

BloomGML: Graph Machine Learning through the Lens of Bilevel Optimization ( http://arxiv.org/abs/2403.04763v1 )

ライセンス: Link先を確認
Amber Yijia Zheng and Tong He and Yixuan Qiu and Minjie Wang and David Wipf(参考訳) 双レベル最適化は、低レベルのエネルギー関数の最適解が、関心の上位レベルの目的に対する入力特徴として機能するシナリオを指す。 これらの最適特徴は、通常、双方向パイプライン全体をエンドツーエンドで訓練できる方法で、低レベルのエネルギーの調整可能なパラメータに依存する。 一般には提示されていないが,二段階最適化や単純化の特別な場合として,様々なグラフ学習手法が再キャスト可能であることを示す。 簡単に言うと、事前の作業に基づいて、私たちはまず、様々な降下ステップ(勾配降下、近位法、運動量など)とペアリングするときに、グラフニューラルネットワーク(gnn)のメッセージ通過層を形成する、より柔軟なエネルギー関数のクラスを導出します。 そこで我々は,知識グラフの埋め込み,ラベルの伝播,効率的なグラフ正規化MLPモデルなど,非GNNグラフ学習アプローチとの密接な関係を導出するために,このフレームワークの単純化を探索する。 最後に、BloomGMLと呼ばれる提案されたバイレベルレンズの汎用性を示す実証的な結果を提示し、BiLevel Optimizationがより多くのグラフ機械学習を提供することを言及する。 私たちのコードはhttps://github.com/amberyzheng/BloomGMLで利用可能です。 graph ml bloom にしましょう。

Bilevel optimization refers to scenarios whereby the optimal solution of a lower-level energy function serves as input features to an upper-level objective of interest. These optimal features typically depend on tunable parameters of the lower-level energy in such a way that the entire bilevel pipeline can be trained end-to-end. Although not generally presented as such, this paper demonstrates how a variety of graph learning techniques can be recast as special cases of bilevel optimization or simplifications thereof. In brief, building on prior work we first derive a more flexible class of energy functions that, when paired with various descent steps (e.g., gradient descent, proximal methods, momentum, etc.), form graph neural network (GNN) message-passing layers; critically, we also carefully unpack where any residual approximation error lies with respect to the underlying constituent message-passing functions. We then probe several simplifications of this framework to derive close connections with non-GNN-based graph learning approaches, including knowledge graph embeddings, various forms of label propagation, and efficient graph-regularized MLP models. And finally, we present supporting empirical results that demonstrate the versatility of the proposed bilevel lens, which we refer to as BloomGML, referencing that BiLevel Optimization Offers More Graph Machine Learning. Our code is available at https://github.com/amberyzheng/BloomGML. Let graph ML bloom.
翻訳日:2024-03-08 12:57:51 公開日:2024-03-07
# iScore: 言語モデルが自動的に要約を解釈するビジュアルアナリティクス

iScore: Visual Analytics for Interpreting How Language Models Automatically Score Summaries ( http://arxiv.org/abs/2403.04760v1 )

ライセンス: Link先を確認
Adam Coscia, Langdon Holmes, Wesley Morris, Joon Suh Choi, Scott Crossley, Alex Endert(参考訳) 近年の大規模言語モデル(llms)の普及は、学習エンジニアにサマリーライティングを自動スコアリングする適応型教育ツールへの導入を促した。 LLMの理解と評価は、重要な学習環境に展開する前に不可欠であるが、その前例のない大きさとパラメータの増大は、透明性を阻害し、不成功時の信頼を阻害する。 要約スコアリングllmの構築と展開を行う複数の学習エンジニアによる協調的なユーザ中心設計プロセスを通じて,大規模テキスト入力の集約,スコア生成の追跡,llm解釈可能性のスケールアップなど,モデル解釈に関する基本的な設計課題と目標を特徴付ける。 これらの懸念に対処するため、私たちは、エンジニアが複数の要約を同時にアップロード、スコア、比較するためのインタラクティブなビジュアル分析ツールであるiScoreを開発した。 密に統合されたビューにより、ユーザは要約で言語を反復的に修正し、結果のLCMスコアの変化を追跡し、モデルの重みを複数の抽象化レベルで可視化することができる。 このアプローチを検証するため、私たちは3人の学習エンジニアと1ヶ月にわたってiScoreをデプロイしました。 我々は,iScoreと対話することで,学習技術者がLLMのスコア精度を3ポイント向上するケーススタディを提案する。 最後に,iscoreが展開時のllmの理解,評価,信頼構築を可能にした理由を明らかにするために,学習エンジニアと質的インタビューを行った。

The recent explosion in popularity of large language models (LLMs) has inspired learning engineers to incorporate them into adaptive educational tools that automatically score summary writing. Understanding and evaluating LLMs is vital before deploying them in critical learning environments, yet their unprecedented size and expanding number of parameters inhibits transparency and impedes trust when they underperform. Through a collaborative user-centered design process with several learning engineers building and deploying summary scoring LLMs, we characterized fundamental design challenges and goals around interpreting their models, including aggregating large text inputs, tracking score provenance, and scaling LLM interpretability methods. To address their concerns, we developed iScore, an interactive visual analytics tool for learning engineers to upload, score, and compare multiple summaries simultaneously. Tightly integrated views allow users to iteratively revise the language in summaries, track changes in the resulting LLM scores, and visualize model weights at multiple levels of abstraction. To validate our approach, we deployed iScore with three learning engineers over the course of a month. We present a case study where interacting with iScore led a learning engineer to improve their LLM's score accuracy by three percentage points. Finally, we conducted qualitative interviews with the learning engineers that revealed how iScore enabled them to understand, evaluate, and build trust in their LLMs during deployment.
翻訳日:2024-03-08 12:57:28 公開日:2024-03-07
# 超次元計算を用いたエッジを越えた生涯インテリジェンス

Lifelong Intelligence Beyond the Edge using Hyperdimensional Computing ( http://arxiv.org/abs/2403.04759v1 )

ライセンス: Link先を確認
Xiaofan Yu, Anthony Thomas, Ivannia Gomez Moreno, Louis Gutierrez, Tajana Rosing(参考訳) デバイス上での学習は、クラウドベースの学習の遅い応答時間とコストのかかるコミュニケーションを避ける、一般的なトレンドとして現れています。 変化する環境で継続的に無期限に学習する能力、そしてリソースの制約によって、実際のセンサー展開には不可欠である。 しかし、既存の設計は実用的なシナリオには不十分である。 (i)ストリーミングデータ入力。 (ii)監督の欠如及び (iii)限られた資源。 本稿では,一般IoTアプリケーション向けに,LifeHDと呼ばれるデバイス上での生涯学習システムの設計と展開を行う。 LifeHDは、Hyperdimensional Computing (HDC)と呼ばれる、ニューラルにインスパイアされた軽量な学習パラダイムに基づいて設計されている。 我々は2階層の連想記憶機構を用いて、歴史的パターンをクラスタセントロイドとして表現した高次元の低精度ベクトルをインテリジェントに保存・管理する。 また,低ラベル入力と電力制約に対処する2種類のLifeHDを提案する。 市販のエッジプラットフォーム上でLifeHDを実装し、3つのシナリオで広範な評価を行う。 我々の測定では、LifeHDは、最先端のNNベースで、34.3倍のエネルギー効率で、教師なしクラスタリングの精度を最大74.8%向上させる。 私たちのコードはhttps://github.com/orienfish/lifehdで利用可能です。

On-device learning has emerged as a prevailing trend that avoids the slow response time and costly communication of cloud-based learning. The ability to learn continuously and indefinitely in a changing environment, and with resource constraints, is critical for real sensor deployments. However, existing designs are inadequate for practical scenarios with (i) streaming data input, (ii) lack of supervision and (iii) limited on-board resources. In this paper, we design and deploy the first on-device lifelong learning system called LifeHD for general IoT applications with limited supervision. LifeHD is designed based on a novel neurally-inspired and lightweight learning paradigm called Hyperdimensional Computing (HDC). We utilize a two-tier associative memory organization to intelligently store and manage high-dimensional, low-precision vectors, which represent the historical patterns as cluster centroids. We additionally propose two variants of LifeHD to cope with scarce labeled inputs and power constraints. We implement LifeHD on off-the-shelf edge platforms and perform extensive evaluations across three scenarios. Our measurements show that LifeHD improves the unsupervised clustering accuracy by up to 74.8% compared to the state-of-the-art NN-based unsupervised lifelong learning baselines with as much as 34.3x better energy efficiency. Our code is available at https://github.com/Orienfish/LifeHD.
翻訳日:2024-03-08 12:57:01 公開日:2024-03-07
# KnowledgeVIS: ブランク・プリンプの比較による言語モデルの解釈

KnowledgeVIS: Interpreting Language Models by Comparing Fill-in-the-Blank Prompts ( http://arxiv.org/abs/2403.04758v1 )

ライセンス: Link先を確認
Adam Coscia, Alex Endert(参考訳) 近年の大規模言語モデルの普及により、テキストの要約、予測、生成への利用が増加し、研究者やエンジニアが作業方法や理由を理解する上で不可欠になっている。 本稿では,人間の言語モデル解析システムであるKnowledgeVisについて述べる。 文間の予測を比較することで、knowledgevis氏は、トレーニング中に学習した言語モデルと下流の自然言語タスクを直感的に結びつけ、ユーザが複数のプロンプトなバリエーションの作成とテストを支援し、新しいセマンティッククラスタリング技術を使って予測された単語を分析し、インタラクティブな視覚化を使って洞察を見つける学習関連を明らかにする。 これらの視覚化は、ユーザが個々の予測の可能性と独自性を特定し、プロンプト間の予測セットを比較し、すべてのプロンプト間のパターンと関係を要約する。 6人のnlp専門家からのフィードバックと,(1)2つのドメイン適応モデルにおける生体医学的知識の探索,(2)有害なアイデンティティステレオタイプの評価,(3)3つの汎用モデル間の事実と関係の発見,の3つのユースケースを用いて,知識ビスの能力を示す。

Recent growth in the popularity of large language models has led to their increased usage for summarizing, predicting, and generating text, making it vital to help researchers and engineers understand how and why they work. We present KnowledgeVis, a human-in-the-loop visual analytics system for interpreting language models using fill-in-the-blank sentences as prompts. By comparing predictions between sentences, KnowledgeVis reveals learned associations that intuitively connect what language models learn during training to natural language tasks downstream, helping users create and test multiple prompt variations, analyze predicted words using a novel semantic clustering technique, and discover insights using interactive visualizations. Collectively, these visualizations help users identify the likelihood and uniqueness of individual predictions, compare sets of predictions between prompts, and summarize patterns and relationships between predictions across all prompts. We demonstrate the capabilities of KnowledgeVis with feedback from six NLP experts as well as three different use cases: (1) probing biomedical knowledge in two domain-adapted models; and (2) evaluating harmful identity stereotypes and (3) discovering facts and relationships between three general-purpose models.
翻訳日:2024-03-08 12:56:44 公開日:2024-03-07
# 大規模屋外局地化のためのコンパクトオブジェクト中心LiDARポース推定

That's My Point: Compact Object-centric LiDAR Pose Estimation for Large-scale Outdoor Localisation ( http://arxiv.org/abs/2403.04755v1 )

ライセンス: Link先を確認
Georgi Pramatarov and Matthew Gadd and Paul Newman and Daniele De Martini(参考訳) 本稿では,LiDARスキャンの3次元ポーズ推定を極端に最小限のストレージで行うことで,スケーラブルなマッピングとローカライゼーションを実現する。 セグメンテーションされたスキャンのすべてのポイントをセマンティックオブジェクトにクラスタリングし、それらをそれぞれのcentroidクラスとsemanticクラスで表現することで、これを達成する。 このようにして、各LiDARスキャンは4個の数ベクトルのコンパクトコレクションに縮小される。 これは、伝統的な登録手法にとって重要なシーンから重要な構造情報を抽象化する。 そこで本稿では,エンティティ間の幾何学的・意味的関係を捉えた自己相関と相互相関に基づくオブジェクトマッチングネットワークを提案する。 これらの結果から,Singular Value Decomposition (SVD) とRANdom SAmple Consensus (RANSAC) によるスキャン間の相対変換を再現できることがわかった。 このような表現は、KITTIデータセット上で異なる視点で取られた点雲を登録し、KITTIとKITTI-360間の異なる時間的ローカライズにより、計量的ローカライズに十分であることを示す。 我々は,表現サイズがほぼ半分である最先端の手法,特に平均1.43kbの正確な測定結果を得る。

This paper is about 3D pose estimation on LiDAR scans with extremely minimal storage requirements to enable scalable mapping and localisation. We achieve this by clustering all points of segmented scans into semantic objects and representing them only with their respective centroid and semantic class. In this way, each LiDAR scan is reduced to a compact collection of four-number vectors. This abstracts away important structural information from the scenes, which is crucial for traditional registration approaches. To mitigate this, we introduce an object-matching network based on self- and cross-correlation that captures geometric and semantic relationships between entities. The respective matches allow us to recover the relative transformation between scans through weighted Singular Value Decomposition (SVD) and RANdom SAmple Consensus (RANSAC). We demonstrate that such representation is sufficient for metric localisation by registering point clouds taken under different viewpoints on the KITTI dataset, and at different periods of time localising between KITTI and KITTI-360. We achieve accurate metric estimates comparable with state-of-the-art methods with almost half the representation size, specifically 1.33 kB on average.
翻訳日:2024-03-08 12:56:18 公開日:2024-03-07
# 雑音緩和型ランダム化測定と自己校正影推定

Noise-mitigated randomized measurements and self-calibrating shadow estimation ( http://arxiv.org/abs/2403.04751v1 )

ライセンス: Link先を確認
E. Onorati, J. Kitzinger, J. Helsen, M. Ioannou, A. H. Werner, I. Roth, J. Eisert(参考訳) ランダム化測定は量子システムの特性を推定する強力なツールとして評価され、例えば、ハイブリッド古典量子計算のキャラクタリゼーションにおいて評価されている。 多くのプラットフォームでは、それらはネイティブアクセス可能な測定値を構成し、シャドウ推定のような顕著なスキームのビルディングブロックとして機能する。 しかし、現実の世界では、これらのスキームのコアにおけるランダムゲートの実装は様々なノイズや不完全性の源に影響を受けやすく、プロトコルの適用性を強く制限している。 本研究は,この欠点の影響を軽減するために,ランダム化測定の誤差軽減手法を導入し,ロバストなシャドウ推定手法を提案する。 実用的側面として,同じ量子実験のセッションを用いて誤差緩和と影推定を行うことで,ランダム化測定に影響を及ぼすノイズを解決し緩和できることを示す。 数学的には、ランダム化ベンチマークと影推定を結合するフーリエ変換から導出した画像を開発する。 厳密な性能保証を証明し,包括的数値を用いて機能を示す。 より概念的には、適切に使用すれば、ランダム化ベンチマークスキームから容易にアクセス可能なデータが、ノイズダイナミクスに関する情報や量子学習手順の支援のために、すでに貴重な診断情報を提供していることを実証する。

Randomized measurements are increasingly appreciated as powerful tools to estimate properties of quantum systems, e.g., in the characterization of hybrid classical-quantum computation. On many platforms they constitute natively accessible measurements, serving as the building block of prominent schemes like shadow estimation. In the real world, however, the implementation of the random gates at the core of these schemes is susceptible to various sources of noise and imperfections, strongly limiting the applicability of protocols. To attenuate the impact of this shortcoming, in this work we introduce an error-mitigated method of randomized measurements, giving rise to a robust shadow estimation procedure. On the practical side, we show that error mitigation and shadow estimation can be carried out using the same session of quantum experiments, hence ensuring that we can address and mitigate the noise affecting the randomization measurements. Mathematically, we develop a picture derived from Fourier-transforms to connect randomized benchmarking and shadow estimation. We prove rigorous performance guarantees and show the functioning using comprehensive numerics. More conceptually, we demonstrate that, if properly used, easily accessible data from randomized benchmarking schemes already provide such valuable diagnostic information to inform about the noise dynamics and to assist in quantum learning procedures.
翻訳日:2024-03-08 12:55:55 公開日:2024-03-07
# JAX-SPH: 微分可能な平滑な粒子流体力学フレームワーク

JAX-SPH: A Differentiable Smoothed Particle Hydrodynamics Framework ( http://arxiv.org/abs/2403.04750v1 )

ライセンス: Link先を確認
Artur P. Toshev, Harish Ramachandran, Jonas A. Erbesdobler, Gianluca Galletti, Johannes Brandstetter, Nikolaus A. Adams(参考訳) 粒子に基づく流体シミュレーションは、特に複雑な物理学や自由表面を含む場合において、ナビエ・ストークス方程式を解く強力なツールとして登場した。 このような問題を解決するためのツールボックスに機械学習手法が最近追加されたことは、そのような数値シミュレーションの品質と速度のトレードオフの境界を押し広げている。 本研究では, 深層学習フレームワークと互換性のあるラグランジアン流体シミュレータへの道のりを導き, JAX で実装された Smoothed Particle Hydrodynamics (SPH) フレームワーク JAX-SPH を提案する。 JAX-SPHは、LagrangeBenchプロジェクト(Toshev et al., 2023)からデータセット生成のためのコードに基づいて構築され、複数の方法でこのコードを拡張する。 (a)さらに重要なSPHアルゴリズムの統合。 b) Pythonライブラリへのコードの再構築。 (c)解決器による勾配の検証、及び (d) 逆問題およびSolver-in-the-Loop アプリケーションに対する勾配の有用性の実証。 私たちのコードはhttps://github.com/tumaer/jax-sphで入手できる。

Particle-based fluid simulations have emerged as a powerful tool for solving the Navier-Stokes equations, especially in cases that include intricate physics and free surfaces. The recent addition of machine learning methods to the toolbox for solving such problems is pushing the boundary of the quality vs. speed tradeoff of such numerical simulations. In this work, we lead the way to Lagrangian fluid simulators compatible with deep learning frameworks, and propose JAX-SPH - a Smoothed Particle Hydrodynamics (SPH) framework implemented in JAX. JAX-SPH builds on the code for dataset generation from the LagrangeBench project (Toshev et al., 2023) and extends this code in multiple ways: (a) integration of further key SPH algorithms, (b) restructuring the code toward a Python library, (c) verification of the gradients through the solver, and (d) demonstration of the utility of the gradients for solving inverse problems as well as a Solver-in-the-Loop application. Our code is available at https://github.com/tumaer/jax-sph.
翻訳日:2024-03-08 12:55:32 公開日:2024-03-07
# GNN-VPA:グラフニューラルネットワークの分散保存アグリゲーション戦略

GNN-VPA: A Variance-Preserving Aggregation Strategy for Graph Neural Networks ( http://arxiv.org/abs/2403.04747v1 )

ライセンス: Link先を確認
Lisa Schneckenreiter, Richard Freinschlag, Florian Sestak, Johannes Brandstetter, G\"unter Klambauer, Andreas Mayr(参考訳) グラフニューラルネットワーク(GNN)、特にメッセージパッシングニューラルネットワークは、物理学、薬物発見、分子モデリングといった様々な領域で優れている。 非同型グラフを識別する能力に関するGNNの表現性は、メッセージ集約やグラフレベルの読み出しに使用される関数に依存する。 信号伝搬理論を適用して,表現性を維持する分散保存凝集関数(VPA)を提案する。 実験により、VPAは一般的なGNNアーキテクチャの予測性能の向上と学習ダイナミクスの改善につながることが示された。 その結果, 正常化フリーあるいは自己正規化GNNへの道を開くことができた。

Graph neural networks (GNNs), and especially message-passing neural networks, excel in various domains such as physics, drug discovery, and molecular modeling. The expressivity of GNNs with respect to their ability to discriminate non-isomorphic graphs critically depends on the functions employed for message aggregation and graph-level readout. By applying signal propagation theory, we propose a variance-preserving aggregation function (VPA) that maintains expressivity, but yields improved forward and backward dynamics. Experiments demonstrate that VPA leads to increased predictive performance for popular GNN architectures as well as improved learning dynamics. Our results could pave the way towards normalizer-free or self-normalizing GNNs.
翻訳日:2024-03-08 12:55:15 公開日:2024-03-07
# imaginariumにおけるllms: 試行錯誤によるツール学習

LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error ( http://arxiv.org/abs/2403.04746v1 )

ライセンス: Link先を確認
Boshi Wang, Hao Fang, Jason Eisner, Benjamin Van Durme, Yu Su(参考訳) 大規模言語モデル(llm)には、最新の情報を取得し、外部環境での一連のアクションを取るためのツールが不可欠である。 ツール拡張 LLM に関する既存の作業は主に、ツールの広範なカバレッジと、新しいツールを追加する柔軟性に焦点を当てている。 しかし、驚くほど研究されている重要な側面は、単にLLMがトレーニングされたツールをいかに正確に使っているかである。 GPT-4 やオープンソース LLM などの既存の LLM は,ツールの使用に特化して設計されており,信頼性の高い使用方法とは程遠い 30% から 60% の範囲で精度が向上している。 本研究では,生物システムにおけるツール使用行動の成功メカニズムである試行錯誤,想像,記憶の3つを編成する,ツール拡張LDM(simulated trial and error, STE)を提案する。 具体的には、STEはLLMの「想像」を活用して、ツールを使用するための妥当なシナリオをシミュレートし、その後、LLMがツールと対話して実行フィードバックから学習する。 短期記憶と長期記憶は、それぞれ探査の深さと幅を改善するために用いられる。 ToolBenchの総合的な実験によると、STEは文脈内学習と微調整の両方でLLMのツール学習を大幅に改善し、Mistral-Instruct-7Bが46.7%向上し、GPT-4を上回っている。 また,簡単な経験リプレイ戦略によるツールの効果的な連続学習も示す。

Tools are essential for large language models (LLMs) to acquire up-to-date information and take consequential actions in external environments. Existing work on tool-augmented LLMs primarily focuses on the broad coverage of tools and the flexibility of adding new tools. However, a critical aspect that has surprisingly been understudied is simply how accurately an LLM uses tools for which it has been trained. We find that existing LLMs, including GPT-4 and open-source LLMs specifically fine-tuned for tool use, only reach a correctness rate in the range of 30% to 60%, far from reliable use in practice. We propose a biologically inspired method for tool-augmented LLMs, simulated trial and error (STE), that orchestrates three key mechanisms for successful tool use behaviors in the biological system: trial and error, imagination, and memory. Specifically, STE leverages an LLM's 'imagination' to simulate plausible scenarios for using a tool, after which the LLM interacts with the tool to learn from its execution feedback. Both short-term and long-term memory are employed to improve the depth and breadth of the exploration, respectively. Comprehensive experiments on ToolBench show that STE substantially improves tool learning for LLMs under both in-context learning and fine-tuning settings, bringing a boost of 46.7% to Mistral-Instruct-7B and enabling it to outperform GPT-4. We also show effective continual learning of tools via a simple experience replay strategy.
翻訳日:2024-03-08 12:55:04 公開日:2024-03-07
# ウェイカー推定による非ガウス成分分析のためのSQ下界

SQ Lower Bounds for Non-Gaussian Component Analysis with Weaker Assumptions ( http://arxiv.org/abs/2403.04744v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel Kane, Lisheng Ren and Yuxin Sun(参考訳) 統計的クエリ(SQ)モデルにおける非ガウス成分分析(NGCA)の複雑さについて検討する。 先行研究は、幅広い文脈に適用可能な、このタスクのSQの下限を証明する一般的な方法論を開発した。 特に、ある条件を満たす任意の単変量分布$A$に対して、標準の多変量ガウス分布とランダムに隠れた方向に振る舞い、直交補空間の標準ガウス分布のように振る舞う分布とを区別することが知られている。 要求される条件は、(1) $a$ は標準の非定値ガウス型と多くの低次モーメントに一致し、(2)標準ガウス型に関して$a$ の2乗ノルムは有限である。 硬度にはモーメントマッチング条件が必要であったが, 技術的理由からカイ二乗条件が必要であった。 本研究では,後者の条件が本当に必要ではないことを確かめる。 特に, NGCAの場合, モーメントマッチング条件のみにおいて, ほぼ最適SQ下限を示す。 この結果は自然に隠れた部分空間の設定に一般化する。 一般SQの下限を活用すれば、既存の手法が準最適あるいは空虚な保証を提供するような、様々な具体的な推定タスクに対して、ほぼ最適SQ下限が得られる。

We study the complexity of Non-Gaussian Component Analysis (NGCA) in the Statistical Query (SQ) model. Prior work developed a general methodology to prove SQ lower bounds for this task that have been applicable to a wide range of contexts. In particular, it was known that for any univariate distribution $A$ satisfying certain conditions, distinguishing between a standard multivariate Gaussian and a distribution that behaves like $A$ in a random hidden direction and like a standard Gaussian in the orthogonal complement, is SQ-hard. The required conditions were that (1) $A$ matches many low-order moments with the standard univariate Gaussian, and (2) the chi-squared norm of $A$ with respect to the standard Gaussian is finite. While the moment-matching condition is necessary for hardness, the chi-squared condition was only required for technical reasons. In this work, we establish that the latter condition is indeed not necessary. In particular, we prove near-optimal SQ lower bounds for NGCA under the moment-matching condition only. Our result naturally generalizes to the setting of a hidden subspace. Leveraging our general SQ lower bound, we obtain near-optimal SQ lower bounds for a range of concrete estimation tasks where existing techniques provide sub-optimal or even vacuous guarantees.
翻訳日:2024-03-08 12:54:25 公開日:2024-03-07
# 可逆置換をもつ単線スポンジの量子一方向性

Quantum One-Wayness of the Single-Round Sponge with Invertible Permutations ( http://arxiv.org/abs/2403.04740v1 )

ライセンス: Link先を確認
Joseph Carolan and Alexander Poremba(参考訳) スポンジハッシュ(sponge hashing)は、現在の国際ハッシュ関数であるsha-3の基盤となる暗号ハッシュアルゴリズムである。 簡単に言えば、スポンジ関数は任意の長さのビットストリームとして入力を受け取り、単純な反復手順で処理し、入力の各ブロックをいわゆるブロック関数に繰り返し供給し、最後の出力ビットのサブセットからなる短いダイジェストを生成する。 ブロック関数がランダム関数や置換としてモデル化された場合のスポンジ構成の量子後安全性については、多くのことが知られているが、より正確な構成をモデル化する可逆置換の場合、これまでのところ基本的なオープン問題である。 本研究では,この障壁を克服するための新たな進展と,いくつかの結果を示す。 まず、Unruh (eprint' 2021) が提唱した「二重側ゼロ探索」予想を証明し、ランダムな2n$-ビットの置換でゼロペアを見つけるには、少なくとも$\Omega(2^{n/2})$ 多くのクエリが必要であることを示す。 我々の証明の核には、ヤング部分群の理論からの洞察を利用する新しい「対称性論」がある。 第2に, 二重探索問題のより一般的な変種を検討し, 同様のクエリ下限を示す。 応用として、単一ラウンドスポンジの量子一方向性を量子ランダムオラクルモデルにおける可逆置換で証明する。

Sponge hashing is a novel class of cryptographic hash algorithms which underlies the current international hash function standard SHA-3. In a nutshell, a sponge function takes as input a bit-stream of any length and processes it via a simple iterative procedure: it repeatedly feeds each block of the input into a so-called block function, and then produces a short digest which consists of a subset of the final output bits. While much is known about the post-quantum security of the sponge construction in the case when the block function is modeled as a random function or permutation, the case of invertible permutations, which more accurately models the construction underlying SHA-3, has so far remained a fundamental open problem. In this work, we make new progress towards overcoming this barrier and show several results. First, we prove the "double-sided zero-search" conjecture proposed by Unruh (eprint' 2021) and show that finding zero-pairs in a random $2n$-bit permutation requires at least $\Omega(2^{n/2})$ many queries -- and this is tight due to Grover's algorithm. At the core of our proof lies a novel "symmetrization argument" which uses insights from the theory of Young subgroups. Second, we consider more general variants of the double-sided search problem and show similar query lower bounds for them. As an application, we prove the quantum one-wayness of the single-round sponge with invertible permutations in the quantum random oracle model.
翻訳日:2024-03-08 12:53:58 公開日:2024-03-07
# シーンフローじゃないなんて 信じられない!

I Can't Believe It's Not Scene Flow! ( http://arxiv.org/abs/2403.04739v1 )

ライセンス: Link先を確認
Ishan Khatri, Kyle Vedder, Neehar Peri, Deva Ramanan, James Hays(参考訳) 現在のシーンフロー評価手法は、小さなオブジェクトの動作を記述するのに失敗し、現在のシーンフロー評価プロトコルは、多くのポイントを平均して、ほとんどの大きなオブジェクトを描画することで、この失敗を隠す。 この評価失敗を解決するために,クラス認識と速度正規化が可能な新しい評価プロトコルであるBucket Normalized EPEを提案する。 現状の手法の失敗を浮き彫りにするために,高品質な事前学習型検出器(多くのクラスリバランス技術を用いて訓練)を単純なトラッカにボルトして,現在の標準評価において最先端のパフォーマンスと先行技術に対する大幅な改善を実現した,フラストレーション的で単純なシーンフローベースラインであるトラックフローを提案する。 その結果,すべてのシーンフロー評価はクラスと速度を意識しなければならず,教師ありシーンフロー手法はポイントクラスの不均衡に対処する必要があることが明らかとなった。 評価コードはhttps://github.com/kylevedder/BucketedSceneFlowEval.comで公開しています。

Current scene flow methods broadly fail to describe motion on small objects, and current scene flow evaluation protocols hide this failure by averaging over many points, with most drawn larger objects. To fix this evaluation failure, we propose a new evaluation protocol, Bucket Normalized EPE, which is class-aware and speed-normalized, enabling contextualized error comparisons between object types that move at vastly different speeds. To highlight current method failures, we propose a frustratingly simple supervised scene flow baseline, TrackFlow, built by bolting a high-quality pretrained detector (trained using many class rebalancing techniques) onto a simple tracker, that produces state-of-the-art performance on current standard evaluations and large improvements over prior art on our new evaluation. Our results make it clear that all scene flow evaluations must be class and speed aware, and supervised scene flow methods must address point class imbalances. We release the evaluation code publicly at https://github.com/kylevedder/BucketedSceneFlowEval.
翻訳日:2024-03-08 12:53:29 公開日:2024-03-07