このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240515となっている論文です。

PDF登録状況(公開日: 20240515)

TitleAuthorsAbstract論文公表日・翻訳日
# 自閉症における感情認識のためのセンシング技術と機械学習手法:システムレビュー

Sensing technologies and machine learning methods for emotion recognition in autism: Systematic review ( http://arxiv.org/abs/2407.04712v1 )

ライセンス: Link先を確認
Oresti Banos, Zhoe Comas-González, Javier Medina, Aurora Polo-Rodríguez, David Gil, Jesús Peral, Sandra Amador, Claudia Villalonga, (参考訳) 背景:HER(Human Emotion Recognition)は近年,広く研究されている分野である。 これまでのところ大きな進歩があったにもかかわらず、自閉症におけるHERの使用には比較的注意が払われていない。 自閉症の人々は、日々の社会的コミュニケーションや感情的反応の原型的解釈の問題に直面することが知られている。 これは、通常、神経型の人々のために開発される通常のHERシステムに適用するための重要な実践的課題である。 目的: 本研究は, 自閉症におけるHERシステムの利用, 特にセンサ技術や機械学習手法に関する文献をレビューし, 既存の障壁と今後の方向性を明らかにする。 方法:2020 PRISMAガイドラインに従って,2011年1月から2023年6月にかけて,論文の体系的レビューを行った。 文書は、Web of ScienceとScopusデータベースを検索することで識別された。 テキストは、感情認識、センサーと機械学習技術の使用、自閉症、若年者、成人の子どもたちに関するものが含まれていた。 結果: 調査の結果, 346項目が得られた。 65冊の出版物が適格基準を満たし、レビューに掲載された。 結論: 感情認識手法として, 主に表情技術を用いた研究。 その結果、ビデオカメラは、最近は生理的センサーの使用の増加傾向が観察されているものの、研究全体で最も広く使用されているデバイスであった。 幸福、悲しみ、怒り、恐怖、嫌悪、驚きが最も多かった。 古典的な教師なし機械学習技術は、主に教師なしのアプローチやより最近のディープラーニングモデルに費やされた。

Background: Human Emotion Recognition (HER) has been a popular field of study in the past years. Despite the great progresses made so far, relatively little attention has been paid to the use of HER in autism. People with autism are known to face problems with daily social communication and the prototypical interpretation of emotional responses, which are most frequently exerted via facial expressions. This poses significant practical challenges to the application of regular HER systems, which are normally developed for and by neurotypical people. Objective: This study reviews the literature on the use of HER systems in autism, particularly with respect to sensing technologies and machine learning methods, as to identify existing barriers and possible future directions. Methods: We conducted a systematic review of articles published between January 2011 and June 2023 according to the 2020 PRISMA guidelines. Manuscripts were identified through searching Web of Science and Scopus databases. Manuscripts were included when related to emotion recognition, used sensors and machine learning techniques, and involved children with autism, young, or adults. Results: The search yielded 346 articles. A total of 65 publications met the eligibility criteria and were included in the review. Conclusions: Studies predominantly used facial expression techniques as the emotion recognition method. Consequently, video cameras were the most widely used devices across studies, although a growing trend in the use of physiological sensors was observed lately. Happiness, sadness, anger, fear, disgust, and surprise were most frequently addressed. Classical supervised machine learning techniques were primarily used at the expense of unsupervised approaches or more recent deep learning models.
翻訳日:2024-07-22 16:25:52 公開日:2024-05-15
# VisioBlend:実画像生成のためのスケッチとストローク誘導拡散確率モデル

VisioBlend: Sketch and Stroke-Guided Denoising Diffusion Probabilistic Model for Realistic Image Generation ( http://arxiv.org/abs/2407.05209v1 )

ライセンス: Link先を確認
Harshkumar Devmurari, Gautham Kuckian, Prajjwal Vishwakarma, Krunali Vartak, (参考訳) 手描き画像から画像を生成することは、コンテンツ作成において不可欠かつ基本的な課題である。 この翻訳は、無限の可能性とユーザのさまざまな期待のために難しい。 しかし、従来の手法はトレーニングデータの可用性によって制限されることが多い。 そこで,拡散モデルに基づくスケッチやストロークからの3次元画像合成制御を支援する統合フレームワークVisioBlendを提案する。 入力ストロークやスケッチに対する忠実度を決定することができる。 VisioBlendは、写実性と柔軟性の観点から最先端のパフォーマンスを実現し、スケッチやストロークからの画像合成における様々な応用を可能にしている。 これは手書きのスケッチやストロークから新たなデータポイントを合成し、データセットを強化し、より堅牢で多様な画像合成を可能にすることで、データ可用性の問題を解決する。 この研究は、画像生成における拡散モデルのパワーを示し、芸術的なビジョンを現実にするための、ユーザフレンドリで汎用的なアプローチを提供する。

Generating images from hand-drawings is a crucial and fundamental task in content creation. The translation is challenging due to the infinite possibilities and the diverse expectations of users. However, traditional methods are often limited by the availability of training data. Therefore, VisioBlend, a unified framework supporting three-dimensional control over image synthesis from sketches and strokes based on diffusion models, is proposed. It enables users to decide the level of faithfulness to the input strokes and sketches. VisioBlend achieves state-of-the-art performance in terms of realism and flexibility, enabling various applications in image synthesis from sketches and strokes. It solves the problem of data availability by synthesizing new data points from hand-drawn sketches and strokes, enriching the dataset and enabling more robust and diverse image synthesis. This work showcases the power of diffusion models in image creation, offering a user-friendly and versatile approach for turning artistic visions into reality.
翻訳日:2024-07-22 14:29:03 公開日:2024-05-15
# 光学式モキャップの非構造化に向けて:ビデオが役に立つ!

Towards Unstructured Unlabeled Optical Mocap: A Video Helps! ( http://arxiv.org/abs/2407.06114v1 )

ライセンス: Link先を確認
Nicholas Milef, John Keyser, Shu Kong, (参考訳) 光モーションキャプチャ(mocap)は、ポーズや形状を含む反射的なマーカーから人体を正確に再構築する必要がある。 典型的なモキャップ設定では、マーカーのラベル付けは重要だが面倒でエラーを起こしやすいステップである。 これまでの研究では、特定のマーカー配置を定義する構造化テンプレートを使うことで、マーカーのラベル付けを自動化できることが示されている。 我々はこれらの制約を緩和し、Unstructured Unlabeled Optical (UUO) のモキャップを解くことを提案する。 典型的なモカプ設定では、マーカーをラベル付けするか、あるいは構造されたレイアウトで配置するが、UUOモカプのマーカーは1つの特定の手足(例えば、バイオメカニクス研究の右脚)のどこにでも配置できるため、より実用的な意味を持つ。 また、より困難である。 UUOモキャップを解決するために、カメラのキャリブレーションを必要としない単一のRGBカメラで撮影された単眼ビデオを利用する。 このビデオでは、人間を再構築し、追跡するオフザシェルフ手法を実行し、人間の身体のポーズと形状の強い視覚的優位性を与えました。 ビデオとUUOマーカーの両方を用いて、マーカー識別、マーカーラベリング、人間のポーズ推定、人体再構築のための最適化パイプラインを提案する。 我々の技術には、グローバルな配向を最適化するための複数の仮説テストと、体表面をより良く最適化するためのマーカーの局在化とマーカー部分マッチングが含まれる。 我々は,マーカーのみのモキャップやビデオのみの人体・形状再構成など,最先端の手法と定量的に比較するための広範囲な実験を行った。 実験により,本手法は,全体および部分体再構築のための3つの確立されたベンチマークデータセットにおいて,既存の手法よりも優れた性能を示すことが示された。

Optical motion capture (mocap) requires accurately reconstructing the human body from retroreflective markers, including pose and shape. In a typical mocap setting, marker labeling is an important but tedious and error-prone step. Previous work has shown that marker labeling can be automated by using a structured template defining specific marker placements, but this places additional recording constraints. We propose to relax these constraints and solve for Unstructured Unlabeled Optical (UUO) mocap. Compared to the typical mocap setting that either labels markers or places them w.r.t a structured layout, markers in UUO mocap can be placed anywhere on the body and even on one specific limb (e.g., right leg for biomechanics research), hence it is of more practical significance. It is also more challenging. To solve UUO mocap, we exploit a monocular video captured by a single RGB camera, which does not require camera calibration. On this video, we run an off-the-shelf method to reconstruct and track a human individual, giving strong visual priors of human body pose and shape. With both the video and UUO markers, we propose an optimization pipeline towards marker identification, marker labeling, human pose estimation, and human body reconstruction. Our technical novelties include multiple hypothesis testing to optimize global orientation, and marker localization and marker-part matching to better optimize for body surface. We conduct extensive experiments to quantitatively compare our method against state-of-the-art approaches, including marker-only mocap and video-only human body/shape reconstruction. Experiments demonstrate that our method resoundingly outperforms existing methods on three established benchmark datasets for both full-body and partial-body reconstruction.
翻訳日:2024-07-22 14:19:18 公開日:2024-05-15
# ビデオに対するコメント応答の推論による知覚:新しいタスク,データセット,ベースライン

Infer Induced Sentiment of Comment Response to Video: A New Task, Dataset and Baseline ( http://arxiv.org/abs/2407.06115v1 )

ライセンス: Link先を確認
Qi Jia, Baoyu Fan, Cong Xu, Lu Liu, Liang Jin, Guoguang Du, Zhenhua Guo, Yaqian Zhao, Xuanjing Huang, Rengang Li, (参考訳) 既存のビデオマルチモーダル感情分析は、主にビデオ内の人々の感情表現に焦点を当てているが、ビデオを見ながら視聴者の感情を無視することが多い。 視聴者のインスパイアされた感情は、ビデオに対する公衆の反応を推測するために不可欠であり、公共の社会的感情、広告の効果などを分析するのに広く応用されている。 マイクロビデオとその関連コメントは、視聴者による感情分析のためのリッチなアプリケーションシナリオを提供する。 そこで我々は,ビデオのコメント応答に対するマルチモーダル感性分析(MSA-CRVI)という新たな研究課題を紹介し,マイクロビデオに対するコメント応答に応じて意見や感情を推測することを目的とした。 一方,この研究を支援するために,コメントセンティメントというデータセットをCSMV(Micro Video)に手動でアノテートする。 107,267のコメントと8,210のマイクロビデオを含み、68.83時間である。 そこで本研究では,ビデオコンテンツに内在する課題に対処するためのベースラインとして,ビデオコンテンツ認識コメントセンチメント分析(VC-CSA)手法を提案する。 大規模な実験により,本手法は他の確立されたベースラインよりも大幅に改善されていることが示された。

Existing video multi-modal sentiment analysis mainly focuses on the sentiment expression of people within the video, yet often neglects the induced sentiment of viewers while watching the videos. Induced sentiment of viewers is essential for inferring the public response to videos, has broad application in analyzing public societal sentiment, effectiveness of advertising and other areas. The micro videos and the related comments provide a rich application scenario for viewers induced sentiment analysis. In light of this, we introduces a novel research task, Multi-modal Sentiment Analysis for Comment Response of Video Induced(MSA-CRVI), aims to inferring opinions and emotions according to the comments response to micro video. Meanwhile, we manually annotate a dataset named Comment Sentiment toward to Micro Video (CSMV) to support this research. It is the largest video multi-modal sentiment dataset in terms of scale and video duration to our knowledge, containing 107,267 comments and 8,210 micro videos with a video duration of 68.83 hours. To infer the induced sentiment of comment should leverage the video content, so we propose the Video Content-aware Comment Sentiment Analysis (VC-CSA) method as baseline to address the challenges inherent in this new task. Extensive experiments demonstrate that our method is showing significant improvements over other established baselines.
翻訳日:2024-07-22 14:19:18 公開日:2024-05-15
# データ駆動型Nucleus subclassification on Colon H&E using Style-transferred Digital Pathology (特集:情報ネットワーク)

Data-driven Nucleus Subclassification on Colon H&E using Style-transferred Digital Pathology ( http://arxiv.org/abs/2407.06116v1 )

ライセンス: Link先を確認
Lucas W. Remedios, Shunxing Bao, Samuel W. Remedios, Ho Hin Lee, Leon Y. Cai, Thomas Li, Ruining Deng, Nancy R. Newlin, Adam M. Saunders, Can Cui, Jia Li, Qi Liu, Ken S. Lau, Joseph T. Roland, Mary K Washington, Lori A. Coburn, Keith T. Wilson, Yuankai Huo, Bennett A. Landman, (参考訳) 細胞間のコミュニケーション、共同配置、相互翻訳の仕方を理解することは、身体がどのように機能するかの理解を深めるのに不可欠です。 H&Eは広く利用可能であるが、細胞置換には専門家の知識と特殊な染色が必要であることが多い。 アノテーションの負担を軽減するため、H&E上の細胞の分類にAIが提案されている。 例えば、最近のColon Nucleus Identification and Classification (CoNIC) Challengeでは、大腸のH&Eに6種類の細胞をラベル付けすることに焦点を当てている。 しかし、CoNIC Challengeは上皮サブタイプ(前駆体、エンテロエンドクリン、ゴブレット)、リンパ球サブタイプ(B、ヘルパーT、細胞傷害性T)、結合サブタイプ(線維芽細胞)を分類できなかった。 H&Eでラベル付け不能な細胞タイプをラベル付けするために、モーダリティ間学習を使用します。 我々は14の細胞サブクラスをラベル付けするために多重蛍光(MxIF)組織学を利用する。 我々は,MxIF由来の細胞亜分類ラベルと組み合わせたリアルな仮想H&Eを合成するために,同じMxIF組織上でスタイル転送を行った。 本研究は,MxIF由来の細胞サブクラスをラベルとして,リアル品質の仮想H&Eを用いた教師付き学習手法の有効性を評価した。 我々は、プライベートバーチャルH&EとパブリックリアルH&Eでモデルを評価した。 仮想H&Eでは, 基本真理セントロイド情報を用いた場合, ヘルパーT細胞と上皮前駆体をそれぞれ0.34 \pm 0.15$ (prevalence $0.03 \pm 0.01$) と$0.47 \pm 0.1$ (prevalence $0.07 \pm 0.02$) の正の予測値で分類することができた。 実際のH&Eでは、基底真理セントロイド情報を使用する場合、ヘルパーT細胞と上皮前駆体を0.43 \pm 0.03$(親クラス有病率0.21)と$0.94 \pm 0.02$(親クラス有病率0.49)の上限正の予測値で分類することができる。 これは、ヘルパーTと上皮前駆核の細胞型分類をH&E上で提供する最初の研究である。

Understanding the way cells communicate, co-locate, and interrelate is essential to furthering our understanding of how the body functions. H&E is widely available, however, cell subtyping often requires expert knowledge and the use of specialized stains. To reduce the annotation burden, AI has been proposed for the classification of cells on H&E. For example, the recent Colon Nucleus Identification and Classification (CoNIC) Challenge focused on labeling 6 cell types on H&E of the colon. However, the CoNIC Challenge was unable to classify epithelial subtypes (progenitor, enteroendocrine, goblet), lymphocyte subtypes (B, helper T, cytotoxic T), and connective subtypes (fibroblasts). We use inter-modality learning to label previously un-labelable cell types on H&E. We take advantage of multiplexed immunofluorescence (MxIF) histology to label 14 cell subclasses. We performed style transfer on the same MxIF tissues to synthesize realistic virtual H&E which we paired with the MxIF-derived cell subclassification labels. We evaluated the efficacy of using a supervised learning scheme where the input was realistic-quality virtual H&E and the labels were MxIF-derived cell subclasses. We assessed our model on private virtual H&E and public real H&E. On virtual H&E, we were able to classify helper T cells and epithelial progenitors with positive predictive values of $0.34 \pm 0.15$ (prevalence $0.03 \pm 0.01$) and $0.47 \pm 0.1$ (prevalence $0.07 \pm 0.02$) respectively, when using ground truth centroid information. On real H&E we could classify helper T cells and epithelial progenitors with upper bound positive predictive values of $0.43 \pm 0.03$ (parent class prevalence 0.21) and $0.94 \pm 0.02$ (parent class prevalence 0.49) when using ground truth centroid information. This is the first work to provide cell type classification for helper T and epithelial progenitor nuclei on H&E.
翻訳日:2024-07-22 14:19:18 公開日:2024-05-15
# 信頼できるAIの実践 : 実践者のニーズと課題の分析

Trustworthy AI in practice: an analysis of practitioners' needs and challenges ( http://arxiv.org/abs/2407.12135v1 )

ライセンス: Link先を確認
Maria Teresa Baldassarre, Domenico Gigante, Marcos Kalinowski, Azzurra Ragone, Sara Tibidò, (参考訳) 近年,学術的・実践的なコミュニティを代表して,人工知能(AI)システムが責任と倫理的に機能する能力に注目が集まっている。 その結果、多くのフレームワークやガイドラインが、信頼できるAIアプリケーション(TAI)を実装する実践者を支援するように見えました。 しかし、そのようなフレームワークが使われているのか、どのように使われているのかを調査する研究はほとんど行われていない。 本研究では、AI実践者がTAI原則、それらにどう対処するか、ツール、知識、ガイドラインの観点から、彼らが開発するシステムにそのような原則を組み込もうとするときに、どのようなもの(ツール、知識、ガイドライン)を持ちたいか、というビジョンについて研究する。 調査および半構造化インタビューを通じて,TAIシステム開発における実践者の課題とニーズを体系的に調査した。 これらの実践的な発見に基づいて、我々は、AI実践者が信頼できるAIアプリケーションを開発するのを助けるための推奨事項を強調します。

Recently, there has been growing attention on behalf of both academic and practice communities towards the ability of Artificial Intelligence (AI) systems to operate responsibly and ethically. As a result, a plethora of frameworks and guidelines have appeared to support practitioners in implementing Trustworthy AI applications (TAI). However, little research has been done to investigate whether such frameworks are being used and how. In this work, we study the vision AI practitioners have on TAI principles, how they address them, and what they would like to have - in terms of tools, knowledge, or guidelines - when they attempt to incorporate such principles into the systems they develop. Through a survey and semi-structured interviews, we systematically investigated practitioners' challenges and needs in developing TAI systems. Based on these practical findings, we highlight recommendations to help AI practitioners develop Trustworthy AI applications.
翻訳日:2024-07-22 09:07:34 公開日:2024-05-15
# 都市旅行モード選択モデルのための複数の情報源からのデータの組み合わせ

Combining data from multiple sources for urban travel mode choice modelling ( http://arxiv.org/abs/2407.12137v1 )

ライセンス: Link先を確認
Maciej Grzenda, Marcin Luckner, Jakub Zawieska, Przemysław Wrona, (参考訳) 持続可能なモビリティの需要は特に都市部で高い。 そのため、環境に優しい旅行モードに重点を置き、いつ異なる旅行モードを使うかを予測する必要性が高まっている。 旅行モード選択(TMC)は、複数の要因に影響されるため、多くのケースにおいて、機械学習手法は、応答性や旅行の特徴が与えられた旅行モードの選択を予測するために使用される。 通常、旅行日記は中核的な関連データを提供するために使用される。 しかし、移動時間に制限されないモード代替の属性や、公共交通機関(PT)の場合の歩行距離といった他の特徴は、人が旅行モードを利用するかどうかに大きな影響を与える。 そこで本研究では,データドキュメンテーション・ジャーニーと,これらの旅行に利用可能な交通手段,構築環境,気象条件などの環境要因をまとめたデータ融合を行うソフトウェア・プラットフォームのアーキテクチャを提案する。 さらに,TMC予測において最も重要な特徴として,様々な特徴が提案されている。 本稿では,ストリーム処理エンジンや他のビッグデータシステムを用いた計算手法を提案する。 プラットフォームによって処理されたデータは、旅行モードの選択を予測する機械学習モデルの開発に使用される。 このプラットフォームを検証するために,各特徴部分集合の計算の重要性と,それらを用いたTMCモデルへの影響について,アブレーション研究を提案する。 実験では, 調査データ, GPSトレース, 気象・大気汚染時系列, 輸送モデルデータ, 建築環境の空間データを組み合わせた。 追加機能で構築されたTMCモデルの精度は、コアサーベイデータのみの使用と比較して最大18.2%向上している。

Demand for sustainable mobility is particularly high in urban areas. Hence, there is a growing need to predict when people will decide to use different travel modes with an emphasis on environmentally friendly travel modes. As travel mode choice (TMC) is influenced by multiple factors, in a growing number of cases machine learning methods are used to predict travel mode choices given respondent and journey features. Typically, travel diaries are used to provide core relevant data. However, other features such as attributes of mode alternatives including, but not limited to travel times, and, in the case of public transport (PT), also walking distances have a major impact on whether a person decides to use a travel mode of interest. Hence, in this work, we propose an architecture of a software platform performing the data fusion combining data documenting journeys with the features calculated to summarise transport options available for these journeys, built environment and environmental factors such as weather conditions possibly influencing travel mode decisions. Furthermore, we propose various novel features, many of which we show to be among the most important for TMC prediction. We propose how stream processing engines and other Big Data systems can be used for their calculation. The data processed by the platform is used to develop machine learning models predicting travel mode choices. To validate the platform, we propose ablation studies investigating the importance of individual feature subsets calculated by it and their impact on the TMC models built with them. In our experiments, we combine survey data, GPS traces, weather and pollution time series, transport model data, and spatial data of the built environment. The growth in the accuracy of TMC models built with the additional features is up to 18.2% compared to the use of core survey data only.
翻訳日:2024-07-22 09:07:34 公開日:2024-05-15
# 自動走行車のオーナーシップと利用への責任--導入者は誰なのか?非無人機は誰なのか?

Propensity towards Ownership and Use of Automated Vehicles: Who Are the Adopters? Who Are the Non-adopters? Who Is Hesitant? ( http://arxiv.org/abs/2407.12139v1 )

ライセンス: Link先を確認
Tho Le, Giovanni Circella, (参考訳) 本研究の目的は、オーナーシップの意図や自動運転モビリティサービスの利用意欲など、自動運転車(AV)の採用に対する認識を調査することである。 本稿では、2018年のカリフォルニア交通調査のデータを用いて、データマイニングにおけるクラスタリング技術であるK-meansを使用して、潜在的なAV所有者(および非オーナー)と、自動運転サービスのAVユーザ(および非ユーザ)のパターンを明らかにする。 その結果、マルチタスク/環境保護活動家/障害ドライバー、テック・メイブン/旅行者、移動中の生活、捕獲された自動車利用者、公共/アクティブな輸送ユーザー、郊外住民、カー愛好家という7つのクラスタが明らかになった。 最初の2つのクラスタには、AVに精通し、技術に精通し、通勤中の時間をうまく利用している採用者が含まれている。 最後のクラスタは、自動車愛好家である非アドプターで構成されています。 一方、トランスフォーメーションのライフ、キャプションカーユーザー、公共/アクティブトランスポートユーザー、郊外住民は、AV導入者に対する不確実な認識を示している。 彼らは高等教育を追求し、忙しいスケジュールを持ち、政府の政策を通じて持続可能な社会を支えているか、安定した生活を送っている。 この研究から得られた洞察は、自動運転モビリティサービスを利用する傾向の強い個人に対して、AVを所有する意思のある個人による潜在的な市場セグメントに対処する、ビジネスモデルの構築と戦略的計画を支援する。 グレー」セグメントは、未完成の未需要と、マーケティング、キャンペーン、販売の潜在的なターゲットを識別する。

The objective of this study is to investigate automated vehicle (AV) adoption perceptions, including ownership intentions and the willingness to use self-driving mobility services. In this paper, we use data from the 2018 California Transportation Survey, and use K-means, a clustering technique in data mining, to reveal patterns of potential AV owners (and non-owners) as well as AV users (and non-users) of self-driving services. The results reveal seven clusters, namely Multitaskers/ environmentalists/ impaired drivers, Tech mavens/ travelers, Life in transition, Captive car-users, Public/ active transport users, Sub-urban Dwellers, and Car enthusiasts. The first two clusters include adopters who are largely familiar with AVs, are tech savvy, and who make good use of time during their commute. The last cluster comprise of non-adopters who are car enthusiasts. On the other hand, people who are Life in transition, Captive car-users, Public/ active transport users, and Sub-urban dwellers show uncertain perceptions towards being AV adopters. They are either pursuing higher education, having a busy schedule, supporting for sustainable society via government policies, or have a stable life, respectively. Insights from this study help practitioners to build business models and strategic planning, addressing potential market segments of individuals that are willing to own an AV vs. those that are more inclined to use self-driving mobility services. The "gray" segments identify a latent untapped demand and a potential target for marketing, campaigns, and sales.
翻訳日:2024-07-22 09:07:34 公開日:2024-05-15
# 市場指標の自動統合による売上予測の最適化

Optimizing Sales Forecasts through Automated Integration of Market Indicators ( http://arxiv.org/abs/2406.07564v1 )

ライセンス: Link先を確認
Lina Döring, Felix Grumbach, Pascal Reusch, (参考訳) 従来の予測モデルは、しばしば過去の需要にのみ依存していることを認識し、顧客需要予測を改善するために市場指標を自動的に選択・統合するデータ駆動技術の可能性を検討する。 探索的手法を採用することにより,全国GDP成長などのマクロ経済時系列を,<textit{Eurostat}データベースから<textit{Neural Prophet}および<textit{SARIMAX}予測モデルに統合する。 適切な時系列は、さまざまな最先端の特徴選択方法によって自動的に識別され、当社の産業パートナーの営業データに適用されます。 外部情報を組み込むことで予測が大幅に向上できることが示せる。 特に、専門家の知識や手作業による選択を使わずに自動化できることから、機能選択手法の可能性は際立っている。 特に、Forward Feature Selectionテクニックは、さまざまな企業のセールスデータセットに対して、SARIMAXとNeural Prophetの両方の予測精度を一貫して向上させた。 選択した予測モデル,すなわちNeural ProphetとSARIMAXの誤差の比較分析では,どちらのモデルも他方よりも有意な優位性を示した。

Recognizing that traditional forecasting models often rely solely on historical demand, this work investigates the potential of data-driven techniques to automatically select and integrate market indicators for improving customer demand predictions. By adopting an exploratory methodology, we integrate macroeconomic time series, such as national GDP growth, from the \textit{Eurostat} database into \textit{Neural Prophet} and \textit{SARIMAX} forecasting models. Suitable time series are automatically identified through different state-of-the-art feature selection methods and applied to sales data from our industrial partner. It could be shown that forecasts can be significantly enhanced by incorporating external information. Notably, the potential of feature selection methods stands out, especially due to their capability for automation without expert knowledge and manual selection effort. In particular, the Forward Feature Selection technique consistently yielded superior forecasting accuracy for both SARIMAX and Neural Prophet across different company sales datasets. In the comparative analysis of the errors of the selected forecasting models, namely Neural Prophet and SARIMAX, it is observed that neither model demonstrates a significant superiority over the other.
翻訳日:2024-07-01 07:50:27 公開日:2024-05-15
# 効率性に着目したNLP変圧器の検討

A Survey on Transformers in NLP with Focus on Efficiency ( http://arxiv.org/abs/2406.16893v1 )

ライセンス: Link先を確認
Wazib Ansar, Saptarsi Goswami, Amlan Chakrabarti, (参考訳) 注意機構と関連する事前学習モデルを備えたトランスフォーマーの出現は、自然言語処理(NLP)の分野に革命をもたらした。 しかし、そのようなモデルは、非常に複雑なアーキテクチャのため、リソース集約である。 これにより、リソースに制約のある環境へのアプリケーションを制限します。 適切なNLPモデルを選択する一方で、効率よりも正確さを選択するという大きなトレードオフが存在する。 本稿では,NLPの進化とその応用について,その精度を有効性として論じる。 その後, モデル開発の様々な段階において, トランスフォーマーモデルの有効性向上に寄与する研究成果について, ハードウェアの考察とともに調査を行った。 本調査の目的は、現在のNLP技術が持続可能な社会にどのように貢献するかを判断し、将来の研究の基盤を確立することである。

The advent of transformers with attention mechanisms and associated pre-trained models have revolutionized the field of Natural Language Processing (NLP). However, such models are resource-intensive due to highly complex architecture. This limits their application to resource-constrained environments. While choosing an appropriate NLP model, a major trade-off exists over choosing accuracy over efficiency and vice versa. This paper presents a commentary on the evolution of NLP and its applications with emphasis on their accuracy as-well-as efficiency. Following this, a survey of research contributions towards enhancing the efficiency of transformer-based models at various stages of model development along with hardware considerations has been conducted. The goal of this survey is to determine how current NLP techniques contribute towards a sustainable society and to establish a foundation for future research.
翻訳日:2024-07-01 06:41:31 公開日:2024-05-15
# サブTHz電波伝搬における人体閉塞の初期研究 : 室内受動位置推定への応用

An Initial Study of Human-Scale Blockage in sub-THz Radio Propagation with Application to Indoor Passive Localization ( http://arxiv.org/abs/2406.16894v1 )

ライセンス: Link先を確認
F. Paonessa, G. Virone, S. Kianoush, A. Nordio, S. Savazzi, (参考訳) 本稿では、未探索のサブTHz Wバンド(75-110 GHz)とGバンド(170-260 GHz)で室内測定を行い、人体遮断という電磁誘導効果を実験的に検討する。 提案した解析は,身体の存在によって誘導されるチャネル周波数応答の変化,送信機と受信機の間の視線(LoS)を完全にあるいは部分的に阻害すること,および無線リンクのLoSを横断するターゲットの選択運動に対するチャネルインパルス応答(CIR)に焦点をあてる。 大規模パラメータのモデリングもファントムボディオブジェクトを使って行う。 本研究は、EM放射や環境無線信号を収集・処理し、電子機器を装着することなく人を検出し、発見する、デバイスフリー無線局地化および無線周波数(RF)センシングシナリオに適用する。 予備的な研究ではあるが、ブロックのマイクロモーメントの識別は可能であり、従来のRFセンシングとcmスケールの波長(2.4-6GHz帯)を用いたローカライゼーションよりも精度が高いことが判明した。

This paper empirically investigates the body induced electromagnetic (EM) effects, namely the human body blockage, by conducting indoor measurement campaigns in the unexplored sub-THz W-band (75-110 GHz) and G-band (170-260 GHz). The proposed analysis focuses on both the alterations of channel frequency response induced by body presence, fully or partially obstructing the line-of-sight (LoS) between transmitter and recevier, as well as on the channel impulse response (CIR) for selected movements of the target, i.e. crossing the LoS of the radio link. Modelling of large scale parameters is also presented using a phantom body object. The proposed study has applications in device-free radio localization and radio frequency (RF) sensing scenarios where the EM radiation or environmental radio signals are collected and processed to detect and locate people without requiring them to wear any electronic devices. Although preliminary, the study reveals that discrimination of the blockage micro-movements is possible, achieving higher precision compared to classical RF sensing and localization using cm-scale wavelengths (2.4-6GHz bands).
翻訳日:2024-07-01 06:41:31 公開日:2024-05-15
# 1次元畳み込みニューラルネットワークを用いた冠動脈疾患の分類

Coronary Artery Disease Classification Using One-dimensional Convolutional Neural Network ( http://arxiv.org/abs/2406.16895v1 )

ライセンス: Link先を確認
Atitaya Phoemsuk, Vahid Abolghasemi, (参考訳) 冠状動脈疾患(CAD)は、世界的な死因であり、革新的な解決策を必要としている。 早期CAD検出の重要性と死亡率への影響に対処し、1次元畳み込みニューラルネットワーク(1D-CNN)の可能性を提案し、検出精度を高め、ネットワークの複雑さを低減する。 本研究は,心電図(ECG)信号の複雑なパターンを特徴抽出技術に頼らずに解釈する1D-CNNの顕著な能力を活用し,従来の診断手法を超えている。 各種試料長がモデル性能に及ぼす影響について検討し, 還元層を含む実験を行った。 使用したECGデータは、125Hzと250Hzのサンプリング周波数を持つMIMIC IIIとFantasiaのデータセットであるPhyloNetデータベースから取得した。 サンプル長250の未確認データに対して,最も高い精度が得られた。 これらの初期所見は,ECG信号を用いたCAD診断における1D-CNNの有用性を示し,高精度化における試料サイズの役割を強調した。

Coronary Artery Disease (CAD) diagnostic to be a major global cause of death, necessitating innovative solutions. Addressing the critical importance of early CAD detection and its impact on the mortality rate, we propose the potential of one-dimensional convolutional neural networks (1D-CNN) to enhance detection accuracy and reduce network complexity. This study goes beyond traditional diagnostic methodologies, leveraging the remarkable ability of 1D-CNN to interpret complex patterns within Electrocardiogram (ECG) signals without depending on feature extraction techniques. We explore the impact of varying sample lengths on model performance and conduct experiments involving layers reduction. The ECG data employed were obtained from the PhysioNet databases, namely the MIMIC III and Fantasia datasets, with respective sampling frequencies of 125 Hz and 250 Hz. The highest accuracy for unseen data obtained with a sample length of 250. These initial findings demonstrate the potential of 1D-CNNs in CAD diagnosis using ECG signals and highlight the sample size's role in achieving high accuracy.
翻訳日:2024-07-01 06:41:31 公開日:2024-05-15
# f-GAN : PPGからECG合成のための周波数領域制限型生成逆数ネットワーク

f-GAN: A frequency-domain-constrained generative adversarial network for PPG to ECG synthesis ( http://arxiv.org/abs/2406.16896v1 )

ライセンス: Link先を確認
Nathan C. L. Kong, Dae Lee, Huyen Do, Dae Hoon Park, Cong Xu, Hongda Mao, Jonathan Chung, (参考訳) 心電図(ECG)と光胸腺図(PPG)は、一般に個人の心血管の健康をモニターするために用いられる。 臨床環境では、心電図と指先PSGが心臓血管の健康を評価する主要なシグナルであるが、その収集に必要な機器は日々のモニタリングでの使用を妨げている。 手首に装着した装置から得られるPSGは、運動による騒音の影響を受けやすいが、その利便性から、心臓血管の健康状態を継続的に監視するために広く用いられている。 したがって,PPG信号からECG信号を合成するモデルを開発することで,心血管の健康に関する情報とPSGの収集が容易になることを両立させたい。 この問題にGAN(Generative Adversarial Network)を用いて取り組み、GAN定式化を用いてトレーニングされたモデルを用いて、標準信号処理パイプラインを用いて心拍数を抽出できるECG信号の合成に成功した。 モデルトレーニングに周波数領域制約を組み込むことで、モデル性能の安定性が向上し、心拍推定性能も向上した。

Electrocardiograms (ECGs) and photoplethysmograms (PPGs) are generally used to monitor an individual's cardiovascular health. In clinical settings, ECGs and fingertip PPGs are the main signals used for assessing cardiovascular health, but the equipment necessary for their collection precludes their use in daily monitoring. Although PPGs obtained from wrist-worn devices are susceptible to noise due to motion, they have been widely used to continuously monitor cardiovascular health because of their convenience. Therefore, we would like to combine the ease with which PPGs can be collected with the information that ECGs provide about cardiovascular health by developing models to synthesize ECG signals from paired PPG signals. We tackled this problem using generative adversarial networks (GANs) and found that models trained using the original GAN formulations can be successfully used to synthesize ECG signals from which heart rate can be extracted using standard signal processing pipelines. Incorporating a frequency-domain constraint to model training improved the stability of model performance and also the performance on heart rate estimation.
翻訳日:2024-07-01 06:41:31 公開日:2024-05-15
# Kramers-Wannier双対性に対する量子演算

Quantum operations for Kramers-Wannier duality ( http://arxiv.org/abs/2405.09361v1 )

ライセンス: Link先を確認
Maaz Khan, Syed Anausha Bin Zakir Khan, Arif Mohd, (参考訳) 環上の横場イジング格子に対するクラマース・ワニエ双対性について検討する。 環境界条件を慎重に考慮すると、双対性はツイストとアンウィステッドのイジング空間と双対イジングヒルベルト空間の両方の異なる電荷セクターの適切な扱いで実装されなければならないことを示す。 我々は、Ising演算子をデュアルIsing演算子に明示的にマッピングするスーパー演算子を構築する。 超作用素は自然にイジングのテンソル積と双対イジングヒルベルト空間に作用する。 次に、イジング・ヒルベルト空間を双対イジング・ヒルベルト空間に写像する超作用素とクラマース・ワニエ双対作用素の関係が自然に量子演算によって与えられ、双対性は構成する量子演算として理解できることを示す。 クラマース・ワニエ量子演算に対する演算子-sum表現を提供し、よく知られた融合規則を再現する。 クラマース・ワニエ双対性に関する量子情報視点を提供するだけでなく、我々の明示的なプロトコルは量子コンピュータ上でのクラマース・ワニエ双対性の実装にも有用である。

We study the Kramers-Wannier duality for the transverse-field Ising lattice on a ring. A careful consideration of the ring boundary conditions shows that the duality has to be implemented with a proper treatment of different charge sectors of both the twisted and untwisted Ising and the dual-Ising Hilbert spaces. We construct a superoperator that explicitly maps the Ising operators to the dual-Ising operators. The superoperator naturally acts on the tensor product of the Ising and the dual-Ising Hilbert space. We then show that the relation between our superoperator and the Kramers-Wannier duality operator that maps the Ising Hilbert space to the dual-Ising Hilbert space is naturally provided by quantum operations and the duality can be understood as a quantum operation that we construct. We provide the operator-sum representation for the Kramers-Wannier quantum operations and reproduce the well-known fusion rules. In addition to providing the quantum information perspective on the Kramers-Wannier duality, our explicit protocol will also be useful in implementing the Kramers-Wannier duality on a quantum computer.
翻訳日:2024-06-02 14:47:20 公開日:2024-05-15
# 動的無線環境における正確なIoTデバイス識別のための機械学習の活用

Leveraging Machine Learning for Accurate IoT Device Identification in Dynamic Wireless Contexts ( http://arxiv.org/abs/2405.17442v1 )

ライセンス: Link先を確認
Bhagyashri Tushir, Vikram K Ramanna, Yuhong Liu, Behnam Dezfouli, (参考訳) IoTデバイスを特定することは、ネットワーク監視、セキュリティ執行、在庫追跡に不可欠である。 しかし、既存の識別手法の多くはディープパケット検査に依存しており、プライバシー上の懸念を生じさせ、計算の複雑さを増す。 さらに重要なことは、既存の研究はレイヤ2の機能の精度に無線チャネルのダイナミクスが与える影響を見逃し、現実のシナリオにおけるその効果を制限していることである。 本研究では,デバイス識別の主要な特徴として,特定のプローブ応答パケット交換器の遅延を「デバイスレイテンシ」として定義し,使用する。 さらに,無線チャネルのダイナミクスがデバイス識別の精度に与える影響を明らかにする。 具体的には、マシンラーニングモデルをトレーニングする際の細粒度チャネルのダイナミックスとデバイス遅延への影響をキャプチャするための、新しいアプローチとして、"蓄積スコア"を導入する。 提案手法を実装し,実世界のシナリオにおけるデバイス識別の精度とオーバヘッドを測定した。 その結果、バランスの取れたデータ収集と学習機械学習アルゴリズムの集積スコアを組み込むことで、無線チャネル力学においてもデバイス識別において97%以上のF1スコアを達成し、データ収集とデバイスのレイテンシに対するチャネルダイナミクスの影響を無視して、75%のF1スコアを大幅に改善することが確認された。

Identifying IoT devices is crucial for network monitoring, security enforcement, and inventory tracking. However, most existing identification methods rely on deep packet inspection, which raises privacy concerns and adds computational complexity. More importantly, existing works overlook the impact of wireless channel dynamics on the accuracy of layer-2 features, thereby limiting their effectiveness in real-world scenarios. In this work, we define and use the latency of specific probe-response packet exchanges, referred to as "device latency," as the main feature for device identification. Additionally, we reveal the critical impact of wireless channel dynamics on the accuracy of device identification based on device latency. Specifically, this work introduces "accumulation score" as a novel approach to capturing fine-grained channel dynamics and their impact on device latency when training machine learning models. We implement the proposed methods and measure the accuracy and overhead of device identification in real-world scenarios. The results confirm that by incorporating the accumulation score for balanced data collection and training machine learning algorithms, we achieve an F1 score of over 97% for device identification, even amidst wireless channel dynamics, a significant improvement over the 75% F1 score achieved by disregarding the impact of channel dynamics on data collection and device latency.
翻訳日:2024-06-02 14:30:04 公開日:2024-05-15
# ソーシャルメディアにおける言語モデルの時間的一般化に関する体系的分析

A Systematic Analysis on the Temporal Generalization of Language Models in Social Media ( http://arxiv.org/abs/2405.13017v1 )

ライセンス: Link先を確認
Asahi Ushio, Jose Camacho-Collados, (参考訳) マシンラーニングでは、トレーニングとテストの分割に時間的な違いがある場合、時間的なシフトが発生する。 ニュースやソーシャルメディアなどのストリーミングデータでは、モデルは一定期間から一定のコーパスで訓練され、ダイナミズムやオンラインコンテンツの進化によって時代遅れになる可能性がある。 本稿では,ソーシャルメディア,特にTwitterの時間的変化に注目した。 本稿では,標準ソーシャルメディアタスクに対する時間的シフトの下で,言語モデル(LM)の性能を評価する統一評価手法を提案する。 LMは、異なる時間設定下で5つのソーシャルメディアNLPタスクでテストされ、2つの重要な発見が示された。 一 時間的シフトによるパフォーマンスの低下は、名前付きエンティティ認識や曖昧さ、ヘイトスピーチ検出などのエンティティ中心タスクのモデルによって一致しているが、他のタスク(トピックと感情の分類)では重要ではない。 (II) 試験期間における連続事前訓練は, LMの時間適応性を向上しない。

In machine learning, temporal shifts occur when there are differences between training and test splits in terms of time. For streaming data such as news or social media, models are commonly trained on a fixed corpus from a certain period of time, and they can become obsolete due to the dynamism and evolving nature of online content. This paper focuses on temporal shifts in social media and, in particular, Twitter. We propose a unified evaluation scheme to assess the performance of language models (LMs) under temporal shift on standard social media tasks. LMs are tested on five diverse social media NLP tasks under different temporal settings, which revealed two important findings: (i) the decrease in performance under temporal shift is consistent across different models for entity-focused tasks such as named entity recognition or disambiguation, and hate speech detection, but not significant in the other tasks analysed (i.e., topic and sentiment classification); and (ii) continuous pre-training on the test period does not improve the temporal adaptability of LMs.
翻訳日:2024-05-27 02:58:21 公開日:2024-05-15
# 小学校数学教室における自動音声認識におけるWav2vec2.0の領域適応のための事前学習

Continued Pretraining for Domain Adaptation of Wav2vec2.0 in Automatic Speech Recognition for Elementary Math Classroom Settings ( http://arxiv.org/abs/2405.13018v1 )

ライセンス: Link先を確認
Ahmed Adel Attia, Dorottya Demszky, Tolulope Ogunremi, Jing Liu, Carol Espy-Wilson, (参考訳) 教師や生徒を支援するAIツールの開発において,教室環境に頑健でレジリエントな自動音声認識(ASR)システムの構築が最重要である。 本研究は,Wav2vec2.0を教室領域に適応させるための継続事前訓練(CPT)の有効性について検討した。 この点においてCPTは強力なツールであり、Wav2vec2.0ベースのモデルのワードエラー率(WER)を10%以上削減することを示す。 より具体的には、CPTは、異なるノイズ、マイク、教室の状態、および教室の人口層に対するモデルの堅牢性を改善する。 我々のCPTモデルは、ラベル付き微調整データに見つからない異なる人口層に一般化する能力の向上を示している。

Creating Automatic Speech Recognition (ASR) systems that are robust and resilient to classroom conditions is paramount to the development of AI tools to aid teachers and students. In this work, we study the efficacy of continued pretraining (CPT) in adapting Wav2vec2.0 to the classroom domain. We show that CPT is a powerful tool in that regard and reduces the Word Error Rate (WER) of Wav2vec2.0-based models by upwards of 10%. More specifically, CPT improves the model's robustness to different noises, microphones, classroom conditions as well as classroom demographics. Our CPT models show improved ability to generalize to different demographics unseen in the labeled finetuning data.
翻訳日:2024-05-27 02:48:13 公開日:2024-05-15
# 大規模言語モデルにおける高速化手法に関する包括的調査

A Comprehensive Survey of Accelerated Generation Techniques in Large Language Models ( http://arxiv.org/abs/2405.13019v1 )

ライセンス: Link先を確認
Mahsa Khoshnoodi, Vinija Jain, Mingye Gao, Malavika Srikanth, Aman Chadha, (参考訳) 大規模言語モデル(LLM)におけるテキスト生成の高速化は、コンテンツを効率よく生成する上で重要であるが、このプロセスのシーケンシャルな性質は、しばしば高い推論遅延をもたらし、リアルタイムアプリケーションに課題を提起する。 これらの課題に対処し、効率を向上させるために様々な技術が提案され、開発されている。 本稿では, 自己回帰言語モデルにおける高速化手法の総合的な調査を行い, 最先端の手法とその応用を理解することを目的とした。 我々はこれらの手法を,投機的復号化,早期退避機構,非自己回帰手法の4つの重要な領域に分類する。 それぞれのカテゴリの基本原則、優位性、制限、最近の進歩について論じる。 本調査を通じて,LLMにおける現在の技術の展望を把握し,自然言語処理のこの重要な領域における今後の研究方向のガイダンスを提供することを目標としている。

Despite the crucial importance of accelerating text generation in large language models (LLMs) for efficiently producing content, the sequential nature of this process often leads to high inference latency, posing challenges for real-time applications. Various techniques have been proposed and developed to address these challenges and improve efficiency. This paper presents a comprehensive survey of accelerated generation techniques in autoregressive language models, aiming to understand the state-of-the-art methods and their applications. We categorize these techniques into several key areas: speculative decoding, early exiting mechanisms, and non-autoregressive methods. We discuss each category's underlying principles, advantages, limitations, and recent advancements. Through this survey, we aim to offer insights into the current landscape of techniques in LLMs and provide guidance for future research directions in this critical area of natural language processing.
翻訳日:2024-05-27 02:48:13 公開日:2024-05-15
# 組合せ最適化による高品質LCMソリューションの設計

Using Combinatorial Optimization to Design a High quality LLM Solution ( http://arxiv.org/abs/2405.13020v1 )

ライセンス: Link先を確認
Samuel Ackerman, Eitan Farchi, Rami Katan, Orna Raz, (参考訳) 組合せ最適化とサンプリングを利用した新しいLCMベースのソリューション設計手法を提案する。 具体的には、解の質に影響を与える要因の集合を同定する。 典型的には、プロンプト型を表す因子、LLM入力の代替品、生成と設計の代替品を管理するパラメータが含まれる。 LLMソリューションの品質を規定する要因の特定は、課題専門知識の注入を可能にする。 次に、因子間の相互作用の集合が定義され、組合せ最適化が小さなサブセット$P$を作成するために使用され、すべての所望の相互作用が$P$で実行されることを保証します。 各要素$p \in P$は適切なベンチマークとして開発される。 それぞれの組み合わせに代替ソリューションを適用すると、$p \in P$ となり、その結果を評価し、高品質な LLM ソリューションパイプラインの設計を容易にする。 このアプローチは、P$で各ベンチマークの設計と評価が時間がかかり、手動のステップと人的評価が伴う場合、特に当てはまります。 その効率性を考えると、ソリューションを管理する要因を検索するAutoMLアプローチを比較し、検証するためのベースラインとしても使用できる。

We introduce a novel LLM based solution design approach that utilizes combinatorial optimization and sampling. Specifically, a set of factors that influence the quality of the solution are identified. They typically include factors that represent prompt types, LLM inputs alternatives, and parameters governing the generation and design alternatives. Identifying the factors that govern the LLM solution quality enables the infusion of subject matter expert knowledge. Next, a set of interactions between the factors are defined and combinatorial optimization is used to create a small subset $P$ that ensures all desired interactions occur in $P$. Each element $p \in P$ is then developed into an appropriate benchmark. Applying the alternative solutions on each combination, $p \in P$ and evaluating the results facilitate the design of a high quality LLM solution pipeline. The approach is especially applicable when the design and evaluation of each benchmark in $P$ is time-consuming and involves manual steps and human evaluation. Given its efficiency the approach can also be used as a baseline to compare and validate an autoML approach that searches over the factors governing the solution.
翻訳日:2024-05-27 02:48:13 公開日:2024-05-15
# IM-RAG:内部モノローグ学習による複数ルート検索型生成

IM-RAG: Multi-Round Retrieval-Augmented Generation Through Learning Inner Monologues ( http://arxiv.org/abs/2405.13021v1 )

ライセンス: Link先を確認
Diji Yang, Jinmeng Rao, Kezhen Chen, Xiaoyuan Guo, Yawen Zhang, Jie Yang, Yi Zhang, (参考訳) Retrieval-Augmented Generation (RAG) パラダイムは、生成幻覚や静的知識ベース問題を軽減するために、Large Language Models (LLMs) の出力を強化するために外部知識を使用することができるが、多ラウンド検索プロセスにおける制約付き解釈可能性、エンドツーエンド最適化の欠如など、様々な機能を持つ情報検索(IR)システムを採用する際の柔軟性が制限されている。 これらの課題に対処するために,内的モノローグ(IM,すなわち思考を物語る人間の内的声)を学習することで,IRシステムとLLMを統合した新しいIM-RAGを提案する。 IMプロセス中、LLMはコア推論モデル(Reasoner)として機能し、Retrieverを介してより多くの情報を集めるためのクエリを提案するか、会話コンテキストに基づいた最終的な回答を提供する。 また、Retrieverからの出力を改善するRefinerを導入し、ReasonerとIRモジュール間のギャップを様々な機能で効果的に埋め、マルチラウンド通信を促進する。 IMプロセス全体が強化学習(Reinforcement Learning, RL)によって最適化され、プログレッシブ・トラッカーが組み込まれて中間ステップの報酬が与えられ、回答予測はスーパーバイザード・ファイン・チューニング(SFT)を介してさらに個別に最適化される。 検索に基づく多段階質問応答のための一般的なベンチマークであるHotPotQAデータセットを用いて、広範な実験を行う。 その結果,本手法は,IRモジュールの統合における高い柔軟性と,学習した内部モノローグに現れる強い解釈可能性を提供しながら,最先端(SOTA)性能を達成できることが示唆された。

Although the Retrieval-Augmented Generation (RAG) paradigms can use external knowledge to enhance and ground the outputs of Large Language Models (LLMs) to mitigate generative hallucinations and static knowledge base problems, they still suffer from limited flexibility in adopting Information Retrieval (IR) systems with varying capabilities, constrained interpretability during the multi-round retrieval process, and a lack of end-to-end optimization. To address these challenges, we propose a novel LLM-centric approach, IM-RAG, that integrates IR systems with LLMs to support multi-round RAG through learning Inner Monologues (IM, i.e., the human inner voice that narrates one's thoughts). During the IM process, the LLM serves as the core reasoning model (i.e., Reasoner) to either propose queries to collect more information via the Retriever or to provide a final answer based on the conversational context. We also introduce a Refiner that improves the outputs from the Retriever, effectively bridging the gap between the Reasoner and IR modules with varying capabilities and fostering multi-round communications. The entire IM process is optimized via Reinforcement Learning (RL) where a Progress Tracker is incorporated to provide mid-step rewards, and the answer prediction is further separately optimized via Supervised Fine-Tuning (SFT). We conduct extensive experiments with the HotPotQA dataset, a popular benchmark for retrieval-based, multi-step question-answering. The results show that our approach achieves state-of-the-art (SOTA) performance while providing high flexibility in integrating IR modules as well as strong interpretability exhibited in the learned inner monologues.
翻訳日:2024-05-27 02:48:13 公開日:2024-05-15
# LLMは反復的自己回帰によって自己拘束を学習できる

LLMs can learn self-restraint through iterative self-reflection ( http://arxiv.org/abs/2405.13022v1 )

ライセンス: Link先を確認
Alexandre Piché, Aristides Milios, Dzmitry Bahdanau, Chris Pal, (参考訳) 安全にデプロイするためには、LLM(Large Language Models)は、特定のトピックに関連する知識と不確実性レベルに基づいて、その振る舞いを動的に適応できなければならない。 この適応的行動は、我々が自己制約と呼ぶもので、LLMの内部知識に依存しているため、教えるのは簡単ではない。 デフォルトでは、LCMは次のトークン可能性の最大化のために訓練される。 自己制約を学習するために,モデルが自信を持つ場合にのみ応答を生成できるようにするユーティリティ関数を考案する。 このユーティリティ関数は、異なる長さと禁忌の生成をスコアするために使用することができる。 この機能を最適化するために、反復的な自己評価と自己評価からなる ``self-reflection'' プロセスである ReSearch を導入する。 ReSearchアルゴリズムを使用して、モデルを微調整する合成データを生成する。 元のバージョンと比較すると、モデルが自分自身を選択的に抑制することを学ぶため、我々の生成したモデルは、既知のトピックと未知のトピックの両方に対して、追加の推論コストを伴わず、全体としてより少ない \emph{hallucinations} を生成する。 さらに,提案手法では,探索手順中にモデルが生成したサンプルを,棄権を表す回答で拡張することで,棄権する能力をエレガントに組み込む。

In order to be deployed safely, Large Language Models (LLMs) must be capable of dynamically adapting their behavior based on their level of knowledge and uncertainty associated with specific topics. This adaptive behavior, which we refer to as self-restraint, is non-trivial to teach since it depends on the internal knowledge of an LLM. By default, LLMs are trained to maximize the next token likelihood, which does not teach the model to modulate its answer based on its level of uncertainty. In order to learn self-restraint, we devise a utility function that can encourage the model to produce responses only when it is confident in them. This utility function can be used to score generation of different length and abstention. To optimize this function, we introduce ReSearch, a process of ``self-reflection'' consisting of iterative self-prompting and self-evaluation. We use the ReSearch algorithm to generate synthetic data on which we finetune our models. Compared to their original versions, our resulting models generate fewer \emph{hallucinations} overall at no additional inference cost, for both known and unknown topics, as the model learns to selectively restrain itself. In addition, our method elegantly incorporates the ability to abstain by augmenting the samples generated by the model during the search procedure with an answer expressing abstention.
翻訳日:2024-05-27 02:48:13 公開日:2024-05-15
# Intelligent Tutor: ChatGPTとMicrosoft Copilot Studioを活用して、チーム内で生成AI学生のサポートとフィードバックシステムを提供する

Intelligent Tutor: Leveraging ChatGPT and Microsoft Copilot Studio to Deliver a Generative AI Student Support and Feedback System within Teams ( http://arxiv.org/abs/2405.13024v1 )

ライセンス: Link先を確認
Wei-Yu Chen, (参考訳) そこで本研究では,Microsoft Teamsプラットフォーム上でのChatGPT APIとGPT-4モデル,Microsoft Copilot Studioの統合について検討した。 学生に即時支援を提供するように設計され,学習者の進捗やフィードバックに応じて教育内容の動的調整を行う。 自然言語処理と機械学習の進歩を利用して、学生の質問を解釈し、適切なフィードバックを提供し、教育旅行を促進する。 初歩的な実践は、学生のモチベーションとエンゲージメントを高めるためのシステムの可能性を強調し、教育者は学習プロセスに重要な洞察を与え、適切な教育経験を促進し、教育効果を高める。

This study explores the integration of the ChatGPT API with GPT-4 model and Microsoft Copilot Studio on the Microsoft Teams platform to develop an intelligent tutoring system. Designed to provide instant support to students, the system dynamically adjusts educational content in response to the learners' progress and feedback. Utilizing advancements in natural language processing and machine learning, it interprets student inquiries, offers tailored feedback, and facilitates the educational journey. Initial implementation highlights the system's potential in boosting students' motivation and engagement, while equipping educators with critical insights into the learning process, thus promoting tailored educational experiences and enhancing instructional effectiveness.
翻訳日:2024-05-27 02:48:13 公開日:2024-05-15
# 電子商取引における大規模言語モデルの公正性に関する調査--進展、応用、挑戦

A survey on fairness of large language models in e-commerce: progress, application, and challenge ( http://arxiv.org/abs/2405.13025v1 )

ライセンス: Link先を確認
Qingyang Ren, Zilin Jiang, Jinghan Cao, Sijia Li, Chiqu Li, Yiyang Liu, Shuning Huo, Tiange He, (参考訳) 本調査では,eコマースにおける大規模言語モデル(LLM)の公正性について,その進捗状況やアプリケーション,直面している課題について検討する。 LLMは、革新的なソリューションを提供し、顧客エクスペリエンスを向上させることで、Eコマース領域において重要な存在になっています。 本研究は,電子商取引におけるLCMの応用と課題に関する総合的な調査である。 論文は、電子商取引におけるLLMの使用の基礎となる重要な原則の導入から始まり、事前トレーニング、微調整のプロセスを詳述し、これらのモデルを特定のニーズに合わせるよう促す。 次に、製品レビュー、顧客のフィードバックを合成し分析する製品レコメンデーション、消費者データを活用して関連する項目を提案する製品情報翻訳、グローバルアクセシビリティの向上、顧客サポートを自動化する製品質問と回答セクションなど、電子商取引におけるLCMのさまざまな応用について検討する。 この論文は、eコマースにおける公正性の課題を批判的に扱い、トレーニングデータやアルゴリズムのバイアスが、ステレオタイプを強化したり、特定のグループを差別したりといった不公平な結果をもたらす可能性があることを強調している。 これらの問題は消費者の信頼を損なうだけでなく、倫理的および法的懸念も引き起こす。 最後に、この研究は今後の研究の方向性を概説し、電子商取引におけるより公平で透明なLCMの必要性を強調している。 偏見を緩和し、これらのシステムの公正性を向上し、多様なグローバル市場を効果的かつ倫理的に提供するよう継続的な努力を提唱している。 この包括的な分析を通じて、この調査は、eコマースにおけるLLMの現在の状況の全体像を提供し、その可能性と限界についての洞察を提供し、より公平で包括的なeコマース環境を構築するための将来の取り組みを導く。

This survey explores the fairness of large language models (LLMs) in e-commerce, examining their progress, applications, and the challenges they face. LLMs have become pivotal in the e-commerce domain, offering innovative solutions and enhancing customer experiences. This work presents a comprehensive survey on the applications and challenges of LLMs in e-commerce. The paper begins by introducing the key principles underlying the use of LLMs in e-commerce, detailing the processes of pretraining, fine-tuning, and prompting that tailor these models to specific needs. It then explores the varied applications of LLMs in e-commerce, including product reviews, where they synthesize and analyze customer feedback; product recommendations, where they leverage consumer data to suggest relevant items; product information translation, enhancing global accessibility; and product question and answer sections, where they automate customer support. The paper critically addresses the fairness challenges in e-commerce, highlighting how biases in training data and algorithms can lead to unfair outcomes, such as reinforcing stereotypes or discriminating against certain groups. These issues not only undermine consumer trust, but also raise ethical and legal concerns. Finally, the work outlines future research directions, emphasizing the need for more equitable and transparent LLMs in e-commerce. It advocates for ongoing efforts to mitigate biases and improve the fairness of these systems, ensuring they serve diverse global markets effectively and ethically. Through this comprehensive analysis, the survey provides a holistic view of the current landscape of LLMs in e-commerce, offering insights into their potential and limitations, and guiding future endeavors in creating fairer and more inclusive e-commerce environments.
翻訳日:2024-05-27 02:48:13 公開日:2024-05-15
# マルチエージェント強化学習による完全分散フォグ負荷分散

Fully Distributed Fog Load Balancing with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2405.12236v1 )

ライセンス: Link先を確認
Maad Ebrahim, Abdelhakim Hafid, (参考訳) リアルタイムモノのインターネット(IoT)アプリケーションは、IoTワークロードを処理するためのコンピューティングリソースの需要の増大に対処するために、リアルタイムのサポートを必要とします。 Fog Computingは、そのようなリソースを分散的に高可用性にします。 しかし、これらのリソースは、予測不可能なトラフィック要求を異種Fogリソースに分散するために、効率的に管理されなければならない。 本稿では,マルチエージェント強化学習(MARL)を用いた完全分散ロードバランシングソリューションを提案する。 これらのエージェントは、環境の動的変化に対する生涯の自己適応のためにトランスファーラーニングを使用する。 分散意思決定を活用することで、MARLエージェントは単一の集中型エージェントソリューションや他のベースラインと比較して待ち時間を効果的に最小化し、エンドツーエンドの実行遅延を増大させる。 パフォーマンス向上に加えて、完全に分散されたソリューションにより、エージェントが小さなコラボレーションリージョンで独立して動作し、近くのローカルリソースを活用するグローバルな実装が可能になる。 さらに,本論文では,必要な行動ごとにリアルタイムに観測できるという文献における非現実的な一般的な仮定とは違って,環境の状態を観察するための現実的な周波数の影響を分析する。 この結果は、間隔ベースのGossipベースのマルチキャストプロトコルを使用して、生成されたワークロード毎のリアルタイム観測可用性を仮定する上で、リアリズムとパフォーマンスのトレードオフを浮き彫りにする。

Real-time Internet of Things (IoT) applications require real-time support to handle the ever-growing demand for computing resources to process IoT workloads. Fog Computing provides high availability of such resources in a distributed manner. However, these resources must be efficiently managed to distribute unpredictable traffic demands among heterogeneous Fog resources. This paper proposes a fully distributed load-balancing solution with Multi-Agent Reinforcement Learning (MARL) that intelligently distributes IoT workloads to optimize the waiting time while providing fair resource utilization in the Fog network. These agents use transfer learning for life-long self-adaptation to dynamic changes in the environment. By leveraging distributed decision-making, MARL agents effectively minimize the waiting time compared to a single centralized agent solution and other baselines, enhancing end-to-end execution delay. Besides performance gain, a fully distributed solution allows for a global-scale implementation where agents can work independently in small collaboration regions, leveraging nearby local resources. Furthermore, we analyze the impact of a realistic frequency to observe the state of the environment, unlike the unrealistic common assumption in the literature of having observations readily available in real-time for every required action. The findings highlight the trade-off between realism and performance using an interval-based Gossip-based multi-casting protocol against assuming real-time observation availability for every generated workload.
翻訳日:2024-05-22 15:26:53 公開日:2024-05-15
# Benchmark EarlyとRed Team Often: AIファンデーションモデルのデュアルユースハザードの評価と管理のためのフレームワーク

Benchmark Early and Red Team Often: A Framework for Assessing and Managing Dual-Use Hazards of AI Foundation Models ( http://arxiv.org/abs/2405.10986v1 )

ライセンス: Link先を確認
Anthony M. Barrett, Krystal Jackson, Evan R. Murphy, Nada Madkour, Jessica Newman, (参考訳) 最先端または「最先端」のAI基盤モデルに対する懸念は、敵が化学、生物学的、放射線学的、核、CBRN、サイバー、その他の攻撃に備えるためにモデルを使用する可能性があることである。 A. オープンベンチマーク(公開可能な質問と回答に基づく)は低コストだが、セキュリティに敏感な詳細を省略する必要性によって精度が制限されている。 オープンベンチマークとクローズドレッドチーム評価の両方を含む手法を組み合わせて,両手法の利点を生かした研究・リスク管理手法を提案する。 十分なリソースを持ち、フロンティアとフロンティアのファンデーションモデルにアクセス可能な研究者の1つ以上のグループは、デュアルユース能力評価ベンチマークとレッドチーム評価を通じて、ファンデーションモデルのセットを実行することを推奨します。 オープンベンチマークがファンデーションモデル開発において、モデルの2つの使用可能性の迅速かつ低コストな測定手段として頻繁に使用されるべきであり、もし特定のモデルが2つの使用可能性のベンチマークで高いスコアを得た場合、そのモデルの2つの使用能力に関するより深いレッドチーム評価が行われるべきである。 また、モデル開発者がモデルのトレーニングデータにベンチマークテストデータのバージョンを含めることで、ベンチマークをゲームしようとする場合など、我々のアプローチの制限や緩和についても論じる。

A concern about cutting-edge or "frontier" AI foundation models is that an adversary may use the models for preparing chemical, biological, radiological, nuclear, (CBRN), cyber, or other attacks. At least two methods can identify foundation models with potential dual-use capability; each has advantages and disadvantages: A. Open benchmarks (based on openly available questions and answers), which are low-cost but accuracy-limited by the need to omit security-sensitive details; and B. Closed red team evaluations (based on private evaluation by CBRN and cyber experts), which are higher-cost but can achieve higher accuracy by incorporating sensitive details. We propose a research and risk-management approach using a combination of methods including both open benchmarks and closed red team evaluations, in a way that leverages advantages of both methods. We recommend that one or more groups of researchers with sufficient resources and access to a range of near-frontier and frontier foundation models run a set of foundation models through dual-use capability evaluation benchmarks and red team evaluations, then analyze the resulting sets of models' scores on benchmark and red team evaluations to see how correlated those are. If, as we expect, there is substantial correlation between the dual-use potential benchmark scores and the red team evaluation scores, then implications include the following: The open benchmarks should be used frequently during foundation model development as a quick, low-cost measure of a model's dual-use potential; and if a particular model gets a high score on the dual-use potential benchmark, then more in-depth red team assessments of that model's dual-use capability should be performed. We also discuss limitations and mitigations for our approach, e.g., if model developers try to game benchmarks by including a version of benchmark test data in a model's training data.
翻訳日:2024-05-21 19:56:17 公開日:2024-05-15
# UniCorn: 多視点分子表現学習のための統一コントラスト学習アプローチ

UniCorn: A Unified Contrastive Learning Approach for Multi-view Molecular Representation Learning ( http://arxiv.org/abs/2405.10343v1 )

ライセンス: Link先を確認
Shikun Feng, Yuyan Ni, Minghao Li, Yanwen Huang, Zhi-Ming Ma, Wei-Ying Ma, Yanyan Lan, (参考訳) 近年,CV と NLP の領域における事前学習基盤モデルの開発において,顕著な傾向がみられた。 しかし, 分子前訓練には, 様々な分野の分子課題に効果的に適用できる普遍的なモデルが欠如している。 さらに、2Dグラフマスキング、2D-3Dコントラスト学習、3D denoisingを含む既存の事前学習手法の深い理解が欠如し、分子基盤モデルの進歩を妨げている。 本研究では、コントラスト学習のレンズを通して、既存の事前学習手法の統一的な理解を提供する。 したがって、それらの区別は、特定の下流のタスクに有益な分子の異なる視点をクラスタリングすることにある。 完全かつ汎用的な分子表現を実現するために,3つの手法の利点を継承し,分子ビューを3つの異なるレベルで表現する,UniCornという新しい事前学習フレームワークを提案する。 量子、物理化学的、生物学的タスクにわたるSOTAのパフォーマンスは、包括的なアブレーション研究とともに、UniCornの普遍性と有効性を検証する。

Recently, a noticeable trend has emerged in developing pre-trained foundation models in the domains of CV and NLP. However, for molecular pre-training, there lacks a universal model capable of effectively applying to various categories of molecular tasks, since existing prevalent pre-training methods exhibit effectiveness for specific types of downstream tasks. Furthermore, the lack of profound understanding of existing pre-training methods, including 2D graph masking, 2D-3D contrastive learning, and 3D denoising, hampers the advancement of molecular foundation models. In this work, we provide a unified comprehension of existing pre-training methods through the lens of contrastive learning. Thus their distinctions lie in clustering different views of molecules, which is shown beneficial to specific downstream tasks. To achieve a complete and general-purpose molecular representation, we propose a novel pre-training framework, named UniCorn, that inherits the merits of the three methods, depicting molecular views in three different levels. SOTA performance across quantum, physicochemical, and biological tasks, along with comprehensive ablation study, validate the universality and effectiveness of UniCorn.
翻訳日:2024-05-20 17:52:48 公開日:2024-05-15
# 機械学習技術を用いたパルス形状シミュレーションと識別

Pulse Shape Simulation and Discrimination using Machine-Learning Techniques ( http://arxiv.org/abs/2206.15156v2 )

ライセンス: Link先を確認
Shubham Dutta, Sayan Ghosh, Satyaki Bhattacharya, Satyajit Saha, (参考訳) 粒子識別実験の品質にとって重要な指標は、信号と背景を識別する統計力である。 パルス形状判別(PSD)は、シンチレーション検出器を用いる多くの核、高エネルギー、希少な探索実験において、この目的のための基本的な方法である。 従来の手法では、異なる種類の放射量によって引き起こされる信号と背景事象またはパルス信号とのパルスの減衰時間の違いを利用して、良好な識別を行う。 しかし、そのような手法は、適切なパルスプロファイルを得るのに十分な総発光量を持つ場合にのみ有効である。 これは、電子の再コイルから十分な量のエネルギーが蓄積されるか、検出器に入射した粒子によって引き起こされるシンチレータ材料の核によってのみ可能となる。 しかし、暗黒物質の直接探索のような希少な探索実験は、必ずしもこれらの条件を満たすとは限らない。 したがって、これらのシナリオにおいて非常に効率的な差別を提供する方法を持つことが必須となる。 ニューラルネットワークに基づく機械学習アルゴリズムは、特に高エネルギー実験において物理学の多くの分野における分類問題に使われ、従来の手法よりも優れた結果を得た。 本稿では,パルス形状判別のための2つのネットワークベース手法である「viz Dense Neural Network」と「Recurrent Neural Network」について,従来手法と比較した。

An essential metric for the quality of a particle-identification experiment is its statistical power to discriminate between signal and background. Pulse shape discrimination (PSD) is a basic method for this purpose in many nuclear, high-energy and rare-event search experiments where scintillation detectors are used. Conventional techniques exploit the difference between decay-times of the pulses from signal and background events or pulse signals caused by different types of radiation quanta to achieve good discrimination. However, such techniques are efficient only when the total light-emission is sufficient to get a proper pulse profile. This is only possible when adequate amount of energy is deposited from recoil of the electrons or the nuclei of the scintillator materials caused by the incident particle on the detector. But, rare-event search experiments like direct search for dark matter do not always satisfy these conditions. Hence, it becomes imperative to have a method that can deliver a very efficient discrimination in these scenarios. Neural network based machine-learning algorithms have been used for classification problems in many areas of physics especially in high-energy experiments and have given better results compared to conventional techniques. We present the results of our investigations of two network based methods \viz Dense Neural Network and Recurrent Neural Network, for pulse shape discrimination and compare the same with conventional methods.
翻訳日:2024-05-17 20:01:05 公開日:2024-05-15
# CaloFlow for CaloChallenge Dataset 1

CaloFlow for CaloChallenge Dataset 1 ( http://arxiv.org/abs/2210.14245v3 )

ライセンス: Link先を確認
Claudius Krause, Ian Pang, David Shih, (参考訳) CaloFlowは、正規化フローに基づく高速カロリーメータシミュレーションのための、新しくて有望なアプローチである。 高速カロリメータシミュレーションチャレンジ2022のデータセット1の光子と荷電ピオンGeant4シャワーにCaloFlowを適用することで、Geant4より数桁速いサンプリング時間で高忠実度サンプルを作成できることを示す。 本研究では,Geant4試料からCaloFlowを識別するために訓練された分類器などの指標を,カロリーメータのシャワー画像,高次特徴のヒストグラムを用いて示す。

CaloFlow is a new and promising approach to fast calorimeter simulation based on normalizing flows. Applying CaloFlow to the photon and charged pion Geant4 showers of Dataset 1 of the Fast Calorimeter Simulation Challenge 2022, we show how it can produce high-fidelity samples with a sampling time that is several orders of magnitude faster than Geant4. We demonstrate the fidelity of the samples using calorimeter shower images, histograms of high-level features, and aggregate metrics such as a classifier trained to distinguish CaloFlow from Geant4 samples.
翻訳日:2024-05-17 19:53:36 公開日:2024-05-15
# DC4L:ディープラーニングモデルのためのデータ駆動制御による配電シフト回復

DC4L: Distribution Shift Recovery via Data-Driven Control for Deep Learning Models ( http://arxiv.org/abs/2302.10341v3 )

ライセンス: Link先を確認
Vivian Lin, Kuk Jin Jang, Souradeep Dutta, Michele Caprio, Oleg Sokolsky, Insup Lee, (参考訳) ディープニューラルネットワークは、自然発生のニューラルネットワークでさえも、現実世界の不確実性に反するものではないことが繰り返し示されている。 現在のアプローチの大半は、トレーニング中に分類器が露出する摂動範囲を拡張するために、データ拡張手法に重点を置いている。 同じように期待できる比較的未探索の道は、摂動の性質によって、前処理ステップとしてイメージを衛生することである。 本稿では,学習モデルに対する制御を用いて,オンライン配信のシフトから回復する手法を提案する。 具体的には、ワッサーシュタイン距離によって測定されるように、シフトしたデータをトレーニングセットに近づけるために、セマンティック保存変換のシーケンスを適用する。 私たちのアプローチは 1) マルコフ決定過程として分布シフト回復の問題を定式化し, 強化学習を用いて解いた。 2) 適用すべきメソッドのデータに対する最小条件を特定し, バイナリ分類器を用いてオンラインで確認する。 3) ワッサーシュタイン距離の推定を支援するために正則射影による次元減少を用いる。 正規直交射影が分布レベルでのデータの特性を保存するという理論的証拠を提供する。 分布シフト回復手法をImageNet-Cベンチマークに適用し、様々な最先端のImageNet分類器の平均精度を14.21%改善したことを示す。 さらに,この手法はImageNet-Cベンチマークからのシフトの合成に一般化し,平均精度を最大9.81%向上させることを示す。 最後に,CIFAR-100-Cで試験を行い,最大8.25%の改善を報告した。

Deep neural networks have repeatedly been shown to be non-robust to the uncertainties of the real world, even to naturally occurring ones. A vast majority of current approaches have focused on data-augmentation methods to expand the range of perturbations that the classifier is exposed to while training. A relatively unexplored avenue that is equally promising involves sanitizing an image as a preprocessing step, depending on the nature of perturbation. In this paper, we propose to use control for learned models to recover from distribution shifts online. Specifically, our method applies a sequence of semantic-preserving transformations to bring the shifted data closer in distribution to the training set, as measured by the Wasserstein distance. Our approach is to 1) formulate the problem of distribution shift recovery as a Markov decision process, which we solve using reinforcement learning, 2) identify a minimum condition on the data for our method to be applied, which we check online using a binary classifier, and 3) employ dimensionality reduction through orthonormal projection to aid in our estimates of the Wasserstein distance. We provide theoretical evidence that orthonormal projection preserves characteristics of the data at the distributional level. We apply our distribution shift recovery approach to the ImageNet-C benchmark for distribution shifts, demonstrating an improvement in average accuracy of up to 14.21% across a variety of state-of-the-art ImageNet classifiers. We further show that our method generalizes to composites of shifts from the ImageNet-C benchmark, achieving improvements in average accuracy of up to 9.81%. Finally, we test our method on CIFAR-100-C and report improvements of up to 8.25%.
翻訳日:2024-05-17 19:53:36 公開日:2024-05-15
# 機能的等価性によるディープニューラルネットワークの複雑さの探索

Exploring the Complexity of Deep Neural Networks through Functional Equivalence ( http://arxiv.org/abs/2305.11417v3 )

ライセンス: Link先を確認
Guohao Shen, (参考訳) 機能的等価性のレンズによるディープニューラルネットワークの複雑さについて検討し,パラメータ化の違いで同じネットワーク機能が得られることを示唆する。 等価性を生かして、ディープニューラルネットワークの被覆数に束縛された新しい手法を提案し、ニューラルネットワークの複雑さを低減できることを示した。 さらに,ネットワーク幅の増大が有効パラメータ空間の容量の減少につながるため,過パラメータ化ネットワークの訓練が容易であることを示す。 これらの発見は、過パラメータ化現象に関する貴重な洞察を与え、ディープラーニングにおける一般化と最適化を理解するための意味を持つ。

We investigate the complexity of deep neural networks through the lens of functional equivalence, which posits that different parameterizations can yield the same network function. Leveraging the equivalence property, we present a novel bound on the covering number for deep neural networks, which reveals that the complexity of neural networks can be reduced. Additionally, we demonstrate that functional equivalence benefits optimization, as overparameterized networks tend to be easier to train since increasing network width leads to a diminishing volume of the effective parameter space. These findings can offer valuable insights into the phenomenon of overparameterization and have implications for understanding generalization and optimization in deep learning.
翻訳日:2024-05-17 19:43:51 公開日:2024-05-15
# MagicBrush:インストラクションガイドによる画像編集のための手書きアノテーション付きデータセット

MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing ( http://arxiv.org/abs/2306.10012v3 )

ライセンス: Link先を確認
Kai Zhang, Lingbo Mo, Wenhu Chen, Huan Sun, Yu Su, (参考訳) テキスト誘導画像編集は、個人使用からPhotoshopなどのプロフェッショナルアプリケーションまで、日常生活で広く必要とされる。 しかし、既存の手法はゼロショットか、あるいは大量のノイズを含む自動合成データセットで訓練されている。 そのため、実際に望ましい結果を得るためには、まだ多くの手動チューニングが必要です。 この問題を解決するために、MagicBrush (https://osu-nlp-group.github.io/MagicBrush/)を紹介します。 MagicBrushは、手動で注釈付けされた三つ子(ソースイメージ、命令、ターゲットイメージ)で構成されており、大規模なテキスト誘導画像編集モデルのトレーニングをサポートする。 MagicBrushでInstructPix2Pixを微調整し、新しいモデルが人間の評価に応じてはるかに優れた画像を生成することを示す。 さらに、定量的、質的、人的評価を含む複数の次元から、現在の画像編集ベースラインを評価するための広範な実験を行う。 その結果、データセットの難易度と、現在のベースラインと現実世界の編集ニーズのギャップが明らかになった。

Text-guided image editing is widely needed in daily life, ranging from personal use to professional applications such as Photoshop. However, existing methods are either zero-shot or trained on an automatically synthesized dataset, which contains a high volume of noise. Thus, they still require lots of manual tuning to produce desirable outcomes in practice. To address this issue, we introduce MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), the first large-scale, manually annotated dataset for instruction-guided real image editing that covers diverse scenarios: single-turn, multi-turn, mask-provided, and mask-free editing. MagicBrush comprises over 10K manually annotated triplets (source image, instruction, target image), which supports trainining large-scale text-guided image editing models. We fine-tune InstructPix2Pix on MagicBrush and show that the new model can produce much better images according to human evaluation. We further conduct extensive experiments to evaluate current image editing baselines from multiple dimensions including quantitative, qualitative, and human evaluations. The results reveal the challenging nature of our dataset and the gap between current baselines and real-world editing needs.
翻訳日:2024-05-17 19:43:51 公開日:2024-05-15
# 損失双対フォックプローブを用いた大域的最適干渉計測

Globally optimal interferometry with lossy twin Fock probes ( http://arxiv.org/abs/2308.05871v2 )

ライセンス: Link先を確認
T. J. Volkoff, Changhyun Ryu, (参考訳) パリティあるいは二次スピン(例えば$J_{z}^{2}$)は、双対のフォック入力状態で探索されたマッハ・ツェンダー(MZ)干渉計の読み出しであり、任意のモード分離可能な全ての状態の最適感度を一定数の粒子で飽和させるが、干渉計位相 $\theta$ が 0 に近い場合のみである。 より一般的なディック状態プローブを使用すると、パリティ読み出しは量子フィッシャー情報(QFI)を$\theta=0$で飽和させ、一方、$J_{z}^{2}$読み出しの性能は$o(\sqrt{N})$占有不均衡に制限される。 2つの二次スピンオブザーバ$J_{z}^{2}$と$J_{z}^{2}+J_{-}^{2}$のモーメントの読み出し方法がディック状態プローブに対して大域的に最適であること、すなわち、誤差がすべての$\theta$に対してQFIを飽和させることを示す。 損失条件では,2つ以上の粒子が失われる場合,最大4つのスピンオブザーバブルのモーメント読み出し法は,最大で$\theta$の最適推定に十分であることを示す。 この分析は、四モード状態 $\vert {N\over 4},{N\over 4},{N\over 4}\rangle$,{N\over 4}\rangle$ の分散MZインターフェロメトリに対する QFI 行列の数値計算において決定され、局所的なMZ 相の線型関数 $\theta_{1}$, $\theta_{2}$ (MZ 相の独立プロブリングを $\vert {N\over 4},{N\over 4}\rangle$ の2コピーで比較すると、複数の粒子が失われたときに現れる。

Parity or quadratic spin (e.g., $J_{z}^{2}$) readouts of a Mach-Zehnder (MZ) interferometer probed with a twin Fock input state allow to saturate the optimal sensitivity attainable among all mode-separable states with a fixed total number of particles, but only when the interferometer phase $\theta$ is near zero. When more general Dicke state probes are used, the parity readout saturates the quantum Fisher information (QFI) at $\theta=0$, whereas better-than-standard quantum limit performance of the $J_{z}^{2}$ readout is restricted to an $o(\sqrt{N})$ occupation imbalance. We show that a method of moments readout of two quadratic spin observables $J_{z}^{2}$ and $J_{+}^{2}+J_{-}^{2}$ is globally optimal for Dicke state probes, i.e., the error saturates the QFI for all $\theta$. In the lossy setting, we derive the time-inhomogeneous Markov process describing the effect of particle loss on twin Fock states, showing that method of moments readout of four at-most-quadratic spin observables is sufficient for globally optimal estimation of $\theta$ when two or more particles are lost. The analysis culminates in a numerical calculation of the QFI matrix for distributed MZ interferometry on the four mode state $\vert {N\over 4},{N\over 4},{N\over 4},{N\over 4}\rangle$ and its lossy counterparts, showing that an advantage for estimation of any linear function of the local MZ phases $\theta_{1}$, $\theta_{2}$ (compared to independent probing of the MZ phases by two copies of $\vert {N\over 4},{N\over 4}\rangle$) appears when more than one particle is lost.
翻訳日:2024-05-17 19:34:02 公開日:2024-05-15
# カロリメータシャワー超解像

Calorimeter shower superresolution ( http://arxiv.org/abs/2308.11700v3 )

ライセンス: Link先を確認
Ian Pang, John Andrew Raine, David Shih, (参考訳) カロリメータシャワーシミュレーションは、大型ハドロン衝突型加速器の計算パイプラインにおいて大きなボトルネックとなっている。 この課題を克服するために、近年、深部的なサロゲートモデルを採用する取り組みが進められている。 しかし、優れたパフォーマンスモデルの多くは、高次元のカロリーメータシャワーにうまくスケールしないトレーニングと生成時間を持っている。 本研究では,フローベース超解像モデルであるSuperCaloを導入し,粗い粒状シャワーから高次元の微粒なカロリーメータシャワーを素早くアップサンプリングできることを実証した。 この手法は、高速カロリーメータシミュレーションモデルに関連する計算コスト、メモリ要求、生成時間を削減する方法を示す。 さらに,SuperCaloによってサンプリングされたシャワーには,高いばらつきがあることが判明した。 これにより、多数の高次元のカロリーメータシャワーが、非常に少ない粗いシャワーと高忠実度でアップサンプリングされ、結果として生成時間が短縮される。

Calorimeter shower simulation is a major bottleneck in the Large Hadron Collider computational pipeline. There have been recent efforts to employ deep-generative surrogate models to overcome this challenge. However, many of best performing models have training and generation times that do not scale well to high-dimensional calorimeter showers. In this work, we introduce SuperCalo, a flow-based superresolution model, and demonstrate that high-dimensional fine-grained calorimeter showers can be quickly upsampled from coarse-grained showers. This novel approach presents a way to reduce computational cost, memory requirements and generation time associated with fast calorimeter simulation models. Additionally, we show that the showers upsampled by SuperCalo possess a high degree of variation. This allows a large number of high-dimensional calorimeter showers to be upsampled from much fewer coarse showers with high-fidelity, which results in additional reduction in generation time.
翻訳日:2024-05-17 19:34:02 公開日:2024-05-15
# ミラー・アウェア・ニューラル・ヒューマン

Mirror-Aware Neural Humans ( http://arxiv.org/abs/2309.04750v2 )

ライセンス: Link先を確認
Daniel Ajisafe, James Tang, Shih-Yang Su, Bastian Wandt, Helge Rhodin, (参考訳) 人間のモーションキャプチャはマルチカメラシステムを必要とするか、奥行きのあいまいさによるシングルビュー入力を使用する場合、信頼できない。 一方、ミラーは都市環境で簡単に利用でき、単一のカメラで2つのビューを記録することで、手頃な価格の代替品を作ることができる。 しかし、ミラー設定は、リアル画像とミラー画像のオクルージョンを扱うという追加の課題を生じさせる。 3次元人間のポーズ推定のために既存のミラーアプローチを超越して、形状や濃密な外観を含む完全なボディモデルを学ぶためにミラーを利用する。 我々の主な貢献は、鏡の概念を含むように調音された神経放射場を拡張し、潜在的な閉塞領域に対するサンプリング効率を高めることである。 カメラを自動調整し、鏡の向きを推定し、2Dキーポイント検出を3Dスケルトンポーズに持ち上げ、ミラー認識型NeRFを条件付けることで、市販の2Dポーズから始まる3Dモーションキャプチャシステムを実現した。 我々は,身体モデル学習のメリットを実証的に実証し,難解なミラーシーンにおける隠蔽を考慮に入れた。

Human motion capture either requires multi-camera systems or is unreliable when using single-view input due to depth ambiguities. Meanwhile, mirrors are readily available in urban environments and form an affordable alternative by recording two views with only a single camera. However, the mirror setting poses the additional challenge of handling occlusions of real and mirror image. Going beyond existing mirror approaches for 3D human pose estimation, we utilize mirrors for learning a complete body model, including shape and dense appearance. Our main contributions are extending articulated neural radiance fields to include a notion of a mirror, making it sample-efficient over potential occlusion regions. Together, our contributions realize a consumer-level 3D motion capture system that starts from off-the-shelf 2D poses by automatically calibrating the camera, estimating mirror orientation, and subsequently lifting 2D keypoint detections to 3D skeleton pose that is used to condition the mirror-aware NeRF. We empirically demonstrate the benefit of learning a body model and accounting for occlusion in challenging mirror scenes.
翻訳日:2024-05-17 19:34:02 公開日:2024-05-15
# 通信ネットワークにおけるナノフォトニック量子メモリノードの絡み合い

Entanglement of Nanophotonic Quantum Memory Nodes in a Telecom Network ( http://arxiv.org/abs/2310.01316v2 )

ライセンス: Link先を確認
Can M. Knaut, Aziza Suleymanzade, Yan-Cheng Wei, Daniel R. Assumpcao, Pieter-Jan Stas, Yan Qi Huan, Bartholomeus Machielse, Erik N. Knall, Madison Sutula, Gefen Baranes, Neil Sinclair, Chawina De-Eknamkul, David S. Levonian, Mihir K. Bhaskar, Hongkun Park, Marko Lončar, Mikhail D. Lukin, (参考訳) 長距離量子通信のための実用的な量子ネットワークを実現する上での重要な課題は、ファイバー光インフラを介して接続された量子メモリノード間の堅牢な絡み合いである。 本稿では, ナノフォトニックダイヤモンドキャビティにおけるシリコン空孔(SiV)中心に基づくマルチキュービットレジスタで構成される2ノード量子ネットワークを, テレコミュニケーション(Telecom)ファイバネットワークと統合した。 リモートエンタングルメントは、SiVの電子スピン量子ビットと光光子の間のキャビティ-エンハンス相互作用によって生成される。 分割ノードの頑健な絡み合いには、時間ビン量子ビットを用いたシリアルスピン光子絡みあいゲート操作が使用される。 長寿命の核スピン量子ビットは、第2の長い絡み合いストレージと統合されたエラー検出を提供するために使用される。 光通信キュービットから通信周波数(1350nm)への効率的な双方向量子周波数変換を統合することで、ボストン近郊の都市環境に展開される40kmの低損失ファイバと35kmの長繊維ループを通して、2つの核スピンメモリの絡み合いを示す。

A key challenge in realizing practical quantum networks for long-distance quantum communication involves robust entanglement between quantum memory nodes connected via fiber optical infrastructure. Here, we demonstrate a two-node quantum network composed of multi-qubit registers based on silicon-vacancy (SiV) centers in nanophotonic diamond cavities integrated with a telecommunication (telecom) fiber network. Remote entanglement is generated via the cavity-enhanced interactions between the SiV's electron spin qubits and optical photons. Serial, heralded spin-photon entangling gate operations with time-bin qubits are used for robust entanglement of separated nodes. Long-lived nuclear spin qubits are used to provide second-long entanglement storage and integrated error detection. By integrating efficient bi-directional quantum frequency conversion of photonic communication qubits to telecom frequencies (1350 nm), we demonstrate entanglement of two nuclear spin memories through 40 km spools of low-loss fiber and a 35 km long fiber loop deployed in the Boston area urban environment, representing an enabling step towards practical quantum repeaters and large-scale quantum networks.
翻訳日:2024-05-17 19:24:18 公開日:2024-05-15
# 因果的生存効果のための安定かつ効率的な共変量バランシング推定器

A Stable and Efficient Covariate-Balancing Estimator for Causal Survival Effects ( http://arxiv.org/abs/2310.02278v2 )

ライセンス: Link先を確認
Khiem Pham, David A. Hirshberg, Phuong-Mai Huynh-Pham, Michele Santacatterina, Ser-Nam Lim, Ramin Zabih, (参考訳) 本研究では,条件非依存の検閲データにおける生存因果効果を推定する問題に対する,実験的に安定かつ漸近的に効率的な共変量バランス手法を提案する。 これは、しばしば最先端の非パラメトリック手法で遭遇する課題に対処する:小さな推定確率の逆数の使用と、その結果の推定誤差の増幅である。 合成および半合成データに関する実験において理論的結果を検証する。

We propose an empirically stable and asymptotically efficient covariate-balancing approach to the problem of estimating survival causal effects in data with conditionally-independent censoring. This addresses a challenge often encountered in state-of-the-art nonparametric methods: the use of inverses of small estimated probabilities and the resulting amplification of estimation error. We validate our theoretical results in experiments on synthetic and semi-synthetic data.
翻訳日:2024-05-17 19:24:18 公開日:2024-05-15
# Visual Instruction Tuningによるベースラインの改善

Improved Baselines with Visual Instruction Tuning ( http://arxiv.org/abs/2310.03744v2 )

ライセンス: Link先を確認
Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee, (参考訳) 大規模マルチモーダルモデル(LMM)は近年,視覚的インストラクションチューニングの進歩を示す。 本稿では,LLaVAの完全接続型視覚言語クロスモーダルコネクタが驚くほど強力で,データ効率がよいことを示す。 MLPプロジェクションによるCLIP-ViT-L-336pxによるLLaVAの簡単な修正と、シンプルな応答フォーマッティングプロンプトによる学術タスク指向VQAデータの追加により、11のベンチマークで最先端を達成するためのより強力なベースラインを確立する。 最後の13Bチェックポイントは1.2万の公開データしか使用せず、単一の8-A100ノードで1日以内で完全なトレーニングを終えます。 これにより、最先端のLMM研究がよりアクセスしやすくなることを願っています。 コードとモデルは公開されます。

Large multimodal models (LMM) have recently shown encouraging progress with visual instruction tuning. In this note, we show that the fully-connected vision-language cross-modal connector in LLaVA is surprisingly powerful and data-efficient. With simple modifications to LLaVA, namely, using CLIP-ViT-L-336px with an MLP projection and adding academic-task-oriented VQA data with simple response formatting prompts, we establish stronger baselines that achieve state-of-the-art across 11 benchmarks. Our final 13B checkpoint uses merely 1.2M publicly available data, and finishes full training in ~1 day on a single 8-A100 node. We hope this can make state-of-the-art LMM research more accessible. Code and model will be publicly available.
翻訳日:2024-05-17 19:24:18 公開日:2024-05-15
# プログラマブル量子アニールを用いたかごめ格子上の横界等方性モデルのシミュレーション

Simulating the Transverse Field Ising Model on the Kagome Lattice using a Programmable Quantum Annealer ( http://arxiv.org/abs/2310.06698v3 )

ライセンス: Link先を確認
Pratyankara Narasimhan, Stephan Humeniuk, Ananda Roy, Victor Drouin-Touchette, (参考訳) 幾何学による競合する相互作用の存在は、量子スピンモデルにフラストレーションをもたらす。 その結果、このような系の基底状態は、しばしば熱効果や量子効果によって持ち上げることができる大きな縮退性を示す。 そのような例の1つは、カゴメ格子上の反強磁性イジングモデルである。 三角格子上の同じモデルが、障害機構による秩序によって小さな横磁場に対してゼロ温度で順序付けられているのに対し、加護目格子はそのような効果に抵抗し、短距離スピン相関と自明な常磁性相のみを示す。 このモデルをD-Waveの量子アニールの最新のアーキテクチャであるAdvantage2のプロトタイプに埋め込む。 高度な埋め込みと校正技術を用いて、現在利用可能なプロトタイプの全グラフ上に231箇所の開かつ周期的な境界条件が混在する加護目格子を埋め込むことができる。 前方焼鈍実験により, 有限長手場下では, エントロピーが減少する古典的なスピン液体状態と整合した3分の1の磁化プラトーが得られた。 次に、アニール・ポーズ・クエンチプロトコルを用いて、有限横方向および長手方向でのモデルの平衡から生じる実験的な状態のアンサンブルを抽出する。 これにより、部分位相図を構築し、システムが古典的なスピン液体の制約されたヒルベルト空間を、横方向の場に従えば出ることを確認できる。 この結果と従来の理論結果と量子モンテカルロシミュレーションを結びつけることで、ここで実現した量子シミュレーションの有効性の確認に役立ち、非自明な平衡量子系をシミュレートするために、D-Wave量子アニールの性能に関する洞察を抽出する。

The presence of competing interactions due to geometry leads to frustration in quantum spin models. As a consequence, the ground state of such systems often displays a large degeneracy that can be lifted due to thermal or quantum effects. One such example is the antiferromagnetic Ising model on the Kagome lattice. It was shown that while the same model on the triangular lattice is ordered at zero temperature for small transverse field due to an order by disorder mechanism, the Kagome lattice resists any such effects and exhibits only short range spin correlations and a trivial paramagnetic phase. We embed this model on the latest architecture of D-Wave's quantum annealer, the Advantage2 prototype, which uses the highly connected Zephyr graph. Using advanced embedding and calibration techniques, we are able to embed a Kagome lattice with mixed open and periodic boundary conditions of 231 sites on the full graph of the currently available prototype. Through forward annealing experiments, we show that under a finite longitudinal field the system exhibits a one-third magnetization plateau, consistent with a classical spin liquid state of reduced entropy. An anneal-pause-quench protocol is then used to extract an experimental ensemble of states resulting from the equilibration of the model at finite transverse and longitudinal field. This allows us to construct a partial phase diagram and confirm that the system exits the constrained Hilbert space of the classical spin liquid when subjected to a transverse field. We connect our results to previous theoretical results and quantum Monte Carlo simulation, which helps us confirm the validity of the quantum simulation realized here, thereby extracting insight into the performance of the D-Wave quantum annealer to simulate non-trivial quantum systems in equilibrium.
翻訳日:2024-05-17 19:24:18 公開日:2024-05-15
# ※コード

Æ codes ( http://arxiv.org/abs/2311.12324v2 )

ライセンス: Link先を確認
Shubham P. Jain, Eric R. Hudson, Wesley C. Campbell, Victor V. Albert, (参考訳) 二原子分子コード [arXiv:1911.00099] は、二原子分子の配向における量子情報を符号化し、小さなトルクからの誤差補正と角運動量の変化を可能にするように設計されている。 ここでは、原子および分子プラットフォームに固有のノイズ(自然放出、強磁場、ラマン散乱)を直接研究し、二原子分子コードがこのノイズに反することを示す。 このような騒音に対してコードを保護するための簡単な必要十分条件を導出する。 また、分子コードよりも実用的で、平均運動量が少なく、任意の順序でフォトニックプロセスから直接保護でき、より広い原子と分子系の集合に適用できる、既存の吸収放出符号(\AE)を同定し、開発する。

Diatomic molecular codes [arXiv:1911.00099] are designed to encode quantum information in the orientation of a diatomic molecule, allowing error correction from small torques and changes in angular momentum. Here, we directly study noise native to atomic and molecular platforms -- spontaneous emission, stray electromagnetic fields, and Raman scattering -- and show that diatomic molecular codes fail against this noise. We derive simple necessary and sufficient conditions for codes to protect against such noise. We also identify existing and develop new absorption-emission (\AE) codes that are more practical than molecular codes, require lower average momentum, can directly protect against photonic processes up to arbitrary order, and are applicable to a broader set of atomic and molecular systems.
翻訳日:2024-05-17 19:14:33 公開日:2024-05-15
# 現代の機械学習のさらなる進歩 - 過度パラメータ化が最適であり、オーバーフィッティングが最適である場合

More is Better in Modern Machine Learning: when Infinite Overparameterization is Optimal and Overfitting is Obligatory ( http://arxiv.org/abs/2311.14646v4 )

ライセンス: Link先を確認
James B. Simon, Dhruva Karkada, Nikhil Ghosh, Mikhail Belkin, (参考訳) 巨大なニューラルネットワークの時代において、より良いという哲学によって経験的な進歩が導かれてきた。 最近のディープラーニングの実践は、より大きなモデルサイズ、より多くのデータ、より多くの計算(トレーニング損失の低減)がパフォーマンスを改善することを繰り返し発見している。 本稿では、これらの3つの特性が、トレーニングされた最後の層のみを持つ浅層ネットワークに相当するモデルのランダムな特徴(RF)回帰を保っていることを示すことによって、これらの経験的観測を理論的に裏付ける。 具体的には,尾根のペナルティが最適に調整された場合,RF劣化の試験リスクは特徴数と試料数の両方で単調に低下することを示す。 特に、これは無限幅のRFアーキテクチャが任意の有限幅のアーキテクチャよりも好ましいことを意味する。 次に, パワーロー固有構造を特徴とする多種多様なタスクに対して, ほぼゼロに近いトレーニング損失に対するトレーニングが義務付けられ, ほぼ最適性能は, テストエラーよりもはるかに小さい場合にのみ達成可能であることを示す。 実世界のデータに基づいて、畳み込みニューラルタンジェントカーネルを用いた標準的なコンピュータビジョンタスクが明らかにこのクラスに該当することを実証的に見出した。 まとめると、我々の結果は、ランダムな特徴モデルにおける過度なパラメータ化、過度な適合、およびより多くのデータの利点について、シンプルで検証可能な物語を語る。

In our era of enormous neural networks, empirical progress has been driven by the philosophy that more is better. Recent deep learning practice has found repeatedly that larger model size, more data, and more computation (resulting in lower training loss) improves performance. In this paper, we give theoretical backing to these empirical observations by showing that these three properties hold in random feature (RF) regression, a class of models equivalent to shallow networks with only the last layer trained. Concretely, we first show that the test risk of RF regression decreases monotonically with both the number of features and the number of samples, provided the ridge penalty is tuned optimally. In particular, this implies that infinite width RF architectures are preferable to those of any finite width. We then proceed to demonstrate that, for a large class of tasks characterized by powerlaw eigenstructure, training to near-zero training loss is obligatory: near-optimal performance can only be achieved when the training error is much smaller than the test error. Grounding our theory in real-world data, we find empirically that standard computer vision tasks with convolutional neural tangent kernels clearly fall into this class. Taken together, our results tell a simple, testable story of the benefits of overparameterization, overfitting, and more data in random feature models.
翻訳日:2024-05-17 19:14:33 公開日:2024-05-15
# Hot Fixing Software: テミノロジー、技術、応用の総合的なレビュー

Hot Fixing Software: A Comprehensive Review of Terminology, Techniques, and Applications ( http://arxiv.org/abs/2401.09275v2 )

ライセンス: Link先を確認
Carol Hanna, David Clark, Federica Sarro, Justyna Petke, (参考訳) ホットフィックスは、本番環境でソフトウェアシステムにデプロイされる特定の時間クリティカルな問題に対する計画外の改善である。 ホットフィックスはソフトウェアメンテナンスにおいて必須かつ一般的な活動であるが、調査活動として調査されることは一度もない。 したがって、このようなレビューは長く遅れている。 本稿では,ホットフィックスに関する総合的な文献レビューを行う。 我々は,この話題に対処した分野,用語における不整合,文学のギャップ,今後の研究の方向性について強調する。 調査は2000年から2022年までの91の項目で締めくくった。 記事には、ログ分析、ランタイムパッチ(ホットパッチとしても知られる)、自動修復、セキュリティ、モバイル、ビデオゲームといったさまざまなアプリケーションドメインなど、さまざまな研究領域が含まれている。 既存の用語の統合、ホットフィックスのベンチマークセットの確立、ホットフィックスのコストと頻度の調査、検出、緩和、展開のエンドツーエンド自動化の可能性の調査など、多くの方向がホットフィックス研究を前進させることができる。 ソフトウェアエンジニアリングのアクティビティとしてホットフィックスの体系化をコミュニティに促すため、これらの方法の詳細を議論する。

A hot fix is an unplanned improvement to a specific time-critical issue deployed to a software system in production. While hot fixing is an essential and common activity in software maintenance, it has never been surveyed as a research activity. Thus, such a review is long overdue. In this paper, we conduct a comprehensive literature review of work on hot fixing. We highlight the fields where this topic has been addressed, inconsistencies we identified in the terminology, gaps in the literature, and directions for future work. Our search concluded with 91 articles on the topic between the years 2000 and 2022. The articles found encompass many different research areas such as log analysis, runtime patching (also known as hot patching), and automated repair, as well as various application domains such as security, mobile, and video games. We find that many directions can take hot fix research forward such as unifying existing terminology, establishing a benchmark set of hot fixes, researching costs and frequency of hot fixes, and researching the possibility of end-to-end automation of detection, mitigation, and deployment. We discuss these avenues in detail to inspire the community to systematize hot fixing as a software engineering activity.
翻訳日:2024-05-17 19:04:48 公開日:2024-05-15
# HyperSense:エネルギー効率の良いスパースデータ処理のための超次元知能センシング

HyperSense: Hyperdimensional Intelligent Sensing for Energy-Efficient Sparse Data Processing ( http://arxiv.org/abs/2401.10267v2 )

ライセンス: Link先を確認
Sanggeon Yun, Hanning Chen, Ryozo Masukawa, Hamza Errahmouni Barkam, Andrew Ding, Wenjun Huang, Arghavan Rezvani, Shaahin Angizi, Mohsen Imani, (参考訳) ハードウェアとソフトウェアを共同設計したHyperSenseは,センサデータのオブジェクト存在予測に基づいて,ADCモジュールのデータ生成率を効率的に制御する。 センサー量とデータレートをエスカレートすることで生じる課題に対処するため、HyperSenseはエネルギー効率の低いADCを使用して冗長なデジタルデータを削減し、機械学習システムコストを削減している。 ニューラルインスパイアされた超次元コンピューティング(HDC)を活用して、HyperSenseはリアルタイムの生の低精度センサーデータを解析し、ノイズ、メモリ中心性、リアルタイム学習を扱う利点を提供する。 提案するHyperSenseモデルは,物体検出のための高性能ソフトウェアとリアルタイムハードウェア予測を組み合わせ,インテリジェントセンサ制御という新しい概念を導入した。 AUC(Area Under the Curve)とROC(Area Under the Curve)曲線によって証明された,ソリューションの優れた性能を示すソフトウェアとハードウェアの総合評価を行った。 ハードウェア面では、HyperSense用に調整されたFPGAベースのドメイン固有アクセラレータはNVIDIA Jetson OrinのYOLOv4と比較して5.6倍の高速化を実現し、従来のシステムに比べて92.1%の省エネを実現しています。 これらの結果はHyperSenseの有効性と効率を裏付けるもので、多様なアプリケーションにわたるインテリジェントなセンシングとリアルタイムデータ処理のための有望なソリューションとして位置づけられている。

Introducing HyperSense, our co-designed hardware and software system efficiently controls Analog-to-Digital Converter (ADC) modules' data generation rate based on object presence predictions in sensor data. Addressing challenges posed by escalating sensor quantities and data rates, HyperSense reduces redundant digital data using energy-efficient low-precision ADC, diminishing machine learning system costs. Leveraging neurally-inspired HyperDimensional Computing (HDC), HyperSense analyzes real-time raw low-precision sensor data, offering advantages in handling noise, memory-centricity, and real-time learning. Our proposed HyperSense model combines high-performance software for object detection with real-time hardware prediction, introducing the novel concept of Intelligent Sensor Control. Comprehensive software and hardware evaluations demonstrate our solution's superior performance, evidenced by the highest Area Under the Curve (AUC) and sharpest Receiver Operating Characteristic (ROC) curve among lightweight models. Hardware-wise, our FPGA-based domain-specific accelerator tailored for HyperSense achieves a 5.6x speedup compared to YOLOv4 on NVIDIA Jetson Orin while showing up to 92.1% energy saving compared to the conventional system. These results underscore HyperSense's effectiveness and efficiency, positioning it as a promising solution for intelligent sensing and real-time data processing across diverse applications.
翻訳日:2024-05-17 19:04:48 公開日:2024-05-15
# 差分生産型階層型フェデレーションラーニング

Differentially-Private Hierarchical Federated Learning ( http://arxiv.org/abs/2401.11592v4 )

ライセンス: Link先を確認
Frank Po-Chen Lin, Christopher Brinton, (参考訳) FL(Federated Learning)は、ネットワーク上の生データの送信を排除しますが、通信されたモデルパラメータからのプライバシー侵害に対して脆弱です。 本稿では,階層型ネットワークにおけるプライバシーとパフォーマンスを協調的に最適化するDP強化FL手法である \underline{H}ierarchical \underline{F}ederated Learning with \underline{H}ierarchical \underline{D}ifferential \underline{P}rivacy ({\tt H$^2$FDP})を提案する。 特定のサブネットワーク内の信頼モデルによると、階層微分プライバシー(HDP)に関する最近の提案に基づいて、 {\tt H$^2$FDP}の重要な概念の1つは、確立されたFL階層(エッジデバイス、エッジサーバ、クラウドサーバ)の異なる層にDPノイズ注入を適用することである。 本研究では,ネットワーク階層や信頼モデル,対象のプライバシレベルに依存する有限な定常性ギャップに対して,トレーニングプロセスがサブライン的に収束するパラメータチューニングの条件を明らかにする。 これらの関係を利用して、局所モデルトレーニングの特性を調整し、通信エネルギー、レイテンシ、定常性ギャップを最小限に抑えつつ、サブ線形収束率を維持し、所望のプライバシー基準を満たすように適応制御アルゴリズムを開発する。 その後の数値評価では、異なるプライバシ予算に対する基準よりも、これらの指標が大幅に改善され、異なるシステム構成の影響が検証された。

While federated learning (FL) eliminates the transmission of raw data over a network, it is still vulnerable to privacy breaches from the communicated model parameters. In this work, we propose \underline{H}ierarchical \underline{F}ederated Learning with \underline{H}ierarchical \underline{D}ifferential \underline{P}rivacy ({\tt H$^2$FDP}), a DP-enhanced FL methodology for jointly optimizing privacy and performance in hierarchical networks. Building upon recent proposals for Hierarchical Differential Privacy (HDP), one of the key concepts of {\tt H$^2$FDP} is adapting DP noise injection at different layers of an established FL hierarchy -- edge devices, edge servers, and cloud servers -- according to the trust models within particular subnetworks. We conduct a comprehensive analysis of the convergence behavior of {\tt H$^2$FDP}, revealing conditions on parameter tuning under which the training process converges sublinearly to a finite stationarity gap that depends on the network hierarchy, trust model, and target privacy level. Leveraging these relationships, we develop an adaptive control algorithm for {\tt H$^2$FDP} that tunes properties of local model training to minimize communication energy, latency, and the stationarity gap while striving to maintain a sub-linear convergence rate and meet desired privacy criteria. Subsequent numerical evaluations demonstrate that {\tt H$^2$FDP} obtains substantial improvements in these metrics over baselines for different privacy budgets, and validate the impact of different system configurations.
翻訳日:2024-05-17 18:55:01 公開日:2024-05-15
# ジェネレーティブAIのためのレッドチーム:銀の弾丸かセキュリティシアターか?

Red-Teaming for Generative AI: Silver Bullet or Security Theater? ( http://arxiv.org/abs/2401.15897v2 )

ライセンス: Link先を確認
Michael Feffer, Anusha Sinha, Wesley Hanwen Deng, Zachary C. Lipton, Hoda Heidari, (参考訳) ジェネレーティブAI(GenAI)モデルの安全性、セキュリティ、信頼性に関する懸念の高まりに対して、実践者や規制当局も、これらのリスクを特定し緩和するための戦略の重要な要素として、AIのリピートを挙げている。 しかし、政策議論や企業メッセージングにおけるAIのレッドチームの役割にもかかわらず、それが正確には何を意味するのか、規制においてどのような役割を果たすのか、また、サイバーセキュリティの分野で最初に考え出されたような従来のレッドチームの実践とどのように関係するのか、重要な疑問が残る。 本研究では,AI産業における赤チーム活動の最近の事例を特定し,関連する研究文献を広範囲に調査し,AI赤チーム実践のスコープ,構造,基準を特徴づける。 分析の結果,活動目的(曖昧な場合が多い),評価対象の成果物(アクター,リソース,メソッド),通知する意思決定(報告,開示,緩和など)など,AIの事前の手法と実践が複数の軸に沿って分散していることが判明した。 当社の調査結果を踏まえると、赤いチーム化はGenAIの害虫対策を特徴付ける上で価値のある大胆なアイデアであり、業界は、赤いチーム化やその他の戦略を、AIの安全を守るために効果的に適用し、赤いチーム化(パブリックな定義に基づく)へのジェスチャーを、セキュリティシアターのあらゆるリスク検証のためのパナセアとして適用することができる、と論じている。 生成AIの評価のより堅牢なツールボックスに向けて、私たちは、私たちの推奨事項を、将来のAI赤チームプラクティスをガイドし、足場にすることを目的とした質問銀行に合成します。

In response to rising concerns surrounding the safety, security, and trustworthiness of Generative AI (GenAI) models, practitioners and regulators alike have pointed to AI red-teaming as a key component of their strategies for identifying and mitigating these risks. However, despite AI red-teaming's central role in policy discussions and corporate messaging, significant questions remain about what precisely it means, what role it can play in regulation, and how it relates to conventional red-teaming practices as originally conceived in the field of cybersecurity. In this work, we identify recent cases of red-teaming activities in the AI industry and conduct an extensive survey of relevant research literature to characterize the scope, structure, and criteria for AI red-teaming practices. Our analysis reveals that prior methods and practices of AI red-teaming diverge along several axes, including the purpose of the activity (which is often vague), the artifact under evaluation, the setting in which the activity is conducted (e.g., actors, resources, and methods), and the resulting decisions it informs (e.g., reporting, disclosure, and mitigation). In light of our findings, we argue that while red-teaming may be a valuable big-tent idea for characterizing GenAI harm mitigations, and that industry may effectively apply red-teaming and other strategies behind closed doors to safeguard AI, gestures towards red-teaming (based on public definitions) as a panacea for every possible risk verge on security theater. To move toward a more robust toolbox of evaluations for generative AI, we synthesize our recommendations into a question bank meant to guide and scaffold future AI red-teaming practices.
翻訳日:2024-05-17 18:55:01 公開日:2024-05-15
# 審美制約付き拡散モデルによる配向レイアウト生成に向けて

Towards Aligned Layout Generation via Diffusion Model with Aesthetic Constraints ( http://arxiv.org/abs/2402.04754v2 )

ライセンス: Link先を確認
Jian Chen, Ruiyi Zhang, Yufan Zhou, Rajiv Jain, Zhiqiang Xu, Ryan Rossi, Changyou Chen, (参考訳) 制御可能なレイアウト生成(英: Controllable layout generation)とは、図形設計(例えばドキュメントやウェブデザイン)における要素の可視的な配置を、設計意図を表す制約で作成する過程を指す。 最近の拡散ベースモデルは最先端のFIDスコアを達成しているが、以前のトランスフォーマーベースモデルよりも顕著な誤りを示す傾向にある。 本研究では,特定の属性で要素をアレンジしたり,粗いレイアウト設計を書き換えたり完了したりするような,幅広いレイアウト生成タスクを処理する統一モデルである$\textbf{LA}$yout $\textbf{C}$onstraint diffusion mod$\textbf{E}$l (LACE)を提案する。 このモデルは連続拡散モデルに基づいている。 離散拡散モデルを用いた既存の手法と比較して、連続的な状態空間設計は、トレーニングにおいて微分可能な審美的制約関数を組み込むことができる。 条件生成のために,マスク入力による条件の導入を行う。 大規模な実験結果から,LACEは高品質なレイアウトを実現し,既存の最先端のベースラインを上回っていることがわかった。

Controllable layout generation refers to the process of creating a plausible visual arrangement of elements within a graphic design (e.g., document and web designs) with constraints representing design intentions. Although recent diffusion-based models have achieved state-of-the-art FID scores, they tend to exhibit more pronounced misalignment compared to earlier transformer-based models. In this work, we propose the $\textbf{LA}$yout $\textbf{C}$onstraint diffusion mod$\textbf{E}$l (LACE), a unified model to handle a broad range of layout generation tasks, such as arranging elements with specified attributes and refining or completing a coarse layout design. The model is based on continuous diffusion models. Compared with existing methods that use discrete diffusion models, continuous state-space design can enable the incorporation of differentiable aesthetic constraint functions in training. For conditional generation, we introduce conditions via masked input. Extensive experiment results show that LACE produces high-quality layouts and outperforms existing state-of-the-art baselines.
翻訳日:2024-05-17 18:55:01 公開日:2024-05-15
# 確率的部分モニタリングのためのランダムな信頼境界

Randomized Confidence Bounds for Stochastic Partial Monitoring ( http://arxiv.org/abs/2402.05002v2 )

ライセンス: Link先を確認
Maxime Heuillet, Ola Ahmad, Audrey Durand, (参考訳) 部分的監視(PM)フレームワークは、不完全なフィードバックを伴う逐次学習問題の理論的定式化を提供する。 各ラウンドでは、学習エージェントがアクションを行い、環境が同時に結果を選択する。 そして、エージェントは、(観測されていない)結果について部分的にしか情報がないフィードバック信号を観察する。 エージェントは受信したフィードバック信号を利用して(観測されていない)累積損失を最小限に抑えるアクションを選択する。 文脈的PMでは、結果は各ラウンドでアクションを選択する前にエージェントによって観測可能な何らかの側情報に依存する。 本稿では,確率的結果を伴う文脈的および非文脈的PM設定について考察する。 決定論的信頼境界のランダム化に基づく新しいPM戦略のクラスを導入する。 また、既存の確率的戦略が適用できない設定まで、後悔の保証を延長します。 実験の結果,提案するRandCBPとRandCBPsidestarの戦略は,複数のPMゲームにおいて,最先端のベースラインに対して良好な性能を示した。 PMフレームワークの採用を提唱するために,デプロイされた分類システムのエラー率を監視する現実的な問題に対するユースケースを設計する。

The partial monitoring (PM) framework provides a theoretical formulation of sequential learning problems with incomplete feedback. On each round, a learning agent plays an action while the environment simultaneously chooses an outcome. The agent then observes a feedback signal that is only partially informative about the (unobserved) outcome. The agent leverages the received feedback signals to select actions that minimize the (unobserved) cumulative loss. In contextual PM, the outcomes depend on some side information that is observable by the agent before selecting the action on each round. In this paper, we consider the contextual and non-contextual PM settings with stochastic outcomes. We introduce a new class of PM strategies based on the randomization of deterministic confidence bounds. We also extend regret guarantees to settings where existing stochastic strategies are not applicable. Our experiments show that the proposed RandCBP and RandCBPsidestar strategies have favorable performance against state-of-the-art baselines in multiple PM games. To advocate for the adoption of the PM framework, we design a use case on the real-world problem of monitoring the error rate of any deployed classification system.
翻訳日:2024-05-17 18:55:01 公開日:2024-05-15
# WMDPベンチマーク:アンラーニングによる悪意的使用の測定と削減

The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning ( http://arxiv.org/abs/2403.03218v7 )

ライセンス: Link先を確認
Nathaniel Li, Alexander Pan, Anjali Gopal, Summer Yue, Daniel Berrios, Alice Gatti, Justin D. Li, Ann-Kathrin Dombrowski, Shashwat Goel, Long Phan, Gabriel Mukobi, Nathan Helm-Burger, Rassin Lababidi, Lennart Justen, Andrew B. Liu, Michael Chen, Isabelle Barrass, Oliver Zhang, Xiaoyuan Zhu, Rishub Tamirisa, Bhrugu Bharathi, Adam Khoja, Zhenqi Zhao, Ariel Herbert-Voss, Cort B. Breuer, Samuel Marks, Oam Patel, Andy Zou, Mantas Mazeika, Zifan Wang, Palash Oswal, Weiran Lin, Adam A. Hunt, Justin Tienken-Harder, Kevin Y. Shih, Kemper Talley, John Guan, Russell Kaplan, Ian Steneker, David Campbell, Brad Jokubaitis, Alex Levinson, Jean Wang, William Qian, Kallol Krishna Karmakar, Steven Basart, Stephen Fitz, Mindy Levine, Ponnurangam Kumaraguru, Uday Tupakula, Vijay Varadharajan, Ruoyu Wang, Yan Shoshitaishvili, Jimmy Ba, Kevin M. Esvelt, Alexandr Wang, Dan Hendrycks, (参考訳) ホワイトハウス人工知能に関する大統領令は、生物、サイバー、化学兵器の開発において悪意あるアクターに力を与える大きな言語モデル(LLM)のリスクを強調している。 悪意のある使用のリスクを測定するために、政府機関と主要なAIラボは、LLMにおける有害な能力の評価を開発している。 しかし、現在の評価は非公開であり、リスク軽減のさらなる研究を妨げている。 さらに、悪意のある使用のための、非常に特殊な経路にのみ焦点をあてている。 これらのギャップを埋めるために、私たちは、バイオセキュリティ、サイバーセキュリティ、化学セキュリティにおける有害な知識のプロキシ測定として機能する、3,668の多重選択質問のデータセットであるWMDP(Weapons of Mass Destruction Proxy)ベンチマークを公開しました。 WMDPは学者と技術コンサルタントのコンソーシアムによって開発され、公開前に機密情報を除去するために厳格にフィルタリングされた。 WMDPは、まず、LLMにおける有害な知識の評価として、そして次に、そのような有害な知識を取り除くための未学習手法のベンチマークとして、2つの役割を果たす。 未学習の進展を導くために,モデル表現の制御に基づく最先端の未学習手法であるRMUを開発した。 RMUは、生物学や計算機科学などの分野における一般的な能力を保ちながら、WMDPのモデル性能を低下させ、LLMから悪意のある使用を減らすための具体的な道である可能性を示唆している。 私たちはベンチマークとコードをhttps://wmdp.aiで公開しています。

The White House Executive Order on Artificial Intelligence highlights the risks of large language models (LLMs) empowering malicious actors in developing biological, cyber, and chemical weapons. To measure these risks of malicious use, government institutions and major AI labs are developing evaluations for hazardous capabilities in LLMs. However, current evaluations are private, preventing further research into mitigating risk. Furthermore, they focus on only a few, highly specific pathways for malicious use. To fill these gaps, we publicly release the Weapons of Mass Destruction Proxy (WMDP) benchmark, a dataset of 3,668 multiple-choice questions that serve as a proxy measurement of hazardous knowledge in biosecurity, cybersecurity, and chemical security. WMDP was developed by a consortium of academics and technical consultants, and was stringently filtered to eliminate sensitive information prior to public release. WMDP serves two roles: first, as an evaluation for hazardous knowledge in LLMs, and second, as a benchmark for unlearning methods to remove such hazardous knowledge. To guide progress on unlearning, we develop RMU, a state-of-the-art unlearning method based on controlling model representations. RMU reduces model performance on WMDP while maintaining general capabilities in areas such as biology and computer science, suggesting that unlearning may be a concrete path towards reducing malicious use from LLMs. We release our benchmark and code publicly at https://wmdp.ai
翻訳日:2024-05-17 18:45:17 公開日:2024-05-15
# 許容可能な知識プール

Permissible Knowledge Pooling ( http://arxiv.org/abs/2404.03418v3 )

ライセンス: Link先を確認
Huimin Dong, (参考訳) 情報プーリングは、様々な情報共有パターンを特徴とする、分散システムの様々な論理的フレームワークで広く形式化されてきた。 これらのアプローチは一般的に、エージェントが知っているか知らないかに関わらず、すべての可能な情報を集約する、交差点の観点を採用する。 対照的に、この著作は独特なスタンスを採用し、知識の共有とは、何が不確実であるかではなく、既知のものを配布することである、と強調している。 本稿では,知識プーリングの新しい言語から,知識共有のための動的メカニズムまで,知識プーリングと共有のための新しいモーダルロジックを提案する。 また、それらの公理化の概要を述べ、許容可能な知識プールのための潜在的なフレームワークについて論じている。

Information pooling has been extensively formalised across various logical frameworks in distributed systems, characterized by diverse information-sharing patterns. These approaches generally adopt an intersection perspective, aggregating all possible information, regardless of whether it is known or unknown to the agents. In contrast, this work adopts a unique stance, emphasising that sharing knowledge means distributing what is known, rather than what remains uncertain. This paper introduces new modal logics for knowledge pooling and sharing, ranging from a novel language of knowledge pooling to a dynamic mechanism for knowledge sharing. It also outlines their axiomatizations and discusses a potential framework for permissible knowledge pooling.
翻訳日:2024-05-17 18:35:17 公開日:2024-05-15
# 抽象学習者による意味言語学習の数学的理論

A Mathematical Theory for Learning Semantic Languages by Abstract Learners ( http://arxiv.org/abs/2404.07009v3 )

ライセンス: Link先を確認
Kuo-Yu Liao, Cheng-Shang Chang, Y. -W. Peter Hong, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、システムパラメータの数とトレーニングデータのサイズが一定の閾値を超えると、能力(学習スキル)が出現することを示した。 このような現象の背後にある正確なメカニズムは完全には理解されておらず、活発な研究のトピックとして残されている。 セマンティック言語をモデル化するためにArora と Goyal が提案したスキルテキスト二部グラフモデルに触発され,学習(あるいは訓練)プロセスを考慮した学習スキルの出現を説明する数学的理論を開発した。 提案手法は,低密度パリティチェック (LDPC) 符号と不規則反復Slotted ALOHA (IRSA) 符号における反復復号プロセスとして,スキルテキスト二部グラフのスキル学習プロセスをモデル化する。 密度進化分析を用いて、トレーニングテキスト数とスキル数との比率が一定の閾値を超えた場合の学習スキルの出現を実証する。 我々の分析は、この比に対して誤差をテストするためのスケーリング法則ももたらします。 トレーニングが完了すると、学習スキルのアソシエーションを取得してスキルアソシエーショングラフを形成することもできる。 本研究では, サイトパーコレーション解析を用いて, スキルアソシエーショングラフにおける巨大成分の存在条件を導出する。 私たちの分析は、基礎モデルに基づいて微調整されたモデルを構築するスキル階層の設定にまで拡張することができます。 それはまた、複数のスキルとテキストのクラスを持つ設定にも当てはまる。 重要な応用として,セマンティック・圧縮の手法を提案し,セマンティック・コミュニケーションへの接続について議論する。

Recent advances in Large Language Models (LLMs) have demonstrated the emergence of capabilities (learned skills) when the number of system parameters and the size of training data surpass certain thresholds. The exact mechanisms behind such phenomena are not fully understood and remain a topic of active research. Inspired by the skill-text bipartite graph model proposed by Arora and Goyal for modeling semantic languages, we develop a mathematical theory to explain the emergence of learned skills, taking the learning (or training) process into account. Our approach models the learning process for skills in the skill-text bipartite graph as an iterative decoding process in Low-Density Parity Check (LDPC) codes and Irregular Repetition Slotted ALOHA (IRSA). Using density evolution analysis, we demonstrate the emergence of learned skills when the ratio of the number of training texts to the number of skills exceeds a certain threshold. Our analysis also yields a scaling law for testing errors relative to this ratio. Upon completion of the training, the association of learned skills can also be acquired to form a skill association graph. We use site percolation analysis to derive the conditions for the existence of a giant component in the skill association graph. Our analysis can also be extended to the setting with a hierarchy of skills, where a fine-tuned model is built upon a foundation model. It is also applicable to the setting with multiple classes of skills and texts. As an important application, we propose a method for semantic compression and discuss its connections to semantic communication.
翻訳日:2024-05-17 18:35:17 公開日:2024-05-15
# NeuroHash:空間認識による画像ハッシュと検索のための超次元神経シンボリックフレームワーク

NeuroHash: A Hyperdimensional Neuro-Symbolic Framework for Spatially-Aware Image Hashing and Retrieval ( http://arxiv.org/abs/2404.11025v2 )

ライセンス: Link先を確認
Sanggeon Yun, Ryozo Masukawa, SungHeon Jeong, Mohsen Imani, (参考訳) 急成長する画像データに直面して、類似した画像を効率的に検索することは、非常に困難な課題である。 過去の研究は、画像から類似性のコンパクトな指標を抽出するハッシュ関数の精製に重点を置いてきた。 最初の試みでは浅いモデルを使用して、CNN(Convolutional Neural Networks)から高度なモデルまで、メカニズムベースのアーキテクチャに進化した。 空間情報埋め込みのための勾配モデルにおける制約を認識し,超次元計算(HDC)を利用した革新的画像ハッシュ法NeuroHashを提案する。 HDCは空間情報を高次元ベクトルに符号化し、画像表現を再構成する。 提案手法は,事前学習した大規模視覚モデルとHDC操作を組み合わせることで,空間的に符号化された特徴表現を実現する。 局所性に敏感なハッシュ(LSH)によるハッシュは、高速かつ効率的な画像検索を可能にする。 特に,我々のフレームワークは条件付き画像検索のための動的ハッシュ操作を可能にする。 本研究では,空間認識型条件検索が可能な変換型画像ハッシュフレームワークを提案する。 DNNベースのニューラルモデルとHDCベースのシンボリックモデルをシームレスに組み合わせることで、従来のトレーニングから切り離され、フレキシブルで条件付きの画像検索を提供する。 性能評価は、画像ハッシュ手法のパラダイムシフトを示し、精度の向上を示す。

In the face of burgeoning image data, efficiently retrieving similar images poses a formidable challenge. Past research has focused on refining hash functions to distill images into compact indicators of resemblance. Initial attempts used shallow models, evolving to attention mechanism-based architectures from Convolutional Neural Networks (CNNs) to advanced models. Recognizing limitations in gradient-based models for spatial information embedding, we propose an innovative image hashing method, NeuroHash leveraging Hyperdimensional Computing (HDC). HDC symbolically encodes spatial information into high-dimensional vectors, reshaping image representation. Our approach combines pre-trained large vision models with HDC operations, enabling spatially encoded feature representations. Hashing with locality-sensitive hashing (LSH) ensures swift and efficient image retrieval. Notably, our framework allows dynamic hash manipulation for conditional image retrieval. Our work introduces a transformative image hashing framework enabling spatial-aware conditional retrieval. By seamlessly combining DNN-based neural and HDC-based symbolic models, our methodology breaks from traditional training, offering flexible and conditional image retrieval. Performance evaluations signify a paradigm shift in image-hashing methodologies, demonstrating enhanced retrieval accuracy.
翻訳日:2024-05-17 18:25:33 公開日:2024-05-15
# 量子ガンのガーディアン

Guardians of the Quantum GAN ( http://arxiv.org/abs/2404.16156v3 )

ライセンス: Link先を確認
Archisman Ghosh, Debarshi Kundu, Avimita Chatterjee, Swaroop Ghosh, (参考訳) Quantum Generative Adversarial Networks (qGANs)は、画像生成量子機械学習モデルの最前線にある。 量子機械学習モデルをトレーニングし、推論するためのNISQ(Noisy Intermediate-Scale Quantum)デバイスへの需要の増加に対応するため、量子ハードウェアをサービスとして提供するサードパーティベンダの数は増加すると予想されている。 この拡張は、信頼できないベンダーが量子機械学習モデルからプロプライエタリな情報を盗むリスクをもたらす。 そこで本研究では,qGANsのトレーニングフェーズに埋め込まれたノイズシグネチャを非侵襲的な透かしとして活用する新しい透かし手法を提案する。 透かしは、qGANが生成した画像の中で識別可能であり、トレーニング中に使用する特定の量子ハードウェアをトレースすることで、所有権の強い証明を提供する。 セキュリティの堅牢性をさらに高めるため、複数の量子ハードウェアのシーケンス上でqGANのトレーニングを提案し、敵が複製し難い全てのトレーニングハードウェアのノイズシグネチャを含む複雑な透かしを埋め込む。 また、この透かしを頑健に抽出する機械学習分類器を開発し、モデルの真正性を検証したqGANによって生成された画像からトレーニングハードウェア(またはハードウェアスイート)を識別する。 ウォーターマークの署名は、トレーニングに使用されたハードウェアとは異なるハードウェアの推論に対して堅牢である点に注意が必要だ。 個別の量子ハードウェア上でのQGANのトレーニングには,それぞれ100%と90%の透かし抽出精度が得られた(異なるハードウェア上での参照)。 トレーニング中のパラメータの進化は量子ノイズによって強く変調されるため、提案された透かしは他の量子機械学習モデルにも拡張することができる。

Quantum Generative Adversarial Networks (qGANs) are at the forefront of image-generating quantum machine learning models. To accommodate the growing demand for Noisy Intermediate-Scale Quantum (NISQ) devices to train and infer quantum machine learning models, the number of third-party vendors offering quantum hardware as a service is expected to rise. This expansion introduces the risk of untrusted vendors potentially stealing proprietary information from the quantum machine learning models. To address this concern we propose a novel watermarking technique that exploits the noise signature embedded during the training phase of qGANs as a non-invasive watermark. The watermark is identifiable in the images generated by the qGAN allowing us to trace the specific quantum hardware used during training hence providing strong proof of ownership. To further enhance the security robustness, we propose the training of qGANs on a sequence of multiple quantum hardware, embedding a complex watermark comprising the noise signatures of all the training hardware that is difficult for adversaries to replicate. We also develop a machine learning classifier to extract this watermark robustly, thereby identifying the training hardware (or the suite of hardware) from the images generated by the qGAN validating the authenticity of the model. We note that the watermark signature is robust against inferencing on hardware different than the hardware that was used for training. We obtain watermark extraction accuracy of 100% and ~90% for training the qGAN on individual and multiple quantum hardware setups (and inferencing on different hardware), respectively. Since parameter evolution during training is strongly modulated by quantum noise, the proposed watermark can be extended to other quantum machine learning models as well.
翻訳日:2024-05-17 18:25:33 公開日:2024-05-15
# サイクル計測と簡易量子状態トモグラフィー

Cyclic measurements and simplified quantum state tomography ( http://arxiv.org/abs/2404.18847v2 )

ライセンス: Link先を確認
Victor Gonzalez Avella, Jakub Czartowski, Dardo Goyeneche, Karol Życzkowski, (参考訳) 量子状態のトモグラフィー再構成は、量子システムをベンチマークし、量子コンピュータから情報を取得する上で、基本的な役割を果たす。 情報的に完備な量子測定セットのうち、タイトなものは線形再構成公式を提供し、統計的誤差の伝播を最小化する。 しかし、実験室で厳密な測定を行うことは、一連の実験的な準備を含む大量の必要な測定予測のために困難である。 本研究では,測定段階における単一ユニタリ型量子デバイスの繰り返し適用のみを考慮しつつ,完全な量子状態トモグラフィを実現できるサイクリック・タイトな測定の概念を導入する。 このタイプの測定は、物理系の量子状態を取得するのに必要な実験的なセットアップの複雑さを著しく単純化する。 さらに, 任意の有限次元において, 十分に近似されたサイクリック・タイトな測定を行うことが可能なセットアップ準備手順を設計する。

Tomographic reconstruction of quantum states plays a fundamental role in benchmarking quantum systems and retrieving information from quantum computers. Among the informationally complete sets of quantum measurements the tight ones provide a linear reconstruction formula and minimize the propagation of statistical errors. However, implementing tight measurements in the lab is challenging due to the high number of required measurement projections, involving a series of experimental setup preparations. In this work, we introduce the notion of cyclic tight measurements, that allow us to perform full quantum state tomography while considering only repeated application of a single unitary-based quantum device during the measurement stage process. This type of measurements significantly simplifies the complexity of the experimental setup required to retrieve the quantum state of a physical system. Additionally, we design feasible setup preparation procedure that produce well-approximated cyclic tight measurements, in every finite dimension.
翻訳日:2024-05-17 18:25:33 公開日:2024-05-15
# 人間中心のフェデレーションラーニングにおけるデモグラフィックのないフェアネス

Fairness Without Demographics in Human-Centered Federated Learning ( http://arxiv.org/abs/2404.19725v3 )

ライセンス: Link先を確認
Shaily Roy, Harshit Sharma, Asif Salekin, (参考訳) フェデレートラーニング(FL)は、データのプライバシを保持しながら協調的なモデルトレーニングを可能にし、分散化された人間中心のAIアプリケーションに適している。 しかし、これらのシステムにおける公正性を確保するための重要な研究のギャップは依然として残っている。 FLの現在の公正戦略は、FLのプライバシー原則と衝突するバイアス発生/感受性属性の知識を必要とする。 さらに、人間中心のデータセットでは、センシティブな属性が潜んでいる可能性がある。 これらの課題に対処するために、機械学習において「デモグラフィックなしのフェアネス」に着想を得た、新しいバイアス緩和手法を提案する。 提案手法は, トレーニング中のヘッセン行列の最大固有値を最小限に抑え, FL参加者間の均等な損失景観を確保することにより, 感度特性の知識を必要とせずに公平性を実現する。 特に,新しいFLアグリゲーション方式を導入し,エラー率と損失ランドスケープの曲率特性に基づいて,FLシステム全体の公平性を育成する。 この研究は、人間中心FLにおける「Fairness without Demographics」の達成に向けた最初のアプローチである。 本手法は, 実世界の様々なアプリケーション, FLセットアップ, 単一および複数のバイアス誘導因子を含むシナリオにおいて, 公平性と有効性のバランスをとる上での有効性を示すものである。

Federated learning (FL) enables collaborative model training while preserving data privacy, making it suitable for decentralized human-centered AI applications. However, a significant research gap remains in ensuring fairness in these systems. Current fairness strategies in FL require knowledge of bias-creating/sensitive attributes, clashing with FL's privacy principles. Moreover, in human-centered datasets, sensitive attributes may remain latent. To tackle these challenges, we present a novel bias mitigation approach inspired by "Fairness without Demographics" in machine learning. The presented approach achieves fairness without needing knowledge of sensitive attributes by minimizing the top eigenvalue of the Hessian matrix during training, ensuring equitable loss landscapes across FL participants. Notably, we introduce a novel FL aggregation scheme that promotes participating models based on error rates and loss landscape curvature attributes, fostering fairness across the FL system. This work represents the first approach to attaining "Fairness without Demographics" in human-centered FL. Through comprehensive evaluation, our approach demonstrates effectiveness in balancing fairness and efficacy across various real-world applications, FL setups, and scenarios involving single and multiple bias-inducing factors, representing a significant advancement in human-centered FL.
翻訳日:2024-05-17 18:25:33 公開日:2024-05-15
# Sachdev-Ye-Kitaev相互作用のための電池の量子優位性

Quantum advantage in batteries for Sachdev-Ye-Kitaev interactions ( http://arxiv.org/abs/2405.03306v4 )

ライセンス: Link先を確認
Gianluca Francica, (参考訳) セルが相互作用している場合、量子電池のユニタリ充電において量子アドバンテージが達成される。 ここでは、この量子優位性がスパース Sachdev-Ye-Kitaev (SYK) 相互作用に対してどのように達成されるのかを解析計算により明らかにする。 簡単なモデル化を行うことで、$q$-point rescaled sparse SYK 相互作用に対して、量子優位性は $\Gamma\sim N^{\frac{\alpha-q}{2}+\frac{1}{2}}$ となる。

A quantum advantage can be achieved in the unitary charging of quantum batteries if their cells are interacting. Here, we try to clarify with some analytical calculations whether and how this quantum advantage is achieved for sparse Sachdev-Ye-Kitaev (SYK) interactions. By performing a simple modelization, we find that for $q$-point rescaled sparse SYK interactions the quantum advantage goes as $\Gamma\sim N^{\frac{\alpha-q}{2}+\frac{1}{2}}$, where $\alpha$ is related to the connectivity and $N$ is the number of cells.
翻訳日:2024-05-17 18:15:48 公開日:2024-05-15
# TALC:マルチシーンテキスト・ビデオ・ジェネレーションのためのタイムアライズド・キャプション

TALC: Time-Aligned Captions for Multi-Scene Text-to-Video Generation ( http://arxiv.org/abs/2405.04682v2 )

ライセンス: Link先を確認
Hritik Bansal, Yonatan Bitton, Michal Yarom, Idan Szpektor, Aditya Grover, Kai-Wei Chang, (参考訳) 拡散に基づく生成モデリングの最近の進歩は、テキストプロンプトに条件付けされた高品質なビデオを生成することができるテキスト・ツー・ビデオ(T2V)モデルの開発につながっている。 これらのT2Vモデルのほとんどは、特定のアクションを行うエンティティ(例:「木に登る赤いパンダ」)を描写したシングルシーンのビデオクリップを生成することが多い。 しかし、実世界では至るところで見られるため、多段映像を制作する傾向にある(例:「木に登る赤いパンダ」、続いて「木の頂上で赤いパンダが眠る」)。 事前訓練されたT2Vモデルからマルチシーンビデオを生成するために,時間調整キャプション(TALC)フレームワークを導入する。 具体的には、T2Vアーキテクチャのテキストコンディショニング機構を強化し、映像シーンとシーン記述の時間的アライメントを認識する。 例えば、生成した映像の前段と後段の視覚的特徴を、第1のシーン記述(例:「木に登る赤いパンダ」)と第2のシーン記述(例:「木の上に赤いパンダが眠る」)の表現で表現する。 その結果、T2Vモデルはマルチシーンのテキスト記述に忠実で、視覚的に一貫した(エンティティや背景など)マルチシーンビデオを生成することができることがわかった。 さらに, TALCフレームワークを用いて, 事前学習したT2Vモデルをマルチシーンビデオテキストデータで微調整する。 talC-finetuned model は,人間の評価を用いて視覚的一貫性とテキストの定着度を平均するスコアにおいて,ベースライン法を15.5ポイント上回ることを示す。 プロジェクトのWebサイトはhttps://talc-mst2v.github.io/。

Recent advances in diffusion-based generative modeling have led to the development of text-to-video (T2V) models that can generate high-quality videos conditioned on a text prompt. Most of these T2V models often produce single-scene video clips that depict an entity performing a particular action (e.g., `a red panda climbing a tree'). However, it is pertinent to generate multi-scene videos since they are ubiquitous in the real-world (e.g., `a red panda climbing a tree' followed by `the red panda sleeps on the top of the tree'). To generate multi-scene videos from the pretrained T2V model, we introduce Time-Aligned Captions (TALC) framework. Specifically, we enhance the text-conditioning mechanism in the T2V architecture to recognize the temporal alignment between the video scenes and scene descriptions. For instance, we condition the visual features of the earlier and later scenes of the generated video with the representations of the first scene description (e.g., `a red panda climbing a tree') and second scene description (e.g., `the red panda sleeps on the top of the tree'), respectively. As a result, we show that the T2V model can generate multi-scene videos that adhere to the multi-scene text descriptions and be visually consistent (e.g., entity and background). Further, we finetune the pretrained T2V model with multi-scene video-text data using the TALC framework. We show that the TALC-finetuned model outperforms the baseline methods by 15.5 points in the overall score, which averages visual consistency and text adherence using human evaluation. The project website is https://talc-mst2v.github.io/.
翻訳日:2024-05-17 18:15:48 公開日:2024-05-15
# PPFlow:ねじり流マッチングによるターゲット認識ペプチド設計

PPFlow: Target-aware Peptide Design with Torsional Flow Matching ( http://arxiv.org/abs/2405.06642v2 )

ライセンス: Link先を確認
Haitao Lin, Odin Zhang, Huifeng Zhao, Dejun Jiang, Lirong Wu, Zicheng Liu, Yufei Huang, Stan Z. Li, (参考訳) 治療ペプチドは、ここ数十年で大きな医薬品的価値と可能性があることが証明されている。 しかし、AIによるペプチド薬の発見の方法は、完全には研究されていない。 このギャップを埋めるために, トーラス多様体上の条件流マッチングに基づくターゲット認識型ペプチド設計法である「textsc{PPFlow}」を提案し, ペプチド構造設計のためのねじれ角の内部ジオメトリをモデル化した。 さらに, PPBench2024というタンパク質-ペプチド結合データセットを構築し, 構造に基づくペプチド医薬品設計の課題において, 大量データの空白を充足し, 深層学習法の訓練を可能にする。 広汎な実験によりPPFlowは、ペプチド薬の生成および最適化のタスクにおいて、ベースラインモデルと比較して最先端のパフォーマンスに達し、ドッキングやサイドチェーンパッキングといった他のタスクに一般化できることが示された。

Therapeutic peptides have proven to have great pharmaceutical value and potential in recent decades. However, methods of AI-assisted peptide drug discovery are not fully explored. To fill the gap, we propose a target-aware peptide design method called \textsc{PPFlow}, based on conditional flow matching on torus manifolds, to model the internal geometries of torsion angles for the peptide structure design. Besides, we establish a protein-peptide binding dataset named PPBench2024 to fill the void of massive data for the task of structure-based peptide drug design and to allow the training of deep learning methods. Extensive experiments show that PPFlow reaches state-of-the-art performance in tasks of peptide drug generation and optimization in comparison with baseline models, and can be generalized to other tasks including docking and side-chain packing.
翻訳日:2024-05-17 18:06:04 公開日:2024-05-15
# AD-Aligning:ディープラーニングにおける認知領域適応のための人間ライクな一般化のエミュレート

AD-Aligning: Emulating Human-like Generalization for Cognitive Domain Adaptation in Deep Learning ( http://arxiv.org/abs/2405.09582v1 )

ライセンス: Link先を確認
Zhuoying Li, Bohua Wan, Cong Mu, Ruzhang Zhao, Shushan Qiu, Chao Yan, (参考訳) ドメイン適応は、プレゼンテーションのバリエーションや認知的ニュアンスによって複雑化するタスクである、さまざまなドメインにわたるディープラーニングモデルを一般化する上で、重要な要素である。 本稿では,Ad-Aligningについて紹介する。AD-Aligningは,敵対的トレーニングとソース・ターゲット領域アライメントを組み合わせた新しい手法で,一般化能力を向上する。 コーラル損失と標準損失で事前訓練することにより、AD-Aligningは対象のドメイン統計を事前訓練されたエンコーダの統計と整合させ、ドメインシフトを調節しながら堅牢性を維持する。 ノイズによるシフトや認知領域適応タスクなど,さまざまなデータセットやドメインシフトシナリオに関する広範な実験を通じて,AD-AligningのパフォーマンスをDeep CoralやADDAといった既存手法と比較して実証した。 われわれはAD-Aligningが人間の知覚に固有のニュアンス認知過程をエミュレートする能力を強調した。

Domain adaptation is pivotal for enabling deep learning models to generalize across diverse domains, a task complicated by variations in presentation and cognitive nuances. In this paper, we introduce AD-Aligning, a novel approach that combines adversarial training with source-target domain alignment to enhance generalization capabilities. By pretraining with Coral loss and standard loss, AD-Aligning aligns target domain statistics with those of the pretrained encoder, preserving robustness while accommodating domain shifts. Through extensive experiments on diverse datasets and domain shift scenarios, including noise-induced shifts and cognitive domain adaptation tasks, we demonstrate AD-Aligning's superior performance compared to existing methods such as Deep Coral and ADDA. Our findings highlight AD-Aligning's ability to emulate the nuanced cognitive processes inherent in human perception, making it a promising solution for real-world applications requiring adaptable and robust domain adaptation strategies.
翻訳日:2024-05-17 18:06:04 公開日:2024-05-15
# 線形ガウス力学系による残響を考慮したレスレスバンド問題

Restless Bandit Problem with Rewards Generated by a Linear Gaussian Dynamical System ( http://arxiv.org/abs/2405.09584v1 )

ライセンス: Link先を確認
Jonathan Gornet, Bruno Sinopoli, (参考訳) 確率的多重武装バンディット問題は不確実性の下での意思決定を研究する。 問題では、学習者は各ラウンドでのアクションを選択し、ラウンドが相互作用のインスタンスである環境と対話する。 反応として,確率過程からサンプル化した報酬を学習者に提示する。 学習者の目標は累積報酬を最大化することである。 確率的マルチアームバンディット問題の特定のバリエーションは、マルコフ連鎖から各アクションに対する報酬をサンプリングするレスレスバンディットである。 離散状態空間を持つレスレスバンディットは、よく研究されている問題であるが、我々の知る限り、ハイパーパラメータ最適化のような多くの応用を持つ連続状態空間バージョンには、多くの結果が存在しない。 本研究では,リニアガウス力学系によって生成される作用ベクトルと状態ベクトルの内積を報酬と仮定して,連続状態空間によるレスレス・バンディットに取り組む。 本研究では,各行動に対する報酬を予測するために,事前に観測した報酬を線形に組み合わせて各行動の次の報酬を予測する手法を提案する。 例えば、ラウンド$t-1$のアクション1でサンプルされた報酬は、ラウンド$t$のアクション2ドルの報酬を予測できる。 これは、報酬予測のために学習可能な行列表現を備えた修正カルマンフィルタを設計することで達成される。 線形ガウス力学系を用いて数値評価を行う。

The stochastic multi-armed bandit problem studies decision-making under uncertainty. In the problem, the learner interacts with an environment by choosing an action at each round, where a round is an instance of an interaction. In response, the environment reveals a reward, which is sampled from a stochastic process, to the learner. The goal of the learner is to maximize cumulative reward. A specific variation of the stochastic multi-armed bandit problem is the restless bandit, where the reward for each action is sampled from a Markov chain. The restless bandit with a discrete state-space is a well-studied problem, but to the best of our knowledge, not many results exist for the continuous state-space version which has many applications such as hyperparameter optimization. In this work, we tackle the restless bandit with continuous state-space by assuming the rewards are the inner product of an action vector and a state vector generated by a linear Gaussian dynamical system. To predict the reward for each action, we propose a method that takes a linear combination of previously observed rewards for predicting each action's next reward. We show that, regardless of the sequence of previous actions chosen, the reward sampled for any previously chosen action can be used for predicting another action's future reward, i.e. the reward sampled for action 1 at round $t-1$ can be used for predicting the reward for action $2$ at round $t$. This is accomplished by designing a modified Kalman filter with a matrix representation that can be learned for reward prediction. Numerical evaluations are carried out on a set of linear Gaussian dynamical systems.
翻訳日:2024-05-17 18:06:04 公開日:2024-05-15
# 作物育種におけるゲノム選択におけるトランスフォーマー性能向上のための恥ずかしい簡単なアプローチ

An Embarrassingly Simple Approach to Enhance Transformer Performance in Genomic Selection for Crop Breeding ( http://arxiv.org/abs/2405.09585v1 )

ライセンス: Link先を確認
Renqi Chen, Wenwei Han, Haohao Zhang, Haoyang Su, Zhefan Wang, Xiaolei Liu, Hao Jiang, Wanli Ouyang, Nanqing Dong, (参考訳) 遺伝的選抜(GS)は、重要な作物育成戦略として、食糧生産の増強と世界の飢餓危機への対処に重要な役割を果たしている。 現在、GSの主要なアプローチは、予測に統計手法を採用することである。 しかし、統計手法には強い統計的前提と線形仮定の2つの主要な制限がある。 最近のトレンドは、ディープラーニングによってマーカー間の非線形関係を捉えることである。 しかし、作物のデータセットは通常、限られたサンプルを持つ長いシーケンスであるため、ディープラーニングモデル、特にトランスフォーマーの堅牢性は依然として課題である。 本研究では,興味ある課題に対する未探索の注意機構の可能性を解き放つために,シーケンス全体のエンドツーエンドトレーニングを可能にする,シンプルで効果的なトランスフォーマーベースのフレームワークを提案する。 水稲3kと小麦3kのデータセットを実験した結果,k-merのトークン化やランダムマスキングといった簡単な手法によって,TransformerはGSタスクのセミナルメソッドに対して,全体的な優れたパフォーマンスを達成できることが判明した。

Genomic selection (GS), as a critical crop breeding strategy, plays a key role in enhancing food production and addressing the global hunger crisis. The predominant approaches in GS currently revolve around employing statistical methods for prediction. However, statistical methods often come with two main limitations: strong statistical priors and linear assumptions. A recent trend is to capture the non-linear relationships between markers by deep learning. However, as crop datasets are commonly long sequences with limited samples, the robustness of deep learning models, especially Transformers, remains a challenge. In this work, to unleash the unexplored potential of attention mechanism for the task of interest, we propose a simple yet effective Transformer-based framework that enables end-to-end training of the whole sequence. Via experiments on rice3k and wheat3k datasets, we show that, with simple tricks such as k-mer tokenization and random masking, Transformer can achieve overall superior performance against seminal methods on GS tasks of interest.
翻訳日:2024-05-17 18:06:04 公開日:2024-05-15
# Factual Serialization Enhancement:胸部X線レポート生成のキーイノベーション

Factual Serialization Enhancement: A Key Innovation for Chest X-ray Report Generation ( http://arxiv.org/abs/2405.09586v1 )

ライセンス: Link先を確認
Kang Liu, Zhuoqi Ma, Mengmeng Liu, Zhicheng Jiao, Xiaolu Kang, Qiguang Miao, Kun Xie, (参考訳) 画像レポートの自動化は、放射線技師の作業負荷を軽減する貴重なツールである。 このプロセスにおける重要なステップは、医療画像と報告の相互調整、および同様の歴史的事例の検索である。 しかし、レポートにおけるプレゼンテーションスタイルの語彙(例えば、文構造や文法)の存在は、クロスモーダルアライメントの課題を提起している。 さらに, 類似した履歴事例の検索手法は, モーダルギャップの問題により, 最適性能を追求している。 そこで本研究では,胸部X線レポート生成のためのFSE(Factual Serialization Enhancement)という新しい手法を提案する。 FSEは、レポートの表現スタイルの語彙を排除し、我々のモデルに特定の入力を提供する構造エンティティアプローチから始まります。 次に、一様特徴は、画像間の相互アライメントと、レポートの事実シリアライズによって学習される。 そこで本研究では,画像の特徴を活かして,類似した事例をトレーニングセットから検索する手法を提案する。 これらの特徴は、対応する参照レポートと意味的類似性を暗黙的に保持し、整列した特徴間の類似性のみを計算することができる。 これにより、疾患ラベルを必要とせず、知識検索のモーダルギャップが効果的に解消される。 最後に、これらのケースから貴重な情報を検索し、画像の特徴を豊かにし、高品質なレポートを生成するためのテキストデコーダを支援するために、クロスモーダル融合ネットワークが使用される。 MIMIC-CXRおよびIU X線データセットの特定のシナリオおよび一般的なシナリオによる実験は、自然言語の生成と臨床評価の両方における最先端アプローチよりもFSEの方が優れていることを示す。

The automation of writing imaging reports is a valuable tool for alleviating the workload of radiologists. Crucial steps in this process involve the cross-modal alignment between medical images and reports, as well as the retrieval of similar historical cases. However, the presence of presentation-style vocabulary (e.g., sentence structure and grammar) in reports poses challenges for cross-modal alignment. Additionally, existing methods for similar historical cases retrieval face suboptimal performance owing to the modal gap issue. In response, this paper introduces a novel method, named Factual Serialization Enhancement (FSE), for chest X-ray report generation. FSE begins with the structural entities approach to eliminate presentation-style vocabulary in reports, providing specific input for our model. Then, uni-modal features are learned through cross-modal alignment between images and factual serialization in reports. Subsequently, we present a novel approach to retrieve similar historical cases from the training set, leveraging aligned image features. These features implicitly preserve semantic similarity with their corresponding reference reports, enabling us to calculate similarity solely among aligned features. This effectively eliminates the modal gap issue for knowledge retrieval without the requirement for disease labels. Finally, the cross-modal fusion network is employed to query valuable information from these cases, enriching image features and aiding the text decoder in generating high-quality reports. Experiments on MIMIC-CXR and IU X-ray datasets from both specific and general scenarios demonstrate the superiority of FSE over state-of-the-art approaches in both natural language generation and clinical efficacy metrics.
翻訳日:2024-05-17 18:06:04 公開日:2024-05-15
# 実SAR画像におけるロバスト自動目標検出のためのハイブリッドデータセットを用いたディープラーニングモデルの訓練

Training Deep Learning Models with Hybrid Datasets for Robust Automatic Target Detection on real SAR images ( http://arxiv.org/abs/2405.09588v1 )

ライセンス: Link先を確認
Benjamin Camus, Théo Voillemin, Corentin Le Barbu, Jean-Christophe Louvigné, Carole Belloni, Emmanuel Vallée, (参考訳) 本研究では,SAR画像におけるターゲット自動検出(ATD)アルゴリズムの開発を妨げるいくつかの課題に取り組むことを提案する。 代表訓練データの欠如に対処するため,MOCEMシミュレータを用いて合成目標シグネチャを用いてATDモデルを学習するディープラーニング手法を提案する。 合成ターゲットを実環境に組み込むためのインクルートパイプラインを定義する。 このハイブリッドデータセットを使用して、合成データと実データの間の領域ギャップを埋めるために特別に調整されたATDモデルをトレーニングする。 我々のアプローチは、大規模物理に基づくデータ拡張技術と2つのディープラーニング検出アーキテクチャのアドバイザリトレーニングに依存している。 本研究では,(1)実写SAR画像のパッチワーク,(2)実写における実写ターゲットのインクルート画像,(3)実写背景オブジェクトのインクルート画像など,複数のデータセット上でこれらのモデルを検証した。 その結果、生成したハイブリッドデータセットは、画像オーバーレイバイアスを免除していることがわかった。 我々のアプローチは、トレーニングに人工目標のみを使用しながら、実データ上で平均精度の90%に達することができる。

In this work, we propose to tackle several challenges hindering the development of Automatic Target Detection (ATD) algorithms for ground targets in SAR images. To address the lack of representative training data, we propose a Deep Learning approach to train ATD models with synthetic target signatures produced with the MOCEM simulator. We define an incrustation pipeline to incorporate synthetic targets into real backgrounds. Using this hybrid dataset, we train ATD models specifically tailored to bridge the domain gap between synthetic and real data. Our approach notably relies on massive physics-based data augmentation techniques and Adversarial Training of two deep-learning detection architectures. We then test these models on several datasets, including (1) patchworks of real SAR images, (2) images with the incrustation of real targets in real backgrounds, and (3) images with the incrustation of synthetic background objects in real backgrounds. Results show that the produced hybrid datasets are exempt from image overlay bias. Our approach can reach up to 90% of Average Precision on real data while exclusively using synthetic targets for training.
翻訳日:2024-05-17 18:06:04 公開日:2024-05-15
# テキスト、画像、ビデオ、およびオーディオ基礎モデルにおける幻覚の発見 : 総合的なレビュー

Unveiling Hallucination in Text, Image, Video, and Audio Foundation Models: A Comprehensive Review ( http://arxiv.org/abs/2405.09589v1 )

ライセンス: Link先を確認
Pranab Sahoo, Prabhash Meharia, Akash Ghosh, Sriparna Saha, Vinija Jain, Aman Chadha, (参考訳) 言語、画像、音声、ビデオ領域にまたがるファンデーションモデル(FM)の急速な進歩は、様々なタスクにおいて顕著な能力を示している。 しかし、FMの拡散は、特に高感度の応用において、幻覚出力を発生させる可能性という重要な課題を生んでいる。 幻覚コンテンツを生み出す基礎モデルの傾向は、特に信頼性と精度が最重要である領域において、現実のシナリオにおいて広く採用されていることの最大の障害である。 本研究は,FMにおける幻覚問題,テキスト,画像,ビデオ,オーディオモダリティの同定と緩和を目的とした最近の研究の概要を概説する。 近年の幻覚の検出・緩和の進歩によって,研究者,開発者,実践者に貴重な洞察を提供することが目的である。 本質的には、マルチモーダル基礎モデルの幻覚に対処するための定義、分類、検出戦略を含む明確な枠組みを確立し、この中心的な領域における将来の研究の基礎を築いた。

The rapid advancement of foundation models (FMs) across language, image, audio, and video domains has shown remarkable capabilities in diverse tasks. However, the proliferation of FMs brings forth a critical challenge: the potential to generate hallucinated outputs, particularly in high-stakes applications. The tendency of foundation models to produce hallucinated content arguably represents the biggest hindrance to their widespread adoption in real-world scenarios, especially in domains where reliability and accuracy are paramount. This survey paper presents a comprehensive overview of recent developments that aim to identify and mitigate the problem of hallucination in FMs, spanning text, image, video, and audio modalities. By synthesizing recent advancements in detecting and mitigating hallucination across various modalities, the paper aims to provide valuable insights for researchers, developers, and practitioners. Essentially, it establishes a clear framework encompassing definition, taxonomy, and detection strategies for addressing hallucination in multimodal foundation models, laying the foundation for future research in this pivotal area.
翻訳日:2024-05-17 16:09:33 公開日:2024-05-15
# データ拡張に関する包括的調査

A Comprehensive Survey on Data Augmentation ( http://arxiv.org/abs/2405.09591v1 )

ライセンス: Link先を確認
Zaitian Wang, Pengfei Wang, Kunpeng Liu, Pengyang Wang, Yanjie Fu, Chang-Tien Lu, Charu C. Aggarwal, Jian Pei, Yuanchun Zhou, (参考訳) データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する一連のテクニックである。 データ拡張技術を活用することで、AIモデルは、不足したデータセットや不均衡なデータセットを含むタスクにおける適用性を大幅に向上し、AIモデルの一般化能力を大幅に向上させることができる。 既存の文献調査では、特定のモダリティデータにのみ焦点をあて、これらの手法を、複数のモダリティにまたがるデータ拡張方法の一貫した要約を欠き、既存のデータサンプルがデータ拡張プロセスをどのように提供するかの理解を制限している、モダリティ特異的およびオペレーション中心の視点から分類している。 このギャップを埋めるために、異なる共通データモダリティのためのデータ拡張技術を含む、より啓蒙的な分類法を提案する。 具体的には、データ中心の観点から、単一、ペアワイド、集団ワイドのサンプルデータ拡張手法を含むデータサンプル間の本質的な関係をいかに活用するかを検討することで、モダリティ非依存型分類法を提案する。 さらに、5つのデータモダリティにまたがるデータ拡張手法を統一的帰納的手法により分類する。

Data augmentation is a series of techniques that generate high-quality artificial data by manipulating existing data samples. By leveraging data augmentation techniques, AI models can achieve significantly improved applicability in tasks involving scarce or imbalanced datasets, thereby substantially enhancing AI models' generalization capabilities. Existing literature surveys only focus on a certain type of specific modality data, and categorize these methods from modality-specific and operation-centric perspectives, which lacks a consistent summary of data augmentation methods across multiple modalities and limits the comprehension of how existing data samples serve the data augmentation process. To bridge this gap, we propose a more enlightening taxonomy that encompasses data augmentation techniques for different common data modalities. Specifically, from a data-centric perspective, this survey proposes a modality-independent taxonomy by investigating how to take advantage of the intrinsic relationship between data samples, including single-wise, pair-wise, and population-wise sample data augmentation methods. Additionally, we categorize data augmentation methods across five data modalities through a unified inductive approach.
翻訳日:2024-05-17 16:09:33 公開日:2024-05-15
# 時空間データマイニングにおける生成手法の検討

A Survey of Generative Techniques for Spatial-Temporal Data Mining ( http://arxiv.org/abs/2405.09592v1 )

ライセンス: Link先を確認
Qianru Zhang, Haixin Wang, Cheng Long, Liangcai Su, Xingwei He, Jianlong Chang, Tailin Wu, Hongzhi Yin, Siu-Ming Yiu, Qi Tian, Christian S. Jensen, (参考訳) 本稿では,空間時空間データマイニングにおける生成技術の統合に着目し,空間時空間データの顕著な成長と多様性について考察する。 RNN、CNN、その他の非生成技術の発展に伴い、研究者たちは空間的時間的データ内の時間的および空間的依存関係をキャプチャーする彼らの応用を探求した。 しかし, LLM, SSL, Seq2Seq, 拡散モデルなどの生成技術が出現し, 空間時空間データマイニングの新たな可能性が高まっている。 本稿では,生成技術に基づく空間時間的手法を包括的に分析し,空間時間的データマイニングパイプラインに特化して設計された標準化されたフレームワークを提案する。 生成技術を活用した空間的時間的方法論の詳細なレビューと新しい分類法を提供することにより,本分野における様々な手法のより深い理解を可能にした。 さらに、この論文は将来有望な研究の方向性を強調し、研究者たちに時空間データマイニングを深く掘り下げるよう促している。 未解決の機会を探究し、知識の境界を押して新しい洞察を解き放ち、空間的時間的データマイニングの有効性と効率を改善する必要性を強調している。 生成技術を統合し,標準化された枠組みを提供することで,現場の進展に寄与し,空間時空間データマイニングにおける生成技術の可能性を探究する。

This paper focuses on the integration of generative techniques into spatial-temporal data mining, considering the significant growth and diverse nature of spatial-temporal data. With the advancements in RNNs, CNNs, and other non-generative techniques, researchers have explored their application in capturing temporal and spatial dependencies within spatial-temporal data. However, the emergence of generative techniques such as LLMs, SSL, Seq2Seq and diffusion models has opened up new possibilities for enhancing spatial-temporal data mining further. The paper provides a comprehensive analysis of generative technique-based spatial-temporal methods and introduces a standardized framework specifically designed for the spatial-temporal data mining pipeline. By offering a detailed review and a novel taxonomy of spatial-temporal methodology utilizing generative techniques, the paper enables a deeper understanding of the various techniques employed in this field. Furthermore, the paper highlights promising future research directions, urging researchers to delve deeper into spatial-temporal data mining. It emphasizes the need to explore untapped opportunities and push the boundaries of knowledge to unlock new insights and improve the effectiveness and efficiency of spatial-temporal data mining. By integrating generative techniques and providing a standardized framework, the paper contributes to advancing the field and encourages researchers to explore the vast potential of generative techniques in spatial-temporal data mining.
翻訳日:2024-05-17 16:09:33 公開日:2024-05-15
# SQL-to-SchemaがテキストからSQLへのスキーマリンクを強化

SQL-to-Schema Enhances Schema Linking in Text-to-SQL ( http://arxiv.org/abs/2405.09593v1 )

ライセンス: Link先を確認
Sun Yang, Qiong Su, Zhishuai Li, Ziyue Li, Hangyu Mao, Chenxi Liu, Rui Zhao, (参考訳) 従来のText-to-SQLメソッドでは、スキーマリンクエラー(間違った列、テーブル、余分な列)、ジョインエラー、ネストエラー、グループバイエラーなど、さまざまな比率でエラーを表示する。 その結果、不要なテーブルと列をフィルタリングし、言語モデルを関連するテーブルと列にスキーマリンクで注意を向け、SQL生成時のエラーを減らす必要がある。 従来のアプローチでは、テーブルと列のソートは、質問との関連性に基づいて行われ、ソートのために上位のテーブルを選択したり、SQL生成に必要なテーブルと列を直接識別したりしていた。 しかし、これらの手法は、長大なモデルトレーニング時間、数発のプロンプトにおける高価なGPT-4トークンの高消費、スキーマリンクにおける準最適性能といった課題に直面している。 そこで本研究では,提案手法を2段階に分けて提案する。 まず,完全なデータベーススキーマを利用して,初期SQLクエリを生成する。 その後、最初のSQLクエリからテーブルと列を抽出して、簡潔なスキーマを生成する。 CodeLlama-34Bを用いて、主流のメソッドによって得られたスキーマとSQL生成のためのスキーマを比較する場合、スキーマは最適に動作します。 GPT4を活用することで、我々のSQL生成方法は、Spiderデータセット上のメインストリームのText-to-SQLメソッドに匹敵する結果を得た。

In sophisticated existing Text-to-SQL methods exhibit errors in various proportions, including schema-linking errors (incorrect columns, tables, or extra columns), join errors, nested errors, and group-by errors. Consequently, there is a critical need to filter out unnecessary tables and columns, directing the language models attention to relevant tables and columns with schema-linking, to reduce errors during SQL generation. Previous approaches have involved sorting tables and columns based on their relevance to the question, selecting the top-ranked ones for sorting, or directly identifying the necessary tables and columns for SQL generation. However, these methods face challenges such as lengthy model training times, high consumption of expensive GPT-4 tokens in few-shot prompts, or suboptimal performance in schema linking. Therefore, we propose an inventive schema linking method in two steps: Firstly, generate an initial SQL query by utilizing the complete database schema. Subsequently, extract tables and columns from the initial SQL query to create a concise schema. Using CodeLlama-34B, when comparing the schemas obtained by mainstream methods with ours for SQL generation, our schema performs optimally. Leveraging GPT4, our SQL generation method achieved results that are comparable to mainstream Text-to-SQL methods on the Spider dataset.
翻訳日:2024-05-17 16:09:33 公開日:2024-05-15
# 画像グラフコントラスト事前学習による一般医用画像表現の学習

Learning Generalized Medical Image Representations through Image-Graph Contrastive Pretraining ( http://arxiv.org/abs/2405.09594v1 )

ライセンス: Link先を確認
Sameer Khanna, Daniel Michael, Marinka Zitnik, Pranav Rajpurkar, (参考訳) 深層学習を用いた医用画像の解釈は将来性を示しているが、専門家が注釈付けした広範囲なデータセットを必要とすることが多い。 このアノテーションの負担を軽減するために,胸部X線と構造化レポート知識グラフをペアリングする画像グラフコントラスト学習フレームワークを開発した。 提案手法は,リレーショナルグラフ畳み込みネットワークとトランスフォーマーアテンションを介して,非連結グラフ成分を一意に符号化する。 CheXpertデータセットの実験では、この新しいグラフ符号化戦略により、1%の線形評価と少数ショット設定で画像テキストコントラスト学習を使用する既存の手法を上回りながら、放射線学者に匹敵するパフォーマンスを実現した。 本フレームワークは,ラベルのないペア画像とテキストを活用することにより,医用画像のコントラスト学習を強化するために,構造化された臨床所見の可能性を示す。 本研究は、アノテーションに対する医療専門家の要求を減らし、診断精度を向上し、堅牢な医用画像理解を通じて患者のケアを進めることを目的としている。

Medical image interpretation using deep learning has shown promise but often requires extensive expert-annotated datasets. To reduce this annotation burden, we develop an Image-Graph Contrastive Learning framework that pairs chest X-rays with structured report knowledge graphs automatically extracted from radiology notes. Our approach uniquely encodes the disconnected graph components via a relational graph convolution network and transformer attention. In experiments on the CheXpert dataset, this novel graph encoding strategy enabled the framework to outperform existing methods that use image-text contrastive learning in 1% linear evaluation and few-shot settings, while achieving comparable performance to radiologists. By exploiting unlabeled paired images and text, our framework demonstrates the potential of structured clinical insights to enhance contrastive learning for medical images. This work points toward reducing demands on medical experts for annotations, improving diagnostic precision, and advancing patient care through robust medical image understanding.
翻訳日:2024-05-17 16:09:33 公開日:2024-05-15
# 生物学的複雑性における単純さ

Simplicity within biological complexity ( http://arxiv.org/abs/2405.09595v1 )

ライセンス: Link先を確認
Natasa Przulj, Noel Malod-Dognin, (参考訳) 不均一で相互接続されたシステムレベルの分子データが、精度医学においてますます利用され、鍵となっている。 患者をリスクグループに分類し、新しいバイオマーカーや標的を発見し、既知の薬物を再利用し、治療をパーソナライズするための新薬を見つける必要がある。 既存の方法論は限られており、定量的かつ質的なブレークスルーを達成するためにはパラダイムシフトが必要である。 本稿では, 文献を調査し, 多スケール分子ネットワークデータへの包括的包括的包括的包括的包括的包括的枠組みの構築を論じる。 ネットワーク埋め込み手法はノードを低次元空間の点にマッピングすることにより、学習空間の近接性はネットワークのトポロジ-関数関係を反映する。 彼らは最近、様々なバイオメディカル応用において、わずかなオミックデータを利用するという難題において、前例のないパフォーマンスを成し遂げた。 しかし、これまでの研究は問題やデータの特別な変種に限られており、基礎となるトポロジ-ファンクショナルネットワーク生物学の仮説、バイオメディカル応用、評価指標に依存する。 マルチオミックデータ、現代的なグラフ埋め込みパラダイム、計算パワーは、質的なブレークスルーをもたらす潜在的に危険で予期しない振る舞いを持たない、効率的で説明可能な、制御可能なモデルの作成と訓練を要求する。 本稿では、モデルから効率的でスケーラブルなソフトウェア実装に至るまで、マルチオミックネットワークデータのための汎用的な包括的埋め込みフレームワークを開発し、それをバイオメディカルインフォマティクスに適用することを提案する。 データや病気の計算的、生医学的理解のパラダイムシフトがもたらされ、精度医学やその他の領域における主要なボトルネックを解決する方法が開かれていくだろう。

Heterogeneous, interconnected, systems-level, molecular data have become increasingly available and key in precision medicine. We need to utilize them to better stratify patients into risk groups, discover new biomarkers and targets, repurpose known and discover new drugs to personalize medical treatment. Existing methodologies are limited and a paradigm shift is needed to achieve quantitative and qualitative breakthroughs. In this perspective paper, we survey the literature and argue for the development of a comprehensive, general framework for embedding of multi-scale molecular network data that would enable their explainable exploitation in precision medicine in linear time. Network embedding methods map nodes to points in low-dimensional space, so that proximity in the learned space reflects the network's topology-function relationships. They have recently achieved unprecedented performance on hard problems of utilizing few omic data in various biomedical applications. However, research thus far has been limited to special variants of the problems and data, with the performance depending on the underlying topology-function network biology hypotheses, the biomedical applications and evaluation metrics. The availability of multi-omic data, modern graph embedding paradigms and compute power call for a creation and training of efficient, explainable and controllable models, having no potentially dangerous, unexpected behaviour, that make a qualitative breakthrough. We propose to develop a general, comprehensive embedding framework for multi-omic network data, from models to efficient and scalable software implementation, and to apply it to biomedical informatics. It will lead to a paradigm shift in computational and biomedical understanding of data and diseases that will open up ways to solving some of the major bottlenecks in precision medicine and other domains.
翻訳日:2024-05-17 16:09:33 公開日:2024-05-15
# H3 Index and Causal Language Modelling (CLM)による海上軌道予測の強化

Enhancing Maritime Trajectory Forecasting via H3 Index and Causal Language Modelling (CLM) ( http://arxiv.org/abs/2405.09596v1 )

ライセンス: Link先を確認
Nicolas Drapier, Aladine Chetouani, Aurélien Chateigner, (参考訳) 船舶軌道の予測は、人工知能における研究分野の増大である。 従来の手法は、時空間列の予測にLSTM、GRUネットワーク、さらにはTransformerアーキテクチャにも依存している。 本研究は,GNSS位置のみを用いて,これらの軌道を予測可能な代替手段を提案する。 この時空間問題を自然言語処理問題とみなす。 AISメッセージの緯度/経度座標は、H3インデックスを用いてセル識別子に変換する。 擬似オクタル表現により、言語モデルがH3インデックスの空間的階層を学習しやすくなる。 この手法は、海洋領域で広く用いられている古典カルマンフィルタと比較され、Fr'echet距離を主評価指標として導入する。 我々は,30分間のコンテキストで,船の軌道を正確に8時間まで予測できることを示した。 我々は、この代替手段が世界中の軌道を予測するのに十分な効果があることを実証した。

The prediction of ship trajectories is a growing field of study in artificial intelligence. Traditional methods rely on the use of LSTM, GRU networks, and even Transformer architectures for the prediction of spatio-temporal series. This study proposes a viable alternative for predicting these trajectories using only GNSS positions. It considers this spatio-temporal problem as a natural language processing problem. The latitude/longitude coordinates of AIS messages are transformed into cell identifiers using the H3 index. Thanks to the pseudo-octal representation, it becomes easier for language models to learn the spatial hierarchy of the H3 index. The method is compared with a classical Kalman filter, widely used in the maritime domain, and introduces the Fr\'echet distance as the main evaluation metric. We show that it is possible to predict ship trajectories quite precisely up to 8 hours with 30 minutes of context. We demonstrate that this alternative works well enough to predict trajectories worldwide.
翻訳日:2024-05-17 16:09:33 公開日:2024-05-15
# AIが自分自身を食う時 - 生成AIの時代におけるデータ汚染の因果について

When AI Eats Itself: On the Caveats of Data Pollution in the Era of Generative AI ( http://arxiv.org/abs/2405.09597v1 )

ライセンス: Link先を確認
Xiaodan Xing, Fadong Shi, Jiahao Huang, Yinzhe Wu, Yang Nan, Sheng Zhang, Yingying Fang, Mike Roberts, Carola-Bibiane Schönlieb, Javier Del Ser, Guang Yang, (参考訳) 生成人工知能(AI)技術と大規模モデルは、画像、テキスト、音声、音楽など、さまざまな領域でリアルな出力を生み出している。 これらの高度な生成モデルを作成するには、特に大規模で高品質なデータセットなど、重要なリソースが必要である。 トレーニングコストを最小限に抑えるため、多くのアルゴリズム開発者は、モデル自身が作成したデータをコスト効率のよいトレーニングソリューションとして使用する。 しかし、すべての合成データがモデル性能を効果的に向上するわけではないため、結果の最適化には実データと合成データとの戦略的バランスが必要である。 現在、以前よく制御されていた実データと合成データの統合は制御不能になりつつある。 オンラインでの合成データの広範かつ非規制の拡散は、ウェブスクレイピングを通じて伝統的にコンパイルされたデータセットが汚染され、現在はラベルなしの合成データと混在している。 このトレンドは、生成型AIシステムが、自己生成データの使用に盲目的に依存するようになり、モデルパフォーマンスや倫理的問題への懸念が高まりつつある未来を後押しする。 生成的AIが認識せずに継続的に自分自身を消費するとどうなるのか? 潜在的な悪影響を軽減するために、どのような対策をとるべきでしょうか。 生成AIにおける合成データの利用の影響、特にマルチモーダル情報の融合に関して、科学文献には大きなギャップがある。 この研究ギャップに対処するために、画像とテキストのモダリティの両方で生成AIのトレーニングに盲目的に合成データを統合する結果について検討し、これらの効果を緩和するための戦略を探る。 目標は、合成データの役割を包括的に把握し、その使用に対するバランスのとれたアプローチを提唱し、大規模モデルの時代に生成AI技術の持続可能な開発を促進するプラクティスを探求することである。

Generative artificial intelligence (AI) technologies and large models are producing realistic outputs across various domains, such as images, text, speech, and music. Creating these advanced generative models requires significant resources, particularly large and high-quality datasets. To minimize training expenses, many algorithm developers use data created by the models themselves as a cost-effective training solution. However, not all synthetic data effectively improve model performance, necessitating a strategic balance in the use of real versus synthetic data to optimize outcomes. Currently, the previously well-controlled integration of real and synthetic data is becoming uncontrollable. The widespread and unregulated dissemination of synthetic data online leads to the contamination of datasets traditionally compiled through web scraping, now mixed with unlabeled synthetic data. This trend portends a future where generative AI systems may increasingly rely blindly on consuming self-generated data, raising concerns about model performance and ethical issues. What will happen if generative AI continuously consumes itself without discernment? What measures can we take to mitigate the potential adverse effects? There is a significant gap in the scientific literature regarding the impact of synthetic data use in generative AI, particularly in terms of the fusion of multimodal information. To address this research gap, this review investigates the consequences of integrating synthetic data blindly on training generative AI on both image and text modalities and explores strategies to mitigate these effects. The goal is to offer a comprehensive view of synthetic data's role, advocating for a balanced approach to its use and exploring practices that promote the sustainable development of generative AI technologies in the era of large models.
翻訳日:2024-05-17 16:09:33 公開日:2024-05-15
# 量子化されたネットワーク間の敵攻撃の伝達性を許容または禁止する特性

Properties that allow or prohibit transferability of adversarial attacks among quantized networks ( http://arxiv.org/abs/2405.09598v1 )

ライセンス: Link先を確認
Abhishek Shrestha, Jürgen Großmann, (参考訳) ディープニューラルネットワーク(DNN)は、敵の例に弱いことが知られている。 さらに、これらの逆転例は、ブラックボックスターゲットネットワークに製作されるソースネットワークから転送可能であることが判明した。 組込みデバイスにおけるディープラーニングの利用傾向が高まるにつれて、圧縮されたネットワーク間の対向的な例の伝達可能性特性の研究が重要となる。 本稿では、量子化をネットワーク圧縮技術として考慮し、異なるビット幅でソースとターゲットネットワークを量子化する場合の転送ベースの攻撃性能を評価する。 種々の逆例生成アルゴリズムを用いて,アルゴリズム固有の特性が伝達可能性にどのように影響するかを考察する。 さらに、ビット幅と他のモデル関連特性(キャパシティやアーキテクチャなど)でソースとターゲットネットワークが異なる場合の、より現実的なシナリオにおける転送可能性について検討する。 量子化は転送可能性を減らすが、特定の攻撃型はそれを強化する能力を示す。 さらに、ネットワークの量子化バージョン間の敵例の平均転送可能性を利用して、キャパシティとアーキテクチャの異なる量子化対象ネットワークへの転送可能性を推定することができる。

Deep Neural Networks (DNNs) are known to be vulnerable to adversarial examples. Further, these adversarial examples are found to be transferable from the source network in which they are crafted to a black-box target network. As the trend of using deep learning on embedded devices grows, it becomes relevant to study the transferability properties of adversarial examples among compressed networks. In this paper, we consider quantization as a network compression technique and evaluate the performance of transfer-based attacks when the source and target networks are quantized at different bitwidths. We explore how algorithm specific properties affect transferability by considering various adversarial example generation algorithms. Furthermore, we examine transferability in a more realistic scenario where the source and target networks may differ in bitwidth and other model-related properties like capacity and architecture. We find that although quantization reduces transferability, certain attack types demonstrate an ability to enhance it. Additionally, the average transferability of adversarial examples among quantized versions of a network can be used to estimate the transferability to quantized target networks with varying capacity and architecture.
翻訳日:2024-05-17 16:09:33 公開日:2024-05-15
# 予測モデル再利用性のための集約表現尺度

Aggregate Representation Measure for Predictive Model Reusability ( http://arxiv.org/abs/2405.09600v1 )

ライセンス: Link先を確認
Vishwesh Sangarya, Richard Bradford, Jung-Eun Kim, (参考訳) 本稿では,分散シフトにおけるトレーニングモデルの再学習コストを推定する予測量化器を提案する。 ARM(Aggregated Representation Measure)は、古いデータから新しいデータへのモデル表現の変化を定量化する手法である。 これは、実際にモデルをトレーニングする前に、再トレーニングに必要なリソース(エポック、エネルギー、炭素排出量)の単一の簡潔なインデックスを提供する。 これにより、新しいモデルをスクラッチからトレーニングするよりもはるかに低コストでモデルの再利用が可能になる。 実験結果から、ARMは様々なノイズ強度に対する再学習コストを合理的に予測し、複数のモデルアーキテクチャの比較により、最もコスト効率が高く持続可能な選択肢を決定できることが示唆された。

In this paper, we propose a predictive quantifier to estimate the retraining cost of a trained model in distribution shifts. The proposed Aggregated Representation Measure (ARM) quantifies the change in the model's representation from the old to new data distribution. It provides, before actually retraining the model, a single concise index of resources - epochs, energy, and carbon emissions - required for the retraining. This enables reuse of a model with a much lower cost than training a new model from scratch. The experimental results indicate that ARM reasonably predicts retraining costs for varying noise intensities and enables comparisons among multiple model architectures to determine the most cost-effective and sustainable option.
翻訳日:2024-05-17 16:09:33 公開日:2024-05-15
# OCTによる全自動組織スクリーニングシステム

Fully Automated OCT-based Tissue Screening System ( http://arxiv.org/abs/2405.09601v1 )

ライセンス: Link先を確認
Shaohua Pi, Razieh Ganjee, Lingyun Wang, Riley K. Arbuckle, Chengcheng Zhao, Jose A Sahel, Bingjie Wang, Yuanyuan Chen, (参考訳) 本研究は,生体外組織培養を用いた高出力検診用光コヒーレンス断層撮影システム(OCT)について紹介する。 OCTの非侵襲的で高解像度の能力を生かしたシステムは、カスタム設計の電動化プラットフォームと組織検出機能を備えており、サンプルを横断する自動的、連続的なイメージングが可能である。 トランスフォーマーベースのディープラーニングセグメンテーションアルゴリズムは、検査基準を満たす堅牢で一貫性があり、効率的な読み出しを保証する。 網膜変性のマウスモデルから網膜外移植培養体を用いて検証されたこのシステムは、治療に対する組織反応の堅牢で、迅速で、信頼性が高く、偏りがなく、包括的に読み取ることができる。 この完全に自動化されたOCTベースのシステムは、組織スクリーニングの大幅な進歩を示し、薬物発見や他の関連する研究分野を変革することを約束している。

This study introduces a groundbreaking optical coherence tomography (OCT) imaging system dedicated for high-throughput screening applications using ex vivo tissue culture. Leveraging OCT's non-invasive, high-resolution capabilities, the system is equipped with a custom-designed motorized platform and tissue detection ability for automated, successive imaging across samples. Transformer-based deep learning segmentation algorithms further ensure robust, consistent, and efficient readouts meeting the standards for screening assays. Validated using retinal explant cultures from a mouse model of retinal degeneration, the system provides robust, rapid, reliable, unbiased, and comprehensive readouts of tissue response to treatments. This fully automated OCT-based system marks a significant advancement in tissue screening, promising to transform drug discovery, as well as other relevant research fields.
翻訳日:2024-05-17 16:09:33 公開日:2024-05-15
# 不確実性定量化によるラベル誤り検出と除去の改善

Improving Label Error Detection and Elimination with Uncertainty Quantification ( http://arxiv.org/abs/2405.09602v1 )

ライセンス: Link先を確認
Johannes Jakubik, Michael Vössing, Manil Maskey, Christopher Wölfle, Gerhard Satzger, (参考訳) ラベルエラーの特定と処理は、教師付き機械学習モデルの精度を大幅に向上させる。 ラベルの誤りを特定するための最近のアプローチは、あるラベルに対するモデルの自己自信が低いことが、誤ラベルのよい指標であることを示している。 しかし、最新の研究は、自己自信を測定するソフトマックス確率に基づいている。 本稿では,ソフトマックス確率がモデルの予測不確かさを正確に反映しないため,ラベル誤り検出にはモデル不確かさのより高度な測定が必要であることを論じる。 そこで我々は,信頼度学習(CL),モンテカルロ・ドロップアウト(MCD),モデル不確実性測定(e.,エントロピー),アンサンブル学習(enmble learning)を組み合わせ,ラベル誤り検出の精度を高めた,不確実性量子化に基づくラベル誤り検出(UQ-LED)のための新しいモデル非依存アルゴリズムを開発した。 我々は4つの画像分類ベンチマークデータセットを2段階にまとめて評価した。 最初の段階では、我々のUQ-LEDアルゴリズムは、ラベルエラーの特定において、最先端の自信ある学習よりも優れていることを実証する。 第2段階では,提案手法に基づくトレーニングデータから識別されたエラーをすべて除去することで,利用可能なラベル付きデータに対するトレーニングよりも高い精度が得られることを示す。 重要なことは、ラベルエラーの検出に対する我々の貢献に加えて、特に、現実的なクラス依存ラベルエラーを合成的に生成する新しいアプローチを提案することである。 全体として、UQ-LEDアルゴリズムでデータセットを選択的にクリーニングすることは、より大きくノイズの多いデータセットを使用するよりも、より正確な分類につながることを示す。

Identifying and handling label errors can significantly enhance the accuracy of supervised machine learning models. Recent approaches for identifying label errors demonstrate that a low self-confidence of models with respect to a certain label represents a good indicator of an erroneous label. However, latest work has built on softmax probabilities to measure self-confidence. In this paper, we argue that -- as softmax probabilities do not reflect a model's predictive uncertainty accurately -- label error detection requires more sophisticated measures of model uncertainty. Therefore, we develop a range of novel, model-agnostic algorithms for Uncertainty Quantification-Based Label Error Detection (UQ-LED), which combine the techniques of confident learning (CL), Monte Carlo Dropout (MCD), model uncertainty measures (e.g., entropy), and ensemble learning to enhance label error detection. We comprehensively evaluate our algorithms on four image classification benchmark datasets in two stages. In the first stage, we demonstrate that our UQ-LED algorithms outperform state-of-the-art confident learning in identifying label errors. In the second stage, we show that removing all identified errors from the training data based on our approach results in higher accuracies than training on all available labeled data. Importantly, besides our contributions to the detection of label errors, we particularly propose a novel approach to generate realistic, class-dependent label errors synthetically. Overall, our study demonstrates that selectively cleaning datasets with UQ-LED algorithms leads to more accurate classifications than using larger, noisier datasets.
翻訳日:2024-05-17 16:09:33 公開日:2024-05-15
# 世界知識の要素(EWOK):言語モデルにおける基本的な世界知識を評価するための認知にインスパイアされたフレームワーク

Elements of World Knowledge (EWOK): A cognition-inspired framework for evaluating basic world knowledge in language models ( http://arxiv.org/abs/2405.09605v1 )

ライセンス: Link先を確認
Anna A. Ivanova, Aalok Sathe, Benjamin Lipkin, Unnathi Kumar, Setayesh Radkani, Thomas H. Clark, Carina Kauf, Jennifer Hu, R. T. Pramod, Gabriel Grand, Vivian Paulun, Maria Ryskina, Ekin Akyurek, Ethan Wilcox, Nafisa Rashid, Leshem Chosen, Roger Levy, Evelina Fedorenko, Joshua Tenenbaum, Jacob Andreas, (参考訳) 世界モデルの構築と活用は、汎用AIエージェントにとって不可欠である。 このような機能をテストするのは難しく、その理由のひとつは、世界モデルのビルディングブロックが未定義であるためです。 本稿では,言語モデルにおける世界モデリングを評価するためのフレームワークであるElements of World Knowledge(EWOK)について述べる。 EWOKは、人間の世界モデリングに不可欠な複数の知識領域から特定の概念をターゲットにしている。 領域は社会的相互作用(help/hinder)から空間的関係(左/右)まで様々である。 コンテキストとターゲットはどちらも最小のペアです。 アイテム内のオブジェクト、エージェント、場所は柔軟に満たされ、複数の制御されたデータセットを簡単に生成できる。 次に,世界11の知識領域をカバーする4,374項目のデータセットであるEWOK-CORE-1.0を紹介する。 評価パラダイムのバッテリにまたがる20個のオープンウェイト大言語モデル (1.3B--70Bパラメータ) と12,480個の測定値からなる人間の規範化研究を行った。 すべてのテストされたモデルの全体的なパフォーマンスは、人間のパフォーマンスよりも悪く、その結果はドメインによって大きく異なる。 これらのデータは、たとえ大きなモデルであっても失敗し、LLMの世界モデリング機能を対象とした研究のための豊富な道を示す単純な事例を浮き彫りにしている。

The ability to build and leverage world models is essential for a general-purpose AI agent. Testing such capabilities is hard, in part because the building blocks of world models are ill-defined. We present Elements of World Knowledge (EWOK), a framework for evaluating world modeling in language models by testing their ability to use knowledge of a concept to match a target text with a plausible/implausible context. EWOK targets specific concepts from multiple knowledge domains known to be vital for world modeling in humans. Domains range from social interactions (help/hinder) to spatial relations (left/right). Both, contexts and targets are minimal pairs. Objects, agents, and locations in the items can be flexibly filled in enabling easy generation of multiple controlled datasets. We then introduce EWOK-CORE-1.0, a dataset of 4,374 items covering 11 world knowledge domains. We evaluate 20 openweights large language models (1.3B--70B parameters) across a battery of evaluation paradigms along with a human norming study comprising 12,480 measurements. The overall performance of all tested models is worse than human performance, with results varying drastically across domains. These data highlight simple cases where even large models fail and present rich avenues for targeted research on LLM world modeling capabilities.
翻訳日:2024-05-17 16:09:33 公開日:2024-05-15
# 3次元三角測量の学習

Learning 3-Manifold Triangulations ( http://arxiv.org/abs/2405.09610v1 )

ライセンス: Link先を確認
Francesco Costantino, Yang-Hui He, Elli Heyes, Edward Hirst, (参考訳) 実3次元多様体の三角形は、一意的に同型シグネチャで表される。 これらの同型シグネチャのデータベースはSnapPyやReginaを使って様々な3次元多様体や結び目に対して生成され、これらの言語のような入力は、多様体を区別するために様々な機械学習アーキテクチャを訓練するために使用される。 グラディエント・サリエンシ解析は、訓練されたモデルからこの言語に似た符号化スキームの鍵部分を抽出する。 同型シグネチャデータベースは、3次元多様体のPachnerグラフから取り出され、これはいくつかの選択された焦点多様体やSnapPyの向き付け可能なカスプされた国勢調査のサブセットに対して、$<8$の初期テトラヘドラを持つバルクで生成される。 これらのPachnerグラフは、ネットワーク科学のレンズを通してさらに解析され、三角表現における新しい構造を特定する。特に双曲的の場合、最短測地線(シストル)の長さとPachnerグラフの球の大きさとの関係が観察される。

Real 3-manifold triangulations can be uniquely represented by isomorphism signatures. Databases of these isomorphism signatures are generated for a variety of 3-manifolds and knot complements, using SnapPy and Regina, then these language-like inputs are used to train various machine learning architectures to differentiate the manifolds, as well as their Dehn surgeries, via their triangulations. Gradient saliency analysis then extracts key parts of this language-like encoding scheme from the trained models. The isomorphism signature databases are taken from the 3-manifolds' Pachner graphs, which are also generated in bulk for some selected manifolds of focus and for the subset of the SnapPy orientable cusped census with $<8$ initial tetrahedra. These Pachner graphs are further analysed through the lens of network science to identify new structure in the triangulation representation; in particular for the hyperbolic case, a relation between the length of the shortest geodesic (systole) and the size of the Pachner graph's ball is observed.
翻訳日:2024-05-17 16:09:33 公開日:2024-05-15
# 計算可能な絡み合いコスト

Computable entanglement cost ( http://arxiv.org/abs/2405.09613v1 )

ライセンス: Link先を確認
Ludovico Lami, Francesco Anna Mele, Bartosz Regula, (参考訳) 量子情報理論は、恐ろしい漸近量の評価を必要とする正規化の問題に悩まされている。 これにより、絡み合い操作のような重要な操作タスクの最終的な効率を正確に定量的に理解することが可能になる。 ここでは、正部分転位(PPT)を伴う量子演算の下でノイズ量子状態を作成することによる漸近的絡み合いコストの計算の問題を考察する。 この問題の先述した解法は誤りであることが示されている。 代わりに、エンタングルメントコストの真の漸近値に上から下から収束する半定値プログラムの2つの階層の形で代替解を構築する。 我々の主な結果は、この収束が指数関数的に速く起こることを証明し、したがって、コストを加法誤差$\varepsilon$ in time $\mathrm{poly}\big(D,\,\log(1/\varepsilon)\big)$に近似する効率的なアルゴリズムが得られる。 我々の知る限り、閉形式公式が存在しないにもかかわらず、漸近的絡み合い測度が効率的に計算可能であることを示すのはこれが初めてである。

Quantum information theory is plagued by the problem of regularisations, which require the evaluation of formidable asymptotic quantities. This makes it computationally intractable to gain a precise quantitative understanding of the ultimate efficiency of key operational tasks such as entanglement manipulation. Here we consider the problem of computing the asymptotic entanglement cost of preparing noisy quantum states under quantum operations with positive partial transpose (PPT). A previously claimed solution to this problem is shown to be incorrect. We construct instead an alternative solution in the form of two hierarchies of semi-definite programs that converge to the true asymptotic value of the entanglement cost from above and from below. Our main result establishes that this convergence happens exponentially fast, thus yielding an efficient algorithm that approximates the cost up to an additive error $\varepsilon$ in time $\mathrm{poly}\big(D,\,\log(1/\varepsilon)\big)$, where $D$ is the underlying Hilbert space dimension. To our knowledge, this is the first time that an asymptotic entanglement measure is shown to be efficiently computable despite no closed-form formula being available.
翻訳日:2024-05-17 16:09:33 公開日:2024-05-15
# 測定・フィードバックによるMPSとPEPSの作成

Characterizing MPS and PEPS Preparable via Measurement and Feedback ( http://arxiv.org/abs/2405.09615v1 )

ライセンス: Link先を確認
Yifan Zhang, Sarang Gopalakrishnan, Georgios Styliaris, (参考訳) 長距離の絡み合った状態の調製は、短期量子デバイスにとって大きな課題となる。 測定とフィードバック(MF)は、一定の回路深度しか持たない特定のパラダイム的長距離絡み合った状態の調製を可能にすることで、この課題を支援することが知られている。 ここでは,一定深度局所回路と単一MFラウンドを用いて調製できる状態の構造を系統的に検討する。 テンソルネットワークの枠組みを用いて、MF の下での準備性はテンソル対称性に変換される。 本稿では, マトリックス生成物状態 (MPS) と, MF を用いて調製できる射影エンタングルペア状態 (PEPS) の構造を詳述し, クリフォード様の性質と魔法の共存を明らかにした。 さらに,MF対称性を示す状態に対して,一次元の対称性保護トポロジカル秩序と2次元のトポロジカル秩序に類似した解析解を提供し,その特性について論じる。 最後に、MFによる作用素の類似的な実装について議論し、よく知られたクリフォード・テレポーテーションに結びつく構造定理を提供する。

Preparing long-range entangled states poses significant challenges for near-term quantum devices. It is known that measurement and feedback (MF) can aid this task by allowing the preparation of certain paradigmatic long-range entangled states with only constant circuit depth. Here we systematically explore the structure of states that can be prepared using constant-depth local circuits and a single MF round. Using the framework of tensor networks, the preparability under MF translates to tensor symmetries. We detail the structure of matrix-product states (MPS) and projected entangled-pair states (PEPS) that can be prepared using MF, revealing the coexistence of Clifford-like properties and magic. Furthermore, we provide analytic solutions to states exhibiting MF symmetries akin to the symmetry-protected topological order in one dimension and the topological order in two dimensions, and we discuss their characteristics. Finally, we discuss the analogous implementation of operators via MF, providing a structural theorem that connects to the well-known Clifford teleportation.
翻訳日:2024-05-17 15:59:48 公開日:2024-05-15
# Holevo Cramér-Rao 境界: 計測を絡めることなく、どれくらい近づくことができるか?

Holevo Cramér-Rao bound: How close can we get without entangling measurements? ( http://arxiv.org/abs/2405.09622v1 )

ライセンス: Link先を確認
Aritra Das, Lorcán O. Conlon, Jun Suzuki, Simon K. Yung, Ping K. Lam, Syed M. Assad, (参考訳) 多パラメータ量子メートル法では、絡み合いの資源は推定過程の効率を向上させる可能性がある。 絡み合いは、状態準備段階でも、測定段階でも、あるいはその両方でも、この利点を利用することができる。 具体的には、複数の同一のプローブ状態のコピーに絡み合うあるいは集合的な測定は、各プローブを個別に測定するよりも優れていることが知られているが、この改善の程度はオープンな問題である。 このような絡み合いの測定は、資源集約性はあるものの、マルチパラメータ量子メートル法や量子情報処理タスクの究極の限界に達するために必要であることも知られている。 本研究は,集合量子測度がクーディット状態のパラメータを推定するための個々の測定値に対して与えうる最大精度の改善について検討し,これを「集合量子拡張」と呼ぶ。 最大拡張は、原理的には$n$パラメータを推定するために$n$の係数となるが、この境界は大きな$n$に対しては厳密ではない。 代わりに、我々の結果は、集合的な測定を用いて、クディットの次元の線形化が可能であることを証明し、これは任意の局所的な推定シナリオにおける最大集合量子化である、という予想を導いた。

In multi-parameter quantum metrology, the resource of entanglement can lead to an increase in efficiency of the estimation process. Entanglement can be used in the state preparation stage, or the measurement stage, or both, to harness this advantage; here we focus on the role of entangling measurements. Specifically, entangling or collective measurements over multiple identical copies of a probe state are known to be superior to measuring each probe individually, but the extent of this improvement is an open problem. It is also known that such entangling measurements, though resource-intensive, are required to attain the ultimate limits in multi-parameter quantum metrology and quantum information processing tasks. In this work we investigate the maximum precision improvement that collective quantum measurements can offer over individual measurements for estimating parameters of qudit states, calling this the 'collective quantum enhancement'. We show that, whereas the maximum enhancement can, in principle, be a factor of $n$ for estimating $n$ parameters, this bound is not tight for large $n$. Instead, our results prove an enhancement linear in dimension of the qudit is possible using collective measurements and lead us to conjecture that this is the maximum collective quantum enhancement in any local estimation scenario.
翻訳日:2024-05-17 15:59:48 公開日:2024-05-15
# 量子状態同定のための置換試験

Permutation tests for quantum state identity ( http://arxiv.org/abs/2405.09626v1 )

ライセンス: Link先を確認
Harry Buhrman, Dmitry Grinko, Philip Verduyn Lunel, Jordi Weggemans, (参考訳) 等式関数の量子アナログは、量子状態恒等問題(quantum state identity problem)と呼ばれ、全ての状態が対の直交あるいは同一であるという約束を前提として、$n$未知の量子状態が等式であるか不等式であるかを決定するタスクである。 一方の誤り条件の下では、置換テストがこのタスクに最適であることが知られており、2つの入力状態についてはよく知られたSwapテストと一致する。 これまで、一般的な二面誤差状態の最適測定は分かっていなかった。 より具体的な約束の下では、円周試験のようなより単純なテストで、ほぼ最適に解ける。 この研究は、量子状態のアイデンティティ問題の基本構造(きめ細かい定式化)を捉えようとする。 半定型プログラミングと表現論のツールを用いて、我々は (i)SDPとして問題を書き、原始プログラム及び二重プログラムに対する厳密な解決策を与え、2つの値が一致することを示すことにより、一方の誤り要件を伴わない任意の入力分布に対して最適なテストを与える。 (ii)任意のサブグループの$G$ of $\text{S}_n$を使い、特定のテストのパフォーマンスを解析的に表現する一般$G$-testを提案する。 (iii)古典的な置換と$n-1$ Swapテストのみを用いて置換テストの近似を与える。

The quantum analogue of the equality function, known as the quantum state identity problem, is the task of deciding whether $n$ unknown quantum states are equal or unequal, given the promise that all states are either pairwise orthogonal or identical. Under the one-sided error requirement, it is known that the permutation test is optimal for this task, and for two input states this coincides with the well-known Swap test. Until now, the optimal measurement in the general two-sided error regime was unknown. Under more specific promises, the problem can be solved approximately or even optimally with simpler tests, such as the circle test. This work attempts to capture the underlying structure of (fine-grained formulations of) the quantum state identity problem. Using tools from semi-definite programming and representation theory, we (i) give an optimal test for any input distribution without the one-sided error requirement by writing the problem as an SDP, giving the exact solutions to the primal and dual programs and showing that the two values coincide; (ii) propose a general $G$-test which uses an arbitrary subgroup $G$ of $\text{S}_n$, giving an analytic expression of the performance of the specific test, and (iii) give an approximation of the permutation test using only a classical permutation and $n-1$ Swap tests.
翻訳日:2024-05-17 15:59:48 公開日:2024-05-15
# クリロフ空間における量子ダイナミクス:方法と応用

Quantum Dynamics in Krylov Space: Methods and Applications ( http://arxiv.org/abs/2405.09628v1 )

ライセンス: Link先を確認
Pratik Nandy, Apollonas S. Matsoukas-Roubeas, Pablo Martínez-Azcona, Anatoly Dymarsky, Adolfo del Campo, (参考訳) 量子系の力学は状態空間や作用素空間(クリロフ空間)の部分空間内で展開する。 このレビューでは、クリロフ部分空間法を用いて、大きなヒルベルト空間を持つ多体系の非平衡現象に重点を置いて、量子進化のコンパクトで効率的な記述を提供する。 これは、ハイゼンベルク図における作用素の量子進化と純粋かつ混合状態に焦点を当てた最近の発展の包括的更新を提供する。 さらに、作用素成長を定量化するためのツールとして、Krylov複雑性と関連するメトリクスの概念、一般化された量子速度制限による境界、普遍的な作用素成長仮説、量子カオス、スクランブル、一般化されたコヒーレント状態との関係について考察する。 開量子系に対するクリロフ構成のいくつかの一般化の比較を示す。 クリャロフ部分空間法の量子場理論、ホログラフィー、可積分性、量子制御、量子コンピューティングへの応用と、現在のオープンな問題に対処する。

The dynamics of quantum systems unfolds within a subspace of the state space or operator space, known as the Krylov space. This review presents the use of Krylov subspace methods to provide a compact and computationally efficient description of quantum evolution, with emphasis on nonequilibrium phenomena of many-body systems with a large Hilbert space. It provides a comprehensive update of recent developments, focused on the quantum evolution of operators in the Heisenberg picture as well as pure and mixed states. It further explores the notion of Krylov complexity and associated metrics as tools for quantifying operator growth, their bounds by generalized quantum speed limits, the universal operator growth hypothesis, and its relation to quantum chaos, scrambling, and generalized coherent states. A comparison of several generalizations of the Krylov construction for open quantum systems is presented. A closing discussion addresses the application of Krylov subspace methods in quantum field theory, holography, integrability, quantum control, and quantum computing, as well as current open problems.
翻訳日:2024-05-17 15:59:48 公開日:2024-05-15
# オープン制御による量子スイッチ不安定性

Quantum switch instabilities with an open control ( http://arxiv.org/abs/2405.09631v1 )

ライセンス: Link先を確認
Otavio A. D. Molitor, André H. A. Malavazi, Roberto Dobal Baldijão, Alexandre C. Orthey Jr., Ismael L. Paiva, Pedro R. Dieguez, (参考訳) 因果秩序の重ね合わせは、様々な量子技術において有望であることを示している。 しかし、環境相互作用から生じる量子システムの脆弱さは、散逸的な振る舞いと不可逆性をもたらし、因果順序の一貫性のある制御における不安定性の可能性についてより深く理解する必要がある。 本研究では,2つの因果順序間の干渉の発生に対するオープン制御系の影響を調べるために衝突モデルを用いる。 任意の2つの量子演算を切り替える際の環境不安定性について検討し,制御後の各制御結果に対する環境温度の影響について検討する。 さらに, 環境の不安定さがプロトコル性能にどのように影響するかを考察し, 相互に偏りのない測定器と, 因果的順序重畳による冷蔵を切り替えることにより, より広範な影響について考察する。

The superposition of causal order shows promise in various quantum technologies. However, the fragility of quantum systems arising from environmental interactions, leading to dissipative behavior and irreversibility, demands a deeper understanding of the possible instabilities in the coherent control of causal orders. In this work, we employ a collisional model to investigate the impact of an open control system on the generation of interference between two causal orders. We present the environmental instabilities for the switch of two arbitrary quantum operations and examine the influence of environmental temperature on each potential outcome of control post-selection. Additionally, we explore how environmental instabilities affect protocol performance, including switching between mutually unbiased measurement observables and refrigeration powered by causal order superposition, providing insights into broader implications.
翻訳日:2024-05-17 15:59:48 公開日:2024-05-15
# パーソナライズされたコンテンツモデレーションと創発的アウトカム

Personalized Content Moderation and Emergent Outcomes ( http://arxiv.org/abs/2405.09640v1 )

ライセンス: Link先を確認
Necdet Gurkan, Mohammed Almarzouq, Pon Rahul Murugaraj, (参考訳) ソーシャルメディアプラットフォームは、コミュニティの規範を守り、オンラインハラスメントとハラスメントを軽減するために、自動コンテンツモデレーションツールを実装している。 最近、これらのプラットフォームはパーソナライズされたコンテンツモデレーション(PCM)を提供し始めており、ユーザーはモデレーション設定を制御したり、アルゴリズムを個々のユーザの好みに合わせることができる。 PCMは、オールワンサイズアプローチの限界に対処し、ユーザーエクスペリエンスを向上させる一方で、ソーシャルメディアプラットフォームにおける創発的な結果にも影響する可能性がある。 本研究は,PCMが非対称情報損失(AIL)につながることを明らかにする。 さらに,PCMツールによってエコーチャンバーやフィルタバブルの作成が促進され,コミュニティの偏光が増大することが実証された。 私たちの研究は、PCMの結果としてAILを識別し、オンラインコミュニティに潜在的に悪影響を及ぼす可能性を強調した初めてのものです。

Social media platforms have implemented automated content moderation tools to preserve community norms and mitigate online hate and harassment. Recently, these platforms have started to offer Personalized Content Moderation (PCM), granting users control over moderation settings or aligning algorithms with individual user preferences. While PCM addresses the limitations of the one-size-fits-all approach and enhances user experiences, it may also impact emergent outcomes on social media platforms. Our study reveals that PCM leads to asymmetric information loss (AIL), potentially impeding the development of a shared understanding among users, crucial for healthy community dynamics. We further demonstrate that PCM tools could foster the creation of echo chambers and filter bubbles, resulting in increased community polarization. Our research is the first to identify AIL as a consequence of PCM and to highlight its potential negative impacts on online communities.
翻訳日:2024-05-17 15:59:48 公開日:2024-05-15
# 光力学系における散逸型可動鏡に結合した2モードの絡み合いダイナミクス

Entanglement dynamics of two modes coupled through a dissipative movable mirror in an optomechanical system ( http://arxiv.org/abs/2405.09641v1 )

ライセンス: Link先を確認
Bruno P. Schnepper, Danilo Cius, Fabiano M. Andrade, (参考訳) 非古典状態 (nonclassical state) は、量子力学における重要な状態のクラスであり、特に量子情報理論におけるその応用のために用いられる。 オプトメカニカルシステムは、これらの状態の探索と利用のための貴重なプラットフォームとして機能する。 本研究では,ミラー・イン・ザ・ミドル光学系の研究に焦点をあてた。 損失がないと、コヒーレントな状態が絡み合った状態になる。 さらに、Schr\"odinger-cat状態の生成は、光学的カップリングに依存することを示した。 我々は,ゴリーニ-コサロコウィンキ-スダルシャン-リンドブラッドマスター方程式を正確に解き,機械的損失を考慮した場合の貯水池の動的影響を強調した。 その後、真空一光子重畳状態について論じ、コンカレンスを量化子として正確な絡み合いのダイナミクスを得た。 以上の結果から,鏡の機械的損失によりシステム全体の絡み合いが減少することが示唆された。

Nonclassical states are an important class of states in quantum mechanics, especially for their applications in quantum information theory. Optomechanical systems serve as an invaluable platform for exploring and harnessing these states test bed for search and application of such states. In this study, we focused on the studied the mirror-in-the-middle optomechanical system. We observed that in the absence of losses, a coherent state evolves into a entangled one. Furthermore, we demonstrate that the generation of a Schr\"odinger-cat state depends on the optomechanical coupling. We exactly solved the Gorini-Kossalokowinki-Sudarshan-Lindblad master equation, highlighting the direct influence of the reservoir on the dynamics when mechanical losses are considered. We later discussed vacuum one-photon superposition states to obtain exact entanglement dynamics using concurrence as a quantifier. Our results show that the overall entanglement of the system is attenuated by mechanical losses in the mirror.
翻訳日:2024-05-17 15:59:48 公開日:2024-05-15
# DMNモデルに基づく意思決定支援チャットボットの自動生成

Automatically generating decision-support chatbots based on DMN models ( http://arxiv.org/abs/2405.09645v1 )

ライセンス: Link先を確認
Bedilia Estrada-Torres, Adela del-Río-Ortega, Manuel Resinas, (参考訳) 意思決定がいかに重要かは、組織の中で最も重要です。 ビジネスロジックの明示的な表現は、特定の決定を行うために必要な基準を特定し、採用し、反復的な決定を自動化するイニシアチブを推進します。 この10年、DMNのような意思決定モデリング標準の採用と、チャットボットのようなソフトウェアツールの採用が急増している。 しかしながら、チャットボットの構築は、ビジネスドメインに関する広範な知識と、ツールを実装するための技術的な知識を必要とするため、簡単な作業ではない。 本稿では,この2つの要件に基づいて,DNM決定モデルに基づく,完全機能的で使いやすい意思決定支援型チャットボットの自動生成手法を提案する。 チャットボットの開発時間を短縮し,ドメイン固有のチャットボットの開発を可能にすることを目的として,チャットボット生成に必要なすべてのフェーズをDemabotツールに実装した。 評価は、潜在的な開発者とエンドユーザによって行われた。 その結果,Demabotは正しいチャットボットを生成し,ユーザとのコミュニケーションを円滑に行うことができることがわかった。 さらに、Demabotsのヘルプとカスタマイズオプションは有用で正しいと考えられており、ツールが開発時間と潜在的なエラーを減らすのに役立つ。

How decisions are being made is of utmost importance within organizations. The explicit representation of business logic facilitates identifying and adopting the criteria needed to make a particular decision and drives initiatives to automate repetitive decisions. The last decade has seen a surge in both the adoption of decision modeling standards such as DMN and the use of software tools such as chatbots, which seek to automate parts of the process by interacting with users to guide them in executing tasks or providing information. However, building a chatbot is not a trivial task, as it requires extensive knowledge of the business domain as well as technical knowledge for implementing the tool. In this paper, we build on these two requirements to propose an approach for the automatic generation of fully functional, ready-to-use decisions-support chatbots based on a DNM decision model. With the aim of reducing chatbots development time and to allowing non-technical users the possibility of developing chatbots specific to their domain, all necessary phases for the generation of the chatbot were implemented in the Demabot tool. The evaluation was conducted with potential developers and end users. The results showed that Demabot generates chatbots that are correct and allow for acceptably smooth communication with the user. Furthermore, Demabots's help and customization options are considered useful and correct, while the tool can also help to reduce development time and potential errors.
翻訳日:2024-05-17 15:59:48 公開日:2024-05-15
# 継続的統合スキップの検出 : 強化学習に基づくアプローチ

Detecting Continuous Integration Skip : A Reinforcement Learning-based Approach ( http://arxiv.org/abs/2405.09657v1 )

ライセンス: Link先を確認
Hajer Mhalla, Mohamed Aymen Saied, (参考訳) ソフトウェア産業は、商用環境とオープンソース環境の両方において、継続的インテグレーション(CI)プラクティスの採用が急増している。 CIプラクティスは、自動ビルドとテストプロセスを採用することで、コード変更のシームレスな統合を促進する。 Travis CIやGitHub Actionsといった一部のフレームワークは、CIプロセスの簡素化と拡張に大きく貢献し、開発チームにとってよりアクセスしやすく、効率的になった。 これらのCIツールが利用可能であるにも関わらず、CI実行に適したコミットを正確にフラグ付けすることや、特に多くの依存関係を持つ大規模プロジェクトでスキップする候補として、開発者は引き続き困難に直面している。 コミットの不正確なフラグ付けは、リソース集約的なテストとビルドプロセスにつながる可能性がある。 CI-skipコミットを検出する問題は、コミットをビルドするか、スキップするかを決めるバイナリ分類タスクとしてモデル化できる。 本研究では,Deep Reinforcement Learning(深層強化学習)技術を利用して,データの不均衡性に対処する最適な決定木分類器を構築することを提案する。 私たちは、GitHubにホストされているさまざまなオープンソースプロジェクトに対して、社内およびクロスプロジェクト検証ベンチマークを実行して、ソリューションを評価しました。

The software industry is experiencing a surge in the adoption of Continuous Integration (CI) practices, both in commercial and open-source environments. CI practices facilitate the seamless integration of code changes by employing automated building and testing processes. Some frameworks, such as Travis CI and GitHub Actions have significantly contributed to simplifying and enhancing the CI process, rendering it more accessible and efficient for development teams. Despite the availability these CI tools , developers continue to encounter difficulties in accurately flagging commits as either suitable for CI execution or as candidates for skipping especially for large projects with many dependencies. Inaccurate flagging of commits can lead to resource-intensive test and build processes, as even minor commits may inadvertently trigger the Continuous Integration process. The problem of detecting CI-skip commits, can be modeled as binary classification task where we decide to either build a commit or to skip it. This study proposes a novel solution that leverages Deep Reinforcement Learning techniques to construct an optimal Decision Tree classifier that addresses the imbalanced nature of the data. We evaluate our solution by running a within and a cross project validation benchmark on diverse range of Open-Source projects hosted on GitHub which showcased superior results when compared with existing state-of-the-art methods.
翻訳日:2024-05-17 15:59:48 公開日:2024-05-15
# 強化学習における高速2時間スケール確率勾配法

Fast Two-Time-Scale Stochastic Gradient Method with Applications in Reinforcement Learning ( http://arxiv.org/abs/2405.09660v1 )

ライセンス: Link先を確認
Sihan Zeng, Thinh T. Doan, (参考訳) 二段階最適化はZeng et al (2024)で導入されたフレームワークであり、強化学習(RL)における様々な政策評価と政策最適化問題を抽象化する。 この2時間スケール最適化フレームワークは、特定の確率的オラクルの下での双レベル最適化と同様に、低レベル問題の解に依存する勾配評価を持つ上位レベル目標を持ち、強い単調作用素の根を求める。 本研究では,従来の手法よりもはるかに高速な収束を実現する2段階最適化手法を提案する。 我々のアプローチの鍵となる考え方は、決定変数を更新する前に、下層と上層の両方の演算子の見積もりを改善する平均的なステップを活用することである。 これらの付加的な平均化ステップは、主変数間の直接結合を排除し、アルゴリズムの性能を高速化する。 提案アルゴリズムの有限時間収束速度を, 強凸性, 凸性, ポリアック・ロジャシエヴィチ条件, 一般凸性など, 基礎となる目的関数の様々な条件下で特徴づける。 これらの値は、標準的な2時間スケール確率近似アルゴリズムの最もよく知られた複雑さよりも大幅に改善される。 RLに適用した場合、提案アルゴリズムが既存の最先端技術に匹敵する新しいオンラインサンプルベース手法にどのように特化しているかを示す。 最後に,RLの数値シミュレーションによる理論的結果を支持する。

Two-time-scale optimization is a framework introduced in Zeng et al. (2024) that abstracts a range of policy evaluation and policy optimization problems in reinforcement learning (RL). Akin to bi-level optimization under a particular type of stochastic oracle, the two-time-scale optimization framework has an upper level objective whose gradient evaluation depends on the solution of a lower level problem, which is to find the root of a strongly monotone operator. In this work, we propose a new method for solving two-time-scale optimization that achieves significantly faster convergence than the prior arts. The key idea of our approach is to leverage an averaging step to improve the estimates of the operators in both lower and upper levels before using them to update the decision variables. These additional averaging steps eliminate the direct coupling between the main variables, enabling the accelerated performance of our algorithm. We characterize the finite-time convergence rates of the proposed algorithm under various conditions of the underlying objective function, including strong convexity, convexity, Polyak-Lojasiewicz condition, and general non-convexity. These rates significantly improve over the best-known complexity of the standard two-time-scale stochastic approximation algorithm. When applied to RL, we show how the proposed algorithm specializes to novel online sample-based methods that surpass or match the performance of the existing state of the art. Finally, we support our theoretical results with numerical simulations in RL.
翻訳日:2024-05-17 15:59:48 公開日:2024-05-15
# IoT-Focused Protocolsを用いたリアルタイムバックエンドデプロイメントの大規模セキュリティ解析

Large-Scale Security Analysis of Real-World Backend Deployments Speaking IoT-Focused Protocols ( http://arxiv.org/abs/2405.09662v1 )

ライセンス: Link先を確認
Carlotta Tagliaro, Martina Komsic, Andrea Continella, Kevin Borgolte, Martina Lindorfer, (参考訳) スマートホームアシスタントから健康デバイスまで、インターネット・オブ・Thingsデバイスは広く普及している。 マシン間通信のセキュリティを理解することが重要です。 以前の作業では、デバイスの脆弱性の特定やプロトコル固有のソリューションの提案に重点が置かれていた。 代わりに、我々は、IoT(Internet-of-Things)プロトコルを大規模に話すバックエンドのセキュリティ、すなわちIoTエコシステム全体のバックボーンを調査します。 当社では,MQTT, CoAP, XMPPという,IoTが大規模分析に使用している3つの実世界のプロトコルに注目しています。 私たちは337,000以上のバックエンドのデータセットを収集し、地理的およびプロバイダデータでそれを拡張し、情報漏洩、弱い認証、サービス拒否という3つの主要なセキュリティ脅威を調査するために、非侵襲的なアクティブな測定を実行します。 我々の結果は、IoTセキュリティエコシステムにおける問題のある未成熟性の定量的証拠を提供する。 その他の問題として、9.44%のバックエンドが情報を公開し、30.38%のCoAP対応バックエンドがサービスアタックの否定に弱いこと、99.84%のMQTT対応バックエンドとXMPP対応バックエンドがセキュアでないトランスポートプロトコルを使用していることが分かる。

Internet-of-Things devices, ranging from smart home assistants to health devices, are pervasive: Forecasts estimate their number to reach 29 billion by 2030. Understanding the security of their machine-to-machine communication is crucial. Prior work focused on identifying devices' vulnerabilities or proposed protocol-specific solutions. Instead, in this paper, we investigate the security of backends speaking Internet-of-Things (IoT) protocols at scale, that is, the backbone of the entire IoT ecosystem. We focus on three real-world protocols used by IoT for our large-scale analysis: MQTT, CoAP, and XMPP. We gather a dataset of over 337,000 backends, augment it with geographical and provider data, and perform non-invasive active measurements to investigate three major security threats: information leakage, weak authentication, and denial of service. Our results provide quantitative evidence of a problematic immaturity in the IoT security ecosystem. Among other issues, we find that 9.44% backends expose information, 30.38% CoAP-speaking backends are vulnerable to denial of service attacks, and 99.84% of MQTT-speaking and XMPP-speaking backends use insecure transport protocols (only 0.16% adopt TLS, of which 70.93% adopt a vulnerable version).
翻訳日:2024-05-17 15:59:48 公開日:2024-05-15
# 古典的および量子マルコフ過程における観測可能な最初の通過時間の変動に関する境界

Bounds on Fluctuations of First Passage Times for Counting Observables in Classical and Quantum Markov Processes ( http://arxiv.org/abs/2405.09669v1 )

ライセンス: Link先を確認
George Bakewell-Smith, Federico Girotti, Mădălin Guţă, Juan P. Garrahan, (参考訳) 古典的および量子マルコフ過程において、軌道観測可能な最初の通過時間(FPT)の統計について検討する。 具体的には、観測可能量をカウントするFPT、すなわち、正の整数で値を取る軌道量の一定のしきい値に達する時間について考察する。 古典的連続時間マルコフ連鎖に対しては、厳密に証明する。 (i)FPTに対する大きな偏差原理(LDP)であって、その法則が多数の強い法則であるもの 2) 動的活動のFPTに対する濃度不等式であって、すべての順序に対する変動の確率に上限を与えるもの 三 任意の計数観測可能なFPTのテールの確率に上限を付けること。 量子マルコフ過程について、我々は厳密に証明する。 (iv) 量子ジャンプの総数 FPT に対する LDP の量子バージョン、およびその後の大数の強法則 (v) 量子ジャンプの総数 FPT に対して束縛された濃度で、全ての順序に対する変動の確率に上限を与えるとともに、厳密な既約条件を満たさない量子リセットプロセスのサブクラスに類似した束縛を与える。 (vi)任意の数のFPTに束縛された尾。 我々の結果は、時間積分量で変動の大きさを上限とするいわゆる「逆熱力学的不確実性関係」に拡張することができる。 簡単な例で結果を説明します。

We study the statistics of first passage times (FPTs) of trajectory observables in both classical and quantum Markov processes. We consider specifically the FPTs of counting observables, that is, the times to reach a certain threshold of a trajectory quantity which takes values in the positive integers and is non-decreasing in time. For classical continuous-time Markov chains we rigorously prove: (i) a large deviation principle (LDP) for FPTs, whose corollary is a strong law of large numbers; (ii) a concentration inequality for the FPT of the dynamical activity, which provides an upper bound to the probability of its fluctuations to all orders; and (iii) an upper bound to the probability of the tails for the FPT of an arbitrary counting observable. For quantum Markov processes we rigorously prove: (iv) the quantum version of the LDP, and subsequent strong law of large numbers, for the FPTs of generic counts of quantum jumps; (v) a concentration bound for the the FPT of total number of quantum jumps, which provides an upper bound to the probability of its fluctuations to all orders, together with a similar bound for the sub-class of quantum reset processes which requires less strict irreducibility conditions; and (vi) a tail bound for the FPT of arbitrary counts. Our results allow to extend to FPTs the so-called "inverse thermodynamic uncertainty relations" that upper bound the size of fluctuations in time-integrated quantities. We illustrate our results with simple examples.
翻訳日:2024-05-17 15:59:48 公開日:2024-05-15
# LoRAは学習を減らし、忘れない

LoRA Learns Less and Forgets Less ( http://arxiv.org/abs/2405.09673v1 )

ライセンス: Link先を確認
Dan Biderman, Jose Gonzalez Ortiz, Jacob Portes, Mansheej Paul, Philip Greengard, Connor Jennings, Daniel King, Sam Havens, Vitaliy Chiley, Jonathan Frankle, Cody Blakeney, John P. Cunningham, (参考訳) Low-Rank Adaptation (LoRA) は、大規模言語モデルのパラメータ効率の高い微調整法である。 LoRAは、選択した重量行列に対して低いランクの摂動のみをトレーニングすることでメモリを節約する。 本研究は,LoRAの性能と,プログラムと数学の2つの対象領域における完全なファインタニングを比較した。 命令の微調整($100Kのプロンプト-レスポンスペア)と事前トレーニング($10Bの非構造化トークン)の両方を検討します。 その結果、ほとんどの環境では、LoRAは完全な微調整を著しく下回っていることがわかった。 それでも、LoRAは望ましい正規化形態を示しており、ベースモデルのパフォーマンスをターゲットドメイン外のタスクでより良く維持する。 また,LoRAは,減量や脱落といった一般的な手法と比較して,より多種多様な世代を維持する上でも有効であることを示す。 完全な微調整は通常のLoRA構成よりも10~100倍大きいランクの摂動を学習し、報告されたギャップのいくつかを説明する。 LoRAを用いたファインタニングのベストプラクティスを提案して結論付けます。

Low-Rank Adaptation (LoRA) is a widely-used parameter-efficient finetuning method for large language models. LoRA saves memory by training only low rank perturbations to selected weight matrices. In this work, we compare the performance of LoRA and full finetuning on two target domains, programming and mathematics. We consider both the instruction finetuning ($\approx$100K prompt-response pairs) and continued pretraining ($\approx$10B unstructured tokens) data regimes. Our results show that, in most settings, LoRA substantially underperforms full finetuning. Nevertheless, LoRA exhibits a desirable form of regularization: it better maintains the base model's performance on tasks outside the target domain. We show that LoRA provides stronger regularization compared to common techniques such as weight decay and dropout; it also helps maintain more diverse generations. We show that full finetuning learns perturbations with a rank that is 10-100X greater than typical LoRA configurations, possibly explaining some of the reported gaps. We conclude by proposing best practices for finetuning with LoRA.
翻訳日:2024-05-17 15:59:48 公開日:2024-05-15
# 統計効率の半径

The radius of statistical efficiency ( http://arxiv.org/abs/2405.09676v1 )

ライセンス: Link先を確認
Joshua Cutler, Mateo Díaz, Dmitriy Drusvyatskiy, (参考訳) 漸近統計学における古典的な結果は、フィッシャー情報行列が観測データから統計モデルを推定することの難しさを制御していることを示している。 本稿では,統計効率の半径(RSE)は,フィッシャー情報行列の特異点を示す問題データに対する最小の摂動の大きさである。 我々は、主成分分析、一般化線形モデル、位相探索、双線形センシング、行列補完など、様々なテストベッド問題に対する RSE の数値定数を計算する。 いずれの場合も、RSEは集団データの共分散と潜在モデルパラメータとの整合性を定量化する。 興味深いことに、RSEと問題インスタンスの内在的複雑性/感度の正確な相互関係を数値解析における古典的エッカート・ヤングの定理と平行に観察する。

Classical results in asymptotic statistics show that the Fisher information matrix controls the difficulty of estimating a statistical model from observed data. In this work, we introduce a companion measure of robustness of an estimation problem: the radius of statistical efficiency (RSE) is the size of the smallest perturbation to the problem data that renders the Fisher information matrix singular. We compute RSE up to numerical constants for a variety of test bed problems, including principal component analysis, generalized linear models, phase retrieval, bilinear sensing, and matrix completion. In all cases, the RSE quantifies the compatibility between the covariance of the population data and the latent model parameter. Interestingly, we observe a precise reciprocal relationship between RSE and the intrinsic complexity/sensitivity of the problem instance, paralleling the classical Eckart-Young theorem in numerical analysis.
翻訳日:2024-05-17 15:59:48 公開日:2024-05-15
# 政策影響のシミュレーション:規制の知覚的影響を評価するための生成シナリオ作成手法の開発

Simulating Policy Impacts: Developing a Generative Scenario Writing Method to Evaluate the Perceived Effects of Regulation ( http://arxiv.org/abs/2405.09679v1 )

ライセンス: Link先を確認
Julia Barnett, Kimon Kieslich, Nicholas Diakopoulos, (参考訳) AI技術の急速な進歩は、個人や社会に多くの将来的な影響をもたらす。 そのため、政策立案者は迅速に対応し、これらの影響を緩和する政策を確立することが義務付けられている。 しかし、ポリシーの有効性を期待することは難しい課題であり、将来的にはいくつかの影響は観測可能であり、それぞれのポリシーは将来のAI開発には適用できない可能性がある。 本研究では,大規模言語モデル(LLM)を用いて,特定の負の影響を緩和する政策の有効性を評価する手法を開発した。 我々は、GPT-4を用いて、ポリシーの事前導入と後導入の両方のシナリオを生成し、これらの鮮やかなストーリーを人間の影響に対する認識に基づくメトリクスに変換する。 我々は、メディア環境における生成AIの影響に関する既に確立された分類を利用して、EU AI法第50条の透明性法により緩和されたシナリオペアと非緩和されたシナリオペアを生成する。 次に、これらのシナリオを4つのリスク評価次元(重度、可視性、大きさ、脆弱な集団に対する特異性)で評価するために、ユーザスタディ(n=234)を実行します。 この透明性法は、労働や幸福といった分野の害を軽減できるが、社会的な結束や安全保障といった分野ではほとんど効果がないと考えられる。 このケーススタディを通じて、我々は、様々なネガティブな影響を緩和する政策の有効性を反復する手段として、我々の方法の有効性を実証する。 我々は、異なる政策または他の緩和戦略の潜在的な実用性をブレインストーミングしたい研究者や他のステークホルダーにとって、この方法が有用であると期待している。

The rapid advancement of AI technologies yields numerous future impacts on individuals and society. Policy-makers are therefore tasked to react quickly and establish policies that mitigate those impacts. However, anticipating the effectiveness of policies is a difficult task, as some impacts might only be observable in the future and respective policies might not be applicable to the future development of AI. In this work we develop a method for using large language models (LLMs) to evaluate the efficacy of a given piece of policy at mitigating specified negative impacts. We do so by using GPT-4 to generate scenarios both pre- and post-introduction of policy and translating these vivid stories into metrics based on human perceptions of impacts. We leverage an already established taxonomy of impacts of generative AI in the media environment to generate a set of scenario pairs both mitigated and non-mitigated by the transparency legislation of Article 50 of the EU AI Act. We then run a user study (n=234) to evaluate these scenarios across four risk-assessment dimensions: severity, plausibility, magnitude, and specificity to vulnerable populations. We find that this transparency legislation is perceived to be effective at mitigating harms in areas such as labor and well-being, but largely ineffective in areas such as social cohesion and security. Through this case study on generative AI harms we demonstrate the efficacy of our method as a tool to iterate on the effectiveness of policy on mitigating various negative impacts. We expect this method to be useful to researchers or other stakeholders who want to brainstorm the potential utility of different pieces of policy or other mitigation strategies.
翻訳日:2024-05-17 15:59:48 公開日:2024-05-15
# インスタンス分割のためのSynth-to-Realunsupervised Domain Adaptation

Synth-to-Real Unsupervised Domain Adaptation for Instance Segmentation ( http://arxiv.org/abs/2405.09682v1 )

ライセンス: Link先を確認
Guo Yachan, Xiao Yi, Xue Danna, Jose Luis Gomez Zurita, Antonio M. López, (参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインから未ラベルのターゲットドメインに学習した知識を転送することを目的としている。 UDA法は, 意味的セグメンテーションやオブジェクト検出などのタスクにおいて顕著な性能を示すが, インスタンスセグメンテーションタスクでは極めて少ない。 本稿では,自律運転におけるインスタンスセグメント化のための合成現実UDAモデルであるUDA4Instを紹介する。 本稿では、ソースドメインとターゲットドメインの両方からのデータを完全に活用するために、インスタンスレベルでの新しいドメイン間双方向データ混合手法を提案する。 希少なクラスバランスとカテゴリモジュールのトレーニングも、パフォーマンスの向上のために採用されている。 このベンチマークはUrbanSyn->Cityscapesで39.0 mAP、Synscapes->Cityscapesで35.7 mAPである。 UDA4Instはまた、最新のアプローチよりも31.3 mAP, +15.6高いSynTHIA->Cityscapesの最先端の結果も達成している。 私たちのコードは解放されます。

Unsupervised Domain Adaptation (UDA) aims to transfer knowledge learned from a labeled source domain to an unlabeled target domain. While UDA methods for synthetic to real-world domains (synth-to-real) show remarkable performance in tasks such as semantic segmentation and object detection, very few were proposed for the instance segmentation task. In this paper, we introduce UDA4Inst, a model of synth-to-real UDA for instance segmentation in autonomous driving. We propose a novel cross-domain bidirectional data mixing method at the instance level to fully leverage the data from both source and target domains. Rare-class balancing and category module training are also employed to further improve the performance. It is worth noting that we are the first to demonstrate results on two new synth-to-real instance segmentation benchmarks, with 39.0 mAP on UrbanSyn->Cityscapes and 35.7 mAP on Synscapes->Cityscapes. UDA4Inst also achieves the state-of-the-art result on SYNTHIA->Cityscapes with 31.3 mAP, +15.6 higher than the latest approach. Our code will be released.
翻訳日:2024-05-17 15:50:04 公開日:2024-05-15
# 薄い六方晶窒化ホウ素中の欠陥からの単一光子放出を促進するプラズモニックナノキャビティ

Plasmonic Nanocavity to Boost Single Photon Emission from Defects in Thin Hexagonal Boron Nitride ( http://arxiv.org/abs/2405.09683v1 )

ライセンス: Link先を確認
Mohammadjavad Dowran, Ufuk Kilic, Suvechhya Lamichhane, Adam Erickson, Joshua Barker, Mathias Schubert, Sy-Hwang Liou, Christos Argyropoulos, Abdelghani Laraoui, (参考訳) 超高速で高輝度で室温で動作する効率よくコンパクトな単一光子放出プラットフォームは、新興量子通信および計算分野の基本的な構成要素である。 しかし、これまでのところ、高速発光速度と強い輝度要求を満たすナノスケール固体材料に基づいて、実用的な決定論的単一光子放出体を設計することは極めて困難である。 本稿では,ヘキサゴナル窒化ホウ素(hBN)フレークと一体化した金属ナノキャビティを用いて,室温でナノスケール単一光子エミッタ(SPE)として機能する欠陥を解決した。 提案したハイブリッドナノフォトニクス構造は、室温での単一光子放出の高速化と大幅な増強を実現する。 したがって、ナノキャビティのない金層構造では、通常のhBNフレークやhBNに比べて、非古典的な発光性能が大幅に向上する。 また、新しいハイブリッドナノフォトニクス系を正確にモデル化し、プラズモンナノキャビティを組み込むことが効率的なSPE性能の鍵であることを証明するために、広範囲な理論計算が実施されている。 提案した量子ナノキャビティ単一光子源は、想定される室温集積量子フォトニクスネットワークにおいて重要な要素であると考えられている。

Efficient and compact single photon emission platforms operating at room temperature with ultrafast speed and high brightness will be fundamental components of the emerging quantum communications and computing fields. However, so far, it has been very challenging to design practical deterministic single photon emitters based on nanoscale solid state materials that meet the fast emission rate and strong brightness demands. Here we provide a solution to this longstanding problem by using metallic nanocavities integrated with hexagonal boron nitride (hBN) flakes with defects acting as nanoscale single photon emitters (SPEs) at room temperature. The presented hybrid nanophotonic structure creates a rapid speedup and large enhancement in single photon emission at room temperature. Hence, the nonclassical light emission performance is substantially improved compared to plain hBN flakes and hBN on gold layered structures without nanocavity. Extensive theoretical calculations are also performed to accurately model the new hybrid nanophotonic system and prove that the incorporation of plasmonic nanocavity is key to the efficient SPE performance. The proposed quantum nanocavity single photon source is expected to be an element of paramount importance to the envisioned room temperature integrated quantum photonic networks.
翻訳日:2024-05-17 15:50:04 公開日:2024-05-15
# 局所から大域的秩序へ:ニューラルシナプスバランスの理論

From Local to Global Order: A Theory of Neural Synaptic Balance ( http://arxiv.org/abs/2405.09688v1 )

ライセンス: Link先を確認
Pierre Baldi, Alireza Rahmansetayesh, (参考訳) 我々は、神経シナプスバランスの理論を開発し、それをニューラルネットワークでどのように実現または強制するかを考察する。 与えられた加算コスト関数$R$(正規化器)に対して、入力重みの総コストが出力重みの総コストと等しい場合、ニューロンは平衡にあると言われる。 基本的な例は、正規化器で訓練されたReLUユニットのフィードフォワードネットワークによって提供され、適切なトレーニング後にバランスを示す。 理論はこの現象を説明し、いくつかの方向に拡張している。 最初の方向は双線型や他の活性化関数の拡張である。 第2の方向はより一般的な正則化器の拡張であり、その中にはすべての$L_p$$(p>0$)正則化器が含まれる。 第3の方向性は、非層アーキテクチャ、繰り返しアーキテクチャ、畳み込みアーキテクチャ、および混合アクティベーション機能を持つアーキテクチャの拡張である。 この理論は、可換なスケーリングと、可換でないバランスという2つの局所的なニューロン操作に基づいている。 最後に、任意の初期重みの集合を考えると、局所的バランス操作が確率的に各ニューロンに適用されるとき、大域的順序は常に確率的バランスアルゴリズムの収束を通じて同じバランスの取れた重みの集合に現れる。 この収束の理由は、関連する変数が線型にのみアーキテクチャに依存した多様体に制約されるような厳密な凸最適化問題の存在である。 この理論は、ベンチマークデータセット上で実行される様々なシミュレーションを通して裏付けられている。 スケーリングとバランスの操作は、完全に局所的であり、したがって生物学的およびニューロモルフィックネットワークにおいて物理的に妥当である。

We develop a theory of neural synaptic balance and how it can emerge or be enforced in neural networks. For a given additive cost function $R$ (regularizer), a neuron is said to be in balance if the total cost of its input weights is equal to the total cost of its output weights. The basic example is provided by feedforward networks of ReLU units trained with $L_2$ regularizers, which exhibit balance after proper training. The theory explains this phenomenon and extends it in several directions. The first direction is the extension to bilinear and other activation functions. The second direction is the extension to more general regularizers, including all $L_p$ ($p>0$) regularizers. The third direction is the extension to non-layered architectures, recurrent architectures, convolutional architectures, as well as architectures with mixed activation functions. The theory is based on two local neuronal operations: scaling which is commutative, and balancing which is not commutative. Finally, and most importantly, given any initial set of weights, when local balancing operations are applied to each neuron in a stochastic manner, global order always emerges through the convergence of the stochastic balancing algorithm to the same unique set of balanced weights. The reason for this convergence is the existence of an underlying strictly convex optimization problem where the relevant variables are constrained to a linear, only architecture-dependent, manifold. The theory is corroborated through various simulations carried out on benchmark data sets. Scaling and balancing operations are entirely local and thus physically plausible in biological and neuromorphic networks.
翻訳日:2024-05-17 15:50:04 公開日:2024-05-15
# 一般化ホログラフィ還元表現

Generalized Holographic Reduced Representations ( http://arxiv.org/abs/2405.09689v1 )

ライセンス: Link先を確認
Calvin Yeung, Zhuowen Zou, Mohsen Imani, (参考訳) 近年、ディープラーニングは目覚ましい成功を収めている。 その成功の中心は、タスク関連構造を保存する表現を学ぶ能力である。 しかし、一般的な表現を学ぶには膨大なエネルギー、計算、データコストが必要である。 本稿では,超次元計算(Hyperdimensional Computing:HDC)について検討する。 HDCは、コネクショナリストとシンボリックアプローチ(AI)の間の橋渡しとして機能し、コネクショナリストアプローチの柔軟性を維持しながら、シンボリックアプローチのように表現構造の明示的な仕様化を可能にする。 しかし、HDCの単純さは複雑な構成構造、特に結合操作を符号化する上での課題を提起する。 そこで本研究では,Fourier Holographic Reduced Representation (FHRR)の拡張であるGeneralized Holographic Reduced Representations (GHRR)を提案する。 GHRRはフレキシブルで非可換なバインディング操作を導入し、HDCの望ましいロバスト性と透明性を保ちながら、複雑なデータ構造の符号化を改善する。 本研究では,GHRRフレームワークを導入し,その理論的性質とHDC特性の付着性を証明し,そのカーネルと結合特性を探索し,その柔軟な非可換性を示す実験を行い,構成構造の復号精度を高め,FHRRと比較して記憶能力を向上させる。

Deep learning has achieved remarkable success in recent years. Central to its success is its ability to learn representations that preserve task-relevant structure. However, massive energy, compute, and data costs are required to learn general representations. This paper explores Hyperdimensional Computing (HDC), a computationally and data-efficient brain-inspired alternative. HDC acts as a bridge between connectionist and symbolic approaches to artificial intelligence (AI), allowing explicit specification of representational structure as in symbolic approaches while retaining the flexibility of connectionist approaches. However, HDC's simplicity poses challenges for encoding complex compositional structures, especially in its binding operation. To address this, we propose Generalized Holographic Reduced Representations (GHRR), an extension of Fourier Holographic Reduced Representations (FHRR), a specific HDC implementation. GHRR introduces a flexible, non-commutative binding operation, enabling improved encoding of complex data structures while preserving HDC's desirable properties of robustness and transparency. In this work, we introduce the GHRR framework, prove its theoretical properties and its adherence to HDC properties, explore its kernel and binding characteristics, and perform empirical experiments showcasing its flexible non-commutativity, enhanced decoding accuracy for compositional structures, and improved memorization capacity compared to FHRR.
翻訳日:2024-05-17 15:50:04 公開日:2024-05-15
# 脳-コンピュータインタフェースによるユーザの嗜好のモデル化

Modeling User Preferences via Brain-Computer Interfacing ( http://arxiv.org/abs/2405.09691v1 )

ライセンス: Link先を確認
Luis A. Leiva, Javier Ttraver, Alexandra Kawala-Sterniuk, Tuukka Ruotsalo, (参考訳) 現在のBrain-Computer Interface (BCI)技術は、認知的および情緒的状態の推測と検出を可能にするが、そのような情報が人間の認知をモデル化する新しいアプリケーションを促進するシナリオを研究するためにはほとんど行われていない。 様々な生理的信号から定量化できる状態の一つに注意がある。 人間の注意の推定は、ユーザー体験の好みや新しい次元を明らかにするために用いられる。 これまでのアプローチでは、居住時間からクリックスルーデータ、そしてこれらの行動信号に対する視覚的対応の計算モデルなど、さまざまな行動信号を使用して、これらの驚くほど難しいタスクに取り組みました。 しかし、行動信号は実際の注意力とユーザの感情的嗜好を大まかに見積もるだけである。 実際、ユーザーは、コンテンツが健全なためだけに出席するかもしれないが、本当に面白いからではなく、非現実的だからだ。 本稿では,ユーザの嗜好を推測するためにBCIを用いた研究課題と実例を提示し,視覚的コンテンツに対する注意関係と情緒的体験との関連について考察した。 その後、情報検索、生成モデルのパーソナライズドステアリング、感情経験のクラウドソーシング人口推定など、関連する応用にリンクする。

Present Brain-Computer Interfacing (BCI) technology allows inference and detection of cognitive and affective states, but fairly little has been done to study scenarios in which such information can facilitate new applications that rely on modeling human cognition. One state that can be quantified from various physiological signals is attention. Estimates of human attention can be used to reveal preferences and novel dimensions of user experience. Previous approaches have tackled these incredibly challenging tasks using a variety of behavioral signals, from dwell-time to click-through data, and computational models of visual correspondence to these behavioral signals. However, behavioral signals are only rough estimations of the real underlying attention and affective preferences of the users. Indeed, users may attend to some content simply because it is salient, but not because it is really interesting, or simply because it is outrageous. With this paper, we put forward a research agenda and example work using BCI to infer users' preferences, their attentional correlates towards visual content, and their associations with affective experience. Subsequently, we link these to relevant applications, such as information retrieval, personalized steering of generative models, and crowdsourcing population estimates of affective experiences.
翻訳日:2024-05-17 15:50:04 公開日:2024-05-15
# モニタリングタスクにおける塩分濃度予測の強化:視覚的ハイライトの役割

Enhancing Saliency Prediction in Monitoring Tasks: The Role of Visual Highlights ( http://arxiv.org/abs/2405.09695v1 )

ライセンス: Link先を確認
Zekun Wu, Anna Maria Feit, (参考訳) 本研究では,ドローン監視作業におけるユーザの注意を誘導する上での視覚的ハイライトの役割を,シミュレートされたインタフェースを用いて検討した。 実験の結果,これらのハイライトは,対応する領域に対する視覚的注意を著しく向上させることができることがわかった。 本研究は,ハイライト中の時間的情報と空間的情報の両方を活用して,ハイライト状態における視覚的注意の変化を推定するために,ハイライトインフォームド・サリエンシ・モデル (HISM) を開発した。 本研究は,視覚的ハイライトがユーザの注意力を高める効果を示し,これらの手がかりを有能性予測モデルに組み込むことの可能性を示した。

This study examines the role of visual highlights in guiding user attention in drone monitoring tasks, employing a simulated interface for observation. The experiment results show that such highlights can significantly expedite the visual attention on the corresponding area. Based on this observation, we leverage both the temporal and spatial information in the highlight to develop a new saliency model: the highlight-informed saliency model (HISM), to infer the visual attention change in the highlight condition. Our findings show the effectiveness of visual highlights in enhancing user attention and demonstrate the potential of incorporating these cues into saliency prediction models.
翻訳日:2024-05-17 15:50:04 公開日:2024-05-15
# 医用画像からの弱教師付ベイズ形状モデリング

Weakly Supervised Bayesian Shape Modeling from Unsegmented Medical Images ( http://arxiv.org/abs/2405.09697v1 )

ライセンス: Link先を確認
Jadie Adams, Krithika Iyer, Shireen Elhabian, (参考訳) 解剖学的形状解析は、形態と機能の関係が最重要である臨床研究と仮説テストにおいて重要な役割を担っている。 対応型統計形状モデリング(SSM)は、人口レベルの形態計測を容易にするが、厄介でバイアスを引き起こす可能性のある建設パイプラインを必要とする。 近年の深層学習の進歩は、未解決の医用画像から直接SSM予測を提供することによって、推論におけるこのプロセスの合理化を図っている。 しかし、提案手法は完全な教師付きであり、従来のSSM構築パイプラインを使用してトレーニングデータを作成する必要があるため、関連する負担と制限を継承する。 これらの課題に対処するために、ポイントクラウド監視を用いた画像からSSMを予測するための弱い教師付きディープラーニングアプローチを導入する。 具体的には,BVIB-DeepSSM(DeepSSM)モデルを用いて,最新のベイズ変量情報ボトルネックに関する監督の削減を提案する。 BVIB-DeepSSMは、動脈とてんかんの両不確かさを定量化した画像から確率的解剖学的形状を予測するための、効果的で原則化されたフレームワークである。 提案手法では,BVIB-DeepSSM法は地上の真理対応点の形での強い監督を必要とするが,提案手法は,より容易に得ることのできる点雲面表現による弱い監督を利用する。 さらに, 提案手法は, 形状コホートにおける予測変動性を前提とせずに, 完全にデータ駆動方式で対応を学習する。 提案手法は,SSM構築のためのモデルトレーニングの実現可能性を大幅に向上させつつ,完全教師付きシナリオに類似した精度と不確かさを推定できることを実証した。

Anatomical shape analysis plays a pivotal role in clinical research and hypothesis testing, where the relationship between form and function is paramount. Correspondence-based statistical shape modeling (SSM) facilitates population-level morphometrics but requires a cumbersome, potentially bias-inducing construction pipeline. Recent advancements in deep learning have streamlined this process in inference by providing SSM prediction directly from unsegmented medical images. However, the proposed approaches are fully supervised and require utilizing a traditional SSM construction pipeline to create training data, thus inheriting the associated burdens and limitations. To address these challenges, we introduce a weakly supervised deep learning approach to predict SSM from images using point cloud supervision. Specifically, we propose reducing the supervision associated with the state-of-the-art fully Bayesian variational information bottleneck DeepSSM (BVIB-DeepSSM) model. BVIB-DeepSSM is an effective, principled framework for predicting probabilistic anatomical shapes from images with quantification of both aleatoric and epistemic uncertainties. Whereas the original BVIB-DeepSSM method requires strong supervision in the form of ground truth correspondence points, the proposed approach utilizes weak supervision via point cloud surface representations, which are more readily obtainable. Furthermore, the proposed approach learns correspondence in a completely data-driven manner without prior assumptions about the expected variability in shape cohort. Our experiments demonstrate that this approach yields similar accuracy and uncertainty estimation to the fully supervised scenario while substantially enhancing the feasibility of model training for SSM construction.
翻訳日:2024-05-17 15:50:04 公開日:2024-05-15
# 非自由ランダウ電子への正準変換

Canonical transformations applied to the non-free Landau electron ( http://arxiv.org/abs/2405.09706v1 )

ライセンス: Link先を確認
Jorge A. Lizarraga, (参考訳) 定磁場の影響下での電子のユニタリ変換によるSchr\"odinger方程式の解法は、非自由ランダウ電子波関数を得るために用いられる。 この波動関数の物理的意味は、変換されたハミルトニアンの保存特性に基づいて議論される。

The method previously used to solve Schr\"odinger equation by a unitary transformation for a electron under the influence of a constant magnetic field is used to obtain a non-free Landau electron wave function. The physical meaning of this wave function is discussed based on the conserved properties of the transformed Hamiltonian.
翻訳日:2024-05-17 15:50:04 公開日:2024-05-15
# Point2SSM++:ポイントクラウドからの解剖学的形状モデルの自己教師付き学習

Point2SSM++: Self-Supervised Learning of Anatomical Shape Models from Point Clouds ( http://arxiv.org/abs/2405.09707v1 )

ライセンス: Link先を確認
Jadie Adams, Shireen Elhabian, (参考訳) 対応型統計形状モデリング(SSM)は臨床研究における形態計測解析の強力な技術である。 SSMは、骨や臓器などの解剖学的形状の個体群レベルでの特徴と定量化を促進し、病理学や疾患の診断、治療計画を支援する。 その可能性にもかかわらず、SSMは、完全な整列形状の表象を必要とする自動工法に関連する重大なオーバーヘッドのため、医学研究において未利用のままである。 さらに、最適化に基づく手法はバイアス誘発仮定やテンプレートに依存しており、コホート全体が同時に最適化されるため、推論時間が長くなる。 これらの課題を克服するために、解剖学的形状のポイントクラウド表現から直接対応点を学習する、原則付き自己教師型ディープラーニングアプローチであるPoint2SSM++を紹介した。 Point2SSM++は不整合かつ一貫性のない入力に対して堅牢であり、個体群レベルの統計を効果的に捉えながら、個々の形状表面を正確に分析するSSMを提供する。 さらに,P2SSM++フレームワークの広範な汎用性を実証し,動的時空間およびマルチ解剖的ユースケースに適応するために,Point2SSM++の原則的拡張を提案する。 さらに,動的時空間およびマルチ解剖シナリオに適したPoint2SSM++の拡張を提案する。 さまざまな解剖学、評価指標、臨床的に関係のある下流タスクの広範な検証を通じて、既存の最先端のディープラーニングモデルや従来のアプローチよりもPoint2SSM++の方が優れていることを示す。 Point2SSM++は、SSM生成の実現可能性を大幅に向上し、臨床応用の可能性を大幅に拡大する。

Correspondence-based statistical shape modeling (SSM) stands as a powerful technology for morphometric analysis in clinical research. SSM facilitates population-level characterization and quantification of anatomical shapes such as bones and organs, aiding in pathology and disease diagnostics and treatment planning. Despite its potential, SSM remains under-utilized in medical research due to the significant overhead associated with automatic construction methods, which demand complete, aligned shape surface representations. Additionally, optimization-based techniques rely on bias-inducing assumptions or templates and have prolonged inference times as the entire cohort is simultaneously optimized. To overcome these challenges, we introduce Point2SSM++, a principled, self-supervised deep learning approach that directly learns correspondence points from point cloud representations of anatomical shapes. Point2SSM++ is robust to misaligned and inconsistent input, providing SSM that accurately samples individual shape surfaces while effectively capturing population-level statistics. Additionally, we present principled extensions of Point2SSM++ to adapt it for dynamic spatiotemporal and multi-anatomy use cases, demonstrating the broad versatility of the Point2SSM++ framework. Furthermore, we present extensions of Point2SSM++ tailored for dynamic spatiotemporal and multi-anatomy scenarios, showcasing the broad versatility of the framework. Through extensive validation across diverse anatomies, evaluation metrics, and clinically relevant downstream tasks, we demonstrate Point2SSM++'s superiority over existing state-of-the-art deep learning models and traditional approaches. Point2SSM++ substantially enhances the feasibility of SSM generation and significantly broadens its array of potential clinical applications.
翻訳日:2024-05-17 15:50:04 公開日:2024-05-15
# 音声適応によるロボットの知性向上

No More Mumbles: Enhancing Robot Intelligibility through Speech Adaptation ( http://arxiv.org/abs/2405.09708v1 )

ライセンス: Link先を確認
Qiaoqiao Ren, Yuanbo Hou, Dick Botteldooren, Tony Belpaeme, (参考訳) 音声言語間の相互作用は対人コミュニケーションの中心であり、人々は異なる個人や環境に柔軟に音声を適応させる。 ロボットが、他のデジタルデバイスを拡張して、その音声に適応する機能を持たず、固定された音声パラメータに頼っていることは驚きであり、ユーザによる理解を妨げていることが多い。 環境・文脈の異なる39名の被験者を対象とした音声理解調査を行った。 実験中、ロボットは異なる音声パラメータを用いて単語を調音し、参加者は音声の認識とロボットの音声に対する主観的な印象の評価の両方を担った。 実験の結果,音質のよい空間は,知性やユーザ体験と正の相関が認められた。 しかし,ユーザとロボット間の距離の増大がユーザ体験を悪化させる一方で,背景を逸脱させると音声認識精度とユーザ満足度は著しく低下した。 次に私たちは、ロボットのための適応的な音声を作った。 そのため、ロボットは、ユーザが特定の環境で音声言語を理解するのがどれほど難しいかを知る必要がある。 環境音環境がいかに煩わしいかを評価する予測モデルを提案し、その結果、この環境で誰かを理解するのがどれほど難しいかを示す。 そこで我々は,環境音響の影響を考慮しつつ,ロボットの音声パラメータを異なるユーザや空間に適応させる畳み込みニューラルネットワークモデルを開発した。 最後に,27名のユーザを対象に評価を行い,固定音声と比較して,適応音声パラメータによる優れた知能とユーザエクスペリエンスを示す。

Spoken language interaction is at the heart of interpersonal communication, and people flexibly adapt their speech to different individuals and environments. It is surprising that robots, and by extension other digital devices, are not equipped to adapt their speech and instead rely on fixed speech parameters, which often hinder comprehension by the user. We conducted a speech comprehension study involving 39 participants who were exposed to different environmental and contextual conditions. During the experiment, the robot articulated words using different vocal parameters, and the participants were tasked with both recognising the spoken words and rating their subjective impression of the robot's speech. The experiment's primary outcome shows that spaces with good acoustic quality positively correlate with intelligibility and user experience. However, increasing the distance between the user and the robot exacerbated the user experience, while distracting background sounds significantly reduced speech recognition accuracy and user satisfaction. We next built an adaptive voice for the robot. For this, the robot needs to know how difficult it is for a user to understand spoken language in a particular setting. We present a prediction model that rates how annoying the ambient acoustic environment is and, consequentially, how hard it is to understand someone in this setting. Then, we develop a convolutional neural network model to adapt the robot's speech parameters to different users and spaces, while taking into account the influence of ambient acoustics on intelligibility. Finally, we present an evaluation with 27 users, demonstrating superior intelligibility and user experience with adaptive voice parameters compared to fixed voice.
翻訳日:2024-05-17 15:50:04 公開日:2024-05-15
# STAR: リアルタイムビデオの推論のためのベンチマーク

STAR: A Benchmark for Situated Reasoning in Real-World Videos ( http://arxiv.org/abs/2405.09711v1 )

ライセンス: Link先を確認
Bo Wu, Shoubin Yu, Zhenfang Chen, Joshua B Tenenbaum, Chuang Gan, (参考訳) 現実世界での推論は状況から逸脱しない。 マシンインテリジェンスにとって、現在の知識を周囲の状況から捉え、それに応じて推論を行う方法は不可欠で難しい。 本稿では、実世界のビデオにおける状況抽象化と論理的質問応答による位置推論能力を評価する新しいベンチマーク「Situated Reasoning in Real-World Videos (STAR Benchmark)」を提案する。 このベンチマークは、人間のアクションやインタラクションに関連する現実世界のビデオの上に構築されています。 データセットには、インタラクション、シーケンス、予測、実現可能性の4つのタイプが含まれている。 我々は,抽出された原子実体と関係(例えば,行動,人,物,関係)を連結したハイパーグラフを用いて実世界の映像の状況を表現する。 視覚的知覚の他に、位置推論には構造化された状況理解と論理的推論も必要である。 質問や回答は手続き的に生成される。 各質問の回答ロジックは、状況ハイパーグラフに基づく関数プログラムによって表現される。 既存のさまざまなビデオ推論モデルを比較して、それらがすべて、この困難な位置推論タスクに苦労していることを確かめる。 さらに、このベンチマークの課題を理解するために、視覚知覚、状況抽象化、言語理解、機能的推論を両立させることができる診断的ニューロシンボリックモデルを提案する。

Reasoning in the real world is not divorced from situations. How to capture the present knowledge from surrounding situations and perform reasoning accordingly is crucial and challenging for machine intelligence. This paper introduces a new benchmark that evaluates the situated reasoning ability via situation abstraction and logic-grounded question answering for real-world videos, called Situated Reasoning in Real-World Videos (STAR Benchmark). This benchmark is built upon the real-world videos associated with human actions or interactions, which are naturally dynamic, compositional, and logical. The dataset includes four types of questions, including interaction, sequence, prediction, and feasibility. We represent the situations in real-world videos by hyper-graphs connecting extracted atomic entities and relations (e.g., actions, persons, objects, and relationships). Besides visual perception, situated reasoning also requires structured situation comprehension and logical reasoning. Questions and answers are procedurally generated. The answering logic of each question is represented by a functional program based on a situation hyper-graph. We compare various existing video reasoning models and find that they all struggle on this challenging situated reasoning task. We further propose a diagnostic neuro-symbolic model that can disentangle visual perception, situation abstraction, language understanding, and functional reasoning to understand the challenges of this benchmark.
翻訳日:2024-05-17 15:50:04 公開日:2024-05-15
# SOK-Bench: 標準化されたオープンワールド知識によるビデオ推論ベンチマーク

SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge ( http://arxiv.org/abs/2405.09713v1 )

ライセンス: Link先を確認
Andong Wang, Bo Wu, Sunli Chen, Zhenfang Chen, Haotian Guan, Wei-Ning Lee, Li Erran Li, Joshua B Tenenbaum, Chuang Gan, (参考訳) 現実世界の視覚的コンテキストやシーンから常識的推論を学ぶことは、高度な人工知能への重要なステップである。 しかし、既存のビデオ推論ベンチマークは、主に事実的または位置的推論のために設計されており、現実世界の広い知識を伴わないため、依然として不十分である。 我々の研究は推論評価、特に動的、オープンワールド、構造化されたコンテキスト知識について深く掘り下げることを目的としています。 44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。 推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。 このようなデータセットを作成するために,LLMとMLLMの組み合わせを指示することにより,質問応答ペア,知識グラフ,合理性を自動かつスケーラブルに生成する手法を提案する。 具体的には、まず、位置決め可能な存在、関係、およびプロセスから、位置決め可能な知識を抽出し、その可視コンテンツを超えたオープンワールドの知識に拡張する。 タスク生成は、イテレーションとして複数の対話を通じて促進され、その後、設計したセルフプロンプトとデモによって修正され、洗練されます。 明確な位置の事実と暗黙のコモンセンスの両方のコーパスを用いて、関連する質問応答ペアと推論プロセスを生成し、最後に品質保証のマニュアルレビューを行う。 我々は,近年の主流である大規模視覚言語モデルをベンチマークで評価し,いくつかの洞察に富んだ結論を得た。 詳細はwww.bobbywu.com/SOKBenchのベンチマークを参照してください。

Learning commonsense reasoning from visual contexts and scenes in real-world is a crucial step toward advanced artificial intelligence. However, existing video reasoning benchmarks are still inadequate since they were mainly designed for factual or situated reasoning and rarely involve broader knowledge in the real world. Our work aims to delve deeper into reasoning evaluations, specifically within dynamic, open-world, and structured context knowledge. We propose a new benchmark (SOK-Bench), consisting of 44K questions and 10K situations with instance-level annotations depicted in the videos. The reasoning process is required to understand and apply situated knowledge and general knowledge for problem-solving. To create such a dataset, we propose an automatic and scalable generation method to generate question-answer pairs, knowledge graphs, and rationales by instructing the combinations of LLMs and MLLMs. Concretely, we first extract observable situated entities, relations, and processes from videos for situated knowledge and then extend to open-world knowledge beyond the visible content. The task generation is facilitated through multiple dialogues as iterations and subsequently corrected and refined by our designed self-promptings and demonstrations. With a corpus of both explicit situated facts and implicit commonsense, we generate associated question-answer pairs and reasoning processes, finally followed by manual reviews for quality assurance. We evaluated recent mainstream large vision-language models on the benchmark and found several insightful conclusions. For more information, please refer to our benchmark at www.bobbywu.com/SOKBench.
翻訳日:2024-05-17 15:50:04 公開日:2024-05-15
# 映像系列の定量的評価のための照度ヒストグラム整合度測定

Illumination Histogram Consistency Metric for Quantitative Assessment of Video Sequences ( http://arxiv.org/abs/2405.09716v1 )

ライセンス: Link先を確認
Long Chen, Mobarakol Islam, Matt Clarkson, Thomas Dowrick, (参考訳) 深層生成モデルの進歩は、ビデオの強化や合成のようなビデオ行列のプロセスを大幅に加速させた。 時空間ビデオモデルの学習には、個々のフレームの視覚的外観に加えて、シーンの時間的ダイナミクスを捉える必要がある。 動的ビデオシーケンスにおける照明の変動を反映した照度一貫性は,映像処理において重要な役割を担っている。 残念なことに、これまでビデオ照明の整合性評価に十分な定量的指標が提案されていない。 本稿では,映像シーケンスの照度一貫性を定量的かつ自動評価するための照度ヒストグラム整合性(IHC)メトリクスを提案する。 IHCは、ビデオシーケンス内の全フレームにわたる照明ヒストグラムの差に基づいて、任意のビデオシーケンスの照度変化を測定する。 具体的には、まず、各フレームの照度マップをRetinexモデルを用いて推定し、次に、各フレームの平均照度ヒストグラムを全フレームにわたる平均演算により算出し、次に、各フレームと平均照度ヒストグラム間の照度ヒストグラムの差を計算し、すべての照度ヒストグラムの差を和算し、ビデオシーケンスの照度変化を表す。 最後に、正規化と減算操作により、照明ヒストグラムの差からIHCスコアを得る。 提案したIHC測定値の性能と,映像系列の照明変動を測定する能力について,実験を行った。 ソースコードは \url{https://github.com/LongChenCV/IHC-Metric} で公開されている。

The advances in deep generative models have greatly accelerate the process of video procession such as video enhancement and synthesis. Learning spatio-temporal video models requires to capture the temporal dynamics of a scene, in addition to the visual appearance of individual frames. Illumination consistency, which reflects the variations of illumination in the dynamic video sequences, play a vital role in video processing. Unfortunately, to date, no well-accepted quantitative metric has been proposed for video illumination consistency evaluation. In this paper, we propose a illumination histogram consistency (IHC) metric to quantitatively and automatically evaluate the illumination consistency of the video sequences. IHC measures the illumination variation of any video sequence based on the illumination histogram discrepancies across all the frames in the video sequence. Specifically, given a video sequence, we first estimate the illumination map of each individual frame using the Retinex model; Then, using the illumination maps, the mean illumination histogram of the video sequence is computed by the mean operation across all the frames; Next, we compute the illumination histogram discrepancy between each individual frame and the mean illumination histogram and sum up all the illumination histogram discrepancies to represent the illumination variations of the video sequence. Finally, we obtain the IHC score from the illumination histogram discrepancies via normalization and subtraction operations. Experiments are conducted to illustrate the performance of the proposed IHC metric and its capability to measure the illumination variations in video sequences. The source code is available on \url{https://github.com/LongChenCV/IHC-Metric}.
翻訳日:2024-05-17 15:50:04 公開日:2024-05-15
# NeRFからガウスプレートへ, そしてバックへ

From NeRFs to Gaussian Splats, and Back ( http://arxiv.org/abs/2405.09717v1 )

ライセンス: Link先を確認
Siming He, Zach Osman, Pratik Chaudhari, (参考訳) 限られた数の(典型的には自我中心の)ビューがあるロボティクスアプリケーションでは、ニューラルラディアンスフィールド(NeRF)のようなパラメトリック表現は、ガウススプラッティング(GS)のような非パラメトリックのビューよりも、トレーニングデータと非常に異なるビューに一般化される。 我々はこの2つを前後に変換する手順を開発する。 提案手法は,NRF (PSNR, SSIM, LPIPS) とGS (リアルタイムレンダリング, 表現の修正能力) の双方の利点を生かし, これらの変換の計算コストは, スクラッチからトレーニングするよりも小さかった。

For robotics applications where there is a limited number of (typically ego-centric) views, parametric representations such as neural radiance fields (NeRFs) generalize better than non-parametric ones such as Gaussian splatting (GS) to views that are very different from those in the training data; GS however can render much faster than NeRFs. We develop a procedure to convert back and forth between the two. Our approach achieves the best of both NeRFs (superior PSNR, SSIM, and LPIPS on dissimilar views, and a compact representation) and GS (real-time rendering and ability for easily modifying the representation); the computational cost of these conversions is minor compared to training the two from scratch.
翻訳日:2024-05-17 15:50:04 公開日:2024-05-15
# 大規模言語モデルアライメントのためのアクティベーションのスペクトル編集

Spectral Editing of Activations for Large Language Model Alignment ( http://arxiv.org/abs/2405.09719v1 )

ライセンス: Link先を確認
Yifu Qiu, Zheng Zhao, Yftah Ziser, Anna Korhonen, Edoardo M. Ponti, Shay B. Cohen, (参考訳) 大規模言語モデル(LLM)は、非現実的あるいは偏見のあるコンテンツを生成するなど、望ましくない振る舞いを示すことが多い。 内部表現の編集は、既存のアライメントメソッドの上にそのような振る舞いを緩和するのに有効であることが示されている。 本稿では, アクティベーションのスペクトル編集(SEA)という新しい推論時間編集手法を提案し, 正の演示と最大共分散の方向へ入力表現を投影し, 負の演示との共分散を最小限に抑えながら, 正の演示と最大共分散の方向へ投影する。 また,特徴関数を用いた非線形編集にも拡張する。 我々は,異なるサイズとモデルファミリの6つのオープンソースLLMを用いて,真偽と偏見に関するベンチマーク実験を行った。 その結果、SEAの有効性、類似したタスクへの一般化、推論とデータの効率性が示された。 また、SEA編集は他のモデル機能に限られた負の影響しか与えないことを示した。

Large language models (LLMs) often exhibit undesirable behaviours, such as generating untruthful or biased content. Editing their internal representations has been shown to be effective in mitigating such behaviours on top of the existing alignment methods. We propose a novel inference-time editing method, namely spectral editing of activations (SEA), to project the input representations into directions with maximal covariance with the positive demonstrations (e.g., truthful) while minimising covariance with the negative demonstrations (e.g., hallucinated). We also extend our method to non-linear editing using feature functions. We run extensive experiments on benchmarks concerning truthfulness and bias with six open-source LLMs of different sizes and model families. The results demonstrate the superiority of SEA in effectiveness, generalisation to similar tasks, as well as inference and data efficiency. We also show that SEA editing only has a limited negative impact on other model capabilities.
翻訳日:2024-05-17 15:50:04 公開日:2024-05-15
# DP-RuL:臨床意思決定支援システムにおける差分的ルール学習

DP-RuL: Differentially-Private Rule Learning for Clinical Decision Support Systems ( http://arxiv.org/abs/2405.09721v1 )

ライセンス: Link先を確認
Josephine Lamp, Lu Feng, David Evans, (参考訳) 厳重なプライバシー上の懸念は、ルールベースの臨床意思決定支援システム(CDSS)における患者データの使用によって生じる。 プライバシ保護CDSSの目標は、個々のクライアントのローカルルールセットから集団ルールセットを学習し、ルールセットに含まれる潜在的な機密情報を保護することである。 本稿では,この問題に焦点をあて,分散CDSSや他の分散設定での使用に適した地域差分プライバシ(LDP)を用いて集団ルールセットを学習するためのフレームワークを開発する。 我々のルール発見プロトコルは、LCPと統合されたモンテカルロ木探索(MCTS)手法を用いて、ルール文法を構造化された方法で検索し、クライアントが持つであろうルール構造を見つける。 ランダム化された応答クエリは、ルール文法内で検索する有望なパスを決定するためにクライアントに送られる。 さらに、各クエリでどれだけのプライバシ損失予算を使うかを動的に決定し、それによってより優れたプライバシ・ユーティリティのトレードオフをもたらす適応的な予算配分手法を導入する。 我々は,3つの臨床データセットを用いてアプローチを評価し,低プライバシー損失予算においても,高いカバレッジ(ルールの幅)と臨床的有用性で人口規則を学習できることを見出した。

Serious privacy concerns arise with the use of patient data in rule-based clinical decision support systems (CDSS). The goal of a privacy-preserving CDSS is to learn a population ruleset from individual clients' local rulesets, while protecting the potentially sensitive information contained in the rulesets. We present the first work focused on this problem and develop a framework for learning population rulesets with local differential privacy (LDP), suitable for use within a distributed CDSS and other distributed settings. Our rule discovery protocol uses a Monte-Carlo Tree Search (MCTS) method integrated with LDP to search a rule grammar in a structured way and find rule structures clients are likely to have. Randomized response queries are sent to clients to determine promising paths to search within the rule grammar. In addition, we introduce an adaptive budget allocation method which dynamically determines how much privacy loss budget to use at each query, resulting in better privacy-utility trade-offs. We evaluate our approach using three clinical datasets and find that we are able to learn population rulesets with high coverage (breadth of rules) and clinical utility even at low privacy loss budgets.
翻訳日:2024-05-17 15:40:20 公開日:2024-05-15
# ネットワークサービス故障診断のためのパラメタライズドエネルギー効率の良い量子カーネル

Parametrized Energy-Efficient Quantum Kernels for Network Service Fault Diagnosis ( http://arxiv.org/abs/2405.09724v1 )

ライセンス: Link先を確認
Hiroshi Yamauchi, Tomah Sogabe, Rodney Van Meter, (参考訳) 量子カーネル学習では、量子コンピュータを用いて特徴ベクトル間の内部積を計算し、サポートベクトルマシン(SVM)のような機械学習モデルでカーネルとして使用されるグラム行列を得る。 しかし、常に高い性能を達成する方法が確立されていない。 本研究では,通信事業者が使用するネットワークサービス障害診断システムの商用データセットを用いて,量子カーネル学習に着目した診断精度について検討し,相対位相角に関する入力データパラメータマッピングとパラメータチューニングにより,量子カーネル生成に用いる汎用量子回路の一部に量子エンタングルメントを適用することにより,従来の手法よりも優れた性能向上と高性能の達成を達成できることを示す。 さらに,IBM の超伝導量子コンピュータ IBM-Kawasaki を用いて量子カーネルの実験的検証を行い,Q-CTRL のファイアオパールの誤り抑制機能を適用してその実用性を検証した。

In quantum kernel learning, the primary method involves using a quantum computer to calculate the inner product between feature vectors, thereby obtaining a Gram matrix used as a kernel in machine learning models such as support vector machines (SVMs). However, a method for consistently achieving high performance has not been established. In this study, we investigate the diagnostic accuracy using a commercial dataset of a network service fault diagnosis system used by telecommunications carriers, focusing on quantum kernel learning, and propose a method to stably achieve high performance.We show significant performance improvements and an efficient achievement of high performance over conventional methods can be attained by applying quantum entanglement in the portion of the general quantum circuit used to create the quantum kernel, through input data parameter mapping and parameter tuning related to relative phase angles. Furthermore, experimental validation of the quantum kernel was conducted using IBM' s superconducting quantum computer IBM-Kawasaki, and its practicality was verified while applying the error suppression feature of Q-CTRL' s Fire Opal.
翻訳日:2024-05-17 15:40:20 公開日:2024-05-15
# 多重バンド非エルミート系の隠れゼロモードと位相

Hidden zero modes and topology of multiband non-Hermitian systems ( http://arxiv.org/abs/2405.09728v1 )

ライセンス: Link先を確認
K. Monkman, J. Sirker, (参考訳) 有限非エルミート系において、零モードの数は必ずしも系の位相を反映しない。 これはバルク境界対応の分解として知られており、これらの系におけるエッジモードの位相的保護に関する誤解を引き起こしている。 ここでは、この分解が起こる理由と、それが典型的に隠れたゼロモード、非常に長寿命なゼロエネルギー励起をもたらすことを示し、これは固有値スペクトルの代わりに特異値を考えるときにのみ明らかである。 さらに、ハミルトニアン$H$を持つ有限マルチバンド非エルミート系において、保護零点の個数を風数$H$と正しく関連付けるために、一般的には随伴する$H^\dagger$とは別の反射ハミルトニアン$\tilde H$を考える必要があることを指摘した。

In a finite non-Hermitian system, the number of zero modes does not necessarily reflect the topology of the system. This is known as the breakdown of the bulk-boundary correspondence and has lead to misconceptions about the topological protection of edge modes in such systems. Here we show why this breakdown does occur and that it typically results in hidden zero modes, extremely long-lived zero energy excitations, which are only revealed when considering the singular value instead of the eigenvalue spectrum. We point out, furthermore, that in a finite multiband non-Hermitian system with Hamiltonian $H$, one needs to consider also the reflected Hamiltonian $\tilde H$, which is in general distinct from the adjoint $H^\dagger$, to properly relate the number of protected zeroes to the winding number of $H$.
翻訳日:2024-05-17 15:40:20 公開日:2024-05-15
# SCI 3.0: 図形イベント表現のためのWebベースのスキーマキュレーションインターフェース

SCI 3.0: A Web-based Schema Curation Interface for Graphical Event Representations ( http://arxiv.org/abs/2405.09733v1 )

ライセンス: Link先を確認
Reece Suchocki, Mary Martin, Martha Palmer, Susan Brown, (参考訳) グローバルイベントの複雑さを理解するには、織布されたサブイベントのWebをナビゲートし、より大きな抽象マクロイベントフレームワークの中で最も影響の大きい要素を特定する必要がある。 この概念は、抽象イベント表現を構造化イベントスキーマとして定義することで、自然言語処理(NLP) %オリジナルに拡張することができる。 構造化されたイベントスキーマの作成を通じて、これらの抽象イベントの表現として機能する。 当社のアプローチの中心にあるのは、Schema Curation Interface 3.0(SCI 3.0)です。これは、生成されたグラフeg内のイベントスキーマプロパティのリアルタイムな編集を容易にするWebアプリケーションです。

To understand the complexity of global events, one must navigate a web of interwoven sub-events, identifying those most impactful elements within the larger, abstract macro-event framework at play. This concept can be extended to the field of natural language processing (NLP) % original: by defining abstract event representations as structured event schemas. through the creation of structured event schemas which can serve as representations of these abstract events. Central to our approach is the Schema Curation Interface 3.0 (SCI 3.0), a web application that facilitates real-time editing of event schema properties within a generated graph e.g., adding, removing, or editing sub-events, entities, and relations directly through an interface.
翻訳日:2024-05-17 15:40:20 公開日:2024-05-15
# ヘノンマップにおける逐次ステップの予測の比較解析

Comparative Analysis of Predicting Subsequent Steps in Hénon Map ( http://arxiv.org/abs/2405.10190v1 )

ライセンス: Link先を確認
Vismaya V S, Alok Hareendran, Bharath V Nair, Sishu Shankar Muni, Martin Lellep, (参考訳) 本稿では,H'enon Mapにおけるその後のステップの予測について,さまざまな機械学習手法を用いて検討する。 H\'enonマップはカオス的な振る舞いで知られており、暗号、画像暗号化、パターン認識など様々な分野で応用されている。 機械学習、特にディープラーニングは、カオス現象を理解し予測するためにますます不可欠になっている。 本研究では,Ranom Forest,Recurrent Neural Network (RNN), Long Short-Term Memory (LSTM) Network, Support Vector Machines (SVM), Feed Forward Neural Networks (FNN) など,さまざまな機械学習モデルの性能を評価する。 その結果、LSTMネットワークは、特に極端な事象予測において、予測精度が優れていることが示唆された。 さらに、LSTMモデルとFNNモデルの比較により、LSTMのアドバンテージが明らかにされている。 本研究は、カオス力学の解明における機械学習の重要性を強調し、カオスシステムにおけるその後のステップを予測する上で、モデル選択とデータセットサイズの重要性を強調する。

This paper explores the prediction of subsequent steps in H\'enon Map using various machine learning techniques. The H\'enon map, well known for its chaotic behaviour, finds applications in various fields including cryptography, image encryption, and pattern recognition. Machine learning methods, particularly deep learning, are increasingly essential for understanding and predicting chaotic phenomena. This study evaluates the performance of different machine learning models including Random Forest, Recurrent Neural Network (RNN), Long Short-Term Memory (LSTM) networks, Support Vector Machines (SVM), and Feed Forward Neural Networks (FNN) in predicting the evolution of the H\'enon map. Results indicate that LSTM network demonstrate superior predictive accuracy, particularly in extreme event prediction. Furthermore, a comparison between LSTM and FNN models reveals the LSTM's advantage, especially for longer prediction horizons and larger datasets. This research underscores the significance of machine learning in elucidating chaotic dynamics and highlights the importance of model selection and dataset size in forecasting subsequent steps in chaotic systems.
翻訳日:2024-05-17 13:52:46 公開日:2024-05-15
# TinyMLシステムのオンデバイスオンライン学習と意味管理

On-device Online Learning and Semantic Management of TinyML Systems ( http://arxiv.org/abs/2405.07601v2 )

ライセンス: Link先を確認
Haoyu Ren, Xue Li, Darko Anicic, Thomas A. Runkler, (参考訳) Tiny Machine Learning(TinyML)の最近の進歩は、リアルタイムオンデバイス機械学習のためのローフットプリント組み込みデバイスに力を与える。 TinyMLの潜在的なメリットを認めている人は多いが、その実践的実装にはユニークな課題がある。 本研究の目的は,単一TinyMLモデルのプロトタイピングと信頼性の高いTinyMLシステムの開発のギャップを埋めることである。 既存のTinyMLソリューションは主に推論に重点を置いており、モデルは強力なマシン上でオフラインでトレーニングされ、静的オブジェクトとしてデプロイされる。 しかし、静的モデルは、入力データ分布の進化により実世界では性能が劣る可能性がある。 我々は,制約のあるデバイス上でのトレーニングを可能にするオンライン学習を提案し,最新のフィールド条件に局所モデルを適用する。 2)現在のデバイス上での学習手法は,異種展開条件や多数のデバイスに適用した場合のラベル付きデータの不足に苦慮している。 オンライン学習を取り入れたフェデレーション型メタラーニングを導入し、モデル一般化を強化し、迅速な学習を容易にする。 このアプローチは、知識共有による分散デバイス間の最適性能を保証する。 (3) TinyMLの主な利点は広く採用されていることである。 組み込みデバイスとTinyMLモデルは極端な効率を優先し、メモリやセンサーからモデルアーキテクチャまでさまざまな特性をもたらす。 多様性と非標準化された表現を考えると、TinyMLシステムがスケールアップするにつれて、これらのリソースの管理は困難になる。 モデルとデバイスを大規模に管理するためのセマンティックマネジメントを提案する。 提案手法を基本的な回帰例を用いて実証し,手書き文字画像分類,キーワード音声分類,スマートビルディング存在検出の3つの現実的TinyMLアプリケーションで評価し,提案手法の有効性を確認した。

Recent advances in Tiny Machine Learning (TinyML) empower low-footprint embedded devices for real-time on-device Machine Learning. While many acknowledge the potential benefits of TinyML, its practical implementation presents unique challenges. This study aims to bridge the gap between prototyping single TinyML models and developing reliable TinyML systems in production: (1) Embedded devices operate in dynamically changing conditions. Existing TinyML solutions primarily focus on inference, with models trained offline on powerful machines and deployed as static objects. However, static models may underperform in the real world due to evolving input data distributions. We propose online learning to enable training on constrained devices, adapting local models towards the latest field conditions. (2) Nevertheless, current on-device learning methods struggle with heterogeneous deployment conditions and the scarcity of labeled data when applied across numerous devices. We introduce federated meta-learning incorporating online learning to enhance model generalization, facilitating rapid learning. This approach ensures optimal performance among distributed devices by knowledge sharing. (3) Moreover, TinyML's pivotal advantage is widespread adoption. Embedded devices and TinyML models prioritize extreme efficiency, leading to diverse characteristics ranging from memory and sensors to model architectures. Given their diversity and non-standardized representations, managing these resources becomes challenging as TinyML systems scale up. We present semantic management for the joint management of models and devices at scale. We demonstrate our methods through a basic regression example and then assess them in three real-world TinyML applications: handwritten character image classification, keyword audio classification, and smart building presence detection, confirming our approaches' effectiveness.
翻訳日:2024-05-17 11:06:23 公開日:2024-05-15
# Polar Encoding: 欠落した値の分類のためのシンプルなベースラインアプローチ

Polar Encoding: A Simple Baseline Approach for Classification with Missing Values ( http://arxiv.org/abs/2210.01905v4 )

ライセンス: Link先を確認
Oliver Urs Lenz, Daniel Peralta, Chris Cornelis, (参考訳) 分類文脈で使用する値の欠如を伴う分類的および数値的な$[0,1]$値属性の表現である極符号化を提案する。 これは良いベースラインアプローチであり、どんな分類アルゴリズムでも使用でき、不足情報を保存でき、非常に簡単に適用でき、優れた性能を提供するからである。 特に、既存の欠落指標のアプローチとは異なり、計算を必要とせず、欠落した値が非欠落値と等価であることを保証し、決定木アルゴリズムが欠落した値を分割する方法を選択して、"属性に組み込まれた欠落"(MIA)提案を実践的に実現できるようにする。 さらに、分類的および$[0,1]$値の属性は、バリ中心座標の古典的な概念に対応する単一属性型の特別な場合と見なせることを示し、これは1ホット符号化のファジファイド形式として極符号化の自然な解釈を提供する。 その結果,20個の実生活データセットと欠落値を用いた実験により, 偏極符号化は, 最先端の手法である「連鎖方程式による多重計算」(MICE) や「復号化オートエンコーダによる多重計算」(MIDAS) よりも優れており, 分類器によっては, 欠落指標による平均/モードの計算よりも優れていることを示した。

We propose polar encoding, a representation of categorical and numerical $[0,1]$-valued attributes with missing values to be used in a classification context. We argue that this is a good baseline approach, because it can be used with any classification algorithm, preserves missingness information, is very simple to apply and offers good performance. In particular, unlike the existing missing-indicator approach, it does not require imputation, ensures that missing values are equidistant from non-missing values, and lets decision tree algorithms choose how to split missing values, thereby providing a practical realisation of the "missingness incorporated in attributes" (MIA) proposal. Furthermore, we show that categorical and $[0,1]$-valued attributes can be viewed as special cases of a single attribute type, corresponding to the classical concept of barycentric coordinates, and that this offers a natural interpretation of polar encoding as a fuzzified form of one-hot encoding. With an experiment based on twenty real-life datasets with missing values, we show that, in terms of the resulting classification performance, polar encoding performs better than the state-of-the-art strategies "multiple imputation by chained equations" (MICE) and "multiple imputation with denoising autoencoders" (MIDAS) and -- depending on the classifier -- about as well or better than mean/mode imputation with missing-indicators.
翻訳日:2024-05-16 22:33:52 公開日:2024-05-15
# 簡単な注意:変圧器を用いた時間的予測のための簡単な注意機構

Easy attention: A simple attention mechanism for temporal predictions with transformers ( http://arxiv.org/abs/2308.12874v3 )

ライセンス: Link先を確認
Marcial Sanchis-Agudo, Yuning Wang, Roger Arnau, Luca Guastoni, Jasmin Lim, Karthik Duraisamy, Ricardo Vinuesa, (参考訳) カオスシステムの時間力学予測に使用されるトランスフォーマーニューラルネットワークのロバスト性を改善するために,時系列再構成と予測で示す,容易な注意機構と呼ばれる新しい注意機構を提案する。 通常のセルフアテンションはクエリとキーの内部積のみを利用するが、キー、クエリ、ソフトマックスは、時間的シーケンスにおける長期的な依存関係をキャプチャするために必要なアテンションスコアを得るのに必要ではないことが示されている。 さらに,ソフトマックスアテンションスコアの特異値分解(SVD)を通じて,アテンションスコアによる空間内のクエリとキーの両方からのコントリビューションを自己アテンションが圧縮することを示した。 そこで,本提案手法は注意点を直接学習可能なパラメータとして扱う。 この手法は、カオスシステムの時間的ダイナミクスを再構築し、予測する際に、自己注意や広く使用される長期記憶(LSTM)ネットワークよりも堅牢性が高く、複雑さが少ない場合に優れた結果をもたらす。 本稿では, ローレンツシステム, 乱流せん断流れ, 原子炉モデルにおける簡易拘束法の性能向上について述べる。

To improve the robustness of transformer neural networks used for temporal-dynamics prediction of chaotic systems, we propose a novel attention mechanism called easy attention which we demonstrate in time-series reconstruction and prediction. While the standard self attention only makes use of the inner product of queries and keys, it is demonstrated that the keys, queries and softmax are not necessary for obtaining the attention score required to capture long-term dependencies in temporal sequences. Through the singular-value decomposition (SVD) on the softmax attention score, we further observe that self attention compresses the contributions from both queries and keys in the space spanned by the attention score. Therefore, our proposed easy-attention method directly treats the attention scores as learnable parameters. This approach produces excellent results when reconstructing and predicting the temporal dynamics of chaotic systems exhibiting more robustness and less complexity than self attention or the widely-used long short-term memory (LSTM) network. We show the improved performance of the easy-attention method in the Lorenz system, a turbulence shear flow and a model of a nuclear reactor.
翻訳日:2024-05-16 22:33:52 公開日:2024-05-15
# Kid-Whisper: VS. 成人向け自動音声認識における性能ギャップのブリッジ化に向けて

Kid-Whisper: Towards Bridging the Performance Gap in Automatic Speech Recognition for Children VS. Adults ( http://arxiv.org/abs/2309.07927v3 )

ライセンス: Link先を確認
Ahmed Adel Attia, Jing Liu, Wei Ai, Dorottya Demszky, Carol Espy-Wilson, (参考訳) 近年、Whisperによって実証された自動音声認識(ASR)システムの進歩は、十分なデータから人間レベルの性能にアプローチする可能性を示している。 しかし、この進歩は、適切な子固有のデータベースが限られており、子供の発話の特徴が異なるため、子供向けのASRに容易には及ばない。 MyScience Tutor (MyST) の音声コーパスを活用して, 子どもの音声認識におけるWhisperの性能向上を図った。 彼らは限られたテストセットでいくつかの改善を実演することができた。 本稿では、より効率的なデータ前処理により、MySTデータセットの有用性を高めることにより、これらの知見に基づいて構築する。 We reduce the Word Error Rate (WER) on the MyST testet 13.93% to 9.11% with Whisper-Small and from 13.23% to 8.61% with Whisper-Medium and show that this improve can be generalized to unseen datasets。 また,子どものASRパフォーマンス向上に向けた重要な課題も強調した。 その結果,Whisperの有効かつ効率的な統合が,効果的な子どもの音声認識に有効であることが示唆された。

Recent advancements in Automatic Speech Recognition (ASR) systems, exemplified by Whisper, have demonstrated the potential of these systems to approach human-level performance given sufficient data. However, this progress doesn't readily extend to ASR for children due to the limited availability of suitable child-specific databases and the distinct characteristics of children's speech. A recent study investigated leveraging the My Science Tutor (MyST) children's speech corpus to enhance Whisper's performance in recognizing children's speech. They were able to demonstrate some improvement on a limited testset. This paper builds on these findings by enhancing the utility of the MyST dataset through more efficient data preprocessing. We reduce the Word Error Rate (WER) on the MyST testset 13.93% to 9.11% with Whisper-Small and from 13.23% to 8.61% with Whisper-Medium and show that this improvement can be generalized to unseen datasets. We also highlight important challenges towards improving children's ASR performance. The results showcase the viable and efficient integration of Whisper for effective children's speech recognition.
翻訳日:2024-05-16 22:33:52 公開日:2024-05-15
# AirIMU:慣性オドメトリーにおける不確実性伝播の学習

AirIMU: Learning Uncertainty Propagation for Inertial Odometry ( http://arxiv.org/abs/2310.04874v4 )

ライセンス: Link先を確認
Yuheng Qiu, Chen Wang, Can Xu, Yutian Chen, Xunfei Zhou, Youjie Xia, Sebastian Scherer, (参考訳) ストラップダウン慣性測定ユニット(IMU)を用いた慣性計測(IO)は、正確な向きと位置追跡が不可欠である多くのロボットアプリケーションにおいて重要である。 従来の運動モデルに基づくIO法では、単純化された線形化IMUノイズモデルを用いることが多いため、環境障害や機械的欠陥から生じる非決定論的誤差のモデル化に困難が伴うことが多い。 対照的に、データ駆動型IO手法はセンサーの動きを正確にモデル化するのに苦労し、しばしば一般化可能性や相互運用性の問題に繋がる。 これらの課題に対処するために,データ駆動手法による不確実性,特に非決定論的誤差を推定し,モデルに基づく手法による一般化能力を高めるためのハイブリッドアプローチであるAirIMUを提案する。 低コストの自動車グレードからハイエンドのナビゲーショングレードまで,全スペクトルのIMUを用いたAirIMUの適応性を示す。 また、ハンドヘルドデバイス、車両、および262kmの軌道をカバーするヘリコプターなど、さまざまなプラットフォーム上での有効性を検証する。 In the ablation study, we validate the effective of our learned uncertainty in a IMU-GPS pose graph optimization experiment, achieved a 31.6\% improve in accuracy。 実験により、IMUノイズ補正と不確実性推定を共同でトレーニングすることは、両方のタスクに相乗的に有用であることが示された。

Inertial odometry (IO) using strap-down inertial measurement units (IMUs) is critical in many robotic applications where precise orientation and position tracking are essential. Prior kinematic motion model-based IO methods often use a simplified linearized IMU noise model and thus usually encounter difficulties in modeling non-deterministic errors arising from environmental disturbances and mechanical defects. In contrast, data-driven IO methods struggle to accurately model the sensor motions, often leading to generalizability and interoperability issues. To address these challenges, we present AirIMU, a hybrid approach to estimate the uncertainty, especially the non-deterministic errors, by data-driven methods and increase the generalization abilities using model-based methods. We demonstrate the adaptability of AirIMU using a full spectrum of IMUs, from low-cost automotive grades to high-end navigation grades. We also validate its effectiveness on various platforms, including hand-held devices, vehicles, and a helicopter that covers a trajectory of 262 kilometers. In the ablation study, we validate the effectiveness of our learned uncertainty in an IMU-GPS pose graph optimization experiment, achieving a 31.6\% improvement in accuracy. Experiments demonstrate that jointly training the IMU noise correction and uncertainty estimation synergistically benefits both tasks.
翻訳日:2024-05-16 22:33:52 公開日:2024-05-15
# Sourcerer:サンプルベース最大エントロピー源分布推定

Sourcerer: Sample-based Maximum Entropy Source Distribution Estimation ( http://arxiv.org/abs/2402.07808v2 )

ライセンス: Link先を確認
Julius Vetter, Guy Moss, Cornelius Schröder, Richard Gao, Jakob H. Macke, (参考訳) 科学的モデリングアプリケーションは、しばしば観測のデータセットと整合したパラメータの分布を推定する必要がある。 しかし、多くの異なるソース分布がデータ一貫性シミュレーションの同じ分布を生成する可能性があるため、この問題は悪用される可能性がある。 等しく有効な情報源の中から原則的選択を行うために,最大エントロピー分布,すなわち可能な限り不確実性を維持することを優先する手法を提案する。 提案手法は,Sliced-Wasserstein距離を利用して,データセットとシミュレーションの差を計測し,難易度の高いシミュレータに適合する。 提案手法をいくつかのタスクでベンチマークし, シミュレーションの忠実さを犠牲にすることなく, 従来の推定手法よりもかなり高いエントロピーでソース分布を復元できることを実証した。 最後に,本手法の有用性を実証するために,何千もの単一ニューロン計測を用いた実験データセットから,Hodgkin-Huxleyモデルのパラメータのソース分布を推定する。 本稿では,科学シミュレーションパラメータのソース分布を可能な限り不確実性を維持しつつ推定する原理的手法を提案する。

Scientific modeling applications often require estimating a distribution of parameters consistent with a dataset of observations - an inference task also known as source distribution estimation. This problem can be ill-posed, however, since many different source distributions might produce the same distribution of data-consistent simulations. To make a principled choice among many equally valid sources, we propose an approach which targets the maximum entropy distribution, i.e., prioritizes retaining as much uncertainty as possible. Our method is purely sample-based - leveraging the Sliced-Wasserstein distance to measure the discrepancy between the dataset and simulations - and thus suitable for simulators with intractable likelihoods. We benchmark our method on several tasks, and show that it can recover source distributions with substantially higher entropy than recent source estimation methods, without sacrificing the fidelity of the simulations. Finally, to demonstrate the utility of our approach, we infer source distributions for parameters of the Hodgkin-Huxley model from experimental datasets with thousands of single-neuron measurements. In summary, we propose a principled method for inferring source distributions of scientific simulator parameters while retaining as much uncertainty as possible.
翻訳日:2024-05-16 22:33:52 公開日:2024-05-15
# Unbiased Learning to Rankが現実に到達 - Baiduの大規模検索データセットから学んだこと

Unbiased Learning to Rank Meets Reality: Lessons from Baidu's Large-Scale Search Dataset ( http://arxiv.org/abs/2404.02543v3 )

ライセンス: Link先を確認
Philipp Hager, Romain Deffayet, Jean-Michel Renders, Onno Zoeter, Maarten de Rijke, (参考訳) Unbiased Learning-to-rank(ULTR)は、ユーザのクリックから学習するための、確立されたフレームワークである。 理論上は正当化され、シミュレーションで広範囲にテストされたが、ULTR技術は特に現代の検索エンジンでは実証的な検証を欠いている。 Baiduの検索エンジンから収集されたWSDM Cup 2023向けにリリースされたBaidu-ULTRデータセットは、著名なULTR技術の実際のパフォーマンスを評価する稀な機会を提供する。 WSDMカップ2023およびその後のNTCIR ULTRE-2タスクにおける複数の提案にもかかわらず、観察された改善がULTRや他の学習技術の適用に起因するかどうかは不明である。 本研究では,Baidu-ULTRデータセット上で利用可能な実験を再検討し,拡張する。 標準のアンバイアスド・ラーニング・ツー・ランク技術は、クリック予測を堅牢に改善するが、ランキングの損失とクエリ文書の特徴の選択によって得られる大きな違いを考えると、常にランク付け性能を改善するのに苦慮している。 提案実験により, クリック予測におけるゲインは, 専門家関連アノテーションのランク付け性能の向上に必ずしも寄与しないことが明らかとなった。

Unbiased learning-to-rank (ULTR) is a well-established framework for learning from user clicks, which are often biased by the ranker collecting the data. While theoretically justified and extensively tested in simulation, ULTR techniques lack empirical validation, especially on modern search engines. The Baidu-ULTR dataset released for the WSDM Cup 2023, collected from Baidu's search engine, offers a rare opportunity to assess the real-world performance of prominent ULTR techniques. Despite multiple submissions during the WSDM Cup 2023 and the subsequent NTCIR ULTRE-2 task, it remains unclear whether the observed improvements stem from applying ULTR or other learning techniques. In this work, we revisit and extend the available experiments on the Baidu-ULTR dataset. We find that standard unbiased learning-to-rank techniques robustly improve click predictions but struggle to consistently improve ranking performance, especially considering the stark differences obtained by choice of ranking loss and query-document features. Our experiments reveal that gains in click prediction do not necessarily translate to enhanced ranking performance on expert relevance annotations, implying that conclusions strongly depend on how success is measured in this benchmark.
翻訳日:2024-05-16 22:33:52 公開日:2024-05-15
# 大言語モデルにおける不確かさ表現がユーザ信頼と信頼に与える影響について

"I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust ( http://arxiv.org/abs/2405.00623v2 )

ライセンス: Link先を確認
Sunnie S. Y. Kim, Q. Vera Liao, Mihaela Vorvoreanu, Stephanie Ballard, Jennifer Wortman Vaughan, (参考訳) 広範にデプロイされた大きな言語モデル(LLM)は、説得力のあるが誤ったアウトプットを生成することができる。 このような過度な信頼性を減らすため、LDMはエンドユーザに不確実性を伝えるよう要求されている。 しかし,LLMの不確実性表現に対する利用者の認識と行動について,実証的な研究はほとんど行われていない。 我々は,この疑問を,SF的なLLM注入検索エンジンから回答を得るか否かに関わらず,参加者が医療質問に回答する,大規模で事前登録された人物体実験(N=404)を通して探求する。 行動と自己報告の両方の尺度を用いて、不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを検討する。 第一人称表現(例えば「私は確信していないが...」)は、参加者のシステムに対する信頼度を低下させ、参加者の正確性を高めながら、システムの回答に同調する傾向にある。 探索的な分析では、この増加は誤った答えに対する過度な信頼を減らした(しかし完全に排除されていない)ことに起因することが示唆されている。 一般的な見地から表現された不確実性に対する同様の効果(例えば、"それは明確ではないが...")を観察する一方で、これらの効果はより弱く統計的に有意ではない。 以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。 これにより、LLMを大規模にデプロイする前に、ユーザテストの重要性が強調される。

Widely deployed large language models (LLMs) can produce convincing yet incorrect outputs, potentially misleading users who may rely on them as if they were correct. To reduce such overreliance, there have been calls for LLMs to communicate their uncertainty to end users. However, there has been little empirical work examining how users perceive and act upon LLMs' expressions of uncertainty. We explore this question through a large-scale, pre-registered, human-subject experiment (N=404) in which participants answer medical questions with or without access to responses from a fictional LLM-infused search engine. Using both behavioral and self-reported measures, we examine how different natural language expressions of uncertainty impact participants' reliance, trust, and overall task performance. We find that first-person expressions (e.g., "I'm not sure, but...") decrease participants' confidence in the system and tendency to agree with the system's answers, while increasing participants' accuracy. An exploratory analysis suggests that this increase can be attributed to reduced (but not fully eliminated) overreliance on incorrect answers. While we observe similar effects for uncertainty expressed from a general perspective (e.g., "It's not clear, but..."), these effects are weaker and not statistically significant. Our findings suggest that using natural language expressions of uncertainty may be an effective approach for reducing overreliance on LLMs, but that the precise language used matters. This highlights the importance of user testing before deploying LLMs at scale.
翻訳日:2024-05-16 22:33:52 公開日:2024-05-15
# DDE-Find: 雑音データから遅延微分方程式を学習する

DDE-Find: Learning Delay Differential Equations from Noisy, Limited Data ( http://arxiv.org/abs/2405.02661v2 )

ライセンス: Link先を確認
Robert Stephany, (参考訳) 遅延微分方程式(Delay Differential Equations, DDE)は、様々な科学的現象をモデル化できる微分方程式のクラスである。 しかし、DDEの予測を実験結果と一致させるパラメータ、特に遅延時間を特定することは困難である。 DDEのパラメータ、時間遅延、初期条件関数を学習するためのデータ駆動フレームワークであるDDE-Findを紹介する。 DDE-Findは、モデルパラメータに対する損失関数の勾配を効率的に計算するために、随伴型アプローチを用いる。 我々は,隣接体を用いて損失の勾配の表現を動機付け,厳密に証明する。 DDE-Findは、データからDDEを学ぶための最近の発展の上に構築され、データからDDEを学ぶための最初の完全なフレームワークを提供する。 数値実験を通じて,DDE-Findはノイズの多い限られたデータからDDEを学習できることを実証した。

Delay Differential Equations (DDEs) are a class of differential equations that can model diverse scientific phenomena. However, identifying the parameters, especially the time delay, that make a DDE's predictions match experimental results can be challenging. We introduce DDE-Find, a data-driven framework for learning a DDE's parameters, time delay, and initial condition function. DDE-Find uses an adjoint-based approach to efficiently compute the gradient of a loss function with respect to the model parameters. We motivate and rigorously prove an expression for the gradients of the loss using the adjoint. DDE-Find builds upon recent developments in learning DDEs from data and delivers the first complete framework for learning DDEs from data. Through a series of numerical experiments, we demonstrate that DDE-Find can learn DDEs from noisy, limited data.
翻訳日:2024-05-16 22:33:52 公開日:2024-05-15
# 周波数原理: フーリエ解析はディープニューラルネットワークに光を放つ

Frequency Principle: Fourier Analysis Sheds Light on Deep Neural Networks ( http://arxiv.org/abs/1901.06523v6 )

ライセンス: Link先を確認
Zhi-Qin John Xu, Yaoyu Zhang, Tao Luo, Yanyang Xiao, Zheng Ma, (参考訳) 本稿では,フーリエ解析の観点から,ディープニューラルネットワーク(DNN)の学習過程について検討する。 我々は、MNIST/CIFAR10のような高次元のベンチマークデータセットとVGG16のようなディープニューラルネットワークに、非常に普遍的な周波数原理(F-Principle) -- DNNが、しばしば低から高頻度のターゲット関数に適合することを示す。 このDNNのF原理は、従来の反復的数値スキーム(例えばヤコビ法)の挙動とは逆であり、様々な科学計算問題に対してより高速な収束を示す。 単純な理論では、このF-原理はよく使われる活性化関数の正則性から生じる。 F-Principleは、DNNが低周波関数でトレーニングデータに適合する傾向があるという暗黙のバイアスを意味する。 この理解は、ほとんどの実データセット上でのDNNの適切な一般化と、パリティ関数やランダム化されたデータセット上でのDNNの悪い一般化の説明を提供する。

We study the training process of Deep Neural Networks (DNNs) from the Fourier analysis perspective. We demonstrate a very universal Frequency Principle (F-Principle) -- DNNs often fit target functions from low to high frequencies -- on high-dimensional benchmark datasets such as MNIST/CIFAR10 and deep neural networks such as VGG16. This F-Principle of DNNs is opposite to the behavior of most conventional iterative numerical schemes (e.g., Jacobi method), which exhibit faster convergence for higher frequencies for various scientific computing problems. With a simple theory, we illustrate that this F-Principle results from the regularity of the commonly used activation functions. The F-Principle implies an implicit bias that DNNs tend to fit training data by a low-frequency function. This understanding provides an explanation of good generalization of DNNs on most real datasets and bad generalization of DNNs on parity function or randomized dataset.
翻訳日:2024-05-16 18:49:58 公開日:2024-05-15
# 電磁誘導透過による温アルカリ蒸気中の緩やかな光の生成

Producing slow light in warm alkali vapor using electromagnetically induced transparency ( http://arxiv.org/abs/2011.09229v4 )

ライセンス: Link先を確認
Kenneth DeRose, Kefeng Jiang, Jianqiao Li, Macbeth Julius, Linzhao Zhuo, Scott Wenner, S. Bali, (参考訳) 我々は,400m/s未満の速度で高温のルビジウム蒸気を伝播する光パルスを,cより100万倍近い速度で生成する方法について,学生に親しみやすい指導を行った。 我々は、低速光パルス発生における電磁誘導透過(EIT)の役割を解明し、必要な実験条件を達成する方法について論じる。 光セットアップを提示し、必要な大きさ、周波数、強度、時間幅、偏光純度に関するポンプ、プローブ、基準パルスの調製のための詳細を提供する。 EITベースのスロー光パルスは、量子メモリを作成するための最も広く研究されているアーキテクチャを提供する。 したがって、ここで提示される基本的な概念は、最先端の量子技術の開発に携わる物理学や工学の専攻者にとって有用である。

We present undergraduate-friendly instructions on how to produce light pulses propagating through warm Rubidium vapor with speeds less than 400 m/s, i.e., nearly a million times slower than c. We elucidate the role played by electromagnetically induced transparency (EIT) in producing slow light pulses, and discuss how to achieve the required experimental conditions. The optical set up is presented, and details provided for preparation of pump, probe, and reference pulses of the required size, frequency, intensity, temporal width, and polarization purity. EIT-based slow light pulses provide the most widely studied architecture for creating quantum memories. Therefore, the basic concepts presented here are useful for physics and engineering majors who wish to get involved in the development of cutting-edge quantum technologies.
翻訳日:2024-05-16 18:49:58 公開日:2024-05-15
# コントリビューションの第一報は何か? : コントリビューションの第一報

Does the First Response Matter for Future Contributions? A Study of First Contributions ( http://arxiv.org/abs/2104.02933v3 )

ライセンス: Link先を確認
Noppadol Assavakamhaenghan, Supatsara Wattanakriengkrai, Naomichi Shimada, Raula Gaikovina Kula, Takashi Ishio, Kenichi Matsumoto, (参考訳) オープンソースソフトウェア(OSS)プロジェクトは、生活のために新しいコントリビュータの継続的なストリームに依存しています。 最近の研究では、新しいコントリビュータが最初のコントリビューションで多くの障壁を経験し、社会的障壁が批判的であることが報告されている。 新たなコントリビュータに対する社会的障壁を調査する研究はいくつかあるが、負の最初の反応が不快な感情を引き起こし、その後のコントリビュータの不連続につながるという仮説を立てている。 我々は登録されたレポートのプロトコルを実行し、642,841の最初のレスポンスで2,765,917の最初のコントリビューションをプルリクエスト(PR)として分析する。 私たちは、最も最初の反応は肯定的であるが、反応が小さく、恐怖、喜び、愛の感情が表れていると特徴付けています。 結果はまた、負の最初の反応は、建設的(50.71%)または批判的(37.68%)の感情を刺激する直感的な意図を持っていることを示している。 異なる機械学習モデルを実行すると、将来の相互作用を予測することは低い(F1スコアは0.6171)が、ベースラインよりも比較的優れている。 さらに、これらのモデルの解析により、相互作用は将来の貢献と肯定的に相関し、他の次元(プロジェクト、コントリビュータ、コントリビュータ)に大きな影響があることが示される。

Open Source Software (OSS) projects rely on a continuous stream of new contributors for their livelihood. Recent studies reported that new contributors experience many barriers in their first contribution, with the social barrier being critical. Although a number of studies investigated the social barriers to new contributors, we hypothesize that negative first responses may cause an unpleasant feeling, and subsequently lead to the discontinuity of any future contribution. We execute protocols of a registered report to analyze 2,765,917 first contributions as Pull Requests (PRs) with 642,841 first responses. We characterize most first response as being positive, but less responsive, and exhibiting sentiments of fear, joy and love. Results also indicate that negative first responses have the literal intention to arouse emotions of being either constructive (50.71%) or criticizing (37.68%) in nature. Running different machine learning models, we find that predicting future interactions is low (F1 score of 0.6171), but relatively better than baselines. Furthermore, an analysis of these models show that interactions are positively correlated with a future contribution, with other dimensions (i.e., project, contributor, contribution) having a large effect.
翻訳日:2024-05-16 18:49:58 公開日:2024-05-15
# トップNレコメンダシステムにおけるランク付け蒸留の二重補正戦略

Dual Correction Strategy for Ranking Distillation in Top-N Recommender System ( http://arxiv.org/abs/2109.03459v4 )

ライセンス: Link先を確認
Youngjune Lee, Kee-Eung Kim, (参考訳) 知識蒸留(KD)は、よく訓練された大きなモデル(教師)の知識を小さなモデル(学生)に伝達するものであり、推薦システムの実践的展開において重要な研究領域となっている。 近年,レコメンデーションリストのランキング情報を蒸留することで,性能が著しく向上することが示された。 しかし、その方法には制限がある。 1)学生モデルの予測誤差を十分に活用していないため、学習の効率が良くない。 2) ユーザ側のランキング情報のみを蒸留し, 暗黙のフィードバックが不足している。 本稿では,教師モデルから生徒モデルへのランキング情報をより効率的に伝達するDCD(Dual Correction Strategy for Distillation)を提案する。 最も重要なことは、DCDは教師モデルと生徒モデル予測の相違を利用して、どの知識を蒸留するかを決定することである。 そうすることによって、DCDは、学生モデルが正確に予測できなかったことを「修正」するために調整された学習指導を提供する。 このプロセスは、ユーザ側とアイテム側からランキング情報を転送して、希少な暗黙のユーザフィードバックに対処する。 実験の結果,提案手法は最先端のベースラインよりも優れており,アブレーション実験により各コンポーネントの有効性が検証された。

Knowledge Distillation (KD), which transfers the knowledge of a well-trained large model (teacher) to a small model (student), has become an important area of research for practical deployment of recommender systems. Recently, Relaxed Ranking Distillation (RRD) has shown that distilling the ranking information in the recommendation list significantly improves the performance. However, the method still has limitations in that 1) it does not fully utilize the prediction errors of the student model, which makes the training not fully efficient, and 2) it only distills the user-side ranking information, which provides an insufficient view under the sparse implicit feedback. This paper presents Dual Correction strategy for Distillation (DCD), which transfers the ranking information from the teacher model to the student model in a more efficient manner. Most importantly, DCD uses the discrepancy between the teacher model and the student model predictions to decide which knowledge to be distilled. By doing so, DCD essentially provides the learning guidance tailored to "correcting" what the student model has failed to accurately predict. This process is applied for transferring the ranking information from the user-side as well as the item-side to address sparse implicit user feedback. Our experiments show that the proposed method outperforms the state-of-the-art baselines, and ablation studies validate the effectiveness of each component.
翻訳日:2024-05-16 18:49:58 公開日:2024-05-15
# 雑音を考慮した量子振幅推定

Noise-Aware Quantum Amplitude Estimation ( http://arxiv.org/abs/2109.04840v3 )

ライセンス: Link先を確認
Steven Herbert, Ifan Williams, Roland Guichard, Darren Ng, (参考訳) 本稿では,量子振幅推定のためのガウス雑音モデルについて,単純かつ合理的な仮定から導いた。 我々は、様々なIBM超伝導量子コンピュータ上で実行される量子振幅推定結果と、QuantinuumのH1トラップイオン量子コンピュータを用いて、提案モデルが実世界の実験データに適していることを示す。 また,提案したガウス雑音モデルが他の雑音モデルと容易に構成できることを示し,ガウス雑音でよく説明されていない効果を捉える。 次に、このノイズモデルを任意の量子位相推定自由QAEアルゴリズムに埋め込むための一般化された手順を、振幅推定が ``noise aware'' であるように提示する。

In this paper we derive from simple and reasonable assumptions a Gaussian noise model for quantum amplitude estimation. We provide results from quantum amplitude estimation run on various IBM superconducting quantum computers and Quantinuum's H1 trapped-ion quantum computer to show that the proposed model is a good fit for real-world experimental data. We also show that the proposed Gaussian noise model can be easily composed with other noise models in order to capture effects that are not well described by Gaussian noise. We then give a generalised procedure for how to embed this noise model into any quantum-phase-estimation-free QAE algorithm, such that the amplitude estimation is ``noise aware''.
翻訳日:2024-05-16 18:49:58 公開日:2024-05-15
# 帯域フィードバックを用いた最適クラスタリング

Optimal Clustering with Bandit Feedback ( http://arxiv.org/abs/2202.04294v2 )

ライセンス: Link先を確認
Junwen Yang, Zixin Zhong, Vincent Y. F. Tan, (参考訳) 本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。 武器(またはアイテム)の集合は、未知の様々なグループに分けられる。 各群の中で、各腕に関連する観測結果は、同じ平均ベクトルで同じ分布に従う。 各段階において、エージェントは腕を問い合わせたり引っ張ったりし、関連する分布から独立した観察値を得る。 その後のプルは、以前に得られたサンプルだけでなく、以前のプルにも依存する。 エージェントのタスクは、最小数のアームプルと、所定の定数$\delta$を超えないエラーの確率で、腕の基本的な分割を明らかにすることである。 提案した課題は、様々な種類のウイルスのクラスタリングからオンライン市場セグメンテーションまで、数多くの応用を見出している。 本稿では,本課題において期待されるサンプル複雑性に基づいて,インスタンスに依存した情報理論の下限を提示し,計算効率が高く漸近的に最適なアルゴリズムであるBandit Online Clustering (BOC) を設計する。 このアルゴリズムは、NPハードの重み付けクラスタリング問題をそのサブルーチンとして正確に解決する必要性を回避するための、適応的シーケンシャルテストのための新しい停止規則を含む。 合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は漸近的に下界と一致し、非適応的ベースラインアルゴリズムを著しく上回ることを示す。

This paper considers the problem of online clustering with bandit feedback. A set of arms (or items) can be partitioned into various groups that are unknown. Within each group, the observations associated to each of the arms follow the same distribution with the same mean vector. At each time step, the agent queries or pulls an arm and obtains an independent observation from the distribution it is associated to. Subsequent pulls depend on previous ones as well as the previously obtained samples. The agent's task is to uncover the underlying partition of the arms with the least number of arm pulls and with a probability of error not exceeding a prescribed constant $\delta$. The problem proposed finds numerous applications from clustering of variants of viruses to online market segmentation. We present an instance-dependent information-theoretic lower bound on the expected sample complexity for this task, and design a computationally efficient and asymptotically optimal algorithm, namely Bandit Online Clustering (BOC). The algorithm includes a novel stopping rule for adaptive sequential testing that circumvents the need to exactly solve any NP-hard weighted clustering problem as its subroutines. We show through extensive simulations on synthetic and real-world datasets that BOC's performance matches the lower bound asymptotically, and significantly outperforms a non-adaptive baseline algorithm.
翻訳日:2024-05-16 18:49:58 公開日:2024-05-15
# 低温原子の直接伝播における確率共鳴の観測

Observation of stochastic resonance in directed propagation of cold atoms ( http://arxiv.org/abs/2208.13127v2 )

ライセンス: Link先を確認
Alexander Staron, Kefeng Jiang, Casey Scoggins, Daniel Wingert, David Cubero, Samir Bali, (参考訳) 散逸性光学格子に閉じ込められたランダム拡散原子は、弱い光のプローブによって照らされる。 プローブ透過スペクトルは、プローブビームの伝播方向と垂直に発生する指向性原子伝搬を明らかにする。 ランダム光子散乱率の変化に伴い、この指向伝搬の共鳴増強が観察される。 我々はこの確率共鳴をプローブ強度と格子井戸深さの関数として実験的に特徴づけた。 単純なモデルでは、プローブ励起された原子密度波と光ポンピング速度が共謀して、ランダムに拡散したサンプル内で原子の直接伝播を生成する方法が明らかにされている。

Randomly diffusing atoms confined in a dissipative optical lattice are illuminated by a weak probe of light. The probe transmission spectrum reveals directed atomic propagation that occurs perpendicular to the direction of probe beam propagation. Resonant enhancement of this directed propagation is observed as we vary the random photon scattering rate. We experimentally characterize this stochastic resonance as a function of probe intensity and lattice well depth. A simple model reveals how the probe-excited atomic density waves and optical pumping rates conspire to create directed atomic propagation within a randomly diffusing sample.
翻訳日:2024-05-16 18:49:58 公開日:2024-05-15
# 確率変数の値を曖昧に同定する:量子対古典的アプローチ

Identifying the value of a random variable unambiguously: Quantum versus classical approaches ( http://arxiv.org/abs/2211.09194v2 )

ライセンス: Link先を確認
Saronath Halder, Alexander Streltsov, Manik Banik, (参考訳) 量子リソースは、古典的なリソースよりも有利である。 理論的には、あるタスクにおいて、この利点は非常に高い。 本研究では,Refereeが介在し,AliceとBobがプレイするゲームに基づいて,そのようなタスクを構築する。 RefereeはAliceにランダム変数の値を送信する。 同時にRefereeは、Bobにその値に関する部分的な情報を送る。 ここでは、部分的な情報を次のように定義することができる。 Bobは変数の値を含む必要があるランダムなセットの情報を取得し、それは他の値とともにRefereeによってAliceに送られる。 アリスはレフェリーからボブにどんな情報が送られたか知ることができない。 繰り返しになるが、Bobは確率変数のどの値がアリスに送られるか知らない。 今や、ボブが変数の値を曖昧に特定できる場合と、ボブがどの情報を受け取るか、どの値がアリスに送られるかに関わらず、Aliceに送られる確率がゼロでない場合にのみ、ゲームが勝つことができる。 しかし、ボブを助けるため、アリスはゲームが始まる前にアリスとボブが固定した戦略に基づいて限られた情報を送る。 アリスが古典情報を限定的に送った場合、「古典情報の制限量」の量子アナログがゲームに勝つのに十分であるのに対し、ゲームは勝てないことを示す。 したがって、量子的優位性を確立する。 さらに、ゲーム内のいくつかの変種を分析し、成功確率に一定の限界を与える。 さらに,3つのアンサンブル,相互に偏りのないベース,およびそれらの変種の符号化・復号化戦略の関連性を確立する。 また、現状における量子コヒーレンスの役割についても論じる。

Quantum resources may provide advantage over their classical counterparts. Theoretically, in certain tasks, this advantage can be very high. In this work, we construct such a task based on a game, mediated by Referee and played between Alice and Bob. Referee sends Alice a value of a random variable. At the same time, Referee also sends Bob some partial information regarding that value. Here partial information can be defined in the following way. Bob gets the information of a random set which must contain the value of the variable, that is sent to Alice by the Referee, along with other value(s). Alice is not allowed to know what information is sent to Bob by the Referee. Again, Bob does not know which value of the random variable is sent to Alice. Now, the game can be won if and only if Bob can unambiguously identify the value of the variable, that is sent to Alice, with some nonzero probability, no matter what information Bob receives or which value is sent to Alice. However, to help Bob, Alice sends some limited amount of information to him, based on any strategy which is fixed by Alice and Bob before the game begins. We show that if Alice sends limited amount of classical information then the game cannot be won while the quantum analogue of the `limited amount of classical information' is sufficient for winning the game. Thus, it establishes quantum advantage. We further analyze several variants of the game and provide certain bounds on the success probabilities. Moreover, we establish connections between trine ensemble, mutually unbiased bases, and the encoding-decoding strategies of those variants. We also discuss the role of quantum coherence in the present context.
翻訳日:2024-05-16 18:49:58 公開日:2024-05-15
# スパース一般化加法モデルによる分類

Classification by sparse generalized additive models ( http://arxiv.org/abs/2212.01792v4 )

ライセンス: Link先を確認
Felix Abramovich, (参考訳) 分類のための(非パラメトリック)スパース(一般化)加法モデル(SpAM)を検討する。 SpAM分類器の設計は、正規直列(例えば、フーリエまたはウェーブレット)における単変量加法成分の展開係数に対するスパース群Lasso/Slope型ペナルティによるロジスティック損失の最小化に基づいている。 結果の分類器は、本質的に未知の空間性と滑らかさに適応する。 あるスパース群で制限された固有値条件の下では、解析的、ソボレフ、ベソフ類の全範囲にわたって、ほぼ最小(対数因子まで)であることを示す。 提案した分類器の性能をシミュレーションおよび実データ例で示す。

We consider (nonparametric) sparse (generalized) additive models (SpAM) for classification. The design of a SpAM classifier is based on minimizing the logistic loss with a sparse group Lasso/Slope-type penalties on the coefficients of univariate additive components' expansions in orthonormal series (e.g., Fourier or wavelets). The resulting classifier is inherently adaptive to the unknown sparsity and smoothness. We show that under certain sparse group restricted eigenvalue condition it is nearly-minimax (up to log-factors) simultaneously across the entire range of analytic, Sobolev and Besov classes. The performance of the proposed classifier is illustrated on a simulated and a real-data examples.
翻訳日:2024-05-16 18:49:58 公開日:2024-05-15
# グラフに基づくICP問題の仕様と自動構築

Graph-Based Specification and Automated Construction of ILP Problems ( http://arxiv.org/abs/2212.11629v2 )

ライセンス: Link先を確認
Sebastian Ehmes, Maximilian Kratz, Andy Schürr, (参考訳) モデル駆動ソフトウェアエンジニアリング(MDSE)コミュニティでは、グラフベースのモデル(例えば、パターンマッチング(PM)とグラフ変換(GT))と整数線形プログラミング(ILP)で動く技術の組み合わせが一般的である。 しかし、より抽象的な問題記述から複雑な最適化問題の設計と特定は難しい課題である。 設計者は、与えられた問題を有効なILP問題に変換するために、特定の問題領域とILP最適化領域の専門家でなければならない。 通常、ドメイン固有のICP問題生成器は、問題領域の各新しいインスタンスに対して手動で新しいILP問題を特定することを避けるために、専門家によって手作りされる。 残念ながら、ILP問題ジェネレータを書くタスクはエクササイズであり、新しいシナリオ、ツール、アプローチごとに繰り返す必要があります。 この目的のために、グラフベースの最適化問題に対するILP問題生成器の開発を簡略化するGIPS(Graph-based ILP Problem Specification Tool)フレームワークと、GIPSL(Graph-based ILP Problem Specification Language)と呼ばれる新しいドメイン特化言語(DSL)を導入し、GTとILP問題を抽象レベルで統合する。 我々のアプローチでは、特定のアプリケーションドメインに対するILP問題生成を自動生成する出発点として、GIPSL仕様を用いています。 最初の実験では、派生したICP問題生成器が、ICPの専門家によって開発された手作りプログラムと競合できることが示されている。

In the Model-Driven Software Engineering (MDSE) community, the combination of techniques operating on graph-based models (e.g., Pattern Matching (PM) and Graph Transformation (GT)) and Integer Linear Programming (ILP) is a common occurrence, since ILP solvers offer a powerful approach to solve linear optimization problems and help to enforce global constraints while delivering optimal solutions. However, designing and specifying complex optimization problems from more abstract problem descriptions can be a challenging task. A designer must be an expert in the specific problem domain as well as the ILP optimization domain to translate the given problem into a valid ILP problem. Typically, domain-specific ILP problem generators are hand-crafted by experts, to avoid specifying a new ILP problem by hand for each new instance of a problem domain. Unfortunately, the task of writing ILP problem generators is an exercise, which has to be repeated for each new scenario, tool, and approach. For this purpose, we introduce the GIPS (Graph-Based ILP Problem Specification Tool) framework that simplifies the development of ILP problem generators for graph-based optimization problems and a new Domain-Specific Language (DSL) called GIPSL (Graph-Based ILP Problem Specification Language) that integrates GT and ILP problems on an abstract level. Our approach uses GIPSL specifications as a starting point to derive ILP problem generators for a specific application domain automatically. First experiments show that the derived ILP problem generators can compete with hand-crafted programs developed by ILP experts.
翻訳日:2024-05-16 18:49:58 公開日:2024-05-15
# タイトな空間における証明されたランダム性

Certified randomness in tight space ( http://arxiv.org/abs/2301.03536v2 )

ライセンス: Link先を確認
Andreas Fyrillas, Boris Bourdoncle, Alexandre Maïnos, Pierre-Emmanuel Emeriau, Kayleigh Start, Nico Margaria, Martina Morassi, Aristide Lemaître, Isabelle Sagnes, Petr Stepanov, Thi Huong Au, Sébastien Boissier, Niccolo Somaschi, Nicolas Maring, Nadia Belabas, Shane Mansfield, (参考訳) 信頼性のあるランダム性(Reliable randomness)は、数値シミュレーションから統計的サンプリングや暗号まで、アルゴリズムや応用における中核的な要素である。 絡み合った量子状態の測定結果はベルの不等式に反し、固有乱数性を保証する。 これは、証明されたランダムネス生成の基盤を構成する。 しかし、この認証は空間的に分離されたデバイスを必要とするため、コンパクトな装置には適さない。 本稿では,小型のアプリケーション・レディ・デバイス上でランダム性を証明し,固体エミッタとガラスチップを組み合わせたフォトニック・デモを行う。 スペースライクな分離がなければ、現実的なデバイス固有の抜け穴に脆弱な既存の認証プロトコルとは対照的に、私たちが実装しているプロトコルは情報漏洩の原因となり、新たなコンパクトなデバイスと互換性がある。 実世界のアプリケーションでは、ランダム性が最も高い標準を実現する2量子フォトニックデバイスを実証する。 完全な94.5時間周期の安定化プロセスは、明るく安定な単一光子量子ドットベースのソースを使用し、再構成可能なフォトニックチップに供給し、実装された位相上のミリラディアン範囲の安定性と、93%以上の絡み合った光子の一貫した不明瞭性を持つ。 文脈性フレームワークを用いて、プライベートランダムネス生成を認証し、量子敵に対してセキュアなランダムネス拡張と互換性のあるレートを達成する。

Reliable randomness is a core ingredient in algorithms and applications ranging from numerical simulations to statistical sampling and cryptography. The outcomes of measurements on entangled quantum states can violate Bell inequalities, thus guaranteeing their intrinsic randomness. This constitutes the basis for certified randomness generation. However, this certification requires spacelike separated devices, making it unfit for a compact apparatus. Here we provide a general method for certified randomness generation on a small-scale application-ready device and perform an integrated photonic demonstration combining a solid-state emitter and a glass chip. In contrast to most existing certification protocols, which in the absence of spacelike separation are vulnerable to loopholes inherent to realistic devices, the protocol we implement accounts for information leakage and is thus compatible with emerging compact scalable devices. We demonstrate a 2-qubit photonic device that achieves the highest standard in randomness yet is cut out for real-world applications. The full 94.5-hour-long stabilized process harnesses a bright and stable single-photon quantum-dot based source, feeding into a reconfigurable photonic chip, with stability in the milliradian range on the implemented phases and consistent indistinguishability of the entangled photons above 93%. Using the contextuality framework, we certify private randomness generation and achieve a rate compatible with randomness expansion secure against quantum adversaries.
翻訳日:2024-05-16 18:41:34 公開日:2024-05-15
# 深層学習によるFermi-LAT検出限界以下ガンマ線源数分布の抽出

Extracting the gamma-ray source-count distribution below the Fermi-LAT detection limit with deep learning ( http://arxiv.org/abs/2302.01947v2 )

ライセンス: Link先を確認
Aurelio Amerio, Alessandro Cuoco, Nicolao Fornengo, (参考訳) 機械学習技術を用いて、銀河外ガンマ線源数分布(dN/dS$)を再構築する。 具体的には、2次元スカイマップ上に畳み込みニューラルネットワークをトレーニングし、基礎となるソースカウントモデルの様々なパラメータを用いて構築し、Fermi-LATインスツルメンタルレスポンス関数を組み込む。 トレーニングされたニューラルネットワークはFermi-LATデータに適用され、そこからソースカウント分布をFermi-LATしきい値以下50のフラックスレベルまで推定する。 1,10ドル(約1,300円)のGeVエネルギー範囲で収集した14年間のデータを用いて分析を行った。 得られた結果は、解決された状態において、カタログ化された情報源から導出されたものと優れた一致を示し、未解決状態において$dN/dS \sim S^{-2}$として、$5 \cdot 10^{-12}$ cm$^{-2}$ s$^{-1}$まで拡張する。 ニューラルネットワークアーキテクチャと考案された手法は、将来の分析を可能にし、ソース数分布のエネルギー依存性を研究するための柔軟性を持っている。

We reconstruct the extra-galactic gamma-ray source-count distribution, or $dN/dS$, of resolved and unresolved sources by adopting machine learning techniques. Specifically, we train a convolutional neural network on synthetic 2-dimensional sky-maps, which are built by varying parameters of underlying source-counts models and incorporate the Fermi-LAT instrumental response functions. The trained neural network is then applied to the Fermi-LAT data, from which we estimate the source count distribution down to flux levels a factor of 50 below the Fermi-LAT threshold. We perform our analysis using 14 years of data collected in the $(1,10)$ GeV energy range. The results we obtain show a source count distribution which, in the resolved regime, is in excellent agreement with the one derived from catalogued sources, and then extends as $dN/dS \sim S^{-2}$ in the unresolved regime, down to fluxes of $5 \cdot 10^{-12}$ cm$^{-2}$ s$^{-1}$. The neural network architecture and the devised methodology have the flexibility to enable future analyses to study the energy dependence of the source-count distribution.
翻訳日:2024-05-16 18:41:34 公開日:2024-05-15
# 画像マッチングにおけるコンテキストアグリゲーションの再検討

Revisiting Context Aggregation for Image Matting ( http://arxiv.org/abs/2304.01171v2 )

ライセンス: Link先を確認
Qinglin Liu, Xiaoqian Lv, Quanling Meng, Zonglin Li, Xiangyuan Lan, Shuo Yang, Shengping Zhang, Liqiang Nie, (参考訳) 伝統的な研究は、交配性能を改善する上での文脈情報の重要性を強調している。 その結果、深層学習に基づくマッチング手法は、プーリングや親和性に基づくコンテキストアグリゲーションモジュールを設計し、優れた結果を得ることができた。 しかし、これらのモジュールはトレーニング中の画像サイズの違いによるコンテキストスケールシフトをうまく処理することができず、結果としてマッチング性能が低下する。 本稿では、マッチングネットワークのコンテキストアグリゲーション機構を再検討し、コンテキストアグリゲーションモジュールのない基本エンコーダ・デコーダネットワークが実際により普遍的なコンテキストアグリゲーションを学習できることを見出した。 この洞察に基づいて、直感的だが非常に効果的であるマットネットワークであるAEMatterを紹介します。 AEMatterは、外観強化軸方向学習(AEAL)ブロックを備えたHybrid-Transformerバックボーンを採用し、強いコンテキストアグリゲーション学習機能を備えた基本ネットワークを構築する。 さらに、AEMatterは大規模な画像トレーニング戦略を利用して、データからコンテキストアグリゲーションを学習するネットワークを支援する。 5つの一般的なマッティングデータセットに対する大規模な実験は、提案されたAEMatterが最先端のマッティング手法を大きなマージンで上回ることを示した。

Traditional studies emphasize the significance of context information in improving matting performance. Consequently, deep learning-based matting methods delve into designing pooling or affinity-based context aggregation modules to achieve superior results. However, these modules cannot well handle the context scale shift caused by the difference in image size during training and inference, resulting in matting performance degradation. In this paper, we revisit the context aggregation mechanisms of matting networks and find that a basic encoder-decoder network without any context aggregation modules can actually learn more universal context aggregation, thereby achieving higher matting performance compared to existing methods. Building on this insight, we present AEMatter, a matting network that is straightforward yet very effective. AEMatter adopts a Hybrid-Transformer backbone with appearance-enhanced axis-wise learning (AEAL) blocks to build a basic network with strong context aggregation learning capability. Furthermore, AEMatter leverages a large image training strategy to assist the network in learning context aggregation from data. Extensive experiments on five popular matting datasets demonstrate that the proposed AEMatter outperforms state-of-the-art matting methods by a large margin.
翻訳日:2024-05-16 18:41:34 公開日:2024-05-15
# ベクトル量子化マスマスキングオートエンコーダによる音声視覚音声の感情認識

A vector quantized masked autoencoder for audiovisual speech emotion recognition ( http://arxiv.org/abs/2305.03568v2 )

ライセンス: Link先を確認
Samir Sadok, Simon Leglaive, Renaud Séguier, (参考訳) ラベル付きデータの限られた利用は、音声視覚音声感情認識(SER)において大きな課題である。 近年,ラベル付きデータの必要性を軽減するための自己教師付き学習手法が提案されている。 本稿では,VQ-MAE-AVモデルを提案する。 従来の手法とは異なり、提案手法はベクトル量子化変分オートエンコーダによって学習された離散音声および視覚音声の表現に基づく自己監督パラダイムを用いる。 音声と視覚のモダリティを融合させ、SERダウンストリームタスクに使用される音声視覚音声シーケンスの局所的およびグローバルな表現を学習するために、自己あるいは横断的なメカニズムを持つマルチモーダルMAEを提案する。 実験の結果,提案手法はVoxCeleb2データベース上で事前学習され,標準的な情緒的音声視覚音声データセットに基づいて微調整され,最先端の音声視覚音声SER法よりも優れていた。 異なるモデルコンポーネントの寄与を評価するために、広範囲なアブレーション実験も提供される。

The limited availability of labeled data is a major challenge in audiovisual speech emotion recognition (SER). Self-supervised learning approaches have recently been proposed to mitigate the need for labeled data in various applications. This paper proposes the VQ-MAE-AV model, a vector quantized masked autoencoder (MAE) designed for audiovisual speech self-supervised representation learning and applied to SER. Unlike previous approaches, the proposed method employs a self-supervised paradigm based on discrete audio and visual speech representations learned by vector quantized variational autoencoders. A multimodal MAE with self- or cross-attention mechanisms is proposed to fuse the audio and visual speech modalities and to learn local and global representations of the audiovisual speech sequence, which are then used for an SER downstream task. Experimental results show that the proposed approach, which is pre-trained on the VoxCeleb2 database and fine-tuned on standard emotional audiovisual speech datasets, outperforms the state-of-the-art audiovisual SER methods. Extensive ablation experiments are also provided to assess the contribution of the different model components.
翻訳日:2024-05-16 18:41:34 公開日:2024-05-15
# アルゴリズム的多元主義 : 機会平等のための構造的アプローチ

Algorithmic Pluralism: A Structural Approach To Equal Opportunity ( http://arxiv.org/abs/2305.08157v4 )

ライセンス: Link先を確認
Shomik Jain, Vinith Suriyakumar, Kathleen Creel, Ashia Wilson, (参考訳) 本稿では,アルゴリズム的多元性(アルゴリズム的多元性)と呼ばれるアルゴリズム的意思決定システムにおいて,同じ機会を達成するための構造的アプローチを提案する。 アルゴリズム的多元性(英: Algorithmic multipleism)とは、アルゴリズムの集合が機会へのアクセスを厳しく制限し、個人が多様な生活経路を追求する自由を許す状況を指す。 アルゴリズム的多元論を論じるために、我々はジョセフ・フィッシュキンのボトルネック理論を採用し、機会の割り当てを決定する決定点の構造に焦点をあてる。 この理論は、それぞれの決定ポイントまたはボトルネックは、ある程度の厳密さと正当性で機会へのアクセスを制限すると論じている。 我々は、フィッシュキンの構造的視点を拡張し、パターン的不平等やアルゴリズム的モノカルチャーのようなアルゴリズム的意思決定における平等な機会に関する既存の体系的関心を再構築する。 アルゴリズム的多元性の提案において、アルゴリズム的意思決定において深刻なボトルネックを緩和する緊急優先事項を論じる。 我々は、制度的な方法で平等な機会を促進するために、多くの異なる個人に利用可能な機会の多元性があることを主張する。 さらに、このフレームワークが、アルゴリズム雇用における平等な機会に関する議論を通じて、システム設計と規制に何ら影響を及ぼすかを示す。

We present a structural approach toward achieving equal opportunity in systems of algorithmic decision-making called algorithmic pluralism. Algorithmic pluralism describes a state of affairs in which no set of algorithms severely limits access to opportunity, allowing individuals the freedom to pursue a diverse range of life paths. To argue for algorithmic pluralism, we adopt Joseph Fishkin's theory of bottlenecks, which focuses on the structure of decision-points that determine how opportunities are allocated. The theory contends that each decision-point or bottleneck limits access to opportunities with some degree of severity and legitimacy. We extend Fishkin's structural viewpoint and use it to reframe existing systemic concerns about equal opportunity in algorithmic decision-making, such as patterned inequality and algorithmic monoculture. In proposing algorithmic pluralism, we argue for the urgent priority of alleviating severe bottlenecks in algorithmic decision-making. We contend that there must be a pluralism of opportunity available to many different individuals in order to promote equal opportunity in a systemic way. We further show how this framework has several implications for system design and regulation through current debates about equal opportunity in algorithmic hiring.
翻訳日:2024-05-16 18:41:34 公開日:2024-05-15
# 生徒の学習水準に対する指導の仕方 : 知識蒸留の促進

Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation ( http://arxiv.org/abs/2305.09651v3 )

ライセンス: Link先を確認
Yuxin Ren, Zihan Zhong, Xingjian Shi, Yi Zhu, Chun Yuan, Mu Li, (参考訳) 成績のよい教師モデルが必ずしも生徒を強くするとは限らないことが、現在の教員養成と効果的な知識伝達の相違を浮き彫りにしている。 教員養成プロセスの指導を強化するため,各研修試料からの蒸留が生徒の一般化能力に与える影響を判断するために,蒸留効果の概念を導入する。 本稿では,教師の学習プロセスに蒸留効果を取り入れた効率的な学習手法であるLGTM(Learning Good Teacher Matters)を提案する。 学生の一般化能力を高めるであろうサンプルの優先順位付けにより,LGTMはGLUEベンチマークの6つのテキスト分類タスクに基づいて,10の共通知識蒸留基準を上回りました。

It has been commonly observed that a teacher model with superior performance does not necessarily result in a stronger student, highlighting a discrepancy between current teacher training practices and effective knowledge transfer. In order to enhance the guidance of the teacher training process, we introduce the concept of distillation influence to determine the impact of distillation from each training sample on the student's generalization ability. In this paper, we propose Learning Good Teacher Matters (LGTM), an efficient training technique for incorporating distillation influence into the teacher's learning process. By prioritizing samples that are likely to enhance the student's generalization ability, our LGTM outperforms 10 common knowledge distillation baselines on 6 text classification tasks in the GLUE benchmark.
翻訳日:2024-05-16 18:41:34 公開日:2024-05-15
# 大規模言語モデルによるAI生成テキスト検出の回避

Large Language Models can be Guided to Evade AI-Generated Text Detection ( http://arxiv.org/abs/2305.10847v6 )

ライセンス: Link先を確認
Ning Lu, Shengcai Liu, Rui He, Qi Wang, Yew-Soon Ong, Ke Tang, (参考訳) 大規模言語モデル(LLM)は様々なタスクにおいて顕著な性能を示し、一般に広く利用されている。 しかし、盗作やスパムなどのLSMの誤用に関する懸念が高まり、微調整の分類器や統計手法を含む複数の検出器が開発された。 本研究では,これらの検出器の脆弱性を評価するために,外部パラフラサーに頼るのではなく,LCMにプロンプトを付与する。 本稿では,検出器を回避するためのプロンプトを自動構築する,代用型In-Context例最適化手法を提案する。 SICOは40の人間が書いた例と、プロンプトを生成するのに限られた数のLLM推論を必要とするため、コスト効率が高い。 さらに、タスク固有のプロンプトが構築されれば、広い範囲の検出器に対して普遍的に使用することができる。 3つの実世界のタスクにわたる大規模な実験により、SICOはパラフラザーベースラインを著しく上回り、GPT-3.5は6つの検出器を回避し、平均0.5のAUCを減少させることができた。 さらに,包括的評価により,SICO生成テキストは,高い受容性を維持しつつ,人レベルの可読性とタスク完了率を達成することを示す。 最後に,SICO攻撃に対する検出器の堅牢性を高めるためのアンサンブル手法を提案する。 コードはhttps://github.com/ColinLu50/Evade-GPT-Detector.comで公開されている。

Large language models (LLMs) have shown remarkable performance in various tasks and have been extensively utilized by the public. However, the increasing concerns regarding the misuse of LLMs, such as plagiarism and spamming, have led to the development of multiple detectors, including fine-tuned classifiers and statistical methods. In this study, we equip LLMs with prompts, rather than relying on an external paraphraser, to evaluate the vulnerability of these detectors. We propose a novel Substitution-based In-Context example Optimization method (SICO) to automatically construct prompts for evading the detectors. SICO is cost-efficient as it requires only 40 human-written examples and a limited number of LLM inferences to generate a prompt. Moreover, once a task-specific prompt has been constructed, it can be universally used against a wide range of detectors. Extensive experiments across three real-world tasks demonstrate that SICO significantly outperforms the paraphraser baselines and enables GPT-3.5 to successfully evade six detectors, decreasing their AUC by 0.5 on average. Furthermore, a comprehensive human evaluation show that the SICO-generated text achieves human-level readability and task completion rates, while preserving high imperceptibility. Finally, we propose an ensemble approach to enhance the robustness of detectors against SICO attack. The code is publicly available at https://github.com/ColinLu50/Evade-GPT-Detector.
翻訳日:2024-05-16 18:41:34 公開日:2024-05-15
# 自我的視点から自我的視点へ向けたクロスビュー行動認識

Cross-view Action Recognition Understanding From Exocentric to Egocentric Perspective ( http://arxiv.org/abs/2305.15699v2 )

ライセンス: Link先を確認
Thanh-Dat Truong, Khoa Luu, (参考訳) エゴセントリックビデオにおける行動認識の理解は、多くの実践的応用において重要な研究トピックとして浮上している。 エゴセントリックなデータ収集の規模に制限があるため、堅牢なディープラーニングに基づくアクション認識モデルを学ぶことは依然として困難である。 大規模なエキソセントリックデータから学習した知識をエゴセントリックデータに移すことは、ビュー間のビデオの違いにより困難である。 本研究は,エキソセントリックな視点から利己的な視点へ知識を効果的に伝達する,行動認識(CVAR)のための新しいクロスビュー学習手法を提案する。 まず,2つのビュー間のカメラ位置を解析し,トランスフォーマーの自己保持機構に幾何学的制約を加える。 そこで本稿では, 自己意識のメカニズムを学習し, 知識を視点間で伝達するために, 自己意識を学習するために, 未確認のクロスビューデータに基づいて学習した, 新たな自己意識の喪失を提案する。 最後に,映像と注目マップの相関を効果的に測定するための指標を提示する。 Charades-Ego, EPIC-Kitchens-55, EPIC-Kitchens-100などの標準自己中心型行動認識ベンチマークの実験結果から, 本手法の有効性と最先端性能が示された。

Understanding action recognition in egocentric videos has emerged as a vital research topic with numerous practical applications. With the limitation in the scale of egocentric data collection, learning robust deep learning-based action recognition models remains difficult. Transferring knowledge learned from the large-scale exocentric data to the egocentric data is challenging due to the difference in videos across views. Our work introduces a novel cross-view learning approach to action recognition (CVAR) that effectively transfers knowledge from the exocentric to the selfish view. First, we present a novel geometric-based constraint into the self-attention mechanism in Transformer based on analyzing the camera positions between two views. Then, we propose a new cross-view self-attention loss learned on unpaired cross-view data to enforce the self-attention mechanism learning to transfer knowledge across views. Finally, to further improve the performance of our cross-view learning approach, we present the metrics to measure the correlations in videos and attention maps effectively. Experimental results on standard egocentric action recognition benchmarks, i.e., Charades-Ego, EPIC-Kitchens-55, and EPIC-Kitchens-100, have shown our approach's effectiveness and state-of-the-art performance.
翻訳日:2024-05-16 18:41:34 公開日:2024-05-15
# 視覚言語モデルにおける言語優先の役割の再考

Revisiting the Role of Language Priors in Vision-Language Models ( http://arxiv.org/abs/2306.01879v4 )

ライセンス: Link先を確認
Zhiqiu Lin, Xinyue Chen, Deepak Pathak, Pengchuan Zhang, Deva Ramanan, (参考訳) 視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用できるため、影響を受けやすい。 画像から次の単語を生成するために訓練された$\textit{generative VLMs}$について検討する。 画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。 最初の観察は、画像に与えられた特定の文字列を生成するマッチスコアを単純に計算することで、識別的タスク(画像テキスト検索など)に再利用できることである。 この確率スコアを $\textit{Visual Generative Pre-Training Score}$ (VisualGPTScore) と呼ぶ。 VisualGPTScoreは、いくつかの検索ベンチマークでほぼ完璧な精度を生成するが、他のベンチマークでは精度が低い。 確率レンズを用いてこの振る舞いを解析し、不自然な言語分布を不自然にキャプチャするベンチマークが、敵対的だがありそうもないテキストキャプションを作成することによって、あるベンチマークが不自然な言語分布を非自然に捉えていることを指摘した。 実際、画像証拠を無視した「盲語」言語モデルでさえ、長年の視覚的要求応答(VQA)コミュニティが直面してきた同様の課題を思い起こさせるような、すべての先行技術を上回ることがあることを実証している。 本稿では,モデルの再訓練や微調整を必要とせずに,生成的VLMにおける言語バイアス量を制御する確率論的後処理方式を提案する。 この結果から,VisualGPTScoreは視覚言語理解のための強力なゼロショットベースラインであり,しばしば最先端の精度を生み出すことが示唆された。

Vision-language models (VLMs) are impactful in part because they can be applied to a variety of visual understanding tasks in a zero-shot fashion, without any fine-tuning. We study $\textit{generative VLMs}$ that are trained for next-word generation given an image. We explore their zero-shot performance on the illustrative task of image-text retrieval across 8 popular vision-language benchmarks. Our first observation is that they can be repurposed for discriminative tasks (such as image-text retrieval) by simply computing the match score of generating a particular text string given an image. We call this probabilistic score the $\textit{Visual Generative Pre-Training Score}$ (VisualGPTScore). While the VisualGPTScore produces near-perfect accuracy on some retrieval benchmarks, it yields poor accuracy on others. We analyze this behavior through a probabilistic lens, pointing out that some benchmarks inadvertently capture unnatural language distributions by creating adversarial but unlikely text captions. In fact, we demonstrate that even a "blind" language model that ignores any image evidence can sometimes outperform all prior art, reminiscent of similar challenges faced by the visual-question answering (VQA) community many years ago. We derive a probabilistic post-processing scheme that controls for the amount of linguistic bias in generative VLMs at test time without having to retrain or fine-tune the model. We show that the VisualGPTScore, when appropriately debiased, is a strong zero-shot baseline for vision-language understanding, oftentimes producing state-of-the-art accuracy.
翻訳日:2024-05-16 18:41:34 公開日:2024-05-15
# LRVS-Fashion:指示の参照によるビジュアル検索の拡張

LRVS-Fashion: Extending Visual Search with Referring Instructions ( http://arxiv.org/abs/2306.02928v3 )

ライセンス: Link先を確認
Simon Lepage, Jérémie Mary, David Picard, (参考訳) 本稿では、複雑な画像から生じる領域内固有のあいまいさに対処するため、ファッションの文脈における画像類似性検索の新たな課題を提案する。 我々は、最近業界への関心が高まり、ユーザが望ましい類似性をより正確に定義できるタスクであるReferred Visual Search(RVS)を提示する。 我々は,ファッションカタログから842kの画像が抽出された272kのファッション製品からなる,新しい大規模パブリックデータセットLRVS-Fashionをリリースした。 しかし、業界における従来の視覚探索法とは異なり、明示的な対象検出を回避し、画像タプルに弱教師付き条件付きコントラスト学習を採用することにより、優れた性能が得られることを示す。 提案手法は軽量でロバスト性を示し,2Mイントラクタに対する強力な検出ベースラインよりも優れたリコールを実現する。 データセットはhttps://huggingface.co/datasets/Slep/LAION-RVS-Fashion で公開されている。

This paper introduces a new challenge for image similarity search in the context of fashion, addressing the inherent ambiguity in this domain stemming from complex images. We present Referred Visual Search (RVS), a task allowing users to define more precisely the desired similarity, following recent interest in the industry. We release a new large public dataset, LRVS-Fashion, consisting of 272k fashion products with 842k images extracted from fashion catalogs, designed explicitly for this task. However, unlike traditional visual search methods in the industry, we demonstrate that superior performance can be achieved by bypassing explicit object detection and adopting weakly-supervised conditional contrastive learning on image tuples. Our method is lightweight and demonstrates robustness, reaching Recall at one superior to strong detection-based baselines against 2M distractors. The dataset is available at https://huggingface.co/datasets/Slep/LAION-RVS-Fashion .
翻訳日:2024-05-16 18:41:34 公開日:2024-05-15
# 過パラメータ化浅部ReLUニューラルネットワークを用いた非パラメトリック回帰

Nonparametric regression using over-parameterized shallow ReLU neural networks ( http://arxiv.org/abs/2306.08321v2 )

ライセンス: Link先を確認
Yunfei Yang, Ding-Xuan Zhou, (参考訳) 重みが適切に制約されたり規則化されたりした場合、過パラメータ化されたニューラルネットワークは、ある滑らかな関数クラスから関数を学習するための最小収束率(対数係数まで)を達成することができる。 具体的には、浅いReLUニューラルネットワークを用いて未知の$d$-variate関数を推定する非パラメトリック回帰を考える。 回帰関数は、滑らかな$\alpha<(d+3)/2$あるいは浅いニューラルネットワークに対応する変動空間を持つH\"古い空間から、無限に広いニューラルネットワークと見なすことができると仮定される。 この設定では、ネットワーク幅が十分に大きい場合、重みに対する一定の基準制約が最小限であるような、浅いニューラルネットワークに基づく最小二乗推定器が最適であることを示す。 副産物として、浅いReLUニューラルネットワークの局所ラデマッハ複雑性に対する新しい大きさ非依存境界が導出される。

It is shown that over-parameterized neural networks can achieve minimax optimal rates of convergence (up to logarithmic factors) for learning functions from certain smooth function classes, if the weights are suitably constrained or regularized. Specifically, we consider the nonparametric regression of estimating an unknown $d$-variate function by using shallow ReLU neural networks. It is assumed that the regression function is from the H\"older space with smoothness $\alpha<(d+3)/2$ or a variation space corresponding to shallow neural networks, which can be viewed as an infinitely wide neural network. In this setting, we prove that least squares estimators based on shallow neural networks with certain norm constraints on the weights are minimax optimal, if the network width is sufficiently large. As a byproduct, we derive a new size-independent bound for the local Rademacher complexity of shallow ReLU neural networks, which may be of independent interest.
翻訳日:2024-05-16 18:41:34 公開日:2024-05-15
# 侵入検知システムのためのオンライン自己監督型深層学習

Online Self-Supervised Deep Learning for Intrusion Detection Systems ( http://arxiv.org/abs/2306.13030v2 )

ライセンス: Link先を確認
Mert Nakıp, Erol Gelenbe, (参考訳) 本稿では,人間の介入や事前のオフライン学習を必要としない,完全にオンラインの深層学習(DL)ベースの侵入検知システム(IDS)を実現する,新しい自己監視侵入検出(SSID)フレームワークを提案する。 提案手法は,自動連想型深層ランダムニューラルネットワークを用いてIDS自体の決定と,その統計的に測定された信頼性のオンライン推定に基づいて,受信するトラフィックパケットを分析し,ラベル付けする。 SSIDフレームワークにより、IDSはネットワークトラフィックの時間変化特性に迅速に適応することが可能になり、オフラインデータ収集の必要性がなくなる。 このアプローチは、データラベリングにおけるヒューマンエラーや、モデルトレーニングとデータ収集の人的労力と計算コストを回避する。 このアプローチは、パブリックデータセットで実験的に評価され、よく知られた‘機械学習とディープラーニング’モデルと比較され、このSSIDフレームワークは、IoTシステムのための正確なオンライン学習DLベースのIDSとして非常に有用で有利であることを示している。

This paper proposes a novel Self-Supervised Intrusion Detection (SSID) framework, which enables a fully online Deep Learning (DL) based Intrusion Detection System (IDS) that requires no human intervention or prior off-line learning. The proposed framework analyzes and labels incoming traffic packets based only on the decisions of the IDS itself using an Auto-Associative Deep Random Neural Network, and on an online estimate of its statistically measured trustworthiness. The SSID framework enables IDS to adapt rapidly to time-varying characteristics of the network traffic, and eliminates the need for offline data collection. This approach avoids human errors in data labeling, and human labor and computational costs of model training and data collection. The approach is experimentally evaluated on public datasets and compared with well-known {machine learning and deep learning} models, showing that this SSID framework is very useful and advantageous as an accurate and online learning DL-based IDS for IoT systems.
翻訳日:2024-05-16 18:41:34 公開日:2024-05-15
# SWAT: 暗号化されたデータストアにおける可変リーク軽減のためのシステムワイドアプローチ

SWAT: A System-Wide Approach to Tunable Leakage Mitigation in Encrypted Data Stores ( http://arxiv.org/abs/2306.16851v2 )

ライセンス: Link先を確認
Leqian Zheng, Lei Xu, Cong Wang, Sheng Wang, Yuke Hu, Zhan Qin, Feifei Li, Kui Ren, (参考訳) 多くの研究で、暗号化されたデータストアの様々な漏洩パターンに関連する重大なプライバシーリスクが指摘されている。 これらのリークを緩和するために多くのソリューションが提案されているが、(1)実質的なオーバーヘッド、(2)リークパターンの特定のサブセットに焦点を当てるか、(3)様々なワークロードで同じセキュリティ概念を適用しているため、微調整されたプライバシー効率トレードオフの達成を妨げている。 各種の有害なリークパターンを考慮して,キーバリュー,レンジクエリ,動的ワークロードの各コンテキストに,特定のリークパターンが集中する必要があるかの調査から始める。 その後、これらのワークロードの特定のプライバシ要件に合わせて、新たなセキュリティ概念を導入します。 したがって、SWATは、これらのワークロードを段階的に有効にするための効率的な構成であり、変更可能なプライバシー効率トレードオフを備えた一連のアルゴリズムを用いて、システム全体の漏洩を確実に軽減する。 我々は広範囲な実験を行い、ソリューションの効率性を示す詳細な結果分析をまとめた。 SWATisは、暗号化専用のデータストアよりも桁違い遅く、様々なリークパターンを示し、自明なゼロリードソリューションよりも2桁高速である。 一方、SWATremainの性能は、特定の種類の漏洩を緩和する他の設計と比較して非常に競争力がある。

Numerous studies have underscored the significant privacy risks associated with various leakage patterns in encrypted data stores. While many solutions have been proposed to mitigate these leakages, they either (1) incur substantial overheads, (2) focus on specific subsets of leakage patterns, or (3) apply the same security notion across various workloads, thereby impeding the attainment of fine-tuned privacy-efficiency trade-offs. In light of various detrimental leakage patterns, this paper starts with an investigation into which specific leakage patterns require our focus in the contexts of key-value, range-query, and dynamic workloads, respectively. Subsequently, we introduce new security notions tailored to the specific privacy requirements of these workloads. Accordingly, we propose and instantiate SWAT, an efficient construction that progressively enables these workloads, while provably mitigating system-wide leakage via a suite of algorithms with tunable privacy-efficiency trade-offs. We conducted extensive experiments and compiled a detailed result analysis, showing the efficiency of our solution. SWATis about an order of magnitude slower than an encryption-only data store that reveals various leakage patterns and is two orders of magnitude faster than a trivial zero-leakage solution. Meanwhile, the performance of SWATremains highly competitive compared to other designs that mitigate specific types of leakage.
翻訳日:2024-05-16 18:31:50 公開日:2024-05-15
# 特定のユースケースに対する半自動ソリューション・レコメンデーション:スコパスとOpenAIによるオンコロジーにおけるAI/MLのケーススタディ

A Semi-Automated Solution Approach Recommender for a Given Use Case: a Case Study for AI/ML in Oncology via Scopus and OpenAI ( http://arxiv.org/abs/2307.04573v2 )

ライセンス: Link先を確認
Deniz Kenan Kılıç, Alex Elkjær Vasegaard, Aurélien Desoeuvres, Peter Nielsen, (参考訳) 今日では、ある問題を解くためには文献のレビューが不可欠である。 しかし、今日の広大な文学の風景において、徹底的な文献レビューは非常に時間がかかる。 たとえ抽象化やサーベイのみであっても、数週間かかる可能性がある。 さらに,メソッドの選択や,関連する問題領域やソリューション領域内での探索も容易ではない。 これは、若い研究者やエンジニアがこの分野で働き始めたときに特に当てはまる。 特定の問題を解決するための方法を提供する調査がすでに存在していても、特に既存の文献を知らない人にとっては、あらゆるユースケースに対して自動的に実施する方法が欠落している。 提案するツールであるSARBOLD-LLMは、与えられた問題に関連する方法の発見と選択を可能にし、わずか数時間で意思決定の洞察を導き出すために、文献におけるそれらの使用法に関する追加情報を提供する。 SARBOLD-LLMは、3つのモジュールから構成される: (1: スコープ検索) キーワード選択スキームを用いて、Scoopus APIをクエリする; (2: スコアとメソッド抽出) 関連性および人気スコア OpenAI API (GPT 3.5) を利用した論文における計算およびソリューションメソッド抽出(3: 分析) 感度分析と、トレンド、関連する論文、方法を明らかにするポストアナライズ。 SARBOLD-LLMを精度、リコール、F1スコアの計測値を用いて手動の真理と比較すると、腫瘍学ケーススタディにおけるAIの性能は0.68、0.9、0.77である。 SARBOLD-LLMは様々な領域で成功し、その堅牢性と有効性を示している。 SARBOLD-LLMは研究者以上のエンジニアに対処する。 調査を最初に行う方法を選択し、調査を補完する上で有用なツールである。 これにより、エンドユーザのグローバルな検索と知識の蓄積を制限できる。 しかし...。

Nowadays, literature review is a necessary task when trying to solve a given problem. However, an exhaustive literature review is very time-consuming in today's vast literature landscape. It can take weeks, even if looking only for abstracts or surveys. Moreover, choosing a method among others, and targeting searches within relevant problem and solution domains, are not easy tasks. These are especially true for young researchers or engineers starting to work in their field. Even if surveys that provide methods used to solve a specific problem already exist, an automatic way to do it for any use case is missing, especially for those who don't know the existing literature. Our proposed tool, SARBOLD-LLM, allows discovering and choosing among methods related to a given problem, providing additional information about their uses in the literature to derive decision-making insights, in only a few hours. The SARBOLD-LLM comprises three modules: (1: Scopus search) paper selection using a keyword selection scheme to query Scopus API; (2: Scoring and method extraction) relevancy and popularity scores calculation and solution method extraction in papers utilizing OpenAI API (GPT 3.5); (3: Analyzes) sensitivity analysis and post-analyzes which reveals trends, relevant papers and methods. Comparing the SARBOLD-LLM to manual ground truth using precision, recall, and F1-score metrics, the performance results of AI in the oncology case study are 0.68, 0.9, and 0.77, respectively. SARBOLD-LLM demonstrates successful outcomes across various domains, showcasing its robustness and effectiveness. The SARBOLD-LLM addresses engineers more than researchers, as it proposes methods and trends without adding pros and cons. It is a useful tool to select which methods to investigate first and comes as a complement to surveys. This can limit the global search and accumulation of knowledge for the end user. However...
翻訳日:2024-05-16 18:31:50 公開日:2024-05-15
# 超大規模原子構造に対する有効ハミルトニアンのアクティブラーニング

Active learning of effective Hamiltonian for super-large-scale atomic structures ( http://arxiv.org/abs/2307.08929v3 )

ライセンス: Link先を確認
Xingyue Ma, Hongying Chen, Ri He, Zhanbo Yu, Sergei Prokhorenko, Zheng Wen, Zhicheng Zhong, Jorge Iñiguez, L. Bellaiche, Di Wu, Yurong Yang, (参考訳) 第一原理に基づく実効ハミルトニアンスキームは、特に強誘電体の大規模構造に対する最も正確なモデリング手法の1つである。 しかし、実効ハミルトニアンのパラメータ化は複雑であり、高エントロピーペロブスカイトのような複雑な系では困難である。 本稿では、実効ハミルトニアンの一般化形式を提案し、ベイズ線形回帰に基づく実効ハミルトニアンをパラメータ化するためのアクティブ機械学習手法を開発する。 パラメータ化は、各ステップにおけるエネルギー、力、ストレス、および不確かさの予測を伴う分子動力学シミュレーションで使われ、第一原理計算がパラメータを再訓練するために実行されるかどうかを決定する。 BaTiO$_3$, Pb(Zr$_{0.75}$Ti$_{0.25}$)O$_3$と(Pb,Sr)TiO$_3$系の構造は、従来のパラメトリゼーション法や実験と比較して、このアプローチの正確性を示す例として挙げられる。 この機械学習アプローチは、超大スケール(10^7$原子以上)の原子構造を持つあらゆる考慮された複雑なシステムに対して、効果的ハミルトンパラメータを計算する普遍的で自動的な方法を提供する。

The first-principles-based effective Hamiltonian scheme provides one of the most accurate modeling technique for large-scale structures, especially for ferroelectrics. However, the parameterization of the effective Hamiltonian is complicated and can be difficult for some complex systems such as high-entropy perovskites. Here, we propose a general form of effective Hamiltonian and develop an active machine learning approach to parameterize the effective Hamiltonian based on Bayesian linear regression. The parameterization is employed in molecular dynamics simulations with the prediction of energy, forces, stress and their uncertainties at each step, which decides whether first-principles calculations are executed to retrain the parameters. Structures of BaTiO$_3$, Pb(Zr$_{0.75}$Ti$_{0.25}$)O$_3$ and (Pb,Sr)TiO$_3$ system are taken as examples to show the accuracy of this approach, as compared with conventional parametrization method and experiments. This machine learning approach provides a universal and automatic way to compute the effective Hamiltonian parameters for any considered complex systems with super-large-scale (more than $10^7$ atoms) atomic structures.
翻訳日:2024-05-16 18:31:50 公開日:2024-05-15
# フーリエ領域におけるニューラルインプリシット関数による無限大フィルタの学習

As large as it gets: Learning infinitely large Filters via Neural Implicit Functions in the Fourier Domain ( http://arxiv.org/abs/2307.10001v2 )

ライセンス: Link先を確認
Julia Grabinski, Janis Keuper, Margret Keuper, (参考訳) 画像分類のためのニューラルネットワークの最近の研究は、空間的文脈を増大させる傾向が強い。 大規模な畳み込みカーネルや自己アテンションによって達成されるかに関わらず、モデルの精度が向上するなど、空間的コンテキストの増大によってモデルは低スケールとなる。 本稿では,畳み込みニューラルネットワークの効率的なフィルタサイズを学習するためのモジュールを提案する。 そのような研究を促進するには、いくつかの課題に取り組む必要がある。 1)学習可能なパラメータの数を増やすことなく、大きなフィルタ(潜在的には入力データに匹敵する)でモデルを訓練する効果的な方法が必要である。 2) 使用済みの畳み込み操作は,CNNの従来の畳み込みを置き換え,現行フレームワークの効率的な実装を可能にするプラグイン・アンド・プレイモジュールであるべきである。 3)フィルタサイズの研究は,ネットワーク幅や学習可能なパラメータの数など,他の側面から切り離さなければならない。 4) 畳み込み演算自体のコストは管理可能でなければならない。 これらの課題に対処するために,フィルタ重みの周波数表現をニューラル暗黙関数として学習し,周波数領域における畳み込みのスケーラビリティを向上させることを提案する。 さらに,提案したニューラル暗黙関数の実装により,大規模かつ表現力のある空間フィルタであっても,わずかに学習可能な重みでパラメータ化することができる。 提案するネットワークは,非常に大きな畳み込みカーネルを学習できるが,周波数から空間領域へ変換される場合,学習されたフィルタは十分に局所化され,実際は比較的小さい。 我々は、個別に最適化されたフィルタサイズの分析により、将来より効率的で効果的なモデルが可能になることを期待する。 https://github.com/GeJulia/NIFF

Recent work in neural networks for image classification has seen a strong tendency towards increasing the spatial context. Whether achieved through large convolution kernels or self-attention, models scale poorly with the increased spatial context, such that the improved model accuracy often comes at significant costs. In this paper, we propose a module for studying the effective filter size of convolutional neural networks. To facilitate such a study, several challenges need to be addressed: 1) we need an effective means to train models with large filters (potentially as large as the input data) without increasing the number of learnable parameters 2) the employed convolution operation should be a plug-and-play module that can replace conventional convolutions in a CNN and allow for an efficient implementation in current frameworks 3) the study of filter sizes has to be decoupled from other aspects such as the network width or the number of learnable parameters 4) the cost of the convolution operation itself has to remain manageable i.e. we cannot naively increase the size of the convolution kernel. To address these challenges, we propose to learn the frequency representations of filter weights as neural implicit functions, such that the better scalability of the convolution in the frequency domain can be leveraged. Additionally, due to the implementation of the proposed neural implicit function, even large and expressive spatial filters can be parameterized by only a few learnable weights. Our analysis shows that, although the proposed networks could learn very large convolution kernels, the learned filters are well localized and relatively small in practice when transformed from the frequency to the spatial domain. We anticipate that our analysis of individually optimized filter sizes will allow for more efficient, yet effective, models in the future. https://github.com/GeJulia/NIFF.
翻訳日:2024-05-16 18:31:50 公開日:2024-05-15
# 分布マッチングによる漸近的無バイアス合成制御法

Asymptotically Unbiased Synthetic Control Methods by Distribution Matching ( http://arxiv.org/abs/2307.11127v3 )

ライセンス: Link先を確認
Masahiro Kato, Akari Ohda, Masaaki Imaizumi, (参考訳) 合成制御法 (SCM) は, 比較ケーススタディにおいて重要なツールとなっている。 SCMの基本的な考え方は、未処理単位の観測結果の重み付け和を用いて、処理単位の対実結果を評価することである。 合成制御(SC)の精度は、政策介入による治療効果を評価する上で重要であり、SC重量の推定は広範な研究の焦点となっている。 本研究では,既存のSCMが内在性問題,未処理単位の結果と合成制御の誤差項との相関に悩まされていることを最初に指摘した。 次に, 処理単位の結果の密度を未処理単位の結合密度(混合モデル)の重み付き平均で近似できるとする, 密度マッチングに基づく新しいSCMを提案する。 この仮定に基づいて、処理結果のモーメントと未処理結果のモーメントの重み付け和とを一致させてSC重みを推定する。 提案手法は既往の手法に対して3つの利点がある: まず, 提案手法は混合モデルの仮定により漸近的に非バイアス化されている; 第二に, 漸近的不バイアスにより, 対実予測における平均2乗誤差を低減できる; 第三に, 本手法は単に期待値ではなく, 処理効果の完全な密度を生成し, SCMの適用性を拡大する。 提案手法の有効性を実証するための実験結果を提供する。

Synthetic Control Methods (SCMs) have become an essential tool for comparative case studies. The fundamental idea of SCMs is to estimate the counterfactual outcomes of a treated unit using a weighted sum of the observed outcomes of untreated units. The accuracy of the synthetic control (SC) is critical for evaluating the treatment effect of a policy intervention; therefore, the estimation of SC weights has been the focus of extensive research. In this study, we first point out that existing SCMs suffer from an endogeneity problem, the correlation between the outcomes of untreated units and the error term of the synthetic control, which yields a bias in the treatment effect estimator. We then propose a novel SCM based on density matching, assuming that the density of outcomes of the treated unit can be approximated by a weighted average of the joint density of untreated units (i.e., a mixture model). Based on this assumption, we estimate SC weights by matching the moments of treated outcomes with the weighted sum of moments of untreated outcomes. Our proposed method has three advantages over existing methods: first, our estimator is asymptotically unbiased under the assumption of the mixture model; second, due to the asymptotic unbiasedness, we can reduce the mean squared error in counterfactual predictions; third, our method generates full densities of the treatment effect, not merely expected values, which broadens the applicability of SCMs. We provide experimental results to demonstrate the effectiveness of our proposed method.
翻訳日:2024-05-16 18:31:50 公開日:2024-05-15
# 1次元乱流場を合成するマルチスケール・マルチ基準生成適応ネットワーク

A multiscale and multicriteria Generative Adversarial Network to synthesize 1-dimensional turbulent fields ( http://arxiv.org/abs/2307.16580v2 )

ライセンス: Link先を確認
Carlos Granero-Belinchon, Manuel Cabeza Gallucci, (参考訳) 本稿では,乱流速度統計量を持つ1次元確率場を生成する新しいニューラルネットワーク確率モデルを提案する。 モデルアーキテクチャと訓練手順は、完全に発達した乱流のコルモゴロフ統計理論とオブホフ統計理論に基づいており、したがって記述を保証している。 1)エネルギー分布 2)エネルギーカスケードと 3)実験的な観察と一致した規模での断続性。 このモデルは、複数スケールの最適化基準を持つジェネレーティブ・アドバイサル・ネットワークである。 まず, 乱流エネルギー分布, エネルギーカスケード, スケール間の断続性をそれぞれ取得する生成場のインクリメントのばらつき, 歪み, 平坦さの3つの物理基準を用いる。 第2に、生成したフィールドの長さの異なるセグメントに対して、再生統計分布に基づく生成逆ネットワーク基準を用いる。 さらに、乱流の研究で頻繁に使われるマルチスケールの分解を模倣するために、モデルアーキテクチャはモデルの複数の層に沿って変化するカーネルサイズと完全に共進化する。 模型の訓練にはモード風洞の格子乱流からの乱流速度信号を用いる。

This article introduces a new Neural Network stochastic model to generate a 1-dimensional stochastic field with turbulent velocity statistics. Both the model architecture and training procedure ground on the Kolmogorov and Obukhov statistical theories of fully developed turbulence, so guaranteeing descriptions of 1) energy distribution, 2) energy cascade and 3) intermittency across scales in agreement with experimental observations. The model is a Generative Adversarial Network with multiple multiscale optimization criteria. First, we use three physics-based criteria: the variance, skewness and flatness of the increments of the generated field that retrieve respectively the turbulent energy distribution, energy cascade and intermittency across scales. Second, the Generative Adversarial Network criterion, based on reproducing statistical distributions, is used on segments of different length of the generated field. Furthermore, to mimic multiscale decompositions frequently used in turbulence's studies, the model architecture is fully convolutional with kernel sizes varying along the multiple layers of the model. To train our model we use turbulent velocity signals from grid turbulence at Modane wind tunnel.
翻訳日:2024-05-16 18:31:50 公開日:2024-05-15
# 分散媒質中におけるマクスウェル方程式の散逸の量子シミュレーション

Quantum simulation of dissipation for Maxwell equations in dispersive media ( http://arxiv.org/abs/2308.00056v2 )

ライセンス: Link先を確認
Efstratios Koukoutsis, Kyriakos Hizanidis, Abhay K. Ram, George Vahala, (参考訳) 分散メディアにおいて、散逸は古典マックスウェル方程式のSchr\"odinger表現において、$r$-次元部分空間を占有するスパース対角作用素として現れる。 進化演算子に対する1次スズキ・トロッター近似により、単項演算子から(散逸に伴う)非単項演算子を分離することができる。 ユニタリ演算子は、$n$ qubits上のqubit graph algorithm (QLA)を通して実装することができる。 しかし、非単体散逸部は量子コンピュータ上でどのように実装されるべきかという課題を提起する。 本稿では、散逸演算子を扱うために、2つの確率的拡張アルゴリズムを考察する。 第1のアルゴリズムは、古典的な散逸を線形振幅減衰型完全正のトレース保存(CPTP)量子チャネルとして扱うことに基づく。 特定されていない環境は1つの補助量子ビットでモデル化することができ、結果として拡張ユニタリ進化作用素に対する $\textit{O}(2^{n-1}n^2)$ の基本ゲートのスケーリングが実現される。 第2のアルゴリズムは、LCU(Linear Combination of Unitary)によって非ユニタリ作用素を近似する。 非ユニタリ部分の最適化された表現が得られ、これは$\textit{O}(2^{n})$初等ゲートを必要とする。 均一散逸率の単純な誘電体媒体に対するLCU法の適用により、実装スケーリングはさらに$\textit{O}[poly(n)]$ベーシックゲートに還元できる。 弱い散逸の場合,提案アルゴリズムは各実装回路深さを計算することにより,散逸系の過渡的進化ダイナミクスを効率的に探索できることを示す。 また,非線形正規化専用(NINO)量子チャネルとの接続について述べる。

In dispersive media, dissipation appears in the Schr\"odinger representation of classical Maxwell equations as a sparse diagonal operator occupying an $r$-dimensional subspace. A first order Suzuki-Trotter approximation for the evolution operator enables us to isolate the non-unitary operators (associated with dissipation) from the unitary operators (associated with lossless media). The unitary operators can be implemented through qubit lattice algorithm (QLA) on $n$ qubits. However, the non-unitary-dissipative part poses a challenge on how it should be implemented on a quantum computer. In this paper, two probabilistic dilation algorithms are considered for handling the dissipative operators. The first algorithm is based on treating the classical dissipation as a linear amplitude damping-type completely positive trace preserving (CPTP) quantum channel where the combined system-environment must undergo unitary evolution in the dilated space. The unspecified environment can be modeled by just one ancillary qubit, resulting in an implementation scaling of $\textit{O}(2^{n-1}n^2)$ elementary gates for the dilated unitary evolution operator. The second algorithm approximates the non-unitary operators by the Linear Combination of Unitaries (LCU). We obtain an optimized representation of the non-unitary part, which requires $\textit{O}(2^{n})$ elementary gates. Applying the LCU method for a simple dielectric medium with homogeneous dissipation rate, the implementation scaling can be further reduced into $\textit{O}[poly(n)]$ basic gates. For the particular case of weak dissipation we show that our proposed post-selective dilation algorithms can efficiently delve into the transient evolution dynamics of dissipative systems by calculating the respective implementation circuit depth. A connection of our results with the non-linear-in-normalization-only (NINO) quantum channels is also presented.
翻訳日:2024-05-16 18:31:50 公開日:2024-05-15
# 「今どんなことでも」:大規模言語モデルを用いたイン・ザ・ワイルド・ジェイルブレイク・プロンプトの特性と評価

"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models ( http://arxiv.org/abs/2308.03825v2 )

ライセンス: Link先を確認
Xinyue Shen, Zeyuan Chen, Michael Backes, Yun Shen, Yang Zhang, (参考訳) 大規模言語モデル(LLM)の誤用は、一般大衆やLLMベンダーから大きな注目を集めている。 ジェイルブレイクプロンプト(jailbreak prompt)として知られる特定の種類の敵のプロンプトが、防御を回避し、LSMから有害な内容を引き出す主要な攻撃ベクターとして登場した。 本稿では,新しいフレームワークであるJailbreakHubを用いて,2022年12月から2023年12月までの1,405件のジェイルブレイクプロンプトを包括的に分析する。 我々は131のジェイルブレイク・コミュニティを特定し,ジェイルブレイク・プロンプトの特徴と,インジェクションや特権エスカレーションなどの主要な攻撃戦略を明らかにする。 私たちはまた、ジェイルブレイクのプロンプトが、オンラインWebコミュニティからプロンプト集約のWebサイトへ、そして28のユーザアカウントが、100日間にわたって一貫してジェイルブレイクのプロンプトを最適化していることも観察しています。 脱獄プロンプトによる潜在的損害を評価するため,13のシナリオで107,250個のサンプルからなる質問セットを作成する。 このデータセットを利用することで、一般的な6つのLSMの実験では、すべてのシナリオにおいて、彼らのセーフガードがジェイルブレイクプロンプトを適切に防御できないことが示されています。 特に,ChatGPT(GPT-3.5)とGPT-4(GPT-4)の攻撃成功率0.95を達成できる5つの有効なジェイルブレイクプロンプトを同定した。 我々は,研究コミュニティとLLMベンダーが,より安全かつ規制されたLLMを促進することを願っている。

The misuse of large language models (LLMs) has drawn significant attention from the general public and LLM vendors. One particular type of adversarial prompt, known as jailbreak prompt, has emerged as the main attack vector to bypass the safeguards and elicit harmful content from LLMs. In this paper, employing our new framework JailbreakHub, we conduct a comprehensive analysis of 1,405 jailbreak prompts spanning from December 2022 to December 2023. We identify 131 jailbreak communities and discover unique characteristics of jailbreak prompts and their major attack strategies, such as prompt injection and privilege escalation. We also observe that jailbreak prompts increasingly shift from online Web communities to prompt-aggregation websites and 28 user accounts have consistently optimized jailbreak prompts over 100 days. To assess the potential harm caused by jailbreak prompts, we create a question set comprising 107,250 samples across 13 forbidden scenarios. Leveraging this dataset, our experiments on six popular LLMs show that their safeguards cannot adequately defend jailbreak prompts in all scenarios. Particularly, we identify five highly effective jailbreak prompts that achieve 0.95 attack success rates on ChatGPT (GPT-3.5) and GPT-4, and the earliest one has persisted online for over 240 days. We hope that our study can facilitate the research community and LLM vendors in promoting safer and regulated LLMs.
翻訳日:2024-05-16 18:31:50 公開日:2024-05-15
# PrAIoritize:スマートコントラクトにおける脆弱性の早期予測と優先順位付けを自動化する

PrAIoritize: Automated Early Prediction and Prioritization of Vulnerabilities in Smart Contracts ( http://arxiv.org/abs/2308.11082v2 )

ライセンス: Link先を確認
Majd Soud, Grischa Liebel, Mohammad Hamdaqa, (参考訳) コンテキスト:スマートコントラクトは、未公表の脆弱性とコードの弱点により、数多くのセキュリティ脅威を引き起こす。 Ethereumスマートコントラクトでは、これらのコードの弱点にタイムリーに対処する上での課題が、コードレビュープロセスにおける早期予測と優先順位付けの自動化に対する重要なニーズを浮き彫りにしている。 スマートコントラクトのセキュリティには、効率的な優先順位付けが不可欠です。 目的:この研究は、コードレビュープロセス中にEthereumスマートコントラクトにおける重要なコードの弱点を優先順位付けし、予測するための自動アプローチPrAIoritizeの提供を目的としています。 方法:GitHubのオープンソースソフトウェア(OSS)とCommon Vulnerabilities and Exposures(CVE)データベースから得られたスマートコントラクトコードレビューを収集しました。 その後,革新的な自動優先順位付け手法PrAIoritizeを開発した。 PrAIoritizeは高度なLarge Language Models(LLM)と高度な自然言語処理(NLP)技術を統合している。 PrAIoritizeは、スマートコントラクトの弱点とその影響のドメイン固有のレキシコンを使用することで、コードレビューのラベル付けを自動化する。 その後、コードレビューのために機能エンジニアリングが実施され、事前訓練された DistilBERT モデルが優先順位分類に使用される。 最後に、スマートコントラクトのコードレビューを使用してモデルをトレーニングし、評価する。 結果:本評価では,F値,精度,リコールが4.82\%-27.94\%増加し,最先端のベースラインと事前訓練済みモデル(例えばT5)に有意な改善が認められた。 結論:PrAIoritizeを活用することで、実践者はスマートコントラクトコードの弱点を効率的に優先順位付けし、重要なコードの弱点を迅速に解決し、手作業によるトリアージに必要な時間と労力を削減できます。

Context:Smart contracts are prone to numerous security threats due to undisclosed vulnerabilities and code weaknesses. In Ethereum smart contracts, the challenges of timely addressing these code weaknesses highlight the critical need for automated early prediction and prioritization during the code review process. Efficient prioritization is crucial for smart contract security. Objective:Toward this end, our research aims to provide an automated approach, PrAIoritize, for prioritizing and predicting critical code weaknesses in Ethereum smart contracts during the code review process. Method: To do so, we collected smart contract code reviews sourced from Open Source Software (OSS) on GitHub and the Common Vulnerabilities and Exposures (CVE) database. Subsequently, we developed PrAIoritize, an innovative automated prioritization approach. PrAIoritize integrates advanced Large Language Models (LLMs) with sophisticated natural language processing (NLP) techniques. PrAIoritize automates code review labeling by employing a domain-specific lexicon of smart contract weaknesses and their impacts. Following this, feature engineering is conducted for code reviews, and a pre-trained DistilBERT model is utilized for priority classification. Finally, the model is trained and evaluated using code reviews of smart contracts. Results: Our evaluation demonstrates significant improvement over state-of-the-art baselines and commonly used pre-trained models (e.g. T5) for similar classification tasks, with 4.82\%-27.94\% increase in F-measure, precision, and recall. Conclusion: By leveraging PrAIoritize, practitioners can efficiently prioritize smart contract code weaknesses, addressing critical code weaknesses promptly and reducing the time and effort required for manual triage.
翻訳日:2024-05-16 18:31:50 公開日:2024-05-15
# ロバスト制約マルコフ決定過程におけるロバストラグランジアンと逆数ポリシー勾配

Robust Lagrangian and Adversarial Policy Gradient for Robust Constrained Markov Decision Processes ( http://arxiv.org/abs/2308.11267v3 )

ライセンス: Link先を確認
David M. Bossens, (参考訳) 頑健な制約付きマルコフ決定プロセス(RCMDP)は、動作制約を組み込んだ強化学習のための最近のタスクモデリングフレームワークであり、不確実性セットを用いて遷移力学モデルにおけるエラーに対して堅牢性を提供する。 RCMDPのシミュレーションには、各状態の値推定に基づいて最悪のケースのダイナミクスを計算する必要がある。 本稿では, RCPGとRobust Lagrangian, Adversarial RCPGの2つのアルゴリズムを提案する。 Robust Lagrangian による RCPG は、値や制約ではなく、ラグランジアンに基づく最悪のケースダイナミクスを取り入れて RCPG を修飾する。 逆数RCPGはまた、ラグランジアンに基づいて最悪のケースのダイナミクスを定式化するが、ソートされた値リスト上の制約付き最適化により間接的かつ突然に勾配降下よりも、直接的かつ漸進的に、逆数ポリシーとして学習する。 理論的解析は、まず、提案されたアルゴリズムのポリシー最適化のためのラグランジアンポリシー勾配を導出し、次に、逆数RCPGの逆数を学ぶための逆数ポリシー勾配を導出する。 在庫管理と安全なナビゲーションタスクに摂動を注入する実証実験は、従来のRCPGの変種と非腐食性および非拘束性アブレーションの両アルゴリズムの競合性能を示す。 特に、Adversarial RCPGは全てのテストで上位2のアルゴリズムにランクインしている。

The robust constrained Markov decision process (RCMDP) is a recent task-modelling framework for reinforcement learning that incorporates behavioural constraints and that provides robustness to errors in the transition dynamics model through the use of an uncertainty set. Simulating RCMDPs requires computing the worst-case dynamics based on value estimates for each state, an approach which has previously been used in the Robust Constrained Policy Gradient (RCPG). Highlighting potential downsides of RCPG such as not robustifying the full constrained objective and the lack of incremental learning, this paper introduces two algorithms, called RCPG with Robust Lagrangian and Adversarial RCPG. RCPG with Robust Lagrangian modifies RCPG by taking the worst-case dynamics based on the Lagrangian rather than either the value or the constraint. Adversarial RCPG also formulates the worst-case dynamics based on the Lagrangian but learns this directly and incrementally as an adversarial policy through gradient descent rather than indirectly and abruptly through constrained optimisation on a sorted value list. A theoretical analysis first derives the Lagrangian policy gradient for the policy optimisation of both proposed algorithms and then the adversarial policy gradient to learn the adversary for Adversarial RCPG. Empirical experiments injecting perturbations in inventory management and safe navigation tasks demonstrate the competitive performance of both algorithms compared to traditional RCPG variants as well as non-robust and non-constrained ablations. In particular, Adversarial RCPG ranks among the top two performing algorithms on all tests.
翻訳日:2024-05-16 18:31:50 公開日:2024-05-15
# エルゴディックデータ系列を用いたリカレントニューラルネットワークのカーネル限界

Kernel Limit of Recurrent Neural Networks Trained on Ergodic Data Sequences ( http://arxiv.org/abs/2308.14555v2 )

ライセンス: Link先を確認
Samuel Chun-Hei Lam, Justin Sirignano, Konstantinos Spiliopoulos, (参考訳) リカレントニューラルネットワーク(RNN)の漸近を隠された単位数、シーケンス内のデータサンプル、隠された状態更新、トレーニングステップを同時に無限に成長させる数学的手法が開発されている。 単純化された重み行列を持つ RNN の場合、ランダム代数方程式の固定点に結合した無限次元ODE の解への RNN の収束性を証明する。 この分析では、RNN特有のいくつかの課題に対処する必要がある。 典型的な平均場(例えば、フィードフォワードニューラルネットワーク)では、離散的な更新は等級$\mathcal{O}(\frac{1}{N})$であり、更新の回数は$\mathcal{O}(N)$である。 したがって、システムは適切なODE/PDEのオイラー近似として表すことができ、$N \rightarrow \infty$に収束する。 しかし、RNNの隠されたレイヤ更新は$\mathcal{O}(1)$である。 したがって、RNNはODE/PDEの離散化として表現できず、標準平均場技術は適用できない。 代わりに、RNNメモリ状態の進化に対する固定点解析を開発し、更新ステップ数と隠れユニット数の観点から収束推定を行う。 RNN隠蔽層はソボレフ空間の関数として研究され、その進化はデータシーケンス(マルコフ連鎖)、パラメータ更新、および前回の時間ステップにおけるRNN隠蔽層への依存性によって制御される。 更新の間に強い相関関係があるため、ポアソン方程式はその極限方程式の周りにRNNのゆらぎを束縛するために用いられる必要がある。 これらの数学的手法は、データサンプルの数とニューラルネットワークのサイズが無限に増加するにつれて、データシーケンスに基づいてトレーニングされたRNNのニューラルネットワークタンジェントカーネル(NTK)制限を引き起こす。

Mathematical methods are developed to characterize the asymptotics of recurrent neural networks (RNN) as the number of hidden units, data samples in the sequence, hidden state updates, and training steps simultaneously grow to infinity. In the case of an RNN with a simplified weight matrix, we prove the convergence of the RNN to the solution of an infinite-dimensional ODE coupled with the fixed point of a random algebraic equation. The analysis requires addressing several challenges which are unique to RNNs. In typical mean-field applications (e.g., feedforward neural networks), discrete updates are of magnitude $\mathcal{O}(\frac{1}{N})$ and the number of updates is $\mathcal{O}(N)$. Therefore, the system can be represented as an Euler approximation of an appropriate ODE/PDE, which it will converge to as $N \rightarrow \infty$. However, the RNN hidden layer updates are $\mathcal{O}(1)$. Therefore, RNNs cannot be represented as a discretization of an ODE/PDE and standard mean-field techniques cannot be applied. Instead, we develop a fixed point analysis for the evolution of the RNN memory states, with convergence estimates in terms of the number of update steps and the number of hidden units. The RNN hidden layer is studied as a function in a Sobolev space, whose evolution is governed by the data sequence (a Markov chain), the parameter updates, and its dependence on the RNN hidden layer at the previous time step. Due to the strong correlation between updates, a Poisson equation must be used to bound the fluctuations of the RNN around its limit equation. These mathematical methods give rise to the neural tangent kernel (NTK) limits for RNNs trained on data sequences as the number of data samples and size of the neural network grow to infinity.
翻訳日:2024-05-16 18:31:50 公開日:2024-05-15
# 詳細強化拡散モデル:数ショット条件下での微粒化視覚カテゴリー化

Detail Reinforcement Diffusion Model: Augmentation Fine-Grained Visual Categorization in Few-Shot Conditions ( http://arxiv.org/abs/2309.08097v2 )

ライセンス: Link先を確認
Tianxu Wu, Shuo Ye, Shuhuang Chen, Qinmu Peng, Xinge You, (参考訳) きめ細かい視覚分類の課題は、異なるサブクラス間の微妙な違いを探索し、正確な識別を実現する方法にある。 これまでの研究は、目的を達成するために、大規模な注釈付きデータと事前訓練された深層モデルに依存してきた。 しかし、限られた量のサンプルしか利用できない場合、同様の方法がより効果的になる可能性がある。 拡散モデルは、データ生成において顕著な多様性のため、データ拡張において広く採用されている。 しかし、細粒度画像に必要な詳細度が高いため、既存の手法を直接採用することは困難である。 そこで本研究では,DSR (Driminative semantic recombination) と空間知識参照 (SKR) の2つの重要な要素を含む,大規模モデルの豊富な知識を微粒化に活用した詳細強化拡散モデル~(DRDM)を提案する。 具体的には、ラベルから暗黙的な類似関係を抽出し、ラベルとインスタンス間のセマンティックマッピングを再構築し、異なるサブクラス間の微妙な差異の識別をより良くするように設計されている。 さらに,異なるデータセットの分布を特徴空間の参照として組み込んだSKRモジュールについても紹介する。 これにより、SKRはFGVCタスクのサブクラスの高次元分布を集約し、決定境界を拡大することができる。 これら2つの重要なコンポーネントを通じて,データ不足の問題に対処するために,大規模モデルからの知識を効果的に活用し,よりきめ細かな視覚認識タスクの性能を向上させる。 DRDMによる一貫した性能向上の実証実験を行った。

The challenge in fine-grained visual categorization lies in how to explore the subtle differences between different subclasses and achieve accurate discrimination. Previous research has relied on large-scale annotated data and pre-trained deep models to achieve the objective. However, when only a limited amount of samples is available, similar methods may become less effective. Diffusion models have been widely adopted in data augmentation due to their outstanding diversity in data generation. However, the high level of detail required for fine-grained images makes it challenging for existing methods to be directly employed. To address this issue, we propose a novel approach termed the detail reinforcement diffusion model~(DRDM), which leverages the rich knowledge of large models for fine-grained data augmentation and comprises two key components including discriminative semantic recombination (DSR) and spatial knowledge reference~(SKR). Specifically, DSR is designed to extract implicit similarity relationships from the labels and reconstruct the semantic mapping between labels and instances, which enables better discrimination of subtle differences between different subclasses. Furthermore, we introduce the SKR module, which incorporates the distributions of different datasets as references in the feature space. This allows the SKR to aggregate the high-dimensional distribution of subclass features in few-shot FGVC tasks, thus expanding the decision boundary. Through these two critical components, we effectively utilize the knowledge from large models to address the issue of data scarcity, resulting in improved performance for fine-grained visual recognition tasks. Extensive experiments demonstrate the consistent performance gain offered by our DRDM.
翻訳日:2024-05-16 18:22:05 公開日:2024-05-15
# ノイズ量子状態からの非線形特徴の回収

Retrieving non-linear features from noisy quantum states ( http://arxiv.org/abs/2309.11403v2 )

ライセンス: Link先を確認
Benchi Zhao, Mingrui Jing, Lei Zhang, Xuanqiang Zhao, Yu-Ao CHen, Kun Wang, Xin Wang, (参考訳) 量子状態の高次モーメントを正確に推定することは、エンタングルメント分光、エントロピー推定、スペクトル推定、量子状態からの非線形特徴の予測など、量子コンピューティングにおける多くの重要なタスクの基本的な前提条件である。 しかし実際には、避けられない量子ノイズは、私たちが望ましい値にアクセスするのを妨げます。 本稿では,ノイズの多い状態から高次モーメントを抽出する可能性と効率を体系的に解析することにより,この問題に対処する。 まず、基礎となるノイズチャネルが可逆である場合に限り、このタスクを達成できる量子プロトコルが存在することを示す。 次に、量子演算と古典的後処理のみを用いて最適なサンプル複雑性を実現するプロトコルを導出する手法を確立する。 従来のプロトコルとは対照的に、観測可能なシフトと呼ばれる新しい技術により、オーバヘッドが低くなり、異なる量子操作のサンプリングが避けられ、現在の量子デバイスで実用化される候補が強くなる。 提案手法は,高次情報検索における絡み合いプロトコルのパワーを示すが,既存の手法では絡み合いは役に立たない。 さらに, 大規模量子システムにおいて, 脱分極チャネルを検索するためのプロトコルを構築し, 提案手法をスケーラブルにする。 我々の研究は、量子ノイズが高次情報抽出にどのように影響するかを深く理解し、それに取り組むためのガイダンスを提供する。

Accurately estimating high-order moments of quantum states is an elementary precondition for many crucial tasks in quantum computing, such as entanglement spectroscopy, entropy estimation, spectrum estimation, and predicting non-linear features from quantum states. But in reality, inevitable quantum noise prevents us from accessing the desired value. In this paper, we address this issue by systematically analyzing the feasibility and efficiency of extracting high-order moments from noisy states. We first show that there exists a quantum protocol capable of accomplishing this task if and only if the underlying noise channel is invertible. We then establish a method for deriving protocols that attain optimal sample complexity using quantum operations and classical post-processing only. Our protocols, in contrast to conventional ones, incur lower overheads and avoid sampling different quantum operations due to a novel technique called observable shift, making the protocols strong candidates for practical usage on current quantum devices. The proposed method also indicates the power of entangled protocols in retrieving high-order information, whereas in the existing methods, entanglement does not help. We further construct the protocol for large quantum systems to retrieve the depolarizing channels, making the proposed method scalable. Our work contributes to a deeper understanding of how quantum noise could affect high-order information extraction and provides guidance on how to tackle it.
翻訳日:2024-05-16 18:22:05 公開日:2024-05-15
# 量子回路としてのBethe Ansatz

The Bethe Ansatz as a Quantum Circuit ( http://arxiv.org/abs/2309.14430v2 )

ライセンス: Link先を確認
Roberto Ruiz, Alejandro Sopena, Max Hunter Gordon, Germán Sierra, Esperanza López, (参考訳) ベーテ・アンザッツ(Bethe ansatz)は、凝縮物質物理学や統計力学において、多数のモデルの正確な解を可能にする分析方法である。 大域対称性が存在するとき、ベーテアンサッツのトライアル波動関数は平面波重畳からなる。 これまで、Bethe ansatzは決定論的量子回路として再キャスト可能であることが示されていた。 しかし、回路を形成する量子ゲートの分析的導出は不足していた。 ここでは、Betheアンザッツを量子回路に導入する変換について包括的な研究を行い、回路ゲートの解析的表現を決定する。 導出の重要なステップとして,Bethe波動関数を構成する新しいマトリックス製品状態ネットワークを定義するための簡単な図式規則を提案する。 注目すべきことに、これはベーテ・アンザッツの座標版と代数版の間の同値性に関する新しい視点を与える。

The Bethe ansatz represents an analytical method enabling the exact solution of numerous models in condensed matter physics and statistical mechanics. When a global symmetry is present, the trial wavefunctions of the Bethe ansatz consist of plane wave superpositions. Previously, it has been shown that the Bethe ansatz can be recast as a deterministic quantum circuit. An analytical derivation of the quantum gates that form the circuit was lacking however. Here we present a comprehensive study of the transformation that brings the Bethe ansatz into a quantum circuit, which leads us to determine the analytical expression of the circuit gates. As a crucial step of the derivation, we present a simple set of diagrammatic rules that define a novel Matrix Product State network building Bethe wavefunctions. Remarkably, this provides a new perspective on the equivalence between the coordinate and algebraic versions of the Bethe ansatz.
翻訳日:2024-05-16 18:22:05 公開日:2024-05-15
# CoFiI2P:イメージ・ツー・ポイント・クラウド登録のための粗大な対応

CoFiI2P: Coarse-to-Fine Correspondences for Image-to-Point Cloud Registration ( http://arxiv.org/abs/2309.14660v3 )

ライセンス: Link先を確認
Shuhao Kang, Youqi Liao, Jianping Li, Fuxun Liang, Yuhao Li, Xianghong Zou, Fangning Li, Xieyuanli Chen, Zhen Dong, Bisheng Yang, (参考訳) イメージ・ツー・ポイント・クラウド(I2P)登録は、ロボットと自動運転車がモダリティ間のデータ融合とローカライゼーションを実現するための基本的なタスクである。 既存のI2P登録手法は、しばしばグローバルアライメントを見越して、ポイント/ピクセルレベルで対応を推定する。 しかし、I2Pマッチングは、グローバルな制約から高レベルなガイダンスなしで実行された場合、局所的な最適値に容易に収束することができる。 この問題に対処するために,グローバルな最適解を実現するために,粗大な方法で対応を抽出する新しいI2P登録ネットワークであるCoFiI2Pを紹介する。 まず、画像と点雲データをシームズエンコーダデコーダネットワークを介して処理し、階層的特徴抽出を行う。 第2に、これらの特徴を活用し、ロバストな特徴対応を確立するために、粗大なマッチングモジュールが設計されている。 具体的には、粗いマッチングフェーズにおいて、画像と点クラウドデータから均一なグローバル情報と不均一なグローバル情報の両方をキャプチャするために、新しいI2Pトランスフォーマーモジュールを用いる。 これにより、識別記述子との粗いスーパーポイント/スーパーピクセルマッチングペアを推定できる。 微細マッチングモジュールにおいて、スーパーポイント/スーパーピクセル対応のガイダンスにより、ポイント/ピクセル対を確立する。 最後に、一致するペアに基づいて、変換行列をEPnP-RANSACアルゴリズムで推定する。 KITTIデータセットで実施された大規模な実験により、CoFiI2Pは1.14度の相対回転誤差(RRE)と0.29mの相対翻訳誤差(RTE)で印象的な結果が得られることが示された。 その結果, 現状のSOTA法と比較して, RRE 84%, RTE 89%が有意に改善した。 プロジェクトページは \url{https://whu-usi3dv.github.io/CoFiI2P} で公開されている。

Image-to-point cloud (I2P) registration is a fundamental task for robots and autonomous vehicles to achieve cross-modality data fusion and localization. Existing I2P registration methods estimate correspondences at the point/pixel level, often overlooking global alignment. However, I2P matching can easily converge to a local optimum when performed without high-level guidance from global constraints. To address this issue, this paper introduces CoFiI2P, a novel I2P registration network that extracts correspondences in a coarse-to-fine manner to achieve the globally optimal solution. First, the image and point cloud data are processed through a Siamese encoder-decoder network for hierarchical feature extraction. Second, a coarse-to-fine matching module is designed to leverage these features and establish robust feature correspondences. Specifically, In the coarse matching phase, a novel I2P transformer module is employed to capture both homogeneous and heterogeneous global information from the image and point cloud data. This enables the estimation of coarse super-point/super-pixel matching pairs with discriminative descriptors. In the fine matching module, point/pixel pairs are established with the guidance of super-point/super-pixel correspondences. Finally, based on matching pairs, the transform matrix is estimated with the EPnP-RANSAC algorithm. Extensive experiments conducted on the KITTI dataset demonstrate that CoFiI2P achieves impressive results, with a relative rotation error (RRE) of 1.14 degrees and a relative translation error (RTE) of 0.29 meters. These results represent a significant improvement of 84% in RRE and 89% in RTE compared to the current state-of-the-art (SOTA) method. The project page is available at \url{https://whu-usi3dv.github.io/CoFiI2P}.
翻訳日:2024-05-16 18:22:05 公開日:2024-05-15
# nnSAM: nnUNetのパフォーマンスを改善したプラグインとプレイのセグメンテーションモデル

nnSAM: Plug-and-play Segment Anything Model Improves nnUNet Performance ( http://arxiv.org/abs/2309.16967v3 )

ライセンス: Link先を確認
Yunxiang Li, Bowen Jing, Zihan Li, Jing Wang, You Zhang, (参考訳) 医療画像の自動セグメンテーションは、現代の臨床ワークフローにおいて不可欠である。 Segment Anything Model (SAM)は、特定のドメイントレーニングなしで画像セグメンテーションを行う汎用ツールとして登場したが、人間のプロンプトが必要であり、特定のドメインに制限がある可能性がある。 nnUNetのような従来のモデルは推論中に自動セグメンテーションを行い、特定のドメインで有効だが、広範なドメイン固有のトレーニングを必要とする。 基礎モデルとドメイン固有モデルの長所を組み合わせるために, SAM の頑健な特徴抽出と nnUNet の自動構成を統合して, 小さなデータセット上でのセグメンテーション精度を向上させる nnSAM を提案する。 我々の nnSAM モデルは,SAM の特徴抽出と nnUNet のドメイン固有適応の2つの主要なアプローチを最適化し,レベルセット関数と曲率計算に基づく境界形状監視損失関数を組み込んで,限られたデータから解剖学的形状の事前学習を行う。 脳白質,肝,肺,心臓の4つのセグメンテーション課題についてnnSAMを評価した。 DICEスコアが82.77%, ASDが1.14mm, トレーニング標本が20例, nnUNetのDICEスコアが79.25%, ASDが1.36mmであったのに対し, DICEスコアが82.77%, ASDが1.14mmであった。 サンプルサイズの調査では、より少ないトレーニングサンプルでnnSAMの利点を強調した。 以上の結果より, nnSAMによるセグメンテーション性能は有意に向上し, 医用画像セグメンテーションにおけるスモールサンプル学習の可能性を示した。

Automatic segmentation of medical images is crucial in modern clinical workflows. The Segment Anything Model (SAM) has emerged as a versatile tool for image segmentation without specific domain training, but it requires human prompts and may have limitations in specific domains. Traditional models like nnUNet perform automatic segmentation during inference and are effective in specific domains but need extensive domain-specific training. To combine the strengths of foundational and domain-specific models, we propose nnSAM, integrating SAM's robust feature extraction with nnUNet's automatic configuration to enhance segmentation accuracy on small datasets. Our nnSAM model optimizes two main approaches: leveraging SAM's feature extraction and nnUNet's domain-specific adaptation, and incorporating a boundary shape supervision loss function based on level set functions and curvature calculations to learn anatomical shape priors from limited data. We evaluated nnSAM on four segmentation tasks: brain white matter, liver, lung, and heart segmentation. Our method outperformed others, achieving the highest DICE score of 82.77% and the lowest ASD of 1.14 mm in brain white matter segmentation with 20 training samples, compared to nnUNet's DICE score of 79.25% and ASD of 1.36 mm. A sample size study highlighted nnSAM's advantage with fewer training samples. Our results demonstrate significant improvements in segmentation performance with nnSAM, showcasing its potential for small-sample learning in medical image segmentation.
翻訳日:2024-05-16 18:22:05 公開日:2024-05-15
# CtxMIM:リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング

CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding ( http://arxiv.org/abs/2310.00022v3 )

ライセンス: Link先を確認
Mingming Zhang, Qingjie Liu, Yunhong Wang, (参考訳) ラベルのないデータの自己監督による表現の学習は、多様な画像を理解するのに非常に効果的であることが証明されている。 しかし、リモートセンシング画像は複雑で人口密度の高いシーンを持ち、複数の陸地オブジェクトと明確な前景オブジェクトが存在しないことが多い。 この本質的な性質は、自己教師付き学習において、高い対象密度を生成し、偽陽性対や文脈情報の欠落をもたらす。 これらの問題に対処するために,リモートセンシング画像理解のための簡易かつ効率的なMIMに基づく自己教師型学習であるコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。 CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。 コンテクストのコンテクスト整合性制約を通じてコンテキスト情報を提供するために、コンテクスト強化ジェネレーションブランチが導入された。 単純でエレガントな設計により、CtxMIMは、特定の時間的制約や地理的制約なしに、大規模データセットでオブジェクトレベルまたはピクセルレベルの特徴を学習する事前学習モデルを奨励する。 最後に、CtxMIMが学習した特徴は、土地被覆分類、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーションなど、様々な下流タスクにおいて、完全に教師付きかつ最先端の自己教師付き学習手法よりも優れていることを示す。 これらの結果から,CtxMIMは高一般化と伝達性を有する印象的なリモートセンシング表現を学習できることが示唆された。 コードとデータは公開されます。

Learning representations through self-supervision on unlabeled data has proven highly effective for understanding diverse images. However, remote sensing images often have complex and densely populated scenes with multiple land objects and no clear foreground objects. This intrinsic property generates high object density, resulting in false positive pairs or missing contextual information in self-supervised learning. To address these problems, we propose a context-enhanced masked image modeling method (CtxMIM), a simple yet efficient MIM-based self-supervised learning for remote sensing image understanding. CtxMIM formulates original image patches as a reconstructive template and employs a Siamese framework to operate on two sets of image patches. A context-enhanced generative branch is introduced to provide contextual information through context consistency constraints in the reconstruction. With the simple and elegant design, CtxMIM encourages the pre-training model to learn object-level or pixel-level features on a large-scale dataset without specific temporal or geographical constraints. Finally, extensive experiments show that features learned by CtxMIM outperform fully supervised and state-of-the-art self-supervised learning methods on various downstream tasks, including land cover classification, semantic segmentation, object detection, and instance segmentation. These results demonstrate that CtxMIM learns impressive remote sensing representations with high generalization and transferability. Code and data will be made public available.
翻訳日:2024-05-16 18:22:05 公開日:2024-05-15
# 不適切なガウス過程における平均回帰のない定常性

Stationarity without mean reversion in improper Gaussian processes ( http://arxiv.org/abs/2310.02877v2 )

ライセンス: Link先を確認
Luca Ambrogioni, (参考訳) GP回帰の挙動は共分散関数の選択に依存する。 定常共分散関数は機械学習アプリケーションで好まれる。 しかし、(周期的でない)定常共分散関数は、常に平均逆転であり、従って、固定された大域平均値に緩和しないデータに適用した場合に、病理学的な振る舞いを示すことができる。 本稿では,不適切なGPプリエントを無限分散で使用することにより,定常だが平均反転ではないプロセスを定義することができることを示す。 この目的のために、この制限条件でのみ定義できる非正のカーネルを使用する。 結果として得られる後続分布は解析的に計算され、通常の公式の簡単な修正が伴う。 この論文の主な貢献は、GP文学でよく用いられるカーネル(例えば、平方指数関数とマットアン類)によく似た滑らかな非逆共分散関数の族を導入することである。 合成および実データの両方を解析することにより、これらの非正のカーネルは、通常の滑らかな定常カーネルの良好な特性を保ちながら、平均反転GP回帰の既知の病態を解くことを実証する。

The behavior of a GP regression depends on the choice of covariance function. Stationary covariance functions are preferred in machine learning applications. However, (non-periodic) stationary covariance functions are always mean reverting and can therefore exhibit pathological behavior when applied to data that does not relax to a fixed global mean value. In this paper we show that it is possible to use improper GP priors with infinite variance to define processes that are stationary but not mean reverting. To this aim, we use of non-positive kernels that can only be defined in this limit regime. The resulting posterior distributions can be computed analytically and it involves a simple correction of the usual formulas. The main contribution of the paper is the introduction of a large family of smooth non-reverting covariance functions that closely resemble the kernels commonly used in the GP literature (e.g. squared exponential and Mat\'ern class). By analyzing both synthetic and real data, we demonstrate that these non-positive kernels solve some known pathologies of mean reverting GP regression while retaining most of the favorable properties of ordinary smooth stationary kernels.
翻訳日:2024-05-16 18:22:05 公開日:2024-05-15
# オーバーラップした周辺地域の密接なオリエンテーリング問題の解法について

On Solving Close Enough Orienteering Problems with Overlapped Neighborhoods ( http://arxiv.org/abs/2310.04257v3 )

ライセンス: Link先を確認
Qiuchen Qian, Yanran Wang, David Boyle, (参考訳) CETSP(Close Enough Traveling Salesman Problem)は、TSPのよく知られた変種であり、エージェントはターゲット地区内の任意の地点でミッションを完了することができる。 シュタイナーゾーン(Steiner Zones, SZ)と呼ばれる重なり合う地区に基づくヒューリスティックスは、CETSPに対処する上で注目されている。 SZは元のグラフを効果的に近似するが、それら固有の重複は検索空間に制約を課し、大域最適化の目的と矛盾する可能性がある。 ここでは、重複する地区に賞品を集約することで、このような制限が、親密な配向問題(CEOP)の利点にどのように変換できるかを示す。 古典的CEOPを非一様隣人 (CEOP-N) に拡張し, 賞品収集に非一様コストを導入する。 CEOP と CEOP-N に対処するため, 粒子群最適化 (PSO) と Ant Colony System (ACS), CRaSZe-AntS に基づくハイブリッドアルゴリズムを併用したランダム化されたスタイナーゾーン離散化 (RSZD) 方式の新たなアプローチを開発した。 RSZDスキームはPSO探索のサブリージョンを特定し、ACSは個別の訪問シーケンスを決定する。 CETSP インスタンスから派生した CEOP インスタンス上での RSZD の離散化性能を評価し,CRaSZe-AntS と CRaSZe-AntS を比較した。 また,SZの内部探索と各地区の境界探索の性能を,CEOP-Nの文脈で比較した。 実験の結果, CRaSZe-AntSは, 平均140.44%の入賞率, 55.18%のアルゴリズム実行時間で, 計算時間を大幅に削減できることがわかった。 そのため、CRaSZe-AntSは、トラックとドローンの配送シナリオを含む、新興のCEOP-Nの解決に非常に効果的である。

Close Enough Traveling Salesman Problem (CETSP) is a well-known variant of TSP whereby the agent may complete its mission at any point within a target neighborhood. Heuristics based on overlapped neighborhoods, known as Steiner Zones (SZ), have gained attention in addressing CETSP. While SZs offer effective approximations to the original graph, their inherent overlap imposes constraints on search space, potentially conflicting with global optimization objectives. Here we show how such limitations can be converted into advantages in a Close Enough Orienteering Problem (CEOP) by aggregating prizes across overlapped neighborhoods. We further extend classic CEOP with Non-uniform Neighborhoods (CEOP-N) by introducing non-uniform costs for prize collection. To tackle CEOP and CEOP-N, we develop a new approach featuring a Randomized Steiner Zone Discretization (RSZD) scheme coupled with a hybrid algorithm based on Particle Swarm Optimization (PSO) and Ant Colony System (ACS), CRaSZe-AntS. The RSZD scheme identifies sub-regions for PSO exploration, and ACS determines the discrete visiting sequence. We evaluate the RSZD's discretization performance on CEOP instances derived from established CETSP instances and compare CRaSZe-AntS against the most relevant state-of-the-art heuristic focused on single-neighborhood optimization for CEOP instances. We also compare the performance of the interior search within SZs and the boundary search on individual neighborhoods in the context of CEOP-N. Our experimental results show that CRaSZe-AntS can yield comparable solution quality with significantly reduced computation time compared to the single neighborhood strategy, where we observe an average 140.44% increase in prize collection and a 55.18% reduction in algorithm execution time. CRaSZe-AntS is thus highly effective in solving emerging CEOP-N, examples of which include truck-and-drone delivery scenarios.
翻訳日:2024-05-16 18:22:05 公開日:2024-05-15
# 視覚変換器の階層的サイドチューニング

Hierarchical Side-Tuning for Vision Transformers ( http://arxiv.org/abs/2310.05393v4 )

ライセンス: Link先を確認
Weifeng Lin, Ziheng Wu, Wentao Yang, Mingxin Huang, Jun Huang, Lianwen Jin, (参考訳) 微調整された事前訓練された視覚変換器(ViTs)は、視覚認識タスクの強化に大きく貢献している。 しかし、各タスクの個別化および包括的微調整プロセスの需要は、かなりの計算コストとメモリコストを伴い、かなりの課題を生んでいる。 近年のPETL(パラメータ効率変換学習)の進歩は,完全微調整に比べてパラメータ更新が少なく,高性能化の可能性が示唆されている。 しかし、それらの効果は画像分類のような単純なタスクで主に観察される一方、より複雑な視覚的タスク(密集した予測など)では課題に直面している。 このギャップに対処するために,より広い範囲の視覚的タスクに対応する効果的なチューニング手法を提案する。 本稿では,多様な下流タスクへのVTモデルの転送を容易にする革新的PETL手法である階層側チューニング(HST)を紹介する。 特定の入力空間やモジュール内の微調整パラメータのみにフォーカスする既存のメソッドとは違い、HSTは軽量な階層側ネットワーク(HSN)を採用している。 このネットワークは、ViTバックボーンからの中間アクティベーションを利用して、マルチスケール機能をモデル化し、予測能力を向上する。 HSTを評価するために,分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなど,様々な視覚的タスクを対象とした総合的な実験を行った。 注目すべきことに、HSTはVTAB-1Kベンチマークの19タスク中13タスクで最先端のパフォーマンスを達成し、Top-1の精度は76.1%であり、わずか0.78Mのパラメータを微調整した。 COCO と ADE20K testdev ベンチマークのオブジェクト検出やセマンティックセグメンテーションタスクに適用すると、HST は既存の PETL メソッドよりも優れ、完全な微調整さえ超えた。

Fine-tuning pre-trained Vision Transformers (ViTs) has showcased significant promise in enhancing visual recognition tasks. Yet, the demand for individualized and comprehensive fine-tuning processes for each task entails substantial computational and memory costs, posing a considerable challenge. Recent advancements in Parameter-Efficient Transfer Learning (PETL) have shown potential for achieving high performance with fewer parameter updates compared to full fine-tuning. However, their effectiveness is primarily observed in simple tasks like image classification, while they encounter challenges with more complex vision tasks like dense prediction. To address this gap, this study aims to identify an effective tuning method that caters to a wider range of visual tasks. In this paper, we introduce Hierarchical Side-Tuning (HST), an innovative PETL method facilitating the transfer of ViT models to diverse downstream tasks. Diverging from existing methods that focus solely on fine-tuning parameters within specific input spaces or modules, HST employs a lightweight Hierarchical Side Network (HSN). This network leverages intermediate activations from the ViT backbone to model multi-scale features, enhancing prediction capabilities. To evaluate HST, we conducted comprehensive experiments across a range of visual tasks, including classification, object detection, instance segmentation, and semantic segmentation. Remarkably, HST achieved state-of-the-art performance in 13 out of the 19 tasks on the VTAB-1K benchmark, with the highest average Top-1 accuracy of 76.1%, while fine-tuning a mere 0.78M parameters. When applied to object detection and semantic segmentation tasks on the COCO and ADE20K testdev benchmarks, HST outperformed existing PETL methods and even surpassed full fine-tuning.
翻訳日:2024-05-16 18:22:05 公開日:2024-05-15
# MINDE:相互情報ニューラル拡散推定

MINDE: Mutual Information Neural Diffusion Estimation ( http://arxiv.org/abs/2310.09031v2 )

ライセンス: Link先を確認
Giulio Franzese, Mustapha Bounoua, Pietro Michiardi, (参考訳) 本研究では,確率変数間の相互情報(MI)を推定するための新しい手法を提案する。 我々のアプローチは、Girsanov定理のオリジナルの解釈に基づいており、スコアベースの拡散モデルを用いて、2つの密度間のクルバック・リーブラの偏差をスコア関数の差として推定することができる。 副産物として,確率変数のエントロピーの推定も可能である。 このような構造ブロックを組み込んだMIの測定方法を提案する。一方は条件拡散過程を使い、他方は2つの確率変数の同時モデリングを可能にする共同拡散過程を使用する。 提案手法は,提案手法のすべての変種に対する徹底的な実験的プロトコルから導かれるものであり,本手法が文献,特に難解な分布に対する主な代替手段よりも正確であることを示す。 さらに,本手法は,データ処理や独立性の付加性を含むMI自己整合性試験をパスする。

In this work we present a new method for the estimation of Mutual Information (MI) between random variables. Our approach is based on an original interpretation of the Girsanov theorem, which allows us to use score-based diffusion models to estimate the Kullback Leibler divergence between two densities as a difference between their score functions. As a by-product, our method also enables the estimation of the entropy of random variables. Armed with such building blocks, we present a general recipe to measure MI, which unfolds in two directions: one uses conditional diffusion process, whereas the other uses joint diffusion processes that allow simultaneous modelling of two random variables. Our results, which derive from a thorough experimental protocol over all the variants of our approach, indicate that our method is more accurate than the main alternatives from the literature, especially for challenging distributions. Furthermore, our methods pass MI self-consistency tests, including data processing and additivity under independence, which instead are a pain-point of existing methods.
翻訳日:2024-05-16 18:22:05 公開日:2024-05-15
# 1+1次元における$O(3)$モデルの連続変数量子計算

Continuous variable quantum computation of the $O(3)$ model in 1+1 dimensions ( http://arxiv.org/abs/2310.12512v2 )

ライセンス: Link先を確認
Raghav G. Jha, Felix Ringer, George Siopsis, Shane Thompson, (参考訳) 1+1次元で$O(3)$非線型シグマモデルを3成分スカラー場理論の極限として定式化する。 これにより、量子コンピューティングに対する連続変数(CV)アプローチの観点からモデルを記述することができる。 結合クラスタAnsatzを用いて基底状態と励起状態を構築し、少数の格子サイトに対して正確な対角化結果と良好な一致を示す。 次に,CVゲートを用いたモデルの時間発展のためのシミュレーションプロトコルを提案し,フォトニック量子シミュレータを用いて数値計算結果を得る。 この研究で開発された手法は、幅広い種類のシグマモデルやゲージ理論の興味深いダイナミクスの探索や、今後数十年間の量子ハードウェア上の散乱事象のシミュレーションに有用であると期待する。

We formulate the $O(3)$ non-linear sigma model in 1+1 dimensions as a limit of a three-component scalar field theory restricted to the unit sphere in the large squeezing limit. This allows us to describe the model in terms of the continuous variable (CV) approach to quantum computing. We construct the ground state and excited states using the coupled-cluster Ansatz and find excellent agreement with the exact diagonalization results for a small number of lattice sites. We then present the simulation protocol for the time evolution of the model using CV gates and obtain numerical results using a photonic quantum simulator. We expect that the methods developed in this work will be useful for exploring interesting dynamics for a wide class of sigma models and gauge theories, as well as for simulating scattering events on quantum hardware in the coming decades.
翻訳日:2024-05-16 18:22:05 公開日:2024-05-15
# 測定統計の非古典性に対する厳密な不等式

Tight inequalities for nonclassicality of measurement statistics ( http://arxiv.org/abs/2310.14263v2 )

ライセンス: Link先を確認
V. S. Kovtoniuk, E. V. Stolyarov, O. V. Kliushnichenko, A. A. Semenov, (参考訳) 量子光学では、測光統計(例えば、測光統計)は、古典的な放射場の統計的混合で再生できない場合、非古典的とみなされる。 我々はそのような非古典主義に必要かつ十分な条件を定式化した。 この条件は、古典的な電磁放射に関連する確率の凸集合を強固に束縛する不等式によって与えられる。 これらの不等式の全集合と部分集合の分析形式は、リアルな測光測定と不均衡なホモダイン検出の重要なケースに対して得られる。 一例として、位相印加されたコヒーレント状態の光計数統計について考察する。 一般的な直観とは対照的に、ここで開発された分析は、これらの統計の異なる非古典的な性質を明らかにし、最小限の資源と実験的に相関させることができる。

In quantum optics, measurement statistics -- for example, photocounting statistics -- are considered nonclassical if they cannot be reproduced with statistical mixtures of classical radiation fields. We have formulated a necessary and sufficient condition for such nonclassicality. This condition is given by a set of inequalities that tightly bound the convex set of probabilities associated with classical electromagnetic radiation. Analytical forms for full sets and subsets of these inequalities are obtained for important cases of realistic photocounting measurements and unbalanced homodyne detection. As an example, we consider photocounting statistics of phase-squeezed coherent states. Contrary to a common intuition, the analysis developed here reveals distinct nonclassical properties of these statistics that can be experimentally corroborated with minimal resources.
翻訳日:2024-05-16 18:22:05 公開日:2024-05-15
# メタ学習の欠如は、言語モデルがより信頼できる情報源を信頼させるかもしれない

Implicit meta-learning may lead language models to trust more reliable sources ( http://arxiv.org/abs/2310.15047v3 )

ライセンス: Link先を確認
Dmitrii Krasheninnikov, Egor Krasheninnikov, Bruno Mlodozeniec, Tegan Maharaj, David Krueger, (参考訳) LLMは文書の有用性の指標を学習し,それに応じて更新を変更できることを実証する。 合成微調整データセットにおける有用性の指標としてランダム文字列(タグ)を導入する。 このデータセットの微調整は暗黙的なメタ学習(IML)につながる。さらに微調整では、タグ付けされたテキストをより有効に活用するためのモデル更新が行われる。 我々は、この現象の徹底的な実証調査を行い、(その他に)その現象を発見した。 一 予め訓練したLLM及びスクラッチから訓練を受けたもの及び視覚課題で発生すること。 (ii) より大きなモデルと小さなバッチサイズは、より多くのMLを与える傾向があります。 また、モデルがパラメーターに知識を格納する方法をIMLがどう変えるかを調べるために、探索も使用しています。 最後に、将来のAIシステムの能力、リスク、制御可能性について、私たちの結果が示唆するものを反映します。 私たちのコードはhttps://github.com/krasheninnikov/internalization.orgにある。

We demonstrate that LLMs may learn indicators of document usefulness and modulate their updates accordingly. We introduce random strings ("tags") as indicators of usefulness in a synthetic fine-tuning dataset. Fine-tuning on this dataset leads to implicit meta-learning (IML): in further fine-tuning, the model updates to make more use of text that is tagged as useful. We perform a thorough empirical investigation of this phenomenon, finding (among other things) that (i) it occurs in both pretrained LLMs and those trained from scratch, as well as on a vision task, and (ii) larger models and smaller batch sizes tend to give more IML. We also use probing to examine how IML changes the way models store knowledge in their parameters. Finally, we reflect on what our results might imply about capabilities, risks, and controllability of future AI systems. Our code can be found at https://github.com/krasheninnikov/internalization.
翻訳日:2024-05-16 18:22:05 公開日:2024-05-15
# 量子非局所性:マルチコピーリソース・インターコンバータビリティとその漸近的非等価性

Quantum Nonlocality: Multi-copy Resource Inter-convertibility & Their Asymptotic Inequivalence ( http://arxiv.org/abs/2310.16386v2 )

ライセンス: Link先を確認
Subhendu B. Ghosh, Snehasish Roy Chowdhury, Guruprasad Kar, Arup Roy, Tamal Guha, Manik Banik, (参考訳) ベルの独創的な研究の先駆者であり、その後一連の実験を通じて検証された量子非局所性は、様々なプロトコルの実践的応用により、かなりの注目を集めている。 異なる量子相関における非局所性の評価と比較は、重要な実践的関連性を持っている。 資源理論フレームワーク内では、自由局所演算の下での異なる非局所相関と共有ランダム性の間の変換率を評価することで、これを実現できる。 しかし、本研究では、最強の意味では相容れない量子非局所相関の事例を提示する。 具体的には、ある非局所相関の任意の数のコピーから始めると、他の相関の1つのコピーも取得できなくなり、この非競合性は両方の方向に保たれる。 注目すべきは、これらの非比較不可能な量子相関は、最も単純なベルのシナリオでも得ることができ、それぞれが2つの二コトミック測度を持つ2つのパーティを含む。 特に、そのような非可算数の非可算な相関が存在する。 この結果は、非局所性蒸留の研究において非自明な意味を持つ量子非局所性(英語版)の資源理論の枠組みの中で、しばしば「最大資源状態(maximally resourceful state)」と呼ばれる「特異金貨(unique gold coin)」の概念に挑戦する。

Quantum nonlocality, pioneered in Bell's seminal work and subsequently verified through a series of experiments, has drawn substantial attention due to its practical applications in various protocols. Evaluating and comparing the extent of nonlocality within distinct quantum correlations holds significant practical relevance. Within the resource theoretic framework this can be achieved by assessing the inter-conversion rate among different nonlocal correlations under free local operations and shared randomness. In this study we, however, present instances of quantum nonlocal correlations that are incomparable in the strongest sense. Specifically, when starting with an arbitrary many copies of one nonlocal correlation, it becomes impossible to obtain even a single copy of the other correlation, and this incomparability holds in both directions. Remarkably, these incomparable quantum correlations can be obtained even in the simplest Bell scenario, which involves two parties, each having two dichotomic measurements setups. Notably, there exist an uncountable number of such incomparable correlations. Our result challenges the notion of a 'unique gold coin', often referred to as the 'maximally resourceful state', within the framework of the resource theory of quantum nonlocality, which has nontrivial implications in the study of nonlocality distillation.
翻訳日:2024-05-16 18:22:05 公開日:2024-05-15
# エンタングルメントスペクトルの微細レベル抽出のためのサンプリング縮小密度行列

Sampling reduced density matrix to extract fine levels of entanglement spectrum ( http://arxiv.org/abs/2310.16709v3 )

ライセンス: Link先を確認
Bin-Bin Mao, Yi-Ming Ding, Zheng Yan, (参考訳) 低いエンタングルメントスペクトルは、高エンタングルド量子物質を位相的および共形場理論的性質で同定するためのクインテシデントフィンガーを与える。 しかし、絡み合い領域が長い結合鎖や2次元以上の環境との長い境界を取得すると、計算コストで絡み合いスペクトルを計算するための普遍的かつ実用的な方法が存在しない。 本稿では,このような難易度を克服し,低層微細絡み合いスペクトル(ES)の抽出に成功した新しい手法を提案する。 量子モンテカルロシミュレーションを用いて環境をトレースし、還元密度行列を対角化してESを得る。 我々は、長い結合スピン鎖による手法の強さと信頼性を示し、その長年の論争に答える。 我々のシミュレーション結果は、前例のないほど大きなシステムサイズで、環境自由度の高い絡み合いスペクトルの実用的な計算方法を確立した。

Low-lying entanglement spectrum provides the quintessential fingerprint to identify the highly entangled quantum matter with topological and conformal field-theoretical properties. However, when the entangling region acquires long boundary with the environment, such as that between long coupled chains or in two or higher dimensions, there unfortunately exists no universal yet practical method to compute the entanglement spectra with affordable computational cost. Here we propose a new scheme to overcome such difficulty and successfully extract the low-lying fine entanglement spectrum (ES). We trace out the environment via quantum Monte Carlo simulation and diagonalize the reduced density matrix to gain the ES. We demonstrate the strength and reliability of our method through long coupled spin chains and answer its long-standing controversy. Our simulation results, with unprecedentedly large system sizes, establish the practical computation scheme of the entanglement spectrum with a huge freedom degree of environment.
翻訳日:2024-05-16 18:22:05 公開日:2024-05-15
# 医学における大規模言語モデル : 進歩, 応用, 課題

A Survey of Large Language Models in Medicine: Progress, Application, and Challenge ( http://arxiv.org/abs/2311.05112v5 )

ライセンス: Link先を確認
Hongjian Zhou, Fenglin Liu, Boyang Gu, Xinyu Zou, Jinfa Huang, Jinge Wu, Yiru Li, Sam S. Chen, Peilin Zhou, Junling Liu, Yining Hua, Chengfeng Mao, Chenyu You, Xian Wu, Yefeng Zheng, Lei Clifton, Zheng Li, Jiebo Luo, David A. Clifton, (参考訳) ChatGPTのような大規模言語モデル(LLM)は、人間の言語を理解して生成する能力のために、かなりの注目を集めている。 様々な医療業務(例えば、臨床診断の強化、医学教育の提供)におけるLSMの活用に焦点をあてた研究が盛んに行われているが、これらの取り組み、特にその開発、実践的応用、医学における成果のレビューは乏しいままである。 そこで本報告では,医学におけるLSMの開発と展開について,それらが直面する課題や機会を概観する。 開発に関しては,基礎的なモデル構造,パラメータの数,モデル開発に使用されるデータソースとスケールなど,既存の医療用LCMの原理を詳細に紹介する。 特定のニーズに合わせて医療用LLMを開発する実践者のためのガイドとして機能する。 展開の面では、様々な医療タスクにおける異なるLSMの性能の比較を行い、さらに医学におけるLSMの利点と限界を理解することを目的として、最先端の軽量モデルと比較する。 全体として、このレビューでは、以下の疑問に対処する。 1)医療用LSMの開発における実践 2) 医療現場におけるLCMの医療タスクパフォーマンスの測定方法 3)医療用LLMはどのようにして現実の実践に使われてきたか? 4) 医療用LSMの使用による課題は何か。 そして 5)医療用LLMをより効果的に開発・展開する方法 これらの疑問に答えることにより、医学におけるLSMの機会についての洞察を提供し、実践的な資源として機能することを目的としている。 また、医療用LCMの実践的ガイドを定期的に更新したリストを、https://github.com/AI-in-Health/MedLLMsPracticalGuideで維持しています。

Large language models (LLMs), such as ChatGPT, have received substantial attention due to their capabilities for understanding and generating human language. While there has been a burgeoning trend in research focusing on the employment of LLMs in supporting different medical tasks (e.g., enhancing clinical diagnostics and providing medical education), a review of these efforts, particularly their development, practical applications, and outcomes in medicine, remains scarce. Therefore, this review aims to provide a detailed overview of the development and deployment of LLMs in medicine, including the challenges and opportunities they face. In terms of development, we provide a detailed introduction to the principles of existing medical LLMs, including their basic model structures, number of parameters, and sources and scales of data used for model development. It serves as a guide for practitioners in developing medical LLMs tailored to their specific needs. In terms of deployment, we offer a comparison of the performance of different LLMs across various medical tasks, and further compare them with state-of-the-art lightweight models, aiming to provide an understanding of the advantages and limitations of LLMs in medicine. Overall, in this review, we address the following questions: 1) What are the practices for developing medical LLMs 2) How to measure the medical task performance of LLMs in a medical setting? 3) How have medical LLMs been employed in real-world practice? 4) What challenges arise from the use of medical LLMs? and 5) How to more effectively develop and deploy medical LLMs? By answering these questions, this review aims to provide insights into the opportunities for LLMs in medicine and serve as a practical resource. We also maintain a regularly updated list of practical guides on medical LLMs at: https://github.com/AI-in-Health/MedLLMsPracticalGuide.
翻訳日:2024-05-16 18:12:18 公開日:2024-05-15
# 制約ボソンモデルにおける創発的アシュキン・テラー臨界

Emergent Ashkin-Teller criticality in a constrained boson model ( http://arxiv.org/abs/2311.12107v2 )

ライセンス: Link先を確認
Anirudha Menon, Anwesha Chattopadhyay, K. Sengupta, Arnab Sen, (参考訳) 制約付きボソニックモデル上での明示的な計算により、サブシステム対称性の存在は、臨界点が創発的拡張対称性を示す量子位相遷移(QPT)につながることを示した。 このような遷移は、特異なギャップ化された基底状態とギャップのない状態とを分離し、後者の位相は、モデル内のサブシステム対称性の存在と結びつく、壊れた$Z_2$対称性を示す。 これらの相を分離する中間臨界点は、我々が特定する追加の創発的な$Z_2$対称性を示し、この出現は、予想されるイジングの普遍性クラスではなく、アシュキン・テラーの批判理論に繋がる。 モデルの遷移は、可変相関長指数$\nu$ を持つアスキン・テラー臨界線を再現するが、定数中心電荷$c$ であることを示す。 我々は、このシナリオを、明示的な正確な対角化計算によって検証し、そのような遷移に対して有効なランダウ・ギンズバーグ理論を提供し、また、リドバーグ原子配列を記述するPXPモデルとの接続について議論する。

We show, via explicit computation on a constrained bosonic model, that the presence of subsystem symmetries can lead to a quantum phase transition (QPT) where the critical point exhibits an emergent enhanced symmetry. Such a transition separates a unique gapped ground state from a gapless one; the latter phase exhibits a broken $Z_2$ symmetry which we tie to the presence of the subsystem symmetries in the model. The intermediate critical point separating these phases exhibits an additional emergent $Z_2$ symmetry which we identify; this emergence leads to a critical theory in the Ashkin-Teller, instead of the expected Ising, universality class. We show that the transitions of the model reproduces the Askhin-Teller critical line with variable correlation length exponent $\nu$ but constant central charge $c$. We verify this scenario via explicit exact-diagonalization computations, provide an effective Landau-Ginzburg theory for such a transition, and discuss the connection of our model to the PXP model describing Rydberg atom arrays.
翻訳日:2024-05-16 18:12:17 公開日:2024-05-15
# Beyond Turing: 機械生成テキスト検出のためのアプローチの比較分析

Beyond Turing: A Comparative Analysis of Approaches for Detecting Machine-Generated Text ( http://arxiv.org/abs/2311.12373v3 )

ライセンス: Link先を確認
Muhammad Farid Adilazuarda, (参考訳) 事前訓練された言語モデル(PLM)によるテキスト生成において、人間と機械生成したテキストの区別はエスカレートする課題である。 本稿では,従来の浅層学習,言語モデル(LM)ファインチューニング,多言語モデルファインチューニングの3つの手法を詳細に評価する。 これらのアプローチは、幅広いマシン生成テキストで厳密にテストされ、人間による言語構造と機械による言語構造を区別する彼らの能力のベンチマークを提供する。 その結果, NLP の重要領域において, さらなる進歩の必要性が強調された。 この研究は価値ある洞察を与え、堅牢で差別性の高いモデルを作成することを目的とした将来の研究の道を開く。

Significant progress has been made on text generation by pre-trained language models (PLMs), yet distinguishing between human and machine-generated text poses an escalating challenge. This paper offers an in-depth evaluation of three distinct methods used to address this task: traditional shallow learning, Language Model (LM) fine-tuning, and Multilingual Model fine-tuning. These approaches are rigorously tested on a wide range of machine-generated texts, providing a benchmark of their competence in distinguishing between human-authored and machine-authored linguistic constructs. The results reveal considerable differences in performance across methods, thus emphasizing the continued need for advancement in this crucial area of NLP. This study offers valuable insights and paves the way for future research aimed at creating robust and highly discriminative models.
翻訳日:2024-05-16 18:12:17 公開日:2024-05-15
# 半教師付きオブジェクト指向物体検出のための密度誘導型擬似ラベル選択

Density-Guided Dense Pseudo Label Selection For Semi-supervised Oriented Object Detection ( http://arxiv.org/abs/2311.12608v2 )

ライセンス: Link先を確認
Tong Zhao, Qiang Fang, Shuohao Shi, Xin Xu, (参考訳) 近年,教師モデルの本来の出力から擬似ラベルを複雑な後処理ステップなしで直接選択する擬似ラベルが,半教師対象検出(SSOD)において注目されている。 しかし, 空中シーンに共通する多目的・密集物体に対しては, 従来の擬似ラベル選択法は, 高い密度差を無視するため非効率である。 そこで本研究では,半教師付きオブジェクト指向物体検出のための密度ガイド型Dseudo Pseudo Label Selection (DDPLS)を提案する。 DDPLSでは、高密度な擬似ラベルの選択を誘導するシンプルだが効果的な適応機構を設計する。 具体的には, Pseudo Density Score (PDS) を用いて潜在対象の密度を推定し, このスコアを用いて信頼度の高い擬似ラベルを選択する。 DOTA-v1.5ベンチマークでは,ラベル付きデータが少ない場合,提案手法は従来手法よりも優れていた。 例えば、49.78 mAPは、注釈付きデータの5.%しか与えられず、従来の最先端の手法を1.15 mAPで上回り、49.78 mAPを達成している。 私たちのコードはhttps://github.com/Haru-zt/DDPLS.comで公開されています。

Recently, dense pseudo-label, which directly selects pseudo labels from the original output of the teacher model without any complicated post-processing steps, has received considerable attention in semi-supervised object detection (SSOD). However, for the multi-oriented and dense objects that are common in aerial scenes, existing dense pseudo-label selection methods are inefficient because they ignore the significant density difference. Therefore, we propose Density-Guided Dense Pseudo Label Selection (DDPLS) for semi-supervised oriented object detection. In DDPLS, we design a simple but effective adaptive mechanism to guide the selection of dense pseudo labels. Specifically, we propose the Pseudo Density Score (PDS) to estimate the density of potential objects and use this score to select reliable dense pseudo labels. On the DOTA-v1.5 benchmark, the proposed method outperforms previous methods especially when labeled data are scarce. For example, it achieves 49.78 mAP given only 5\% of annotated data, which surpasses previous state-of-the-art method given 10\% of annotated data by 1.15 mAP. Our codes is available at https://github.com/Haru-zt/DDPLS.
翻訳日:2024-05-16 18:12:17 公開日:2024-05-15
# 適応1次法の収束について:近位勾配と交互最小化アルゴリズム

On the convergence of adaptive first order methods: proximal gradient and alternating minimization algorithms ( http://arxiv.org/abs/2311.18431v2 )

ライセンス: Link先を確認
Puya Latafat, Andreas Themelis, Panagiotis Patrinos, (参考訳) 本稿では,線形探索のない適応的近位勾配法に関する最近の研究に基づいて,より大規模なステップ化ポリシと下位境界の改善により既存の結果を統一・拡張するフレームワークであるadaPG$^{q,r}$を提案する。 パラメータの$q$と$r$の異なる選択について論じ、数値シミュレーションにより結果の有効性を実証する。 基礎となる理論をよりよく理解するために、その収束は時変パラメータを許容するより一般的な設定で確立される。 最後に、この2つの設定を探索することにより、適応的交代最小化アルゴリズムを示す。 このアルゴリズムは、追加の適応性を含むだけでなく、標準の凸設定を超えて適用性も拡張する。

Building upon recent works on linesearch-free adaptive proximal gradient methods, this paper proposes adaPG$^{q,r}$, a framework that unifies and extends existing results by providing larger stepsize policies and improved lower bounds. Different choices of the parameters $q$ and $r$ are discussed and the efficacy of the resulting methods is demonstrated through numerical simulations. In an attempt to better understand the underlying theory, its convergence is established in a more general setting that allows for time-varying parameters. Finally, an adaptive alternating minimization algorithm is presented by exploring the dual setting. This algorithm not only incorporates additional adaptivity, but also expands its applicability beyond standard strongly convex settings.
翻訳日:2024-05-16 18:12:17 公開日:2024-05-15
# ポーラリメトリック光輸送解析によるスペクトル間反射の解析

Polarimetric Light Transport Analysis for Specular Inter-reflection ( http://arxiv.org/abs/2312.04140v2 )

ライセンス: Link先を確認
Ryota Maeda, Shinsaku Hiura, (参考訳) 偏光は拡散とスペクトル反射を分解する能力で知られている。 しかし、既存の分解法は直接反射にのみ焦点をあて、多重反射、特に特異反射間反射を視野に入れている。 本稿では, 線形偏光の回転方向という特異な偏光特性を用いて, 金属物体の特異な相互反射を処理する新しい分解法を提案する。 この回転方向は、特異面上の直接反射と相互反射の判別因子として機能する。 反射率成分を分解するために、入射光の線形偏光を積極的に回転させ、反射光の回転方向を解析する。 合成データと実データの両方を用いて本手法の評価を行い, 金属オブジェクトのスペクトル相互反射を分解する方法の有効性を実証した。 さらに,光輸送の詳細な解析のために,本手法を他の分解法と組み合わせることができることを示した。 実例として,強いスペクトル相互反射に対する3次元計測の精度向上に有効であることを示す。

Polarization is well known for its ability to decompose diffuse and specular reflections. However, the existing decomposition methods only focus on direct reflection and overlook multiple reflections, especially specular inter-reflection. In this paper, we propose a novel decomposition method for handling specular inter-reflection of metal objects by using a unique polarimetric feature: the rotation direction of linear polarization. This rotation direction serves as a discriminative factor between direct and inter-reflection on specular surfaces. To decompose the reflectance components, we actively rotate the linear polarization of incident light and analyze the rotation direction of the reflected light. We evaluate our method using both synthetic and real data, demonstrating its effectiveness in decomposing specular inter-reflections of metal objects. Furthermore, we demonstrate that our method can be combined with other decomposition methods for a detailed analysis of light transport. As a practical application, we show its effectiveness in improving the accuracy of 3D measurement against strong specular inter-reflection.
翻訳日:2024-05-16 18:12:17 公開日:2024-05-15
# 最適マルチディストリビューション学習

Optimal Multi-Distribution Learning ( http://arxiv.org/abs/2312.05134v3 )

ライセンス: Link先を確認
Zihan Zhang, Wenhao Zhan, Yuxin Chen, Simon S. Du, Jason D. Lee, (参考訳) MDL(Multi-distriion Learning)は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目的として、ロバストネス、フェアネス、マルチグループコラボレーションなどに対する需要の高まりに対応する統一されたフレームワークとして登場した。 データ効率のよいMDLを実現するには、学習プロセス全体を通じて適応サンプリング(オンデマンドサンプリングとも呼ばれる)が必要である。 しかし、最適なサンプルの複雑さについて、最先端の上境界と下限の間にはかなりのギャップがある。 Vapnik-Chervonenkis (VC) 次元 d の仮説クラスに焦点をあて、(d+k)/varepsilon^2 (modulo some logarithmic factor) の順にサンプル複雑性を持つヴァレプシロン最適ランダム化仮説を導出し、最もよく知られた下界と一致する新しいアルゴリズムを提案する。 我々のアルゴリズムの考えと理論はさらに拡張され、ラデマッハ類に適合する。 提案したアルゴリズムはオラクル効率が良く、経験的リスク最小化オラクルを通してのみ仮説クラスにアクセスする。 さらに、ランダム化の必要性を確立し、決定論的仮説のみを許す場合、大きなサンプルサイズ障壁を明らかにする。 これらの結果は、COLT 2023で提示された3つのオープンな問題を解決している(citet[Problems 1, 3 and 4]{awasthi2023sample})。

Multi-distribution learning (MDL), which seeks to learn a shared model that minimizes the worst-case risk across $k$ distinct data distributions, has emerged as a unified framework in response to the evolving demand for robustness, fairness, multi-group collaboration, etc. Achieving data-efficient MDL necessitates adaptive sampling, also called on-demand sampling, throughout the learning process. However, there exist substantial gaps between the state-of-the-art upper and lower bounds on the optimal sample complexity. Focusing on a hypothesis class of Vapnik-Chervonenkis (VC) dimension d, we propose a novel algorithm that yields an varepsilon-optimal randomized hypothesis with a sample complexity on the order of (d+k)/varepsilon^2 (modulo some logarithmic factor), matching the best-known lower bound. Our algorithmic ideas and theory are further extended to accommodate Rademacher classes. The proposed algorithms are oracle-efficient, which access the hypothesis class solely through an empirical risk minimization oracle. Additionally, we establish the necessity of randomization, revealing a large sample size barrier when only deterministic hypotheses are permitted. These findings resolve three open problems presented in COLT 2023 (i.e., citet[Problems 1, 3 and 4]{awasthi2023sample}).
翻訳日:2024-05-16 18:12:17 公開日:2024-05-15
# 全スライド画像分類のためのシェープ値対応プログレッシブプログレッシブPseudo Bag Augmentation

Shapley Values-enabled Progressive Pseudo Bag Augmentation for Whole Slide Image Classification ( http://arxiv.org/abs/2312.05490v3 )

ライセンス: Link先を確認
Renao Yan, Qiehe Sun, Cheng Jin, Yiqing Liu, Yonghong He, Tian Guan, Hao Chen, (参考訳) 計算病理学において、全スライド画像(WSI)分類は、そのギガピクセル解像度と制限された細かいアノテーションのため、非常に難しい課題である。 多重インスタンス学習(MIL)は、弱教師付きソリューションを提供するが、バッグレベルのラベルからインスタンスレベルの情報を精製することは複雑である。 従来のMIL手法のほとんどは、スライディングラベルの予測に寄与するインスタンス重要度スコア(IIS)を推定するために注意スコアを使用するが、これらは重要なインスタンスを特定する際に注意分布や不正確な結果をもたらすことが多い。 これらの問題に対処するため、我々は協調ゲーム理論に着想を得た新しいアプローチを提案し、各インスタンスの寄与度を評価するためにシェープリー値を用いることにより、IIS推定を改善する。 その後、Shapley値の計算を注意して高速化し、強化されたインスタンス識別と優先順位付けを維持した。 さらに、推定IISに基づく疑似バッグのプログレッシブ割り当てのためのフレームワークを導入し、MILモデルにおけるよりバランスのとれた注意分布を奨励する。 CAMELYON-16, BRACS, TCGA-LUNGデータセットに関する広範な実験は,我々の手法が既存の最先端アプローチよりも優れていることを示している。 私たちは受け入れに応じてコードを公開します。

In computational pathology, whole slide image (WSI) classification presents a formidable challenge due to its gigapixel resolution and limited fine-grained annotations. Multiple instance learning (MIL) offers a weakly supervised solution, yet refining instance-level information from bag-level labels remains complex. While most of the conventional MIL methods use attention scores to estimate instance importance scores (IIS) which contribute to the prediction of the slide labels, these often lead to skewed attention distributions and inaccuracies in identifying crucial instances. To address these issues, we propose a new approach inspired by cooperative game theory: employing Shapley values to assess each instance's contribution, thereby improving IIS estimation. The computation of the Shapley value is then accelerated using attention, meanwhile retaining the enhanced instance identification and prioritization. We further introduce a framework for the progressive assignment of pseudo bags based on estimated IIS, encouraging more balanced attention distributions in MIL models. Our extensive experiments on CAMELYON-16, BRACS, and TCGA-LUNG datasets show our method's superiority over existing state-of-the-art approaches, offering enhanced interpretability and class-wise insights. We will release the code upon acceptance.
翻訳日:2024-05-16 18:12:17 公開日:2024-05-15
# 通信コストが18キロバイト未満の10億大言語モデルのフェデレーションフルパラメータチューニング

Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes ( http://arxiv.org/abs/2312.06353v4 )

ライセンス: Link先を確認
Zhen Qin, Daoyuan Chen, Bingchen Qian, Bolin Ding, Yaliang Li, Shuiguang Deng, (参考訳) 事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。 フェデレーション学習は、データプライバシを損なうことなく、エンドデバイス上の豊富なデータを使用してLLMを微調整する方法を提供する。 LLMの既存のファインチューニング手法の多くはパラメータ効率のよいファインチューニング技術に依存しており、フルパラメータチューニングでは性能の高さに到達できない可能性がある。 しかし,LLMのフェデレーションフルパラメータチューニングは通信コストが大きいため,非自明な問題である。 この研究は、有限個のランダムシードからなるゼロ階最適化を利用するFedKSeedを導入している。 サーバとクライアント間の通信要求をわずかにランダムなシードとスカラー勾配に減らし、数千バイトに減らし、デバイス上で数十億のLLMのフルパラメータチューニングを可能にする。 そこで我々は,確率微分型シードサンプリングを実現する手法を開発し,モデル精度に大きな影響を与える摂動の優先順位付けを行う。 各種LLM,データセット,データパーティションを用いた6つのシナリオを対象とした実験により,我々の手法は,コミュニケーション効率とタスク一般化の両面において,既存のLLMファインチューニング手法よりも優れていることを示した。

Pre-trained large language models (LLMs) need fine-tuning to improve their responsiveness to natural language instructions. Federated learning offers a way to fine-tune LLMs using the abundant data on end devices without compromising data privacy. Most existing federated fine-tuning methods for LLMs rely on parameter-efficient fine-tuning techniques, which may not reach the performance height possible with full-parameter tuning. However, federated full-parameter tuning of LLMs is a non-trivial problem due to the immense communication cost. This work introduces FedKSeed that employs zeroth-order optimization with a finite set of random seeds. It significantly reduces transmission requirements between the server and clients to just a few random seeds and scalar gradients, amounting to only a few thousand bytes, making federated full-parameter tuning of billion-sized LLMs possible on devices. Building on it, we develop a strategy enabling probability-differentiated seed sampling, prioritizing perturbations with greater impact on model accuracy. Experiments across six scenarios with various LLMs, datasets and data partitions demonstrate that our approach outperforms existing federated LLM fine-tuning methods in both communication efficiency and new task generalization.
翻訳日:2024-05-16 18:12:17 公開日:2024-05-15
# 自律走行システムにおける動的対向攻撃

Dynamic Adversarial Attacks on Autonomous Driving Systems ( http://arxiv.org/abs/2312.06701v2 )

ライセンス: Link先を確認
Amirhosein Chahe, Chenan Wang, Abhishek Jeyapratap, Kaidi Xu, Lifeng Zhou, (参考訳) 本稿では,自律走行システムのレジリエンスに挑戦する攻撃機構を提案する。 具体的には、他の移動車に搭載された画面に対向パッチを動的に表示することにより、自動運転車の意思決定プロセスを操作する。 これらのパッチは、オブジェクト検出モデルからターゲットオブジェクト、例えばトラフィックサインを誤って分類するように最適化されている。 このような操作は、交差点横断や車線変更といった、安全で効率的な自律運転システムにとって不可欠な重要な多車車間相互作用に重要な意味を持つ。 特に、大きな貢献は4つあります。 まず,パッチを目標と同一に配置せず,より汎用的でステルス的な攻撃を可能にする,新たな敵攻撃手法を提案する。 さらに,画面上に表示された動的パッチを利用することで,適応的な変更や動作が可能となり,攻撃の柔軟性や性能が向上する。 そこで我々は,画面画像変換ネットワーク(SIT-Net)を設計し,表示画像の環境効果をシミュレートし,シミュレートされたシナリオと実世界のシナリオとのギャップを狭める。 さらに、動的攻撃の成功率を高めるために、位置損失項を敵の訓練プロセスに統合する。 最後に、私たちは、単に知覚システムを攻撃することから、自動運転システムの意思決定アルゴリズムに影響を与えることに焦点を移します。 我々の実験は、現実の自律運転シナリオにおけるこのような動的敵攻撃の実装を初めて成功させ、堅牢で安全な自律運転の分野における進歩の道を開くことを実証した。

This paper introduces an attacking mechanism to challenge the resilience of autonomous driving systems. Specifically, we manipulate the decision-making processes of an autonomous vehicle by dynamically displaying adversarial patches on a screen mounted on another moving vehicle. These patches are optimized to deceive the object detection models into misclassifying targeted objects, e.g., traffic signs. Such manipulation has significant implications for critical multi-vehicle interactions such as intersection crossing and lane changing, which are vital for safe and efficient autonomous driving systems. Particularly, we make four major contributions. First, we introduce a novel adversarial attack approach where the patch is not co-located with its target, enabling more versatile and stealthy attacks. Moreover, our method utilizes dynamic patches displayed on a screen, allowing for adaptive changes and movement, enhancing the flexibility and performance of the attack. To do so, we design a Screen Image Transformation Network (SIT-Net), which simulates environmental effects on the displayed images, narrowing the gap between simulated and real-world scenarios. Further, we integrate a positional loss term into the adversarial training process to increase the success rate of the dynamic attack. Finally, we shift the focus from merely attacking perceptual systems to influencing the decision-making algorithms of self-driving systems. Our experiments demonstrate the first successful implementation of such dynamic adversarial attacks in real-world autonomous driving scenarios, paving the way for advancements in the field of robust and secure autonomous driving.
翻訳日:2024-05-16 18:12:17 公開日:2024-05-15
# SqueezeSAM: ユーザフレンドリーなモバイルインタラクティブセグメンテーション

SqueezeSAM: User friendly mobile interactive segmentation ( http://arxiv.org/abs/2312.06736v2 )

ライセンス: Link先を確認
Balakrishnan Varadarajan, Bilge Soran, Forrest Iandola, Xiaoyu Xiang, Yunyang Xiong, Lemeng Wu, Chenchen Zhu, Raghuraman Krishnamoorthi, Vikas Chandra, (参考訳) Segment Anything Model (SAM)は、インタラクティブセグメンテーションの分野における基盤であり、生成AI、計算写真、医療画像の進歩を加速させている。 任意のユーザ入力を処理し、対応するセグメンテーションマスクを生成する能力があるにもかかわらず、SAMの6億ドルのパラメータアーキテクチャはViT-Hをベースにしており、その高い計算要求と大きなモデルサイズのために現在のモバイルハードウェアと互換性がない。 本研究の目的は,モバイル写真アプリケーションにSAMを応用することである。 この目的のために、完全に畳み込まれたSqueezeSAMモデルアーキテクチャを開発し、これは元のSAMより62.5倍速く、31.6倍小さいので、モバイルアプリケーションにとって実行可能なソリューションです。 さらに、我々の小さなモデルは、元のVIT-Hアーキテクチャのemph{1\%}内のmIOUを達成する。 自動セグメンテーション(Automated segmentation)は、リンゴやカプカットといった業界の主要なプレイヤーによって採用されていることの証明として、写真アプリケーションの作成フローにおいて重要な価値を持っている。 この自動化を容易にするために,我々は,有能なオブジェクト検出と,前景オブジェクト選択のための潜在的なユーザクリックをシミュレートし,ユーザが対話的に編集できる初期セグメンテーションマスクを生成する。 一般的なユーザからの期待は、オブジェクトの特定の部分のクリックがオブジェクト全体のセグメンテーションをもたらすことである。 例えば、写真の中の人のTシャツをクリックすれば、Tシャツだけでなく、理想的には人全体を分割できる。 しかし、SAMは通常、クリックされた領域のみをセグメント化する。 我々はこの制限を新しいデータ拡張方式によって解決する。 これにより、ユーザがバスケットボールを持っている人をクリックすると、人とバスケットボールの両方がセグメンテーションされ、ユーザの期待と一致し、全体的なユーザエクスペリエンスが向上する。

The Segment Anything Model (SAM) has been a cornerstone in the field of interactive segmentation, propelling significant progress in generative AI, computational photography, and medical imaging. Despite its ability to process arbitrary user input and generate corresponding segmentation masks, SAM's 600 million parameter architecture, based on ViT-H, is not compatible with current mobile hardware due to its high computational demands and large model size. Our research aims to adapt SAM for use in mobile photography applications. To this end, we have developed a fully convolutional SqueezeSAM model architecture, which is 62.5 times faster and 31.6 times smaller than the original SAM, making it a viable solution for mobile applications. Furthermore, our tiny model achieves an mIOU within \emph{1\%} of the original VIT-H architecture. Automated segmentation holds significant value in the creation flow for photography applications, as evidenced by its adoption by leading industry players like apple and capcut. To facilitate this automation, we employ salient object detection and simulate potential user clicks for foreground object selection, generating an initial segmentation mask that users can subsequently edit interactively. A common user expectation is that a click on a specific part of an object will result in the segmentation of the entire object. For example, a click on a person's t-shirt in a photo should ideally segment the entire person, not just the t-shirt. However, SAM typically only segments the clicked area. We address this limitation through a novel data augmentation scheme. Consequently, if a user clicks on a person holding a basketball, both the person and the basketball are segmented together, aligning with user expectations and enhancing the overall user experience.
翻訳日:2024-05-16 18:12:17 公開日:2024-05-15
# 固定効果を有する静的パネルモデルのダブル機械学習

Double Machine Learning for Static Panel Models with Fixed Effects ( http://arxiv.org/abs/2312.08174v3 )

ライセンス: Link先を確認
Paul Clarke, Annalivia Polselli, (参考訳) 因果推論の最近の進歩は、機械学習アルゴリズムの予測能力を利用する手法の開発が進んでいる。 本稿では、二重機械学習(DML)(Chernozhukov et al , 2018)を用いて、共同創設者の高次元および非線形ニュアンス関数を近似し、パネルデータから政策介入の影響を推測する。 我々は、線形モデルに対する相関ランダム効果、内部群、第一差分推定を、Robinson (1988) の偏線形回帰モデルから、個々の固定効果と不特定非線形共役効果を持つ静的パネルデータモデルへの拡張に適応させることにより、新しい推定器を提案する。 モンテカルロシミュレーションを用いて、異なる機械学習アルゴリズムの相対的性能を比較し、データ生成プロセスが軽度に非線形で滑らかな場合、従来の最小二乗推定器は良好に動作するが、回帰器の真の効果が非線形で不連続である場合、バイアス低減の観点からは、DMLによるかなりの性能向上がある。 しかし、個々の学習者に基づく推論は、ひどくバイアスのかかる推論につながる可能性がある。 最後に、イギリスにおける最低賃金の導入が投票行動に与える影響を示す観測パネルデータに対するDMLの例を示す。

Recent advances in causal inference have seen the development of methods which make use of the predictive power of machine learning algorithms. In this paper, we use double machine learning (DML) (Chernozhukov et al., 2018) to approximate high-dimensional and non-linear nuisance functions of the confounders to make inferences about the effects of policy interventions from panel data. We propose new estimators by adapting correlated random effects, within-group and first-difference estimation for linear models to an extension of Robinson (1988)'s partially linear regression model to static panel data models with individual fixed effects and unspecified non-linear confounder effects. Using Monte Carlo simulations, we compare the relative performance of different machine learning algorithms and find that conventional least squares estimators performs well when the data generating process is mildly non-linear and smooth, but there are substantial performance gains with DML in terms of bias reduction when the true effect of the regressors is non-linear and discontinuous. However, inference based on individual learners can lead to badly biased inference. Finally, we provide an illustrative example of DML for observational panel data showing the impact of the introduction of the minimum wage on voting behavior in the UK.
翻訳日:2024-05-16 18:12:17 公開日:2024-05-15
# 地下流れ最適化のためのグラフネットワークサロゲートモデル

Graph Network Surrogate Model for Subsurface Flow Optimization ( http://arxiv.org/abs/2312.08625v2 )

ライセンス: Link先を確認
Haoyu Tang, Louis J. Durlofsky, (参考訳) 井戸の位置と制御の最適化は、石油生産や地質的なCO2貯蔵のような地下流れの操作を設計する上で重要なステップである。 しかし、これらの最適化問題は計算コストがかかる可能性があるため、多くの候補解を評価する必要がある。 本研究では,適切な配置と制御を最適化するためのグラフネットワークサロゲートモデル(GNSM)を提案する。 GNSMは、フローモデルをエンコーディング・処理・デコードアーキテクチャを含む計算グラフに変換する。 圧力および飽和状態変数に対する大域的な予測を提供するために、分離されたネットワークが構築されている。 単相定常圧解を特徴とするモデル性能が向上する。 マルチステージのマルチステップ戦略がトレーニングに使用される。 訓練されたGNSMを用いて,流路型貯水池の2次元非構造モデルにおける流れの応答を予測する。 5つのインジェクションウェルと5つのプロダクションウェルをランダムに配置し、各ウェルにランダム制御変数(ボトムホール圧力)を割り当てる、大規模なテストケースについて結果が提示される。 圧力および飽和の中間的相対誤差は300例で1-2%であった。 トレーニングされたGNSMが、新しい(地質学的に類似した)透水性実現の正確な予測を提供する能力を示す。 最後に、訓練されたGNSMは、微分進化アルゴリズムを用いて、井戸の位置と制御を最適化するために使用される。 GNSMベースの最適化結果はシミュレーションベースの最適化と同等であり、実行時のスピードアップは36。 この手法がロバストな最適化に使用される場合、複数の地質モデルで各候補解が評価される場合、はるかに大きなスピードアップが期待できる。

The optimization of well locations and controls is an important step in the design of subsurface flow operations such as oil production or geological CO2 storage. These optimization problems can be computationally expensive, however, as many potential candidate solutions must be evaluated. In this study, we propose a graph network surrogate model (GNSM) for optimizing well placement and controls. The GNSM transforms the flow model into a computational graph that involves an encoding-processing-decoding architecture. Separate networks are constructed to provide global predictions for the pressure and saturation state variables. Model performance is enhanced through the inclusion of the single-phase steady-state pressure solution as a feature. A multistage multistep strategy is used for training. The trained GNSM is applied to predict flow responses in a 2D unstructured model of a channelized reservoir. Results are presented for a large set of test cases, in which five injection wells and five production wells are placed randomly throughout the model, with a random control variable (bottom-hole pressure) assigned to each well. Median relative error in pressure and saturation for 300 such test cases is 1-2%. The ability of the trained GNSM to provide accurate predictions for a new (geologically similar) permeability realization is demonstrated. Finally, the trained GNSM is used to optimize well locations and controls with a differential evolution algorithm. GNSM-based optimization results are comparable to those from simulation-based optimization, with a runtime speedup of a factor of 36. Much larger speedups are expected if the method is used for robust optimization, in which each candidate solution is evaluated on multiple geological models.
翻訳日:2024-05-16 18:02:32 公開日:2024-05-15
# 信頼型スマートコントラクトエンジニアリングのためのEVMブロックチェーンにおけるプロキシパターンとダイヤモンドパターンの比較ガスコスト解析

A Comparative Gas Cost Analysis of Proxy and Diamond Patterns in EVM Blockchains for Trusted Smart Contract Engineering ( http://arxiv.org/abs/2312.08945v2 )

ライセンス: Link先を確認
Anto Benedetti, Tiphaine Henry, Sara Tucci-Piergiovanni, (参考訳) ブロックチェーンアプリケーションは急速に進化し、アップグレード可能なスマートコントラクトの統合を必要としている。 アップグレード可能なスマートコントラクトのベストプラクティスを要約するソフトウェアパターンが提案されている。 しかしながら、これらのアップグレード可能なスマートコントラクトパターンの比較、特にデプロイメントと実行に関連するガスコストについての研究は欠落している。 本研究の目的は, アップグレード可能な2つのスマートコントラクトパターン, Proxyパターンとダイアモンドパターンに関する, ガスコストの詳細な分析を行うことである。 Proxyパターンはロジックコントラクトを指しているProxyを使用し、ダイアモンドパターンは、Proxyが複数のロジックコントラクトを指している。 従来のアップグレード不可能なスマートコントラクトとは対照的に,両パターンのガスコストの比較分析を行う。 この分析から、2つの統合ブロックチェーンパターンとそれに対応する決定モデルという形での理論的な貢献を導き出した。 そうすることで、アップグレード可能なスマートコントラクトパターンのより広範な理解に貢献できることを願っています。

Blockchain applications are witnessing rapid evolution, necessitating the integration of upgradeable smart contracts. Software patterns have been proposed to summarize upgradeable smart contract best practices. However, research is missing on the comparison of these upgradeable smart contract patterns, especially regarding gas costs related to deployment and execution. This study aims to provide an in-depth analysis of gas costs associated with two prevalent upgradeable smart contract patterns: the Proxy and diamond patterns. The Proxy pattern utilizes a Proxy pointing to a logic contract, while the diamond pattern enables a Proxy to point to multiple logic contracts. We conduct a comparative analysis of gas costs for both patterns in contrast to a traditional non-upgradeable smart contract. We derive from this analysis a theoretical contribution in the form of two consolidated blockchain patterns and a corresponding decision model. By so doing we hope to contribute to the broader understanding of upgradeable smart contract patterns.
翻訳日:2024-05-16 18:02:32 公開日:2024-05-15
# オープンシステムにおける量子異常の検出

Detecting Quantum Anomalies in Open Systems ( http://arxiv.org/abs/2312.11188v2 )

ライセンス: Link先を確認
Yunlong Zang, Yingfei Gu, Shenghan Jiang, (参考訳) 対称性と量子異常は複雑な量子多体系を制約する強力なツールとして機能し、その紫外線構造に基づく低エネルギー特性に関する貴重な洞察を提供する。 それでも、それらの適用性は伝統的に閉じた量子系に限られており、密度行列によって記述されるオープンな量子系に対しては探索されていない。 本研究では,オープンシステムにおける量子異常を検出する新しい,実験的に実現可能なアプローチを提案する。 具体的には、スピン回転対称性と格子変換対称性の混合 't Hooft 異常は、$\exp(\rm{i}\theta S^z_{\rm tot})$ の関数として、半整数スピン鎖と整数スピン鎖に特徴的な特性を与える、と主張する。特に、半整数スピン鎖は閉系で観測される「レベル交差」に似た位相的現象を示す。我々の主張を裏付けるために、上記の測定を解析するために格子レベルの時空回転を開発する。行列積密度演算子と転移行列形式に基づいて、解析的に$\exp(\rm{i}\theta S^z_{\rm tot})$ の非自明な挙動を定式化し、数値的に表す。

Symmetries and quantum anomalies serve as powerful tools for constraining complicated quantum many-body systems, offering valuable insights into low-energy characteristics based on their ultraviolet structure. Nevertheless, their applicability has traditionally been confined to closed quantum systems, rendering them largely unexplored for open quantum systems described by density matrices. In this work, we introduce a novel and experimentally feasible approach to detect quantum anomalies in open systems. Specifically, we claim that, when coupled with an external environment, the mixed 't Hooft anomaly between spin rotation symmetry and lattice translation symmetry gives distinctive characteristics for half-integer and integer spin chains in measurements of $\exp(\rm{i}\theta S^z_{\rm tot})$ as a function of $\theta$. Notably, the half-integer spin chain manifests a topological phenomenon akin to the ``level crossing" observed in closed systems. To substantiate our assertion, we develop a lattice-level spacetime rotation to analyze the aforementioned measurements. Based on the matrix product density operator and transfer matrix formalism, we analytically establish and numerically demonstrate the unavoidable singular behavior of $\exp(\rm{i}\theta S^z_{\rm tot})$ for half-integer spin chains. Conceptually, our work demonstrates a way to discuss notions like ``spectral flow'' and ``flux threading'' in open systems not necessarily with a Hamiltonian.
翻訳日:2024-05-16 18:02:32 公開日:2024-05-15
# スマートマニュファクチャリングにおける一元的産業大知識モデルフレームワーク

A Unified Industrial Large Knowledge Model Framework in Smart Manufacturing ( http://arxiv.org/abs/2312.14428v2 )

ライセンス: Link先を確認
Jay Lee, Hanqi Su, (参考訳) 近年の大規模言語モデル(LLM)の出現は、人工知能の可能性を示し、業界 4.0 とスマート製造における新たな機会を明らかにしている。 しかし、これらのLSMを産業に適用する際、主にドメイン固有の知識ではなく、一般的な知識に関するトレーニングのために顕著なギャップが存在する。 このような専門的なドメイン知識は、産業アプリケーションの複雑なニーズに効果的に対処するために不可欠である。 このギャップを埋めるために,スマートマニュファクチャリングにおける産業に革命をもたらす可能性を強調する産業大知識モデル(ILKM)フレームワークを提案する。 さらに、ILKMとLLMは8つの視点から比較される。 最後に、ILKM開発のガイドラインとして「6S原則」が提案され、スマート製造におけるILKMの展開の可能性を強調している。

The recent emergence of large language models (LLMs) shows the potential for artificial general intelligence, revealing new opportunities in industry 4.0 and smart manufacturing. However, a notable gap exists in applying these LLMs in industry, primarily due to their training on general knowledge rather than domain-specific knowledge. Such specialized domain knowledge is vital for effectively addressing the complex needs of industrial applications. To bridge this gap, this paper proposes an Industrial Large Knowledge Model (ILKM) framework emphasizing their potential to revolutionize the industry in smart manufacturing. In addition, ILKMs and LLMs are compared from eight perspectives. Finally, the "6S Principle" is proposed as the guideline for ILKM development, and several potential opportunities are highlighted for ILKM deployment in smart manufacturing.
翻訳日:2024-05-16 18:02:31 公開日:2024-05-15
# Egocentric Stereo Videoによる3D人物認識

3D Human Pose Perception from Egocentric Stereo Videos ( http://arxiv.org/abs/2401.00889v2 )

ライセンス: Link先を確認
Hiroyasu Akada, Jian Wang, Vladislav Golyanik, Christian Theobalt, (参考訳) ヘッドマウントデバイスはコンパクトになりつつあるが、エゴセントリックなビューを提供し、デバイスユーザの大きな自己排他性を提供する。 したがって、既存の手法は、エゴセントリックな視点から複雑な3Dポーズを正確に見積もることができないことが多い。 本研究では,エゴセントリックなステレオビデオのシーン情報と時間的文脈を利用する,エゴセントリックなステレオ3Dポーズ推定を改善するためのトランスフォーマーベースの新しいフレームワークを提案する。 具体的には 1)エゴセントリックな立体フレームの窓を均一にサンプリングした3次元シーン再構成モジュールの奥行き特性 2)ビデオ入力の時間的特徴によって強化されたヒト関節クエリ。 本手法は, しゃがんだり座ったりといった困難なシナリオにおいても, 人間のポーズを正確に推定することができる。 さらに、UnrealEgo2とUnrealEgo-RW(RealWorld)という2つの新しいベンチマークデータセットを導入しました。 提案したデータセットは、既存のデータセットよりも幅広い人間の動きを持つ、エゴセントリックなステレオビューをはるかに多く提供し、既存のメソッドと今後のメソッドの包括的な評価を可能にする。 実験により,提案手法が従来の手法より有意に優れていたことが確認された。 私たちはUnrealEgo2、UnrealEgo-RW、およびトレーニングされたモデルをプロジェクトページでリリースします。

While head-mounted devices are becoming more compact, they provide egocentric views with significant self-occlusions of the device user. Hence, existing methods often fail to accurately estimate complex 3D poses from egocentric views. In this work, we propose a new transformer-based framework to improve egocentric stereo 3D human pose estimation, which leverages the scene information and temporal context of egocentric stereo videos. Specifically, we utilize 1) depth features from our 3D scene reconstruction module with uniformly sampled windows of egocentric stereo frames, and 2) human joint queries enhanced by temporal features of the video inputs. Our method is able to accurately estimate human poses even in challenging scenarios, such as crouching and sitting. Furthermore, we introduce two new benchmark datasets, i.e., UnrealEgo2 and UnrealEgo-RW (RealWorld). The proposed datasets offer a much larger number of egocentric stereo views with a wider variety of human motions than the existing datasets, allowing comprehensive evaluation of existing and upcoming methods. Our extensive experiments show that the proposed approach significantly outperforms previous methods. We will release UnrealEgo2, UnrealEgo-RW, and trained models on our project page.
翻訳日:2024-05-16 18:02:31 公開日:2024-05-15
# キラルカップリングを持つ巨大原子導波路系における単一光子散乱

Single-photon scattering in giant-atom waveguide systems with chiral coupling ( http://arxiv.org/abs/2401.01592v2 )

ライセンス: Link先を確認
Shu-Yu Li, Ze-Quan Zhang, Lei Du, Yong Li, Huaizhi Wu, (参考訳) 複数の接続点における1次元導波管にキラル結合した巨大原子の単一光子散乱スペクトルについて検討し,散乱スペクトルにおけるキラリティ誘起効果について検討した。 送信スペクトルは、通常、非ローレンツ系ラインシェープの反ローレンツ系ラインシェープを持つが、多点結合のキラリティーを工学的に行うことにより、入射光子の透過スペクトルは、全透過から全反射への遷移を複数周波数 ' `windows''' で行うことができ、各ウィンドウの反ローレンツ系ラインシェープの幅は、固定周波数デチューニングで柔軟に調整できる。 さらに,非マルコフ遅延効果によって引き起こされる光子散乱とは対照的に,内部原子の自発放出と導波管へのキラル外部崩壊との相互作用により,完全な非相互光子散乱が達成できることを示す。 また、散乱スペクトルに対する非マルコフ遅延効果も考慮し、2つのキラルカップリング点しか持たないフォトニックバンドギャップを実現する。 キラル結合を持つ巨大原子導波路系は、複数のチャネルを持つ単一光子ルータの実現に有望な候補である。

We study single-photon scattering spectra of a giant atom chirally coupled to a one-dimensional waveguide at multiple connection points, and examine chirality induced effects in the scattering spectra. We show that the transmission spectra typically possess an anti-Lorentzian lineshape with a nonzero minimum, but by engineering the chirality of the multi-point coupling, the transmission spectrum of an incident photon can undergo a transition from complete transmission to total reflection at multiple frequency ``windows'', where the width of the anti-Lorentzian lineshape for each of the window can be flexibly tuned at a fixed frequency detuning. Moreover, we show that a perfect nonreciprocal photon scattering can be achieved due to the interplay between internal atomic spontaneous emission and the chirally external decay to the waveguide, in contrast to that induced by the non-Markovian retardation effect. We also consider the non-Markovian retardation effect on the scattering spectra, which allows for a photonic band gap even with only two chiral coupling points. The giant-atom-waveguide system with chiral coupling is a promising candidate for realizing single-photon routers with multiple channels.
翻訳日:2024-05-16 18:02:31 公開日:2024-05-15
# ゲート型量子コンピュータにおける量子場理論のシミュレーション

Simulating quantum field theories on gate-based quantum computers ( http://arxiv.org/abs/2401.04496v2 )

ライセンス: Link先を確認
Gayathree M. Vinod, Anil Shaji, (参考訳) ゲート型量子コンピュータにおける1+1次元の時空次元における量子場理論のシミュレーションを,その理論の光前線定式化を用いて実装する。 湯川モデル場理論の非摂動的シミュレーションはIBMのシミュレータ上で検証され、IBM Qiskitを用いてクラウド上の小型のIBM回路ベースの量子プロセッサ上でも実証されている。 光前線の定式化により、単一のパラメータ、すなわち高調波分解能を変調することにより、計算のリソース要求と複雑さを精度と詳細で制御することができる。 ボソニック励起のためのクビット作用素も作成され、これらの粒子が関与する理論をシミュレートするために、既に利用可能なフェルミオン粒子とともに使用された。 既存のゲートベースのノイズ中間スケール量子(NISQ)デバイスで利用可能な論理量子ビットの数を制限することにより、トロッタ化近似も用いられる。 各種プロセスの断面, 生存確率など, 実験的に関係のある量の計算が可能であることを示す。 また、達成可能な高調波分解能の境界や、現在のNISQデバイスでサポートされている量子ビット数や回路深度に制限されたトロッターステップによってもたらされる不正確性についても検討する。

We implement a simulation of a quantum field theory in 1+1 space-time dimensions on a gate-based quantum computer using the light front formulation of the theory. The nonperturbative simulation of the Yukawa model field theory is verified on IBM's simulator and is also demonstrated on a small-scale IBM circuit-based quantum processor, on the cloud, using IBM Qiskit. The light front formulation allows for controlling the resource requirement and complexity of the computation with commensurate trade-offs in accuracy and detail by modulating a single parameter, namely the harmonic resolution. Qubit operators for the bosonic excitations were also created and were used along with the fermionic ones already available, to simulate the theory involving all of these particles. With the restriction on the number of logical qubits available on the existent gate-based Noisy Intermediate-Scale Quantum (NISQ) devices, the trotterization approximation is also used. We show that experimentally relevant quantities like cross-sections for various processes, survival probabilities of various states, etc. can be computed. We also explore the inaccuracies introduced by the bounds on achievable harmonic resolution and Trotter steps placed by the limited number of qubits and circuit depth supported by present-day NISQ devices.
翻訳日:2024-05-16 18:02:31 公開日:2024-05-15
# 極性分子間の相互作用の回転状態依存性

Rotational-state dependence of interactions between polar molecules ( http://arxiv.org/abs/2401.05958v4 )

ライセンス: Link先を確認
Etienne F. Walraven, Tijs Karman, (参考訳) 分子間の長距離静電相互作用は相対配向に強く依存しており、回転状態依存として現れる。 同じ回転量子状態の分子間の相互作用は、魅力的なファンデルワールス相互作用である。 回転状態における相互作用は、1つの量子ショー共鳴双極子-双極子相互作用によって異なる。 分子が1つ以上の量子によって異なる回転状態にある場合、ファンデルワールス相互作用が反動的に現れることを示す。 ミリケルビン以下の温度では、この効果は衝突による損失を桁違いに減少させる。 これらの反発相互作用は、超低温極性分子を用いた量子シミュレーションや不純物物理学の応用に繋がる。

The long-range electrostatic interactions between molecules depend strongly on their relative orientation, which manifests as a rotational state dependence. Interactions between molecules in the same rotational quantum state are well-known attractive rotational van der Waals interactions. Interactions in rotational states that differ by one quantum show resonant dipole-dipole interactions. We show that where molecules are in rotational states that differ by more than one quantum, they exhibit repulsive van der Waals interactions. At temperatures below a millikelvin, this effect can reduce collisional loss by multiple orders of magnitude. These repulsive interactions lead to applications in quantum simulation and impurity physics with ultracold polar molecules.
翻訳日:2024-05-16 18:02:31 公開日:2024-05-15
# レーザ冷却分子の光学的ツイーザへの決定的負荷法

Scheme for Deterministic Loading of Laser-Cooled Molecules into Optical Tweezers ( http://arxiv.org/abs/2401.06028v4 )

ライセンス: Link先を確認
Etienne F. Walraven, Michael R. Tarbutt, Tijs Karman, (参考訳) 我々は、レーザー冷却された分子を光ツイーザに繰り返しロードし、2つの追加量子によって回転的に励起される貯蔵状態に転送することを提案する。 これらの貯蔵状態における分子の衝突損失は抑制され、双極子遮断は複数の分子の蓄積を防ぐ。 3サイクルを施すことで、1つの分子でツイーザーを80%の成功率でロードし、残余の衝突損失によって制限される。 これにより、負荷効率が向上し、ツイーザーアレイの再配置に要する時間が短縮され、そうでなければ中性分子量子コンピュータのスケーラビリティが制限される。

We propose to repeatedly load laser-cooled molecules into optical tweezers, and transfer them to storage states that are rotationally excited by two additional quanta. Collisional loss of molecules in these storage states is suppressed, and a dipolar blockade prevents the accumulation of more than one molecule. Applying three cycles loads tweezers with single molecules at an 80% success rate, limited by residual collisional loss. This improved loading efficiency reduces the time needed for rearrangement of tweezer arrays, which would otherwise limit the scalability of neutral molecule quantum computers.
翻訳日:2024-05-16 18:02:31 公開日:2024-05-15
# AIアートは盗難:労働、抽出、爆発、あるいは確率的ポリロックの危険について

AI Art is Theft: Labour, Extraction, and Exploitation, Or, On the Dangers of Stochastic Pollocks ( http://arxiv.org/abs/2401.06178v2 )

ライセンス: Link先を確認
Trystan S. Goetze, (参考訳) DALL-E、Midjourney、Stable Diffusionといったアプリケーションがローンチされて以来、生成人工知能はアートワークを作成するためのツールとして議論されてきた。 これらの技術が今後完全に自動化される未来を後押しするものとして、長期的な懸念を表明する者もいるが、より重要なのは、創造的なAIが創造的な労働力に与える影響だ。 すでにビジネスリーダーは、人間の芸術労働をAI生成画像に置き換え始めている。 これに対し、芸術コミュニティは抗議運動を開始し、AI画像生成は一種の盗難であると論じている。 本稿では、AI画像生成装置が非倫理的な労働盗難を含むことを結論として、これらの主張を分析し、検証し、批判する。 正しければ、他の多くのAIアプリケーションも盗難に依存している。

Since the launch of applications such as DALL-E, Midjourney, and Stable Diffusion, generative artificial intelligence has been controversial as a tool for creating artwork. While some have presented longtermist worries about these technologies as harbingers of fully automated futures to come, more pressing is the impact of generative AI on creative labour in the present. Already, business leaders have begun replacing human artistic labour with AI-generated images. In response, the artistic community has launched a protest movement, which argues that AI image generation is a kind of theft. This paper analyzes, substantiates, and critiques these arguments, concluding that AI image generators involve an unethical kind of labour theft. If correct, many other AI applications also rely upon theft.
翻訳日:2024-05-16 18:02:31 公開日:2024-05-15
# 自由形自然言語制約と事前学習言語モデルを用いた安全強化学習

Safe Reinforcement Learning with Free-form Natural Language Constraints and Pre-Trained Language Models ( http://arxiv.org/abs/2401.07553v3 )

ライセンス: Link先を確認
Xingzhou Lou, Junge Zhang, Ziyan Wang, Kaiqi Huang, Yali Du, (参考訳) 安全な強化学習(RL)エージェントは、特定の制約に固執しながら与えられたタスクを達成する。 容易に理解可能なヒューマン言語を介して表現される制約を採用することは、アクセシビリティとドメインの専門知識への非依存のために、現実世界のアプリケーションにかなりの可能性をもたらす。 自然言語制約のある従来の安全なRL手法は、典型的にはリカレントニューラルネットワークを採用する。 さらに、これらの手法は、言語制約を、制約違反を決定するための明確に定義されたコスト関数に変換するために、ドメインの専門知識を必要とすることが多い。 これらの問題に対処するために、我々は、RLエージェントによる自然言語制約の理解を促進し、安全な政策学習のためのコストを推測できるようにするために、事前学習言語モデル(LM)を使用することを提案する。 本手法は,事前学習したLMを使用することにより,人為的な自由形自然言語制約の下での安全な政策学習を促進する。 グリッドワールドナビゲーションとロボット制御の実験により,提案手法は与えられた制約に固執しながら高い性能が得られることを示した。 事前学習したLMを使用することで、複雑な制約を理解し、トレーニングや評価のどの段階でも地道的なコストを要さずに安全な政策を学習することができる。 本法の各部位の有効性を示すため, 広範囲なアブレーション試験を行った。

Safe reinforcement learning (RL) agents accomplish given tasks while adhering to specific constraints. Employing constraints expressed via easily-understandable human language offers considerable potential for real-world applications due to its accessibility and non-reliance on domain expertise. Previous safe RL methods with natural language constraints typically adopt a recurrent neural network, which leads to limited capabilities when dealing with various forms of human language input. Furthermore, these methods often require a ground-truth cost function, necessitating domain expertise for the conversion of language constraints into a well-defined cost function that determines constraint violation. To address these issues, we proposes to use pre-trained language models (LM) to facilitate RL agents' comprehension of natural language constraints and allow them to infer costs for safe policy learning. Through the use of pre-trained LMs and the elimination of the need for a ground-truth cost, our method enhances safe policy learning under a diverse set of human-derived free-form natural language constraints. Experiments on grid-world navigation and robot control show that the proposed method can achieve strong performance while adhering to given constraints. The usage of pre-trained LMs allows our method to comprehend complicated constraints and learn safe policies without the need for ground-truth cost at any stage of training or evaluation. Extensive ablation studies are conducted to demonstrate the efficacy of each part of our method.
翻訳日:2024-05-16 18:02:31 公開日:2024-05-15
# インスタンスレベルの背景知識を用いた制約付きk-Centerクラスタリングの近似アルゴリズム

Near-Optimal Algorithms for Constrained k-Center Clustering with Instance-level Background Knowledge ( http://arxiv.org/abs/2401.12533v3 )

ライセンス: Link先を確認
Longkun Guo, Chaoqi Jia, Kewen Liao, Zhigang Lu, Minhui Xue, (参考訳) センターベースのクラスタリングは理論と実践の両方から大きな研究の関心を集めている。 多くの実用的なアプリケーションにおいて、入力データには、クラスタリング結果を改善するために使用できる背景知識が含まれていることが多い。 本研究は、広く採用されている$k$-centerクラスタリングに基づいて、入力背景知識を must-link (ML) および cannot-link (CL) 制約セットとしてモデル化する。 しかし、$k$-centerを含むクラスタリング問題は本質的に$\mathcal{NP}$-hardであるのに対し、より複雑な制約のある変種は、それらの適用性を著しく制限する厳密な近似と計算障壁に悩まされることが知られている。 逆支配集合、線形プログラミング(LP)積分多面体、およびLP双対性を含む一連の手法を用いることで、制約付き$k$-centerの最適比が2。 また、競合するベースラインアルゴリズムを構築し、様々な実データに対して近似アルゴリズムを実証的に評価する。 その結果, クラスタリングコスト, クラスタリング品質, 実行時間の観点から, 提案アルゴリズムの優れた利点を実証した。

Center-based clustering has attracted significant research interest from both theory and practice. In many practical applications, input data often contain background knowledge that can be used to improve clustering results. In this work, we build on widely adopted $k$-center clustering and model its input background knowledge as must-link (ML) and cannot-link (CL) constraint sets. However, most clustering problems including $k$-center are inherently $\mathcal{NP}$-hard, while the more complex constrained variants are known to suffer severer approximation and computation barriers that significantly limit their applicability. By employing a suite of techniques including reverse dominating sets, linear programming (LP) integral polyhedron, and LP duality, we arrive at the first efficient approximation algorithm for constrained $k$-center with the best possible ratio of 2. We also construct competitive baseline algorithms and empirically evaluate our approximation algorithm against them on a variety of real datasets. The results validate our theoretical findings and demonstrate the great advantages of our algorithm in terms of clustering cost, clustering quality, and running time.
翻訳日:2024-05-16 18:02:31 公開日:2024-05-15
# テーラーメード量子状態トモグラフィーのアプローチ

A Tailor-made Quantum State Tomography Approach ( http://arxiv.org/abs/2401.12864v2 )

ライセンス: Link先を確認
Daniele Binosi, Giovanni Garberoglio, Diego Maragnano, Maurizio Dapor, Marco Liscidini, (参考訳) 量子状態トモグラフィ(QST)は、量子システムの状態を再構築することを目的としている。 しかし、従来のQSTでは、測定の数はキュービットの数と指数関数的にスケールする。 本稿では、しきい値の導入により、結果の精度を損なうことなく、状態密度行列の再構築に必要な測定回数を大幅に削減できるQSTプロトコルを提案する。 さらに、利用可能なリソースに応じて近似密度行列を再構築するために、同じアプローチを使うこともできる。 最大7キュービットまでの状態のトモグラフィーを実行することで,このプロトコルを実験的に実証する。 提案手法は,測定回数を2桁以上削減しても,QSTの精度が同じであることを示す。

Quantum state tomography (QST) aims at reconstructing the state of a quantum system. However in conventional QST the number of measurements scales exponentially with the number of qubits. Here we propose a QST protocol, in which the introduction of a threshold allows one to drastically reduce the number of measurements required for the reconstruction of the state density matrix without compromising the result accuracy. In addition, one can also use the same approach to reconstruct an approximated density matrix depending on the available resources. We experimentally demonstrate this protocol by performing the tomography of states up to 7 qubits. We show that our approach can lead to the same accuracy of QST even when the number of measurements is reduced by more than two orders of magnitudes.
翻訳日:2024-05-16 17:51:17 公開日:2024-05-15
# 空気中の光による光の偏向の干渉計測

Interferometric measurement of the deflection of light by light in air ( http://arxiv.org/abs/2401.13506v3 )

ライセンス: Link先を確認
Adrien E. Kraych, Aurélie Max Mailliet, François Couchot, Xavier Sarazin, Elsa Baynard, Julien Demailly, Moana Pittman, Arache Djannati-Ataï, Sophie Kazamias, Scott Robertson, Marcel Urban, (参考訳) 光による光の偏向(DeLLight)実験の目的は、高強度集束レーザーパルス(ポンプ)によって誘導される有効な真空指数勾配を越える際に、低強度集束レーザーパルス(プローブ)の屈折を測定することにより、真空中の光学非線形性を量子力学によって予測された初めて観測することである。 サニャック干渉計を用いて偏向信号を増幅する。 ここでは、低強度ポンプを用いて、空気中の光による光の偏向について、DeLLightパイロット干渉計で行った最初の測定を報告する。 干渉計によって測定された偏向信号は増幅され、空気中の光カー効果によって誘導される期待信号と一致していることを示す。 さらに, ポンプ強度, ポンプとプローブ間の時間遅延, 相対偏光の関数として信号が期待通りに変化することを確認した。 これらの結果は、干渉計測増幅に基づくDeLLight実験法の概念実証である。

The aim of the DeLLight (Deflection of Light by Light) experiment is to observe for the first time the optical nonlinearity in vacuum, as predicted by Quantum Electrodynamics, by measuring the refraction of a low-intensity focused laser pulse (probe) when crossing the effective vacuum index gradient induced by a high-intensity focused laser pulse (pump). The deflection signal is amplified by using a Sagnac interferometer. Here, we report the first measurement performed with the DeLLight pilot interferometer, of the deflection of light by light in air, with a low-intensity pump. We show that the deflection signal measured by the interferometer is amplified, and is in agreement with the expected signal induced by the optical Kerr effect in air. Moreover, we verify that the signal varies as expected as a function of the pump intensity, the temporal delay between the pump and the probe, and their relative polarisation. These results represent a proof of concept of the DeLLight experimental method based on interferometric amplification.
翻訳日:2024-05-16 17:51:17 公開日:2024-05-15
# 勾配に基づく手法を解釈可能な方法に変換する

Transforming gradient-based techniques into interpretable methods ( http://arxiv.org/abs/2401.14434v2 )

ライセンス: Link先を確認
Caroline Mazini Rodrigues, Nicolas Boutry, Laurent Najman, (参考訳) 畳み込みニューラルネットワーク(CNN)のxAI技術による拡張は、しばしば解釈において課題を引き起こす。 入力特徴の固有の複雑さ、特に画像から抽出されたピクセルは、複雑な相関を増大させる。 Integrated Gradients (IG)によって実証されたグラディエントベースの方法論は、これらの特徴の意義を効果的に示す。 しかし、これらの説明を画像に変換すると、しばしばかなりのノイズが生じる。 現在、勾配に基づく技術を支援するフレームワークとして、GAD(Gradient Artificial Distancing)を導入している。 その主な目的は、階級の区別を確立することによって、影響力のある地域をアクセント化することである。 GADの本質は、可視化中の分析の範囲を制限し、その結果、画像ノイズを低減することである。 隠蔽画像に関する実証研究は、この手法によって同定された領域が、クラス分化を促進する上で重要な役割を担っていることを証明している。

The explication of Convolutional Neural Networks (CNN) through xAI techniques often poses challenges in interpretation. The inherent complexity of input features, notably pixels extracted from images, engenders complex correlations. Gradient-based methodologies, exemplified by Integrated Gradients (IG), effectively demonstrate the significance of these features. Nevertheless, the conversion of these explanations into images frequently yields considerable noise. Presently, we introduce GAD (Gradient Artificial Distancing) as a supportive framework for gradient-based techniques. Its primary objective is to accentuate influential regions by establishing distinctions between classes. The essence of GAD is to limit the scope of analysis during visualization and, consequently reduce image noise. Empirical investigations involving occluded images have demonstrated that the identified regions through this methodology indeed play a pivotal role in facilitating class differentiation.
翻訳日:2024-05-16 17:51:17 公開日:2024-05-15
# ジェンダーステレオタイプを拡大する多言語テキスト・画像生成とプロンプト・エンジニアリングは役に立たないかもしれない

Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You ( http://arxiv.org/abs/2401.16092v3 )

ライセンス: Link先を確認
Felix Friedrich, Katharina Hämmerl, Patrick Schramowski, Manuel Brack, Jindrich Libovicky, Kristian Kersting, Alexander Fraser, (参考訳) テキスト・ツー・イメージ生成モデルは、画像の品質、柔軟性、テキストアライメントにおいて驚くべき結果が得られ、結果として急速に成長する多くのアプリケーションに採用されている。 マルチリンガル能力の改善により、より大規模なコミュニティがこの技術にアクセスできるようになった。 しかし, この結果から, 多言語モデルは単言語モデルと同様に, 有意な性差に悩まされていることが明らかとなった。 さらに、多言語モデルが言語間で同様の結果をもたらすという自然な期待は、長続きしない。 代わりに、言語間で重要な違いがあります。 多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。 我々はMAGBIGを用いて、T2Iモデルにおけるジェンダーバイアスに対する多言語性の影響を調査する。 この目的のために,特定の職業や特徴を持つ人々の肖像画を依頼する多言語プロンプトを構築した。 以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。 さらに、これらのバイアスを軽減するために、間接的、中立的な定式化などの迅速なエンジニアリング戦略について検討する。 残念ながら、これらのアプローチは成功が限られており、結果としてテキストと画像のアライメントが悪化する。 その結果,画像生成言語における言語間の多様な表現や,偏りのあるモデル行動に対処する聴取性について,さらなる研究が求められている。

Text-to-image generation models have recently achieved astonishing results in image quality, flexibility, and text alignment, and are consequently employed in a fast-growing number of applications. Through improvements in multilingual abilities, a larger community now has access to this technology. However, our results show that multilingual models suffer from significant gender biases just as monolingual models do. Furthermore, the natural expectation that multilingual models will provide similar results across languages does not hold up. Instead, there are important differences between languages. We propose a novel benchmark, MAGBIG, intended to foster research on gender bias in multilingual models. We use MAGBIG to investigate the effect of multilingualism on gender bias in T2I models. To this end, we construct multilingual prompts requesting portraits of people with a certain occupation or trait. Our results show that not only do models exhibit strong gender biases but they also behave differently across languages. Furthermore, we investigate prompt engineering strategies, such as indirect, neutral formulations, to mitigate these biases. Unfortunately, these approaches have limited success and result in worse text-to-image alignment. Consequently, we call for more research into diverse representations across languages in image generators, as well as into steerability to address biased model behavior.
翻訳日:2024-05-16 17:51:17 公開日:2024-05-15
# 因果発見における大規模言語モデルの統合:統計的因果的アプローチ

Integrating Large Language Models in Causal Discovery: A Statistical Causal Approach ( http://arxiv.org/abs/2402.01454v2 )

ライセンス: Link先を確認
Masayuki Takayama, Tadahisa Okuda, Thong Pham, Tatsuyoshi Ikenoue, Shingo Fukuma, Shohei Shimizu, Akiyoshi Sannai, (参考訳) 実用的な統計的因果探索(SCD)では、背景知識の体系的獲得における課題にもかかわらず、アルゴリズムに制約としてドメイン専門家の知識を埋め込むことは、一貫した意味のある因果モデルを作成する上で重要であると広く受け入れられている。 これらの課題を克服するために,LLMの「統計的因果的プロンプト(SCP)」とSCDの事前知識増強を通じて,大規模言語モデル(LLM)を用いたSCD手法と知識ベース因果推論(KBCI)を合成する,因果推論の新しい手法を提案する。 GPT-4 は LLM-KBCI と SCD の出力を LLM-KBCI の事前の知識によって引き起こし、GPT-4 が SCP の処理を行う場合、SCD の結果をさらに改善できることを示した。 さらに, 実世界のデータセットを用いて, LLMのトレーニングデータにこのデータセットが組み込まれていない場合でも, LLMが提供する背景知識が, このデータセット上でSCDを改善することを実証した。 提案手法は、データセットバイアスや制限といった課題に対処し、多様な科学領域にわたるデータ駆動因果推論を改善するLLMの可能性を示す。

In practical statistical causal discovery (SCD), embedding domain expert knowledge as constraints into the algorithm is widely accepted as significant for creating consistent meaningful causal models, despite the recognized challenges in systematic acquisition of the background knowledge. To overcome these challenges, this paper proposes a novel methodology for causal inference, in which SCD methods and knowledge based causal inference (KBCI) with a large language model (LLM) are synthesized through ``statistical causal prompting (SCP)'' for LLMs and prior knowledge augmentation for SCD. Experiments have revealed that GPT-4 can cause the output of the LLM-KBCI and the SCD result with prior knowledge from LLM-KBCI to approach the ground truth, and that the SCD result can be further improved, if GPT-4 undergoes SCP. Furthermore, by using an unpublished real-world dataset, we have demonstrated that the background knowledge provided by the LLM can improve SCD on this dataset, even if this dataset has never been included in the training data of the LLM. The proposed approach can thus address challenges such as dataset biases and limitations, illustrating the potential of LLMs to improve data-driven causal inference across diverse scientific domains.
翻訳日:2024-05-16 17:51:17 公開日:2024-05-15
# 制御変数としての球高調波を用いたスライス・ワッサースタイン推定

Sliced-Wasserstein Estimation with Spherical Harmonics as Control Variates ( http://arxiv.org/abs/2402.01493v2 )

ライセンス: Link先を確認
Rémi Leluc, Aymeric Dieuleveut, François Portier, Johan Segers, Aigerim Zhuman, (参考訳) 確率測度間のスライス・ワッサーシュタイン距離は、関連する一次元射影に対するワッサースタイン距離の平均として定義される。 その結果、SW距離は球面上の均一測度に関する積分として記述することができ、また、モンテカルロフレームワークはSW距離を計算するために用いられる。 球面調和 (spherical harmonics) は球面上の多項式で、球面上の二乗可積分函数の集合の正則基底を形成する。 これら2つの事実をまとめると、制御変数として球高調波を用いてSW距離を近似するために、Spherical Harmonics Control Variates (SHCV)と呼ばれる新しいモンテカルロ法が提案される。 結果として得られるアプローチは、例えば、変数間のある種の線形依存の形でガウス測度に対するNo-error特性として、優れた理論的性質を持つことが示されている。 さらに、モンテカルロと比較して収束率の向上が一般的な測度のために確立されている。 収束解析はSW積分に付随するリプシッツの性質に依存する。 SW距離計算のための最先端手法に対するSHCVの優れた性能を示す数値実験がいくつかある。

The Sliced-Wasserstein (SW) distance between probability measures is defined as the average of the Wasserstein distances resulting for the associated one-dimensional projections. As a consequence, the SW distance can be written as an integral with respect to the uniform measure on the sphere and the Monte Carlo framework can be employed for calculating the SW distance. Spherical harmonics are polynomials on the sphere that form an orthonormal basis of the set of square-integrable functions on the sphere. Putting these two facts together, a new Monte Carlo method, hereby referred to as Spherical Harmonics Control Variates (SHCV), is proposed for approximating the SW distance using spherical harmonics as control variates. The resulting approach is shown to have good theoretical properties, e.g., a no-error property for Gaussian measures under a certain form of linear dependency between the variables. Moreover, an improved rate of convergence, compared to Monte Carlo, is established for general measures. The convergence analysis relies on the Lipschitz property associated to the SW integrand. Several numerical experiments demonstrate the superior performance of SHCV against state-of-the-art methods for SW distance computation.
翻訳日:2024-05-16 17:51:17 公開日:2024-05-15
# 私の声ではない!音声発生器の倫理的・安全的ハームの分類

Not My Voice! A Taxonomy of Ethical and Safety Harms of Speech Generators ( http://arxiv.org/abs/2402.01708v2 )

ライセンス: Link先を確認
Wiebke Hutiri, Oresiti Papakyriakopoulos, Alice Xiang, (参考訳) 人間のスピーチを生成するためのAIの迅速かつ大規模な採用は、対処すべき社会に対して、さまざまな倫理的および安全上のリスクをもたらす。 匿名の犯人が、警察官に学校や病院を閉鎖させたり、無実の市民の家へのアクセスを暴力的に得るよう呼びかける合成音声を作成する。 このようなインシデントは、マルチモーダル生成AIのリスクと害が独立して存在するのではなく、複数の利害関係者と技術的AIシステムの相互作用から生じることを示している。 本稿では,特定の害のパターンがどのように生じるかを調べるために,音声発生事件を分析した。 特定の害は、影響を受けた個人の露出に応じて分類でき、それは、それらが音声生成システムから被写体であるか、相互作用しているか、苦しむか、あるいは除外されるかである。 同様に、特定の害は、システムの作成者とデプロイ者のモチベーションの結果でもある。 これらの知見に基づいて,AIの倫理的・安全的害に対する経路をモデル化するための概念的枠組みを提案する。 我々のリレーショナルアプローチは、社会工学的AIシステムにおけるリスクと害の複雑さを捉え、適切な政策介入と、音声生成モデルの責任ある開発とリリースのための意思決定を支援することができる分類法を生み出します。

The rapid and wide-scale adoption of AI to generate human speech poses a range of significant ethical and safety risks to society that need to be addressed. For example, a growing number of speech generation incidents are associated with swatting attacks in the United States, where anonymous perpetrators create synthetic voices that call police officers to close down schools and hospitals, or to violently gain access to innocent citizens' homes. Incidents like this demonstrate that multimodal generative AI risks and harms do not exist in isolation, but arise from the interactions of multiple stakeholders and technical AI systems. In this paper we analyse speech generation incidents to study how patterns of specific harms arise. We find that specific harms can be categorised according to the exposure of affected individuals, that is to say whether they are a subject of, interact with, suffer due to, or are excluded from speech generation systems. Similarly, specific harms are also a consequence of the motives of the creators and deployers of the systems. Based on these insights we propose a conceptual framework for modelling pathways to ethical and safety harms of AI, which we use to develop a taxonomy of harms of speech generators. Our relational approach captures the complexity of risks and harms in sociotechnical AI systems, and yields a taxonomy that can support appropriate policy interventions and decision making for the responsible development and release of speech generation models.
翻訳日:2024-05-16 17:51:17 公開日:2024-05-15
# 要求工学における自然言語処理タスクのための大規模言語モデルの利用:体系的ガイドライン

Using Large Language Models for Natural Language Processing Tasks in Requirements Engineering: A Systematic Guideline ( http://arxiv.org/abs/2402.13823v3 )

ライセンス: Link先を確認
Andreas Vogelsang, Jannik Fischbach, (参考訳) 大規模言語モデル(LLM)は要求工学(RE)タスクの自動化の基盤であり、この分野における最近の進歩を支えている。 彼らの事前訓練された自然言語の理解は、それらを特定のREタスクに効果的に調整するために重要である。 しかし、与えられたタスクの複雑さに対処するために、多数の既存アーキテクチャから適切なLSMを選択し、それを微調整することは、REドメインの研究者や実践者にとって大きな課題となる。 RE における NLP 問題に対して LLM を効果的に活用するには,まず LLM の内部動作と NLP4RE タスクに対する LLM の選択と適応のための体系的なアプローチという,2つの理解が必要である。 本章は、LLMに関する本質的な知識を読者に提供することを目的としている。 その後、学生、研究者、実践者が特定の目的に対処するためにLLMを活用するための包括的なガイドラインを提供する。 この章は、LLMの作業に関する洞察を提供し、実践的なガイドを作成することによって、REの課題を解決するためにLLMを活用する将来の研究と応用の改善に寄与する。

Large Language Models (LLMs) are the cornerstone in automating Requirements Engineering (RE) tasks, underpinning recent advancements in the field. Their pre-trained comprehension of natural language is pivotal for effectively tailoring them to specific RE tasks. However, selecting an appropriate LLM from a myriad of existing architectures and fine-tuning it to address the intricacies of a given task poses a significant challenge for researchers and practitioners in the RE domain. Utilizing LLMs effectively for NLP problems in RE necessitates a dual understanding: firstly, of the inner workings of LLMs, and secondly, of a systematic approach to selecting and adapting LLMs for NLP4RE tasks. This chapter aims to furnish readers with essential knowledge about LLMs in its initial segment. Subsequently, it provides a comprehensive guideline tailored for students, researchers, and practitioners on harnessing LLMs to address their specific objectives. By offering insights into the workings of LLMs and furnishing a practical guide, this chapter contributes towards improving future research and applications leveraging LLMs for solving RE challenges.
翻訳日:2024-05-16 17:51:17 公開日:2024-05-15
# 3次元拡散政策: シンプルな3次元表現による一般化可能なビジュモータ政策学習

3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations ( http://arxiv.org/abs/2403.03954v4 )

ライセンス: Link先を確認
Yanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu, (参考訳) 模倣学習は、ロボットに巧妙なスキルを教える効果的な方法を提供するが、複雑なスキルをしっかりと、一般化可能に学習することは、通常、大量の人間のデモンストレーションを消費する。 この課題に対処するため, 条件付き行動生成モデルである拡散ポリシーに3次元視覚表現のパワーを組み込んだ新しい視覚模倣学習手法である3次元拡散政策(DP3)を提案する。 DP3の中核設計は、効率的な点エンコーダを持つスパース点雲から抽出されたコンパクトな3次元視覚表現の利用である。 72のシミュレーションタスクを含む実験では、DP3は10のデモでほとんどのタスクをうまく処理し、24.2%の相対的な改善でベースラインを超えた。 4つの実ロボットタスクにおいて、DP3は、各タスクの40個のデモのみを考慮し、高い成功率85%の正確な制御を示し、空間、視点、外観、インスタンスなど様々な面で優れた一般化能力を示す。 興味深いことに、実際のロボット実験では、DP3は人間の介入を必要とするベースライン法とは対照的に、安全要件にほとんど違反しない。 実世界のロボット学習における3D表現の重要性を明らかにする。 ビデオ、コード、データはhttps://3d-diffusion-policy.github.ioで公開されている。

Imitation learning provides an efficient way to teach robots dexterous skills; however, learning complex skills robustly and generalizablely usually consumes large amounts of human demonstrations. To tackle this challenging problem, we present 3D Diffusion Policy (DP3), a novel visual imitation learning approach that incorporates the power of 3D visual representations into diffusion policies, a class of conditional action generative models. The core design of DP3 is the utilization of a compact 3D visual representation, extracted from sparse point clouds with an efficient point encoder. In our experiments involving 72 simulation tasks, DP3 successfully handles most tasks with just 10 demonstrations and surpasses baselines with a 24.2% relative improvement. In 4 real robot tasks, DP3 demonstrates precise control with a high success rate of 85%, given only 40 demonstrations of each task, and shows excellent generalization abilities in diverse aspects, including space, viewpoint, appearance, and instance. Interestingly, in real robot experiments, DP3 rarely violates safety requirements, in contrast to baseline methods which frequently do, necessitating human intervention. Our extensive evaluation highlights the critical importance of 3D representations in real-world robot learning. Videos, code, and data are available on https://3d-diffusion-policy.github.io .
翻訳日:2024-05-16 17:51:17 公開日:2024-05-15
# 対数一貫性と対数ベイズ分類器の特異性

Adversarial Consistency and the Uniqueness of the Adversarial Bayes Classifier ( http://arxiv.org/abs/2404.17358v2 )

ライセンス: Link先を確認
Natalie S. Frank, (参考訳) 逆行訓練は、堅牢な分類器を学習するための一般的なテクニックである。 以前の研究では、凸代理損失は敵の文脈で統計的に一致していないことが示されており、つまり、敵の代理リスクの最小化シーケンスは、必ずしも敵の分類誤差を最小化するとは限らない。 我々は、逆代理損失の整合性を、最小化器の特性と、逆分類リスク(英語版)(emph{adversarial Bayes classifiers} として知られる)に結びつける。 具体的には、合理的な分布仮定の下では、凸損失は逆学習に対して統計的に一貫したものであり、逆ベイズ分類器は特定の一意性の概念を満たす。

Adversarial training is a common technique for learning robust classifiers. Prior work showed that convex surrogate losses are not statistically consistent in the adversarial context -- or in other words, a minimizing sequence of the adversarial surrogate risk will not necessarily minimize the adversarial classification error. We connect the consistency of adversarial surrogate losses to properties of minimizers to the adversarial classification risk, known as \emph{adversarial Bayes classifiers}. Specifically, under reasonable distributional assumptions, a convex loss is statistically consistent for adversarial learning iff the adversarial Bayes classifier satisfies a certain notion of uniqueness.
翻訳日:2024-05-16 17:51:17 公開日:2024-05-15
# 大規模言語モデルのパラメータ効率向上による極端財務数値ラベリングの指導

Parameter-Efficient Instruction Tuning of Large Language Models For Extreme Financial Numeral Labelling ( http://arxiv.org/abs/2405.06671v2 )

ライセンス: Link先を確認
Subhendu Khatuya, Rajdeep Mukherjee, Akash Ghosh, Manjunath Hegde, Koustuv Dasgupta, Niloy Ganguly, Saptarshi Ghosh, Pawan Goyal, (参考訳) 財務文書に発生する関連する数値(GAAP)を対応するXBRLタグで自動的に注釈付けする問題について検討する。 先行研究と異なり,Large Language Models (LLMs) の命令チューニングによる生成パラダイムを用いて,この極端な分類問題の解決の可能性を検討する。 この目的のために,測定メタデータ情報を利用して目標出力のフレーム化を行い,LoRAを用いてタスクに対するパラメータ効率のよい解を提案する。 最近リリースされた2つの財務数値ラベルデータセットについて実験を行った。 提案するモデルであるFLAN-FinXCは、両方のデータセット上で新しい最先端のパフォーマンスを実現し、いくつかの強力なベースラインを上回ります。 提案モデルでは,ゼロショットの能力と,最も頻度の低いタグを示すことによって,より優れたスコアを提示する。 また、XBRLタグを正しく予測できない場合でも、生成した出力は、ほとんどのケースで基幹構造とかなり重なる。

We study the problem of automatically annotating relevant numerals (GAAP metrics) occurring in the financial documents with their corresponding XBRL tags. Different from prior works, we investigate the feasibility of solving this extreme classification problem using a generative paradigm through instruction tuning of Large Language Models (LLMs). To this end, we leverage metric metadata information to frame our target outputs while proposing a parameter efficient solution for the task using LoRA. We perform experiments on two recently released financial numeric labeling datasets. Our proposed model, FLAN-FinXC, achieves new state-of-the-art performances on both the datasets, outperforming several strong baselines. We explain the better scores of our proposed model by demonstrating its capability for zero-shot as well as the least frequently occurring tags. Also, even when we fail to predict the XBRL tags correctly, our generated output has substantial overlap with the ground-truth in majority of the cases.
翻訳日:2024-05-16 17:51:17 公開日:2024-05-15
# LLM投票:人間の選択とAIによる集団決定

LLM Voting: Human Choices and AI Collective Decision Making ( http://arxiv.org/abs/2402.01766v2 )

ライセンス: Link先を確認
Joshua C. Yang, Damian Dailisan, Marcin Korecki, Carina I. Hausladen, Dirk Helbing, (参考訳) 本稿では,大規模言語モデル (LLM) の投票行動,特に GPT-4 と LLaMA-2 の偏り,人間の投票パターンとの整合性について検討する。 提案手法では, 人選投票実験のデータセットを用いて, 人選好のベースラインを確立するとともに, LLMエージェントを用いた実験を行った。 投票方法や選択の提示方法がLLM投票行動に影響を及ぼすことがわかった。 さまざまな人格がこれらのバイアスの一部を減らし、人間の選択との整合性を高めることができることがわかった。 Chain-of-Thoughtアプローチは予測精度を向上しなかったが、投票プロセスにおけるAI説明可能性の可能性がある。 また,LLMにおける好みの多様性とアライメント精度のトレードオフを,異なる温度設定の影響で確認した。 以上の結果から, LLM は投票シナリオにおいて多様ではなく, 偏った仮定を導出し, LLM の民主的プロセスへの慎重な統合の重要性を強調した。

This paper investigates the voting behaviors of Large Language Models (LLMs), specifically GPT-4 and LLaMA-2, their biases, and how they align with human voting patterns. Our methodology involved using a dataset from a human voting experiment to establish a baseline for human preferences and a corresponding experiment with LLM agents. We observed that the methods used for voting input and the presentation of choices influence LLM voting behavior. We discovered that varying the persona can reduce some of these biases and enhance alignment with human choices. While the Chain-of-Thought approach did not improve prediction accuracy, it has potential for AI explainability in the voting process. We also identified a trade-off between preference diversity and alignment accuracy in LLMs, influenced by different temperature settings. Our findings indicate that LLMs may lead to less diverse collective outcomes and biased assumptions when used in voting scenarios, emphasizing the importance of cautious integration of LLMs into democratic processes.
翻訳日:2024-05-16 17:41:32 公開日:2024-05-15
# 非繰り返しリーチ作業のためのロボットマニピュレータにおけるDeepRLとロバスト低レベル制御の統合

Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks ( http://arxiv.org/abs/2402.02551v3 )

ライセンス: Link先を確認
Mehdi Heydari Shahna, Seyed Adel Alizadeh Kolagar, Jouni Mattila, (参考訳) ロボット工学において、現代の戦略は、複雑なブラックボックスの性質と解釈可能性の欠如が特徴であり、安定性と安全性の確保に困難をもたらす可能性がある。 これらの課題に対処するために, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 環境との相互作用を通じて学習フェーズに積極的に関与しながら, 新たな低レベル制御戦略を統合することを提案する。 この手法は,非反復的到達タスクに障害が存在する場合に対処しながら,計算の制御性能と複雑さを回避している。 第一に、モデルフリーDRLエージェントを用いて「n」自由度(DoF)を有するマニピュレータの速度境界運動を計画し、結合レベル推論によるエンドエフェクタの衝突回避を確保する。 生成された参照動作は、必要なトルクを生成する頑健なサブシステムベースの適応制御器に入力され、一方、カッコウ探索最適化(CSO)アルゴリズムは、安定状態における安定化と追跡誤差を最小限に抑えるために制御ゲインを強化する。 このアプローチは、不確実性や乱れがあるにもかかわらず、不慣れな環境での堅牢性と一様指数収束を保証する。 理論的な主張はシミュレーション結果の提示によって検証される。

In robotics, contemporary strategies are learning-based, characterized by a complex black-box nature and a lack of interpretability, which may pose challenges in ensuring stability and safety. To address these issues, we propose integrating a collision-free trajectory planner based on deep reinforcement learning (DRL) with a novel auto-tuning low-level control strategy, all while actively engaging in the learning phase through interactions with the environment. This approach circumvents the control performance and complexities associated with computations while addressing nonrepetitive reaching tasks in the presence of obstacles. First, a model-free DRL agent is employed to plan velocity-bounded motion for a manipulator with 'n' degrees of freedom (DoF), ensuring collision avoidance for the end-effector through joint-level reasoning. The generated reference motion is then input into a robust subsystem-based adaptive controller, which produces the necessary torques, while the cuckoo search optimization (CSO) algorithm enhances control gains to minimize the stabilization and tracking error in the steady state. This approach guarantees robustness and uniform exponential convergence in an unfamiliar environment, despite the presence of uncertainties and disturbances. Theoretical assertions are validated through the presentation of simulation outcomes.
翻訳日:2024-05-16 17:41:32 公開日:2024-05-15
# 標準ガウス過程は高次元ベイズ最適化に優れている

Standard Gaussian Process Can Be Excellent for High-Dimensional Bayesian Optimization ( http://arxiv.org/abs/2402.02746v3 )

ライセンス: Link先を確認
Zhitong Xu, Shandian Zhe, (参考訳) 標準ガウス過程 (GP) を持つベイズ最適化 (BO) は高次元最適化問題では有効ではないという長年にわたる広く信じられてきた。 この信念は合理的に聞こえるが、強い経験的証拠は欠落している。 本稿では,高次元最適化のための多種多様な合成および実世界のベンチマーク問題に対して,標準的なGP回帰を用いたBOを体系的に検討した。 意外なことに、Match\ernカーネルとUpper Confidence Bound (UCB)を使用する場合、標準BOは一貫してトップレベルのパフォーマンスを実現し、高次元最適化のために設計された他のBOメソッドよりも優れていることがわかりました。 ステレオタイプとは対照的に、Mat\'ernカーネルを搭載した標準GPは高次元関数の学習に有効なサロゲートとして機能することを発見した。 強い構造的仮定がなければ、標準 GP を持つ BO は高次元最適化に優れるだけでなく、ターゲット関数内の様々な構造を調節するのにも堅牢である。 さらに、標準GPでは、より複雑なサロゲートモデルで必要とされる高価なマルコフ-チェインモンテカルロサンプリング(MCMC)の必要性を排除し、拡散前の最大 (MAP) 推定または単に最大 (maximum maximum) 推定によって、有望な最適化性能を達成することができる。 並行して、標準BOの実行における代替の一般的な設定についても検討し、分析を行ったが、高次元最適化ではしばしば失敗する。 これは、文献で報告されたいくつかの障害ケースと関係があるかもしれない。 そこで我々は,高次元問題に対処する上での標準BOの可能性の再評価と詳細な研究を提唱する。

There has been a long-standing and widespread belief that Bayesian Optimization (BO) with standard Gaussian process (GP), referred to as standard BO, is ineffective in high-dimensional optimization problems. While this belief sounds reasonable, strong empirical evidence is lacking. In this paper, we systematically investigated BO with standard GP regression across a variety of synthetic and real-world benchmark problems for high-dimensional optimization. We found that, surprisingly, when using Mat\'ern kernels and Upper Confidence Bound (UCB), standard BO consistently achieves top-tier performance, often outperforming other BO methods specifically designed for high-dimensional optimization. Contrary to the stereotype, we found that standard GP equipped with Mat\'ern kernels can serve as a capable surrogate for learning high-dimensional functions. Without strong structural assumptions, BO with standard GP not only excels in high-dimensional optimization but also is robust in accommodating various structures within target functions. Furthermore, with standard GP, achieving promising optimization performance is possible via maximum a posterior (MAP) estimation with diffuse priors or merely maximum likelihood estimation, eliminating the need for expensive Markov-Chain Monte Carlo (MCMC) sampling that might be required by more complex surrogate models. In parallel, we also investigated and analyzed alternative popular settings in running standard BO, which, however, often fail in high-dimensional optimization. This might link to the a few failure cases reported in literature. We thus advocate for a re-evaluation and in-depth study of the potential of standard BO in addressing high-dimensional problems.
翻訳日:2024-05-16 17:41:32 公開日:2024-05-15
# BiLLM:LLMにおける後処理量子化の限界を推し進める

BiLLM: Pushing the Limit of Post-Training Quantization for LLMs ( http://arxiv.org/abs/2402.04291v2 )

ライセンス: Link先を確認
Wei Huang, Yangdong Liu, Haotong Qin, Ying Li, Shiming Zhang, Xianglong Liu, Michele Magno, Xiaojuan Qi, (参考訳) 事前訓練された大規模言語モデル(LLM)は、例外的な汎用的な言語処理能力を示すが、メモリと計算資源に大きな需要がある。 強力な圧縮技術として、バイナライゼーションはモデル重みをわずか1ビットに減らし、高価な計算とメモリ要求を低減させる。 しかし、既存の量子化技術は、超低ビット幅でのLLM性能を維持するには不十分である。 この課題に対応して,事前学習LLMに適した1ビット後量子化方式であるBiLLMを提案する。 LLMの重み分布に基づいて、BiLLMはまず有意な重みを識別し、構造的に選択し、効率的な二乗残差近似戦略により圧縮損失を最小化する。 さらに,非塩分重みのベル形状分布を考慮し,グループ化と二項化を正確に行うための最適分割探索を提案する。 BiLLMはLLaMA2-70B上の8.41パープレキシティを初めて達成し、様々なLLMファミリーと評価指標で1.08ビットの重みしか持たず、LLMのSOTA量子化法をかなりのマージンで上回った。 さらに、BiLLMは、1つのGPU上で0.5時間以内に70億の重みを持つLLMのバイナライズプロセスを可能にし、良好な時間効率を示す。 私たちのコードはhttps://github.com/Aaronhuang-778/BiLLM.comで公開されています。

Pretrained large language models (LLMs) exhibit exceptional general language processing capabilities but come with significant demands on memory and computational resources. As a powerful compression technology, binarization can extremely reduce model weights to a mere 1 bit, lowering the expensive computation and memory requirements. However, existing quantization techniques fall short of maintaining LLM performance under ultra-low bit-widths. In response to this challenge, we present BiLLM, a groundbreaking 1-bit post-training quantization scheme tailored for pretrained LLMs. Based on the weight distribution of LLMs, BiLLM first identifies and structurally selects salient weights, and minimizes the compression loss through an effective binary residual approximation strategy. Moreover, considering the bell-shaped distribution of the non-salient weights, we propose an optimal splitting search to group and binarize them accurately. BiLLM achieving for the first time high-accuracy inference (e.g. 8.41 perplexity on LLaMA2-70B) with only 1.08-bit weights across various LLMs families and evaluation metrics, outperforms SOTA quantization methods of LLM by significant margins. Moreover, BiLLM enables the binarization process of the LLM with 7 billion weights within 0.5 hours on a single GPU, demonstrating satisfactory time efficiency. Our code is available at https://github.com/Aaronhuang-778/BiLLM.
翻訳日:2024-05-16 17:41:32 公開日:2024-05-15
# ニューラルスケーリング法則の資源モデル

A Resource Model For Neural Scaling Law ( http://arxiv.org/abs/2402.05164v2 )

ライセンス: Link先を確認
Jinyeop Song, Ziming Liu, Max Tegmark, Jeff Gore, (参考訳) ニューラルスケーリング法則は、モデルサイズがスケールアップするにつれて、モデルパフォーマンスがどのように向上するかを特徴付ける。 経験的観察にインスパイアされた我々は,ニューラルスケーリングの資源モデルを導入する。 通常、タスクは複合的であるので、多くのサブタスクに分解することができ、リソース(サブタスクに割り当てられたニューロンの数によって測定される)と競合する。 1) サブタスクの損失は、割り当てられたニューロンに逆比例する。 2) 複合タスクに複数のサブタスクが存在する場合,各サブタスクが獲得したリソースはモデルが大きくなるにつれて一様に増加し,獲得したリソースの比率は一定となる。 これらの結果は一般に真実であると仮定し、一般的な複合タスクの神経スケーリング法則を予測するモデルを構築し、arXiv:2203.15556で報告されたチンチラモデルの神経スケーリング法則を再現することに成功した。 この論文で使用されるリソースの概念は、ニューラルネットワークの特徴付けと診断に有用なツールになるだろうと考えています。

Neural scaling laws characterize how model performance improves as the model size scales up. Inspired by empirical observations, we introduce a resource model of neural scaling. A task is usually composite hence can be decomposed into many subtasks, which compete for resources (measured by the number of neurons allocated to subtasks). On toy problems, we empirically find that: (1) The loss of a subtask is inversely proportional to its allocated neurons. (2) When multiple subtasks are present in a composite task, the resources acquired by each subtask uniformly grow as models get larger, keeping the ratios of acquired resources constants. We hypothesize these findings to be generally true and build a model to predict neural scaling laws for general composite tasks, which successfully replicates the neural scaling law of Chinchilla models reported in arXiv:2203.15556. We believe that the notion of resource used in this paper will be a useful tool for characterizing and diagnosing neural networks.
翻訳日:2024-05-16 17:41:32 公開日:2024-05-15
# MusicMagus: 拡散モデルによるゼロショットテキスト音楽編集

MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models ( http://arxiv.org/abs/2402.06178v2 )

ライセンス: Link先を確認
Yixiao Zhang, Yukara Ikemiya, Gus Xia, Naoki Murata, Marco A. Martínez-Ramírez, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon, (参考訳) テキストから音楽への生成モデルの最近の進歩は、音楽の創造性に新たな道を開いた。 しかし、音楽生成は通常反復的な洗練が伴い、生成した音楽の編集方法が重要な課題である。 本稿では,このようなモデルが生成する楽曲の編集に新たなアプローチを導入し,ジャンルやムード,楽器などの特定の属性の修正を可能とし,他の側面をそのままに維持する。 そこで本手法では,テキスト編集を‘textit{latent space manipulate}’に変換するとともに,一貫性を強制するための制約を追加する。 既存の事前訓練されたテキストから音楽への拡散モデルとシームレスに統合する。 実験により, ゼロショットと特定の教師付きベースラインの双方に対して, スタイルおよび音色伝達評価において優れた性能を示した。 さらに,実際の音楽編集シナリオにおいて,本手法の実用性を示す。

Recent advances in text-to-music generation models have opened new avenues in musical creativity. However, music generation usually involves iterative refinements, and how to edit the generated music remains a significant challenge. This paper introduces a novel approach to the editing of music generated by such models, enabling the modification of specific attributes, such as genre, mood and instrument, while maintaining other aspects unchanged. Our method transforms text editing to \textit{latent space manipulation} while adding an extra constraint to enforce consistency. It seamlessly integrates with existing pretrained text-to-music diffusion models without requiring additional training. Experimental results demonstrate superior performance over both zero-shot and certain supervised baselines in style and timbre transfer evaluations. Additionally, we showcase the practical applicability of our approach in real-world music editing scenarios.
翻訳日:2024-05-16 17:41:32 公開日:2024-05-15
# 不均一軌道の等角化適応予測

Conformalized Adaptive Forecasting of Heterogeneous Trajectories ( http://arxiv.org/abs/2402.09623v2 )

ライセンス: Link先を確認
Yanfei Zhou, Lars Lindemann, Matteo Sesia, (参考訳) 本稿では,新しいランダム軌道の全経路を十分に高い確率でカバーすることが保証された同時予測帯域を生成するための新しいコンフォメーション手法を提案する。 多様な物体の挙動がほぼ予測不可能な動作計画アプリケーションにおいて、信頼可能な不確実性推定の必要性から、オンラインの単一時系列と複数時系列の共形予測と、回帰における不整合性に対処するアイデアをブレンドする。 この解はどちらも原則であり、正確な有限サンプル保証を提供し、しばしば以前の方法よりもより情報的な予測をもたらす。

This paper presents a new conformal method for generating simultaneous forecasting bands guaranteed to cover the entire path of a new random trajectory with sufficiently high probability. Prompted by the need for dependable uncertainty estimates in motion planning applications where the behavior of diverse objects may be more or less unpredictable, we blend different techniques from online conformal prediction of single and multiple time series, as well as ideas for addressing heteroscedasticity in regression. This solution is both principled, providing precise finite-sample guarantees, and effective, often leading to more informative predictions than prior methods.
翻訳日:2024-05-16 17:41:32 公開日:2024-05-15
# 委員会としての知恵:基礎モデルから特殊応用モデルへ

Wisdom of Committee: Distilling from Foundation Model to Specialized Application Model ( http://arxiv.org/abs/2402.14035v3 )

ライセンス: Link先を確認
Zichang Liu, Qingyun Liu, Yuening Li, Liang Liu, Anshumali Shrivastava, Shuchao Bi, Lichan Hong, Ed H. Chi, Zhe Zhao, (参考訳) 基礎モデルの最近の進歩は、幅広いタスクで印象的なパフォーマンスをもたらしている。 一方、特定のアプリケーションのために、実践者は特別なアプリケーションモデルを開発してきました。 両方のモデルの利点を享受するために、ファンデーションモデルの知識を専門のアプリケーションモデルに移すことが自然な道である。 ここでは知識蒸留の技術が適用され、そこではアプリケーションモデルが基礎モデルの模倣を学ぶ。 しかし、特殊なアプリケーションモデルと基礎モデルにはキャパシティにかなりのギャップがあり、異なるアーキテクチャを採用し、異なるモードから異なる入力機能を使用し、異なる分散に最適化されている。 これらのモデル特性の違いは蒸留法に大きな課題をもたらしている。 本研究では,基礎モデル教員と補完教師の両方からなる教育委員会を創設することを提案する。 補足教師は、基礎モデルと専門的応用モデルとのギャップを埋めて、よりスムーズな知識伝達を実現することを目的として、学生に類似したモデル特性を有する。 さらに,委員会における教師間の相違に対応するために,学生が各教師の専門知識を理解し,課題知識を抽出できる「DiverseDistill」を紹介した。 本評価は,補完的な教員の増員が学生のパフォーマンスを向上させることを示すものである。 最後に、DiverseDistillは教師の選択によらず、ベースライン蒸留法を一貫して上回り、学生のパフォーマンスが大幅に向上した。

Recent advancements in foundation models have yielded impressive performance across a wide range of tasks. Meanwhile, for specific applications, practitioners have been developing specialized application models. To enjoy the benefits of both kinds of models, one natural path is to transfer the knowledge in foundation models into specialized application models, which are generally more efficient for serving. Techniques from knowledge distillation may be applied here, where the application model learns to mimic the foundation model. However, specialized application models and foundation models have substantial gaps in capacity, employing distinct architectures, using different input features from different modalities, and being optimized on different distributions. These differences in model characteristics lead to significant challenges for distillation methods. In this work, we propose creating a teaching committee comprising both foundation model teachers and complementary teachers. Complementary teachers possess model characteristics akin to the student's, aiming to bridge the gap between the foundation model and specialized application models for a smoother knowledge transfer. Further, to accommodate the dissimilarity among the teachers in the committee, we introduce DiverseDistill, which allows the student to understand the expertise of each teacher and extract task knowledge. Our evaluations demonstrate that adding complementary teachers enhances student performance. Finally, DiverseDistill consistently outperforms baseline distillation methods, regardless of the teacher choices, resulting in significantly improved student performance.
翻訳日:2024-05-16 17:41:32 公開日:2024-05-15
# Hagedorn Wavepacket ダイナミックスからの単一ビブロニックレベル蛍光スペクトル

Single vibronic level fluorescence spectra from Hagedorn wavepacket dynamics ( http://arxiv.org/abs/2403.00577v2 )

ライセンス: Link先を確認
Zhan Tong Zhang, Jiří J. L. Vaníček, (参考訳) 単一振動レベル(SVL)蛍光実験では、電子的に励起された初期状態も1つまたは複数の振動モードで励起される。 フランク=コンドン因子に寄与する全ての計算は大規模システムでは個別に実用的ではないが、任意の初期振動レベルからの放出をシミュレートする時間依存形式主義は適用されていない。 ここでは、ガウス多項式と慎重に生成された多項式の積であるHagedorn関数を用いて、SVL初期状態を表す。 ポテンシャルが最も二次的な系では、ハゲゴルン関数は時間依存シュルンディンガー方程式の正確な解であり、単純なガウス波束と同じ運動方程式で伝播することができる。 2つのHagedorn波束間の重なり合いを計算する効率的な再帰的アルゴリズムを開発し、任意の振動レベルからの放射スペクトルを1つの軌道で評価できるようになった。 本手法を2次元大域的調和モデルにおいて量子分割演算法との比較により検証する。 さらに,Duschinsky回転がSVLスペクトルに及ぼす影響について検討した。 最後に,100自由度を有する変位,歪曲,ダスチンスキー回転調和モデルの例として,Hagedornアプローチの高次元システムへの適用性を示す。

In single vibronic level (SVL) fluorescence experiments, the electronically excited initial state is also excited in one or several vibrational modes. Whereas computing all contributing Franck-Condon factors individually becomes impractical in large systems, a time-dependent formalism has not been applied to simulate emission from arbitrary initial vibrational levels. Here, we use Hagedorn functions, which are products of a Gaussian and carefully generated polynomials, to represent SVL initial states. In systems where the potential is at most quadratic, the Hagedorn functions are exact solutions to the time-dependent Schr\"{o}dinger equation and can be propagated with the same equations of motion as a simple Gaussian wavepacket. Having developed an efficient recursive algorithm to compute the overlaps between two Hagedorn wavepackets, we can now evaluate emission spectra from arbitrary vibronic levels using a single trajectory. We validate the method in two-dimensional global harmonic models by comparing it with quantum split-operator calculations. Additionally, we study the effects of displacement, distortion (squeezing), and Duschinsky rotation on SVL spectra. Finally, we demonstrate the applicability of the Hagedorn approach to high-dimensional systems on an example of displaced, distorted, and Duschinsky-rotated harmonic model with 100 degrees of freedom.
翻訳日:2024-05-16 17:41:32 公開日:2024-05-15
# 量子位相推定によるフォールトトレラント量子コンピュータにおける第一原理分子動力学の可能性

Feasibility of first principles molecular dynamics in fault-tolerant quantum computer by quantum phase estimation ( http://arxiv.org/abs/2404.10001v2 )

ライセンス: Link先を確認
Ichio Kikuchi, Akihito Kikuchi, (参考訳) 本稿では,古典計算によるいわゆるCar-Parrinello法により実現された量子アルゴリズムにより,波動関数と核の位置を同時に決定する,アブ初期分子シミュレーションの実現可能性に関する概念実証を示す。 本稿で使用されるアプローチはハイブリッド方式であり、将来のフォールトトレラント量子コンピュータによって実現される。 まず、基本方程式は多項式によって近似される。 第二に、これらの多項式は特定の形式に変換され、すべての変数(波動関数と原子座標を表す)は有限次元の単項の線型空間に作用する変換によって与えられ、未知の変数はそれらの変換行列の固有値として決定される。 第三に、固有値は量子位相推定によって決定される。 これら3つのステップ、すなわち記号、数値、量子ステップに従って、最適化された分子の電子構造と原子構造を決定することができる。

This article shows a proof of concept regarding the feasibility of ab initio molecular simulation, wherein the wavefunctions and the positions of nuclei are simultaneously determined by the quantum algorithm, as is realized by the so-called Car-Parrinello method by classical computing. The approach used in this article is of a hybrid style, which shall be realized by future fault-tolerant quantum computer. First, the basic equations are approximated by polynomials. Second, those polynomials are transformed to a specific form, wherein all variables (representing the wavefunctions and the atomic coordinates) are given by the transformations acting on a linear space of monomials with finite dimension, and the unknown variables could be determined as the eigenvalues of those transformation matrices. Third, the eigenvalues are determined by quantum phase estimation. Following these three steps, namely, symbolic, numeric, and quantum steps, we can determine the optimized electronic and atomic structures of molecules.
翻訳日:2024-05-16 17:41:32 公開日:2024-05-15
# レイリー状態における線形偏光平面波に照らされた誘電体粒子の再コイル加熱

Recoil heating of a dielectric particle illuminated by a linearly polarized plane wave within the Rayleigh regime ( http://arxiv.org/abs/2404.12459v2 )

ライセンス: Link先を確認
Mohammad Ali Abbassi, (参考訳) レイリー系における線形偏光平面波と相互作用する誘電体球状粒子が経験するリコイル加熱現象について検討した。 電磁界のゆらぎから生じる粒子に作用するゆらぎ力を導出する。 我々の導出によると、伝播方向に沿って変動する力のスペクトル密度は7,7\hbar \omega_0 P_{\mathrm{scat}}/5c^2$である。 一方、電場と磁場の方向に沿って、それぞれ$\hbar \omega_0 P_{\mathrm{scat}}/5c^2$と$2\hbar \omega_0 P_{\mathrm{scat}}/5c^2$である。 ここで、$P_{\mathrm{scat}}$は粒子が散乱する力を表し、$\hbar\omega_0$は光子のエネルギーを表し、$c$は光の速度を表す。 リコイル加熱は、冷却過程において達成可能な最小温度、系のコヒーレンス時間、力測定の感度を制限し、緩和された光学において基本的な制限を課す。

We investigate the recoil heating phenomenon experienced by a dielectric spherical particle when it interacts with a linearly polarized plane wave within the Rayleigh regime. We derive the fluctuating force acted upon the particle arising from the fluctuations of the electromagnetic fields. Our derivations reveal that the spectral density of the fluctuating force along the propagation direction is $7\hbar \omega_0 P_{\mathrm{scat}}/5c^2$. Meanwhile, along the direction of the electric and magnetic fields, it is $\hbar \omega_0 P_{\mathrm{scat}}/5c^2$ and $2\hbar \omega_0 P_{\mathrm{scat}}/5c^2$, respectively. Here, $P_{\mathrm{scat}}$ denotes the power scattered by the particle, $\hbar\omega_0$ represents the energy of a photon, and $c$ is the speed of light. Recoil heating imposes fundamental limitations in levitated optomechanics, constraining the minimum temperatures achievable in cooling processes, the coherence time of the system, and the sensitivity of force measurements.
翻訳日:2024-05-16 17:41:32 公開日:2024-05-15
# 量子フォトニクスのためのN-Way周波数ビームスプリッタ

N-Way Frequency Beamsplitter for Quantum Photonics ( http://arxiv.org/abs/2405.02453v2 )

ライセンス: Link先を確認
Richard Oliver, Miri Blau, Chaitali Joshi, Xingchen Ji, Ricardo Gutierrez-Jauregui, Ana Asenjo-Garcia, Michal Lipson, Alexander L. Gaeta, (参考訳) 光ネットワークは、低損失と光周波数モードを用いて多くの情報チャネルに拡張できるため、情報転送の先駆けとなるプラットフォームである。 このプラットフォームにおける光の量子的性質を完全に活用するために、複数のチャネル間の線形ビームスプリッター型相互作用を同時にオーケストレーションすることにより、高次元の重ね合わせを操作することが望まれる。 N-way Bragg-scattering four-wave mix によるN光周波数モードの同時全結合を実現する手法を提案する。 周波数自由度を利用することにより、付加モードを一定体積と損失の相互作用媒体に多重化することができ、余剰ノイズの発生を避けることができる。 この4波混合手法により、Nモードに対する周波数符号化2モード相互作用の理論を一般化し、3方向多重光子干渉を実証することにより、このスキームの量子的性質を実験的に検証する。 2つの入力光子は3つの周波数モードで共有され、2つの古典的(コヒーレントな状態)入力とは異なる表示干渉を示す。 これらの結果は、周波数領域における一般的なNモードシステムに対するフォトニック量子情報処理のスケーラビリティに対する我々のアプローチの可能性を示している。

Optical networks are the leading platform for the transfer of information due to their low loss and ability to scale to many information channels using optical frequency modes. To fully leverage the quantum properties of light in this platform, it is desired to manipulate higher-dimensional superpositions by orchestrating linear, beamsplitter-type interactions between several channels simultaneously. We propose a method of achieving simultaneous, all-to-all coupling between N optical frequency modes via N-way Bragg-scattering four-wave mixing. By exploiting the frequency degree of freedom, additional modes can be multiplexed in an interaction medium of fixed volume and loss, avoiding the introduction of excess noise. We generalize the theory of the frequency-encoded two-mode interaction to N modes under this four-wave mixing approach and experimentally verify the quantum nature of this scheme by demonstrating three-way multiphoton interference. The two input photons are shared among three frequency modes and display interference differing from that of two classical (coherent-state) inputs. These results show the potential of our approach for the scalability of photonic quantum information processing to general N-mode systems in the frequency domain.
翻訳日:2024-05-16 17:41:32 公開日:2024-05-15
# RAGFormer: 意味的属性の学習とフラッド検出のためのトポロジ的構造

RAGFormer: Learning Semantic Attributes and Topological Structure for Fraud Detection ( http://arxiv.org/abs/2402.17472v2 )

ライセンス: Link先を確認
Haolin Li, Shuyang Jiang, Lifeng Zhang, Siyuan Du, Guangnan Ye, Hongfeng Chai, (参考訳) 不正検出は、詐欺行為の複雑で詐欺的な性質のため、依然として困難な課題である。 現在のアプローチでは、グラフのトポロジ的構造や個々のノードの属性といった、グラフの1つの観点のみを学ぶことに集中している。 しかし、これらの2種類の特徴は、ほぼ直交するが、それぞれ独立して有効であることを示す実証的研究を行う。 その結果,従来の手法では不正グラフの包括的特徴を完全に把握できないことがわかった。 このジレンマに対処するために,transFormer~(RAGFormer)を用いたRelation-Aware GNNという新しいフレームワークを提案する。 単純なネットワークはセマンティックエンコーダ、トポロジーエンコーダ、アテンション融合モジュールで構成される。 セマンティックエンコーダはTransformerを使用して、異なる関係をまたいだ意味的特徴とノード間の相互作用を学習する。 トポロジ・エンコーダとしてRelation-Aware GNNを導入し,各関係のトポロジ的特徴とノード間相互作用を学習する。 これら2つの相補的特徴は、両方の直交的特徴による予測をサポートするために、注意融合モジュールを介してインターリーブされる。 2つの人気のある公開データセットに関する大規模な実験は、RAGFormerが最先端のパフォーマンスを達成することを実証している。 産業用クレジットカード不正検出データセットにおけるRAGFormerの大幅な改善は、実世界のビジネスシナリオにおける我々の手法の適用性をさらに検証する。

Fraud detection remains a challenging task due to the complex and deceptive nature of fraudulent activities. Current approaches primarily concentrate on learning only one perspective of the graph: either the topological structure of the graph or the attributes of individual nodes. However, we conduct empirical studies to reveal that these two types of features, while nearly orthogonal, are each independently effective. As a result, previous methods can not fully capture the comprehensive characteristics of the fraud graph. To address this dilemma, we present a novel framework called Relation-Aware GNN with transFormer~(RAGFormer) which simultaneously embeds both semantic and topological features into a target node. The simple yet effective network consists of a semantic encoder, a topology encoder, and an attention fusion module. The semantic encoder utilizes Transformer to learn semantic features and node interactions across different relations. We introduce Relation-Aware GNN as the topology encoder to learn topological features and node interactions within each relation. These two complementary features are interleaved through an attention fusion module to support prediction by both orthogonal features. Extensive experiments on two popular public datasets demonstrate that RAGFormer achieves state-of-the-art performance. The significant improvement of RAGFormer in an industrial credit card fraud detection dataset further validates the applicability of our method in real-world business scenarios.
翻訳日:2024-05-16 15:45:06 公開日:2024-05-15
# 光ワイドフィールド核磁気共鳴顕微鏡

Optical Widefield Nuclear Magnetic Resonance Microscopy ( http://arxiv.org/abs/2402.18239v2 )

ライセンス: Link先を確認
Karl D. Briegel, Nick R. von Grafenstein, Julia C. Draeger, Peter Blümler, Robin D. Allert, Dominik B. Bucher, (参考訳) 顕微鏡は微細構造やプロセスの詳細な可視化と理解を可能にする。 カメラには光学、赤外線、電子顕微鏡がかなり進歩しているが、カメラ上の核磁気共鳴(NMR)信号を撮像することはいまだ解明されていない。 ここでは、ダイヤモンド中の窒素空孔(NV)中心を量子センサーとして使用し、NMR信号を光信号に変換し、その後高速カメラで捕捉する。 従来の磁気共鳴イメージング(MRI)とは異なり、実空間の広い視野でNMR信号を記録する。 我々は、光学ワイドフィールドNMR顕微鏡(OMRM)により、$\sim 10\,\mu m$解像度を$\sim 235 \times 150\,\mu m^2$領域にわたって、マイクロ流体構造でNMR信号を撮像できることを実証した。 各カメラ画素は、信号の振幅、位相、局所磁場強度、勾配に関する多成分情報を提供するNMRスペクトルを記録する。 光顕微鏡とNMR技術の融合により、物理・生命科学における多面イメージングの応用が可能になる。

Microscopy enables detailed visualization and understanding of minute structures or processes. While cameras have significantly advanced optical, infrared, and electron microscopy, imaging nuclear magnetic resonance (NMR) signals on a camera has remained elusive. Here, we employ nitrogen-vacancy (NV) centers in diamond as a quantum sensor, which converts NMR signals into optical signals that are subsequently captured by a high-speed camera. Unlike traditional magnetic resonance imaging (MRI), our method records the NMR signal over a wide field of view in real space. We demonstrate that our optical widefield NMR microscopy (OMRM) can image NMR signals in microfluidic structures with a $\sim 10\,\mu m$ resolution across a $\sim 235 \times 150\,\mu m^2$ area. Crucially, each camera pixel records an NMR spectrum providing multicomponent information about the signal's amplitude, phase, local magnetic field strengths, and gradients. The fusion of optical microscopy and NMR techniques enables multifaceted imaging applications in the physical and life sciences.
翻訳日:2024-05-16 15:45:06 公開日:2024-05-15
# 不正確なアンラーニングは、プライバシの悪用を避けるために、より慎重な評価を必要とする

Inexact Unlearning Needs More Careful Evaluations to Avoid a False Sense of Privacy ( http://arxiv.org/abs/2403.01218v2 )

ライセンス: Link先を確認
Jamie Hayes, Ilia Shumailov, Eleni Triantafillou, Amr Khalifa, Nicolas Papernot, (参考訳) モデルトレーニングのコストが高いため、アンラーニングのテクニックを開発することがますます望ましい。 これらのテクニックは、モデルをスクラッチから再トレーニングすることなく、トレーニング例の影響を取り除くことを目指している。 直感的には、モデルが学習不能になったら、モデルと対話する敵は、学習されていないサンプルがモデルのトレーニングセットに含まれているかどうかを判断できなくなる。 プライバシーに関する文献では、これはメンバーシップ推論として知られている。 本研究では,メンバーシップ推論攻撃(MIA)の非学習環境への適応について論じる。 本稿では,既存のU-MIAsを,すべての例で同一の攻撃者がインスタンス化される 'population U-MIAs'' と,各例で専用の攻撃者がインスタンス化される '`per-example U-MIAs'' に分類する。 攻撃対象の各事例に対して,攻撃対象のメンバシップ予測を調整した後者のカテゴリは,極めて強いことを示す。 実際,本研究の結果から,未学習文学におけるU-MIAは,視覚モデルと言語モデルの両方において,既存の未学習技術がもたらすプライバシー保護を過大評価していることがわかった。 調査の結果,U-MIAのサンプルごとの脆弱性は多岐にわたることが明らかとなった。 実際、いくつかのアンラーニングアルゴリズムは、他の例のためにそれを増やすことを犠牲にして、学びたいと願うすべての例に対して、脆弱性を減らします。 特に、未学習の結果として、残りのトレーニング例に対するプライバシ保護が悪化する可能性があることが分かりました。 また、既存の未学習スキームを用いて全てのサンプルを平等に保護することの難しさについても論じる。 異なる事例に対する未学習の停止基準を調整しようとするナイーブな試みは、これらの問題を緩和することができないことを実証する。

The high cost of model training makes it increasingly desirable to develop techniques for unlearning. These techniques seek to remove the influence of a training example without having to retrain the model from scratch. Intuitively, once a model has unlearned, an adversary that interacts with the model should no longer be able to tell whether the unlearned example was included in the model's training set or not. In the privacy literature, this is known as membership inference. In this work, we discuss adaptations of Membership Inference Attacks (MIAs) to the setting of unlearning (leading to their ``U-MIA'' counterparts). We propose a categorization of existing U-MIAs into ``population U-MIAs'', where the same attacker is instantiated for all examples, and ``per-example U-MIAs'', where a dedicated attacker is instantiated for each example. We show that the latter category, wherein the attacker tailors its membership prediction to each example under attack, is significantly stronger. Indeed, our results show that the commonly used U-MIAs in the unlearning literature overestimate the privacy protection afforded by existing unlearning techniques on both vision and language models. Our investigation reveals a large variance in the vulnerability of different examples to per-example U-MIAs. In fact, several unlearning algorithms lead to a reduced vulnerability for some, but not all, examples that we wish to unlearn, at the expense of increasing it for other examples. Notably, we find that the privacy protection for the remaining training examples may worsen as a consequence of unlearning. We also discuss the fundamental difficulty of equally protecting all examples using existing unlearning schemes, due to the different rates at which examples are unlearned. We demonstrate that naive attempts at tailoring unlearning stopping criteria to different examples fail to alleviate these issues.
翻訳日:2024-05-16 15:45:06 公開日:2024-05-15
# Qラーニングを用いた乳牛用バッテリー管理への強化学習アプローチ

A Reinforcement Learning Approach to Dairy Farm Battery Management using Q Learning ( http://arxiv.org/abs/2403.09499v3 )

ライセンス: Link先を確認
Nawazish Ali, Abdul Wahid, Rachael Shaw, Karl Mason, (参考訳) 乳牛の農業はかなりの量のエネルギーを消費しており、農業のエネルギー集約部門となっている。 再生可能エネルギーの農業への統合は、この課題に対処するのに役立つ。 再生可能エネルギーの創出に有効な電池管理が重要である。 電力消費の変動、再生可能エネルギーの断続的な性質、エネルギー価格の変動など、バッテリー充電と放電の管理は大きな課題となっている。 人工知能(AI)は、乳園農業における再生可能エネルギーの利用を著しく改善する可能性があるが、この領域では限定的な研究が行われている。 本研究は、アイルランドを再生可能エネルギーの利用を中心とした2030年のエネルギー戦略の達成に向けたケーススタディとみなす。 本研究は, 乳園における電池充電と排出をスケジューリングするQラーニングに基づくアルゴリズムを提案する。 本研究は,風力発生データの追加とケーススタディの追加による提案アルゴリズムの効果についても検討する。 提案アルゴリズムは, 送電網からの電力輸入コストを13.41%削減し, ピーク需要を2%削減し, 24.49%削減する。 これらの結果は, 農林水産部門における増補学習が, バッテリー管理に極めて有効であることを示すものである。

Dairy farming consumes a significant amount of energy, making it an energy-intensive sector within agriculture. Integrating renewable energy generation into dairy farming could help address this challenge. Effective battery management is important for integrating renewable energy generation. Managing battery charging and discharging poses significant challenges because of fluctuations in electrical consumption, the intermittent nature of renewable energy generation, and fluctuations in energy prices. Artificial Intelligence (AI) has the potential to significantly improve the use of renewable energy in dairy farming, however, there is limited research conducted in this particular domain. This research considers Ireland as a case study as it works towards attaining its 2030 energy strategy centered on the utilization of renewable sources. This study proposes a Q-learning-based algorithm for scheduling battery charging and discharging in a dairy farm setting. This research also explores the effect of the proposed algorithm by adding wind generation data and considering additional case studies. The proposed algorithm reduces the cost of imported electricity from the grid by 13.41%, peak demand by 2%, and 24.49% when utilizing wind generation. These results underline how reinforcement learning is highly effective in managing batteries in the dairy farming sector.
翻訳日:2024-05-16 15:45:06 公開日:2024-05-15
# 適応的推定融合を用いた大規模言語モデルの効率的なプルーニング

Efficient Pruning of Large Language Model with Adaptive Estimation Fusion ( http://arxiv.org/abs/2403.10799v3 )

ライセンス: Link先を確認
Jun Liu, Chao Wu, Changdi Yang, Hao Tang, Zhenglun Kong, Geng Yuan, Wei Niu, Dong Huang, Yanzhi Wang, (参考訳) 大規模言語モデル(LLM)は、多くの生成的な下流タスクにおいて重要なものとなり、リソースに制約のあるデバイスに効率的にデプロイする上で、避けられない傾向と重大な課題に繋がった。 構造化プルーニング(Structured pruning)は、この課題に対処するために広く使われている手法である。 しかし、複数のデコーダ層の複雑な構造を扱う場合、一般的な手法ではプルーニングに一般的な推定手法を用いることが多い。 これらのアプローチは、特定の下流タスクの精度を低下させる。 本稿では,各サブ構造の重要性を適応的にモデル化する簡易かつ効率的な手法を提案する。 一方、複雑な構造と多層構造から得られた結果に基づいて、粗粒度と微粒度の推定を適応的に融合させることができる。 設計のすべての側面は、エンドツーエンドのプルーニングフレームワークにシームレスに統合されます。 その結果,LLaMa-7B,Vicuna-7B,Baichuan-7B,Bloom-7b1の平均精度は1.1%,1.02%,2.0%,1.2%向上した。

Large language models (LLMs) have become crucial for many generative downstream tasks, leading to an inevitable trend and significant challenge to deploy them efficiently on resource-constrained devices. Structured pruning is a widely used method to address this challenge. However, when dealing with the complex structure of the multiple decoder layers, general methods often employ common estimation approaches for pruning. These approaches lead to a decline in accuracy for specific downstream tasks. In this paper, we introduce a simple yet efficient method that adaptively models the importance of each substructure. Meanwhile, it can adaptively fuse coarse-grained and finegrained estimations based on the results from complex and multilayer structures. All aspects of our design seamlessly integrate into the endto-end pruning framework. Our experimental results, compared with state-of-the-art methods on mainstream datasets, demonstrate average accuracy improvements of 1.1%, 1.02%, 2.0%, and 1.2% for LLaMa-7B,Vicuna-7B, Baichuan-7B, and Bloom-7b1, respectively.
翻訳日:2024-05-16 15:45:06 公開日:2024-05-15
# ThemeStation: ごく一部の経験から、テーマを意識した3Dアセットを生成する

ThemeStation: Generating Theme-Aware 3D Assets from Few Exemplars ( http://arxiv.org/abs/2403.15383v2 )

ライセンス: Link先を確認
Zhenwei Wang, Tengfei Wang, Gerhard Hancke, Ziwei Liu, Rynson W. H. Lau, (参考訳) 現実世界のアプリケーションは、一貫したテーマを共有する3Dアセットの大規模なギャラリーを必要とすることが多い。 テキストや画像から一般的な3Dコンテンツ作成において顕著な進歩が見られたが、入力3D例題の共有テーマに従ってカスタマイズされた3Dアセットを合成することは、オープンで困難な問題である。 本稿では,テーマを意識した3D-to-3D生成のための新しいアプローチであるThemeStationを紹介する。 ThemeStationは、2つの目標を持つ少数の模範に基づいてカスタマイズされた3Dアセットを合成する。 1 所定の模範と数学的に整合した3D資産を創出するための統一 2)高度にバリエーションのある3Dアセットを生成するための多様性。 この目的のために、まず概念画像を描画する2段階のフレームワークを設計し、次に参照インフォームド3Dモデリングステージを設計する。 そこで本稿では,入力例と合成概念画像の両方から先行情報を共同で活用するために,新たな二重スコア蒸留(DSD)の損失を提案する。 大規模な実験とユーザスタディにより、ThemeStationは、様々なテーマを意識した3Dモデルを印象的な品質で製造する以前の作業を上回ることが確認された。 ThemeStationは、制御可能な3D-to-3D生成など、さまざまなアプリケーションを可能にする。

Real-world applications often require a large gallery of 3D assets that share a consistent theme. While remarkable advances have been made in general 3D content creation from text or image, synthesizing customized 3D assets following the shared theme of input 3D exemplars remains an open and challenging problem. In this work, we present ThemeStation, a novel approach for theme-aware 3D-to-3D generation. ThemeStation synthesizes customized 3D assets based on given few exemplars with two goals: 1) unity for generating 3D assets that thematically align with the given exemplars and 2) diversity for generating 3D assets with a high degree of variations. To this end, we design a two-stage framework that draws a concept image first, followed by a reference-informed 3D modeling stage. We propose a novel dual score distillation (DSD) loss to jointly leverage priors from both the input exemplars and the synthesized concept image. Extensive experiments and user studies confirm that ThemeStation surpasses prior works in producing diverse theme-aware 3D models with impressive quality. ThemeStation also enables various applications such as controllable 3D-to-3D generation.
翻訳日:2024-05-16 15:45:06 公開日:2024-05-15
# ブラインドパノラマビデオ品質評価を支援する学習されたスキャンパス

Learned Scanpaths Aid Blind Panoramic Video Quality Assessment ( http://arxiv.org/abs/2404.00252v2 )

ライセンス: Link先を確認
Kanglong Fan, Wen Wen, Mu Li, Yifan Peng, Kede Ma, (参考訳) パノラマビデオは没入的でインタラクティブな視聴体験を提供するという利点がある。 それにもかかわらず、その球面的な性質は様々な不確実なユーザーの視聴行動を引き起こし、パノラマビデオ品質評価(PVQA)に重大な課題をもたらす。 本研究では,視覚スキャンパスを用いたユーザ・ビューング・パターンの明示的モデリングにより,エンドツーエンドで最適化された視覚的PVQA手法を提案する。 本手法は,スキャンパス生成器と品質評価器の2つのモジュールから構成される。 スキャンパスジェネレータは、期待するコード長を最小化し、品質予測のために品質評価器と共同最適化することで、将来のスキャンパスを予測するように訓練されている。 視覚的PVQA法は,パノラマ画像を同一フレームからなるビデオとして扱うことにより,直接品質評価を可能にする。 3つの公開パノラマ画像とビデオ品質データセットの実験は、合成歪みと真正歪みの両方を包含し、既存の手法よりも視覚型PVQAモデルの方が優れていることを検証した。

Panoramic videos have the advantage of providing an immersive and interactive viewing experience. Nevertheless, their spherical nature gives rise to various and uncertain user viewing behaviors, which poses significant challenges for panoramic video quality assessment (PVQA). In this work, we propose an end-to-end optimized, blind PVQA method with explicit modeling of user viewing patterns through visual scanpaths. Our method consists of two modules: a scanpath generator and a quality assessor. The scanpath generator is initially trained to predict future scanpaths by minimizing their expected code length and then jointly optimized with the quality assessor for quality prediction. Our blind PVQA method enables direct quality assessment of panoramic images by treating them as videos composed of identical frames. Experiments on three public panoramic image and video quality datasets, encompassing both synthetic and authentic distortions, validate the superiority of our blind PVQA model over existing methods.
翻訳日:2024-05-16 15:45:06 公開日:2024-05-15
# 厚線形状における物体の位置と幅の計算のための線形アンコールガウス混合モデル

Linear Anchored Gaussian Mixture Model for Location and Width Computations of Objects in Thick Line Shape ( http://arxiv.org/abs/2404.03043v3 )

ライセンス: Link先を確認
Nafaa Nacereddine, Aicha Baya Goumeidane, Djemel Ziou, (参考訳) 道路交通におけるX線画像, リモートセンシング, レーンマーキング検出などの実世界の多くの応用において, 厚線構造の中心線を正確に検出し, その厚さを正確に推定することは困難である。 Hough 変換と Radon 変換を用いたモデルベースアプローチはよく用いられるが、濃厚な線検出には推奨されない。 本稿では, 3次元画像グレーレベル表現を, 統計分布の有限混合モデル, 線形アンカー型ガウス分布と呼ばれ, スケール係数によってパラメータ化して, 構造の厚さ, 半径, 角度パラメータを記述し, 構造中心線を局所化する手法を提案する。 入力データとして元の画像を用いた期待最大化アルゴリズム(Algo1)を用いてモデルパラメータを推定する。 非均一でノイズの多い背景から得られる無関係な情報のデータを除去するために、改良されたEMアルゴリズム(Algo2)を詳述する。 実験では, 実世界の画像と合成画像がぼやけやノイズによって劣化し, アルゴ2はヘッセンの角度初期化を用いて, ランニング時間, 構造位置, 厚さ計算の精度でAlgo1とAlgo2をランダムな角度初期化で上回った。

Accurate detection of the centerline of a thick linear structure and good estimation of its thickness are challenging topics in many real-world applications such X-ray imaging, remote sensing and lane marking detection in road traffic. Model-based approaches using Hough and Radon transforms are often used but, are not recommended for thick line detection, whereas methods based on image derivatives need further step-by-step processing making their efficiency dependent on each step outcome. In this paper, a novel paradigm to better detect thick linear objects is presented, where the 3D image gray level representation is considered as a finite mixture model of a statistical distribution, called linear anchored Gaussian distribution and parametrized by a scale factor to describe the structure thickness and radius and angle parameters to localize the structure centerline. Expectation-Maximization algorithm (Algo1) using the original image as input data is used to estimate the model parameters. To rid the data of irrelevant information brought by nonuniform and noisy background, a modified EM algorithm (Algo2) is detailed. In Experiments, the proposed algorithms show promising results on real-world images and synthetic images corrupted by blur and noise, where Algo2, using Hessian-based angle initialization, outperforms Algo1 and Algo2 with random angle initialization, in terms of running time and structure location and thickness computation accuracy.
翻訳日:2024-05-16 15:45:06 公開日:2024-05-15
# 生成言語モデルにおける文埋め込みの簡易化手法

Simple Techniques for Enhancing Sentence Embeddings in Generative Language Models ( http://arxiv.org/abs/2404.03921v2 )

ライセンス: Link先を確認
Bowen Zhang, Kehua Chang, Chunping Li, (参考訳) Sentence Embeddingは自然言語処理の領域における基本的なタスクであり、検索エンジン、エキスパートシステム、質問・回答プラットフォームで広範囲に応用されている。 LLaMAやMistralのような大規模言語モデルの継続的な進化により、文の埋め込みに関する研究は近年顕著なブレークスルーを達成している。 しかし、これらの進歩は主に微調整のシナリオにかかわっており、初期の段階では、文表現のための計算効率の良い直接推論手法を探求している。 この論文はこの研究ギャップを埋めようと努力している。 包括的実験を通じて、事前学習言語モデル(PLM)から文の埋め込みを導出するための明示的な一語制限の必要性を広く信じられている信念に挑戦する。 我々は,本手法が直接推論シナリオ下での生成モデルに有用であるが,識別モデルや生成PLMの微調整には必須でないことを示した。 この発見は、将来の研究で手動テンプレートの設計に新たな光を当てている。 この知見に基づいて, PLMの生埋め込みの表現力をさらに向上する2つの革新的急進的技術技術, 思考の連鎖と知識の強化を提案する。 各種のPLMタイプにまたがって有効性を確認し,その成功に寄与する要因を詳細に検討する。

Sentence Embedding stands as a fundamental task within the realm of Natural Language Processing, finding extensive application in search engines, expert systems, and question-and-answer platforms. With the continuous evolution of large language models such as LLaMA and Mistral, research on sentence embedding has recently achieved notable breakthroughs. However, these advancements mainly pertain to fine-tuning scenarios, leaving explorations into computationally efficient direct inference methods for sentence representation in a nascent stage. This paper endeavors to bridge this research gap. Through comprehensive experimentation, we challenge the widely held belief in the necessity of an Explicit One-word Limitation for deriving sentence embeddings from Pre-trained Language Models (PLMs). We demonstrate that this approach, while beneficial for generative models under direct inference scenario, is not imperative for discriminative models or the fine-tuning of generative PLMs. This discovery sheds new light on the design of manual templates in future studies. Building upon this insight, we propose two innovative prompt engineering techniques capable of further enhancing the expressive power of PLMs' raw embeddings: Pretended Chain of Thought and Knowledge Enhancement. We confirm their effectiveness across various PLM types and provide a detailed exploration of the underlying factors contributing to their success.
翻訳日:2024-05-16 15:45:06 公開日:2024-05-15
# 深層学習のための手続き生成合成画像におけるリアリズムの重要性--トウモロコシとカノーラを事例として

Importance of realism in procedurally-generated synthetic images for deep learning: case studies in maize and canola ( http://arxiv.org/abs/2404.05128v2 )

ライセンス: Link先を確認
Nazifa Azam Khan, Mikolaj Cieslak, Ian McQuillan, (参考訳) 人工ニューラルネットワークは、しばしば作物の特徴を特定するために使用される。 しかし、それらのモデルのトレーニングには多くの注釈付きイメージが必要です。 リンデンマイヤー系 (L-systems) で開発された植物などの手続き的モデルは、視覚的に現実的なシミュレーションを生成するために作成され、したがって、アノテーションが暗黙的に知られている植物シミュレーションの画像を生成することができる。 これらの合成画像は、表現型タスクのためのトレーニングニューラルネットワークにおいて、実際の画像を増強または完全に置き換えることができる。 本稿では,L系から生成した合成画像が実画像の予測に役立てられる状況を理解するために,トウモロコシとカノーラの双方で訓練に使用される実画像と合成画像の量を体系的に変化させる。 この研究は、合成画像におけるリアリズムが予測を改善する程度についても検討する。 手続き型カノラモデルの5つの変種(これらの変種はキャリブレーションを用いてリアリズムをチューニングして作成された)があり、ディープラーニングの結果は、カノラ合成画像がよりリアルになるにつれて、これらの結果が劇的に改善されることを示した。 さらに、ニューラルネットワークの予測がLシステム自体を校正し、フィードバックループを作成するのにどのように役立つかを確認する。

Artificial neural networks are often used to identify features of crop plants. However, training their models requires many annotated images, which can be expensive and time-consuming to acquire. Procedural models of plants, such as those developed with Lindenmayer-systems (L-systems) can be created to produce visually realistic simulations, and hence images of plant simulations, where annotations are implicitly known. These synthetic images can either augment or completely replace real images in training neural networks for phenotyping tasks. In this paper, we systematically vary amounts of real and synthetic images used for training in both maize and canola to better understand situations where synthetic images generated from L-systems can help prediction on real images. This work also explores the degree to which realism in the synthetic images improves prediction. We have five different variants of a procedural canola model (these variants were created by tuning the realism while using calibration), and the deep learning results showed how drastically these results improve as the canola synthetic images are made to be more realistic. Furthermore, we see how neural network predictions can be used to help calibrate L-systems themselves, creating a feedback loop.
翻訳日:2024-05-16 15:45:06 公開日:2024-05-15
# AI安全性向上のためのAIシステム評価フレームワーク:ターミノロジー、分類学、ライフサイクルマッピング

An AI System Evaluation Framework for Advancing AI Safety: Terminology, Taxonomy, Lifecycle Mapping ( http://arxiv.org/abs/2404.05388v3 )

ライセンス: Link先を確認
Boming Xia, Qinghua Lu, Liming Zhu, Zhenchang Xing, (参考訳) 高度なAIの出現は、包括的な安全評価、コミュニティ間でのコラボレーション(AI、ソフトウェアエンジニアリング、ガバナンスなど)の緊急の必要性を浮き彫りにする。 しかし、これらのコミュニティにまたがる多様な実践と用語は、AIシステムの複雑さと組み合わせて、モデルが単なる部分的かつ環境的な余裕(例えばツールへのアクセス)であるように、効果的なコミュニケーションと包括的な評価を妨げている。 本稿では,3つのコンポーネントからなるAIシステム評価フレームワークを提案する。 1)AI安全評価に関わるコミュニティ間のコミュニケーションを促進するための調和した用語 2)AIシステム評価に不可欠な要素を特定する分類 3) 説明可能なAIサプライチェーンに対するAIライフサイクル、利害関係者、必要な評価のマッピング。 このフレームワークは、モデル中心のアプローチを越えて、AIシステム評価に関するより深い議論を触媒する。

The advent of advanced AI underscores the urgent need for comprehensive safety evaluations, necessitating collaboration across communities (i.e., AI, software engineering, and governance). However, divergent practices and terminologies across these communities, combined with the complexity of AI systems-of which models are only a part-and environmental affordances (e.g., access to tools), obstruct effective communication and comprehensive evaluation. This paper proposes a framework for AI system evaluation comprising three components: 1) harmonised terminology to facilitate communication across communities involved in AI safety evaluation; 2) a taxonomy identifying essential elements for AI system evaluation; 3) a mapping between AI lifecycle, stakeholders, and requisite evaluations for accountable AI supply chain. This framework catalyses a deeper discourse on AI system evaluation beyond model-centric approaches.
翻訳日:2024-05-16 15:45:06 公開日:2024-05-15
# Chinchilla Scaling: レプリケーションの試み

Chinchilla Scaling: A replication attempt ( http://arxiv.org/abs/2404.10102v2 )

ライセンス: Link先を確認
Tamay Besiroglu, Ege Erdil, Matthew Barnett, Josh You, (参考訳) Hoffmann et al (2022) は計算最適スケーリング法則を推定する3つの方法を提案する。 提案手法は,プロットからのデータ再構成にパラメトリック損失関数を組み込んだ第3次推定手順を再現する。 報告された推定値は、最初の2つの推定方法と矛盾し、抽出したデータに適合せず、そして、明らかに狭い信頼区間を報告している。 対照的に、第3のアプローチを用いたスケーリング法の再帰は、ホフマンらによって記述された最初の2つの推定手順から得られた結果と相容れない結果をもたらす。

Hoffmann et al. (2022) propose three methods for estimating a compute-optimal scaling law. We attempt to replicate their third estimation procedure, which involves fitting a parametric loss function to a reconstruction of data from their plots. We find that the reported estimates are inconsistent with their first two estimation methods, fail at fitting the extracted data, and report implausibly narrow confidence intervals--intervals this narrow would require over 600,000 experiments, while they likely only ran fewer than 500. In contrast, our rederivation of the scaling law using the third approach yields results that are compatible with the findings from the first two estimation procedures described by Hoffmann et al.
翻訳日:2024-05-16 15:34:50 公開日:2024-05-15
# MolCRAFT:連続パラメータ空間における構造に基づく医薬品設計

MolCRAFT: Structure-Based Drug Design in Continuous Parameter Space ( http://arxiv.org/abs/2404.12141v3 )

ライセンス: Link先を確認
Yanru Qu, Keyue Qiu, Yuxuan Song, Jingjing Gong, Jiawei Han, Mingyue Zheng, Hao Zhou, Wei-Ying Ma, (参考訳) 近年, 構造に基づく医薬品デザイン(SBDD)の創成モデルが有望な成果を上げている。 既存の研究は主に、高い結合親和性を持つ分子を生成する方法に焦点を当てており、生成された3Dポーズに対する実現可能性の前提条件を無視し、偽陽性をもたらす。 我々は,モード崩壊やハイブリッド連続離散空間を含む自己回帰的手法を適用し,SBDDに拡散する際の不整合問題の要因を徹底的に研究する。 本稿では,連続パラメータ空間で動作する最初のSBDDモデルであるMolCRAFTと,新しいノイズ低減サンプリング戦略を紹介する。 実験により,本モデルはより安定な3次元構造との結合親和性において常に優れた性能を示し,原子間相互作用を正確にモデル化する能力を示している。 我々の知る限りでは、MollCRAFTは、基準レベルのVina Scores (-6.59 kcal/mol) を同等の分子サイズで達成し、他の強いベースラインよりも広いマージン (-0.84 kcal/mol) で優れている。 コードはhttps://github.com/AlgoMole/MolCRAFTで入手できる。

Generative models for structure-based drug design (SBDD) have shown promising results in recent years. Existing works mainly focus on how to generate molecules with higher binding affinity, ignoring the feasibility prerequisites for generated 3D poses and resulting in false positives. We conduct thorough studies on key factors of ill-conformational problems when applying autoregressive methods and diffusion to SBDD, including mode collapse and hybrid continuous-discrete space. In this paper, we introduce MolCRAFT, the first SBDD model that operates in the continuous parameter space, together with a novel noise reduced sampling strategy. Empirical results show that our model consistently achieves superior performance in binding affinity with more stable 3D structure, demonstrating our ability to accurately model interatomic interactions. To our best knowledge, MolCRAFT is the first to achieve reference-level Vina Scores (-6.59 kcal/mol) with comparable molecular size, outperforming other strong baselines by a wide margin (-0.84 kcal/mol). Code is available at https://github.com/AlgoMole/MolCRAFT.
翻訳日:2024-05-16 15:34:50 公開日:2024-05-15
# OccFeat: BEVセグメンテーションネットワークの事前学習のための自己管理型機能予測

OccFeat: Self-supervised Occupancy Feature Prediction for Pretraining BEV Segmentation Networks ( http://arxiv.org/abs/2404.14027v2 )

ライセンス: Link先を確認
Sophia Sirko-Galouchenko, Alexandre Boulch, Spyros Gidaris, Andrei Bursuc, Antonin Vobecky, Patrick Pérez, Renaud Marlet, (参考訳) 本稿では,カメラのみのBird's-Eye-View(BEV)セグメンテーションネットワークのための,OcFeatと呼ばれる自己教師付き事前学習手法を提案する。 OccFeatでは、占有率予測と特徴蒸留タスクを介して、BEVネットワークを事前訓練する。 アクシデント予測は、シーンをモデルに3次元の幾何学的理解を提供する。 しかし、学習した幾何学はクラスに依存しない。 そこで我々は, 自己教師付き事前学習画像基礎モデルからの蒸留を通じて, 3次元空間のモデルに意味情報を付加する。 本手法で事前訓練したモデルでは,特に低データシナリオにおいて,BEVセマンティックセマンティックセマンティクスの性能が向上した。 さらに, 予備訓練アプローチにおける特徴蒸留と3次元占有率予測の併用の有効性を実証的に確認した。

We introduce a self-supervised pretraining method, called OcFeat, for camera-only Bird's-Eye-View (BEV) segmentation networks. With OccFeat, we pretrain a BEV network via occupancy prediction and feature distillation tasks. Occupancy prediction provides a 3D geometric understanding of the scene to the model. However, the geometry learned is class-agnostic. Hence, we add semantic information to the model in the 3D space through distillation from a self-supervised pretrained image foundation model. Models pretrained with our method exhibit improved BEV semantic segmentation performance, particularly in low-data scenarios. Moreover, empirical results affirm the efficacy of integrating feature distillation with 3D occupancy prediction in our pretraining approach.
翻訳日:2024-05-16 15:34:50 公開日:2024-05-15
# MileBench: 長期にわたるMLLMのベンチマーク

MileBench: Benchmarking MLLMs in Long Context ( http://arxiv.org/abs/2404.18532v2 )

ライセンス: Link先を確認
Dingjie Song, Shunian Chen, Guiming Hardy Chen, Fei Yu, Xiang Wan, Benyou Wang, (参考訳) ベンチマークにおけるマルチモーダル大言語モデル(MLLM)の進歩と印象的な性能にもかかわらず、実世界、長期コンテキスト、マルチイメージタスクにおけるそれらの有効性は、ベンチマークの範囲が限られているため不明である。 既存のベンチマークでは、シングルイメージとショートテキストのサンプルにフォーカスすることが多く、マルチイメージタスクを評価する際には、画像数を制限するか、特定のタスク(例えば時系列キャプション)にフォーカスする。 これらの制限に対処するため、MLLMのMultImodal Long-contExt機能をテストするために設計された先駆的なベンチマークであるMileBenchを紹介した。 このベンチマークは、マルチモーダルなコンテキストだけでなく、理解と生成の両方を必要とする複数のタスクを含む。 MLLMの長文適応能力と、長文シナリオにおけるタスク完了能力を体系的に評価するために、診断と現実の2つの異なる評価セットを確立する。 実験の結果,22種類のモデルから得られた実験結果から,GPT-4oのクローズドソースは他よりも優れていたが,ほとんどのオープンソースMLLMは長期環境において苦戦していることがわかった。 興味深いことに、画像の数が増えるにつれて、パフォーマンスのギャップが大きくなる傾向にある。 我々は,MLLMの長期コンテキスト能力向上に向けた研究努力の強化を強く推奨する。

Despite the advancements and impressive performance of Multimodal Large Language Models (MLLMs) on benchmarks, their effectiveness in real-world, long-context, and multi-image tasks is unclear due to the benchmarks' limited scope. Existing benchmarks often focus on single-image and short-text samples, and when assessing multi-image tasks, they either limit the image count or focus on specific task (e.g time-series captioning), potentially obscuring the performance challenges of MLLMs. To address these limitations, we introduce MileBench, a pioneering benchmark designed to test the MultImodal Long-contExt capabilities of MLLMs. This benchmark comprises not only multimodal long contexts, but also multiple tasks requiring both comprehension and generation. We establish two distinct evaluation sets, diagnostic and realistic, to systematically assess MLLMs' long-context adaptation capacity and their ability to complete tasks in long-context scenarios. Our experimental results, obtained from testing 22 models, revealed that while the closed-source GPT-4o outperforms others, most open-source MLLMs struggle in long-context situations. Interestingly, the performance gap tends to widen with an increase in the number of images. We strongly encourage an intensification of research efforts towards enhancing MLLMs' long-context capabilities, especially in scenarios involving multiple images.
翻訳日:2024-05-16 15:34:50 公開日:2024-05-15
# マルチホスピタル人口規模心電図データのフェデレーション学習と差分プライバシー技術

Federated Learning and Differential Privacy Techniques on Multi-hospital Population-scale Electrocardiogram Data ( http://arxiv.org/abs/2405.00725v2 )

ライセンス: Link先を確認
Vikhyat Agrawal, Sunil Vasu Kalmady, Venkataseetharam Manoj Malipeddi, Manisimha Varma Manthena, Weijie Sun, Saiful Islam, Abram Hindle, Padma Kaul, Russell Greiner, (参考訳) 本研究では,集団規模の心電図(ECG)データにフェデレートラーニング(FL)と差分プライバシ(DP)技術を適用する方法について検討する。 本研究は,カナダアルバータ州の7つの病院の1,565,849のECGトレースに基づいて,FLとDPを用いた多ラベルECG分類モデルを学習した。 FLアプローチは、様々な心臓状態の診断のための堅牢な心電図分類モデルを構築しながら、病院間で生データを共有せずに協調的なモデルトレーニングを可能にした。 これらの正確な心電図分類モデルは、FLおよびDP技術を用いて患者の機密性を保ちながら診断を容易にすることができる。 以上の結果から, FLアプローチの実施によって達成された性能は, 全病院の集積データに基づいてモデルがトレーニングされるプールアプローチに匹敵することがわかった。 さらに,訓練用ECGが限られている病院は,単座トレーニングと比較してFLモデルを採用することのメリットが示唆された。 さらに,本研究では,モデルトレーニング中にDPを用いて,モデル性能とデータプライバシのトレードオフを示す。 私たちのコードはhttps://github.com/vikhyatt/Hospital-FL-DPで利用可能です。

This research paper explores ways to apply Federated Learning (FL) and Differential Privacy (DP) techniques to population-scale Electrocardiogram (ECG) data. The study learns a multi-label ECG classification model using FL and DP based on 1,565,849 ECG tracings from 7 hospitals in Alberta, Canada. The FL approach allowed collaborative model training without sharing raw data between hospitals while building robust ECG classification models for diagnosing various cardiac conditions. These accurate ECG classification models can facilitate the diagnoses while preserving patient confidentiality using FL and DP techniques. Our results show that the performance achieved using our implementation of the FL approach is comparable to that of the pooled approach, where the model is trained over the aggregating data from all hospitals. Furthermore, our findings suggest that hospitals with limited ECGs for training can benefit from adopting the FL model compared to single-site training. In addition, this study showcases the trade-off between model performance and data privacy by employing DP during model training. Our code is available at https://github.com/vikhyatt/Hospital-FL-DP.
翻訳日:2024-05-16 15:34:50 公開日:2024-05-15
# RaffeSDG: 医用画像分割のための単一ソース領域一般化を可能にするランダム周波数フィルタリング

RaffeSDG: Random Frequency Filtering enabled Single-source Domain Generalization for Medical Image Segmentation ( http://arxiv.org/abs/2405.01228v2 )

ライセンス: Link先を確認
Heng Li, Haojin Li, Jianyu Chen, Zhongxi Qiu, Huazhu Fu, Lidai Wang, Yan Hu, Jiang Liu, (参考訳) ディープラーニングモデルは、ソースとターゲットデータの間にドメインシフトがある場合、正確な推論を行う際の課題に直面することが多い。 この問題は、医療データの専門的・私的な性質から得られた注釈付きデータの不足により、臨床現場で特に顕著である。 適切なソリューションが存在するにもかかわらず、データ収集と計算の複雑さの制限により、その多くが臨床環境で妨げられている。 データスカース医療シナリオにおけるドメインシフトに対処するため、単一ソースドメインでトレーニングされたセグメンテーションモデルを用いて、堅牢なドメイン外推論を約束するRaffeSDG(Random frequency filtering enabled Single-source Domain Generalization Algorithm)を提案する。 フィルタに基づくデータ拡張戦略は、周波数空間のばらつきを導入し、ホモロジーサンプルをブレンドすることによって、単一ソース領域内のドメイン変動を促進するために最初に提案される。 次に、ガウスフィルタに基づく構造的サリエンシも利用して、拡張サンプル全体にわたる堅牢な表現を学習し、さらに一般化可能なセグメンテーションモデルのトレーニングを容易にする。 RaffeSDGの有効性を検証するために,4つの異なるモードで画像化された3つのヒト組織に対するセグメンテーションタスクに対するドメイン外推論を含む広範囲な実験を行った。 徹底的な調査と比較を通じて、これらの実験で説得力のある証拠が観察され、RaffeSDGの可能性と一般化可能性が示された。 コードはhttps://github.com/liamheng/Non-IID_Medical_Image_Segmentationで公開されている。

Deep learning models often encounter challenges in making accurate inferences when there are domain shifts between the source and target data. This issue is particularly pronounced in clinical settings due to the scarcity of annotated data resulting from the professional and private nature of medical data. Despite the existence of decent solutions, many of them are hindered in clinical settings due to limitations in data collection and computational complexity. To tackle domain shifts in data-scarce medical scenarios, we propose a Random frequency filtering enabled Single-source Domain Generalization algorithm (RaffeSDG), which promises robust out-of-domain inference with segmentation models trained on a single-source domain. A filter-based data augmentation strategy is first proposed to promote domain variability within a single-source domain by introducing variations in frequency space and blending homologous samples. Then Gaussian filter-based structural saliency is also leveraged to learn robust representations across augmented samples, further facilitating the training of generalizable segmentation models. To validate the effectiveness of RaffeSDG, we conducted extensive experiments involving out-of-domain inference on segmentation tasks for three human tissues imaged by four diverse modalities. Through thorough investigations and comparisons, compelling evidence was observed in these experiments, demonstrating the potential and generalizability of RaffeSDG. The code is available at https://github.com/liamheng/Non-IID_Medical_Image_Segmentation.
翻訳日:2024-05-16 15:34:50 公開日:2024-05-15
# 不変リスク最小化は全変動モデルである

Invariant Risk Minimization Is A Total Variation Model ( http://arxiv.org/abs/2405.01389v3 )

ライセンス: Link先を確認
Zhao-Rong Lai, Weiwen Wang, (参考訳) 不変リスク最小化(英: Invariant risk minimization、IRM)とは、機械学習において、不変の機能を様々な環境に一般化する手法である。 関連するほとんどの研究は、新しいIRM設定や新しいアプリケーションシナリオに焦点を当てているが、IRMの数学的本質は、まだ適切に説明されていない。 IRM は本質的に分類器変数に関する学習リスクの $L^2$ norm (TV-$\ell_2$) に基づく総変量であることを示す。 さらに,TV-$\ell_1$モデルに基づく新しいIRMフレームワークを提案する。 学習リスクとして使用できる関数のクラスを拡大するだけでなく、コアレア式に基づいたデノナイズおよび不変の特徴保存における堅牢な性能も備えている。 IRM-TV-$\ell_1$のアウト・オブ・ディストリビューションの一般化の要求についても述べる。 実験結果から,提案フレームワークは,いくつかのベンチマーク機械学習シナリオにおいて,競合性能を実現することが示された。

Invariant risk minimization (IRM) is an arising approach to generalize invariant features to different environments in machine learning. While most related works focus on new IRM settings or new application scenarios, the mathematical essence of IRM remains to be properly explained. We verify that IRM is essentially a total variation based on $L^2$ norm (TV-$\ell_2$) of the learning risk with respect to the classifier variable. Moreover, we propose a novel IRM framework based on the TV-$\ell_1$ model. It not only expands the classes of functions that can be used as the learning risk, but also has robust performance in denoising and invariant feature preservation based on the coarea formula. We also illustrate some requirements for IRM-TV-$\ell_1$ to achieve out-of-distribution generalization. Experimental results show that the proposed framework achieves competitive performance in several benchmark machine learning scenarios.
翻訳日:2024-05-16 15:34:50 公開日:2024-05-15
# SSUMamba:ハイパースペクトル画像復調のための空間スペクトル選択状態空間モデル

SSUMamba: Spatial-Spectral Selective State Space Model for Hyperspectral Image Denoising ( http://arxiv.org/abs/2405.01726v4 )

ライセンス: Link先を確認
Guanyiman Fu, Fengchao Xiong, Jianfeng Lu, Jun Zhou, Yuntao Qian, (参考訳) ハイパースペクトル画像(HSI)のデノイングは、画像内メカニズムや環境要因から生じるノイズにより、重要な前処理手順である。 スペクトル相関,空間自己相似性,空間スペクトル相関といったHSIのドメイン固有知識を活用することは,深層学習に基づく認知に不可欠である。 既存の手法はしばしば、時間、空間の複雑さ、計算の複雑さによって制約され、これらの先行を別々に探索する戦略を採用する。 これらの戦略は、いくつかの冗長な情報を避けることができるが、画像復元に肯定的な影響を与える、より広く、より根底にある長距離空間スペクトル情報を見落としてしまう。 本稿では,空間スペクトル選択状態モデルに基づくU字型ネットワークであるSpatial-Spectral U-Mamba(SSUMamba)を提案する。 状態空間モデル(SSM)計算における線形空間複雑性のおかげで,モジュール内の全地球空間スペクトル相関が得られる。 本研究では3次元HSIにおける複数方向の情報フローのモデル化を支援する空間スペクトル交互走査(SSAS)戦略を提案する。 実験の結果,本手法は比較手法よりも優れていた。 ソースコードはhttps://github.com/lronkitty/SSUMamba.comで入手できる。

Denoising hyperspectral images (HSIs) is a crucial preprocessing procedure due to the noise originating from intra-imaging mechanisms and environmental factors. Utilizing domain-specific knowledge of HSIs, such as spectral correlation, spatial self-similarity, and spatial-spectral correlation, is essential for deep learning-based denoising. Existing methods are often constrained by running time, space complexity, and computational complexity, employing strategies that explore these priors separately. While these strategies can avoid some redundant information, they inevitably overlook broader and more underlying long-range spatial-spectral information that positively impacts image restoration. This paper proposes a Spatial-Spectral Selective State Space Model-based U-shaped network, termed Spatial-Spectral U-Mamba (SSUMamba), for hyperspectral image denoising. We can obtain complete global spatial-spectral correlation within a module thanks to the linear space complexity in State Space Model (SSM) computations. We introduce a Spatial-Spectral Alternating Scan (SSAS) strategy for HSIs, which helps model the information flow in multiple directions in 3-D HSIs. Experimental results demonstrate that our method outperforms compared methods. The source code is available at https://github.com/lronkitty/SSUMamba.
翻訳日:2024-05-16 15:34:50 公開日:2024-05-15
# RF伝搬予測のための物理インフォームド生成ニューラルネットワークと室内体知覚への応用

Physics-informed generative neural networks for RF propagation prediction with application to indoor body perception ( http://arxiv.org/abs/2405.02131v2 )

ライセンス: Link先を確認
Federica Fieramosca, Vittorio Rampa, Michele D'Amico, Stefano Savazzi, (参考訳) 電磁気(EM)ボディーモデルは、人体局所化やセンシングなどの厳密なリアルタイム計算画像問題への採用を防止するために、高周波伝搬を予測するために設計された時間を要する手法である。 物理インフォームド生成ニューラルネットワーク(GNN)モデルは、最近EM効果を再現するために提案されている。 本稿では,EMフィールドにおける人間の動作の影響を再現し,EMボディ回折原理を取り入れた変分オートエンコーダ(VAE)モデルについて論じる。 提案する物理インフォームド生成ニューラルネットワークモデルは、古典的回折に基づくEMツールとフルウェーブEMボディシミュレーションの両方に対して検証される。

Electromagnetic (EM) body models designed to predict Radio-Frequency (RF) propagation are time-consuming methods which prevent their adoption in strict real-time computational imaging problems, such as human body localization and sensing. Physics-informed Generative Neural Network (GNN) models have been recently proposed to reproduce EM effects, namely to simulate or reconstruct missing data or samples by incorporating relevant EM principles and constraints. The paper discusses a Variational Auto-Encoder (VAE) model which is trained to reproduce the effects of human motions on the EM field and incorporate EM body diffraction principles. Proposed physics-informed generative neural network models are verified against both classical diffraction-based EM tools and full-wave EM body simulations.
翻訳日:2024-05-16 15:34:50 公開日:2024-05-15
# Hoaxpedia:ウィキペディアのHoax記事データセットを統一

Hoaxpedia: A Unified Wikipedia Hoax Articles Dataset ( http://arxiv.org/abs/2405.02175v2 )

ライセンス: Link先を確認
Hsuvas Borkakoty, Luis Espinosa-Anke, (参考訳) Hoaxesは意図的に作成された偽情報の一種であり、ウィキペディアのような参照知識資源の信頼性に深刻な影響を及ぼす可能性がある。 ウィキペディアの検出が難しいのは、公式のスタイルガイドラインに従ってしばしば書かれることです。 本稿ではまず,正当性と偽のウィキペディア記事の類似点と相違点を体系的に分析し,意味的に類似した実際の記事とともに311のホアックス記事(既存文献および公式ウィキペディアリストから)のコレクションであるHoaxpediaを紹介した。 ウィキペディアの記事が本物か偽かを予測するタスクにおいてバイナリ分類実験の結果を報告し、いくつかの設定や言語モデルについて分析する。 以上の結果から,過去はあまり調査されていないが,ウィキペディアのコンテンツのみに基づく偽コンテンツの検出は有望な方向であることが示唆された。

Hoaxes are a recognised form of disinformation created deliberately, with potential serious implications in the credibility of reference knowledge resources such as Wikipedia. What makes detecting Wikipedia hoaxes hard is that they often are written according to the official style guidelines. In this work, we first provide a systematic analysis of the similarities and discrepancies between legitimate and hoax Wikipedia articles, and introduce Hoaxpedia, a collection of 311 Hoax articles (from existing literature as well as official Wikipedia lists) alongside semantically similar real articles. We report results of binary classification experiments in the task of predicting whether a Wikipedia article is real or hoax, and analyze several settings as well as a range of language models. Our results suggest that detecting deceitful content in Wikipedia based on content alone, despite not having been explored much in the past, is a promising direction.
翻訳日:2024-05-16 15:34:50 公開日:2024-05-15
# 自動プログラミング: 大規模言語モデルとそれ以上

Automatic Programming: Large Language Models and Beyond ( http://arxiv.org/abs/2405.02213v2 )

ライセンス: Link先を確認
Michael R. Lyu, Baishakhi Ray, Abhik Roychoudhury, Shin Hwei Tan, Patanamon Thongtanunam, (参考訳) 大規模言語モデル(LLM)に依存するGitHub Copilotのようなツールが出現したことで、自動プログラミングの人気が高まっている。 同時に、自動生成されたコードは、品質と信頼に関する懸念から、デプロイメント中に課題に直面します。 本稿では,プログラマの責任に関するコード品質やセキュリティ,関連する問題について,一般的な意味での自動化コーディングについて検討する。 これらは、自動生成されたコードの使用を判断しながら、組織にとって重要な問題である。 本稿では,プログラムの修復や解析といったソフトウェア工学の進歩が,自動プログラミングを実現する方法について論じる。 プログラマは、自動プログラミングのパワーを完全に活用するために、さまざまな役割に切り替える必要があるかもしれない。 LLMから自動生成されたプログラムの自動修復は、LLMから高い保証コードを生成するのに役立ち、保証の証拠となる。

Automatic programming has seen increasing popularity due to the emergence of tools like GitHub Copilot which rely on Large Language Models (LLMs). At the same time, automatically generated code faces challenges during deployment due to concerns around quality and trust. In this article, we study automated coding in a general sense and study the concerns around code quality, security and related issues of programmer responsibility. These are key issues for organizations while deciding on the usage of automatically generated code. We discuss how advances in software engineering such as program repair and analysis can enable automatic programming. We conclude with a forward looking view, focusing on the programming environment of the near future, where programmers may need to switch to different roles to fully utilize the power of automatic programming. Automated repair of automatically generated programs from LLMs, can help produce higher assurance code from LLMs, along with evidence of assurance
翻訳日:2024-05-16 15:34:50 公開日:2024-05-15
# MAmmoTH2: Webからのインストラクションのスケーリング

MAmmoTH2: Scaling Instructions from the Web ( http://arxiv.org/abs/2405.03548v3 )

ライセンス: Link先を確認
Xiang Yue, Tuney Zheng, Ge Zhang, Wenhu Chen, (参考訳) インストラクションチューニングは、大規模言語モデル(LLM)の推論能力を改善し、データ品質とスケーラビリティが重要な要素である。 ほとんどのインストラクションチューニングデータは、人間のクラウドソーシングやGPT-4蒸留に由来する。 LLM推論を強化するために,学習前のWebコーパスから1000万の自然界に存在するインストラクションデータを効率的に抽出するパラダイムを提案する。 提案手法では,(1)関連文書のリコール,(2)命令応答対の抽出,(3)オープンソースのLCMを用いて抽出したペアの精製を行う。 このデータセットに基づいて微調整ベースLLMを構築し,MAmmoTH2モデルを構築し,推論ベンチマークの性能を著しく向上させる。 特に、MAmmoTH2-7Bのパフォーマンスは、MATHでは11%から34%、GSM8Kでは36%から67%に向上した。 さらに、パブリックインストラクションチューニングデータセットでMAmmoTH2をトレーニングすると、MAmmoTH2-Plusが得られ、いくつかの推論とチャットボットベンチマークで最先端のパフォーマンスを達成する。 本研究は,人為的アノテーションやGPT-4蒸留を使わずに大規模かつ高品質な指導データを収集する方法を実証し,より優れた指導調律データを構築するための新たなパラダイムを提供する。

Instruction tuning improves the reasoning abilities of large language models (LLMs), with data quality and scalability being the crucial factors. Most instruction tuning data come from human crowd-sourcing or GPT-4 distillation. We propose a paradigm to efficiently harvest 10 million naturally existing instruction data from the pre-training web corpus to enhance LLM reasoning. Our approach involves (1) recalling relevant documents, (2) extracting instruction-response pairs, and (3) refining the extracted pairs using open-source LLMs. Fine-tuning base LLMs on this dataset, we build MAmmoTH2 models, which significantly boost performance on reasoning benchmarks. Notably, MAmmoTH2-7B's (Mistral) performance increases from 11% to 34% on MATH and from 36% to 67% on GSM8K without training on any in-domain data. Further training MAmmoTH2 on public instruction tuning datasets yields MAmmoTH2-Plus, achieving state-of-the-art performance on several reasoning and chatbot benchmarks. Our work demonstrates how to harvest large-scale, high-quality instruction data without costly human annotation or GPT-4 distillation, providing a new paradigm for building better instruction tuning data.
翻訳日:2024-05-16 15:34:50 公開日:2024-05-15
# FlashBack:ロングコンテキスト推論のための効率的な検索言語モデリング

FlashBack:Efficient Retrieval-Augmented Language Modeling for Long Context Inference ( http://arxiv.org/abs/2405.04065v2 )

ライセンス: Link先を確認
Runheng Liu, Xingchen Xiao, Heyan Huang, Zewen Chi, Zhijing Wu, (参考訳) 大規模言語モデル(LLM)を外部コーパスから関連文書と統合することにより,LLMが事前学習コーパスの範囲を超えて情報を生成できることが証明された方法である。 検索したコンテンツを利用する以前の作業は、検索したコンテンツが入力に反映されるのを単純に予測するだけで、高い実行時問題が発生し、キーバリュー(KV)キャッシュを効率的に使用できないため、LLMの推論効率が低下する。 本稿では,LLMの知識の整合性を著しく損なうことなく,特定の微調整後の良好な性能を維持しつつ,付加コンテキストパターンによるALMの推論効率を向上させるために設計されたモジュールALMである。 \textsc{FlashBack} は、検索したドキュメントをコンテキストの最後に付加し、KVキャッシュをプリコンパイルする代わりに効率的に活用する。 実験の結果,7B LLM (Llama 2) の予測法よりも最大4\times$の高速な推論速度が得られた。 不要な再計算を回避し、推論速度を著しく速くすることで進歩を示し、この高効率化は推論コストを大幅に削減する。 私たちのコードは公開されます。

Retrieval-Augmented Language Modeling (RALM) by integrating large language models (LLM) with relevant documents from an external corpus is a proven method for enabling the LLM to generate information beyond the scope of its pre-training corpus. Previous work using utilizing retrieved content by simply prepending retrieved contents to the input poses a high runtime issue, which degrades the inference efficiency of the LLMs because they fail to use the Key-Value (KV) cache efficiently. In this paper, we propose \textsc{FlashBack}, a modular RALM designed to improve the inference efficiency of RALM with appending context pattern while maintaining decent performance after specific fine-tuning without heavily destruct the knowledge integrity of the LLM. \textsc{FlashBack} appends retrieved documents at the end of the context for efficiently utilizing the KV cache instead of prepending them. Our experiment shows that the inference speed of \textsc{FlashBack} is up to $4\times$ faster than the prepending method on a 7B LLM (Llama 2). Via bypassing unnecessary re-computation, it demonstrates an advancement by achieving significantly faster inference speed, and this heightened efficiency will substantially reduce inferential cost. Our code will be publicly available.
翻訳日:2024-05-16 15:24:45 公開日:2024-05-15
# ディープフェイク音声の普遍的検出のためのコーデックフェイクデータセットと対策

The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio ( http://arxiv.org/abs/2405.04880v2 )

ライセンス: Link先を確認
Yuankun Xie, Yi Lu, Ruibo Fu, Zhengqi Wen, Zhiyong Wang, Jianhua Tao, Xin Qi, Xiaopeng Wang, Yukun Liu, Haonan Cheng, Long Ye, Yi Sun, (参考訳) 音声言語モデル(ALM)に基づくディープフェイク音声の普及に伴い,一般化検出法が緊急に必要となる。 ALMベースのディープフェイクオーディオは、現在広く、高い騙し、タイプ多目的性を示しており、ヴォコードデータのみに基づいて訓練された現在のオーディオディープフェイク検出(ADD)モデルに重大な課題となっている。 ALMに基づくディープフェイク音声を効果的に検出するために、我々はALMに基づく音声生成手法のメカニズム、ニューラルコーデックから波形への変換に焦点を当てた。 2つの言語、100万以上のオーディオサンプル、および様々なテスト条件を含むオープンソースの大規模データセットであるCodecfakeデータセットを構築し、ALMに基づくオーディオ検出に焦点を当てた。 対策として,本研究では,ドメインバランスと一般化されたミニマを学習するためのCSAM戦略を提案する。 実験では、まず、Codecfakeデータセットを用いたADDモデルトレーニングが、ALMベースの音声を効果的に検出できることを実証した。 さらに, 提案手法は, ベースラインモデルと比較して, 試験条件全体において平均EER(Equal Error Rate)が0.616%と低い値を示した。 データセットと関連するコードはオンラインで公開されている。

With the proliferation of Audio Language Model (ALM) based deepfake audio, there is an urgent need for generalized detection methods. ALM-based deepfake audio currently exhibits widespread, high deception, and type versatility, posing a significant challenge to current audio deepfake detection (ADD) models trained solely on vocoded data. To effectively detect ALM-based deepfake audio, we focus on the mechanism of the ALM-based audio generation method, the conversion from neural codec to waveform. We initially construct the Codecfake dataset, an open-source large-scale dataset, including 2 languages, over 1M audio samples, and various test conditions, focus on ALM-based audio detection. As countermeasure, to achieve universal detection of deepfake audio and tackle domain ascent bias issue of original SAM, we propose the CSAM strategy to learn a domain balanced and generalized minima. In our experiments, we first demonstrate that ADD model training with the Codecfake dataset can effectively detects ALM-based audio. Furthermore, our proposed generalization countermeasure yields the lowest average Equal Error Rate (EER) of 0.616% across all test conditions compared to baseline models. The dataset and associated code are available online.
翻訳日:2024-05-16 15:24:45 公開日:2024-05-15
# Lumina-T2X:フローベース大規模拡散変換器によるテキストの任意のモダリティ、解像度、持続時間への変換

Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers ( http://arxiv.org/abs/2405.05945v2 )

ライセンス: Link先を確認
Peng Gao, Le Zhuo, Dongyang Liu, Ruoyi Du, Xu Luo, Longtian Qiu, Yuhang Zhang, Chen Lin, Rongjie Huang, Shijie Geng, Renrui Zhang, Junlin Xi, Wenqi Shao, Zhengkai Jiang, Tianshuo Yang, Weicai Ye, He Tong, Jingwen He, Yu Qiao, Hongsheng Li, (参考訳) Soraは、任意の解像度、アスペクト比、持続時間でフォトリアリスティックな画像やビデオを生成するためにDiffusion Transformerをスケールする可能性を公開しているが、実装の詳細は十分ではない。 本稿では,フローベースの大規模拡散変換器(Flag-DiT)のシリーズであるLumina-T2Xファミリについて,音声を画像,ビデオ,マルチビュー3Dオブジェクト,音声クリップに変換するための統合フレームワークとして紹介する。 遅延空間空間をトークン化し、[nextline]や[nextframe]トークンのような学習可能なプレースホルダーを組み込むことで、Lumina-T2Xは様々な空間時間分解の異なるモジュラリティの表現をシームレスに統一する。 この統一されたアプローチは、異なるモダリティのための単一のフレームワーク内でのトレーニングを可能にし、推論中に任意の解像度、アスペクト比、長さで柔軟なマルチモーダルデータの生成を可能にする。 RoPE、RMSNorm、フローマッチングといった高度な技術により、Frag-DiTの安定性、柔軟性、スケーラビリティが向上し、Lumina-T2Xのモデルは70億のパラメータをスケールし、コンテキストウィンドウを128Kトークンに拡張できる。 これは、われわれのLumina-T2IモデルとLumina-T2Vモデルによる長い720pビデオで超高精細画像を作成するのに特に有益である。 注目すべきは、Lumina-T2Iは5ビリオンパラメーターのFrag-DiTを搭載しており、600万パラメートルナイーブDiTのトレーニング計算コストの35%しか必要としていないことだ。 我々のより包括的な分析は、Lumina-T2Xの解像度外挿、高解像度の編集、一貫した3Dビューの生成、シームレスな遷移を伴うビデオの合成における予備的能力を示している。 Lumina-T2Xのオープンソース化によって、生成AIコミュニティの創造性、透明性、多様性がさらに向上することを期待しています。

Sora unveils the potential of scaling Diffusion Transformer for generating photorealistic images and videos at arbitrary resolutions, aspect ratios, and durations, yet it still lacks sufficient implementation details. In this technical report, we introduce the Lumina-T2X family - a series of Flow-based Large Diffusion Transformers (Flag-DiT) equipped with zero-initialized attention, as a unified framework designed to transform noise into images, videos, multi-view 3D objects, and audio clips conditioned on text instructions. By tokenizing the latent spatial-temporal space and incorporating learnable placeholders such as [nextline] and [nextframe] tokens, Lumina-T2X seamlessly unifies the representations of different modalities across various spatial-temporal resolutions. This unified approach enables training within a single framework for different modalities and allows for flexible generation of multimodal data at any resolution, aspect ratio, and length during inference. Advanced techniques like RoPE, RMSNorm, and flow matching enhance the stability, flexibility, and scalability of Flag-DiT, enabling models of Lumina-T2X to scale up to 7 billion parameters and extend the context window to 128K tokens. This is particularly beneficial for creating ultra-high-definition images with our Lumina-T2I model and long 720p videos with our Lumina-T2V model. Remarkably, Lumina-T2I, powered by a 5-billion-parameter Flag-DiT, requires only 35% of the training computational costs of a 600-million-parameter naive DiT. Our further comprehensive analysis underscores Lumina-T2X's preliminary capability in resolution extrapolation, high-resolution editing, generating consistent 3D views, and synthesizing videos with seamless transitions. We expect that the open-sourcing of Lumina-T2X will further foster creativity, transparency, and diversity in the generative AI community.
翻訳日:2024-05-16 15:24:45 公開日:2024-05-15
# XAI4LLM. 医療におけるインコンテキスト学習強化のための機械学習モデルとLLMの連携

XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare ( http://arxiv.org/abs/2405.06270v2 )

ライセンス: Link先を確認
Fatemeh Nazary, Yashar Deldjoo, Tommaso Di Noia, Eugenio di Sciascio, (参考訳) LLM(Large Language Models)の医療診断への統合は、臨床的な意思決定に有望な道筋を提供する。 本研究は,多層構造プロンプトを用いた医用ドメイン知識の統合による,ゼロショット/ファウショットインコンテキスト学習(ICL)の新しい手法の開発について概説する。 また,データ処理を段階的に行う数値会話型 (NC) スタイルと,長いナラティブプロンプトを用いる自然言語単文型 (NL-ST) スタイルの2つの通信方式の有効性についても検討する。 本研究は, 性別バイアス, 偽陰性率などの診断精度とリスク要因を, 様々な場面で920人の患者記録のデータセットを用いて体系的に評価した。 その結果、従来の臨床機械学習(ML)モデルは、ゼロショットと少数ショットの設定でLLMよりも優れていたことが示唆された。 しかし、ドメイン知識の源泉として効果的な説明可能なAI(XAI)メソッドとともに、少数ショットの例を用いる場合、パフォーマンスギャップは大幅に狭まる。 さらに、十分な時間とサンプル数の増加により、会話スタイル(NC)はMLモデルの性能とほぼ一致している。 LLMはMLモデルと比較して、同等または優れたコスト感受性の精度を示す。 本研究は、適切なドメイン知識と適切な通信戦略により、LLMは診断プロセスを大幅に向上させることができることを確認した。 本研究は,LLMアプリケーションの精度向上とバイアス低減のために,トレーニング例数とコミュニケーションスタイルの最適化の重要性を強調した。

The integration of Large Language Models (LLMs) into healthcare diagnostics offers a promising avenue for clinical decision-making. This study outlines the development of a novel method for zero-shot/few-shot in-context learning (ICL) by integrating medical domain knowledge using a multi-layered structured prompt. We also explore the efficacy of two communication styles between the user and LLMs: the Numerical Conversational (NC) style, which processes data incrementally, and the Natural Language Single-Turn (NL-ST) style, which employs long narrative prompts. Our study systematically evaluates the diagnostic accuracy and risk factors, including gender bias and false negative rates, using a dataset of 920 patient records in various few-shot scenarios. Results indicate that traditional clinical machine learning (ML) models generally outperform LLMs in zero-shot and few-shot settings. However, the performance gap narrows significantly when employing few-shot examples alongside effective explainable AI (XAI) methods as sources of domain knowledge. Moreover, with sufficient time and an increased number of examples, the conversational style (NC) nearly matches the performance of ML models. Most notably, LLMs demonstrate comparable or superior cost-sensitive accuracy relative to ML models. This research confirms that, with appropriate domain knowledge and tailored communication strategies, LLMs can significantly enhance diagnostic processes. The findings highlight the importance of optimizing the number of training examples and communication styles to improve accuracy and reduce biases in LLM applications.
翻訳日:2024-05-16 15:24:45 公開日:2024-05-15
# 統計的多様体における自然言語の相関次元

Correlation Dimension of Natural Language in a Statistical Manifold ( http://arxiv.org/abs/2405.06321v2 )

ライセンス: Link先を確認
Xin Du, Kumiko Tanaka-Ishii, (参考訳) 自然言語の相関次元は、大規模言語モデルによって生成される高次元列にグラスベルガー・プロカシアアルゴリズムを適用することによって測定される。 この方法は、以前はユークリッド空間でのみ研究されていたが、フィッシャー・ラオ距離を通じて統計多様体で再構成される。 言語は多フラクタルで、大域的な自己相似性と6.5の普遍次元を持ち、これは単純な離散乱数列よりも小さく、バラブ・アシ=アルベルト過程よりも大きい。 長期記憶は自己相似性を生み出す鍵である。 本手法は実世界の離散列の確率モデルに適用可能であり,音楽データに適用できることを示す。

The correlation dimension of natural language is measured by applying the Grassberger-Procaccia algorithm to high-dimensional sequences produced by a large-scale language model. This method, previously studied only in a Euclidean space, is reformulated in a statistical manifold via the Fisher-Rao distance. Language exhibits a multifractal, with global self-similarity and a universal dimension around 6.5, which is smaller than those of simple discrete random sequences and larger than that of a Barab\'asi-Albert process. Long memory is the key to producing self-similarity. Our method is applicable to any probabilistic model of real-world discrete sequences, and we show an application to music data.
翻訳日:2024-05-16 15:24:45 公開日:2024-05-15
# 大規模言語モデル(LLM)における脳スコアの形状について

On the Shape of Brainscores for Large Language Models (LLMs) ( http://arxiv.org/abs/2405.06725v3 )

ライセンス: Link先を確認
Jingkai Li, (参考訳) LLM(Large Language Models)の台頭とともに、LLMと人間の脳/神経系の機能的類似性を評価する手段として、新しいメトリクスであるBrainscoreが登場した。 本研究は,190名の被験者と39名のLLMと訓練を受けていない被験者を対象とするヒトfMRIデータから得られたトポロジカルな特徴を抽出することにより,新規スコアの意味を抽出することを目的とした。 その後,36種類の線形回帰モデルを訓練し,信頼性と有効性を明らかにするため,詳細な統計的解析を行った。 本研究は, 興味領域 (ROIs) と半球領域 (hemispheres) にまたがる既存の脳スコアの解釈に特徴的な特徴の組み合わせを明らかにし, 機械学習(iML) 研究の進展に大きく寄与した。 この研究は、既存の脳スコアに関するさらなる議論と分析によって豊かになっている。 我々の知る限り、この研究は、この学際領域における新しいメートル法脳スコアを理解するための最初の試みである。

With the rise of Large Language Models (LLMs), the novel metric "Brainscore" emerged as a means to evaluate the functional similarity between LLMs and human brain/neural systems. Our efforts were dedicated to mining the meaning of the novel score by constructing topological features derived from both human fMRI data involving 190 subjects, and 39 LLMs plus their untrained counterparts. Subsequently, we trained 36 Linear Regression Models and conducted thorough statistical analyses to discern reliable and valid features from our constructed ones. Our findings reveal distinctive feature combinations conducive to interpreting existing brainscores across various brain regions of interest (ROIs) and hemispheres, thereby significantly contributing to advancing interpretable machine learning (iML) studies. The study is enriched by our further discussions and analyses concerning existing brainscores. To our knowledge, this study represents the first attempt to comprehend the novel metric brainscore within this interdisciplinary domain.
翻訳日:2024-05-16 15:24:45 公開日:2024-05-15
# 最適粒度原理に基づくクラスタリング用グラニュラーボールの生成

Generation of Granular-Balls for Clustering Based on the Principle of Justifiable Granularity ( http://arxiv.org/abs/2405.06904v2 )

ライセンス: Link先を確認
Zihang Jia, Zhen Zhang, Witold Pedrycz, (参考訳) 効率的で堅牢なデータクラスタリングは、データ分析の分野で依然として難しい課題である。 最近の取り組みでは、この課題に対処するために、グラニュラーボール(GB)コンピューティングとクラスタリングアルゴリズムの統合を検討し、有望な結果を得た。 しかし、GBを生成する既存の方法は、GBの品質を測定し、しきい値に基づく、あるいは欲張りの戦略を採用するために単一の指標に依存することが多いため、基礎となるデータ分布を正確に捉えないGBに繋がる可能性がある。 これらの制約に対処するため,本論文では新しいGB生成手法を提案する。 この手法の独創性は、クラスタリングタスクにおけるGBの品質を測定するために、正当化可能な粒度の原理を活用することである。 正確には、GBのカバレッジと特異性を定義し、GBの品質を評価するための総合的な尺度を導入する。 本手法は,2分木伐採戦略と異常検出手法を併用し,各GBのサブGBの最適な組み合わせと異常GBの識別を行う。 従来のGB生成手法と比較して,データ分布の整合性を確保しつつ,生成したGBの全体的な品質を最大化し,生成したGBの合理性を高める。 合成および公開データセットから得られた実験結果は,提案したGB生成手法の有効性を裏付けるものであり,クラスタリング精度の向上と正規化された相互情報を示している。

Efficient and robust data clustering remains a challenging task in the field of data analysis. Recent efforts have explored the integration of granular-ball (GB) computing with clustering algorithms to address this challenge, yielding promising results. However, existing methods for generating GBs often rely on single indicators to measure GB quality and employ threshold-based or greedy strategies, potentially leading to GBs that do not accurately capture the underlying data distribution. To address these limitations, this article introduces a novel GB generation method. The originality of this method lies in leveraging the principle of justifiable granularity to measure the quality of a GB for clustering tasks. To be precise, we define the coverage and specificity of a GB and introduce a comprehensive measure for assessing GB quality. Utilizing this quality measure, the method incorporates a binary tree pruning-based strategy and an anomaly detection method to determine the best combination of sub-GBs for each GB and identify abnormal GBs, respectively. Compared to previous GB generation methods, the new method maximizes the overall quality of generated GBs while ensuring alignment with the data distribution, thereby enhancing the rationality of the generated GBs. Experimental results obtained from both synthetic and publicly available datasets underscore the effectiveness of the proposed GB generation method, showcasing improvements in clustering accuracy and normalized mutual information.
翻訳日:2024-05-16 15:24:45 公開日:2024-05-15
# トルコ語教育用クロスワードパズルジェネレータ

A Turkish Educational Crossword Puzzle Generator ( http://arxiv.org/abs/2405.07035v2 )

ライセンス: Link先を確認
Kamyar Zeinalipour, Yusuf Gökberk Keptiğ, Marco Maggini, Leonardo Rigutini, Marco Gori, (参考訳) 本稿では,大規模言語モデル(LLM)の能力を活用したトルコ語クロスワードパズル生成器について紹介する。 本研究では,与えられた回答から関連した手がかりを生成するために,180,000以上のユニークな回答キューペアを持つデータセットと,特定のカテゴリ内で特定のテキストやキーワードの手がかりを生成することを目的とした,テキスト,回答,カテゴリ,ヒントデータを含む35,000以上のサンプルを導入したデータセットを紹介した。 エンターテイメント以外にも、このジェネレータは、記憶、語彙、問題解決能力を高めるインタラクティブな教育ツールとして登場した。 これは、AIを活用した教育における注目すべきステップであり、トルコの学習とゲームライクなエンゲージメントを融合させ、トルコにおけるインタラクティブでインテリジェントな学習ツールの新しい標準を設定している。

This paper introduces the first Turkish crossword puzzle generator designed to leverage the capabilities of large language models (LLMs) for educational purposes. In this work, we introduced two specially created datasets: one with over 180,000 unique answer-clue pairs for generating relevant clues from the given answer, and another with over 35,000 samples containing text, answer, category, and clue data, aimed at producing clues for specific texts and keywords within certain categories. Beyond entertainment, this generator emerges as an interactive educational tool that enhances memory, vocabulary, and problem-solving skills. It's a notable step in AI-enhanced education, merging game-like engagement with learning for Turkish and setting new standards for interactive, intelligent learning tools in Turkish.
翻訳日:2024-05-16 15:24:45 公開日:2024-05-15
# 自己アライメントによる大規模言語モデルを用いたロボットスキルの学習

Learning Reward for Robot Skills Using Large Language Models via Self-Alignment ( http://arxiv.org/abs/2405.07162v2 )

ライセンス: Link先を確認
Yuwei Zeng, Yao Mu, Lin Shao, (参考訳) 報酬関数の学習は、幅広いスキルのレパートリーを持つロボットを装備する上で、依然としてボトルネックとなっている。 大規模言語モデル(LLM)には、報酬関数の学習を支援する可能性のある、貴重なタスク関連の知識が含まれている。 しかし,提案した報酬関数は不正確であり,環境情報にさらに根ざす必要がある。 ヒトがいない場合に報酬をより効率的に学習する方法を提案した。 まず、LLMを用いて報酬の特徴とパラメータ化を提案し、次に反復的な自己調整プロセスを通じてパラメータを更新する。 特に、このプロセスは、実行フィードバックに基づいてLLMと学習報酬関数とのランキングの不整合を最小化する。 この手法は2つのシミュレーション環境で9つのタスクで検証された。 トレーニングの有効性と効率性に対して一貫した改善が示される一方で、代替の突然変異ベースの方法と比較して、GPTトークンをはるかに少なく消費する。

Learning reward functions remains the bottleneck to equip a robot with a broad repertoire of skills. Large Language Models (LLM) contain valuable task-related knowledge that can potentially aid in the learning of reward functions. However, the proposed reward function can be imprecise, thus ineffective which requires to be further grounded with environment information. We proposed a method to learn rewards more efficiently in the absence of humans. Our approach consists of two components: We first use the LLM to propose features and parameterization of the reward, then update the parameters through an iterative self-alignment process. In particular, the process minimizes the ranking inconsistency between the LLM and the learnt reward functions based on the execution feedback. The method was validated on 9 tasks across 2 simulation environments. It demonstrates a consistent improvement over training efficacy and efficiency, meanwhile consuming significantly fewer GPT tokens compared to the alternative mutation-based method.
翻訳日:2024-05-16 15:24:45 公開日:2024-05-15
# 量子連続可変状態における絡み合いダイナミクス

Entanglement Dynamics in Quantum Continuous-Variable States ( http://arxiv.org/abs/2405.07362v2 )

ライセンス: Link先を確認
Ankit Kumar, (参考訳) 重力結合の弱さのため、重力が地球の磁場を利用する全ての量子実験が現在まで行われている。 この場は量子粒子から事実上検出不可能なバックアクションを行うため、固定背景ニュートン場あるいは時空として古典的な記述を効果的に認めている。 この議論は、重力の量子的特徴を観測できる最も単純なシナリオの1つであるため、2つの量子質量間の重力の実証に向けた理論的および実験的研究を強く動機付けている。 いくつかの提案は、2つの巨大な物体間の絡み合いを発生させる可能性について研究した。 同じ線に沿って、特に重力に焦点を当て、この論文は相互作用を媒介する絡み合いに対処するための一般的なツールを導入し、連続可変状態の2つの粒子に適用する。

Due to the weakness of gravitational coupling, all quantum experiments up to date in which gravity plays a role utilized the field of the Earth. Since this field undergoes practically undetectable back-action from quantum particles, it effectively admits a classical description as a fixed background Newtonian field or spacetime. This argument strongly motivates theoretical and experimental research towards a demonstration of gravitation between two quantum masses, as this is one of the most straightforward scenarios where quantum features of gravity could be observed. Several proposals studied the possibility of generating entanglement between two massive objects. Along the same lines, with a particular focus on gravity, this thesis introduces general tools to tackle interaction-mediated entanglement and applies them to two particles prepared in continuous-variable states.
翻訳日:2024-05-16 15:24:45 公開日:2024-05-15
# 音声ユーザインタフェースのためのパートナーモデルのクロスカルチャー検証

Cross-Cultural Validation of Partner Models for Voice User Interfaces ( http://arxiv.org/abs/2405.09002v1 )

ライセンス: Link先を確認
Katie Seaborn, Iona Gessinger, Suzuka Yoshida, Benjamin R. Cowan, Philip R. Doyle, (参考訳) 近年、音声ユーザインタフェース(VUI)に対する人々の認識を、パートナーモデルと呼ばれる対話パートナーとして評価し始めている。 現在の自己申告手段は英語のみであり、英語話者に限られている。 VUIが普及している非英語の西欧語(ドイツ語: n=185)と東アジア語(日本語: n=198)コホート(日本語: n=198)を対象に、パートナーモデリング研究に影響を及ぼすユーザサンプルやコンテキストの多様性を改善するため、パートナーモデリングアンケート(PMQ)を翻訳、ローカライズ、評価した。 確認因子分析 (CFA) により, この尺度はドイツ語と日本語の翻訳に同等の精度で適合し, 異文化間の妥当性を確認した。 それでも、コミュニケーティブ・フレキシビリティ・ファクターの構造は、西アジアと東アジアのコホートを直接複製することはなかった。 我々は、我々の翻訳が、文化的な類似点とパートナーモデルの使用と設計の違いに関する重要な研究をいかに開放するかを議論し、文化的な文脈における正確な翻訳を保証する上での課題を強調した。

Recent research has begun to assess people's perceptions of voice user interfaces (VUIs) as dialogue partners, termed partner models. Current self-report measures are only available in English, limiting research to English-speaking users. To improve the diversity of user samples and contexts that inform partner modelling research, we translated, localized, and evaluated the Partner Modelling Questionnaire (PMQ) for non-English speaking Western (German, n=185) and East Asian (Japanese, n=198) cohorts where VUI use is popular. Through confirmatory factor analysis (CFA), we find that the scale produces equivalent levels of goodness-to-fit for both our German and Japanese translations, confirming its cross-cultural validity. Still, the structure of the communicative flexibility factor did not replicate directly across Western and East Asian cohorts. We discuss how our translations can open up critical research on cultural similarities and differences in partner model use and design, whilst highlighting the challenges for ensuring accurate translation across cultural contexts.
翻訳日:2024-05-16 14:45:30 公開日:2024-05-15
# 価値指向再生可能エネルギー予測による逐次市場クリアリングの改善

Improving Sequential Market Clearing via Value-oriented Renewable Energy Forecasting ( http://arxiv.org/abs/2405.09004v1 )

ライセンス: Link先を確認
Yufan Zhang, Honglin Wen, Yuexin Bian, Yuanyuan Shi, (参考訳) 再生可能エネルギー源(RES)の大規模な浸透は、電力市場に大きな不確実性をもたらす。 既存の決定論的市場クリアリングは不確実性に対応できないが、最近提案された確率的市場クリアリングは、望ましい市場特性を達成するために苦労している。 本研究では,日頭市場に参入するRESの生成を戦術的に決定する価値指向予測手法を提案する。 このような予測により、既存の決定論的市場浄化フレームワークを維持でき、日頭およびリアルタイム全体の運用コストを削減できる。 トレーニングフェーズでは,予測モデルパラメータを推定し,予測誤差を統計的に最小化するのではなく,日頭および実時間全体の運用コストを最小化する。 理論的には、そのような目標に沿った予測モデルをトレーニングするための損失関数の正確な形を導出する。 線形プログラムでモデル化された市場クリアリングでは、この損失関数は断片的に線形関数である。 さらに,予測に対する損失関数の解析勾配を導出し,効率的なトレーニング戦略を導出する。 数値的な研究により、我々の予測は、品質指向の予測手法と比較して、決定論的市場クリア化に全体的なコスト削減の大きなメリットをもたらすことが示されている。

Large penetration of renewable energy sources (RESs) brings huge uncertainty into the electricity markets. While existing deterministic market clearing fails to accommodate the uncertainty, the recently proposed stochastic market clearing struggles to achieve desirable market properties. In this work, we propose a value-oriented forecasting approach, which tactically determines the RESs generation that enters the day-ahead market. With such a forecast, the existing deterministic market clearing framework can be maintained, and the day-ahead and real-time overall operation cost is reduced. At the training phase, the forecast model parameters are estimated to minimize expected day-ahead and real-time overall operation costs, instead of minimizing forecast errors in a statistical sense. Theoretically, we derive the exact form of the loss function for training the forecast model that aligns with such a goal. For market clearing modeled by linear programs, this loss function is a piecewise linear function. Additionally, we derive the analytical gradient of the loss function with respect to the forecast, which inspires an efficient training strategy. A numerical study shows our forecasts can bring significant benefits of the overall cost reduction to deterministic market clearing, compared to quality-oriented forecasting approach.
翻訳日:2024-05-16 14:45:30 公開日:2024-05-15
# Cons-training Tenor Network

Cons-training tensor networks ( http://arxiv.org/abs/2405.09005v1 )

ライセンス: Link先を確認
Javier Lopez-Piqueres, Jing Chen, (参考訳) 本研究では、厳密な線形制約をスパースブロック構造に組み込むように設計されたテンソルネットワーク(MPS)を新たに導入する。 これらのテンソルネットワークは、U(1)対称MPSと従来の非制約MPSとのギャップを効果的に埋める。 我々のアプローチの中心は量子領域の概念であり、伝統的に対称テンソルネットワークで使用される量子数の拡張であり、制約のないシナリオを含む線形制約を捕捉するために適応されている。 我々は、これらの新しいMPSの標準形式をさらに発展させ、量子領域の融合規則に従ってテンソルブロックの融合と分解を可能にする。 この標準形式を利用して、線形制約を受ける任意のコスト関数を最適化するために教師なしのトレーニング戦略を適用する。 これを2次クナップサック問題の解法として用いて、先行する非線形整数計画解法に対して優れた性能を示し、複雑な制約付き組合せ最適化問題の解法の可能性を強調した。

In this study, we introduce a novel family of tensor networks, termed constrained matrix product states (MPS), designed to incorporate exactly arbitrary linear constraints into sparse block structures. These tensor networks effectively bridge the gap between U(1) symmetric MPS and traditional, unconstrained MPS. Central to our approach is the concept of a quantum region, an extension of quantum numbers traditionally used in symmetric tensor networks, adapted to capture any linear constraint, including the unconstrained scenario. We further develop canonical forms for these new MPS, which allow for the merging and factorization of tensor blocks according to quantum region fusion rules. Utilizing this canonical form, we apply an unsupervised training strategy to optimize arbitrary cost functions subject to linear constraints. We use this to solve the quadratic knapsack problem and show a superior performance against a leading nonlinear integer programming solver, highlighting the potential of our method in tackling complex constrained combinatorial optimization problems
翻訳日:2024-05-16 14:45:30 公開日:2024-05-15
# 画像セグメント参照のための空間的セマンティックリカレントマイニング

Spatial Semantic Recurrent Mining for Referring Image Segmentation ( http://arxiv.org/abs/2405.09006v1 )

ライセンス: Link先を確認
Jiaxing Yang, Lihe Zhang, Jiayu Sun, Huchuan Lu, (参考訳) イメージセグメンテーション(RIS)の参照には、お互いをより理解するために、言語と外見の意味論が一貫して必要である。 特に厳しい状況下では、需要は急激になる。 既存の研究は、様々なトランス表現機構を利用して、メインRGBブランチに沿って前方言語セマンティクスを直接供給する傾向にあり、しかしながら、空間において弱い参照分布とチャネルに沿って汚染された非参照セマンティクスが生じる。 本稿では,高品質なクロスモーダリティ融合を実現するために,空間セマンティックリカレントマイニング(S\textsuperscript{2}RM)を提案する。 これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。 融合の間、S\textsuperscript{2}RMはまず制約弱で分散対応の言語機能を生成し、その後、あるモダリティコンテキストの回転する特徴から各行と列の特徴をバンドルし、他のモダリティコンテキストから特徴に含まれる関連する意味を関連付ける。 ペアリングによって、S\textsuperscript{2}RMは、ジェネレータの近層と遠層のスライス層からパースされたコンテキストの現在のスライス層に情報を転送し、グローバルな関係を双方向にモデル化し、構造化する。 また,参照者の前景を強調するために,CASG(Cross-scale Abstract Semantic Guided Decoder)を提案する。 現在の4つの挑戦的データセットに対する大規模な実験結果から,提案手法が他の最先端アルゴリズムに対して好適に動作することを示す。

Referring Image Segmentation (RIS) consistently requires language and appearance semantics to more understand each other. The need becomes acute especially under hard situations. To achieve, existing works tend to resort to various trans-representing mechanisms to directly feed forward language semantic along main RGB branch, which however will result in referent distribution weakly-mined in space and non-referent semantic contaminated along channel. In this paper, we propose Spatial Semantic Recurrent Mining (S\textsuperscript{2}RM) to achieve high-quality cross-modality fusion. It follows a working strategy of trilogy: distributing language feature, spatial semantic recurrent coparsing, and parsed-semantic balancing. During fusion, S\textsuperscript{2}RM will first generate a constraint-weak yet distribution-aware language feature, then bundle features of each row and column from rotated features of one modality context to recurrently correlate relevant semantic contained in feature from other modality context, and finally resort to self-distilled weights to weigh on the contributions of different parsed semantics. Via coparsing, S\textsuperscript{2}RM transports information from the near and remote slice layers of generator context to the current slice layer of parsed context, capable of better modeling global relationship bidirectional and structured. Besides, we also propose a Cross-scale Abstract Semantic Guided Decoder (CASG) to emphasize the foreground of the referent, finally integrating different grained features at a comparatively low cost. Extensive experimental results on four current challenging datasets show that our proposed method performs favorably against other state-of-the-art algorithms.
翻訳日:2024-05-16 14:45:30 公開日:2024-05-15
# Ahead of the Count: An Probabilistic Prediction for Probabilistic Prediction of Instant Runoff (IRV) elections

Ahead of the Count: An Algorithm for Probabilistic Prediction of Instant Runoff (IRV) Elections ( http://arxiv.org/abs/2405.09009v1 )

ライセンス: Link先を確認
Nicholas Kapoor, P. Christopher Staecker, (参考訳) すべての投票が数えられることなく、ランク付けされた選挙の勝者を確率的に予測するにはどうすればいいのか? 本研究では,Instant Runoff Voting (IRV) 選挙の結果を予測する新しいアルゴリズムを提案する。 アルゴリズムは、各候補者ランキングの投票総数を表す離散確率分布の集合を入力として、各候補者が選挙に勝つ確率を算出する。 実際、IRVラウンドで発生する可能性のあるすべての除去シーケンスを計算し、それぞれに確率を割り当てる。 離散確率分布は任意であり、応用においては、予備選挙の投票データから経験的に測定することができる。 このアルゴリズムは、少数の候補者(5人かそれ以下)による選挙に有効であり、一般消費者コンピュータ上で高速に実行される。 リアルタイムの選挙夜モデリングでは,より多くの投票情報が利用可能になるにつれて,新たな予測が継続的に作成されるので,実行時間は十分短い。 我々は,このアルゴリズムを抽象的な例で示すとともに,2022年のアラスカ州選挙の実データを用いて,選挙夜の予測と選挙記録の予測を行う。

How can we probabilistically predict the winner in a ranked-choice election without all ballots being counted? In this study, we introduce a novel algorithm designed to predict outcomes in Instant Runoff Voting (IRV) elections. The algorithm takes as input a set of discrete probability distributions describing vote totals for each candidate ranking and calculates the probability that each candidate will win the election. In fact, we calculate all possible sequences of eliminations that might occur in the IRV rounds and assign a probability to each. The discrete probability distributions can be arbitrary and, in applications, could be measured empirically from pre-election polling data or from partial vote tallies of an in-progress election. The algorithm is effective for elections with a small number of candidates (five or fewer), with fast execution on typical consumer computers. The run-time is short enough for our method to be used for real-time election night modeling where new predictions are made continuously as more and more vote information becomes available. We demonstrate the algorithm in abstract examples, and also using real data from the 2022 Alaska state elections to simulate election-night predictions and also predictions of election recounts.
翻訳日:2024-05-16 14:45:30 公開日:2024-05-15
# 特徴に基づくフェデレーション・トランスファー学習:コミュニケーション効率、ロバスト性、プライバシ

Feature-based Federated Transfer Learning: Communication Efficiency, Robustness and Privacy ( http://arxiv.org/abs/2405.09014v1 )

ライセンス: Link先を確認
Feng Wang, M. Cenk Gursoy, Senem Velipasalar, (参考訳) 本稿では,フェデレーション学習とフェデレーション伝達学習の既存手法と比較して,アップリンクペイロードを桁違いに削減し,コミュニケーション効率を向上させる新しい手法として機能ベースのフェデレーション伝達学習を提案する。 具体的には,提案した特徴に基づくフェデレーション学習において,パラメータ更新ではなく,抽出した特徴と出力をアップロードするように設計する。 この分散学習モデルでは、必要なペイロードを決定し、既存のスキームと比較する。 その後、パケット損失、データ不足、量子化に対する特徴に基づくフェデレーション・トランスファー学習の堅牢性を分析する。 最後に,ラベルのプライバシリークと機能プライバシリークを定義し解析し,緩和アプローチを検討することで,プライバシの問題に対処する。 上記のすべての分析について、画像分類タスクと自然言語処理タスクの実験を通して、提案手法の性能を評価し、その効果を実証する。

In this paper, we propose feature-based federated transfer learning as a novel approach to improve communication efficiency by reducing the uplink payload by multiple orders of magnitude compared to that of existing approaches in federated learning and federated transfer learning. Specifically, in the proposed feature-based federated learning, we design the extracted features and outputs to be uploaded instead of parameter updates. For this distributed learning model, we determine the required payload and provide comparisons with the existing schemes. Subsequently, we analyze the robustness of feature-based federated transfer learning against packet loss, data insufficiency, and quantization. Finally, we address privacy considerations by defining and analyzing label privacy leakage and feature privacy leakage, and investigating mitigating approaches. For all aforementioned analyses, we evaluate the performance of the proposed learning scheme via experiments on an image classification task and a natural language processing task to demonstrate its effectiveness.
翻訳日:2024-05-16 14:45:30 公開日:2024-05-15
# クラウドソーシングによる日中パラレルコーパスによるWebマイニング

A Japanese-Chinese Parallel Corpus Using Crowdsourcing for Web Mining ( http://arxiv.org/abs/2405.09017v1 )

ライセンス: Link先を確認
Masaaki Nagata, Makoto Morishita, Katsuki Chousa, Norihito Yasuda, (参考訳) クラウドソーシングを用いて、パラレルドキュメントを含むバイリンガルWebサイトの1万以上のURLペア(並列トップページペア)を収集し、これらのWebサイトから日本語と中国語のパラレルコーパスを作成した。 日本語と中国語のバイリンガル辞書である160K語対を文書と文のアライメントに用いた。 次に,日本語と中国語の文ペア1.2万を用いて,統計的言語モデルと単語翻訳確率に基づいて並列コーパスフィルタを訓練した。 我々は,これらの4.6M文対で訓練されたモデルの翻訳精度と,グローバルWebマイニングの並列コーパスであるCCMatrix (12.4M)の日本語と中国語の文対で訓練されたモデルの翻訳精度を比較した。 コーパスのサイズはCCMatrixの3分の1に過ぎなかったが、2つのモデルの精度は同等であり、並列データのWebマイニングにクラウドソーシングを使用することが可能であることを確認した。

Using crowdsourcing, we collected more than 10,000 URL pairs (parallel top page pairs) of bilingual websites that contain parallel documents and created a Japanese-Chinese parallel corpus of 4.6M sentence pairs from these websites. We used a Japanese-Chinese bilingual dictionary of 160K word pairs for document and sentence alignment. We then used high-quality 1.2M Japanese-Chinese sentence pairs to train a parallel corpus filter based on statistical language models and word translation probabilities. We compared the translation accuracy of the model trained on these 4.6M sentence pairs with that of the model trained on Japanese-Chinese sentence pairs from CCMatrix (12.4M), a parallel corpus from global web mining. Although our corpus is only one-third the size of CCMatrix, we found that the accuracy of the two models was comparable and confirmed that it is feasible to use crowdsourcing for web mining of parallel data.
翻訳日:2024-05-16 14:45:30 公開日:2024-05-15
# 地震工学における深層学習 : 総合的な展望

Deep Learning in Earthquake Engineering: A Comprehensive Review ( http://arxiv.org/abs/2405.09021v1 )

ライセンス: Link先を確認
Yazhou Xie, (参考訳) 本稿では, 地震工学における課題に対処するための強力なツールとして, 深層学習(DL)を活用することへの関心の高まりについて調査する。 ドメイン知識の数十年にわたる進歩にもかかわらず、地震の発生の不確実性、予測不可能な地震荷重、非線形構造応答、およびコミュニティエンゲージメントといった問題は、ドメイン固有の手法による対処が難しいままである。 DLは、非線形マッピング、シーケンシャルなデータモデリング、自動特徴抽出、次元削減、最適な意思決定などにデータ駆動能力を活用することで、有望なソリューションを提供します。 しかし、この文献は、DLと地震工学を横断する一貫した範囲を体系的に網羅する包括的なレビューを欠いている。 このギャップを埋めるために、この記事はまず、多層パーセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、ジェネレーティブ敵ネットワーク(GAN)、オートエンコーダ(AE)、トランスファーラーニング(TL)、強化学習(RL)、グラフニューラルネットワーク(GNN)など、様々なDL技術を解明するための方法論的な進歩について議論する。 次に、視覚に基づく地震被害評価と構造的特徴、地震需要と被害状態予測、地震応答履歴予測、地域地震リスク評価とコミュニティレジリエンス、工学的利用のための地動(GM)、地震応答制御、システム/被害識別の逆問題など、さまざまな研究分野にわたるDLの適用を探求することによって、詳細な研究状況が明らかにされる。 各研究トピックに適したDL技術が特定され、視覚ベースのタスクにおけるCNNの優位性、シーケンシャルデータにおけるRNN、コミュニティレジリエンスのためのRL、GM分析のための教師なし学習が強調される。 地震工学研究・実践におけるDL活用の機会と課題についても論じる。

This article surveys the growing interest in utilizing Deep Learning (DL) as a powerful tool to address challenging problems in earthquake engineering. Despite decades of advancement in domain knowledge, issues such as uncertainty in earthquake occurrence, unpredictable seismic loads, nonlinear structural responses, and community engagement remain difficult to tackle using domain-specific methods. DL offers promising solutions by leveraging its data-driven capacity for nonlinear mapping, sequential data modeling, automatic feature extraction, dimensionality reduction, optimal decision-making, etc. However, the literature lacks a comprehensive review that systematically covers a consistent scope intersecting DL and earthquake engineering. To bridge the gap, the article first discusses methodological advances to elucidate various applicable DL techniques, such as multi-layer perceptron (MLP), convolutional neural network (CNN), recurrent neural network (RNN), generative adversarial network (GAN), autoencoder (AE), transfer learning (TL), reinforcement learning (RL), and graph neural network (GNN). A thorough research landscape is then disclosed by exploring various DL applications across different research topics, including vision-based seismic damage assessment and structural characterization, seismic demand and damage state prediction, seismic response history prediction, regional seismic risk assessment and community resilience, ground motion (GM) for engineering use, seismic response control, and the inverse problem of system/damage identification. Suitable DL techniques for each research topic are identified, emphasizing the preeminence of CNN for vision-based tasks, RNN for sequential data, RL for community resilience, and unsupervised learning for GM analysis. The article also discusses opportunities and challenges for leveraging DL in earthquake engineering research and practice.
翻訳日:2024-05-16 14:45:30 公開日:2024-05-15
# 雑音ラベルを用いたリモートセンシング画像による動的損失減衰に基づくロバスト指向物体検出

Dynamic Loss Decay based Robust Oriented Object Detection on Remote Sensing Images with Noisy Labels ( http://arxiv.org/abs/2405.09024v1 )

ライセンス: Link先を確認
Guozhang Liu, Ting Liu, Mengke Yuan, Tao Pang, Guangxing Yang, Hao Fu, Tao Wang, Tongkui Liao, (参考訳) リモートセンシング画像における不明瞭な外観、小さなスケール、微粒なオブジェクトのクラスは、検出データセットのカテゴリラベルにおけるノイズの多いアノテーションを必然的に引き起こす。 しかし、現代の指向性リモートセンシングオブジェクト検出器では、ラベルノイズの効果と治療が過小評価されている。 この問題に対処するために、クリーンでノイズの多いサンプル上での深層ニューラルネットワークの学習力学にインスパイアされた動的損失減衰(DLD)機構による頑健な指向性リモートセンシング法を提案する。 具体的には、まずELと呼ばれる早期学習フェーズの終点を観察し、その後、モデルが検出精度を著しく低下させる偽ラベルを記憶し始めた。 第2に,トレーニング指標の指導の下で,各試料の損失を下位順にランク付けし,次の時代において上位K個(バッドサンプル)の損失を適応的に減少させる。 これらの大きな損失は、間違ったラベルで計算される信頼度が高いためである。 実験結果から,HRSC2016やDOTA-v1.0/v2.0などの複数の公開データセットにおいて,合成カテゴリーラベルノイズによる優れた耐雑音性能が得られた。 弊社のソリューションは、2023年のNational Big Data and Computing Intelligence Challengeのノイズの多いラベルで、“サブメーターのリモートセンシング画像に基づくきめ細かいオブジェクト検出”の2位を獲得した。

The ambiguous appearance, tiny scale, and fine-grained classes of objects in remote sensing imagery inevitably lead to the noisy annotations in category labels of detection dataset. However, the effects and treatments of the label noises are underexplored in modern oriented remote sensing object detectors. To address this issue, we propose a robust oriented remote sensing object detection method through dynamic loss decay (DLD) mechanism, inspired by the two phase ``early-learning'' and ``memorization'' learning dynamics of deep neural networks on clean and noisy samples. To be specific, we first observe the end point of early learning phase termed as EL, after which the models begin to memorize the false labels that significantly degrade the detection accuracy. Secondly, under the guidance of the training indicator, the losses of each sample are ranked in descending order, and we adaptively decay the losses of the top K largest ones (bad samples) in the following epochs. Because these large losses are of high confidence to be calculated with wrong labels. Experimental results show that the method achieves excellent noise resistance performance tested on multiple public datasets such as HRSC2016 and DOTA-v1.0/v2.0 with synthetic category label noise. Our solution also has won the 2st place in the "fine-grained object detection based on sub-meter remote sensing imagery" track with noisy labels of 2023 National Big Data and Computing Intelligence Challenge.
翻訳日:2024-05-16 14:45:30 公開日:2024-05-15
# IC:手書き数式認識の高度化のための暗黙的文字支援学習

ICAL: Implicit Character-Aided Learning for Enhanced Handwritten Mathematical Expression Recognition ( http://arxiv.org/abs/2405.09032v1 )

ライセンス: Link先を確認
Jianhua Zhu, Liangcai Gao, Wenqi Zhao, (参考訳) 従来のエンコーダ・デコーダ法では,大域的な情報をLaTeXでモデル化することは困難である。 そこで本研究では,グローバルな表現情報をマイニングし,手書きの数学的表現認識を強化するための新しい手法であるImplicit Character-Aided Learning(ICAL)を提案する。 具体的には,暗黙的な文字列の予測を行うImplicit Character Construction Module (ICCM)を提案し,ICCMとデコーダの出力を融合するためにFusion Moduleを用いて修正した予測を生成する。 暗黙的な文字情報のモデリングと利用により、icalは手書きの数学的表現をより正確かつ文脈に配慮した解釈を実現する。 実験結果から,CROHME 2014/2016/2019データセットの表現認識率(ExpRate)を2.21\%/1.75\%/1.28\%改善し,挑戦的なHME100kテストセットの69.25\%を顕著に上回る結果が得られた。 私たちはGitHubでコードを公開しています。

Significant progress has been made in the field of handwritten mathematical expression recognition, while existing encoder-decoder methods are usually difficult to model global information in \LaTeX. Therefore, this paper introduces a novel approach, Implicit Character-Aided Learning (ICAL), to mine the global expression information and enhance handwritten mathematical expression recognition. Specifically, we propose the Implicit Character Construction Module (ICCM) to predict implicit character sequences and use a Fusion Module to merge the outputs of the ICCM and the decoder, thereby producing corrected predictions. By modeling and utilizing implicit character information, ICAL achieves a more accurate and context-aware interpretation of handwritten mathematical expressions. Experimental results demonstrate that ICAL notably surpasses the state-of-the-art(SOTA) models, improving the expression recognition rate (ExpRate) by 2.21\%/1.75\%/1.28\% on the CROHME 2014/2016/2019 datasets respectively, and achieves a remarkable 69.25\% on the challenging HME100k test set. We make our code available on the GitHub: https://github.com/qingzhenduyu/ICAL
翻訳日:2024-05-16 14:35:46 公開日:2024-05-15
# リング通信とSWAP自動挿入による決定ダイアグラムに基づくマルチノード量子シミュレーション

Accelerating Decision Diagram-based Multi-node Quantum Simulation with Ring Communication and Automatic SWAP Insertion ( http://arxiv.org/abs/2405.09033v1 )

ライセンス: Link先を確認
Yusuke Kimura, Shaowen Li, Hiroyuki Sato, Masahiro Fujita, (参考訳) Nビット量子状態は長さ2^N$のベクトルを必要とするため、従来の状態ベクトルベースの量子シミュレータではNで必要なメモリが指数関数的に増加する。 この問題の解決策として、決定図に基づく量子シミュレータが提案され、必要なメモリを大幅に削減し、特定の量子回路に対してより高速に動作することが期待されている。 しかし、決定図に基づく量子シミュレータは、データが動的に操作される必要があり、ほとんどの実装は1スレッドで実行されるため、容易に並列化できない。 本稿では、リング通信に基づく最適並列化と、決定図に基づく量子シミュレータのマルチノード実装のための自動スワップ挿入手法を提案する。 リング通信方式は、各ノードが隣接するノードと通信するように設計されており、一つのノードがすべてのノードと同時に通信する必要があるブロードキャストよりも高速で並列な通信を容易にする。 ノード間通信を最小化する手法である自動スワップ挿入法は、既存のマルチノード状態ベクトルベースシミュレータに採用されているが、本研究では、決定図に基づく量子シミュレータに特化して設計された2つの方法を提案する。 これらの手法を最大256ノードを用いて最大38キュービットのShorアルゴリズムとランダム回路を用いて実装・評価した。 実験の結果,マルチノード実装により実行時間を最大26倍に削減できることがわかった。 例えば、38量子ビットを必要とするショア回路は147秒でシミュレーションを終了できる。 さらに,リング通信は放送通信よりも高速化効果が高く,適切な自動スワップ挿入法を選択することの重要性が示された。

An N-bit quantum state requires a vector of length $2^N$, leading to an exponential increase in the required memory with N in conventional statevector-based quantum simulators. A proposed solution to this issue is the decision diagram-based quantum simulator, which can significantly decrease the necessary memory and is expected to operate faster for specific quantum circuits. However, decision diagram-based quantum simulators are not easily parallelizable because data must be manipulated dynamically, and most implementations run on one thread. This paper introduces ring communication-based optimal parallelization and automatic swap insertion techniques for multi-node implementation of decision diagram-based quantum simulators. The ring communication approach is designed so that each node communicates with its neighboring nodes, which can facilitate faster and more parallel communication than broadcasting where one node needs to communicate with all nodes simultaneously. The automatic swap insertion method, an approach to minimize inter-node communication, has been employed in existing multi-node state vector-based simulators, but this paper proposes two methods specifically designed for decision diagram-based quantum simulators. These techniques were implemented and evaluated using the Shor algorithm and random circuits with up to 38 qubits using a maximum of 256 nodes. The experimental results have revealed that multi-node implementation can reduce run-time by up to 26 times. For example, Shor circuits that need 38 qubits can finish simulation in 147 seconds. Additionally, it was shown that ring communication has a higher speed-up effect than broadcast communication, and the importance of selecting the appropriate automatic swap insertion method was revealed.
翻訳日:2024-05-16 14:35:45 公開日:2024-05-15
# 蒸留を伴う量子ネットワークにおけるエンタングルメント分布遅延最適化

Entanglement Distribution Delay Optimization in Quantum Networks with Distillation ( http://arxiv.org/abs/2405.09034v1 )

ライセンス: Link先を確認
Mahdi Chehimi, Kenneth Goodenough, Walid Saad, Don Towsley, Tony X. Zhou, (参考訳) 量子ネットワーク(QN)は、分散量子コンピューティングとセンシングアプリケーションを実現するために絡み合った状態を分散する。 しかし、そのようなQNでは、量子スイッチ(QS)はノイズや損失に非常に敏感な限られたリソースを持ち、絡み合い分布の遅延を最小限に抑えるために慎重に割り当てなければならない。 本稿では, 平均エンタングルメント分布遅延とエンタングルメント蒸留操作を共同で最適化し, エンド・ツー・エンド(e2e)フィディリティを向上し, 最小レートとフィディリティ要件を満たすQS資源配分フレームワークを提案する。 提案フレームワークは,QN雑音を現実的に考慮し,平均量子メモリデコヒーレンス雑音パラメータの解析式と蒸留後のe2e忠実度を導出する。 最後に、QSが制御できる実践的なQNデプロイメントの側面について検討する。 1)窒素空孔(NV)中心SPSの同位体分解による分析と解析 2)NV中心の電子スピンとの距離と結合強度に基づく核スピン領域。 QS資源割り当て最適化問題を解くために, シミュレーションアニールメタヒューリスティックアルゴリズムを提案する。 シミュレーションの結果,提案フレームワークは, 従来の蒸留非依存(DA), 最小蒸留(MD), 物理非依存(PA)フレームワークと異なり, 蒸留を行わず, 最小蒸留を行い, 物理に基づくNV中心特性を制御していない。 さらに,提案フレームワークは,既存のPAおよびMDフレームワークと比較して平均e2eエンタングルメント分布遅延を約30%,50%削減する。 さらに,提案フレームワークは,既存のDA,PA,MDフレームワークと比較して平均e2e忠実度を約5%,7%,そして11%削減する。

Quantum networks (QNs) distribute entangled states to enable distributed quantum computing and sensing applications. However, in such QNs, quantum switches (QSs) have limited resources that are highly sensitive to noise and losses and must be carefully allocated to minimize entanglement distribution delay. In this paper, a QS resource allocation framework is proposed, which jointly optimizes the average entanglement distribution delay and entanglement distillation operations, to enhance the end-to-end (e2e) fidelity and satisfy minimum rate and fidelity requirements. The proposed framework considers realistic QN noise and includes the derivation of the analytical expressions for the average quantum memory decoherence noise parameter, and the resulting e2e fidelity after distillation. Finally, practical QN deployment aspects are considered, where QSs can control 1) nitrogen-vacancy (NV) center SPS types based on their isotopic decomposition, and 2) nuclear spin regions based on their distance and coupling strength with the electron spin of NV centers. A simulated annealing metaheuristic algorithm is proposed to solve the QS resource allocation optimization problem. Simulation results show that the proposed framework manages to satisfy all users rate and fidelity requirements, unlike existing distillation-agnostic (DA), minimal distillation (MD), and physics-agnostic (PA) frameworks which do not perform distillation, perform minimal distillation, and does not control the physics-based NV center characteristics, respectively. Furthermore, the proposed framework results in around 30% and 50% reductions in the average e2e entanglement distribution delay compared to existing PA and MD frameworks, respectively. Moreover, the proposed framework results in around 5%, 7%, and 11% reductions in the average e2e fidelity compared to existing DA, PA, and MD frameworks, respectively.
翻訳日:2024-05-16 14:35:45 公開日:2024-05-15
# 超伝導量子プロセッサ上の普遍論理ゲートのデモ

Demonstrating a universal logical gate set on a superconducting quantum processor ( http://arxiv.org/abs/2405.09035v1 )

ライセンス: Link先を確認
Jiaxuan Zhang, Zhao-Yun Chen, Yun-Jie Wang, Bin-Han Lu, Hai-Feng Zhang, Jia-Ning Li, Peng Duan, Yu-Chun Wu, Guo-Ping Guo, (参考訳) フォールトトレラント量子コンピューティング(FTQC)は,大規模量子計算の実現に不可欠である。 任意のFTQCを実装するには論理量子ビット上の普遍ゲートセットの実行が必要であるが、これは非常に難しい。 特に超伝導系では、表面符号論理量子ビット上の2量子ゲートは実現されていない。 ここでは、超伝導量子プロセッサ \textit{Wukong} を用いて、論理CNOTゲートと、距離2曲面符号上の任意の単一量子ビット回転ゲートを実験的に実装し、普遍的な論理ゲートセットを示す。 本実験では, 整合性を有する論理状態の忠実度が物理状態の忠実度を超えるような論理状態を生成するために, 符号化回路を設計する。 さらに,2つの論理量子ビット間の逆CNOTゲートと4つの論理ベル状態の耐障害性を示す。 論理CNOTゲートとアンシラ論理状態を用いて、任意の単一ビット回転ゲートをゲートテレポーテーションにより実装する。 すべての論理ゲートは完全な状態集合に特徴づけられ、それらの忠実度は論理的なパウリ転移行列によって評価される。 普遍論理ゲートセットと物理的忠実性を超えた絡み合った論理状態の実装は、超伝導量子プロセッサにおけるFTQCへの重要な一歩である。

Fault-tolerant quantum computing (FTQC) is essential for achieving large-scale practical quantum computation. Implementing arbitrary FTQC requires the execution of a universal gate set on logical qubits, which is highly challenging. Particularly, in the superconducting system, two-qubit gates on surface code logical qubits have not been realized. Here, we experimentally implement logical CNOT gate as well as arbitrary single-qubit rotation gates on distance-2 surface codes using the superconducting quantum processor \textit{Wukong}, thereby demonstrating a universal logical gate set. In the experiment, we design encoding circuits to prepare the required logical states, where the fidelities of the fault-tolerantly prepared logical states surpass those of the physical states. Furthermore, we demonstrate the transversal CNOT gate between two logical qubits and fault-tolerantly prepare four logical Bell states, all with fidelities exceeding those of the Bell states on the physical qubits. Using the logical CNOT gate and an ancilla logical state, arbitrary single-qubit rotation gate is implemented through gate teleportation. All logical gates are characterized on a complete state set and their fidelities are evaluated by logical Pauli transfer matrices. Implementation of the universal logical gate set and entangled logical states beyond physical fidelity marks a significant step towards FTQC on superconducting quantum processors.
翻訳日:2024-05-16 14:35:45 公開日:2024-05-15
# アンマキング効率:非IIDフェデレーション学習における有能なスパースモデル学習

Unmasking Efficiency: Learning Salient Sparse Models in Non-IID Federated Learning ( http://arxiv.org/abs/2405.09037v1 )

ライセンス: Link先を確認
Riyasat Ohib, Bishal Thapaliya, Gintare Karolina Dziugaite, Jingyu Liu, Vince Calhoun, Sergey Plis, (参考訳) 本研究では,効率的なコミュニケーションを伴う疎結合学習のための合理化手法であるSalient Sparse Federated Learning (SSFL)を提案する。 SSFLはトレーニング前のスパースサブネットワークを特定し、非IIDシナリオでローカルクライアントデータ上で別々に計算されたパラメータ・サリエンシスコアを利用して、グローバルマスクを決定する。 スパースモデルのウェイトだけが、クライアントとサーバの間で各ラウンドで通信されます。 我々はSSFLの有効性を標準の非IIDベンチマークを用いて検証し、スパシティー-精度トレードオフの顕著な改善を指摘した。 最後に,本手法を実世界のフェデレーション学習フレームワークに展開し,コミュニケーション時間の改善を報告する。

In this work, we propose Salient Sparse Federated Learning (SSFL), a streamlined approach for sparse federated learning with efficient communication. SSFL identifies a sparse subnetwork prior to training, leveraging parameter saliency scores computed separately on local client data in non-IID scenarios, and then aggregated, to determine a global mask. Only the sparse model weights are communicated each round between the clients and the server. We validate SSFL's effectiveness using standard non-IID benchmarks, noting marked improvements in the sparsity--accuracy trade-offs. Finally, we deploy our method in a real-world federated learning framework and report improvement in communication time.
翻訳日:2024-05-16 14:35:45 公開日:2024-05-15
# SMART:患者の健康状態予測のための事前訓練型欠席意識モデルに向けて

SMART: Towards Pre-trained Missing-Aware Model for Patient Health Status Prediction ( http://arxiv.org/abs/2405.09039v1 )

ライセンス: Link先を確認
Zhihao Yu, Xu Chu, Yujie Jin, Yasha Wang, Junfeng Zhao, (参考訳) 電子健康記録(EHR)データは、患者の健康状態を分析する貴重な資料として浮上している。 しかし、EHRにおける欠落データの存在は、既存の手法に重大な課題をもたらし、素早い相関と準最適予測をもたらす。 この問題に対処するために様々な計算技術が開発されているが、しばしば不要な詳細を隠蔽し、臨床予測を行う際に追加のノイズを発生させることがある。 この問題を解決するために,患者健康状態予測のためのセルフスーパービジョン・ミス・アウェア・リプレセンテーション・ラーニング・アプローチであるSMARTを提案する。 SMARTは、欠落を認識し、高次表現の学習に集中することにより、欠落データに対するより優れた一般化と堅牢性を促進する。 本研究では,6つのEHRタスクに対する広範囲な実験を通じてSMARTの有効性を検証し,最先端手法よりも優れていることを示す。

Electronic health record (EHR) data has emerged as a valuable resource for analyzing patient health status. However, the prevalence of missing data in EHR poses significant challenges to existing methods, leading to spurious correlations and suboptimal predictions. While various imputation techniques have been developed to address this issue, they often obsess unnecessary details and may introduce additional noise when making clinical predictions. To tackle this problem, we propose SMART, a Self-Supervised Missing-Aware RepresenTation Learning approach for patient health status prediction, which encodes missing information via elaborated attentions and learns to impute missing values through a novel self-supervised pre-training approach that reconstructs missing data representations in the latent space. By adopting missing-aware attentions and focusing on learning higher-order representations, SMART promotes better generalization and robustness to missing data. We validate the effectiveness of SMART through extensive experiments on six EHR tasks, demonstrating its superiority over state-of-the-art methods.
翻訳日:2024-05-16 14:35:45 公開日:2024-05-15
# 全スライド画像セグメンテーションのための部分ラベル分布からの学習

Learning from Partial Label Proportions for Whole Slide Image Segmentation ( http://arxiv.org/abs/2405.09041v1 )

ライセンス: Link先を確認
Shinnosuke Matsuo, Daiki Suehiro, Seiichi Uchida, Hiroaki Ito, Kazuhiro Terada, Akihiko Yoshizawa, Ryoma Bise, (参考訳) 本稿では,不完全ラベルの比率を利用して,全スライド画像(WSI)における腫瘍サブタイプのセグメンテーションに対処する。 具体的には,腫瘍のサブタイプに比例するが,腫瘍と非腫瘍に比例しない「部分的」ラベル比を用いる。 そこで我々は,各WSIパッチを腫瘍のサブタイプまたは非腫瘍の1つに分類できるセグメンテーションモデルの実現に利用したい。 我々はこの問題を「部分ラベル比例(LPLP)からの学習」と呼び、弱い教師付き学習問題として定式化する。 そこで我々は,この課題に対して,マルチインスタンス学習 (MIL) とラベル比率 (LLP) の2つの弱教師付き学習サブプロブレムに分解して効率的なアルゴリズムを提案する。 これらのサブプロブレムはエンドツーエンドで効率的に最適化される。 提案アルゴリズムの有効性は,2つのWSIデータセットを用いた実験によって実証される。

In this paper, we address the segmentation of tumor subtypes in whole slide images (WSI) by utilizing incomplete label proportions. Specifically, we utilize `partial' label proportions, which give the proportions among tumor subtypes but do not give the proportion between tumor and non-tumor. Partial label proportions are recorded as the standard diagnostic information by pathologists, and we, therefore, want to use them for realizing the segmentation model that can classify each WSI patch into one of the tumor subtypes or non-tumor. We call this problem ``learning from partial label proportions (LPLP)'' and formulate the problem as a weakly supervised learning problem. Then, we propose an efficient algorithm for this challenging problem by decomposing it into two weakly supervised learning subproblems: multiple instance learning (MIL) and learning from label proportions (LLP). These subproblems are optimized efficiently in the end-to-end manner. The effectiveness of our algorithm is demonstrated through experiments conducted on two WSI datasets.
翻訳日:2024-05-16 14:35:45 公開日:2024-05-15
# AMSNet: AMS回路のネットリストデータセット

AMSNet: Netlist Dataset for AMS Circuits ( http://arxiv.org/abs/2405.09045v1 )

ライセンス: Link先を確認
Zhuofu Tao, Yichen Shi, Yiru Huo, Rui Ye, Zonghang Li, Li Huang, Chen Wu, Na Bai, Zhiping Yu, Ting-Jung Lin, Lei He, (参考訳) 今日のアナログ/混合信号(AMS)集積回路(IC)の設計は、かなりの手作業による介入を必要とする。 MLLM(Multimodal large language model)の出現は、様々な分野において大きな可能性を秘めており、大規模なAMS IC設計の合理化にも応用可能であることを示唆している。 AMS回路の自動生成にMLLMを使うことのボトルネックは、スキーマとネットリストの関係を記述した包括的なデータセットがないことである。 そこで我々は、スキーマをネットリストに変換する自動手法を設計し、トランジスタレベルのスキーマと対応するSPICEフォーマットネットリストを含むデータセットAMSNetを作成する。 サイズが大きくなるにつれて、AMSNetはAMS回路設計におけるMLLMアプリケーションの探索を著しく容易にする。 我々は、ネットリストの最初のセットを公開し、この論文の公開時に、ネットリスト生成ツールと完全なデータセットの両方を利用可能にします。

Today's analog/mixed-signal (AMS) integrated circuit (IC) designs demand substantial manual intervention. The advent of multimodal large language models (MLLMs) has unveiled significant potential across various fields, suggesting their applicability in streamlining large-scale AMS IC design as well. A bottleneck in employing MLLMs for automatic AMS circuit generation is the absence of a comprehensive dataset delineating the schematic-netlist relationship. We therefore design an automatic technique for converting schematics into netlists, and create dataset AMSNet, encompassing transistor-level schematics and corresponding SPICE format netlists. With a growing size, AMSNet can significantly facilitate exploration of MLLM applications in AMS circuit design. We have made an initial set of netlists public, and will make both our netlist generation tool and the full dataset available upon publishing of this paper.
翻訳日:2024-05-16 14:35:45 公開日:2024-05-15
# Kane-Fisher問題における絡み合いパリティ効果

Entanglement parity effects in the Kane-Fisher problem ( http://arxiv.org/abs/2405.09046v1 )

ライセンス: Link先を確認
Chunyu Tan, Yuxiao Hang, Stephan Haas, Hubert Saleur, (参考訳) 1つの自由極限を持つXXZ鎖における長さ$\ell$のセグメントの絡み合いについて検討し、もう1つは弱い結合を持つ系の他の部分と結びついている。 フォン・ノイマンエントロピーは強いパリティ効果を持つ位数$O(1)$の項を示し、RGの下での弱結合とその挙動に関連する物理学を探索する(ケー・フィッシャー問題)。 以前研究された XX の場合と対照的に、$\delta S\equiv S^e-S^o$ は積 $\ell T_B$ に依存する「共鳴」曲線となり、近藤問題の近藤長に類似した特徴的長さスケールが 1/T_B$ となる。 この問題はDMRGを用いて数値的にも解析的にもヒールとスプリットの固定点付近で研究されている。 興味深いことに、他の不純物問題で何が起こるかとは対照的に、$\delta S$は少なくとも最低次は共形摂動理論によって取り組める。

We study the entanglement of a segment of length $\ell$ in an XXZ chain with one free extremity and the other connected to the rest of the system with a weak bond. We find that the von-Neumann entropy exhibits terms of order $O(1)$ with strong parity effects, that probe the physics associated with the weakened bond and its behavior under the RG (Kane Fisher problem). In contrast with the XX case studied previously the entropy difference $\delta S\equiv S^e-S^o$ gives rise now to a "resonance" curve which depends on the product $\ell T_B$, with $1/T_B$ a characteristic length scale akin to the Kondo length in Kondo problems. The problem is studied both numerically using DMRG and analytically near the healed and split fixed points. Interestingly - and in contrast with what happens in other impurity problems- $\delta S$ can, at least at lowest order, be tackled by conformal perturbation theory.
翻訳日:2024-05-16 14:35:45 公開日:2024-05-15
# 軌跡予測のための視覚のない知覚:自律運転における効果的な能動学習のためのシーン表現としてのエゴ車両ダイナミクス

Perception Without Vision for Trajectory Prediction: Ego Vehicle Dynamics as Scene Representation for Efficient Active Learning in Autonomous Driving ( http://arxiv.org/abs/2405.09049v1 )

ライセンス: Link先を確認
Ross Greer, Mohan Trivedi, (参考訳) 本研究では、自律走行機械学習タスクにおける効率的なデータキュレーションのための軌道情報と動的状態情報の利用について検討する。 モデル性能を維持しつつアノテーションやデータコストを削減することを目的とした,アクティブラーニングフレームワークにおける軌道状態とサンプリング戦略のクラスタリング手法を提案する。 提案手法は軌道情報を利用してデータ選択をガイドし,トレーニングデータの多様性を促進する。 本研究では,nuScenesデータセットを用いたトラジェクティブ予測タスクにおける提案手法の有効性を実証し,異なるデータプールサイズでのランダムサンプリングよりも一貫した性能向上を示すとともに,データコストの50%のサブベースライン変位誤差にまで達することを示した。 以上の結果から,トレーニングプールの規模が大きくなるにつれて,初歩的なデータサンプリングが「コールドスタート問題」の克服に役立ちながら,新規性の導入がより有益であることが示唆された。 トラジェクティブ・ステート・インフォームド・アクティブ・ラーニングを統合することで、より効率的で堅牢な自動運転システムが低コストのデータキュレーション・ストラテジーによって実現可能であることを示す。

This study investigates the use of trajectory and dynamic state information for efficient data curation in autonomous driving machine learning tasks. We propose methods for clustering trajectory-states and sampling strategies in an active learning framework, aiming to reduce annotation and data costs while maintaining model performance. Our approach leverages trajectory information to guide data selection, promoting diversity in the training data. We demonstrate the effectiveness of our methods on the trajectory prediction task using the nuScenes dataset, showing consistent performance gains over random sampling across different data pool sizes, and even reaching sub-baseline displacement errors at just 50% of the data cost. Our results suggest that sampling typical data initially helps overcome the ''cold start problem,'' while introducing novelty becomes more beneficial as the training pool size increases. By integrating trajectory-state-informed active learning, we demonstrate that more efficient and robust autonomous driving systems are possible and practical using low-cost data curation strategies.
翻訳日:2024-05-16 14:35:45 公開日:2024-05-15
# コンテンツ認識型形状再構成による3次元形状向上

3D Shape Augmentation with Content-Aware Shape Resizing ( http://arxiv.org/abs/2405.09050v1 )

ライセンス: Link先を確認
Mingxiang Chen, Jian Zhang, Boli Zhou, Yang Song, (参考訳) 近年の3次元モデルにおけるディープラーニングの進歩は、生成、検出、シーン理解におけるブレークスルーを助長している。 しかし、これらのアルゴリズムの有効性は、大規模なトレーニングデータセットに依存している。 E3SC(Efficient 3D Seam Carving)は,シーム彫刻に基づく新しい3Dモデル拡張手法である。 実験により,本手法は様々な種類の入力モデルに対して多種多様で高品質な3次元形状を創出できることを示す。 定量的評価により,本手法は,他の3次元生成アルゴリズムによって生成される形状の新規性と品質を効果的に向上することを示した。

Recent advancements in deep learning for 3D models have propelled breakthroughs in generation, detection, and scene understanding. However, the effectiveness of these algorithms hinges on large training datasets. We address the challenge by introducing Efficient 3D Seam Carving (E3SC), a novel 3D model augmentation method based on seam carving, which progressively deforms only part of the input model while ensuring the overall semantics are unchanged. Experiments show that our approach is capable of producing diverse and high-quality augmented 3D shapes across various types and styles of input models, achieving considerable improvements over previous methods. Quantitative evaluations demonstrate that our method effectively enhances the novelty and quality of shapes generated by other subsequent 3D generation algorithms.
翻訳日:2024-05-16 14:35:45 公開日:2024-05-15
# 遅延情報を用いた無機材料の誘電体テンソル予測

Dielectric Tensor Prediction for Inorganic Materials Using Latent Information from Preferred Potential ( http://arxiv.org/abs/2405.09052v1 )

ライセンス: Link先を確認
Zetian Mao, Wenwen Li, Jethro Tan, (参考訳) 誘電体はフラッシュメモリ、中央処理ユニット、太陽光発電、コンデンサなどに広く応用されている材料である。 しかし、公開誘電体データの利用は依然として限られており、研究や開発が妨げられている。 従来、機械学習モデルは誘電率をスカラーとして予測することに集中しており、材料設計とシミュレーションのための方向性電場下での材料特性を理解する上での誘電率テンソルの重要性を見越していた。 本研究は、誘電特性の予測を高めるために、普遍的ニューラルネットワーク電位から導かれる共通同変構造埋め込み特性の値を示す。 所望のSE(3)を第2ランク誘電体テンソルに同値に保ったまま,各種潜電体特性からのチャネル情報を統合するため,同変読み出し復号器を設計し,全,電子,イオン誘電体テンソルを個別に予測し,そのモデルと最先端モデルとの比較を行った。 最後に, 物質計画における熱力学的安定構造候補の仮想スクリーニングにより, モデルの評価を行った。 14k候補セットのうち、大きなバンドギャップ(E_g=3.36 \mathrm{eV}$)と誘電定数(\epsilon=93.81$)を有する材料Ba\textsubscript{2}SmTaO\textsubscript{6}を同定する。 その結果, 無機材料の誘電体テンソルの予測精度は良好であり, 新規誘電体発見に寄与する可能性を強調した。

Dielectrics are materials with widespread applications in flash memory, central processing units, photovoltaics, capacitors, etc. However, the availability of public dielectric data remains limited, hindering research and development efforts. Previously, machine learning models focused on predicting dielectric constants as scalars, overlooking the importance of dielectric tensors in understanding material properties under directional electric fields for material design and simulation. This study demonstrates the value of common equivariant structural embedding features derived from a universal neural network potential in enhancing the prediction of dielectric properties. To integrate channel information from various-rank latent features while preserving the desired SE(3) equivariance to the second-rank dielectric tensors, we design an equivariant readout decoder to predict the total, electronic, and ionic dielectric tensors individually, and compare our model with the state-of-the-art models. Finally, we evaluate our model by conducting virtual screening on thermodynamical stable structure candidates in Materials Project. The material Ba\textsubscript{2}SmTaO\textsubscript{6} with large band gaps ($E_g=3.36 \mathrm{eV}$) and dielectric constants ($\epsilon=93.81$) is successfully identified out of the 14k candidate set. The results show that our methods give good accuracy on predicting dielectric tensors of inorganic materials, emphasizing their potential in contributing to the discovery of novel dielectrics.
翻訳日:2024-05-16 14:35:45 公開日:2024-05-15
# ディム小型目標検出・追跡:時間的エネルギー選択スケーリングと軌道アソシエーションに基づく新しい手法

Dim Small Target Detection and Tracking: A Novel Method Based on Temporal Energy Selective Scaling and Trajectory Association ( http://arxiv.org/abs/2405.09054v1 )

ライセンス: Link先を確認
Weihua Gao, Wenlong Niu, Wenlong Lu, Pengcheng Wang, Zhaoyuan Qi, Xiaodong Peng, Zhen Yang, (参考訳) 受動光リモートセンシング(PORS)における小型ターゲットの検出と追跡は幅広い応用がある。 しかし,従来提案した手法の多くは,目標運動によって生じる時間的特徴をほとんど利用せず,低信号・クラッタ比(SCR)目標に対する検出・追跡性能の低下を招いた。 本稿では,有効検出を実現するための時間的特徴に基づく空間的特徴と実現可能性に基づく難易度の分析を行う。 本分析では,マルチフレームを検出ユニットとし,時間的エネルギー選択スケーリング(TESS)に基づく検出手法を提案する。 具体的には,多フレーム検出ユニット上で画素が生成する強度時間プロファイル(ITP)の構成について検討した。 対象画素に対して、画素を通過するターゲットは、IPPに弱い過渡的障害をもたらし、IPPの統計的性質に変化をもたらす。 我々は,過渡的乱れを増幅し,背景成分と雑音成分を抑制し,多フレーム検出ユニット上で目標の軌道を出力するために,よく設計された関数を用いる。 その後、従来の閾値分割による検出率と誤警報率の矛盾を解決するために、出力軌跡の時間的特徴と空間的特徴を関連付け、3次元ハフ変換に基づく軌道抽出法を提案する。 最後に,対象の軌道をモデル化し,軌道に基づくマルチターゲット追跡手法を提案する。 各種の最先端検出・追跡手法と比較すると, 提案手法の優位性は複数のシナリオで実証されている。

The detection and tracking of small targets in passive optical remote sensing (PORS) has broad applications. However, most of the previously proposed methods seldom utilize the abundant temporal features formed by target motion, resulting in poor detection and tracking performance for low signal-to-clutter ratio (SCR) targets. In this article, we analyze the difficulty based on spatial features and the feasibility based on temporal features of realizing effective detection. According to this analysis, we use a multi-frame as a detection unit and propose a detection method based on temporal energy selective scaling (TESS). Specifically, we investigated the composition of intensity temporal profiles (ITPs) formed by pixels on a multi-frame detection unit. For the target-present pixel, the target passing through the pixel will bring a weak transient disturbance on the ITP and introduce a change in the statistical properties of ITP. We use a well-designed function to amplify the transient disturbance, suppress the background and noise components, and output the trajectory of the target on the multi-frame detection unit. Subsequently, to solve the contradiction between the detection rate and the false alarm rate brought by the traditional threshold segmentation, we associate the temporal and spatial features of the output trajectory and propose a trajectory extraction method based on the 3D Hough transform. Finally, we model the trajectory of the target and propose a trajectory-based multi-target tracking method. Compared with the various state-of-the-art detection and tracking methods, experiments in multiple scenarios prove the superiority of our proposed methods.
翻訳日:2024-05-16 14:35:45 公開日:2024-05-15
# 部分空間指向モデル融合による大規模言語モデルの安全性向上フレームワーク

A safety realignment framework via subspace-oriented model fusion for large language models ( http://arxiv.org/abs/2405.09055v1 )

ライセンス: Link先を確認
Xin Yi, Shunfan Zheng, Linlin Wang, Xiaoling Wang, Liang He, (参考訳) 大規模言語モデル(LLM)の現在の保護メカニズムは、Jailbreak攻撃の影響を受けやすいため、本質的に脆弱である。 下流のタスクのために、明らかに良質なデータを微調整するプロセスでさえ、安全性を損なう可能性がある。 潜在的な解決策の1つは、下流の微調整に続く安全微調整を行うことである。 しかし、LLMは安全対策を回復するが、下流の微調整で得られるタスク固有の知識を失う恐れがある。 本稿では,初期整列モデルと現在の微調整モデルのセーフガード機能を組み合わせた,サブスペース指向モデル融合(SOMF)による安全性向上フレームワークを提案する。 我々のアプローチは、各微調整されたモデルの重みから全てのタスクベクトルを遠ざけることから始まる。 次に,これらのベクトル内の安全関連領域をサブスペースマスキング手法により同定する。 最後に、同定された安全部分空間に基づいて、初期安全に整列したLLMと全てのタスクベクトルとの融合について検討する。 我々は, 一つの微調整モデルと, 融合時の複数のモデルの安全性要件を満たす安全確保フレームワークの有効性を検証した。 本研究は, 中国語, 英語, ヒンディー語による指示や, コードと数学における問題解決能力など, 下流タスクのパフォーマンスを顕著に向上させることなく, 安全性を保っていることを確認した。

The current safeguard mechanisms for large language models (LLMs) are indeed susceptible to jailbreak attacks, making them inherently fragile. Even the process of fine-tuning on apparently benign data for downstream tasks can jeopardize safety. One potential solution is to conduct safety fine-tuning subsequent to downstream fine-tuning. However, there's a risk of catastrophic forgetting during safety fine-tuning, where LLMs may regain safety measures but lose the task-specific knowledge acquired during downstream fine-tuning. In this paper, we introduce a safety realignment framework through subspace-oriented model fusion (SOMF), aiming to combine the safeguard capabilities of initially aligned model and the current fine-tuned model into a realigned model. Our approach begins by disentangling all task vectors from the weights of each fine-tuned model. We then identify safety-related regions within these vectors by subspace masking techniques. Finally, we explore the fusion of the initial safely aligned LLM with all task vectors based on the identified safety subspace. We validate that our safety realignment framework satisfies the safety requirements of a single fine-tuned model as well as multiple models during their fusion. Our findings confirm that SOMF preserves safety without notably compromising performance on downstream tasks, including instruction following in Chinese, English, and Hindi, as well as problem-solving capabilities in Code and Math.
翻訳日:2024-05-16 14:35:45 公開日:2024-05-15
# CTS: 一貫性に基づく医用画像分割モデル

CTS: A Consistency-Based Medical Image Segmentation Model ( http://arxiv.org/abs/2405.09056v1 )

ライセンス: Link先を確認
Kejia Zhang, Lan Zhang, Haiwei Pan, Baolong Yu, (参考訳) 医療画像のセグメンテーションタスクでは、拡散モデルが大きな可能性を示している。 しかし、主流拡散モデルは、複数のサンプリング時間や遅い予測結果などの欠点に悩まされる。 近年、独立した生成ネットワークとしての一貫性モデルは、この問題を解決している。 拡散モデルと比較して、一貫性モデルはサンプリング時間を1回に短縮することができる。 しかし, 画像分割作業には適さないため, 医用画像分野への応用はまだ検討されていない。 そこで本論文では,医用画像のセグメンテーションタスクに対して整合性モデルを適用し,マルチスケールの特徴信号監視モードと損失関数誘導を設計し,モデル収束を実現する。 実験により、CTSモデルは、テストフェーズ中に単一のサンプリングを行い、より良い医用画像セグメンテーション結果を得ることができることが確認された。

In medical image segmentation tasks, diffusion models have shown significant potential. However, mainstream diffusion models suffer from drawbacks such as multiple sampling times and slow prediction results. Recently, consistency models, as a standalone generative network, have resolved this issue. Compared to diffusion models, consistency models can reduce the sampling times to once, not only achieving similar generative effects but also significantly speeding up training and prediction. However, they are not suitable for image segmentation tasks, and their application in the medical imaging field has not yet been explored. Therefore, this paper applies the consistency model to medical image segmentation tasks, designing multi-scale feature signal supervision modes and loss function guidance to achieve model convergence. Experiments have verified that the CTS model can obtain better medical image segmentation results with a single sampling during the test phase.
翻訳日:2024-05-16 14:35:45 公開日:2024-05-15
# 材料・分子の応答マッチング

Response Matching for generating materials and molecules ( http://arxiv.org/abs/2405.09057v1 )

ライセンス: Link先を確認
Bingqing Cheng, (参考訳) 機械学習は、最近、新しい分子と物質構造を生成する強力なツールとして登場した。 最先端モデルの成功は、翻訳、回転、周期性といった物理対称性を組み込む能力に起因している。 ここでは、各安定物質または分子がそのポテンシャルエネルギー面の最小値に存在するという事実を活用する、応答マッチング(RM)と呼ばれる新しい生成法を提案する。 その結果、摂動はエネルギーと応力の反応を誘導し、構造を平衡に戻す。 このような応答に対するマッチングは拡散モデルにおけるスコアマッチングと密接に関連している。 機械学習の原子間ポテンシャルとランダム構造探索を組み合わせることで、RMは原子間相互作用の局所性を生かし、置換、翻訳、回転、周期的不変性を本質的に尊重する。 RMは同じ枠組みの下で分子とバルク物質の両方を扱う最初のモデルである。 本稿では, 有機分子データセットの小型化, 材料プロジェクトからの結晶の安定化, ダイヤモンド構成のワンショット学習の3つのシステムにおけるRMの効率性と一般化を実証する。

Machine learning has recently emerged as a powerful tool for generating new molecular and material structures. The success of state-of-the-art models stems from their ability to incorporate physical symmetries, such as translation, rotation, and periodicity. Here, we present a novel generative method called Response Matching (RM), which leverages the fact that each stable material or molecule exists at the minimum of its potential energy surface. Consequently, any perturbation induces a response in energy and stress, driving the structure back to equilibrium. Matching to such response is closely related to score matching in diffusion models. By employing the combination of a machine learning interatomic potential and random structure search as the denoising model, RM exploits the locality of atomic interactions, and inherently respects permutation, translation, rotation, and periodic invariances. RM is the first model to handle both molecules and bulk materials under the same framework. We demonstrate the efficiency and generalization of RM across three systems: a small organic molecular dataset, stable crystals from the Materials Project, and one-shot learning on a single diamond configuration.
翻訳日:2024-05-16 14:26:01 公開日:2024-05-15
# Task-Adaptive Q-Face

Task-adaptive Q-Face ( http://arxiv.org/abs/2405.09059v1 )

ライセンス: Link先を確認
Haomiao Sun, Mingjie He, Shiguang Shan, Hu Han, Xilin Chen, (参考訳) 顔分析はここ数年で目覚ましい改善を遂げてきたが、マルチタスクの顔分析モデルを設計することは依然として困難である。 ほとんどの顔分析タスクは別の問題として研究されており、関連するタスク間の相乗効果の恩恵を受けない。 本研究では,タスク適応型多タスク顔分析手法Q-Faceを提案する。 大規模事前学習モデルの複数の層から特徴を融合させ,局所的およびグローバルな顔情報を用いて複数のタスクをサポートする。 さらに,一組の問合せベクトルと融合した多段階特徴とのクロスアテンションを行うタスク適応モジュールを設計し,最終的に各顔分析タスクに対して望ましい特徴を適応的に抽出する。 実験の結果,顔の表情認識,行動単位検出,顔属性分析,年齢推定,顔ポーズ推定において,複数のタスクを同時に実行し,最先端のパフォーマンスを実現することができた。 従来の手法と比較して,マルチタスク顔分析の新しい可能性を開き,精度と効率の両面での可能性を示す。

Although face analysis has achieved remarkable improvements in the past few years, designing a multi-task face analysis model is still challenging. Most face analysis tasks are studied as separate problems and do not benefit from the synergy among related tasks. In this work, we propose a novel task-adaptive multi-task face analysis method named as Q-Face, which simultaneously performs multiple face analysis tasks with a unified model. We fuse the features from multiple layers of a large-scale pre-trained model so that the whole model can use both local and global facial information to support multiple tasks. Furthermore, we design a task-adaptive module that performs cross-attention between a set of query vectors and the fused multi-stage features and finally adaptively extracts desired features for each face analysis task. Extensive experiments show that our method can perform multiple tasks simultaneously and achieves state-of-the-art performance on face expression recognition, action unit detection, face attribute analysis, age estimation, and face pose estimation. Compared to conventional methods, our method opens up new possibilities for multi-task face analysis and shows the potential for both accuracy and efficiency.
翻訳日:2024-05-16 14:26:01 公開日:2024-05-15
# 忠実位置符号化による変圧器の改良

Improving Transformers using Faithful Positional Encoding ( http://arxiv.org/abs/2405.09061v1 )

ライセンス: Link先を確認
Tsuyoshi Idé, Jokin Labaien, Pin-Yu Chen, (参考訳) 本稿では,Transformerと呼ばれるニューラルネットワークアーキテクチャのための新しい位置符号化手法を提案する。 標準的な正弦波位置符号化とは違って,本手法は固体数学的根拠に基づいており,入力シーケンスの位置次数に関する情報が失われないように保証されている。 時系列分類タスクにおいて,新しい符号化手法が予測性能を体系的に向上することを示す。

We propose a new positional encoding method for a neural network architecture called the Transformer. Unlike the standard sinusoidal positional encoding, our approach is based on solid mathematical grounds and has a guarantee of not losing information about the positional order of the input sequence. We show that the new encoding approach systematically improves the prediction performance in the time-series classification task.
翻訳日:2024-05-16 14:26:01 公開日:2024-05-15
# 潜在拡散モデルによる脳波データからの自然音楽復号

Naturalistic Music Decoding from EEG Data via Latent Diffusion Models ( http://arxiv.org/abs/2405.09062v1 )

ライセンス: Link先を確認
Emilian Postolache, Natalia Polouliakh, Hiroaki Kitano, Akima Connelly, Emanuele Rodolà, Taketo Akama, (参考訳) 本稿では,脳波(EEG)記録から自然音楽の再構成を行うために,強力な生成モデル群である潜時拡散モデルを用いることの可能性について検討する。 MIDI生成曲やモノフォニック曲のような限られた音色を持つ単純な音楽とは異なり、ここでの焦点は様々な楽器、声、エフェクトを備えた複雑な音楽であり、ハーモニックや音色に富んでいる。 本研究は,非侵襲的な脳波データを用いて高品質な音楽再生を実現するための最初の試みであり,手作業による事前処理やチャネル選択を必要とせず,生データに直接エンドツーエンドのトレーニング手法を適用する。 我々は、パブリックなNMED-Tデータセットでモデルをトレーニングし、ニューラルネットワークベースのメトリクスを提案する定量的評価を行う。 また、生成されたトラックに基づいて楽曲分類を行う。 本研究は,脳波データを用いた複雑な聴覚情報再構成の実現可能性に関する知見を提供する,ニューラルデコーディングと脳-コンピュータインタフェースの継続的な研究に寄与する。

In this article, we explore the potential of using latent diffusion models, a family of powerful generative models, for the task of reconstructing naturalistic music from electroencephalogram (EEG) recordings. Unlike simpler music with limited timbres, such as MIDI-generated tunes or monophonic pieces, the focus here is on intricate music featuring a diverse array of instruments, voices, and effects, rich in harmonics and timbre. This study represents an initial foray into achieving general music reconstruction of high-quality using non-invasive EEG data, employing an end-to-end training approach directly on raw data without the need for manual pre-processing and channel selection. We train our models on the public NMED-T dataset and perform quantitative evaluation proposing neural embedding-based metrics. We additionally perform song classification based on the generated tracks. Our work contributes to the ongoing research in neural decoding and brain-computer interfaces, offering insights into the feasibility of using EEG data for complex auditory information reconstruction.
翻訳日:2024-05-16 14:26:01 公開日:2024-05-15
# 高次エルミート・ガウスモードを用いた高効率光ビーム変位測定

Efficient optical beam displacement measurements using high-order Hermite-Gaussian modes ( http://arxiv.org/abs/2405.09065v1 )

ライセンス: Link先を確認
A. L. S. Santos Junior, M. Gil de Oliveira, E. V. S. Cubas, A. Z. Khoury, G. B. Alves, (参考訳) 我々は光ビームの角と横の小さな変位を測定するための新しい干渉計測手法を開発した。 この手法は、Hermite-Gaussian $HG_{m,0}$空間モードのメトロジー性能に依存する。 信号対雑音比はガウスモードに比べて411ドル向上し, モデムをm=20ドルに設定した。 これにより、そのような測定の感度が大幅に向上し、その効率が証明される。

We develop a novel interferometric technique to measure small angular and lateral displacements of an optical beam. The technique relies on the metrological performance of the Hermite-Gaussian $HG_{m,0}$ spatial modes. We report an improvement factor of $41$ in the signal-to-noise ratio, as compared to the Gaussian mode, using modes as high as $m=20$. This considerably enhances the sensitivity of such measurements and attests its efficiency.
翻訳日:2024-05-16 14:26:01 公開日:2024-05-15
# ビジュアライゼーションを使って、サードパーティの依存関係の更新を動機付ける

See to Believe: Using Visualization To Motivate Updating Third-party Dependencies ( http://arxiv.org/abs/2405.09074v1 )

ライセンス: Link先を確認
Chaiyong Ragkhitwetsagul, Vipawan Jarukitpipat, Raula Gaikovina Kula, Morakot Choetkiertikul, Klinton Chhun, Wachirayana Wanprasert, Thanwadee Sunetnanta, (参考訳) サードパーティの依存関係を使用したアプリケーションによって導入されたセキュリティ上の脆弱性は、JavaScript用のNPMパッケージのようなライブラリの大規模なエコシステムの出現によるものだ。 現在、図書館は相互に依存している。 したがって、これらの大きなエコシステムを頼りにすれば、脆弱な依存関係は直接的なだけでなく、間接的な(推移的な)依存関係でもある。 これらの複雑な依存関係を管理するための自動ツールサポートがあるが、最近の調査では、開発者はライブラリのアップデートに注意を払っており、脆弱性の修正にも注意を払っている。 本稿では、依存性グラフ可視化(DGV)アプローチが、特に開発者を説得する上で、開発者が更新する動機になる、という仮説を立てる。 この仮説を検証するために、20人の参加者を実験と制御グループに等しく分けたユーザスタディを行い、最先端のツールと複雑な脆弱性と間接的な依存関係を持つ脆弱性をレビューするタスクを比較した。 視覚化を見た参加者の70%が、両方のタスクで更新を優先順位付けしていました。 これは、両方のタスクでnpm監査ツールを使用した参加者の30%と60%よりも高い。

Security vulnerabilities introduced by applications using third-party dependencies are on the increase, caused by the emergence of large ecosystems of libraries such as the NPM packages for JavaScript. Nowadays, libraries depend on each other. Relying on these large ecosystems thus means that vulnerable dependencies are not only direct but also indirect (transitive) dependencies. There are automated tool supports to manage these complex dependencies but recent work still shows that developers are wary of library updates, even to fix vulnerabilities, citing that being unaware, or that the migration effort to update outweighs the decision. In this paper, we hypothesize that the dependency graph visualization (DGV) approach will motivate developers to update, especially when convincing developers. To test this hypothesis, we performed a user study involving 20 participants divided equally into experimental and control groups, comparing the state-of-the-art tools with the tasks of reviewing vulnerabilities with complexities and vulnerabilities with indirect dependencies. We find that 70% of the participants who saw the visualization did re-prioritize their updates in both tasks. This is higher than the 30% and 60% of the participants who used the npm audit tool in both tasks, respectively.
翻訳日:2024-05-16 14:26:01 公開日:2024-05-15
# Typhon:Jupyterノートブックにおける関連コードセルの自動レコメンデーション

Typhon: Automatic Recommendation of Relevant Code Cells in Jupyter Notebooks ( http://arxiv.org/abs/2405.09075v1 )

ライセンス: Link先を確認
Chaiyong Ragkhitwetsagul, Veerakit Prasertpol, Natanon Ritta, Paphon Sae-Wong, Thanapon Noraset, Morakot Choetkiertikul, (参考訳) 現在、コードレコメンデーションツールは、様々な専門分野の多くのソフトウェア開発者にとってより重要になっている。 コードレコメンデーションツールを使用することで、ソフトウェアでコードを開発する際の生産性とパフォーマンスが向上し、開発者がコード例を見つけてそこから学ぶのが容易になった。 本稿では,Jupyterノートブックのコードセルを自動的に推薦するTyphonを提案する。 Typhonは開発者のマークダウン記述セルをトークン化し、BM25ランキング関数や機械学習アプローチのCodeBERTなどのテキスト類似性を使ってデータベースから最も類似したコードセルを探す。 そして、アルゴリズムはトークン化されたクエリとマークダウンセル間の類似度距離を計算し、最も関連性の高いコードセルを開発者に返す。 我々は、KaggleコンペティションからJupyterノートブックのTyphonツールを評価し、そのアプローチが適度な精度でコードセルを推薦できることを発見した。 本稿では,Jupyterノートブックのコードセルレコメンデーションの改善を図っている。

At present, code recommendation tools have gained greater importance to many software developers in various areas of expertise. Having code recommendation tools has enabled better productivity and performance in developing the code in software and made it easier for developers to find code examples and learn from them. This paper proposes Typhon, an approach to automatically recommend relevant code cells in Jupyter notebooks. Typhon tokenizes developers' markdown description cells and looks for the most similar code cells from the database using text similarities such as the BM25 ranking function or CodeBERT, a machine-learning approach. Then, the algorithm computes the similarity distance between the tokenized query and markdown cells to return the most relevant code cells to the developers. We evaluated the Typhon tool on Jupyter notebooks from Kaggle competitions and found that the approach can recommend code cells with moderate accuracy. The approach and results in this paper can lead to further improvements in code cell recommendations in Jupyter notebooks.
翻訳日:2024-05-16 14:26:01 公開日:2024-05-15
# 顧客満足度を高めるための機械学習と因果分析アプローチ

Enhancing Airline Customer Satisfaction: A Machine Learning and Causal Analysis Approach ( http://arxiv.org/abs/2405.09076v1 )

ライセンス: Link先を確認
Tejas Mirthipati, (参考訳) 本研究は、航空会社における顧客満足度の向上、すなわち、顧客を維持し、収益成長に欠かせないブランド評価を構築するための重要な要因について考察する。 機械学習と因果推論を組み合わせることで、顧客満足度にサービス改善が与える具体的な影響を調査し、オンライン搭乗パス体験に注目した。 いくつかの予測モデルと因果モデルを含む詳細なデータ分析を通じて、顧客サービスのデジタル的側面の改善が顧客満足度を著しく高めることを示した。 本稿は、航空会社がこれらの洞察を戦略的に活用し、顧客エクスペリエンスを高め、結果として市場競争力を高めるためのデータ駆動型決定を行う方法について強調する。

This study explores the enhancement of customer satisfaction in the airline industry, a critical factor for retaining customers and building brand reputation, which are vital for revenue growth. Utilizing a combination of machine learning and causal inference methods, we examine the specific impact of service improvements on customer satisfaction, with a focus on the online boarding pass experience. Through detailed data analysis involving several predictive and causal models, we demonstrate that improvements in the digital aspects of customer service significantly elevate overall customer satisfaction. This paper highlights how airlines can strategically leverage these insights to make data-driven decisions that enhance customer experiences and, consequently, their market competitiveness.
翻訳日:2024-05-16 14:26:01 公開日:2024-05-15
# リモート視覚マルチタスク推論のための圧縮的特徴選択

Compressive Feature Selection for Remote Visual Multi-Task Inference ( http://arxiv.org/abs/2405.09077v1 )

ライセンス: Link先を確認
Saeed Ranjbar Alvar, Ivan V. Bajić, (参考訳) ディープモデルは各内部層に多くの機能を提供します。 リモート推論のための機能圧縮のようなアプリケーションにおける重要な問題は、モデルによって実行されるタスクに対して、各機能がどの程度重要かを決定することである。 この問題は、同じ機能が異なるタスクに対して異なる重要性を持つ可能性があるマルチタスク推論の場合、特に困難である。 本稿では,特徴量とモデルのタスク出力との相互情報(MI)が,その課題に対する特徴量の重要性の指標としてどの程度有効かを検討する。 MIに基づくハードセレクションとソフトセレクション(不等な圧縮)による実験を行い,MI法と代替手法との比較を行った。 より深い洞察を提供するために、多目的分析が提供される。

Deep models produce a number of features in each internal layer. A key problem in applications such as feature compression for remote inference is determining how important each feature is for the task(s) performed by the model. The problem is especially challenging in the case of multi-task inference, where the same feature may carry different importance for different tasks. In this paper, we examine how effective is mutual information (MI) between a feature and a model's task output as a measure of the feature's importance for that task. Experiments involving hard selection and soft selection (unequal compression) based on MI are carried out to compare the MI-based method with alternative approaches. Multi-objective analysis is provided to offer further insight.
翻訳日:2024-05-16 14:26:01 公開日:2024-05-15
# 船衝突回避のための説明可能なAI:意思決定プロセスのデコードと行動意図

Explainable AI for Ship Collision Avoidance: Decoding Decision-Making Processes and Behavioral Intentions ( http://arxiv.org/abs/2405.09081v1 )

ライセンス: Link先を確認
Hitoshi Yoshioka, Hirotada Hashimoto, (参考訳) 本研究は、船舶衝突回避のための説明可能なAIを開発した。 当初、サブタスク批判ネットワークからなる批判ネットワークが提案され、衝突回避において各サブタスクを個別に評価し、関連するAI意思決定プロセスを明らかにする。 さらに,Q値分析と注意機構を用いて行動意図を識別する試みを行った。 前者は、AI行動によるQ値の増大を調べることによって意図を解釈することに焦点を当て、後者は、衝突回避のための意思決定プロセスにおいて、他の船の意義を学習目的に取り入れた。 衝突回避におけるAIの行動意図は、認識された衝突の危険と他の船への注意度を組み合わせることで可視化された。 提案手法は数値実験により評価した。 開発されたAIは、さまざまな渋滞レベル下での衝突を安全に回避できることが確認され、AIの意思決定プロセスは人間にとって理解しやすいものになった。 提案手法は,船体衝突回避タスクにおけるDRLベースのコントローラ/システム理解を容易にするだけでなく,サブタスクを構成するタスクにも拡張する。

This study developed an explainable AI for ship collision avoidance. Initially, a critic network composed of sub-task critic networks was proposed to individually evaluate each sub-task in collision avoidance to clarify the AI decision-making processes involved. Additionally, an attempt was made to discern behavioral intentions through a Q-value analysis and an Attention mechanism. The former focused on interpreting intentions by examining the increment of the Q-value resulting from AI actions, while the latter incorporated the significance of other ships in the decision-making process for collision avoidance into the learning objective. AI's behavioral intentions in collision avoidance were visualized by combining the perceived collision danger with the degree of attention to other ships. The proposed method was evaluated through a numerical experiment. The developed AI was confirmed to be able to safely avoid collisions under various congestion levels, and AI's decision-making process was rendered comprehensible to humans. The proposed method not only facilitates the understanding of DRL-based controllers/systems in the ship collision avoidance task but also extends to any task comprising sub-tasks.
翻訳日:2024-05-16 14:26:01 公開日:2024-05-15
# RSHazeDiff:リモートセンシング画像デハージングのための統一されたフーリエ認識拡散モデル

RSHazeDiff: A Unified Fourier-aware Diffusion Model for Remote Sensing Image Dehazing ( http://arxiv.org/abs/2405.09083v1 )

ライセンス: Link先を確認
Jiamei Xiong, Xuefeng Yan, Yongzhen Wang, Wei Zhao, Xiao-Ping Zhang, Mingqiang Wei, (参考訳) Hazeは、リモートセンシング画像の視覚的品質を著しく低下させ、自動車ナビゲーション、インテリジェントモニタリング、都市管理のパフォーマンスを損なう。 進行する拡散確率モデル (DDPM) は, 強い生成能を有する高密度ヘイズ除去の有意な可能性を示す。 リモートセンシング画像は、広範囲の小さなテクスチャ構造を含むため、ハズイ画像から画像の詳細を効果的に復元することが重要である。 しかし、DDPMの現在の知恵は、画像の詳細と色の忠実さをよく保たず、リモートセンシング画像の脱調能力を制限している。 本稿では、RSHazeDiffと呼ばれるリモートセンシング画像デハージングのための統合されたフーリエ対応拡散モデルを提案する。 RSHazeDiff氏は新しい視点から条件付きDDPMを探求し、密集した曖昧なシナリオにおける画質を改善するとともに、3つの重要な貢献をしている。 まず、RSHazeDiffは、ノイズ推定と再構成制約を粗大な方法で実行することにより拡散過程の訓練フェーズを洗練する。 これにより、DDPMにおける単純な雑音推定制約による不快な結果を改善することができる。 第二に、繰り返しサンプリングステップにおいて周波数情報を重要な事前知識とすることで、RSHazeDiffはデハズド画像のテクスチャの詳細と色忠実さを保存できる。 第3に,Fourier変換を用いたグローバル補償学習モジュールを設計して,入力画像のグローバル依存性の特徴を捉えることにより,固定サイズパッチ処理における境界アーチファクトの効果を効果的に軽減することができる。 合成および実世界のベンチマークの実験は、複数の最先端手法よりもRSHazeDiffの好ましい性能を検証する。 ソースコードはhttps://github.com/jm-xiong/RSHazeDiffで公開される。

Haze severely degrades the visual quality of remote sensing images and hampers the performance of automotive navigation, intelligent monitoring, and urban management. The emerging denoising diffusion probabilistic model (DDPM) exhibits the significant potential for dense haze removal with its strong generation ability. Since remote sensing images contain extensive small-scale texture structures, it is important to effectively restore image details from hazy images. However, current wisdom of DDPM fails to preserve image details and color fidelity well, limiting its dehazing capacity for remote sensing images. In this paper, we propose a novel unified Fourier-aware diffusion model for remote sensing image dehazing, termed RSHazeDiff. From a new perspective, RSHazeDiff explores the conditional DDPM to improve image quality in dense hazy scenarios, and it makes three key contributions. First, RSHazeDiff refines the training phase of diffusion process by performing noise estimation and reconstruction constraints in a coarse-to-fine fashion. Thus, it remedies the unpleasing results caused by the simple noise estimation constraint in DDPM. Second, by taking the frequency information as important prior knowledge during iterative sampling steps, RSHazeDiff can preserve more texture details and color fidelity in dehazed images. Third, we design a global compensated learning module to utilize the Fourier transform to capture the global dependency features of input images, which can effectively mitigate the effects of boundary artifacts when processing fixed-size patches. Experiments on both synthetic and real-world benchmarks validate the favorable performance of RSHazeDiff over multiple state-of-the-art methods. Source code will be released at https://github.com/jm-xiong/RSHazeDiff.
翻訳日:2024-05-16 14:26:01 公開日:2024-05-15
# 時間的に制限された固体スマートコントラクト相互作用

Temporarily Restricting Solidity Smart Contract Interactions ( http://arxiv.org/abs/2405.09084v1 )

ライセンス: Link先を確認
Valerian Callens, Zeeshan Meghji, Jan Gorzny, (参考訳) 本研究では,Solidityスマートコントラクト関数を一定期間呼び出す機能を制限する方法について検討する。 我々は,同じトランザクション,ブロック,あるいは時間帯で関数が2回呼び出されることを制限する方法について述べる。 これは、以前の実行内で呼び出すことができる関数である非依存関数の概念に関連している。 これらの手法は、スマートコントラクトの全関数との相互作用を制限するのに使うことができる。 私たちはこのトピックを2つの理由で再検討する動機があります。 まず、2023年に16件の現実世界のスマートコントラクトが悪用され、1億3600万ドル(約133億円)が失われたり盗まれたりした。 この調査では、読み取り専用リテンシ(read-only reentrancy)と呼ばれる、スマートコントラクト状態に一貫性を持たせるために、読み取り専用関数を再入力するエクスプロイトを、新たなタイプのエクスプロイトとして検討しています。 第二に、これらのアプローチのいくつかは単純ですが、Solidityをサポートするさまざまなブロックチェーン間で常に同じように振る舞うとは限りません。

In this work we explore ways to restrict the ability to call Solidity smart contract functions for a specified duration. We describe methods to restrict functions from being called twice in the same transaction, block, or time period. This is related to the notion of non-reentrant functions, which are functions that can be called within a previous execution. These methods can be used to restrict interactions with entire sets of functions of smart contracts. We are motivated to revisit this topic for two reasons. First, we note that sixteen real-world smart contracts exploits in 2023 resulting in over $136M USD lost or stolen that could have been prevented by restricting function calls. As part of this survey, we dissect a new class of exploit that involves so-called read-only reentrancy: exploits that re-enter read-only functions to make smart contract state inconsistent in order to enable their exploitation. Second, while some of these approaches are simple, they may not always behave the same across different blockchains that support Solidity.
翻訳日:2024-05-16 14:26:01 公開日:2024-05-15
# TD3を用いたカオスに基づく強化学習

Chaos-based reinforcement learning with TD3 ( http://arxiv.org/abs/2405.09086v1 )

ライセンス: Link先を確認
Toshitaka Matsuki, Yusuke Sakemi, Kazuyuki Aihara, (参考訳) カオスに基づく強化学習(CBRL)は、エージェントの内部カオス力学が探索を促進する方法である。 このアプローチは、生物学的脳が行動の多様性をいかに生み出し、探索的な方法で学習するかを考えるためのモデルを提供する。 同時に、探索と搾取モードを自動的に切り替える能力と、これまでに学んだことを反映したより高い探索を実現する能力を持つ学習モデルである。 しかし、CBRLの学習アルゴリズムはこれまでの研究では十分に確立されておらず、近年の強化学習の進歩を組み込んでいない。 本研究は、決定論的かつ連続的な行動空間を扱える最先端の深層強化学習アルゴリズムであるTD3(Twin Delayed Deep Deterministic Policy Gradients)をCBRLに導入した。 検証結果はいくつかの洞察を与える。 まず、TD3は単純な目標達成タスクでCBRLの学習アルゴリズムとして機能する。 第2に、TD3を用いたCBRLエージェントは、学習が進むにつれて探索行動が自律的に抑制され、環境の変化とともに探索が再開される。 最後に、エージェントのカオス性が学習に与える影響を調べると、非常に強いカオスが探索と搾取の間の柔軟な切り替えに悪影響を及ぼすことが示された。

Chaos-based reinforcement learning (CBRL) is a method in which the agent's internal chaotic dynamics drives exploration. This approach offers a model for considering how the biological brain can create variability in its behavior and learn in an exploratory manner. At the same time, it is a learning model that has the ability to automatically switch between exploration and exploitation modes and the potential to realize higher explorations that reflect what it has learned so far. However, the learning algorithms in CBRL have not been well-established in previous studies and have yet to incorporate recent advances in reinforcement learning. This study introduced Twin Delayed Deep Deterministic Policy Gradients (TD3), which is one of the state-of-the-art deep reinforcement learning algorithms that can treat deterministic and continuous action spaces, to CBRL. The validation results provide several insights. First, TD3 works as a learning algorithm for CBRL in a simple goal-reaching task. Second, CBRL agents with TD3 can autonomously suppress their exploratory behavior as learning progresses and resume exploration when the environment changes. Finally, examining the effect of the agent's chaoticity on learning shows that extremely strong chaos negatively impacts the flexible switching between exploration and exploitation.
翻訳日:2024-05-16 14:26:01 公開日:2024-05-15
# 次世代ステガナリシスに向けて:LLMがステガナリシス検出の力を解き放つ

Towards Next-Generation Steganalysis: LLMs Unleash the Power of Detecting Steganography ( http://arxiv.org/abs/2405.09090v1 )

ライセンス: Link先を確認
Minhao Bai. Jinshuai Yang, Kaiyi Pang, Huili Wang, Yongfeng Huang, (参考訳) 言語ステガノグラフィーは、特にAI生成技術の出現と共に、メッセージを隠蔽するための便利な実装を提供する。 この技術が悪用される可能性があるため、社会内のセキュリティ上の懸念が高まり、強力な言語的ステガナリシスを呼びかけて、ステガノグラフィーメッセージを含むキャリアを検出する。 既存の手法は、記号統計学の側面から、ステガノグラフテキストと正規テキストの分布差を見つけることに限定されている。 しかし、両テキストの分布の差異は正確には構築が困難であり、現実的なシナリオにおいて既存のメソッドの検出能力を著しく損なう。 そこで本研究では,大規模言語モデル(LLM)のヒューマンライクなテキスト処理能力を用いて,従来の統計的側面に加えて,人間の知覚との違いを実現することを提案する。 具体的には,従来の分類パラダイムではなく,生成パラダイムとしてモデル化することで,LLMの性能を体系的に検討する。 総合的な実験結果から, ジェネレーティブLSMは, 言語的ステガナリシスにおいて有意な優位性を示し, 従来のアプローチとは異なる性能傾向を示した。 結果として、LLMは既存のベースラインをはるかに上回り、LLMのドメインに依存しない能力により、ジェネリックステガナリシスモデルのトレーニングが可能になる(どちらのコードもトレーニングされたモデルもhttps://github.com/ba0z1/Linguistic-Steganalysis-with-LLMsで公開されている)。

Linguistic steganography provides convenient implementation to hide messages, particularly with the emergence of AI generation technology. The potential abuse of this technology raises security concerns within societies, calling for powerful linguistic steganalysis to detect carrier containing steganographic messages. Existing methods are limited to finding distribution differences between steganographic texts and normal texts from the aspect of symbolic statistics. However, the distribution differences of both kinds of texts are hard to build precisely, which heavily hurts the detection ability of the existing methods in realistic scenarios. To seek a feasible way to construct practical steganalysis in real world, this paper propose to employ human-like text processing abilities of large language models (LLMs) to realize the difference from the aspect of human perception, addition to traditional statistic aspect. Specifically, we systematically investigate the performance of LLMs in this task by modeling it as a generative paradigm, instead of traditional classification paradigm. Extensive experiment results reveal that generative LLMs exhibit significant advantages in linguistic steganalysis and demonstrate performance trends distinct from traditional approaches. Results also reveal that LLMs outperform existing baselines by a wide margin, and the domain-agnostic ability of LLMs makes it possible to train a generic steganalysis model (Both codes and trained models are openly available in https://github.com/ba0z1/Linguistic-Steganalysis-with-LLMs).
翻訳日:2024-05-16 14:26:01 公開日:2024-05-15
# マルチカバーのためのセンサネットワーク設計の最適化

Optimizing Sensor Network Design for Multiple Coverage ( http://arxiv.org/abs/2405.09096v1 )

ライセンス: Link先を確認
Lukas Taus, Yen-Hsi Richard Tsai, (参考訳) センサ配置最適化法は広く研究されている。 それらは、既知の環境の監視、5Gタワーの最適な位置、ミサイル防衛システムの配置など、幅広い用途に適用できる。 しかし、センサーの故障や敵の攻撃に関するセンサネットワークの堅牢性と効率性を調べる研究はほとんどない。 本稿では、最小限のセンサを最適化して、所定の数のセンサによって、非単純連結領域の複数のカバレッジを実現することで、この問題に対処する。 本稿では,より効率的で堅牢なセンサネットワークを設計し,ネットワークの最適性に関する理論的境界を導出するための,新しい目的関数(greedy,next-best-view)アルゴリズムを提案する。 さらに,ほぼリアルタイムに計算を行うアルゴリズムを高速化するディープラーニングモデルを導入する。 ディープラーニングモデルは、トレーニング例の生成を必要とする。 それに対応して、トレーニングデータセットの幾何学的特性を理解することは、深層学習技術の性能と訓練過程に重要な洞察を与えることを示す。 最後に,より単純な目的を用いたグレディアプローチの単純な並列バージョンは,非常に競争力が高いことを実証する。

Sensor placement optimization methods have been studied extensively. They can be applied to a wide range of applications, including surveillance of known environments, optimal locations for 5G towers, and placement of missile defense systems. However, few works explore the robustness and efficiency of the resulting sensor network concerning sensor failure or adversarial attacks. This paper addresses this issue by optimizing for the least number of sensors to achieve multiple coverage of non-simply connected domains by a prescribed number of sensors. We introduce a new objective function for the greedy (next-best-view) algorithm to design efficient and robust sensor networks and derive theoretical bounds on the network's optimality. We further introduce a Deep Learning model to accelerate the algorithm for near real-time computations. The Deep Learning model requires the generation of training examples. Correspondingly, we show that understanding the geometric properties of the training data set provides important insights into the performance and training process of deep learning techniques. Finally, we demonstrate that a simple parallel version of the greedy approach using a simpler objective can be highly competitive.
翻訳日:2024-05-16 14:26:01 公開日:2024-05-15
# ランダムゼロ次オラクルを用いたポリアック・ジョジャゼヴィチ関数の最小化

Minimisation of Polyak-Łojasewicz Functions Using Random Zeroth-Order Oracles ( http://arxiv.org/abs/2405.09106v1 )

ライセンス: Link先を確認
Amir Ali Farzin, Iman Shames, (参考訳) ポリアック-\L{}ojasewicz (PL) 関数の最小化のためのゼロ階スキームの適用を考える。 このフレームワークは、関数勾配を推定するためにランダムなオラクルを利用する。 アルゴリズムの非制約ケースにおける大域最小値への収束と、制約ケースにおける大域最小値の近傍への収束と、それに対応する複雑性境界を示す。 理論的結果は数値的な例によって示される。

The application of a zeroth-order scheme for minimising Polyak-\L{}ojasewicz (PL) functions is considered. The framework is based on exploiting a random oracle to estimate the function gradient. The convergence of the algorithm to a global minimum in the unconstrained case and to a neighbourhood of the global minimum in the constrained case along with their corresponding complexity bounds are presented. The theoretical results are demonstrated via numerical examples.
翻訳日:2024-05-16 14:16:04 公開日:2024-05-15
# 仮想環境における安全な人間-ロボットインタラクションのためのガウス過程による動作予測

Motion Prediction with Gaussian Processes for Safe Human-Robot Interaction in Virtual Environments ( http://arxiv.org/abs/2405.09109v1 )

ライセンス: Link先を確認
Stanley Mugisha, Vamsi Krishna Guda, Christine Chevallereau, Damien Chablat, Matteo Zoppi, (参考訳) 人間は様々なタスクを達成するためのツールとして協調ロボットを使用する。 人間とロボットの相互作用は、密接な共有ワークスペースで行われる。 しかし、これらの機械は事故による衝突のリスクを最小限に抑えるため、人間と共同で運用するには安全でなければならない。 安全を確保するには、動作中のトルクの減少や速度制限といった多くの制約が課されるため、多くのタスクを達成するための時間が増加する。 しかし、仮想現実アプリケーションのための間欠的な接触を伴う触覚インターフェースとして協調ロボットを使用するようなアプリケーションでは、速度制限がユーザエクスペリエンスの低下をもたらす。 本研究の目的は,協調作業ロボットの安全性を向上しつつ,協調作業ロボットの効率を向上させることである。 ガウス過程モデルを用いて人間の手の動きを予測し、手の動きと視線に基づく人間の意図検出のための戦略を開発し、仮想環境におけるロボットの時間と人間の安全を改善する。 その後、予測の効果を研究した。 比較の結果,予測モデルはロボットの時間を3倍に改善し,安全性を17倍に改善した。 視線とともに使用すると、ガウスのプロセスモデルによる予測により、ロボットの時間は2\%改善され、安全性は13\%向上した。

Humans use collaborative robots as tools for accomplishing various tasks. The interaction between humans and robots happens in tight shared workspaces. However, these machines must be safe to operate alongside humans to minimize the risk of accidental collisions. Ensuring safety imposes many constraints, such as reduced torque and velocity limits during operation, thus increasing the time to accomplish many tasks. However, for applications such as using collaborative robots as haptic interfaces with intermittent contacts for virtual reality applications, speed limitations result in poor user experiences. This research aims to improve the efficiency of a collaborative robot while improving the safety of the human user. We used Gaussian process models to predict human hand motion and developed strategies for human intention detection based on hand motion and gaze to improve the time for the robot and human security in a virtual environment. We then studied the effect of prediction. Results from comparisons show that the prediction models improved the robot time by 3\% and safety by 17\%. When used alongside gaze, prediction with Gaussian process models resulted in an improvement of the robot time by 2\% and the safety by 13\%.
翻訳日:2024-05-16 14:16:04 公開日:2024-05-15
# CarDreamer: 世界モデルに基づく自律運転のためのオープンソースの学習プラットフォーム

CarDreamer: Open-Source Learning Platform for World Model based Autonomous Driving ( http://arxiv.org/abs/2405.09111v1 )

ライセンス: Link先を確認
Dechen Gao, Shuangyu Cai, Hanchu Zhou, Hang Wang, Iman Soltani, Junshan Zhang, (参考訳) 複雑な現実のシナリオを安全にナビゲートするには、自動運転車は様々な道路条件に適応し、将来の出来事を予測できなければならない。 世界モデルに基づく強化学習(RL)は,様々な環境の複雑な力学を学習し,予測することで,有望なアプローチとして現れてきた。 しかしながら、私たちの知る限りでは、高度な運転環境でそのようなアルゴリズムを訓練し、テストするためのアクセス可能なプラットフォームは存在しない。 この空白を埋めるために、WMベースの自律運転アルゴリズムの開発に特化して設計されたオープンソースの学習プラットフォームであるCarDreamerを紹介します。 主な構成要素は3つある。 1) 世界モデルのバックボーン: CarDreamerは最先端のWMを統合し、RLアルゴリズムの再現を単純化した。 バックボーンは残りの部分から切り離され、標準のGymインターフェースを使って通信する。 2) 内蔵タスク: CarDreamerは、Gymインタフェースと互換性があり、経験的に最適化された報酬関数を備えた、高度に構成可能な運転タスクの包括的なセットを提供する。 3)タスク開発スイート: このスイートは、複数モーダル観測データの自動収集とともに、運転タスクの作成を合理化し、交通の流れや車道の定義を容易にする。 ビジュアライゼーションサーバは、ブラウザを介してビデオやパフォーマンスメトリクスをリアルタイムに駆動するエージェントをトレースすることを可能にする。 さらに,自動運転におけるWMの性能と可能性を評価するために,組込みタスクを用いた広範囲な実験を行った。 また,CarDreamerの豊かさと柔軟性により,車両の安全性と効率性に及ぼす観測モダリティ,可観測性,および車両意図の共有の影響を系統的に検討した。 すべてのコードとドキュメントはhttps://github.com/ucd-dare/CarDreamer.comでアクセスできる。

To safely navigate intricate real-world scenarios, autonomous vehicles must be able to adapt to diverse road conditions and anticipate future events. World model (WM) based reinforcement learning (RL) has emerged as a promising approach by learning and predicting the complex dynamics of various environments. Nevertheless, to the best of our knowledge, there does not exist an accessible platform for training and testing such algorithms in sophisticated driving environments. To fill this void, we introduce CarDreamer, the first open-source learning platform designed specifically for developing WM based autonomous driving algorithms. It comprises three key components: 1) World model backbone: CarDreamer has integrated some state-of-the-art WMs, which simplifies the reproduction of RL algorithms. The backbone is decoupled from the rest and communicates using the standard Gym interface, so that users can easily integrate and test their own algorithms. 2) Built-in tasks: CarDreamer offers a comprehensive set of highly configurable driving tasks which are compatible with Gym interfaces and are equipped with empirically optimized reward functions. 3) Task development suite: This suite streamlines the creation of driving tasks, enabling easy definition of traffic flows and vehicle routes, along with automatic collection of multi-modal observation data. A visualization server allows users to trace real-time agent driving videos and performance metrics through a browser. Furthermore, we conduct extensive experiments using built-in tasks to evaluate the performance and potential of WMs in autonomous driving. Thanks to the richness and flexibility of CarDreamer, we also systematically study the impact of observation modality, observability, and sharing of vehicle intentions on AV safety and efficiency. All code and documents are accessible on https://github.com/ucd-dare/CarDreamer.
翻訳日:2024-05-16 14:16:04 公開日:2024-05-15
# 音声による名前トークン化とマルチタスク学習による関数名予測の強化

Enhancing Function Name Prediction using Votes-Based Name Tokenization and Multi-Task Learning ( http://arxiv.org/abs/2405.09112v1 )

ライセンス: Link先を確認
Xiaoling Zhang, Zhengzi Xu, Shouguo Yang, Zhi Li, Zhiqiang Shi, Limin Sun, (参考訳) リバースエンジニアは、公開バイナリにはない記述関数名から貴重な洞察を得るだろう。 データ駆動機械学習を用いたバイナリ関数名予測の最近の進歩は有望である。 しかし、既存のアプローチでは、多様な最適化されたバイナリで関数のセマンティクスをキャプチャすることは困難であり、関数名にラベルの意味を保存できない。 本稿では,様々なコンパイル最適化バイナリ用に最適化された,投票ベースの名前トークン化とマルチタスク学習を用いた関数名予測を行うフレームワークであるEpitomeを提案する。 Epitomeは、事前訓練されたアセンブリ言語モデルとグラフニューラルネットワークを用いて、関数セマンティクスの類似度予測タスクを導入し、異なるコンパイル最適化レベルのコンテキストにおける関数セマンティクスの類似度を最大化するために、包括的な関数セマンティクスを学習する。 さらに,関数名の理解性を向上する2つのデータ前処理手法を提案する。 我々は,4つのアーキテクチャ(x64,x86,ARM,MIPS)に対して,5つの最適化(O0-Os)でコンパイルされたバイナリから抽出した2,597,346個の関数を用いてエピトームの性能を評価する。 エピトームは最先端の関数名予測ツールを44.34%、64.16%、54.44%の精度、リコール、F1スコアで上回っている。

Reverse engineers would acquire valuable insights from descriptive function names, which are absent in publicly released binaries. Recent advances in binary function name prediction using data-driven machine learning show promise. However, existing approaches encounter difficulties in capturing function semantics in diverse optimized binaries and fail to reserve the meaning of labels in function names. We propose Epitome, a framework that enhances function name prediction using votes-based name tokenization and multi-task learning, specifically tailored for different compilation optimization binaries. Epitome learns comprehensive function semantics by pre-trained assembly language model and graph neural network, incorporating function semantics similarity prediction task, to maximize the similarity of function semantics in the context of different compilation optimization levels. In addition, we present two data preprocessing methods to improve the comprehensibility of function names. We evaluate the performance of Epitome using 2,597,346 functions extracted from binaries compiled with 5 optimizations (O0-Os) for 4 architectures (x64, x86, ARM, and MIPS). Epitome outperforms the state-of-the-art function name prediction tool by up to 44.34%, 64.16%, and 54.44% in precision, recall, and F1 score, while also exhibiting superior generalizability.
翻訳日:2024-05-16 14:16:04 公開日:2024-05-15
# 適応Dense-to-Sparse Constrained OptimizationによるLLMジェイルブレークの効率化

Efficient LLM Jailbreak via Adaptive Dense-to-sparse Constrained Optimization ( http://arxiv.org/abs/2405.09113v1 )

ライセンス: Link先を確認
Kai Hu, Weichen Yu, Tianjun Yao, Xiang Li, Wenhe Liu, Lijun Yu, Yining Li, Kai Chen, Zhiqiang Shen, Matt Fredrikson, (参考訳) 近年の研究では、大きな言語モデル(LLM)が有害なコンテンツを生成するジェイルブレイク攻撃の影響を受けやすいことが示されている。 本稿では,新しいトークンレベル攻撃手法であるAdaptive Dense-to-Sparse Constrained Optimization (ADC)を提案する。 我々の手法は、離散ジェイルブレイク最適化を連続的な最適化に緩和し、最適化ベクトルの間隔を徐々に増加させる。 その結果,離散空間最適化と連続空間最適化のギャップを効果的に埋めることができた。 実験により,本手法は既存のトークンレベル手法よりも効率的かつ効率的であることが確認された。 Harmbenchでは,8つのLSMのうち7つに対して,最先端の攻撃成功率を達成する。 コードは利用可能になる。 トリガー警告(Trigger Warning): 本論文は、自然界で攻撃的なモデル行動を含む。

Recent research indicates that large language models (LLMs) are susceptible to jailbreaking attacks that can generate harmful content. This paper introduces a novel token-level attack method, Adaptive Dense-to-Sparse Constrained Optimization (ADC), which effectively jailbreaks several open-source LLMs. Our approach relaxes the discrete jailbreak optimization into a continuous optimization and progressively increases the sparsity of the optimizing vectors. Consequently, our method effectively bridges the gap between discrete and continuous space optimization. Experimental results demonstrate that our method is more effective and efficient than existing token-level methods. On Harmbench, our method achieves state of the art attack success rate on seven out of eight LLMs. Code will be made available. Trigger Warning: This paper contains model behavior that can be offensive in nature.
翻訳日:2024-05-16 14:16:04 公開日:2024-05-15
# SOEDiff:小さなオブジェクト編集に効率的な蒸留法

SOEDiff: Efficient Distillation for Small Object Editing ( http://arxiv.org/abs/2405.09114v1 )

ライセンス: Link先を確認
Qihe Pan, Zicheng Wang, Zhen Zhao, Yiming Wu, Sifan Long, Haoran Liang, Ronghua Liang, (参考訳) 本稿では,制約のある小領域におけるテキストベースの画像の描画に焦点を当てた,SOE(Small ObjectEditor)と呼ばれる新しいタスクを探索する。 現在のイメージインパインティングアプローチによって顕著な成功を収めたにもかかわらず、SOEタスクへのそれらの適用は一般的に、オブジェクトミス、テキストミスマッチ、歪みなどの障害ケースをもたらす。 これらの失敗は、トレーニングデータセットにおける小さなオブジェクトの使用の制限と、正確な生成を妨げるU-Netモデルで使用されるダウンサンプリング操作に起因している。 これらの課題を克服するために,我々は,StableDiffusionのようなベースラインモデルによる小型オブジェクトの編集能力の向上と,トレーニングコストの最小化を目的とした,新たなトレーニングベースアプローチであるSOEDiffを導入する。 具体的には、低ランク行列を効率よく微調整するSO-LoRAと、事前学習した教師拡散モデルから高分解能予測を利用するクロススケールスコア蒸留損失の2つの重要な要素を含む。 提案手法は,MSCOCOとOpenImageから収集したテストデータセットに有意な改善を加え,小オブジェクト編集における提案手法の有効性を検証した。 特に、OpenImage-fデータセット上のSOEDiffとSD-Iモデルを比較すると、CLIPスコアの0.99の改善とFIDの2.87の削減が観察される。 私たちのプロジェクトページはhttps://soediff.github.io/.com/にある。

In this paper, we delve into a new task known as small object editing (SOE), which focuses on text-based image inpainting within a constrained, small-sized area. Despite the remarkable success have been achieved by current image inpainting approaches, their application to the SOE task generally results in failure cases such as Object Missing, Text-Image Mismatch, and Distortion. These failures stem from the limited use of small-sized objects in training datasets and the downsampling operations employed by U-Net models, which hinders accurate generation. To overcome these challenges, we introduce a novel training-based approach, SOEDiff, aimed at enhancing the capability of baseline models like StableDiffusion in editing small-sized objects while minimizing training costs. Specifically, our method involves two key components: SO-LoRA, which efficiently fine-tunes low-rank matrices, and Cross-Scale Score Distillation loss, which leverages high-resolution predictions from the pre-trained teacher diffusion model. Our method presents significant improvements on the test dataset collected from MSCOCO and OpenImage, validating the effectiveness of our proposed method in small object editing. In particular, when comparing SOEDiff with SD-I model on the OpenImage-f dataset, we observe a 0.99 improvement in CLIP-Score and a reduction of 2.87 in FID. Our project page can be found in https://soediff.github.io/.
翻訳日:2024-05-16 14:16:04 公開日:2024-05-15
# 量子コンピューティングのためのハイブリッドメタソルビング

Hybrid Meta-Solving for Practical Quantum Computing ( http://arxiv.org/abs/2405.09115v1 )

ライセンス: Link先を確認
Domenik Eichhorn, Maximilian Schweikart, Nick Poser, Frederik Fiand, Benedikt Poggel, Jeanette Miriam Lorenz, (参考訳) 量子アルゴリズムの出現は、最適化問題に対する量子スピードアップの可能性について論じ始めた。 しかし、いくつかの要因が潜在的利益の現実的な実現を妨げている。 これには、高度なエラーのない量子ハードウェアの欠如、シームレスな統合とインタラクションのためのアクセス可能なソフトウェアスタックの欠如、現実世界のユースケースに対する理論的優位性を活用するための方法の欠如などが含まれる。 本稿では,最適化問題を解くための,アクセス可能なハイブリッドソフトウェアスタックの構築を目指して,量子技術を活用して解法プロセスを強化するための基本プラットフォームの構築を目的とする。 我々は、古典的および量子最適化技術を組み合わせて、カスタマイズ可能で拡張可能なハイブリッド・ソルビング(Hybrid Meta-Solving)と呼ばれる新しいアプローチを導入する。 数学的問題を古典的あるいは量子的解法によって解ける複数のサブプロブレムに分解し、与えられた問題に対して最適な解法を半自動で構築する手法を提案する。 ProductQツールボックスのプロトタイプで実装されたMeta-Solvingは、量子コンピューティング機能にアクセスするためのインタラクティブなワークフローを提供します。 産業利用におけるメタソルビングの適用性について検討した。 それは、最先端の古典的アルゴリズムを再利用し、それらを量子コンピューティング技術で拡張できることを示しています。 我々の手法は、最先端の古典技術と同じくらい効率的に設計され、将来量子領域の進歩が実現されれば、それらを上回る可能性がある。

The advent of quantum algorithms has initiated a discourse on the potential for quantum speedups for optimization problems. However, several factors still hinder a practical realization of the potential benefits. These include the lack of advanced, error-free quantum hardware, the absence of accessible software stacks for seamless integration and interaction, and the lack of methods that allow us to leverage the theoretical advantages to real-world use cases. This paper works towards the creation of an accessible hybrid software stack for solving optimization problems, aiming to create a fundamental platform that can utilize quantum technologies to enhance the solving process. We introduce a novel approach that we call Hybrid Meta-Solving, which combines classical and quantum optimization techniques to create customizable and extensible hybrid solvers. We decompose mathematical problems into multiple sub-problems that can be solved by classical or quantum solvers, and propose techniques to semi-automatically build the best solver for a given problem. Implemented in our ProvideQ toolbox prototype, Meta-Solving provides interactive workflows for accessing quantum computing capabilities. Our evaluation demonstrates the applicability of Meta-Solving in industrial use cases. It shows that we can reuse state-of-the-art classical algorithms and extend them with quantum computing techniques. Our approach is designed to be at least as efficient as state-of-the-art classical techniques, while having the potential to outperform them if future advances in the quantum domain are made.
翻訳日:2024-05-16 14:16:04 公開日:2024-05-15
# 交差光双極子トラップにおける原子輸送ダイナミクス

Atomic transport dynamics in crossed optical dipole trap ( http://arxiv.org/abs/2405.09116v1 )

ライセンス: Link先を確認
Peng Peng, Zhengxi Zhang, Yaoyuan Fan, Guoling Yin, Dekai Mao, Xuzong Chen, Wei Xiong, Xiaoji Zhou, (参考訳) 交差光双極子トラップにおける低温原子の動的進化を理論的および実験的に研究した。 原子輸送プロセスには、2つの競争力のある物理力学、原子の積み込みと原子の損失が伴う。 通常、ローディングプロセスは地上での蒸発冷却実験では無視されるが、宇宙ステーションでの超低温原子の生成では重要である。 通常、原子の荷重過程は原子の損失過程よりもはるかに弱いが、以前の研究で報告されたように、トラップの中心領域の原子数は単調に減少する。 しかし、原子負荷過程が原子損失過程に匹敵する場合には、トラップの中心領域の原子数は最初最大値まで増加し、その後徐々に減少し、この現象を最初に観察した。 トラップの中心領域における原子数の増加は, 載荷過程の存在を示し, 特に微小重力条件下では顕著である。 実験結果とよく一致する競合関係を理論的に解析するモデルを構築した。 さらに、異なる条件下で予測された進化挙動も与えている。 この研究は、トラップにおける原子輸送過程のさらなる理解のための確かな基盤を提供する。 マイクログラビティ条件下での光双極子トラップにおける超低温原子の生成には, 負荷過程の解析が重要である。

We study the dynamical evolution of cold atoms in crossed optical dipole trap theoretically and experimentally. The atomic transport process is accompanied by two competitive kinds of physical mechanics, atomic loading and atomic loss. The loading process normally is negligible in the evaporative cooling experiment on the ground, while it is significant in the preparation of ultra-cold atoms in the space station. Normally, the atomic loading process is much weaker than the atomic loss process, and the atomic number in the center region of the trap decreases monotonically, as reported in previous research. However, when the atomic loading process is comparable to the atomic loss process, the atomic number in the center region of the trap will initially increase to a maximum value and then slowly decrease, and we have observed the phenomenon first. The increase of atomic number in the center region of the trap shows the presence of the loading process, and this will be significant especially under microgravity conditions. We build a theoretical model to analyze the competitive relationship, which coincides with the experimental results well. Furthermore, we have also given the predicted evolutionary behaviors under different conditions. This research provides a solid foundation for further understanding of the atomic transport process in traps. The analysis of loading process is of significant importance for the preparation of ultra-cold atoms in a crossed optical dipole trap under microgravity conditions.
翻訳日:2024-05-16 14:16:04 公開日:2024-05-15
# ガウス支援インラインホログラフィーを用いた複素数値3次元原子分光法

Complex-valued 3D atomic spectroscopy with Gaussian-assisted inline holography ( http://arxiv.org/abs/2405.09117v1 )

ライセンス: Link先を確認
Xing Huang, Yuzhuo Wang, Jian Zhao, Saijun Wu, (参考訳) レーザー冷却された原子サンプルが光学的に励起されると、コヒーレント前方散乱の包絡はいくつかの複雑なガウスプロファイルに分解される。 ガウス伝播の利便性は、デジタルホログラフィーにおける重要な課題に対処するのに役立つ。 本研究では, 単発ホログラフィにおけるガウス分解支援手法を理論的に開発し, 実験的に実証した。 実験的に,D2線上には$^{87}$Rbのスパース格子を像化し,その軸位置をマイクロメートル精度で解き,複素値の分光像を検索した。 原子数や相互作用強度の不確かさに非常に敏感な位相角の読み出しでは、数百原子の遷移周波数に対して100kHzレベルの単発分解能が得られる。 さらに,マイクロメートル空間分解能による局所光シフトの3次元センシングを実証した。

When a laser-cooled atomic sample is optically excited, the envelope of coherent forward scattering can often be decomposed into a few complex Gaussian profiles. The convenience of Gaussian propagation helps addressing key challenges in digital holography. In this work, we theoretically develop and experimentally demonstrate a Gaussian-decomposition-assisted approach to inline holography, for single-shot, simultaneous measurements of absorption and phase shift of small atomic samples sparsely distributed in 3D. Experimentally, we image a sparse lattice of $^{87}$Rb samples on the D2 line, to resolve their axial positions with micrometer precision, and to retrieve their complex-valued spectroscopic images. With the phase-angle readouts that are highly insensitive to atom-number and interaction-strength uncertainties, we achieve hundred-kHz-level single-shot-resolution to the transition frequency with merely hundreds of atoms. We further demonstrate 3D sensing of local light shift with micrometer spatial resolution.
翻訳日:2024-05-16 14:16:04 公開日:2024-05-15
# BonnBot-I Plus: 精密雑草管理ロボットプラットフォーム

BonnBot-I Plus: A Bio-diversity Aware Precise Weed Management Robotic Platform ( http://arxiv.org/abs/2405.09118v1 )

ライセンス: Link先を確認
Alireza Ahmadi, Michael Halstead, Claus Smitt, Chris McCool, (参考訳) 本稿では,農場における植物保護の重要課題に焦点をあて,農業における現代的課題に対処し,環境学的考察を \bbot のような精密雑草ロボットの運用戦略に統合する。 本稿では, ボン大学クライン・アルテンドルフ校における雑草管理アルゴリズムの最近の進歩と, 実社会におけるパフォーマンスについて述べる。 本報告では,BonnBot-Is雑草監視部における新たなローリングビュー観測モデルについて述べる。 さらに, 精密雑草ロボットが, 雑草シナリオに挑戦する上で, 生物多様性に配慮した懸念をいかに考慮できるかを, 初めて明らかにした。 我々は、サトウキビ畑における雑草実験を行い、雑草のみと雑草の混交状況の両方を網羅し、精密雑草に対応する新しいデータセットを導入した。 我々の実地実験では、我々の雑草のアプローチは多様な雑草の分布を扱うことができ、介入計画に起因する損失は11.66\%$とビジョンシステムの制限により14.7\%と最小限に抑えられた。

In this article, we focus on the critical tasks of plant protection in arable farms, addressing a modern challenge in agriculture: integrating ecological considerations into the operational strategy of precision weeding robots like \bbot. This article presents the recent advancements in weed management algorithms and the real-world performance of \bbot\ at the University of Bonn's Klein-Altendorf campus. We present a novel Rolling-view observation model for the BonnBot-Is weed monitoring section which leads to an average absolute weeding performance enhancement of $3.4\%$. Furthermore, for the first time, we show how precision weeding robots could consider bio-diversity-aware concerns in challenging weeding scenarios. We carried out comprehensive weeding experiments in sugar-beet fields, covering both weed-only and mixed crop-weed situations, and introduced a new dataset compatible with precision weeding. Our real-field experiments revealed that our weeding approach is capable of handling diverse weed distributions, with a minimal loss of only $11.66\%$ attributable to intervention planning and $14.7\%$ to vision system limitations highlighting required improvements of the vision system.
翻訳日:2024-05-16 14:16:04 公開日:2024-05-15
# ノイズ量子プロセッサを用いた半導体材料のフルバンド構造計算

Full Band Structure Calculation of Semiconducting Materials on a Noisy Quantum Processor ( http://arxiv.org/abs/2405.09122v1 )

ライセンス: Link先を確認
Shaobo Zhang, Akib Karim, Harry M. Quiney, Muhammad Usman, (参考訳) 量子化学は量子コンピューティングの時代において有望な応用であり、量子力学の独特な効果は古典的に量子コンピュータ上で制御可能である。 フェルミオン自由度は量子ビットに効率よくエンコードすることができ、量子方程式-運動法のようなアルゴリズムで量子系のエネルギースペクトル全体を見つけることができる。 本稿では,一般化固有値方程式の次元性を低減し,量子方程式よりも要求される測定量を半分に減らし,アルゴリズムの高速化と実機での雑音蓄積の低減を図った。 特に,2つのノイズモデルにおける本手法の性能を解析し,IBM量子プロセッサを用いたバルクシリコンおよびガリウムアルセナイドの励起エネルギーを算出する。 提案手法は均一な偏極誤差に対して完全に頑健であり、適切な原子軌道の複雑さの選択は実雑音下でのアルゴリズムの堅牢性を高めることを実証する。 また、複数の実験の平均値を取ると、正確な値の回りのゆらぎにより、正しいエネルギーになる傾向がある。 この手法のノイズレジリエンスは、現在の量子デバイスで量子化学の問題を解決するために利用することができる。

Quantum chemistry is a promising application in the era of quantum computing since the unique effects of quantum mechanics that take exponential growing resources to simulate classically are controllable on quantum computers. Fermionic degrees of freedom can be encoded efficiently onto qubits and allow for algorithms such as the Quantum Equation-of-Motion method to find the entire energy spectrum of a quantum system. In this paper, we propose the Reduced Quantum Equation-of-Motion method by reducing the dimensionality of its generalized eigenvalue equation, which results in half the measurements required compared to the Quantum Equation-of-Motion method, leading to speed up the algorithm and less noise accumulation on real devices. In particular, we analyse the performance of our method on two noise models and calculate the excitation energies of a bulk Silicon and Gallium Arsenide using our method on an IBM quantum processor. Our method is fully robust to the uniform depolarizing error and we demonstrate that the selection of suitable atomic orbital complexity could increase the robustness of our algorithm under real noise. We also find that taking the average of multiple experiments tends towards the correct energies due to the fluctuations around the exact values. Such noise resilience of our approach could be used on current quantum devices to solve quantum chemistry problems.
翻訳日:2024-05-16 14:16:04 公開日:2024-05-15
# HAAP:シーンテキスト認識のための適応置換を用いた視覚コンテキスト階層型アテンション自動回帰

HAAP: Vision-context Hierarchical Attention Autoregressive with Adaptive Permutation for Scene Text Recognition ( http://arxiv.org/abs/2405.09125v1 )

ライセンス: Link先を確認
Honghui Chen, Yuhang Qiu, Jiabao Wang, Pingping Chen, Nam Ling, (参考訳) 内部言語モデル(LM)に基づく手法は、外部のLMに基づく手法で条件独立性に起因する誤り訂正を解決するために置換言語モデリング(PLM)を用いる。 しかし、人間の干渉のランダムな置換はモデルトレーニングに適合する振動を引き起こし、多重モーダル情報デカップリングを改善するための反復リファインメント(IR)操作も追加のオーバーヘッドをもたらす。 これらの問題に対処するために,適応的置換を用いた階層的注意自己回帰モデル(HAAP)を提案し,位置・コンテキスト・イメージ間相互作用の能力を高め,内部LMによる自己回帰一般化を改善する。 まず,Implicit Permutation Neurons (IPN) を用いて,トークン依存を動的に活用する適応型アテンションマスクを提案する。 適応マスクはトレーニングデータの多様性を高め、特定の順序によるモデル依存を防止する。 PLMのトレーニングオーバーヘッドを低減し、トレーニング適合振動を回避する。 第2に、コンテキストと画像の特徴を結合するクロスモーダル階層型アテンション機構(CHA)を開発する。 この処理は、IRを避けながらコンテキストと画像間のリッチな位置意味的依存関係を確立する。 大規模な実験結果から,提案したHAAPは,複数のデータセット上での精度,複雑性,レイテンシの観点から,最先端(SOTA)のパフォーマンスを実現している。

Internal Language Model (LM)-based methods use permutation language modeling (PLM) to solve the error correction caused by conditional independence in external LM-based methods. However, random permutations of human interference cause fit oscillations in the model training, and Iterative Refinement (IR) operation to improve multimodal information decoupling also introduces additional overhead. To address these issues, this paper proposes the Hierarchical Attention autoregressive Model with Adaptive Permutation (HAAP) to enhance the location-context-image interaction capability, improving autoregressive generalization with internal LM. First, we propose Implicit Permutation Neurons (IPN) to generate adaptive attention masks to dynamically exploit token dependencies. The adaptive masks increase the diversity of training data and prevent model dependency on a specific order. It reduces the training overhead of PLM while avoiding training fit oscillations. Second, we develop Cross-modal Hierarchical Attention mechanism (CHA) to couple context and image features. This processing establishes rich positional semantic dependencies between context and image while avoiding IR. Extensive experimental results show the proposed HAAP achieves state-of-the-art (SOTA) performance in terms of accuracy, complexity, and latency on several datasets.
翻訳日:2024-05-16 14:16:04 公開日:2024-05-15
# 量子熱機械の浮き彫り工学:その性能を最適化するための勾配に基づく手順

Floquet engineering of quantum thermal machines: A gradient-based procedure to optimize their performance ( http://arxiv.org/abs/2405.09126v1 )

ライセンス: Link先を確認
Alberto Castro, (参考訳) 量子サーマルエンジン (QTM) の最適条件を求める手法について述べ, 実演した。 QTMは開量子系の周期的に駆動される非平衡定常状態としてモデル化され、その力学はマルコフのマスター方程式で近似される。 外部剤の作用と熱貯水池との結合は制御関数で変調することができ、これらの制御関数の時間依存的な形状が最適化の対象となる。 これらの関数は自由にパラメータ化することができ、実験的あるいは物理的要求に応じて解を制約することができる。

A procedure to find optimal regimes for quantum thermal engines (QTMs) is described and demonstrated. The QTMs are modelled as the periodically-driven non-equilibrium steady states of open quantum systems, whose dynamics is approximated in this work with Markovian master equations. The action of the external agent, and the couplings to the heat reservoirs can be modulated with control functions, and it is the time-dependent shape of these control functions the object of optimisation. Those functions can be freely parameterised, which permits to constrain the solutions according to experimental or physical requirements.
翻訳日:2024-05-16 14:16:04 公開日:2024-05-15
# 量子増幅同時量子古典通信

Quantum-Amplified Simultaneous Quantum-Classical Communications ( http://arxiv.org/abs/2405.09127v1 )

ライセンス: Link先を確認
Nicholas Zaunders, Ziqing Wang, Timothy C. Ralph, Ryan Aguinaldo, Robert Malaney, (参考訳) 古典的自由空間光学(FSO)通信は、従来の無線技術と比較して膨大なデータスループットを約束する。 ここでは、インフラとエネルギー入力の両方において、古典的なFSOシステムを最小限に修正して、古典的な通信と共存する量子通信の要素を提供するにはどうすればよいか、という問題について調べる。 この問題に対処するために、衛星上の古典的FSOエンコーディングにガウス的変位を加え、古典的および量子的通信スループットの組み合わせに関する所定の仕様を満たす最小の信号要件を決定する。 次に、独立量子通信において有利であることが証明された受信機に埋め込まれた拡張量子ベースの増幅器が、従来の量子通信のスループットを向上できるかどうかを検討する。 しかし、スタンドアローンの量子通信とは対照的に、余分なレシーバの複雑さを犠牲にしているだけである。 このさらなる複雑さは、受信機にビームスプリッターと2つのヘテロダイン検出器を付加する形を取る。 この結果から,設計変更を最小限に抑えた古典的FSOシステムから量子通信を実現するための有効な経路が示唆された。

Classical free-space optical (FSO) communication promises massive data throughput rates relative to traditional wireless technologies - an attractive outcome now being pursued in the context of satellite-ground, inter-satellite and deep-space communications. The question we investigate here is: how can we minimally alter classical FSO systems, both in infrastructure and in energy input, to provide some element of quantum communication coexisting with classical communications? To address this question, we explore additional Gaussian displacements to classical FSO encoding on the satellite, determining the minimum signal requirements that will meet given specifications on the combined classical and quantum communications throughput. We then investigate whether enhanced quantum-based amplifiers embedded in receivers, which have proven advantageous in standalone quantum communication, can enhance our combined classical-quantum communication throughput. We show how this is indeed the case, but only at the cost of some additional receiver complexity, relative to standalone quantum communications. This additional complexity takes the form of an additional beamsplitter and two heterodyne detectors at the receiver. Our results illustrate a viable pathway to realising quantum communication from classical FSO systems with minimal design changes.
翻訳日:2024-05-16 14:16:04 公開日:2024-05-15
# 文脈積分ゲーム

Contextual Integrity Games ( http://arxiv.org/abs/2405.09130v1 )

ライセンス: Link先を確認
Ran Wolff, (参考訳) 文脈整合性モデルは、口語的に「プライバシー規範」と呼ばれる複数の規範を解析する方法として広く受け入れられている。 文脈整合性は、関係するデータの種類、関係する3つの社会的エージェント(オブジェクト、送信者、受信者)、情報の転送を管理する伝達原理を区別することによって、このような規範を体系的に記述する。 プライバシの規範を分析して、それらのエージェント同士のインタラクションへの影響を分析できる。 本稿では,厳密なゲーム理論の枠組みに文脈整合性を置く。 第一に、いくつかのプライバシ規範の不可分な実用的正当化を可能にする。 第二に、技術者や経済学者など、教育が主に定量的であるステークホルダーによってよく理解されているトピックにプライバシーを関連付けるのがよい。 第3に、AIエージェントのような機械に対する倫理的制約を記述する場合、絶対的な必要性である。 パラダイム的な情報規範を捉えたゲームを記述することに加えて、ゲーム自体が規範的行動を奨励しないケースも分析する。 本稿は,このような場合にゲームに適用可能な2つの主要なメカニズムについて論じ,それらが受容されたプライバシ規制と技術を反映していることを示す。

The contextual integrity model is a widely accepted way of analyzing the plurality of norms that are colloquially called "privacy norms". Contextual integrity systematically describes such norms by distinguishing the type of data concerned, the three social agents involved (subject, sender, and recipient) and the transmission principle governing the transfer of information. It allows analyzing privacy norms in terms of their impact on the interaction of those agents with one another. This paper places contextual integrity in a strict game theoretic framework. When such description is possible it has three key advantages: Firstly, it allows indisputable utilitarian justification of some privacy norms. Secondly, it better relates privacy to topics which are well understood by stakeholders whose education is predominantly quantitative, such as engineers and economists. Thirdly, it is an absolute necessity when describing ethical constraints to machines such as AI agents. In addition to describing games which capture paradigmatic informational norms, the paper also analyzes cases in which the game, per se, does not encourage normative behavior. The paper discusses two main forms of mechanisms which can be applied to the game in such cases, and shows that they reflect accepted privacy regulation and technologies.
翻訳日:2024-05-16 14:16:04 公開日:2024-05-15
# RobustMVS: 単一ドメインの一般化されたディープマルチビューステレオ

RobustMVS: Single Domain Generalized Deep Multi-view Stereo ( http://arxiv.org/abs/2405.09131v1 )

ライセンス: Link先を確認
Hongbin Xu, Weitao Chen, Baigui Sun, Xuansong Xie, Wenxiong Kang, (参考訳) MVS(Multi-view Stereo)アプローチの優れたパフォーマンスには多くのトレーニングサンプルが与えられたが、未確認領域への一般化時のパフォーマンス劣化はまだ明らかにされていない。 本研究では,MVSにおける領域一般化問題に焦点をあてる。 一般化結果を評価するため,合成および実世界のデータセットを含む新しいMVS領域一般化ベンチマークを構築した。 従来のドメイン一般化ベンチマークとは対照的に、トレーニング用に1つのソースドメインしか利用できない、より現実的で難しいシナリオを考えます。 MVS問題は特徴マッチングタスクに類似することができ、ビュー間のロバストな特徴一貫性を維持することが、一般化性能を向上させる重要な要素である。 MVSにおける領域一般化問題に対処するために,新しいMVSフレームワーク,すなわちRobustMVSを提案する。 DepthClustering-guided Whitening (DCW) の損失はさらに、異なるビュー間の特徴一貫性を維持するために導入された。 さらに,本手法は領域一般化ベンチマークにおいて優れた性能を示すことを示す。

Despite the impressive performance of Multi-view Stereo (MVS) approaches given plenty of training samples, the performance degradation when generalizing to unseen domains has not been clearly explored yet. In this work, we focus on the domain generalization problem in MVS. To evaluate the generalization results, we build a novel MVS domain generalization benchmark including synthetic and real-world datasets. In contrast to conventional domain generalization benchmarks, we consider a more realistic but challenging scenario, where only one source domain is available for training. The MVS problem can be analogized back to the feature matching task, and maintaining robust feature consistency among views is an important factor for improving generalization performance. To address the domain generalization problem in MVS, we propose a novel MVS framework, namely RobustMVS. A DepthClustering-guided Whitening (DCW) loss is further introduced to preserve the feature consistency among different views, which decorrelates multi-view features from viewpoint-specific style information based on geometric priors from depth maps. The experimental results further show that our method achieves superior performance on the domain generalization benchmark.
翻訳日:2024-05-16 14:06:01 公開日:2024-05-15
# EFACT:静的バイナリリフティングを強化するための外部機能自動補完ツール

EFACT: an External Function Auto-Completion Tool to Strengthen Static Binary Lifting ( http://arxiv.org/abs/2405.09132v1 )

ライセンス: Link先を確認
Yilei Zhang, Haoyu Liao, Zekun Wang, Bo Huang, Jianmei Guo, (参考訳) 静的バイナリリフトはバイナリ書き換えフレームワークに不可欠である。 既存のツールは、静的バイナリリフトにおける外部関数補完(EXFC)の影響を見落としている。 EXFCは、利用可能な関数シンボルのみを使用して、外部関数(EXF、標準共有ライブラリで定義された関数)のプロトタイプを復元する。 不正なEXFCは、ソースバイナリを誤解釈したり、静的バイナリ変換でメモリオーバーフローを引き起こして、最終的にプログラムがクラッシュする。 特に、既存のツールは、C++からコンパイルされたバイナリから派生したmangled EXFのプロトタイプの復元に苦労している。 さらに、新しいライブラリをサポートするのに時間を要する手作業の処理も必要です。 本稿では,静的リフティングのための外部関数自動補完ツールEFACTを提案する。 我々のEXFリカバリアルゴリズムは、特にC++のテンプレート特殊化機構に対処するため、mangled EXFsのプロトタイプをよりよく回収する。 EFACTはEXFCの他の静的バイナリ書き換えフレームワークを強化するための軽量なプラグインとして設計されている。 EFACT は SPEC CPU 2017 においてEXFリカバリにおいて RetDec と McSema を96.4%,97.3% で上回った。 さらに,静的バイナリ変換を深く掘り下げ,いくつかのクロスISA EXFC問題に対処する。 McSemaと統合すると、EFACTはx86-64からx86-64への36.7%、x86-64からAArch64への93.6%のベンチマークをEEMBC上のMcSema単独よりも正確に翻訳する。

Static binary lifting is essential in binary rewriting frameworks. Existing tools overlook the impact of External Function Completion (EXFC) in static binary lifting. EXFC recovers the prototypes of External Functions (EXFs, functions defined in standard shared libraries) using only the function symbols available. Incorrect EXFC can misinterpret the source binary, or cause memory overflows in static binary translation, which eventually results in program crashes. Notably, existing tools struggle to recover the prototypes of mangled EXFs originating from binaries compiled from C++. Moreover, they require time-consuming manual processing to support new libraries. This paper presents EFACT, an External Function Auto-Completion Tool for static binary lifting. Our EXF recovery algorithm better recovers the prototypes of mangled EXFs, particularly addressing the template specialization mechanism in C++. EFACT is designed as a lightweight plugin to strengthen other static binary rewriting frameworks in EXFC. Our evaluation shows that EFACT outperforms RetDec and McSema in mangled EXF recovery by 96.4% and 97.3% on SPEC CPU 2017. Furthermore, we delve deeper into static binary translation and address several cross-ISA EXFC problems. When integrated with McSema, EFACT correctly translates 36.7% more benchmarks from x86-64 to x86-64 and 93.6% more from x86-64 to AArch64 than McSema alone on EEMBC.
翻訳日:2024-05-16 14:06:01 公開日:2024-05-15
# オンライン連続学習におけるドメインドリフトの克服

Overcoming Domain Drift in Online Continual Learning ( http://arxiv.org/abs/2405.09133v1 )

ライセンス: Link先を確認
Fan Lyu, Daofeng Liu, Linglan Zhao, Zhang Zhang, Fanhua Shang, Fuyuan Hu, Wei Feng, Liang Wang, (参考訳) オンライン連続学習(OCL)は、機械学習モデルに一連のタスクで新しい知識をオンラインで取得する権限を与える。 しかし、OCLは重大な課題に直面している:破滅的な忘れ込み、そこでは、以前のタスクで学んだモデルは、新しいタスクに遭遇したときに実質的に上書きされ、以前の知識をバイアスで忘れてしまう。 さらに、逐次学習タスクにおける連続的なドーマンドリフトは、学習した特徴空間における決定境界の段階的なずれを伴い、学習した知識を忘れるおそれがある。 そこで,本稿では,古いタスクのドメインを固定し,負の転送効果を低減するために,Drift-Reducing Rehearsal(DRR)と呼ばれる新しいリハーサル戦略を提案する。 まず,データストリーム内に構築されたセントロイドによってガイドされる,より代表的なサンプルのメモリを選択することを提案する。 そこで, モデルがドリフトの領域カオスから遠ざけるために, クラス内およびタスク内コンパクト性を促進し, クラス間およびタスク間差を増大させるため, 2段角クロスタスク・コントラスト・マージン・ロス(CML)を提案する。 最後に, 連続的なドメインドリフトを抑制するため, リハーサルメモリにオプションのCentorid Distillation Loss (CDL) を配置し, 従来のタスクごとに特徴空間の知識を固定する。 4つのベンチマークデータセットの大規模な実験結果から、提案したDRRが連続的なドメインドリフトを効果的に軽減し、OCLにおけるSOTA(State-of-the-art)性能を達成することが検証された。

Online Continual Learning (OCL) empowers machine learning models to acquire new knowledge online across a sequence of tasks. However, OCL faces a significant challenge: catastrophic forgetting, wherein the model learned in previous tasks is substantially overwritten upon encountering new tasks, leading to a biased forgetting of prior knowledge. Moreover, the continual doman drift in sequential learning tasks may entail the gradual displacement of the decision boundaries in the learned feature space, rendering the learned knowledge susceptible to forgetting. To address the above problem, in this paper, we propose a novel rehearsal strategy, termed Drift-Reducing Rehearsal (DRR), to anchor the domain of old tasks and reduce the negative transfer effects. First, we propose to select memory for more representative samples guided by constructed centroids in a data stream. Then, to keep the model from domain chaos in drifting, a two-level angular cross-task Contrastive Margin Loss (CML) is proposed, to encourage the intra-class and intra-task compactness, and increase the inter-class and inter-task discrepancy. Finally, to further suppress the continual domain drift, we present an optional Centorid Distillation Loss (CDL) on the rehearsal memory to anchor the knowledge in feature space for each previous old task. Extensive experimental results on four benchmark datasets validate that the proposed DRR can effectively mitigate the continual domain drift and achieve the state-of-the-art (SOTA) performance in OCL.
翻訳日:2024-05-16 14:06:01 公開日:2024-05-15
# パルスベース量子機械学習モデルにおける制御可能性の役割について

On the Role of Controllability in Pulse-based Quantum Machine Learning Models ( http://arxiv.org/abs/2405.09135v1 )

ライセンス: Link先を確認
Han-Xiao Tao, Re-Bing Wu, (参考訳) パルスベース量子機械学習(QML)モデルは、アンサンブル制御可能なときに完全な表現性を持つ。 しかし、このようなモデルではバレンプラトーが出現し、大きな次元のシステムでは訓練が難しくなることが示されている。 本稿では、このトレードオフが、基礎となるパルスベースモデルの制御可能性と密接に関連していることを示す。 まず、Fliess-Series展開をパルスベースQMLモデルに適用し、制御系構造がモデル表現性に及ぼす影響を検証し、一般的なQMLモデルの表現性を評価する普遍的な基準を導出する。 この基準に導かれ、低次元多様体上のパルスベースモデルの設計が、表現性と訓練可能性のバランスをとることを実証する。 最後に, モデルがサブ多様体上で限定的な制御性で設計されている場合, 次元性の増大は表現性を高めるが, バレン高原は避けることを示す。 提案手法はパルスベースのQMLモデルの設計に有望な経路を提供する。

Pulse-based quantum machine learning (QML) models possess full expressivity when they are ensemble controllable. However, it has also been shown that barren plateaus emerge in such models, rendering training intractable for systems with large dimension. In this paper, we show that the trade-off is closely related to the controllability of the underlying pulse-based models. We first apply the Fliess-series expansion to pulse-based QML models to investigate the effect of control system structure on model expressivity, which leads to a universal criterion for assessing the expressivity of generic QML models. Guided by this criterion, we then demonstrate how designing pulse-based models on low-dimensional manifolds can balance expressivity and trainability. Finally, numerical experiments are carried out to verify the proposed criterion and our analysis, which futher demonstrate that increasing dimensionality enhances expressivity but avoids barren plateaus if the model is designed with limited controllability on a submanifold. Our approach provides a promising path for designing pulse-based QML models that are both highly expressive and trainable.
翻訳日:2024-05-16 14:06:01 公開日:2024-05-15
# OpenGait: より良い実践性に向けた歩行認識のための総合的なベンチマーク研究

OpenGait: A Comprehensive Benchmark Study for Gait Recognition towards Better Practicality ( http://arxiv.org/abs/2405.09138v1 )

ライセンス: Link先を確認
Chao Fan, Saihui Hou, Junhao Liang, Chuanfu Shen, Jingzhe Ma, Dongyang Jin, Yongzhen Huang, Shiqi Yu, (参考訳) 遠隔地からの人物識別のための急速に進歩する視覚技術である歩行認識は、屋内環境において大きな進歩を遂げている。 しかし、既存の手法が新しくリリースされた実世界の歩行データセットに適用された場合、しばしば不満足な結果をもたらすことが証拠として示されている。 さらに,屋内歩行データから得られた結論は,屋外への一般化が困難である。 そのため,本研究の主な目的は,性能向上にのみ焦点をあてるのではなく,実用性向上を目的とした総合的なベンチマーク研究を行うことである。 そこで我々はまず,フレキシブルで効率的な歩行認識プラットフォームOpenGaitを開発した。 また,OpenGaitを基盤として,近年の歩行認識の進展を再考するため,詳細なアブレーション実験を実施している。 意外なことに、特定の先行手法の不完全な部分を検出することで、批判的だが発見されていないいくつかの洞察が得られる。 これらの知見に触発されて,DeepGaitV2,SkeletonGait,SkeletonGait++の3つの構造的単純かつ実用的に堅牢なベースラインモデルを開発した。 より重要なことは、SoTAのパフォーマンスの達成以外にも、我々の慎重な調査は、深層歩行モデルのモデリング経験、典型的な歩行モダリティの表現能力等に新たな光を当てています。 この研究が、より良い実践性に向けた歩行認識のさらなる研究と応用を刺激することを期待している。 コードはhttps://github.com/ShiqiYu/OpenGait.comで入手できる。

Gait recognition, a rapidly advancing vision technology for person identification from a distance, has made significant strides in indoor settings. However, evidence suggests that existing methods often yield unsatisfactory results when applied to newly released real-world gait datasets. Furthermore, conclusions drawn from indoor gait datasets may not easily generalize to outdoor ones. Therefore, the primary goal of this work is to present a comprehensive benchmark study aimed at improving practicality rather than solely focusing on enhancing performance. To this end, we first develop OpenGait, a flexible and efficient gait recognition platform. Using OpenGait as a foundation, we conduct in-depth ablation experiments to revisit recent developments in gait recognition. Surprisingly, we detect some imperfect parts of certain prior methods thereby resulting in several critical yet undiscovered insights. Inspired by these findings, we develop three structurally simple yet empirically powerful and practically robust baseline models, i.e., DeepGaitV2, SkeletonGait, and SkeletonGait++, respectively representing the appearance-based, model-based, and multi-modal methodology for gait pattern description. Beyond achieving SoTA performances, more importantly, our careful exploration sheds new light on the modeling experience of deep gait models, the representational capacity of typical gait modalities, and so on. We hope this work can inspire further research and application of gait recognition towards better practicality. The code is available at https://github.com/ShiqiYu/OpenGait.
翻訳日:2024-05-16 14:06:01 公開日:2024-05-15
# 教師なし異常検出のための階層的特徴再構成オートエンコーダ

A Hierarchically Feature Reconstructed Autoencoder for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2405.09148v1 )

ライセンス: Link先を確認
Honghui Chen, Pingping Chen, Huan Mao, Mengxi Jiang, (参考訳) 手動のアノテーションや事前知識のない異常検出と位置決めは、教師なし学習の設定下では難しい課題である。 既存の研究は異常検出において優れた性能を発揮するが、複雑なネットワークや煩雑なパイプラインがある。 この問題に対処するために,本研究では,異常検出における簡易かつ効果的なアーキテクチャについて検討する。 それは、階層的な特徴表現を抽出するための十分に訓練されたエンコーダと、これらの中間的特徴をエンコーダから再構成するデコーダで構成されている。 特に、トレーニングのためにデータ拡張や異常なイメージを一切必要としない。 復号器が機能再構成に失敗すると異常を検知し、階層的特徴再構成の誤差を異常マップに集約して異常局所化を実現する。 エンコーダとデコードの特徴の差分比較は,従来の1つの特徴比較やピクセル・バイ・ピクセル比較よりも精度が高く,ロバストなローカライズ結果をもたらす。 実験の結果,本手法は,MNIST,Fashion-MNIST,CIFAR-10,MVTec異常検出データセットにおいて,異常検出と局所化の両方において,最先端の手法よりも優れていることがわかった。

Anomaly detection and localization without any manual annotations and prior knowledge is a challenging task under the setting of unsupervised learning. The existing works achieve excellent performance in the anomaly detection, but with complex networks or cumbersome pipelines. To address this issue, this paper explores a simple but effective architecture in the anomaly detection. It consists of a well pre-trained encoder to extract hierarchical feature representations and a decoder to reconstruct these intermediate features from the encoder. In particular, it does not require any data augmentations and anomalous images for training. The anomalies can be detected when the decoder fails to reconstruct features well, and then errors of hierarchical feature reconstruction are aggregated into an anomaly map to achieve anomaly localization. The difference comparison between those features of encoder and decode lead to more accurate and robust localization results than the comparison in single feature or pixel-by-pixel comparison in the conventional works. Experiment results show that the proposed method outperforms the state-of-the-art methods on MNIST, Fashion-MNIST, CIFAR-10, and MVTec Anomaly Detection datasets on both anomaly detection and localization.
翻訳日:2024-05-16 14:06:01 公開日:2024-05-15
# カリキュラムデータセット蒸留

Curriculum Dataset Distillation ( http://arxiv.org/abs/2405.09150v1 )

ライセンス: Link先を確認
Zhiheng Ma, Anjia Cao, Funing Yang, Xing Wei, (参考訳) ほとんどのデータセット蒸留法は、計算とメモリの要求がかなり大きいため、大規模なデータセットに対応するのに苦労している。 本稿では,スケーラビリティと効率の調和を図ったカリキュラムベースのデータセット蒸留フレームワークを提案する。 この枠組みは、合成画像を戦略的に蒸留し、単純なものから複雑なものへと遷移するカリキュラムに固執する。 カリキュラム評価を取り入れることで、均一で簡素な画像を生成する従来の手法の課題に対処し、管理可能な計算コストで解決する。 さらに, 合成画像に対する敵対的最適化を導入して, 蒸留に関わるニューラルネットワークに対する代表性の向上と, オーバーフィットに対する保護を図る。 これにより、様々なニューラルネットワークアーキテクチャにまたがる蒸留画像の一般化能力が向上し、ノイズに対する堅牢性も向上する。 大規模なデータセット蒸留に新たなベンチマークを設定し,Tiny-ImageNetで11.1\%,ImageNet-1Kで9.0\%,ImageNet-21Kで7.3\%の大幅な改善を実現した。 ソースコードはコミュニティに公開される予定だ。

Most dataset distillation methods struggle to accommodate large-scale datasets due to their substantial computational and memory requirements. In this paper, we present a curriculum-based dataset distillation framework designed to harmonize scalability with efficiency. This framework strategically distills synthetic images, adhering to a curriculum that transitions from simple to complex. By incorporating curriculum evaluation, we address the issue of previous methods generating images that tend to be homogeneous and simplistic, doing so at a manageable computational cost. Furthermore, we introduce adversarial optimization towards synthetic images to further improve their representativeness and safeguard against their overfitting to the neural network involved in distilling. This enhances the generalization capability of the distilled images across various neural network architectures and also increases their robustness to noise. Extensive experiments demonstrate that our framework sets new benchmarks in large-scale dataset distillation, achieving substantial improvements of 11.1\% on Tiny-ImageNet, 9.0\% on ImageNet-1K, and 7.3\% on ImageNet-21K. The source code will be released to the community.
翻訳日:2024-05-16 14:06:01 公開日:2024-05-15
# 特徴融合ネットワークを用いた人・機械用スケーラブル画像符号化

Scalable Image Coding for Humans and Machines Using Feature Fusion Network ( http://arxiv.org/abs/2405.09152v1 )

ライセンス: Link先を確認
Takahiro Shindo, Taiju Watanabe, Yui Tatsumi, Hiroshi Watanabe, (参考訳) 画像認識モデルがより普及するにつれて、機械や人間のスケーラブルなコーディング方法がより重要になる。 画像認識モデルの応用例としては、交通監視と農業管理がある。 これらのユースケースでは、スケーラブルな符号化手法が有効であることが証明される。 人間や機械の既存の画像圧縮手法は、これらの要件をある程度満たしている。 しかし,これらの圧縮法は特定の画像認識モデルにのみ有効である。 本稿では,多数の画像認識モデルと互換性のある人や機械を対象とした,学習に基づくスケーラブルな画像符号化手法を提案する。 我々は,機械用画像圧縮モデルと圧縮モデルを組み合わせて,人間の画像復号を容易にするための追加情報を提供する。 これらの圧縮モデルの特徴は、効率的な画像圧縮を実現するために、特徴融合ネットワークを用いて融合される。 本手法では,特徴融合ネットワークにおいて,異なるサイズの特徴の組み合わせを可能とし,パラメータ数を削減するために,付加的な情報圧縮モデルを調整する。 提案手法では,パラメータ数を削減しつつ,画像圧縮モデルを効率よく組み合わせることを確認する。 さらに、デコードされた画像の品質とビットレートの観点から画像圧縮性能を評価することにより、提案手法の有効性を実証する。

As image recognition models become more prevalent, scalable coding methods for machines and humans gain more importance. Applications of image recognition models include traffic monitoring and farm management. In these use cases, the scalable coding method proves effective because the tasks require occasional image checking by humans. Existing image compression methods for humans and machines meet these requirements to some extent. However, these compression methods are effective solely for specific image recognition models. We propose a learning-based scalable image coding method for humans and machines that is compatible with numerous image recognition models. We combine an image compression model for machines with a compression model, providing additional information to facilitate image decoding for humans. The features in these compression models are fused using a feature fusion network to achieve efficient image compression. Our method's additional information compression model is adjusted to reduce the number of parameters by enabling combinations of features of different sizes in the feature fusion network. Our approach confirms that the feature fusion network efficiently combines image compression models while reducing the number of parameters. Furthermore, we demonstrate the effectiveness of the proposed scalable coding method by evaluating the image compression performance in terms of decoded image quality and bitrate.
翻訳日:2024-05-16 14:06:01 公開日:2024-05-15
# SPRing THYMEパーサにおける抽象的意味表現法の適用

Adapting Abstract Meaning Representation Parsing to the Clinical Narrative -- the SPRING THYME parser ( http://arxiv.org/abs/2405.09153v1 )

ライセンス: Link先を確認
Jon Z. Cai, Kristin Wright-Bettner, Martha Palmer, Guergana K. Savova, James H. Martin, (参考訳) 本報告では,臨床用AMRパーザの設計と評価について述べる。 本研究の目的は,臨床ノートの構造化されたAMR表現への正確な変換を容易にすることであり,臨床テキストデータの大規模化による解釈性とユーザビリティを向上させることであった。 経時的TYME(Temporal Histories of Your Medical Events)コーパスから大腸癌データセットを応用し, 連続トレーニングを用いた最先端のAMRパーサを応用した。 提案手法は,AMR構造予測の精度を高めるため,データ拡張手法を取り入れたものである。 特に,この学習戦略により,THYME corpus の大腸癌データセットにおいて,F1スコアが88%を占めた。 さらに,本研究は,AMR解析における領域適応データ要件を提示し,臨床ノートの範囲内でのドメイン適応に必要なデータの有効性について検討した。 この調査は、パーサーの頑健なパフォーマンスを浮き彫りにするだけでなく、構造化された意味表現を通して臨床物語のより深い理解を促進する可能性を強調している。

This paper is dedicated to the design and evaluation of the first AMR parser tailored for clinical notes. Our objective was to facilitate the precise transformation of the clinical notes into structured AMR expressions, thereby enhancing the interpretability and usability of clinical text data at scale. Leveraging the colon cancer dataset from the Temporal Histories of Your Medical Events (THYME) corpus, we adapted a state-of-the-art AMR parser utilizing continuous training. Our approach incorporates data augmentation techniques to enhance the accuracy of AMR structure predictions. Notably, through this learning strategy, our parser achieved an impressive F1 score of 88% on the THYME corpus's colon cancer dataset. Moreover, our research delved into the efficacy of data required for domain adaptation within the realm of clinical notes, presenting domain adaptation data requirements for AMR parsing. This exploration not only underscores the parser's robust performance but also highlights its potential in facilitating a deeper understanding of clinical narratives through structured semantic representations.
翻訳日:2024-05-16 14:06:01 公開日:2024-05-15
# 量子コンピューティング強化言語モデルによる化学精度の迅速向上

Rapidly Achieving Chemical Accuracy with Quantum Computing Enforced Language Model ( http://arxiv.org/abs/2405.09164v1 )

ライセンス: Link先を確認
Honghui Shang, Xiongzhi Zeng, Ming Gong, Yangju Wu, Shaojun Guo, Haoran Qian, Chen Zha, Zhijie Fan, Kai Yan, Xiaobo Zhu, Zhenyu Li, Yi Luo, Jian-Wei Pan, Jinlong Yang, (参考訳) 多体系の正確な基底状態エネルギーを見つけることは、量子化学において大きな課題である。 古典的および量子コンピュータの統合により、この卓越した問題の解決に新たな光が注がれた。 本稿では量子コンピューティングを用いて量子状態の学習と生成を行うトランスフォーマーベースの言語モデルであるQiankunNet-VQEを提案する。 最大12キュービットで実装され、最先端の古典的手法と競合する精度のレベルに達した。 量子資源と古典資源の両方を活用することにより、このスキームは、煩雑なエラー軽減を必要とせず、変分量子固有解法(VQE)の限界を克服する。 さらに、QiankunNet-VQEは、量子コンピュータ上の基底状態波動関数の極めて精密な準備と測定を必要とせず、多電子シュリンガー方程式を解くための実用的な量子優位性を達成するための異なる経路を提供する。

Finding accurate ground state energy of a many-body system has been a major challenge in quantum chemistry. The integration of classic and quantum computers has shed new light on resolving this outstanding problem. Here we propose QiankunNet-VQE, a transformer based language models enforced with quantum computing to learn and generate quantum states. It has been implemented using up to 12 qubits and attaining an accuracy level competitive with state-of-the-art classical methods. By leveraging both quantum and classical resources, this scheme overcomes the limitations of variational quantum eigensolver(VQE) without the need for cumbersome error mitigation. Moreover, QiankunNet-VQE provides a different route to achieve a practical quantum advantage for solving many-electron Schr\"odinger equation without requiring extremely precise preparation and measurement of the ground-state wavefunction on quantum computer.
翻訳日:2024-05-16 14:06:01 公開日:2024-05-15
# トークンを用いたマイクロコミットの実証的研究

An Empirical Study of Token-based Micro Commits ( http://arxiv.org/abs/2405.09165v1 )

ライセンス: Link先を確認
Masanari Kondo, Daniel M. German, Yasutaka Kamei, Naoyasu Ubayashi, Osamu Mizuno, (参考訳) ソフトウェア開発では、開発者は1回のコミットで数行変更するソースコードにメンテナンスアクティビティを頻繁に適用します。 このような小さな変更の特徴をよく理解することは、品質保証アプローチ(例えば、プログラムの自動修正)をサポートすることができ、小さな変更が他の変更の欠陥に対処している可能性が高いため、小さな変更を作成する理由を理解することは、導入されたエラーの種類を理解するのに役立つ。 最終的に、これらの理由とタイプのエラーは、コード品質を改善するための品質保証アプローチを強化するために使用できる。 以前の研究では、小さな変更を特徴づけ、調査するためにコードチャーンを使用していたが、そのような定義には限界がある。 具体的には、行内の変更トークンの情報を失う。 例えば、この定義では、(1)文字列リテラルを変更して表示されたメッセージを修正すること、(2)関数呼び出しを変更し、新しいパラメータを追加することである。 これらは間違いなく保守活動であるが、研究者や実践者が後者の変更を支持することに興味を持っていると推測する。 この制限に対処するため、この論文では、変更トークンに基づいた小さな変更の一種であるマイクロコミットを定義します。 私たちのゴールは、変更したトークンを使って小さな変更を定量化することです。 トークンの変更により、小さな変更をより正確に特定できます。 実際、このトークンレベルの定義は上記の例を区別することができる。 4つのOSSプロジェクトで定義されたマイクロコミットについて検討し、トークンベースのマイクロコミットに関する最初の実証的研究としてそれらの特性を理解する。 マイクロコミットは、主に単一の名前またはリテラルトークンに置き換えられており、マイクロコミットはバグを修正するために使用される可能性が高い。 さらに,非常に小さな変更がそれらの効果に大きく影響するソフトウェア工学的アプローチを支援するために,トークンベースの情報を利用することを提案する。

In software development, developers frequently apply maintenance activities to the source code that change a few lines by a single commit. A good understanding of the characteristics of such small changes can support quality assurance approaches (e.g., automated program repair), as it is likely that small changes are addressing deficiencies in other changes; thus, understanding the reasons for creating small changes can help understand the types of errors introduced. Eventually, these reasons and the types of errors can be used to enhance quality assurance approaches for improving code quality. While prior studies used code churns to characterize and investigate the small changes, such a definition has a critical limitation. Specifically, it loses the information of changed tokens in a line. For example, this definition fails to distinguish the following two one-line changes: (1) changing a string literal to fix a displayed message and (2) changing a function call and adding a new parameter. These are definitely maintenance activities, but we deduce that researchers and practitioners are interested in supporting the latter change. To address this limitation, in this paper, we define micro commits, a type of small change based on changed tokens. Our goal is to quantify small changes using changed tokens. Changed tokens allow us to identify small changes more precisely. In fact, this token-level definition can distinguish the above example. We investigate defined micro commits in four OSS projects and understand their characteristics as the first empirical study on token-based micro commits. We find that micro commits mainly replace a single name or literal token, and micro commits are more likely used to fix bugs. Additionally, we propose the use of token-based information to support software engineering approaches in which very small changes significantly affect their effectiveness.
翻訳日:2024-05-16 14:06:01 公開日:2024-05-15
# 普遍的QAOAプロトコルに向けて:組合せ最適化問題の解法における量子優位性の証明

Towards a universal QAOA protocol: Evidence of quantum advantage in solving combinatorial optimization problems ( http://arxiv.org/abs/2405.09169v1 )

ライセンス: Link先を確認
J. A. Montanez-Barrera, Kristel Michielsen, (参考訳) 量子近似最適化アルゴリズム(QAOA)は組合せ最適化問題を解くための有望なアルゴリズムである。 このアルゴリズムでは、ミキサーとハミルトニアンの問題からなる交互層が存在する。 各層$i=0,\ldots,p-1$は$\beta_i$と$\gamma_i$でパラメータ化される。 これらのパラメータをどうやって見つけるかはオープンな問題であり、研究の大半は古典的なアルゴリズムを使ってそれらを見つけることに重点を置いている。 本研究では、固定線形ランプスケジュールがQAOAパラメータの普遍的な集合、すなわち最適解を高速に近似する$\gamma$と$\beta$パラメータの集合であるCOPとは独立に$x^*$であり、それを見つける成功確率である$probability(x^*)$はQAOA層数$p$で増加することを示す。 最大$N_q=42$ qubits と $p = 400$ 層を含むリニアランプQAOAプロトコル(LR-QAOA)を9種類のCOPのランダムなインスタンス上でシミュレートする。 この結果は、定数$\eta$に対して$probability(x^*) \approx 1/2^{(\eta N_q / p)}$であることが示唆されている。 例えば、LR-QAOAを$p=42$で実装する場合、42量子重み付きMaxCut問題(W-MaxCut)に対する$probability(x^*)$は2/2^{42}\approx 10^{-13}$から平均0.13まで増加する。 LR-QAOA, 模擬アニール (SA), 分岐結合 (B\&B) を比較し, LR-QAOAの根本的な改善について検討した。 LR-QAOAをIonQ Aria, Quantinuum H2-1, IBM Brisbane, IBM Kyoto, IBM Osakaを用いて実ハードウェア上でテストし, ランダム重み付きMaxCut(W-MaxCut)問題を5~109キュービット,$p=3$から100$で符号化した。 最大の場合であっても、$N_q=109$ qubitsと$p=100$は、LR-QAOA最適化プロトコルに関する情報である。 回路は21200個のCNOTゲートを必要とする。 これらの結果は、LR-QAOAがCOPの高品質な解を効果的に見つけることを示し、近い将来に組合せ最適化のための量子計算の利点を示唆している。

The quantum approximate optimization algorithm (QAOA) is a promising algorithm for solving combinatorial optimization problems (COPs). In this algorithm, there are alternating layers consisting of a mixer and a problem Hamiltonian. Each layer $i=0,\ldots,p-1$ is parameterized by $\beta_i$ and $\gamma_i$. How to find these parameters has been an open question with the majority of the research focused on finding them using classical algorithms. In this work, we present evidence that fixed linear ramp schedules constitute a universal set of QAOA parameters, i.e., a set of $\gamma$ and $\beta$ parameters that rapidly approximate the optimal solution, $x^*$, independently of the COP selected, and that the success probability of finding it, $probability(x^*)$, increases with the number of QAOA layers $p$. We simulate linear ramp QAOA protocols (LR-QAOA) involving up to $N_q=42$ qubits and $p = 400$ layers on random instances of 9 different COPs. The results suggest that $probability(x^*) \approx 1/2^{(\eta N_q / p)}$ for a constant $\eta$. For example, when implementing LR-QAOA with $p=42$, the $probability(x^*)$ for 42-qubit Weighted MaxCut problems (W-MaxCut) increases from $2/2^{42}\approx 10^{-13}$ to an average of 0.13. We compare LR-QAOA, simulated annealing (SA), and branch-and-bound (B\&B) finding a fundamental improvement in LR-QAOA. We test LR-QAOA on real hardware using IonQ Aria, Quantinuum H2-1, IBM Brisbane, IBM Kyoto, and IBM Osaka, encoding random weighted MaxCut (W-MaxCut) problems from 5 to 109 qubits and $p=3$ to $100$. Even for the largest case, $N_q=109$ qubits and $p=100$, information about the LR-QAOA optimization protocol is present. The circuit involved requires 21200 CNOT gates. These results show that LR-QAOA effectively finds high-quality solutions for COPs and suggests an advantage of quantum computation for combinatorial optimization in the near future.
翻訳日:2024-05-16 14:06:01 公開日:2024-05-15
# ニューラルネットワークによる多光子光ビームの非古典性に関する研究

Revealing Nonclassicality of Multiphoton Optical Beams via Artificial Neural Networks ( http://arxiv.org/abs/2405.09174v1 )

ライセンス: Link先を確認
Radek Machulka, Jan Peřina Jr., Václav Michálek, Roberto de J. León-Montiel, Ondřej Haderka, (参考訳) 多光子量子状態の非古典的特徴の同定は、多くの量子フォトニクス技術の発展において最も重要な課題である。 現実的な実験的条件下では、フォトニック量子状態はいくつかの非イデアル光電子デバイスとの相互作用によって影響を受ける。 このようなノイズ相互作用の結果、元の量子状態の非古典的特徴が大幅に減少するか、検出された最終状態に完全に欠落している。 本研究では,非古典的特徴が測定装置によって隠蔽されている場合においても,多光子量子状態の非古典性を評価・完全に評価できることを実験的に示すために,人工ニューラルネットワークの自己学習特性を利用した。 我々の研究は、人工知能支援実験セットアップのキャラクタリゼーションと、スマート量子状態の非古典性識別への道を開いた。

The identification of nonclassical features of multiphoton quantum states represents a task of the utmost importance in the development of many quantum photonic technologies. Under realistic experimental conditions, a photonic quantum state gets affected by its interaction with several nonideal opto-electronic devices, including those used to guide, detect or characterize it. The result of such noisy interaction is that the nonclassical features of the original quantum state get considerably reduced or are completely absent in the detected, final state. In this work, the self-learning features of artificial neural networks are exploited to experimentally show that the nonclassicality of multiphoton quantum states can be assessed and fully characterized, even in the cases in which the nonclassical features are concealed by the measuring devices. Our work paves the way toward artificial-intelligence-assisted experimental-setup characterization, as well as smart quantum-state nonclassicality identification.
翻訳日:2024-05-16 14:06:01 公開日:2024-05-15
# ユニバーサル摂動のためのクロス入力認定訓練

Cross-Input Certified Training for Universal Perturbations ( http://arxiv.org/abs/2405.09176v1 )

ライセンス: Link先を確認
Changming Xu, Gagandeep Singh, (参考訳) 信頼できる機械学習における既存の仕事は、主にシングルインプットの敵対的摂動に焦点を当てている。 多くの現実世界の攻撃シナリオでは、入力非依存の敵攻撃、例えば普遍的敵対的摂動(UAP)はより実現可能である。 現在の認定訓練方法は、単一入力の摂動に対して頑健なモデルを訓練するが、最適クリーニングとUAPの精度を達成し、実用的な応用に適用性を制限する。 UAP攻撃者に対して堅牢なネットワークの認証トレーニングのための新しい手法CITRUSを提案する。 提案手法は標準精度(最大10.3\%)で従来の認定トレーニング手法より優れており,より実用性の高いUAP精度測定においてSOTA性能を実現することができる。

Existing work in trustworthy machine learning primarily focuses on single-input adversarial perturbations. In many real-world attack scenarios, input-agnostic adversarial attacks, e.g. universal adversarial perturbations (UAPs), are much more feasible. Current certified training methods train models robust to single-input perturbations but achieve suboptimal clean and UAP accuracy, thereby limiting their applicability in practical applications. We propose a novel method, CITRUS, for certified training of networks robust against UAP attackers. We show in an extensive evaluation across different datasets, architectures, and perturbation magnitudes that our method outperforms traditional certified training methods on standard accuracy (up to 10.3\%) and achieves SOTA performance on the more practical certified UAP accuracy metric.
翻訳日:2024-05-16 14:06:01 公開日:2024-05-15
# 量子プログラムのテストとデバッグ - 2030年までの道のり

Testing and Debugging Quantum Programs: The Road to 2030 ( http://arxiv.org/abs/2405.09178v1 )

ライセンス: Link先を確認
Neilson Carlos Leite Ramalho, Higor Amario de Souza, Marcos Lordello Chaim, (参考訳) 量子コンピューティングは数十年間理論領域に存在してきた。 最近、ハードウェアの最近の進歩を考えると、量子コンピューティングは、古典的なコンピュータが解決するのに何百年もかかる問題を解く可能性を持つ有望な技術として再登場した。 この分野への関心が高まっているため、特に量子プログラムのテストとデバッグにおいて、ソフトウェアエンジニアリングの実践の観点からは、学者や実践者にとって課題と機会がある。 本稿では,これらの課題に対処するためのロードマップを提示し,文献の既存のギャップを指摘し,研究の方向性を提案する。 本稿では、量子プログラムに適用された古典的手法、量子固有アサーションの開発と実装、量子コンピューティング特有のバグパターンの識別と分類など、現在の最先端のテストおよびデバッグ戦略について述べる。 さらに、量子プログラムのテストとデバッグに関する主要な概念とそれらの関係を説明するための概念モデルを導入する。 これらの概念は、2030年までの量子プログラムに対処する主な研究課題を特定し、議論するために使われ、古典的および量子コンピューティングのインターフェースに焦点を当て、ユニークな量子コンピューティング特性を利用するテストとデバッギング技術の作成に焦点が当てられている。

Quantum Computing has existed in the theoretical realm for several decades. Recently, given the latest developments in hardware, quantum computing has re-emerged as a promising technology with the potential to solve problems that a classical computer could take hundreds of years to solve. With the rising interest in the field, there are challenges and opportunities for academics and practitioners in terms of software engineering practices, particularly in testing and debugging quantum programs. This paper presents a roadmap for addressing these challenges, pointing out the existing gaps in the literature and suggesting research directions. We present the current state-of-the-art testing and debugging strategies, including classical techniques applied to quantum programs, the development and implementation of quantum-specific assertions, and the identification and classification of bug patterns unique to quantum computing. Additionally, we introduce a conceptual model to illustrate the main concepts regarding the testing and debugging of quantum programs as well as the relationship between them. Those concepts are then used to identify and discuss the main research challenges to cope with quantum programs through 2030, focusing on the interfaces between classical and quantum computing and on creating testing and debugging techniques that take advantage of the unique quantum computing characteristics.
翻訳日:2024-05-16 14:06:01 公開日:2024-05-15
# 集積・直流駆動型超電導マイクロコーム

Integrated and DC-powered superconducting microcomb ( http://arxiv.org/abs/2405.09180v1 )

ライセンス: Link先を確認
Chen-Guang Wang, Wuyue Xu, Chong Li, Lili Shi, Junliang Jiang, Tingting Guo, Wen-Cheng Yue, Tianyu Li, Ping Zhang, Yang-Yang Lyu, Jiazheng Pan, Xiuhao Deng, Ying Dong, Xuecou Tu, Sining Dong, Chunhai Cao, Labao Zhang, Xiaoqing Jia, Guozhu Sun, Lin Kang, Jian Chen, Yong-Lei Wang, Huabing Wang, Peiheng Wu, (参考訳) 複数の等価周波数線を放射する特殊なレーザー源である周波数コムは、前例のない精度と汎用性で科学と技術に革命をもたらした。 近年、オンチップフォトニクスのスケーラブルなソリューションとして、集積周波数コムが出現している。 ここでは, 製造が容易で, 操作が容易で, 超低消費電力の超電導マイクロコームについて紹介する。 我々のターンキー装置は, 超伝導マイクロストリップ共振器に直接結合する基本的非線形超伝導素子, ジョセフソン接合を備える。 自己開始モードロックによるコヒーレントコム生成を示す。 したがって、コムエミッションは直流バイアス源を活性化することでのみ開始され、消費電力は数十ピコワット以下である。 結果として生じるコムスペクトルはマイクロ波領域に存在し、複数のオクターブにまたがる。 全てのコムラインのライン幅は、ユニークなコヒーレントインジェクションロック技術により1Hzまで狭めることができる。 我々の研究は、完全に統合されたマイクロ波フォトニクスへの重要な一歩であり、集積量子プロセッサの可能性を秘めている。

Frequency combs, specialized laser sources emitting multiple equidistant frequency lines, have revolutionized science and technology with unprecedented precision and versatility. Recently, integrated frequency combs are emerging as scalable solutions for on-chip photonics. Here, we demonstrate a fully integrated superconducting microcomb that is easy to manufacture, simple to operate, and consumes ultra-low power. Our turnkey apparatus comprises a basic nonlinear superconducting device, a Josephson junction, directly coupled to a superconducting microstrip resonator. We showcase coherent comb generation through self-started mode-locking. Therefore, comb emission is initiated solely by activating a DC bias source, with power consumption as low as tens of picowatts. The resulting comb spectrum resides in the microwave domain and spans multiple octaves. The linewidths of all comb lines can be narrowed down to 1 Hz through a unique coherent injection-locking technique. Our work represents a critical step towards fully integrated microwave photonics and offers the potential for integrated quantum processors.
翻訳日:2024-05-16 13:56:07 公開日:2024-05-15
# StateGuard: 分散交換スマートコントラクトにおける状態障害の検出

StateGuard: Detecting State Derailment Defects in Decentralized Exchange Smart Contract ( http://arxiv.org/abs/2405.09181v1 )

ライセンス: Link先を確認
Zongwei Li, Wenkai Li, Xiaoqi Li, Yuqing Zhang, (参考訳) ブロックチェーン技術とスマートコントラクトを活用する分散取引所(DEX)が、分散金融に登場した。 しかし、マルチコントラクトインタラクションを備えたDECプロジェクトは複雑な状態ロジックを伴い、状態欠陥の解決が困難になる。 本稿では,DEXの脱線欠陥に関する最初の系統的研究を行う。 これらの欠陥は、契約実行中にシステム状態の不正、不完全、あるいは不正な変更を引き起こし、セキュリティ上の脅威を引き起こす可能性がある。 我々は,DeXスマートコントラクトにおける状態脱線欠陥を検出するためのディープラーニングベースのフレームワークであるStateGuardを提案する。 StateGuardはスマートコントラクトの抽象構文木(AST)を構築し、キー機能を抽出してグラフ表現を生成する。 次に、グラフ畳み込みネットワーク(GCN)を利用して欠陥を発見する。 46のDEXプロジェクトで5,671のスマートコントラクトでStateGuardを評価することは、その有効性を92.24%の精度で示している。 その実用性をさらに検証するために、私たちはStateGuardを使用して現実世界のスマートコントラクトを監査し、複数の新しいCVEの認証に成功した。

Decentralized Exchanges (DEXs), leveraging blockchain technology and smart contracts, have emerged in decentralized finance. However, the DEX project with multi-contract interaction is accompanied by complex state logic, which makes it challenging to solve state defects. In this paper, we conduct the first systematic study on state derailment defects of DEXs. These defects could lead to incorrect, incomplete, or unauthorized changes to the system state during contract execution, potentially causing security threats. We propose StateGuard, a deep learning-based framework to detect state derailment defects in DEX smart contracts. StateGuard constructs an Abstract Syntax Tree (AST) of the smart contract, extracting key features to generate a graph representation. Then, it leverages a Graph Convolutional Network (GCN) to discover defects. Evaluating StateGuard on 46 DEX projects with 5,671 smart contracts reveals its effectiveness, with a precision of 92.24%. To further verify its practicality, we used StateGuard to audit real-world smart contracts and successfully authenticated multiple novel CVEs.
翻訳日:2024-05-16 13:56:07 公開日:2024-05-15
# 新しい初期化と評価手法を用いた遺伝的アルゴリズムによるハイパーグラフへの影響最大化

Influence Maximization in Hypergraphs Using A Genetic Algorithm with New Initialization and Evaluation Methods ( http://arxiv.org/abs/2405.09185v1 )

ライセンス: Link先を確認
Xilong Qu, Wenbin Pei, Yingchao Yang, Xirong Xu, Renquan Zhang, Qiang Zhang, (参考訳) 影響の最大化(IM)は、ソーシャルネットワーク、病気伝播ネットワーク、マーケティングネットワークなど、現実世界の複雑なネットワークを分析する上で重要な最適化課題である。 IM問題に関する発表は、主にグラフに焦点を当てているが、これは現実世界の高次相互作用関係を捉えるのに失敗している。 そのため,IM問題へのハイパーグラフの活用が注目されている。 しかし、ハイパーグラフにおける最も影響力のあるノードを特定することは、主にノードとハイパーエッジが強く結合され、相関しているため、依然として困難である。 本稿では、最も影響力のあるノードを効果的に識別するために、まず、ノードとハイパーエッジの両方の障害の影響を統合する、新しいハイパーグラフ独立カスケードモデルを提案する。 その後、ハイパーグラフの集団的影響を利用する最も影響力のあるノードを特定するために遺伝的アルゴリズム(GA)を導入する。 GAに基づく手法では、ハイパーグラフ集団の影響を効果的に利用して人口を初期化し、初期候補解の品質を高める。 設計された適合関数は、ノードとハイパーエッジの両方の結合の影響を考慮する。 これにより、ノードとハイパーエッジの両方に最も影響を与える最適なノードセットを正確に評価することができる。 さらに、ハイパーグラフ中のノードの集団的影響と重なり合う影響を導入して、高品質な子孫を産み出す新しい突然変異演算子を設計する。 実験では, 合成ハイパーグラフと実ハイパーグラフの両方についていくつかのシミュレーションを行い, 提案手法が比較手法より優れていることを示した。

Influence maximization (IM) is a crucial optimization task related to analyzing complex networks in the real world, such as social networks, disease propagation networks, and marketing networks. Publications to date about the IM problem focus mainly on graphs, which fail to capture high-order interaction relationships from the real world. Therefore, the use of hypergraphs for addressing the IM problem has been receiving increasing attention. However, identifying the most influential nodes in hypergraphs remains challenging, mainly because nodes and hyperedges are often strongly coupled and correlated. In this paper, to effectively identify the most influential nodes, we first propose a novel hypergraph-independent cascade model that integrates the influences of both node and hyperedge failures. Afterward, we introduce genetic algorithms (GA) to identify the most influential nodes that leverage hypergraph collective influences. In the GA-based method, the hypergraph collective influence is effectively used to initialize the population, thereby enhancing the quality of initial candidate solutions. The designed fitness function considers the joint influences of both nodes and hyperedges. This ensures the optimal set of nodes with the best influence on both nodes and hyperedges to be evaluated accurately. Moreover, a new mutation operator is designed by introducing factors, i.e., the collective influence and overlapping effects of nodes in hypergraphs, to breed high-quality offspring. In the experiments, several simulations on both synthetic and real hypergraphs have been conducted, and the results demonstrate that the proposed method outperforms the compared methods.
翻訳日:2024-05-16 13:56:07 公開日:2024-05-15
# HumanRankEval:会話アシスタントとしてのLMの自動評価

HumanRankEval: Automatic Evaluation of LMs as Conversational Assistants ( http://arxiv.org/abs/2405.09186v1 )

ライセンス: Link先を確認
Milan Gritta, Gerasimos Lampouras, Ignacio Iacobacci, (参考訳) 会話アシスタントとしての言語モデル(LM)は、最近、人々が様々なタスクを達成するのに役立つ人気のあるツールになった。 これらは典型的には、一般的なドメインのテキストシーケンスに事前訓練されたLMを適用することによって、さらなる命令チューニングとおそらくは選好最適化手法によって生じる。 このようなLMの評価は人間の判断で行うのが理想であるが、これはスケーラブルではない。 一方、判断や知識に基づくタスクとして補助的なLMを特徴とする自動評価はスケーラブルであるが、会話能力の評価や指示の遵守に苦慮している。 会話アシスタントとしてのLMの開発を促進するために,HumanRankEval (HRE) という新しい自動評価タスクを提案する。 大規模で多様で高品質な質問セットで構成されており、それぞれが人間によって書かれたいくつかの回答がある。 評価を行うために、HREはこれらの回答をLMの分布に基づいてログライクな状態に基づいてランク付けし、その後、対応するヒトのランキングとの相関を計算する。 我々は,HREの有効性を,様々なサイズの事前学習と指導訓練によるLMの分離をいかに効率的に行うかを調べることで支援する。 HREは人間の判断とよく相関し,特に指導指導後のモデル変化に応答することを示す。

Language models (LMs) as conversational assistants recently became popular tools that help people accomplish a variety of tasks. These typically result from adapting LMs pretrained on general domain text sequences through further instruction-tuning and possibly preference optimisation methods. The evaluation of such LMs would ideally be performed using human judgement, however, this is not scalable. On the other hand, automatic evaluation featuring auxiliary LMs as judges and/or knowledge-based tasks is scalable but struggles with assessing conversational ability and adherence to instructions. To help accelerate the development of LMs as conversational assistants, we propose a novel automatic evaluation task: HumanRankEval (HRE). It consists of a large-scale, diverse and high-quality set of questions, each with several answers authored and scored by humans. To perform evaluation, HRE ranks these answers based on their log-likelihood under the LM's distribution, and subsequently calculates their correlation with the corresponding human rankings. We support HRE's efficacy by investigating how efficiently it separates pretrained and instruction-tuned LMs of various sizes. We show that HRE correlates well with human judgements and is particularly responsive to model changes following instruction-tuning.
翻訳日:2024-05-16 13:56:07 公開日:2024-05-15
# スピン対称性と熱的利用密度汎関数理論

Spin Symmetry in Thermally-Assisted-Occupation Density Functional Theory ( http://arxiv.org/abs/2405.09187v1 )

ライセンス: Link先を確認
Yu-Yang Wang, Jeng-Da Chai, (参考訳) マルチ参照(MR)特性を持つ電子系では、従来の交換相関(xc)エネルギー汎関数を持つコーン・シャム密度汎関数論(KS-DFT)は誤ったスピン密度と関連する性質をもたらす。 例えば、H2 解離の場合、KS-DFT で機能する同じ xc エネルギーで得られるスピン制限およびスピン非制限の解は、スピン非制限の解における非物理的スピン対称性の破れ効果を、はっきりと異なるものにすることができる。 近年, 熱共役密度汎関数理論 (TAO-DFT) は, 実測温度を適切に選択した場合に, 上記のスピン対称性の破れを解消することが示されている。 本研究では, TAO-DFTに基づく応答理論を開発し, 十分に高温のTAO-DFTがMR系の非物理的スピン対称性の破れを解消できることを示した。 さらに, H2, N2, He2, Ne2の解離, およびねじれたエチレンの解離に対して, 種々の架空の温度のTAO-DFT計算を行った。

For electronic systems with multi-reference (MR) character, Kohn-Sham density functional theory (KS-DFT) with the conventional exchange-correlation (xc) energy functionals can lead to incorrect spin densities and related properties. For example, for H2 dissociation, the spin-restricted and spin-unrestricted solutions obtained with the same xc energy functional in KS-DFT can be distinctly different, yielding the unphysical spin-symmetry breaking effects in the spin-unrestricted solutions. Recently, thermally-assisted-occupation density functional theory (TAO-DFT) has been shown to resolve the aforementioned spin-symmetry breaking, when the fictitious temperature is properly chosen. In this work, a response theory based on TAO-DFT is developed to demonstrate that TAO-DFT with a sufficiently large fictitious temperature can always resolve the unphysical spin-symmetry breaking in MR systems. To further support this, TAO-DFT calculations with various fictitious temperatures are performed for the dissociation of H2, N2, He2, and Ne2 as well as the twisted ethylene.
翻訳日:2024-05-16 13:56:07 公開日:2024-05-15
# 大規模ファジィ認知マップにおける因果解析による説明可能なAIの改善

Advancing Explainable AI with Causal Analysis in Large-Scale Fuzzy Cognitive Maps ( http://arxiv.org/abs/2405.09190v1 )

ライセンス: Link先を確認
Marios Tyrovolas, Nikolaos D. Kallimanis, Chrysostomos Stylios, (参考訳) 正確で解釈可能なAIモデルを求める中で、eXplainable AI(XAI)が重要になっている。 ファジィ認知マップ(FCM)は、専門家の知識とデータ駆動の洞察を相乗的に組み合わせ、活用し、透明性と本質的な解釈可能性を提供する能力から、先進的なXAI手法として際立っている。 本稿では,FCMに対するTotal Causal Effect calculated for FCMs (TCEC-FCM)アルゴリズムを紹介する。このアルゴリズムは,従来の手法を阻害する徹底的な因果経路探索の課題を克服し,二分探索とグラフトラバーサル技術を利用して,大規模FCMの概念間の因果効果を効率よく計算する手法である。 提案手法は,TCEC-FCMの総合的手法よりも優れた性能を示し,FCMにおける因果効果解析の大幅な進歩を図った。

In the quest for accurate and interpretable AI models, eXplainable AI (XAI) has become crucial. Fuzzy Cognitive Maps (FCMs) stand out as an advanced XAI method because of their ability to synergistically combine and exploit both expert knowledge and data-driven insights, providing transparency and intrinsic interpretability. This letter introduces and investigates the "Total Causal Effect Calculation for FCMs" (TCEC-FCM) algorithm, an innovative approach that, for the first time, enables the efficient calculation of total causal effects among concepts in large-scale FCMs by leveraging binary search and graph traversal techniques, thereby overcoming the challenge of exhaustive causal path exploration that hinder existing methods. We evaluate the proposed method across various synthetic FCMs that demonstrate TCEC-FCM's superior performance over exhaustive methods, marking a significant advancement in causal effect analysis within FCMs, thus broadening their usability for modern complex XAI applications.
翻訳日:2024-05-16 13:56:07 公開日:2024-05-15
# QMedShield: クラウド上のセキュアな医用画像ストレージのための新しい量子カオスベースの画像暗号化スキーム

QMedShield: A Novel Quantum Chaos-based Image Encryption Scheme for Secure Medical Image Storage in the Cloud ( http://arxiv.org/abs/2405.09191v1 )

ライセンス: Link先を確認
Arun Amaithi Rajan, Vetriselvi V, (参考訳) デジタル技術の時代には、医療産業において医療画像が重要な役割を担い、外科医が正確な意思決定を行い、診断時間を短縮するのを助ける。 しかし、これらの大量の画像をサードパーティのクラウドサービスに保存することは、プライバシとセキュリティの懸念を引き起こす。 それらを保護するための古典的なセキュリティメカニズムはたくさんあります。 しかし、量子コンピューティングの出現は、医療のための量子ベースの暗号化モデルの開発を必要とする。 そこで,本論文では,医用画像に対する新しい量子カオスベースの暗号化方式を提案する。 このモデルは、ビットプレーンスクランブル、量子ロジスティックマップ、拡散相における量子演算、ハイブリッドカオスマップ、DNAエンコーディング、および混乱相における計算からなり、平易な医療画像を暗号医療画像に変換する。 提案手法は複数の統計指標を用いて評価され、3つの異なる医療データセットによる差分攻撃などの攻撃に対して検証されている。 したがって、導入された暗号化モデルは、他の既存の画像暗号化方式よりも攻撃耐性があり、堅牢であることが証明され、クラウド環境における医療画像の安全な保存が保証された。

In the age of digital technology, medical images play a crucial role in the healthcare industry which aids surgeons in making precise decisions and reducing the diagnosis time. However, the storage of large amounts of these images in third-party cloud services raises privacy and security concerns. There are a lot of classical security mechanisms to protect them. Although, the advent of quantum computing entails the development of quantum-based encryption models for healthcare. Hence, we introduce a novel quantum chaos-based encryption scheme for medical images in this article. The model comprises bit-plane scrambling, quantum logistic map, quantum operations in the diffusion phase and hybrid chaotic map, DNA encoding, and computations in the confusion phase to transform the plain medical image into a cipher medical image. The proposed scheme has been evaluated using multiple statistical measures and validated against more attacks such as differential attacks with three different medical datasets. Hence the introduced encryption model has proved to be attack-resistant and robust than other existing image encryption schemes, ensuring the secure storage of medical images in cloud environments.
翻訳日:2024-05-16 13:56:07 公開日:2024-05-15
# 深層ニューラルネットワークを用いた法執行機関のフレキシブル画像解析

Flexible image analysis for law enforcement agencies with deep neural networks to determine: where, who and what ( http://arxiv.org/abs/2405.09194v1 )

ライセンス: Link先を確認
Henri Bouma, Bart Joosten, Maarten C Kruithof, Maaike H T de Boer, Alexandru Ginsca, Benjamin Labbe, Quoc T Vuong, (参考訳) 効果的なセキュリティ対策や、商用製品へのカメラの統合の必要性が高まっているため、今日では膨大なビジュアルデータが作成されている。 法執行機関(LEA)は、ラディカル化の発見やテロリスト組織へのプロパガンダ、ダークネット市場における違法な製品など、画像やビデオを検査している。 間接検索の代わりに、LEAは新たな犯罪や脅威に適応し、画像の内容の柔軟な解釈を必要とする特定の場所、人、物からのデータのみに焦点を当てたい。 深層畳み込みニューラルネットワーク(CNN)による視覚概念検出は、画像の内容を理解する上で重要な要素である。 この論文には5つの属性がある。 最初のコントリビューションでは、画像ベースのジオローカライゼーションにより、画像の起源を推定することができる。 CNNとジオタグ付き画像は、画像の位置をピクセル値で決定するモデルを作成するために使用される。 第2のコントリビューションは、粒度の細かい概念を分析して、ジェネリックな概念のサブカテゴリを区別することを可能にする。 提案手法は,データの取得とクリーニング,概念階層を含む。 第3のコントリビューションは、人物の属性(例えば、眼鏡、ムースタッシュ)を認識して、人に対するテキスト記述によるクエリを可能にすることである。 人属性プロブレムは、概念分類の特定のサブタスクとして扱われる。 第4のコントリビューションは,能動的学習に基づく直感的な画像アノテーションツールである。 アクティブな学習により、ユーザーは柔軟に新しい概念を定義し、最小限のアノテーションでCNNを訓練することができる。 第5のコントリビューションは、クエリ拡張を使用してクエリ定義におけるLEAの柔軟性を高める。クエリ拡張は、ユーザクエリを既知の、検出可能な概念にマッピングする。 したがって、ユーザーにとって検出可能な概念に関する事前の知識は必要ない。 これらの手法は、さまざまな場所(一般的な位置と非構造的位置)、さまざまな人属性(CelebAデータセット)、さまざまなアノテーションを持つデータに基づいて検証される。

Due to the increasing need for effective security measures and the integration of cameras in commercial products, a hugeamount of visual data is created today. Law enforcement agencies (LEAs) are inspecting images and videos to findradicalization, propaganda for terrorist organizations and illegal products on darknet markets. This is time consuming.Instead of an undirected search, LEAs would like to adapt to new crimes and threats, and focus only on data from specificlocations, persons or objects, which requires flexible interpretation of image content. Visual concept detection with deepconvolutional neural networks (CNNs) is a crucial component to understand the image content. This paper has fivecontributions. The first contribution allows image-based geo-localization to estimate the origin of an image. CNNs andgeotagged images are used to create a model that determines the location of an image by its pixel values. The secondcontribution enables analysis of fine-grained concepts to distinguish sub-categories in a generic concept. The proposedmethod encompasses data acquisition and cleaning and concept hierarchies. The third contribution is the recognition ofperson attributes (e.g., glasses or moustache) to enable query by textual description for a person. The person-attributeproblem is treated as a specific sub-task of concept classification. The fourth contribution is an intuitive image annotationtool based on active learning. Active learning allows users to define novel concepts flexibly and train CNNs with minimalannotation effort. The fifth contribution increases the flexibility for LEAs in the query definition by using query expansion.Query expansion maps user queries to known and detectable concepts. Therefore, no prior knowledge of the detectableconcepts is required for the users. The methods are validated on data with varying locations (popular and non-touristiclocations), varying person attributes (CelebA dataset), and varying number of annotations.
翻訳日:2024-05-16 13:56:07 公開日:2024-05-15
# FCC-eeにおける$τ$レプトンの量子トモグラフィ

Quantum tomography with $τ$ leptons at the FCC-ee ( http://arxiv.org/abs/2405.09201v1 )

ライセンス: Link先を確認
M. Fabbrichesi, L. Marzola, (参考訳) 提案された設計によると、Future Circular Collider(FCC)は、レプトンコライダーとして初めて生まれ変わったもので、Zドルボソン共鳴のエネルギーで4年間働いた後、1000億ドル以上のレプトンを生産する。 比較的長い寿命で、単一イオン崩壊モードで放出されるニュートリノのモーメントを再構築することができるため、$\tau$ leptonは特別である。 結果として生じる多数の事象は、量子的絡み合いとベルの不等式を前例のない精度で検証する過程の完全な量子トモグラフィーの理想的な情報源である。 さらに、偏光とスピン相関の研究は、ワインバーグ角 $ \theta_W$ の競合的な決定と、中性電弱電流中の異常結合の制約を与えることができる。 分析結果とモンテカルロシミュレーションを用いて、これらの目標がどの程度達成できるかを探索する。

The Future Circular Collider (FCC) -- in its first incarnation as a lepton collider -- will produce, according to the proposed design, more than 100 billion pairs of $\tau$ leptons after working for four years at the energy of the $Z$-boson resonance. The $\tau$ lepton is special because its relatively long lifetime makes it possible to reconstruct the momenta of neutrinos emitted in the single pion decay mode. The resulting large number of events is an ideal source for a full quantum tomography of the process that will test quantum entanglement and the violation of Bell inequality with unprecedented precision. In addition, the study of polarizations and spin correlations can provide a competitive determination of the Weinberg angle $ \theta_W$ and constrain possible anomalous couplings in the neutral electroweak current. We utilize analytic results and Monte Carlo simulations to explore to what extent these goals might be accomplished.
翻訳日:2024-05-16 13:56:07 公開日:2024-05-15
# ドメイン知識を用いたUMAP投影探索用レンズ機能

Lens functions for exploring UMAP Projections with Domain Knowledge ( http://arxiv.org/abs/2405.09204v1 )

ライセンス: Link先を確認
Daniel M. Bot, Jan Aerts, (参考訳) 次元減少アルゴリズムは高次元データを可視化するためにしばしば用いられる。 これまでの研究では、予測される投影パターンの強化や抑制に事前情報を用いてきた。 本稿では,対話的探索を指導したドメイン知識に適用する。 Mapper と STAD にインスパイアされた本研究では,3種類のレンズ関数を UMAP に提示する。 レンズ関数は、アナリストが質問にプロジェクションを適応させ、他の方法では隠されたパターンを明らかにすることを可能にする。 それらは、手動で選択された機能とデータ構造の間の相互作用を探索するために、モデル化された接続をフィルタリングし、それぞれが新たな洞察を示すような設定可能な視点を作成する。 レンズ関数の有効性は2つのユースケースで示され、その計算コストは合成ベンチマークで分析される。 私たちの実装は、オープンソースのPythonパッケージで利用可能です。

Dimensionality reduction algorithms are often used to visualise high-dimensional data. Previously, studies have used prior information to enhance or suppress expected patterns in projections. In this paper, we adapt such techniques for domain knowledge guided interactive exploration. Inspired by Mapper and STAD, we present three types of lens functions for UMAP, a state-of-the-art dimensionality reduction algorithm. Lens functions enable analysts to adapt projections to their questions, revealing otherwise hidden patterns. They filter the modelled connectivity to explore the interaction between manually selected features and the data's structure, creating configurable perspectives each potentially revealing new insights. The effectiveness of the lens functions is demonstrated in two use cases and their computational cost is analysed in a synthetic benchmark. Our implementation is available in an open-source Python package: https://github.com/vda-lab/lensed_umap.
翻訳日:2024-05-16 13:56:07 公開日:2024-05-15
# Utiq:ISPレベルでの次世代クッキー

A first look into Utiq: Next-generation cookies at the ISP level ( http://arxiv.org/abs/2405.09205v1 )

ライセンス: Link先を確認
Ismael Castell-Uroz, Pere Barlet-Ros, (参考訳) 近年、オンラインのプライバシーはますます重要になっている。 サードパーティ製のクッキーは長年にわたって広く使われてきたが、ユーザーのプライバシーに影響を及ぼす可能性があると批判されている。 広告主は複数のサイトにまたがってユーザーを追跡することができ、ユーザーの行動や興味の詳細なプロフィールを作成できる。 しかし、今日では多くのブラウザがサードパーティーのクッキーをブロックできるようになっているため、広告主にとっての有用性は制限されている。 本稿では、ISPが直接行うユーザ追跡の新しい方法であるUtiqを初めて見て、これまで使用していたサードパーティ製クッキーを代替する。 本稿では,本手法の主な特性と,最も人気のあるWebサイト10K上での採用について検討する。 我々の結果によると、システムによって課せられている制限により、まだ限界はあるものの、Webサイトの0.7%から1.2%は、すでにUtiqをユーザ識別方法の1つとして含んでいる。

Online privacy has become increasingly important in recent years. While third-party cookies have been widely used for years, they have also been criticized for their potential impact on user privacy. They can be used by advertisers to track users across multiple sites, allowing them to build detailed profiles of their behavior and interests. However, nowadays, many browsers allow users to block third-party cookies, which limits their usefulness for advertisers. In this paper, we take a first look at Utiq, a new way of user tracking performed directly by the ISP, to substitute the third-party cookies used until now. We study the main properties of this new identification methodology and their adoption on the 10K most popular websites. Our results show that, although still marginal due to the restrictions imposed by the system, between 0.7% and 1.2% of websites already include Utiq as one of their user identification methods.
翻訳日:2024-05-16 13:56:07 公開日:2024-05-15
# 超伝導量子ビット制御とリードアウトパルスのためのフレキシブルストリップラインと同軸ケーブルの等価性

Equivalence of flexible stripline and coaxial cables for superconducting qubit control and readout pulses ( http://arxiv.org/abs/2405.09211v1 )

ライセンス: Link先を確認
V. Y. Monarkha, S. Simbierowicz, M. Borrelli, R. van Gulik, N. Drobotun, D. Kuitenbrouwer, D. Bouman, D. Datta, P. Eskelinen, E. Mannila, J. Kaikkonen, V. Vesterinen, J. Govenius, R. E. Lake, (参考訳) トランスモン量子ビット用マイクロ波制御線路の比較研究を報告する。 一 フレキシブルストリップライン送電線及び (II)半剛性同軸ケーブル。 各実験では,配線構成の1つを用いて,トランスモン量子ビットのエネルギー緩和とコヒーレンス時間を繰り返し測定した。 それぞれの測定時間は70時間から250時間にまたがって行われ、各構成を2回試験できるように4回の冷却が行われた。 これらのデータセットから、マイクロ波制御線を同軸ケーブルからフレキシブルストリップライン伝送線に変更しても、システムの熱サイクルやランダムなコヒーレンス変動と比べてコヒーレンスに測定不可能な影響が認められる。 この結果から,フレキシブル基板上に平面配置を組み込んだ量子ビット制御線路の大規模統合が可能となった。

We report a comparative study on microwave control lines for a transmon qubit using: (i) flexible stripline transmission lines, and (ii) semi-rigid coaxial cables. During each experiment we performed repeated measurements of the energy relaxation and coherence times of a transmon qubit using one of the wiring configurations. Each measurement run spanned 70 h to 250 h of measurement time, and four separate cooldowns were performed so that each configuration could be tested twice. From these datasets we observe that changing the microwave control lines from coaxial cables to flexible stripline transmission lines does not have a measurable effect on coherence compared to thermal cycling the system, or random coherence fluctuations. Our results open up the possibility of large scale integration of qubit control lines with integrated component with planar layouts on flexible substrate.
翻訳日:2024-05-16 13:56:07 公開日:2024-05-15
# SOMTP:ロボットにおけるMPCに基づく安全な軌道計画問題に対する自己教師付き学習ベース最適化

SOMTP: Self-Supervised Learning-Based Optimizer for MPC-Based Safe Trajectory Planning Problems in Robotics ( http://arxiv.org/abs/2405.09212v1 )

ライセンス: Link先を確認
Yifan Liu, You Wang, Guang Li, (参考訳) モデル予測制御(MPC)に基づく軌道計画はロボット工学において広く使われており、制御バリア関数(CBF)の制約をMPCに組み込むことで、障害物回避の効率を大幅に向上させることができる。 残念ながら、従来のオプティマイザはリソースを消費し、非凸制約最適化問題(COP)を解決するのに遅く、学習ベースの手法は非凸制約を満たすのに苦労する。 本稿では,CBF-MPC軌道計画のための自己教師付き学習ベース最適化アルゴリズムSOMTPを提案する。 具体的には、まず、SOMTPは制約の大部分を満たすために問題転写を用いる。 次に, SLPG補正法を提案し, 解法を安全な集合に近づけ, 次の学習過程においてガイドポリシとして変換する。 その後、Augmented Lagrangian Method (ALM) にヒントを得て、最適化ネットワークが実現可能なソリューションに収束できるように、ガイドポリシー制約と統合されたトレーニングアルゴリズムを提案する。 最後に、提案アルゴリズムは、他の学習ベース手法よりも実現可能性が高く、類似した最適性を持つ従来のオプティマイザよりもはるかに高速なソリューションを提供できることを示す。

Model Predictive Control (MPC)-based trajectory planning has been widely used in robotics, and incorporating Control Barrier Function (CBF) constraints into MPC can greatly improve its obstacle avoidance efficiency. Unfortunately, traditional optimizers are resource-consuming and slow to solve such non-convex constrained optimization problems (COPs) while learning-based methods struggle to satisfy the non-convex constraints. In this paper, we propose SOMTP algorithm, a self-supervised learning-based optimizer for CBF-MPC trajectory planning. Specifically, first, SOMTP employs problem transcription to satisfy most of the constraints. Then the differentiable SLPG correction is proposed to move the solution closer to the safe set and is then converted as the guide policy in the following training process. After that, inspired by the Augmented Lagrangian Method (ALM), our training algorithm integrated with guide policy constraints is proposed to enable the optimizer network to converge to a feasible solution. Finally, experiments show that the proposed algorithm has better feasibility than other learning-based methods and can provide solutions much faster than traditional optimizers with similar optimality.
翻訳日:2024-05-16 13:56:07 公開日:2024-05-15
# Xmodel-VLM:マルチモーダル視覚言語モデルのためのシンプルなベースライン

Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model ( http://arxiv.org/abs/2405.09215v1 )

ライセンス: Link先を確認
Wanting Xu, Yang Liu, Langping He, Xucheng Huang, Ling Jiang, (参考訳) 本稿では,最先端のマルチモーダル視覚言語モデルであるXmodel-VLMを紹介する。 コンシューマGPUサーバへの効率的なデプロイのために設計されている。 当社の作業は,大規模マルチモーダルシステムの普及を阻害するサービスコストを抑えることで,重要な産業問題に直結しています。 厳格なトレーニングを通じて,LLaVAパラダイムをモダルアライメントに用い,ゼロから1Bスケールの言語モデルを開発した。 この結果はXmodel-VLMと呼ばれ、軽量だが強力なマルチモーダル視覚言語モデルである。 多数の古典的マルチモーダルベンチマークの広範なテストにより、Xmodel-VLMはそのサイズが小さく、より高速な実行にもかかわらず、より大きなモデルに匹敵するパフォーマンスを提供することが明らかになった。 私たちのモデルチェックポイントとコードはGitHubでhttps://github.com/XiaoduoAILab/XmodelVLMで公開されています。

We introduce Xmodel-VLM, a cutting-edge multimodal vision language model. It is designed for efficient deployment on consumer GPU servers. Our work directly confronts a pivotal industry issue by grappling with the prohibitive service costs that hinder the broad adoption of large-scale multimodal systems. Through rigorous training, we have developed a 1B-scale language model from the ground up, employing the LLaVA paradigm for modal alignment. The result, which we call Xmodel-VLM, is a lightweight yet powerful multimodal vision language model. Extensive testing across numerous classic multimodal benchmarks has revealed that despite its smaller size and faster execution, Xmodel-VLM delivers performance comparable to that of larger models. Our model checkpoints and code are publicly available on GitHub at https://github.com/XiaoduoAILab/XmodelVLM.
翻訳日:2024-05-16 13:56:07 公開日:2024-05-15
# クリフォード回路を用いた密度行列正規化群の拡大

Augmenting Density Matrix Renormalization Group with Clifford Circuits ( http://arxiv.org/abs/2405.09217v1 )

ライセンス: Link先を確認
Xiangjian Qian, Jiale Huang, Mingpu Qin, (参考訳) 密度行列再正規化群 (DMRG) あるいは行列積状態 (MPS) は1次元量子多体系を解くための高効率かつ正確な方法として広く認められている。 しかし、DMRGの二次元系への直接的適用は、波動関数アンサッツに符号化された限られた絡み合いのために困難に直面する。 逆にクリフォード回路は、安定状態に限られるにもかかわらず、かなりの絡み合いを持つ状態をシミュレートするための有望な経路を提供する。 本稿では, クリフォード回路とDMRGの両方の利点を生かして, DMRGアルゴリズムにおけるクリフォード回路のシームレスな統合について述べる。 この積分により、計算コストが小さければシミュレーション精度が大幅に向上する。 さらに、このフレームワークは、現在のアプリケーションだけでなく、様々な数値的アプローチに容易に適応できる可能性にも有用である。

Density Matrix Renormalization Group (DMRG) or Matrix Product States (MPS) are widely acknowledged as highly effective and accurate methods for solving one-dimensional quantum many-body systems. However, the direct application of DMRG to the study two-dimensional systems encounters challenges due to the limited entanglement encoded in the wave-function ansatz. Conversely, Clifford circuits offer a promising avenue for simulating states with substantial entanglement, albeit confined to stabilizer states. In this work, we present the seamless integration of Clifford circuits within the DMRG algorithm, leveraging the advantages of both Clifford circuits and DMRG. This integration leads to a significant enhancement in simulation accuracy with small additional computational cost. Moreover, this framework is useful not only for its current application but also for its potential to be easily adapted to various other numerical approaches
翻訳日:2024-05-16 13:56:07 公開日:2024-05-15
# ALPINE: 言語モデルにおける自己回帰学習の計画能力の実現

ALPINE: Unveiling the Planning Capability of Autoregressive Learning in Language Models ( http://arxiv.org/abs/2405.09220v1 )

ライセンス: Link先を確認
Siwei Wang, Yifei Shen, Shi Feng, Haoran Sun, Shang-Hua Teng, Wei Chen, (参考訳) 本稿では, NEtworks における "Autoregressive Learning for Planning" の略である ALPINE プロジェクトについて述べる。 プロジェクトALPINEは、自己回帰学習機構を通じてトランスフォーマーに基づく言語モデルにおける計画能力の発達に関する理論的研究を開始し、計画能力の潜在的な限界を特定することを目的としている。 本研究では,特定のソースノードから指定されたターゲットノードへの有効なパスを生成することを目的とするネットワークパスファイリングタスクとして,プランニングを抽象化する。 表現性の観点からは,トランスフォーマーはその重みに隣接行列と到達行列を埋め込むことでパスフィニングを実行することができることを示す。 変圧器の勾配に基づく学習力学の理論解析により,変圧器は隣接行列と到達可能性行列の限定形式の両方を学習できることがわかった。 これらの理論的洞察は実験を通じて検証され、トランスフォーマーが実際に隣接行列と不完全到達性行列を学習し、理論解析で得られた予測と一致することを示した。 さらに、私たちの方法論をBlocksworldと呼ばれる現実世界の計画ベンチマークに適用する場合、私たちの観察は一貫しています。 我々の理論的および実証的な分析により、パスフィニングにおけるトランスフォーマーの潜在的な限界が明らかにされる: トランジケーションによって到達可能性の関係を識別できないため、パスを生成するために経路の連結が必要な場合、失敗する。 まとめると、我々の研究は自己回帰学習の内部メカニズムがネットワークにおけるプランニングをどのように実現しているかについて、新たな光を当てた。 本研究は,他の領域における一般的な計画能力の理解に寄与する可能性がある。

In this paper, we present the findings of our Project ALPINE which stands for ``Autoregressive Learning for Planning In NEtworks." Project ALPINE initiates a theoretical investigation into the development of planning capabilities in Transformer-based language models through their autoregressive learning mechanisms, aiming to identify any potential limitations in their planning abilities. We abstract planning as a network path-finding task where the objective is to generate a valid path from a specified source node to a designated target node. In terms of expressiveness, we show that the Transformer is capable of executing path-finding by embedding the adjacency and reachability matrices within its weights. Our theoretical analysis of the gradient-based learning dynamic of the Transformer reveals that the Transformer is capable of learning both the adjacency matrix and a limited form of the reachability matrix. These theoretical insights are then validated through experiments, which demonstrate that the Transformer indeed learns the adjacency matrix and an incomplete reachability matrix, which aligns with the predictions made in our theoretical analysis. Additionally, when applying our methodology to a real-world planning benchmark, called Blocksworld, our observations remain consistent. Our theoretical and empirical analyses further unveil a potential limitation of Transformer in path-finding: it cannot identify reachability relationships through transitivity, and thus would fail when path concatenation is needed to generate a path. In summary, our findings shed new light on how the internal mechanisms of autoregressive learning enable planning in networks. This study may contribute to our understanding of the general planning capabilities in other related domains.
翻訳日:2024-05-16 13:46:20 公開日:2024-05-15
# オンラインヘイトスピーチ検出におけるギャップを埋める: X/Twitter上での同性愛的コンテンツ識別のためのBERTと伝統的なモデルの比較分析

Bridging the gap in online hate speech detection: a comparative analysis of BERT and traditional models for homophobic content identification on X/Twitter ( http://arxiv.org/abs/2405.09221v1 )

ライセンス: Link先を確認
Josh McGiff, Nikola S. Nikolov, (参考訳) 本研究は、感情分析研究でしばしば無視されるホモフォビアに焦点を当てたオンラインヘイトスピーチ検出研究において、大きなギャップに対処するものである。 我々は、高度な感情分析モデル、特にBERTと従来の機械学習手法を利用して、X/Twitter上のホモフォビックコンテンツを識別するニュアンスなアプローチを開発した。 この研究は、検出モデルにおけるホモフォビアの持続的低表現のために重要である。 その結果,BERTは従来の手法よりも優れているが,検証手法の選択はモデルの性能に影響を及ぼすことがわかった。 このことは、ニュアンスヘイトスピーチの検出における文脈的理解の重要性を浮き彫りにする。 我々の知るホモフォビア検出のための最大のオープンソースラベル付き英語データセット、様々なモデルの性能分析とBERTベースの最強モデルを提供することで、オンラインの安全性と傾きを高めることを目指している。 今後の取り組みはLGBTQIA+のヘイトスピーチ検出にまで拡張され、多様なデータセットのソーシングの課題に対処する。 この取り組みを通じて、私たちは、より包括的なデジタルランドスケープを提唱するオンライン憎悪に対する大きな取り組みに貢献します。 本研究は, 過去の研究結果を改善することで, ホモフォビックコンテンツの有効検出に関する知見を提供するだけでなく, ヘイトスピーチ分析における今後の進歩の基盤となるものでもある。

Our study addresses a significant gap in online hate speech detection research by focusing on homophobia, an area often neglected in sentiment analysis research. Utilising advanced sentiment analysis models, particularly BERT, and traditional machine learning methods, we developed a nuanced approach to identify homophobic content on X/Twitter. This research is pivotal due to the persistent underrepresentation of homophobia in detection models. Our findings reveal that while BERT outperforms traditional methods, the choice of validation technique can impact model performance. This underscores the importance of contextual understanding in detecting nuanced hate speech. By releasing the largest open-source labelled English dataset for homophobia detection known to us, an analysis of various models' performance and our strongest BERT-based model, we aim to enhance online safety and inclusivity. Future work will extend to broader LGBTQIA+ hate speech detection, addressing the challenges of sourcing diverse datasets. Through this endeavour, we contribute to the larger effort against online hate, advocating for a more inclusive digital landscape. Our study not only offers insights into the effective detection of homophobic content by improving on previous research results, but it also lays groundwork for future advancements in hate speech analysis.
翻訳日:2024-05-16 13:46:20 公開日:2024-05-15
# 機械翻訳の選好としての単語アライメント

Word Alignment as Preference for Machine Translation ( http://arxiv.org/abs/2405.09223v1 )

ライセンス: Link先を確認
Qiyu Wu, Masaaki Nagata, Zhongtao Miao, Yoshimasa Tsuruoka, (参考訳) 機械翻訳における長年の課題である幻覚と省略の問題は、LLM自体がこれらの現象に影響を受けやすいため、大規模な言語モデル(LLM)がMTで使用される場合よりも顕著である。 本研究では,LLMに基づくMTモデルにおいて,より優れた単語アライメントを導くことによって問題を緩和する。 まず,MTにおける単語アライメントと幻覚・排他現象の相関について検討し,LLMに基づくMTモデルを最適化するために,単語アライメントを優先的に活用することを提案する。 選好データは、複数のMTツールから選択された翻訳と拒否された翻訳を選択して構成される。 その後、直接選好最適化を用いて、LLMベースのモデルを優先信号に向けて最適化する。 MTにおける幻覚や消毒に特化して設計された評価器が存在しないことを踏まえ、これらの問題を緩和するために、ハードインスタンスの選択とGPT-4の利用を提案し、モデルの性能を直接評価する。 実験により設計した評価手法の合理性を検証するとともに,単語アライメントに基づく選好最適化の有効性を実証し,幻覚と省略を緩和する。

The problem of hallucination and omission, a long-standing problem in machine translation (MT), is more pronounced when a large language model (LLM) is used in MT because an LLM itself is susceptible to these phenomena. In this work, we mitigate the problem in an LLM-based MT model by guiding it to better word alignment. We first study the correlation between word alignment and the phenomena of hallucination and omission in MT. Then we propose to utilize word alignment as preference to optimize the LLM-based MT model. The preference data are constructed by selecting chosen and rejected translations from multiple MT tools. Subsequently, direct preference optimization is used to optimize the LLM-based model towards the preference signal. Given the absence of evaluators specifically designed for hallucination and omission in MT, we further propose selecting hard instances and utilizing GPT-4 to directly evaluate the performance of the models in mitigating these issues. We verify the rationality of these designed evaluation methods by experiments, followed by extensive results demonstrating the effectiveness of word alignment-based preference optimization to mitigate hallucination and omission.
翻訳日:2024-05-16 13:46:20 公開日:2024-05-15
# 音楽理解タスクのための知覚型グラフ畳み込み

Perception-Inspired Graph Convolution for Music Understanding Tasks ( http://arxiv.org/abs/2405.09224v1 )

ライセンス: Link先を確認
Emmanouil Karystinaios, Francesco Foscarin, Gerhard Widmer, (参考訳) 本研究では,楽譜データの効率的な処理と一般的な知覚原理による動機付けを目的とした新しいグラフ畳み込みブロックMusGConvを提案する。 音楽、ピッチ、リズムの2つの基本的な次元に焦点を合わせ、これらの要素の相対的および絶対的表現を考察する。 我々は,音素音声分離,調和解析,ケイデンス検出,作曲家識別という4つの異なる音楽的理解問題に対するアプローチを,抽象的に異なるグラフ学習問題(ノード分類,リンク予測,グラフ分類)に翻訳する手法として評価した。 実験の結果,MusGConvは上記の3つのタスクの性能を改善しつつ,概念的に非常にシンプルかつ効率的であることがわかった。 我々はこれを,楽譜データに基づくグラフネットワークアプリケーションを開発する際に,基本楽譜概念の知覚インフォームド処理を含めることが有用であることを示す証拠として解釈する。

We propose a new graph convolutional block, called MusGConv, specifically designed for the efficient processing of musical score data and motivated by general perceptual principles. It focuses on two fundamental dimensions of music, pitch and rhythm, and considers both relative and absolute representations of these components. We evaluate our approach on four different musical understanding problems: monophonic voice separation, harmonic analysis, cadence detection, and composer identification which, in abstract terms, translate to different graph learning problems, namely, node classification, link prediction, and graph classification. Our experiments demonstrate that MusGConv improves the performance on three of the aforementioned tasks while being conceptually very simple and efficient. We interpret this as evidence that it is beneficial to include perception-informed processing of fundamental musical concepts when developing graph network applications on musical score data.
翻訳日:2024-05-16 13:46:20 公開日:2024-05-15
# 反断熱を伴うハニカム格子上のフェルミ・ハバードモデルの基底状態の探索

Exploring Ground States of Fermi-Hubbard Model on Honeycomb Lattices with Counterdiabaticity ( http://arxiv.org/abs/2405.09225v1 )

ライセンス: Link先を確認
Jialiang Tang, Ruoqian Xu, Yongcheng Ding, Xusheng Xu, Yue Ban, Manhong Yung, Axel Pérez-Obiol, Gloria Platero, Xi Chen, (参考訳) 従来、多体量子系の基底状態の性質を探索するには、量子アニーリングやアダイバティック量子計算の文脈において、正確な対角化とともに、断熱的なプロセスが必要となる。 反断熱駆動による断熱のショートカットは、エネルギー励起を抑制してこれらのプロセスを加速させる。 そこで我々は,補助的対断的相互作用を取り入れた変分量子アルゴリズムを開発し,それらをデジタル化された断熱的アルゴリズムと比較した。 これらのアルゴリズムはゲートベースの量子回路上に実装され、ハニカム格子上でFermi-Hubbardモデルの基底状態を探索し、最大26量子ビットのシステムを利用する。 この比較は、反断熱的に誘発されるアンザッツが伝統的なハミルトン変分アンザッツよりも優れていることを示している。 さらに、トロッターステップの数と持続時間を分析し、エラーを理解し、緩和する。 このモデルが凝縮物質中の物質との関連性を考えると、我々の研究は、ノイズの多い中間スケール量子時代の量子材料を探索するために、反断熱を伴う変分量子アルゴリズムを使用する方法を示している。

Exploring the ground state properties of many-body quantum systems conventionally involves adiabatic processes, alongside exact diagonalization, in the context of quantum annealing or adiabatic quantum computation. Shortcuts to adiabaticity by counter-diabatic driving serve to accelerate these processes by suppressing energy excitations. Motivated by this, we develop variational quantum algorithms incorporating the auxiliary counterdiabatic interactions, comparing them with digitized adiabatic algorithms. These algorithms are then implemented on gate-based quantum circuits to explore the ground states of the Fermi-Hubbard model on honeycomb lattices, utilizing systems with up to 26 qubits. The comparison reveals that the counter-diabatic inspired ansatz is superior to traditional Hamiltonian variational ansatz. Furthermore, the number and duration of Trotter steps are analyzed to understand and mitigate errors. Given the model's relevance to materials in condensed matter, our study paves the way for using variational quantum algorithms with counterdiabaticity to explore quantum materials in the noisy intermediate-scale quantum era.
翻訳日:2024-05-16 13:46:20 公開日:2024-05-15
# MACの削減 - プライバシフレンドリーなジェネリックプローブ要求

Reduce to the MACs -- Privacy Friendly Generic Probe Requests ( http://arxiv.org/abs/2405.09230v1 )

ライセンス: Link先を確認
Johanna Ansohn McDougall, Alessandro Brighente, Anne Kunstmann, Niklas Zapatka, Hannes Federrath, (参考訳) 抽象。 Wi-Fiネットワークでアクティブな発見が導入されてから、ユーザーはプローブリクエストを通じて追跡することができる。 製造業者はMACアドレスのランダム化を使ってメディアアクセス制御(MAC)アドレスを隠そうとするが、プローブ要求にはデバイス識別を容易にする情報要素(IE)が含まれている。 本稿では,IE から不要な情報を全て取り除くことで,単一のデバイスが可能な限り最大の匿名性セットで消滅する,という方法を提案する。 包括的評価を行うことで、非指向性プローブ要求に含まれる大きなIEセットが必ずしも高速な接続確立を意図しないことを示す。 さらに、IEの最小化は、サポートされたレートだけで、デバイスの82.55%が同じ匿名セットを共有することができることを示しています。 当社のコントリビューションは、無線ネットワークの堅牢なプライバシソリューションの追求において、ユーザの匿名性の向上と、無線通信エコシステムの監視の削減に大きく貢献しています。

Abstract. Since the introduction of active discovery in Wi-Fi networks, users can be tracked via their probe requests. Although manufacturers typically try to conceal Media Access Control (MAC) addresses using MAC address randomisation, probe requests still contain Information Elements (IEs) that facilitate device identification. This paper introduces generic probe requests: By removing all unnecessary information from IEs, the requests become indistinguishable from one another, letting single devices disappear in the largest possible anonymity set. Conducting a comprehensive evaluation, we demonstrate that a large IE set contained within undirected probe requests does not necessarily imply fast connection establishment. Furthermore, we show that minimising IEs to nothing but Supported Rates would enable 82.55% of the devices to share the same anonymity set. Our contributions provide a significant advancement in the pursuit of robust privacy solutions for wireless networks, paving the way for more user anonymity and less surveillance in wireless communication ecosystems.
翻訳日:2024-05-16 13:46:20 公開日:2024-05-15
# NeuralCMS:木星の内部を研究するためのディープラーニングアプローチ

NeuralCMS: A deep learning approach to study Jupiter's interior ( http://arxiv.org/abs/2405.09244v1 )

ライセンス: Link先を確認
Maayan Ziv, Eli Galanti, Amir Sheffer, Saburo Howard, Tristan Guillot, Yohai Kaspi, (参考訳) NASAのジュノーミッションは木星の重力場を精巧に測定し、ガリレオの大気観測とともに惑星の内部構造を制約した。 内部構造の範囲を推定することは、雲の温度、組成、コア特徴などの様々な惑星特性の組み合わせを計算的に集約的に探索し、およそ10^9の内部モデルの計算を必要とする、難しい逆問題のままである。 そこで本研究では,MacLaurin spheroid (CMS) 法に基づいて,高精度で高精度な広範囲内部モデルを生成するための,効率的なディープニューラルネットワーク(DNN)モデルを提案する。 我々は、重心を含む木星の4層内部モデルに対して、大きなCMS結果の集合を持つ共有ベースDNNを訓練し、内部特徴の組み合わせから重力モーメントと質量を正確に予測した。 我々は,訓練済みDNN(NeuralCMS)の性能評価を行い,その予測限界について検討した。 ニューラルCMSは重力モーメントの予測において非常に優れた性能を示し、差動回転による不確実性に匹敵する誤差と非常に正確な質量予測を示す。 これにより,実際のCMS内部モデルである10^4のみを計算して広いパラメータ空間探索を行うことができ,その結果,可塑性内部構造の大規模なサンプルが得られ,計算時間を10^5に短縮できる。 さらに、DNN説明可能性アルゴリズムを用いて、内部モデルの設定パラメータが予測可観測物に与える影響を分析し、それらの非線形関係について情報を提供した。

NASA's Juno mission provided exquisite measurements of Jupiter's gravity field that together with the Galileo entry probe atmospheric measurements constrains the interior structure of the giant planet. Inferring its interior structure range remains a challenging inverse problem requiring a computationally intensive search of combinations of various planetary properties, such as the cloud-level temperature, composition, and core features, requiring the computation of ~10^9 interior models. We propose an efficient deep neural network (DNN) model to generate high-precision wide-ranged interior models based on the very accurate but computationally demanding concentric MacLaurin spheroid (CMS) method. We trained a sharing-based DNN with a large set of CMS results for a four-layer interior model of Jupiter, including a dilute core, to accurately predict the gravity moments and mass, given a combination of interior features. We evaluated the performance of the trained DNN (NeuralCMS) to inspect its predictive limitations. NeuralCMS shows very good performance in predicting the gravity moments, with errors comparable with the uncertainty due to differential rotation, and a very accurate mass prediction. This allowed us to perform a broad parameter space search by computing only ~10^4 actual CMS interior models, resulting in a large sample of plausible interior structures, and reducing the computation time by a factor of 10^5. Moreover, we used a DNN explainability algorithm to analyze the impact of the parameters setting the interior model on the predicted observables, providing information on their nonlinear relation.
翻訳日:2024-05-16 13:46:20 公開日:2024-05-15
# スピンフォノン-光子カップリングによる非定常磁性

Unconventional magnetism mediated by spin-phonon-photon coupling ( http://arxiv.org/abs/2405.09246v1 )

ライセンス: Link先を確認
Petros Andreas Pantazopoulos, Johannes Feist, Francisco J. García-Vidal, Akashdeep Kamra, (参考訳) 磁気秩序は通常、構成電子スピン間の短距離交換相互作用によって生じる。 近年の発見は、光超高速磁化スイッチングから磁気状態の動的制御に至るまで、様々な現象においてスピンフォノンカップリングに重要な役割を担っている。 ここでは, 真空光子を偏光子にハイブリダイゼーションしたフォノンとの結合を介し, スピン間の二極性長距離相互作用の出現を理論的に実証する。 スピン間の仮想偏光子の交換によって実現された秩序状態は、仮想フォノンの交換によって媒介される超伝導を連想させる。 スピンスピン相互作用のバイカジュラルな性質は、強磁性や反強磁性を好まずに秩序化を促進する。 さらに、従来の磁石とは異なり、磁気秩序への位相遷移を1次遷移にする。 これにより、大磁化は、高データ安定性を維持しながら超低出力熱アシスト書き込みを許容する磁気記憶を可能にする「aknew{could}」の温度低下によって突然発生する。 この現象における光子の役割は、磁気をその場で静的に制御することを可能にする。 これらのユニークな特徴は、予測されたスピンスピン相互作用とマグネティクスを、新しい科学的および技術的機会の道を切り開くことにする。

Magnetic order typically emerges due to the short-range exchange interaction between the constituent electronic spins. Recent discoveries have found a crucial role for spin-phonon coupling in various phenomena from optical ultrafast magnetization switching to dynamical control of the magnetic state. Here, we demonstrate theoretically the emergence of a biquadratic long-range interaction between spins mediated by their coupling to phonons hybridized with vacuum photons into polaritons. The resulting ordered state enabled by the exchange of virtual polaritons between spins is reminiscent of superconductivity mediated by the exchange of virtual phonons. The biquadratic nature of the spin-spin interaction promotes ordering without favoring ferro- or antiferromagnetism. It further makes the phase transition to magnetic order a first-order transition, unlike in conventional magnets. Consequently, a large magnetization develops abruptly on lowering the temperature which \aknew{could} enable magnetic memories admitting ultralow-power thermally-assisted writing while maintaining a high data stability. The role of photons in the phenomenon further enables an in-situ static control over the magnetism. These unique features make our predicted spin-spin interaction and magnetism highly unconventional paving the way for novel scientific and technological opportunities.
翻訳日:2024-05-16 13:46:20 公開日:2024-05-15
# グラフニューラルネットワークを用いた手書き軌道認識

Graph Neural Network based Handwritten Trajectories Recognition ( http://arxiv.org/abs/2405.09247v1 )

ライセンス: Link先を確認
Anuj Sharma, Sukhdeep Singh, S Ratna, (参考訳) グラフニューラルネットワークは、現実の応用において効率的な機械学習技術であることが証明されている。 手書き文字認識は、オフラインとオンラインの両方の筆跡認識を必要とする実生活で有用な領域の1つである。 特徴抽出技術としての連鎖符号は文献で顕著な結果を示し、我々はグラフニューラルネットワークを用いて連鎖符号を利用できる。 我々の知る限り、この研究は、チェーンコードやグラフニューラルネットワークといった手書きトラジェクトリの新たな組み合わせを初めて提示する。 オフライン手書きテキスト用手書きトラジェクトリは描画順序の回復を用いて評価され、オンライン手書きトラジェクトリはチェーンコードで直接使用される。 以上の結果から, 既往の結果を超越し, 誤り率を最小化できる可能性が示唆された。

The graph neural networks has been proved to be an efficient machine learning technique in real life applications. The handwritten recognition is one of the useful area in real life use where both offline and online handwriting recognition are required. The chain code as feature extraction technique has shown significant results in literature and we have been able to use chain codes with graph neural networks. To the best of our knowledge, this work presents first time a novel combination of handwritten trajectories features as chain codes and graph neural networks together. The handwritten trajectories for offline handwritten text has been evaluated using recovery of drawing order, whereas online handwritten trajectories are directly used with chain codes. Our results prove that present combination surpass previous results and minimize error rate in few epochs only.
翻訳日:2024-05-16 13:46:20 公開日:2024-05-15
# セルビア語モデリングのための新しいテキストコーパス

New Textual Corpora for Serbian Language Modeling ( http://arxiv.org/abs/2405.09250v1 )

ライセンス: Link先を確認
Mihailo Škorić, Nikola Janković, (参考訳) 本稿では,セルビア語(およびセルビア語・クロアチア語)のテキストコーパスについて紹介する。 各コーパスは、複数のメソッドを使用して分類され、その特性が詳述される。 さらに,セルビア全大学の博士論文リポジトリに保管されている博士論文に基づく新しい高品質コーパス,および同ソースからの抽象翻訳の並列コーパスの3つの新しいコーパスを紹介する。 古いコーパスと新しいコーパスの両方の独特さは、周波数ベースの幾何的手法によってアクセスされ、その結果を概説する。

This paper will present textual corpora for Serbian (and Serbo-Croatian), usable for the training of large language models and publicly available at one of the several notable online repositories. Each corpus will be classified using multiple methods and its characteristics will be detailed. Additionally, the paper will introduce three new corpora: a new umbrella web corpus of Serbo-Croatian, a new high-quality corpus based on the doctoral dissertations stored within National Repository of Doctoral Dissertations from all Universities in Serbia, and a parallel corpus of abstract translation from the same source. The uniqueness of both old and new corpora will be accessed via frequency-based stylometric methods, and the results will be briefly discussed.
翻訳日:2024-05-16 13:46:20 公開日:2024-05-15
# 機械は学習に余分なバイアスをもたらすか?モデルの公平性を迅速に近似する

Does Machine Bring in Extra Bias in Learning? Approximating Fairness in Models Promptly ( http://arxiv.org/abs/2405.09251v1 )

ライセンス: Link先を確認
Yijun Bian, Yujie Luo, (参考訳) 現実世界でさまざまな機械学習(ML)アプリケーションを提供することで、特に高い領域において、MLモデルに隠された識別に関する懸念が高まっている。 MLモデルの識別レベルを評価するための既存の技術には、一般的に使用されるグループと個別の公正度尺度が含まれる。 しかし、これらの2種類の公正度尺度は、通常互いに相容れないため、2つの異なる群公正度尺度でさえ相容れないかもしれない。 この問題に対処するため, 多様体の観点から分類器の識別レベルを評価するとともに, 集合間の距離に基づく「調和公正度尺度(HFM)」を提案する。 しかし、距離を直接計算するには高すぎるため、実用性が低下する可能性がある。 そこで我々は,「集合間の距離の近似(ApproxDist)」という近似アルゴリズムを考案し,そのアルゴリズムの有効性をある程度の合理的な仮定で検証する。 実験結果から,提案した公正度尺度 HFM が有効であり,提案した ApproxDist が有効かつ効率的であることが示唆された。

Providing various machine learning (ML) applications in the real world, concerns about discrimination hidden in ML models are growing, particularly in high-stakes domains. Existing techniques for assessing the discrimination level of ML models include commonly used group and individual fairness measures. However, these two types of fairness measures are usually hard to be compatible with each other, and even two different group fairness measures might be incompatible as well. To address this issue, we investigate to evaluate the discrimination level of classifiers from a manifold perspective and propose a "harmonic fairness measure via manifolds (HFM)" based on distances between sets. Yet the direct calculation of distances might be too expensive to afford, reducing its practical applicability. Therefore, we devise an approximation algorithm named "Approximation of distance between sets (ApproxDist)" to facilitate accurate estimation of distances, and we further demonstrate its algorithmic effectiveness under certain reasonable assumptions. Empirical results indicate that the proposed fairness measure HFM is valid and that the proposed ApproxDist is effective and efficient.
翻訳日:2024-05-16 13:46:20 公開日:2024-05-15
# ユーザインタフェースのインテリジェント適応のための強化学習型フレームワーク

Reinforcement Learning-Based Framework for the Intelligent Adaptation of User Interfaces ( http://arxiv.org/abs/2405.09255v1 )

ライセンス: Link先を確認
Daniel Gaspar-Figueiredo, Marta Fernández-Diego, Ruben Nuredini, Silvia Abrahão, Emilio Insfrán, (参考訳) ユーザのニーズや好みを満たすために、ソフトウェアシステムのユーザインターフェース(UI)を適用するのは、複雑な作業です。 主な課題は、エンドユーザーに価値を提供する適切なタイミングで適切な適応を提供することです。 機械学習(ML)技術の最近の進歩は、適応プロセスを支援する効果的な手段を提供するかもしれない。 本稿では,Reinforcement Learning (RL) をMLコンポーネントとして用い,ユーザインタフェースを適応させ,最終的にはユーザエクスペリエンス(UX)全般を改善することにより,インテリジェントユーザインタフェース適応のための参照フレームワークをインスタンス化する。 RLを使用することで、システムは過去の適応から学び、意思決定能力を改善することができる。 さらに、このような適応の成功を評価することは依然として課題である。 そこで本研究では,RLエージェントが行う各アクション(e適応)の結果を評価するために,予測型ヒューマン・コンピュータインタラクション(HCI)モデルを提案する。 さらに,RLアルゴリズムの開発と比較のためのツールキットとして機能する,OpenAI Gymの拡張であるインスタントフレームワークの実装を提案する。 このGym環境は高度に設定可能で、他のUI適応コンテキストにも拡張可能である。 評価結果から,我々のRLベースのフレームワークは,ユーザエンゲージメントを最大化するために,HCIモデルを報酬予測器として使用することにより,特定のコンテキストにおけるUIの適応方法を学ぶことができる。

Adapting the user interface (UI) of software systems to meet the needs and preferences of users is a complex task. The main challenge is to provide the appropriate adaptations at the appropriate time to offer value to end-users. Recent advances in Machine Learning (ML) techniques may provide effective means to support the adaptation process. In this paper, we instantiate a reference framework for Intelligent User Interface Adaptation by using Reinforcement Learning (RL) as the ML component to adapt user interfaces and ultimately improving the overall User Experience (UX). By using RL, the system is able to learn from past adaptations to improve the decision-making capabilities. Moreover, assessing the success of such adaptations remains a challenge. To overcome this issue, we propose to use predictive Human-Computer Interaction (HCI) models to evaluate the outcome of each action (ie adaptations) performed by the RL agent. In addition, we present an implementation of the instantiated framework, which is an extension of OpenAI Gym, that serves as a toolkit for developing and comparing RL algorithms. This Gym environment is highly configurable and extensible to other UI adaptation contexts. The evaluation results show that our RL-based framework can successfully train RL agents able to learn how to adapt UIs in a specific context to maximize the user engagement by using an HCI model as rewards predictor.
翻訳日:2024-05-16 13:46:20 公開日:2024-05-15
# QUICの量子:ポスト量子インサイトによる暗号の解読

A Quantum of QUIC: Dissecting Cryptography with Post-Quantum Insights ( http://arxiv.org/abs/2405.09264v1 )

ライセンス: Link先を確認
Marcel Kempf, Nikolas Gauder, Benedikt Jaeger, Johannes Zirngibl, Georg Carle, (参考訳) QUICは2021年に標準化された新しいネットワークプロトコルである。 TCP/TLSスタックを置き換えるために設計され、UDPに基づいている。 最新のWeb標準HTTP/3は、QUICをトランスポートプロトコルとして使用するように設計されている。 QUICは、低レイテンシ接続の確立、フローと混雑制御、信頼性の高いデリバリ、ストリーム多重化を備えたセキュアで高速なトランスポートを提供すると主張している。 セキュリティ目標を達成するため、QUICはTLS 1.3の使用を強制する。 認証された暗号化と追加データ(AEAD)アルゴリズムを使用してペイロードを保護するだけでなく、ヘッダの一部も保護する。 ハンドシェイクは非対称暗号に依存しており、強力な量子コンピュータの導入によって破壊され、量子後暗号の使用は避けられない。 本稿では,QUICの性能に及ぼす暗号の影響を詳細に評価する。 高性能QUIC実装 LSQUIC, quiche, MsQuic は異なる側面で評価される。 我々は対称暗号を異なるセキュリティ機能に分解する。 暗号の影響を分離するために,平文をそのまま残した NOOP AEAD アルゴリズムを実装した。 パケット保護を除去するとQUIC性能が10~20%向上することを示す。 ヘッダ保護はパフォーマンス、特にAES暗号にほとんど影響を与えない。 量子後暗号アルゴリズムをQUICに統合し、量子後アルゴリズムを実装したTLSライブラリを用いてQUICライブラリに大きな変更を加えることなく実現可能であることを示す。 Kyber、Dilithium、FALCONは、ハンドシェイク期間に低い影響を与えるため、クォータ後の安全なQUICの候補を約束している。 キーサイズが大きいSPHINCS+や、より複雑な計算アルゴリズムは、ハンドシェイクの時間に大きく影響し、我々の測定に新たな問題を引き起こします。

QUIC is a new network protocol standardized in 2021. It was designed to replace the TCP/TLS stack and is based on UDP. The most current web standard HTTP/3 is specifically designed to use QUIC as transport protocol. QUIC claims to provide secure and fast transport with low-latency connection establishment, flow and congestion control, reliable delivery, and stream multiplexing. To achieve the security goals, QUIC enforces the usage of TLS 1.3. It uses authenticated encryption with additional data (AEAD) algorithms to not only protect the payload but also parts of the header. The handshake relies on asymmetric cryptography, which will be broken with the introduction of powerful quantum computers, making the use of post-quantum cryptography inevitable. This paper presents a detailed evaluation of the impact of cryptography on QUIC performance. The high-performance QUIC implementations LSQUIC, quiche, and MsQuic are evaluated under different aspects. We break symmetric cryptography down to the different security features. To be able to isolate the impact of cryptography, we implemented a NOOP AEAD algorithm which leaves plaintext unaltered. We show that QUIC performance increases by 10 to 20% when removing packet protection. The header protection has negligible impact on performance, especially for AES ciphers. We integrate post-quantum cryptographic algorithms into QUIC, demonstrating its feasibility without major changes to the QUIC libraries by using a TLS library that implements post-quantum algorithms. Kyber, Dilithium, and FALCON are promising candidates for post-quantum secure QUIC, as they have a low impact on the handshake duration. Algorithms like SPHINCS+ with larger key sizes or more complex calculations significantly impact the handshake duration and cause additional issues in our measurements.
翻訳日:2024-05-16 13:46:20 公開日:2024-05-15
# ダンス・アニー・ビート:ダンス・ビデオ・ジェネレーションのビジュアル・ビート

Dance Any Beat: Blending Beats with Visuals in Dance Video Generation ( http://arxiv.org/abs/2405.09266v1 )

ライセンス: Link先を確認
Xuanchen Wang, Heng Wang, Dongnan Liu, Weidong Cai, (参考訳) 音楽からダンスを生成するタスクは不可欠であるが、現在の方法では主にジョイントシーケンスを生成するため、直感性が欠如し、正確なジョイントアノテーションを必要とするため、データ収集が複雑になる。 本研究ではDance Any Beat Diffusionモデル,すなわちDabFusionを導入し,静止画像から直接ダンスビデオを生成する条件入力として音楽を利用する。 このアプローチは、画像とビデオの合成における条件付け因子としての音楽の使用を先導する。 提案手法は,参照フレームと駆動フレーム間の遅延光フローを予測するオートエンコーダのトレーニング,ジョイントアノテーションの不要化,およびCLAPで符号化された音楽リズムによって導かれる潜光フローを生成するためにU-Netベースの拡散モデルのトレーニングの2段階に展開する。 高品質なダンスビデオを作ることができるが、ベースラインモデルはリズムアライメントに苦慮している。 我々は、ビート情報を追加し、同期を改善してモデルを強化する。 定量的評価のための2D-MMアライメントスコア(2D-MMアライメントスコア)を導入する。 AIST++データセットから評価すると、2D-MM Alignスコアと確立されたメトリクスの顕著な改善が示されている。 ビデオの結果はプロジェクトのページで確認できます。

The task of generating dance from music is crucial, yet current methods, which mainly produce joint sequences, lead to outputs that lack intuitiveness and complicate data collection due to the necessity for precise joint annotations. We introduce a Dance Any Beat Diffusion model, namely DabFusion, that employs music as a conditional input to directly create dance videos from still images, utilizing conditional image-to-video generation principles. This approach pioneers the use of music as a conditioning factor in image-to-video synthesis. Our method unfolds in two stages: training an auto-encoder to predict latent optical flow between reference and driving frames, eliminating the need for joint annotation, and training a U-Net-based diffusion model to produce these latent optical flows guided by music rhythm encoded by CLAP. Although capable of producing high-quality dance videos, the baseline model struggles with rhythm alignment. We enhance the model by adding beat information, improving synchronization. We introduce a 2D motion-music alignment score (2D-MM Align) for quantitative assessment. Evaluated on the AIST++ dataset, our enhanced model shows marked improvements in 2D-MM Align score and established metrics. Video results can be found on our project page: https://DabFusion.github.io.
翻訳日:2024-05-16 13:46:20 公開日:2024-05-15
# ソフトウェア工学における事前概念モデリング--ダイアグラム表現のメタ物理

Preconceptual Modeling in Software Engineering: Metaphysics of Diagrammatic Representations ( http://arxiv.org/abs/2405.09269v1 )

ライセンス: Link先を確認
Sabah Al-Fedaghi, (参考訳) 多くの研究者によると、概念モデル(CM)の開発は難しい作業であり、システム要件の収集は困難であり、多くの誤通信問題を引き起こしている。 CMはモデリング能力以上のものを必要とします - まず最初に、モデルが表現しようとする対象のドメインを理解する必要があります。 したがって、プリ概念モデリング(pre-CM)段階は、典型的なCM開発が始まる前に、存在論的問題に対処することを目的としている。 実体とプロセスが分離され、統合された全体として統合されるとき、それは現実の一部を定義することを伴う。 このCM前フェーズは,本論文における研究の焦点となる。 その目的は、どのようにモデル化するかを示すものではなく、むしろ、現実の関与する部分のメタ物理学的基盤を確立する方法を示すことである。 このようなベンチャーを実証するために,我々は,ハイレベルCMとして提案されている,いわゆるデキシングマシン(TM)モデリングを採用する。 TMモデルは、thimac (things/machine) と呼ばれる基本構造に基づく静的性とダイナミズムを統合する。 それは、現実の2つのモード、存在(イベント)と存在(領域、大まかに言えば、物とプロセスの仕様)を含んでいる。 現在、CMにおける支配的なアプローチは、存在論的分類(型)を開発するための適用範囲を制限するために進化している。 TMアプローチでは、CM前のメタ物理はCM自体の一部とパーセルと見なされる。 一般的な研究問題は、TM構造をターゲット領域の外にあるものとどのようにマッピングするかである。 議論には、ティマクの性質(物と過程)と、それらが現実において相互に重なり合っているときの生存と存在が関係している。 具体的には2つの主張をします a) 現象としての領域の認識性と (b)事象の構成要素としての存在の特異性 この結果は、メタ物理的な洞察の導入に加えて、TMモデリングのさらなる理解に寄与する。

According to many researchers, conceptual model (CM) development is a hard task, and system requirements are difficult to collect, causing many miscommunication problems. CMs require more than modeling ability alone - they first require an understanding of the targeted domain that the model attempts to represent. Accordingly, a preconceptual modeling (pre-CM) stage is intended to address ontological issues before typical CM development is initiated. It involves defining a portion of reality when entities and processes are differentiated and integrated as unified wholes. This pre-CM phase forms the focus of research in this paper. The purpose is not show how to model; rather, it is to demonstrate how to establish a metaphysical basis of the involved portion of reality. To demonstrate such a venture, we employ the so-called thinging machine (TM) modeling that has been proposed as a high-level CM. A TM model integrates staticity and dynamism grounded in a fundamental construct called a thimac (things/machine). It involves two modes of reality, existence (events) and subsistence (regions - roughly, specifications of things and processes). Currently, the dominant approach in CM has evolved to limit its scope of application to develop ontological categorization (types of things). In the TM approach, pre-CM metaphysics is viewed as a part and parcel of CM itself. The general research problem is how to map TM constructs to what is out there in the targeted domain. Discussions involve the nature of thimacs (things and processes) and subsistence and existence as they are superimposed over each other in reality. Specifically, we make two claims, (a) the perceptibility of regions as a phenomenon and (b) the distinctiveness of existence as a construct for events. The results contribute to further the understanding of TM modeling in addition to introducing some metaphysical insights.
翻訳日:2024-05-16 13:46:20 公開日:2024-05-15
# 進化的アルゴリズムによる(MAX)-3SAT QUBOsの作成

Using an Evolutionary Algorithm to Create (MAX)-3SAT QUBOs ( http://arxiv.org/abs/2405.09272v1 )

ライセンス: Link先を確認
Sebastian Zielinski, Maximilian Zorn, Thomas Gabor, Sebastian Feld, Claudia Linnhoff-Popien, (参考訳) 量子メソッドで満足度インスタンスを解決する一般的な方法は、これらのインスタンスをQUBOのインスタンスに変換することである。 MAX-3SATからQUBOへの最先端の変換は現在、MAX-3SATインスタンスに関連する3SAT公式をQUBOのインスタンスにマッピングし、結果のQUBOをMAX-3SATインスタンス全体を表す単一のQUBOインスタンスに結合することで機能している。 これらの変換は、現在、手動または網羅的な探索手法によって行われており、アルゴリズム的に非効率であるので、探索に基づく最適化を含む可能性を見出すことができる。 本稿では,MAX-3SAT問題のQUBO表現を自動生成する進化的アルゴリズムの2つの方法を提案する。 我々は500および1000クロース3SATの公式上で作成したQUBOを評価し,古典的および量子的アニール解法を用いて,最先端のベースラインと競合する性能を示した。

A common way of solving satisfiability instances with quantum methods is to transform these instances into instances of QUBO, which in itself is a potentially difficult and expensive task. State-of-the-art transformations from MAX-3SAT to QUBO currently work by mapping clauses of a 3SAT formula associated with the MAX-3SAT instance to an instance of QUBO and combining the resulting QUBOs into a single QUBO instance representing the whole MAX-3SAT instance. As creating these transformations is currently done manually or via exhaustive search methods and, therefore, algorithmically inefficient, we see potential for including search-based optimization. In this paper, we propose two methods of using evolutionary algorithms to automatically create QUBO representations of MAX-3SAT problems. We evaluate our created QUBOs on 500 and 1000-clause 3SAT formulae and find competitive performance to state-of-the-art baselines when using both classical and quantum annealing solvers.
翻訳日:2024-05-16 13:36:32 公開日:2024-05-15
# 公正一般化線形混合モデル

Fair Generalized Linear Mixed Models ( http://arxiv.org/abs/2405.09273v1 )

ライセンス: Link先を確認
Jan Pablo Burgard, João Vitor Pamplona, (参考訳) 自動予測に機械学習を用いる場合、予測の公平性を考慮することが重要である。 機械学習の公正性は、データとモデルの不正確さのバイアスが差別的な決定に結びつかないことを保証することを目的としている。 例えば、公正な機械学習モデルからの予測は、性的指向や民族性のような敏感な変数に対して差別するべきではない。 トレーニングデータは、しばしば社会調査から取得される。 ソーシャルサーベイでは、しばしばデータ収集のプロセスは、コスト制限のため、ストラタサンプリングである。 成層圏のサンプルでは、観測間の独立性の仮定は満たされない。 したがって、機械学習モデルが成層相関を考慮しなければ、結果はバイアスを受ける可能性がある。 特に、階層割当が興味の変数と相関している場合のバイアスが高い。 本稿では,両問題を同時に処理できるアルゴリズムを提案し,再現可能なシミュレーション研究において,階層化サンプリングが公正な機械学習予測の品質に与える影響を実証する。

When using machine learning for automated prediction, it is important to account for fairness in the prediction. Fairness in machine learning aims to ensure that biases in the data and model inaccuracies do not lead to discriminatory decisions. E.g., predictions from fair machine learning models should not discriminate against sensitive variables such as sexual orientation and ethnicity. The training data often in obtained from social surveys. In social surveys, oftentimes the data collection process is a strata sampling, e.g. due to cost restrictions. In strata samples, the assumption of independence between the observation is not fulfilled. Hence, if the machine learning models do not account for the strata correlations, the results may be biased. Especially high is the bias in cases where the strata assignment is correlated to the variable of interest. We present in this paper an algorithm that can handle both problems simultaneously, and we demonstrate the impact of stratified sampling on the quality of fair machine learning predictions in a reproducible simulation study.
翻訳日:2024-05-16 13:36:32 公開日:2024-05-15
# LLaMAモデルにおける動的活性化ピットフォール--実証的研究

Dynamic Activation Pitfalls in LLaMA Models: An Empirical Study ( http://arxiv.org/abs/2405.09274v1 )

ライセンス: Link先を確認
Chi Ma, Mincong Huang, Chao Wang, Yujie Wang, Lei Yu, (参考訳) 本研究では,言語モデルのLLaMAファミリーにおける動的アクティベーション機構の有効性を系統的に検討する。 ReLUアクティベーション関数を用いたモデルにおける動的アクティベーション法のポテンシャルと速度の向上にもかかわらず、我々の経験的発見は、現在の動的アクティベーションスキームに固有のいくつかの落とし穴を発見した。 様々な動的アクティベーション戦略の広範な実験を通して、LLaMAモデルが通常、ReLUモデルと比較して性能が劣ることを示した。 これらの欠陥は、以下の要素の組み合わせによるものとみなす。 1) 活性化頭部及びニューロンを動的に予測する固有の複雑さ 2 活性化機能により生じる空白が不十分であること。 3)KVキャッシュスキップによる情報の保存が不十分である。 我々の分析は、大規模LLaMAモデルにおける動的アクティベーションの限界に光を当てるだけでなく、将来の疎性スキームの設計を改善するためのロードマップも提案している。

In this work, we systematically investigate the efficacy of dynamic activation mechanisms within the LLaMA family of language models. Despite the potential of dynamic activation methods to reduce computation and increase speed in models using the ReLU activation function, our empirical findings have uncovered several inherent pitfalls in the current dynamic activation schemes. Through extensive experiments across various dynamic activation strategies, we demonstrate that LLaMA models usually underperform when compared to their ReLU counterparts, particularly in scenarios demanding high sparsity ratio. We attribute these deficiencies to a combination of factors: 1) the inherent complexity of dynamically predicting activation heads and neurons; 2) the inadequate sparsity resulting from activation functions; 3) the insufficient preservation of information resulting from KV cache skipping. Our analysis not only sheds light on the limitations of dynamic activation in the context of large-scale LLaMA models but also proposes roadmaps for enhancing the design of future sparsity schemes.
翻訳日:2024-05-16 13:36:32 公開日:2024-05-15
# 不均一環境下でのフェデレーション学習のためのデュアルセグメンテーションクラスタリング戦略

Dual-Segment Clustering Strategy for Federated Learning in Heterogeneous Environments ( http://arxiv.org/abs/2405.09276v1 )

ライセンス: Link先を確認
Pengcheng Sun, Erwu Liu, Wei Ni, Kanglei Yu, Rui Wang, Abbas Jamalipour, (参考訳) フェデレートラーニング(FL)は、ネットワークのパラメータや勾配のみを伝達する、高効率で低通信負荷の分散機械学習パラダイムである。 しかし、非独立で同一に分布する(Non-IID)データ特性は、このパラダイムに悪影響を及ぼす。 さらに、通信品質の不均一性はパラメータ伝達の精度に大きく影響し、FLシステムの性能が低下したり、その収束を防いだりする。 本稿では,異種通信条件に応じてクライアントをクラスタリングし,サンプルサイズとラベル分布による第2のクラスタリングを行い,データと通信の不均一性を解消する,二重セグメントクラスタリング(DSC)戦略を提案する。 実験結果から,本書で提案したDSC戦略はFLの収束率を向上し,クラスタの古典的アルゴリズムと比較して異種環境における精度に優れることが示された。

Federated learning (FL) is a distributed machine learning paradigm with high efficiency and low communication load, only transmitting parameters or gradients of network. However, the non-independent and identically distributed (Non-IID) data characteristic has a negative impact on this paradigm. Furthermore, the heterogeneity of communication quality will significantly affect the accuracy of parameter transmission, causing a degradation in the performance of the FL system or even preventing its convergence. This letter proposes a dual-segment clustering (DSC) strategy, which first clusters the clients according to the heterogeneous communication conditions and then performs a second clustering by the sample size and label distribution, so as to solve the problem of data and communication heterogeneity. Experimental results show that the DSC strategy proposed in this letter can improve the convergence rate of FL, and has superiority on accuracy in a heterogeneous environment compared with the classical algorithm of cluster.
翻訳日:2024-05-16 13:36:32 公開日:2024-05-15
# ホップ代数からの一般化クラスター状態:非可逆対称性とホップテンソルネットワーク表現

Generalized cluster states from Hopf algebras: non-invertible symmetry and Hopf tensor network representation ( http://arxiv.org/abs/2405.09277v1 )

ライセンス: Link先を確認
Zhian Jia, (参考訳) クラスタ状態は、測定ベースの量子計算(MBQC)にとって重要なリソースである。 対称性保護トポロジカル秩序(SPT)を示すため、トポロジカルフェーズの研究にも重要な役割を果たしている。 ホップ代数に基づくクラスター状態の構成について述べる。 有限群値quditをホップ代数値quditに一般化し、ホップ代数の正則作用に基づく一般化されたパウリ-X作用素を導入し、ホップ代数上の既約表現作用に基づく一般化されたパウリ-Z作用素を導入することにより、ホップ量子の包括的理論を開発する。 ホップ四重項に対して非可逆対称性が自然に現れることを示す。 その後、クラスタグラフと呼ばれる二部グラフに対して、同一性状態と自明な表現状態はそれぞれ偶数頂点と奇数頂点に割り当てる。 エッジアンタングルを制御された正規動作として導入し、ホップクラスター状態の一般的な構成を提供する。 エッジエンタングルの可換性を確保するために,任意の三角形多様体に対してクラスタ格子を構築する手法を提案する。 構築を説明する例として,1dクラスタ状態の例を例に挙げる。 これはSPT相の有望な候補として機能するので、このシナリオのためにギャップ付きハミルトニアンを構築し、その非可逆対称性に関する詳細な議論を掘り下げる。 また,1dクラスタ状態モデルが準1dホップ量子二重モデルと等価であることを示す。 また、構造定数のテンソル表現とホップ代数の弦図形を統合することでホップクラスター状態のホップテンソルネットワーク表現を導入する。

Cluster states are crucial resources for measurement-based quantum computation (MBQC). It exhibits symmetry-protected topological (SPT) order, thus also playing a crucial role in studying topological phases. We present the construction of cluster states based on Hopf algebras. By generalizing the finite group valued qudit to a Hopf algebra valued qudit and introducing the generalized Pauli-X operator based on the regular action of the Hopf algebra, as well as the generalized Pauli-Z operator based on the irreducible representation action on the Hopf algebra, we develop a comprehensive theory of Hopf qudits. We demonstrate that non-invertible symmetry naturally emerges for Hopf qudits. Subsequently, for a bipartite graph termed the cluster graph, we assign the identity state and trivial representation state to even and odd vertices, respectively. Introducing the edge entangler as controlled regular action, we provide a general construction of Hopf cluster states. To ensure the commutativity of the edge entangler, we propose a method to construct a cluster lattice for any triangulable manifold. We use the 1d cluster state as an example to illustrate our construction. As this serves as a promising candidate for SPT phases, we construct the gapped Hamiltonian for this scenario and delve into a detailed discussion of its non-invertible symmetries. We also show that the 1d cluster state model is equivalent to the quasi-1d Hopf quantum double model. We also introduce the Hopf tensor network representation of Hopf cluster states by integrating the tensor representation of structure constants with the string diagrams of the Hopf algebra.
翻訳日:2024-05-16 13:36:32 公開日:2024-05-15
# 時代の兆候: 慣用性検出における大規模言語モデルの利用評価

Sign of the Times: Evaluating the use of Large Language Models for Idiomaticity Detection ( http://arxiv.org/abs/2405.09279v1 )

ライセンス: Link先を確認
Dylan Phelps, Thomas Pickard, Maggie Mi, Edward Gow-Smith, Aline Villavicencio, (参考訳) 近年の大規模言語モデルの普及と、その高いゼロショットにより、幅広いタスクにパフォーマンスがもたらされたにもかかわらず、潜在的に慣用的な言語処理を必要とするタスクにおいて、それらがいかにうまく機能するかは、まだ分かっていない。 特に、慣用性タスクに特化して微調整されたエンコーダのみのモデルと比較して、そのようなモデルはどの程度うまく機能しますか? 本研究では,3つの慣用性データセット(SemEval 2022 Task 2a, FLUTE, MAGPIE)上でのLLM(ローカルモデルとソフトウェア・アズ・ア・サービスモデルの両方)の性能に着目し,この問題に対処する。 全体としては,これらのモデルが競争性能を示す一方で,最大規模(GPT-4など)でも細調整されたタスク固有モデルの結果と一致しないことがわかった。 それでも、モデルスケール全体で一貫したパフォーマンス改善が見られます。 さらに,性能向上のための提案手法について検討し,これらの課題にLLMを使うことの実用性について考察する。

Despite the recent ubiquity of large language models and their high zero-shot prompted performance across a wide range of tasks, it is still not known how well they perform on tasks which require processing of potentially idiomatic language. In particular, how well do such models perform in comparison to encoder-only models fine-tuned specifically for idiomaticity tasks? In this work, we attempt to answer this question by looking at the performance of a range of LLMs (both local and software-as-a-service models) on three idiomaticity datasets: SemEval 2022 Task 2a, FLUTE, and MAGPIE. Overall, we find that whilst these models do give competitive performance, they do not match the results of fine-tuned task-specific models, even at the largest scales (e.g. for GPT-4). Nevertheless, we do see consistent performance improvements across model scale. Additionally, we investigate prompting approaches to improve performance, and discuss the practicalities of using LLMs for these tasks.
翻訳日:2024-05-16 13:36:32 公開日:2024-05-15
# 位置学習のための位置誘導変換器(PiT)

Positional Knowledge is All You Need: Position-induced Transformer (PiT) for Operator Learning ( http://arxiv.org/abs/2405.09285v1 )

ライセンス: Link先を確認
Junfeng Chen, Kailiang Wu, (参考訳) 部分微分方程式(PDE)の演算子学習は,複雑なシステムの代理モデルとして期待できるアプローチとして急速に発展しつつある。 自己保持機構を持つトランスフォーマー$\unicode{x2013}$haveは、自然言語処理用に設計された強力なツールである。 しかし、高い計算要求と限定的な解釈可能性を含む課題に直面している。 Transformerベースの演算子学習には,より効率的な注意機構があるのだろうか? 本稿では,従来の演算子学習における自己注意よりも大きな優位性を示す,革新的な位置注意機構に基づく位置誘導変換器(PiT)を提案する。 位置注意はPDEの数値的手法からインスピレーションを得ている。 自己アテンションとは異なり、位置アテンションは演算子の入力関数に対するサンプリング位置の空間的相互関係のみによって誘導され、入力関数値自体に依存しないため、効率が大幅に向上する。 PiTは、様々なPDEベンチマークにわたる様々な複雑な演算子学習タスクにおいて、最先端のニューラル演算子よりも優れたパフォーマンスを示す。 さらに、PiTは広く使われているフーリエニューラル演算子と比較して、離散化収束特性が強化されている。

Operator learning for Partial Differential Equations (PDEs) is rapidly emerging as a promising approach for surrogate modeling of intricate systems. Transformers with the self-attention mechanism$\unicode{x2013}$a powerful tool originally designed for natural language processing$\unicode{x2013}$have recently been adapted for operator learning. However, they confront challenges, including high computational demands and limited interpretability. This raises a critical question: Is there a more efficient attention mechanism for Transformer-based operator learning? This paper proposes the Position-induced Transformer (PiT), built on an innovative position-attention mechanism, which demonstrates significant advantages over the classical self-attention in operator learning. Position-attention draws inspiration from numerical methods for PDEs. Different from self-attention, position-attention is induced by only the spatial interrelations of sampling positions for input functions of the operators, and does not rely on the input function values themselves, thereby greatly boosting efficiency. PiT exhibits superior performance over current state-of-the-art neural operators in a variety of complex operator learning tasks across diverse PDE benchmarks. Additionally, PiT possesses an enhanced discretization convergence feature, compared to the widely-used Fourier neural operator.
翻訳日:2024-05-16 13:36:32 公開日:2024-05-15
# MVBIND:空間結合を埋め込んだビデオのための自己監督型音楽レコメンデーション

MVBIND: Self-Supervised Music Recommendation For Videos Via Embedding Space Binding ( http://arxiv.org/abs/2405.09286v1 )

ライセンス: Link先を確認
Jiajie Teng, Huiyu Duan, Yucheng Zhu, Sijing Wu, Guangtao Zhai, (参考訳) 近年では、視覚とオーディオの両方のモダリティを含むショートビデオが急速に発展していくのを目撃している。 背景音楽は短いビデオにとって重要であり、視聴者の感情に大きな影響を及ぼす可能性がある。 しかし,現在,ショートビデオの背景音楽は一般的にビデオ制作者によって選択されており,ショートビデオの自動レコメンデーション手法が欠如している。 本稿では,相互モーダル検索のための音楽-ビデオ埋め込み空間バインディングモデルであるMVBindを紹介する。 MVBindは、手動のアノテーションを必要とせずに、データから直接、モーダル間関係の固有の知識を取得する、自己教師型アプローチとして機能する。 さらに,ショートビデオに対応する音楽対データセットの欠如を補うため,細心の注意を払って選択したショートビデオからなるSVM-10K(Short Video with Music-10K)というデータセットを構築した。 このデータセットでは、MVBindは他のベースラインメソッドに比べてパフォーマンスが大幅に向上した。 構築されたデータセットとコードは、将来の研究を促進するためにリリースされる。

Recent years have witnessed the rapid development of short videos, which usually contain both visual and audio modalities. Background music is important to the short videos, which can significantly influence the emotions of the viewers. However, at present, the background music of short videos is generally chosen by the video producer, and there is a lack of automatic music recommendation methods for short videos. This paper introduces MVBind, an innovative Music-Video embedding space Binding model for cross-modal retrieval. MVBind operates as a self-supervised approach, acquiring inherent knowledge of intermodal relationships directly from data, without the need of manual annotations. Additionally, to compensate the lack of a corresponding musical-visual pair dataset for short videos, we construct a dataset, SVM-10K(Short Video with Music-10K), which mainly consists of meticulously selected short videos. On this dataset, MVBind manifests significantly improved performance compared to other baseline methods. The constructed dataset and code will be released to facilitate future research.
翻訳日:2024-05-16 13:36:32 公開日:2024-05-15
# 2次元コンパス符号における論理コヒーレンス

Logical coherence in 2D compass codes ( http://arxiv.org/abs/2405.09287v1 )

ライセンス: Link先を確認
Balint Pato, Judd Will Staples Jr., Kenneth R. Brown, (参考訳) 2Dコンパス符号は、Bacon-Shor符号、X-Shor符号、Z-Shor符号、回転した表面符号を含む量子誤り訂正符号のファミリーである。 従来の数値計算結果から,一様コヒーレント回転における表面符号の精度は一定であり,コヒーレンス閾値が一定であることが示唆された。 しかし、一定のしきい値を支持する解析的証明を持つことは、まだ未解決の問題である。 トーリック符号がコード距離$L$の論理コヒーレンスを指数関数的に抑制できることを解析的に証明した。 しかし、回転角 $\theta$ のしきい値の現在の解析的下界は $|\sin(\theta)| < 1/L$ であり、これは定数ではなく$L$ で線型に消える。 この下界は確率雑音下でしきい値を持たないZ-Shor符号によって達成可能であることを示す。 コンパスコードは、以前の限界を改善するための有望な方向を提供する。 回転曲面符号の数値的に確立されたコヒーレンスしきい値付近の閾値を持つ2つの新しいコンパス符号系列のしきい値を解析的に決定する。 さらに、Majoranaモードに基づくシミュレータを用いて、ランダムなコンパス符号群を用いて、Z-Shor符号とX-Shor符号のスムーズな補間を行う。

2D compass codes are a family of quantum error-correcting codes that contain the Bacon-Shor codes, the X-Shor and Z-Shor codes, and the rotated surface codes. Previous numerical results suggest that the surface code has a constant accuracy and coherence threshold under uniform coherent rotation. However, having analytical proof supporting a constant threshold is still an open problem. It is analytically proven that the toric code can exponentially suppress logical coherence in the code distance $L$. However, the current analytical lower bound on the threshold for the rotation angle $\theta$ is $|\sin(\theta)| < 1/L$, which linearly vanishes in $L$ instead of being constant. We show that this lower bound is achievable by the Z-Shor code which does not have a threshold under stochastic noise. Compass codes provide a promising direction to improve on the previous bounds. We analytically determine thresholds for two new compass code families with thresholds near the rotated surface code's numerically established coherence threshold. Furthermore, using a Majorana mode-based simulator, we use random families of compass codes to smoothly interpolate between the Z-Shor codes and the X-Shor codes.
翻訳日:2024-05-16 13:36:32 公開日:2024-05-15
# DeCoDEx: 拡散に基づく非現実的説明の改善のための共同設立者検出ガイダンス

DeCoDEx: Confounder Detector Guidance for Improved Diffusion-based Counterfactual Explanations ( http://arxiv.org/abs/2405.09288v1 )

ライセンス: Link先を確認
Nima Fathi, Amar Kumar, Brennan Nichyporuk, Mohammad Havaei, Tal Arbel, (参考訳) ディープラーニングの分類器は、ターゲットクラスに関連付けられた因果マーカーではなく、データセットに存在する支配的な共同創設者をレイチする傾向があり、一般化が不十分でバイアスのある予測につながる。 反ファクト画像生成による説明可能性(英語版)はこの問題を明らかにすることに成功しているが、支配的かつ多様なアーティファクトの存在下での正確な説明性を許容するバイアス緩和戦略は未解決のままである。 本研究では,DeCoDExフレームワークを提案し,予測中に外部の事前学習されたバイナリアーティファクト検出器をどのように活用し,拡散型対実画像生成装置を正確な説明可能性に導くかを示す。 人工人工物とリアルビジュアルアーティファクト(支援装置)の両方を用いたCheXpertデータセットの実験では,視覚アーティファクトを保存・無視しながら,胸水に伴う因果性病理マーカーを変化させる反ファクト画像の合成に成功した。 The DeCoDEx generated image with ERM and Group-DRO classifiers with the DeCoDEx generated images has significantly improve the results across underrepresented group that are out of distribution for each class。 コードはhttps://github.com/NimaFathi/DeCoDExで公開されている。

Deep learning classifiers are prone to latching onto dominant confounders present in a dataset rather than on the causal markers associated with the target class, leading to poor generalization and biased predictions. Although explainability via counterfactual image generation has been successful at exposing the problem, bias mitigation strategies that permit accurate explainability in the presence of dominant and diverse artifacts remain unsolved. In this work, we propose the DeCoDEx framework and show how an external, pre-trained binary artifact detector can be leveraged during inference to guide a diffusion-based counterfactual image generator towards accurate explainability. Experiments on the CheXpert dataset, using both synthetic artifacts and real visual artifacts (support devices), show that the proposed method successfully synthesizes the counterfactual images that change the causal pathology markers associated with Pleural Effusion while preserving or ignoring the visual artifacts. Augmentation of ERM and Group-DRO classifiers with the DeCoDEx generated images substantially improves the results across underrepresented groups that are out of distribution for each class. The code is made publicly available at https://github.com/NimaFathi/DeCoDEx.
翻訳日:2024-05-16 13:36:32 公開日:2024-05-15
# 画像圧縮アーチファクト削減のための感度分離学習

Sensitivity Decouple Learning for Image Compression Artifacts Reduction ( http://arxiv.org/abs/2405.09291v1 )

ライセンス: Link先を確認
Li Ma, Yifan Zhao, Peixi Peng, Yonghong Tian, (参考訳) ディープラーニング技術の利点により、最近の研究は画像圧縮アーティファクトの削減に大きな進歩をもたらした。 改良された性能にもかかわらず、一般的な方法は圧縮された画像から元の画像へのマッピングを学ぶことのみに焦点をあてるが、圧縮された画像の本質的な特性は無視する。 これらの方法とは違って,固有属性を2つの相補的特徴に分解してアーティファクトの削減,すなわち,トレーニング中の高レベルな意味表現を正規化するための圧縮非感性特徴,圧縮度を意識する圧縮感性特徴に分解することを提案する。 そこで我々はまず,ハイレベルなセマンティクスを維持するために圧縮および原文のエンコーダを正規化するための対角訓練を行い,その上で,圧縮に敏感な機能のための圧縮品質認識機能エンコーダを開発した。 これら2つの相補的特徴に基づいて、復号フェーズにおける変換誘導としてこれらの認識機能を利用するために、DAGN(Dual Awareness Guidance Network)を提案する。 提案したDAGNでは,圧縮非感性特徴をアーティファクトリダクションベースラインに融合することにより圧縮非感性特徴の整合性を維持するために,クロスファンクション融合モジュールを開発した。 提案手法は,BSD500上での平均2.06dBPSNRゲインを達成し,最先端の手法より優れ,BSD500上で1つの画像を処理するのに29.7msしか必要としない。 さらに,LIVE1 と LIU4K の実験結果は,定量的な計測値,視覚的品質,ダウンストリームマシンビジョンタスクの観点から,提案手法の有効性,有効性,優位性を示す。

With the benefit of deep learning techniques, recent researches have made significant progress in image compression artifacts reduction. Despite their improved performances, prevailing methods only focus on learning a mapping from the compressed image to the original one but ignore the intrinsic attributes of the given compressed images, which greatly harms the performance of downstream parsing tasks. Different from these methods, we propose to decouple the intrinsic attributes into two complementary features for artifacts reduction,ie, the compression-insensitive features to regularize the high-level semantic representations during training and the compression-sensitive features to be aware of the compression degree. To achieve this, we first employ adversarial training to regularize the compressed and original encoded features for retaining high-level semantics, and we then develop the compression quality-aware feature encoder for compression-sensitive features. Based on these dual complementary features, we propose a Dual Awareness Guidance Network (DAGN) to utilize these awareness features as transformation guidance during the decoding phase. In our proposed DAGN, we develop a cross-feature fusion module to maintain the consistency of compression-insensitive features by fusing compression-insensitive features into the artifacts reduction baseline. Our method achieves an average 2.06 dB PSNR gains on BSD500, outperforming state-of-the-art methods, and only requires 29.7 ms to process one image on BSD500. Besides, the experimental results on LIVE1 and LIU4K also demonstrate the efficiency, effectiveness, and superiority of the proposed method in terms of quantitative metrics, visual quality, and downstream machine vision tasks.
翻訳日:2024-05-16 13:36:32 公開日:2024-05-15
# 空間最適化に基づく粗集合の属性削減アルゴリズム

Attribute reduction algorithm of rough sets based on spatial optimization ( http://arxiv.org/abs/2405.09292v1 )

ライセンス: Link先を確認
Xuchang Guo, Houbiao Li, (参考訳) 粗集合は規則獲得と属性還元の重要な方法の1つである。 粗い集合属性還元の現在のゴールは、より最小化された属性の数に焦点をあてるが、還元された属性と決定された属性の間の空間的類似性を無視し、規則の数の増加や限定的な一般性といった問題を引き起こす可能性がある。 本稿では,空間最適化に基づく粗い集合属性削減アルゴリズムを提案する。 空間的類似性の概念を導入することにより、空間的類似度が最も高く、還元特性と決定属性の空間的類似度が高くなり、より簡潔で広範な規則が得られる。 さらに,空間最適化に基づく粗セット属性削減アルゴリズムの有効性を実証するために,従来の粗セット属性低減アルゴリズムとの比較実験を行った。

Rough set is one of the important methods for rule acquisition and attribute reduction. The current goal of rough set attribute reduction focuses more on minimizing the number of reduced attributes, but ignores the spatial similarity between reduced and decision attributes, which may lead to problems such as increased number of rules and limited generality. In this paper, a rough set attribute reduction algorithm based on spatial optimization is proposed. By introducing the concept of spatial similarity, to find the reduction with the highest spatial similarity, so that the spatial similarity between reduction and decision attributes is higher, and more concise and widespread rules are obtained. In addition, a comparative experiment with the traditional rough set attribute reduction algorithms is designed to prove the effectiveness of the rough set attribute reduction algorithm based on spatial optimization, which has made significant improvements on many datasets.
翻訳日:2024-05-16 13:36:32 公開日:2024-05-15
# 言語モデルは暗黙の言論の意味を捉えているか?-韓国形態学における排他的不合理性の検討

Do language models capture implied discourse meanings? An investigation with exhaustivity implicatures of Korean morphology ( http://arxiv.org/abs/2405.09293v1 )

ライセンス: Link先を確認
Hagyeong Shin, Sean Trott, (参考訳) 自然言語におけるマークネスは、しばしば言論における非リテラルな意味と関連付けられている。 韓国の差分的対象マーキング(DOM)はこの現象の一例であり、名詞句の意味的特徴と意味的特徴に直交する言説的特徴の両方に基づいて後置的マーカーが選択される。 以前の研究は、言語の分布モデルが単語の特定の意味的特徴を回復することを示した。 韓国語では,対話の意味と異なる対象マークを関連付けることができるのかを,大規模言語モデルを用いて評価した。 その結果, 文法的マーカーの言論的意味は, 談話マーカーよりも符号化が難しいことが示唆された。

Markedness in natural language is often associated with non-literal meanings in discourse. Differential Object Marking (DOM) in Korean is one instance of this phenomenon, where post-positional markers are selected based on both the semantic features of the noun phrases and the discourse features that are orthogonal to the semantic features. Previous work has shown that distributional models of language recover certain semantic features of words -- do these models capture implied discourse-level meanings as well? We evaluate whether a set of large language models are capable of associating discourse meanings with different object markings in Korean. Results suggest that discourse meanings of a grammatical marker can be more challenging to encode than that of a discourse marker.
翻訳日:2024-05-16 13:36:32 公開日:2024-05-15
# 逆制約を考慮したオンライン凸最適化のためのタイト境界

Tight Bounds for Online Convex Optimization with Adversarial Constraints ( http://arxiv.org/abs/2405.09296v1 )

ライセンス: Link先を確認
Abhishek Sinha, Rahul Vaze, (参考訳) 標準オンライン凸最適化(OCO)のよく研究された一般化は、制約付きオンライン凸最適化(COCO)である。 COCOでは、各ラウンドにおいて、そのラウンドのアクションが選択された後、学習者に凸コスト関数と凸制約関数を明らかにする。 目的は、適応的な敵に対して小さな累積制約違反(CCV)を保証しながら、小さな後悔を同時に達成するオンラインポリシーを設計することである。 COCOにおける長年のオープンな疑問は、オンラインポリシーが制限的な仮定なしで同時に$O(\sqrt{T})$ regretと$O(\sqrt{T})$ CCVを達成できるかどうかである。 初めてこれを肯定的に答え、オンラインポリシーが$O(\sqrt{T})$ regretと$\tilde{O}(\sqrt{T})$ CCVを同時に達成できることを示します。 我々は、AdaGradアルゴリズムの適応的再帰境界と、制御理論の古典的なツールであるリアプノフ最適化を効果的に組み合わせて、この結果を確立する。 驚くべきことに、分析は短くエレガントだ。

A well-studied generalization of the standard online convex optimization (OCO) is constrained online convex optimization (COCO). In COCO, on every round, a convex cost function and a convex constraint function are revealed to the learner after the action for that round is chosen. The objective is to design an online policy that simultaneously achieves a small regret while ensuring small cumulative constraint violation (CCV) against an adaptive adversary. A long-standing open question in COCO is whether an online policy can simultaneously achieve $O(\sqrt{T})$ regret and $O(\sqrt{T})$ CCV without any restrictive assumptions. For the first time, we answer this in the affirmative and show that an online policy can simultaneously achieve $O(\sqrt{T})$ regret and $\tilde{O}(\sqrt{T})$ CCV. We establish this result by effectively combining the adaptive regret bound of the AdaGrad algorithm with Lyapunov optimization - a classic tool from control theory. Surprisingly, the analysis is short and elegant.
翻訳日:2024-05-16 13:36:32 公開日:2024-05-15
# Deep Blur Multi-Model (DeepBlurMM) -- 病理画像解析における画像ぼかしの深層学習モデル性能への影響を緩和するための戦略

Deep Blur Multi-Model (DeepBlurMM) -- a strategy to mitigate the impact of image blur on deep learning model performance in histopathology image analysis ( http://arxiv.org/abs/2405.09298v1 )

ライセンス: Link先を確認
Yujie Xiang, Bojing Liu, Mattias Rantalainen, (参考訳) 病理組織像全体(WSI)のAIによる解析は、計算病理学の中心である。 しかし、画質はモデルの性能に影響を及ぼす可能性がある。 本稿では,WSIの非シャープ領域がディープ畳み込みニューラルネットワークの分類性能に与える影響について検討する。 本稿では,非シャープ画像領域の影響を緩和し,モデル性能を向上させるために,DeepBlurMMというマルチモデルアプローチを提案する。 DeepBlurMMは、シグマカットオフを使用して、単一のWSI内で様々なレベルのぼやけたタイルを予測するのに最も適したモデルを決定する。 具体的には、カットオフは、タイルをシャープまたはわずかにぼやけ、ややぼやけ、高いぼやけに分類する。 各ブラーレベルには、タイルレベルの予測のために選択される対応するモデルがある。 乳がんNottingham Histological Grade 1 vs 3におけるDeepBlurMMの有効性について検討した。 5倍のクロスバリデーションで評価した結果,DeepBlurMMは中等度なぼかしと混合したぼかし条件下でのベースモデルよりも優れていた。 予測時のアンシャープ画像タイル(局所的ぼかし)はモデル性能を低下させた。 提案したマルチモデルアプローチは、いくつかの条件下での性能を改善し、研究と臨床の両方における品質を改善する可能性がある。

AI-based analysis of histopathology whole slide images (WSIs) is central in computational pathology. However, image quality can impact model performance. Here, we investigate to what extent unsharp areas of WSIs impact deep convolutional neural network classification performance. We propose a multi-model approach, i.e. DeepBlurMM, to alleviate the impact of unsharp image areas and improve the model performance. DeepBlurMM uses the sigma cut-offs to determine the most suitable model for predicting tiles with various levels of blurring within a single WSI, where sigma is the standard deviation of the Gaussian distribution. Specifically, the cut-offs categorise the tiles into sharp or slight blur, moderate blur, and high blur. Each blur level has a corresponding model to be selected for tile-level predictions. Throughout the simulation study, we demonstrated the application of DeepBlurMM in a binary classification task for breast cancer Nottingham Histological Grade 1 vs 3. Performance, evaluated over 5-fold cross-validation, showed that DeepBlurMM outperformed the base model under moderate blur and mixed blur conditions. Unsharp image tiles (local blurriness) at prediction time reduced model performance. The proposed multi-model approach improved performance under some conditions, with the potential to improve quality in both research and clinical applications.
翻訳日:2024-05-16 13:36:32 公開日:2024-05-15
# メンタルヘルスにおける GPT-4 と Chat-GPT の有効性の比較 : 心理支援のための大規模言語モデルの盲点評価

Comparing the Efficacy of GPT-4 and Chat-GPT in Mental Health Care: A Blind Assessment of Large Language Models for Psychological Support ( http://arxiv.org/abs/2405.09300v1 )

ライセンス: Link先を確認
Birger Moell, (参考訳) 背景: 自然言語処理の急速な進歩は、メンタルヘルスに革命をもたらす可能性のある大きな言語モデルの開発につながった。 これらのモデルは、臨床医を支援し、様々な心理的課題を経験する個人を支援することを約束している。 目的: 本研究は, GPT-4 と Chat-GPT の2つの大言語モデルの性能を比較し, 精神医療における適用可能性を評価することを目的としている。 方法: ブラインド方法論を用いて, 臨床心理学者がモデル応答を, 起源を知らずに評価した。 このプロンプトには、うつ病、不安、外傷など様々なメンタルヘルスのトピックが含まれており、総合的な評価を確実にしている。 結果: 2モデル間の性能に有意な差が認められた(p > 0.05)。 GPT-4は10点中8.29点、Chat-GPTは6.52点だった。 臨床心理学者の評価では、GPT-4は臨床的に関連性があり共感的な反応を発生させるのに効果的であることが示唆され、潜在的ユーザへのより良いサポートとガイダンスが提供された。 結論:本研究は,メンタルヘルス設定における大規模言語モデルの適用性に関する文献の育成に寄与する。 この結果は、これらのモデルを臨床用途に最適化するために、この分野における継続的な研究と開発の重要性を浮き彫りにした。 さらに,2つのモデル間の性能差の根底にある具体的要因を解明し,様々な集団および精神状態におけるそれらの一般化可能性について検討する必要がある。

Background: Rapid advancements in natural language processing have led to the development of large language models with the potential to revolutionize mental health care. These models have shown promise in assisting clinicians and providing support to individuals experiencing various psychological challenges. Objective: This study aims to compare the performance of two large language models, GPT-4 and Chat-GPT, in responding to a set of 18 psychological prompts, to assess their potential applicability in mental health care settings. Methods: A blind methodology was employed, with a clinical psychologist evaluating the models' responses without knowledge of their origins. The prompts encompassed a diverse range of mental health topics, including depression, anxiety, and trauma, to ensure a comprehensive assessment. Results: The results demonstrated a significant difference in performance between the two models (p > 0.05). GPT-4 achieved an average rating of 8.29 out of 10, while Chat-GPT received an average rating of 6.52. The clinical psychologist's evaluation suggested that GPT-4 was more effective at generating clinically relevant and empathetic responses, thereby providing better support and guidance to potential users. Conclusions: This study contributes to the growing body of literature on the applicability of large language models in mental health care settings. The findings underscore the importance of continued research and development in the field to optimize these models for clinical use. Further investigation is necessary to understand the specific factors underlying the performance differences between the two models and to explore their generalizability across various populations and mental health conditions.
翻訳日:2024-05-16 13:26:38 公開日:2024-05-15
# 信号処理用勾配ブーストフィルタ

Gradient Boosted Filters For Signal Processing ( http://arxiv.org/abs/2405.09305v1 )

ライセンス: Link先を確認
Jose A. Lopez, Georg Stemmer, Hector A. Cordourier, (参考訳) グラディエントに強化された決定木は、いくつかの領域、特に静的な表データを扱う領域で顕著な成功を収めた。 しかし,信号処理への勾配向上モデルの応用は未定である。 本研究では,決定木の代わりにHammersteinシステムを用いることにより,動的データに対する勾配強化フィルタを導入する。 我々はVolterra級数に対する我々のアプローチの関連について論じ、その応用の理論的基盤を提供する。 提案手法の有効性を実例で示す。

Gradient boosted decision trees have achieved remarkable success in several domains, particularly those that work with static tabular data. However, the application of gradient boosted models to signal processing is underexplored. In this work, we introduce gradient boosted filters for dynamic data, by employing Hammerstein systems in place of decision trees. We discuss the relationship of our approach to the Volterra series, providing the theoretical underpinning for its application. We demonstrate the effective generalizability of our approach with examples.
翻訳日:2024-05-16 13:26:38 公開日:2024-05-15
# 識別プライバシを用いた情報検索におけるクエリの難読化

Words Blending Boxes. Obfuscating Queries in Information Retrieval using Differential Privacy ( http://arxiv.org/abs/2405.09306v1 )

ライセンス: Link先を確認
Francesco Luigi De Faveri, Guglielmo Faggioli, Nicola Ferro, (参考訳) ユーザーのプライバシーを保護しながら検索クエリの有効性を確保することは、まだ未解決の問題だ。 情報検索システム(IRS)がユーザのプライバシを保護していない場合、システムに送信されたクエリを通じて機密情報を開示することができる。 最近の改良、特にNLPは、テキストを難読化するために差分プライバシーを使用する可能性を示しつつ、良好な有効性を維持している。 しかし、そのようなアプローチは、理論的な観点からのみユーザのプライバシを保護することができるが、実際には、摂動項が元のものと意味的に類似しすぎる場合、実際のユーザの情報が必要であると推測することができる。 このような制限を克服するために、安全なボックスを利用することで、ユーザクエリ内の単語を保護する、クエリ難読化のための新しい分別プライベートなメカニズムであるWord Blending Boxesを提案する。 提案したWBB機構の全体的な有効性を測定するため,難読化処理によって得られるプライバシー,すなわち元のクエリと難読化クエリの語彙的および意味的類似性を測定する。 さらに、IRSから関連文書を検索する際の民営化クエリの有効性を評価する。 以上の結果から,WBBは既存のIRSに効果的に統合可能であることが示唆され,理論的・実用的両面からユーザプライバシを保護するという課題の鍵となる。

Ensuring the effectiveness of search queries while protecting user privacy remains an open issue. When an Information Retrieval System (IRS) does not protect the privacy of its users, sensitive information may be disclosed through the queries sent to the system. Recent improvements, especially in NLP, have shown the potential of using Differential Privacy to obfuscate texts while maintaining satisfactory effectiveness. However, such approaches may protect the user's privacy only from a theoretical perspective while, in practice, the real user's information need can still be inferred if perturbed terms are too semantically similar to the original ones. We overcome such limitations by proposing Word Blending Boxes, a novel differentially private mechanism for query obfuscation, which protects the words in the user queries by employing safe boxes. To measure the overall effectiveness of the proposed WBB mechanism, we measure the privacy obtained by the obfuscation process, i.e., the lexical and semantic similarity between original and obfuscated queries. Moreover, we assess the effectiveness of the privatized queries in retrieving relevant documents from the IRS. Our findings indicate that WBB can be integrated effectively into existing IRSs, offering a key to the challenge of protecting user privacy from both a theoretical and a practical point of view.
翻訳日:2024-05-16 13:26:38 公開日:2024-05-15
# TimeX++:Information Bottleneckで時系列説明を学習する

TimeX++: Learning Time-Series Explanations with Information Bottleneck ( http://arxiv.org/abs/2405.09308v1 )

ライセンス: Link先を確認
Zichuan Liu, Tianchun Wang, Jimeng Shi, Xu Zheng, Zhuomin Chen, Lei Song, Wenqian Dong, Jayantha Obeysekera, Farhad Shirani, Dongsheng Luo, (参考訳) 時系列データに基づくディープラーニングモデルを記述することは、時系列信号から解釈可能かつ透明な洞察を必要とする様々な関心の応用において不可欠である。 本研究では,情報理論の観点からこの問題を考察し,既存の説明可能性尺度のほとんどが,自明な解法や分布シフトの問題に悩まされていることを示す。 これらの課題に対処するために、時系列説明可能な学習のためのシンプルで実用的な客観的関数を導入する。 目的関数の設計は、情報ボトルネック(IB)の原理に基づいており、自明な解や分布シフトの問題を避けるために、IBの目的関数を変更する。 さらに、パラメトリックネットワークを利用した新しい説明フレームワークであるTimeX++を紹介します。 実環境アプリケーションにおけるケーススタディにより,TX++の性能を主要なベースラインと比較し,実環境と実環境の両方で評価し,その実用性を評価する。 定量的かつ定性的な評価は、TimeX++がすべてのデータセットでベースラインを上回り、時系列データの説明品質が大幅に向上したことを示している。 ソースコードは \url{https://github.com/zichuan-liu/TimeXplus} で公開されている。

Explaining deep learning models operating on time series data is crucial in various applications of interest which require interpretable and transparent insights from time series signals. In this work, we investigate this problem from an information theoretic perspective and show that most existing measures of explainability may suffer from trivial solutions and distributional shift issues. To address these issues, we introduce a simple yet practical objective function for time series explainable learning. The design of the objective function builds upon the principle of information bottleneck (IB), and modifies the IB objective function to avoid trivial solutions and distributional shift issues. We further present TimeX++, a novel explanation framework that leverages a parametric network to produce explanation-embedded instances that are both in-distributed and label-preserving. We evaluate TimeX++ on both synthetic and real-world datasets comparing its performance against leading baselines, and validate its practical efficacy through case studies in a real-world environmental application. Quantitative and qualitative evaluations show that TimeX++ outperforms baselines across all datasets, demonstrating a substantial improvement in explanation quality for time series data. The source code is available at \url{https://github.com/zichuan-liu/TimeXplusplus}.
翻訳日:2024-05-16 13:26:38 公開日:2024-05-15
# 線形サンプル複素数を持つ単一指標モデルの能動的学習

Agnostic Active Learning of Single Index Models with Linear Sample Complexity ( http://arxiv.org/abs/2405.09312v1 )

ライセンス: Link先を確認
Aarshvi Gajjar, Wai Ming Tai, Xingyu Xu, Chinmay Hegde, Christopher Musco, Yi Li, (参考訳) F({\mathbf x}) = f(\langle {\mathbf w}, {\mathbf x}\rangle)$, ここでは、$f:\mathbb{R} \to \mathbb{R}$, ${\mathbf x,\mathbf w} \in \mathbb{R}^d$である。 非線型ニューラルネットワークの単純な例としての理論上の関心に加えて、偏微分方程式(PDE)の代理モデリングのような科学的機械学習への応用により、単一インデックスモデルは近年大きな注目を集めている。 このような応用には、対向雑音に頑健なサンプル効率の高い能動学習法が必要である。 つまり、それは挑戦的な無知の学習環境でも機能する。 単一指標モデルの非依存的能動学習に関する2つの主要な結果を提供する。 まず、$f$とLipschitzが知られているとき、$\tilde{O}(d)$サンプルが {statistical leverage score sample} によって収集され、ほぼ最適の単一インデックスモデルを学ぶのに十分であることを示す。 レバレッジスコアのサンプリングは実装が簡単で、効率的で、線形モデルを積極的に学習するためにすでに広く使われている。 我々の結果は、データ分布に関する仮定を必要とせず、ログファクタまで最適であり、最近の${O}(d^{2})$ bound of \cite{gajjar2023active}で4次的に改善する。 第二に、$f$ が \emph{unknown} であるときでさえ、$\tilde{O}(d)$ サンプルが十分であることを示す。 我々の結果は、ダドリーの不等式やスダコフの2重化等を含む高次元の確率から得られるツールと、リプシッツ函数のクラスを新しい分布対応で離散化することを利用する。

We study active learning methods for single index models of the form $F({\mathbf x}) = f(\langle {\mathbf w}, {\mathbf x}\rangle)$, where $f:\mathbb{R} \to \mathbb{R}$ and ${\mathbf x,\mathbf w} \in \mathbb{R}^d$. In addition to their theoretical interest as simple examples of non-linear neural networks, single index models have received significant recent attention due to applications in scientific machine learning like surrogate modeling for partial differential equations (PDEs). Such applications require sample-efficient active learning methods that are robust to adversarial noise. I.e., that work even in the challenging agnostic learning setting. We provide two main results on agnostic active learning of single index models. First, when $f$ is known and Lipschitz, we show that $\tilde{O}(d)$ samples collected via {statistical leverage score sampling} are sufficient to learn a near-optimal single index model. Leverage score sampling is simple to implement, efficient, and already widely used for actively learning linear models. Our result requires no assumptions on the data distribution, is optimal up to log factors, and improves quadratically on a recent ${O}(d^{2})$ bound of \cite{gajjar2023active}. Second, we show that $\tilde{O}(d)$ samples suffice even in the more difficult setting when $f$ is \emph{unknown}. Our results leverage tools from high dimensional probability, including Dudley's inequality and dual Sudakov minoration, as well as a novel, distribution-aware discretization of the class of Lipschitz functions.
翻訳日:2024-05-16 13:26:38 公開日:2024-05-15
# Themis: 強い故障検出機能を備えた自動かつ効率的なディープラーニングシステムテスト

Themis: Automatic and Efficient Deep Learning System Testing with Strong Fault Detection Capability ( http://arxiv.org/abs/2405.09314v1 )

ライセンス: Link先を確認
Tsz On Li, Dong Huang, Xiaofei Xie, Heming Cui, (参考訳) 深層学習システム(DLS)はオートパイロットのような安全クリティカルなタスクに広く応用されている。 しかし、摂動入力が推論のためにDLSに入力されると、DLSはしばしば誤った出力(すなわち障害)を持つ。 DLSテスト技術(例:DeepXplore)は、障害を引き起こすデータフローを探索するために摂動入力を生成することによって、そのような障害を検出する。 DLSは無限に多くのデータフローを持つことが多いため、既存の技術では、開発者は障害を引き起こすデータフローを探索するために、DLSのニューロンにアクティベーション値のセットを手動で指定する必要がある。 残念なことに、最近の研究では、このような手作業は面倒で、少数のフォールトインジェクションデータフローしか検出できないことが示されている。 本稿では,障害発生データフローのフルカバレッジを高い確率で確保することにより,強い障害検出能力を実現する,最初の自動DLSテストシステムであるThemisを提案する。 Themisは新しいワークフローを持ち、内部のニューロンの出力がわずかに乱れたときに大きく変化するデータフローを自動的に体系的に明らかにする。 Themisを10種類のDLSで評価したところ,テミスによって検出された断層の数は,4種類のDLS試験法より平均3.78倍多かった。 測定された全てのDLSを検出された断層で再訓練することで、テミスは全ての基準線よりも平均14.7倍高い精度でこれらのDLSの加速度を上昇させた(再確認)。

Deep Learning Systems (DLSs) have been widely applied in safety-critical tasks such as autopilot. However, when a perturbed input is fed into a DLS for inference, the DLS often has incorrect outputs (i.e., faults). DLS testing techniques (e.g., DeepXplore) detect such faults by generating perturbed inputs to explore data flows that induce faults. Since a DLS often has infinitely many data flows, existing techniques require developers to manually specify a set of activation values in a DLS's neurons for exploring fault-inducing data flows. Unfortunately, recent studies show that such manual effort is tedious and can detect only a tiny proportion of fault-inducing data flows. In this paper, we present Themis, the first automatic DLS testing system, which attains strong fault detection capability by ensuring a full coverage of fault-inducing data flows at a high probability. Themis carries a new workflow for automatically and systematically revealing data flows whose internal neurons' outputs vary substantially when the inputs are slightly perturbed, as these data flows are likely fault-inducing. We evaluated Themis on ten different DLSs and found that on average the number of faults detected by Themis was 3.78X more than four notable DLS testing techniques. By retraining all evaluated DLSs with the detected faults, Themis also increased (regained) these DLSs' accuracies on average 14.7X higher than all baselines.
翻訳日:2024-05-16 13:26:38 公開日:2024-05-15
# 正作用素値カーネルと非可換確率

Positive operator-valued kernels and non-commutative probability ( http://arxiv.org/abs/2405.09315v1 )

ライセンス: Link先を確認
Palle E. T. Jorgensen, James Tian, (参考訳) 一般正の作用素値を持つカーネルに対する新しい因子化と拡張結果が証明され、ヒルベルト空間値を持つガウス過程とその共分散構造に対するそれらの影響を示す。 さらに、完全正の写像系に対する非可換ラドン-ニコディム定理を含む非可換確率論にも適用できる。

We prove new factorization and dilation results for general positive operator-valued kernels, and we present their implications for associated Hilbert space-valued Gaussian processes, and their covariance structure. Further applications are to non-commutative probability theory, including a non-commutative Radon--Nikodym theorem for systems of completely positive maps.
翻訳日:2024-05-16 13:26:38 公開日:2024-05-15
# システムコールに基づくマルウェア検出のための事前学習型大規模言語モデルの伝達学習

Transfer Learning in Pre-Trained Large Language Models for Malware Detection Based on System Calls ( http://arxiv.org/abs/2405.09318v1 )

ライセンス: Link先を確認
Pedro Miguel Sánchez Sánchez, Alberto Huertas Celdrán, Gérôme Bovet, Gregorio Martínez Pérez, (参考訳) 現在のサイバーセキュリティの世界では、コミュニケーションや戦場管理システムといった軍事機器を高度なサイバー攻撃から守ることが不可欠である。 マルウェアはステルスメソッドを通じて脆弱性を悪用し、ソフトウェアシグネチャなどの従来の検出メカニズムを回避している。 脆弱性検出におけるML/DLの適用は文献で広く研究されている。 しかし、現在のML/DL脆弱性検出手法は、複雑な攻撃の背後にあるコンテキストと意図を理解するのに苦労している。 大規模言語モデル(LLM)とシステムコール分析を統合することは、マルウェア検出を強化するための有望なアプローチを提供する。 本研究は,システムコールデータに基づくマルウェアの分類にLLMを利用する新しいフレームワークを提案する。 このフレームワークは、トランスファーラーニングを使用して、事前訓練されたLLMをマルウェア検出に適用する。 LLMを良質で悪意のあるシステムコールのデータセットで再トレーニングすることにより、モデルが改良され、マルウェアの活動の兆候を検出する。 1TBを超えるシステムコールのデータセットによる実験では、BigBirdやLongformerのようなより大きなコンテキストサイズを持つモデルの方が精度が良く、F1スコアは約0.86である。 その結果、検出率の向上におけるコンテキストサイズの重要性を強調し、計算複雑性と性能のトレードオフを浮き彫りにした。 このアプローチは、ハイテイク環境におけるリアルタイム検出の大きな可能性を示し、サイバー脅威の進化に対する堅牢なソリューションを提供する。

In the current cybersecurity landscape, protecting military devices such as communication and battlefield management systems against sophisticated cyber attacks is crucial. Malware exploits vulnerabilities through stealth methods, often evading traditional detection mechanisms such as software signatures. The application of ML/DL in vulnerability detection has been extensively explored in the literature. However, current ML/DL vulnerability detection methods struggle with understanding the context and intent behind complex attacks. Integrating large language models (LLMs) with system call analysis offers a promising approach to enhance malware detection. This work presents a novel framework leveraging LLMs to classify malware based on system call data. The framework uses transfer learning to adapt pre-trained LLMs for malware detection. By retraining LLMs on a dataset of benign and malicious system calls, the models are refined to detect signs of malware activity. Experiments with a dataset of over 1TB of system calls demonstrate that models with larger context sizes, such as BigBird and Longformer, achieve superior accuracy and F1-Score of approximately 0.86. The results highlight the importance of context size in improving detection rates and underscore the trade-offs between computational complexity and performance. This approach shows significant potential for real-time detection in high-stakes environments, offering a robust solution to evolving cyber threats.
翻訳日:2024-05-16 13:26:38 公開日:2024-05-15
# ReconBoost: ブースティングはモダリティのリコンプレッションを達成できる

ReconBoost: Boosting Can Achieve Modality Reconcilement ( http://arxiv.org/abs/2405.09321v1 )

ライセンス: Link先を確認
Cong Hua, Qianqian Xu, Shilong Bao, Zhiyong Yang, Qingming Huang, (参考訳) 本稿では,単モーダル特徴の活用と相互モーダル相互作用の探索との整合性を追求する,新しい多モーダル交互学習パラダイムについて検討する。 これは、現在のマルチモーダル学習のパラダイムが同時にマルチモーダルな特徴を探求する傾向があるという事実に動機づけられている。 結果として生じる勾配は、弱モダリティにおける特徴のさらなる活用を禁止し、支配的なモダリティが学習過程を超越するモダリティ競争につながる。 この問題に対処するため,モダリティ代替学習パラダイムを考察し,再現性を実現する。 具体的には、固定モードを毎回更新するReconBoostと呼ばれる新しい手法を提案する。 ここでは、歴史的モデルとの競合に対する調整規則化により学習目標を動的に調整する。 提案手法は,KLに基づく再構成を選択することにより,Friedman の Gradient-Boosting (GB) アルゴリズムに類似することを示す。 古典的GBとの大きな違いは、強い学習者による過度な適合を避けるために、各モダリティに対する最新のモデルのみを保持することである。 さらに,この戦略をより効果的にするために,メモリ統合方式とグローバル修正方式を提案する。 6つのマルチモーダルベンチマークの実験では、この方法の有効性が示されている。 コードをhttps://github.com/huacong/ReconBoost.comでリリースします。

This paper explores a novel multi-modal alternating learning paradigm pursuing a reconciliation between the exploitation of uni-modal features and the exploration of cross-modal interactions. This is motivated by the fact that current paradigms of multi-modal learning tend to explore multi-modal features simultaneously. The resulting gradient prohibits further exploitation of the features in the weak modality, leading to modality competition, where the dominant modality overpowers the learning process. To address this issue, we study the modality-alternating learning paradigm to achieve reconcilement. Specifically, we propose a new method called ReconBoost to update a fixed modality each time. Herein, the learning objective is dynamically adjusted with a reconcilement regularization against competition with the historical models. By choosing a KL-based reconcilement, we show that the proposed method resembles Friedman's Gradient-Boosting (GB) algorithm, where the updated learner can correct errors made by others and help enhance the overall performance. The major difference with the classic GB is that we only preserve the newest model for each modality to avoid overfitting caused by ensembling strong learners. Furthermore, we propose a memory consolidation scheme and a global rectification scheme to make this strategy more effective. Experiments over six multi-modal benchmarks speak to the efficacy of the method. We release the code at https://github.com/huacong/ReconBoost.
翻訳日:2024-05-16 13:26:38 公開日:2024-05-15
# グラフを用いた粗粒度ダイナミクスの学習

Learning Coarse-Grained Dynamics on Graph ( http://arxiv.org/abs/2405.09324v1 )

ライセンス: Link先を確認
Yin Yu, John Harlim, Daning Huang, Yan Li, (参考訳) グラフ上の粗粒度動的システムを特定するために,グラフニューラルネットワーク(GNN)非マルコフモデリングフレームワークを検討する。 本研究の主目的は, グラフトポロジを符号化する粗粒度相互作用係数に, モリ・ズワンチのメモリ項の先頭項がどのように依存するかを検査することによって, GNNアーキテクチャを体系的に決定することである。 この分析から、$K$-hopの動的相互作用を考慮に入れた適切なGNNアーキテクチャは、少なくとも2K$ステップのメッセージパッシング(MP)機構を使わなければならないことがわかった。 また, 相互作用強度がホップ距離の関数として減衰するパワー則を示すという仮定の下で, 相互作用強度の関数として, 正確な閉包モデルに必要なメモリ長が減少することを示した。 不均一な倉本発振器モデルと電力系統の2つの例に対する数値的な実証を支援することで,GNNアーキテクチャは,固定および時間変化グラフトポロジーの下での粗粒度ダイナミクスを予測可能であることを示唆している。

We consider a Graph Neural Network (GNN) non-Markovian modeling framework to identify coarse-grained dynamical systems on graphs. Our main idea is to systematically determine the GNN architecture by inspecting how the leading term of the Mori-Zwanzig memory term depends on the coarse-grained interaction coefficients that encode the graph topology. Based on this analysis, we found that the appropriate GNN architecture that will account for $K$-hop dynamical interactions has to employ a Message Passing (MP) mechanism with at least $2K$ steps. We also deduce that the memory length required for an accurate closure model decreases as a function of the interaction strength under the assumption that the interaction strength exhibits a power law that decays as a function of the hop distance. Supporting numerical demonstrations on two examples, a heterogeneous Kuramoto oscillator model and a power system, suggest that the proposed GNN architecture can predict the coarse-grained dynamics under fixed and time-varying graph topologies.
翻訳日:2024-05-16 13:26:38 公開日:2024-05-15
# BARO: 多変量ベイズオンライン変更点検出によるマイクロサービスのロバストルート原因分析

BARO: Robust Root Cause Analysis for Microservices via Multivariate Bayesian Online Change Point Detection ( http://arxiv.org/abs/2405.09330v1 )

ライセンス: Link先を確認
Luan Pham, Huong Ha, Hongyu Zhang, (参考訳) 障害を検出し、その根本原因を迅速かつ正確に特定することは、マイクロサービスシステムの可用性を確保する上で極めて重要です。 マイクロサービスの典型的な障害シューティングパイプラインは、異常検出と根本原因分析という2つのフェーズで構成されている。 根本原因分析に関する様々な研究は正確な異常検出を必要とするが、異常検出技術による正確な推定は保証されていない。 不正確な異常検出結果は根本原因の局在に大きく影響を及ぼす可能性がある。 この課題に対処するため,マイクロサービスシステムの障害を効果的に対処するために,異常検出と根本原因解析を統合したエンドツーエンドアプローチであるBAROを提案する。 BAROは、多変量ベイズオンライン変更点検出技術を利用して、多変量時系列メトリクスデータ内の依存性をモデル化し、より正確に異常を検出する。 BAROはまた、ルート原因を堅牢に同定する新しい非パラメトリック統計的仮説テスト技術も取り入れており、既存の研究と比べて異常検出の精度に敏感ではない。 一般的な3つのベンチマークマイクロサービスシステムで実施した包括的な実験は、BAROが異常検出と根本原因分析の両方において、最先端のアプローチを一貫して上回っていることを示している。

Detecting failures and identifying their root causes promptly and accurately is crucial for ensuring the availability of microservice systems. A typical failure troubleshooting pipeline for microservices consists of two phases: anomaly detection and root cause analysis. While various existing works on root cause analysis require accurate anomaly detection, there is no guarantee of accurate estimation with anomaly detection techniques. Inaccurate anomaly detection results can significantly affect the root cause localization results. To address this challenge, we propose BARO, an end-to-end approach that integrates anomaly detection and root cause analysis for effectively troubleshooting failures in microservice systems. BARO leverages the Multivariate Bayesian Online Change Point Detection technique to model the dependency within multivariate time-series metrics data, enabling it to detect anomalies more accurately. BARO also incorporates a novel nonparametric statistical hypothesis testing technique for robustly identifying root causes, which is less sensitive to the accuracy of anomaly detection compared to existing works. Our comprehensive experiments conducted on three popular benchmark microservice systems demonstrate that BARO consistently outperforms state-of-the-art approaches in both anomaly detection and root cause analysis.
翻訳日:2024-05-16 13:26:38 公開日:2024-05-15
# 分散シフト下におけるマルチソースコンフォーマル推論

Multi-Source Conformal Inference Under Distribution Shift ( http://arxiv.org/abs/2405.09331v1 )

ライセンス: Link先を確認
Yi Liu, Alexander W. Levis, Sharon-Lise Normand, Larry Han, (参考訳) 近年、複数のデータソースにまたがる複雑な機械学習モデルの利用が増加し、より一般化可能な意思決定が可能になっている。 しかし、データソース間の分散シフトと個々のレベルのデータの共有に関するプライバシー上の懸念、マシンラーニングの予測からの不確実性な定量化が欠如しているため、マルチソース環境で有効な推論を実現するのは難しい。 本稿では,複数の偏りのあるデータソースを利用して,対象個体数の分布自由予測区間を求める問題について考察する。 対象および対象集団における未観測結果の量子化に対する効率的な影響関数を導出し,未知度関数の推定に機械学習予測アルゴリズムを組み込むことが可能であることを示す。 さらに、条件付き結果の不変性に反した場合、効率向上のための重み付き情報ソースと、バイアス低減のための重み付き非情報ソースに対するデータ適応戦略を提案する。 本稿では,多種多様なコンフォメーションスコアとデータ生成機構について,広範囲な合成実験による提案手法の堅牢性と効率性を強調した。 米国における2016-2022年の高リスク心外科手術を施行した小児患者の入院予測間隔の病院長は,本法の有用性を示唆している。

Recent years have experienced increasing utilization of complex machine learning models across multiple sources of data to inform more generalizable decision-making. However, distribution shifts across data sources and privacy concerns related to sharing individual-level data, coupled with a lack of uncertainty quantification from machine learning predictions, make it challenging to achieve valid inferences in multi-source environments. In this paper, we consider the problem of obtaining distribution-free prediction intervals for a target population, leveraging multiple potentially biased data sources. We derive the efficient influence functions for the quantiles of unobserved outcomes in the target and source populations, and show that one can incorporate machine learning prediction algorithms in the estimation of nuisance functions while still achieving parametric rates of convergence to nominal coverage probabilities. Moreover, when conditional outcome invariance is violated, we propose a data-adaptive strategy to upweight informative data sources for efficiency gain and downweight non-informative data sources for bias reduction. We highlight the robustness and efficiency of our proposals for a variety of conformal scores and data-generating mechanisms via extensive synthetic experiments. Hospital length of stay prediction intervals for pediatric patients undergoing a high-risk cardiac surgical procedure between 2016-2022 in the U.S. illustrate the utility of our methodology.
翻訳日:2024-05-16 13:26:38 公開日:2024-05-15
# Gated Recurrent Units のCT軌道最適化への応用

Application of Gated Recurrent Units for CT Trajectory Optimization ( http://arxiv.org/abs/2405.09333v1 )

ライセンス: Link先を確認
Yuedong Yuan, Linda-Sophie Schneider, Andreas Maier, (参考訳) コンピュータ断層撮影(CT)の最近の進歩、特にデュアルロボットシステムでは、走査軌道最適化の新たな課題が紹介されている。 本稿では, Gated Recurrent Units (GRUs) を用いたCTスキャントラジェクトリの最適化手法を提案する。 提案手法は,ロボットCTシステムの柔軟性を活用し,解像度とコントラストを改善し,スキャン時間を短縮し,画像品質を向上させるプロジェクションを選択する。 我々はコーンビームCTに焦点をあて、吸収、画素強度、コントラスト・ツー・ノイズ比、データの完全性など、プロジェクションに基づくいくつかの指標を用いている。 GRUネットワークは、データ冗長性を最小化し、プロジェクションの限られた数で完全性を最大化することを目的としている。 実験試料のシミュレーションデータを用いて,本手法の有効性を検証した。 その結果,GRU最適化スキャントラジェクトリは,画像品質の指標から従来の円形CTトラジェクトリよりも優れていることがわかった。 使用標本では、SSIMは0.38から0.49に改善され、CNRは6.97から9.08に改善された。 この結果は、CTスキャン軌道最適化におけるGRUの適用により、より効率的で費用対効果が高く、高品質なイメージングソリューションが得られることを示唆している。

Recent advances in computed tomography (CT) imaging, especially with dual-robot systems, have introduced new challenges for scan trajectory optimization. This paper presents a novel approach using Gated Recurrent Units (GRUs) to optimize CT scan trajectories. Our approach exploits the flexibility of robotic CT systems to select projections that enhance image quality by improving resolution and contrast while reducing scan time. We focus on cone-beam CT and employ several projection-based metrics, including absorption, pixel intensities, contrast-to-noise ratio, and data completeness. The GRU network aims to minimize data redundancy and maximize completeness with a limited number of projections. We validate our method using simulated data of a test specimen, focusing on a specific voxel of interest. The results show that the GRU-optimized scan trajectories can outperform traditional circular CT trajectories in terms of image quality metrics. For the used specimen, SSIM improves from 0.38 to 0.49 and CNR increases from 6.97 to 9.08. This finding suggests that the application of GRU in CT scan trajectory optimization can lead to more efficient, cost-effective, and high-quality imaging solutions.
翻訳日:2024-05-16 13:26:38 公開日:2024-05-15
# マルチクラスボリュームラジオグラフィ画像のコンテントベース画像検索 : ベンチマークによる検討

Content-Based Image Retrieval for Multi-Class Volumetric Radiology Images: A Benchmark Study ( http://arxiv.org/abs/2405.09334v1 )

ライセンス: Link先を確認
Farnaz Khun Jush, Steffen Vogler, Tuan Truong, Matthias Lenga, (参考訳) コンテンツに基づく画像検索(CBIR)は、自然画像検索において広く研究されているが、医用画像への応用は、主に医用画像の3D的な性質のために、現在進行中の課題を提示する。 近年の研究では、放射線画像検索の文脈において、CBIRのための事前訓練された視覚埋め込みの可能性を示唆している。 しかし,3次元医用画像の検索のためのベンチマークは,医用画像におけるCBIR手法の有効性を客観的に評価し,比較する能力を妨げている。 本研究では,これまでの作業を拡張し,TotalSegmentator データセット(TS)を用いて,詳細な多臓器アノテーションを用いた領域ベースおよび複数臓器検索のベンチマークを確立する。 医用画像の教師なしモデルから得られた埋め込みを,29の粗い画像と104の詳細な解剖学的構造に対して,非教師なしモデルから抽出した埋め込みと比較した。 我々は,画像検索のためのテキストマッチングに着想を得た遅延的インタラクション・リグレード手法を採用し,この手法を,広い範囲の多様な解剖学的領域に対する1.0の検索リコールを実現するボリュームと領域検索に提案した元の方法と比較した。 本稿では,医療画像の文脈におけるCBIRアプローチの開発と評価に重要な知見とベンチマークを提供する。

While content-based image retrieval (CBIR) has been extensively studied in natural image retrieval, its application to medical images presents ongoing challenges, primarily due to the 3D nature of medical images. Recent studies have shown the potential use of pre-trained vision embeddings for CBIR in the context of radiology image retrieval. However, a benchmark for the retrieval of 3D volumetric medical images is still lacking, hindering the ability to objectively evaluate and compare the efficiency of proposed CBIR approaches in medical imaging. In this study, we extend previous work and establish a benchmark for region-based and multi-organ retrieval using the TotalSegmentator dataset (TS) with detailed multi-organ annotations. We benchmark embeddings derived from pre-trained supervised models on medical images against embeddings derived from pre-trained unsupervised models on non-medical images for 29 coarse and 104 detailed anatomical structures in volume and region levels. We adopt a late interaction re-ranking method inspired by text matching for image retrieval, comparing it against the original method proposed for volume and region retrieval achieving retrieval recall of 1.0 for diverse anatomical regions with a wide size range. The findings and methodologies presented in this paper provide essential insights and benchmarks for the development and evaluation of CBIR approaches in the context of medical imaging.
翻訳日:2024-05-16 13:26:38 公開日:2024-05-15
# 簡単な質問応答のためのプロンプトに基づく合成データ生成

Prompting-based Synthetic Data Generation for Few-Shot Question Answering ( http://arxiv.org/abs/2405.09335v1 )

ライセンス: Link先を確認
Maximilian Schmidt, Andrea Bartezzaghi, Ngoc Thang Vu, (参考訳) 言語モデル(LM)は質問回答のパフォーマンスを向上しましたが、それでも十分なデータが必要です。 対照的に、データアノテーションは時間を要するプロセスです。 これは質問回答に特に当てはまり、大きな文書をパースして、質問とそれに対応する回答をアノテートする必要がある。 さらに、質問回答モデルは、トレーニングされたドメインに対してのみうまく機能することが多い。 アノテーションはコストがかかるので、言語理解のようなLMからのドメインに依存しない知識は、十分に計算されたデータセットを作成するのに十分である、と論じる。 このモチベーションにより、大規模言語モデルを使用することで、最先端のアプローチと比較して、数ショット設定で様々なデータセットに対する質問応答性能が向上することを示す。 そこで我々は, Promptingフレームワークを利用したデータ生成を行い, 言語モデルには, 一般的な事前学習/微調整の手法を超えて, 有用なタスク非依存の知識が含まれていることを示唆した。 その結果,従来の質問回答よりもずっと優れていた。

Although language models (LMs) have boosted the performance of Question Answering, they still need plenty of data. Data annotation, in contrast, is a time-consuming process. This especially applies to Question Answering, where possibly large documents have to be parsed and annotated with questions and their corresponding answers. Furthermore, Question Answering models often only work well for the domain they were trained on. Since annotation is costly, we argue that domain-agnostic knowledge from LMs, such as linguistic understanding, is sufficient to create a well-curated dataset. With this motivation, we show that using large language models can improve Question Answering performance on various datasets in the few-shot setting compared to state-of-the-art approaches. For this, we perform data generation leveraging the Prompting framework, suggesting that language models contain valuable task-agnostic knowledge that can be used beyond the common pre-training/fine-tuning scheme. As a result, we consistently outperform previous approaches on few-shot Question Answering.
翻訳日:2024-05-16 13:26:38 公開日:2024-05-15
# 知識編集の観点からの大規模言語モデルバイアス軽減

Large Language Model Bias Mitigation from the Perspective of Knowledge Editing ( http://arxiv.org/abs/2405.09341v1 )

ライセンス: Link先を確認
Ruizhe Chen, Yichen Li, Zikai Xiao, Zuozhu Liu, (参考訳) 既存のデバイアス法は、必然的に不合理または望ましくない予測を、異なる社会グループ間で同等に評価され、個々の事実を放棄し、既存の知識を改変する。 本稿では,まず,既存および追加構築されたデータセットを活用するバイアス緩和ベンチマークBiasKEを構築し,公正性,特異性,一般化の相補的指標を用いて,バイアス低減性能を体系的に評価する。 一方,個々人のバイアス知識を微調整することで,編集可能な公平性を実現するための,新しい脱バイアス手法であるFairness Stamp(FAST)を提案する。 総合的な実験により、FASTは、知識保存のための全体的なモデル能力を妨げることなく、顕著なデバイアス性能で最先端のベースラインを超えることが示され、LLMの編集可能な公平性のためのきめ細かいデバイアス戦略の見通しが強調された。

Existing debiasing methods inevitably make unreasonable or undesired predictions as they are designated and evaluated to achieve parity across different social groups but leave aside individual facts, resulting in modified existing knowledge. In this paper, we first establish a new bias mitigation benchmark BiasKE leveraging existing and additional constructed datasets, which systematically assesses debiasing performance by complementary metrics on fairness, specificity, and generalization. Meanwhile, we propose a novel debiasing method, Fairness Stamp (FAST), which enables editable fairness through fine-grained calibration on individual biased knowledge. Comprehensive experiments demonstrate that FAST surpasses state-of-the-art baselines with remarkable debiasing performance while not hampering overall model capability for knowledge preservation, highlighting the prospect of fine-grained debiasing strategies for editable fairness in LLMs.
翻訳日:2024-05-16 13:16:53 公開日:2024-05-15
# フレキシブルディープス完了のためのプログレッシブディープスデカップリングと変調

Progressive Depth Decoupling and Modulating for Flexible Depth Completion ( http://arxiv.org/abs/2405.09342v1 )

ライセンス: Link先を確認
Zhiwen Yang, Jiehua Zhang, Liang Li, Chenggang Yan, Yaoqi Sun, Haibing Yin, (参考訳) 画像誘導深度補正は、疎LiDARデータとRGB画像から高密度深度マップを生成することを目的としている。 近年の手法では,2つのサブタスク(深度離散化と確率予測)で分類問題として再検討し,有望な性能を示した。 彼らは、深度範囲を複数の離散深度値に分割し、シーン深度分布の先行として機能する。 しかし, 従来の深度離散化手法は, 異なるシーンにまたがる深度分布の変化の影響を受けやすいため, 最下位シーンの深度分布に先行する。 以上の問題に対処するため, 深度範囲をインクリメンタルにビンに分解し, 多段階の高密度マップを適応的に生成するプログレッシブ・ディープ・デカップリング・変調ネットワークを提案する。 具体的には、まずBins Initializing Module (BIM) を設計し、深さ分布のばらつきに適応し、スパース深度マップ内の深さ分布情報を探索してシードビンを構築する。 そこで我々は, 深度分布情報をグローバルからローカルへ段階的に洗練するために, 漸進的な深度デカップリング分岐を考案した。 一方、粗い粒度から細かい粒度への確率表現を段階的に改善する適応深度変調分岐が開発された。 また,これら2つのブランチ(サブタスク)間の情報インタラクションを強化し,各ブランチにおける情報補完を促進するために,双方向情報インタラクションを提案する。 さらに,潜時特徴の深度分布情報を学習し,異なるシーンにまたがる適応性を高めるため,マルチスケールの監視機構を導入する。 公開データセットによる実験結果から,本手法は最先端の手法よりも優れていることが示された。 コードは[ this https URL](https://github.com/Cisse-away/PDDM)でオープンソース化される。

Image-guided depth completion aims at generating a dense depth map from sparse LiDAR data and RGB image. Recent methods have shown promising performance by reformulating it as a classification problem with two sub-tasks: depth discretization and probability prediction. They divide the depth range into several discrete depth values as depth categories, serving as priors for scene depth distributions. However, previous depth discretization methods are easy to be impacted by depth distribution variations across different scenes, resulting in suboptimal scene depth distribution priors. To address the above problem, we propose a progressive depth decoupling and modulating network, which incrementally decouples the depth range into bins and adaptively generates multi-scale dense depth maps in multiple stages. Specifically, we first design a Bins Initializing Module (BIM) to construct the seed bins by exploring the depth distribution information within a sparse depth map, adapting variations of depth distribution. Then, we devise an incremental depth decoupling branch to progressively refine the depth distribution information from global to local. Meanwhile, an adaptive depth modulating branch is developed to progressively improve the probability representation from coarse-grained to fine-grained. And the bi-directional information interactions are proposed to strengthen the information interaction between those two branches (sub-tasks) for promoting information complementation in each branch. Further, we introduce a multi-scale supervision mechanism to learn the depth distribution information in latent features and enhance the adaptation capability across different scenes. Experimental results on public datasets demonstrate that our method outperforms the state-of-the-art methods. The code will be open-sourced at [this https URL](https://github.com/Cisse-away/PDDM).
翻訳日:2024-05-16 13:16:53 公開日:2024-05-15
# モース関数によるニューラルネットワークとニューラルネットワークの幾何学構造の解析

Analysis of the Geometric Structure of Neural Networks and Neural ODEs via Morse Functions ( http://arxiv.org/abs/2405.09351v1 )

ライセンス: Link先を確認
Christian Kuehn, Sara-Viola Kuntz, (参考訳) 古典的なフィードフォワードニューラルネットワークに加えて、ニューラル常微分方程式(ニューラルODE)も近年特に関心を集めている。 ニューラルネットワークは、フィードフォワードまたは残留ニューラルネットワークの無限の深さ制限として解釈することができる。 本研究では,スカラー出力を持つ有限深度ニューラルネットワークと無限深度ニューラルネットワークの入力出力ダイナミクスについて検討する。 有限深さの場合、入力は有限数のノードに関連する状態であり、複数の非線形変換の下で1つの出力ノードの状態にマップされる。 アナログにおいて、ニューラル ODE は入力の線形変換をその時間-$T$写像の線形変換にマッピングする。 ネットワークの特定の構造によって、入力出力マップは臨界点の存在と規則性に関して異なる特性を持つことを示す。 これらの性質は、すべての臨界点が非退化であるスカラー関数であるモース函数によって特徴づけられる。 隠れ層の次元が単調に減少している場合や位相空間の次元が入力次元と等しい場合、臨界点が存在しないことを証明する。 臨界点が存在する場合、ネットワークの特定のアーキテクチャによってそれらの規則性を分類する。 各臨界点は非退化であり、有限深度ニューラルネットワークの場合、基礎となるグラフはボトルネックがなく、ニューラルODEの場合、使用される線形変換はフルランクである。 それぞれのタイプのアーキテクチャにおいて、証明された性質は有限および無限深度の場合と同等である。 確立された定理は、普遍的な埋め込み、すなわちニューラルネットワークとニューラルODEによる地図の正確な表現に関する結果を定式化することができる。 インプット・アウトプット・マップの幾何学的構造に対する我々の力学系の視点は、なぜ特定のアーキテクチャが他のアーキテクチャよりも優れているのかという根本的な理解を提供する。

Besides classical feed-forward neural networks, also neural ordinary differential equations (neural ODEs) gained particular interest in recent years. Neural ODEs can be interpreted as an infinite depth limit of feed-forward or residual neural networks. We study the input-output dynamics of finite and infinite depth neural networks with scalar output. In the finite depth case, the input is a state associated to a finite number of nodes, which maps under multiple non-linear transformations to the state of one output node. In analogy, a neural ODE maps a linear transformation of the input to a linear transformation of its time-$T$ map. We show that depending on the specific structure of the network, the input-output map has different properties regarding the existence and regularity of critical points. These properties can be characterized via Morse functions, which are scalar functions, where every critical point is non-degenerate. We prove that critical points cannot exist, if the dimension of the hidden layer is monotonically decreasing or the dimension of the phase space is smaller or equal to the input dimension. In the case that critical points exist, we classify their regularity depending on the specific architecture of the network. We show that each critical point is non-degenerate, if for finite depth neural networks the underlying graph has no bottleneck, and if for neural ODEs, the linear transformations used have full rank. For each type of architecture, the proven properties are comparable in the finite and in the infinite depth case. The established theorems allow us to formulate results on universal embedding, i.e.\ on the exact representation of maps by neural networks and neural ODEs. Our dynamical systems viewpoint on the geometric structure of the input-output map provides a fundamental understanding, why certain architectures perform better than others.
翻訳日:2024-05-16 13:16:53 公開日:2024-05-15
# 軽量画像超解像のための大規模座標カーネルアテンションネットワーク

Large coordinate kernel attention network for lightweight image super-resolution ( http://arxiv.org/abs/2405.09353v1 )

ライセンス: Link先を確認
Fangwei Hao, Jiesheng Wu, Haotian Lu, Ji Du, Jing Xu, (参考訳) マルチスケールの受容場と大きなカーネルアテンション (LKA) モジュールは、軽量画像超分解能タスクの性能を著しく向上することが示されている。 しかし、既存の軽量超解像法(SR)は、局所モデリングのためのマルチスケールの受容場を持つ効率的なビルディングブロックの設計にはほとんど注意を払わず、LKAモジュールは、畳み込みカーネルのサイズが大きくなるにつれて、計算量とメモリフットプリントの2次的な増加に直面している。 最初の課題に対処するために,マルチスケールの分離可能な畳み込み(MBSConv)をマルチスケールの受容場を持つ高効率なビルディングブロックとして提案し,識別表現の重要な要素であるマルチスケール情報の学習に焦点を合わせることができる。 第2の課題は、LKAの鍵となる特性を再考し、ローカル情報と長距離依存の直接的な相互作用は、顕著な性能を提供するために重要であることを発見した。 そこで本研究では,LKAの複雑さを緩和するために,LKAの深度方向の畳み込みレイヤの2次元畳み込みカーネルを水平および垂直1次元カーネルに分解する大規模な座標カーネルアテンション(LCKA)モジュールを提案する。 LCKAは、水平方向だけでなく垂直方向でも、局所情報と長距離依存の直接的な相互作用を可能にする。 さらに、LCKAは、深度的な畳み込み層において非常に大きなカーネルを直接使用することで、よりコンテキスト的な情報をキャプチャし、再構成性能を大幅に向上させ、計算複雑性とメモリフットプリントを低下させる。 MBSConvとLCKAを統合し,大規模なカーネルアテンションネットワーク(LCAN)を提案する。

The multi-scale receptive field and large kernel attention (LKA) module have been shown to significantly improve performance in the lightweight image super-resolution task. However, existing lightweight super-resolution (SR) methods seldom pay attention to designing efficient building block with multi-scale receptive field for local modeling, and their LKA modules face a quadratic increase in computational and memory footprints as the convolutional kernel size increases. To address the first issue, we propose the multi-scale blueprint separable convolutions (MBSConv) as highly efficient building block with multi-scale receptive field, it can focus on the learning for the multi-scale information which is a vital component of discriminative representation. As for the second issue, we revisit the key properties of LKA in which we find that the adjacent direct interaction of local information and long-distance dependencies is crucial to provide remarkable performance. Thus, taking this into account and in order to mitigate the complexity of LKA, we propose a large coordinate kernel attention (LCKA) module which decomposes the 2D convolutional kernels of the depth-wise convolutional layers in LKA into horizontal and vertical 1-D kernels. LCKA enables the adjacent direct interaction of local information and long-distance dependencies not only in the horizontal direction but also in the vertical. Besides, LCKA allows for the direct use of extremely large kernels in the depth-wise convolutional layers to capture more contextual information, which helps to significantly improve the reconstruction performance, and it incurs lower computational complexity and memory footprints. Integrating MBSConv and LCKA, we propose a large coordinate kernel attention network (LCAN).
翻訳日:2024-05-16 13:16:53 公開日:2024-05-15
# 視覚に基づく神経外科的指導 : 教師なしの局所化とカメラポーズ予測

Vision-Based Neurosurgical Guidance: Unsupervised Localization and Camera-Pose Prediction ( http://arxiv.org/abs/2405.09355v1 )

ライセンス: Link先を確認
Gary Sarwin, Alessandro Carretta, Victor Staartjes, Matteo Zoli, Diego Mazzatenta, Luca Regli, Carlo Serra, Ender Konukoglu, (参考訳) 内視鏡的処置中に自分自身を位置決めすることは、識別可能なテクスチャやランドマークの欠如や、視野の制限や照明条件の難しさなど、内視鏡的装置の難しさから問題となる可能性がある。 長年の経験によって形成された専門家の知識は、内視鏡手術中に人体内での局在に必要である。 本研究では,解剖学的認識に基づく深層学習手法を提案する。手術映像から教師なしの方法で手術経路を構築し,異なる視角による相対的位置と変動をモデル化する。 推測時に、モデルは、見えないビデオのフレームを経路にマッピングし、例えば特定の目的地に到達するためのガイダンスを提供することを目的として、視角を推定することができる。 本手法は, トランスフェニダルアデノメクトミーの手術ビデオからなるデータセットと, 合成データセットを用いて試験を行った。 研究者が手術ビデオをアップロードして解剖学的検出と、訓練済みのYOLOv7モデルの重量を入手するオンラインツールは、https://surgicalvision.bmic.ethz.ch.comで公開されている。

Localizing oneself during endoscopic procedures can be problematic due to the lack of distinguishable textures and landmarks, as well as difficulties due to the endoscopic device such as a limited field of view and challenging lighting conditions. Expert knowledge shaped by years of experience is required for localization within the human body during endoscopic procedures. In this work, we present a deep learning method based on anatomy recognition, that constructs a surgical path in an unsupervised manner from surgical videos, modelling relative location and variations due to different viewing angles. At inference time, the model can map an unseen video's frames on the path and estimate the viewing angle, aiming to provide guidance, for instance, to reach a particular destination. We test the method on a dataset consisting of surgical videos of transsphenoidal adenomectomies, as well as on a synthetic dataset. An online tool that lets researchers upload their surgical videos to obtain anatomy detections and the weights of the trained YOLOv7 model are available at: https://surgicalvision.bmic.ethz.ch.
翻訳日:2024-05-16 13:16:53 公開日:2024-05-15
# $\varepsilon$-fairnessの不公平

The Unfairness of $\varepsilon$-Fairness ( http://arxiv.org/abs/2405.09360v1 )

ライセンス: Link先を確認
Tolulope Fadina, Thorsten Schmidt, (参考訳) 意思決定プロセスの公平性は確率的指標を用いて定量化されることが多い。 しかし、これらの指標は、実際の不公平な結果を完全には捉えていないかもしれない。 本稿では,意思決定プロセスの現実的影響をより正確に測定するために,ユーティリティベースのアプローチを採用する。 特に、$\varepsilon$-fairnessという概念が採用された場合、現実世界の文脈で最大に不公平な結果をもたらす可能性があることを示す。 さらに, 虚偽陰性に関する不使用データの一般的な問題に対して, 重要な公平性を考慮した設定の削減を提案する。 本研究は,大学入学と信用リスク評価の2つの実例を用いて実施した。 分析の結果,従来の確率に基づく評価は公平性を示唆するが,実用性に基づくアプローチは真に平等を達成するために必要な行動を明らかにする。 例えば,大学入試の場合,修了率の向上は公平性の確保に不可欠であることが判明した。 本論文は, 公平性を評価する上で, 現実の文脈を考えることの重要性を強調した。

Fairness in decision-making processes is often quantified using probabilistic metrics. However, these metrics may not fully capture the real-world consequences of unfairness. In this article, we adopt a utility-based approach to more accurately measure the real-world impacts of decision-making process. In particular, we show that if the concept of $\varepsilon$-fairness is employed, it can possibly lead to outcomes that are maximally unfair in the real-world context. Additionally, we address the common issue of unavailable data on false negatives by proposing a reduced setting that still captures essential fairness considerations. We illustrate our findings with two real-world examples: college admissions and credit risk assessment. Our analysis reveals that while traditional probability-based evaluations might suggest fairness, a utility-based approach uncovers the necessary actions to truly achieve equality. For instance, in the college admission case, we find that enhancing completion rates is crucial for ensuring fairness. Summarizing, this paper highlights the importance of considering the real-world context when evaluating fairness.
翻訳日:2024-05-16 13:16:53 公開日:2024-05-15
# カーネルリッジ回帰の飽和効果について

On the Saturation Effect of Kernel Ridge Regression ( http://arxiv.org/abs/2405.09362v1 )

ライセンス: Link先を確認
Yicheng Li, Haobo Zhang, Qian Lin, (参考訳) 飽和効果は、地下の真理関数の滑らかさが一定のレベルを超えると、カーネルリッジ回帰(KRR)が情報理論的下界を達成できない現象を指す。 飽和効果は慣行で広く見られ、KRRの飽和下限は数十年にわたって推測されてきた。 本稿では、この長期予想の証明を提供する。

The saturation effect refers to the phenomenon that the kernel ridge regression (KRR) fails to achieve the information theoretical lower bound when the smoothness of the underground truth function exceeds certain level. The saturation effect has been widely observed in practices and a saturation lower bound of KRR has been conjectured for decades. In this paper, we provide a proof of this long-standing conjecture.
翻訳日:2024-05-16 13:16:53 公開日:2024-05-15
# SARATR-X:合成開口レーダ画像認識の基礎モデル

SARATR-X: A Foundation Model for Synthetic Aperture Radar Images Target Recognition ( http://arxiv.org/abs/2405.09365v1 )

ライセンス: Link先を確認
Weijie L, Wei Yang, Yuenan Hou, Li Liu, Yongxiang Liu, Xiang Li, (参考訳) 合成開口レーダー(SAR)は、地球観測のための情報を積極的に取得するために不可欠である。 SAR自動目標認識(ATR)は、異なる画像条件下で様々なターゲットカテゴリを検出し分類することに焦点を当てている。 現在のディープラーニングベースのSAR ATRメソッドは、通常、特定のデータセットやアプリケーション用に設計されている。 ATRデータセットの様々なターゲット特性、シーン背景情報、センサパラメータは、これらの手法の一般化に挑戦する。 本稿では,自己監督学習(SSL)を用いた基礎モデルに基づいて,一般的なSAR ATRを実現することを目的とする。 私たちのモチベーションは、特定のデータセットと条件の制限を突破し、ターゲット、シーン、センサーをまたいだ普遍的な知覚能力を得ることです。 SARATR-Xという名前の基盤モデルは、事前トレーニングデータセット、モデルバックボーン、SSL、評価タスクの4つの側面で提案されている。 まず、トレーニング前のデータセットとして、14のデータセットを様々なターゲットカテゴリと撮像条件と統合した。 第2に、リモートセンシング画像に最も適したアプローチを見つけるために、異なるモデルバックボーンについて検討した。 第3に、SARATR-Xの多様性とスケーラビリティを確保するために、2段階トレーニングとSAR勾配機能を適用した。 最後に、SARATR-Xは8つのタスク設定を持つ5つのデータセット上で、競争力と優れたパフォーマンスを達成した。 我々は、ビッグデータの増大の時代において、SAR画像解釈の基本モデルを取り入れる時が来たと信じている。

Synthetic aperture radar (SAR) is essential in actively acquiring information for Earth observation. SAR Automatic Target Recognition (ATR) focuses on detecting and classifying various target categories under different image conditions. The current deep learning-based SAR ATR methods are typically designed for specific datasets and applications. Various target characteristics, scene background information, and sensor parameters across ATR datasets challenge the generalization of those methods. This paper aims to achieve general SAR ATR based on a foundation model with Self-Supervised Learning (SSL). Our motivation is to break through the specific dataset and condition limitations and obtain universal perceptual capabilities across the target, scene, and sensor. A foundation model named SARATR-X is proposed with the following four aspects: pre-training dataset, model backbone, SSL, and evaluation task. First, we integrated 14 datasets with various target categories and imaging conditions as a pre-training dataset. Second, different model backbones were discussed to find the most suitable approaches for remote-sensing images. Third, we applied two-stage training and SAR gradient features to ensure the diversity and scalability of SARATR-X. Finally, SARATR-X has achieved competitive and superior performance on 5 datasets with 8 task settings, which shows that the foundation model can achieve universal SAR ATR. We believe it is time to embrace fundamental models for SAR image interpretation in the era of increasing big data.
翻訳日:2024-05-16 13:16:53 公開日:2024-05-15
# 2次元ボース混合系の有限温度における量子滴

Quantum droplets in two-dimensional Bose mixtures at finite temperature ( http://arxiv.org/abs/2405.09368v1 )

ライセンス: Link先を確認
Gabriele Spada, Sebastiano Pilati, Stefano Giorgini, (参考訳) 本研究では,強い横高調波閉じ込めを受ける魅力的なボース混合物の有限温度における量子滴の形成について検討する。 正確な経路積分モンテカルロ法により、気体と液体の平衡密度、および等温曲線に沿った圧力対体積依存性を決定する。 準2次元形状における状態方程式と気液共存領域について, 厳密な2次元の計算と比較した結果, 良好な一致が得られた。 純2次元モデルでは, 量子スケール異常の関連性について検討し, 第一次ガスの液相転移発生における臨界相互作用強度について検討する。 さらに, 気体から液体状態への密度上昇にともなって, 超流動反応が突然発生することが判明した。

We investigate the formation of quantum droplets at finite temperature in attractive Bose mixtures subject to a strong transverse harmonic confinement. By means of exact path-integral Monte Carlo methods we determine the equilibrium density of the gas and the liquid as well as the pressure vs. volume dependence along isothermal curves. Results for the equation of state and for the gas-liquid coexistence region in quasi-2D configurations are compared with calculations in strictly two dimensions, finding excellent agreement. Within the pure 2D model we explore the relevance of the quantum scale anomaly and we determine the critical interaction strength for the occurrence of the first-order gas to liquid transition. Furthermore, we find that the superfluid response develops suddenly, following the density jump from the gas to the liquid state.
翻訳日:2024-05-16 13:16:53 公開日:2024-05-15
# PolygloToxicity Prompts:大規模言語モデルにおける神経毒性の多言語的評価

PolygloToxicityPrompts: Multilingual Evaluation of Neural Toxic Degeneration in Large Language Models ( http://arxiv.org/abs/2405.09373v1 )

ライセンス: Link先を確認
Devansh Jain, Priyanshu Kumar, Samuel Gehman, Xuhui Zhou, Thomas Hartvigsen, Maarten Sap, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、その広範なグローバル展開をもたらし、包括的および多言語毒性評価に対する安全性の要求を確実にしている。 しかし、既存の毒性ベンチマークは圧倒的に英語に重点を置いており、他の言語にLSMをデプロイする重大なリスクを負っている。 PTP(PolygloToxicity Prompts)は、17言語にまたがる自然発生425Kの大規模多言語毒性評価ベンチマークである。 我々は、Webテキストに自然に発生する毒性の不足を克服し、1億以上のWebテキスト文書を自動的にスクラップすることで、様々なリソースを持つ言語にまたがるカバレッジを確保する。 PTPを用いて,60 LLMのベンチマークにより,モデルサイズ,プロンプト言語,指示および選好学習法が毒性に及ぼす影響について検討した。 特に,言語資源の減少やモデルサイズの増加に伴い,毒性が増大することがわかった。 指導・嗜好調整は毒性を低下させるが、選好調整法の選択は大きな影響を与えない。 LLMの安全確保と今後の研究分野のハイライトに光を当てた。

Recent advances in large language models (LLMs) have led to their extensive global deployment, and ensuring their safety calls for comprehensive and multilingual toxicity evaluations. However, existing toxicity benchmarks are overwhelmingly focused on English, posing serious risks to deploying LLMs in other languages. We address this by introducing PolygloToxicityPrompts (PTP), the first large-scale multilingual toxicity evaluation benchmark of 425K naturally occurring prompts spanning 17 languages. We overcome the scarcity of naturally occurring toxicity in web-text and ensure coverage across languages with varying resources by automatically scraping over 100M web-text documents. Using PTP, we investigate research questions to study the impact of model size, prompt language, and instruction and preference-tuning methods on toxicity by benchmarking over 60 LLMs. Notably, we find that toxicity increases as language resources decrease or model size increases. Although instruction- and preference-tuning reduce toxicity, the choice of preference-tuning method does not have any significant impact. Our findings shed light on crucial shortcomings of LLM safeguarding and highlight areas for future research.
翻訳日:2024-05-16 13:16:53 公開日:2024-05-15
# 量子-古典遷移におけるマクスウェルの悪魔

Maxwell's demon across the quantum-to-classical transition ( http://arxiv.org/abs/2405.09376v1 )

ライセンス: Link先を確認
Björn Annby-Andersson, Debankur Bhattacharyya, Pharnam Bakhshinezhad, Daniel Holst, Guilherme De Sousa, Christopher Jarzynski, Peter Samuelsson, Patrick P. Potts, (参考訳) マクスウェルの悪魔が作り出したシナリオでは、微視的な自由度に関する情報は熱力学の第2法則に反するように見える。 これは古典や量子領域で研究されている。 本稿では,両方のドメインで動作可能なMaxwellのデーモンの実装について検討する。 特に,量子-古典遷移における情報-作業変換について検討する。 デーモンは二重量子ドットの電荷状態を連続的に測定し、この情報を用いて電子を電圧バイアスに対して誘導し、ドットのオンサイトエネルギーを調整する。 ドット間のコヒーレントトンネルは、システム内の量子コヒーレンスの構築を可能にする。 強い測定の下では、コヒーレンスは抑制され、システムは古典的なモデルによって適切に記述される。 測定強度がさらに高められるにつれて、ゼノ効果はインタードットトンネルを禁止している。 ゼノのような効果は弱い測定のためにも見られ、そこでは測定誤差がオンサイトエネルギーの変動につながり、系を軽視する。 我々は、連続的な測定およびフィードバック制御の下での他の量子系における同様の挙動を予測し、量子技術や量子制御の実装に関連付ける。

In scenarios coined Maxwell's demon, information on microscopic degrees of freedom is used to seemingly violate the second law of thermodynamics. This has been studied in the classical as well as the quantum domain. In this paper, we study an implementation of Maxwell's demon that can operate in both domains. In particular, we investigate information-to-work conversion over the quantum-to-classical transition. The demon continuously measures the charge state of a double quantum dot, and uses this information to guide electrons against a voltage bias by tuning the on-site energies of the dots. Coherent tunneling between the dots allows for the buildup of quantum coherence in the system. Under strong measurements, the coherence is suppressed, and the system is well-described by a classical model. As the measurement strength is further increased, the Zeno effect prohibits interdot tunneling. A Zeno-like effect is also observed for weak measurements, where measurement errors lead to fluctuations in the on-site energies, dephasing the system. We anticipate similar behaviors in other quantum systems under continuous measurement and feedback control, making our results relevant for implementations in quantum technology and quantum control.
翻訳日:2024-05-16 13:16:53 公開日:2024-05-15
# Strategic Data Re-Uploads: 量子分類の改善への道 - 量子分類器の性能向上のための再アップロード戦略-

Strategic Data Re-Uploads: A Pathway to Improved Quantum Classification Data Re-Uploading Strategies for Improved Quantum Classifier Performance ( http://arxiv.org/abs/2405.09377v1 )

ライセンス: Link先を確認
S. Aminpour, Y. Banad, S. Sharif, (参考訳) 量子機械学習(QML)は、量子コンピューティングの機械学習タスクへの応用を探求する有望な分野である。 量子機械学習の進歩における重要なハードルは、入力データを特定の個別の目標出力に正確にマッピングできる効率的でレジリエントな量子分類器の開発にある。 本稿では,データ再ロード戦略を用いて量子分類器の性能を向上させる新しい手法を提案する。 古典情報を複数回量子状態に再アップロードすると、量子分類器の精度が向上する。 最適化プロセスと分類結果に対する,忠実度やトレース距離などの異なるコスト関数の影響について検討する。 本稿では,線形分類パターン (LCP) と非線形分類パターン (NLCP) の2つの分類パターンについて述べる。 提案手法の有効性を,L-BFGS-B,COBYLA,Nelder-Mead,SLSQPの4つの最適化手法と比較して評価した。 さらに、固定データセットとランダムデータセットの異なる影響について検討する。 提案手法は,高い分類精度とロバスト性を実現し,既存の量子分類器モデルより優れていることを示す。

Quantum machine learning (QML) is a promising field that explores the applications of quantum computing to machine learning tasks. A significant hurdle in the advancement of quantum machine learning lies in the development of efficient and resilient quantum classifiers capable of accurately mapping input data to specific, discrete target outputs. In this paper, we propose a novel approach to improve quantum classifier performance by using a data re-uploading strategy. Re-uploading classical information into quantum states multiple times can enhance the accuracy of quantum classifiers. We investigate the effects of different cost functions, such as fidelity and trace distance, on the optimization process and the classification results. We demonstrate our approach to two classification patterns: a linear classification pattern (LCP) and a non-linear classification pattern (NLCP). We evaluate the efficacy of our approach by benchmarking it against four distinct optimization techniques: L-BFGS-B, COBYLA, Nelder-Mead, and SLSQP. Additionally, we study the different impacts of fixed datasets and random datasets. Our results show that our approach can achieve high classification accuracy and robustness and outperform the existing quantum classifier models.
翻訳日:2024-05-16 13:16:53 公開日:2024-05-15
# Phylotrack:シリコ系統追跡のためのC++およびPythonライブラリ

Phylotrack: C++ and Python libraries for in silico phylogenetic tracking ( http://arxiv.org/abs/2405.09389v1 )

ライセンス: Link先を確認
Emily Dolson, Santiago Rodriguez-Papa, Matthew Andres Moreno, (参考訳) ケイ素進化(英: silico evolution)は、コンピュータエージェントのデジタル集団における遺伝、変異、微分生殖成功の過程(自然選択による進化のための3つの「独立」)をインスタンス化する。 その結果、これらの個体群は進化し、進化力学を研究するための仮想モデルシステムとして利用することができる。 この実験パラダイムは、生物学的モデリング、人工生命、進化的計算にまたがって使用され、実験室やフィールドで不可能な実験を可能にすることで、in vitroおよびin vivoシステムを用いて行われた研究を補完する。 ひとつ大きなメリットは、完全な、正確な可観測性です。 例えば、シミュレーションの歴史を通してすべての親子関係を完璧に記録し、完全な系統(系統樹)を作り出すことができる。 この情報は、いつ特性が得られたか、失われたかを明らかにし、根底にある進化力学の推論を促進する。 Phylotrackプロジェクトは、シリコの進化における系統の追跡と解析のためのライブラリを提供する。 プロジェクトは構成されています 1) Phylotracklib: Empiricalプロジェクトの傘下で開発されたヘッダのみのC++ライブラリ。 2) Phylotrackpy: Phylotracklibを囲むPythonラッパー。 両方のコンポーネントは、デジタル進化システムに系統追跡を付加する公開APIと、さまざまな一般的な系統トポロジーメトリクスを測定するスタンドアロンインターフェースを提供する。 設計とC++の実装は効率を優先し、数万のエージェントの数を高速に世代交代できる。 系統情報のメモリフットプリントを低減するために、いくつかの明示的な特徴(例えば、系統解析や抽象化など)を提供する。

In silico evolution instantiates the processes of heredity, variation, and differential reproductive success (the three "ingredients" for evolution by natural selection) within digital populations of computational agents. Consequently, these populations undergo evolution, and can be used as virtual model systems for studying evolutionary dynamics. This experimental paradigm -- used across biological modeling, artificial life, and evolutionary computation -- complements research done using in vitro and in vivo systems by enabling experiments that would be impossible in the lab or field. One key benefit is complete, exact observability. For example, it is possible to perfectly record all parent-child relationships across simulation history, yielding complete phylogenies (ancestry trees). This information reveals when traits were gained or lost, and also facilitates inference of underlying evolutionary dynamics. The Phylotrack project provides libraries for tracking and analyzing phylogenies in in silico evolution. The project is composed of 1) Phylotracklib: a header-only C++ library, developed under the umbrella of the Empirical project, and 2) Phylotrackpy: a Python wrapper around Phylotracklib, created with Pybind11. Both components supply a public-facing API to attach phylogenetic tracking to digital evolution systems, as well as a stand-alone interface for measuring a variety of popular phylogenetic topology metrics. Underlying design and C++ implementation prioritizes efficiency, allowing for fast generational turnover for agent populations numbering in the tens of thousands. Several explicit features (e.g., phylogeny pruning and abstraction, etc.) are provided for reducing the memory footprint of phylogenetic information.
翻訳日:2024-05-16 13:16:53 公開日:2024-05-15
# SA-FedLora:LoRAチューニングによる効率的なフェデレーション学習のための適応パラメータ割り当て

SA-FedLora: Adaptive Parameter Allocation for Efficient Federated Learning with LoRA Tuning ( http://arxiv.org/abs/2405.09394v1 )

ライセンス: Link先を確認
Yuning Yang, Xiaohong Liu, Tianrun Gao, Xiaodong Xu, Guangyu Wang, (参考訳) 転送学習による大規模な事前学習モデルを微調整することは、広範囲の下流タスクにとって重要なパラダイムであり、パフォーマンスは広範なデータに大きく依存している。 分散フレームワークとしてのフェデレートラーニング(FL)は、生の機密データを保護しながら、ローカルデータセット上のモデルをトレーニングするためのセキュアなソリューションを提供する。 しかし、FLネットワークは、大規模事前学習モデルの膨大なパラメータ、パラメータ効率の手法を必要とするため、通信コストが高い。 特に、LoRA(Lo-Rank Adaptation)のようなパラメータ効率の良い微調整は、微調整事前訓練モデルにおいて顕著な成功を収めている。 しかし、以前の研究では、固定パラメータ予算が過度に適合したり、収束が遅くなる傾向があることが示されている。 この課題に対処するために、トレーニング可能なパラメータを減らし、LoRAチューニング(SA-FedLoRA)を用いたSimulated AnnealingベースのFederated Learningを提案する。 具体的には、SA−FedLoRAは、開始と焼鈍の2段階からなる。 1)開始段階では,アグリゲーションの初期ラウンドにおいてパラメータ正規化手法を実装し,クライアントのドリフトを緩和し,その後のチューニングの収束を加速することを目的としている。 2) 熱処理段階においては, 早期の「加熱」段階において高いパラメータ予算を割り当て, 徐々に「冷却」段階まで予算を縮小する。 この戦略は、グローバルな最適化への収束を促進するだけでなく、通信コストを低減する。 実験の結果、SA-FedLoRAは効率の良いFLであり、FedAvgよりも優れた性能を示し、通信パラメータを最大93.62%削減した。

Fine-tuning large-scale pre-trained models via transfer learning is an emerging important paradigm for a wide range of downstream tasks, with performance heavily reliant on extensive data. Federated learning (FL), as a distributed framework, provides a secure solution to train models on local datasets while safeguarding raw sensitive data. However, FL networks encounter high communication costs due to the massive parameters of large-scale pre-trained models, necessitating parameter-efficient methods. Notably, parameter efficient fine tuning, such as Low-Rank Adaptation (LoRA), has shown remarkable success in fine-tuning pre-trained models. However, prior research indicates that the fixed parameter budget may be prone to the overfitting or slower convergence. To address this challenge, we propose a Simulated Annealing-based Federated Learning with LoRA tuning (SA-FedLoRA) approach by reducing trainable parameters. Specifically, SA-FedLoRA comprises two stages: initiating and annealing. (1) In the initiating stage, we implement a parameter regularization approach during the early rounds of aggregation, aiming to mitigate client drift and accelerate the convergence for the subsequent tuning. (2) In the annealing stage, we allocate higher parameter budget during the early 'heating' phase and then gradually shrink the budget until the 'cooling' phase. This strategy not only facilitates convergence to the global optimum but also reduces communication costs. Experimental results demonstrate that SA-FedLoRA is an efficient FL, achieving superior performance to FedAvg and significantly reducing communication parameters by up to 93.62%.
翻訳日:2024-05-16 13:16:53 公開日:2024-05-15
# ドメイン知識をゼロからトレーニングすることでドメインエキスパートをマッチングする

Matching domain experts by training from scratch on domain knowledge ( http://arxiv.org/abs/2405.09395v1 )

ライセンス: Link先を確認
Xiaoliang Luo, Guangzhi Sun, Bradley C. Love, (参考訳) 近年、大型言語モデル(LLM)は、神経科学実験の結果を予測する上で、人間の専門家より優れています(Luo et al , 2024)。 このパフォーマンスの基盤は何ですか? 1つの可能性として、特定の科学的文献における統計的パターンは、より広範な訓練によって生じる創発的な推論能力とは対照的に、LLMのパフォーマンスを損なうことである。 この可能性を評価するため、我々は13億個のドメイン固有知識のトークンを用いて比較的小さな124MパラメータGPT-2モデルを訓練した(次の単語予測)。 数兆のトークンで訓練された大型LLMよりも桁違いに小さいにもかかわらず、小さなモデルは神経科学の結果を予測する専門家レベルのパフォーマンスを達成した。 神経科学の文献で訓練された小さなモデルは、神経科学のテキストで特別に訓練されたトークン化剤を用いてスクラッチから訓練されたり、神経科学の文献で事前訓練されたGPT-2を微調整した時に成功した。 以上の結果から,ドメイン固有の自己回帰学習アプローチによって,専門家レベルのパフォーマンスが,小規模なLLMでも達成できる可能性が示唆された。

Recently, large language models (LLMs) have outperformed human experts in predicting the results of neuroscience experiments (Luo et al., 2024). What is the basis for this performance? One possibility is that statistical patterns in that specific scientific literature, as opposed to emergent reasoning abilities arising from broader training, underlie LLMs' performance. To evaluate this possibility, we trained (next word prediction) a relatively small 124M-parameter GPT-2 model on 1.3 billion tokens of domain-specific knowledge. Despite being orders of magnitude smaller than larger LLMs trained on trillions of tokens, small models achieved expert-level performance in predicting neuroscience results. Small models trained on the neuroscience literature succeeded when they were trained from scratch using a tokenizer specifically trained on neuroscience text or when the neuroscience literature was used to finetune a pretrained GPT-2. Our results indicate that expert-level performance may be attained by even small LLMs through domain-specific, auto-regressive training approaches.
翻訳日:2024-05-16 13:16:53 公開日:2024-05-15
# O_2$は、複数の文脈自由文法である:実装、形式化に親しみやすい証明

$O_2$ is a multiple context-free grammar: an implementation-, formalisation-friendly proof ( http://arxiv.org/abs/2405.09396v1 )

ライセンス: Link先を確認
Marco B. Caminati, (参考訳) それらを生成することができる文法の表現性に応じて形式言語を分類することは、計算言語学における基本的な問題であり、したがって計算理論における問題である。 さらに、そのような分析は、例えば、単語問題によって与えられる対応を通して、群のような抽象代数構造の分類に関する洞察を与えることができる。 このような分類問題の多くは未解決であるが、他の問題も解決されている。 最近、$n$バランスの言語(例えば、文字列が$a_i$と$A_i$と$\leq i \leq n$)が複数の文脈自由文法(MCFG)によって生成されることが証明された。 本稿では,既存の証明を計算的・理論的な視点から分析し,各証明が検証された(すなわち,証明アシスタントによってチェックされる)アルゴリズムに繋がるかどうかをMCFGを用いて解析する。 既存の証明はいずれも、この現実的な目標に対して現実的に適していないと結論し、決定的な場合の$n \leq 2$に対して、真に新しい、初等的で非常に短い証明を提供していく。 既存の証明との比較分析は、なぜ提案された証明が$O_2$の検証解析アルゴリズムを具体化するための重要なステップなのかを正当化するために、最終的に行われる。

Classifying formal languages according to the expressiveness of grammars able to generate them is a fundamental problem in computational linguistics and, therefore, in the theory of computation. Furthermore, such kind of analysis can give insight into the classification of abstract algebraic structure such as groups, for example through the correspondence given by the word problem. While many such classification problems remain open, others have been settled. Recently, it was proved that $n$-balanced languages (i.e., whose strings contain the same occurrences of letters $a_i$ and $A_i$ with $1\leq i \leq n$) can be generated by multiple context-free grammars (MCFGs), which are one of the several slight extensions of context free grammars added to the classical Chomsky hierarchy to make the mentioned classification more precise. This paper analyses the existing proofs from the computational and the proof-theoretical point of views, systematically studying whether each proof can lead to a verified (i.e., checked by a proof assistant) algorithm parsing balanced languages via MCFGs. We conclude that none of the existing proofs is realistically suitable against this practical goal, and proceed to provide a radically new, elementary, extremely short proof for the crucial case $n \leq 2$. A comparative analysis with respect to the existing proofs is finally performed to justify why the proposed proof is a substantial step towards concretely obtaining a verified parsing algorithm for $O_2$.
翻訳日:2024-05-16 13:06:44 公開日:2024-05-15
# Encrypted Container File:Hybrid-Encrypted Multi-Recipient File Structureの設計と実装

Encrypted Container File: Design and Implementation of a Hybrid-Encrypted Multi-Recipient File Structure ( http://arxiv.org/abs/2405.09398v1 )

ライセンス: Link先を確認
Tobias J. Bauer, Andreas Aßmuth, (参考訳) 開発者の国際チームによるクラウドネイティブソフトウェア開発へのモダンなソフトウェアエンジニアリングのトレンド。 GitHubのようなクラウドベースのバージョン管理サービスは、開発プロセス中に作成されたソースコードやその他のアーティファクトに使用されている。 しかしながら、そのようなサービスを使用することで、すべての開発者がプラットフォームに格納されたすべてのデータにアクセスできるようになる。 特に、開発者が異なる企業や組織に属している場合、機密性の高いファイルを暗号化することが望ましい。 本稿では,この問題に対処するツールについて検討するが,欠点はある。 そして、この問題に対して独自のソリューションであるEncrypted Container Files (ECF)を提示し、他のツールに見られる欠陥を取り除く。

Modern software engineering trends towards Cloud-native software development by international teams of developers. Cloud-based version management services, such as GitHub, are used for the source code and other artifacts created during the development process. However, using such a service usually means that every developer has access to all data stored on the platform. Particularly, if the developers belong to different companies or organizations, it would be desirable for sensitive files to be encrypted in such a way that these can only be decrypted again by a group of previously defined people. In this paper, we examine currently available tools that address this problem, but which have certain shortcomings. We then present our own solution, Encrypted Container Files (ECF), for this problem, eliminating the deficiencies found in the other tools.
翻訳日:2024-05-16 13:06:44 公開日:2024-05-15
# 顔認識/テストデータ間のアイデンティティオーバーラップ:精度測定における最適バイアスの活用

Identity Overlap Between Face Recognition Train/Test Data: Causing Optimistic Bias in Accuracy Measurement ( http://arxiv.org/abs/2405.09403v1 )

ライセンス: Link先を確認
Haiyu Wu, Sicong Tian, Jacob Gutierrez, Aman Bhatta, Kağan Öztürk, Kevin W. Bowyer, (参考訳) パターン認識の基本的な特徴は、トレーニングとテストセットの重複が楽観的な精度の見積もりを引き起こすことである。 顔認識のためのディープCNNは、トレーニングセット内のアイデンティティのNウェイ分類のために訓練される。 LFW, CALFW, CPLFW, CFP-FP, AgeDB-30などのテストセットから, 画像対の平均10倍の分類精度が推定される。 列車とテストセットは独立して組み立てられたため、任意のテストセットのイメージとアイデンティティは、任意のトレーニングセットにも存在することができる。 特に,実験結果から,LFW系テストセットとMS1MV2トレーニングセットの相違点と画像の重複点が明らかとなった。 また,MS1MV2における識別ラベルノイズも明らかにした。 LFWと同一の大きさのMS1MV2サブセットで達成した精度を比較し,楽観バイアスの大きさを明らかにする。 LFWファミリーのより挑戦的なテストセットを使用することで、より挑戦的なテストセットに対して楽観的なバイアスのサイズが大きくなることが分かる。 本研究は, 顔認証研究において, 同一性に欠けるトレインとテスト方法論の欠如と, 必要性を浮き彫りにしたものである。

A fundamental tenet of pattern recognition is that overlap between training and testing sets causes an optimistic accuracy estimate. Deep CNNs for face recognition are trained for N-way classification of the identities in the training set. Accuracy is commonly estimated as average 10-fold classification accuracy on image pairs from test sets such as LFW, CALFW, CPLFW, CFP-FP and AgeDB-30. Because train and test sets have been independently assembled, images and identities in any given test set may also be present in any given training set. In particular, our experiments reveal a surprising degree of identity and image overlap between the LFW family of test sets and the MS1MV2 training set. Our experiments also reveal identity label noise in MS1MV2. We compare accuracy achieved with same-size MS1MV2 subsets that are identity-disjoint and not identity-disjoint with LFW, to reveal the size of the optimistic bias. Using more challenging test sets from the LFW family, we find that the size of the optimistic bias is larger for more challenging test sets. Our results highlight the lack of and the need for identity-disjoint train and test methodology in face recognition research.
翻訳日:2024-05-16 13:06:44 公開日:2024-05-15
# 網膜 OCT における変性疾患進行のための時間同変コントラスト学習

Time-Equivariant Contrastive Learning for Degenerative Disease Progression in Retinal OCT ( http://arxiv.org/abs/2405.09404v1 )

ライセンス: Link先を確認
Taha Emre, Arunava Chakravarty, Dmitrii Lachinov, Antoine Rivail, Ursula Schmidt-Erfurth, Hrvoje Bogunović, (参考訳) 対照的な事前訓練は、異なる画像変換への不変性を保証し、同時に表現の崩壊を防ぐことによって、堅牢な表現を提供する。 一方、同変コントラスト学習は、他と不変でありながら、特定の画像変換に敏感な表現を提供する。 時系列画像における疾患関連解剖学的変化などの時間変化に同値を導入することにより、モデルが表現空間におけるそのような変化を効果的に捉えることができる。 本研究では,時間同変のContrastive Learning (TC) 手法を提案する。 まず、エンコーダは、同一患者の異なる時点から2つのラベルなしスキャンを表現空間に埋め込む。 次に、時間的等分散モジュールをトレーニングして、前回の訪問の1つと、それに対応する時間間隔の表現に基づいて後回の訪問の表現を、無関係な画像変換に対する不変性を保ちながら、新しい正規化損失項で予測する。 大規模な縦断データセットでは,中間年齢関連黄斑変性 (AMD) から進行湿潤AMDへの進行予測において,既存の異種コントラスト法よりも明らかに優れていた。

Contrastive pretraining provides robust representations by ensuring their invariance to different image transformations while simultaneously preventing representational collapse. Equivariant contrastive learning, on the other hand, provides representations sensitive to specific image transformations while remaining invariant to others. By introducing equivariance to time-induced transformations, such as disease-related anatomical changes in longitudinal imaging, the model can effectively capture such changes in the representation space. In this work, we pro-pose a Time-equivariant Contrastive Learning (TC) method. First, an encoder embeds two unlabeled scans from different time points of the same patient into the representation space. Next, a temporal equivariance module is trained to predict the representation of a later visit based on the representation from one of the previous visits and the corresponding time interval with a novel regularization loss term while preserving the invariance property to irrelevant image transformations. On a large longitudinal dataset, our model clearly outperforms existing equivariant contrastive methods in predicting progression from intermediate age-related macular degeneration (AMD) to advanced wet-AMD within a specified time-window.
翻訳日:2024-05-16 13:06:44 公開日:2024-05-15
# 放射線学における実世界フェデレートラーニング - 乗り越えるべきハードルと利益

Real-World Federated Learning in Radiology: Hurdles to overcome and Benefits to gain ( http://arxiv.org/abs/2405.09409v1 )

ライセンス: Link先を確認
Markus R. Bujotzek, Ünal Akünal, Stefan Denner, Peter Neher, Maximilian Zenk, Eric Frodl, Astha Jaiswal, Moon Kim, Nicolai R. Krekiehn, Manuel Nickel, Richard Ruppel, Marcus Both, Felix Döllinger, Marcel Opitz, Thorsten Persigehl, Jens Kleesiek, Tobias Penzkofer, Klaus Maier-Hein, Rickmer Braren, Andreas Bucher, (参考訳) 目的: フェデレートラーニング(FL)は、データをローカルに保持しながら協調的なモデルトレーニングを可能にする。 現在、ラジオロジーにおけるほとんどのFL研究は、その翻訳の実践を妨げる多くのハードルのために、シミュレーション環境で実施されている。 数少ない現実のFLイニシアチブは、これらのハードルを克服するための具体的な措置をほとんど伝えておらず、大きな知識ギャップを残しています。 現実世界のFLを実装する努力を念頭に置いて、FLをより複雑な代替品と比較する包括的な評価が欠如している。 Materials & Methods: FLの文献を概観的にレビューし, FLイニシアティブを確立しつつ, その性質とフェーズに応じて知見を分類し, 総合的なガイドにまとめる。 我々は,ドイツ放射線協力ネットワーク(RACOON)内で独自のFL基盤を開発し,6つの大学病院における肺病理組織分類タスクにおけるFLモデルを訓練することにより,その機能を実証した。 FLを3つの異なる評価シナリオにおいて,より複雑な代替案に対して広範囲に評価した。 結果: 提案したガイドは,本質的なステップを概説し,ハードルを特定し,実世界の実験を行うFLイニシアチブを成功させるための解決策を提案する。 実験の結果、FLは全ての評価シナリオにおいて、より複雑な代替品よりも優れており、FLを現実世界のアプリケーションに変換するのに必要な労力を正当化していることがわかった。 考察と結論: このガイドは, 将来のFL研究者が落とし穴を回避し, FLの放射線学への翻訳を加速するのを支援することを目的としている。 本結果は,FLを現実のアプリケーションに翻訳する上で必要となる作業の価値を,代替よりも有利な性能を示すことによって評価し,戦略的組織の重要性,分散データの堅牢な管理,現実の環境におけるインフラストラクチャの重要性を強調した。

Objective: Federated Learning (FL) enables collaborative model training while keeping data locally. Currently, most FL studies in radiology are conducted in simulated environments due to numerous hurdles impeding its translation into practice. The few existing real-world FL initiatives rarely communicate specific measures taken to overcome these hurdles, leaving behind a significant knowledge gap. Minding efforts to implement real-world FL, there is a notable lack of comprehensive assessment comparing FL to less complex alternatives. Materials & Methods: We extensively reviewed FL literature, categorizing insights along with our findings according to their nature and phase while establishing a FL initiative, summarized to a comprehensive guide. We developed our own FL infrastructure within the German Radiological Cooperative Network (RACOON) and demonstrated its functionality by training FL models on lung pathology segmentation tasks across six university hospitals. We extensively evaluated FL against less complex alternatives in three distinct evaluation scenarios. Results: The proposed guide outlines essential steps, identified hurdles, and proposed solutions for establishing successful FL initiatives conducting real-world experiments. Our experimental results show that FL outperforms less complex alternatives in all evaluation scenarios, justifying the effort required to translate FL into real-world applications. Discussion & Conclusion: Our proposed guide aims to aid future FL researchers in circumventing pitfalls and accelerating translation of FL into radiological applications. Our results underscore the value of efforts needed to translate FL into real-world applications by demonstrating advantageous performance over alternatives, and emphasize the importance of strategic organization, robust management of distributed data and infrastructure in real-world settings.
翻訳日:2024-05-16 13:06:44 公開日:2024-05-15
# 文字解析による他の暗号化ネットワークトラフィックからのTorの除去

Distinguishing Tor From Other Encrypted Network Traffic Through Character Analysis ( http://arxiv.org/abs/2405.09412v1 )

ライセンス: Link先を確認
Pitpimon Choorod, Tobias J. Bauer, Andreas Aßmuth, (参考訳) インターネット上でのクラウドサービスの匿名利用は、全体主義体制、内部告発者、抵抗勢力から報道されるジャーナリストにとって、生存には不可欠である。 Torネットワークは、誰でも無料で広く利用されている匿名サービスを提供している。 しかし、TorとTorの非Tor暗号化ネットワークトラフィックを区別するアプローチは異なる。 従来のデータトラフィックは通常1回は暗号化されるが,Torネットワークの構造と原理によりTorの場合,少なくとも3回は暗号化される。

For journalists reporting from a totalitarian regime, whistleblowers and resistance fighters, the anonymous use of cloud services on the Internet can be vital for survival. The Tor network provides a free and widely used anonymization service for everyone. However, there are different approaches to distinguishing Tor from non-Tor encrypted network traffic, most recently only due to the (relative) frequencies of hex digits in a single encrypted payload packet. While conventional data traffic is usually encrypted once, but at least three times in the case of Tor due to the structure and principle of the Tor network, we have examined to what extent the number of encryptions contributes to being able to distinguish Tor from non-Tor encrypted data traffic.
翻訳日:2024-05-16 13:06:44 公開日:2024-05-15
# 非平坦な仮定に基づく論証と論理プログラミングの対応性について

On the Correspondence of Non-flat Assumption-based Argumentation and Logic Programming with Negation as Failure in the Head ( http://arxiv.org/abs/2405.09415v1 )

ライセンス: Link先を確認
Anna Rapberger, Markus Ulbricht, Francesca Toni, (参考訳) 仮定に基づく議論(ABA)と安定モデル意味論における論理プログラム(LP)の関係はよく研究されている。 しかし、この関係を得るには、ABAフレームワークはフラットなものに制限する必要がある。 本稿では,この制限を除去し,非平坦なABAとLPの対応性を示す。 次に、この結果を、もともと双極性ABAと呼ばれる非平坦なABAの断片に対して定義された、いわゆる集合安定ABA意味論に拡張する。 本稿では,LP の集合安定セマンティクスを頭の中の失敗として定義し,集合安定な ABA セマンティクスとの対応を示す。

The relation between (a fragment of) assumption-based argumentation (ABA) and logic programs (LPs) under stable model semantics is well-studied. However, for obtaining this relation, the ABA framework needs to be restricted to being flat, i.e., a fragment where the (defeasible) assumptions can never be entailed, only assumed to be true or false. Here, we remove this restriction and show a correspondence between non-flat ABA and LPs with negation as failure in their head. We then extend this result to so-called set-stable ABA semantics, originally defined for the fragment of non-flat ABA called bipolar ABA. We showcase how to define set-stable semantics for LPs with negation as failure in their head and show the correspondence to set-stable ABA semantics.
翻訳日:2024-05-16 13:06:44 公開日:2024-05-15
# グローバルローカル画像知覚スコア(GLIPS):AI生成画像の光写実的品質の評価

Global-Local Image Perceptual Score (GLIPS): Evaluating Photorealistic Quality of AI-Generated Images ( http://arxiv.org/abs/2405.09426v1 )

ライセンス: Link先を確認
Memoona Aziz, Umair Rehman, Muhammad Umair Danish, Katarina Grolinger, (参考訳) 本稿では,人間の視覚知覚に高度に適応したAI生成画像の写実的画像品質を評価するために,GLIPS(Global-Local Image Perceptual Score)を提案する。 FIDやKIDスコアといった従来の指標は、人間の評価と密接に一致していない。 提案手法は,局所的な類似性を評価するための高度なトランスフォーマーベースアテンション機構と,グローバルな分布類似性を評価するための最大平均離散性(MMD)を組み込んだものである。 GLIPSの性能を評価するために,光実写画像の品質に関する人間による研究を行った。 様々な生成モデルにわたる総合的なテストは、GLIPSが人間のスコアと相関する点において、FID、SSIM、MS-SSIMといった既存の指標を一貫して上回っていることを示している。 さらに,人間の評価基準とより密に整合させることにより,測定値の解釈可能性を高める改良されたスケーリング手法であるInterpolative Binning Scale (IBS)を導入する。 提案したメトリックとスケーリングのアプローチは,AI生成画像の信頼性向上だけでなく,画像生成技術の今後の拡張のための経路も提案する。

This paper introduces the Global-Local Image Perceptual Score (GLIPS), an image metric designed to assess the photorealistic image quality of AI-generated images with a high degree of alignment to human visual perception. Traditional metrics such as FID and KID scores do not align closely with human evaluations. The proposed metric incorporates advanced transformer-based attention mechanisms to assess local similarity and Maximum Mean Discrepancy (MMD) to evaluate global distributional similarity. To evaluate the performance of GLIPS, we conducted a human study on photorealistic image quality. Comprehensive tests across various generative models demonstrate that GLIPS consistently outperforms existing metrics like FID, SSIM, and MS-SSIM in terms of correlation with human scores. Additionally, we introduce the Interpolative Binning Scale (IBS), a refined scaling method that enhances the interpretability of metric scores by aligning them more closely with human evaluative standards. The proposed metric and scaling approach not only provides more reliable assessments of AI-generated images but also suggest pathways for future enhancements in image generation technologies.
翻訳日:2024-05-16 13:06:44 公開日:2024-05-15
# 野生におけるテキストから3Dコンテンツ生成に関する調査

A Survey On Text-to-3D Contents Generation In The Wild ( http://arxiv.org/abs/2405.09431v1 )

ライセンス: Link先を確認
Chenhan Jiang, (参考訳) 3Dコンテンツ作成は、ゲーム、ロボットシミュレーション、仮想現実など、さまざまなアプリケーションにおいて重要な役割を果たす。 しかし、このプロセスは労働集約的で時間を要するため、熟練したデザイナーは単一の3Dアセットを作るのにかなりの労力を費やす必要がある。 この課題に対処するために、テキストから3D生成技術が、3D生成を自動化するための有望なソリューションとして登場した。 これらの手法は,大規模視覚言語モデルの成功を生かして,テキスト記述に基づく3Dコンテンツの生成を目指している。 この領域の最近の進歩にもかかわらず、既存のソリューションは生成の質と効率の面で大きな制限に直面している。 本研究では,最新のテキスト・ツー・3D作成手法について詳細な調査を行う。 我々は、テキストから3Dへの作成に関する総合的な背景を提供し、トレーニングに使用されるデータセットと、生成された3Dモデルの品質を評価するために使用される評価指標について議論する。 そして、3D生成プロセスの基礎となる様々な3D表現を掘り下げる。 さらに, 生成パイプラインに関する文献を網羅的に比較し, フィードフォワードジェネレータ, 最適化ベースジェネレータ, ビュー再構成アプローチに分類する。 これらの手法の長所と短所を調べることで、それぞれの能力と限界を光を当てることを目指している。 最後に,今後の研究に期待できる道がいくつかあることを指摘する。 この調査により、オープンな語彙による3Dコンテンツ作成の可能性を探るため、研究者にさらなる刺激を与えたいと思っています。

3D content creation plays a vital role in various applications, such as gaming, robotics simulation, and virtual reality. However, the process is labor-intensive and time-consuming, requiring skilled designers to invest considerable effort in creating a single 3D asset. To address this challenge, text-to-3D generation technologies have emerged as a promising solution for automating 3D creation. Leveraging the success of large vision language models, these techniques aim to generate 3D content based on textual descriptions. Despite recent advancements in this area, existing solutions still face significant limitations in terms of generation quality and efficiency. In this survey, we conduct an in-depth investigation of the latest text-to-3D creation methods. We provide a comprehensive background on text-to-3D creation, including discussions on datasets employed in training and evaluation metrics used to assess the quality of generated 3D models. Then, we delve into the various 3D representations that serve as the foundation for the 3D generation process. Furthermore, we present a thorough comparison of the rapidly growing literature on generative pipelines, categorizing them into feedforward generators, optimization-based generation, and view reconstruction approaches. By examining the strengths and weaknesses of these methods, we aim to shed light on their respective capabilities and limitations. Lastly, we point out several promising avenues for future research. With this survey, we hope to inspire researchers further to explore the potential of open-vocabulary text-conditioned 3D content creation.
翻訳日:2024-05-16 13:06:44 公開日:2024-05-15
# ハイブリッドNLPアプローチによるオピニオン多様性の実現

Facilitating Opinion Diversity through Hybrid NLP Approaches ( http://arxiv.org/abs/2405.09439v1 )

ライセンス: Link先を確認
Michiel van der Meer, (参考訳) 現代の民主主義は、意思決定における市民参加の減少という重大な問題に直面している。 オンラインディスカッションフォーラムは市民参加を促進する重要な道のりである。 この論文の提案 1)NLP(Natural Language Processing)による大規模オンライン議論の促進に関わる課題を明らかにする。 2)ハイブリッドAI技術の導入による課題の解決を提案し, 3)オンライン討論における個人的視点について,これらの技術がどのように明らかにできるかを考察する。 本稿では,人間の知能と大規模言語モデルの混合によって得られる視点を表現するための3層階層構造を提案する。 これらの表現が視点の多様性に対する洞察を引き出す方法を説明し、オンライン議論における相互作用を調査できるようにする。

Modern democracies face a critical issue of declining citizen participation in decision-making. Online discussion forums are an important avenue for enhancing citizen participation. This thesis proposal 1) identifies the challenges involved in facilitating large-scale online discussions with Natural Language Processing (NLP), 2) suggests solutions to these challenges by incorporating hybrid human-AI technologies, and 3) investigates what these technologies can reveal about individual perspectives in online discussions. We propose a three-layered hierarchy for representing perspectives that can be obtained by a mixture of human intelligence and large language models. We illustrate how these representations can draw insights into the diversity of perspectives and allow us to investigate interactions in online discussions.
翻訳日:2024-05-16 13:06:44 公開日:2024-05-15
# Desk-AId: 地雷地域予測のための地理空間AIによる人道支援デスク評価

Desk-AId: Humanitarian Aid Desk Assessment with Geospatial AI for Predicting Landmine Areas ( http://arxiv.org/abs/2405.09444v1 )

ライセンス: Link先を確認
Flavio Cirillo, Gürkan Solmaz, Yi-Hsuan Peng, Christian Bizer, Martin Jebens, (参考訳) 採掘のプロセスは、リスクを確認し、鉱山のクリアランス運用を進める専門家の徹底的な調査を行うために、潜在的危険領域(すなわち、机の評価)を評価・優先順位付けすることから始まる。 本稿では,地空間データと社会経済情報を用いて地雷リスクを推定し,デスク評価フェーズを支援するDesk-AIdを提案する。 Desk-AIdは地雷に特化したGeospatial AIアプローチを使用している。 このアプローチには、混合データサンプリング戦略と、歴史的紛争と重要なマルチドメイン施設(例えば、建物、道路、保健施設)によるコンテキスト強化が含まれる。 提案システムでは, 有害領域近傍で負の点をサンプリングする新しいハードネガティブデータサンプリング戦略を導入することで, 有害領域に対する基礎的トラストのみを有するという課題に対処する。 地雷リスク評価のための2つの領域におけるデスクエイドの評価実験 1)全国,及び 2)未調査地域) 提案手法は、RandomForest(RF)、Feedforward Neural Networks(FNN)、Graph Neural Networks(GNN)など、さまざまな分類モデルに対して、推定精度を最大92%向上させる。

The process of clearing areas, namely demining, starts by assessing and prioritizing potential hazardous areas (i.e., desk assessment) to go under thorough investigation of experts, who confirm the risk and proceed with the mines clearance operations. This paper presents Desk-AId that supports the desk assessment phase by estimating landmine risks using geospatial data and socioeconomic information. Desk-AId uses a Geospatial AI approach specialized to landmines. The approach includes mixed data sampling strategies and context-enrichment by historical conflicts and key multi-domain facilities (e.g., buildings, roads, health sites). The proposed system addresses the issue of having only ground-truth for confirmed hazardous areas by implementing a new hard-negative data sampling strategy, where negative points are sampled in the vicinity of hazardous areas. Experiments validate Desk-Aid in two domains for landmine risk assessment: 1) country-wide, and 2) uncharted study areas). The proposed approach increases the estimation accuracies up to 92%, for different classification models such as RandomForest (RF), Feedforward Neural Networks (FNN), and Graph Neural Networks (GNN).
翻訳日:2024-05-16 13:06:44 公開日:2024-05-15
# 幾何インフォームド機械学習のためのマニフォールド上の倉本振動子と群れ

Kuramoto Oscillators and Swarms on Manifolds for Geometry Informed Machine Learning ( http://arxiv.org/abs/2405.09453v1 )

ライセンス: Link先を確認
Vladimir Jacimovic, (参考訳) 非ユークリッドデータセット上での機械学習に倉本モデル(高次元一般化を含む)を用いることを提案する。 これらのモデルは、球面、均質空間およびリー群上の抽象粒子(一般化振動子)の集合運動(スウォーミングダイナミクス)を記述する行列ODEのシステムである。 このようなモデルは、統計物理学と制御理論の両方において、XXI世紀初めから広く研究されてきた。 それらは、様々な多様体間の写像を符号化するのに適したフレームワークを提供し、球面および双曲幾何学について学ぶことができる。 さらに、変換群の結合作用(特殊直交群、ユニタリ群、ローレンツ群など)を学習することができる。 さらに,幾何深層学習における確率的モデリングと推論に適切な統計モデルを提供する確率分布の家系を概説する。 我々は、粒子の連続極限において異なる倉本モデルで生じる統計モデルを使うことを好んで論じる。 確率分布の最も便利な族は、ある対称性群の作用に関して不変である族である。

We propose the idea of using Kuramoto models (including their higher-dimensional generalizations) for machine learning over non-Euclidean data sets. These models are systems of matrix ODE's describing collective motions (swarming dynamics) of abstract particles (generalized oscillators) on spheres, homogeneous spaces and Lie groups. Such models have been extensively studied from the beginning of XXI century both in statistical physics and control theory. They provide a suitable framework for encoding maps between various manifolds and are capable of learning over spherical and hyperbolic geometries. In addition, they can learn coupled actions of transformation groups (such as special orthogonal, unitary and Lorentz groups). Furthermore, we overview families of probability distributions that provide appropriate statistical models for probabilistic modeling and inference in Geometric Deep Learning. We argue in favor of using statistical models which arise in different Kuramoto models in the continuum limit of particles. The most convenient families of probability distributions are those which are invariant with respect to actions of certain symmetry groups.
翻訳日:2024-05-16 13:06:44 公開日:2024-05-15
# 大規模言語モデルによる説明可能な公衆衛生ファクトチェッキング

Tell Me Why: Explainable Public Health Fact-Checking with Large Language Models ( http://arxiv.org/abs/2405.09454v1 )

ライセンス: Link先を確認
Majid Zarharan, Pascal Wullschleger, Babak Behkam Kia, Mohammad Taher Pilehvar, Jennifer Foster, (参考訳) 本稿では,大規模言語モデルによる公衆衛生クレームの検証と,その妥当性評価に関する説明や正当化に焦点をあて,一連の実験を通じて説明可能な事実チェックの包括的分析を行う。 各種オープンおよびクローズドソースモデルにおける0/fwショットプロンプトとパラメータ効率の微調整の有効性を検討した。 重要なことは、以前に確立された自動メトリクスと、人的評価による新しい基準セットからなる二重評価手法を採用することである。 我々の自動評価は、ゼロショットシナリオにおいて、GPT-4がスタンドアウトパフォーマーとして現れるが、少数ショットおよびパラメータ効率の良い微調整コンテキストにおいて、オープンソースのモデルは、性能ギャップを埋めるだけでなく、GPT-4を超越する能力を示す。 人間の評価は、さらにニュアンスを増し、金の説明に潜在的な問題を示す。

This paper presents a comprehensive analysis of explainable fact-checking through a series of experiments, focusing on the ability of large language models to verify public health claims and provide explanations or justifications for their veracity assessments. We examine the effectiveness of zero/few-shot prompting and parameter-efficient fine-tuning across various open and closed-source models, examining their performance in both isolated and joint tasks of veracity prediction and explanation generation. Importantly, we employ a dual evaluation approach comprising previously established automatic metrics and a novel set of criteria through human evaluation. Our automatic evaluation indicates that, within the zero-shot scenario, GPT-4 emerges as the standout performer, but in few-shot and parameter-efficient fine-tuning contexts, open-source models demonstrate their capacity to not only bridge the performance gap but, in some instances, surpass GPT-4. Human evaluation reveals yet more nuance as well as indicating potential problems with the gold explanations.
翻訳日:2024-05-16 13:06:44 公開日:2024-05-15
# ガラスセグメンテーションのためのより広いキャッチャーを有するフーリエ境界特徴ネットワーク

Fourier Boundary Features Network with Wider Catchers for Glass Segmentation ( http://arxiv.org/abs/2405.09459v1 )

ライセンス: Link先を確認
Xiaolin Qin, Jiacen Liu, Qianlei Wang, Shaolin Zhang, Fei Zhu, Zhang Yi, (参考訳) ガラスは現実世界と反射の境界を大きく曖昧にする。 特殊透過率と反射率の品質は、マシンビジョンに関連する意味的タスクを混乱させてきた。 したがって、ガラスによって構築された境界線をクリアし、深部構造における偽陽性情報、反射面のセグメンテーションと透過ガラスのセグメンテーションを制約する問題として、過剰に捕獲される特徴を回避できる。 ガラスのセグメンテーション境界を1次ガラスのセグメンテーション情報で導くため, 縦深化を伴わずに, 十分に広い水平な枝を十分に活用する試みとして, 広帯域キャッチャーを用いたフーリエ境界特徴ネットワーク(FBWC)を提案した。 具体的には,大面積のセグメンテーションを固定し,構造的観点からの過剰な抽出を削減できるワイドラー粗さキャッチャー (WCC) を設計した。 反射雑音による境界内の不完全領域を回避するために, クロストランスポーズ注意(CTA)により微細な特徴を埋め込む。 ガラスの特徴を抽出し,高層コンテキストのバランスをとるために,学習可能なフーリエ畳み込み制御器 (FCC) が提案され,情報統合を堅牢に制御する。 提案手法は3種類のガラスセグメンテーションデータセットで検証されている。 実験結果から, ガラス画像分割におけるSOTA法と比較して, 高いセグメンテーション性能が得られた。

Glass largely blurs the boundary between the real world and the reflection. The special transmittance and reflectance quality have confused the semantic tasks related to machine vision. Therefore, how to clear the boundary built by glass, and avoid over-capturing features as false positive information in deep structure, matters for constraining the segmentation of reflection surface and penetrating glass. We proposed the Fourier Boundary Features Network with Wider Catchers (FBWC), which might be the first attempt to utilize sufficiently wide horizontal shallow branches without vertical deepening for guiding the fine granularity segmentation boundary through primary glass semantic information. Specifically, we designed the Wider Coarse-Catchers (WCC) for anchoring large area segmentation and reducing excessive extraction from a structural perspective. We embed fine-grained features by Cross Transpose Attention (CTA), which is introduced to avoid the incomplete area within the boundary caused by reflection noise. For excavating glass features and balancing high-low layers context, a learnable Fourier Convolution Controller (FCC) is proposed to regulate information integration robustly. The proposed method has been validated on three different public glass segmentation datasets. Experimental results reveal that the proposed method yields better segmentation performance compared with the state-of-the-art (SOTA) methods in glass image segmentation.
翻訳日:2024-05-16 13:06:44 公開日:2024-05-15
# 量子シミュレーションによるゲージドリフトのゼノ効果抑制

Zeno Effect Suppression of Gauge Drift in Quantum Simulations ( http://arxiv.org/abs/2405.09462v1 )

ライセンス: Link先を確認
Carter Ball, Thomas D. Cohen, (参考訳) 格子ゲージ理論の量子シミュレーションは、リアルタイム力学を含む多くの複雑な問題を研究する上で有望なツールである。 しかしゲージ理論では、時間的発展の間にゲージ不変性を維持することが大きな課題である。 そのような理論は、物理的空間よりも大きいヒルベルト空間を持ち、ゲージ不変あるいは等価にガウスの法則を尊重する状態の集合である。 物理ヒルベルト空間から始まるハミルトン力学の正確な実装は、系を物理空間に保ち続けるが、様々な種類の誤差は必然的にその外側の成分を生成する。 本研究は, このゲージドリフトをゼノ効果により抑制する方法を提案する。 ゼノ効果の標準的な図のように、本手法は物理部分空間への頻繁な射影に依存する。 さらに、ゲージドリフトの速度を減少させる手法が議論され、投射の必要周波数を減少させるのに役立つ。 本手法は,$\mathbb{Z}_2$ gauge theory toy model上で実証する。

Quantum simulation of lattice gauge theories is a promising tool for the study of many complicated problems including ones with real-time dynamics. For gauge theories, however, there is a major challenge in maintaining gauge invariance during time evolution. Such theories have a full Hilbert space that is larger than the physical space -- the set of states which are gauge invariant or equivalently respect the Gauss law. While an exact implementation of Hamiltonian dynamics starting in the physical Hilbert space will keep the system in the physical space, various types of errors will inevitably produce components outside of it. This work proposes a method of suppressing this gauge drift via the Zeno effect. As in the standard picture of the Zeno effect, our method relies on frequent projection onto the physical subspace. Additionally, a technique is discussed to reduce the speed of the gauge drift, which helps to reduce the required frequency of projections. We demonstrate our method on a $\mathbb{Z}_2$ gauge theory toy model.
翻訳日:2024-05-16 13:06:44 公開日:2024-05-15
# Gaze-DETR:Vulvovaginal candidiasisスクリーニングにおけるエキスパート・ゲイズによる偽陽性率の低減

Gaze-DETR: Using Expert Gaze to Reduce False Positives in Vulvovaginal Candidiasis Screening ( http://arxiv.org/abs/2405.09463v1 )

ライセンス: Link先を確認
Yan Kong, Sheng Wang, Jiangdong Cai, Zihao Zhao, Zhenrong Shen, Yonghao Li, Manman Fei, Qian Wang, (参考訳) ヴァルボバジナルカンジダイシスの正確な検出は女性の健康にとって重要であるが、その分布と視覚的不明瞭な特徴は、病理学者やニューラルネットワークによる正確な同定に重大な課題をもたらす。 私たちの視線追跡データによると、議論の後に専門家によってマークされていない領域は、しばしばニューラルネットワークの偽陽性と一致している。 この発見を生かしたGaze-DETRは、視線データを統合する先駆的手法であり、偽陽性を減らしてニューラルネットワークの精度を向上させる。 Gaze-DETRには、様々な検出方法に適用可能な普遍的な視線誘導ウォームアッププロトコルと、DETRベースのモデル用に設計された視線誘導補正戦略が組み込まれている。 我々の総合的なテストでは、Gaze-DETRが既存の先行手法を超えることが確認され、検出精度と一般化性において顕著な改善が示された。

Accurate detection of vulvovaginal candidiasis is critical for women's health, yet its sparse distribution and visually ambiguous characteristics pose significant challenges for accurate identification by pathologists and neural networks alike. Our eye-tracking data reveals that areas garnering sustained attention - yet not marked by experts after deliberation - are often aligned with false positives of neural networks. Leveraging this finding, we introduce Gaze-DETR, a pioneering method that integrates gaze data to enhance neural network precision by diminishing false positives. Gaze-DETR incorporates a universal gaze-guided warm-up protocol applicable across various detection methods and a gaze-guided rectification strategy specifically designed for DETR-based models. Our comprehensive tests confirm that Gaze-DETR surpasses existing leading methods, showcasing remarkable improvements in detection accuracy and generalizability.
翻訳日:2024-05-16 12:56:32 公開日:2024-05-15
# 量子衛星ネットワークのためのスケーラブルなスケジューリングポリシー

Scalable Scheduling Policies for Quantum Satellite Networks ( http://arxiv.org/abs/2405.09464v1 )

ライセンス: Link先を確認
Albert Williams, Nitish K. Panigrahy, Andrew McGregor, Don Towsley, (参考訳) 低軌道軌道(LEO)衛星メガコンステレーションが衛星インターネットに展開され続けており、最近の衛星ベースの量子エンタングルメント分布の実験が成功しているため、自然な疑問が浮かび上がっている。 本研究では,衛星・地上局の資源制約を考慮した量子衛星ネットワークにおける送信スケジューリングの問題点について考察する。 衛星を地上局に割り当てる際の最も一般的な問題はNPハードであることを示す。 次に、4つのヒューリスティックアルゴリズムを提案し、地上局の様々な資源と配置の下でStarlinkメガコンステレーションの性能を評価する。 地上局1台当たりの受信機数は,設置する地上局の総数に比して非常に緩やかに増加することが判明した。 提案アルゴリズムは, 最適重み付きbマッチングとグローバルグリーディヒューリスティックを利用して, 絡み合い分布率, 絡み合いの忠実度, ハンドオーバコストの指標において, 他よりも優れていた。 また,これらのスケジューリングアルゴリズムを開発しながら,衛星の巨視像をシミュレーションし,可視化し,評価するソフトウェアシステムを設計した。

As Low Earth Orbit (LEO) satellite mega constellations continue to be deployed for satellite internet and recent successful experiments in satellite-based quantum entanglement distribution emerge, a natural question arises: How should we coordinate transmissions and design scalable scheduling policies for a quantum satellite internet? In this work, we consider the problem of transmission scheduling in quantum satellite networks subject to resource constraints at the satellites and ground stations. We show that the most general problem of assigning satellites to ground station pairs for entanglement distribution is NP-hard. We then propose four heuristic algorithms and evaluate their performance for Starlink mega constellation under various amount of resources and placements of the ground stations. We find that the maximum number of receivers necessary per ground station grows very slowly with the total number of deployed ground stations. Our proposed algorithms, leveraging optimal weighted b-matching and the global greedy heuristic, outperform others in entanglement distribution rate, entanglement fidelity, and handover cost metrics. While we develop these scheduling algorithms, we have also designed a software system to simulate, visualize, and evaluate satellite mega-constellations for entanglement distribution.
翻訳日:2024-05-16 12:56:32 公開日:2024-05-15
# Flashback: Proposer-Builder設計を改善 - Ethereumのproof-of-StakeでのFuture-Blockオークション

Flashback: Enhancing Proposer-Builder Design with Future-Block Auctions in Proof-of-Stake Ethereum ( http://arxiv.org/abs/2405.09465v1 )

ライセンス: Link先を確認
Yifan Mao, Mengya Zhang, Shaileshh Bojja Venkatakrishnan, Zhiqiang Lin, (参考訳) ブロック提案者がブロック内にトランザクションを含む順序を操作することによって非倫理的に利益を得る最大抽出可能な値(MEV)は、今日のEthereumのようなブロックチェーンに直面する重要な課題である。 MEVは未確認のまま、リスク分散の集中化につながる可能性があるため、究極的にはブロックチェーンコンセンサスのセキュリティを損なうことになる。 ブロックチェーンのプロジェクタ分散(つまりセキュリティ)を維持するため、Ethereumは、プロジェクタ-ビルダ分離(PBS)を提唱し、トランザクションオーダの機能をプロジェクタから分離し、ビルダと呼ばれる別のエンティティに割り当てた。 ビルダーは、最も利益率の高いバンドルを見つけるために競争する検索者からのトランザクションバンドルを受け入れる。 建設業者は完成したブロックを提案者に入札し、出版のために最も利益の出るブロックを受け入れた。 検索者、ビルダー、プロジェクタ間で使用されるオークションメカニズムは、ブロックチェーン全体の健全性に不可欠である。 本稿では,イーサリアムにおけるPBS設計を,探索者,構築者,提案者間のゲームとみなす。 ゲームモデル内でのPoS(Protocol-of-Stake)Ethereumにおいて、エポックのすべてのプロポータが事前に決定されるため、我々の設計における重要な新規性は、将来のブロックプロポーサを含めることである。 我々の分析は、最先端技術と比較してプレイヤーにより良い(より利益の出る)平衡をもたらす代替の競売機構が存在することを示している。 合成および実世界のデータトレースに基づく実験評価は、その分析を裏付ける。 この結果から,PoS Ethereumにはオークション機構の設計の再考が必要であることが示唆された。

Maximal extractable value (MEV) in which block proposers unethically gain profits by manipulating the order in which transactions are included within a block, is a key challenge facing blockchains such as Ethereum today. Left unchecked, MEV can lead to a centralization of stake distribution thereby ultimately compromising the security of blockchain consensus. To preserve proposer decentralization (and hence security) of the blockchain, Ethereum has advocated for a proposer-builder separation (PBS) in which the functionality of transaction ordering is separated from proposers and assigned to separate entities called builders. Builders accept transaction bundles from searchers, who compete to find the most profitable bundles. Builders then bid completed blocks to proposers, who accept the most profitable blocks for publication. The auction mechanisms used between searchers, builders and proposers are crucial to the overall health of the blockchain. In this paper, we consider PBS design in Ethereum as a game between searchers, builders and proposers. A key novelty in our design is the inclusion of future block proposers, as all proposers of an epoch are decided ahead of time in proof-of-stake (PoS) Ethereum within the game model. Our analysis shows the existence of alternative auction mechanisms that result in a better (more profitable) equilibrium to players compared to state-of-the-art. Experimental evaluations based on synthetic and real-world data traces corroborate the analysis. Our results highlight that a rethinking of auction mechanism designs is necessary in PoS Ethereum to prevent disruption.
翻訳日:2024-05-16 12:56:32 公開日:2024-05-15
# 3量子系における大域的および真の絡み合いを測定する幾何学的定式化

A geometric formulation to measure global and genuine entanglement in three-qubit systems ( http://arxiv.org/abs/2405.09466v1 )

ライセンス: Link先を確認
Salvio Luna-Hernandez, Marco Enriquez, Oscar Rosas-Ortiz, (参考訳) 3部量子ビット系の異なる部分間の絡み合いを定量化するために、2つの異なる測度に対して純粋に幾何学的な定式化を導入する。 提案手法では, 量子ビット成分の密度行列の最小固有値で定義される絡み合わせポリトープを考察する。 これらの尺度は、大域的および真の絡み合いを識別し、対応する2つの分離可能なセグメント上のポリトープの所定の点の投影と拒絶にそれぞれ関連付けられる。 いわゆる「逆問題」を解き、システムを特定の形で振る舞うように強制する方法についても論じ、実際的な目的のために絡みを制御・操作する可能性を開く。

We introduce a purely geometric formulation for two different measures addressed to quantify the entanglement between different parts of a tripartite qubit system. Our approach considers the entanglement-polytope defined by the smallest eigenvalues of the reduced density matrices of the qubit-components. The measures identify global and genuine entanglement, and are respectively associated with the projection and rejection of a given point of the polytope on the corresponding biseparable segments. Solving the so called `inverse problem', we also discuss a way to force the system to behave in a particular form, which opens the possibility of controlling and manipulating entanglement for practical purposes.
翻訳日:2024-05-16 12:56:32 公開日:2024-05-15
# 音声スタイル伝達による音声認識システムのロバスト性評価に向けて

Towards Evaluating the Robustness of Automatic Speech Recognition Systems via Audio Style Transfer ( http://arxiv.org/abs/2405.09470v1 )

ライセンス: Link先を確認
Weifei Jin, Yuxin Cao, Junjie Su, Qi Shen, Kai Ye, Derui Wang, Jie Hao, Ziyao Liu, (参考訳) 音声認識(ASR)システムが広く適用されていることを踏まえると、そのセキュリティ上の懸念は、主にディープニューラルネットワークの感受性のために、これまで以上に多くの注目を集めている。 従来の研究では、敵対的摂動を過度に作ることで音声認識システムの操作が可能となり、悪意のあるコマンドが生成されることが示されている。 これらの攻撃方法は、主に$\ell_p$のノルム制約の下でノイズ摂動を追加する必要があり、必然的に手動修正の成果物を残している。 近年,テキスト・トゥ・スペーチ(TTS)合成音声に基づく敵対的事例を合成するために,スタイルベクトルを操作することで,この制限を緩和している。 しかし、最適化目的に基づくスタイル修正は、オーディオスタイルの制御性と編集性を大幅に低下させる。 本稿では,ユーザ適応型スタイル転送に基づくASRシステムに対する攻撃を提案する。 我々はまず,スタイル転送と敵攻撃を逐次的に組み合わせたスタイル転送攻撃(STA)の効果を検証した。 そして、改善として、音質を維持するために反復型スタイルコードアタック(SCA)を提案する。 実験結果から,本手法はユーザ適応型スタイルの必要性を満たすとともに,ユーザ調査による健全性を維持しつつ,攻撃の82%の成功率を達成できることが示唆された。

In light of the widespread application of Automatic Speech Recognition (ASR) systems, their security concerns have received much more attention than ever before, primarily due to the susceptibility of Deep Neural Networks. Previous studies have illustrated that surreptitiously crafting adversarial perturbations enables the manipulation of speech recognition systems, resulting in the production of malicious commands. These attack methods mostly require adding noise perturbations under $\ell_p$ norm constraints, inevitably leaving behind artifacts of manual modifications. Recent research has alleviated this limitation by manipulating style vectors to synthesize adversarial examples based on Text-to-Speech (TTS) synthesis audio. However, style modifications based on optimization objectives significantly reduce the controllability and editability of audio styles. In this paper, we propose an attack on ASR systems based on user-customized style transfer. We first test the effect of Style Transfer Attack (STA) which combines style transfer and adversarial attack in sequential order. And then, as an improvement, we propose an iterative Style Code Attack (SCA) to maintain audio quality. Experimental results show that our method can meet the need for user-customized styles and achieve a success rate of 82% in attacks, while keeping sound naturalness due to our user study.
翻訳日:2024-05-16 12:56:32 公開日:2024-05-15
# 円錐近似におけるBonnor-Melvin-$$$宇宙における荷電スカラーボソン

Charged scalar bosons in a Bonnor-Melvin-$Λ$ universe at conical approximation ( http://arxiv.org/abs/2405.09471v1 )

ライセンス: Link先を確認
Luis B. Castro, Angel E. Obispo, Andrés G. Jirón, (参考訳) ボナー-メルヴィン-$\Lambda$宇宙における荷電スカラーボソンの量子力学を考察する。 本研究では, Duffin-Kemmer-Petiau (DKP) 形式主義の枠組みの中で, 荷電スカラー粒子の挙動を考察した。 円錐近似(英語版)(\Lambda\ll 1$)を採用すると、ベクトルポテンシャルのシナリオとして線型ベクトルポテンシャルと二次ベクトルポテンシャルの2つが考えられる。 特に、運動方程式、位相シフト、$S$-行列、エネルギースペクトル、DKPスピノルにおけるこの背景の影響を分析し、議論した。

The quantum dynamics of charged scalar bosons in a Bonnor-Melvin-$\Lambda$ universe is considered. In this study, the behavior of charged scalar bosons is explored within the framework of the Duffin-Kemmer-Petiau (DKP) formalism. Adopting a conical approximation ($\Lambda\ll 1$), we are considered two scenarios for the vector potential: a linear and quadratic vector potentials. In particular, the effects of this background in the equation of motion, phase shift, $S$-matrix, energy spectrum and DKP spinor are analyzed and discussed.
翻訳日:2024-05-16 12:56:32 公開日:2024-05-15
# 知覚とフィデリティを意識した低解像度画像品質評価

Perception- and Fidelity-aware Reduced-Reference Super-Resolution Image Quality Assessment ( http://arxiv.org/abs/2405.09472v1 )

ライセンス: Link先を確認
Xinying Lin, Xuyang Liu, Hong Yang, Xiaohai He, Honggang Chen, (参考訳) 画像超解像(SR)アルゴリズムの出現により、生成したSR画像の品質を評価する方法が緊急課題となっている。 SR画像品質評価(SR-IQA)ではフル参照方式が有効であるが,高分解能(HR)画像への依存は適用性を制限している。 低解像度(LR)画像やスケールファクタなど、SR-IQAで可能な限り利用可能な再構成情報を活用することは、HRを使わずにSR-IQAの評価性能を向上させるための有望な方法である。 本稿では,LR画像とスケールファクターを考慮したSR画像の知覚的品質と再現性の評価を試みる。 具体的には、新しい二分岐縮小参照SR-IQAネットワーク、Shaie, Perception- and Fidelity-aware SR-IQA (PFIQA)を提案する。 視覚変換器(ViT)のグローバルモデリングとResNetの局所的関係の利点を活用し、そのスケールファクタを組み込むことにより、SR画像の知覚品質を評価する。 一方、忠実度認識枝は、その視覚的知覚を通して、LR画像とSR画像の再構成忠実度を評価する。 2つの枝の組み合わせは人間の視覚システムとほぼ一致し、包括的なSR画像評価を可能にする。 実験結果から,PFIQAは3つのSR-IQAベンチマークにおいて,現在の最先端モデルよりも優れていたことが示唆された。 特に、PFIQAは現実世界のSR画像の品質を評価するのに優れている。

With the advent of image super-resolution (SR) algorithms, how to evaluate the quality of generated SR images has become an urgent task. Although full-reference methods perform well in SR image quality assessment (SR-IQA), their reliance on high-resolution (HR) images limits their practical applicability. Leveraging available reconstruction information as much as possible for SR-IQA, such as low-resolution (LR) images and the scale factors, is a promising way to enhance assessment performance for SR-IQA without HR for reference. In this letter, we attempt to evaluate the perceptual quality and reconstruction fidelity of SR images considering LR images and scale factors. Specifically, we propose a novel dual-branch reduced-reference SR-IQA network, \ie, Perception- and Fidelity-aware SR-IQA (PFIQA). The perception-aware branch evaluates the perceptual quality of SR images by leveraging the merits of global modeling of Vision Transformer (ViT) and local relation of ResNet, and incorporating the scale factor to enable comprehensive visual perception. Meanwhile, the fidelity-aware branch assesses the reconstruction fidelity between LR and SR images through their visual perception. The combination of the two branches substantially aligns with the human visual system, enabling a comprehensive SR image evaluation. Experimental results indicate that our PFIQA outperforms current state-of-the-art models across three widely-used SR-IQA benchmarks. Notably, PFIQA excels in assessing the quality of real-world SR images.
翻訳日:2024-05-16 12:56:32 公開日:2024-05-15
# ヒューマンインサイトとAIの精度の調和 - 知識グラフタスクの強化に手を差し伸べる

Harmonizing Human Insights and AI Precision: Hand in Hand for Advancing Knowledge Graph Task ( http://arxiv.org/abs/2405.09477v1 )

ライセンス: Link先を確認
Shurong Wang, Yufei Zhang, Xuliang Huang, Hongwei Wang, (参考訳) 知識グラフ埋め込み(KGE)は知識グラフ補完(KGC)、特にリンク予測(LP)において有効性に大きな関心を集めており、最近のKGEモデルはLPベンチマークをクラックしている。 文学の急速な発展にもかかわらず、人間とAIのKGにおける協力には不十分な注意が払われている。 しかし、概念的にグラフを分析する人間の能力は、意味情報を用いたKGEモデルの有効性をさらに向上させる可能性がある。 そこで我々は,KG上の完全人間設計のアドホック動的プログラミング(DP)を活用して,そのサブグラフ構造の特徴と意味的類似性を捉える人間の洞察的特徴(HIF)ベクトルを生成する,KG-HAIT(Human-AI team)システムを慎重に設計した。 HIFベクトルをKGEモデルのトレーニングに組み込むことで、様々なベンチマークやメトリクスで顕著な改善が見られ、モデル収束が加速される。 本研究は,人間とAIがKG上で協調する上で重要な役割を担っていることを強調し,LPの課題における人間設計DPの有効性を裏付けるものである。 我々は、KG-HAITによるさらなる探索と革新の道を開き、より効果的で洞察に富んだKG分析技術への道を開く。

Knowledge graph embedding (KGE) has caught significant interest for its effectiveness in knowledge graph completion (KGC), specifically link prediction (LP), with recent KGE models cracking the LP benchmarks. Despite the rapidly growing literature, insufficient attention has been paid to the cooperation between humans and AI on KG. However, humans' capability to analyze graphs conceptually may further improve the efficacy of KGE models with semantic information. To this effect, we carefully designed a human-AI team (HAIT) system dubbed KG-HAIT, which harnesses the human insights on KG by leveraging fully human-designed ad-hoc dynamic programming (DP) on KG to produce human insightful feature (HIF) vectors that capture the subgraph structural feature and semantic similarities. By integrating HIF vectors into the training of KGE models, notable improvements are observed across various benchmarks and metrics, accompanied by accelerated model convergence. Our results underscore the effectiveness of human-designed DP in the task of LP, emphasizing the pivotal role of collaboration between humans and AI on KG. We open avenues for further exploration and innovation through KG-HAIT, paving the way towards more effective and insightful KG analysis techniques.
翻訳日:2024-05-16 12:56:32 公開日:2024-05-15
# Flesch-Kincaidを超えて: プロンプトベースのメトリクスは教育用テキストの難解な分類を改善する

Beyond Flesch-Kincaid: Prompt-based Metrics Improve Difficulty Classification of Educational Texts ( http://arxiv.org/abs/2405.09482v1 )

ライセンス: Link先を確認
Donya Rooein, Paul Rottger, Anastassia Shaitarova, Dirk Hovy, (参考訳) 対話型教育のような教育アプリケーションに大規模言語モデル(LLM)を使用することは、ホットトピックである。 しかし、効果的な教育は、教師が内容の難しさと説明を生徒の教育レベルに適応させることを要求する。 最高のLLMでさえ、これをうまくやるのに苦労しています。 この適応タスクでLLMを改善したい場合は、適応の成功を確実に測定できる必要がある。 しかし、Flesch-Kincaid Reading Easeスコアのようなテキストの難易度に関する現在の静的指標は粗悪で不安定であることが知られている。 そこで本研究では,テキストの難易度向上のために,Promptベースのメトリクスセットを導入し,評価する。 ユーザスタディに基づいて,LLMの入力としてPromptベースのメトリクスを作成する。 LLMの汎用言語理解機能を活用して、静的メトリクスよりも抽象的で複雑な特徴を捉える。 回帰実験により、Promptベースのメトリクスを追加することで、静的メトリクスのみに対するテキストの難易度分類が大幅に改善されることが示された。 本研究は,LLMを用いて異なる教育レベルへのテキスト適応を評価することの可能性を実証するものである。

Using large language models (LLMs) for educational applications like dialogue-based teaching is a hot topic. Effective teaching, however, requires teachers to adapt the difficulty of content and explanations to the education level of their students. Even the best LLMs today struggle to do this well. If we want to improve LLMs on this adaptation task, we need to be able to measure adaptation success reliably. However, current Static metrics for text difficulty, like the Flesch-Kincaid Reading Ease score, are known to be crude and brittle. We, therefore, introduce and evaluate a new set of Prompt-based metrics for text difficulty. Based on a user study, we create Prompt-based metrics as inputs for LLMs. They leverage LLM's general language understanding capabilities to capture more abstract and complex features than Static metrics. Regression experiments show that adding our Prompt-based metrics significantly improves text difficulty classification over Static metrics alone. Our results demonstrate the promise of using LLMs to evaluate text adaptation to different education levels.
翻訳日:2024-05-16 12:56:32 公開日:2024-05-15
# DemOpts:新型コロナウイルスのケース予測モデルにおける公正度補正

DemOpts: Fairness corrections in COVID-19 case prediction models ( http://arxiv.org/abs/2405.09483v1 )

ライセンス: Link先を確認
Naman Awasthi, Saad Abrar, Daniel Smolyak, Vanessa Frias-Martinez, (参考訳) 新型コロナウイルス(COVID-19)の予測モデルは、リソース割り当てや病院のベッド、在宅勤務の注文などの介入に関する意思決定を通知するために使われてきた。 最先端のディープラーニングモデルは、新型コロナウイルスのケース予測モデルを強化するために、モビリティや社会デコグラフィーデータなどのマルチモーダルデータを使用することが多い。 それにもかかわらず、関連する研究は、新型コロナウイルスの感染者の過少報告バイアスと、一部の少数民族や民族集団の移動データのサンプリングバイアスを明らかにしており、結果として、人種ラベルに沿った新型コロナウイルスの予測の公平性に影響を与える可能性がある。 本稿では、現在最先端のディープラーニングモデルを用いて、人種や民族間で大きく異なる予測誤差を出力し、不公平な政策決定を支援することができることを示す。 また、潜在的なバイアス付きデータセットに基づいてトレーニングされたディープラーニングに基づく予測モデルの公平性を高めるために、新しいデバイアス化手法であるDemOptsを提案する。 以上の結果から、DemOptsは、他の最先端の非バイアス化アプローチと同等のエラーを達成でき、これにより、より人種的および民族的グループ間の平均エラー分布の差異を効果的に低減できることが示された。

COVID-19 forecasting models have been used to inform decision making around resource allocation and intervention decisions e.g., hospital beds or stay-at-home orders. State of the art deep learning models often use multimodal data such as mobility or socio-demographic data to enhance COVID-19 case prediction models. Nevertheless, related work has revealed under-reporting bias in COVID-19 cases as well as sampling bias in mobility data for certain minority racial and ethnic groups, which could in turn affect the fairness of the COVID-19 predictions along race labels. In this paper, we show that state of the art deep learning models output mean prediction errors that are significantly different across racial and ethnic groups; and which could, in turn, support unfair policy decisions. We also propose a novel de-biasing method, DemOpts, to increase the fairness of deep learning based forecasting models trained on potentially biased datasets. Our results show that DemOpts can achieve better error parity that other state of the art de-biasing approaches, thus effectively reducing the differences in the mean error distributions across more racial and ethnic groups.
翻訳日:2024-05-16 12:56:32 公開日:2024-05-15
# クロスカラー人物再同定のための色空間学習

Color Space Learning for Cross-Color Person Re-Identification ( http://arxiv.org/abs/2405.09487v1 )

ライセンス: Link先を確認
Jiahao Nie, Shan Lin, Alex C. Kot, (参考訳) 同じアイデンティティの一次色プロファイルは、典型的なPerson ReID(Person ReID)タスクにおいて一貫性が保たれていると仮定される。 しかし、この仮定は現実の状況では無効であり、画像には異なる色プロファイルがある。 この問題を解決するために,クロスカラーパーソンReID問題に対するカラー空間学習(CSL)を提案する。 具体的には、CSLは、イメージレベルのカラー拡張とPixelレベルのカラートランスフォーメーションの2つのモジュールで、モデルが色に敏感になるようにガイドする。 最初のモジュールは入力の色多様性を高め、非色情報にもっと焦点を合わせるようモデルに誘導する。 第2のモジュールは入力画像の各ピクセルを新しい色空間に投影する。 さらに、RGBおよび赤外線モダリティ(NTU-Corridor)にまたがる新たなPerson ReIDベンチマーク(Person ReID)を導入する。 提案したCSLの有効性とロバスト性を評価するため,いくつかのクロスカラーPerson ReIDベンチマークで評価を行った。 我々の手法は一貫して最先端の手法を超越している。 コードとベンチマークは、https://github.com/niejiahao1998/CSLで公開されている。

The primary color profile of the same identity is assumed to remain consistent in typical Person Re-identification (Person ReID) tasks. However, this assumption may be invalid in real-world situations and images hold variant color profiles, because of cross-modality cameras or identity with different clothing. To address this issue, we propose Color Space Learning (CSL) for those Cross-Color Person ReID problems. Specifically, CSL guides the model to be less color-sensitive with two modules: Image-level Color-Augmentation and Pixel-level Color-Transformation. The first module increases the color diversity of the inputs and guides the model to focus more on the non-color information. The second module projects every pixel of input images onto a new color space. In addition, we introduce a new Person ReID benchmark across RGB and Infrared modalities, NTU-Corridor, which is the first with privacy agreements from all participants. To evaluate the effectiveness and robustness of our proposed CSL, we evaluate it on several Cross-Color Person ReID benchmarks. Our method surpasses the state-of-the-art methods consistently. The code and benchmark are available at: https://github.com/niejiahao1998/CSL
翻訳日:2024-05-16 12:56:32 公開日:2024-05-15
# MGSER-SAM: 逐次学習のためのシャープネスを考慮したメモリガイド型ソフトエクスペリエンスリプレイ

MGSER-SAM: Memory-Guided Soft Experience Replay with Sharpness-Aware Optimization for Enhanced Continual Learning ( http://arxiv.org/abs/2405.09492v1 )

ライセンス: Link先を確認
Xingyu Li, Bo Tang, (参考訳) 深層ニューラルネットワークは、連続学習(CL)分野における破滅的な忘れの問題に悩まされている。 この課題に対処するために、CLモデルの一般化能力を高めるために特別に設計されたメモリ再生に基づく新しいアルゴリズムであるMGSER-SAMを提案する。 このコンポーネントは、ERやDER++といったよく知られたExperience Replayフレームワークにシームレスに適合する。 そして、MGSER-SAMは、進行中のタスクと、SAMオプティマイザで過小評価されている以前の記憶との間の重みの摂動方向の衝突を和らげるという複雑な課題に特化している。 これは、ソフトロジットの戦略的統合とメモリ勾配方向のアライメントにより効果的に達成され、正規化項はCLプロセスに不可欠な各種トレーニング損失項の同時最小化を促進する。 複数のベンチマークで厳密な実験分析を行い、MGSER-SAMは3つのCLシナリオすべてにおいて既存のベースラインを上回る一貫した能力を示した。 MGSER-SAM は、メモリリプレイベースのベースライン ER と DER++ と比較して、テストの精度をそれぞれ 24.4 %$ と 17.6 %$ で改善するだけでなく、各ベンチマークで最小のリコールも達成している。

Deep neural networks suffer from the catastrophic forgetting problem in the field of continual learning (CL). To address this challenge, we propose MGSER-SAM, a novel memory replay-based algorithm specifically engineered to enhance the generalization capabilities of CL models. We first intergrate the SAM optimizer, a component designed for optimizing flatness, which seamlessly fits into well-known Experience Replay frameworks such as ER and DER++. Then, MGSER-SAM distinctively addresses the complex challenge of reconciling conflicts in weight perturbation directions between ongoing tasks and previously stored memories, which is underexplored in the SAM optimizer. This is effectively accomplished by the strategic integration of soft logits and the alignment of memory gradient directions, where the regularization terms facilitate the concurrent minimization of various training loss terms integral to the CL process. Through rigorous experimental analysis conducted across multiple benchmarks, MGSER-SAM has demonstrated a consistent ability to outperform existing baselines in all three CL scenarios. Comparing to the representative memory replay-based baselines ER and DER++, MGSER-SAM not only improves the testing accuracy by $24.4\%$ and $17.6\%$ respectively, but also achieves the lowest forgetting on each benchmark.
翻訳日:2024-05-16 12:56:32 公開日:2024-05-15
# 因果推論のための制約付き学習と半パラメトリック統計

Constrained Learning for Causal Inference and Semiparametric Statistics ( http://arxiv.org/abs/2405.09493v1 )

ライセンス: Link先を確認
Tiffany Tianhui Cai, Yuri Fonseca, Kaiwen Hou, Hongseok Namkoong, (参考訳) 因果推定(平均処理効果のeg)は複雑なニュアンスパラメータ(eg結果モデル)を推定する必要がある。 ニュアンスパラメータ推定における誤差の調整を行うため, ニュアンスパラメータ推定に対する推定器の1次誤差がゼロであるという制約の下で, 最適なプラグイン推定器の誤差を補正する手法を提案する。 我々の制約学習フレームワークは、デバイアス(強化逆確率重み付け)やターゲティング(ターゲット最大推定)を含む顕著な一階補正アプローチに対する統一的な視点を提供する。 私たちの半パラメトリック推論アプローチは、ニューラルネットワークやツリーアンサンブルといった現代的な機械学習手法で実装することができ、半パラメトリック効率や二重ロバスト性といった標準的な保証を享受できます。 実験では、微調整言語モデルを必要とするテキスト機能を含む、いくつかのデータセットに対するアプローチを実証する。 我々は、C-Learnerの一致を観測し、他の漸近的最適推定器より優れ、推定重複を少なくした設定における性能が向上する。

Causal estimation (e.g. of the average treatment effect) requires estimating complex nuisance parameters (e.g. outcome models). To adjust for errors in nuisance parameter estimation, we present a novel correction method that solves for the best plug-in estimator under the constraint that the first-order error of the estimator with respect to the nuisance parameter estimate is zero. Our constrained learning framework provides a unifying perspective to prominent first-order correction approaches including debiasing (a.k.a. augmented inverse probability weighting) and targeting (a.k.a. targeted maximum likelihood estimation). Our semiparametric inference approach, which we call the "C-Learner", can be implemented with modern machine learning methods such as neural networks and tree ensembles, and enjoys standard guarantees like semiparametric efficiency and double robustness. Empirically, we demonstrate our approach on several datasets, including those with text features that require fine-tuning language models. We observe the C-Learner matches or outperforms other asymptotically optimal estimators, with better performance in settings with less estimated overlap.
翻訳日:2024-05-16 12:56:32 公開日:2024-05-15
# ParaNames 1.0: Wikidataを使って400以上の言語用のEntity Name Corpusを作成する

ParaNames 1.0: Creating an Entity Name Corpus for 400+ Languages using Wikidata ( http://arxiv.org/abs/2405.09496v1 )

ライセンス: Link先を確認
Jonne Sälevä, Constantine Lignos, (参考訳) 我々は400以上の言語にまたがる1億4000万の名前からなる多言語並列名リソースであるParaNamesを紹介した。 名前は1680万のエンティティに対して提供され、各エンティティは複雑な型階層から標準型(PER/LOC/ORG)にマッピングされる。 Wikidataをソースとして、このタイプの最大のリソースを作成します。 可能な限り最高の品質を提供するために、データをフィルタリングし、標準化するアプローチについて説明します。 ParaNamesは、名前の翻訳/翻訳のタスクの定義と、名前付きエンティティ認識やリンクのようなタスクの補足データの両方において、多言語言語処理に有用である。 2つのタスクでParaNamesの有用性を示す。 まず、英語と17の言語間で標準名変換を行う。 第二に、マルチリンガルな名前付きエンティティ認識のためのガゼッタとして使用し、評価された10言語すべてで性能改善を得る。

We introduce ParaNames, a massively multilingual parallel name resource consisting of 140 million names spanning over 400 languages. Names are provided for 16.8 million entities, and each entity is mapped from a complex type hierarchy to a standard type (PER/LOC/ORG). Using Wikidata as a source, we create the largest resource of this type to date. We describe our approach to filtering and standardizing the data to provide the best quality possible. ParaNames is useful for multilingual language processing, both in defining tasks for name translation/transliteration and as supplementary data for tasks such as named entity recognition and linking. We demonstrate the usefulness of ParaNames on two tasks. First, we perform canonical name translation between English and 17 other languages. Second, we use it as a gazetteer for multilingual named entity recognition, obtaining performance improvements on all 10 languages evaluated.
翻訳日:2024-05-16 12:56:32 公開日:2024-05-15
# QueryNER:Eコマースクエリのセグメンテーション

QueryNER: Segmentation of E-commerce Queries ( http://arxiv.org/abs/2405.09507v1 )

ライセンス: Link先を確認
Chester Palen-Michel, Lizzie Liang, Zhe Wu, Constantine Lignos, (参考訳) 本稿では,手動で注釈付きデータセットとeコマースクエリセグメンテーションモデルであるQueryNERを提案する。 電子商取引におけるシークエンスラベリングの以前の研究は、製品タイトルの一部や、狭義に定義されたアスペクトに対するクエリを抽出することに焦点を当てたアスペクト値抽出に主に取り組んできた。 私たちの研究は、クエリを広く適用可能な型を持った意味のあるチャンクに分割するという目標に焦点を当てています。 本稿では,Nullおよび低リコールクエリリカバリのためのベースラインタグ付け結果とトークンとエンティティドロップの比較実験について報告する。 カオステストセットは自動変換を使用して作成され、単純なデータ拡張技術によってモデルがノイズに対してより堅牢になることを示す。 QueryNERデータセットを公開しています。

We present QueryNER, a manually-annotated dataset and accompanying model for e-commerce query segmentation. Prior work in sequence labeling for e-commerce has largely addressed aspect-value extraction which focuses on extracting portions of a product title or query for narrowly defined aspects. Our work instead focuses on the goal of dividing a query into meaningful chunks with broadly applicable types. We report baseline tagging results and conduct experiments comparing token and entity dropping for null and low recall query recovery. Challenging test sets are created using automatic transformations and show how simple data augmentation techniques can make the models more robust to noise. We make the QueryNER dataset publicly available.
翻訳日:2024-05-16 12:56:32 公開日:2024-05-15
# バイリンガル文処理のモデリング:言語間構造プライミングのためのRNNとトランスフォーマーアーキテクチャの評価

Modeling Bilingual Sentence Processing: Evaluating RNN and Transformer Architectures for Cross-Language Structural Priming ( http://arxiv.org/abs/2405.09508v1 )

ライセンス: Link先を確認
Bushi Xiao, Chao Gao, Demi Zhang, (参考訳) 本研究では,言語間構造プライミングの複製におけるリカレントニューラルネットワーク(RNN)とトランスフォーマーの性能を評価する。 2つの類型的な言語を含む中国語・英語のプライミングに着目し、これらのモデルが構造的プライミングの頑健な現象にどう対処するかを検討する。 さらに,大規模言語モデル(LLM)を用いて言語間構造プライミング効果を測定する。 以上の結果から,Transformer は原文構造の生成において RNN よりも優れており,人間の文処理は繰り返し処理と即時処理を主眼とする従来の信念に挑戦し,キューに基づく検索機構の役割を示唆している。 全体として、この研究は、計算モデルが多言語文脈における人間の認知過程をどのように反映するかの理解に寄与する。

This study evaluates the performance of Recurrent Neural Network (RNN) and Transformer in replicating cross-language structural priming: a key indicator of abstract grammatical representations in human language processing. Focusing on Chinese-English priming, which involves two typologically distinct languages, we examine how these models handle the robust phenomenon of structural priming, where exposure to a particular sentence structure increases the likelihood of selecting a similar structure subsequently. Additionally, we utilize large language models (LLM) to measure the cross-lingual structural priming effect. Our findings indicate that Transformer outperform RNN in generating primed sentence structures, challenging the conventional belief that human sentence processing primarily involves recurrent and immediate processing and suggesting a role for cue-based retrieval mechanisms. Overall, this work contributes to our understanding of how computational models may reflect human cognitive processes in multilingual contexts.
翻訳日:2024-05-16 12:46:35 公開日:2024-05-15
# 電子秩序の電圧駆動破壊

Voltage-Driven Breakdown of Electronic Order ( http://arxiv.org/abs/2405.09512v1 )

ライセンス: Link先を確認
Miguel M. Oliveira, Pedro Ribeiro, Stefan Kirchner, (参考訳) モット絶縁体の非熱的破壊は、技術的な関連性に対する理論的および実験的関心のトピックである。 最近の実験では、ヒステリシス、負の微分コンダクタンス、格子変形を伴う鋭い非平衡絶縁体-金属遷移が発見された。 しかし、根底にある破壊メカニズムの完全な理解はいまだに欠けている。 本稿では, 金属貯水池に結合した鎖上のスピンレスフェルミオンと相互作用するパラダイムモデルにおいて, 化学圧力によって分解が引き起こされるシナリオについて検討する。 マルコフ系では、無限バイアスで、いくつかの確立された結果を質的に再現する。 無限バイアスを超えると、破壊の性質が結合強度に依存し、バイアス電圧が調整され、異なる電流担持非平衡位相が生じるようなリッチ位相図が見つかる。 弱い中間結合に対して、バイアス依存順序波ベクトルを持つ導電CDW位相を求める。 大きな相互作用強度では、分解は系を電荷分離絶縁相に接続する。 我々は、ヒステリックな挙動、鋭い電流のオンセット、負の微分コンダクタンスの例を見つける。 以上の結果から,Mottの破壊に対処する最近の実験結果が明らかになった。

The non-thermal breakdown of a Mott insulator has been a topic of great theoretical and experimental interest with technological relevance. Recent experiments have found a sharp non-equilibrium insulator-to-metal transition that is accompanied by hysteresis, a negative differential conductance and lattice deformations. However, a thorough understanding of the underlying breakdown mechanism is still lacking. Here, we examine a scenario in which the breakdown is induced by chemical pressure in a paradigmatic model of interacting spinless fermions on a chain coupled to metallic reservoirs (leads). For the Markovian regime, at infinite bias, we qualitatively reproduce several established results. Beyond infinite bias, we find a rich phase diagram where the nature of the breakdown depends on the coupling strength as the bias voltage is tuned up, yielding different current-carrying non-equilibrium phases. For weak to intermediate coupling, we find a conducting CDW phase with a bias-dependent ordering wave vector. At large interaction strength, the breakdown connects the system to a charge-separated insulating phase. We find instances of hysteretic behavior, sharp current onset and negative differential conductance. Our results can help to shed light on recent experimental findings that address current-induced Mott breakdown.
翻訳日:2024-05-16 12:46:35 公開日:2024-05-15
# 情報ボトルネックを用いたタスク指向通信における分散シフトの対応

Tackling Distribution Shifts in Task-Oriented Communication with Information Bottleneck ( http://arxiv.org/abs/2405.09514v1 )

ライセンス: Link先を確認
Hongru Li, Jiawei Shao, Hengtao He, Shenghui Song, Jun Zhang, Khaled B. Letaief, (参考訳) タスク指向通信は、タスク関連情報を抽出し、送信し、通信オーバーヘッドと送信遅延を大幅に低減することを目的としている。 しかし、ドメインシフトやセマンティックシフトを含むトレーニングデータとテストデータの予測不可能な分散シフトは、システムパフォーマンスを劇的に損なう可能性がある。 これらの課題に対処するためには、符号化された機能がドメインシフトデータに一般化され、セマンティックシフトされたデータを検出しながら、送信のためにコンパクトであることを保証することが不可欠である。 本稿では,情報ボトルネック(IB)原理と不変リスク最小化(IRM)フレームワークに基づく新しいアプローチを提案する。 提案手法は,学習中のテストデータを知ることなく,効果的なドメインシフト一般化と正確なセマンティックシフト検出の能力を有するコンパクトかつ情報的な特徴を抽出することを目的としている。 具体的には、ドメインシフト一般化のためのICB原則とIRMフレームワークに基づく不変な特徴符号化手法を提案し、符号化された特徴の複雑さとドメイン依存性を最小限に抑えて、入力データとタスク結果の因果関係を見つけることを目的とする。 さらに,IB最適化と検出性能において,協調的なゲインを実現するセマンティックシフト検出のためのラベル依存特徴符号化手法によるタスク指向通信を強化した。 Intractable compute of the IB-based objective, we leverage using variational approximation to der derived a tractable upper bound for optimization。 画像分類タスクの広範囲なシミュレーション結果から,提案手法は最先端の手法より優れ,より優れた速度歪みトレードオフを実現することが示された。

Task-oriented communication aims to extract and transmit task-relevant information to significantly reduce the communication overhead and transmission latency. However, the unpredictable distribution shifts between training and test data, including domain shift and semantic shift, can dramatically undermine the system performance. In order to tackle these challenges, it is crucial to ensure that the encoded features can generalize to domain-shifted data and detect semanticshifted data, while remaining compact for transmission. In this paper, we propose a novel approach based on the information bottleneck (IB) principle and invariant risk minimization (IRM) framework. The proposed method aims to extract compact and informative features that possess high capability for effective domain-shift generalization and accurate semantic-shift detection without any knowledge of the test data during training. Specifically, we propose an invariant feature encoding approach based on the IB principle and IRM framework for domainshift generalization, which aims to find the causal relationship between the input data and task result by minimizing the complexity and domain dependence of the encoded feature. Furthermore, we enhance the task-oriented communication with the label-dependent feature encoding approach for semanticshift detection which achieves joint gains in IB optimization and detection performance. To avoid the intractable computation of the IB-based objective, we leverage variational approximation to derive a tractable upper bound for optimization. Extensive simulation results on image classification tasks demonstrate that the proposed scheme outperforms state-of-the-art approaches and achieves a better rate-distortion tradeoff.
翻訳日:2024-05-16 12:46:35 公開日:2024-05-15
# 因果回帰のための一般化境界:洞察、保証および感度分析

Generalization Bounds for Causal Regression: Insights, Guarantees and Sensitivity Analysis ( http://arxiv.org/abs/2405.09516v1 )

ライセンス: Link先を確認
Daniel Csillag, Claudio José Struchiner, Guilherme Tegoni Goedert, (参考訳) 因果機械学習には,最近多くのアルゴリズムが提案されている。 しかし、その性質について、特に有限標本を考えると、ほとんど、あるいは全く理論が存在しない。 本研究では,そのような保証を提供する一般化境界に基づく理論を提案する。 新たな尺度の不等式の変化を導入することで、人口に対する治療効果の偏りの観点から、モデル損失を厳密に拘束することが可能となり、実証的に制限されることが示される。 我々の理論は完全に厳格で、隠れた確執や肯定的な違反に直面してさえ成り立っている。 半合成データと実データの境界を実証し、その顕著な厳密さと実用性を示す。

Many algorithms have been recently proposed for causal machine learning. Yet, there is little to no theory on their quality, especially considering finite samples. In this work, we propose a theory based on generalization bounds that provides such guarantees. By introducing a novel change-of-measure inequality, we are able to tightly bound the model loss in terms of the deviation of the treatment propensities over the population, which we show can be empirically limited. Our theory is fully rigorous and holds even in the face of hidden confounding and violations of positivity. We demonstrate our bounds on semi-synthetic and real data, showcasing their remarkable tightness and practical utility.
翻訳日:2024-05-16 12:46:34 公開日:2024-05-15
# 完全宣言型ニューロシンボリック言語を目指して

Towards a fully declarative neuro-symbolic language ( http://arxiv.org/abs/2405.09521v1 )

ライセンス: Link先を確認
Tilman Hinnerichs, Robin Manhaeve, Giuseppe Marra, Sebastijan Dumancic, (参考訳) ニューロシンボリックシステム(NeSy)は、人工知能の学習能力と推論能力の両方を最大限に組み合わせていると主張しているが、推論システムの中核的な性質を欠いている。 宣言性の欠如は、ニューラルネットワークから受け継いだ神経述語の機能的性質によって引き起こされる。 我々は、完全に宣言的な神経述語のための一般的なフレームワークを提案し、実装し、それによって完全に宣言的なNeSyフレームワークにまで拡張する。 まず、宣言的拡張は学習能力と推論能力を保ちながら、任意のクエリに答えると同時に、単一のクエリタイプでのみトレーニングできることを示す。

Neuro-symbolic systems (NeSy), which claim to combine the best of both learning and reasoning capabilities of artificial intelligence, are missing a core property of reasoning systems: Declarativeness. The lack of declarativeness is caused by the functional nature of neural predicates inherited from neural networks. We propose and implement a general framework for fully declarative neural predicates, which hence extends to fully declarative NeSy frameworks. We first show that the declarative extension preserves the learning and reasoning capabilities while being able to answer arbitrary queries while only being trained on a single query type.
翻訳日:2024-05-16 12:46:34 公開日:2024-05-15
# ContourCraft: ニューラルネットワークによるマルチゲージシミュレーションにおけるインターセクションの解決学習

ContourCraft: Learning to Resolve Intersections in Neural Multi-Garment Simulations ( http://arxiv.org/abs/2405.09522v1 )

ライセンス: Link先を確認
Artur Grigorev, Giorgio Becherini, Michael J. Black, Otmar Hilliges, Bernhard Thomaszewski, (参考訳) 近年,布地シミュレーションへの学習的アプローチが,その可能性を示し始めている。 しかし、ニューラルシミュレーションにおける衝突や交差点の扱いは、まだほとんど解決されていない問題である。 本研究では,ニューラルネットワークシミュレーションにおける交点を扱う学習ベースソリューションである \moniker{} を提案する。 交差のない入力に批判的に依存する従来のアプローチとは異なり、 \moniker{} は、衝突、自己貫通体、または手動設計の多層構造におけるエラーによって導入された交差点から頑健に回復する。 \moniker{} の技術的な中心は、インターペネレーションを罰し、その迅速な解決を促進する新しい交叉輪郭損失である。 グラフニューラルネットワーク(GNN)に基づくニューラルネットワークシミュレーション手法において,衝突回避の目的と交差損失を統合した。 本研究では,動的人体動作下での多様な多層構造の課題に対して,本手法の能力を実証する。 広範に分析した結果, 学習シミュレーションにおける衝突処理が大幅に向上し, 視覚的に魅力的な結果が得られることがわかった。

Learning-based approaches to cloth simulation have started to show their potential in recent years. However, handling collisions and intersections in neural simulations remains a largely unsolved problem. In this work, we present \moniker{}, a learning-based solution for handling intersections in neural cloth simulations. Unlike conventional approaches that critically rely on intersection-free inputs, \moniker{} robustly recovers from intersections introduced through missed collisions, self-penetrating bodies, or errors in manually designed multi-layer outfits. The technical core of \moniker{} is a novel intersection contour loss that penalizes interpenetrations and encourages rapid resolution thereof. We integrate our intersection loss with a collision-avoiding repulsion objective into a neural cloth simulation method based on graph neural networks (GNNs). We demonstrate our method's ability across a challenging set of diverse multi-layer outfits under dynamic human motions. Our extensive analysis indicates that \moniker{} significantly improves collision handling for learned simulation and produces visually compelling results.
翻訳日:2024-05-16 12:46:34 公開日:2024-05-15
# シュア基底における局所対称性からの古典的影の改善

Improved classical shadows from local symmetries in the Schur basis ( http://arxiv.org/abs/2405.09525v1 )

ライセンス: Link先を確認
Daniel Grier, Sihan Liu, Gaurav Mahajan, (参考訳) 我々は、古典的なシャドウタスクのサンプルの複雑さについて研究する: 観測可能なある種のクラスに関して、期待値を予測するために測定する必要がある未知の状態の最小のコピーは何ですか? 大きな関節測定はサンプルの複雑さを最小限にするために必要とされているが、以前の関節測定プロトコルは未知の状態が純粋な場合にのみ機能する。 サンプルの複雑さが未知の状態のランクとともにスケールする古典的影に対する最初の共同測定プロトコルを提案する。 特に、$\mathcal O(\sqrt{rB}/\epsilon^2)$ sample suffice, where $r$ is the rank of the state, $B$ is a bound on the squared Frobenius norm of the observables, $\epsilon$ is the target accuracy。 低ランクの状態では、これはシングルコピー測定を使用する従来のアプローチに比べて、ほぼ2次的な利点である。 非恒等入力状態の関数をキャプチャする古典的影の新しい定式化への解、最適量子ビットの精製と量子多数決に使用される 'nice''' Schur 基底の一般化、解析における難解なワインガーテンの計算を避けるために、シュア基底の局所対称性を使用することができる測定戦略、などである。

We study the sample complexity of the classical shadows task: what is the fewest number of copies of an unknown state you need to measure to predict expected values with respect to some class of observables? Large joint measurements are likely required in order to minimize sample complexity, but previous joint measurement protocols only work when the unknown state is pure. We present the first joint measurement protocol for classical shadows whose sample complexity scales with the rank of the unknown state. In particular we prove $\mathcal O(\sqrt{rB}/\epsilon^2)$ samples suffice, where $r$ is the rank of the state, $B$ is a bound on the squared Frobenius norm of the observables, and $\epsilon$ is the target accuracy. In the low-rank regime, this is a nearly quadratic advantage over traditional approaches that use single-copy measurements. We present several intermediate results that may be of independent interest: a solution to a new formulation of classical shadows that captures functions of non-identical input states; a generalization of a ``nice'' Schur basis used for optimal qubit purification and quantum majority vote; and a measurement strategy that allows us to use local symmetries in the Schur basis to avoid intractable Weingarten calculations in the analysis.
翻訳日:2024-05-16 12:46:34 公開日:2024-05-15
# 深部MABを用いた5Gmm波ネットワークの省エネルギー型スリープモード最適化

Energy-Efficient Sleep Mode Optimization of 5G mmWave Networks Using Deep Contextual MAB ( http://arxiv.org/abs/2405.09528v1 )

ライセンス: Link先を確認
Saad Masrur, Ismail Guvenc, David Lopez-Perez, (参考訳) ミリ波(mmWave)ネットワークは、5G通信に不可欠なスペクトルを提供し、スペクトル不足の問題に対処し、ピークレートとキャパシティを向上させる。 しかし、その密集した展開は、伝播損失に対処するために必要であり、高い電力消費につながる。 モバイルネットワークにおけるこのエネルギー消費を減らす効果的な戦略は、基地局(BS)のスリープモード最適化(SMO)である。 本稿では,3次元都市環境におけるmmWave BSに対する新しいSMO手法を提案する。 このアプローチは、ニューラルネットワーク(NN)ベースのコンテキスト多重武装バンディット(C-MAB)とエプシロン崩壊アルゴリズムを組み込んだもので、それぞれの追跡領域(TA)にUEをクラスタリングすることで、ユーザ機器(UE)の動的かつ多様なトラフィックに対応する。 我々の戦略にはビームフォーミングが含まれており、これはUE側からのエネルギー消費を減らすのに役立ち、SMOはBS側からのエネルギー消費を最小限に抑える。 我々は、Random、Epsilon Greedy、Upper Confidence Bound (UCB)、Load Based Sleep Mode (SM)戦略を含む調査を拡張した。 我々は,提案したC-MABに基づくSMアルゴリズムの性能をAll Onや他の代替手法と比較した。 シミュレーションの結果,提案手法はユーザレートと平均スループットのパーセンタイルが10〜10ドルであるのに対して,All On手法と同等の平均スループットを示す一方で,他のSM戦略よりも優れていた。 重要なことは、エネルギー効率(EE)の点で、すべてのアプローチを上回ります。

Millimeter-wave (mmWave) networks, integral to 5G communication, offer a vast spectrum that addresses the issue of spectrum scarcity and enhances peak rate and capacity. However, their dense deployment, necessary to counteract propagation losses, leads to high power consumption. An effective strategy to reduce this energy consumption in mobile networks is the sleep mode optimization (SMO) of base stations (BSs). In this paper, we propose a novel SMO approach for mmWave BSs in a 3D urban environment. This approach, which incorporates a neural network (NN) based contextual multi-armed bandit (C-MAB) with an epsilon decay algorithm, accommodates the dynamic and diverse traffic of user equipment (UE) by clustering the UEs in their respective tracking areas (TAs). Our strategy includes beamforming, which helps reduce energy consumption from the UE side, while SMO minimizes energy use from the BS perspective. We extended our investigation to include Random, Epsilon Greedy, Upper Confidence Bound (UCB), and Load Based sleep mode (SM) strategies. We compared the performance of our proposed C-MAB based SM algorithm with those of All On and other alternative approaches. Simulation results show that our proposed method outperforms all other SM strategies in terms of the $10^{th}$ percentile of user rate and average throughput while demonstrating comparable average throughput to the All On approach. Importantly, it outperforms all approaches in terms of energy efficiency (EE).
翻訳日:2024-05-16 12:46:34 公開日:2024-05-15
# 復元バランス:最適な分類のためのデータのアンダー/オーバーサンプリングの原則

Restoring balance: principled under/oversampling of data for optimal classification ( http://arxiv.org/abs/2405.09535v1 )

ライセンス: Link先を確認
Emanuele Loffredo, Mauro Pastore, Simona Cocco, Rémi Monasson, (参考訳) 実世界のデータのクラス不均衡は機械学習のタスクに共通のボトルネックをもたらす。 データのアンダーやオーバーサンプリングといった緩和戦略は、定期的に提案され、実証的にテストされるが、データ統計にどのように適応すべきかは、まだよく分かっていない。 本研究では,線形分類器の高次元状態における一般化曲線の正確な解析式を決定する(Support Vector Machines)。 また、クラス不均衡、データの第1、第2モーメント、考慮されたパフォーマンスの指標に依存するアンダー/オーバーサンプリング戦略の効果を鋭く予測する。 データのアンダーとオーバーサンプリングを含む混合戦略がパフォーマンス改善につながっていることを示す。 数値実験を通じて、実際のデータセット、より深いアーキテクチャ、および教師なし確率モデルに基づくサンプリング戦略に基づく理論予測の妥当性を示す。

Class imbalance in real-world data poses a common bottleneck for machine learning tasks, since achieving good generalization on under-represented examples is often challenging. Mitigation strategies, such as under or oversampling the data depending on their abundances, are routinely proposed and tested empirically, but how they should adapt to the data statistics remains poorly understood. In this work, we determine exact analytical expressions of the generalization curves in the high-dimensional regime for linear classifiers (Support Vector Machines). We also provide a sharp prediction of the effects of under/oversampling strategies depending on class imbalance, first and second moments of the data, and the metrics of performance considered. We show that mixed strategies involving under and oversampling of data lead to performance improvement. Through numerical experiments, we show the relevance of our theoretical predictions on real datasets, on deeper architectures and with sampling strategies based on unsupervised probabilistic models.
翻訳日:2024-05-16 12:46:34 公開日:2024-05-15
# Wasserstein Gradient Boosting: 後回帰への応用のための一般的なフレームワーク

Wasserstein Gradient Boosting: A General Framework with Applications to Posterior Regression ( http://arxiv.org/abs/2405.09536v1 )

ライセンス: Link先を確認
Takuo Matsubara, (参考訳) グラディエントブースティング(Gradient boosting)は、新しいベースラーナーを各ステップにおける残りの損失の勾配に適合させる逐次アンサンブル法である。 確率分布の空間上の損失関数の完全あるいはほぼ利用可能なワッサーシュタイン勾配に新しいベース学習者が適合する、新しい勾配増進ワッサーシュタイン勾配増進法を提案する。 ワッサーシュタイン勾配増強は各入力に割り当てられた目標確率分布を近似する粒子の集合を返す。 確率的予測では、出力変数の空間にパラメトリック確率分布をしばしば特定し、入力毎に出力分布パラメータの点推定を生成する。 Wassersteinグラデーションブースティングの主な応用は、各データポイントで決定された出力分布パラメータの後方分布を近似した出力分布パラメータの新しい分布推定である。 本稿では,様々な手法と比較して,ワッサーシュタイン勾配向上による確率予測の優れた性能を実証的に実証する。

Gradient boosting is a sequential ensemble method that fits a new base learner to the gradient of the remaining loss at each step. We propose a novel family of gradient boosting, Wasserstein gradient boosting, which fits a new base learner to an exactly or approximately available Wasserstein gradient of a loss functional on the space of probability distributions. Wasserstein gradient boosting returns a set of particles that approximates a target probability distribution assigned at each input. In probabilistic prediction, a parametric probability distribution is often specified on the space of output variables, and a point estimate of the output-distribution parameter is produced for each input by a model. Our main application of Wasserstein gradient boosting is a novel distributional estimate of the output-distribution parameter, which approximates the posterior distribution over the output-distribution parameter determined pointwise at each data point. We empirically demonstrate the superior performance of the probabilistic prediction by Wasserstein gradient boosting in comparison with various existing methods.
翻訳日:2024-05-16 12:46:34 公開日:2024-05-15
# 超低温双極子気体の超硬度

Supersolidity in ultra-cold dipolar gases ( http://arxiv.org/abs/2405.09537v1 )

ライセンス: Link先を確認
Alessio Recati, Sandro Stringari, (参考訳) ガスは結晶のように振る舞うことができるのか。 超固体は、超流動と結晶の重要な特徴を組み合わせた、興味深く挑戦的な物質状態である。 かなり昔に予測され、ボース=アインシュタイン凝縮された光共振器内の原子ガス、スピン軌道結合されたBECと長距離双極子力と相互作用する原子ガスにおいて、その実験的実現が最近達成された。 双極子ガスの活性はここ数年、特に活発である。 本論では, 転化不均一の自然破壊による密度変調の観測, コヒーレンスの影響, および新しいゴールドストーンモードの発生など, 双極性ガスの領域における超固体に関する主要な実験的および理論的成果を要約する。 これらの新しい結晶構造の中での量子化された渦の実現の可能性、次元の役割、結晶特性のキャラクタリゼーション、相転移の性質など、将来の実験的および理論的研究の重要な課題を概説する。 最終的に、超硬度が観測されたり、超硬度が出現すると予想されたりする他の(主に低温原子)プラットフォームに関する簡単な概要が提供される。

Can a gas behave like a crystal? Supersolidity is an intriguing and challenging state of matter which combines key features of superfluids and crystals. Predicted a long time ago, its experimental realization has been recently achieved in Bose-Einstein condensed (BEC) atomic gases inside optical resonators, spin-orbit coupled BEC's and atomic gases interacting with long range dipolar forces. The activity on dipolar gases has been particularly vibrant in the last few years. This perspective article summarizes the main experimental and theoretical achievements concerning supersolidity in the field of dipolar gases, like the observation of the density modulations caused by the spontaneous breaking of translational invariance, the effects of coherence and the occurrence of novel Goldstone modes. A series of important issues for the future experimental and theoretical research are outlined including, among others, the possible realization of quantized vortices inside these novel crystal structure, the role of dimensionality, the characterisation of the crystal properties and the nature of the phase transitions. At the end a brief overview on some other (mainly cold atomic) platforms, where supersolidity has been observed or where supersolidty is expected to emerge is provided.
翻訳日:2024-05-16 12:46:34 公開日:2024-05-15
# MMFusion:食道癌リンパ節転移診断のための多モード拡散モデル

MMFusion: Multi-modality Diffusion Model for Lymph Node Metastasis Diagnosis in Esophageal Cancer ( http://arxiv.org/abs/2405.09539v1 )

ライセンス: Link先を確認
Chengyu Wu, Chengkai Wang, Yaqi Wang, Huiyu Zhou, Yatao Zhang, Qifeng Wang, Shuai Wang, (参考訳) 食道癌は世界中で最も多いがんの1つであり、がん関連死亡率では第6位である。 正確なコンピューターによるがん進行の診断は、医師がパーソナライズされた治療計画を効果的にカスタマイズするのに役立ちます。 現在、CTベースのがん診断法は患者の病態を総合的に検査する能力に多くの注目を集めている。 しかし、マルチモーダルベースの手法は情報冗長性を導入し、性能が低下する可能性がある。 さらに、マルチモーダル表現間の効率的かつ効果的な相互作用をさらに探求する必要がある。 本研究では,CT画像を用いたリンパ節転移診断のためのマルチモーダルなヘテロジニアスグラフを用いた条件付き拡散モデルを提案する。 マルチモーダルな特徴間の複雑な関係を探索するために、不均一なグラフを構築する。 その後、情報冗長性を排除するために条件付き特徴誘導拡散法を適用した。 さらに, 悪性腫瘍とリンパ節画像の関連性, 優先性を明らかにすることを目的として, マスク付き関係表現学習戦略を提案する。 提案手法の有効性を実験的に検証した。 コードはhttps://github.com/wuchengyu123/MMFusion.comで公開されている。

Esophageal cancer is one of the most common types of cancer worldwide and ranks sixth in cancer-related mortality. Accurate computer-assisted diagnosis of cancer progression can help physicians effectively customize personalized treatment plans. Currently, CT-based cancer diagnosis methods have received much attention for their comprehensive ability to examine patients' conditions. However, multi-modal based methods may likely introduce information redundancy, leading to underperformance. In addition, efficient and effective interactions between multi-modal representations need to be further explored, lacking insightful exploration of prognostic correlation in multi-modality features. In this work, we introduce a multi-modal heterogeneous graph-based conditional feature-guided diffusion model for lymph node metastasis diagnosis based on CT images as well as clinical measurements and radiomics data. To explore the intricate relationships between multi-modal features, we construct a heterogeneous graph. Following this, a conditional feature-guided diffusion approach is applied to eliminate information redundancy. Moreover, we propose a masked relational representation learning strategy, aiming to uncover the latent prognostic correlations and priorities of primary tumor and lymph node image representations. Various experimental results validate the effectiveness of our proposed method. The code is available at https://github.com/wuchengyu123/MMFusion.
翻訳日:2024-05-16 12:46:34 公開日:2024-05-15
# ディープニューラルネットワークのスペクトル複雑性

Spectral complexity of deep neural networks ( http://arxiv.org/abs/2405.09541v1 )

ライセンス: Link先を確認
Simmaco Di Lillo, Domenico Marinucci, Michele Salvi, Stefano Vigogna, (参考訳) ランダムに初期化され、プッシュフォワードで完全に接続されたニューラルネットワークは、すべての層の幅が無限大になる極限において、等方的ガウス過程に弱収束することが知られている。 本稿では,ネットワークアーキテクチャの複雑さを特徴付けるために,制限フィールドの角パワースペクトルを用いることを提案する。 特に、角パワースペクトルに付随するランダム変数の列を定義し、これらの列の漸近分布を深度分岐として、ネットワークの複雑さをフルに評価する。 そこで我々は,ニューラルネットワークを低次,スパース,高次と分類し,この分類が標準アクティベーション関数の様々な特徴,特にReLUネットワークの空間特性を如何に強調するかを示す。 また, 数値シミュレーションにより, 理論的結果も検証した。

It is well-known that randomly initialized, push-forward, fully-connected neural networks weakly converge to isotropic Gaussian processes, in the limit where the width of all layers goes to infinity. In this paper, we propose to use the angular power spectrum of the limiting field to characterize the complexity of the network architecture. In particular, we define sequences of random variables associated with the angular power spectrum, and provide a full characterization of the network complexity in terms of the asymptotic distribution of these sequences as the depth diverges. On this basis, we classify neural networks as low-disorder, sparse, or high-disorder; we show how this classification highlights a number of distinct features for standard activation functions, and in particular, sparsity properties of ReLU networks. Our theoretical results are also validated by numerical simulations.
翻訳日:2024-05-16 12:46:34 公開日:2024-05-15
# 意味メッシュを用いた多視点空中画像からの地理空間オブジェクトの分類

Classifying geospatial objects from multiview aerial imagery using semantic meshes ( http://arxiv.org/abs/2405.09544v1 )

ライセンス: Link先を確認
David Russell, Ben Weinstein, David Wettergreen, Derek Young, (参考訳) 航空画像は、労働集約的な地上調査の補完として、地球科学や天然資源管理にますます利用されている。 航空システムは、異なる視点から各場所の複数のビューを提供する重複した画像を集めることができる。 しかし、ほとんどの予測手法(木種分類など)は、合成された1つのトップダウンの「オルソモザイク」イメージを、物体の垂直面に関する情報をほとんど、あるいは全く含まない入力として使用し、加工品を含む可能性がある。 本稿では,生画像から直接予測を生成し,それらの予測を意味メッシュを用いて地理空間座標に正確にマッピングする手法を提案する。 このメソッド$\unicode{x2013}$released as a user- friendly open-source Toolkit$\unicode{x2013}$enables analystss to use the highest quality data for predictions, capture information about the side of objects, and leverage the multiple perspectives of each locations to add robustness。 本稿は,米国西部の4つの森林地域を対象とした,ドローン画像,フォトグラム結果,予測木位置,手動調査から得られた種分類データからなる新しいベンチマークデータセットを用いて,このアプローチの価値を実証する。 提案手法は,本手法の分類精度を53%から75%に向上することを示す。

Aerial imagery is increasingly used in Earth science and natural resource management as a complement to labor-intensive ground-based surveys. Aerial systems can collect overlapping images that provide multiple views of each location from different perspectives. However, most prediction approaches (e.g. for tree species classification) use a single, synthesized top-down "orthomosaic" image as input that contains little to no information about the vertical aspects of objects and may include processing artifacts. We propose an alternate approach that generates predictions directly on the raw images and accurately maps these predictions into geospatial coordinates using semantic meshes. This method$\unicode{x2013}$released as a user-friendly open-source toolkit$\unicode{x2013}$enables analysts to use the highest quality data for predictions, capture information about the sides of objects, and leverage multiple viewpoints of each location for added robustness. We demonstrate the value of this approach on a new benchmark dataset of four forest sites in the western U.S. that consists of drone images, photogrammetry results, predicted tree locations, and species classification data derived from manual surveys. We show that our proposed multiview method improves classification accuracy from 53% to 75% relative to an orthomosaic baseline on a challenging cross-site tree species classification task.
翻訳日:2024-05-16 12:46:34 公開日:2024-05-15
# BEHAVIOR Vision Suite: シミュレーションによるカスタマイズ可能なデータセット生成

BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation ( http://arxiv.org/abs/2405.09546v1 )

ライセンス: Link先を確認
Yunhao Ge, Yihe Tang, Jiashu Xu, Cem Gokmen, Chengshu Li, Wensi Ai, Benjamin Jose Martinez, Arman Aydin, Mona Anvari, Ayush K Chakravarthy, Hong-Xing Yu, Josiah Wong, Sanjana Srivastava, Sharon Lee, Shengxin Zha, Laurent Itti, Yunzhu Li, Roberto Martín-Martín, Miao Liu, Pengchuan Zhang, Ruohan Zhang, Li Fei-Fei, Jiajun Wu, (参考訳) 様々な条件下でのコンピュータビジョンモデルの体系的評価と理解は、包括的でカスタマイズされたラベルを持つ大量のデータを必要とする。 現在の合成データジェネレータは、特に具現化されたAIタスクにおいて有望な代替手段を提供するが、しばしば、低い資産とレンダリング品質、限られた多様性、非現実的な物理的特性のためにコンピュータビジョンタスクに不足する。 我々は,新たに開発されたAIベンチマークであるBEHAVIOR-1Kに基づいて,コンピュータビジョンモデルの体系的評価のための,完全にカスタマイズされた合成データを生成するためのツールとアセットであるBEHAVIOR Vision Suite(BVS)を紹介する。 BVSは、シーンレベル(例えば、照明、オブジェクト配置)、オブジェクトレベル(例えば、ジョイント構成、"filled"や"folded"などの属性)、カメラレベル(例えば、視野、焦点距離)で、多数の調整可能なパラメータをサポートしている。 研究者は、データ生成中にこれらのパラメータを任意に変化させ、制御された実験を行うことができる。 ドメインシフトの異なる連続軸にまたがるモデルのロバスト性を体系的に評価し、同じ画像集合上のシーン理解モデルを評価し、新しいビジョンタスクのためのシミュレーション・トゥ・リアル・トランスファーのトレーニングと評価を行う。 プロジェクトサイト:https://behavior-vision-suite.github.io/

The systematic evaluation and understanding of computer vision models under varying conditions require large amounts of data with comprehensive and customized labels, which real-world vision datasets rarely satisfy. While current synthetic data generators offer a promising alternative, particularly for embodied AI tasks, they often fall short for computer vision tasks due to low asset and rendering quality, limited diversity, and unrealistic physical properties. We introduce the BEHAVIOR Vision Suite (BVS), a set of tools and assets to generate fully customized synthetic data for systematic evaluation of computer vision models, based on the newly developed embodied AI benchmark, BEHAVIOR-1K. BVS supports a large number of adjustable parameters at the scene level (e.g., lighting, object placement), the object level (e.g., joint configuration, attributes such as "filled" and "folded"), and the camera level (e.g., field of view, focal length). Researchers can arbitrarily vary these parameters during data generation to perform controlled experiments. We showcase three example application scenarios: systematically evaluating the robustness of models across different continuous axes of domain shift, evaluating scene understanding models on the same set of images, and training and evaluating simulation-to-real transfer for a novel vision task: unary and binary state prediction. Project website: https://behavior-vision-suite.github.io/
翻訳日:2024-05-16 12:46:34 公開日:2024-05-15
# ドローンによるフィンランドの森林・泥炭地帯における野生ベリー画像の収集

Wild Berry image dataset collected in Finnish forests and peatlands using drones ( http://arxiv.org/abs/2405.07550v2 )

ライセンス: Link先を確認
Luigi Riz, Sergio Povoli, Andrea Caraffa, Davide Boscaini, Mohamed Lamine Mekhalfi, Paul Chippendale, Marjut Turtiainen, Birgitta Partanen, Laura Smith Ballester, Francisco Blanes Noguera, Alessio Franchi, Elisa Castelli, Giacomo Piccinini, Luca Marchesotti, Micael Santos Couceiro, Fabio Poiesi, (参考訳) ベリーピッキングはフィンランドでは長年の伝統があるが、困難であり、潜在的に危険である可能性がある。 高度な撮像技術を備えたドローンの統合は、変革的な飛躍であり、収穫を最適化し、持続可能なプラクティスを約束する。 われわれは、フィンランドの森林の天蓋の下、泥炭地帯で捕獲された野生のベリーをドローンで撮影した最初の画像データセットであるWildBeを提案する。 従来および関連するデータセットとは異なり、WildBeはビルベリー、クラウドベリー、リンゴンベリー、クローベリーなどの新しい種類のベリーを含んでいる。 WildBeには3,516枚の画像があり、合計18,468個の注釈付きバウンディングボックスが含まれている。 6つの人気オブジェクト検出器を用いてWildBeの総合的な解析を行い、異なる森林地域とカメラタイプにわたるベリー検出の有効性を評価した。 WildBeを公開します。

Berry picking has long-standing traditions in Finland, yet it is challenging and can potentially be dangerous. The integration of drones equipped with advanced imaging techniques represents a transformative leap forward, optimising harvests and promising sustainable practices. We propose WildBe, the first image dataset of wild berries captured in peatlands and under the canopy of Finnish forests using drones. Unlike previous and related datasets, WildBe includes new varieties of berries, such as bilberries, cloudberries, lingonberries, and crowberries, captured under severe light variations and in cluttered environments. WildBe features 3,516 images, including a total of 18,468 annotated bounding boxes. We carry out a comprehensive analysis of WildBe using six popular object detectors, assessing their effectiveness in berry detection across different forest regions and camera types. We will release WildBe publicly.
翻訳日:2024-05-16 12:36:16 公開日:2024-05-15
# 多目的オートMLにおけるハイパーパラメータの重要度解析

Hyperparameter Importance Analysis for Multi-Objective AutoML ( http://arxiv.org/abs/2405.07640v2 )

ライセンス: Link先を確認
Daphne Theodorakopoulos, Frederic Stahl, Marius Lindauer, (参考訳) ハイパーパラメータ最適化は、MLモデルの予測性能と一般化能力を高める上で重要な役割を果たす。 しかし、多くのアプリケーションでは、予測性能だけでなく、推測時間、メモリ、エネルギー消費といった目的も気にしています。 このようなMOOシナリオでは、矛盾する目的間の複雑な相互作用により、ハイパーパラメーターの重要性を決定することが大きな課題となる。 本稿では,多目的ハイパーパラメータ最適化の文脈におけるハイパーパラメータの重要性を評価するための最初の手法を提案する。 提案手法は, 過度パラメータが最適化目標に与える影響を明らかにするため, HPI(Surrogate-based hyperparameter importance)尺度(fANOVA)とアブレーションパス(ablation paths)を利用する。 具体的には、目的のa-prioriスキャラライゼーションを計算し、異なる目的のトレードオフに対するハイパーパラメータの重要性を決定する。 提案手法の有効性とロバスト性を実証するために,3つの異なる目的を持つベンチマークデータセットを,時間,人口密度,エネルギー消費の精度と組み合わせた実験的な評価を行い,提案手法の有効性とロバスト性を実証した。 この結果は,MOOタスクにおけるハイパーパラメータチューニングのための貴重なガイダンスを提供するだけでなく,複雑な最適化シナリオにおけるHPI理解の促進にも寄与する。

Hyperparameter optimization plays a pivotal role in enhancing the predictive performance and generalization capabilities of ML models. However, in many applications, we do not only care about predictive performance but also about objectives such as inference time, memory, or energy consumption. In such MOO scenarios, determining the importance of hyperparameters poses a significant challenge due to the complex interplay between the conflicting objectives. In this paper, we propose the first method for assessing the importance of hyperparameters in the context of multi-objective hyperparameter optimization. Our approach leverages surrogate-based hyperparameter importance (HPI) measures, i.e. fANOVA and ablation paths, to provide insights into the impact of hyperparameters on the optimization objectives. Specifically, we compute the a-priori scalarization of the objectives and determine the importance of the hyperparameters for different objective tradeoffs. Through extensive empirical evaluations on diverse benchmark datasets with three different objectives paired with accuracy, namely time, demographic parity, and energy consumption, we demonstrate the effectiveness and robustness of our proposed method. Our findings not only offer valuable guidance for hyperparameter tuning in MOO tasks but also contribute to advancing the understanding of HPI in complex optimization scenarios.
翻訳日:2024-05-16 12:36:16 公開日:2024-05-15
# OpenLLM-Ro -- Llama 2からトレーニングを受けたルーマニアのオープンソースLLMの技術レポート

OpenLLM-Ro -- Technical Report on Open-source Romanian LLMs trained starting from Llama 2 ( http://arxiv.org/abs/2405.07703v3 )

ライセンス: Link先を確認
Mihai Masala, Denis C. Ilie-Ablachim, Dragos Corlatescu, Miruna Zavelca, Marius Leordeanu, Horia Velicu, Marius Popescu, Mihai Dascalu, Traian Rebedea, (参考訳) 近年、LLM(Large Language Models)は、様々なタスクにおいて、ほぼ人間のようなパフォーマンスを実現している。 一部のLSMは多言語データで訓練されているが、ほとんどのトレーニングデータは英語で書かれている。 したがって、彼らの英語での演奏は、他の言語での演奏よりもはるかに多い。 本論文では,ルーマニア語を専門とする最初の基礎的・チャット型LLMの学習と評価について述べる。

In recent years, Large Language Models (LLMs) have achieved almost human-like performance on various tasks. While some LLMs have been trained on multilingual data, most of the training data is in English. Hence, their performance in English greatly exceeds their performance in other languages. This document presents our approach to training and evaluating the first foundational and chat LLM specialized for Romanian.
翻訳日:2024-05-16 12:36:16 公開日:2024-05-15
# ロングコンテキスト生成AIのための統一シーケンス並列処理手法

A Unified Sequence Parallelism Approach for Long Context Generative AI ( http://arxiv.org/abs/2405.07719v3 )

ライセンス: Link先を確認
Jiarui Fang, Shangchun Zhao, (参考訳) 複数の計算装置にまたがって入力テンソルのシーケンス次元を分割するシーケンス並列性(SP)は、生成AIモデルの長いコンテキスト能力を解放する鍵となっている。 本稿では,最先端のSPアプローチであるDeepSpeed-UlyssesとRing-Attentionについて検討し,モデルアーキテクチャやネットワークハードウェアトポロジをより堅牢な統一SPアプローチを提案する。 本稿では,SPの通信コストと既存の並列性(データ/テンソル/ゼロ/エキスパート/パイプライン並列性を含む)を比較し,SPを含むハイブリッド4次元並列性の設計におけるベストプラクティスについて議論する。 LLAMA3-8Bモデルの配列長208KのSPを用いて,2つの8xA800ノードに対して86%のMFUを達成した。 我々のコードは \url{https://github.com/feifeibear/long-context-attention} で公開されています。

Sequence parallelism (SP), which divides the sequence dimension of input tensors across multiple computational devices, is becoming key to unlocking the long-context capabilities of generative AI models. This paper investigates the state-of-the-art SP approaches, i.e. DeepSpeed-Ulysses and Ring-Attention, and proposes a unified SP approach, which is more robust to transformer model architectures and network hardware topology. This paper compares the communication and memory cost of SP and existing parallelism, including data/tensor/zero/expert/pipeline parallelism, and discusses the best practices for designing hybrid 4D parallelism involving SP. We achieved 86% MFU on two 8xA800 nodes using SP for sequence length 208K for the LLAMA3-8B model. Our code is publicly available on \url{https://github.com/feifeibear/long-context-attention}.
翻訳日:2024-05-16 12:36:16 公開日:2024-05-15
# PHUDGE: スケーラブルな審査員としてのPhi-3

PHUDGE: Phi-3 as Scalable Judge ( http://arxiv.org/abs/2405.08029v2 )

ライセンス: Link先を確認
Mahesh Deshwal, Apoorva Chawla, (参考訳) 本稿では,PHUDGE A fine tuned Phi3 model that achieved SOTA results in 4 tasks as Feedback Test, Feedback OOD, MT Human, Preference Test aheading each and every existing model in latency and throughput。 GPT4だけでなく、人間のアノテータにも、絶対的および相対的なグルーピングタスクにおいて、非常に強い相関関係を示す。 我々は、コスト効率のよい運用グレードシステムにおいて、小さなLMの使用に対処しただけでなく、Causalモデリングが本質的に遅いだけでなく、学習能力を阻害し、システム全体をより速く、より良くするためには、より簡単なタスクに置き換えるべきであることを示した。 我々は、体系的なML実験、思慮深いデータ拡張、問題自体の浄化に従えば、より少ないトレーニングデータでも10倍のモデルを達成できることを示した。 我々の知る限り、我々は、ミンコフスキー距離とペナルティと損失の平滑化を制御し、クロスエントロピーの代わりに損失関数として使用し、安定したトレーニングと成績向上のためのより良い結果を得るために、アースモーバー距離の一般化版(別名ワッサースタイン距離)の試験と実演を行う。

In this paper cum technical report, we present PHUDGE A fine tuned Phi3 model that achieved SOTA results in 4 tasks as Feedback Test, Feedback OOD, MT Human, Preference Test surpassing each and every existing model in latency and throughput. It shows very strong correlation not only with GPT4 but with Human annotators too in unseen data as well as in both absolute and relative grading tasks. We have not only addressed the usage of small LMs for cost effective production grade systems but have also shown that Causal modelling is not only slow in nature but sometimes it can hinder models learning capabilities and should be replaced by simpler tasks whenever we can to make the overall system faster and better. We show that by following systematic ML experimentation, thoughtful data augmentation and re purposing the problem itself, we can even beat 10x bigger models even with lesser training data. To the best of our knowledge, we are re the first one to experiment and showcase the usage of generalised version of Earth Movers Distance AKA Wasserstein distance by using Minkowski Distance with a penalty to control loss smoothing and can be used as a loss function instead of Cross Entropy to get stable training and better results for grading tasks.
翻訳日:2024-05-16 12:36:16 公開日:2024-05-15
# POWQMIX:協調的マルチエージェント強化学習のための潜在的に最適な関節行動認識を用いた重み付き値分解

POWQMIX: Weighted Value Factorization with Potentially Optimal Joint Actions Recognition for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2405.08036v2 )

ライセンス: Link先を確認
Chang Huang, Junqiao Zhao, Shatong Zhu, Hongtu Zhou, Chen Ye, Tiantian Feng, Changjun Jiang, (参考訳) 値関数分解法は協調型マルチエージェント強化学習において一般的に用いられ,QMIXは注目されている。 多くのQMIXベースの手法は、分散実行を実現するために、ジョイントアクション値と個別アクション値の間の単調性制約を導入する。 しかし、そのような制約は値分解の表現能力を制限し、それが表現できる共同アクション値を制限するとともに、最適なポリシーの学習を妨げる。 この課題に対処するために、潜在的に最適な関節動作を認識し、トレーニング中のこれらの関節動作の損失により高い重みを割り当てる、潜在的に最適な関節動作重み付きQMIX(POWQMIX)アルゴリズムを提案する。 このような重み付けされたトレーニングアプローチにより、最適ポリシーが回復されることを理論的に証明する。 行列ゲーム,捕食者-プレイ,およびStarCraft II マルチエージェントチャレンジ環境における実験により,我々のアルゴリズムは最先端の値に基づくマルチエージェント強化学習法よりも優れていることを示した。

Value function factorization methods are commonly used in cooperative multi-agent reinforcement learning, with QMIX receiving significant attention. Many QMIX-based methods introduce monotonicity constraints between the joint action value and individual action values to achieve decentralized execution. However, such constraints limit the representation capacity of value factorization, restricting the joint action values it can represent and hindering the learning of the optimal policy. To address this challenge, we propose the Potentially Optimal joint actions Weighted QMIX (POWQMIX) algorithm, which recognizes the potentially optimal joint actions and assigns higher weights to the corresponding losses of these joint actions during training. We theoretically prove that with such a weighted training approach the optimal policy is guaranteed to be recovered. Experiments in matrix games, predator-prey, and StarCraft II Multi-Agent Challenge environments demonstrate that our algorithm outperforms the state-of-the-art value-based multi-agent reinforcement learning methods.
翻訳日:2024-05-16 12:36:16 公開日:2024-05-15
# 対称行列と点雲上の軽量不変性による学習関数

Learning functions on symmetric matrices and point clouds via lightweight invariant features ( http://arxiv.org/abs/2405.08097v2 )

ライセンス: Link先を確認
Ben Blum-Smith, Ningyuan Huang, Marco Cuturi, Soledad Villar, (参考訳) 本研究では,(1)共役による置換の作用に関して不変な対称行列上の関数と(2)点の回転,反射,置換に関して不変な点雲上の関数の数学的定式化について述べる。 これを達成するために、列と列の共役置換の下で不変である$n\times n$対称行列上の有理関数体に対する生成元から導かれる$O(n^2)$不変な特徴を構成する。 これらの不変性は、測度ゼロ集合を除いて対称行列のすべての異なる軌道を分離することができることを示し、そのような特徴は、ほぼすべての重み付きグラフ上の不変函数を普遍的に近似することができる。 固定次元の点雲に対して、不変な特徴の数は、表現性を失うことなく、一般には$O(n)$に還元され、$n$は点の数である。 これらの不変機能をDeepSetsと組み合わせて、対称行列と様々な大きさの点雲上の関数を学習する。 分子特性の回帰と点雲距離予測におけるアプローチの有効性を実証的に実証した。

In this work, we present a mathematical formulation for machine learning of (1) functions on symmetric matrices that are invariant with respect to the action of permutations by conjugation, and (2) functions on point clouds that are invariant with respect to rotations, reflections, and permutations of the points. To achieve this, we construct $O(n^2)$ invariant features derived from generators for the field of rational functions on $n\times n$ symmetric matrices that are invariant under joint permutations of rows and columns. We show that these invariant features can separate all distinct orbits of symmetric matrices except for a measure zero set; such features can be used to universally approximate invariant functions on almost all weighted graphs. For point clouds in a fixed dimension, we prove that the number of invariant features can be reduced, generically without losing expressivity, to $O(n)$, where $n$ is the number of points. We combine these invariant features with DeepSets to learn functions on symmetric matrices and point clouds with varying sizes. We empirically demonstrate the feasibility of our approach on molecule property regression and point cloud distance prediction.
翻訳日:2024-05-16 12:36:16 公開日:2024-05-15
# イベントベースオプティカルフローのためのベクトル・シンボリックアーキテクチャ

Vector-Symbolic Architecture for Event-Based Optical Flow ( http://arxiv.org/abs/2405.08300v2 )

ライセンス: Link先を確認
Hongzhi You, Yijun Cao, Wei Yuan, Fanjun Wang, Ning Qiao, Yongjie Li, (参考訳) 特徴マッチングの観点から、イベントカメラの光学的フロー推定は、付随するイベントフレーム間の特徴類似性を比較することによって、イベント対応を識別する。 本稿では,Vector Symbolic Architectures(VSA)を利用して,イベントフレームのための実効的で堅牢な高次元特徴記述子を提案する。 VSA内の隣接する変数間の位相的類似性は、フローマッチング点に対する特徴記述子の表現類似性の向上に寄与する一方、その構造化されたシンボル表現能力は、事象極性と複数の空間スケールからの特徴融合を促進する。 本稿では,このHD特徴記述子に基づいて,モデルベース(VSA-Flow)と自己教師型学習(VSA-SM)の両方を対象とする,イベントベースの光フローのための新しい特徴マッチングフレームワークを提案する。 VSA-Flowでは、正確な光学フロー推定がHD特徴記述子の有効性を検証する。 VSA-SMでは、HD特徴記述子に基づく新しい類似度最大化法が提案され、補助的なグレースケール画像の必要性を排除し、イベントのみから自己教師付き方法で光の流れを学習する。 評価結果から,DSECベンチマークではモデルベースと自己教師型の両方の学習手法と比較して,VSAに基づく手法の方が精度がよいことが示されたが,MVSECベンチマークでは両手法の競合が続いている。 この貢献は、特徴マッチング手法における事象ベースの光学フローの著しい進歩を示す。

From a perspective of feature matching, optical flow estimation for event cameras involves identifying event correspondences by comparing feature similarity across accompanying event frames. In this work, we introduces an effective and robust high-dimensional (HD) feature descriptor for event frames, utilizing Vector Symbolic Architectures (VSA). The topological similarity among neighboring variables within VSA contributes to the enhanced representation similarity of feature descriptors for flow-matching points, while its structured symbolic representation capacity facilitates feature fusion from both event polarities and multiple spatial scales. Based on this HD feature descriptor, we propose a novel feature matching framework for event-based optical flow, encompassing both model-based (VSA-Flow) and self-supervised learning (VSA-SM) methods. In VSA-Flow, accurate optical flow estimation validates the effectiveness of HD feature descriptors. In VSA-SM, a novel similarity maximization method based on the HD feature descriptor is proposed to learn optical flow in a self-supervised way from events alone, eliminating the need for auxiliary grayscale images. Evaluation results demonstrate that our VSA-based method achieves superior accuracy in comparison to both model-based and self-supervised learning methods on the DSEC benchmark, while remains competitive among both methods on the MVSEC benchmark. This contribution marks a significant advancement in event-based optical flow within the feature matching methodology.
翻訳日:2024-05-16 12:36:16 公開日:2024-05-15
# より厳密な哲学と心の科学のための計算的思考実験

Computational Thought Experiments for a More Rigorous Philosophy and Science of the Mind ( http://arxiv.org/abs/2405.08304v2 )

ライセンス: Link先を確認
Iris Oved, Nikhil Krishnaswamy, James Pustejovsky, Joshua Hartshorne, (参考訳) 我々は、仮想世界認知科学(VW CogSci)と呼ばれる手法に対して、仮想世界に埋め込まれた仮想的エンボディエージェントを用いて、認知科学の分野における質問を探索する哲学的モチベーションを提供する。 我々は、心的・言語的表現に関する問題と、そのような計算モデルが哲学的思考実験に厳密な要素を加える方法、およびそのような表現の科学的研究で用いられる用語に焦点をあてる。 猫が馬鹿げているという信念や概念CATのような、信念と概念の議論の必要性を排除しつつ、個々の認知者の心の中の信念と概念トークンを保存しているような方法で、心の中の実体と実体の動的関係を記述する際に、この手法は神の目で見ることを強いる。 我々は、心的・言語的表現の科学的研究と認知科学をより広く行うために、VW CogSciのさらなる重要な利点を結論付けている。

We offer philosophical motivations for a method we call Virtual World Cognitive Science (VW CogSci), in which researchers use virtual embodied agents that are embedded in virtual worlds to explore questions in the field of Cognitive Science. We focus on questions about mental and linguistic representation and the ways that such computational modeling can add rigor to philosophical thought experiments, as well as the terminology used in the scientific study of such representations. We find that this method forces researchers to take a god's-eye view when describing dynamical relationships between entities in minds and entities in an environment in a way that eliminates the need for problematic talk of belief and concept types, such as the belief that cats are silly, and the concept CAT, while preserving belief and concept tokens in individual cognizers' minds. We conclude with some further key advantages of VW CogSci for the scientific study of mental and linguistic representation and for Cognitive Science more broadly.
翻訳日:2024-05-16 12:36:16 公開日:2024-05-15
# MR画像から画像への変換における類似度

Similarity Metrics for MR Image-To-Image Translation ( http://arxiv.org/abs/2405.08431v2 )

ライセンス: Link先を確認
Melanie Dohmen, Mark Klemens, Ivo Baltruschat, Tuan Truong, Matthias Lenga, (参考訳) 画像から画像への変換は、患者の画像がより良い診断のために別のモダリティ、タイプまたはシーケンスに変換される場合、医療画像に大きな影響を与える可能性がある。 しかし、これらの手法は、費用がかかり、小さなサンプルに制限されるヒトの読者による研究によって検証されなければならない。 ヒトのバリデーションが必要とされる前に,大規模サンプルの自動評価を行い,手法を事前評価し,継続的に改善する。 本研究では,画像合成評価のための基準・非参照指標の概要と,参照(SSIM, MS-SSIM, PSNR, MSE, NMSE, MAE, LPIPS, NMI, PCC)と3つの非参照指標(BLUR, MSN, MNG)がブラシンデータセットから11種類のMR画像の歪みを検出するために必要となる9つの指標(SSIM, MS-SSIM, PSNR, MSE, NMSE, MAE, LPIPS, NMI, PCC)の能力について検討する。 さらに、下流セグメンテーション計量と3つの正規化法(Minmax, cMinMax, Zscore)の効果を検証した。 PSNRとSSIMは、医療領域における画像と画像の翻訳タスクの生成モデルを評価するために頻繁に使用されるが、非常に具体的な欠点を示す。 SSIMはぼやけを無視するが、非正規化MR画像の強度シフトに非常に敏感である。 PSNRはさらに異なる正規化法に敏感であり、歪みの度合いを測ることはほとんどない。 LPIPS、NMI、DICEなどのさらなるメトリクスは、他の類似性側面を評価するのに非常に有用である。 比較対象のイメージが一致していない場合、ほとんどのメトリクスは欠陥があります。 画像類似度指標を慎重に選択し、合理的に組み合わせることで、MR画像合成のための生成モデルのトレーニングと選択を改善することができる。 放射線技師による最終評価と費用のかかる評価を行う前に、その出力の多くの側面を検証できる。

Image-to-image translation can create large impact in medical imaging, i.e. if images of a patient can be translated to another modality, type or sequence for better diagnosis. However, these methods must be validated by human reader studies, which are costly and restricted to small samples. Automatic evaluation of large samples to pre-evaluate and continuously improve methods before human validation is needed. In this study, we give an overview of reference and non-reference metrics for image synthesis assessment and investigate the ability of nine metrics, that need a reference (SSIM, MS-SSIM, PSNR, MSE, NMSE, MAE, LPIPS, NMI and PCC) and three non-reference metrics (BLUR, MSN, MNG) to detect 11 kinds of distortions in MR images from the BraSyn dataset. In addition we test a downstream segmentation metric and the effect of three normalization methods (Minmax, cMinMax and Zscore). Although PSNR and SSIM are frequently used to evaluate generative models for image-to-image-translation tasks in the medical domain, they show very specific shortcomings. SSIM ignores blurring but is very sensitive to intensity shifts in unnormalized MR images. PSNR is even more sensitive to different normalization methods and hardly measures the degree of distortions. Further metrics, such as LPIPS, NMI and DICE can be very useful to evaluate other similarity aspects. If the images to be compared are misaligned, most metrics are flawed. By carefully selecting and reasonably combining image similarity metrics, the training and selection of generative models for MR image synthesis can be improved. Many aspects of their output can be validated before final and costly evaluation by trained radiologists is conducted.
翻訳日:2024-05-16 12:36:16 公開日:2024-05-15
# ダブル機械学習による器用変数による意思決定ポリシーの学習

Learning Decision Policies with Instrumental Variables through Double Machine Learning ( http://arxiv.org/abs/2405.08498v2 )

ライセンス: Link先を確認
Daqian Shao, Ashkan Soleymani, Francesco Quinzan, Marta Kwiatkowska, (参考訳) データリッチな設定で意思決定ポリシーを学習する際の一般的な問題は、オフラインデータセットの急激な相関であり、これは隠れた共同設立者によって引き起こされる可能性がある。 インスツルメンタル変数(IV)回帰(英: Instrumental variable (IV) regression)は、インスツルメンタル変数として知られる重要な未確立変数を活用するもので、コンストラクターアクション、結果、コンテキスト変数間の因果関係を学習するための標準手法である。 最近のIV回帰アルゴリズムでは、第1段階で学習したディープニューラルネットワーク(DNN)推定器が第2段階で直接接続され、別のDNNを使用して因果効果を推定する2段階のアプローチを採用している。 特に第1段推定器に正規化バイアスが存在する場合、特に第2段推定器をネーリープラグすると大きなバイアスが発生する。 DML-IVは,2段階IV回帰のバイアスを低減する非線形IV回帰法であり,高い性能ポリシーを効果的に学習する。 バイアスを低減し、DML(Double/debiased Machine Learning)フレームワークに従ってDML-IVアルゴリズムを設計する新たな学習目標を導出する。 学習したDML-IV推定器は強い収束率を持ち、$O(N^{-1/2})$サブ最適性はデータセットが未確立のときと一致することを保証している。 DML-IVは、IV回帰ベンチマークで最先端のIV回帰法を上回り、機器の存在下で高い性能のポリシーを学ぶ。

A common issue in learning decision-making policies in data-rich settings is spurious correlations in the offline dataset, which can be caused by hidden confounders. Instrumental variable (IV) regression, which utilises a key unconfounded variable known as the instrument, is a standard technique for learning causal relationships between confounded action, outcome, and context variables. Most recent IV regression algorithms use a two-stage approach, where a deep neural network (DNN) estimator learnt in the first stage is directly plugged into the second stage, in which another DNN is used to estimate the causal effect. Naively plugging the estimator can cause heavy bias in the second stage, especially when regularisation bias is present in the first stage estimator. We propose DML-IV, a non-linear IV regression method that reduces the bias in two-stage IV regressions and effectively learns high-performing policies. We derive a novel learning objective to reduce bias and design the DML-IV algorithm following the double/debiased machine learning (DML) framework. The learnt DML-IV estimator has strong convergence rate and $O(N^{-1/2})$ suboptimality guarantees that match those when the dataset is unconfounded. DML-IV outperforms state-of-the-art IV regression methods on IV regression benchmarks and learns high-performing policies in the presence of instruments.
翻訳日:2024-05-16 12:36:16 公開日:2024-05-15
# ALMol: オフライン参照コントラスト最適化による言語-分子翻訳LLM

ALMol: Aligned Language-Molecule Translation LLMs through Offline Preference Contrastive Optimisation ( http://arxiv.org/abs/2405.08619v2 )

ライセンス: Link先を確認
Dimitris Gkoumas, (参考訳) 化学と人工知能(AI)の交差点は、科学的発見を加速することを目的とした活発な研究分野である。 大規模言語モデル(LLM)と科学的モダリティの統合は、この取り組みにおいて大きな可能性を秘めている。 しかし、既存のアプローチはより大きなモデルやデータセットに依存しているため、トレーニングの有効性とアウト・オブ・ディストリビューションの問題に効果的に対処する上で、課題は続いている。 この文脈では、機械語-分子翻訳に焦点をあて、コントラスト優先最適化と呼ばれる新しい学習手法を展開する。 一般性を確保し,暗記効果を緩和するため,データの10%しか使用しない実験を行った。 その結果、我々のモデルでは、比較すると最大で32倍の改善が達成されている。 また、責任を負うような、スケーラブルなきめ細かい評価手法も導入します。

The field of chemistry and Artificial Intelligence (AI) intersection is an area of active research that aims to accelerate scientific discovery. The integration of large language models (LLMs) with scientific modalities has shown significant promise in this endeavour. However, challenges persist in effectively addressing training efficacy and the out-of-distribution problem, particularly as existing approaches rely on larger models and datasets. In this context, we focus on machine language-molecule translation and deploy a novel training approach called contrastive preference optimisation, which avoids generating translations that are merely adequate but not perfect. To ensure generalisability and mitigate memorisation effects, we conduct experiments using only 10\% of the data. Our results demonstrate that our models achieve up to a 32\% improvement compared to counterpart models. We also introduce a scalable fine-grained evaluation methodology that accommodates responsibility.
翻訳日:2024-05-16 12:36:16 公開日:2024-05-15
# RMT-BVQA:リカレントメモリ変換器による高画質化のためのブラインド映像品質評価

RMT-BVQA: Recurrent Memory Transformer-based Blind Video Quality Assessment for Enhanced Video Content ( http://arxiv.org/abs/2405.08621v2 )

ライセンス: Link先を確認
Tianhao Peng, Chen Feng, Duolikun Danier, Fan Zhang, David Bull, (参考訳) 近年のディープラーニングの進歩により、ビデオ品質の向上、視覚的アーチファクトの削減、知覚的品質の向上など、数多くのアルゴリズムが開発されている。 しかし, コンテントの品質評価についてはほとんど研究されていない - 圧縮アプリケーション用に設計された品質指標に基づいて, エンハンスメント手法の評価を行う場合が多い。 本稿では,映像コンテンツの改良を目的とした新しいブラインドディープ・ビデオ品質評価手法を提案する。 新たなRecurrent Memory Transformer (RMT) ベースのネットワークアーキテクチャを用いて,13Kトレーニングパッチと拡張コンテンツを備えた新しいデータベースをベースとした,コンテンツ品質に配慮したコントラスト学習戦略によって最適化されたビデオ品質表現を実現する。 抽出された品質表現は線形回帰によって合成され、ビデオレベルの品質指標を生成する。 提案手法であるRTT-BVQAは,VDPVE(VQA Dataset for Perceptual Video Enhancement)データベース上で5倍のクロスバリデーションによって評価されている。 その結果、既存の10の非参照品質指標と比較すると、相関性能が優れていることがわかった。

With recent advances in deep learning, numerous algorithms have been developed to enhance video quality, reduce visual artefacts and improve perceptual quality. However, little research has been reported on the quality assessment of enhanced content - the evaluation of enhancement methods is often based on quality metrics that were designed for compression applications. In this paper, we propose a novel blind deep video quality assessment (VQA) method specifically for enhanced video content. It employs a new Recurrent Memory Transformer (RMT) based network architecture to obtain video quality representations, which is optimised through a novel content-quality-aware contrastive learning strategy based on a new database containing 13K training patches with enhanced content. The extracted quality representations are then combined through linear regression to generate video-level quality indices. The proposed method, RMT-BVQA, has been evaluated on the VDPVE (VQA Dataset for Perceptual Video Enhancement) database through a five-fold cross validation. The results show its superior correlation performance when compared to ten existing no-reference quality metrics.
翻訳日:2024-05-16 12:36:16 公開日:2024-05-15
# 量子機械学習におけるプライバシ・アドバンテージの展望

Prospects of Privacy Advantage in Quantum Machine Learning ( http://arxiv.org/abs/2405.08801v2 )

ライセンス: Link先を確認
Jamie Heredge, Niraj Kumar, Dylan Herman, Shouvanik Chakrabarti, Romina Yalovetzky, Shree Hari Sureshbabu, Changhao Li, Marco Pistoia, (参考訳) 機械学習モデルにおけるデータのプライバシの確保は、特に、複数のパーティ間でモデル勾配が共有される分散環境では、特に重要である。 この研究は、古典モデルの勾配から入力データを復元する成功の増加に動機付けられ、中心的な疑問に対処する: 量子機械学習モデルの勾配から入力データを回復するのは、どのくらい難しいか? 学習モデルとして変分量子回路(VQC)に着目し,VQCアンサッツの動的リー代数(DLA)がもたらす重要な役割を明らかにする。 DLAは以前、VQCモデルの古典的なシミュラビリティとトレーニング容易性に関連付けられていたが、この研究は初めて、VQCモデルのプライバシへの接続を確立した。 特に,多項式サイズのDLAのようなVQCのトレーニング性に寄与する特性は,入力の詳細なスナップショットの抽出にも有効であることを示す。 スナップショットは、オリジナルの入力に直接アクセスすることなく、異なる学習タスクのためのVQCモデルのトレーニングを可能にします。 さらに、これらのスナップショットから元の入力データを復元できる強力なプライバシー侵害の条件を、古典的あるいは量子的多項式時間法により検討する。 我々は、古典的シミュラビリティやDLAベースとの重なり合い、VQCモデルのプライバシー侵害を可能にするフーリエ周波数特性などの符号化マップ上の条件を確立する。 これにより、トレーニング可能性と堅牢なプライバシ保護のバランスをとる量子機械学習モデルを設計するための要件を導くことで、量子プライバシーの優位性の可能性の詳細化に重要な役割を果たします。

Ensuring data privacy in machine learning models is critical, particularly in distributed settings where model gradients are typically shared among multiple parties to allow collaborative learning. Motivated by the increasing success of recovering input data from the gradients of classical models, this study addresses a central question: How hard is it to recover the input data from the gradients of quantum machine learning models? Focusing on variational quantum circuits (VQC) as learning models, we uncover the crucial role played by the dynamical Lie algebra (DLA) of the VQC ansatz in determining privacy vulnerabilities. While the DLA has previously been linked to the classical simulatability and trainability of VQC models, this work, for the first time, establishes its connection to the privacy of VQC models. In particular, we show that properties conducive to the trainability of VQCs, such as a polynomial-sized DLA, also facilitate the extraction of detailed snapshots of the input. We term this a weak privacy breach, as the snapshots enable training VQC models for distinct learning tasks without direct access to the original input. Further, we investigate the conditions for a strong privacy breach where the original input data can be recovered from these snapshots by classical or quantum-assisted polynomial time methods. We establish conditions on the encoding map such as classical simulatability, overlap with DLA basis, and its Fourier frequency characteristics that enable such a privacy breach of VQC models. Our findings thus play a crucial role in detailing the prospects of quantum privacy advantage by guiding the requirements for designing quantum machine learning models that balance trainability with robust privacy protection.
翻訳日:2024-05-16 12:36:16 公開日:2024-05-15
# Qiskitによる量子コンピューティング

Quantum computing with Qiskit ( http://arxiv.org/abs/2405.08810v2 )

ライセンス: Link先を確認
Ali Javadi-Abhari, Matthew Treinish, Kevin Krsulich, Christopher J. Wood, Jake Lishman, Julien Gacon, Simon Martiel, Paul D. Nation, Lev S. Bishop, Andrew W. Cross, Blake R. Johnson, Jay M. Gambetta, (参考訳) 量子情報科学のためのソフトウェア開発キットであるQiskitについて説明する。 我々は、その開発を形作る重要な設計決定について論じ、ソフトウェアアーキテクチャとその中核コンポーネントについて検討する。 量子コンピュータ上での凝縮物質物理学の問題を解くためのエンドツーエンドのワークフローを実証し、例えば、様々な抽象化レベルでの回路の表現と最適化、新しいゲートへのスケーラビリティと再ターゲット性、動的回路による量子古典計算の使用など、ケイスキットのいくつかの機能を強調した。 最後に、Qiskitを様々なタスクに拡張するツールとプラグインのエコシステムと将来について論じる。

We describe Qiskit, a software development kit for quantum information science. We discuss the key design decisions that have shaped its development, and examine the software architecture and its core components. We demonstrate an end-to-end workflow for solving a problem in condensed matter physics on a quantum computer that serves to highlight some of Qiskit's capabilities, for example the representation and optimization of circuits at various abstraction levels, its scalability and retargetability to new gates, and the use of quantum-classical computations via dynamic circuits. Lastly, we discuss some of the ecosystem of tools and plugins that extend Qiskit for various tasks, and the future ahead.
翻訳日:2024-05-16 12:36:16 公開日:2024-05-15