このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240819となっている論文です。

PDF登録状況(公開日: 20240819)

TitleAuthorsAbstract論文公表日・翻訳日
# レベル・オブ・ディテールレンダリングのための効率の良いシーン表示アグリゲーション

Efficient Scene Appearance Aggregation for Level-of-Detail Rendering ( http://arxiv.org/abs/2409.03761v1 )

ライセンス: Link先を確認
Yang Zhou, Tao Huang, Ravi Ramamoorthi, Pradeep Sen, Ling-Qi Yan, (参考訳) 任意の3Dシーンのための外観保存レベル(LoD)表現を作成することは難しい問題である。 シーンの外観は、幾何学モデルと物質モデルの両方の複雑な組み合わせであり、シーン要素の空間配置による相関によりさらに複雑である。 本稿では,複雑なシーンの集合的な外観のための新しいボリューム表現と,LoD生成とレンダリングのための効率的なパイプラインを提案する。 我々の表現の中核は、ボクセル内のすべての表面の遠距離場外見を要約するアグリゲート二方向散乱分布関数(ABSDF)である。 本稿では,空間的に変化し,方向が変化する物質パラメータを考慮に入れた ABSDF のクローズドフォーム分解法を提案する。 ボクセル内の局所的な相関関係と,シーンの異なる部分におけるグローバルな相関関係を捉えるという課題に対処する。 本手法は外観を忠実に再現し,レンダリングが本質的に効率的でありながら,既存のシーンフィルタリング法よりも高い品質を実現する。 私たちの表現のメモリフットプリントとレンダリングコストは、元のシーンの複雑さとは無関係です。

Creating an appearance-preserving level-of-detail (LoD) representation for arbitrary 3D scenes is a challenging problem. The appearance of a scene is an intricate combination of both geometry and material models, and is further complicated by correlation due to the spatial configuration of scene elements. We present a novel volumetric representation for the aggregated appearance of complex scenes and an efficient pipeline for LoD generation and rendering. The core of our representation is the Aggregated Bidirectional Scattering Distribution Function (ABSDF) that summarizes the far-field appearance of all surfaces inside a voxel. We propose a closed-form factorization of the ABSDF that accounts for spatially varying and orientation-varying material parameters. We tackle the challenge of capturing the correlation existing locally within a voxel and globally across different parts of the scene. Our method faithfully reproduces appearance and achieves higher quality than existing scene filtering methods while being inherently efficient to render. The memory footprint and rendering cost of our representation are independent of the original scene complexity.
翻訳日:2024-09-15 05:41:23 公開日:2024-08-19
# 金融市場の動きを予測するための教師付き学習法と教師なし学習法の組み合わせ

Combining supervised and unsupervised learning methods to predict financial market movements ( http://arxiv.org/abs/2409.03762v1 )

ライセンス: Link先を確認
Gabriel Rodrigues Palma, Mariusz Skoczeń, Phil Maguire, (参考訳) トレーダーが資産を売買する決定は、様々な分析に依存し、利益のために活用できるパターンを特定するための専門知識を必要とする。 本稿では、リニアモデルとガウス混合モデル(GMM)を用いて、創発的および確立された金融市場から抽出した新たな特徴を、利益を得る機会を見つけるために同定する。 私たちは、Bitcoin、Pepecoin、およびNasdaqの市場のマイクロキャンドルで構成される約6ヶ月のデータを、提案された新機能を一般的に使用されているものと比較するために使用しました。 これらの特徴は、各市場毎の59分に基づいて抽出され、1時間前の予測に使用された。 我々は、市場の動きを分類するためにランダムフォレスト(RF)やK-Nearest Neighbours(KNN)など、さまざまな機械学習戦略の性能について検討した。 トレーディング決定を選択するための単純でランダムなアプローチがベンチマークとして使用され、結果も同様に可能性が高いと推定された。 学習アルゴリズムの性能を評価するために,テストセットの40%,30%,20%の合計時間を用いて時間交叉検証を行った。 その結果,時系列のフィルタリングはアルゴリズムの一般化を促進することがわかった。 GMMフィルタリング手法により,KNNアルゴリズムとRFアルゴリズムはランダムアルゴリズムよりも平均リターンが高かった。

The decisions traders make to buy or sell an asset depend on various analyses, with expertise required to identify patterns that can be exploited for profit. In this paper we identify novel features extracted from emergent and well-established financial markets using linear models and Gaussian Mixture Models (GMM) with the aim of finding profitable opportunities. We used approximately six months of data consisting of minute candles from the Bitcoin, Pepecoin, and Nasdaq markets to derive and compare the proposed novel features with commonly used ones. These features were extracted based on the previous 59 minutes for each market and used to identify predictions for the hour ahead. We explored the performance of various machine learning strategies, such as Random Forests (RF) and K-Nearest Neighbours (KNN) to classify market movements. A naive random approach to selecting trading decisions was used as a benchmark, with outcomes assumed to be equally likely. We used a temporal cross-validation approach using test sets of 40%, 30% and 20% of total hours to evaluate the learning algorithms' performances. Our results showed that filtering the time series facilitates algorithms' generalisation. The GMM filtering approach revealed that the KNN and RF algorithms produced higher average returns than the random algorithm.
翻訳日:2024-09-15 05:41:23 公開日:2024-08-19
# メカニカル・メカニズムのデータセット

A Dataset for Mechanical Mechanisms ( http://arxiv.org/abs/2409.03763v1 )

ライセンス: Link先を確認
Farshid Ghezelbash, Amir Hossein Eskandari, Amir J Bidhendi, (参考訳) 本研究では,機構設計研究を支援するために,約9000枚の機械機構の画像とそれに対応する記述からなるデータセットを提案する。 データセットは2Dと3Dのスケッチの多様なコレクションで構成されており、関連性と品質を保証するために慎重にキュレートされている。 2つのモデルを微調整することで、このデータセットの応用を実証する。 1)安定拡散(新しい機械設計を作成するための)及び 2)BLIP-2(これらの意匠のキャプション用) 安定拡散の結果は、特にコヒーレントな3Dスケッチの生成において有望であるが、モデルは2Dスケッチと苦労し、時には非感覚的なアウトプットを生成する。 これらの制限は、特にデータセットの拡張とモデルアーキテクチャの精細化において、さらなる開発の必要性を浮き彫りにしている。 それでもこの研究は、機械設計における生成AIを活用するためのステップとして役立ち、これらのアプローチのポテンシャルと現在の限界の両方を強調している。

This study introduces a dataset consisting of approximately 9,000 images of mechanical mechanisms and their corresponding descriptions, aimed at supporting research in mechanism design. The dataset consists of a diverse collection of 2D and 3D sketches, meticulously curated to ensure relevance and quality. We demonstrate the application of this dataset by fine-tuning two models: 1) Stable Diffusion (for generating new mechanical designs), and 2) BLIP-2 (for captioning these designs). While the results from Stable Diffusion show promise, particularly in generating coherent 3D sketches, the model struggles with 2D sketches and occasionally produces nonsensical outputs. These limitations underscore the need for further development, particularly in expanding the dataset and refining model architectures. Nonetheless, this work serves as a step towards leveraging generative AI in mechanical design, highlighting both the potential and current limitations of these approaches.
翻訳日:2024-09-15 05:41:23 公開日:2024-08-19
# ニューラルネットワークを用いたフラッテニング織布のヒューマンストラテジーのモデル化

Modeling Human Strategy for Flattening Wrinkled Cloth Using Neural Networks ( http://arxiv.org/abs/2409.03764v1 )

ライセンス: Link先を確認
Nilay Kant, Ashrut Aryal, Rajiv Ranganathan, Ranjan Mukherjee, Charles Owen, (参考訳) そこで本研究では,人間から学習したしわを平らにするための新しい手法について検討する。 被験者に様々なクリンクルを提示し,最も少ない行動で布を平らにする作業を行った。 カメラとアルコマーカーを使用して、それぞれ布と指の動きの画像をキャプチャした。 布を平らにするための人的戦略は、制御された回帰ニューラルネットワークを用いてモデル化され、布のイメージが入力として、人間の行動が出力として機能する。 ニューラルネットワークをトレーニングする前に、一連の画像処理技術を適用し、続いて主成分分析(PCA)を用いて、各画像から関連する特徴を抽出し、入力次元を減少させる。 この削減により、モデルの複雑さと計算コストが削減された。 ニューラルネットワークが予測した行動は、独立したデータセット上の実際の人間の行動と密接に一致し、しわを平らにするための人間の行動のモデル化におけるニューラルネットワークの有効性を実証した。

This paper explores a novel approach to model strategies for flattening wrinkled cloth learning from humans. A human participant study was conducted where the participants were presented with various wrinkle types and tasked with flattening the cloth using the fewest actions possible. A camera and Aruco marker were used to capture images of the cloth and finger movements, respectively. The human strategies for flattening the cloth were modeled using a supervised regression neural network, where the cloth images served as input and the human actions as output. Before training the neural network, a series of image processing techniques were applied, followed by Principal Component Analysis (PCA) to extract relevant features from each image and reduce the input dimensionality. This reduction decreased the model's complexity and computational cost. The actions predicted by the neural network closely matched the actual human actions on an independent data set, demonstrating the effectiveness of neural networks in modeling human actions for flattening wrinkled cloth.
翻訳日:2024-09-15 05:41:23 公開日:2024-08-19
# AIと起業家育成: 顔認識技術は起業家を検知し、優れた人材を育成する

AI and Entrepreneurship: Facial Recognition Technology Detects Entrepreneurs, Outperforming Human Experts ( http://arxiv.org/abs/2409.03765v1 )

ライセンス: Link先を確認
Martin Obschonka, Christian Fisch, Tharindu Fernando, Clinton Fookes, (参考訳) 起業のような職業的成果は一般に個人が開示する自主性を持つべき個人情報とみなされる。 ソーシャルメディアなど、広く利用可能な人間中心のデータから個人情報を推測する人工知能(AI)の進歩により、AIがそのようなデータから個人的職業情報を正確に抽出できるかどうかを調査することが不可欠である。 本研究では、深層ニューラルネットワークが、起業家データの主要なソースであるCrunchbaseから得られたデータの精度の高い単一の顔画像に基づいて、個人を起業家として分類できることを実証する。 起業家と非起業家の両方を含む40,728人の顔画像からなるデータセットを用いて、畳み込みニューラルネットワーク(CNN)を訓練し、その分類性能を評価した。 人間の専門家 (n=650) と訓練された参加者 (n=133) は起業家を50%以上の精度で分類できなかったが、AIモデルは79.51%の精度を達成した。 いくつかのロバスト性試験は、この高い精度が様々な条件下で維持されていることを示している。

Occupational outcomes like entrepreneurship are generally considered personal information that individuals should have the autonomy to disclose. With the advancing capability of artificial intelligence (AI) to infer private details from widely available human-centric data, such as social media, it is crucial to investigate whether AI can accurately extract private occupational information from such data. In this study, we demonstrate that deep neural networks can classify individuals as entrepreneurs based on a single facial image with high accuracy in data sourced from Crunchbase, a premier source for entrepreneurship data. Utilizing a dataset comprising facial images of 40,728 individuals, including both entrepreneurs and non-entrepreneurs, we trained a Convolutional Neural Network (CNN) and evaluated its classification performance. While human experts (n=650) and trained participants (n=133) were unable to classify entrepreneurs with accuracy above chance levels (>50%), the AI model achieved a classification accuracy of 79.51%. Several robustness tests show that this high level of accuracy is maintained under various conditions.
翻訳日:2024-09-15 05:41:23 公開日:2024-08-19
# スパイクニューロンの活性化機能のより正確な近似法

A More Accurate Approximation of Activation Function with Few Spikes Neurons ( http://arxiv.org/abs/2409.00044v1 )

ライセンス: Link先を確認
Dayena Jeong, Jaewoo Park, Jeonghee Jo, Jongkil Park, Jaewook Kim, Hyun Jae Jang, Suyoun Lee, Seongsik Park, (参考訳) 拡散モデル[1]のような最近のディープニューラルネットワーク(DNN)は高い計算要求に直面している。 このように、スパイキングニューラルネットワーク(SNN)はエネルギー効率のよいニューラルネットワークとして多くの注目を集めている。 しかし、従来のスパイキングニューロン、例えば漏れた統合・発火ニューロンは、Swish [2]のような複雑な非線形活性化関数を正確に表現することはできない。 スパイクニューロンの活性化関数を近似するために, スパイクニューロン (FS) はほとんど提案されなかった [3] が, ニューロンを考慮した訓練方法の欠如により, 近似性能は制限された。 そこで本研究では,FSニューロンによるアクティベーション関数の近似性を高めるための傾向に基づくパラメータ初期化(TBPI)を提案する。

Recent deep neural networks (DNNs), such as diffusion models [1], have faced high computational demands. Thus, spiking neural networks (SNNs) have attracted lots of attention as energy-efficient neural networks. However, conventional spiking neurons, such as leaky integrate-and-fire neurons, cannot accurately represent complex non-linear activation functions, such as Swish [2]. To approximate activation functions with spiking neurons, few spikes (FS) neurons were proposed [3], but the approximation performance was limited due to the lack of training methods considering the neurons. Thus, we propose tendency-based parameter initialization (TBPI) to enhance the approximation of activation function with FS neurons, exploiting temporal dependencies initializing the training parameters.
翻訳日:2024-09-08 15:31:02 公開日:2024-08-19
# PolypDB: 大腸内視鏡におけるAIアルゴリズム開発のためのマルチセンターデータセット

PolypDB: A Curated Multi-Center Dataset for Development of AI Algorithms in Colonoscopy ( http://arxiv.org/abs/2409.00045v1 )

ライセンス: Link先を確認
Debesh Jha, Nikhil Kumar Tomar, Vanshali Sharma, Quoc-Huy Trinh, Koushik Biswas, Hongyi Pan, Ritika K. Jha, Gorkem Durak, Alexander Hann, Jonas Varkey, Hang Viet Dao, Long Van Dao, Binh Phuc Nguyen, Khanh Cong Pham, Quang Trung Tran, Nikolaos Papachrysos, Brandon Rieders, Peter Thelin Schmidt, Enrik Geissler, Tyler Berzin, Pål Halvorsen, Michael A. Riegler, Thomas de Lange, Ulas Bagci, (参考訳) 大腸内視鏡はポリープの検査、検出、除去の第一の方法である。 定期スクリーニングは早期に大腸癌を検出し予防するのに役立つ。 しかし, 内視鏡医の技量, 腸の質, 大腸の複雑な性質などの課題が多量のポリプミスレートを引き起こしている。 これらの欠落したポリープは後にがんに発展し、検出方法を改善することの重要性を浮き彫りにする。 コンピュータ支援診断システムは、見過ごされたポリープの検出を補助することにより、医師を支援することができる。 しかし、自動ポリープ検出とセグメンテーションのための新しいディープラーニングモデルを開発する上で重要な課題の1つは、公開され、多中心で多様なデータセットがないことである。 このギャップに対処するため,3934個の静止ポリープ画像とそれに対応する接地真実を含む大規模公開データセットであるPolypDBを導入し,効率的なポリープ検出とセグメンテーションアーキテクチャを設計する。 このデータセットは10人の消化器科医によって開発され、検証されている。 PolypDBは、Blue Light Imaging (BLI)、Flexible Imaging Color Enhancement (FICE)、Linked Color Imaging (LCI)、Narrow Band Imaging (NBI)、White Light Imaging (WLI)とノルウェー、スウェーデン、ベトナムの3つの医療センターからなる。 そこで本研究では,モダリティとメディカル・センターに基づいて,モダリティとセンター・ワイド・アナリティクスのデータセットを分割した。 8つの一般的なセグメンテーション法と6つの標準ベンチマークポリープ検出法を用いて、各モダリティのベンチマークを提供する。 さらに,フェデレートされた学習環境において,中心的な学習環境に関するベンチマークも提供する。 私たちのデータセットは公開されており、 \url{https://osf.io/pr7ms/}でダウンロードできます。

Colonoscopy is the primary method for examination, detection, and removal of polyps. Regular screening helps detect and prevent colorectal cancer at an early curable stage. However, challenges such as variation among the endoscopists' skills, bowel quality preparation, and complex nature of the large intestine which cause large number of polyp miss-rate. These missed polyps can develop into cancer later on, which underscores the importance of improving the detection methods. A computer-aided diagnosis system can support physicians by assisting in detecting overlooked polyps. However, one of the important challenges for developing novel deep learning models for automatic polyp detection and segmentation is the lack of publicly available, multi-center large and diverse datasets. To address this gap, we introduce PolypDB, a large scale publicly available dataset that contains 3934 still polyp images and their corresponding ground truth from real colonoscopy videos to design efficient polyp detection and segmentation architectures. The dataset has been developed and verified by a team of 10 gastroenterologists. PolypDB comprises of images from five modalities: Blue Light Imaging (BLI), Flexible Imaging Color Enhancement (FICE), Linked Color Imaging (LCI), Narrow Band Imaging (NBI), and White Light Imaging (WLI) and three medical centers from Norway, Sweden and Vietnam. Thus, we split the dataset based on modality and medical center for modality-wise and center-wise analysis. We provide a benchmark on each modality using eight popular segmentation methods and six standard benchmark polyp detection methods. Furthermore, we also provide benchmark on center-wise under federated learning settings. Our dataset is public and can be downloaded at \url{https://osf.io/pr7ms/}.
翻訳日:2024-09-08 15:31:02 公開日:2024-08-19
# 量に対するデータ品質を犠牲にする必要はない:視覚データのコスト効果理解のためのクラウドインフォームドマシンアノテーション

No Need to Sacrifice Data Quality for Quantity: Crowd-Informed Machine Annotation for Cost-Effective Understanding of Visual Data ( http://arxiv.org/abs/2409.00048v1 )

ライセンス: Link先を確認
Christopher Klugmann, Rafid Mahmood, Guruprasad Hegde, Amit Kale, Daniel Kondermann, (参考訳) ビジュアルデータのラベル付けは高価で時間を要する。 クラウドソーシングシステムは、金銭的またはその他の動機づけられた労働者の参加を通じて、高度に並列化可能なアノテーションを可能にすることを約束するが、このアプローチにも限界がある。 解決策:手作業から機械作業に置き換える。 しかし、マシンアノテータはどの程度信頼できるのか? 高いスループットでデータ品質を犠牲にすることは、特に自律運転のような安全クリティカルなアプリケーションでは、受け入れられない。 本稿では,結果の信頼性を犠牲にすることなく,大規模に視覚データの品質チェックを可能にするフレームワークを提案する。 これは、群衆の反応を予測するために訓練された畳み込みニューラルネットワークを用いて、高度に自動化することができる。 ソフトラベルを直接予測して人間の不確実性に対処する従来の手法とは違って,我々は,解析的アクセシビリティに先立ってディリクレを応用して,ソフトラベル上のタスクごとの後方分布をトレーニング目的として用いている。 実世界の2つの挑戦的な自動車データセットに対する我々のアプローチを実証し、我々のモデルがタスクのかなりの部分を完全に自動化し、高い2桁のパーセンテージでコストを節約できることを示した。 我々のモデルは、人間の不確実性を確実に予測し、より正確な検査と難解な例のフィルタリングを可能にする。 さらに,本モデルにより予測されたソフトラベルの後方分布を,さらなる推論プロセスの先行として利用することができ,真のソフトラベルを正確に近似するための多数の人間ラベルの必要性を低減できることを示す。 これにより、アノテーションプロセスにおける人的資源のさらなるコスト削減とより効率的な利用が可能になる。

Labeling visual data is expensive and time-consuming. Crowdsourcing systems promise to enable highly parallelizable annotations through the participation of monetarily or otherwise motivated workers, but even this approach has its limits. The solution: replace manual work with machine work. But how reliable are machine annotators? Sacrificing data quality for high throughput cannot be acceptable, especially in safety-critical applications such as autonomous driving. In this paper, we present a framework that enables quality checking of visual data at large scales without sacrificing the reliability of the results. We ask annotators simple questions with discrete answers, which can be highly automated using a convolutional neural network trained to predict crowd responses. Unlike the methods of previous work, which aim to directly predict soft labels to address human uncertainty, we use per-task posterior distributions over soft labels as our training objective, leveraging a Dirichlet prior for analytical accessibility. We demonstrate our approach on two challenging real-world automotive datasets, showing that our model can fully automate a significant portion of tasks, saving costs in the high double-digit percentage range. Our model reliably predicts human uncertainty, allowing for more accurate inspection and filtering of difficult examples. Additionally, we show that the posterior distributions over soft labels predicted by our model can be used as priors in further inference processes, reducing the need for numerous human labelers to approximate true soft labels accurately. This results in further cost reductions and more efficient use of human resources in the annotation process.
翻訳日:2024-09-08 15:31:02 公開日:2024-08-19
# 機械学習に基づくRF被覆予測を3次元に拡張する

Extending Machine Learning Based RF Coverage Predictions to 3D ( http://arxiv.org/abs/2409.00050v1 )

ライセンス: Link先を確認
Muyao Chen, Mathieu Châteauvert, Jonathan Ethier, (参考訳) 本稿では,mmWave通信環境における信号パワーの高速予測における最近の進歩について論じる。 機械学習(ML)を使用することで、優れた精度とリアルタイムシミュレーション速度の両方で電力推定を提供するモデルをトレーニングすることができる。 トレーニングデータの事前処理の改善や,任意の送信機高さの3次元予測を含む作業について論じる。

This paper discusses recent advancements made in the fast prediction of signal power in mmWave communications environments. Using machine learning (ML) it is possible to train models that provide power estimates with both good accuracy and with real-time simulation speeds. Work involving improved training data pre-processing as well as 3D predictions with arbitrary transmitter height is discussed.
翻訳日:2024-09-08 15:31:02 公開日:2024-08-19
# OnDiscuss: 非同期オンラインディスカッションを評価するための認識ネットワーク分析学習分析可視化ツール

OnDiscuss: An Epistemic Network Analysis Learning Analytics Visualization Tool for Evaluating Asynchronous Online Discussions ( http://arxiv.org/abs/2409.00051v1 )

ライセンス: Link先を確認
Yanye Luther, Marcia Moraes, Sudipto Ghosh, James Folkestad, (参考訳) 学生間の批判的思考と協調を促進するために、ハイブリッドとオンラインの両コースにおいて、非同期オンラインディスカッションは共通の課題である。 しかし、これらの課題の評価には、インストラクターによるかなりの時間と労力を要する可能性がある。 OnDiscussはテキストマイニングアルゴリズムとEpistemic Network Analysis(ENA)を利用して、学生のディスカッションデータの視覚化を生成するインストラクターのための学習分析可視化ツールである。 テキストマイニングはインストラクターのための最初のコードブックを生成するために使用され、データを自動的にコードする。 このツールは、インストラクターが自分のコードブックを編集し、クラス全体と個々の学生のENAネットワークを動的に閲覧することを可能にする。 実験的な調査を通じて,このツールの有効性を評価し,非同期オンラインディスカッション課題の分析を支援する。

Asynchronous online discussions are common assignments in both hybrid and online courses to promote critical thinking and collaboration among students. However, the evaluation of these assignments can require considerable time and effort from instructors. We created OnDiscuss, a learning analytics visualization tool for instructors that utilizes text mining algorithms and Epistemic Network Analysis (ENA) to generate visualizations of student discussion data. Text mining is used to generate an initial codebook for the instructor as well as automatically code the data. This tool allows instructors to edit their codebook and then dynamically view the resulting ENA networks for the entire class and individual students. Through empirical investigation, we assess this tool's effectiveness to help instructors in analyzing asynchronous online discussion assignments.
翻訳日:2024-09-08 15:31:02 公開日:2024-08-19
# 太陽光発電システムにおけるAI駆動動的故障検出と性能評価

AI-Powered Dynamic Fault Detection and Performance Assessment in Photovoltaic Systems ( http://arxiv.org/abs/2409.00052v1 )

ライセンス: Link先を確認
Nelson Salazar-Pena, Alejandra Tabares, Andres Gonzalez-Mancera, (参考訳) 太陽エネルギーの断続的な性質は、変動気象によって駆動され、電力損失は10-70%、平均エネルギー生産量は25%減少する。 正確な損失特性と故障検出は、信頼性の高いPVシステム性能と効率のために重要であり、これらのデータを制御信号監視システムに統合する。 PVシステムの計算モデリングは、技術、経済、性能分析をサポートするが、現在のモデルは、しばしば厳格であり、高度な性能最適化と革新を制限している。 従来の障害検出戦略はコストが高く、複雑なデータ信号プロファイルのために信頼性の低い結果が得られることが多い。 人工知能(AI)、特に機械学習アルゴリズムは、入力パラメータ(例えば、気象および電気)と出力メトリクス(例えば、生産)の関係を分析することによって、障害検出を改善する。 トレーニングが完了すると、これらのモデルは期待されたパフォーマンスから逸脱を検出することによって、障害を効果的に識別できる。 本研究では,気象,運用,技術データを処理する動的損失定量化アルゴリズムを取り入れたPythonのPVlibライブラリを用いた計算モデルを提案する。 5分間の解像度で合成データセットに基づいてトレーニングされた人工ニューラルネットワーク(ANN)は、現実のPVシステム障害をシミュレートする。 断層検出のための動的しきい値の定義は、ロス・アンデス大学のPVシステムからの履歴データに基づいている。 主な貢献は以下の通り。 (i)平均絶対誤差が6.0%のPVシステムモデル 二 専門設備のない動的損失定量化 三 特殊監視装置を回避し、技術的パラメータ推定のためのAIベースのアルゴリズム (4)平均精度82.2%、最大精度92.6%の故障検出モデル。

The intermittent nature of photovoltaic (PV) solar energy, driven by variable weather, leads to power losses of 10-70% and an average energy production decrease of 25%. Accurate loss characterization and fault detection are crucial for reliable PV system performance and efficiency, integrating this data into control signal monitoring systems. Computational modeling of PV systems supports technological, economic, and performance analyses, but current models are often rigid, limiting advanced performance optimization and innovation. Conventional fault detection strategies are costly and often yield unreliable results due to complex data signal profiles. Artificial intelligence (AI), especially machine learning algorithms, offers improved fault detection by analyzing relationships between input parameters (e.g., meteorological and electrical) and output metrics (e.g., production). Once trained, these models can effectively identify faults by detecting deviations from expected performance. This research presents a computational model using the PVlib library in Python, incorporating a dynamic loss quantification algorithm that processes meteorological, operational, and technical data. An artificial neural network (ANN) trained on synthetic datasets with a five-minute resolution simulates real-world PV system faults. A dynamic threshold definition for fault detection is based on historical data from a PV system at Universidad de los Andes. Key contributions include: (i) a PV system model with a mean absolute error of 6.0% in daily energy estimation; (ii) dynamic loss quantification without specialized equipment; (iii) an AI-based algorithm for technical parameter estimation, avoiding special monitoring devices; and (iv) a fault detection model achieving 82.2% mean accuracy and 92.6% maximum accuracy.
翻訳日:2024-09-08 15:31:02 公開日:2024-08-19
# 大規模スパイクニューラルネットワークに向けて:包括的調査と今後の展望

Toward Large-scale Spiking Neural Networks: A Comprehensive Survey and Future Directions ( http://arxiv.org/abs/2409.02111v1 )

ライセンス: Link先を確認
Yangfan Hu, Qian Zheng, Guoqi Li, Huajin Tang, Gang Pan, (参考訳) ディープラーニングは人工知能(AI)に革命をもたらし、コンピュータビジョン、音声認識、自然言語処理などの分野において顕著な進歩を遂げた。 さらに、近年の大規模言語モデル(LLM)の成功により、大規模ニューラルネットワークの研究が急増している。 しかし、コンピューティング資源とエネルギー消費に対する需要が増大し、エネルギー効率の良い代替手段が探索されている。 人間の脳にインスパイアされたスパイクニューラルネットワーク(SNN)は、イベント駆動スパイクによるエネルギー効率の高い計算を約束する。 エネルギー効率の高い大規模SNNモデルの構築に向けた今後の方向性を示すため,我々はスパイキングニューラルネットワークを開発するための既存の手法について,新しいスパイキングトランスフォーマーに着目して調査する。 主な貢献は,(1)ANN-to-SNN変換によるディープスパイキングニューラルネットワークの学習方法の概要,(2)ディープスパイキングニューラルネットワーク(DCNN)とトランスフォーマーアーキテクチャによるディープスパイキングニューラルネットワークのネットワークアーキテクチャの概要,(3)新興スパイキングトランスフォーマーに着目した最先端SNNの総合比較である。 次に,大規模SNNの今後の方向性について論じ,概説する。

Deep learning has revolutionized artificial intelligence (AI), achieving remarkable progress in fields such as computer vision, speech recognition, and natural language processing. Moreover, the recent success of large language models (LLMs) has fueled a surge in research on large-scale neural networks. However, the escalating demand for computing resources and energy consumption has prompted the search for energy-efficient alternatives. Inspired by the human brain, spiking neural networks (SNNs) promise energy-efficient computation with event-driven spikes. To provide future directions toward building energy-efficient large SNN models, we present a survey of existing methods for developing deep spiking neural networks, with a focus on emerging Spiking Transformers. Our main contributions are as follows: (1) an overview of learning methods for deep spiking neural networks, categorized by ANN-to-SNN conversion and direct training with surrogate gradients; (2) an overview of network architectures for deep spiking neural networks, categorized by deep convolutional neural networks (DCNNs) and Transformer architecture; and (3) a comprehensive comparison of state-of-the-art deep SNNs with a focus on emerging Spiking Transformers. We then further discuss and outline future directions toward large-scale SNNs.
翻訳日:2024-09-08 14:53:30 公開日:2024-08-19
# ブール行列論理プログラミングによる二元関数の能動的学習

Active learning of digenic functions with boolean matrix logic programming ( http://arxiv.org/abs/2408.14487v1 )

ライセンス: Link先を確認
Lun Ai, Stephen H. Muggleton, Shi-shun Liang, Geoff S. Baldwin, (参考訳) 本研究では,ゲノムスケールメタボリック・ネットワーク・モデル (GEMs) と呼ばれる,代謝過程の包括的データベースに基づく,細胞工学の促進と生物学的発見の促進を目的として,論理ベースの機械学習技術を適用した。 予測されたホストの振る舞いは、常にGEMによって正しく記述されるわけではない。 GEM内の複雑な遺伝的相互作用の学習は、計算的および経験的課題を提示する。 これらの問題に対処するために,ブール行列を利用して大規模論理プログラムを評価する,Boolean Matrix Logic Programming (BMLP) と呼ばれる新しい手法について述べる。 能動的学習を通じて情報的実験を導くことにより,ゲノム仮説空間を効率的に探索するシステム「BMLP_{active}$」を導入する。 サブシンボリックな方法とは対照的に、$BMLP_{active}$は、データログ論理プログラムを用いて解釈可能で論理的な表現で広く受け入れられている細菌ホストの最先端のGEMを符号化する。 特に、$BMLP_{active}$は、ランダムな実験よりも訓練例が少ない遺伝子ペア間の相互作用をうまく学習することができ、実験的な設計空間の増加を克服することができる。 $BMLP_{active}$は代謝モデルの迅速な最適化を可能にし、微生物工学のための自動運転ラボに現実的なアプローチを提供する。

We apply logic-based machine learning techniques to facilitate cellular engineering and drive biological discovery, based on comprehensive databases of metabolic processes called genome-scale metabolic network models (GEMs). Predicted host behaviours are not always correctly described by GEMs. Learning the intricate genetic interactions within GEMs presents computational and empirical challenges. To address these, we describe a novel approach called Boolean Matrix Logic Programming (BMLP) by leveraging boolean matrices to evaluate large logic programs. We introduce a new system, $BMLP_{active}$, which efficiently explores the genomic hypothesis space by guiding informative experimentation through active learning. In contrast to sub-symbolic methods, $BMLP_{active}$ encodes a state-of-the-art GEM of a widely accepted bacterial host in an interpretable and logical representation using datalog logic programs. Notably, $BMLP_{active}$ can successfully learn the interaction between a gene pair with fewer training examples than random experimentation, overcoming the increase in experimental design space. $BMLP_{active}$ enables rapid optimisation of metabolic models and offers a realistic approach to a self-driving lab for microbial engineering.
翻訳日:2024-09-01 16:52:18 公開日:2024-08-19
# 専門家強化スコア付き小型データセットにおけるコントラスト微調整による埋め込みの改善

Improving embedding with contrastive fine-tuning on small datasets with expert-augmented scores ( http://arxiv.org/abs/2408.11868v1 )

ライセンス: Link先を確認
Jun Lu, David Li, Bill Ding, Yu Kang, (参考訳) 本稿では,エキスパートスコアを付加した小さなデータセットに対して,コントラスト的な微調整によりテキスト埋め込みモデルを改善する手法を提案する。 意味的テキスト類似性タスクの強化とテキスト検索問題への対処に焦点を当てている。 提案手法は,専門的なスコアから派生したソフトラベルを用いて微細なチューン埋め込みモデルを構築し,その汎用性を保ち,検索能力を向上する。 オンラインショッピングサイトと8つのエキスパートモデルからQ&Aデータセットを用いて,本手法の評価を行った。 その結果,MTEB (Magous Text Embedding benchmark) から得られた様々な検索タスクにおいて,ベンチマークモデルよりも性能が向上した。 この方法は、特にラベル付きデータが不足している場合、実世界のアプリケーションにとってコスト効率が高く実用的である。

This paper presents an approach to improve text embedding models through contrastive fine-tuning on small datasets augmented with expert scores. It focuses on enhancing semantic textual similarity tasks and addressing text retrieval problems. The proposed method uses soft labels derived from expert-augmented scores to fine-tune embedding models, preserving their versatility and ensuring retrieval capability is improved. The paper evaluates the method using a Q\&A dataset from an online shopping website and eight expert models. Results show improved performance over a benchmark model across multiple metrics on various retrieval tasks from the massive text embedding benchmark (MTEB). The method is cost-effective and practical for real-world applications, especially when labeled data is scarce.
翻訳日:2024-08-23 18:26:17 公開日:2024-08-19
# 連続データアダプタアソシエーションによる生涯モデル編集

Enhance Lifelong Model Editing with Continuous Data-Adapter Association ( http://arxiv.org/abs/2408.11869v1 )

ライセンス: Link先を確認
Jiaang Li, Quan Wang, Zhongnan Wang, Yongdong Zhang, Zhendong Mao, (参考訳) 大規模言語モデル(LLM)は、特定の知識を効率的に更新し、事実の誤りを避けるためにモデル編集を必要とする。 ほとんどのモデル編集法は、単に単一時間の使用用に設計されており、ライフロング編集と呼ばれる連続的な編集を経た後に大きな忘れ効果をもたらす。 現在のアプローチでは、元のパラメータを凍結し、知識修正毎に新しいアダプタを割り当てることで、シーケンシャルな編集を管理している。 しかし、これらの手法は小さな入力のバリエーションに頑健さを欠いている。 この課題に対処するため,ローランドアダプタ (LoRA) のmixtu\textbf{R}e を用いた ELDER, \textbf{E}nhancing \textbf{L}ifelong mo\textbf{D}el \textbf{E}diting を提案する。 ELDERは、ルータネットワークを介して複数のLoRAを統合する適応的なアプローチである。 データとアダプタの連続的かつ円滑な関連を作ることを学び、それによって、意味論的に等価な入力に対する堅牢性と一般化が強化される。 さらに,アダプタのアロケーションとセマンティクスの関連を学習するための新たな損失を導入する。 遅延機構は、元のLLM機能を後処理で維持するためにも提案されている。 GPT-2 XL と LLaMA2-7B の広範囲にわたる実験により、ELDER は、下流タスクにおける LLM の一般的な能力を保ちながら、寿命の長い設定でモデルを効果的に編集し、強力なスケーラビリティを示すことを示した。

Large language models (LLMs) require model editing to efficiently update specific knowledge within them and avoid factual errors. Most model editing methods are solely designed for single-time use and lead to a significant forgetting effect after sequential edits over time, referred to as lifelong editing. Current approaches manage sequential edits by freezing original parameters and allocating new adapters for each knowledge modification. However, these methods lack robustness to minor input variations. To address this challenge, we propose ELDER, \textbf{E}nhancing \textbf{L}ifelong mo\textbf{D}el \textbf{E}diting with mixtu\textbf{R}e of Low-Rank Adapter (LoRA). ELDER is an adaptive approach that integrates multiple LoRAs through a router network. It learns to create a continuous and smooth association between data and adapters, thereby enhancing robustness and generalization to semantically equivalent inputs. Additionally, we introduce a novel loss to help learn associations between adapter allocations and edit semantics. A deferral mechanism is also proposed to retain the original LLM capabilities post-edit. Extensive experiments on GPT-2 XL and LLaMA2-7B demonstrate that ELDER effectively edits models in the lifelong setting and exhibits strong scalability, while retaining LLM's general abilities on downstream tasks.
翻訳日:2024-08-23 18:26:17 公開日:2024-08-19
# MegaFake: 大規模言語モデルで生成されたフェイクニュースの理論駆動型データセット

MegaFake: A Theory-Driven Dataset of Fake News Generated by Large Language Models ( http://arxiv.org/abs/2408.11871v1 )

ライセンス: Link先を確認
Lionel Z. Wang, Yiming Ma, Renfei Gao, Beichen Guo, Zhuoran Li, Han Zhu, Wenqi Fan, Zexin Lu, Ka Chung Ng, (参考訳) 大規模言語モデル(LLM)の出現は、オンラインコンテンツ作成に革命をもたらし、高品質のフェイクニュースを生成するのがずっと簡単になった。 この誤用は、私たちのデジタル環境と倫理基準の完全性を脅かす。 したがって、LLM生成フェイクニュースの背後にあるモチベーションやメカニズムを理解することが重要である。 本研究では,社会心理学の観点から偽ニュースの生成を分析し,総合的なLLM理論フレームワークであるLLM-Fake理論を開発した。 LLMを使って偽ニュースを自動生成する新しいパイプラインを導入し、手動のアノテーションを不要にする。 このパイプラインを利用することで、GossipCopデータセットから派生した理論的に情報を得たMachine生成Fakeニュースデータセット、MegaFakeを作成します。 我々はMegaFakeデータセットを評価するために包括的な分析を行う。 LLMの時代におけるフェイクニュースの検出とガバナンスに焦点をあてた今後の研究に、我々のデータセットと洞察が貴重な貢献をもたらすと信じている。

The advent of large language models (LLMs) has revolutionized online content creation, making it much easier to generate high-quality fake news. This misuse threatens the integrity of our digital environment and ethical standards. Therefore, understanding the motivations and mechanisms behind LLM-generated fake news is crucial. In this study, we analyze the creation of fake news from a social psychology perspective and develop a comprehensive LLM-based theoretical framework, LLM-Fake Theory. We introduce a novel pipeline that automates the generation of fake news using LLMs, thereby eliminating the need for manual annotation. Utilizing this pipeline, we create a theoretically informed Machine-generated Fake news dataset, MegaFake, derived from the GossipCop dataset. We conduct comprehensive analyses to evaluate our MegaFake dataset. We believe that our dataset and insights will provide valuable contributions to future research focused on the detection and governance of fake news in the era of LLMs.
翻訳日:2024-08-23 18:26:17 公開日:2024-08-19
# 自動音声認識のためのフェデレーション学習におけるパラメータ効率のよい伝達学習

Parameter-Efficient Transfer Learning under Federated Learning for Automatic Speech Recognition ( http://arxiv.org/abs/2408.11873v1 )

ライセンス: Link先を確認
Xuan Kan, Yonghui Xiao, Tien-Ju Yang, Nanxin Chen, Rajiv Mathews, (参考訳) 本研究は,ユーザデータのプライバシを保ちながら,さまざまなユーザ固有のドメインにわたる自動音声認識(ASR)モデルの性能向上を課題とする。 我々は,(1)ユーザ固有のシナリオからASRモデルの膨大なデータ要求を解決するために,フェデレートラーニングとパラメータ効率のよいドメイン適応手法を採用し,(2)フェデレーションラーニングの際,サーバとクライアント間の通信コストを大幅に削減する。 我々は, 適切なアダプタを装着した場合, 統合チューニング下でのASRモデルは, 集中型チューニングと同等の性能が得られることを実証し, 将来のプライバシ保護型ASRサービスに対する潜在的方向性を示す。 さらに,フェデレート学習環境下では,異なるアダプタとアダプタの組込み方略の効率性についても検討する。

This work explores the challenge of enhancing Automatic Speech Recognition (ASR) model performance across various user-specific domains while preserving user data privacy. We employ federated learning and parameter-efficient domain adaptation methods to solve the (1) massive data requirement of ASR models from user-specific scenarios and (2) the substantial communication cost between servers and clients during federated learning. We demonstrate that when equipped with proper adapters, ASR models under federated tuning can achieve similar performance compared with centralized tuning ones, thus providing a potential direction for future privacy-preserved ASR services. Besides, we investigate the efficiency of different adapters and adapter incorporation strategies under the federated learning setting.
翻訳日:2024-08-23 18:26:17 公開日:2024-08-19
# 小データを用いたソフト拘束型物理インフォームニューラルネットワークによるオシレータODEの解法

Solving Oscillator ODEs via Soft-constrained Physics-informed Neural Network with Small Data ( http://arxiv.org/abs/2408.11077v1 )

ライセンス: Link先を確認
Kai-liang Lu, Yu-meng Su, Cheng Qiu, Zhuo Bi, Wen-jun Zhang, (参考訳) 本稿では,物理インフォームドニューラルネットワーク(PINN),従来のニューラルネットワーク(NN)および微分方程式の数値離散化法を文献研究を通じて比較した。 微分方程式(ODEs/PDEs)の解法として,ソフト制約PINN法の数学的枠組みと計算フローを定式化した。 その動作機構とその精度と効率は、典型的な線形および非線形振動子ODEを解くことによって実験的に検証された。 DeepXDEをベースとしたPINNメソッドの実装は、軽量コードとトレーニングの効率性だけでなく、プラットフォーム間の柔軟性も備えている。 PINNは、ODEの非線形性が弱い場合、非常に少量の教師付きトレーニングデータと少量のコロケーションポイントが解を予測するのに十分であり、最小限の場合、それぞれ1階または2階のODEに対して1つまたは2つのトレーニングポイント(初期値)しか必要としない。 強い非線形ODEはトレーニング点数やコロケーション点数を適切に増やすだけでよいが、従来のNNよりも大きな利点がある。 コロケーションポイントと物理情報の利用により、PINNはトレーニングセットがカバーする時間領域外のデータを外挿する機能を持ち、ノイズの多いデータに対して堅牢であり、一般化能力が強化されている。 損失関数項の増加による遅延よりも、データ量の削減とともに得られる利得が、トレーニングを加速する。 この柔らかい制約付きPINN法は、全損失関数に正規化項を追加することにより、物理法則(例えばエネルギー保存)の制約を容易に課すことができ、この物理法則に従うODEの解性能を向上させることができる。

This paper compared physics-informed neural network (PINN), conventional neural network (NN) and numerical discretization methods on solving differential equations through literature research. We formalized the mathematical framework and computational flow of the soft-constrained PINN method for solving differential equations (e.g., ODEs/PDEs). Its working mechanism and its accuracy and efficiency were experimentally verified by solving typical linear and non-linear oscillator ODEs. The implementation of the PINN method based on DeepXDE is not only light code and efficient in training, but also flexible across platforms. PINN greatly reduces the need for labeled data: when the nonlinearity of the ODE is weak, a very small amount of supervised training data plus a small amount of collocation points are sufficient to predict the solution; in the minimalist case, only one or two training points (with initial values) are needed for first- or second-order ODEs, respectively. Strongly nonlinear ODE also require only an appropriate increase in the number of training and collocation points, which still has significant advantages over conventional NN. With the aid of collocation points and the use of physical information, PINN has the ability to extrapolate data outside the time domain covered by the training set, and is robust to noisy data, thus with enhanced generalization capabilities. Training is accelerated when the gains obtained along with the reduction in the amount of data outweigh the delay caused by the increase in the loss function terms. The soft-constrained PINN method can easily impose a physical law (e.g., energy conservation) constraint by adding a regularization term to the total loss function, thus improving the solution performance of ODEs that obey this physical law.
翻訳日:2024-08-22 21:26:55 公開日:2024-08-19
# 言語ギャップのブリッジ: ソフトウェアパッケージエコシステム全体にわたるオープンソース機械学習ライブラリのバインディングに関する実証的研究

Bridging the Language Gap: An Empirical Study of Bindings for Open Source Machine Learning Libraries Across Software Package Ecosystems ( http://arxiv.org/abs/2201.07201v2 )

ライセンス: Link先を確認
Hao Li, Cor-Paul Bezemer, (参考訳) オープンソースの機械学習(ML)ライブラリにより、開発者は自身のアプリケーションに高度なML機能を統合できる。 しかし、TensorFlowのような一般的なMLライブラリは、すべてのプログラミング言語やソフトウェアパッケージエコシステムでネイティブに利用できるわけではない。 したがって、プログラミング言語や選択するエコシステムでは利用できないMLライブラリを使いたい開発者は、いわゆるバインディングライブラリ(あるいはバインディング)を使う必要があるかもしれない。 バインディングは、ホストライブラリを再利用するためのプログラミング言語とパッケージエコシステムをまたいだサポートを提供する。 例えば、Keras 。 NETバインディングは、Pythonで書かれたKerasライブラリであっても、NuGet(.NET)エコシステムでKerasライブラリをサポートする。 本稿では,BindFindというアプローチを用いて,ソフトウェアパッケージのエコシステムにまたがる546のMLライブラリに対して,2,436のクロスエコシステムバインディングを収集する。 さらに,40のオープンソースMLライブラリを対象とした133のクロスエコシステムバインディングとその開発について,詳細な研究を行っている。 この結果,MLライブラリバインディングの大部分はコミュニティが管理しており,npmはこれらのバインディングの最も人気のあるエコシステムであることがわかった。 我々の研究は、ほとんどのバインディングがホストライブラリのリリースの限られた範囲のみをカバーすることを示し、しばしば新しいリリースをサポートするのにかなりの遅延を経験し、広範囲の技術的遅延があることを示している。 この結果から,MLライブラリのバインディング統合や,ソフトウェアパッケージエコシステムにおけるバインディングのさらなる調査を行うためのオープンな方法を検討する上で,開発者が考慮すべき重要な要素を浮き彫りにした。

Open source machine learning (ML) libraries enable developers to integrate advanced ML functionality into their own applications. However, popular ML libraries, such as TensorFlow, are not available natively in all programming languages and software package ecosystems. Hence, developers who wish to use an ML library which is not available in their programming language or ecosystem of choice, may need to resort to using a so-called binding library (or binding). Bindings provide support across programming languages and package ecosystems for reusing a host library. For example, the Keras .NET binding provides support for the Keras library in the NuGet (.NET) ecosystem even though the Keras library was written in Python. In this paper, we collect 2,436 cross-ecosystem bindings for 546 ML libraries across 13 software package ecosystems by using an approach called BindFind, which can automatically identify bindings and link them to their host libraries. Furthermore, we conduct an in-depth study of 133 cross-ecosystem bindings and their development for 40 popular open source ML libraries. Our findings reveal that the majority of ML library bindings are maintained by the community, with npm being the most popular ecosystem for these bindings. Our study also indicates that most bindings cover only a limited range of the host library's releases, often experience considerable delays in supporting new releases, and have widespread technical lag. Our findings highlight key factors to consider for developers integrating bindings for ML libraries and open avenues for researchers to further investigate bindings in software package ecosystems.
翻訳日:2024-08-21 21:10:37 公開日:2024-08-19
# 完全結合FBSDEによる確率的最適制御問題の解法

A deep learning method for solving stochastic optimal control problems driven by fully-coupled FBSDEs ( http://arxiv.org/abs/2204.05796v2 )

ライセンス: Link先を確認
Shaolin Ji, Shige Peng, Ying Peng, Xichuan Zhang, (参考訳) 本稿では,完全結合前方確率微分方程式(FBSDEs,略してFBSDEs)による高次元確率的最適制御問題の数値解に着目した。 まず,この問題を確率的なStackelberg差分ゲーム問題(リーダ-フォロワー問題)に変換し,リーダーのコスト関数と追従者のコスト関数を、ディープニューラルネットワークを介して代わりに最適化するバイレベル最適化手法を開発する。 数値計算では,確率的再帰的効用モデルを用いて解決した投資消費問題の2つの例を計算し,その2つの例が提案アルゴリズムの有効性を示した。

In this paper,we mainly focus on the numerical solution of high-dimensional stochastic optimal control problem driven by fully-coupled forward-backward stochastic differential equations (FBSDEs in short) through deep learning. We first transform the problem into a stochastic Stackelberg differential game problem (leader-follower problem), then a bi-level optimization method is developed where the leader's cost functional and the follower's cost functional are optimized alternatively via deep neural networks. As for the numerical results, we compute two examples of the investment-consumption problem solved through stochastic recursive utility models, and the results of both examples demonstrate the effectiveness of our proposed algorithm.
翻訳日:2024-08-21 21:10:37 公開日:2024-08-19
# 連続ベイズ型ニューラルネットワークアンサンブル

Sequential Bayesian Neural Subnetwork Ensembles ( http://arxiv.org/abs/2206.00794v2 )

ライセンス: Link先を確認
Sanket Jantre, Shrijita Bhattacharya, Nathan M. Urban, Byung-Jun Yoon, Tapabrata Maiti, Prasanna Balaprakash, Sandeep Madireddy, (参考訳) 深層アンサンブルは、モデル多様性を活用することにより、予測性能を改善し、様々なアプリケーションにわたるモデルロバスト性を高めるための強力な技術として登場した。 しかし、従来のディープアンサンブル法はしばしば計算コストが高く、決定論的モデルに依存しており、柔軟性が制限される可能性がある。 さらに、密度の高いモデルのスパースサブネットは、密度の高いモデルの性能にマッチし、堅牢性を高めることにも期待できる一方で、トレーニング中にネットワークを徐々に訓練したり、トレーニング後のしきい値を適用したりすることで、単一の密度のモデルのトレーニングに匹敵するトレーニングコストを創出する既存の方法も示している。 これらの課題を踏まえ、トレーニングプロセスを通してモデルの複雑さを一貫して維持し、単一の前方通過で多様なアンサンブルを生成する動的ベイズニューラルネットワークのシーケンシャルアンサンブル手法を提案する。 提案手法では,パラメータ空間内のハイパフォーマンス領域を同定するための初期探索フェーズと,スパースモデルのコンパクト性を利用する複数のエクスプロイトフェーズを含む。 これらの利用フェーズは、エネルギーランドスケープの異なるミニマに急速に収束し、多様で堅牢なアンサンブルを形成する高性能サブネットに対応する。 提案手法は,予測精度,不確実性推定,アウト・オブ・ディストリビューション検出,および対向ロバスト性の観点から,従来の密度・スパース決定性およびベイズアンサンブルモデルより優れていることを示す。

Deep ensembles have emerged as a powerful technique for improving predictive performance and enhancing model robustness across various applications by leveraging model diversity. However, traditional deep ensemble methods are often computationally expensive and rely on deterministic models, which may limit their flexibility. Additionally, while sparse subnetworks of dense models have shown promise in matching the performance of their dense counterparts and even enhancing robustness, existing methods for inducing sparsity typically incur training costs comparable to those of training a single dense model, as they either gradually prune the network during training or apply thresholding post-training. In light of these challenges, we propose an approach for sequential ensembling of dynamic Bayesian neural subnetworks that consistently maintains reduced model complexity throughout the training process while generating diverse ensembles in a single forward pass. Our approach involves an initial exploration phase to identify high-performing regions within the parameter space, followed by multiple exploitation phases that take advantage of the compactness of the sparse model. These exploitation phases quickly converge to different minima in the energy landscape, corresponding to high-performing subnetworks that together form a diverse and robust ensemble. We empirically demonstrate that our proposed approach outperforms traditional dense and sparse deterministic and Bayesian ensemble models in terms of prediction accuracy, uncertainty estimation, out-of-distribution detection, and adversarial robustness.
翻訳日:2024-08-21 21:10:37 公開日:2024-08-19
# 因果発見後の正当性推論

Valid Inference After Causal Discovery ( http://arxiv.org/abs/2208.05949v3 )

ライセンス: Link先を確認
Paula Gradu, Tijana Zrnic, Yixin Wang, Michael I. Jordan, (参考訳) 因果的発見と因果的効果推定は因果的推論における2つの基本的な課題である。 同一データ上で因果発見アルゴリズムを実行した後の因果効果を推定すると「二重ディッピング」となり、古典的信頼区間のカバレッジ保証を無効にする。 この目的のために、我々は因果関係発見後の推論に有効なツールを開発する。 一方,本手法の適用は,データ分割よりも正確な因果発見を達成しつつ,信頼性の高いカバレッジを提供する。

Causal discovery and causal effect estimation are two fundamental tasks in causal inference. While many methods have been developed for each task individually, statistical challenges arise when applying these methods jointly: estimating causal effects after running causal discovery algorithms on the same data leads to "double dipping," invalidating the coverage guarantees of classical confidence intervals. To this end, we develop tools for valid post-causal-discovery inference. Across empirical studies, we show that a naive combination of causal discovery and subsequent inference algorithms leads to highly inflated miscoverage rates; on the other hand, applying our method provides reliable coverage while achieving more accurate causal discovery than data splitting.
翻訳日:2024-08-21 21:10:37 公開日:2024-08-19
# DiracDiffusion: 保証されたデータ一貫性によるデノイングとインクリメンタルリコンストラクション

DiracDiffusion: Denoising and Incremental Reconstruction with Assured Data-Consistency ( http://arxiv.org/abs/2303.14353v2 )

ライセンス: Link先を確認
Zalan Fabian, Berk Tinaz, Mahdi Soltanolkotabi, (参考訳) 拡散モデルは、画像復元を含む多数のコンピュータビジョンタスクにおいて、新しい最先端技術を確立した。 拡散に基づく逆問題解法は、過度に劣化した測定値から異常な視覚的品質の再構成を生成する。 しかし、認識歪曲トレードオフとして広く知られているように、PSNRのような歪曲指標では、知覚的にアピールする再構成の価格がしばしば支払われる。 歪み測定は、逆問題において重要な要件である観察への忠実度を測定する。 本研究では, 逆問題解決のための新しい枠組みを提案する。すなわち, 観測は, 元のクリーンイメージを徐々に劣化させ, ノイズを発生させる確率分解過程から生じると仮定する。 クリーンなイメージを回復するために,劣化過程の逆転を学習する。 本手法は, 逆過程を通じて元の計測値との整合性を維持し, 歪み指標の改善と早期ストッピングによるサンプリング高速化のために, 知覚品質のトレードオフに優れた柔軟性を実現する。 本研究では,様々な高分解能データセットと逆問題に対して本手法の有効性を実証し,知覚と歪みの両指標に関して,他の最先端拡散法よりも大幅に改善した。

Diffusion models have established new state of the art in a multitude of computer vision tasks, including image restoration. Diffusion-based inverse problem solvers generate reconstructions of exceptional visual quality from heavily corrupted measurements. However, in what is widely known as the perception-distortion trade-off, the price of perceptually appealing reconstructions is often paid in declined distortion metrics, such as PSNR. Distortion metrics measure faithfulness to the observation, a crucial requirement in inverse problems. In this work, we propose a novel framework for inverse problem solving, namely we assume that the observation comes from a stochastic degradation process that gradually degrades and noises the original clean image. We learn to reverse the degradation process in order to recover the clean image. Our technique maintains consistency with the original measurement throughout the reverse process, and allows for great flexibility in trading off perceptual quality for improved distortion metrics and sampling speedup via early-stopping. We demonstrate the efficiency of our method on different high-resolution datasets and inverse problems, achieving great improvements over other state-of-the-art diffusion-based methods with respect to both perceptual and distortion metrics.
翻訳日:2024-08-21 21:10:36 公開日:2024-08-19
# Sachdev-Ye-Kitaevモデルと荷電ブラックホールの量子統計力学

Quantum statistical mechanics of the Sachdev-Ye-Kitaev model and charged black holes ( http://arxiv.org/abs/2304.13744v5 )

ライセンス: Link先を確認
Subir Sachdev, (参考訳) このレビューは、Michael E. Fisherの記憶に捧げられた本への貢献である。 準粒子励起が期待できない量子多体系の最初の例は、ウィルソン・フィッシャー共形場理論である。 準粒子の欠如は、ランダムな相互作用を持つフェルミオンのSachdev-Ye-Kitaevモデルの圧縮可能な金属状態に確立することができる。 後者のモデルの可解性は、量子ブラックホールを記述することが期待されているようなカオス多体状態の準粒子動力学の多くの計算を可能にした。 我々は、SYKモデルの熱力学特性を概説し、低エネルギー超対称性を持たない荷電ブラックホールの状態の低エネルギー密度の普遍構造をいかに理解したかを説明する。

This review is a contribution to a book dedicated to the memory of Michael E. Fisher. The first example of a quantum many body system not expected to have any quasiparticle excitations was the Wilson-Fisher conformal field theory. The absence of quasiparticles can be established in the compressible, metallic state of the Sachdev-Ye-Kitaev model of fermions with random interactions. The solvability of the latter model has enabled numerous computations of the non-quasiparticle dynamics of chaotic many-body states, such as those expected to describe quantum black holes. We review thermodynamic properties of the SYK model, and describe how they have led to an understanding of the universal structure of the low energy density of states of charged black holes without low energy supersymmetry.
翻訳日:2024-08-21 21:10:36 公開日:2024-08-19
# 不溶性蒸留--要約・パラフレージングのための低品質モデルから高品質データセット・モデルへ

Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing ( http://arxiv.org/abs/2305.16635v4 )

ライセンス: Link先を確認
Jaehun Jung, Peter West, Liwei Jiang, Faeze Brahman, Ximing Lu, Jillian Fisher, Taylor Sorensen, Yejin Choi, (参考訳) 本稿では,これらの課題を遂行できない低品質の教師から高品質なデータセットとモデルを蒸留する,言い換えと文要約の新しいフレームワークであるImpossible Distillationを提案する。 極大規模教師モデル(例, GPT3)やタスク固有アーキテクチャ(例, GPT3)に依存した先行研究とは異なり、パラフレーズがLM分布の近位部分空間を占有する事前学習されたLM(例, GPT2)に内在するパラフレーズの近さを仮説化し検証する。 これらの部分空間から世代を同定して蒸留することにより、インポッシブル蒸留は、GPT2スケールのLMでも高品質なデータセットとモデルを生成する。 制約なし/構文制御されたパラフレーズ生成と文要約にまたがる複数のベンチマークにおいて,本手法の評価を行った。 770Mパラメータを持つ我々のモデルは、ChatGPTから蒸留されたモデルや、時にはChatGPT自体よりも高いベースラインを一貫して上回ります。 また,1.5B LMの蒸留データセットは最大13倍の多様性と忠実度を示した。

We present Impossible Distillation, a novel framework for paraphrasing and sentence summarization, that distills a high-quality dataset and model from a low-quality teacher that itself cannot perform these tasks. Unlike prior works that rely on an extreme-scale teacher model (e.g., GPT3) or task-specific architecture, we hypothesize and verify the paraphrastic proximity intrinsic to pre-trained LMs (e.g., GPT2), where paraphrases occupy a proximal subspace in the LM distribution. By identifying and distilling generations from these subspaces, Impossible Distillation produces a high-quality dataset and model even from GPT2-scale LMs. We evaluate our method on multiple benchmarks spanning unconstrained / syntax-controlled paraphrase generation and sentence summarization. Our model with 770M parameters consistently outperforms strong baselines, including models distilled from ChatGPT, and sometimes, even ChatGPT itself. Also, we find that our distilled dataset from 1.5B LMs exhibits higher diversity and fidelity than up to 13 times larger datasets.
翻訳日:2024-08-21 21:01:16 公開日:2024-08-19
# 適応と拡散:潜在拡散モデルによるサンプル適応再構成

Adapt and Diffuse: Sample-adaptive Reconstruction via Latent Diffusion Models ( http://arxiv.org/abs/2309.06642v3 )

ライセンス: Link先を確認
Zalan Fabian, Berk Tinaz, Mahdi Soltanolkotabi, (参考訳) 逆問題は、ノイズや(非線形でない)観測からクリーンな信号を回復することが目的である複数のアプリケーションで発生する。 再構成問題の難しさは、基底真理信号構造、劣化の深刻度、上記間の複雑な相互作用など、複数の要因に依存する。 その結果, 復元問題の難易度は, 自然サンプル・バイ・サンプルの変動が生じた。 我々のキーとなる観察は、既存の逆問題解決器のほとんどは、その計算力を再構築作業の難しさに適応させる能力に欠けており、その結果、性能が劣り、リソースの割り当てが無駄になるということである。 オートエンコーダの潜時空間における劣化信号の劣化度を推定する新しい手法である$\textit{severity encoding}$を提案する。 推定重大度が真の汚損レベルと強く相関していることを示し,サンプル・バイ・サンプルに基づく復元問題の難しさを示唆する有用なヒントを提供する。 さらに, 遅延拡散モデルに基づく逆拡散サンプリング軌道を微調整し, サンプル適応推論時間を実現する手法を提案する。 私たちのフレームワークであるFlash-Diffusionは、遅延拡散ベースのベースラインソルバと組み合わせて、サンプル適応性と加速度を付与するラッパーとして機能します。 線形逆問題と非線形逆問題の両方について実験を行い、本手法がベースラインソルバの性能を大幅に改善し、平均サンプリング速度で最大10\times$Acceleratorを実現することを示した。

Inverse problems arise in a multitude of applications, where the goal is to recover a clean signal from noisy and possibly (non)linear observations. The difficulty of a reconstruction problem depends on multiple factors, such as the ground truth signal structure, the severity of the degradation and the complex interactions between the above. This results in natural sample-by-sample variation in the difficulty of a reconstruction problem. Our key observation is that most existing inverse problem solvers lack the ability to adapt their compute power to the difficulty of the reconstruction task, resulting in subpar performance and wasteful resource allocation. We propose a novel method, $\textit{severity encoding}$, to estimate the degradation severity of corrupted signals in the latent space of an autoencoder. We show that the estimated severity has strong correlation with the true corruption level and can provide useful hints on the difficulty of reconstruction problems on a sample-by-sample basis. Furthermore, we propose a reconstruction method based on latent diffusion models that leverages the predicted degradation severities to fine-tune the reverse diffusion sampling trajectory and thus achieve sample-adaptive inference times. Our framework, Flash-Diffusion, acts as a wrapper that can be combined with any latent diffusion-based baseline solver, imbuing it with sample-adaptivity and acceleration. We perform experiments on both linear and nonlinear inverse problems and demonstrate that our technique greatly improves the performance of the baseline solver and achieves up to $10\times$ acceleration in mean sampling speed.
翻訳日:2024-08-21 20:51:22 公開日:2024-08-19
# インプット不要:不規則にサンプリングされた時系列へのスイッチアプローチ

No Imputation Needed: A Switch Approach to Irregularly Sampled Time Series ( http://arxiv.org/abs/2309.08698v2 )

ライセンス: Link先を確認
Rohit Agarwal, Aman Sinha, Ayan Vishwakarma, Xavier Coubez, Marianne Clausel, Mathieu Constant, Alexander Horsch, Dilip K. Prasad, (参考訳) 不規則サンプリング時系列(ISTS)のモデリングは、値不足のため困難である。 既存のほとんどのメソッドは、不規則にサンプリングされたデータをインプットによって定期的にサンプリングされたデータに変換することで、ISTSの処理に重点を置いている。 これらのモデルでは、不必要なバイアスや準最適性能をもたらすメカニズムが欠落していると仮定する。 SLAN(Switch LSTM Aggregate Network)は,LSTMのグループを用いてISTSを計算せずにモデル化し,基礎となるプロセスの仮定をなくす。 スイッチを使って計測されたセンサーに基づいて、アーキテクチャをリアルタイムで適応させる。 SLANは、各センサの局所的なサマリーを明示的に捉え、観測期間を通してグローバルなサマリー状態を維持するために不規則情報を利用する。 SLANがMIMIC-IIIとPhyloonet 2012の2つの公開データセットに対して有効であることを示す。

Modeling irregularly-sampled time series (ISTS) is challenging because of missing values. Most existing methods focus on handling ISTS by converting irregularly sampled data into regularly sampled data via imputation. These models assume an underlying missing mechanism, which may lead to unwanted bias and sub-optimal performance. We present SLAN (Switch LSTM Aggregate Network), which utilizes a group of LSTMs to model ISTS without imputation, eliminating the assumption of any underlying process. It dynamically adapts its architecture on the fly based on the measured sensors using switches. SLAN exploits the irregularity information to explicitly capture each sensor's local summary and maintains a global summary state throughout the observational period. We demonstrate the efficacy of SLAN on two public datasets, namely, MIMIC-III, and Physionet 2012.
翻訳日:2024-08-21 20:51:22 公開日:2024-08-19
# ヒープトップ: 安全なヒープオブジェクトの効率的なメモリエラー保護

Top of the Heap: Efficient Memory Error Protection of Safe Heap Objects ( http://arxiv.org/abs/2310.06397v2 )

ライセンス: Link先を確認
Kaiming Huang, Mathias Payer, Zhiyun Qian, Jack Sampson, Gang Tan, Trent Jaeger, (参考訳) ヒープメモリエラーは、ソフトウェア脆弱性の主要な原因である。 既存のメモリセーフティディフェンスは、すべてのオブジェクトを保護することを目的としており、高いパフォーマンスコストと不完全な保護をもたらす。 代わりに,コストのかかるオブジェクトを正確に識別する手法を提案し,そのようなオブジェクトをメモリエラーのすべてのクラスから包括的に保護する方法を設計する。 この目的に向けて,(1)アクセスが空間的および型安全を満足するヒープオブジェクトを静的に識別するUriahシステムを導入し,(2)時間的および型的安全を保ちながら,時間的安全の形式を強制するために,分離された安全ヒープ上にそのような「安全な」ヒープオブジェクトを動的に割り当てるUriahシステムを紹介した。 Uriahによると、ヒープ割り当てサイトの72.0%は、SPEC CPU2006/2017ベンチマークや5つのサーバプログラム、Firefoxで常に空間的および型安全性を満たすオブジェクトを生成している。 Uriahは、9.3%と5.4%のメモリオーバーヘッドとともに、SPEC CPU 2006と2017ベンチマークでわずか2.9%と2.6%のランタイムオーバーヘッドを発生させ、DARPA CGCバイナリと28の最近のCVEのヒープメモリエラーの悪用を防ぐ。 さらに、既存のディフェンスを使用して、安全でないヒープオブジェクトのメモリ安全性を保証することで、オーバーヘッドを大幅に削減し、より実用的なコストですべてのメモリエラーからヒープオブジェクトを保護することができる。

Heap memory errors remain a major source of software vulnerabilities. Existing memory safety defenses aim at protecting all objects, resulting in high performance cost and incomplete protection. Instead, we propose an approach that accurately identifies objects that are inexpensive to protect, and design a method to protect such objects comprehensively from all classes of memory errors. Towards this goal, we introduce the Uriah system that (1) statically identifies the heap objects whose accesses satisfy spatial and type safety, and (2) dynamically allocates such "safe" heap objects on an isolated safe heap to enforce a form of temporal safety while preserving spatial and type safety, called temporal allocated-type safety. Uriah finds 72.0% of heap allocation sites produce objects whose accesses always satisfy spatial and type safety in the SPEC CPU2006/2017 benchmarks, 5 server programs, and Firefox, which are then isolated on a safe heap using Uriah allocator to enforce temporal allocated-type safety. Uriah incurs only 2.9% and 2.6% runtime overhead, along with 9.3% and 5.4% memory overhead, on the SPEC CPU 2006 and 2017 benchmarks, while preventing exploits on all the heap memory errors in DARPA CGC binaries and 28 recent CVEs. Additionally, using existing defenses to enforce their memory safety guarantees on the unsafe heap objects significantly reduces overhead, enabling the protection of heap objects from all classes of memory errors at more practical costs.
翻訳日:2024-08-21 20:51:22 公開日:2024-08-19
# 因果解析による強化学習エージェントの強化のためのフレームワーク:自動暗号取引の強化

A Framework for Empowering Reinforcement Learning Agents with Causal Analysis: Enhancing Automated Cryptocurrency Trading ( http://arxiv.org/abs/2310.09462v2 )

ライセンス: Link先を確認
Rasoul Amirzadeh, Dhananjay Thiruvady, Asef Nazari, Mong Shan Ee, (参考訳) 人工知能による取引手法の進歩にもかかわらず、急速に発展する暗号通貨市場では、利益の出る自動取引システムの開発が困難なままである。 本研究は,Binance Coin, Ethereum, Litecoin, Ripple, Tetherの5大アルトコイン取引の複雑さに対処する強化学習(RL)フレームワークの開発に焦点をあてる。 この目的のために,ベイズ的および動的ベイズ的ネットワーク技術を統合し,貿易決定におけるRLエージェントの強化を目的としたCausalReinforceNet~(CRN)フレームワークを提案する。 本稿では,このフレームワークを用いて,Bell-and-HoldベンチマークとベースラインRLモデルと比較して,異なるRLアルゴリズムを用いて性能を解析する2つのエージェントを開発した。 以上の結果から,CRNの持つ一貫した優位性は,暗号通貨によって異なるものの,我々のフレームワークが利益率の両モデルを上回ることが示唆された。

Despite advances in artificial intelligence-enhanced trading methods, developing a profitable automated trading system remains challenging in the rapidly evolving cryptocurrency market. This research focuses on developing a reinforcement learning (RL) framework to tackle the complexities of trading five prominent altcoins: Binance Coin, Ethereum, Litecoin, Ripple, and Tether. To this end, we present the CausalReinforceNet~(CRN) framework, which integrates both Bayesian and dynamic Bayesian network techniques to empower the RL agent in trade decision-making. We develop two agents using the framework based on distinct RL algorithms to analyse performance compared to the Buy-and-Hold benchmark strategy and a baseline RL model. The results indicate that our framework surpasses both models in profitability, highlighting CRN's consistent superiority, although the level of effectiveness varies across different cryptocurrencies.
翻訳日:2024-08-21 20:51:22 公開日:2024-08-19
# 拡散モデルによるプライバシ保存合成EHR時系列の信頼性生成

Reliable Generation of Privacy-preserving Synthetic EHR Time Series via Diffusion Models ( http://arxiv.org/abs/2310.15290v4 )

ライセンス: Link先を確認
Muhang Tian, Bernie Chen, Allan Guo, Shiyi Jiang, Anru R. Zhang, (参考訳) 電子健康記録(Electronic Health Records, EHRs)は、患者レベルの豊富なデータソースであり、医療データ分析に有用なリソースを提供する。 しかしながら、プライバシー上の懸念はしばしばEHRへのアクセスを制限し、下流の分析を妨げる。 現在のEHRの特定方法には欠陥があり、潜在的なプライバシー漏洩につながる可能性がある。 さらに、既存の公開EHRデータベースは制限されており、EHRを用いた医学研究の進歩を妨げている。 本研究の目的は、現実的でプライバシーに配慮した電子健康記録(EHR)を効率的に生成し、これらの課題を克服することである。 本稿では,Denoising Diffusion Probabilistic Models (DDPM) を用いて,多種多様なリアルなEHR時系列データを生成する手法を提案する。 我々は,集中治療のための医療情報マート(MIMIC-III/IV),eICU協調研究データベース(eICU),ストック・アンド・エナジーに関する非EHRデータセットの6つのデータベースについて実験を行った。 提案手法を8つの既存手法と比較した。 以上の結果から,本手法はトレーニングの労力を減らしながら,データ忠実度の観点から既存の手法を著しく上回っていることが示された。 さらに,本手法により生成されたデータは,他のベースライン法に比べて識別精度が低く,プライバシーリスクの低いデータを生成することができることを示す。 提案した拡散モデルに基づく手法は、下流の医療データ分析を容易にする合成EHR時系列を確実かつ効率的に生成することができる。 提案手法が既存手法よりも優れていることを示す数値計算結果を得た。

Electronic Health Records (EHRs) are rich sources of patient-level data, offering valuable resources for medical data analysis. However, privacy concerns often restrict access to EHRs, hindering downstream analysis. Current EHR de-identification methods are flawed and can lead to potential privacy leakage. Additionally, existing publicly available EHR databases are limited, preventing the advancement of medical research using EHR. This study aims to overcome these challenges by generating realistic and privacy-preserving synthetic electronic health records (EHRs) time series efficiently. We introduce a new method for generating diverse and realistic synthetic EHR time series data using Denoising Diffusion Probabilistic Models (DDPM). We conducted experiments on six databases: Medical Information Mart for Intensive Care III and IV (MIMIC-III/IV), the eICU Collaborative Research Database (eICU), and non-EHR datasets on Stocks and Energy. We compared our proposed method with eight existing methods. Our results demonstrate that our approach significantly outperforms all existing methods in terms of data fidelity while requiring less training effort. Additionally, data generated by our method yields a lower discriminative accuracy compared to other baseline methods, indicating the proposed method can generate data with less privacy risk. The proposed diffusion-model-based method can reliably and efficiently generate synthetic EHR time series, which facilitates the downstream medical data analysis. Our numerical results show the superiority of the proposed method over all other existing methods.
翻訳日:2024-08-21 20:41:04 公開日:2024-08-19
# 最小限に修正されたマルコフゲームは、あらゆるナッシュ均衡と価値を得る

Minimally Modifying a Markov Game to Achieve Any Nash Equilibrium and Value ( http://arxiv.org/abs/2311.00582v4 )

ライセンス: Link先を確認
Young Wu, Jeremy McMahan, Yiding Chen, Yudong Chen, Xiaojin Zhu, Qiaomin Xie, (参考訳) 本稿では,ゲーム修正問題について検討する。このゲーム修正問題では,ゼロサムマルコフゲームの報酬関数を,目標決定的あるいは確率的ポリシープロファイルが独自のマルコフ完全ナッシュ均衡となり,目標範囲内に値を持つように変更コストを最小限に抑える方法として,ゼロサムマルコフゲームの報酬関数を変更する。 ゲームの一意平衡としてインストール可能なポリシープロファイルの集合を特徴付け,インストールを成功させるために十分な,必要な条件を確立する。 線形制約で凸最適化問題を解き、次にランダムな摂動を行い、ほぼ最適コストで修正計画を得る効率的なアルゴリズムを提案する。

We study the game modification problem, where a benevolent game designer or a malevolent adversary modifies the reward function of a zero-sum Markov game so that a target deterministic or stochastic policy profile becomes the unique Markov perfect Nash equilibrium and has a value within a target range, in a way that minimizes the modification cost. We characterize the set of policy profiles that can be installed as the unique equilibrium of a game and establish sufficient and necessary conditions for successful installation. We propose an efficient algorithm that solves a convex optimization problem with linear constraints and then performs random perturbation to obtain a modification plan with a near-optimal cost.
翻訳日:2024-08-21 20:41:04 公開日:2024-08-19
# グラフ変換システムを用いたBPMNの形式化と分析のための高次変換手法

A higher-order transformation approach to the formalization and analysis of BPMN using graph transformation systems ( http://arxiv.org/abs/2311.05243v6 )

ライセンス: Link先を確認
Tim Kräuter, Adrian Rutle, Harald König, Yngve Lamo, (参考訳) ビジネスプロセスモデリング表記法(BPMN、Business Process Modeling Notation)は、組織内および組織間ワークフローを定義するための広く使われている標準表記法である。 しかし、BPMN実行セマンティクスの非公式な記述は、BPMN要素の異なる解釈と振る舞い特性のチェックの難しさをもたらします。 本稿では、BPMNの実行セマンティクスの形式化を提案し、既存のアプローチと比較して、より多くのBPMN要素をカバーし、プロパティチェックを容易にする。 私たちのアプローチは、BPMNモデルからグラフ変換システムへの高次の変換に基づいています。 このアプローチの能力を示すため、オープンソースのWebベースツールとして実装しました。

The Business Process Modeling Notation (BPMN) is a widely used standard notation for defining intra- and inter-organizational workflows. However, the informal description of the BPMN execution semantics leads to different interpretations of BPMN elements and difficulties in checking behavioral properties. In this article, we propose a formalization of the execution semantics of BPMN that, compared to existing approaches, covers more BPMN elements while also facilitating property checking. Our approach is based on a higher-order transformation from BPMN models to graph transformation systems. To show the capabilities of our approach, we implemented it as an open-source web-based tool.
翻訳日:2024-08-21 20:41:04 公開日:2024-08-19
# SMUG(Smoothed Unrolling)によるロバストMRI再建

Robust MRI Reconstruction by Smoothed Unrolling (SMUG) ( http://arxiv.org/abs/2312.07784v2 )

ライセンス: Link先を確認
Shijun Liang, Van Hoang Minh Nguyen, Jinghan Jia, Ismail Alkhouri, Sijia Liu, Saiprasad Ravishankar, (参考訳) 磁気共鳴画像(MRI)の分野でのディープラーニング(DL)の人気が高まっている中、最近の研究では、DLベースのMRI再構成モデルは、最悪の加法摂動を含む小さな入力障害に対して過度に敏感である可能性が示唆されている。 この感度は不安定なエイリアス画像につながることが多い。 このことは、MRI再建のためのDLテクニックをいかにして考案するかという疑問を提起する。 そこで我々は,SMUG(Smoothed Unrolling)と呼ばれる新しい画像再構成フレームワークを提案する。 入力雑音に対するモデルの耐性を向上させるRSは、画像分類タスクの対角防御手法の設計に広く用いられている。 しかし, 従来の DL ベースMRI モデルに RS を適用した設計は, 効果がないことが判明した。 本稿では、SMUGとその変種が、DLベースMRI再構成モデルのアンロールアーキテクチャに基づいてRSプロセスをカスタマイズすることで、上記の問題に対処できることを示す。 バニラRS法と比較して、SMUGは、入力測定に対する最悪のケースやランダムノイズの摂動、様々な測定サンプリングレート、様々なアンローリングステップを含む様々な不安定源に対して、MRI再構成の堅牢性を改善する。 さらに,摂動の存在下での手法のロバスト性も理論的に解析した。

As the popularity of deep learning (DL) in the field of magnetic resonance imaging (MRI) continues to rise, recent research has indicated that DL-based MRI reconstruction models might be excessively sensitive to minor input disturbances, including worst-case additive perturbations. This sensitivity often leads to unstable, aliased images. This raises the question of how to devise DL techniques for MRI reconstruction that can be robust to train-test variations. To address this problem, we propose a novel image reconstruction framework, termed Smoothed Unrolling (SMUG), which advances a deep unrolling-based MRI reconstruction model using a randomized smoothing (RS)-based robust learning approach. RS, which improves the tolerance of a model against input noises, has been widely used in the design of adversarial defense approaches for image classification tasks. Yet, we find that the conventional design that applies RS to the entire DL-based MRI model is ineffective. In this paper, we show that SMUG and its variants address the above issue by customizing the RS process based on the unrolling architecture of a DL-based MRI reconstruction model. Compared to the vanilla RS approach, we show that SMUG improves the robustness of MRI reconstruction with respect to a diverse set of instability sources, including worst-case and random noise perturbations to input measurements, varying measurement sampling rates, and different numbers of unrolling steps. Furthermore, we theoretically analyze the robustness of our method in the presence of perturbations.
翻訳日:2024-08-21 20:41:04 公開日:2024-08-19
# Malla: 現実の大規模言語モデル統合型悪意サービス

Malla: Demystifying Real-world Large Language Model Integrated Malicious Services ( http://arxiv.org/abs/2401.03315v3 )

ライセンス: Link先を確認
Zilong Lin, Jian Cui, Xiaojing Liao, XiaoFeng Wang, (参考訳) 大規模言語モデル(LLM)の悪意あるサービス(すなわちMalla)に対する地下での搾取は、サイバー脅威の風景を増幅し、LLM技術の信頼性に関する疑問を呈している。 しかし、この新たなサイバー犯罪を、その規模、影響、技術の観点から理解する努力はほとんどなかった。 本稿では,212の現実世界のMallasに関する最初の体系的研究を行い,地下市場におけるMallasの増殖を明らかにし,その運用的モダリティを明らかにする。 我々の研究は、Mallaエコシステムを明らかにし、その大きな成長と今日の公共LLMサービスへの影響を明らかにします。 Mallas 212 を調査した結果,Mallas が使用する 8 つのバックエンド LLM と,公共 LLM API の保護対策を回避する 182 のプロンプトが発見された。 脱獄プロンプトによる無検閲LLMの悪用や、公開LLM APIの悪用など、Mallasが採用した戦術をさらに軽視する。 我々の発見は、サイバー犯罪によるLLMの現実世界の搾取をよりよく理解し、このサイバー犯罪に対処するための戦略に関する洞察を提供する。

The underground exploitation of large language models (LLMs) for malicious services (i.e., Malla) is witnessing an uptick, amplifying the cyber threat landscape and posing questions about the trustworthiness of LLM technologies. However, there has been little effort to understand this new cybercrime, in terms of its magnitude, impact, and techniques. In this paper, we conduct the first systematic study on 212 real-world Mallas, uncovering their proliferation in underground marketplaces and exposing their operational modalities. Our study discloses the Malla ecosystem, revealing its significant growth and impact on today's public LLM services. Through examining 212 Mallas, we uncovered eight backend LLMs used by Mallas, along with 182 prompts that circumvent the protective measures of public LLM APIs. We further demystify the tactics employed by Mallas, including the abuse of uncensored LLMs and the exploitation of public LLM APIs through jailbreak prompts. Our findings enable a better understanding of the real-world exploitation of LLMs by cybercriminals, offering insights into strategies to counteract this cybercrime.
翻訳日:2024-08-21 20:30:33 公開日:2024-08-19
# 知識機能を組み込んだプロンプト学習によるソースコード分類の有効性向上

Enhancing Source Code Classification Effectiveness via Prompt Learning Incorporating Knowledge Features ( http://arxiv.org/abs/2401.05544v4 )

ライセンス: Link先を確認
Yong Ma, Senlin Luo, Yu-Ming Shang, Yifei Zhang, Zhengjun Li, (参考訳) 研究者は、CodeBERTのような事前訓練された言語モデルを活用して、ソースコード関連のタスクを強化する可能性を調査している。 従来の手法では、CodeBERTの'[CLS]'トークンをタスクパフォーマンスのための入力シーケンスの埋め込み表現として利用しており、特徴表現を強化するために追加のニューラルネットワーク層が必要であるため、計算コストが増大している。 これらのアプローチは、ソースコードと関連するテキストに固有の包括的な知識を十分に活用することができず、分類の有効性を制限している可能性がある。 我々は,事前学習したモデルから,入力シーケンスに関連する豊富な知識を抽出し,付加的なレイヤの必要性を排除し,計算コストを下げるためのテキスト分類手法であるCodeClassPromptを提案する。 注意機構を適用することで、タスク固有の特徴に多層的知識を合成し、分類精度を向上する。 ソースコード関連タスクを4つに分けて総合的に実験した結果,CodeClassPromptは計算オーバーヘッドを大幅に削減し,競争性能を向上することがわかった。

Researchers have investigated the potential of leveraging pre-trained language models, such as CodeBERT, to enhance source code-related tasks. Previous methodologies have relied on CodeBERT's '[CLS]' token as the embedding representation of input sequences for task performance, necessitating additional neural network layers to enhance feature representation, which in turn increases computational expenses. These approaches have also failed to fully leverage the comprehensive knowledge inherent within the source code and its associated text, potentially limiting classification efficacy. We propose CodeClassPrompt, a text classification technique that harnesses prompt learning to extract rich knowledge associated with input sequences from pre-trained models, thereby eliminating the need for additional layers and lowering computational costs. By applying an attention mechanism, we synthesize multi-layered knowledge into task-specific features, enhancing classification accuracy. Our comprehensive experimentation across four distinct source code-related tasks reveals that CodeClassPrompt achieves competitive performance while significantly reducing computational overhead.
翻訳日:2024-08-21 20:30:33 公開日:2024-08-19
# 正規化予測逆最適化のための確率的(可変再生)近似勾配法について

On the Stochastic (Variance-Reduced) Proximal Gradient Method for Regularized Expected Reward Optimization ( http://arxiv.org/abs/2401.12508v2 )

ライセンス: Link先を確認
Ling Liang, Haizhao Yang, (参考訳) 我々は、強化学習(RL)における既存の問題の多くをカバーする非公益的な設定において、正規化された期待報酬最適化問題を考察する。 このような最適化問題を解決するために,古典的確率的近位勾配法を適用し,解析する。 特に、標準的な条件下では、この方法は$O(\epsilon^{-4})$サンプルの複雑さを$\epsilon$-定常点に含めることを示した。 古典的確率勾配推定器の分散は典型的に大きく、収束を遅くするので、重要サンプリングに基づく確率勾配推定器(PAGE)を用いた効率的な確率勾配推定法も適用する。 分析の結果、追加条件下では、サンプルの複雑さは$O(\epsilon^{-4})$から$O(\epsilon^{-3})$に改善できることがわかった。 確率的(分散還元された)近位勾配法の結果は, 類似した条件下でのマルコフ決定過程において, 競合する最も複雑な解法と一致した。 我々の知る限り、提案手法は一般的な正規化報酬最適化問題に対処する新しい手法である。

We consider a regularized expected reward optimization problem in the non-oblivious setting that covers many existing problems in reinforcement learning (RL). In order to solve such an optimization problem, we apply and analyze the classical stochastic proximal gradient method. In particular, the method has shown to admit an $O(\epsilon^{-4})$ sample complexity to an $\epsilon$-stationary point, under standard conditions. Since the variance of the classical stochastic gradient estimator is typically large, which slows down the convergence, we also apply an efficient stochastic variance-reduce proximal gradient method with an importance sampling based ProbAbilistic Gradient Estimator (PAGE). Our analysis shows that the sample complexity can be improved from $O(\epsilon^{-4})$ to $O(\epsilon^{-3})$ under additional conditions. Our results on the stochastic (variance-reduced) proximal gradient method match the sample complexity of their most competitive counterparts for discounted Markov decision processes under similar settings. To the best of our knowledge, the proposed methods represent a novel approach in addressing the general regularized reward optimization problem.
翻訳日:2024-08-21 20:30:33 公開日:2024-08-19
# 構造認識型E(3)不変分子コンバータ集約ネットワーク

Structure-Aware E(3)-Invariant Molecular Conformer Aggregation Networks ( http://arxiv.org/abs/2402.01975v3 )

ライセンス: Link先を確認
Duy M. H. Nguyen, Nina Lukashina, Tai Nguyen, An T. Le, TrungTin Nguyen, Nhat Ho, Jan Peters, Daniel Sonntag, Viktor Zaverkin, Mathias Niepert, (参考訳) 分子の2D表現は、その原子、その特性、および分子の共有結合からなる。 分子の3D(幾何学的)表現はコンバータと呼ばれ、その原子型とカルテシアン座標からなる。 すべての共役体はポテンシャルエネルギーを持ち、このエネルギーが低いほど自然界で起こる可能性が高くなる。 分子特性予測のための既存の機械学習手法の多くは、2次元分子グラフまたは3次元コンフォメータ構造表現を独立に考慮している。 2次元グラフ表現とともにコンホメータのアンサンブルを用いた最近の研究に触発され、$\mathrm{E}$(3)-invariant molecular conformer aggregate networkを提案する。 この方法は分子の2D表現と複数のコンフォメータの表現を統合する。 従来の研究とは対照的に,Fused Gromov-Wasserstein Barycenter問題に対する微分可能解法に基づく新しい2D-3Dアグリゲーション機構と距離幾何学に基づく効率的なコンホメータ生成手法を提案する。 提案するアグリゲーション機構は$\mathrm{E}$(3)不変であり,効率的なGPU実装を提案する。 さらに, このアグリゲーション機構は, 確立したデータセット上での最先端分子特性予測手法を著しく上回ることを示す。

A molecule's 2D representation consists of its atoms, their attributes, and the molecule's covalent bonds. A 3D (geometric) representation of a molecule is called a conformer and consists of its atom types and Cartesian coordinates. Every conformer has a potential energy, and the lower this energy, the more likely it occurs in nature. Most existing machine learning methods for molecular property prediction consider either 2D molecular graphs or 3D conformer structure representations in isolation. Inspired by recent work on using ensembles of conformers in conjunction with 2D graph representations, we propose $\mathrm{E}$(3)-invariant molecular conformer aggregation networks. The method integrates a molecule's 2D representation with that of multiple of its conformers. Contrary to prior work, we propose a novel 2D-3D aggregation mechanism based on a differentiable solver for the Fused Gromov-Wasserstein Barycenter problem and the use of an efficient conformer generation method based on distance geometry. We show that the proposed aggregation mechanism is $\mathrm{E}$(3) invariant and propose an efficient GPU implementation. Moreover, we demonstrate that the aggregation mechanism helps to significantly outperform state-of-the-art molecule property prediction methods on established datasets.
翻訳日:2024-08-21 20:19:21 公開日:2024-08-19
# 反復的比例フィッティングによるマルジナルスからの動的ネットワークの推定

Inferring Dynamic Networks from Marginals with Iterative Proportional Fitting ( http://arxiv.org/abs/2402.18697v2 )

ライセンス: Link先を確認
Serina Chang, Frederic Koehler, Zhaonan Qu, Jure Leskovec, Johan Ugander, (参考訳) 実世界のデータ制約から生じる一般的なネットワーク推論問題は、時間集約の隣接行列と時間変化の限界(行と列の和)から動的ネットワークを推論する方法である。 この問題に対する以前のアプローチでは、Sinkhornのアルゴリズムとしても知られる古典的反復比例フィッティング(IPF)の手法を、有望な経験的結果とともに再利用した。 しかし、IPFを使用するための統計的基盤はよく理解されていない。IPFはどんな設定で、その限界から動的ネットワークを原則的に推定し、ネットワークをどの程度うまく見積もっているのか? 本稿では,IPFによって最大推定値が復元される生成ネットワークモデルを特定することにより,そのような設定を確立する。 両モデルとも,IPF の利用に関する暗黙の仮定を明らかにし,IPF のパラメータ推定に対する構造依存誤差境界などの新たな解析を可能にする。 IPFがスパースネットワークデータに収束しない場合、ネットワーク構造への最小限の変更の下でIPFが収束することを保証するアルゴリズムを導入する。 最後に、我々の理論的およびアルゴリズム的貢献の実践的価値を示す合成および実世界のデータを用いて実験を行う。

A common network inference problem, arising from real-world data constraints, is how to infer a dynamic network from its time-aggregated adjacency matrix and time-varying marginals (i.e., row and column sums). Prior approaches to this problem have repurposed the classic iterative proportional fitting (IPF) procedure, also known as Sinkhorn's algorithm, with promising empirical results. However, the statistical foundation for using IPF has not been well understood: under what settings does IPF provide principled estimation of a dynamic network from its marginals, and how well does it estimate the network? In this work, we establish such a setting, by identifying a generative network model whose maximum likelihood estimates are recovered by IPF. Our model both reveals implicit assumptions on the use of IPF in such settings and enables new analyses, such as structure-dependent error bounds on IPF's parameter estimates. When IPF fails to converge on sparse network data, we introduce a principled algorithm that guarantees IPF converges under minimal changes to the network structure. Finally, we conduct experiments with synthetic and real-world data, which demonstrate the practical value of our theoretical and algorithmic contributions.
翻訳日:2024-08-21 20:19:21 公開日:2024-08-19
# Moka: Mark-based Visual Promptingによるオープンボキャブラリロボットマニピュレーション

MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting ( http://arxiv.org/abs/2403.03174v2 )

ライセンス: Link先を確認
Fangchen Liu, Kuan Fang, Pieter Abbeel, Sergey Levine, (参考訳) オープンワールドの一般化は、多様な複雑なタスクを解決するために、ロボットシステムが物理世界とユーザコマンドを深く理解する必要がある。 近年の視覚言語モデル(VLM)の進歩は、オープンワールドの問題を解決する前例のない機会を提供してきたが、ロボットを制御する能力の活用は依然として大きな課題である。 本稿では,自由言語命令によって指定されたロボット操作タスクを解決するために,VLMを用いたMoka(Marking Open-vocabulary Keypoint Affordances)を提案する。 我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。 事前学習したVLMを推し進めることで、広範データソースから得られたVLMの常識知識と概念理解を利用して、余裕を予測し、動きを生成する。 ゼロショットや少数ショットの方法でのVLMの推論を容易にするため,画像にマークを付加する視覚的プロンプト手法を提案し,可視性推論をVLMで解ける一連の視覚的質問応答問題に変換する。 さらに,Mokaが収集したロボット体験を用いて,文脈内学習と政策蒸留による性能向上手法についても検討する。 ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。

Open-world generalization requires robotic systems to have a profound understanding of the physical world and the user command to solve diverse and complex tasks. While the recent advancement in vision-language models (VLMs) has offered unprecedented opportunities to solve open-world problems, how to leverage their capabilities to control robots remains a grand challenge. In this paper, we present MOKA (Marking Open-vocabulary Keypoint Affordances), an approach that employs VLMs to solve robotic manipulation tasks specified by free-form language instructions. Central to our approach is a compact point-based representation of affordance, which bridges the VLM's predictions on observed images and the robot's actions in the physical world. By prompting the pre-trained VLM, our approach utilizes the VLM's commonsense knowledge and concept understanding acquired from broad data sources to predict affordances and generate motions. To facilitate the VLM's reasoning in zero-shot and few-shot manners, we propose a visual prompting technique that annotates marks on images, converting affordance reasoning into a series of visual question-answering problems that are solvable by the VLM. We further explore methods to enhance performance with robot experiences collected by MOKA through in-context learning and policy distillation. We evaluate and analyze MOKA's performance on various table-top manipulation tasks including tool use, deformable body manipulation, and object rearrangement.
翻訳日:2024-08-21 20:19:21 公開日:2024-08-19
# ワークロード制約のある複数のエキスパートに対処するためのコスト感的な学習

Cost-Sensitive Learning to Defer to Multiple Experts with Workload Constraints ( http://arxiv.org/abs/2403.06906v3 )

ライセンス: Link先を確認
Jean V. Alves, Diogo Leitão, Sérgio Jesus, Marco O. P. Sampaio, Javier Liébana, Pedro Saleiro, Mário A. T. Figueiredo, Pedro Bizarro, (参考訳) L2D(Learning to Defer)は、ML分類器よりも正確である可能性が高いときに、人間に意思決定を延期する方法を学ぶことによって、人間とAIのコラボレーションシステムを改善することを目的としている。 L2Dの既存の研究は、その実践的採用を妨げる重要な現実世界の側面を見落としている。 一 タイプI及びタイプIIのエラーが異なるコストのかかる費用に敏感なシナリオを無視すること。 二 訓練データセットのすべての事例に同時人為的な予測が必要であること。 三 人間の労働力の制約に対処しないこと。 これらの問題に対処するため,コストとキャパシティ制約の枠組み (DeCCaF) として, textit{deferral を提案する。 DeCCaFは新しいL2Dアプローチであり、教師付き学習を用いて、制約の少ないデータ要件下でのヒューマンエラーの確率をモデル化し(インスタンス毎に1つの専門家予測のみ)、制約プログラミングを使用して、ワークロード制限の下でエラーコストを世界規模で最小化する。 そこで我々は,DeCCaFを,9人の総合的詐欺アナリストの異なるチームによる,作業能力の制約のある一連のコスト感受性詐欺検出シナリオで検証した。 その結果,提案手法は幅広いシナリオのベースラインよりもはるかに優れた性能を示し,誤分類コストを平均8.4\%削減することに成功した。 実験に使用されたコードはhttps://github.com/feedzai/deccafで公開されている。

Learning to defer (L2D) aims to improve human-AI collaboration systems by learning how to defer decisions to humans when they are more likely to be correct than an ML classifier. Existing research in L2D overlooks key real-world aspects that impede its practical adoption, namely: i) neglecting cost-sensitive scenarios, where type I and type II errors have different costs; ii) requiring concurrent human predictions for every instance of the training dataset; and iii) not dealing with human work-capacity constraints. To address these issues, we propose the \textit{deferral under cost and capacity constraints framework} (DeCCaF). DeCCaF is a novel L2D approach, employing supervised learning to model the probability of human error under less restrictive data requirements (only one expert prediction per instance) and using constraint programming to globally minimize the error cost, subject to workload limitations. We test DeCCaF in a series of cost-sensitive fraud detection scenarios with different teams of 9 synthetic fraud analysts, with individual work-capacity constraints. The results demonstrate that our approach performs significantly better than the baselines in a wide array of scenarios, achieving an average $8.4\%$ reduction in the misclassification cost. The code used for the experiments is available at https://github.com/feedzai/deccaf
翻訳日:2024-08-21 20:09:31 公開日:2024-08-19
# 持続可能なスマート生態系のためのディジタルツイン進化

Digital Twin Evolution for Sustainable Smart Ecosystems ( http://arxiv.org/abs/2403.07162v3 )

ライセンス: Link先を確認
Judith Michael, Istvan David, Dominik Bork, (参考訳) スマートエコシステムは現代社会の原動力である。 社会技術的・経済的重要性のインフラを制御し、安定的で持続可能な運営を確実にする。 スマートエコシステムは、物理的なインフラストラクチャのリアルタイム仮想表現であるデジタルツインによって管理されている。 スマートエコシステムのオープンでリアクティブな特性をサポートするためには、ディジタル双生児は、状況の変化に反応して進化できる必要がある。 しかし、デジタル双対進化は、物理的およびソフトウェアコンポーネントの相互に絡み合った性質とその個々の進化によって挑戦される。 結果として、ソフトウェア実践者は、デジタルツイン進化のシナリオや、デジタルツイン進化そのものに関する知識の欠如に適用し難い、ソフトウェア進化に関するかなりの知識を見出します。 本論文の目的は,デジタル双生児の進化的関心事の理解と管理に向けて,ソフトウェア実践者に具体的な手がかりを提供することである。 我々は、デジタル双生児進化の7R分類の使い方を説明するために、市民エネルギーコミュニティケースで文脈化された4つの異なるデジタル双生児進化シナリオを使用する。 これによって、ソフトウェアエンジニアリングのプラクティスを活用して堅牢なスマートエコシステムを開発する上で、大きなギャップを埋めることを目指しています。

Smart ecosystems are the drivers of modern society. They control infrastructures of socio-techno-economic importance, ensuring their stable and sustainable operation. Smart ecosystems are governed by digital twins -- real-time virtual representations of physical infrastructure. To support the open-ended and reactive traits of smart ecosystems, digital twins need to be able to evolve in reaction to changing conditions. However, digital twin evolution is challenged by the intertwined nature of physical and software components, and their individual evolution. As a consequence, software practitioners find a substantial body of knowledge on software evolution hard to apply in digital twin evolution scenarios and a lack of knowledge on the digital twin evolution itself. The aim of this paper, consequently, is to provide software practitioners with tangible leads toward understanding and managing the evolutionary concerns of digital twins. We use four distinct digital twin evolution scenarios, contextualized in a citizen energy community case to illustrate the usage of the 7R taxonomy of digital twin evolution. By that, we aim to bridge a significant gap in leveraging software engineering practices to develop robust smart ecosystems.
翻訳日:2024-08-21 20:09:31 公開日:2024-08-19
# すべての非キラルアーベル位相に対する低オーバーヘッド非クリフォードフォールトトレラント回路

Low-overhead non-Clifford fault-tolerant circuits for all non-chiral abelian topological phases ( http://arxiv.org/abs/2403.12119v2 )

ライセンス: Link先を確認
Andreas Bauer, (参考訳) 本稿では,2次元平面格子上の幾何的局所回路の一群について提案し,任意のアーベル非キラル位相を積極的に誤り訂正したフォールトトレラントメモリとして実現した。 これらの回路は、セルコホモロジーと高次カップ生成物を通して表現される離散的不動点経路積分の1-形式対称性から構成される。 私たちが使用する具体的な経路積分は、ねじれた量子二重モデルの時空表現である三次元セルレーション上のアーベル的ジクグラーフ・ウィッテン状態和である。 結果として得られた回路は、(キューディット)安定化トーリック符号のシンドローム抽出回路に基づいており、そこでは 'twist'' を実装した非クリフォード位相ゲートを挿入する。 トーリック符号に対するオーバーヘッドは、ねじれたアーベル位相の既知の構成とは対照的に、適度である。 また,測度に基づくトポロジカル量子計算やフロッケ符号のような(量子)トーリック符号相の他のアーキテクチャは,位相ゲートに富み,ツイスト量子双対を実装できることを示した。 さらなる結果として、1-形式対称固定点回路と呼ぶ位相回路の非常に一般的なクラスに対して、任意の局所雑音(非パウリノイズを含む)の下での耐故障性を証明する。 この概念は、安定化トーリック符号、サブシステムトーリック符号、測定に基づくトポロジカル量子計算、または(CSS)ハニカムフロッケ符号と同様に、この論文の回路を統一する。 また,本手法が特定の非アベリア位相に対する耐故障回路の構築にどのように適用できるかを示す。 付録では、任意のセルレーション上の高次カップ積の式を定義するための明示的な組合せ手順を提示する。

We propose a family of explicit geometrically local circuits on a 2-dimensional planar grid of qudits, realizing any abelian non-chiral topological phase as an actively error-corrected fault-tolerant memory. These circuits are constructed from measuring 1-form symmetries in discrete fixed-point path integrals, which we express through cellular cohomology and higher-order cup products. The specific path integral we use is the abelian Dijkgraaf-Witten state sum on a 3-dimensional cellulation, which is a spacetime representation of the twisted quantum double model. The resulting circuits are based on a syndrome extraction circuit of the (qudit) stabilizer toric code, into which we insert non-Clifford phase gates that implement the ``twist''. The overhead compared to the toric code is moderate, in contrast to known constructions for twisted abelian phases. We also show that other architectures for the (qudit) toric code phase, like measurement-based topological quantum computation or Floquet codes, can be enriched with phase gates to implement twisted quantum doubles instead of their untwisted versions. As a further result, we prove fault tolerance under arbitrary local (including non-Pauli) noise for a very general class of topological circuits that we call 1-form symmetric fixed-point circuits. This notion unifies the circuits in this paper as well as the stabilizer toric code, subsystem toric code, measurement-based topological quantum computation, or the (CSS) honeycomb Floquet code. We also demonstrate how our method can be adapted to construct fault-tolerant circuits for specific non-Abelian phases. In the appendix we present an explicit combinatorial procedure to define formulas for higher cup products on arbitrary cellulations, which might be interesting in its own right to the TQFT and topological-phases community.
翻訳日:2024-08-21 20:09:31 公開日:2024-08-19
# 参照レス要約のための情報理論蒸留法

Information-Theoretic Distillation for Reference-less Summarization ( http://arxiv.org/abs/2403.13780v2 )

ライセンス: Link先を確認
Jaehun Jung, Ximing Lu, Liwei Jiang, Faeze Brahman, Peter West, Pang Wei Koh, Yejin Choi, (参考訳) 自動要約の現在の勝利レシピは、ChatGPTのようなプロプライエタリな大規模言語モデル(LLM)や、それらを教師モデルとして模倣することである。 このような大規模言語モデルへのユビキタスな依存は便利だが、もし私たちが、よりコスト効率が高く、制御可能で、強力に要約できる、代替の学習方法を求めるのであれば、小規模モデルが競争的な結果を得ることができたかどうか、重要な疑問が残る。 本稿では,LLMの能力や人文参照に頼らずに,要約のための情報理論的目的に基づいて,強力な要約器を蒸留する新しいフレームワークInfoSummを提案する。 そこで我々はまず,原文書と要約の相互情報のレンズを通して,要約のデシデラタを新たに定式化することを提案する。 この定式化に基づいて、教師モデルとしてPythia-2.8Bから出発し、さらに、理想的な要約の情報中心測度を最適化するために、モデルを自己学習する。 改良された教師を駆使して、ChatGPTの能力に頼らずに、ChatGPTと競合する5億8800万のパラメータしか持たないコンパクトで強力な要約器にたどり着く。 広範分析により,本手法は人間の評価においてドメイン内教師付きモデルよりも優れており,制御可能な要約においてChatGPTに勝っていることが明らかとなった。

The current winning recipe for automatic summarization is using proprietary large-scale language models (LLMs) such as ChatGPT as is, or imitation learning from them as teacher models. While increasingly ubiquitous dependence on such large-scale language models is convenient, there remains an important question of whether small-scale models could have achieved competitive results, if we were to seek an alternative learning method -- that allows for a more cost-efficient, controllable, yet powerful summarizer. We present InfoSumm, a novel framework to distill a powerful summarizer based on the information-theoretic objective for summarization, without relying on either the LLM's capability or human-written references. To achieve this, we first propose a novel formulation of the desiderata of summarization (saliency, faithfulness and brevity) through the lens of mutual information between the original document and the summary. Based on this formulation, we start off from Pythia-2.8B as the teacher model, which is not yet capable of summarization, then self-train the model to optimize for the information-centric measures of ideal summaries. Distilling from the improved teacher, we arrive at a compact but powerful summarizer with only 568M parameters that performs competitively against ChatGPT, without ever relying on ChatGPT's capabilities. Extensive analysis demonstrates that our approach outperforms in-domain supervised models in human evaluation, let alone state-of-the-art unsupervised methods, and wins over ChatGPT in controllable summarization.
翻訳日:2024-08-21 20:09:31 公開日:2024-08-19
# ジェネレーティブメディカルセグメンテーション

Generative Medical Segmentation ( http://arxiv.org/abs/2403.18198v2 )

ライセンス: Link先を確認
Jiayu Huo, Xi Ouyang, Sébastien Ourselin, Rachel Sparks, (参考訳) 医用画像セグメンテーション性能の急速な進歩は、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)の開発によって著しく推進されている。 これらのモデルは、識別可能なピクセル単位の分類学習パラダイムに従っており、様々な医用画像データセットにまたがる一般化能力に制限があることが多い。 本稿では,生成的医用セグメンテーション(GMS, Generative Medical Segmentation)について紹介する。 具体的には、GMSは、画像と対応する接地真理マスクの潜在表現を抽出するために、頑健な事前学習された視覚基盤モデルを使用し、次いで、潜時空間における画像からマスクへのマッピング関数を学習するモデルを用いる。 訓練後、事前に訓練された視覚基盤モデルを用いて推定されたセグメンテーションマスクを生成し、予測された潜在表現を画像空間に復号する。 GMSの設計により、モデルのトレーニング可能なパラメータが少なくなり、オーバーフィットのリスクを低減し、一般化能力を高めることができる。 異なる医用画像領域の5つの公開データセットを対象とした実験分析により、GMSは既存の識別的・生成的セグメンテーションモデルより優れていることが示された。 さらに、GMSは、同じ画像モダリティ内の異なる中心からのデータセットをうまく一般化することができる。 我々の実験は、GMSが医療画像セグメンテーションにスケーラブルで効果的なソリューションを提供していることを示唆している。 GMSの実装と訓練されたモデルウェイトはhttps://github.com/King-HAW/GMSで入手できる。

Rapid advancements in medical image segmentation performance have been significantly driven by the development of Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs). These models follow the discriminative pixel-wise classification learning paradigm and often have limited ability to generalize across diverse medical imaging datasets. In this manuscript, we introduce Generative Medical Segmentation (GMS), a novel approach leveraging a generative model to perform image segmentation. Concretely, GMS employs a robust pre-trained vision foundation model to extract latent representations for images and corresponding ground truth masks, followed by a model that learns a mapping function from the image to the mask in the latent space. Once trained, the model generates an estimated segmentation mask using the pre-trained vision foundation model to decode the predicted latent representation back into the image space. The design of GMS leads to fewer trainable parameters in the model which reduces the risk of overfitting and enhances its generalization capability. Our experimental analysis across five public datasets in different medical imaging domains demonstrates GMS outperforms existing discriminative and generative segmentation models. Furthermore, GMS is able to generalize well across datasets from different centers within the same imaging modality. Our experiments suggest GMS offers a scalable and effective solution for medical image segmentation. GMS implementation and trained model weights are available at https://github.com/King-HAW/GMS.
翻訳日:2024-08-21 20:09:31 公開日:2024-08-19
# WHALE-FL:Adaptive Subnetwork Schedulingによるモバイルデバイス上での遅延学習を意識した無線・不均一性

WHALE-FL: Wireless and Heterogeneity Aware Latency Efficient Federated Learning over Mobile Devices via Adaptive Subnetwork Scheduling ( http://arxiv.org/abs/2405.00885v2 )

ライセンス: Link先を確認
Huai-an Su, Jiaxiang Geng, Liang Li, Xiaoqi Qin, Yanzhao Hou, Hao Wang, Xin Fu, Miao Pan, (参考訳) 一般的な分散学習パラダイムとして、モバイルデバイス上でのフェデレーション学習(FL)は、多数のアプリケーションを育成する一方で、その実践的な展開は、参加するデバイスのコンピューティングとコミュニケーションの不均一性によって妨げられている。 いくつかの先駆的な研究は、グローバルモデルからサブネットワークを抽出し、その完全な計算能力と通信能力に基づいたローカルトレーニングのためのデバイスに可能な限り大規模なサブネットワークを割り当てることを提案した。 このような固定サイズのサブネットワーク割り当ては、不均一なモバイルデバイス上でのFLトレーニングを可能にするが、それは知らない。 (i)機器の通信・コンピューティング条件の動的変化 (II)FLトレーニングの進行と局所的なトレーニングへの貢献の動的要求はどちらも非常に長いFLトレーニングの遅延を引き起こす可能性がある。 そこで本研究では,適応サブネットワークスケジューリングによるFLトレーニングを高速化するために,無線かつ不均一性を考慮したレイテンシ効率FL (WHALE-FL) アプローチを開発した。 固定サイズのサブネットワークに固執する代わりに、WHALE-FLはデバイスとFLトレーニングダイナミクスをキャプチャする新しいサブネットワーク選択ユーティリティ機能を導入し、ローカルトレーニングに基づいてサブネットワークサイズを適応的に選択するようにモバイルデバイスを誘導する。 a) 計算能力と通信能力 (b)その動的計算および/または通信条件、 (c)FL研修の状況とその地域研修への貢献要件。 評価の結果,WHALE-FLはピアデザインと比較して,学習精度を犠牲にすることなく,FLトレーニングを効果的に加速することがわかった。

As a popular distributed learning paradigm, federated learning (FL) over mobile devices fosters numerous applications, while their practical deployment is hindered by participating devices' computing and communication heterogeneity. Some pioneering research efforts proposed to extract subnetworks from the global model, and assign as large a subnetwork as possible to the device for local training based on its full computing and communications capacity. Although such fixed size subnetwork assignment enables FL training over heterogeneous mobile devices, it is unaware of (i) the dynamic changes of devices' communication and computing conditions and (ii) FL training progress and its dynamic requirements of local training contributions, both of which may cause very long FL training delay. Motivated by those dynamics, in this paper, we develop a wireless and heterogeneity aware latency efficient FL (WHALE-FL) approach to accelerate FL training through adaptive subnetwork scheduling. Instead of sticking to the fixed size subnetwork, WHALE-FL introduces a novel subnetwork selection utility function to capture device and FL training dynamics, and guides the mobile device to adaptively select the subnetwork size for local training based on (a) its computing and communication capacity, (b) its dynamic computing and/or communication conditions, and (c) FL training status and its corresponding requirements for local training contributions. Our evaluation shows that, compared with peer designs, WHALE-FL effectively accelerates FL training without sacrificing learning accuracy.
翻訳日:2024-08-21 19:59:41 公開日:2024-08-19
# 協調型多エージェント強化学習における分散学習と実行入門

An Introduction to Decentralized Training and Execution in Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2405.06161v3 )

ライセンス: Link先を確認
Christopher Amato, (参考訳) マルチエージェント強化学習(MARL)は近年急速に普及している。 多くのアプローチが開発されているが、これらは集中型トレーニングと実行(CTE)、分散型実行(CTDE)のための集中型トレーニング(CTDE)、分散型トレーニングと実行(DTE)の3つの主なタイプに分けられる。 分散トレーニングと実行メソッドは最も小さな仮定であり、実装が簡単であることが多い。 実際、私が議論するとおり、各エージェントが個別に学習させることで、DTEに任意の単エージェントRLメソッドを使うことができる。 もちろん、このようなアプローチには長所と短所があります。 オフラインの調整が不要な場合、DTEは必須である点に注意が必要だ。 つまり、すべてのエージェントが事前調整なしでオンラインインタラクション中に学習しなければならない場合、学習と実行はどちらも分散化されなければならない。 DTE法は協調的、競争的、あるいは混合的な場合に応用できるが、本文は協調的MARL事例に焦点をあてる。 このテキストは、分散的で協調的なMARLの分野への導入である。 そのため、まず、DEC-POMDPの形で協調的なMARL問題を簡潔に説明します。 次に、独立したQ-ラーニングとその拡張から始まる価値に基づくDTE手法について論じ、さらに、DQNによる深層ケースの拡張について論じる。 次に、独立なREINFORCE(バニラ政策勾配)から始まるポリシー勾配DTE手法について論じ、アクター批判的なケースと深い変種(独立なPPOなど)にまで拡張する。 最後に、DTEと今後の方向性に関するいくつかの一般的な話題について論じる。

Multi-agent reinforcement learning (MARL) has exploded in popularity in recent years. Many approaches have been developed but they can be divided into three main types: centralized training and execution (CTE), centralized training for decentralized execution (CTDE), and Decentralized training and execution (DTE). Decentralized training and execution methods make the fewest assumptions and are often simple to implement. In fact, as I'll discuss, any single-agent RL method can be used for DTE by just letting each agent learn separately. Of course, there are pros and cons to such approaches. It is worth noting that DTE is required if no offline coordination is available. That is, if all agents must learn during online interactions without prior coordination, learning and execution must both be decentralized. DTE methods can be applied in cooperative, competitive, or mixed cases but this text will focus on the cooperative MARL case. This text is an introduction to the field of decentralized, cooperative MARL. As such, I will first give a brief description of the cooperative MARL problem in the form of the Dec-POMDP. Then, I will discuss value-based DTE methods starting with independent Q-learning and its extensions and then discuss the extension to the deep case with DQN, the additional complications this causes, and methods that have been developed to (attempt to) address these issues. Next, I will discuss policy gradient DTE methods starting with independent REINFORCE (i.e., vanilla policy gradient), and then extending to the actor-critic case and deep variants (such as independent PPO). Finally, I will discuss some general topics related to DTE and future directions.
翻訳日:2024-08-21 19:59:41 公開日:2024-08-19
# 隣の指導者が分散した確率的グラディエントDescence

Adjacent Leader Decentralized Stochastic Gradient Descent ( http://arxiv.org/abs/2405.11389v2 )

ライセンス: Link先を確認
Haoze He, Jing Wang, Anna Choromanska, (参考訳) この研究は、分散ディープラーニング最適化フレームワークに焦点を当てている。 本稿では,最終モデルの性能向上,収束の促進,分散型ディープラーニングオプティマイザの通信オーバーヘッドの低減を図るために,Al-DSGD(Adjacent Leader Decentralized Gradient Descent)を提案する。 AL-DSGDは2つの主要なアイデアに依存している。 まず,学習システムにおける最強学習者の影響力を高めるために,各学習者の成績と平均化の度合いに応じて,各近隣労働者に重みを割り当て,現在最高の成績を収めている隣人と隣人の両方が最大化の度合いで定めている労働者に補正力を適用する。 第二に、低次ノードの収束速度の低下と性能の低下を緩和するため、AL-DSGDは動的通信グラフに依存しており、ノードの次数を低く保ちながら、効果的により多くのノードと通信することができる。 実験により、AL-DSGDは、分散化された最先端技術の収束を加速し、特に通信制約環境でのテスト性能を向上させることが示された。 また,提案手法の収束を理論的に証明する。 最後に、分散ディープラーニングアプローチ((a)同期、(de)分散化)の簡単な実装をサポートするディープラーニングモデルの分散トレーニングのための、非常に汎用的で簡潔なPyTorchベースのライブラリをコミュニティにリリースする。

This work focuses on the decentralized deep learning optimization framework. We propose Adjacent Leader Decentralized Gradient Descent (AL-DSGD), for improving final model performance, accelerating convergence, and reducing the communication overhead of decentralized deep learning optimizers. AL-DSGD relies on two main ideas. Firstly, to increase the influence of the strongest learners on the learning system it assigns weights to different neighbor workers according to both their performance and the degree when averaging among them, and it applies a corrective force on the workers dictated by both the currently best-performing neighbor and the neighbor with the maximal degree. Secondly, to alleviate the problem of the deterioration of the convergence speed and performance of the nodes with lower degrees, AL-DSGD relies on dynamic communication graphs, which effectively allows the workers to communicate with more nodes while keeping the degrees of the nodes low. Experiments demonstrate that AL-DSGD accelerates the convergence of the decentralized state-of-the-art techniques and improves their test performance especially in the communication constrained environments. We also theoretically prove the convergence of the proposed scheme. Finally, we release to the community a highly general and concise PyTorch-based library for distributed training of deep learning models that supports easy implementation of any distributed deep learning approach ((a)synchronous, (de)centralized).
翻訳日:2024-08-21 19:59:41 公開日:2024-08-19
# LLMインフォームドPOI分類を用いた意味軌道データマイニング

Semantic Trajectory Data Mining with LLM-Informed POI Classification ( http://arxiv.org/abs/2405.11715v2 )

ライセンス: Link先を確認
Yifan Liu, Chenchen Kuai, Haoxuan Ma, Xishun Liao, Brian Yueshuai He, Jiaqi Ma, (参考訳) ヒトの旅行経路のマイニングは、交通システム、経路最適化、交通管理、そして人間の旅行パターンの研究に不可欠である。 従来のルールベースのアプローチでは、セマンティック情報を統合することは効率と正確性の両方に制限がある。 Points of Interest(POI)データから推定される活動タイプのような意味情報は、軌道採掘の質を大幅に向上させることができる。 しかし、多くのPOIには不完全な特徴情報があり、現在の学習ベースのPOIアルゴリズムは分類を行うためにデータセットの整合性を必要とするため、これらの洞察を統合することは難しい。 本稿では,人体走行軌道採掘のための新しいパイプラインを提案する。 提案手法はまず,大規模言語モデル(LLM)の強い推論・理解能力を利用して,活動型を付加したPOIをアノテートする。 OpenStreetMap (OSM) POI データセットを用いた評価では,PAI 分類では 93.4% の精度,96.1% のF-1 スコア,91.7% の精度で 92.3% のF-1 スコアを得た。

Human travel trajectory mining is crucial for transportation systems, enhancing route optimization, traffic management, and the study of human travel patterns. Previous rule-based approaches without the integration of semantic information show a limitation in both efficiency and accuracy. Semantic information, such as activity types inferred from Points of Interest (POI) data, can significantly enhance the quality of trajectory mining. However, integrating these insights is challenging, as many POIs have incomplete feature information, and current learning-based POI algorithms require the integrity of datasets to do the classification. In this paper, we introduce a novel pipeline for human travel trajectory mining. Our approach first leverages the strong inferential and comprehension capabilities of large language models (LLMs) to annotate POI with activity types and then uses a Bayesian-based algorithm to infer activity for each stay point in a trajectory. In our evaluation using the OpenStreetMap (OSM) POI dataset, our approach achieves a 93.4% accuracy and a 96.1% F-1 score in POI classification, and a 91.7% accuracy with a 92.3% F-1 score in activity inference.
翻訳日:2024-08-21 19:59:41 公開日:2024-08-19
# 量子機械学習の一般化による量子コンパイルの高速化

Leveraging Quantum Machine Learning Generalization to Significantly Speed-up Quantum Compilation ( http://arxiv.org/abs/2405.12866v2 )

ライセンス: Link先を確認
Alon Kukliansky, Lukasz Cincio, Ed Younis, Costin Iancu, (参考訳) 量子コンパイラにデプロイされた既存の数値オプティマイザは、高価な$\mathcal{O}(4^n)$Matrix-matrix演算を使用する。 量子機械学習(QML)の最近の進歩に触発されたQFactor-Sampleは、行列行列演算を単純な$\mathcal{O}(2^n)$回路シミュレーションに置き換える。 回路がシンプルになればなるほど、必要な入力サンプルの数が少なくなる。 大規模な回路上でQFactor-Sampleを検証し、そのハイパーパラメータチューニングについて議論する。 BQSKit量子コンパイラに組み込んで、最先端のドメイン固有オプティマイザと比較すると、スケーラビリティの向上とコンパイル時間の短縮が示され、8キュービット以上の回路に対する平均スピードアップ係数69が達成された。 また,数値最適化の改善が分割型コンパイル方式の力学にどのように影響するかを論じ,コンパイル速度と解品質のトレードオフを可能にする。

Existing numerical optimizers deployed in quantum compilers use expensive $\mathcal{O}(4^n)$ matrix-matrix operations. Inspired by recent advances in quantum machine learning (QML), QFactor-Sample replaces matrix-matrix operations with simpler $\mathcal{O}(2^n)$ circuit simulations on a set of sample inputs. The simpler the circuit, the lower the number of required input samples. We validate QFactor-Sample on a large set of circuits and discuss its hyperparameter tuning. When incorporated in the BQSKit quantum compiler and compared against a state-of-the-art domain-specific optimizer, We demonstrate improved scalability and a reduction in compile time, achieving an average speedup factor of 69 for circuits with more than 8 qubits. We also discuss how improved numerical optimization affects the dynamics of partitioning-based compilation schemes, which allow a trade-off between compilation speed and solution quality.
翻訳日:2024-08-21 19:49:55 公開日:2024-08-19
# メタ変数を持つ混合変数領域に対するグラフ構造距離

A graph-structured distance for mixed-variable domains with meta variables ( http://arxiv.org/abs/2405.13073v2 )

ライセンス: Link先を確認
Edward Hallé-Hannan, Charles Audet, Youssef Diouane, Sébastien Le Digabel, Paul Saves, (参考訳) 不均一データセットは、さまざまな入力ソース、タイプ、フォーマットを特徴とするさまざまな機械学習および最適化アプリケーションに現れる。 ほとんどのモデルやメソッドは、本質的に不均一性に取り組みません。 したがって、そのようなデータセットは、しばしばより小さくより単純なデータセットに分割されるため、特にデータが制限された場合、一般化可能性や性能が制限される可能性がある。 この研究の最初の貢献は、階層的、木構造的、変数サイズ、条件付き検索フレームワークを一般化するモデリングフレームワークである。 フレームワークは、変数が連続的、整数的、またはカテゴリー的であるような混合変数ドメインをモデル化し、問題の構造に影響を与えるときにメタとして特定されるものもある。 2つ目の主な貢献は、同じ変数を共有しない混合変数の任意のペアを比較し、メタ変数を持つ混合変数の領域に存在する全異種データセットを使用できる、新しい距離である。 コントリビューションはいくつかの回帰実験で説明され、ハイパーパラメータに対する多層パーセプトロンの性能がモデル化されている。

Heterogeneous datasets emerge in various machine learning and optimization applications that feature different input sources, types or formats. Most models or methods do not natively tackle heterogeneity. Hence, such datasets are often partitioned into smaller and simpler ones, which may limit the generalizability or performance, especially if data is limited. The first main contribution of this work is a modeling framework that generalizes hierarchical, tree-structured, variable-size or conditional search frameworks. The framework models mixed-variable domains in which variables may be continuous, integer, or categorical, with some identified as meta when they influence the structure of the problem. The second main contribution is a novel distance that compares any pair of mixed-variable points that do not share the same variables, allowing to use whole heterogeneous datasets that reside in mixed-variable domains with meta variables. The contributions are illustrated on several regression experiments, in which the performance of a multilayer perceptron with respect to its hyperparameters is modeled.
翻訳日:2024-08-21 19:49:55 公開日:2024-08-19
# STHN:衛星画像を用いたUAV熱測地のための深部ホログラフィー推定

STHN: Deep Homography Estimation for UAV Thermal Geo-localization with Satellite Imagery ( http://arxiv.org/abs/2405.20470v2 )

ライセンス: Link先を確認
Jiuhong Xiao, Ning Zhang, Daniel Tortei, Giuseppe Loianno, (参考訳) 無人航空機(UAV)の正確な地理的局在化は、捜索・救助活動、電力線検査、環境監視などの屋外用途に不可欠である。 グローバル・ナビゲーション・サテライト・システム(GNSS)の脆弱性は、自律航法のためのさらなるロバストなローカライゼーション手法の開発を必要とする。 搭載カメラと参照衛星マップを活用するビジュアルジオローカライゼーション(VG)は、絶対的なローカライゼーションのための有望なソリューションを提供する。 特に、サーマルジオローカライゼーション(TG)は、サーマルイメージと衛星データベースのマッチングに頼って、夜間の効果的なローカライゼーションに赤外線カメラを活用することで際立っている。 しかし、現在のTG手法の効率と有効性は、衛星地図の高密度サンプリングとサーマルクエリ画像の幾何ノイズによって妨げられている。 これらの課題を克服するために、粗い深層ホログラフィー推定法を用いるUAV熱ジオローカライズ手法であるSTHNを導入する。 この方法では、不明瞭なテクスチャや自己相似パターンの存在にもかかわらず、UAVの最後の位置の半径512メートル以内で、熱画像と衛星画像の11倍の比で挑戦しても、信頼性の高い熱的位置決めが可能となる。 さらに,本研究は野生の低視認性条件下でのUAV熱ジオローカライゼーション性能と幾何雑音に対するロバスト性を大幅に向上させることを示す。 コードは公開されています。

Accurate geo-localization of Unmanned Aerial Vehicles (UAVs) is crucial for outdoor applications including search and rescue operations, power line inspections, and environmental monitoring. The vulnerability of Global Navigation Satellite Systems (GNSS) signals to interference and spoofing necessitates the development of additional robust localization methods for autonomous navigation. Visual Geo-localization (VG), leveraging onboard cameras and reference satellite maps, offers a promising solution for absolute localization. Specifically, Thermal Geo-localization (TG), which relies on image-based matching between thermal imagery with satellite databases, stands out by utilizing infrared cameras for effective nighttime localization. However, the efficiency and effectiveness of current TG approaches, are hindered by dense sampling on satellite maps and geometric noises in thermal query images. To overcome these challenges, we introduce STHN, a novel UAV thermal geo-localization approach that employs a coarse-to-fine deep homography estimation method. This method attains reliable thermal geo-localization within a 512-meter radius of the UAV's last known location even with a challenging 11\% size ratio between thermal and satellite images, despite the presence of indistinct textures and self-similar patterns. We further show how our research significantly enhances UAV thermal geo-localization performance and robustness against geometric noises under low-visibility conditions in the wild. The code is made publicly available.
翻訳日:2024-08-21 19:49:55 公開日:2024-08-19
# LLMの誤りはいつ修正できるか? LLMの自己補正の批判的調査

When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs ( http://arxiv.org/abs/2406.01297v2 )

ライセンス: Link先を確認
Ryo Kamoi, Yusen Zhang, Nan Zhang, Jiawei Han, Rui Zhang, (参考訳) 自己補正(Self-correction)は、LLMを用いて推論中に応答を精製することで、大きな言語モデル(LLM)からの応答を改善するアプローチである。 これまでの作業では,自己評価や外部からのフィードバックなど,さまざまなフィードバック源を用いたさまざまな自己補正フレームワークが提案されていた。 しかし、最近の研究では否定的な結果も報告されているので、LLMが自身の誤りをいつ修正できるかについては、まだ意見が一致していない。 本研究では,幅広い論文を批判的に調査し,自己補正を成功させるために必要な条件について議論する。 まず, 先行研究では, 自己訂正を過度に評価する非現実的な枠組みや不公平な評価を, 詳細に定義しないことが多い。 これらの課題に対処するため、自己補正研究における研究課題を分類し、適切な実験を設計するためのチェックリストを提供する。 本研究は,(1)先行研究がLPMからのフィードバックによる自己補正を成功させていないこと,(2)信頼性の高い外部フィードバックを活用可能なタスクにおいて,(2)自己補正が有効であること,(3)大規模微調整が自己補正を可能にすること,の2点を考察した。

Self-correction is an approach to improving responses from large language models (LLMs) by refining the responses using LLMs during inference. Prior work has proposed various self-correction frameworks using different sources of feedback, including self-evaluation and external feedback. However, there is still no consensus on the question of when LLMs can correct their own mistakes, as recent studies also report negative results. In this work, we critically survey broad papers and discuss the conditions required for successful self-correction. We first find that prior studies often do not define their research questions in detail and involve impractical frameworks or unfair evaluations that over-evaluate self-correction. To tackle these issues, we categorize research questions in self-correction research and provide a checklist for designing appropriate experiments. Our critical survey based on the newly categorized research questions shows that (1) no prior work demonstrates successful self-correction with feedback from prompted LLMs, except for studies in tasks that are exceptionally suited for self-correction, (2) self-correction works well in tasks that can use reliable external feedback, and (3) large-scale fine-tuning enables self-correction.
翻訳日:2024-08-21 19:49:55 公開日:2024-08-19
# ニューラルネットワークの不確実性を用いたロバスト量子ドット電荷自動チューニング

Robust quantum dots charge autotuning using neural networks uncertainty ( http://arxiv.org/abs/2406.05175v2 )

ライセンス: Link先を確認
Victor Yon, Bastien Galaup, Claude Rohrbacher, Joffrey Rivard, Clément Godfrin, Ruoyu Li, Stefan Kubicek, Kristiaan De Greve, Louis Gaudreau, Eva Dupont-Ferrier, Yann Beilliard, Roger G. Melko, Dominique Drouin, (参考訳) 本研究では,半導体スピン量子ビットの電荷調整を最小限の介入で自動化する機械学習に基づく手法を提案する。 この方法は、ニューラルネットワークの不確実性推定を利用した堅牢な探索戦略を導いて、安定性図中のノイズの多い遷移線を特定するために、ニューラルネットワークを利用する。 異なる単一量子ドット技術を表す3つの異なるオフライン実験データセットでテストされたこの手法は、最適ケースにおける成功率を99%以上チューニングする。 ダイアグラムからダイアグラムへの変動度の高い小セットの難易度制約により,提案手法の能力と限界を評価することができた。

This study presents a machine-learning-based procedure to automate the charge tuning of semiconductor spin qubits with minimal human intervention, addressing one of the significant challenges in scaling up quantum dot technologies. This method exploits artificial neural networks to identify noisy transition lines in stability diagrams, guiding a robust exploration strategy leveraging neural networks' uncertainty estimations. Tested across three distinct offline experimental datasets representing different single quantum dot technologies, the approach achieves over 99% tuning success rate in optimal cases, where more than 10% of the success is directly attributable to uncertainty exploitation. The challenging constraints of small training sets containing high diagram-to-diagram variability allowed us to evaluate the capabilities and limits of the proposed procedure.
翻訳日:2024-08-21 19:40:10 公開日:2024-08-19
# 最新のDRAMチップにおけるRowPress脆弱性

RowPress Vulnerability in Modern DRAM Chips ( http://arxiv.org/abs/2406.16153v2 )

ライセンス: Link先を確認
Haocong Luo, Ataberk Olgun, A. Giray Yağlıkçı, Yahya Can Tuğrul, Steve Rhyner, Meryem Banu Cavlak, Joël Lindegger, Mohammad Sadrosadati, Onur Mutlu, (参考訳) メモリアイソレーションはシステムの信頼性、セキュリティ、安全性にとって重要な特性である。 我々は、有名なRowHammerとは異なるDRAM読み取り障害現象であるRowPressを実証する。 RowPressは、行を何度も開いて閉じる代わりに、長い時間DRAM行を開いておくことで、ビットフリップを誘導する。 我々はRowPressビットフリップを実験的に特徴付け、市販のDDR4 DRAMチップに広く存在することを示す。 我々は,すでにRowHammerを保護している実システムにおいて,RowPressのビットフリップを実証し,DRAMをRowHammerとRowPressの両方に対して効果的に保護する手法を提案する。

Memory isolation is a critical property for system reliability, security, and safety. We demonstrate RowPress, a DRAM read disturbance phenomenon different from the well-known RowHammer. RowPress induces bitflips by keeping a DRAM row open for a long period of time instead of repeatedly opening and closing the row. We experimentally characterize RowPress bitflips, showing their widespread existence in commodity off-the-shelf DDR4 DRAM chips. We demonstrate RowPress bitflips in a real system that already has RowHammer protection, and propose effective mitigation techniques that protect DRAM against both RowHammer and RowPress.
翻訳日:2024-08-21 19:40:10 公開日:2024-08-19
# アゼルバイジャン語のためのオープン基盤モデル

Open foundation models for Azerbaijani language ( http://arxiv.org/abs/2407.02337v2 )

ライセンス: Link先を確認
Jafar Isbarov, Kavsar Huseynova, Elvin Mammadov, Mammad Hajili, Duygu Ataman, (参考訳) 多言語大言語モデルの出現は、アゼルバイジャンにおける言語理解と生成システムの開発を可能にした。 しかしながら、プロダクショングレードのシステムのほとんどは、GPT-4のようなクラウドソリューションに依存している。 アゼルバイジャンのオープン・ファンデーション・モデルを開発する試みはいくつかあるが、これらの研究は体系的なベンチマークが欠如しているため、一般的には使われていない。 本稿では,アゼルバイジャンのオープンソース基盤モデルを推進しているいくつかの取り組みについて述べる。 本稿では,(1)アゼルバイジャン語のための大規模なテキストコーパス,(2)このデータセットで訓練されたエンコーダのみの言語モデル群,(3)これらのモデルを評価するためのラベル付きデータセット,(4)アゼルバイジャン語をサポートする主要なオープンソースモデルすべてをカバーする広範な評価について紹介する。

The emergence of multilingual large language models has enabled the development of language understanding and generation systems in Azerbaijani. However, most of the production-grade systems rely on cloud solutions, such as GPT-4. While there have been several attempts to develop open foundation models for Azerbaijani, these works have not found their way into common use due to a lack of systemic benchmarking. This paper encompasses several lines of work that promote open-source foundation models for Azerbaijani. We introduce (1) a large text corpus for Azerbaijani, (2) a family of encoder-only language models trained on this dataset, (3) labeled datasets for evaluating these models, and (4) extensive evaluation that covers all major open-source models with Azerbaijani support.
翻訳日:2024-08-21 19:15:20 公開日:2024-08-19
# Diff-PIC:拡散モデルによる核融合促進のための粒子・セル内革命シミュレーション

Diff-PIC: Revolutionizing Particle-In-Cell Simulation for Advancing Nuclear Fusion with Diffusion Models ( http://arxiv.org/abs/2408.02693v2 )

ライセンス: Link先を確認
Chuan Liu, Chunshu Wu, Shihui Cao, Mingkai Chen, James Chenhao Liang, Ang Li, Michael Huang, Chuang Ren, Dongfang Liu, Ying Nian Wu, Tong Geng, (参考訳) 持続可能エネルギーは重要な世界的な課題であり、近年の核融合点火のブレークスルーは、核融合から抽出されたエネルギーを日常生活で活用する可能性を強調しており、核融合点火研究、特にレーザー-プラズマ相互作用(LPI)に大きな注目を集めている。 残念ながら、点火スケールでのLPIの複雑さは理論に基づく分析をほぼ不可能にしている。代わりに、非常に計算集約的なPIC(Particle-in-Cell)シミュレーションに大きく依存する必要があるため、核融合点火の進行において大きなボトルネックとなっている。 Diff-PICは、条件付き拡散モデルを利用して、高忠実度科学データを生成するための計算効率のよいPICシミュレーションの代替となる新しいパラダイムである。 具体的には,PICシミュレーションによって得られた物理パターンを拡散モデルに蒸留する蒸留パラダイムを設計し,理論的および実用的実現可能性の両立を実証する。 さらに, 実用性を確保するために, 1) 数学的に連続した物理条件に対する有意義な埋め込みを学習・生成できる物理的インフォームドな条件拡散モデルを開発する。 本モデルは,物理条件とシミュレーション結果の複雑な関係を効果的に把握し,アルゴリズムの一般化と適応可能な伝達性を提供する。 Diff-PICは核融合研究における計算障壁を克服するために拡散モデルを使用するための新しいパラダイムを確立し、この分野での将来のイノベーションと進歩のベンチマークを設定する。

Sustainable energy is a crucial global challenge, and recent breakthroughs in nuclear fusion ignition underscore the potential of harnessing energy extracted from nuclear fusion in everyday life, thereby drawing significant attention to fusion ignition research, especially Laser-Plasma Interaction (LPI). Unfortunately, the complexity of LPI at ignition scale renders theory-based analysis nearly impossible -- instead, it has to rely heavily on Particle-in-Cell (PIC) simulations, which is extremely computationally intensive, making it a major bottleneck in advancing fusion ignition. In response, this work introduces Diff-PIC, a novel paradigm that leverages conditional diffusion models as a computationally efficient alternative to PIC simulations for generating high-fidelity scientific data. Specifically, we design a distillation paradigm to distill the physical patterns captured by PIC simulations into diffusion models, demonstrating both theoretical and practical feasibility. Moreover, to ensure practical effectiveness, we provide solutions for two critical challenges: (1) We develop a physically-informed conditional diffusion model that can learn and generate meaningful embeddings for mathematically continuous physical conditions. This model offers algorithmic generalization and adaptable transferability, effectively capturing the complex relationships between physical conditions and simulation outcomes; and (2) We employ the rectified flow technique to make our model a one-step conditional diffusion model, enhancing its efficiency further while maintaining high fidelity and physical validity. Diff-PIC establishes a new paradigm for using diffusion models to overcome the computational barriers in nuclear fusion research, setting a benchmark for future innovations and advancements in this field.
翻訳日:2024-08-21 19:00:29 公開日:2024-08-19
# WalledEval: 大規模言語モデルのための総合的安全評価ツールキット

WalledEval: A Comprehensive Safety Evaluation Toolkit for Large Language Models ( http://arxiv.org/abs/2408.03837v3 )

ライセンス: Link先を確認
Prannaya Gupta, Le Qi Yau, Hao Han Low, I-Shiang Lee, Hugo Maximus Lim, Yu Xin Teoh, Jia Hng Koh, Dar Win Liew, Rishabh Bhardwaj, Rajat Bhardwaj, Soujanya Poria, (参考訳) WalledEvalは、大規模な言語モデル(LLM)を評価するために設計された、包括的なAI安全テストツールキットである。 オープンウェイトとAPIベースのモデルを含むさまざまなモデルに対応しており、多言語安全性、誇張された安全性、インジェクションのプロンプトといった領域をカバーする35以上の安全ベンチマークを備えている。 このフレームワークはLSMと判定ベンチマークの両方をサポートし、将来の時制やパラフレーズなど、さまざまなテキストスタイルの変異に対する安全性をテストするカスタムミュータを組み込んでいる。 さらに、WalledEvalは、新しく、小さく、パフォーマンスの高いコンテンツモデレーションツールであるWalledGuardと、2つのデータセットであるSGXSTestとHIXSTestを紹介した。 WalledEvalをhttps://github.com/walledai/walledeval.comで公開しています。

WalledEval is a comprehensive AI safety testing toolkit designed to evaluate large language models (LLMs). It accommodates a diverse range of models, including both open-weight and API-based ones, and features over 35 safety benchmarks covering areas such as multilingual safety, exaggerated safety, and prompt injections. The framework supports both LLM and judge benchmarking and incorporates custom mutators to test safety against various text-style mutations, such as future tense and paraphrasing. Additionally, WalledEval introduces WalledGuard, a new, small, and performant content moderation tool, and two datasets: SGXSTest and HIXSTest, which serve as benchmarks for assessing the exaggerated safety of LLMs and judges in cultural contexts. We make WalledEval publicly available at https://github.com/walledai/walledeval.
翻訳日:2024-08-21 19:00:29 公開日:2024-08-19
# Gauss-JordanによるRanc-1テンソル完了の簡易かつほぼ最適サンプリング

Simple and Nearly-Optimal Sampling for Rank-1 Tensor Completion via Gauss-Jordan ( http://arxiv.org/abs/2408.05431v2 )

ライセンス: Link先を確認
Alejandro Gomez-Leos, Oscar López, (参考訳) ランク1テンソルを$\otimes_{i=1}^{N} \mathbb{R}^{d}$で完備する際のサンプルと計算の複雑さを再考する。 一対のランダム線形系上でガウス・ヨルダンに等しいアルゴリズムを許容する問題(すなわち、ゼロでないエントリ)の特徴づけを示す。 例えば、$N = \Theta(1)$の場合、$m = O(d^2 \log d)$サンプルを使用せず、$O(md^2)$時間で実行されることを証明します。 さらに、任意のアルゴリズムが$\Omega(d\log d)$サンプルを必要とすることを示す。 対照的に、サンプル複雑性の既存の上限は少なくとも$d^{1.5} \mu^{\Omega(1)} \log^{\Omega(1)} d$であり、最悪の場合$\mu$は$\Theta(d)$である。 以前の研究では、この問題の上位バージョンではこれらの緩い保証が得られ、より複雑なアルゴリズムが伴う傾向にあった。

We revisit the sample and computational complexity of completing a rank-1 tensor in $\otimes_{i=1}^{N} \mathbb{R}^{d}$, given a uniformly sampled subset of its entries. We present a characterization of the problem (i.e. nonzero entries) which admits an algorithm amounting to Gauss-Jordan on a pair of random linear systems. For example, when $N = \Theta(1)$, we prove it uses no more than $m = O(d^2 \log d)$ samples and runs in $O(md^2)$ time. Moreover, we show any algorithm requires $\Omega(d\log d)$ samples. By contrast, existing upper bounds on the sample complexity are at least as large as $d^{1.5} \mu^{\Omega(1)} \log^{\Omega(1)} d$, where $\mu$ can be $\Theta(d)$ in the worst case. Prior work obtained these looser guarantees in higher rank versions of our problem, and tend to involve more complicated algorithms.
翻訳日:2024-08-21 19:00:29 公開日:2024-08-19
# コードのための大規模言語モデルのホットフィックス:パラメータ効率の良い微調整はどこまで可能か?

Hotfixing Large Language Models for Code: How Far Can Parameter-Efficient Fine-Tuning Go? ( http://arxiv.org/abs/2408.05727v2 )

ライセンス: Link先を確認
Zhou Yang, David Lo, (参考訳) コードのための大規模言語モデル(LLM4Code)は開発者のワークフローの不可欠な部分となり、コード補完や生成などのタスクを支援している。 しかし、これらのモデルは、バグの多いコードを含む大量のソースコードを広範囲にトレーニングしたために、バグの多いコードを生成するなど、リリース後に望ましくない振る舞いを示す。 トレーニングデータ(通常、オープンソースソフトウェアから来る)は進化を続けており、例えば、開発者はバグの多いコードを修正します。 しかしながら、LLM4Codeの望ましくない振る舞いを軽減するためにこのような進化を適用することは、簡単ではない。 このことは、LLM4Codeの望ましくない振る舞いを最小限の負の効果で効果的かつ効率的に緩和する、LLM4Codeのホットフィックスの概念を提案する動機である。 本稿では,LLM4Codeをホットフィックスすることで,バグの少ないコードとより固定的なコードを生成することに焦点を当てる。 私たちは、人気のあるCodeGenファミリのモデルが頻繁にバグのあるコードを生成することを実証することから始めます。 そこで,本研究では,(1)所望の動作を学習し,(2)望ましくない動作を学習し,(3)他のコードの知識を保持する,という3つの学習目標を定義した。 モデルをホットフィックスするための4つの異なる微調整手法を評価し,以下の知見を得た。 LoRA(低ランク適応)を用いてこれら3つの学習目標を同時に最適化することは、モデルの振る舞いに効果的に影響を及ぼす。 具体的には、固定コードの生成を最大108.42%増加させ、バグコードの生成を最大50.47%減少させる。 統計テストでは、HumanEvalベンチマークにおいてホットフィックスがモデルの機能的正しさに悪影響を及ぼさないことが確認された。 また,ホットフィックスは高い時間効率を示すことを示す。

Large Language Models for Code (LLM4Code) have become an integral part of developers' workflows, assisting with tasks such as code completion and generation. However, these models are found to exhibit undesired behaviors after their release, like generating buggy code, due to their extensive training on vast amounts of source code that contain such buggy code. The training data (usually coming from open-source software) keeps evolving, e.g., developers fix the buggy code. However, adapting such evolution to mitigate LLM4Code's undesired behaviors is non-trivial, as retraining models on the updated dataset usually takes much time and resources. This motivates us to propose the concept of hotfixing LLM4Code, mitigating LLM4Code's undesired behaviors effectively and efficiently with minimal negative effects. This paper mainly focuses on hotfixing LLM4Code to make them generate less buggy code and more fixed code. We begin by demonstrating that models from the popular CodeGen family frequently generate buggy code. Then, we define three learning objectives in hotfixing and design multiple loss functions for each objective: (1) learn the desired behaviors, (2) unlearn the undesired behaviors, and (3) retain knowledge of other code. We evaluate four different fine-tuning techniques for hotfixing the models and gain the following insights. Optimizing these three learning goals together, using LoRA (low-rank adaptation), effectively influences the model's behavior. Specifically, it increases the generation of fixed code by up to 108.42% and decreases the generation of buggy code by up to 50.47%. Statistical tests confirm that hotfixing does not significantly affect the models' functional correctness on the HumanEval benchmark. We also show that hotfixing demonstrates strong time efficiency.
翻訳日:2024-08-21 19:00:29 公開日:2024-08-19
# 超知能か迷信か?AI予測における未知の信念に基づく心理学的要因の探索

Super-intelligence or Superstition? Exploring Psychological Factors Underlying Unwarranted Belief in AI Predictions ( http://arxiv.org/abs/2408.06602v2 )

ライセンス: Link先を確認
Eunhae Lee, Pat Pataranutaporn, Judith Amores, Pattie Maes, (参考訳) 本研究では、個人の行動に関するAI予測に対する信念に影響を与える心理的要因を、占星術と人格に基づく予測に対する信念と比較した。 238人の被験者による実験を通じて,認知スタイル,超常的信念,AI態度,性格特性,その他の要因が,異なる情報源からの予測の妥当性,信頼性,有用性,パーソナライズにどのように影響するかを検討した。 その結果、AI予測に対する信念は、占星術とパーソナリティ心理学に基づく予測に対する信念と正の相関があることが判明した。 特に、異常な信念と肯定的なAI態度は、AI予測の妥当性、信頼性、有用性、パーソナライゼーションを著しく向上させた。 良心はすべての情報源の予測に対する信念と負の相関がみられ、予測トピックに対する関心は予測に対する信頼性を高めた。 驚くべきことに、認知スタイルは予測に対する信念に大きな影響を与えなかった。 これらの結果は、AIにおける「合理的迷信」現象を強調しており、信念は批判的評価よりも精神的ヒューリスティックや直観によって駆動される。 適切な信頼と懐疑を育むAIシステムやコミュニケーション戦略を設計する上での意義について論じる。 本研究は,人間-AIインタラクションの心理学的理解に寄与し,AIシステムの設計と展開に関する洞察を提供する。

This study investigates psychological factors influencing belief in AI predictions about personal behavior, comparing it to belief in astrology and personality-based predictions. Through an experiment with 238 participants, we examined how cognitive style, paranormal beliefs, AI attitudes, personality traits, and other factors affect perceived validity, reliability, usefulness, and personalization of predictions from different sources. Our findings reveal that belief in AI predictions is positively correlated with belief in predictions based on astrology and personality psychology. Notably, paranormal beliefs and positive AI attitudes significantly increased perceived validity, reliability, usefulness, and personalization of AI predictions. Conscientiousness was negatively correlated with belief in predictions across all sources, and interest in the prediction topic increased believability across predictions. Surprisingly, cognitive style did not significantly influence belief in predictions. These results highlight the "rational superstition" phenomenon in AI, where belief is driven more by mental heuristics and intuition than critical evaluation. We discuss implications for designing AI systems and communication strategies that foster appropriate trust and skepticism. This research contributes to our understanding of the psychology of human-AI interaction and offers insights for the design and deployment of AI systems.
翻訳日:2024-08-21 19:00:29 公開日:2024-08-19
# EEPPR:3次元相関を用いた周期現象速度のイベントベース推定

EEPPR: Event-based Estimation of Periodic Phenomena Rate using Correlation in 3D ( http://arxiv.org/abs/2408.06899v2 )

ライセンス: Link先を確認
Jakub Kolář, Radim Špetlík, Jiří Matas, (参考訳) 本稿では,時間分解能の高い独立動作画素における輝度変化を非同期に報告するイベントカメラにより,回転,フリック,振動などの現象の周期を計測する新しい手法を提案する。 このアプローチは、周期現象に対して、その周期に対応する時間差で、時空間の空間内で非常に類似した事象が生成されると仮定する。 同様の事象の集合は、時空間の時空間の相関によって検出される。 提案手法であるEEPPRは,3.2Hzから2kHz(約192~120000RPM)の範囲で,光と振動の点滅,周期運動などの12種類の周期現象のデータセットを用いて評価した。 EEPPRは、このデータセットで公表されたメソッドよりも大幅に優れており、平均相対誤差は0.1%である。 データセットとコードはGitHubで公開されている。

We present a novel method for measuring the period of phenomena like rotation, flicker and vibration, by an event camera, a device asynchronously reporting brightness changes at independently operating pixels with high temporal resolution. The approach assumes that for a periodic phenomenon, a highly similar set of events is generated within a spatio-temporal window at a time difference corresponding to its period. The sets of similar events are detected by a correlation in the spatio-temporal event stream space. The proposed method, EEPPR, is evaluated on a dataset of 12 sequences of periodic phenomena, i.e. flashing light and vibration, and periodic motion, e.g., rotation, ranging from 3.2 Hz to 2 kHz (equivalent to 192 - 120 000 RPM). EEPPR significantly outperforms published methods on this dataset, achieving the mean relative error of 0.1%. The dataset and codes are publicly available on GitHub.
翻訳日:2024-08-21 18:50:03 公開日:2024-08-19
# 3Qubitシステムを用いた量子エネルギーテレポーテーション

Enhanced Quantum Energy Teleportation using a 3-Qubit System ( http://arxiv.org/abs/2408.07997v2 )

ライセンス: Link先を確認
Md Shoyib Hassan, Syed Emad Uddin Shubha, M. R. C Mahdy, (参考訳) 量子エネルギーテレポーテーション(Quantum Energy Teleportation, QET)は、量子絡み合いを利用して、エネルギーを物理的に動かさずに2つの離れた場所間でエネルギーを伝達する新しい方法である。 超伝導ハードウェア上でのQETの最初の実現は、2キュービットのシステムを利用して、受信機Bobによって平均エネルギー回収効率が11.4%であることを示した。 本稿では,QETのエネルギー効率を高めるために,3量子システムを用いた新しい手法を提案する。 我々はこれを達成するために、ゼロ平均エネルギーの制約を満たす新しい3量子基底状態ハミルトニアンHを組み込んだ。 実験の結果, 平均効率は46.4%であり, 2キュービット系に比べて有意に向上した。 この進歩は、実用的な量子エネルギー応用の一歩であるだけでなく、将来の量子エネルギーテレポーテーションおよび関連する量子技術研究のための新しいフレームワークも提供する。

Quantum Energy Teleportation (QET) is a novel method that leverages quantum entanglement to transfer energy between two distant locations without any physical movement of the energy. The first realization of QET on superconducting hardware, utilizing a 2-qubit system, demonstrated an average energy retrieval efficiency of 11.4% by the receiver, Bob. In this paper, we present a new approach using a 3-qubit system to enhance the energy efficiency of QET. We have incorporated a novel 3-qubit ground state hamiltonian H to achieve this, that conforms the constraints of Zero mean energy. Our experimental results show a significant improvement in energy retrieval, achieving an average efficiency of 46.4%, which is significantly higher than that of the 2-qubit system. This advancement not only marks a step forward in practical quantum energy applications but also provides a new framework for future research in quantum energy teleportation and related quantum technologies.
翻訳日:2024-08-21 18:50:03 公開日:2024-08-19
# SPEED: 自己監督型学習のための脳波データのスケーラブルな前処理

SPEED: Scalable Preprocessing of EEG Data for Self-Supervised Learning ( http://arxiv.org/abs/2408.08065v2 )

ライセンス: Link先を確認
Anders Gjølbye, Lina Skerath, William Lehn-Schiøler, Nicolas Langer, Lars Kai Hansen, (参考訳) 電脳波法(EEG)の研究は通常、狭義の目的を持つタスクに焦点を当てるが、近年の研究はより大きなモデル内でラベルのないデータの使用に拡大し、幅広い応用を目指している。 これは脳波研究における重要な課題に対処する。 例えば、Kostas et al (2021) は、自己教師あり学習(SSL)が従来の教師あり学習方法より優れていることを示した。 脳波データのノイズレベルが高いことから、我々はさらなる事前処理によりさらなる改善が可能であると論じる。 現在の前処理方法は、最適化の欠如、主観的な手動修正への依存、SSLを制限する検証プロセスや柔軟性のないプロトコルなどにより、SSLに必要な大規模なデータボリュームを効率的に管理できないことが多い。 大規模データを効率的に処理するための自己教師付き学習に最適化したPythonベースのEEG前処理パイプラインを提案する。 この最適化は、自己教師付きトレーニングを安定化するだけでなく、生データによるトレーニングと比較して下流タスクのパフォーマンスを向上させる。

Electroencephalography (EEG) research typically focuses on tasks with narrowly defined objectives, but recent studies are expanding into the use of unlabeled data within larger models, aiming for a broader range of applications. This addresses a critical challenge in EEG research. For example, Kostas et al. (2021) show that self-supervised learning (SSL) outperforms traditional supervised methods. Given the high noise levels in EEG data, we argue that further improvements are possible with additional preprocessing. Current preprocessing methods often fail to efficiently manage the large data volumes required for SSL, due to their lack of optimization, reliance on subjective manual corrections, and validation processes or inflexible protocols that limit SSL. We propose a Python-based EEG preprocessing pipeline optimized for self-supervised learning, designed to efficiently process large-scale data. This optimization not only stabilizes self-supervised training but also enhances performance on downstream tasks compared to training with raw data.
翻訳日:2024-08-21 18:50:03 公開日:2024-08-19
# ニューラルネットワークによる計算効率の向上

Neural Horizon Model Predictive Control -- Increasing Computational Efficiency with Neural Networks ( http://arxiv.org/abs/2408.09781v1 )

ライセンス: Link先を確認
Hendrik Alsmeier, Anton Savchenko, Rolf Findeisen, (参考訳) ますます高速なアプリケーションと低消費電力のエッジデバイスの自動化が拡張されることは、モデル予測制御のような最適化ベースの制御アルゴリズムに特に課題をもたらす。 提案する機械学習支援アプローチは,フィードフォワードニューラルネットワークを用いてオンライン最適化の計算負荷を削減することで,この問題に対処する。 本稿では,制御器の残りの最適化部分を通じて,安全保証(制約満足度)を維持しつつ,問題地平線の一部を近似することを提案する。 この手法はシミュレーションで検証され、保証とほぼ最適性能を維持しながら、計算効率の向上を示す。 提案手法は,ロボット工学などの迅速な制御応答を必要とするアプリケーションや,限られた計算資源を持つ組み込みアプリケーションなど,幅広いアプリケーションに適用可能である。

The expansion in automation of increasingly fast applications and low-power edge devices poses a particular challenge for optimization based control algorithms, like model predictive control. Our proposed machine-learning supported approach addresses this by utilizing a feed-forward neural network to reduce the computation load of the online-optimization. We propose approximating part of the problem horizon, while maintaining safety guarantees -- constraint satisfaction -- via the remaining optimization part of the controller. The approach is validated in simulation, demonstrating an improvement in computational efficiency, while maintaining guarantees and near-optimal performance. The proposed MPC scheme can be applied to a wide range of applications, including those requiring a rapid control response, such as robotics and embedded applications with limited computational resources.
翻訳日:2024-08-21 18:28:07 公開日:2024-08-19
# SDEに基づく乗算雑音除去

SDE-based Multiplicative Noise Removal ( http://arxiv.org/abs/2408.10283v1 )

ライセンス: Link先を確認
An Vuong, Thinh Nguyen, (参考訳) 乗法ノイズ(英: multiplicative noise)またはスペックルノイズ(英: speckle noise)またはペッパーノイズ(英: pepper noise)は、合成開口レーダー(SAR)、レーザー、光学レンズによって生成された画像に影響を与える。 熱過程や外部要因から生じる添加音とは異なり、乗法ノイズは拡散反射のゆらぎから生じる。 これらのゆらぎは、異なる大きさの信号が結合された同じ信号の複数のコピーをもたらす。 その結果、乗法ノイズの除去や除去は、加法ノイズ除去に使用されるものとは異なる手法を必要とする。 本稿では,確率微分方程式に基づく拡散モデルを用いて乗法雑音に対処する手法を提案する。 対数領域における幾何学的ブラウン運動過程として乗法ノイズを効果的にモデル化できることを実証する。 Fokker-Planck方程式を用いることで、画像復調のための対応する逆過程を導出する。 提案手法を検証するため,従来の信号処理手法とCNNに基づくノイズ除去モデルとの比較を行った。 提案手法は,PSNRやSSIMといった従来のメトリクスの競合性能を維持しつつ,FIDやLPIPSなどの知覚に基づくメトリクスの既存の手法よりも優れていた。

Multiplicative noise, also known as speckle or pepper noise, commonly affects images produced by synthetic aperture radar (SAR), lasers, or optical lenses. Unlike additive noise, which typically arises from thermal processes or external factors, multiplicative noise is inherent to the system, originating from the fluctuation in diffuse reflections. These fluctuations result in multiple copies of the same signal with varying magnitudes being combined. Consequently, despeckling, or removing multiplicative noise, necessitates different techniques compared to those used for additive noise removal. In this paper, we propose a novel approach using Stochastic Differential Equations based diffusion models to address multiplicative noise. We demonstrate that multiplicative noise can be effectively modeled as a Geometric Brownian Motion process in the logarithmic domain. Utilizing the Fokker-Planck equation, we derive the corresponding reverse process for image denoising. To validate our method, we conduct extensive experiments on two different datasets, comparing our approach to both classical signal processing techniques and contemporary CNN-based noise removal models. Our results indicate that the proposed method significantly outperforms existing methods on perception-based metrics such as FID and LPIPS, while maintaining competitive performance on traditional metrics like PSNR and SSIM.
翻訳日:2024-08-21 18:14:26 公開日:2024-08-19
# AdapMoE: 効果的なMoE推論のための適応感性に基づくエキスパートゲーティングとマネジメント

AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference ( http://arxiv.org/abs/2408.10284v1 )

ライセンス: Link先を確認
Shuzhang Zhong, Ling Liang, Yuan Wang, Runsheng Wang, Ru Huang, Meng Li, (参考訳) Mixture-of-Experts (MoE)モデルは、計算要求を比例的に増加させることなく、大きな言語モデル(LLM)の効率を向上させるように設計されている。 しかしながら、エッジデバイスへのデプロイメントは、わずかにアクティベートされた専門家の管理によるオンデマンドロードのオーバーヘッドが高いため、依然として重大な課題に直面している。 本稿では,効率的なMoE推論のためのアルゴリズム・システム協調設計フレームワークであるAdapMoEを紹介する。 AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。 そこで我々は,アクティベートされた専門家の数を動的に調整するための感度に基づく戦略を提案する。 また、ロード遅延をさらに削減するために、高度なプリフェッチとキャッシュ管理技術を統合しています。 様々なプラットフォーム上での総合的な評価を通じて、AdapMoEは既存の手法を一貫して上回り、アクティベートした専門家の平均数を25%削減し、精度を低下させることなく1.35倍のスピードアップを達成した。 コードは、https://github.com/PKU-SEC-Lab/AdapMoE.comで入手できる。

Mixture-of-Experts (MoE) models are designed to enhance the efficiency of large language models (LLMs) without proportionally increasing the computational demands. However, their deployment on edge devices still faces significant challenges due to high on-demand loading overheads from managing sparsely activated experts. This paper introduces AdapMoE, an algorithm-system co-design framework for efficient MoE inference. AdapMoE features adaptive expert gating and management to reduce the on-demand loading overheads. We observe the heterogeneity of experts loading across layers and tokens, based on which we propose a sensitivity-based strategy to adjust the number of activated experts dynamically. Meanwhile, we also integrate advanced prefetching and cache management techniques to further reduce the loading latency. Through comprehensive evaluations on various platforms, we demonstrate AdapMoE consistently outperforms existing techniques, reducing the average number of activated experts by 25% and achieving a 1.35x speedup without accuracy degradation. Code is available at: https://github.com/PKU-SEC-Lab/AdapMoE.
翻訳日:2024-08-21 18:14:26 公開日:2024-08-19
# BatGPT-Chem:再合成予測のための基礎的な大規模モデル

BatGPT-Chem: A Foundation Large Model For Retrosynthesis Prediction ( http://arxiv.org/abs/2408.10285v1 )

ライセンス: Link先を確認
Yifei Yang, Runhan Shi, Zuchao Li, Shu Jiang, Bao-Liang Lu, Yang Yang, Hai Zhao, (参考訳) 再合成分析は、薬物発見と有機化学において重要でありながら困難である。 過去10年間の計算ツールの普及にもかかわらず、AIベースのシステムは多種多様な反応タイプをまたいだ一般化や代替合成経路の探索に不足することが多い。 本稿では,150億のパラメータを持つ大規模言語モデルBatGPT-Chemについて述べる。 自然言語とSMILES表記の統一的な枠組みによる化学タスクの統合により、この手法は拡張的な化学データベースから広範な教育データを合成する。 BatGPT-Chemは1億のインスタンスにまたがる自己回帰的および双方向のトレーニング技術を用いて、幅広い化学知識を捉え、反応条件の正確な予測を可能にし、強力なゼロショット能力を示す。 我々のモデルは既存のAI手法よりも優れているが、厳密なベンチマークテストによって検証されるように、複雑な分子の効果的な戦略を生成する上で大きな進歩を示す。 BatGPT-Chemは、レトロシンセティック分析の効率性と創造性を向上するだけでなく、合成設計における計算ツールの新しい標準を確立している。 この開発により、化学者は新しい化合物の合成に積極的に取り組み、医薬品製造と材料科学の革新サイクルを早める可能性がある。 トライアルのプラットフォームは \url{https://www.batgpt.net/dapp/chem} で公開しています。

Retrosynthesis analysis is pivotal yet challenging in drug discovery and organic chemistry. Despite the proliferation of computational tools over the past decade, AI-based systems often fall short in generalizing across diverse reaction types and exploring alternative synthetic pathways. This paper presents BatGPT-Chem, a large language model with 15 billion parameters, tailored for enhanced retrosynthesis prediction. Integrating chemical tasks via a unified framework of natural language and SMILES notation, this approach synthesizes extensive instructional data from an expansive chemical database. Employing both autoregressive and bidirectional training techniques across over one hundred million instances, BatGPT-Chem captures a broad spectrum of chemical knowledge, enabling precise prediction of reaction conditions and exhibiting strong zero-shot capabilities. Superior to existing AI methods, our model demonstrates significant advancements in generating effective strategies for complex molecules, as validated by stringent benchmark tests. BatGPT-Chem not only boosts the efficiency and creativity of retrosynthetic analysis but also establishes a new standard for computational tools in synthetic design. This development empowers chemists to adeptly address the synthesis of novel compounds, potentially expediting the innovation cycle in drug manufacturing and materials science. We release our trial platform at \url{https://www.batgpt.net/dapp/chem}.
翻訳日:2024-08-21 18:14:26 公開日:2024-08-19
# 車両分散のためのインテリジェント制御によるGPT強化強化学習

GPT-Augmented Reinforcement Learning with Intelligent Control for Vehicle Dispatching ( http://arxiv.org/abs/2408.10286v1 )

ライセンス: Link先を確認
Xiao Han, Zijian Zhang, Xiangyu Zhao, Guojiang Shen, Xiangjie Kong, Xuetao Wei, Liqiang Nie, Jieping Ye, (参考訳) 都市住民は旅行の質を高く要求しているため、車両派遣はオンライン配車サービスにとって重要な要素となっている。 しかし、現在の配車システムは、予測不可能な交通条件、多様な運転行動、供給と需要の変動パターンなど、都市交通の複雑さをナビゲートするのに苦労している。 これらの課題は、一部の地域の乗客にとって旅行の困難を招き、他の地域の多くのドライバーは注文の確保ができず、都市交通サービスの全体的な品質が低下した。 これらの問題に対処するために,GPT強化強化学習とIntelligent Controlを用いた車両配車のためのフレームワークであるGARLICを紹介する。 GARLICは階層的なトラフィック状態のキャプチャにマルチビューグラフを使用し、個々の運転行動を考慮した動的報酬関数を学習する。 このフレームワークはさらに、カスタムロス関数でトレーニングされたGPTモデルを統合して、高精度な予測を可能にし、現実世界のシナリオでのディスパッチポリシを最適化する。 2つの実世界のデータセットで実施された実験により、GARLICは空の車両の負荷率を低減しつつ、ドライバーの挙動と効果的に一致していることが示された。

As urban residents demand higher travel quality, vehicle dispatch has become a critical component of online ride-hailing services. However, current vehicle dispatch systems struggle to navigate the complexities of urban traffic dynamics, including unpredictable traffic conditions, diverse driver behaviors, and fluctuating supply and demand patterns. These challenges have resulted in travel difficulties for passengers in certain areas, while many drivers in other areas are unable to secure orders, leading to a decline in the overall quality of urban transportation services. To address these issues, this paper introduces GARLIC: a framework of GPT-Augmented Reinforcement Learning with Intelligent Control for vehicle dispatching. GARLIC utilizes multiview graphs to capture hierarchical traffic states, and learns a dynamic reward function that accounts for individual driving behaviors. The framework further integrates a GPT model trained with a custom loss function to enable high-precision predictions and optimize dispatching policies in real-world scenarios. Experiments conducted on two real-world datasets demonstrate that GARLIC effectively aligns with driver behaviors while reducing the empty load rate of vehicles.
翻訳日:2024-08-21 18:14:26 公開日:2024-08-19
# 変圧器モデルを用いたシリコンフォトニクスグレーティングからのビームプロファイルの認識

Recognizing Beam Profiles from Silicon Photonics Gratings using Transformer Model ( http://arxiv.org/abs/2408.10287v1 )

ライセンス: Link先を確認
Yu Dian Lim, Hong Yu Li, Simon Chun Kiat Goh, Xiangyu Wang, Peng Zhao, Chuan Seng Tan, (参考訳) 過去10年間で、イオントラップ量子コンピューティングのコミュニティにおいて、トラップされたイオン量子ビットの光学アドレス化のための集積シリコンフォトニクス(SiPh)格子の開発が盛んに行われている。 しかし、赤外線カメラからビームプロファイルを見る場合、ビームプロファイルが位置する対応する高さを決定することはしばしば困難である。 本研究では、SiPh格子からの光のビームプロファイルの対応する高さカテゴリを認識するトランスモデルを開発した。 モデルは,(1)入力パッチ,(2)入力シーケンスの2つの手法を用いて訓練される。 入力パッチでトレーニングしたモデルでは、0.938の認識精度が得られた。 一方、入力シーケンスで訓練されたモデルでは、0.895の精度が低い。 しかし、モデルトレーニング150サイクルを繰り返すと、入力パッチでトレーニングされたモデルは0.445から0.959の範囲で、入力シーケンスでトレーニングされたモデルは0.789から0.936の精度でトレーニングされた。 得られた結果は、光ビームの自動焦点付けやz軸ステージの自動調整など、様々な用途に拡張でき、所望のビームプロファイルを取得することができる。

Over the past decade, there has been extensive work in developing integrated silicon photonics (SiPh) gratings for the optical addressing of trapped ion qubits in the ion trap quantum computing community. However, when viewing beam profiles from infrared (IR) cameras, it is often difficult to determine the corresponding heights where the beam profiles are located. In this work, we developed transformer models to recognize the corresponding height categories of beam profiles of light from SiPh gratings. The model is trained using two techniques: (1) input patches, and (2) input sequence. For model trained with input patches, the model achieved recognition accuracy of 0.938. Meanwhile, model trained with input sequence shows lower accuracy of 0.895. However, when repeating the model-training 150 cycles, model trained with input patches shows inconsistent accuracy ranges between 0.445 to 0.959, while model trained with input sequence exhibit higher accuracy values between 0.789 to 0.936. The obtained outcomes can be expanded to various applications, including auto-focusing of light beam and auto-adjustment of z-axis stage to acquire desired beam profiles.
翻訳日:2024-08-21 18:14:26 公開日:2024-08-19
# 自動インシデント診断による列車保守技術者の増員

Augmenting train maintenance technicians with automated incident diagnostic suggestions ( http://arxiv.org/abs/2408.10288v1 )

ライセンス: Link先を確認
Georges Tod, Jean Bruggeman, Evert Bevernage, Pieter Moelans, Walter Eeckhout, Jean-Luc Glineur, (参考訳) 列車の運転事故は、列車の保守技術者によって個人および手動で診断されている。 保守作業員の応答性とタスク優先化を支援するため、列車事故が宣言された直後に、携帯電話、タブレット、ラップトップで技術者を訓練するための診断を推奨するために、学習機械を本番環境に開発、展開する。 フィードバックループは、指定された列車保守専門家によって実際の診断を考慮し、学習機械を洗練させる。 この問題を離散的な集合分類タスクとして定式化することにより, 車両上で発生した痕跡から, 物理的に妥当な事象の集合を抽出する特徴工学手法を提案する。 後者は、独自のアンサンブル分類器を、潜在的な技術的原因によってクラスインシデントに供給する。 最後に、得られたモデルは実際の運用データを使用してトレーニングされ、検証され、クラウドプラットフォームにデプロイされる。 今後は、抽出したイベントの集合が、予測メンテナンスアラートの作成において、人間の専門家を支援することで、インシデントを避けるためにどのように使用できるかを検討する予定である。

Train operational incidents are so far diagnosed individually and manually by train maintenance technicians. In order to assist maintenance crews in their responsiveness and task prioritization, a learning machine is developed and deployed in production to suggest diagnostics to train technicians on their phones, tablets or laptops as soon as a train incident is declared. A feedback loop allows to take into account the actual diagnose by designated train maintenance experts to refine the learning machine. By formulating the problem as a discrete set classification task, feature engineering methods are proposed to extract physically plausible sets of events from traces generated on-board railway vehicles. The latter feed an original ensemble classifier to class incidents by their potential technical cause. Finally, the resulting model is trained and validated using real operational data and deployed on a cloud platform. Future work will explore how the extracted sets of events can be used to avoid incidents by assisting human experts in the creation predictive maintenance alerts.
翻訳日:2024-08-21 18:14:26 公開日:2024-08-19
# チャットボットとゼロセールス抵抗

Chatbots and Zero Sales Resistance ( http://arxiv.org/abs/2408.10291v1 )

ライセンス: Link先を確認
Sauro Succi, (参考訳) 大規模機械学習アプリケーションにおけるますます多くの重量の追求は、エネルギッシュに持続不可能なだけでなく、経済・金融力の試行錯誤として科学が容易に役立てられるような操作戦略にも結びついている、と論じられている。 機械学習がビジネス上の利益に先立って科学に役立てることを意図しているなら、より多くの重みと少ない洞察から、より多くの洞察と少ない重みへと、パラダイムシフトが必要である。

It is argued that the pursuit of an ever increasing number of weights in large-scale machine learning applications, besides being energetically unsustainable, is also conducive to manipulative strategies whereby Science is easily served as a strawman for economic and financial power. If machine learning is meant to serve science ahead of vested business interests, a paradigm shift is needed: from more weights and little insight to more insight and less weights.
翻訳日:2024-08-21 18:14:26 公開日:2024-08-19
# コントラスト表現学習における過剰情報の活用

Leveraging Superfluous Information in Contrastive Representation Learning ( http://arxiv.org/abs/2408.10292v1 )

ライセンス: Link先を確認
Xuechu Yu, (参考訳) 相互情報を最大化することで、ラベルなしデータの異なるビュー間で共有情報を学習することを目的としたコントラスト表現学習は、下流タスクのための自己教師型学習において、その強力な能力を示している。 しかし、近年の研究では、より推定された相互情報は、下流タスクにおけるより良い性能を保証するものではないことが示されている。 このような研究は、学習された表現が、ラベルのないデータからタスク関連情報を保持するだけでなく、下流のタスクに過剰なタスク関連情報も保持し、パフォーマンスの劣化につながると推測するきっかけとなった。 本稿では,従来のコントラスト学習フレームワークに過剰情報が存在することを示すとともに,予測情報と過フル情報の両方を線形に組み合わせて頑健な表現を学習するための新たな目的であるSuperInfoを設計する。 また,従来の画像分類やオブジェクト検出,インスタンスセグメンテーションといった対照的な学習手法を著しく向上させながら,タスク関連情報の一部を共有していないタスク関連情報をスーパーインフォメーションの損失に応じて保持する上で,導入した損失の係数を調整し,タスク関連情報を捨てることが可能であることに気付く。

Contrastive representation learning, which aims to learnthe shared information between different views of unlabeled data by maximizing the mutual information between them, has shown its powerful competence in self-supervised learning for downstream tasks. However, recent works have demonstrated that more estimated mutual information does not guarantee better performance in different downstream tasks. Such works inspire us to conjecture that the learned representations not only maintain task-relevant information from unlabeled data but also carry task-irrelevant information which is superfluous for downstream tasks, thus leading to performance degeneration. In this paper we show that superfluous information does exist during the conventional contrastive learning framework, and further design a new objective, namely SuperInfo, to learn robust representations by a linear combination of both predictive and superfluous information. Besides, we notice that it is feasible to tune the coefficients of introduced losses to discard task-irrelevant information, while keeping partial non-shared task-relevant information according to our SuperInfo loss.We demonstrate that learning with our loss can often outperform the traditional contrastive learning approaches on image classification, object detection and instance segmentation tasks with significant improvements.
翻訳日:2024-08-21 18:14:26 公開日:2024-08-19
# 多体系における量子傷

Quantum scars in many-body systems ( http://arxiv.org/abs/2408.10301v1 )

ライセンス: Link先を確認
Andrea Pizzi, Bertrand Evrard, Ceren B. Dag, Johannes Knolle, (参考訳) カオスは、多くの相互作用する粒子の孤立した系を急速に熱化し、過去のことを忘れさせる。 量子固有状態は熱的かつ強く絡み合っているが、指数関数的にその多くが傷ついており、すなわち古典的不安定周期軌道に沿って重量が増大している。 スキャリングにより、システムは初期化されていた軌道上で発見されやすくなり、過去の記憶を保ち、長い時間でもシステムが完全に熱であるにもかかわらず、エルゴディディティを弱く破壊する。 我々は、凝縮物質物理学の最も一般的なものを含むスピンモデルの大きなファミリーを考慮することで、多体系における量子スカーリングの普遍性を実証する。 我々の発見は、現代の量子シミュレーターにとって、多体量子系におけるカオスにもかかわらず、構造を証明している。

Chaos makes isolated systems of many interacting particles quickly thermalize and forget about their past. Here, we show that quantum mechanics hinders chaos in many-body systems: although the quantum eigenstates are thermal and strongly entangled, exponentially many of them are scarred, that is, have an enlarged weight along underlying classical unstable periodic orbits. Scarring makes the system more likely to be found on an orbit it was initialized on, retaining a memory of its past and thus weakly breaking ergodicity, even at long times and despite the system being fully thermal. We demonstrate the ubiquity of quantum scarring in many-body systems by considering a large family of spin models, including some of the most popular ones from condensed matter physics. Our findings, at hand for modern quantum simulators, prove structure in spite of chaos in many-body quantum systems.
翻訳日:2024-08-21 18:14:26 公開日:2024-08-19
# 厳密な地域法の絡み合いとキラル性

Strict area law entanglement versus chirality ( http://arxiv.org/abs/2408.10306v1 )

ライセンス: Link先を確認
Xiang Li, Ting-Chun Lin, John McGreevy, Bowen Shi, (参考訳) キラリティ(英: Chirality)は、非ゼロ熱伝導や電気伝導によって表される2つの空間次元の物質相のギャップの性質である。 本論文では、有限次元局所ヒルベルト空間における量子状態に対するそのようなキラリティを厳密な領域法則エントロピーで禁止する2つのノーゴー定理を証明する。 証明において重要な要素として、他の多くの潜在的な応用を有する即時モジュラフローと呼ばれる新しい量子情報理論プリミティブを導入する。

Chirality is a property of a gapped phase of matter in two spatial dimensions that can be manifested through non-zero thermal or electrical Hall conductance. In this paper, we prove two no-go theorems that forbid such chirality for a quantum state in a finite dimensional local Hilbert space with strict area law entanglement entropies. As a crucial ingredient in the proofs, we introduce a new quantum information-theoretic primitive called instantaneous modular flow, which has many other potential applications.
翻訳日:2024-08-21 18:14:26 公開日:2024-08-19
# ファフィアン量子モンテカルロ:マヨラナ記号の曖昧性への解とその応用

Pfaffian quantum Monte Carlo: solution to Majorana sign ambiguity and applications ( http://arxiv.org/abs/2408.10311v1 )

ライセンス: Link先を確認
Ze-Yao Han, Zhou-Quan Wan, Hong Yao, (参考訳) 複素フェルミオン表現で定式化された決定量子モンテカルロ(DQMC)は、強相関フェルミオン系の研究において重要な役割を果たしている。 しかし、ハバード・ストラトノビッチ変換後の粒子数保存の必要性により、適用性は制限されている。 従来のDQMCを超えると、マヨラナ・フェルミオンがQMC [1,2] に導入された際に、一つの発展が促進された。 しかし、以前のマヨラナをベースとしたQMCでは、ボルツマンの重みは曖昧さでしばしば決定される。 ここでは、このあいまいさの解消に成功し、閉形式であるPfaffian式を導出し、多項式時間でその符号による重みの効率的な計算を可能にした。 我々はこれを 'PfQMC' (Pfffian quantum Monte Carlo) と呼び、一般的な相互作用するフェルミオンモデルに適用できる。 我々はPfQMCを用いて、キタエフ連鎖におけるマヨラナエッジモードの強い相互作用に対する堅牢性について検討した。 さらなる柔軟性を提供することで、PfQMCは既存のサイン緩和および近似手法を強化し、ドープされたHubbardモデルの基底状態特性のような問題に対処するのに役立つ可能性がある。

Determinant quantum Monte Carlo (DQMC), formulated in complex-fermion representation, has played a key role in studying strongly-correlated fermion systems. However, its applicability is limited due to the requirement of particle-number conservation after Hubbard-Stratonovich transformation. In going beyond the conventional DQMC, one encouraging development occurred when Majorana fermions were introduced for QMC [1,2]. But in previous Majorana-based QMC, Boltzmann weight is determined often with a sign ambiguity. Here we successfully resolved this ambiguity by deriving a closed-form Pfaffian formula for the weight, enabling efficient calculation of the weight with its sign in polynomial time. We call it ''Pfaffian quantum Monte Carlo'' (PfQMC), which can be applied to generic interacting fermion models. We have successfully employed PfQMC to explore how robust Majorana edge modes in Kitaev chain are against strong interactions. By offering greater flexibility, PfQMC can potentially enhance existing sign-mitigating and approximation methods and help address challenging issues such as the ground-state properties of the doped Hubbard model.
翻訳日:2024-08-21 18:14:26 公開日:2024-08-19
# デコヒーレンス下におけるチャネル非局所性

Channel nonlocality under decoherence ( http://arxiv.org/abs/2408.10317v1 )

ライセンス: Link先を確認
Albert Rico, Moisés Bermejo Morán, Fereshte Shahbeigi, Karol Życzkowski, (参考訳) 現実的な量子デバイスの実装には、量子チャネルに存在する非局所的なリソースのしっかりとした理解と、それらに対するデコヒーレンスの影響が必要である。 ここでは、二部量子チャネルの非局所性を定量化し、その成分が減音効果に抵抗することを示す。 古典的な性質にもかかわらず、状態変換や雑音のある通信のための量子符号化といった量子プロトコルの実行において、後者が関連する役割を担っていることを実証する。 逆方向では、デコヒーレンス中の量子チャネルによる確率過程のシミュレートが、古典的シミュレーションに関してコミュニケーション上の優位性を持つことを示す。

The implementation of realistic quantum devices requires a solid understanding of the nonlocal resources present in quantum channels, and the effects of decoherence on them. Here we quantify nonlocality of bipartite quantum channels and identify its component resisting the effects of dephasing noise. Despite its classical nature, we demonstrate that the latter plays a relevant role in performing quantum protocols, such as state transformations and quantum coding for noisy communication. In the converse direction, we show that simulating certain stochastic processes with quantum channels undergoing decoherence has a communication advantage with respect to their classical simulation.
翻訳日:2024-08-21 18:03:34 公開日:2024-08-19
# 量子符号上のSDP境界

SDP bounds on quantum codes ( http://arxiv.org/abs/2408.10323v1 )

ライセンス: Link先を確認
Gerard Anglès Munné, Andrew Nemec, Felix Huber, (参考訳) 本稿では、与えられたパラメータを持つ量子コードの存在を決定するために、状態多項式最適化に基づく半定値プログラミング階層を提供する。 階層は、$(\! (n,K,\delta)\! )_2$コードが存在しなければ、階層のレベルは実現不可能である。 安定符号に限らず、一般に適用される。 形式的には次元自由であるが、準クリフォード代数を通したクォービット符号に制限する。 まず、中間レベルから自己双対量子符号の Lov\'asz が回復する。 第二に、この Lov\'asz 境界の小さな変動の対称性は、量子デルサルテ境界を回復させる。 第三に、テルウィガー代数を用いた対称性の還元は、サイズ$O(n^4)$の半定値なプログラミング境界をもたらす。 これにより、$(\! (7,1,4)\! )_2$quantum code, and show that $(\! (8,9,3)\! )_2$と$(\! (10,5,4)\! )_2$符号は存在しない。

This paper provides a semidefinite programming hierarchy based on state polynomial optimization to determine the existence of quantum codes with given parameters. The hierarchy is complete, in the sense that if a $(\!(n,K,\delta)\!)_2$ code does not exist then a level of the hierarchy is infeasible. It is not limited to stabilizer codes and thus applicable generally. While it is formally dimension-free, we restrict it to qubit codes through quasi-Clifford algebras. We derive the quantum analog of a range of classical results: first, from an intermediate level a Lov\'asz bound for self-dual quantum codes is recovered. Second, a symmetrization of a minor variation of this Lov\'asz bound recovers the quantum Delsarte bound. Third, a symmetry reduction using the Terwilliger algebra leads to semidefinite programming bounds of size $O(n^4)$. With this we give an alternative proof that there is no $(\!(7,1,4)\!)_2$ quantum code, and show that $(\!(8,9,3)\!)_2$ and $(\!(10,5,4)\!)_2$ codes do not exist.
翻訳日:2024-08-21 18:03:34 公開日:2024-08-19
# 宇宙ミッションによる高速振動基本定数の探索

Search for fast-oscillating fundamental constants with space missions ( http://arxiv.org/abs/2408.10324v1 )

ライセンス: Link先を確認
Dmitry Budker, Joshua Eby, Marianna S. Safronova, Oleg Tretiak, (参考訳) 銀河中心から太陽の距離でダークマター密度を推定することは可能だが、これは太陽系の実際のダークマター密度に関する情報を与えていない。 太陽、地球、その他の太陽系の惑星を含む重力中心付近では、ダークマター密度がかなり局所的に高められる可能性がある。 近年,このようなハロ類の形成機構が解明されている。 本研究では、太陽系の様々な天体に許容されるハロダークマター過剰度と対応するダークマター質量について研究する。 我々は、量子時計、原子および分子分光計などの機器を用いて、基本定数の高速(ヘルツからギガヘルツまで)振動、高感度の磁気センサ、その他の量子センサやセンサーネットワークを用いて、そのようなハロを検知するための宇宙船ミッションを探索する。

While it is possible to estimate the dark matter density at the Sun distance from the galactic center, this does not give information on actual dark matter density in the Solar system. There can be considerable local enhancement of dark matter density in the vicinity of gravitating centers, including the Sun, the Earth, as well as other planets in the solar system. Generic mechanisms for the formation of such halos were recently elucidated. In this work, we studies the possible halo dark matter overdensities and corresponding dark matter masses allowed for various objects in the solar system. We explore spacecraft missions to detect such halos with instruments such as quantum clocks, atomic and molecular spectrometers designed to search for fast (tens of hertz to gigahertz) oscillations of fundamental constants, highly sensitive comagnetometers, and other quantum sensors and sensor networks.
翻訳日:2024-08-21 18:03:34 公開日:2024-08-19
# Pythonエコシステムにおけるパッケージレベル非推奨に関する実証的研究

An Empirical Study on Package-Level Deprecation in Python Ecosystem ( http://arxiv.org/abs/2408.10327v1 )

ライセンス: Link先を確認
Zhiqing Zhong, Shilin He, Haoxuan Wang, Boxi Yu, Haowen Yang, Pinjia He, (参考訳) オープンソースソフトウェア(OSS)は、現代のソフトウェア開発において重要な役割を果たす。 OSSコードを使用することで、ソフトウェア開発を大幅に加速し、冗長性を低減し、信頼性を高めることができる。 広く採用されているプログラミング言語であるPythonは、広範囲で多様なサードパーティ製パッケージエコシステムで有名である。 しかしながら、Pythonエコシステム内のOSSパッケージのかなりの数は、メンテナンスが不十分で、機能やセキュリティの潜在的なリスクにつながっている。 したがって、パッケージ管理を効果的に行う上で、パッケージ開発者やユーザを支援するための非推奨のメカニズムを確立することが不可欠である。 本報告では, パッケージレベルのデプリケーション機構の確立を容易にするため, データ分析や調査を含む混合メタリックな実証研究を提案する。 我々は,Pythonエコシステムにおけるパッケージレベルの非推奨事項の発表,受信,処理の現在の実践について検討する。 また,非アクティブにメンテナンスされたパッケージに対して,非推奨のアナウンスを行うことのメリットも評価した。 さらに,パッケージ開発者やユーザによる課題と今後の非推奨プラクティスに対する期待について検討する。 その結果,75.4%の非アクティブパッケージ開発者は,さまざまな理由からデプリケーション宣言をリリースするつもりはなく,89.5%のユーザがデプリケーションを通知したいという願望を表明し,開発者とユーザのギャップを浮き彫りにしていることがわかった。 我々は,Python OSS領域における既存のパッケージレベルの非推奨パターンの理解を深め,将来的にはPythonコミュニティの非推奨プラクティスの開発を促進することを目的としている。

Open-source software (OSS) plays a crucial role in modern software development. Utilizing OSS code can greatly accelerate software development, reduce redundancy, and enhance reliability. Python, a widely adopted programming language, is renowned for its extensive and diverse third-party package ecosystem. However, a significant number of OSS packages within the Python ecosystem are in poor maintenance, leading to potential risks in functionality and security. Consequently, it is essential to establish a deprecation mechanism to assist package developers and users in managing packages effectively. To facilitate the establishment of the package-level deprecation mechanism, this paper presents a mixed-method empirical study, including data analysis and surveys. We investigate the current practices of announcing, receiving, and handling package-level deprecation in the Python ecosystem. We also assess the benefits of having deprecation announcements for inactively maintained packages. Furthermore, we investigate the challenges faced by package developers and users and their expectations for future deprecation practices. Our findings reveal that 75.4% of inactive package developers have no intention of releasing deprecation declarations for various reasons, while 89.5% of users express a desire to be notified about the deprecation, highlighting a gap between developers and users; in many cases, no alternative solutions are available when deprecation occurs, emphasizing the need to explore practical approaches that enable seamless package handover and require less maintenance effort. Our work aims to enhance the understanding of existing package-level deprecation patterns within the Python OSS realm and facilitate the development of deprecation practices for the Python community in the future.
翻訳日:2024-08-21 18:03:34 公開日:2024-08-19
# 人間の感情をデコードする:LSTMネットワークを用いたマルチチャネル脳波データの解析

Decoding Human Emotions: Analyzing Multi-Channel EEG Data using LSTM Networks ( http://arxiv.org/abs/2408.10328v1 )

ライセンス: Link先を確認
Shyam K Sateesh, Sparsh BK, Uma D, (参考訳) 脳波(EEG)信号からの感情認識は、特に神経科学とヒューマン・コンピュータ・インタラクション(HCI)において繁栄する分野である。 本研究の目的は,脳波信号を解析するためにLong Short-Term Memory(LSTM)ネットワークを適用することにより,原子価,覚醒度,支配度などの指標を用いて感情状態分類の予測精度を向上することである。 DEAPとして知られる多チャンネル脳波記録の一般的なデータセットを用いて、LSTMネットワークの特性を活用して、脳波信号データ内の時間的依存関係を処理する。 これにより、感情的パラメータ状態のより包括的な理解と分類が可能になる。 感情認識モデルの能力は, それぞれ89.89%, 90.33%, 90.70%, 90.54%であった。 本稿では,LSTMモデルの方法論とアーキテクチャを解明し,既存の論文のベンチマーク分析を行う。

Emotion recognition from electroencephalogram (EEG) signals is a thriving field, particularly in neuroscience and Human-Computer Interaction (HCI). This study aims to understand and improve the predictive accuracy of emotional state classification through metrics such as valence, arousal, dominance, and likeness by applying a Long Short-Term Memory (LSTM) network to analyze EEG signals. Using a popular dataset of multi-channel EEG recordings known as DEAP, we look towards leveraging LSTM networks' properties to handle temporal dependencies within EEG signal data. This allows for a more comprehensive understanding and classification of emotional parameter states. We obtain accuracies of 89.89%, 90.33%, 90.70%, and 90.54% for arousal, valence, dominance, and likeness, respectively, demonstrating significant improvements in emotion recognition model capabilities. This paper elucidates the methodology and architectural specifics of our LSTM model and provides a benchmark analysis with existing papers.
翻訳日:2024-08-21 18:03:34 公開日:2024-08-19
# 音声・音声処理におけるメタラーニング : 包括的レビューの終了まで

Meta-Learning in Audio and Speech Processing: An End to End Comprehensive Review ( http://arxiv.org/abs/2408.10330v1 )

ライセンス: Link先を確認
Athul Raimon, Shubha Masti, Shyam K Sateesh, Siyani Vengatagiri, Bhaskarjyoti Das, (参考訳) 本稿では,音声・音声処理におけるメタラーニング手法について概説する。 メタラーニングでは、最小限の注釈付きサンプルでモデルパフォーマンスを最大化する必要があるため、低サンプリングオーディオ処理に適している。 この分野は幾らか大きな貢献をしてきたが、音声メタラーニングには包括的調査論文がない。 本稿では,音声処理におけるメタラーニング手法の体系的レビューを行う。 これには、データ拡張、機能抽出、プリプロセッシングテクニック、メタラーナー、タスク選択戦略、および重要な実世界のユースケースとともに、オーディオにおける重要なデータセット提示などが含まれる。 この広範なレビューを通じて,メタラーニングとオーディオ処理の交差点において,貴重な知見を提供し,今後の研究方向を明らかにすることを目的とする。

This survey overviews various meta-learning approaches used in audio and speech processing scenarios. Meta-learning is used where model performance needs to be maximized with minimum annotated samples, making it suitable for low-sample audio processing. Although the field has made some significant contributions, audio meta-learning still lacks the presence of comprehensive survey papers. We present a systematic review of meta-learning methodologies in audio processing. This includes audio-specific discussions on data augmentation, feature extraction, preprocessing techniques, meta-learners, task selection strategies and also presents important datasets in audio, together with crucial real-world use cases. Through this extensive review, we aim to provide valuable insights and identify future research directions in the intersection of meta-learning and audio processing.
翻訳日:2024-08-21 18:03:34 公開日:2024-08-19
# 逆ストリーミングPCAのためのスペクトル保証

Spectral Guarantees for Adversarial Streaming PCA ( http://arxiv.org/abs/2408.10332v1 )

ライセンス: Link先を確認
Eric Price, Zhiyang Xun, (参考訳) ストリーミングPCAでは、ベクトルのストリームが$x_1, \dotsc, x_n \in \mathbb{R}^d$となり、共分散行列のトップ固有ベクトルを推定したい。 スペクトル比$R = \lambda_1 / \lambda_2$が大きければ、これは簡単である。 ストリーミングPCAを$\widetilde{O}(d)$スペースで解決するためには、$R$がどれくらい必要か? 既存のアルゴリズムには$R = \widetilde{\Omega}(d)$が必要である。 1) マージ可能なすべての要約に対して、$R = \widetilde{\Omega}(\sqrt{d})$ が必要である。 2)挿入専用モデルでは、Ojaのアルゴリズムの変種は、$R = O(\log n \log d)$に対して$o(1)$エラーを得る。 (3)$o(d^2)$スペースを持つアルゴリズムは、$R = O(1)$に対して$o(1)$エラーを得る。 我々の分析は,Ojaのアルゴリズムを逆流に応用した最初のものである。 また、Frobeniusではなくスペクトルのために設計され、テールに縛られている逆ストリーミングPCAのアルゴリズムとしては初めてであり、Frobeniusの保証を適用することで、必要となるバウンダリは指数関数的に優れている。

In streaming PCA, we see a stream of vectors $x_1, \dotsc, x_n \in \mathbb{R}^d$ and want to estimate the top eigenvector of their covariance matrix. This is easier if the spectral ratio $R = \lambda_1 / \lambda_2$ is large. We ask: how large does $R$ need to be to solve streaming PCA in $\widetilde{O}(d)$ space? Existing algorithms require $R = \widetilde{\Omega}(d)$. We show: (1) For all mergeable summaries, $R = \widetilde{\Omega}(\sqrt{d})$ is necessary. (2) In the insertion-only model, a variant of Oja's algorithm gets $o(1)$ error for $R = O(\log n \log d)$. (3) No algorithm with $o(d^2)$ space gets $o(1)$ error for $R = O(1)$. Our analysis is the first application of Oja's algorithm to adversarial streams. It is also the first algorithm for adversarial streaming PCA that is designed for a spectral, rather than Frobenius, bound on the tail; and the bound it needs is exponentially better than is possible by adapting a Frobenius guarantee.
翻訳日:2024-08-21 18:03:34 公開日:2024-08-19
# アダプティブ・悪意のあるコード・インジェクション・バックドア・アタックは、ユーザーの行動をトリガーとして活用する

A Disguised Wolf Is More Harmful Than a Toothless Tiger: Adaptive Malicious Code Injection Backdoor Attack Leveraging User Behavior as Triggers ( http://arxiv.org/abs/2408.10334v1 )

ライセンス: Link先を確認
Shangxi Wu, Jitao Sang, (参考訳) 近年,大規模言語モデル (LLM) はコード生成の分野で大きな進歩を遂げている。 しかし、ますます多くのユーザーがこれらのモデルをソフトウェア開発に頼っているため、コード生成モデルに関連するセキュリティリスクはますます深刻になっている。 従来のディープラーニングの堅牢性に関する問題は、コード生成の分野にも悪影響を及ぼすことが研究で示されている。 本稿では,コード生成シナリオにおけるセキュリティ問題に着目したゲーム理論モデルを提案する。 このフレームワークは、攻撃者が悪意のあるコードモデルを広げてセキュリティ脅威を発生させる可能性のあるシナリオとパターンを概説する。 また、攻撃者がバックドア攻撃を使用して悪意のあるコードインジェクションのタイミングを動的に調整できることを初めて指摘した。 コード生成モデルをリードする広範な実験を通じて、提案したゲーム理論モデルを検証するとともに、これらの新たな攻撃シナリオがコードモデルの安全な使用にもたらす重大な脅威を強調します。

In recent years, large language models (LLMs) have made significant progress in the field of code generation. However, as more and more users rely on these models for software development, the security risks associated with code generation models have become increasingly significant. Studies have shown that traditional deep learning robustness issues also negatively impact the field of code generation. In this paper, we first present the game-theoretic model that focuses on security issues in code generation scenarios. This framework outlines possible scenarios and patterns where attackers could spread malicious code models to create security threats. We also pointed out for the first time that the attackers can use backdoor attacks to dynamically adjust the timing of malicious code injection, which will release varying degrees of malicious code depending on the skill level of the user. Through extensive experiments on leading code generation models, we validate our proposed game-theoretic model and highlight the significant threats that these new attack scenarios pose to the safe use of code models.
翻訳日:2024-08-21 18:03:34 公開日:2024-08-19
# ハードウェア効率の良いフォトニック変分量子アルゴリズムの実証

Demonstration of Hardware Efficient Photonic Variational Quantum Algorithm ( http://arxiv.org/abs/2408.10339v1 )

ライセンス: Link先を確認
Iris Agresti, Koushik Paul, Peter Schiansky, Simon Steiner, Zhengao Yin, Ciro Pentangelo, Simone Piacentini, Andrea Crespi, Yue Ban, Francesco Ceccarelli, Roberto Osellame, Xi Chen, Philip Walther, (参考訳) 量子コンピューティングはコンピュータ科学のパラダイム変更をもたらし、非古典的技術は古典的技術よりも優れた性能を約束している。 このような利点は、実用的応用のないタスクに対してのみ実証されたが、最先端の量子技術には及ばない。 この文脈では、量子コンピュータの実用性を見つけるための有望な戦略は、量子デバイスが計算しにくい量を推定するハイブリッド量子古典モデルを利用することであり、一方古典最適化器はモデルのパラメータを訓練する。 本研究では,問題仕様やアンザッツが特定のプラットフォームに適合する場合に,単一の光子と線形光ネットワークが変分量子アルゴリズムを実装するのに十分であることを示す。 我々はこれを、適切なハミルトンの基底状態において解が符号化される因子化タスクのインスタンスに取り組むための変分的アプローチの証明によって示す。 変分量子アルゴリズムと線形光学ネットワークのためのハードウェア効率の良いアンサーゼを組み合わせたこの研究は、フォトニック量子プラットフォームへの実用的な応用に向けた有望な道筋を示している。

Quantum computing has brought a paradigm change in computer science, where non-classical technologies have promised to outperform their classical counterpart. Such an advantage was only demonstrated for tasks without practical applications, still out of reach for the state-of-art quantum technologies. In this context, a promising strategy to find practical use of quantum computers is to exploit hybrid quantum-classical models, where a quantum device estimates a hard-to-compute quantity, while a classical optimizer trains the parameters of the model. In this work, we demonstrate that single photons and linear optical networks are sufficient for implementing Variational Quantum Algorithms, when the problem specification, or ansatz, is tailored to this specific platform. We show this by a proof-of-principle demonstration of a variational approach to tackle an instance of a factorization task, whose solution is encoded in the ground state of a suitable Hamiltonian. This work which combines Variational Quantum Algorithms with hardware efficient ansatzes for linear-optics networks showcases a promising pathway towards practical applications for photonic quantum platforms.
翻訳日:2024-08-21 18:03:34 公開日:2024-08-19
# 教師なしクラスタリングアルゴリズムは分類システムを再現できるのか?

Can an unsupervised clustering algorithm reproduce a categorization system? ( http://arxiv.org/abs/2408.10340v1 )

ライセンス: Link先を確認
Nathalia Castellanos, Dhruv Desai, Sebastian Frank, Stefano Pasquali, Dhagash Mehta, (参考訳) ピア分析は投資管理の重要な要素であり、しばしば専門家が提供する分類システムに依存している。 これらのシステムの一貫性は、様々なメトリクスに最適化された教師なしクラスタリングアルゴリズムのコホートと一致しない場合に問題となる。 ラベル付きデータセットにおいて,教師なしクラスタリングが真理クラスを再現できるかどうかを検討した。 おもちゃのデータセットとファンドの分類を実世界の例として用いて、基底真理クラスを正確に再現することは困難であることを示す。 また,標準クラスタリング評価指標の限界として,基底真理クラスに対するクラスタ数の最適化に留意する。 そして、データセットで適切な特徴が得られ、適切な距離測定値(例えば、ランダムフォレストをベースとした距離距離学習法)が分かっている場合、教師なしクラスタリングは、実際に基底真理クラスを別個のクラスタとして再現できることを示す。

Peer analysis is a critical component of investment management, often relying on expert-provided categorization systems. These systems' consistency is questioned when they do not align with cohorts from unsupervised clustering algorithms optimized for various metrics. We investigate whether unsupervised clustering can reproduce ground truth classes in a labeled dataset, showing that success depends on feature selection and the chosen distance metric. Using toy datasets and fund categorization as real-world examples we demonstrate that accurately reproducing ground truth classes is challenging. We also highlight the limitations of standard clustering evaluation metrics in identifying the optimal number of clusters relative to the ground truth classes. We then show that if appropriate features are available in the dataset, and a proper distance metric is known (e.g., using a supervised Random Forest-based distance metric learning method), then an unsupervised clustering can indeed reproduce the ground truth classes as distinct clusters.
翻訳日:2024-08-21 18:03:34 公開日:2024-08-19
# LegalBench-RAG: 法域における検索拡張生成のベンチマーク

LegalBench-RAG: A Benchmark for Retrieval-Augmented Generation in the Legal Domain ( http://arxiv.org/abs/2408.10343v1 )

ライセンス: Link先を確認
Nicholas Pipitone, Ghita Houir Alami, (参考訳) Retrieval-Augmented Generation (RAG)システムは有望な可能性を示しており、AIによる法的な応用にますます関係している。 LegalBenchのような既存のベンチマークは、法域におけるLarge Language Models(LLM)の生成能力を評価するが、RAGシステムの検索コンポーネントを評価するには重大なギャップがある。 これを解決するために、法空間内のRAGパイプラインの検索ステップを評価するために設計された最初のベンチマークであるLegalBench-RAGを紹介する。 LegalBench-RAGは、法律文書から最小限の、非常に関連性の高いテキストセグメントを抽出することに焦点を当てて、正確な検索を強調している。 これらの非常に関連性の高いスニペットは、文書IDの検索や不正確なチャンクの大規模なシーケンスよりも好まれる。 長いコンテキストウィンドウは処理により多くのコストがかかり、レイテンシが高くなり、LLMは情報を忘れたり幻覚させる。 加えて、正確な結果により、LLMはエンドユーザのために引用を生成することができる。 LegalBench-RAGベンチマークは、LegalBenchクエリで使用されるコンテキストを法定コーパス内の元の場所に遡ることによって構築されている。 高速反復実験のための軽量バージョンである LegalBench-RAG-mini も紹介する。 法律検索のための専用のベンチマークを提供することにより、法域におけるRAGシステムの正確性と性能の向上に焦点を当てた企業や研究者にとって、LegalBench-RAGは重要なツールとなる。 LegalBench-RAGデータセットはhttps://github.com/zeroentropy-cc/legalbenchragで公開されている。

Retrieval-Augmented Generation (RAG) systems are showing promising potential, and are becoming increasingly relevant in AI-powered legal applications. Existing benchmarks, such as LegalBench, assess the generative capabilities of Large Language Models (LLMs) in the legal domain, but there is a critical gap in evaluating the retrieval component of RAG systems. To address this, we introduce LegalBench-RAG, the first benchmark specifically designed to evaluate the retrieval step of RAG pipelines within the legal space. LegalBench-RAG emphasizes precise retrieval by focusing on extracting minimal, highly relevant text segments from legal documents. These highly relevant snippets are preferred over retrieving document IDs, or large sequences of imprecise chunks, both of which can exceed context window limitations. Long context windows cost more to process, induce higher latency, and lead LLMs to forget or hallucinate information. Additionally, precise results allow LLMs to generate citations for the end user. The LegalBench-RAG benchmark is constructed by retracing the context used in LegalBench queries back to their original locations within the legal corpus, resulting in a dataset of 6,858 query-answer pairs over a corpus of over 79M characters, entirely human-annotated by legal experts. We also introduce LegalBench-RAG-mini, a lightweight version for rapid iteration and experimentation. By providing a dedicated benchmark for legal retrieval, LegalBench-RAG serves as a critical tool for companies and researchers focused on enhancing the accuracy and performance of RAG systems in the legal domain. The LegalBench-RAG dataset is publicly available at https://github.com/zeroentropy-cc/legalbenchrag.
翻訳日:2024-08-21 18:03:34 公開日:2024-08-19
# ベクトル量子磁気学のための六方晶窒化ホウ素の単一スピン

A single spin in hexagonal boron nitride for vectorial quantum magnetometry ( http://arxiv.org/abs/2408.10348v1 )

ライセンス: Link先を確認
Carmem M. Gilardoni, Simone Eizagirre Barker, Catherine L. Curtin, Stephanie A. Fraser, Oliver. F. J. Powell, Dillon K. Lewis, Xiaoxi Deng, Andrew J. Ramsay, Chi Li, Igor Aharonovich, Hark Hoe Tan, Mete Atatüre, Hannah L. Stern, (参考訳) 固体スピン欠陥に基づく量子センシングは、様々な環境条件下でナノスケールの物理的特性をイメージングするための、一意に汎用的なプラットフォームを提供する。 現在使われているほとんどのセンサーの操作は、単一の軸に沿った射影測定と計算外挿の組み合わせに基づいている。 ここでは, 六方晶窒化ホウ素の個々の炭素関連スピン欠陥が, ベクトルナノスケール磁気学の多軸スピン系であることを示す。 我々は、その低対称性と強いスピン選択的な直交系と逆系の交差力学が、50mTを超えるオンおよびオフ軸バイアス磁場の両方に対して、サブ$\mu$T/$\sqrt{\text{Hz}}$の磁場感度をもたらすことを実証した。

Quantum sensing based on solid-state spin defects provides a uniquely versatile platform for imaging physical properties at the nanoscale under diverse environmental conditions. Operation of most sensors used to-date is based on projective measurement along a single axis combined with computational extrapolation. Here, we show that the individually addressable carbon-related spin defect in hexagonal boron nitride is a multi-axis spin system for vectorial nanoscale magnetometry. We demonstrate how its low symmetry and strongly spin-selective direct and reverse intersystem crossing dynamics provide sub-$\mu$T/$\sqrt{\text{Hz}}$ magnetic-field sensitivity for both on and off-axis bias magnetic field exceeding 50 mT. Alongside these features, the room-temperature operation and the nanometer-scale proximity enabled by the van der Waals host material further consolidate this system as an exciting quantum sensing platform.
翻訳日:2024-08-21 18:03:34 公開日:2024-08-19
# AIR: 連続学習のための解析的不均衡整流器

AIR: Analytic Imbalance Rectifier for Continual Learning ( http://arxiv.org/abs/2408.10349v1 )

ライセンス: Link先を確認
Di Fang, Yinan Zhu, Runze Fang, Cen Chen, Ziqian Zeng, Huiping Zhuang, (参考訳) 継続的な学習により、AIモデルは現実世界のシナリオを再トレーニングすることなく、シーケンシャルに新しいデータを学習することができる。 既存のほとんどの手法では、トレーニングデータはバランスが取れていると仮定しており、モデルが以前に生成されたデータを忘れる傾向にある破滅的な忘れの問題を減らすことを目的としている。 しかし、データ不均衡と、現実のシナリオにおける新しいデータと古いデータの混在は、モデルのトレーニングサンプルの少ないカテゴリを無視します。 そこで本研究では,データ不均衡型クラスインクリメンタルラーニング(CIL)と一般化型CILシナリオを対象とした解析的(クローズドフォーム)なオンライン非定型連続学習手法であるAIRを提案する。 AIRは分析的再重み付けモジュール(ARM)を導入し、損失関数の各クラスに対する再重み付け係数を計算し、各カテゴリの全体的な損失への貢献をバランスさせ、不均衡なトレーニングデータの問題を解決する。 AIRは最小二乗法を用いて、非識別的最適分類器とその反復的更新法を連続学習に与えている。 複数のデータセットの実験結果から、AIRは長い尾と一般化されたCILシナリオで既存のメソッドよりも大幅に優れています。 ソースコードはhttps://github.com/fang-d/AIRで公開されている。

Continual learning enables AI models to learn new data sequentially without retraining in real-world scenarios. Most existing methods assume the training data are balanced, aiming to reduce the catastrophic forgetting problem that models tend to forget previously generated data. However, data imbalance and the mixture of new and old data in real-world scenarios lead the model to ignore categories with fewer training samples. To solve this problem, we propose an analytic imbalance rectifier algorithm (AIR), a novel online exemplar-free continual learning method with an analytic (i.e., closed-form) solution for data-imbalanced class-incremental learning (CIL) and generalized CIL scenarios in real-world continual learning. AIR introduces an analytic re-weighting module (ARM) that calculates a re-weighting factor for each class for the loss function to balance the contribution of each category to the overall loss and solve the problem of imbalanced training data. AIR uses the least squares technique to give a non-discriminatory optimal classifier and its iterative update method in continual learning. Experimental results on multiple datasets show that AIR significantly outperforms existing methods in long-tailed and generalized CIL scenarios. The source code is available at https://github.com/fang-d/AIR.
翻訳日:2024-08-21 18:03:34 公開日:2024-08-19
# 多段ベル不等式違反の必要十分条件

Towards Necessary and sufficient state condition for violation of a multi-settings Bell inequality ( http://arxiv.org/abs/2408.10350v1 )

ライセンス: Link先を確認
Swapnil Bhowmick, Som Kanjilal, A. K. Pan, Souradeep Sasmal, (参考訳) 高次元の量子絡み合いとその実験的実現の進歩は、基礎研究の場を提供し、最終的には量子技術の発展に繋がる。 ホロデキの基準は、状態パラメータのみから2ビットの絡み合った状態に対して、状態がクレーター・ホーネ・シモニー・ホルト(CHSH)不等式に違反しているかどうかを決定する。 しかし、ベルの不等式に違反した高次元の絡み合った状態に対して、同様の必要かつ十分な基準を定式化することは依然として難しい課題である。 ここでは、任意の2量子状態の状態パラメータに基づいて、Alice と Bob の 2n-1}$ および $n$ のベルの不等式に違反するホロデキ様の基準を開発する。 この不等式はよく知られたCHSH と Gisin のエレガントなベルの不等式をそれぞれ $n=2$ と $n=3$ で減少させる。 提案された基準はベルの不等式に違反するのに十分であるが、以下の場合も必要となる。 (i)$m$任意の$n$に対するベル対角状態のコピー 二 相関行列が局所ユニタリで対角化されている非分解性状態、及び (iii)$n=3$の任意の2量子状態に対して、ベル汎函数の最大値は、Bobの測定値が対の反可換であるときに達成される。 任意の状態に対して、この不等式に対する最大量子違反を達成する際のアリスの測定に関する制約を導出する。

High dimensional quantum entanglement and the advancements in their experimental realization provide a playground for fundamental research and eventually lead to quantum technological developments. The Horodecki criterion determines whether a state violates Clauser-Horne-Shimony-Holt (CHSH) inequality for a two-qubit entangled state, solely from the state parameters. However, it remains a challenging task to formulate similar necessary and sufficient criteria for a high-dimensional entangled state for the violation of a suitable Bell inequality. Here, we develop a Horodecki-like criterion based on the state parameters of arbitrary two-qudit states to violate a two-outcome Bell inequality involving $2^{n-1}$ and $n$ measurement settings for Alice and Bob, respectively. This inequality reduces to the well-known CHSH and Gisin's elegant Bell inequalities for $n=2$ and $n=3$, respectively. While the proposed criterion is sufficient to violate the Bell inequality, it becomes necessary as well for the following cases; (i) $m$ copies of Bell diagonal states for arbitrary $n$, (ii) Non-decomposable states whose correlation matrix is diagonalized by local unitaries, and (iii) for any arbitrary two-qubit state when $n=3$, where the maximal value of the Bell functional is achieved with Bob's measurements being pairwise anticommuting. For any states, we derive the constraints on Alice's measurements in achieving the maximum quantum violation for this inequality.
翻訳日:2024-08-21 18:03:34 公開日:2024-08-19
# アルゴリズムとAIによるソーシャルメディアがティーンエイジャーに与える心理的影響:行動への呼びかけ

The Psychological Impacts of Algorithmic and AI-Driven Social Media on Teenagers: A Call to Action ( http://arxiv.org/abs/2408.10351v1 )

ライセンス: Link先を確認
Sunil Arora, Sahil Arora, John D. Hastings, (参考訳) 本研究では,ソーシャルメディアを取り巻くメタ問題について検討し,社会的相互作用の促進と,個人の経験や生活出来事の共有を促進することによって社会生活の改善を理論的に図ったが,心理学的影響は少なくない。 より密接な関係を育み、社会生活を改善する代わりに、ソーシャルメディアプラットフォームを弱体化させるアルゴリズムと構造が、必然的に個人に深刻な心理的影響をもたらし、それらを予期せぬ形で影響を及ぼす。 この現象は、オンラインペルソナのキュレーション、完璧なデジタルイメージを提示するためのピアプレッシャー、そしてソーシャルメディア体験を特徴づける通知やアップデートの絶え間ない砲撃に不公平に影響を受けるティーンエイジャーの間で特に顕著である。 そこで、我々は、政策立案者、プラットフォーム開発者、教育者に対して、デジタル時代のティーンエイジャーの幸福を優先し、若者を害、オンラインハラスメント、搾取から保護する安全で安全なソーシャルメディアプラットフォームを構築するよう訴える。

This study investigates the meta-issues surrounding social media, which, while theoretically designed to enhance social interactions and improve our social lives by facilitating the sharing of personal experiences and life events, often results in adverse psychological impacts. Our investigation reveals a paradoxical outcome: rather than fostering closer relationships and improving social lives, the algorithms and structures that underlie social media platforms inadvertently contribute to a profound psychological impact on individuals, influencing them in unforeseen ways. This phenomenon is particularly pronounced among teenagers, who are disproportionately affected by curated online personas, peer pressure to present a perfect digital image, and the constant bombardment of notifications and updates that characterize their social media experience. As such, we issue a call to action for policymakers, platform developers, and educators to prioritize the well-being of teenagers in the digital age and work towards creating secure and safe social media platforms that protect the young from harm, online harassment, and exploitation.
翻訳日:2024-08-21 18:03:34 公開日:2024-08-19
# 非ガウス性を考慮したスパースICAの同定可能性について

On the Identifiability of Sparse ICA without Assuming Non-Gaussianity ( http://arxiv.org/abs/2408.10353v1 )

ライセンス: Link先を確認
Ignavier Ng, Yujia Zheng, Xinshuai Dong, Kun Zhang, (参考訳) 独立成分分析(ICA)は観測データから隠れた生成過程を明らかにするための基本的な統計ツールである。 しかし、従来のICAアプローチはガウス分布に固有の回転不変性に苦慮し、基礎となる情報源において非ガウス性(英語版)の仮定を必要とすることが多い。 これにより、より広い文脈での適用性が制限される可能性がある。 ガウス的情報源に対応するために、情報源から観測変数への連結構造に関する新しい仮定を導入することにより、情報源の分布にさらなる前提条件を課すことなく、2階統計に依存する識別可能性理論を開発する。 潜在的に制限的連結構造に焦点を当てた最近の研究と異なり、構造的変動性の仮定は、かなり制限的かつ証明的に必要である。 さらに,2次統計量と空間制約量に基づく2つの推定手法を提案する。 同定可能性理論と推定法を検証する実験結果が得られた。

Independent component analysis (ICA) is a fundamental statistical tool used to reveal hidden generative processes from observed data. However, traditional ICA approaches struggle with the rotational invariance inherent in Gaussian distributions, often necessitating the assumption of non-Gaussianity in the underlying sources. This may limit their applicability in broader contexts. To accommodate Gaussian sources, we develop an identifiability theory that relies on second-order statistics without imposing further preconditions on the distribution of sources, by introducing novel assumptions on the connective structure from sources to observed variables. Different from recent work that focuses on potentially restrictive connective structures, our proposed assumption of structural variability is both considerably less restrictive and provably necessary. Furthermore, we propose two estimation methods based on second-order statistics and sparsity constraint. Experimental results are provided to validate our identifiability theory and estimation methods.
翻訳日:2024-08-21 17:53:16 公開日:2024-08-19
# 準金属SWCNTにおける量子輸送ストレイントロニクスとメカニカルアハロノフ・ボーム効果

Quantum Transport Straintronics and Mechanical Aharonov-Bohm Effect in Quasi-metallic SWCNTs ( http://arxiv.org/abs/2408.10355v1 )

ライセンス: Link先を確認
L. Huang, G. Wei, A. R. Champagne, (参考訳) 単層カーボンナノチューブ(SWCNT)は、原子的に精密なエッジを持つ2次元材料の効果的に狭いリボンである。 量子輸送ストレトロニクス(QTS)、すなわち量子輸送を制御するための機械的ひずみを利用するのに理想的なシステムである。 彼らの大きなサブバンドエネルギー間隔($ 0.8 eV)は、単一の量子輸送チャネルを持つトランジスタにつながる。 一軸拘束された準金属-SWCNTトランジスタにおけるQTSの研究に応用モデルを適用した。 デバイスパラメータは既存の実験プラットフォームに基づいており、チャネル長は$L=$50 nm、直径は$d\approx$1.5 nm、歪は$\varepsilon_{\text{tot}}\approx$7$\%である。 電荷キャリアの伝搬角 $\Theta$ が $\varepsilon_{\text{tot}}$ で完全に調整可能であることを示す。 $\Theta$が90$^o$に達すると、コンダクタンス$G$は完全に抑制される。 ひずみ発生バンドギャップは、$\approx$400 meVまで調整できる。 機械ひずみはスカラー$\phi_{\varepsilon}$とベクトル$\textbf{A}$ゲージポテンシャルをトランジスタのハミルトニアンに付加する。 これらのポテンシャルは、メカニカルなアハロノフ・ボーム効果として記述できる、$G$の量子干渉のスペクトルを豊富に生成する。 電荷キャリアの量子相は純粋に機械的な手段で制御できる。 例えば、フル2$\pi$の位相シフトは(12,9)チューブで0.7$\%のひずみ変化によって引き起こされる。 この研究は、2D材料とそのナノチューブに基づく量子技術のツールボックスに定量的な量子輸送ひずみ効果を加える機会を開く。

Single-wall carbon nanotubes (SWCNTs) are effectively narrow ribbons of 2D materials with atomically precise edges. They are ideal systems to harness quantum transport straintronics (QTS), i.e. using mechanical strain to control quantum transport. Their large subband energy spacing ($\sim$ 0.8 eV) leads to transistors with a single quantum transport channel. We adapt an applied model to study QTS in uniaxially-strained quasi-metallic-SWCNT transistors. The device parameters are based on an existing experimental platform, with channel lengths of $L=$ 50 nm, diameters $d\approx$ 1.5 nm, and strains up to $\varepsilon_{\text{tot}}\approx$ 7 $\%$. We demonstrate that the charge carrier's propagation angle $\Theta$ is fully tunable with $\varepsilon_{\text{tot}}$. When $\Theta$ reaches 90$^o$, the conductance $G$ is completely suppressed. A strain-generated band gap can be tuned up to $\approx$ 400 meV. Mechanical strain adds both scalar $\phi_{\varepsilon}$ and vector $\textbf{A}$ gauge potentials to the transistor's Hamiltonian. These potentials create a rich spectrum of quantum interferences in $G$, which can be described as a mechanical Aharonov-Bohm effect. The charge carriers' quantum phase can be controlled by purely mechanical means. For instance, a full 2$\pi$ phase shift can be induced in a (12,9) tube by a 0.7 $\%$ strain change. This work opens opportunities to add quantitative quantum transport strain effects to the tools box of quantum technologies based on 2D materials and their nanotubes.
翻訳日:2024-08-21 17:53:16 公開日:2024-08-19
# 複雑エントロピー平面における現代ユーザ生成視覚芸術の多様性と様式化

Diversity and stylization of the contemporary user-generated visual arts in the complexity-entropy plane ( http://arxiv.org/abs/2408.10356v1 )

ライセンス: Link先を確認
Seunghwan Kim, Byunghwee Lee, Wonjae Lee, (参考訳) 近年の計算的・数値的な手法の出現は、美術史的物語を分析し、美術様式の進化を辿る新たな道をもたらした。 本稿では,絵画の局所構造を定量化する複雑性エントロピー(C-H)平面を用いて,現代のユーザ生成視覚芸術スタイルの出現とスタイル化を支える進化過程について考察する。 2010年から2020年にかけてDeviantArtとBehanceプラットフォームでキュレートされた149,780枚の画像をインフォーマタイズし、C-H空間の局所情報とディープニューラルネットワークによって生成されたマルチレベル画像特徴と特徴抽出アルゴリズムの関係を解析した。 その結果, 視覚芸術様式のC-H情報と多面像の特徴の相違は, 美術作品群で時間とともに有意な相関が認められた。 画像表現の多様性が顕著に示される特定のC-H領域を開示することにより、我々はC-H平面で新しく、よりスタイリスティックな多様性を特徴とする出現様式の実証的条件を明らかにした。 我々の研究は、視覚芸術分析と物理にインスパイアされた手法と機械学習が組み合わさって、与えられたグループと時間の非チャートな視覚芸術の創造的スタイリゼーションを支える進化過程の関連特性を定量的にマッピングするマクロな洞察を提供することを示した。

The advent of computational and numerical methods in recent times has provided new avenues for analyzing art historiographical narratives and tracing the evolution of art styles therein. Here, we investigate an evolutionary process underpinning the emergence and stylization of contemporary user-generated visual art styles using the complexity-entropy (C-H) plane, which quantifies local structures in paintings. Informatizing 149,780 images curated in DeviantArt and Behance platforms from 2010 to 2020, we analyze the relationship between local information of the C-H space and multi-level image features generated by a deep neural network and a feature extraction algorithm. The results reveal significant statistical relationships between the C-H information of visual artistic styles and the dissimilarities of the multi-level image features over time within groups of artworks. By disclosing a particular C-H region where the diversity of image representations is noticeably manifested, our analyses reveal an empirical condition of emerging styles that are both novel in the C-H plane and characterized by greater stylistic diversity. Our research shows that visual art analyses combined with physics-inspired methodologies and machine learning, can provide macroscopic insights into quantitatively mapping relevant characteristics of an evolutionary process underpinning the creative stylization of uncharted visual arts of given groups and time.
翻訳日:2024-08-21 17:53:16 公開日:2024-08-19
# 関連ドキュメントを超えて:大規模言語モデルを用いたクエリ焦点要約のための知識集約的アプローチ

Beyond Relevant Documents: A Knowledge-Intensive Approach for Query-Focused Summarization using Large Language Models ( http://arxiv.org/abs/2408.10357v1 )

ライセンス: Link先を確認
Weijia Zhang, Jia-Hong Huang, Svitlana Vakulenko, Yumo Xu, Thilina Rajapakse, Evangelos Kanoulas, (参考訳) クエリ中心の要約(QFS)は、検索エンジンやレポート生成など幅広いアプリケーションを用いた自然言語処理の基本的なタスクである。 しかし、従来のアプローチでは、特に高度に専門化されたトピックにおいて、実践的なシナリオでは必ずしも保持されない関連ドキュメントが利用できると仮定している。 この制限に対処するため,我々はQFSを知識集約型タスク設定として再編成する新しい知識集約型アプローチを提案する。 このアプローチは、検索モジュールと要約コントローラの2つの主要コンポーネントから構成される。 検索モジュールは、与えられたテキストクエリに基づいて、大規模知識コーパスから潜在的に関連のある文書を効率よく検索し、既存の文書集合への依存をなくす。 要約コントローラは、強力な大言語モデル(LLM)ベースの要約器を注意深く調整されたプロンプトとシームレスに統合し、生成された要約が包括的でクエリに関連することを保証する。 提案手法の有効性を評価するため,人間関連ラベルとともに新しいデータセットを作成し,検索性能と要約性能の両方を包括的に評価する。 大規模な実験により,本手法の優れた性能,特に関連文書の入手に頼らずに正確な要約を生成できることが実証された。 これにより,多種多様なクエリシナリオにまたがって,メソッドの汎用性と実用性を評価することができる。

Query-focused summarization (QFS) is a fundamental task in natural language processing with broad applications, including search engines and report generation. However, traditional approaches assume the availability of relevant documents, which may not always hold in practical scenarios, especially in highly specialized topics. To address this limitation, we propose a novel knowledge-intensive approach that reframes QFS as a knowledge-intensive task setup. This approach comprises two main components: a retrieval module and a summarization controller. The retrieval module efficiently retrieves potentially relevant documents from a large-scale knowledge corpus based on the given textual query, eliminating the dependence on pre-existing document sets. The summarization controller seamlessly integrates a powerful large language model (LLM)-based summarizer with a carefully tailored prompt, ensuring the generated summary is comprehensive and relevant to the query. To assess the effectiveness of our approach, we create a new dataset, along with human-annotated relevance labels, to facilitate comprehensive evaluation covering both retrieval and summarization performance. Extensive experiments demonstrate the superior performance of our approach, particularly its ability to generate accurate summaries without relying on the availability of relevant documents initially. This underscores our method's versatility and practical applicability across diverse query scenarios.
翻訳日:2024-08-21 17:53:16 公開日:2024-08-19
# ビッグデータの規模はどの程度か? ラベル付きデータセットのオープン化とディープラーニング開発

How Small is Big Enough? Open Labeled Datasets and the Development of Deep Learning ( http://arxiv.org/abs/2408.10359v1 )

ライセンス: Link先を確認
Daniel Souza, Aldo Geuna, Jeff Rodríguez, (参考訳) 本稿では,Deep Learningの出現を技術分野として検討し,オープンラベル付きデータセットの役割を強調した。 定性的かつ定量的な分析を通じて、ディープラーニング革命の中心となるコンピュータビジョンと物体認識の進歩における、CIFAR-10のようなデータセットの役割を評価する。 本研究は,CIFAR-10の現場における重要な役割と持続的な影響,およびML技術教育における重要性を浮き彫りにした。 結果,サイズ,インスタンス数,カテゴリ数などのデータセット特性が重要な要因であることが示唆された。 エコノメトリ分析により、CIFAR-10は小さいが十分大きなオープンデータセットであり、技術的進歩において重要な役割を担い、引用指標によって示されるように、初期の科学文献の発展において重要な役割を担ったことが確認された。

We investigate the emergence of Deep Learning as a technoscientific field, emphasizing the role of open labeled datasets. Through qualitative and quantitative analyses, we evaluate the role of datasets like CIFAR-10 in advancing computer vision and object recognition, which are central to the Deep Learning revolution. Our findings highlight CIFAR-10's crucial role and enduring influence on the field, as well as its importance in teaching ML techniques. Results also indicate that dataset characteristics such as size, number of instances, and number of categories, were key factors. Econometric analysis confirms that CIFAR-10, a small-but-sufficiently-large open dataset, played a significant and lasting role in technological advancements and had a major function in the development of the early scientific literature as shown by citation metrics.
翻訳日:2024-08-21 17:53:16 公開日:2024-08-19
# HaSPeR: ハンドシャドウPuppet認識のためのイメージリポジトリ

HaSPeR: An Image Repository for Hand Shadow Puppet Recognition ( http://arxiv.org/abs/2408.10360v1 )

ライセンス: Link先を確認
Syed Rifat Raiyan, Zibran Zarif Amio, Sabbir Ahmed, (参考訳) シャドウグラフィー(Shadowgraphy)またはボンボマニー(ombromanie)とも呼ばれる手影人形は、手影を平らな表面に投影し、生物の錯覚を生み出す演劇や物語の形式である。 熟練したパフォーマーは、動物や物体の影に似た手の位置、指の動き、巧妙なジェスチャーによってこれらのシルエットを作る。 開業医の不足と人々の娯楽水準の変動により、この芸術形式は絶滅寸前にある。 プロとアマチュアの両方の手影人形クリップから抽出した11クラスの手影人形の8,340枚の画像からなる新しいデータセットである${\rm H{\small A}SP{\small E}R}を紹介。 データセットの詳細な統計解析を行い、ベースラインを確立するために、事前訓練された画像分類モデルを用いている。 本研究の結果は,従来のコンボリューションモデルよりも,注目に基づくトランスフォーマーアーキテクチャよりもかなり優れた性能を示した。 また、モバイルアプリケーションや組み込みデバイスに適したMobileNetV2のような軽量モデルは、比較的よく機能します。 このような低レイテンシアーキテクチャがボンボマニー教育ツールの開発に有用であると推測し、このサミッションを探索するためのプロトタイプアプリケーションを作成します。 最高のパフォーマンスモデルであるInceptionV3をライムライトの下で維持し、包括的特徴空間、説明可能性、エラー分析を行い、意思決定プロセスに関する洞察を得る。 私たちの知る限りでは、これはコンピュータビジョンのアプローチによって、この死にゆく芸術を将来の世代に保存する最初の文書化されたデータセットと研究の取り組みである。 私たちのコードとデータは公開されています。

Hand shadow puppetry, also known as shadowgraphy or ombromanie, is a form of theatrical art and storytelling where hand shadows are projected onto flat surfaces to create illusions of living creatures. The skilled performers create these silhouettes by hand positioning, finger movements, and dexterous gestures to resemble shadows of animals and objects. Due to the lack of practitioners and a seismic shift in people's entertainment standards, this art form is on the verge of extinction. To facilitate its preservation and proliferate it to a wider audience, we introduce ${\rm H{\small A}SP{\small E}R}$, a novel dataset consisting of 8,340 images of hand shadow puppets across 11 classes extracted from both professional and amateur hand shadow puppeteer clips. We provide a detailed statistical analysis of the dataset and employ a range of pretrained image classification models to establish baselines. Our findings show a substantial performance superiority of traditional convolutional models over attention-based transformer architectures. We also find that lightweight models, such as MobileNetV2, suited for mobile applications and embedded devices, perform comparatively well. We surmise that such low-latency architectures can be useful in developing ombromanie teaching tools, and we create a prototype application to explore this surmission. Keeping the best-performing model InceptionV3 under the limelight, we conduct comprehensive feature-spatial, explainability, and error analyses to gain insights into its decision-making process. To the best of our knowledge, this is the first documented dataset and research endeavor to preserve this dying art for future generations, with computer vision approaches. Our code and data are publicly available.
翻訳日:2024-08-21 17:53:16 公開日:2024-08-19
# ニューラルネットワークのためのクエリ言語

Query languages for neural networks ( http://arxiv.org/abs/2408.10362v1 )

ライセンス: Link先を確認
Martin Grohe, Christoph Standke, Juno Steegmans, Jan Van den Bussche, (参考訳) 私たちは、宣言型言語を使ってニューラルネットワークモデルをクエリすることで、ニューラルネットワークモデルを解釈し理解するための、データベースにインスパイアされたアプローチの基礎を築いた。 この目的のために、ニューラルネットワークモデルへのアクセスにおいて主に異なる一階述語論理に基づく異なるクエリ言語について研究する。 実数体上の一階述語論理は、ネットワークをブラックボックスと見なす言語を自然に生成する。 これは本質的に制約クエリ言語のアプローチです。 一方、ホワイトボックス言語は、ネットワークを重み付きグラフと見なし、重み付き項の和で一階述語論理を拡張することで得られる。 後者のアプローチは基本的にSQLの抽象化です。 一般に、この2つのアプローチは表現力では比較できない。 しかし、自然条件下では、ホワイトボックスアプローチはブラックボックスアプローチを仮定することができる。 固定数の隠れ層を持つフィードフォワードニューラルネットワークで定義可能な実関数上での線形制約クエリの結果を具体的に証明する。

We lay the foundations for a database-inspired approach to interpreting and understanding neural network models by querying them using declarative languages. Towards this end we study different query languages, based on first-order logic, that mainly differ in their access to the neural network model. First-order logic over the reals naturally yields a language which views the network as a black box; only the input--output function defined by the network can be queried. This is essentially the approach of constraint query languages. On the other hand, a white-box language can be obtained by viewing the network as a weighted graph, and extending first-order logic with summation over weight terms. The latter approach is essentially an abstraction of SQL. In general, the two approaches are incomparable in expressive power, as we will show. Under natural circumstances, however, the white-box approach can subsume the black-box approach; this is our main result. We prove the result concretely for linear constraint queries over real functions definable by feedforward neural networks with a fixed number of hidden layers and piecewise linear activation functions.
翻訳日:2024-08-21 17:53:16 公開日:2024-08-19
# 非文脈不平等の逐次的違反による多重非シャープ性パラメータの自己検査

Self-testing of multiple unsharpness parameters through sequential violations of non-contextual inequality ( http://arxiv.org/abs/2408.10363v1 )

ライセンス: Link先を確認
Rajdeep Paul, Souradeep Sasmal, A. K. Pan, (参考訳) 自己テストプロトコルは、デバイスが非文字化され、システムの寸法が不明な、新しいデバイス非依存の認証スキームを指す。 ベルの不等式に対する最適量子違反は、そのような自己検査を促進する。 本研究では,雑音の多い量子機器の自己検定プロトコル,特に任意の次元におけるスミア射影測定の非シャープ性パラメータについて述べる。 提案プロトコルは,2部構成のベル型非コンテキスト不等式を,パーティ毎に3つの測定設定を含む逐次量子違反に頼っている。 まず,少なくとも3つの独立系Bobが,この不等式に違反して1つのAliceと同時的な準備状況を示すことを示す。 その後、非文脈不等式における準最適量子違反が最適集合を形成し、最終的には共有状態、局所測定、非シャープ性パラメータの自己検査を可能にすることを示す。 特に、量子系の次元を指定せずに最適な量子違反の集合を導出し、それによってナイマルクの定理によって生じる制約を回避する。 さらに、シーケンシャルな観測者に関連する不整合測定の程度を定量化するために調査を拡張し、シーケンシャルな量子違反に必要なアンシャープパラメータの値に不整合度の変化がどう影響するかを考察した。

The self-testing protocols refer to novel device-independent certification schemes wherein the devices are uncharacterised, and the dimension of the system remains unspecified. The optimal quantum violation of a Bell's inequality facilitates such self-testing. In this work, we put forth a protocol for self-testing of noisy quantum instruments, specifically, the unsharpness parameter of smeared projective measurements in any arbitrary dimension. Our protocol hinges on the sequential quantum violations of a bipartite Bell-type preparation non-contextual inequality, involving three measurement settings per party. First, we demonstrate that at most three sequential independent Bobs manifest simultaneous preparation contextuality with a single Alice through the violation of this inequality. Subsequently, we show that the sub-optimal sequential quantum violations of the non-contextual inequality form an optimal set, eventually enabling the self-testing of shared state, local measurements and unsharpness parameters of one party. Notably, we derive the optimal set of quantum violations without specifying the dimension of the quantum system, thereby circumventing the constraint that may arise due to Naimark's theorem. Furthermore, we extend our investigation to quantify the degree of incompatible measurements pertaining to the sequential observers, exploring how variations in the degree of incompatibility impact the values of unsharp parameters necessary for sequential quantum violation.
翻訳日:2024-08-21 17:53:16 公開日:2024-08-19
# AI駆動レビューシステム - スケーラブルでバイアス対応の学術レビューにおけるLLMの評価

AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews ( http://arxiv.org/abs/2408.10365v1 )

ライセンス: Link先を確認
Keith Tyser, Ben Segev, Gaston Longhitano, Xin-Yu Zhang, Zachary Meeks, Jason Lee, Uday Garg, Nicholas Belsten, Avi Shporer, Madeleine Udell, Dov Te'eni, Iddo Drori, (参考訳) 自動レビューは大量の論文を扱うのに役立ち、早期のフィードバックと品質管理を提供し、バイアスを減らし、トレンドの分析を可能にする。 我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。 人選好の収集には時間を要する可能性があるため、レビューを自動的に評価し、バイアスを低減しながらサンプル効率を向上させるためにもLLMを使用している。 LLMレビューにおける人間とLLMの選好の評価に加えて、LLMを微調整して人間の選好を予測し、LLM間の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。 論文にエラーを人工的に導入し,LCMの応答を分析して限界を識別し,適応的なレビュー質問,メタプロンプト,ロールプレイング,視覚的およびテキスト的分析の統合,会場固有のレビュー材料の使用,人間の嗜好の予測,従来のレビュープロセスの限界の改善などを行う。 我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。 本研究は,一貫した高品質なレビューを迅速に提供し,その品質を評価する,概念実証LLMレビューシステムの開発である。 我々は、レビューフォーム、レビュアーガイド、倫理・行動規範、エリアチェアガイドライン、前年の統計などの複数の文書でLCMを増補することにより、誤用、膨らませたレビュースコア、過信評価、スキュードスコア分布のリスクを軽減し、自動レビューによって論文の誤りや欠点を検知し、ペアワイズレビュアーの選好を評価する。 この研究は、LLMをレビュアーや評価者として使用することの限界を特定し、対処し、レビュープロセスの品質を高める。

Automatic reviewing helps handle a large volume of papers, provides early feedback and quality control, reduces bias, and allows the analysis of trends. We evaluate the alignment of automatic paper reviews with human reviews using an arena of human preferences by pairwise comparisons. Gathering human preference may be time-consuming; therefore, we also use an LLM to automatically evaluate reviews to increase sample efficiency while reducing bias. In addition to evaluating human and LLM preferences among LLM reviews, we fine-tune an LLM to predict human preferences, predicting which reviews humans will prefer in a head-to-head battle between LLMs. We artificially introduce errors into papers and analyze the LLM's responses to identify limitations, use adaptive review questions, meta prompting, role-playing, integrate visual and textual analysis, use venue-specific reviewing materials, and predict human preferences, improving upon the limitations of the traditional review processes. We make the reviews of publicly available arXiv and open-access Nature journal papers available online, along with a free service which helps authors review and revise their research papers and improve their quality. This work develops proof-of-concept LLM reviewing systems that quickly deliver consistent, high-quality reviews and evaluate their quality. We mitigate the risks of misuse, inflated review scores, overconfident ratings, and skewed score distributions by augmenting the LLM with multiple documents, including the review form, reviewer guide, code of ethics and conduct, area chair guidelines, and previous year statistics, by finding which errors and shortcomings of the paper may be detected by automated reviews, and evaluating pairwise reviewer preferences. This work identifies and addresses the limitations of using LLMs as reviewers and evaluators and enhances the quality of the reviewing process.
翻訳日:2024-08-21 17:53:16 公開日:2024-08-19
# Deep-MacroFin:連続時間経済モデルのためのインフォームド平衡ニューラルネットワーク

Deep-MacroFin: Informed Equilibrium Neural Network for Continuous Time Economic Models ( http://arxiv.org/abs/2408.10368v1 )

ライセンス: Link先を確認
Yuntao Wu, Jiayuan Guo, Goutham Gopalakrishna, Zisis Poulos, (参考訳) 本稿では、偏微分方程式を解くために設計された包括的フレームワークであるDeep-MacroFinについて述べる。 このフレームワークは、従来のマルチ層パーセプトロンや新しく開発されたコルモゴロフ・アルノルドネットワークなど、ディープラーニング手法を活用する。 ハミルトン・ヤコビ・ベルマン方程式と結合代数方程式でカプセル化された経済情報を用いて最適化される。 ニューラルネットワークの適用は、標準的な数値法と比較して計算要求や制限を少なくして、高次元の問題を正確に解決するという約束を果たす。 この汎用的枠組みは、解が不連続性を示す場合であっても、素微分方程式や微分方程式の系に容易に適用できる。 重要なのは、既存のライブラリよりも単純でユーザフレンドリーな実装を提供することです。

In this paper, we present Deep-MacroFin, a comprehensive framework designed to solve partial differential equations, with a particular focus on models in continuous time economics. This framework leverages deep learning methodologies, including conventional Multi-Layer Perceptrons and the newly developed Kolmogorov-Arnold Networks. It is optimized using economic information encapsulated by Hamilton-Jacobi-Bellman equations and coupled algebraic equations. The application of neural networks holds the promise of accurately resolving high-dimensional problems with fewer computational demands and limitations compared to standard numerical methods. This versatile framework can be readily adapted for elementary differential equations, and systems of differential equations, even in cases where the solutions may exhibit discontinuities. Importantly, it offers a more straightforward and user-friendly implementation than existing libraries.
翻訳日:2024-08-21 17:53:16 公開日:2024-08-19
# ブール行列論理プログラミング

Boolean Matrix Logic Programming ( http://arxiv.org/abs/2408.10369v1 )

ライセンス: Link先を確認
Lun Ai, Stephen H. Muggleton, (参考訳) 本稿では,効率的かつ構成可能なブール行列操作モジュールに基づくデータログクエリ評価手法について述べる。 まず,ブール行列を代替計算として用い,データログプログラムの評価を行うBoolean Matrix Logic Programming (BMLP) を定義する。 線形Dyadic Recursive Datalogプログラムにおけるボトムアップ推論のための2つの新しいBMLPモジュールを開発した。 実験の結果,これらのモジュールは,大規模プログラムを数百万の事実で評価する際に,それぞれ30倍,9倍の係数で汎用システムと特殊システムを上回る性能を示した。 このブール行列アプローチは、論理プログラミング技術をサポートするためにデータログクエリの効率を大幅に向上させる。

We describe a datalog query evaluation approach based on efficient and composable boolean matrix manipulation modules. We first define an overarching problem, Boolean Matrix Logic Programming (BMLP), which uses boolean matrices as an alternative computation to evaluate datalog programs. We develop two novel BMLP modules for bottom-up inferences on linear dyadic recursive datalog programs, and show how additional modules can extend this capability to compute both linear and non-linear recursive datalog programs of arity two. Our empirical results demonstrate that these modules outperform general-purpose and specialised systems by factors of 30x and 9x, respectively, when evaluating large programs with millions of facts. This boolean matrix approach significantly enhances the efficiency of datalog querying to support logic programming techniques.
翻訳日:2024-08-21 17:53:16 公開日:2024-08-19
# クラウドFPGAプラットフォームにおけるデータ永続化によるセキュリティリスク

Security Risks Due to Data Persistence in Cloud FPGA Platforms ( http://arxiv.org/abs/2408.10374v1 )

ライセンス: Link先を確認
Zhehang Zhang, Bharadwaj Madabhushi, Sandip Kundu, Russell Tessier, (参考訳) FPGA(Field Programmable Gate Array)のクラウドコンピューティングシステムへの統合が一般的になっている。 これらのシステムを管理するために使用されるオペレーティングシステムが進化するにつれて、FPGAでアクセス可能なDRAMデバイスに特別な配慮が求められる。 これらのデバイスは、ユーザのログアウト後に敵に不注意に露出する可能性のある機密データを保持できる。 いくつかのクラウドFPGA環境では対処されているが、プロセス終了後の自動DRAMクリアは、一般的なFPGA実行環境や、最も提案されているクラウドFPGAハイパーバイザには自動的に含まれていない。 本稿では,Open Cloud Testbed (OCT) の一部であるAMD/Xilinx Alveo U280ノードにおけるDRAMデータの永続性について検討する。 以上の結果から,DDR4 DRAMは割り当てられたノードからのユーザログアウト後に自動的にクリアされることはなく,その後のノードユーザは17分以上後にDRAMから認識可能なデータを容易に取得できることが示唆された。 この問題はFPGAマルチテナンシをサポートするシステムに特に関係している。

The integration of Field Programmable Gate Arrays (FPGAs) into cloud computing systems has become commonplace. As the operating systems used to manage these systems evolve, special consideration must be given to DRAM devices accessible by FPGAs. These devices may hold sensitive data that can become inadvertently exposed to adversaries following user logout. Although addressed in some cloud FPGA environments, automatic DRAM clearing after process termination is not automatically included in popular FPGA runtime environments nor in most proposed cloud FPGA hypervisors. In this paper, we examine DRAM data persistence in AMD/Xilinx Alveo U280 nodes that are part of the Open Cloud Testbed (OCT). Our results indicate that DDR4 DRAM is not automatically cleared following user logout from an allocated node and subsequent node users can easily obtain recognizable data from the DRAM following node reallocation over 17 minutes later. This issue is particularly relevant for systems which support FPGA multi-tenancy.
翻訳日:2024-08-21 17:53:16 公開日:2024-08-19
# 確率的リワードマシンにおける効率的な強化学習

Efficient Reinforcement Learning in Probabilistic Reward Machines ( http://arxiv.org/abs/2408.10381v1 )

ライセンス: Link先を確認
Xiaofeng Lin, Xuezhou Zhang, (参考訳) 本稿では,確率的リワードマシン(PRM)を用いたマルコフ決定過程における強化学習について検討する。 我々は,PRMに対して,$\widetilde{O}(\sqrt{HOAT} + H^2O^2A^{3/2} + H\sqrt{T})$,$H$が時間軸,$O$が観測回数,$A$が行動回数,$T$が時間ステップ数であるようなアルゴリズムを設計する。 この結果は最もよく知られた境界である$\widetilde{O}(H\sqrt{OAT})$ of \citet{pmlr-v206-bourel23a} for MDPs with Deterministic Reward Machines (DRMs) よりも改善される。 残念なことに、$T \geq H^3O^3A^2$と$OA \geq H$は$\widetilde{O}(\sqrt{HOAT})$に反する。 我々の知る限りでは、これはPRMにとって初めての効率的なアルゴリズムである。 さらに,非マルコフ報酬に対する新たなシミュレーション補題を提案する。 理論的な知見を補完し,提案アルゴリズムは様々なPRM環境において,従来の手法よりも優れていることを示す。

In this paper, we study reinforcement learning in Markov Decision Processes with Probabilistic Reward Machines (PRMs), a form of non-Markovian reward commonly found in robotics tasks. We design an algorithm for PRMs that achieves a regret bound of $\widetilde{O}(\sqrt{HOAT} + H^2O^2A^{3/2} + H\sqrt{T})$, where $H$ is the time horizon, $O$ is the number of observations, $A$ is the number of actions, and $T$ is the number of time-steps. This result improves over the best-known bound, $\widetilde{O}(H\sqrt{OAT})$ of \citet{pmlr-v206-bourel23a} for MDPs with Deterministic Reward Machines (DRMs), a special case of PRMs. When $T \geq H^3O^3A^2$ and $OA \geq H$, our regret bound leads to a regret of $\widetilde{O}(\sqrt{HOAT})$, which matches the established lower bound of $\Omega(\sqrt{HOAT})$ for MDPs with DRMs up to a logarithmic factor. To the best of our knowledge, this is the first efficient algorithm for PRMs. Additionally, we present a new simulation lemma for non-Markovian rewards, which enables reward-free exploration for any non-Markovian reward given access to an approximate planner. Complementing our theoretical findings, we show through extensive experiment evaluations that our algorithm indeed outperforms prior methods in various PRM environments.
翻訳日:2024-08-21 17:53:16 公開日:2024-08-19
# BrewCLIP: オーディオ・ビジュアル検索のための分岐表現学習フレームワーク

BrewCLIP: A Bifurcated Representation Learning Framework for Audio-Visual Retrieval ( http://arxiv.org/abs/2408.10383v1 )

ライセンス: Link先を確認
Zhenyu Lu, Lakshay Sethi, (参考訳) 従来のオーディオ画像マッチングの方法は一般的にパイプラインモデルとエンド・ツー・エンドモデルという2つのカテゴリの1つに分類される。 Pipelineはまず音声の書き起こしを行い、結果のテキストをエンコードする。 一般にパイプラインモデルはエンドツーエンドモデルより優れているが、中間転写は必ずしも潜在的に有用な非テキスト情報を捨てる。 テキスト情報に加えて、音声はアクセント、ムード、強調などの詳細を伝達し、エンコードされた表現で効果的に捉えなければならない。 本稿では,パイプラインベースモデルで見過ごされる非テクスチャ情報を利用して,音声画像のマッチング性能を向上させる方法について検討する。 本研究では,エンド・ツー・エンドモデル,パイプラインモデル,提案したデュアルチャネルモデルについて,さまざまなデータセットを用いたロバストな音声画像検索を徹底的に分析・比較する。 提案手法は, 事前学習の強いモデル, プロンプト機構, 分岐設計を活用することで, 従来の最先端技術よりも大幅な性能向上を実現している。

Previous methods for audio-image matching generally fall into one of two categories: pipeline models or End-to-End models. Pipeline models first transcribe speech and then encode the resulting text; End-to-End models encode speech directly. Generally, pipeline models outperform end-to-end models, but the intermediate transcription necessarily discards some potentially useful non-textual information. In addition to textual information, speech can convey details such as accent, mood, and and emphasis, which should be effectively captured in the encoded representation. In this paper, we investigate whether non-textual information, which is overlooked by pipeline-based models, can be leveraged to improve speech-image matching performance. We thoroughly analyze and compare End-to-End models, pipeline models, and our proposed dual-channel model for robust audio-image retrieval on a variety of datasets. Our approach achieves a substantial performance gain over the previous state-of-the-art by leveraging strong pretrained models, a prompting mechanism and a bifurcated design.
翻訳日:2024-08-21 17:53:16 公開日:2024-08-19
# ナビゲーションにおける視覚と行動のギャップを狭める

Narrowing the Gap between Vision and Action in Navigation ( http://arxiv.org/abs/2408.10388v1 )

ライセンス: Link先を確認
Yue Zhang, Parisa Kordjamshidi, (参考訳) 継続環境(VLN-CE)における視覚と言語ナビゲーションの既存の手法は、一般的に、環境を識別するためのウェイポイント予測器を組み込んでいる。 これにより、ナビゲーションアクションをビュー選択タスクに簡略化し、低レベルのアクションを使用したダイレクトトレーニングと比較してナビゲーション性能を大幅に向上する。 しかしながら、VLN-CEエージェントは、視覚的知覚と実行された行動の間にギャップがあるため、実際のロボットとはかけ離れている。 まず、視覚環境を識別するVLN-CEエージェントは、主に高レベルなビュー選択で訓練され、低レベルなアクション運動において重要な空間的推論を無視する。 第二に、これらのモデルでは、既存のウェイポイント予測子は、動作の実現可能性を示すために、オブジェクトのセマンティクスとパスビリティに関連するそれらの属性を無視する。 これら2つの問題に対処するために、我々は高レベルのアクション予測を併用して訓練された低レベルのアクションデコーダを導入し、現在のVLNエージェントが選択した視覚的視界を低レベルの制御に学習し、接地できるようにする。 さらに、豊かな意味情報を含む視覚表現を活用し、人間の行動実現可能性に関する事前の知識に基づいて障害を明示的にマスキングすることで、現在の経路予測器を強化する。 エージェントは,高レベル動作と低レベル動作の双方の強いベースラインと比較して,ナビゲーション性能の指標を改善することができる。

The existing methods for Vision and Language Navigation in the Continuous Environment (VLN-CE) commonly incorporate a waypoint predictor to discretize the environment. This simplifies the navigation actions into a view selection task and improves navigation performance significantly compared to direct training using low-level actions. However, the VLN-CE agents are still far from the real robots since there are gaps between their visual perception and executed actions. First, VLN-CE agents that discretize the visual environment are primarily trained with high-level view selection, which causes them to ignore crucial spatial reasoning within the low-level action movements. Second, in these models, the existing waypoint predictors neglect object semantics and their attributes related to passibility, which can be informative in indicating the feasibility of actions. To address these two issues, we introduce a low-level action decoder jointly trained with high-level action prediction, enabling the current VLN agent to learn and ground the selected visual view to the low-level controls. Moreover, we enhance the current waypoint predictor by utilizing visual representations containing rich semantic information and explicitly masking obstacles based on humans' prior knowledge about the feasibility of actions. Empirically, our agent can improve navigation performance metrics compared to the strong baselines on both high-level and low-level actions.
翻訳日:2024-08-21 17:53:16 公開日:2024-08-19
# 非構造化テキストからの値アライメント

Value Alignment from Unstructured Text ( http://arxiv.org/abs/2408.10392v1 )

ライセンス: Link先を確認
Inkit Padhi, Karthikeyan Natesan Ramamurthy, Prasanna Sattigeri, Manish Nagireddy, Pierre Dognin, Kush R. Varshney, (参考訳) 大規模言語モデル(LLM)をバリューシステムに適応させることは、AIとNLPの分野における重要な研究領域として現れている。 現在、このアライメントプロセスは高品質な教師付きデータや好みデータの利用に頼っている。 本稿では,非構造化テキストデータに表される暗黙的かつ明示的な値にLCMを整合させる手法を提案する。 提案手法は、スケーラブルな合成データ生成技術を用いて、非構造化データに存在する値にモデルを効果的に整合させる。 2つの異なるユースケースを通して、我々はMistral-7B-Instructモデル上で方法論の有効性を実証した。 提案手法は, LLMを文書内に埋め込まれた値に忠実に整合させ, 自動メトリクスと勝利率を用いて定量化した他の手法に対する性能向上を示す。

Aligning large language models (LLMs) to value systems has emerged as a significant area of research within the fields of AI and NLP. Currently, this alignment process relies on the availability of high-quality supervised and preference data, which can be both time-consuming and expensive to curate or annotate. In this paper, we introduce a systematic end-to-end methodology for aligning LLMs to the implicit and explicit values represented in unstructured text data. Our proposed approach leverages the use of scalable synthetic data generation techniques to effectively align the model to the values present in the unstructured data. Through two distinct use-cases, we demonstrate the efficiency of our methodology on the Mistral-7B-Instruct model. Our approach credibly aligns LLMs to the values embedded within documents, and shows improved performance against other approaches, as quantified through the use of automatic metrics and win rates.
翻訳日:2024-08-21 17:43:23 公開日:2024-08-19
# Unified Contextual Recommender (UniCoRn) を用いた検索とレコメンデーションの統合モデリング

Joint Modeling of Search and Recommendations Via an Unified Contextual Recommender (UniCoRn) ( http://arxiv.org/abs/2408.10394v1 )

ライセンス: Link先を確認
Moumita Bhattacharya, Vito Ostuni, Sudarshan Lamkhede, (参考訳) 検索とレコメンデーションシステムは、多くのサービスにおいて不可欠であり、しばしば個別に開発され、複雑な保守と技術的負債につながる。 本稿では,両タスクの重要な側面を効率的に処理する統合型ディープラーニングモデルを提案する。

Search and recommendation systems are essential in many services, and they are often developed separately, leading to complex maintenance and technical debt. In this paper, we present a unified deep learning model that efficiently handles key aspects of both tasks.
翻訳日:2024-08-21 17:43:23 公開日:2024-08-19
# イベントカメラを用いた画像ベース顔と視線追跡の評価

Evaluating Image-Based Face and Eye Tracking with Event Cameras ( http://arxiv.org/abs/2408.10395v1 )

ライセンス: Link先を確認
Khadija Iddrisu, Waseem Shariff, Noel E. OConnor, Joseph Lemley, Suzanne Little, (参考訳) イベントカメラ、またはニューロモルフィックセンサーは、ピクセルレベルでの局所的な光強度の変化を捉え、 '`event'' と呼ばれる非同期に生成されたデータを生成する。 この異なるデータフォーマットは、高速で動く物体を撮影する際のアンダーサンプリングのような、従来のカメラで観察される一般的な問題を緩和し、そうでなければ失われる可能性のある重要な情報を保存する。 しかし、このデータを活用するには、イベントデータのユニークな属性を考慮して、従来の畳み込みニューラルネットワーク(CNN)とシームレスに統合可能な、特殊で手作りのイベント表現を開発する必要があることが多い。 本研究では,イベントベースの顔と視線追跡を評価する。 本研究の目的は,イベントカメラの特有な利点を保ちながら,従来のアルゴリズムとイベントベースデータの統合性を示すことである。 提案手法の有効性を検証するため,公開されているHelen Datasetから派生したRGBフレーム間のイベントをシミュレートして,フレームベースのイベントデータセットを構築した。 YOLOv3から派生した先駆的技術であるGR-YOLOを応用して、顔と目の検出タスクの実用性を評価する。 この評価は、データセットをYOLOv8でトレーニングした結果との比較分析を含む。 その後、トレーニングされたモデルは、Propheseeのイベントカメラの様々なイテレーションから実際のイベントストリームでテストされ、FES(Faces in Event Stream)ベンチマークデータセットでさらに評価された。 我々のデータセットでトレーニングされたモデルは、平均平均精度スコア0.91で検証したすべてのデータセットに対して、優れた予測性能を示す。 さらに、トレーニングされたモデルは、様々な光条件下で実際のイベントカメラデータに対して堅牢な性能を示した。

Event Cameras, also known as Neuromorphic sensors, capture changes in local light intensity at the pixel level, producing asynchronously generated data termed ``events''. This distinct data format mitigates common issues observed in conventional cameras, like under-sampling when capturing fast-moving objects, thereby preserving critical information that might otherwise be lost. However, leveraging this data often necessitates the development of specialized, handcrafted event representations that can integrate seamlessly with conventional Convolutional Neural Networks (CNNs), considering the unique attributes of event data. In this study, We evaluate event-based Face and Eye tracking. The core objective of our study is to showcase the viability of integrating conventional algorithms with event-based data, transformed into a frame format while preserving the unique benefits of event cameras. To validate our approach, we constructed a frame-based event dataset by simulating events between RGB frames derived from the publicly accessible Helen Dataset. We assess its utility for face and eye detection tasks through the application of GR-YOLO -- a pioneering technique derived from YOLOv3. This evaluation includes a comparative analysis with results derived from training the dataset with YOLOv8. Subsequently, the trained models were tested on real event streams from various iterations of Prophesee's event cameras and further evaluated on the Faces in Event Stream (FES) benchmark dataset. The models trained on our dataset shows a good prediction performance across all the datasets obtained for validation with the best results of a mean Average precision score of 0.91. Additionally, The models trained demonstrated robust performance on real event camera data under varying light conditions.
翻訳日:2024-08-21 17:43:23 公開日:2024-08-19
# アップスケーリングによるウェブカメラによる瞳孔径予測

Webcam-based Pupil Diameter Prediction Benefits from Upscaling ( http://arxiv.org/abs/2408.10397v1 )

ライセンス: Link先を確認
Vijul Shah, Brian B. Moser, Ko Watanabe, Andreas Dengel, (参考訳) 瞳孔径の取得は、ストレスレベルや認知負荷などの心理的および生理的状態を評価するために不可欠である。 しかし、眼のデータセットにおける画像の解像度の低さは、しばしば正確な測定を妨げている。 本研究では,バイコビック補間から高度超解像まで,様々なアップスケーリング手法が瞳孔径予測に及ぼす影響について検討した。 我々は,CodeFormer,GFPGAN,Real-ESRGAN,HAT,SRResNetなどの事前学習手法を比較した。 以上の結果から,大規模データセットで訓練した瞳孔径予測モデルは,選択したアップスケーリング手法やスケールに非常に敏感であることが示唆された。 以上の結果から, 瞳孔径予測モデルの精度を常に向上させ, 瞳孔計におけるアップスケーリングの重要性を浮き彫りにした。 全体として、我々の研究は、アップスケーリングテクニックの選択、心理的および生理的研究におけるより正確な評価の道を開くための貴重な洞察を提供する。

Capturing pupil diameter is essential for assessing psychological and physiological states such as stress levels and cognitive load. However, the low resolution of images in eye datasets often hampers precise measurement. This study evaluates the impact of various upscaling methods, ranging from bicubic interpolation to advanced super-resolution, on pupil diameter predictions. We compare several pre-trained methods, including CodeFormer, GFPGAN, Real-ESRGAN, HAT, and SRResNet. Our findings suggest that pupil diameter prediction models trained on upscaled datasets are highly sensitive to the selected upscaling method and scale. Our results demonstrate that upscaling methods consistently enhance the accuracy of pupil diameter prediction models, highlighting the importance of upscaling in pupilometry. Overall, our work provides valuable insights for selecting upscaling techniques, paving the way for more accurate assessments in psychological and physiological research.
翻訳日:2024-08-21 17:43:23 公開日:2024-08-19
# 磁気効果を用いた再構成可能な円偏光中周波原子受信機

Reconfigurable circular polarization medium frequency atomic receiver using magneto-electric effect ( http://arxiv.org/abs/2408.10398v1 )

ライセンス: Link先を確認
Sujit Garain, Surya Narayan Sahoo, Ashok K Mohapatra, (参考訳) アルカリ原子蒸気中の非線形磁気効果(NME)は、高周波領域における精密磁気計測に応用されている。 アルカリ原子蒸気中におけるNMEの応用を,500:1までの絶滅率を持つ中周波(MF)磁場の円周射影測定に応用した。 縦方向の静磁場を利用して,中周波通信における位相感度検出に利用できる高周波(RF)磁場の楕円性を特徴付ける高感度手法を実証する。 さらに、二相シフトキー付きRF磁界を、中間周波数帯域を用いた通信のための多目的受信機である、発生した光磁界の振幅変調に変換することを実証する。

Nonlinear magnetoelectric effect(NME) in alkali atomic vapor has applications in precision magnetometry in the radio-frequency domain. We report the application of the NME in alkali atomic vapors for projective measurement of medium-frequency (MF) magnetic fields in a circular basis with an extinction ratio up to 500:1 . Utilizing a longitudinal static magnetic field, we demonstrate a high-sensitivity technique for characterizing the ellipticity of radio-frequency (RF) magnetic fields which can in turn be used for phase sensitive detection in mid frequency communication. Additionally, we demonstrate the conversion of binary phase shift keyed RF magnetic fields into amplitude modulation of generated optical fields, a versatile receiver for communication using the medium frequency band.
翻訳日:2024-08-21 17:43:23 公開日:2024-08-19
# メカニカル・ソリッド・ステートLiDARのためのポイントクラウドグラウンドセグメンテーションの並列処理

Parallel Processing of Point Cloud Ground Segmentation for Mechanical and Solid-State LiDARs ( http://arxiv.org/abs/2408.10404v1 )

ライセンス: Link先を確認
Xiao Zhang, Zhanhong Huang, Garcia Gonzalez Antony, Witek Jachimczyk, Xinming Huang, (参考訳) 本研究では,FPGAプラットフォーム上でのリアルタイムクラウドグラウンドセグメンテーションのための並列処理フレームワークを提案する。 グラウンドセグメンテーションタスクに着目し,既存のアプローチの並列処理手法を探索し,実世界のSSLデータ処理に適用する。 メカニカルLiDARをベースとしたSemanticKITTIデータセット上で,点ベース,ボクセルベース,および範囲イメージベースのグラウンドセグメンテーション手法を用いて,フレームセグメンテーションに基づく並列処理手法を検証する。 その結果,特にスライシングのレジリエンスにおいて,レンジイメージ法の優れた性能とロバスト性を示した。 さらに、自作カメラ-SSLSS機器のカスタムデータセットを用いて、通常のSSLデータフレームを調査し、SSLセンサに対する並列アプローチの有効性を検証した。 さらに、SSLセンサ用FPGAにおけるレンジイメージグラウンドセグメンテーションの先駆的な実装により、処理速度が大幅に向上し、リソース効率が向上し、従来のCPUセットアップよりも処理速度が最大50.3倍向上した。 これらの結果は、自律システムにおける高度な認識タスクのためのLiDAR技術を著しく強化する並列処理戦略の可能性を強調している。 公開後、データとコードの両方がGitHubで公開される。

In this study, we introduce a novel parallel processing framework for real-time point cloud ground segmentation on FPGA platforms, aimed at adapting LiDAR algorithms to the evolving landscape from mechanical to solid-state LiDAR (SSL) technologies. Focusing on the ground segmentation task, we explore parallel processing techniques on existing approaches and adapt them to real-world SSL data handling. We validated frame-segmentation based parallel processing methods using point-based, voxel-based, and range-image-based ground segmentation approaches on the SemanticKITTI dataset based on mechanical LiDAR. The results revealed the superior performance and robustness of the range-image method, especially in its resilience to slicing. Further, utilizing a custom dataset from our self-built Camera-SSLSS equipment, we examined regular SSL data frames and validated the effectiveness of our parallel approach for SSL sensor. Additionally, our pioneering implementation of range-image ground segmentation on FPGA for SSL sensors demonstrated significant processing speed improvements and resource efficiency, achieving processing rates up to 50.3 times faster than conventional CPU setups. These findings underscore the potential of parallel processing strategies to significantly enhance LiDAR technologies for advanced perception tasks in autonomous systems. Post-publication, both the data and the code will be made available on GitHub.
翻訳日:2024-08-21 17:43:23 公開日:2024-08-19
# ROOT: 要求組織と最適化ツール

ROOT: Requirements Organization and Optimization Tool ( http://arxiv.org/abs/2408.10405v1 )

ライセンス: Link先を確認
Katherine R. Dearstyne, Alberto D. Rodriguez, Jane Cleland-Huang, (参考訳) 要件の構築やトレーサビリティの確立といったソフトウェアエンジニアリングプラクティスは,システムの安全性,信頼性,メンテナンス性を保証する上で有効です。 しかし、それらはリソース集約的であり、しばしば未利用である。 これらの本質的なプロセスの負担を軽減するため,我々はROOT(Requireements Organization and Optimization Tool)を開発した。 ROOTはプロジェクト情報を集中化し、プロジェクトビジュアライゼーションと、エンジニアリングプロセスを合理化するように設計されたAIベースのツールを提供する。 ROOTの支援により、エンジニアは監視の改善と早期エラー検出の恩恵を受け、ソフトウェアシステムの開発が成功した。 スクリーンキャストへのリンク:https://youtu.be/3rtMYRnsu24

Software engineering practices such as constructing requirements and establishing traceability help ensure systems are safe, reliable, and maintainable. However, they can be resource-intensive and are frequently underutilized. To alleviate the burden of these essential processes, we developed the Requirements Organization and Optimization Tool (ROOT). ROOT centralizes project information and offers project visualizations and AI-based tools designed to streamline engineering processes. With ROOT's assistance, engineers benefit from improved oversight and early error detection, leading to the successful development of software systems. Link to screen cast: https://youtu.be/3rtMYRnsu24
翻訳日:2024-08-21 17:43:23 公開日:2024-08-19
# 静水圧下におけるダイヤモンド中のGroup-IV-空孔中心の磁気光学特性

Magneto-optical properties of Group-IV--vacancy centers in diamond upon hydrostatic pressure ( http://arxiv.org/abs/2408.10407v1 )

ライセンス: Link先を確認
Meysam Mohseni, Lukas Razinkovas, Vytautas Žalandauskas, Gergő Thiering, Adam Gali, (参考訳) 近年では、G4V($-$)またはG4Vと呼ばれるダイヤモンドの負に帯電したグループIV空孔欠陥が、量子情報処理において大きな注目を集めている。 本研究では,180〜GPaまでの高圧静水圧下でのG4V中心の磁気光学特性について検討した。 電子グラウンドと励起状態と超微細テンソルのスピン軌道分割は、これらの欠陥のユニークな指紋として平面波超セル密度汎関数理論を用いて計算する。 この目的のために、電子状態がJahn-Teller効果を受けるとき、超微細テンソルを計算する理論を開発した。 ゼロフォノン線エネルギーはSiV($-$)からPbV($-$)への結合強度が増加する静水圧を加えることで増加する。 一方、計算された光イオン化閾値エネルギーは、PbV($-$)ベースの量子センサの動作が静水圧30〜GPaに制限されているのに対して、SnV($-$)、GeV($-$)、SiV($-$)は静水圧180〜GPaに制限されていることを示している。

In recent years, the negatively charged group-IV--vacancy defects in diamond, labeled as G4V($-$) or G4V centers, have received a great attention in quantum information processing. In this study, we investigate the magneto-optical properties of the G4V centers under high compressive hydrostatic pressures up to 180~GPa. The spin-orbit splitting for the electronic ground and excited states and the hyperfine tensors are calculated by means of plane wave supercell density functional theory as unique fingerprints of these defects. To this end, we developed a theory for calculating the hyperfine tensors when the electronic states are subject to Jahn--Teller effect. We find that the zero-phonon-line energy increases with adding hydrostatic pressures where the coupling strength increases from SiV($-$) to PbV($-$). On the other hand, the calculated photoionization threshold energies indicate that the operation of PbV($-$) based quantum sensor is limited up to 30~GPa of hydrostatic pressure whereas SnV($-$), GeV($-$) and SiV($-$) remain photostable up to 180~GPa of hydrostatic pressure.
翻訳日:2024-08-21 17:43:23 公開日:2024-08-19
# プロジェクタエディタネットワークを用いた編集スコープにおける語彙バイアスの解消

Resolving Lexical Bias in Edit Scoping with Projector Editor Networks ( http://arxiv.org/abs/2408.10411v1 )

ライセンス: Link先を確認
Hammad Rizwan, Domenic Rosati, Ga Wu, Hassan Sajjad, (参考訳) 重み保存モデル編集技術は、ベースモデルにいつ編集を適用するかを決定するスコーピング機構に大きく依存している。 これらのスコーピング機構は、編集範囲を確認するために、表現空間内の距離関数を利用する。 本研究では, 距離に基づくスコーピング関数が, 類似の語彙的特徴を持つ無関係なプロンプトによる誤火災などの問題の原因となる, 語彙的バイアスと相反することを示す。 本稿では,モデル編集のためのプロジェクタ・エディタ・ネットワーク(PENME)について紹介する。 我々は,PENMEが優れた結果を得る上で有効でありながら,モデルアーキテクチャ全体に適用可能な計算効率と柔軟性を実証する。

Weight-preserving model editing techniques heavily rely on the scoping mechanism that decides when to apply an edit to the base model. These scoping mechanisms utilize distance functions in the representation space to ascertain the scope of the edit. In this work, we show that distance-based scoping functions grapple with lexical biases leading to issues such as misfires with irrelevant prompts that share similar lexical characteristics. To address this problem, we introduce, Projector Editor Networks for Model Editing (PENME),is a model editing approach that employs a compact adapter with a projection network trained via a contrastive learning objective. We demonstrate the efficacy of PENME in achieving superior results while being compute efficient and flexible to adapt across model architectures.
翻訳日:2024-08-21 17:43:23 公開日:2024-08-19
# 人体識別の段階的自動化に向けて : 人工知能によるアプローチ

Towards Automation of Human Stage of Decay Identification: An Artificial Intelligence Approach ( http://arxiv.org/abs/2408.10414v1 )

ライセンス: Link先を確認
Anna-Maria Nau, Phillip Ditto, Dawnie Wolfe Steadman, Audris Mockus, (参考訳) 分解の段階(SOD)を決定することは、死後の間隔を推定し、ヒトの遺骨を特定するために重要である。 現在、この目的のために労働集約型手動スコアリング法が用いられているが、それらは主観的であり、人間の分解写真の大規模なアーカイブコレクションにはスケールしない。 本研究では,人工知能(AI)を用いたMegyesi と Gelderman による2つの一般的な分解スコアリング手法の自動化の可能性について検討した。 Inception V3 と Xception という2つの一般的なディープラーニングモデルについて,人間の分解画像の大規模なデータセットを用いて学習し,頭部,胴体,手足などの解剖学的領域でSODを分類した。 さらに,SOD識別のための人間法医学検査者と比較して,AIモデルの信頼性を評価するためのインターラッター実験を行った。 Xceptionモデルは、平均的なF1スコアが.878、.881、.702が頭、胴体、手足でMegyesiのSODを予測し、.872、.875、.76が頭、胴体、手足で予測した。 インターラター研究の結果は、AIが人間の専門家に匹敵する信頼性レベルでSODを決定する能力を支持した。 この研究は、人間の分解画像の大規模なデータセットに基づいてトレーニングされたAIモデルの可能性を示し、SOD識別を自動化する。

Determining the stage of decomposition (SOD) is crucial for estimating the postmortem interval and identifying human remains. Currently, labor-intensive manual scoring methods are used for this purpose, but they are subjective and do not scale for the emerging large-scale archival collections of human decomposition photos. This study explores the feasibility of automating two common human decomposition scoring methods proposed by Megyesi and Gelderman using artificial intelligence (AI). We evaluated two popular deep learning models, Inception V3 and Xception, by training them on a large dataset of human decomposition images to classify the SOD for different anatomical regions, including the head, torso, and limbs. Additionally, an interrater study was conducted to assess the reliability of the AI models compared to human forensic examiners for SOD identification. The Xception model achieved the best classification performance, with macro-averaged F1 scores of .878, .881, and .702 for the head, torso, and limbs when predicting Megyesi's SODs, and .872, .875, and .76 for the head, torso, and limbs when predicting Gelderman's SODs. The interrater study results supported AI's ability to determine the SOD at a reliability level comparable to a human expert. This work demonstrates the potential of AI models trained on a large dataset of human decomposition images to automate SOD identification.
翻訳日:2024-08-21 17:43:23 公開日:2024-08-19
# 大規模言語モデルキートピック検出を用いたAIアンチブリッシングシステムの開発

Development of an AI Anti-Bullying System Using Large Language Model Key Topic Detection ( http://arxiv.org/abs/2408.10417v1 )

ライセンス: Link先を確認
Matthew Tassava, Cameron Kolodjski, Jordan Milbrath, Adorah Bishop, Nathan Flanders, Robbie Fetsch, Danielle Hanson, Jeremy Straub, (参考訳) 本稿では,人工知能(AI)アンチバブルシステムの開発について,その成果と評価を行う。 このシステムは、ソーシャルメディアやその他のメカニズムを介して協調的いじめ攻撃を識別し、それらを特徴付け、修復および対応活動を提案するように設計されている。 特に、大規模言語モデル(LLM)は、いじめ攻撃のエキスパートシステムベースのネットワークモデルを構築するために使用される。 これにより、ソーシャルメディア企業への報告メッセージの生成など、分析と修復活動の促進が図られる。 本システムについて述べるとともに,本モデルに対するLCMの有効性について述べる。

This paper presents and evaluates work on the development of an artificial intelligence (AI) anti-bullying system. The system is designed to identify coordinated bullying attacks via social media and other mechanisms, characterize them and propose remediation and response activities to them. In particular, a large language model (LLM) is used to populate an enhanced expert system-based network model of a bullying attack. This facilitates analysis and remediation activity - such as generating report messages to social media companies - determination. The system is described and the efficacy of the LLM for populating the model is analyzed herein.
翻訳日:2024-08-21 17:43:23 公開日:2024-08-19
# 最適化のための2次フォワードモード自動微分

Second-Order Forward-Mode Automatic Differentiation for Optimization ( http://arxiv.org/abs/2408.10419v1 )

ライセンス: Link先を確認
Adam D. Cobb, Atılım Güneş Baydin, Barak A. Pearlmutter, Susmit Jha, (参考訳) 本稿では,2階の高平面探索を行から$k$次元の高平面への2階の線探索を一般化する新しい最適化ステップとして紹介する。 これは、フォワードモード確率勾配法と組み合わせて、フォワードパスのみからなる2階最適化アルゴリズムを生成し、バックプロパゲーションのストレージオーバーヘッドを完全に回避する。 方向微分(もしくはヤコビアン-ベクトル積、JVP)に依存する最近の研究とは異なり、超双対数を用いて方向微分とその二階二次項を共同で評価する。 その結果, Hessian information (FoMoH) を用いた前方モードの重量摂動を導入した。 次に、FoMoHを用いて、それを超平面探索に拡張することで、ラインサーチの新たな一般化を開発する。 この拡張の有用性と、バックプロパゲーションなしで機械学習モデルを最適化する最近の課題を克服する方法について説明する。 私たちのコードはhttps://github.com/SRI-CSL/fomoh.comで公開されている。

This paper introduces a second-order hyperplane search, a novel optimization step that generalizes a second-order line search from a line to a $k$-dimensional hyperplane. This, combined with the forward-mode stochastic gradient method, yields a second-order optimization algorithm that consists of forward passes only, completely avoiding the storage overhead of backpropagation. Unlike recent work that relies on directional derivatives (or Jacobian--Vector Products, JVPs), we use hyper-dual numbers to jointly evaluate both directional derivatives and their second-order quadratic terms. As a result, we introduce forward-mode weight perturbation with Hessian information (FoMoH). We then use FoMoH to develop a novel generalization of line search by extending it to a hyperplane search. We illustrate the utility of this extension and how it might be used to overcome some of the recent challenges of optimizing machine learning models without backpropagation. Our code is open-sourced at https://github.com/SRI-CSL/fomoh.
翻訳日:2024-08-21 17:43:23 公開日:2024-08-19
# 最短経路問題に対する量子アルゴリズムの進歩

Advances in quantum algorithms for the shortest path problem ( http://arxiv.org/abs/2408.10427v1 )

ライセンス: Link先を確認
Adam Wesołowski, Stephen Piddock, (参考訳) 無向重み付きグラフと2つの特別な頂点$s$と$t$が与えられたとき、問題はそれらの間の最短経路を見つけることである。 我々は、構造化インスタンスの問題を解くために、隣接リストモデルに2つの有界エラー量子アルゴリズムを与える。 最初のアプローチは、量子フロー状態をサンプリングし、より小さな問題に対して古典的なアルゴリズムを実行することによって、元のグラフをスパース化することに基づいている。 時間複雑性は$\tilde{O}(l^2\sqrt{m})$であり、$O(\log{l})$ space を用いる。 主な結果は、$O(\log{l})$ space を使用すれば $O(\log{l})$ space で最短経路を出力し、$O(l\log{l})$ space を使用すれば $\tilde{O}(\sqrt{lm})$ circuit depth に並列化できる。 後者では、2つの頂点の間の経路がそれを検出するのに必要な時間に見つかるかどうかというオープンな問題に対する肯定的な答えで部分的に解決する。

Given an undirected, weighted graph, and two special vertices $s$ and $t$, the problem is to find the shortest path between them. We give two bounded-error quantum algorithms in the adjacency list model that solve the problem on structured instances. The first approach is based on sparsifying the original graph via sampling the quantum flow state and running a classical algorithm on the smaller problem. It has time complexity of $\tilde{O}(l^2\sqrt{m})$ and uses $O(\log{l})$ space, where $l$ is the length (or total weight, in case of weighted graphs) of the shortest $s$-$t$ path. The main result is the second approach which is based on a divide and conquer procedure that outputs the shortest path in $\tilde{O}(l\sqrt{m})$ steps when using $O(\log{l})$ space, and can be parallelised to $\tilde{O}(\sqrt{lm})$ circuit depth when using $O(l\log{l})$ space. With the latter we partially resolve with an affirmative answer the open problem of whether a path between two vertices can be found in the time required to detect it.
翻訳日:2024-08-21 17:43:23 公開日:2024-08-19
# LLMは高レベル合成に良いか?

Are LLMs Any Good for High-Level Synthesis? ( http://arxiv.org/abs/2408.10428v1 )

ライセンス: Link先を確認
Yuchao Liao, Tosiron Adegbija, Roman Lysecky, (参考訳) より高速でエネルギー効率の高いハードウェア設計の複雑さと需要は、革新的な高レベル合成(HLS)手法を必要とする。 本稿では,HLSプロセスの合理化や置き換えにLarge Language Models (LLMs) がもたらす可能性について考察し,自然言語仕様の理解とリファクタリングの能力を活用する。 我々は,標準HLSツール(Vitis HLS)で生成されたVerilog設計と,C言語や自然言語の仕様を翻訳するLLMで生成されたVitis HLSを比較検討した。 本評価は, LLM に基づく手法の有効性を評価することを目的として, 性能, 電力, 資源利用への影響の定量化に焦点をあてる。 本研究の目的は、AIアクセラレーション、組み込みシステム、高性能コンピューティングなどのアプリケーションにおいて、最適化されたハードウェア設計のための将来的な方向性を特定することである。

The increasing complexity and demand for faster, energy-efficient hardware designs necessitate innovative High-Level Synthesis (HLS) methodologies. This paper explores the potential of Large Language Models (LLMs) to streamline or replace the HLS process, leveraging their ability to understand natural language specifications and refactor code. We survey the current research and conduct experiments comparing Verilog designs generated by a standard HLS tool (Vitis HLS) with those produced by LLMs translating C code or natural language specifications. Our evaluation focuses on quantifying the impact on performance, power, and resource utilization, providing an assessment of the efficiency of LLM-based approaches. This study aims to illuminate the role of LLMs in HLS, identifying promising directions for optimized hardware design in applications such as AI acceleration, embedded systems, and high-performance computing.
翻訳日:2024-08-21 17:43:23 公開日:2024-08-19
# CLIP-DPO:LVLMにおける幻覚の修正基準としての視覚言語モデル

CLIP-DPO: Vision-Language Models as a Source of Preference for Fixing Hallucinations in LVLMs ( http://arxiv.org/abs/2408.10433v1 )

ライセンス: Link先を確認
Yassine Ouali, Adrian Bulat, Brais Martinez, Georgios Tzimiropoulos, (参考訳) 近年の成功にもかかわらず、LVLMやLarge Vision Language Modelsは、オブジェクトやそれらの特性や関係といった詳細を幻覚させる傾向にあり、実際のデプロイメントを制限している。 そこで本研究では,LVLMのDPOに基づく最適化のために,CLIP(CLIP-DPO)埋め込みモデルを用いた優先最適化手法を提案する。 LVLMの幻覚に対処する以前の作業とは異なり、我々の手法は有料のAPIに依存しず、追加のトレーニングデータや外部のLVLMの配置を必要としない。 代わりに、教師付き微調整データの最初のプールから、CLIP画像テキストの類似性に基づいてランク付けされた様々な予測セットを生成し、頑健なルールベースのアプローチを用いて、DPOベースのトレーニングのための正と負のペアのセットを得る。 CLIP-DPO の微調整を MobileVLM-v2 モデルと LlaVA-1.5 モデルに適用した。 また,ゼロショット分類の性能も向上し,接地性能が向上し,標準LVLMベンチマークのオリジナル性能が総合的に維持されていることを確認する。

Despite recent successes, LVLMs or Large Vision Language Models are prone to hallucinating details like objects and their properties or relations, limiting their real-world deployment. To address this and improve their robustness, we present CLIP-DPO, a preference optimization method that leverages contrastively pre-trained Vision-Language (VL) embedding models, such as CLIP, for DPO-based optimization of LVLMs. Unlike prior works tackling LVLM hallucinations, our method does not rely on paid-for APIs, and does not require additional training data or the deployment of other external LVLMs. Instead, starting from the initial pool of supervised fine-tuning data, we generate a diverse set of predictions, which are ranked based on their CLIP image-text similarities, and then filtered using a robust rule-based approach to obtain a set of positive and negative pairs for DPO-based training. We applied CLIP-DPO fine-tuning to the MobileVLM-v2 family of models and to LlaVA-1.5, in all cases observing significant improvements in terms of hallucination reduction over baseline models. We also observe better performance for zero-shot classification, suggesting improved grounding capabilities, and verify that the original performance on standard LVLM benchmarks is overall preserved.
翻訳日:2024-08-21 17:43:23 公開日:2024-08-19
# 産業実践者の視点によるマイクロサービスアーキテクチャの展望

Insights on Microservice Architecture Through the Eyes of Industry Practitioners ( http://arxiv.org/abs/2408.10434v1 )

ライセンス: Link先を確認
Vinicius L. Nogueira, Fernando S. Felizardo, Aline M. M. M. Amaral, Wesley K. G. Assuncao, Thelma E. Colanzi, (参考訳) マイクロサービスアーキテクチャの採用は近年,レガシシステムの近代化と制限への対処の必要性を中心に,大幅に増加しています。 通常モノリシックなアプリケーションとして設計されるレガシーシステムは、保守、スケーラビリティ、デプロイメントの非効率さに悩まされることが多い。 本研究では、モノリシックなレガシーシステムからマイクロサービスへの移行に伴うモチベーション、アクティビティ、課題を調査し、実践者の視点から共通のプラクティスや課題を明らかにすることを目的とする。 我々は、マイクロサービスを使用する53人のソフトウェア実践者と包括的な調査を行い、さまざまな国際的視点を取り入れて、以前の研究を拡張しました。 我々の混合方法論のアプローチには、量的および質的な分析が含まれており、主な4つの側面に焦点をあてている。 一 移住の原動力 (二)移住を行うための活動 三 データの整合性を管理するための戦略、及び (4) 主要な課題。 このようにして、マイクロサービスへの移行時に実践者が直面するさまざまなプラクティスや課題を明らかにしました。 企業は、技術的メリット、メンテナンスの強化、スケーラビリティ、デプロイメントプロセスに興味を持っています。 マイクロサービス環境でのテストは依然として複雑であり、マイクロサービスの動的性質を管理するためには広範な監視が不可欠である。 データベース管理は依然として難しい。 ほとんどの参加者は自律性とスケーラビリティのために分散データベースを好むが、データ一貫性の確保には課題が続いている。 さらに、多くの企業は、現代的なクラウド技術を活用してネットワークオーバーヘッドを軽減し、効率的なマイクロサービス通信を促進する上でのクラウドインフラストラクチャの重要性を示している。

The adoption of microservice architecture has seen a considerable upswing in recent years, mainly driven by the need to modernize legacy systems and address their limitations. Legacy systems, typically designed as monolithic applications, often struggle with maintenance, scalability, and deployment inefficiencies. This study investigates the motivations, activities, and challenges associated with migrating from monolithic legacy systems to microservices, aiming to shed light on common practices and challenges from a practitioner's point of view. We conducted a comprehensive study with 53 software practitioners who use microservices, expanding upon previous research by incorporating diverse international perspectives. Our mixed-methods approach includes quantitative and qualitative analyses, focusing on four main aspects: (i) the driving forces behind migration, (ii) the activities to conduct the migration, (iii) strategies for managing data consistency, and (iv) the prevalent challenges. Thus, our results reveal diverse practices and challenges practitioners face when migrating to microservices. Companies are interested in technical benefits, enhancing maintenance, scalability, and deployment processes. Testing in microservice environments remains complex, and extensive monitoring is crucial to managing the dynamic nature of microservices. Database management remains challenging. While most participants prefer decentralized databases for autonomy and scalability, challenges persist in ensuring data consistency. Additionally, many companies leverage modern cloud technologies to mitigate network overhead, showcasing the importance of cloud infrastructure in facilitating efficient microservice communication.
翻訳日:2024-08-21 17:33:21 公開日:2024-08-19
# グラフ逆問題に対する正規化学習

Learning Regularization for Graph Inverse Problems ( http://arxiv.org/abs/2408.10436v1 )

ライセンス: Link先を確認
Moshe Eliasof, Md Shahriar Rahim Siddiqui, Carola-Bibiane Schönlieb, Eldad Haber, (参考訳) 近年,薬物発見からネットワーク設計,ソーシャルネットワークに至るまで,さまざまな用途にグラフニューラルネットワーク(GNN)が利用されている。 多くの応用において、グラフのいくつかの性質を直接観察することは不可能であり、代わりに、これらの性質のノイズと間接的な測定が利用可能である。 これらのシナリオはグラフ逆問題(GRIP)と呼ばれる。 本稿では,GNNを利用してGRIPを解くフレームワークを提案する。 このフレームワークは、学習した事前情報に固執しながらデータに適合するソリューションを見つけるために使用される、可能性と事前条件の組み合わせに基づいている。 具体的には,逆問題に対して開発された近年のディープラーニング技術とGNNアーキテクチャを組み合わせて,GRIPの定式化と解法を提案する。 本稿では,フレームワークの有効性を示す代表的問題について検討する。

In recent years, Graph Neural Networks (GNNs) have been utilized for various applications ranging from drug discovery to network design and social networks. In many applications, it is impossible to observe some properties of the graph directly; instead, noisy and indirect measurements of these properties are available. These scenarios are coined as Graph Inverse Problems (GRIP). In this work, we introduce a framework leveraging GNNs to solve GRIPs. The framework is based on a combination of likelihood and prior terms, which are used to find a solution that fits the data while adhering to learned prior information. Specifically, we propose to combine recent deep learning techniques that were developed for inverse problems, together with GNN architectures, to formulate and solve GRIP. We study our approach on a number of representative problems that demonstrate the effectiveness of the framework.
翻訳日:2024-08-21 17:33:21 公開日:2024-08-19
# 埋め込みモデルによる生成AIコンテンツ理解

Understanding Generative AI Content with Embedding Models ( http://arxiv.org/abs/2408.10437v1 )

ライセンス: Link先を確認
Max Vargas, Reilly Cannon, Andrew Engel, Anand D. Sarwate, Tony Chiang, (参考訳) 高品質な数値的特徴の構築は、いかなる定量的データ分析にも不可欠である。 機能エンジニアリングは歴史的にドメインの専門知識に基づいたデータ表現を慎重に手作りすることで対処されてきた。 この研究は、組み込みと呼ばれる現代のディープニューラルネットワーク(DNN)の内部表現を、従来の機能エンジニアリングの自動化形式として捉えている。 トレーニングされたDNNに対して、これらの埋め込みは非構造化サンプルデータに解釈可能で高レベルな概念を明らかにすることができることを示す。 自然言語とコンピュータビジョンのタスクにこれらの埋め込みを用いて、基礎となるデータに固有の不均一性と、それに対する人間の理解可能な説明の両方を明らかにする。 特に、実データとAIモデルから生成されたデータに固有の分離性が存在するという実証的な証拠が見つかる。

The construction of high-quality numerical features is critical to any quantitative data analysis. Feature engineering has been historically addressed by carefully hand-crafting data representations based on domain expertise. This work views the internal representations of modern deep neural networks (DNNs), called embeddings, as an automated form of traditional feature engineering. For trained DNNs, we show that these embeddings can reveal interpretable, high-level concepts in unstructured sample data. We use these embeddings in natural language and computer vision tasks to uncover both inherent heterogeneity in the underlying data and human-understandable explanations for it. In particular, we find empirical evidence that there is inherent separability between real data and that generated from AI models.
翻訳日:2024-08-21 17:33:21 公開日:2024-08-19
# 私的意味とフリーランチの悪事

Private Means and the Curious Incident of the Free Lunch ( http://arxiv.org/abs/2408.10438v1 )

ライセンス: Link先を確認
Jack Fitzsimons, James Honaker, Michael Shoemate, Vikrant Singhal, (参考訳) DP実装で最もよく知られ、基本的なビルディングブロックである、和、平均、カウント(および他の多くのリニアクエリ)が、同じプライバシー保証のために大幅にノイズを減らしてリリースできることを示します。 これを実現するために、最低ケース感度$R$の個々のデータを、すべてのデータが一定のノルム$R$を持つプレフィックスに投影する。 この単純な例では、'free' クエリを追加して実行することができ、これはもともとの予算化されたクエリのプライバシロスによって既にカバーされており、代数的に数値や和の見積もりを与え、最終的なノイズを下げるために組み合わせることができる。

We show that the most well-known and fundamental building blocks of DP implementations -- sum, mean, count (and many other linear queries) -- can be released with substantially reduced noise for the same privacy guarantee. We achieve this by projecting individual data with worst-case sensitivity $R$ onto a simplex where all data now has a constant norm $R$. In this simplex, additional ``free'' queries can be run that are already covered by the privacy-loss of the original budgeted query, and which algebraically give additional estimates of counts or sums, and can be combined for lower final noise.
翻訳日:2024-08-21 17:33:21 公開日:2024-08-19
# Goldfish:350言語のためのモノリンガル言語モデル

Goldfish: Monolingual Language Models for 350 Languages ( http://arxiv.org/abs/2408.10441v1 )

ライセンス: Link先を確認
Tyler A. Chang, Catherine Arnett, Zhuowen Tu, Benjamin K. Bergen, (参考訳) 多くの低リソース言語において、利用可能な言語モデルは、多くの言語で同時に訓練された大きな多言語モデルのみである。 しかし、FLORESパープレキシティを指標として、これらのモデルは、多くの言語でビッグラムよりもパフォーマンスが悪くなっている(例えば、XGLM 4.5Bの言語の24%、BLOOM 7.1Bの43%)。 低リソース言語に焦点を当てた研究を容易にするため、350言語に対して最大125Mパラメータのモノリンガル自動回帰変換言語モデルスイートであるGoldfishを事前訓練しリリースする。 Goldfishは204言語のうち98言語でBLOOM、XGLM、MALA-500よりもFLORESの難易度が低い。 しかし、Goldfishは推論ベンチマークにおいてより大きな多言語モデルよりも優れており、低リソース言語では、多言語性は主に基本的なテキスト生成よりも一般的な推論能力を改善することを示唆している。 5MB(350言語)、10MB(288言語)、100MB(166言語)、1GB(83言語)のテキストデータをトレーニングしたモデルをリリースする。 Goldfishモデルは、低リソースのNLP研究において、ベースライン、微調整ソース、または既存のモデルの拡張として利用可能であり、言語間で最大に比較可能なモデルを必要とするクロス言語研究にさらに有用である。

For many low-resource languages, the only available language models are large multilingual models trained on many languages simultaneously. However, using FLORES perplexity as a metric, we find that these models perform worse than bigrams for many languages (e.g. 24% of languages in XGLM 4.5B; 43% in BLOOM 7.1B). To facilitate research that focuses on low-resource languages, we pre-train and release Goldfish, a suite of monolingual autoregressive Transformer language models up to 125M parameters for 350 languages. The Goldfish reach lower FLORES perplexities than BLOOM, XGLM, and MaLA-500 on 98 of 204 FLORES languages, despite each Goldfish model being over 10x smaller. However, the Goldfish significantly underperform larger multilingual models on reasoning benchmarks, suggesting that for low-resource languages, multilinguality primarily improves general reasoning abilities rather than basic text generation. We release models trained on 5MB (350 languages), 10MB (288 languages), 100MB (166 languages), and 1GB (83 languages) of text data where available. The Goldfish models are available as baselines, fine-tuning sources, or augmentations to existing models in low-resource NLP research, and they are further useful for crosslinguistic studies requiring maximally comparable models across languages.
翻訳日:2024-08-21 17:33:21 公開日:2024-08-19
# 分散カメラネットワークとプライバシー保護エッジコンピューティングによる認知障害評価の可能性

Feasibility of assessing cognitive impairment via distributed camera network and privacy-preserving edge computing ( http://arxiv.org/abs/2408.10442v1 )

ライセンス: Link先を確認
Chaitra Hegde, Yashar Kiarashi, Allan I Levey, Amy D Rodriguez, Hyeokhyen Kwon, Gari D Clifford, (参考訳) 軽度認知障害 (MCI) は、典型的な年齢以上の認知機能の低下と教育関連の期待が特徴である。 以来、MCIは社会的相互作用の減少と目的のない動きの増大に結びついており、これらの行動の把握を自動化し、縦断的モニタリングを強化することを目的としている。 方法: プライバシ保存型分散カメラネットワークを用いて, 1700$m^2$空間でMCI治療中の個人集団の移動と社会的相互作用データを収集した。 そこで我々は,MCI群を高次・低次認知機能に区別するために,一連の機械学習アルゴリズムを訓練するために,移動機能と社会的相互作用機能を開発した。 結果: ウィルコクソンランクサム試験では, 直線路長, 歩行速度, 歩行中の方向変化, 速度と方向のエントロピー, 室内空間における群形成数などの特徴において, 高機能コホートと低機能コホートの間に統計的に有意な差が認められた。 特定のレベルのMCIと関連付けるための個々の識別子が欠如しているにもかかわらず、最も重要な機能を使用した機械学習アプローチは、精度を71%向上させた。 DisCusSION: エッジコンピューティングフレームワークを用いたプライバシー保護型低コストカメラネットワークは,グループ活動中に捉えた認知障害と社会的相互作用のレベルの違いを識別する可能性があることを示す証拠を提供する。

INTRODUCTION: Mild cognitive impairment (MCI) is characterized by a decline in cognitive functions beyond typical age and education-related expectations. Since, MCI has been linked to reduced social interactions and increased aimless movements, we aimed to automate the capture of these behaviors to enhance longitudinal monitoring. METHODS: Using a privacy-preserving distributed camera network, we collected movement and social interaction data from groups of individuals with MCI undergoing therapy within a 1700$m^2$ space. We developed movement and social interaction features, which were then used to train a series of machine learning algorithms to distinguish between higher and lower cognitive functioning MCI groups. RESULTS: A Wilcoxon rank-sum test revealed statistically significant differences between high and low-functioning cohorts in features such as linear path length, walking speed, change in direction while walking, entropy of velocity and direction change, and number of group formations in the indoor space. Despite lacking individual identifiers to associate with specific levels of MCI, a machine learning approach using the most significant features provided a 71% accuracy. DISCUSSION: We provide evidence to show that a privacy-preserving low-cost camera network using edge computing framework has the potential to distinguish between different levels of cognitive impairment from the movements and social interactions captured during group activities.
翻訳日:2024-08-21 17:33:21 公開日:2024-08-19
# 実世界における大規模ASRモデルのフェデレーション学習

Federated Learning of Large ASR Models in the Real World ( http://arxiv.org/abs/2408.10443v1 )

ライセンス: Link先を確認
Yonghui Xiao, Yuxin Ding, Changwan Ryu, Petr Zadrazil, Francoise Beaufays, (参考訳) フェデレートラーニング(FL)は、プライバシ保護を伴う機械学習モデルのトレーニングにおいて有望な結果を示している。 しかし,1億以上のパラメータを持つ大規模モデルでは,共通デバイスはFLタスクを完了するのに十分なメモリと計算能力を持っていないため,トレーニングリソースの要求がFLの障害となる。 効率的なトレーニング手法が提案されているが、ConformerベースのASRのような大規模なモデルをトレーニングすることは依然として困難である。 本稿では,約130MパラメータのフルサイズASRモデルをFLで学習するための体系的解を提案する。 われわれの知る限り、これは Conformer モデルの最初の現実世界の FL アプリケーションであり、これはこれまで FL で訓練された最大のモデルでもある。 FLがASRモデルの品質を向上できることを示す最初の論文であり、データの品質とクライアントのラベルを改良するための一連の手法を提案する。 実環境実験におけるトレーニング効率とモデル品質改善の両立を実証する。

Federated learning (FL) has shown promising results on training machine learning models with privacy preservation. However, for large models with over 100 million parameters, the training resource requirement becomes an obstacle for FL because common devices do not have enough memory and computation power to finish the FL tasks. Although efficient training methods have been proposed, it is still a challenge to train the large models like Conformer based ASR. This paper presents a systematic solution to train the full-size ASR models of 130M parameters with FL. To our knowledge, this is the first real-world FL application of the Conformer model, which is also the largest model ever trained with FL so far. And this is the first paper showing FL can improve the ASR model quality with a set of proposed methods to refine the quality of data and labels of clients. We demonstrate both the training efficiency and the model quality improvement in real-world experiments.
翻訳日:2024-08-21 17:33:21 公開日:2024-08-19
# AI生成画像透かし技術の脆さ--視覚的パラフレーズ攻撃に対するロバスト性の検討

The Brittleness of AI-Generated Image Watermarking Techniques: Examining Their Robustness Against Visual Paraphrasing Attacks ( http://arxiv.org/abs/2408.10446v1 )

ライセンス: Link先を確認
Niyar R Barman, Krish Sharma, Ashhar Aziz, Shashwat Bajpai, Shwetangshu Biswas, Vasu Sharma, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das, (参考訳) 安定拡散(Stable Diffusion)、Midjourney(Midjourney)、Imagen(Imagen)、DALL-E(DALL-E)といったモデルで実証されたテキスト・画像生成システムの急速な進歩により、その潜在的な誤用に対する懸念が高まっている。 これを受けてMetaやGoogleなどの企業は、AI生成画像に透かし技術を実装する取り組みを強化し、誤認を招きかねない視覚の循環を抑制する。 しかし,本稿では,現在の画像透かし手法は脆弱であり,視覚的パラフレーズ攻撃によって回避される可能性が示唆されている。 提案されたビジュアルパラフレーズは2つのステップで動作する。 まず、最新の最先端画像キャプションシステムであるKOSMOS-2を用いて、所定の画像のキャプションを生成する。 次に、元の画像と生成されたキャプションの両方を画像間拡散システムに渡す。 拡散パイプラインのデノイングステップの間、システムはテキストキャプションによってガイドされる視覚的に類似した画像を生成する。 得られた画像は視覚的な言い回しであり、透かしは一切ない。 実験の結果,視覚的パラフレーズ攻撃は画像から透かしを効果的に除去できることが示された。 本稿では,視覚的パラフレーズ攻撃に対する既存の透かし手法の脆弱性を実証的に明らかにした,批判的な評価を提供する。 この問題に対する解決策は提案されていないが,本論文は,より堅牢な透かし技術の開発を優先する科学コミュニティの行動を促すものである。 私たちの最初のビジュアルパラフレーズデータセットと付随するコードは公開されています。

The rapid advancement of text-to-image generation systems, exemplified by models like Stable Diffusion, Midjourney, Imagen, and DALL-E, has heightened concerns about their potential misuse. In response, companies like Meta and Google have intensified their efforts to implement watermarking techniques on AI-generated images to curb the circulation of potentially misleading visuals. However, in this paper, we argue that current image watermarking methods are fragile and susceptible to being circumvented through visual paraphrase attacks. The proposed visual paraphraser operates in two steps. First, it generates a caption for the given image using KOSMOS-2, one of the latest state-of-the-art image captioning systems. Second, it passes both the original image and the generated caption to an image-to-image diffusion system. During the denoising step of the diffusion pipeline, the system generates a visually similar image that is guided by the text caption. The resulting image is a visual paraphrase and is free of any watermarks. Our empirical findings demonstrate that visual paraphrase attacks can effectively remove watermarks from images. This paper provides a critical assessment, empirically revealing the vulnerability of existing watermarking techniques to visual paraphrase attacks. While we do not propose solutions to this issue, this paper serves as a call to action for the scientific community to prioritize the development of more robust watermarking techniques. Our first-of-its-kind visual paraphrase dataset and accompanying code are publicly available.
翻訳日:2024-08-21 17:33:21 公開日:2024-08-19
# RUMI:相互情報を利用したラミージング

RUMI: Rummaging Using Mutual Information ( http://arxiv.org/abs/2408.10450v1 )

ライセンス: Link先を確認
Sheng Zhong, Nima Fazeli, Dmitry Berenson, (参考訳) 本稿では、視覚的に排除された環境下で、既知の可動物体のポーズに関する情報を収集するロボット行動系列のオンライン生成方法である、相互情報を利用したラミング(rummaging Using Mutual Information, RUMI)を提案する。 提案手法は, 物体の姿勢分布と動作計画のためのロボット軌道の相互情報を利用する。 観測された部分点雲から、RUMIは互換性のあるオブジェクトのポーズ分布を推定し、その相互情報を実時間でワークスペース占有量と近似する。 そこで我々は,ロボットの到達範囲内に物体を保持するために,情報ゲインコスト関数と到達可能性コスト関数を開発する。 これらは、確率力学モデルを用いてモデル予測制御(MPC)フレームワークに統合され、クローズドループ内のポーズ分布を更新する。 主なコントリビューションには、オブジェクトのポーズ推定のための新しい信念フレームワーク、効率的な情報ゲイン計算戦略、堅牢なMPCベースの制御スキームなどがある。 RUMIは、ベースライン手法と比較してシミュレーションと実タスクの両方で優れた性能を示す。

This paper presents Rummaging Using Mutual Information (RUMI), a method for online generation of robot action sequences to gather information about the pose of a known movable object in visually-occluded environments. Focusing on contact-rich rummaging, our approach leverages mutual information between the object pose distribution and robot trajectory for action planning. From an observed partial point cloud, RUMI deduces the compatible object pose distribution and approximates the mutual information of it with workspace occupancy in real time. Based on this, we develop an information gain cost function and a reachability cost function to keep the object within the robot's reach. These are integrated into a model predictive control (MPC) framework with a stochastic dynamics model, updating the pose distribution in a closed loop. Key contributions include a new belief framework for object pose estimation, an efficient information gain computation strategy, and a robust MPC-based control scheme. RUMI demonstrates superior performance in both simulated and real tasks compared to baseline methods.
翻訳日:2024-08-21 17:33:21 公開日:2024-08-19
# Kubrick: 合成ビデオ生成のためのマルチモーダルエージェントコラボレーション

Kubrick: Multimodal Agent Collaborations for Synthetic Video Generation ( http://arxiv.org/abs/2408.10453v1 )

ライセンス: Link先を確認
Liu He, Yizhi Song, Hejun Huang, Daniel Aliaga, Xin Zhou, (参考訳) テキスト・ツー・ビデオ生成は、エンドツーエンドの拡散ベースまたは自己回帰モデルによって支配されている。 一方、これらの新しいモデルは、もっともらしい汎用性を提供するが、物理的正しさ、陰影と照明、カメラモーション、時間的一貫性で批判されている。 一方,映画産業は3Dモデリングソフトウェアを用いた手作業によるCGI(Computer-Generated Imagery)に頼っている。 人間の監督による3D合成ビデオとアニメーションは、前述の欠点に対処するが、非常に面倒であり、映画製作者と3Dレンダリングの専門家との密接なコラボレーションを必要としている。 本稿では,視覚大言語モデル(VLM)エージェントの協調に基づく自動合成ビデオ生成パイプラインを提案する。 ビデオの自然言語記述が与えられた後、複数のVLMエージェントが生成パイプラインの様々なプロセスを自動指揮する。 彼らはBlenderスクリプトの作成に協力し、与えられた記述に最も適したビデオをレンダリングする。 フィルム作成インスピレーションに基づき、Blenderベースの映画制作知識を付加し、インプットテキストベースの映像記述をサブプロセスに分解する。 サブプロセスごとに、Programmerエージェントは、カスタマイズされた関数の合成とAPI呼び出しに基づいて、PythonベースのBlenderスクリプトを生成する。 次に、映像レビュー、キャラクタ動作座標、中間スクリーンショットの知識を付加したレビューエージェントは、その構成推論能力を使用して、プログラマエージェントにフィードバックを提供する。 Programmerエージェントは、スクリプトを反復的に改善し、最高のビデオ結果を得る。 生成したビデオは、ビデオ品質と命令追従性能の5つの指標において、商用ビデオ生成モデルよりも優れた品質を示す。 さらに、我々のフレームワークは、品質、一貫性、合理性に関する包括的なユーザスタディにおいて、他のアプローチよりも優れています。

Text-to-video generation has been dominated by end-to-end diffusion-based or autoregressive models. On one hand, those novel models provide plausible versatility, but they are criticized for physical correctness, shading and illumination, camera motion, and temporal consistency. On the other hand, film industry relies on manually-edited Computer-Generated Imagery (CGI) using 3D modeling software. Human-directed 3D synthetic videos and animations address the aforementioned shortcomings, but it is extremely tedious and requires tight collaboration between movie makers and 3D rendering experts. In this paper, we introduce an automatic synthetic video generation pipeline based on Vision Large Language Model (VLM) agent collaborations. Given a natural language description of a video, multiple VLM agents auto-direct various processes of the generation pipeline. They cooperate to create Blender scripts which render a video that best aligns with the given description. Based on film making inspiration and augmented with Blender-based movie making knowledge, the Director agent decomposes the input text-based video description into sub-processes. For each sub-process, the Programmer agent produces Python-based Blender scripts based on customized function composing and API calling. Then, the Reviewer agent, augmented with knowledge of video reviewing, character motion coordinates, and intermediate screenshots uses its compositional reasoning ability to provide feedback to the Programmer agent. The Programmer agent iteratively improves the scripts to yield the best overall video outcome. Our generated videos show better quality than commercial video generation models in 5 metrics on video quality and instruction-following performance. Moreover, our framework outperforms other approaches in a comprehensive user study on quality, consistency, and rationality.
翻訳日:2024-08-21 17:33:21 公開日:2024-08-19
# IDEA:インダクション、推論、アブダクションによる言語エージェントのルール学習能力の向上

IDEA: Enhancing the rule learning ability of language agent through Induction, DEuction, and Abduction ( http://arxiv.org/abs/2408.10455v1 )

ライセンス: Link先を確認
Kaiyu He, Zhiyu Chen, (参考訳) 大規模言語モデル (LLM) は帰納的推論や帰納的推論において徹底的に評価されているが、帰納的推論の習熟度や対話型環境における全体論的ルール学習はいまだに研究されていない。 RULEARNは、インタラクティブな設定でLLMのルール学習能力を評価するために特別に設計された新しいベンチマークである。 RULEARNでは、エージェントが環境と対話して観察やパターンの識別を行い、これらの洞察を使って問題を解決する。 本ベンチマークでは, LLMエージェントの規則学習能力をさらに向上するため, 誘導, Deduction, Abductionプロセスを統合したIDEAエージェントを提案する。 IDEAエージェントは、構造的推論シーケンスを活用することでこのアプローチを洗練し、推論を通じて仮説を生成し、推論を介してそれらをテストし、誘導フィードバックに基づいてそれらを精査する。 このシーケンスにより、エージェントは人間のような推論プロセスを模倣して規則を動的に確立し、適用することができる。 5つの代表的なLCMを評価した結果,これらのモデルが妥当な初期仮説を生成できる一方で,環境内における戦略的相互作用,効果的なフィードバックの取り込み,仮説の適応的洗練に苦慮していることが示唆された。 IDEAエージェントはRULEARNベンチマークで大幅なパフォーマンス向上を示し、現実世界のシナリオで人間のようなルール学習が可能なエージェントを開発する上で貴重な洞察を提供する。 コードとデータを公開します。

While large language models (LLMs) have been thoroughly evaluated for deductive and inductive reasoning, their proficiency in abductive reasoning and holistic rule learning in interactive environments remains less explored. This work introduces RULEARN, a novel benchmark specifically designed to assess the rule-learning ability of LLMs in interactive settings. In RULEARN, agents interact with the environment to gather observations and discern patterns, using these insights to solve problems. To further enhance the rule-learning capabilities of LLM agents within this benchmark, we propose IDEA agent, which integrates Induction, Deduction, and Abduction processes. IDEA agent refines this approach by leveraging a structured reasoning sequence: generating hypotheses through abduction, testing them via deduction, and refining them based on induction feedback. This sequence enables agents to dynamically establish and apply rules, mimicking human-like reasoning processes. Our evaluation of five representative LLMs indicates that while these models can generate plausible initial hypotheses, they often struggle with strategic interaction within the environment, effective incorporation of feedback, and adaptive refinement of their hypotheses. IDEA agent demonstrates significantly improved performance on the RULEARN benchmark, offering valuable insights for the development of agents capable of human-like rule-learning in real-world scenarios. We will release our code and data.
翻訳日:2024-08-21 17:33:21 公開日:2024-08-19
# 固定サイズミニバッチによる個人性確率勾配の差:置換の有無にかかわらず厳密なRDP保証

Differentially Private Stochastic Gradient Descent with Fixed-Size Minibatches: Tighter RDP Guarantees with or without Replacement ( http://arxiv.org/abs/2408.10456v1 )

ライセンス: Link先を確認
Jeremiah Birrell, Reza Ebrahimi, Rouzbeh Behnia, Jason Pacheco, (参考訳) 個人的確率勾配降下(DP-SGD)は、訓練中に生じるプライバシー損失を制御・追跡するフレームワークを提供することで、ディープラーニングモデルのプライベートトレーニングに役立っている。 この計算の核心は、付加雑音によるプライバシー保証を強化するために、プライバシー増幅補題を使用するサブサンプリング手法である。 固定サイズのサブサンプリングは、Poissonサブサンプリングの可変サイズのミニバッチとは異なり、メモリ使用量の一定をアピールしている。 また、授業の不均衡や連合学習にも関心がある。 しかし、固定サイズのサブサンプリングに対する現在の計算可能な保証は厳密ではなく、追加/削除と置き換えの隣接関係の両方を考慮していない。 本稿では, DP-SGD に対して, 置換のない固定サイズサブサンプリング (FSwoR) と置換 (FSwR) を併用した新しい総合的R{\'e}nyi差分プライバシ (RDP) カウンタを提案する。 FSwoRでは、adjacencyの追加/削除と置換を両方検討しています。 FSwoRの結果は、最高の計算可能バウンダリを4ドルで改善します。 また、広く使われているPoissonサブサンプリングとFSwoRが、代替の1つの隣接性を持つことが、サンプリング確率の上位に同じプライバシを持つことを示す。 したがって,FSwoR はメモリ使用量が一定であることから,Poisson サブサンプリングに好適であることが示唆された。 我々のFSwR会計士は、明示的な非漸近的上層境界と下層境界を含んでおり、著者の知識では、DP-SGDを置き換えた固定サイズRDPの最初の分析である。 我々は,固定サイズとポアソンサブサンプリングを解析的に,実証的に比較し,固定サイズサブサンプリングシステムにおけるDP-SGD勾配が,メモリ使用率に加えて,実際に低いばらつきを示すことを示す。

Differentially private stochastic gradient descent (DP-SGD) has been instrumental in privately training deep learning models by providing a framework to control and track the privacy loss incurred during training. At the core of this computation lies a subsampling method that uses a privacy amplification lemma to enhance the privacy guarantees provided by the additive noise. Fixed size subsampling is appealing for its constant memory usage, unlike the variable sized minibatches in Poisson subsampling. It is also of interest in addressing class imbalance and federated learning. However, the current computable guarantees for fixed-size subsampling are not tight and do not consider both add/remove and replace-one adjacency relationships. We present a new and holistic R{\'e}nyi differential privacy (RDP) accountant for DP-SGD with fixed-size subsampling without replacement (FSwoR) and with replacement (FSwR). For FSwoR we consider both add/remove and replace-one adjacency. Our FSwoR results improves on the best current computable bound by a factor of $4$. We also show for the first time that the widely-used Poisson subsampling and FSwoR with replace-one adjacency have the same privacy to leading order in the sampling probability. Accordingly, our work suggests that FSwoR is often preferable to Poisson subsampling due to constant memory usage. Our FSwR accountant includes explicit non-asymptotic upper and lower bounds and, to the authors' knowledge, is the first such analysis of fixed-size RDP with replacement for DP-SGD. We analytically and empirically compare fixed size and Poisson subsampling, and show that DP-SGD gradients in a fixed-size subsampling regime exhibit lower variance in practice in addition to memory usage benefits.
翻訳日:2024-08-21 17:33:21 公開日:2024-08-19
# 脳波によるパーキンソン病の分類

Parkinson's Disease Classification via EEG: All You Need is a Single Convolutional Layer ( http://arxiv.org/abs/2408.10457v1 )

ライセンス: Link先を確認
Md Fahim Anjum, (参考訳) 本稿では,脳波データを用いたパーキンソン病(PD)分類のための最小限の畳み込みニューラルネットワーク(CNN)アーキテクチャであるLightCNNを紹介する。 LightCNNの強みはシンプルさにある。 レナード・ダ・ヴィンチの「シンプルさは究極的な洗練」という原則を取り入れたLightCNNは、卓越した結果を達成するには複雑さは必要ないことを示した。 我々は、脳波に基づくPD分類の有効性で知られているいくつかの最先端のディープラーニングモデルに対してLightCNNをベンチマークした。 注目すべきことに、LightCNNはこれらの複雑なアーキテクチャ全てを上回り、2.3%のリコール改善、4.6%の精度向上、AUCの0.1%のエッジ、4%のF1スコア、そして3.3%の精度で比較した。 さらに、LightCNNはPDに関連する既知の病理脳リズムを認識し、臨床的に関連する脳波の神経生理学的変化を効果的に捉えている。 そのシンプルさと解釈性は、EEG分析のためのモバイルや組み込みシステムのようなリソース制約のある環境にデプロイするのに理想的です。 結論として、LightCNNは、より複雑なアーキテクチャよりも優れたパフォーマンスを実現するために、効率的なEEGベースのPD分類において、大きな一歩を踏み出している。 この研究は、特にリソースが限られている現代医療アプリケーションのニーズを満たすミニマリストモデルの可能性を強調している。

In this work, we introduce LightCNN, a minimalist Convolutional Neural Network (CNN) architecture designed for Parkinson's disease (PD) classification using EEG data. LightCNN's strength lies in its simplicity, utilizing just a single convolutional layer. Embracing Leonardo da Vinci's principle that "simplicity is the ultimate sophistication," LightCNN demonstrates that complexity is not required to achieve outstanding results. We benchmarked LightCNN against several state-of-the-art deep learning models known for their effectiveness in EEG-based PD classification. Remarkably, LightCNN outperformed all these complex architectures, with a 2.3% improvement in recall, a 4.6% increase in precision, a 0.1% edge in AUC, a 4% boost in F1-score, and a 3.3% higher accuracy compared to the closest competitor. Furthermore, LightCNN identifies known pathological brain rhythms associated with PD and effectively captures clinically relevant neurophysiological changes in EEG. Its simplicity and interpretability make it ideal for deployment in resource-constrained environments, such as mobile or embedded systems for EEG analysis. In conclusion, LightCNN represents a significant step forward in efficient EEG-based PD classification, demonstrating that a well-designed, lightweight model can achieve superior performance over more complex architectures. This work underscores the potential for minimalist models to meet the needs of modern healthcare applications, particularly where resources are limited.
翻訳日:2024-08-21 17:33:21 公開日:2024-08-19
# DELIA:大規模言語モデルにおける命令適応のための多様性向上学習

DELIA: Diversity-Enhanced Learning for Instruction Adaptation in Large Language Models ( http://arxiv.org/abs/2408.10841v1 )

ライセンス: Link先を確認
Yuanhao Zeng, Fei Ren, Xinpeng Zhou, Yihang Wang, Yingxia Shao, (参考訳) インストラクションチューニングは大規模言語モデル(LLM)の振る舞いの調整に広く用いられているが、広範な実証的な証拠と研究は、モデルが新しい知識や能力を得るよりも、主に特定のタスク形式に適合するプロセスであることを示している。 この制限は、命令チューニング中に学習した偏りのある特徴に起因しており、これは理想的なタスク-特殊特徴とは異なるものであり、下流タスクにおける基礎となる意味学の学習に繋がる。 しかし、理想的な機能は未知であり、計算不可能であり、過去の作業は推論やトレーニングを支援するために事前の知識に頼ることを制約しており、データ駆動のスケーラブルな学習ではなく、LLMの能力を開発者の能力に制限している。 本稿では,新たなデータ合成手法であるDELIA(Diversity-Enhanced Learning for Instruction Adaptation)を用いて,LLM訓練における多種多様なデータのバッファリング効果を活用し,命令チューニングにおけるバイアスのある特徴を,事前の理想的特徴を明示せずに理想的な特徴の近似に変換する。 実験では、一般的な命令チューニングや他のベースラインと比較して、DELIAの性能が向上した。 17.07%-33.41%でアイスランド語と英語の翻訳用ブレントスコア(WMT-21データセット、gemma-7b-it)を上回り、フォーマットされたテキスト生成(Llama2-7b-chat)で36.1%の精度向上を実現している。 特に、私たちが知っている知識注入手法の中で、DELIAは、新しい特別なトークンの内部表現とそれらの以前のセマンティクスを一意に一致させます。

Although instruction tuning is widely used to adjust behavior in Large Language Models (LLMs), extensive empirical evidence and research indicates that it is primarily a process where the model fits to specific task formats, rather than acquiring new knowledge or capabilities. We propose that this limitation stems from biased features learned during instruction tuning, which differ from ideal task-specfic features, leading to learn less underlying semantics in downstream tasks. However, ideal features are unknown and incalculable, constraining past work to rely on prior knowledge to assist reasoning or training, which limits LLMs' capabilities to the developers' abilities, rather than data-driven scalable learning. In our paper, through our novel data synthesis method, DELIA (Diversity-Enhanced Learning for Instruction Adaptation), we leverage the buffering effect of extensive diverse data in LLMs training to transform biased features in instruction tuning into approximations of ideal features, without explicit prior ideal features. Experiments show DELIA's better performance compared to common instruction tuning and other baselines. It outperforms common instruction tuning by 17.07%-33.41% on Icelandic-English translation bleurt score (WMT-21 dataset, gemma-7b-it) and improves accuracy by 36.1% on formatted text generation (Llama2-7b-chat). Notably, among knowledge injection methods we've known, DELIA uniquely align the internal representations of new special tokens with their prior semantics.
翻訳日:2024-08-21 13:35:12 公開日:2024-08-19
# 大規模教師モデルによるリアルタイムセグメンテーションによるUAVの山火事検出

Detecting Wildfires on UAVs with Real-time Segmentation Trained by Larger Teacher Models ( http://arxiv.org/abs/2408.10843v1 )

ライセンス: Link先を確認
Julius Pesonen, Teemu Hakala, Väinö Karjalainen, Niko Koivumäki, Lauri Markelin, Anna-Maria Raita-Hakola, Juha Suomalainen, Ilkka Pölönen, Eija Honkavaara, (参考訳) 森林火災の早期発見は、大規模な火災が大規模な環境、構造、社会的な被害をもたらすのを防ぐために不可欠である。 無人航空機(UAV)は、インフラを最小限にし、小さなカメラとコンピュータを装備することで、自律的なリアルタイム検出を可能にする。 しかし、遠隔地では、高帯域幅のモバイルネットワークが欠如しているため、UAVは検出のためのオンボードコンピューティングに限られている。 これにより、検出はオンボードコンピュータだけで十分軽量な方法に制限される。 検出した煙のセグメンテーションは,カメラによる正確な位置決めには不可欠であるが,深層学習に基づく山火事セグメンテーションのトレーニングデータは限られている。 本研究は、ゼロショット基礎モデル監督を利用して、境界ボックスラベルのみを用いて、小さなセグメンテーションモデルをトレーニングする方法を示す。 この方法は、比較的容易に入手可能なバウンディングボックスラベルしか必要とせず、より小さな学生ネットワークのためにのみトレーニングを必要とするという利点を提供する。 提案手法は手動で注釈付き多様な山火事データセットで63.3% mIoUを達成した。 使用済みモデルは、UAV搭載のNVIDIA Jetson Orin NXコンピュータで、実世界の森林火災で実証された煙を確実に認識しながら、リアルタイムで約11fpsで実行することができる。 コードはhttps://gitlab.com/fgi_nls/public/wildfire-real-time-segmentationで入手できる。

Early detection of wildfires is essential to prevent large-scale fires resulting in extensive environmental, structural, and societal damage. Uncrewed aerial vehicles (UAVs) can cover large remote areas effectively with quick deployment requiring minimal infrastructure and equipping them with small cameras and computers enables autonomous real-time detection. In remote areas, however, the UAVs are limited to on-board computing for detection due to the lack of high-bandwidth mobile networks. This limits the detection to methods which are light enough for the on-board computer alone. For accurate camera-based localisation, segmentation of the detected smoke is essential but training data for deep learning-based wildfire smoke segmentation is limited. This study shows how small specialised segmentation models can be trained using only bounding box labels, leveraging zero-shot foundation model supervision. The method offers the advantages of needing only fairly easily obtainable bounding box labels and requiring training solely for the smaller student network. The proposed method achieved 63.3% mIoU on a manually annotated and diverse wildfire dataset. The used model can perform in real-time at ~11 fps with a UAV-carried NVIDIA Jetson Orin NX computer while reliably recognising smoke, demonstrated at real-world forest burning events. Code is available at https://gitlab.com/fgi_nls/public/wildfire-real-time-segmentation
翻訳日:2024-08-21 13:35:12 公開日:2024-08-19
# CoVLA: 自律運転のための包括的ビジョンランゲージ・アクションデータセット

CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving ( http://arxiv.org/abs/2408.10845v1 )

ライセンス: Link先を確認
Hidehisa Arai, Keita Miwa, Kento Sasaki, Yu Yamaguchi, Kohei Watanabe, Shunsuke Aoki, Issei Yamamoto, (参考訳) 自律運転、特に複雑な予測外のシナリオをナビゲートするためには、高度な推論と計画能力が必要である。 MLLM(Multi-modal Large Language Models)は将来性のある方法を提供しているが、それらの用途は複雑な環境状況を理解したり、高レベルの駆動コマンドを生成することに限定されている。 主要な研究ボトルネックは、視覚、言語、アクションを含む大規模な注釈付きデータセットの欠如である。 この問題に対処するために,80時間以上の実世界の運転映像からなる広範囲なデータセットであるCoVLA(Comprehensive Vision-Language-Action)データセットを提案する。 このデータセットは、自動データ処理とキャプション生成パイプラインに基づく、新しいスケーラブルなアプローチを活用して、運転環境と操作に関する詳細な自然言語記述と組み合わせた正確な運転軌跡を生成する。 このアプローチでは、生の車載センサーデータを利用することで、既存のデータセットをスケールとアノテーションの豊かさで超えることができる。 CoVLAを用いて,様々な運転シナリオにおける視覚,言語,行動を処理するMLLMの駆動能力について検討する。 本研究は,自律運転の分野でのビジョン・ランゲージ・アクション(VLA)モデルの可能性を強調し,コヒーレント言語と行動出力の生成におけるモデルの有効性を示す。 このデータセットは、VLAモデルをトレーニングし評価するための包括的なプラットフォームを提供することで、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立し、より安全で信頼性の高い自動運転車に寄与する。 データセットは学術目的のためにリリースされている。

Autonomous driving, particularly navigating complex and unanticipated scenarios, demands sophisticated reasoning and planning capabilities. While Multi-modal Large Language Models (MLLMs) offer a promising avenue for this, their use has been largely confined to understanding complex environmental contexts or generating high-level driving commands, with few studies extending their application to end-to-end path planning. A major research bottleneck is the lack of large-scale annotated datasets encompassing vision, language, and action. To address this issue, we propose CoVLA (Comprehensive Vision-Language-Action) Dataset, an extensive dataset comprising real-world driving videos spanning more than 80 hours. This dataset leverages a novel, scalable approach based on automated data processing and a caption generation pipeline to generate accurate driving trajectories paired with detailed natural language descriptions of driving environments and maneuvers. This approach utilizes raw in-vehicle sensor data, allowing it to surpass existing datasets in scale and annotation richness. Using CoVLA, we investigate the driving capabilities of MLLMs that can handle vision, language, and action in a variety of driving scenarios. Our results illustrate the strong proficiency of our model in generating coherent language and action outputs, emphasizing the potential of Vision-Language-Action (VLA) models in the field of autonomous driving. This dataset establishes a framework for robust, interpretable, and data-driven autonomous driving systems by providing a comprehensive platform for training and evaluating VLA models, contributing to safer and more reliable self-driving vehicles. The dataset is released for academic purpose.
翻訳日:2024-08-21 13:35:12 公開日:2024-08-19
# 調和注意:トレーニング不要なテクスチャ認識幾何移動

Harmonizing Attention: Training-free Texture-aware Geometry Transfer ( http://arxiv.org/abs/2408.10846v1 )

ライセンス: Link先を確認
Eito Ikuta, Yohan Lee, Akihiro Iohara, Yu Saito, Toshiyuki Tanaka, (参考訳) 表面テクスチャとは無関係に写真画像から幾何学的特徴を抽出し、異なる材料に転写することは難しい課題である。 本研究では,テクスチャ・アウェア・ジオメトリ・トランスファーに拡散モデルを活用する新しいトレーニングフリーアプローチであるHarmonizing Attentionを紹介する。 提案手法では,複数の参照画像から,モデルが複数の参照画像から情報を検索できるように,自己注意層を簡易かつ効果的に修正する。 この機構はテクスチャ調整注意として変換プロセスにシームレスに統合され、ジオメトリ調整注意として生成プロセスに統合される。 このデュアルアテンションアプローチは、物質固有のテクスチャ連続性を保ちながら、物質非依存の幾何学的特徴を効果的に捕捉し、伝達することを保証する。

Extracting geometry features from photographic images independently of surface texture and transferring them onto different materials remains a complex challenge. In this study, we introduce Harmonizing Attention, a novel training-free approach that leverages diffusion models for texture-aware geometry transfer. Our method employs a simple yet effective modification of self-attention layers, allowing the model to query information from multiple reference images within these layers. This mechanism is seamlessly integrated into the inversion process as Texture-aligning Attention and into the generation process as Geometry-aligning Attention. This dual-attention approach ensures the effective capture and transfer of material-independent geometry features while maintaining material-specific textural continuity, all without the need for model fine-tuning.
翻訳日:2024-08-21 13:25:13 公開日:2024-08-19
# 両世界のベスト:並列における実用的かつ理論的に最適な部分モジュラー最大化

Best of Both Worlds: Practical and Theoretically Optimal Submodular Maximization in Parallel ( http://arxiv.org/abs/2111.07917v3 )

ライセンス: Link先を確認
Yixin Chen, Tonmoy Dey, Alan Kuhnle, (参考訳) 単調で部分モジュラーな関数を大きさの基底集合上の濃度制約$k$で最大化する問題に対して、我々は、その経験的性能と理論的性質の両方において、適応的複雑性、クエリの複雑性、近似比の両面において最先端を達成するアルゴリズムを提供し、高い確率で、クエリの複雑さが$O(n)$の期待値、$O(\log(n))$の適応率、および近似比が$1-1/e$である。 主アルゴリズムは、独立した関心を持つ可能性のある2つのコンポーネントから組み立てられる。 提案アルゴリズムの最初のコンポーネントであるLINEARSEQは,多くのアルゴリズムのクエリ複雑性を改善するための前処理アルゴリズムとして有用である。 さらに、LINEARSEQの変種は、文献のいかなる以前のアルゴリズムよりも小さい$O( \log (n / k) )$の適応的な複雑性を持つことが示されている。 第2の構成要素は、一定の閾値を超える利得の要素を追加するための並列化可能なしきい値設定手順THRESHOLDSEQである。 最後に,本アルゴリズムは実行時,適応ラウンド,全問合せ,目的値において,従来の最先端アルゴリズムであるFASTを6つのサブモジュラー目的関数で総合的に評価した場合に,経験的に優れていることを示す。

For the problem of maximizing a monotone, submodular function with respect to a cardinality constraint $k$ on a ground set of size $n$, we provide an algorithm that achieves the state-of-the-art in both its empirical performance and its theoretical properties, in terms of adaptive complexity, query complexity, and approximation ratio; that is, it obtains, with high probability, query complexity of $O(n)$ in expectation, adaptivity of $O(\log(n))$, and approximation ratio of nearly $1-1/e$. The main algorithm is assembled from two components which may be of independent interest. The first component of our algorithm, LINEARSEQ, is useful as a preprocessing algorithm to improve the query complexity of many algorithms. Moreover, a variant of LINEARSEQ is shown to have adaptive complexity of $O( \log (n / k) )$ which is smaller than that of any previous algorithm in the literature. The second component is a parallelizable thresholding procedure THRESHOLDSEQ for adding elements with gain above a constant threshold. Finally, we demonstrate that our main algorithm empirically outperforms, in terms of runtime, adaptive rounds, total queries, and objective values, the previous state-of-the-art algorithm FAST in a comprehensive evaluation with six submodular objective functions.
翻訳日:2024-08-21 06:51:56 公開日:2024-08-19
# 摂動と戦う摂動--ニューロンによる敵の攻撃を抑える

Fight Perturbations with Perturbations: Defending Adversarial Attacks via Neuron Influence ( http://arxiv.org/abs/2112.13060v3 )

ライセンス: Link先を確認
Ruoxi Chen, Haibo Jin, Haibin Zheng, Jinyin Chen, Zhenguang Liu, (参考訳) 敵対的攻撃に対するディープラーニングモデルの脆弱性は、特にセキュリティクリティカルなドメインにモデルがデプロイされる場合、注目を集めている。 モデルロバスト性向上のために, 反応性およびプロアクティブ性を含む多数の防御法が提案されている。 摂動を取り除くための変換を行うような反応的な防御は、通常、大きな摂動を扱うのに失敗する。 再訓練を含む積極的な防御は、攻撃依存性と高い計算コストに悩まされる。 本稿では、モデル内のニューロンを攻撃する敵攻撃の一般的な効果から防御方法を検討する。 本稿では、ニューロンの正しい分類への貢献を定量的に測定できるニューロン影響の概念を紹介する。 そして、ほとんど全ての攻撃が、より大きな影響でニューロンを抑圧し、より少ない影響でニューロンを増強することでモデルを騙すことを観察する。 そこで本研究では, 一般敵攻撃に対する新たな防御策である, ネウロンレベルの逆摂動(NIP)を提案する。 良性の例からニューロンの影響を計算し、逆摂動を生成して入力例を修正し、より大きな影響でニューロンを強化し、より少ない影響でニューロンを弱める。

The vulnerabilities of deep learning models towards adversarial attacks have attracted increasing attention, especially when models are deployed in security-critical domains. Numerous defense methods, including reactive and proactive ones, have been proposed for model robustness improvement. Reactive defenses, such as conducting transformations to remove perturbations, usually fail to handle large perturbations. The proactive defenses that involve retraining, suffer from the attack dependency and high computation cost. In this paper, we consider defense methods from the general effect of adversarial attacks that take on neurons inside the model. We introduce the concept of neuron influence, which can quantitatively measure neurons' contribution to correct classification. Then, we observe that almost all attacks fool the model by suppressing neurons with larger influence and enhancing those with smaller influence. Based on this, we propose \emph{Neuron-level Inverse Perturbation} (NIP), a novel defense against general adversarial attacks. It calculates neuron influence from benign examples and then modifies input examples by generating inverse perturbations that can in turn strengthen neurons with larger influence and weaken those with smaller influence.
翻訳日:2024-08-21 06:51:56 公開日:2024-08-19
# アクシオン暗黒物質探索のための量子二重パス干渉法

Quantum dual-path interferometry scheme for axion dark matter searches ( http://arxiv.org/abs/2201.08291v5 )

ライセンス: Link先を確認
Qiaoli Yang, Yu Gao, Zhihui Peng, (参考訳) 神秘的な暗黒物質を探索することは、現代物理学における重要な探求である。 現在、ダークマターの主成分として提唱された仮説粒子であるアクシオンの検出は、弱い相互作用の性質のため重要な課題である。 ここでは、磁場によって透過されたキャビティにおいて、単一の軸-光子変換速度はキャビティの品質係数によって向上し、古典的な結果よりも$\pi/2$で定量的に大きいことを示す。 アクシオンキャビティは、時間的分離を持つ単一光子を放出する量子デバイスと見なすことができる。 これは古典的な図と異なり、アクシオンキャビティ実験が量子レベルでの信号感度を扱う可能性を明らかにしている。 このスキームは、信号走査時間を大幅に短縮し、軸イオン-光子カップリングの感度を向上し、おそらくは軸イオンの直接観察に繋がる。

Exploring the mysterious dark matter is a key quest in modern physics. Currently, detecting axions, a hypothetical particle proposed as a primary component of dark matter, remains a significant challenge due to their weakly interacting nature. Here we show at quantum level that in a cavity permeated by a magnetic field, the single axion-photon conversion rate is enhanced by the cavity quality factor and is quantitatively larger than the classical result by $\pi/2$. The axion cavity can be considered a quantum device emitting single photons with temporal separations. This differs from the classical picture and reveals a possibility for the axion cavity experiment to handle the signal sensitivity at the quantum level, e.g., a dual path quantum interferometry with cross-power and second-order correlation measurements. This scheme would greatly reduce the signal scanning time and improve the sensitivity of the axion-photon coupling, potentially leading to the direct observation of axions.
翻訳日:2024-08-21 06:51:56 公開日:2024-08-19
# 非断熱遷移に対するMajoranaのアプローチは、断熱・インパルス近似を検証する

Majorana's approach to nonadiabatic transitions validates the adiabatic-impulse approximation ( http://arxiv.org/abs/2208.00481v3 )

ライセンス: Link先を確認
Polina O. Kofman, Oleh V. Ivakhnenko, Sergey N. Shevchenko, Franco Nori, (参考訳) Ettore Majoranaの2つの準交叉準位間の非断熱遷移に対するアプローチを再考する。 我々は、ランダウ・ツェナー=シュトウ(Landau-Zener-St\"{u}ckelberg-Majorana)公式と呼ばれる遷移確率を再定義し、マヨアナのアプローチを現代の読者に導入する。 この結果は通常ランダウ・ツェナーの公式と呼ばれ、マヨラナがランダウ・ツェナー・シュトゥウッケルベルクに先立って公表した。 さらに,近年,量子制御や量子情報にとって重要な位相を含む全波関数を得る。 漸近波動関数は回避レベル交叉から遠く離れたダイナミクスを正しく記述するが、その領域では精度は限られている。

The approach by Ettore Majorana for non-adiabatic transitions between two quasi-crossing levels is revisited. We rederive the transition probability, known as the Landau-Zener-St\"{u}ckelberg-Majorana formula, and introduce Majorana's approach to modern readers. This result typically referred as the Landau-Zener formula, was published by Majorana before Landau, Zener, St\"{u}ckelberg. Moreover, we obtain the full wave function, including its phase, which is important nowadays for quantum control and quantum information. The asymptotic wave function correctly describes dynamics far from the avoided-level crossing, while it has limited accuracy in that region.
翻訳日:2024-08-21 06:43:37 公開日:2024-08-19
# シームズ畳み込みニューラルネットワークと半教師付き学習による量子絡み合いの同定

Identification of quantum entanglement with Siamese convolutional neural networks and semi-supervised learning ( http://arxiv.org/abs/2210.07410v5 )

ライセンス: Link先を確認
Jarosław Pawłowski, Mateusz Krawczyk, (参考訳) 量子絡み合いは、様々な量子情報プロトコルやアルゴリズムで一般的に使用される基本的な性質である。 それでも、絡み目を特定するという問題は、まだ2ドル以上のシステムに対する一般的な解決策には達していない。 本研究では、教師付き機械学習の一種であるディープ畳み込みNNを用いて、3量子系における任意の二分割の量子絡みを同定する。 本研究では, 学習データ外であるPTES状態においても, 一般に識別できない(かつ正確なラベル付けができない)挑戦的正転位絡み状態(PPTES)を除く, ランダム密度行列の合成データセット上でモデルをトレーニングすることが, モデル精度の向上につながることを実証した。 我々の目標は、PTESにおけるモデルの一般化を強化することである。 半教師付きで訓練された3つのシームズネットワークを通した絡み合い保存対称性演算を適用することにより、PTPSの精度と認識能力を向上させる。 さらに、シームズモデルのアンサンブルを構築することで、異なる種類の状態に対する異なるタイプの絡み合いの証人を見つけるというアイデアと類似して、より優れた一般化が観察される。

Quantum entanglement is a fundamental property commonly used in various quantum information protocols and algorithms. Nonetheless, the problem of identifying entanglement has still not reached a general solution for systems larger than $2\times3$. In this study, we use deep convolutional NNs, a type of supervised machine learning, to identify quantum entanglement for any bipartition in a 3-qubit system. We demonstrate that training the model on synthetically generated datasets of random density matrices excluding challenging positive-under-partial-transposition entangled states (PPTES), which cannot be identified (and correctly labeled) in general, leads to good model accuracy even for PPTES states, that were outside the training data. Our aim is to enhance the model's generalization on PPTES. By applying entanglement-preserving symmetry operations through a triple Siamese network trained in a semi-supervised manner, we improve the model's accuracy and ability to recognize PPTES. Moreover, by constructing an ensemble of Siamese models, even better generalization is observed, in analogy with the idea of finding separate types of entanglement witnesses for different classes of states.
翻訳日:2024-08-21 06:43:37 公開日:2024-08-19
# デルタ井を有するリング上の粒子の量子力学的問題

The Quantum Mechanical Problem of a Particle on a Ring with Delta Well ( http://arxiv.org/abs/2211.16149v2 )

ライセンス: Link先を確認
Raphael J. F. Berger, (参考訳) 質量$m$、電荷$e$は半径$R_0$の環に閉じ込められ、スケーリング係数(深さ)$\kappa$を持つ魅力的なディラックデルタポテンシャルを持つスピンフリー電子の問題は、非相対論的理論において閉形式解析解である。 単有界状態関数は双曲コサインの形で、しかし、パラメータ $d>0$ は超越方程式 $\coth(d) = \lambda d$ for non zero real $\lambda=\frac{2}{\pi\kappa}$ の唯一の正の実解である。 境界状態 $\varepsilon=-\frac{d^2}{2\pi^2}\approx \frac{q e m R_0}{2 \hbar^2}$ のエネルギー固有値。 さらに、非有界な解の離散無限集合が存在し、これらの解は有界解の項から得られる: $d \to i d $ yielding $\cot(d) = \lambda d$ as characteristic equation with the corresponding set of solutions $d_k, k\in\mathbb{N}$, the each state function can be obtained with $\cosh(x)\overset{x \to i x}{\longrightarrow}\cos(x)$。

The problem of a spin-free electron with mass $m$, charge $e$ confined onto a ring of radius $R_0$ and with an attractive Dirac delta potential with scaling factor (depth) $\kappa$ in non-relativistic theory has closed form analytical solutions. The single bound state function is of the form of a hyperbolic cosine that however contains a parameter $d>0$ which is the single positive real solution of the transcendental equation $\coth(d) = \lambda d$ for non zero real $\lambda=\frac{2}{\pi\kappa}$. The energy eigenvalue of the bound state $\varepsilon=-\frac{d^2}{2\pi^2}\approx \frac{q e m R_0}{2 \hbar^2}$. In addition a discretly infinite set of unbounded solutions exists, formally these solutions are obtained from the terms for the bound solution by substituting $d \to i d $ yielding $\cot(d) = \lambda d$ as characteristic equation with the corresponding set of solutions $d_k, k\in\mathbb{N}$, the respective state functions can be obtained via $\cosh(x)\overset{x \to i x}{\longrightarrow}\cos(x)$.
翻訳日:2024-08-21 06:43:37 公開日:2024-08-19
# 脳波を用いた感情認識におけるクロスオブジェクトとクロスセッションの一般化に向けて:システムレビュー、分類学および方法

Toward cross-subject and cross-session generalization in EEG-based emotion recognition: Systematic review, taxonomy, and methods ( http://arxiv.org/abs/2212.08744v3 )

ライセンス: Link先を確認
Andrea Apicella, Pasquale Arpaia, Giovanni D'Errico, Davide Marocco, Giovanna Mastrati, Nicola Moccaldi, Roberto Prevete, (参考訳) 感情分類に基づく汎用性(クロスオブジェクトとクロスセッション)脳波(EEG)向上のための機械学習戦略の体系的検討を行った。 この文脈では、EEG信号の非定常性は重要な問題であり、データセットシフト問題につながる可能性がある。 この問題を解決するためにいくつかのアーキテクチャや手法が提案されている。 418の論文が,脳波に基づく感情評価の一般化を目的とした最新の機械学習技術に着目した検索クエリを通じて,スコパス,IEEE Xplore,PubMedデータベースから検索された。 これらの論文のうち75件は、その問題に対する関連性に基づいて検索された。 特定のクロスオブジェクトおよびクロスセッション検証戦略が欠如し、他のバイオシグナーを支援として活用する研究は除外された。 選択された論文の分析に基づいて,機械学習(ML)手法を用いた研究の分類法が提案され,関連するMLアプローチに関する簡単な議論が行われた。 平均分類精度で最高の結果を得た研究は, 伝達学習法が他の手法よりも優れていたことを裏付けるものである。 影響に関する議論がある i)感情理論モデルと感情理論モデル (II) 分類器の性能に関する実験試料の心理的スクリーニング。

A systematic review on machine-learning strategies for improving generalizability (cross-subjects and cross-sessions) electroencephalography (EEG) based in emotion classification was realized. In this context, the non-stationarity of EEG signals is a critical issue and can lead to the Dataset Shift problem. Several architectures and methods have been proposed to address this issue, mainly based on transfer learning methods. 418 papers were retrieved from the Scopus, IEEE Xplore and PubMed databases through a search query focusing on modern machine learning techniques for generalization in EEG-based emotion assessment. Among these papers, 75 were found eligible based on their relevance to the problem. Studies lacking a specific cross-subject and cross-session validation strategy and making use of other biosignals as support were excluded. On the basis of the selected papers' analysis, a taxonomy of the studies employing Machine Learning (ML) methods was proposed, together with a brief discussion on the different ML approaches involved. The studies with the best results in terms of average classification accuracy were identified, supporting that transfer learning methods seem to perform better than other approaches. A discussion is proposed on the impact of (i) the emotion theoretical models and (ii) psychological screening of the experimental sample on the classifier performances.
翻訳日:2024-08-21 06:43:37 公開日:2024-08-19
# 視認性のパッチ:物体検出器に対する自然主義的物理ブラックボックス攻撃

Patch of Invisibility: Naturalistic Physical Black-Box Adversarial Attacks on Object Detectors ( http://arxiv.org/abs/2303.04238v5 )

ライセンス: Link先を確認
Raz Lapid, Eylon Mizrahi, Moshe Sipper, (参考訳) 近年,ディープラーニングモデルに対する敵対的攻撃が注目されている。 この領域での作業は、主にグラデーションベースのテクニック、いわゆる"ホワイトボックス"攻撃に焦点を当てており、攻撃者はターゲットモデルの内部パラメータにアクセスすることができる。 一部の攻撃では、特定のモデルを騙すためにピクセル空間全体を使用するが、これは実用的でも物理的でもない(即ち実世界)。 これとは対照的に,本研究では,事前学習された生成逆数ネットワーク(GAN)の学習画像多様体を用いて,対象検出器の自然な物理的逆数パッチを生成する,直接的,ブラックボックスな勾配のない手法を提案する。 我々の知る限り、これはオブジェクト検出モデルに直接ブラックボックス物理攻撃を実行する最初の、かつ唯一の方法であり、結果としてモデルに依存しない攻撃となる。 提案手法はデジタルと物理の両方で動作することを示す。 我々は、異なる構成の4つの異なるブラックボックス攻撃に対して、我々のアプローチを比較した。 私たちのアプローチは、実験でテストされた他のアプローチよりも大きなマージンで優れています。

Adversarial attacks on deep-learning models have been receiving increased attention in recent years. Work in this area has mostly focused on gradient-based techniques, so-called "white-box" attacks, wherein the attacker has access to the targeted model's internal parameters; such an assumption is usually unrealistic in the real world. Some attacks additionally use the entire pixel space to fool a given model, which is neither practical nor physical (i.e., real-world). On the contrary, we propose herein a direct, black-box, gradient-free method that uses the learned image manifold of a pretrained generative adversarial network (GAN) to generate naturalistic physical adversarial patches for object detectors. To our knowledge this is the first and only method that performs black-box physical attacks directly on object-detection models, which results with a model-agnostic attack. We show that our proposed method works both digitally and physically. We compared our approach against four different black-box attacks with different configurations. Our approach outperformed all other approaches that were tested in our experiments by a large margin.
翻訳日:2024-08-21 04:48:49 公開日:2024-08-19
# EasyDGL: 継続的動的グラフ学習のためのエンコード、トレーニング、解釈

EasyDGL: Encode, Train and Interpret for Continuous-time Dynamic Graph Learning ( http://arxiv.org/abs/2303.12341v2 )

ライセンス: Link先を確認
Chao Chen, Haoyu Geng, Nianzu Yang, Xiaokang Yang, Junchi Yan, (参考訳) 動的グラフは様々な現実世界のアプリケーションで発生し、その柔軟性のために連続時間領域で直接動的をモデル化することがしばしば歓迎される。 本研究の目的は,DGL ツールキットによる実装による EasyDGL と呼ばれる使い勝手の良いパイプラインを設計することである。 具体的には、エンコーディング、トレーニング、解釈を含む提案されたパイプラインです。 一 エッジ付加イベントを伴う観測グラフの時空間的ダイナミックスを組み合わした連続時間分解を実現するための時間的点過程(TPP) 二 グラフ上の観測事象に基づくタスク非依存のTPP後最大化と、動的リンク予測、動的ノード分類、ノードトラフィック予測を含む動的グラフ上のマスキング戦略によるタスク対応損失とからなる原則的損失 三 グラフフーリエ領域において、スケーラブルな摂動に基づく定量的解析を行い、学習モデルの振舞いをより包括的に反映できるモデル出力(例えば、表現、予測)の解釈。 特に、モデルが進化するグラフデータから学習する周波数コンテンツの予測力を効果的に定量化できることを実証している。

Dynamic graphs arise in various real-world applications, and it is often welcomed to model the dynamics directly in continuous time domain for its flexibility. This paper aims to design an easy-to-use pipeline (termed as EasyDGL which is also due to its implementation by DGL toolkit) composed of three key modules with both strong fitting ability and interpretability. Specifically the proposed pipeline which involves encoding, training and interpreting: i) a temporal point process (TPP) modulated attention architecture to endow the continuous-time resolution with the coupled spatiotemporal dynamics of the observed graph with edge-addition events; ii) a principled loss composed of task-agnostic TPP posterior maximization based on observed events on the graph, and a task-aware loss with a masking strategy over dynamic graph, where the covered tasks include dynamic link prediction, dynamic node classification and node traffic forecasting; iii) interpretation of the model outputs (e.g., representations and predictions) with scalable perturbation-based quantitative analysis in the graph Fourier domain, which could more comprehensively reflect the behavior of the learned model. Extensive experimental results on public benchmarks show the superior performance of our EasyDGL for time-conditioned predictive tasks, and in particular demonstrate that EasyDGL can effectively quantify the predictive power of frequency content that a model learn from the evolving graph data.
翻訳日:2024-08-21 04:48:49 公開日:2024-08-19
# 講演とバッジ: GitHubにおける個人的成果の探索的分析

A Lot of Talk and a Badge: An Exploratory Analysis of Personal Achievements in GitHub ( http://arxiv.org/abs/2303.14702v4 )

ライセンス: Link先を確認
Fabio Calefato, Luigi Quaranta, Filippo Lanubile, (参考訳) コンテキスト。 GitHubは、個人的成果を通じて新たなゲーミフィケーション要素を導入し、バッジをアンロックし、開発者個人のプロフィールページに表示し、開発活動を認識した。 目的。 本稿では,GitHubにおける個人用バッジの拡散を研究するための混合手法を用いた探索分析と,導入に対する効果と反応について述べる。 方法。 まず,6,000人以上の開発者から経年データのマイニングを行い,相関解析と回帰解析を行った。 そして、新しい機能の導入に対してコミュニティがどう反応したかを評価するために、個人的なバッジに関する300以上のGitHubコミュニティの議論を分析し、分析します。 結果。 ほとんどの開発者は少なくともバッジをサンプルにしているが、プロフィールを非公開にし、バッジを表示することをオプトアウトするユーザーの増加も観察している。 加えて、バッジは概して開発者の品質とタイムラインやコラボレーションへの欲求といった配置と相関が低い。 また、Starstruckバッジ(フォロワーの数を反映している)を除いて、その導入には効果がないこともわかりました。 最後に、コミュニティの反応は一般的に混ざり合っており、開発者は原則的にアピールするが、明確な目的を持たず、現在の形での彼らの能力をほとんど反映していない。 結論。 私たちは、ゲーミフィケーションメカニズムと開発者の評価のための信頼性の高い能力の源として、個人バッジの現在の実装を改善する方法について、GitHubプラットフォームデザイナにレコメンデーションを提供しています。

Context. GitHub has introduced a new gamification element through personal achievements, whereby badges are unlocked and displayed on developers' personal profile pages in recognition of their development activities. Objective. In this paper, we present an exploratory analysis using mixed methods to study the diffusion of personal badges in GitHub, in addition to the effects and reactions to their introduction. Method. First, we conduct an observational study by mining longitudinal data from more than 6,000 developers and performed correlation and regression analysis. Then, we conduct a survey and analyze over 300 GitHub community discussions on the topic of personal badges to gauge how the community responded to the introduction of the new feature. Results. We find that most of the developers sampled own at least a badge, but we also observe an increasing number of users who choose to keep their profile private and opt out of displaying badges. Besides, badges are generally poorly correlated with developers' qualities and dispositions such as timeliness and desire to collaborate. We also find that, except for the Starstruck badge (reflecting the number of followers), their introduction does not have an effect. Finally, the reaction of the community has been in general mixed, as developers find them appealing in principle but without a clear purpose and hardly reflecting their abilities in the current form. Conclusions. We provide recommendations to GitHub platform designers on how to improve the current implementation of personal badges as both a gamification mechanism and as sources of reliable cues of ability for developers' assessment
翻訳日:2024-08-21 04:48:49 公開日:2024-08-19
# ProductAE: 大規模次元のディープラーニング駆動型エラー訂正コードを目指して

ProductAE: Toward Deep Learning Driven Error-Correction Codes of Large Dimensions ( http://arxiv.org/abs/2303.16424v2 )

ライセンス: Link先を確認
Mohammad Vahid Jamali, Hamid Saber, Homayoon Hatami, Jung Hyun Bae, (参考訳) 何十年にもわたって理論研究がいくつかのエラー訂正符号のクラスを考案してきたが、そのような符号の設計は極めて困難な作業であり、その大部分は人間の創造性によって進められている。 近年の研究では、このような設計を機械学習(ML)のツールで効果的に自動化し、高速化できることが実証されている。 しかし、基本的な課題は、ML駆動のエンコーダとデコーダのペアを大規模なコード次元で設計し、訓練することは、不可能ではないとしても、違法に複雑であることである。 本稿では,ディープラーニング駆動型(エンコーダ,デコーダ)ペアの計算効率が高い製品オートエンコーダ(ProductAE)を提案する。 我々は、古典的な製品コードからアイデアを構築し、より小さなコードコンポーネントを使って大きなニューラルコードを構築することを提案する。 ProductAEは、エンコーダとデコーダを、大きなコードディメンション$k$とブロック長$n$で訓練する複雑な問題を、より小さなディメンジョンとブロック長のためのトレーニングエンコーダとデコーダの、より複雑なサブプロブレムに導いてくれる。 我々のトレーニング結果は、最先端の古典的およびニューラルデザインと比較して、有意義な性能向上を伴う次元が$k = 300$bitsのProductAEsのトレーニングに成功したことを示している。 さらに,ProductAEsがトレーニングに使用するものとは異なるチャネルモデルに対して,優れた堅牢性と適応性を示す。

While decades of theoretical research have led to the invention of several classes of error-correction codes, the design of such codes is an extremely challenging task, mostly driven by human ingenuity. Recent studies demonstrate that such designs can be effectively automated and accelerated via tools from machine learning (ML), thus enabling ML-driven classes of error-correction codes with promising performance gains compared to classical designs. A fundamental challenge, however, is that it is prohibitively complex, if not impossible, to design and train fully ML-driven encoder and decoder pairs for large code dimensions. In this paper, we propose Product Autoencoder (ProductAE) -- a computationally-efficient family of deep learning driven (encoder, decoder) pairs -- aimed at enabling the training of relatively large codes (both encoder and decoder) with a manageable training complexity. We build upon ideas from classical product codes and propose constructing large neural codes using smaller code components. ProductAE boils down the complex problem of training the encoder and decoder for a large code dimension $k$ and blocklength $n$ to less-complex sub-problems of training encoders and decoders for smaller dimensions and blocklengths. Our training results show successful training of ProductAEs of dimensions as large as $k = 300$ bits with meaningful performance gains compared to state-of-the-art classical and neural designs. Moreover, we demonstrate excellent robustness and adaptivity of ProductAEs to channel models different than the ones used for training.
翻訳日:2024-08-21 04:48:49 公開日:2024-08-19
# 継続的最適化による構造学習の展望

Structure Learning with Continuous Optimization: A Sober Look and Beyond ( http://arxiv.org/abs/2304.02146v2 )

ライセンス: Link先を確認
Ignavier Ng, Biwei Huang, Kun Zhang, (参考訳) 本稿では,有向非巡回グラフ(DAG)構造学習を連続的に最適化する手法を提案する。 Reisach et al (2021) は、いくつかの連続構造学習手法の顕著な性能は、主に境界分散の増加順序とトポロジ的順序の間の高い一致によって引き起こされ、これらの手法がデータの標準化後にうまく機能しないことを示した。 我々は、この現象を、等値なノイズ分散と非等値なノイズ分散を仮定した連続的アプローチで解析し、その文がいずれの場合も、逆例、正当性、代替的な説明を提供することによって成り立たないことを示す。 さらに、非凸性は、特に非等質ノイズ分散の定式化において主要な関心事であるが、近年の継続的構造学習の進歩は、この場合改善に至らなかった。 本研究は, より一般的な設定やより包括的な経験的評価のために, 不等なノイズ分散の定式化を考慮し, 今後の課題を考察するものであることを示唆する。 最後に,サーチプロシージャの他の側面について,しきい値や疎度などの知見を提供し,最終ソリューションにおいてそれらが重要な役割を担っていることを示す。

This paper investigates in which cases continuous optimization for directed acyclic graph (DAG) structure learning can and cannot perform well and why this happens, and suggests possible directions to make the search procedure more reliable. Reisach et al. (2021) suggested that the remarkable performance of several continuous structure learning approaches is primarily driven by a high agreement between the order of increasing marginal variances and the topological order, and demonstrated that these approaches do not perform well after data standardization. We analyze this phenomenon for continuous approaches assuming equal and non-equal noise variances, and show that the statement may not hold in either case by providing counterexamples, justifications, and possible alternative explanations. We further demonstrate that nonconvexity may be a main concern especially for the non-equal noise variances formulation, while recent advances in continuous structure learning fail to achieve improvement in this case. Our findings suggest that future works should take into account the non-equal noise variances formulation to handle more general settings and for a more comprehensive empirical evaluation. Lastly, we provide insights into other aspects of the search procedure, including thresholding and sparsity, and show that they play an important role in the final solutions.
翻訳日:2024-08-21 04:48:49 公開日:2024-08-19
# バイアスノイズ量子ビットに対するスケーラブルノイズ量子回路

Scalable noisy quantum circuits for biased-noise qubits ( http://arxiv.org/abs/2305.02045v5 )

ライセンス: Link先を確認
Marco Fellous-Asiani, Moein Naseri, Chandan Datta, Alexander Streltsov, Michał Oszmaniec, (参考訳) 本研究では,安定猫量子ビットの既存システムに動機づけられたビットフリップ誤差のみに影響されるバイアスノイズ量子ビットについて考察する。 この特性により、エンタングリングと特定の非クリフォードゲートを含むノイズの多いアダマールテストのクラスを設計でき、アルゴリズムの繰り返しにおいて多項式オーバーヘッドのみを確実に行うことができる。 逆に、古典的なアルゴリズムは、特定のHadamardテストのノイズとノイズのないバージョンの両方を効率的にシミュレートできることがわかった。 本稿では,これらのアルゴリズムを大規模回路における雑音のバイアスの単純なベンチマークとして用いることを提案する。 完全な計算タスクでチェックされるバイアスにより、ベンチマークはクロストークや時間関連のエラーに敏感になり、通常は個々のゲートトモグラフィーからは見えない。 現実的なノイズモデルでは、位相フリップは無視できないが、Pauli-Twirling近似では、最大10^6$ゲートを含む回路の正しさを確認することができる。 我々のベンチマークは、パウリモデル以外の任意のノイズバイアスに適用できる。

In this work, we consider biased-noise qubits affected only by bit-flip errors, which is motivated by existing systems of stabilized cat qubits. This property allows us to design a class of noisy Hadamard-tests involving entangling and certain non-Clifford gates, which can be conducted reliably with only a polynomial overhead in algorithm repetitions. On the flip side we also found classical algorithms able to efficiently simulate both the noisy and noiseless versions of our specific variants of Hadamard test. We propose to use these algorithms as a simple benchmark of the biasness of the noise at the scale of large circuits. The bias being checked on a full computational task, it makes our benchmark sensitive to crosstalk or time-correlated errors, which are usually invisible from individual gate tomography. For realistic noise models, phase-flip will not be negligible, but in the Pauli-Twirling approximation, we show that our benchmark could check the correctness of circuits containing up to $10^6$ gates, several orders of magnitudes larger than circuits not exploiting a noise-bias. Our benchmark is applicable for an arbitrary noise-bias, beyond Pauli models.
翻訳日:2024-08-21 04:48:49 公開日:2024-08-19
# GradTree: 勾配の未熟な軸方向決定木を学習する

GradTree: Learning Axis-Aligned Decision Trees with Gradient Descent ( http://arxiv.org/abs/2305.03515v7 )

ライセンス: Link先を確認
Sascha Marton, Stefan Lüdtke, Christian Bartelt, Heiner Stuckenschmidt, (参考訳) 決定木(DT)は、高い解釈可能性のために多くの機械学習タスクに一般的に使用される。 しかし、DTをデータから学習することは、非凸で微分不可能であるため、難しい最適化問題である。 したがって、各内部ノードにおける不純物を局所的に最小化するグリーディ成長アルゴリズムを用いてDTを学習する。 残念なことに、この欲張った手順は不正確な木に繋がる可能性がある。 本稿では,勾配勾配の強い軸方向のDTを学習するための新しい手法を提案する。 提案手法では, 直進演算子と直進演算子を高密度DT表現で逆プロパゲーションし, 全木パラメータを協調的に最適化する。 提案手法は,バイナリ分類ベンチマークにおける既存手法よりも優れており,マルチクラスタスクに対する競合的な結果が得られる。 https://github.com/s-marton/GradTree

Decision Trees (DTs) are commonly used for many machine learning tasks due to their high degree of interpretability. However, learning a DT from data is a difficult optimization problem, as it is non-convex and non-differentiable. Therefore, common approaches learn DTs using a greedy growth algorithm that minimizes the impurity locally at each internal node. Unfortunately, this greedy procedure can lead to inaccurate trees. In this paper, we present a novel approach for learning hard, axis-aligned DTs with gradient descent. The proposed method uses backpropagation with a straight-through operator on a dense DT representation, to jointly optimize all tree parameters. Our approach outperforms existing methods on binary classification benchmarks and achieves competitive results for multi-class tasks. The method is available under: https://github.com/s-marton/GradTree
翻訳日:2024-08-21 04:48:49 公開日:2024-08-19
# CoMusion: 動き拡散による連続確率的人間の動き予測を目指して

CoMusion: Towards Consistent Stochastic Human Motion Prediction via Motion Diffusion ( http://arxiv.org/abs/2305.12554v3 )

ライセンス: Link先を確認
Jiarui Sun, Girish Chowdhary, (参考訳) 確率的人間の動き予測(HMP)は、観測されたものから複数の将来の人間のポーズシーケンスを予測することを目的としている。 ほとんどの先行研究は、動きの時空間構造を保存しない潜在空間における符号化復号により、動きの分布を学習する。 効果はあるものの、これらの手法は複雑で多段階の訓練を必要とし、提供された歴史と矛盾せず、物理的に非現実的な予測を必要とする。 このような問題に対処するため,我々は単一段階の終端拡散に基づく確率的HMPフレームワークであるCoMusionを提案する。 CoMusionは、スムーズな未来が予測性能を改善するという洞察から着想を得ている。 このような初期化を生成するために、CoMusionのモーション予測器はTransformerベースのネットワークから始まり、破損したモーションを初期再構成する。 次に、離散コサイン変換(DCT)空間における過去の観測を考慮し、グラフ畳み込みネットワーク(GCN)を用いて予測を洗練させる。 提案手法はTransformer-GCNモジュール設計と分散スケジューラによって促進され,精度,現実性,一貫した動作の予測に優れ,かつ適切な多様性を維持している。 ベンチマークデータセットの実験結果は、CoMusionが従来のメソッドよりも優れた生成品質を示しながら、メトリクスを横断していることを示している。 私たちのコードはhttps://github.com/jsun57/CoMusion/でリリースされています。

Stochastic Human Motion Prediction (HMP) aims to predict multiple possible future human pose sequences from observed ones. Most prior works learn motion distributions through encoding-decoding in the latent space, which does not preserve motion's spatial-temporal structure. While effective, these methods often require complex, multi-stage training and yield predictions that are inconsistent with the provided history and can be physically unrealistic. To address these issues, we propose CoMusion, a single-stage, end-to-end diffusion-based stochastic HMP framework. CoMusion is inspired from the insight that a smooth future pose initialization improves prediction performance, a strategy not previously utilized in stochastic models but evidenced in deterministic works. To generate such initialization, CoMusion's motion predictor starts with a Transformer-based network for initial reconstruction of corrupted motion. Then, a graph convolutional network (GCN) is employed to refine the prediction considering past observations in the discrete cosine transformation (DCT) space. Our method, facilitated by the Transformer-GCN module design and a proposed variance scheduler, excels in predicting accurate, realistic, and consistent motions, while maintaining appropriate diversity. Experimental results on benchmark datasets demonstrate that CoMusion surpasses prior methods across metrics, while demonstrating superior generation quality. Our Code is released at https://github.com/jsun57/CoMusion/ .
翻訳日:2024-08-21 04:36:46 公開日:2024-08-19
# ログ解析がディープラーニングに基づく異常検出に及ぼす影響

Impact of Log Parsing on Deep Learning-Based Anomaly Detection ( http://arxiv.org/abs/2305.15897v4 )

ライセンス: Link先を確認
Zanis Ali Khan, Donghwan Shin, Domenico Bianculli, Lionel Briand, (参考訳) ソフトウェアシステムは大量のデータをログし、重要な実行時情報を記録します。 このようなログは、例えばログに記録された情報を処理することで、分析中のシステムの異常な振る舞いを自動的に検出することを目的として、ログベースの異常検出に使用される。 ディープラーニングモデルに基づくログベースの異常検出技術には、ログ解析と呼ばれる前処理ステップがある。 しかし, ログ解析が異常検出手法の精度に与える影響を理解することは, これまでにほとんど注目されていない。 したがって、ログ解析のキーとなるプロパティが何であるかを調べるには、理想的には異常検出を支援する必要がある。 本稿では, ログ解析が異常検出精度に与える影響について, 13のログ解析技術, 7の異常検出技術(ディープラーニングに基づく5つ, 従来の機械学習に基づく2つ)を用いて, 3つの公開ログデータセット上での総合的研究を行った。 実験結果から,ログ解析の精度と異常検出の精度との間には,ログ解析の精度を測る基準によらず,強い相関関係は認められなかった。 さらに, 従来の理論結果から, 正確な異常検出を行う上で重要な役割を担う精度に対して, ログ解析結果の識別可能性を示す性質を実験的に検証した。

Software systems log massive amounts of data, recording important runtime information. Such logs are used, for example, for log-based anomaly detection, which aims to automatically detect abnormal behaviors of the system under analysis by processing the information recorded in its logs. Many log-based anomaly detection techniques based on deep learning models include a pre-processing step called log parsing. However, understanding the impact of log parsing on the accuracy of anomaly detection techniques has received surprisingly little attention so far. Investigating what are the key properties log parsing techniques should ideally have to help anomaly detection is therefore warranted. In this paper, we report on a comprehensive empirical study on the impact of log parsing on anomaly detection accuracy, using 13 log parsing techniques, seven anomaly detection techniques (five based on deep learning and two based on traditional machine learning) on three publicly available log datasets. Our empirical results show that, despite what is widely assumed, there is no strong correlation between log parsing accuracy and anomaly detection accuracy, regardless of the metric used for measuring log parsing accuracy. Moreover, we experimentally confirm existing theoretical results showing that it is a property that we refer to as distinguishability in log parsing results as opposed to their accuracy that plays an essential role in achieving accurate anomaly detection.
翻訳日:2024-08-21 04:36:46 公開日:2024-08-19
# 量子フェデレーション学習を目指して

Towards Quantum Federated Learning ( http://arxiv.org/abs/2306.09912v4 )

ライセンス: Link先を確認
Chao Ren, Rudai Yan, Huihui Zhu, Han Yu, Minrui Xu, Yuan Shen, Yan Xu, Ming Xiao, Zhao Yang Dong, Mikael Skoglund, Dusit Niyato, Leong Chuan Kwek, (参考訳) QFL(Quantum Federated Learning)は、量子コンピューティング(Quantum Computing, QC)とフェデレートラーニング(Federated Learning, FL)の原則を融合した、新たな学際分野である。 現在、この学際分野に関する総合的な調査は行われていない。 このレビューはQFLを徹底的に総合的に検証する。 我々は、QFLの原則、技術、および新しい応用について、包括的に理解することを目指している。 我々は、この急速に発展する分野における研究の現状について論じ、これらの技術の統合に関わる課題と機会を特定し、今後の方向性とオープンな研究課題を概説する。 本稿では,QFL法の特徴とそれを用いた量子技術に基づいて分類した独自の分類法を提案する。 QFLの分野が進むにつれて、さまざまな業界におけるさらなるブレークスルーやアプリケーション、イノベーションの推進、データプライバシ、セキュリティ、リソース最適化に関する課題への対処が期待できます。 このレビューは、QFLの分野の理解と進歩に関心を持つ研究者や実践者のための、先駆的な総合的なガイドとして機能する。

Quantum Federated Learning (QFL) is an emerging interdisciplinary field that merges the principles of Quantum Computing (QC) and Federated Learning (FL), with the goal of leveraging quantum technologies to enhance privacy, security, and efficiency in the learning process. Currently, there is no comprehensive survey for this interdisciplinary field. This review offers a thorough, holistic examination of QFL. We aim to provide a comprehensive understanding of the principles, techniques, and emerging applications of QFL. We discuss the current state of research in this rapidly evolving field, identify challenges and opportunities associated with integrating these technologies, and outline future directions and open research questions. We propose a unique taxonomy of QFL techniques, categorized according to their characteristics and the quantum techniques employed. As the field of QFL continues to progress, we can anticipate further breakthroughs and applications across various industries, driving innovation and addressing challenges related to data privacy, security, and resource optimization. This review serves as a first-of-its-kind comprehensive guide for researchers and practitioners interested in understanding and advancing the field of QFL.
翻訳日:2024-08-21 04:36:46 公開日:2024-08-19
# Geometric Pooling: より有用な情報を維持する

Geometric Pooling: maintaining more useful information ( http://arxiv.org/abs/2306.12341v2 )

ライセンス: Link先を確認
Hao Xu, Jia Liu, Yang Shen, Kenan Lou, Yanxia Bao, Ruihua Zhang, Shuyue Zhou, Hongsen Zhao, Shuai Wang, (参考訳) グラフポーリング技術はグラフノード分類タスクにおいて重要な役割を果たす。 ソルティングプーリング技術は、様々な大きさのグラフをプールするための大きな値単位を維持している。 しかし, プール処理後のアクティブユニットの統計特性を解析した結果, プール処理によって落とされたユニットは, 有用な情報を含む負値単位であり, 最終決定に大きく貢献することがわかった。 より有用な情報を維持するため,Geometric Pooling (GP) と呼ばれる新しいプール技術が提案され,全てのノード特徴の類似度を測定して,負の値を持つユニークなノード特徴を含むようになった。 エントロピー低減の観点からGPの有効性を明らかにする。 実験は TUdatasets で実施され,GP の有効性が示された。 その結果,提案したGPはパラメータが少なく,SOTAグラフプーリング技術よりも1%\sim5%優れていた。

Graph Pooling technology plays an important role in graph node classification tasks. Sorting pooling technologies maintain large-value units for pooling graphs of varying sizes. However, by analyzing the statistical characteristic of activated units after pooling, we found that a large number of units dropped by sorting pooling are negative-value units that contain useful information and can contribute considerably to the final decision. To maintain more useful information, a novel pooling technology, called Geometric Pooling (GP), was proposed to contain the unique node features with negative values by measuring the similarity of all node features. We reveal the effectiveness of GP from the entropy reduction view. The experiments were conducted on TUdatasets to show the effectiveness of GP. The results showed that the proposed GP outperforms the SOTA graph pooling technologies by 1%\sim5% with fewer parameters.
翻訳日:2024-08-21 04:36:46 公開日:2024-08-19
# IncDSI: インクリメンタルに更新可能なドキュメント検索

IncDSI: Incrementally Updatable Document Retrieval ( http://arxiv.org/abs/2307.10323v2 )

ライセンス: Link先を確認
Varsha Kishore, Chao Wan, Justin Lovelace, Yoav Artzi, Kilian Q. Weinberger, (参考訳) Differentiable Search Indexは、最近提案されたドキュメント検索のパラダイムであり、ニューラルネットワークのパラメータ内でドキュメントのコーパスに関する情報をエンコードし、クエリを対応するドキュメントに直接マッピングする。 これらのモデルは、多くのベンチマークで文書検索の最先端のパフォーマンスを達成した。 モデルが訓練された後、新しいドキュメントを追加するのは容易ではない。 我々は、データセット全体(またはその一部)のモデルをトレーニングすることなく、文書をリアルタイムで(ドキュメントあたり約20~50ms)追加する方法であるIncDSIを提案する。 代わりに、制約付き最適化問題としてドキュメントの追加を定式化し、ネットワークパラメータの変更を最小限に抑える。 命令は桁違いに高速だが,本手法はデータセット全体のモデルの再学習と競合し,新たな情報をリアルタイムで更新可能な文書検索システムの開発を可能にする。 IncDSIのコードはhttps://github.com/varshakishore/IncDSIで利用可能です。

Differentiable Search Index is a recently proposed paradigm for document retrieval, that encodes information about a corpus of documents within the parameters of a neural network and directly maps queries to corresponding documents. These models have achieved state-of-the-art performances for document retrieval across many benchmarks. These kinds of models have a significant limitation: it is not easy to add new documents after a model is trained. We propose IncDSI, a method to add documents in real time (about 20-50ms per document), without retraining the model on the entire dataset (or even parts thereof). Instead we formulate the addition of documents as a constrained optimization problem that makes minimal changes to the network parameters. Although orders of magnitude faster, our approach is competitive with re-training the model on the whole dataset and enables the development of document retrieval systems that can be updated with new information in real-time. Our code for IncDSI is available at https://github.com/varshakishore/IncDSI.
翻訳日:2024-08-21 04:26:45 公開日:2024-08-19
# 量子相関に関するデータ駆動基準

Data-driven criteria for quantum correlations ( http://arxiv.org/abs/2307.11091v2 )

ライセンス: Link先を確認
Mateusz Krawczyk, Jarosław Pawłowski, Maciej M. Maśka, Katarzyna Roszak, (参考訳) ランダムに生成された状態に基づいて教師なしで訓練されたニューラルネットワークを用いて,3量子システム内の相関関係を検出する機械学習モデルを構築した。 ネットワークは分離可能な状態を認識せざるを得ず、相関状態は異常として検出される。 驚くほど驚くべきことに、提案された検出器は量子相関の弱い形、すなわち量子不協和を、絡み合いよりもはるかによく識別する。 実際、絡み合い検出の最適しきい値においても、絡み合い状態の集合を極端に過大評価する傾向があり、不協和状態の集合をはるかに少ない程度に過小評価する傾向にある。 量子関連性に分類される状態の性質を説明するために、様々な種類の状態を含むダイアグラムを構築する。 認識損失のほぼゼロの値は、特にこの図上の非自明な形状を考えると、非不一致分離状態の形状を高精度に再現する。 ネットワークアーキテクチャは、分離性を保持し、その出力は、キュービットの置換に関して等しく変化する。 部分的トレース操作のみを利用するベースラインモデルよりもはるかに優れた検出精度を得るためには,アーキテクチャの選択が重要であることを示す。

We build a machine learning model to detect correlations in a three-qubit system using a neural network trained in an unsupervised manner on randomly generated states. The network is forced to recognize separable states, and correlated states are detected as anomalies. Quite surprisingly, we find that the proposed detector performs much better at distinguishing a weaker form of quantum correlations, namely, the quantum discord, than entanglement. In fact, it has a tendency to grossly overestimate the set of entangled states even at the optimal threshold for entanglement detection, while it underestimates the set of discordant states to a much lesser extent. In order to illustrate the nature of states classified as quantum-correlated, we construct a diagram containing various types of states -- entangled, as well as separable, both discordant and non-discordant. We find that the near-zero value of the recognition loss reproduces the shape of the non-discordant separable states with high accuracy, especially considering the non-trivial shape of this set on the diagram. The network architecture is designed carefully: it preserves separability, and its output is equivariant with respect to qubit permutations. We show that the choice of architecture is important to get the highest detection accuracy, much better than for a baseline model that just utilizes a partial trace operation.
翻訳日:2024-08-21 04:26:45 公開日:2024-08-19
# LoraHub: 動的LoRA合成によるクロスタスクの効率的な一般化

LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition ( http://arxiv.org/abs/2307.13269v3 )

ライセンス: Link先を確認
Chengsong Huang, Qian Liu, Bill Yuchen Lin, Tianyu Pang, Chao Du, Min Lin, (参考訳) ローランク適応(LoRA)は、しばしば新しいタスクのために細調整された大きな言語モデル(LLM)に使用される。 本稿では、クロスタスクの一般化のためのLORA構成可能性について検討し、多様なタスクで訓練されたLORAモジュールのパーポーブアセンブリ用に考案されたシンプルなフレームワークであるLoraHubを紹介する。 新しいタスクからいくつか例を挙げると、LoraHubは複数のLoRAモジュールを流動的に結合することができ、人間の専門知識や前提を必要としない。 特に、合成には追加のモデルパラメータや勾配は必要ない。 Big-Bench Hardベンチマークの実証的な結果は、LoraHubはコンテキスト内学習のパフォーマンスを上回りませんが、推論中に1例あたりのトークン数を著しく削減することで、少数のシナリオで顕著なパフォーマンス効率のトレードオフをもたらすことを示唆しています。 特に、LoraHubは、さまざまな実演例と組み合わせて、コンテキスト内学習よりも上層境界を確立し、将来の開発の可能性を示している。 私たちのビジョンは、LoRAモジュールのプラットフォームを確立することで、ユーザがトレーニング済みのLoRAモジュールを共有できるようにすることです。 この協調的なアプローチは、LoRAモジュールを新しいタスクにシームレスに適用し、適応的なエコシステムに寄与する。 私たちのコードはhttps://github.com/sail-sg/lorahubで、事前トレーニング済みのLoRAモジュールはすべてhttps://huggingface.co/lorahubでリリースされています。

Low-rank adaptations (LoRA) are often employed to fine-tune large language models (LLMs) for new tasks. This paper investigates LoRA composability for cross-task generalization and introduces LoraHub, a simple framework devised for the purposive assembly of LoRA modules trained on diverse given tasks, with the objective of achieving adaptable performance on unseen tasks. With just a few examples from a new task, LoraHub can fluidly combine multiple LoRA modules, eliminating the need for human expertise and assumptions. Notably, the composition requires neither additional model parameters nor gradients. Empirical results on the Big-Bench Hard benchmark suggest that LoraHub, while not surpassing the performance of in-context learning, offers a notable performance-efficiency trade-off in few-shot scenarios by employing a significantly reduced number of tokens per example during inference. Notably, LoraHub establishes a better upper bound compared to in-context learning when paired with different demonstration examples, demonstrating its potential for future development. Our vision is to establish a platform for LoRA modules, empowering users to share their trained LoRA modules. This collaborative approach facilitates the seamless application of LoRA modules to novel tasks, contributing to an adaptive ecosystem. Our code is available at https://github.com/sail-sg/lorahub, and all the pre-trained LoRA modules are released at https://huggingface.co/lorahub.
翻訳日:2024-08-21 04:26:45 公開日:2024-08-19
# RAVEN:Retrieval-Augmented Encoder-Decoder言語モデルによるインコンテキスト学習

RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models ( http://arxiv.org/abs/2308.07922v3 )

ライセンス: Link先を確認
Jie Huang, Wei Ping, Peng Xu, Mohammad Shoeybi, Kevin Chen-Chuan Chang, Bryan Catanzaro, (参考訳) 本稿では,検索強化エンコーダ・デコーダ言語モデルのコンテキスト内学習能力について検討する。 まず,事前学習と推論のミスマッチや制限された文脈長により,既存のモデルの包括的分析を行い,文脈内学習におけるそれらの限界を識別する。 これらの問題に対処するために,検索強化されたマスキング言語モデリングとプレフィックス言語モデリングを組み合わせたモデルであるRAVENを提案する。 我々はさらにFusion-in-Context Learningを導入し、追加のトレーニングを必要とせずに、モデルがより多くのコンテキスト内サンプルを活用できるようにすることで、数ショットのパフォーマンスを向上させる。 大規模な実験を通じて、パラメータが大幅に少ないにもかかわらず、我々の単純で効果的な設計は、特定のシナリオにおいて最も先進的な言語モデルに匹敵する結果が得られることを実証した。 本研究は,テキスト内学習のための検索強化エンコーダデコーダ言語モデルの可能性を強調し,さらなる研究を奨励するものである。

In this paper, we investigate the in-context learning ability of retrieval-augmented encoder-decoder language models. We first conduct a comprehensive analysis of existing models and identify their limitations in in-context learning, primarily due to a mismatch between pretraining and inference, as well as a restricted context length. To address these issues, we propose RAVEN, a model that combines retrieval-augmented masked language modeling and prefix language modeling. We further introduce Fusion-in-Context Learning to enhance the few-shot performance by enabling the model to leverage more in-context examples without requiring additional training. Through extensive experiments, we demonstrate that our simple yet effective design significantly improves performance, achieving results comparable to the most advanced language models in certain scenarios, despite having substantially fewer parameters. Our work underscores the potential of retrieval-augmented encoder-decoder language models for in-context learning and encourages further research in this direction.
翻訳日:2024-08-21 04:26:45 公開日:2024-08-19
# 自然に着想を得たメタヒューリスティックアルゴリズムの分野横断最適化問題への応用

Applications of Nature-Inspired Metaheuristic Algorithms for Tackling Optimization Problems Across Disciplines ( http://arxiv.org/abs/2308.10875v3 )

ライセンス: Link先を確認
Elvis Han Cui, Zizhao Zhang, Culsome Junwen Chen, Weng Kee Wong, (参考訳) 自然に着想を得たメタヒューリスティックアルゴリズムは、人工知能の重要な構成要素であり、様々なタイプの挑戦的な最適化問題に対処するために、様々な分野に利用されている。 本稿では,自然に着想を得たメタヒューリスティックアルゴリズム,CSO-MAを用いた競合Swarm Optimizationrを用いて,統計学における様々な難解な最適化問題の解法として,そのようなアルゴリズムの有用性を示す。 このアルゴリズムは著者の1人によって提案され、多くの競合に対して優れた性能を示してきた。 本研究の主な目的は, CSO-MAのような自然に着想を得たメタヒューリスティックアルゴリズムが, 統計学における様々な種類の最適化問題に取り組むのに効率的であることを示すことである。 本研究は, バイオインフォマティクスにおける擬似時間研究のための単一セル一般化トレンドモデルにおけるパラメータの最大推定, 教育研究におけるRaschモデルにおけるパラメータの推定, マルコフ更新モデルにおけるコックス回帰のM推定, 2つのコンパートメントモデルにおける欠落データをインプットするための行列補完タスクの実行, 中国の生態学問題における変数の最適選択を含む, 新たな応用である。 メタヒューリスティックスの柔軟性をさらに実証するため,複数の相互作用因子を持つロジスティックモデルを用いて自動車産業における自動車燃料化実験の最適設計も見出した。 さらに,メタヒューリスティックスは,統計学でよく用いられる最適化アルゴリズムよりも優れていることを示す。

Nature-inspired metaheuristic algorithms are important components of artificial intelligence, and are increasingly used across disciplines to tackle various types of challenging optimization problems. This paper demonstrates the usefulness of such algorithms for solving a variety of challenging optimization problems in statistics using a nature-inspired metaheuristic algorithm called competitive swarm optimizer with mutated agents (CSO-MA). This algorithm was proposed by one of the authors and its superior performance relative to many of its competitors had been demonstrated in earlier work and again in this paper. The main goal of this paper is to show a typical nature-inspired metaheuristic algorithmi, like CSO-MA, is efficient for tackling many different types of optimization problems in statistics. Our applications are new and include finding maximum likelihood estimates of parameters in a single cell generalized trend model to study pseudotime in bioinformatics, estimating parameters in the commonly used Rasch model in education research, finding M-estimates for a Cox regression in a Markov renewal model, performing matrix completion tasks to impute missing data for a two compartment model, and selecting variables optimally in an ecology problem in China. To further demonstrate the flexibility of metaheuristics, we also find an optimal design for a car refueling experiment in the auto industry using a logistic model with multiple interacting factors. In addition, we show that metaheuristics can sometimes outperform optimization algorithms commonly used in statistics.
翻訳日:2024-08-21 04:26:45 公開日:2024-08-19
# マルチモーダル医用画像分割のための不確実性定量化と文脈割引による深部明細核融合

Deep evidential fusion with uncertainty quantification and contextual discounting for multimodal medical image segmentation ( http://arxiv.org/abs/2309.05919v2 )

ライセンス: Link先を確認
Ling Huang, Su Ruan, Pierre Decazes, Thierry Denoeux, (参考訳) 単一のモダリティの医療画像は、正確で信頼性の高い診断に到達するのに十分な情報を持っていないのが一般的である。 このため、医師は一般的に、例えばPET/CTなどのマルチモーダルな医療画像に基づいて疾患を診断する。 マルチモーダル情報の効果的な融合は、信頼できる決定に到達し、その決定の方法を説明するのに不可欠である。 本稿では,深層学習とDempster-Shafer理論に基づくマルチモーダル医用画像分割のための融合フレームワークを提案する。 この枠組みでは、異なるオブジェクトを分割する際の個々のモダリティ画像の信頼性を文脈割引操作により考慮する。 それぞれのモダリティから取り除かれた証拠は、最終決定に達するためのデンプスターの規則によってまとめられる。 脳腫瘍を伴うPET-CTデータセットとマルチMRIデータセットによる実験結果から,本手法は精度と信頼性において最先端の手法よりも優れていることが示された。

Single-modality medical images generally do not contain enough information to reach an accurate and reliable diagnosis. For this reason, physicians generally diagnose diseases based on multimodal medical images such as, e.g., PET/CT. The effective fusion of multimodal information is essential to reach a reliable decision and explain how the decision is made as well. In this paper, we propose a fusion framework for multimodal medical image segmentation based on deep learning and the Dempster-Shafer theory of evidence. In this framework, the reliability of each single modality image when segmenting different objects is taken into account by a contextual discounting operation. The discounted pieces of evidence from each modality are then combined by Dempster's rule to reach a final decision. Experimental results with a PET-CT dataset with lymphomas and a multi-MRI dataset with brain tumors show that our method outperforms the state-of-the-art methods in accuracy and reliability.
翻訳日:2024-08-21 04:16:54 公開日:2024-08-19
# 単体強結合モデルにおける測定誘起相転移

Measurement-induced phase transition in a single-body tight-binding model ( http://arxiv.org/abs/2309.15034v2 )

ライセンス: Link先を確認
Tony Jin, David G. Martin, (参考訳) 単一自由量子粒子の統計的性質を${\rm d}$空間次元の離散格子上でコヒーレントに発展させ、全ての格子サイトが占有数の連続的な測定の対象となる。 以上の結果から,測定強度$\gamma$が臨界値$\gamma_{c}$を超えれば,$\textit{delocalized}$から$\textit{localized}$へ,${\rm d}>1$に対して測定誘起相転移(MiPT)を行うことを示す。 表面成長の言語では、非局在化相は$\textit{smooth}$相に対応し、局所化相は$\textit{rough}$相に対応する。 我々は1ループの順序で定性的な整合性を持つ摂動的再正規化群(RG)計算で数値結果を支持する。

We study the statistical properties of a single free quantum particle evolving coherently on a discrete lattice in ${\rm d}$ spatial dimensions where every lattice site is additionally subject to continuous measurement of the occupation number. Our numerical results indicate that the system undergoes a Measurement-induced Phase Transition (MiPT) for ${\rm d}>1$ from a $\textit{delocalized}$ to a $\textit{localized}$ phase as the measurement strength $\gamma$ is increased beyond a critical value $\gamma_{c}$. In the language of surface growth, the delocalized phase corresponds to a $\textit{smooth}$ phase while the localized phase corresponds to a $\textit{rough}$ phase. We support our numerical results with perturbative renormalization group (RG) computations which are in qualitative agreement at one-loop order.
翻訳日:2024-08-21 04:16:54 公開日:2024-08-19
# テキスト・画像拡散モデルによる原始情報生成による学習

Learning Using Generated Privileged Information by Text-to-Image Diffusion Models ( http://arxiv.org/abs/2309.15238v2 )

ライセンス: Link先を確認
Rafael-Edy Menadil, Mariana-Iuliana Georgescu, Radu Tudor Ionescu, (参考訳) 特権情報を用いた学習(英語: Learning Using Privileged Information)は、教師モデルが、特権情報と呼ばれる訓練中に追加のデータ表現から恩恵を受ける、特定の種類の知識蒸留である。 しかし、実際には特権情報の入手はめったにない。 そこで本研究では,テキスト間拡散モデルを用いて人工的な特権情報を生成するテキスト分類フレームワークを提案する。 生成した画像と元のテキストサンプルは、最先端のトランスフォーマーベースアーキテクチャに基づくマルチモーダル教師モデルのトレーニングにさらに使用される。 最後に、マルチモーダル教師の知識をテキストベースの(単調な)学生に蒸留する。 したがって、生成モデルを用いて、特権情報として合成データを生成することにより、学生モデルのトレーニングをガイドする。 我々のフレームワークはLearning Using Generated Privileged Information (LUGPI)と呼ばれ、4つのテキスト分類データセットに対して顕著な性能向上をもたらし、推論中に追加のコストを伴わずにその可能性を示す。

Learning Using Privileged Information is a particular type of knowledge distillation where the teacher model benefits from an additional data representation during training, called privileged information, improving the student model, which does not see the extra representation. However, privileged information is rarely available in practice. To this end, we propose a text classification framework that harnesses text-to-image diffusion models to generate artificial privileged information. The generated images and the original text samples are further used to train multimodal teacher models based on state-of-the-art transformer-based architectures. Finally, the knowledge from multimodal teachers is distilled into a text-based (unimodal) student. Hence, by employing a generative model to produce synthetic data as privileged information, we guide the training of the student model. Our framework, called Learning Using Generated Privileged Information (LUGPI), yields noticeable performance gains on four text classification data sets, demonstrating its potential in text classification without any additional cost during inference.
翻訳日:2024-08-21 04:16:54 公開日:2024-08-19
# ブロックチェーンによるUAV支援災害救助ネットワーク--課題と解決策

Blockchain-Envisioned UAV-Aided Disaster Relief Networks: Challenges and Solutions ( http://arxiv.org/abs/2310.05180v3 )

ライセンス: Link先を確認
Yuntao Wang, Qinnan Hu, Zhendong Li, Zhou Su, Ruidong Li, Xiang Zou, Jian Zhou, (参考訳) 自然災害や人的災害は、重要なインフラや物流網の破壊により、被災者への危機的救済を実現する上で大きな課題となる。 無人航空機(UAV)支援災害救助ネットワーク(UDRN)は、UAVを活用し、被災地を迅速に評価し、救命物資をタイムリーに届けることによって、既存の地上救援ネットワークを支援する。 コラボレーティブで信頼性のない透明なUDRNサービスに対する需要の増加に対応するため、ブロックチェーンベースのUDRNは、不変の台帳と分散スマートコントラクトを通じて、有望なアプローチとして登場します。 しかしながら、スマートコントラクト間の協力の欠如、スマートコントラクトの脆弱性に対する動的監査の欠如、トランザクションマニュアビリティ攻撃に対する低い法医学的堅牢性など、ブロックチェーンベースのUDRNの展開を妨げる、いくつかの効率性とセキュリティ上の課題がある。 ブロックチェーンベースのUDRNを効率的かつセキュアにするために,本論文では,潜在的なソリューションを提案する。 一 協調的救済管理のための一連の協調的スマートコントラクト (二 既知の、未知の契約の脆弱性を防止するための動的契約監査機構、及び 三 取引の可逆性攻撃に抵抗するため、オン・オフ・チェーン協力によるロバストな取引法医学戦略。 提案手法の試作と実験により,本手法の有効性と有効性を示す。 最後に、この新興分野の進展に欠かせない重要な研究課題について概説する。

Natural or man-made disasters pose significant challenges for delivering critical relief to affected populations due to disruptions in critical infrastructures and logistics networks. Unmanned aerial vehicles (UAVs)-aided disaster relief networks (UDRNs) leverage UAVs to assist existing ground relief networks by swiftly assessing affected areas and timely delivering lifesaving supplies. To meet the growing demands for collaborative, trust-free, and transparent UDRN services, blockchain-based UDRNs emerge as a promising approach through immutable ledgers and distributed smart contracts. However, several efficiency and security challenges hinder the deployment of blockchain-based UDRNs, including the lack of cooperation between smart contracts, lack of dynamic audit for smart contract vulnerabilities, and low forensics robustness against transaction malleability attacks. Towards efficient and secure blockchain-based UDRNs, this paper presents potential solutions: (i) a series of collaborative smart contracts for coordinated relief management, (ii) a dynamic contract audit mechanism to prevent known/unknown contract vulnerabilities; and (iii) a robust transaction forensics strategy with on/off-chain cooperation to resist transaction malleability attacks. Our prototype implementation and experimental results demonstrate the feasibility and effectiveness of our approach. Lastly, we outline key open research issues crucial to advancing this emerging field.
翻訳日:2024-08-21 04:16:54 公開日:2024-08-19
# 真実の幾何学:真偽データセットの大規模言語モデルにおける創発的線形構造

The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets ( http://arxiv.org/abs/2310.06824v3 )

ライセンス: Link先を確認
Samuel Marks, Max Tegmark, (参考訳) 大きな言語モデル(LLM)には印象的な能力があるが、偽装を出力する傾向がある。 近年の研究では、LLMの内部アクティベーションに関するプローブを訓練することで、LLMが真実を語っているかどうかを推測する手法が開発されている。 しかし、この一連の研究は議論の余地があり、いくつかの著者は、これらのプローブの失敗が基本的な方法で一般化することを指摘している。 本研究では,3行のエビデンスに基づいて,単純真偽文の高品質データセットを用いて,LLMの真理表現の構造を詳細に研究する。 1. 明快な線形構造を示す LLM true/false 文表現の可視化 2. 1つのデータセットでトレーニングされたプローブを異なるデータセットに一般化する転送実験。 3 LLMの前方パスに外科的に介入して得た因果証拠により、虚偽の陳述を真実として、またその逆として扱うことができる。 全体として、十分なスケールで、LLMは事実文の真偽を線形に表現する証拠を示す。 また、モデル出力に因果的に関係する方向を同定しながら、単純な差分平均プローブが他の探索手法と同様に一般化することも示している。

Large Language Models (LLMs) have impressive capabilities, but are prone to outputting falsehoods. Recent work has developed techniques for inferring whether a LLM is telling the truth by training probes on the LLM's internal activations. However, this line of work is controversial, with some authors pointing out failures of these probes to generalize in basic ways, among other conceptual issues. In this work, we use high-quality datasets of simple true/false statements to study in detail the structure of LLM representations of truth, drawing on three lines of evidence: 1. Visualizations of LLM true/false statement representations, which reveal clear linear structure. 2. Transfer experiments in which probes trained on one dataset generalize to different datasets. 3. Causal evidence obtained by surgically intervening in a LLM's forward pass, causing it to treat false statements as true and vice versa. Overall, we present evidence that at sufficient scale, LLMs linearly represent the truth or falsehood of factual statements. We also show that simple difference-in-mean probes generalize as well as other probing techniques while identifying directions which are more causally implicated in model outputs.
翻訳日:2024-08-21 04:16:54 公開日:2024-08-19
# CRITERIA: 自律運転のための軌道予測モデル評価のための新しいベンチマークパラダイム

CRITERIA: a New Benchmarking Paradigm for Evaluating Trajectory Prediction Models for Autonomous Driving ( http://arxiv.org/abs/2310.07794v2 )

ライセンス: Link先を確認
Changhe Chen, Mozhgan Pourkeshavarz, Amir Rasouli, (参考訳) ベンチマークは、自律運転のための軌道予測モデルを評価する一般的な方法である。 既存のベンチマークはデータセットに依存しており、クルーズのような一般的なシナリオや、すべてのシナリオを平均して計算される距離ベースのメトリクスに偏っている。 このような連隊に従えば、異なるシナリオをいかにうまく扱えるか、そのアウトプットがどの程度許容可能で多様かという観点から、モデルの特性について少しの洞察が得られます。 軌跡の許容性と多様性を測定するために設計された相補的な指標はいくつか存在するが、軌跡の長さなどのバイアスに悩まされている。 本稿では,新しいbenChmarking paRadIgmをCRITERIA (EvaluaTing trajEctoRy predIction Approaches) として提案する。 特に,我々は提案する。 1 予測モデルのきめ細かいランキングのための道路の構造、モデルの性能及びデータ特性に応じて、特定度の異なる運転シナリオを抽出する方法。 2) 現実の運転制約によって動機付けられた道路・運動適合性の構造を考慮し, 与えられたシナリオの特徴と許容性を取り入れ, 多様性を測定するための新しいバイアスのない指標のセット。 3)提案したベンチマークを用いて,大規模Argoverseデータセットを用いて予測モデルの代表的な集合について広範な実験を行った。 提案したベンチマークにより,より正確なモデルランキングを作成でき,それらの振る舞いを特徴づける手段として機能することを示す。 さらに,提案したメトリクスの計算に使用されるさまざまな要素の寄与を明らかにするためのアブレーション研究について紹介する。

Benchmarking is a common method for evaluating trajectory prediction models for autonomous driving. Existing benchmarks rely on datasets, which are biased towards more common scenarios, such as cruising, and distance-based metrics that are computed by averaging over all scenarios. Following such a regiment provides a little insight into the properties of the models both in terms of how well they can handle different scenarios and how admissible and diverse their outputs are. There exist a number of complementary metrics designed to measure the admissibility and diversity of trajectories, however, they suffer from biases, such as length of trajectories. In this paper, we propose a new benChmarking paRadIgm for evaluaTing trajEctoRy predIction Approaches (CRITERIA). Particularly, we propose 1) a method for extracting driving scenarios at varying levels of specificity according to the structure of the roads, models' performance, and data properties for fine-grained ranking of prediction models; 2) A set of new bias-free metrics for measuring diversity, by incorporating the characteristics of a given scenario, and admissibility, by considering the structure of roads and kinematic compliancy, motivated by real-world driving constraints. 3) Using the proposed benchmark, we conduct extensive experimentation on a representative set of the prediction models using the large scale Argoverse dataset. We show that the proposed benchmark can produce a more accurate ranking of the models and serve as a means of characterizing their behavior. We further present ablation studies to highlight contributions of different elements that are used to compute the proposed metrics.
翻訳日:2024-08-21 04:16:54 公開日:2024-08-19
# 大規模言語モデルにおける学習フィードバックパターンの解釈

Interpreting Learned Feedback Patterns in Large Language Models ( http://arxiv.org/abs/2310.08164v5 )

ライセンス: Link先を確認
Luke Marks, Amir Abdullah, Clement Neo, Rauno Arike, David Krueger, Philip Torr, Fazl Barez, (参考訳) 人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)の訓練に広く用いられている。 しかし、LLMが人間のフィードバックデータにおいて、基礎となる嗜好を正確に学習するかどうかは不明である。 RLHF で学習した LLM のアクティベーションのパターンに対して, LFP (textit{Learned Feedback Pattern}) という用語を作成した。 LFPを正確に調整したLLMは、RLHF中に同様のフィードバックを受けた出力に対して一貫した活性化パターンを示すと仮定する。 これをテストするために、我々は、微調整LDMの活性化に暗黙的にフィードバック信号を推定するプローブを訓練する。 次に、これらの見積を真のフィードバックと比較し、LFPの精度と微調整されたフィードバックの正確さを測定します。 我々のプローブは、LLM活性化の凝縮された、スパースで解釈可能な表現に基づいて訓練され、入力の特徴とプローブの予測との相関がより容易になる。 我々は、GPT-4が記述し、LFPに関連するものとして分類する特徴に対して、正のフィードバック入力と相関する神経特徴を比較して、プローブを検証する。 LFPを理解することは、LLMの安全性に不可欠な、LLMの挙動とトレーニング目標との相違を最小化するのに役立ちます。

Reinforcement learning from human feedback (RLHF) is widely used to train large language models (LLMs). However, it is unclear whether LLMs accurately learn the underlying preferences in human feedback data. We coin the term \textit{Learned Feedback Pattern} (LFP) for patterns in an LLM's activations learned during RLHF that improve its performance on the fine-tuning task. We hypothesize that LLMs with LFPs accurately aligned to the fine-tuning feedback exhibit consistent activation patterns for outputs that would have received similar feedback during RLHF. To test this, we train probes to estimate the feedback signal implicit in the activations of a fine-tuned LLM. We then compare these estimates to the true feedback, measuring how accurate the LFPs are to the fine-tuning feedback. Our probes are trained on a condensed, sparse and interpretable representation of LLM activations, making it easier to correlate features of the input with our probe's predictions. We validate our probes by comparing the neural features they correlate with positive feedback inputs against the features GPT-4 describes and classifies as related to LFPs. Understanding LFPs can help minimize discrepancies between LLM behavior and training objectives, which is essential for the safety of LLMs.
翻訳日:2024-08-21 04:16:54 公開日:2024-08-19
# FLrce: アーリーストッピング戦略によるリソース効率の良いフェデレーションラーニング

FLrce: Resource-Efficient Federated Learning with Early-Stopping Strategy ( http://arxiv.org/abs/2310.09789v3 )

ライセンス: Link先を確認
Ziru Niu, Hai Dong, A. Kai Qin, Tao Gu, (参考訳) フェデレートラーニング(FL)は、IoT(Internet of Things)において、データのプライバシを維持しながら、インテリジェントなサービスを顧客に提供するための強力なインターフェースとして、非常に人気がある。 サーバのオーケストレーションの下では、エッジデバイス(FLのクライアントとも呼ばれる)は、ローカルデータを共有せずに、グローバルなディープラーニングモデルを協調的にトレーニングする。 それでも、クライアント間の不平等なトレーニングコントリビューションは、FLを脆弱なものにしている。 さらに、ネットワークのリソース不足の問題もボトルネックとなっている。 エッジデバイス上でディープラーニングモデルをトレーニングすることによって発生する計算オーバーヘッドと、ネットワーク全体にわたってディープラーニングモデルを送信するための通信オーバーヘッドにより、FLプロセスでは膨大なリソースが消費される。 これは、エネルギーや帯域幅のような通信資源のような計算資源を含んでいる。 本稿では、これらの課題を包括的に解決するために、関係ベースのクライアント選択と早期停止戦略を備えた効率的なFLフレームワークであるFLrceを提案する。 FLrceは、より大きな効果を持つクライアントを選択することでFLプロセスを加速し、グローバルモデルがより少ないラウンドで高精度に収束できるようにする。 FLrceはまた、通信と計算資源を節約するために、FLを事前に停止させる早期停止機構も活用している。 その結果,既存のFLフレームワークと比較してFLrceは計算効率を少なくとも30%,通信効率を43%向上させることがわかった。

Federated Learning (FL) achieves great popularity in the Internet of Things (IoT) as a powerful interface to offer intelligent services to customers while maintaining data privacy. Under the orchestration of a server, edge devices (also called clients in FL) collaboratively train a global deep-learning model without sharing any local data. Nevertheless, the unequal training contributions among clients have made FL vulnerable, as clients with heavily biased datasets can easily compromise FL by sending malicious or heavily biased parameter updates. Furthermore, the resource shortage issue of the network also becomes a bottleneck. Due to overwhelming computation overheads generated by training deep-learning models on edge devices, and significant communication overheads for transmitting deep-learning models across the network, enormous amounts of resources are consumed in the FL process. This encompasses computation resources like energy and communication resources like bandwidth. To comprehensively address these challenges, in this paper, we present FLrce, an efficient FL framework with a relationship-based client selection and early-stopping strategy. FLrce accelerates the FL process by selecting clients with more significant effects, enabling the global model to converge to a high accuracy in fewer rounds. FLrce also leverages an early stopping mechanism that terminates FL in advance to save communication and computation resources. Experiment results show that, compared with existing efficient FL frameworks, FLrce improves the computation and communication efficiency by at least 30% and 43% respectively.
翻訳日:2024-08-21 04:16:54 公開日:2024-08-19
# ArcheType: 大規模言語モデルを用いたオープンソースのカラム型アノテーションのための新しいフレームワーク

ArcheType: A Novel Framework for Open-Source Column Type Annotation using Large Language Models ( http://arxiv.org/abs/2310.18208v3 )

ライセンス: Link先を確認
Benjamin Feuer, Yurong Liu, Chinmay Hegde, Juliana Freire, (参考訳) 既存のセマンティックカラム型アノテーション(CTA)に対するディープラーニングアプローチには、トレーニング時に固定されたセマンティックタイプに依存すること、型毎のトレーニングサンプルを大量に必要とし、大量のランタイム推論コストを発生させること、新しいデータセットで型が一定である場合でもパフォーマンスが低下する、という重大な欠点がある。 大規模言語モデルでは,多岐にわたるタスクにおいて,ゼロショット分類性能が強いことが確認されている。 ArcheTypeは、コンテキストサンプリング、即時シリアライズ、モデルクエリ、ラベルリマッピングのためのシンプルな実用的な方法であり、大規模な言語モデルで完全にゼロショットでCTAの問題を解決することができる。 提案手法の各コンポーネントを個別にアブレーションし、コンテキストサンプリングとラベルリマッピングの改善により、最も一貫した利得が得られることを確かめる。 ArcheTypeは、ゼロショットCTAベンチマーク(この記事とともにリリースした3つの新しいドメイン特化ベンチマークを含む)で新しい最先端性能を確立し、古典的なCTAテクニックと併用すると、細調整されたSOTABベンチマークでSOTA DoDuoモデルより優れている。 私たちのコードはhttps://github.com/penfever/ArcheTypeで利用可能です。

Existing deep-learning approaches to semantic column type annotation (CTA) have important shortcomings: they rely on semantic types which are fixed at training time; require a large number of training samples per type and incur large run-time inference costs; and their performance can degrade when evaluated on novel datasets, even when types remain constant. Large language models have exhibited strong zero-shot classification performance on a wide range of tasks and in this paper we explore their use for CTA. We introduce ArcheType, a simple, practical method for context sampling, prompt serialization, model querying, and label remapping, which enables large language models to solve CTA problems in a fully zero-shot manner. We ablate each component of our method separately, and establish that improvements to context sampling and label remapping provide the most consistent gains. ArcheType establishes a new state-of-the-art performance on zero-shot CTA benchmarks (including three new domain-specific benchmarks which we release along with this paper), and when used in conjunction with classical CTA techniques, it outperforms a SOTA DoDuo model on the fine-tuned SOTAB benchmark. Our code is available at https://github.com/penfever/ArcheType.
翻訳日:2024-08-21 04:07:00 公開日:2024-08-19
# 機械学習における対称性の強化・発見・促進のための統一フレームワーク

A Unified Framework to Enforce, Discover, and Promote Symmetry in Machine Learning ( http://arxiv.org/abs/2311.00212v2 )

ライセンス: Link先を確認
Samuel E. Otto, Nicholas Zolman, J. Nathan Kutz, Steven L. Brunton, (参考訳) シンメトリーは自然界を通じて存在しており、物理学や機械学習においてますます中心的な役割を担っている。 Poincar\'{e}不変性のような基本的な対称性は、地球上の研究所で発見された物理法則を宇宙の最も遠い領域に外挿することを可能にする。 シンメトリーは、機械学習アプリケーションにおいて、この外挿能力を達成するために不可欠である。 例えば、画像分類における変換不変性により、畳み込みニューラルネットワークのようなより少ないパラメータを持つモデルは、より小さなデータセットでトレーニングされ、最先端のパフォーマンスを達成することができる。 本稿では,機械学習モデルに対称性を組み込むための統一的理論的・方法論的枠組みについて述べる。 一 模型の訓練の際に既知の対称性を課すこと。 2 所定のモデル又はデータセットの未知の対称性の発見及び 3 データに十分な証拠がある場合に、利用者特定候補グループ内の対称性を破るモデルを学ぶことにより、トレーニング中の対称性を促進すること。 これらのタスクは、ベクトルバンドル上のファイバー線型リー群作用に付随するリー微分が中心となる共通の数学的枠組みの中でキャスト可能であることを示す。 我々は、対称性の強制と発見は、リー微分の双線型構造に対して双対な線形代数的タスクであることを示すことによって、いくつかの既存の結果を拡張し、統一する。 また,機械学習モデルのトレーニング中に対称性の破れをペナル化するために,リー微分と核ノルム緩和に基づく凸正規化関数のクラスを導入することで,対称性を促進する新しい手法を提案する。 基礎関数回帰、動的システム探索、ニューラルネットワーク、およびフィールドに作用するニューラル演算子を含む幅広い機械学習モデルに対して、これらのアイデアをどのように適用することができるかを説明する。

Symmetry is present throughout nature and continues to play an increasingly central role in physics and machine learning. Fundamental symmetries, such as Poincar\'{e} invariance, allow physical laws discovered in laboratories on Earth to be extrapolated to the farthest reaches of the universe. Symmetry is essential to achieving this extrapolatory power in machine learning applications. For example, translation invariance in image classification allows models with fewer parameters, such as convolutional neural networks, to be trained on smaller data sets and achieve state-of-the-art performance. In this paper, we provide a unifying theoretical and methodological framework for incorporating symmetry into machine learning models in three ways: 1. enforcing known symmetry when training a model; 2. discovering unknown symmetries of a given model or data set; and 3. promoting symmetry during training by learning a model that breaks symmetries within a user-specified group of candidates when there is sufficient evidence in the data. We show that these tasks can be cast within a common mathematical framework whose central object is the Lie derivative associated with fiber-linear Lie group actions on vector bundles. We extend and unify several existing results by showing that enforcing and discovering symmetry are linear-algebraic tasks that are dual with respect to the bilinear structure of the Lie derivative. We also propose a novel way to promote symmetry by introducing a class of convex regularization functions based on the Lie derivative and nuclear norm relaxation to penalize symmetry breaking during training of machine learning models. We explain how these ideas can be applied to a wide range of machine learning models including basis function regression, dynamical systems discovery, neural networks, and neural operators acting on fields.
翻訳日:2024-08-21 04:07:00 公開日:2024-08-19
# 視覚言語モデルに対する対向的プロンプトチューニング

Adversarial Prompt Tuning for Vision-Language Models ( http://arxiv.org/abs/2311.11261v3 )

ライセンス: Link先を確認
Jiaming Zhang, Xingjun Ma, Xin Wang, Lingyu Qiu, Jiaqi Wang, Yu-Gang Jiang, Jitao Sang, (参考訳) マルチモーダル学習の急速な進歩に伴い、CLIPのような事前学習された視覚言語モデル(VLM)は、視覚と言語の間のギャップを埋める際、顕著な能力を示した。 しかし、これらのモデルは敵の攻撃、特に画像のモダリティに弱いままであり、かなりのセキュリティリスクが生じる。 本稿では,VLMにおける画像エンコーダの対向性を高める新しい手法であるAdvPT(Adversarial Prompt Tuning)を提案する。 AdvPTは、学習可能なテキストプロンプトを革新的に活用し、それを敵対的な画像埋め込みと整合させ、広範囲なパラメータトレーニングやモデルアーキテクチャの変更を必要とせずに、VLMに固有の脆弱性に対処する。 そこで我々は,AdvPTがホワイトボックス攻撃やブラックボックス攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで,防御能力をさらに向上させることを実証した。 総合的な実験分析は、テキスト入力の修正を通じて、対向画像に対する抵抗を改善することに特化した新しいパラダイムである、対向的プロンプトチューニングに関する洞察を与え、将来の堅牢なマルチモーダル学習研究への道を開く。 これらの知見は、VLMの安全性を高める新たな可能性を開く。 私たちのコードはhttps://github.com/jiamingzhang94/Adversarial-Prompt-Tuningで利用可能です。

With the rapid advancement of multimodal learning, pre-trained Vision-Language Models (VLMs) such as CLIP have demonstrated remarkable capacities in bridging the gap between visual and language modalities. However, these models remain vulnerable to adversarial attacks, particularly in the image modality, presenting considerable security risks. This paper introduces Adversarial Prompt Tuning (AdvPT), a novel technique to enhance the adversarial robustness of image encoders in VLMs. AdvPT innovatively leverages learnable text prompts and aligns them with adversarial image embeddings, to address the vulnerabilities inherent in VLMs without the need for extensive parameter training or modification of the model architecture. We demonstrate that AdvPT improves resistance against white-box and black-box adversarial attacks and exhibits a synergistic effect when combined with existing image-processing-based defense techniques, further boosting defensive capabilities. Comprehensive experimental analyses provide insights into adversarial prompt tuning, a novel paradigm devoted to improving resistance to adversarial images through textual input modifications, paving the way for future robust multimodal learning research. These findings open up new possibilities for enhancing the security of VLMs. Our code is available at https://github.com/jiamingzhang94/Adversarial-Prompt-Tuning.
翻訳日:2024-08-21 04:07:00 公開日:2024-08-19
# ロボットのためのGPT-4V:人間によるマルチモーダルタスク計画

GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration ( http://arxiv.org/abs/2311.12015v3 )

ライセンス: Link先を確認
Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi, (参考訳) 本稿では,汎用視覚言語モデル(GPT-4V(ision))を強化し,ロボット操作のためのワンショット視覚教育を容易にするパイプラインを提案する。 このシステムは、人間がタスクを実行する様子を解析し、アベイランスに対する洞察を取り入れた実行可能なロボットプログラムを出力する。 このプロセスは、GPT-4Vでビデオを分析し、環境や行動の詳細についてテキストで説明することから始まる。 GPT-4ベースのタスクプランナーは、これらの詳細をシンボリックタスクプランにエンコードする。 その後、視覚システムは映像中のタスクプランを空間的・時間的に根拠づける。 オープンボキャブラリオブジェクト検出器を用いてオブジェクトを識別し、手動物体の相互作用を分析して、把握と解放のピンポイントモーメントを解析する。 この時空間的接地により、ロボットの実行に不可欠な余裕情報(例えば、把握タイプ、ウェイポイント、体姿勢)を収集することができる。 様々なシナリオで実験を行い、実際のロボットの動作を1ショットで行う方法の有効性を実証した。 一方、定量検査ではGPT-4Vの幻覚の事例が明らかにされており、パイプラインに人間の監督を組み込むことの重要性が強調されている。 https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/

We introduce a pipeline that enhances a general-purpose Vision Language Model, GPT-4V(ision), to facilitate one-shot visual teaching for robotic manipulation. This system analyzes videos of humans performing tasks and outputs executable robot programs that incorporate insights into affordances. The process begins with GPT-4V analyzing the videos to obtain textual explanations of environmental and action details. A GPT-4-based task planner then encodes these details into a symbolic task plan. Subsequently, vision systems spatially and temporally ground the task plan in the videos. Object are identified using an open-vocabulary object detector, and hand-object interactions are analyzed to pinpoint moments of grasping and releasing. This spatiotemporal grounding allows for the gathering of affordance information (e.g., grasp types, waypoints, and body postures) critical for robot execution. Experiments across various scenarios demonstrate the method's efficacy in achieving real robots' operations from human demonstrations in a one-shot manner. Meanwhile, quantitative tests have revealed instances of hallucination in GPT-4V, highlighting the importance of incorporating human supervision within the pipeline. The prompts of GPT-4V/GPT-4 are available at this project page: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
翻訳日:2024-08-21 04:07:00 公開日:2024-08-19
# DatasetNeRF: 生成放射場を持つ効率的な3D認識データファクトリ

DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields ( http://arxiv.org/abs/2311.12063v3 )

ライセンス: Link先を確認
Yu Chi, Fangneng Zhan, Sibo Wu, Christian Theobalt, Adam Kortylewski, (参考訳) 3Dコンピュータビジョンタスクの進歩は、膨大な量のデータを必要とするが、3D一貫性のあるアノテーションによるマルチビューイメージの注釈付けや、パートセグメンテーションを備えたポイントクラウドは、時間がかかり、困難である。 本稿では, 最小限の2次元ラベル付きアノテーションを用いて, 3次元ポイントクラウドセグメンテーションと並行して, 無限で高品質な2次元アノテーションを生成可能な新しいアプローチであるDatasetNeRFを提案する。 具体的には、3D生成モデルに先行する強力なセマンティクスを活用してセマンティクスデコーダをトレーニングする。 トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。 生成されたデータは、ビデオセグメンテーションや3Dポイントクラウドセグメンテーションなど、さまざまなコンピュータビジョンタスクに適用できる。 提案手法は, セグメンテーション品質のベースラインモデルを超え, 個々の画像に対して優れた3次元一貫性とセグメンテーション精度を実現するだけでなく, 調音および非調音生成モデルにも適用可能であることを示す。 さらに,3D対応セマンティック編集や3Dインバージョンなど,我々のアプローチに起因したアプリケーションについても検討する。

Progress in 3D computer vision tasks demands a huge amount of data, yet annotating multi-view images with 3D-consistent annotations, or point clouds with part segmentation is both time-consuming and challenging. This paper introduces DatasetNeRF, a novel approach capable of generating infinite, high-quality 3D-consistent 2D annotations alongside 3D point cloud segmentations, while utilizing minimal 2D human-labeled annotations. Specifically, we leverage the strong semantic prior within a 3D generative model to train a semantic decoder, requiring only a handful of fine-grained labeled samples. Once trained, the decoder efficiently generalizes across the latent space, enabling the generation of infinite data. The generated data is applicable across various computer vision tasks, including video segmentation and 3D point cloud segmentation. Our approach not only surpasses baseline models in segmentation quality, achieving superior 3D consistency and segmentation precision on individual images, but also demonstrates versatility by being applicable to both articulated and non-articulated generative models. Furthermore, we explore applications stemming from our approach, such as 3D-aware semantic editing and 3D inversion.
翻訳日:2024-08-21 04:07:00 公開日:2024-08-19
# 2段階動的障害物回避

Two-step dynamic obstacle avoidance ( http://arxiv.org/abs/2311.16841v2 )

ライセンス: Link先を確認
Fabian Hart, Martin Waltz, Ostap Okhrin, (参考訳) ダイナミック障害物回避(ダイナミック障害物回避、Dynamic obstacle avoidance、DOA)は、海、空気、陸地で運用されているかどうかに関わらず、あらゆる自動運転車にとって基本的な課題である。 本稿では、教師付きおよび強化学習(RL)を組み合わせた2段階のDOAタスク処理アーキテクチャを提案する。 最初のステップでは、リカレントニューラルネットワークを用いて障害物の衝突リスク(CR)を推定するデータ駆動型アプローチを導入する。 第2ステップでは、これらのCR推定値をRLエージェントの観察空間に含め、その状況意識を高める。 複数の障害物の中で移動する必要のある困難な環境で、異なるRLエージェントを訓練することで、2段階のアプローチのパワーを説明する。 障害物の非線形運動は確率過程と周期パターンに基づいて例示的にモデル化されるが,我々のアーキテクチャは任意の障害物力学に適している。 実験の結果、観測空間にCRメトリクスを組み込むことで、考慮された環境における衝突回数の半分に相当する報酬の2倍のパフォーマンスが得られることがわかった。 また,海上交通と実世界の船舶軌道データに基づいて,RL環境における提案手法の検証を行う。 さらに,アーキテクチャの性能改善は適用されたRLアルゴリズムとは無関係であることを示す。

Dynamic obstacle avoidance (DOA) is a fundamental challenge for any autonomous vehicle, independent of whether it operates in sea, air, or land. This paper proposes a two-step architecture for handling DOA tasks by combining supervised and reinforcement learning (RL). In the first step, we introduce a data-driven approach to estimate the collision risk (CR) of an obstacle using a recurrent neural network, which is trained in a supervised fashion and offers robustness to non-linear obstacle movements. In the second step, we include these CR estimates into the observation space of an RL agent to increase its situational awareness. We illustrate the power of our two-step approach by training different RL agents in a challenging environment that requires to navigate amid multiple obstacles. The non-linear movements of obstacles are exemplarily modeled based on stochastic processes and periodic patterns, although our architecture is suitable for any obstacle dynamics. The experiments reveal that integrating our CR metrics into the observation space doubles the performance in terms of reward, which is equivalent to halving the number of collisions in the considered environment. We also perform a generalization experiment to validate the proposal in an RL environment based on maritime traffic and real-world vessel trajectory data. Furthermore, we show that the architecture's performance improvement is independent of the applied RL algorithm.
翻訳日:2024-08-21 04:07:00 公開日:2024-08-19
# 自然の精度劣化軽減のためのトポロジー保存補助訓練

Topology-preserving Adversarial Training for Alleviating Natural Accuracy Degradation ( http://arxiv.org/abs/2311.17607v2 )

ライセンス: Link先を確認
Xiaoyue Mi, Fan Tang, Yepeng Weng, Danding Wang, Juan Cao, Sheng Tang, Peng Li, Yang Liu, (参考訳) ニューラルネットワークの堅牢性を向上する効果にもかかわらず、逆行訓練は自然の精度劣化問題、すなわち自然のサンプルの精度が著しく低下している。 本研究では, 自然な精度劣化が, 定量的, 定性的な実験により, 表現空間における自然試料位相の破壊と密接に関連していることを明らかにする。 本研究は, 自然試料のトポロジー構造を, 自然試料のみに基づいて学習した標準モデルから保存することにより, 問題を緩和するトポロジー保存型逆トポロジートポグラフィ(TRAIN)を提案する。 さらなる正規化として,本手法は両面を活かして,様々な一般的な対角訓練アルゴリズムと組み合わせることができる。 CIFAR-10, CIFAR-100, Tiny ImageNet の大規模な実験により, 提案手法は, 多くの場合, 様々な強いベースラインに対して一貫した, 重要な改善を達成できることを示した。 具体的には、追加データなしでは、TRAINは自然精度が8.86%、堅牢さが6.33%向上する。

Despite the effectiveness in improving the robustness of neural networks, adversarial training has suffered from the natural accuracy degradation problem, i.e., accuracy on natural samples has reduced significantly. In this study, we reveal that natural accuracy degradation is highly related to the disruption of the natural sample topology in the representation space by quantitative and qualitative experiments. Based on this observation, we propose Topology-pReserving Adversarial traINing (TRAIN) to alleviate the problem by preserving the topology structure of natural samples from a standard model trained only on natural samples during adversarial training. As an additional regularization, our method can be combined with various popular adversarial training algorithms, taking advantage of both sides. Extensive experiments on CIFAR-10, CIFAR-100, and Tiny ImageNet show that our proposed method achieves consistent and significant improvements over various strong baselines in most cases. Specifically, without additional data, TRAIN achieves up to 8.86% improvement in natural accuracy and 6.33% improvement in robust accuracy.
翻訳日:2024-08-21 04:07:00 公開日:2024-08-19
# リモートセンシング画像におけるエンドツーエンド物体検出のための効率的なデコーダ

Efficient Decoder for End-to-End Oriented Object Detection in Remote Sensing Images ( http://arxiv.org/abs/2311.17629v3 )

ライセンス: Link先を確認
Jiaqi Zhao, Zeyu Ding, Yong Zhou, Hancheng Zhu, Wenliang Du, Rui Yao, Abdulmotaleb El Saddik, (参考訳) リモートセンシング画像のオブジェクトインスタンスは、多方向、様々なスケール、密度分布で分散することが多い。 これらの問題は、マルチスケール機能アライメントや多数のクエリを含むエンドツーエンドのオブジェクト指向オブジェクト検出器に課題をもたらす。 これらの制約に対処するため,ローテートされたRoIアテンション(RRoIアテンション)と選択離散キュー(SDQ)の2つの技術を組み込んだ,効率的なデコーダを備えたエンドツーエンド指向検出器を提案する。 具体的には、RRoIの注意は、クロスアテンション機構を通じて関心のある方向の領域に効果的に焦点を合わせ、マルチスケールな特徴を整列させる。 SDQは中間デコーダ層からクエリを収集し、同様のクエリをフィルタして異なるクエリを取得する。 提案したSDQは、冗長な初期クエリや追加の補助ブランチを導入することなく、1対1のラベル割り当ての最適化を容易にする。 5つのデータセットに対する大規模な実験により,本手法の有効性が示された。 特に,DIOR-R (67.31% mAP), DOTA-v1.5 (67.43% mAP), DOTA-v2.0 (53.28% mAP) におけるResNet50バックボーンの最先端性能を実現する。

Object instances in remote sensing images often distribute with multi-orientations, varying scales, and dense distribution. These issues bring challenges to end-to-end oriented object detectors including multi-scale features alignment and a large number of queries. To address these limitations, we propose an end-to-end oriented detector equipped with an efficient decoder, which incorporates two technologies, Rotated RoI attention (RRoI attention) and Selective Distinct Queries (SDQ). Specifically, RRoI attention effectively focuses on oriented regions of interest through a cross-attention mechanism and aligns multi-scale features. SDQ collects queries from intermediate decoder layers and then filters similar queries to obtain distinct queries. The proposed SDQ can facilitate the optimization of one-to-one label assignment, without introducing redundant initial queries or extra auxiliary branches. Extensive experiments on five datasets demonstrate the effectiveness of our method. Notably, our method achieves state-of-the-art performance on DIOR-R (67.31% mAP), DOTA-v1.5 (67.43% mAP), and DOTA-v2.0 (53.28% mAP) with the ResNet50 backbone.
翻訳日:2024-08-21 03:57:15 公開日:2024-08-19
# 工学設計知識の言語的・構造的基礎

Linguistic and Structural Basis of Engineering Design Knowledge ( http://arxiv.org/abs/2312.06355v3 )

ライセンス: Link先を確認
L. Siddharth, Jianxi Luo, (参考訳) 自然言語のアーティファクト記述は、エンジニアリング設計知識の主要なキャリアであり、その検索、表現、再利用は、設計プロセスにおける知識集約的なタスクをサポートするのに不可欠である。 本稿では,特許取得したアーティファクト記述から設計知識を知識グラフとして抽出し,言語的・構造的基盤を理解するためにこれらを検討する。 本研究の目的は,デザイン知識の従来的・存在論的視点を推し進め,デザイン環境に価値ある知識を反映した自然言語応答の表現方法について,Large-Language Models (LLMs) を指導することである。 技術クラスによって階層化された特許のサンプルから,33,881個の知識グラフを収集した。 言語レベルでは、ユニークなエンティティの周波数と関係関係のZipf分布解析を行い、それぞれ64と37の一般化可能な言語構文を識別する。 関係は主に属性('of')、構造('in'、'with')、目的('to'、'for')、階層('include')、例示(' such')、行動('to'、'from')を表す。 構造的基盤として,生物・生態ネットワークの研究からインスピレーションを得て,特許知識グラフからモチーフを発見する。 4つの3ノードと4つの4ノードのサブグラフパターンを、収束してシーケンス [->...->]、アグリゲーション [->...<-]、階層 [<-...->] に単純化できる。 これらの結果に基づき,設計知識の構築とモジュール化を支援するため,エンティティとリレーションシップの強化戦略と階層構造の解明を提案する。

Natural language artefact descriptions are primary carriers of engineering design knowledge, whose retrieval, representation, and reuse are fundamental to supporting knowledge-intensive tasks in the design process. In this paper, we explicate design knowledge from patented artefact descriptions as knowledge graphs and examine these to understand the linguistic and structural basis. The purpose of our work is to advance the traditional and ontological perspectives of design knowledge and to guide Large-Language Models (LLMs) on how to articulate natural language responses that reflect knowledge that is valuable in a design environment. We populate 33,881 knowledge graphs from a sample of patents stratified according to technology classes. For linguistic basis, we conduct Zipf distribution analyses on the frequencies of unique entities and relationships to identify 64 and 37 generalisable linguistic syntaxes respectively. The relationships largely represent attributes ('of'), structure ('in', 'with'), purpose ('to', 'for'), hierarchy ('include'), exemplification ('such as'), and behaviour ('to', 'from'). For structural basis, we draw inspiration from various studies on biological/ecological networks and discover motifs from patent knowledge graphs. We identify four 3-node and four 4-node subgraph patterns that could be converged and simplified into sequence [->...->], aggregation [->...<-], and hierarchy [<-...->]. Based on these results, we suggest concretisation strategies for entities and relationships and explicating hierarchical structures, potentially aiding the construction and modularisation of design knowledge.
翻訳日:2024-08-21 03:57:15 公開日:2024-08-19
# DomainForensics: 双方向適応によるドメイン間の顔偽造の露呈

DomainForensics: Exposing Face Forgery across Domains via Bi-directional Adaptation ( http://arxiv.org/abs/2312.10680v2 )

ライセンス: Link先を確認
Qingxuan Lv, Yuezun Li, Junyu Dong, Sheng Chen, Hui Yu, Huiyu Zhou, Shu Zhang, (参考訳) 最近のDeepFake検出手法は、公開データセットでは優れた性能を示しているが、新しい偽造品では著しく劣化している。 進化を続ける生成技術によって、新しい偽造物が毎日出現するので、この問題を解決することが重要である。 データレベルで実証的に既存のトレースを探すことで、この問題に対する多くの取り組みがなされている。 本稿では、この問題を再考し、教師なし領域適応の観点から新しい解決策を提案する。 私たちのソリューションはDomainForensicsと呼ばれ、既知の偽造者から新しい偽造者へ偽造の知識を転送することを目的としています。 近年の取り組みとは異なり、私たちのソリューションはデータビューではなく、DeepFake検出器の学習戦略に重点を置いており、ドメイン不一致の調整を通じて新しい偽造の知識を捉えている。 特に、セマンティッククラスカテゴリの知識伝達を考慮した一般的なドメイン適応手法とは異なり、適用範囲が限られているため、我々の手法は微妙な偽の痕跡を捉えている。 本稿では,ドメイン間における偽の知識の獲得を目的とした,新たな双方向適応戦略について述べる。 具体的には、フォワード・アダプティブとバックワード・アダプティブの両方を考慮し、フォワード・アダプティブにおいてソース・ドメインからターゲット・ドメインにフォージェリー・ナレッジを転送し、そのアダプティブをターゲット・ドメインからソース・ドメインにバック・アダプティブで戻す。 フォワード適応では、ソースドメインにおけるDeepFake検出器の教師あり訓練を行い、敵の特徴適応を併用して、既知の偽造物から新しい偽造物へ操作された顔を検出する能力を転送する。 後方適応では,新たな鍛造物に対する自己蒸留と対向適応を結合することにより,知識伝達をさらに改善する。 これにより、検出器はラベルのないデータから新しい偽造機能を公開することができ、既知の知識を忘れないようにすることができる。

Recent DeepFake detection methods have shown excellent performance on public datasets but are significantly degraded on new forgeries. Solving this problem is important, as new forgeries emerge daily with the continuously evolving generative techniques. Many efforts have been made for this issue by seeking the commonly existing traces empirically on data level. In this paper, we rethink this problem and propose a new solution from the unsupervised domain adaptation perspective. Our solution, called DomainForensics, aims to transfer the forgery knowledge from known forgeries to new forgeries. Unlike recent efforts, our solution does not focus on data view but on learning strategies of DeepFake detectors to capture the knowledge of new forgeries through the alignment of domain discrepancies. In particular, unlike the general domain adaptation methods which consider the knowledge transfer in the semantic class category, thus having limited application, our approach captures the subtle forgery traces. We describe a new bi-directional adaptation strategy dedicated to capturing the forgery knowledge across domains. Specifically, our strategy considers both forward and backward adaptation, to transfer the forgery knowledge from the source domain to the target domain in forward adaptation and then reverse the adaptation from the target domain to the source domain in backward adaptation. In forward adaptation, we perform supervised training for the DeepFake detector in the source domain and jointly employ adversarial feature adaptation to transfer the ability to detect manipulated faces from known forgeries to new forgeries. In backward adaptation, we further improve the knowledge transfer by coupling adversarial adaptation with self-distillation on new forgeries. This enables the detector to expose new forgery features from unlabeled data and avoid forgetting the known knowledge of known...
翻訳日:2024-08-21 03:57:15 公開日:2024-08-19
# 物体中心運動セグメンテーションのための外観ベースリファインメント

Appearance-Based Refinement for Object-Centric Motion Segmentation ( http://arxiv.org/abs/2312.11463v2 )

ライセンス: Link先を確認
Junyu Xie, Weidi Xie, Andrew Zisserman, (参考訳) 本研究の目的は,複雑な視覚シーンにおける独立して動く物体の発見,セグメント化,追跡である。 従来のアプローチでは、動きのセグメンテーションに光の流れを用いることが検討されており、部分的な動き、背景の注意散らし、物体の調音や相互作用による不完全な予測につながっている。 この問題に対処するために,ビデオストリームの時間的一貫性を活用し,不正確なフローベース提案を補正する外観改善手法を提案する。 提案手法は,高精度なフロー予測マスクを模範として識別するシーケンスレベルの選択機構と,模範情報に基づく問題マスを洗練するオブジェクト中心アーキテクチャを含む。 このモデルは、合成データに基づいて事前訓練され、実世界のビデオに自己監督的に適応し、人間のアノテーションを必要としない。 パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。 単一対象セグメンテーションにおける競合性能は高いが,複数対象セグメンテーションの課題では既存モデルよりも優れていた。 最後に、フレームごとのセグメンテーションモデルに対するプロンプトとして、我々のモデルを使用することの利点について検討する。

The goal of this paper is to discover, segment, and track independently moving objects in complex visual scenes. Previous approaches have explored the use of optical flow for motion segmentation, leading to imperfect predictions due to partial motion, background distraction, and object articulations and interactions. To address this issue, we introduce an appearance-based refinement method that leverages temporal consistency in video streams to correct inaccurate flow-based proposals. Our approach involves a sequence-level selection mechanism that identifies accurate flow-predicted masks as exemplars, and an object-centric architecture that refines problematic masks based on exemplar information. The model is pre-trained on synthetic data and then adapted to real-world videos in a self-supervised manner, eliminating the need for human annotations. Its performance is evaluated on multiple video segmentation benchmarks, including DAVIS, YouTubeVOS, SegTrackv2, and FBMS-59. We achieve competitive performance on single-object segmentation, while significantly outperforming existing models on the more challenging problem of multi-object segmentation. Finally, we investigate the benefits of using our model as a prompt for the per-frame Segment Anything Model.
翻訳日:2024-08-21 03:57:15 公開日:2024-08-19
# 長めのビデオ理解のためのテキストコンディション型リサンプラー

Text-Conditioned Resampler For Long Form Video Understanding ( http://arxiv.org/abs/2312.11897v3 )

ライセンス: Link先を確認
Bruno Korbar, Yongqin Xian, Alessio Tonioni, Andrew Zisserman, Federico Tombari, (参考訳) 本稿では,学習済みで凍結したビジュアルエンコーダと大規模言語モデル(LLM)を用いて,タスクの長いビデオシーケンスを処理するテキストコンディショニングビデオリサンプラー(TCR)モジュールを提案する。 TCRはテキスト条件が与えられたビデオから関連する視覚的特徴をローカライズし、LLMに提供してテキスト応答を生成する。 軽量な設計とクロスアテンションの使用により、TCRは100フレーム以上の処理を、平易な注意と最適化された実装なしで行うことができる。 以下に貢献する。 i) 学習済みの視覚・言語モデルをブリッジする訓練手法とともに,タスクで条件付き長大な映像を処理できるトランスフォーマーベースのサンプリングアーキテクチャを設計する。 (ii)より長い映像知覚の恩恵を受ける可能性のあるタスクを識別し、 3)NextQA,EgoSchema,EGO4D-LTAの課題など,幅広い評価課題において有効性を実証的に検証した。

In this paper we present a text-conditioned video resampler (TCR) module that uses a pre-trained and frozen visual encoder and large language model (LLM) to process long video sequences for a task. TCR localises relevant visual features from the video given a text condition and provides them to a LLM to generate a text response. Due to its lightweight design and use of cross-attention, TCR can process more than 100 frames at a time with plain attention and without optimised implementations. We make the following contributions: (i) we design a transformer-based sampling architecture that can process long videos conditioned on a task, together with a training method that enables it to bridge pre-trained visual and language models; (ii) we identify tasks that could benefit from longer video perception; and (iii) we empirically validate its efficacy on a wide variety of evaluation tasks including NextQA, EgoSchema, and the EGO4D-LTA challenge.
翻訳日:2024-08-21 03:57:15 公開日:2024-08-19
# ラベルスキュード・フェデレーションラーニングにおけるバカント授業の探索

Exploring Vacant Classes in Label-Skewed Federated Learning ( http://arxiv.org/abs/2401.02329v2 )

ライセンス: Link先を確認
Kuangpu Guo, Yuhe Ding, Jian Liang, Ran He, Zilei Wang, Tieniu Tan, (参考訳) クライアント間の局所的なラベル分布の相違を特徴とするラベルスキューは、連合学習において大きな課題となる。 マイノリティクラスは、局所的な不均衡なデータに過度に適合するため、より正確な精度に苦しむため、従来の手法では、局所的な訓練中にクラスバランスの学習技術が組み込まれていることが多い。 これらの手法により,全てのクラスの平均精度が向上するが,クライアントのデータ分布から欠落したカテゴリに参照する空きクラスは認識されていない。 さらに、グローバルモデルと比較してマイノリティクラスの局所モデルの精度にはまだ差がある。 本稿では, ラベルスキュード・フェデレート学習における新しいアプローチであるFedVLSを紹介し, 空洞クラス蒸留とロジット抑制を同時に統合する。 具体的には、各クライアントでのローカルトレーニング中の知識蒸留を利用して、グローバルモデルから空クラスに関連する重要な情報を保持する。 さらに、ロジット抑制は、非ラベルクラスに対するネットワークロジットを直接罰し、多数派クラスに偏った少数派クラスの誤分類に効果的に対処する。 広範囲にわたる実験により、FedVLSの有効性が検証され、ラベルスキューの度合いの異なる様々なデータセットにわたる従来の最先端(SOTA)手法よりも優れた性能を示した。 コードは補足資料で入手できる。

Label skews, characterized by disparities in local label distribution across clients, pose a significant challenge in federated learning. As minority classes suffer from worse accuracy due to overfitting on local imbalanced data, prior methods often incorporate class-balanced learning techniques during local training. Although these methods improve the mean accuracy across all classes, we observe that vacant classes-referring to categories absent from a client's data distribution-remain poorly recognized. Besides, there is still a gap in the accuracy of local models on minority classes compared to the global model. This paper introduces FedVLS, a novel approach to label-skewed federated learning that integrates both vacant-class distillation and logit suppression simultaneously. Specifically, vacant-class distillation leverages knowledge distillation during local training on each client to retain essential information related to vacant classes from the global model. Moreover, logit suppression directly penalizes network logits for non-label classes, effectively addressing misclassifications in minority classes that may be biased toward majority classes. Extensive experiments validate the efficacy of FedVLS, demonstrating superior performance compared to previous state-of-the-art (SOTA) methods across diverse datasets with varying degrees of label skews. Code is available in the supplementary material.
翻訳日:2024-08-21 03:57:15 公開日:2024-08-19
# 重力場の量子性:モノガミー関係の立場から

Quantumness of gravitational field: A perspective on monogamy relation ( http://arxiv.org/abs/2401.03867v2 )

ライセンス: Link先を確認
Yuuki Sugiyama, Akira Matsumura, Kazuhiro Yamamoto, (参考訳) 巨大な量子粒子によって誘導される重力場の量子重ね合わせ現象を理解することは、量子重力の重要な出発点である。 本研究の目的は、重力場の量子重ね合わせ現象の理解を深めることである。 この目的のために、2つの大粒子と互いに絡み合う重力場からなる三部構造における絡み合い(モノガミー関係)のトレードオフ関係を考察する。 したがって、2つの粒子が相互に情報を交換できない場合、それらは分離可能な状態にあり、粒子と重力場は常に絡み合っている。 さらに、2つの粒子が互いに情報を送ることができても、2つの粒子と重力場の間にはトレードオフがある。 また、量子不協和を用いた重力場の量子重ね合わせの挙動についても検討する。 量子的不協和は粒子の重ね合わせの長さのスケールによって増加する。 この結果は、重力場の量子化と重力場の量子重ね合わせの意味との関係を理解するのに役立つかもしれない。

Understanding the phenomenon of quantum superposition of gravitational fields induced by massive quantum particles is an important starting point for quantum gravity. The purpose of this study is to deepen our understanding of the phenomenon of quantum superposition of gravitational fields. To this end, we consider a trade-off relation of entanglement (monogamy relation) in a tripartite system consisting of two massive particles and a gravitational field that may be entangled with each other. Consequently, if two particles cannot exchange information mutually, they are in a separable state, and the particle and gravitational field are always entangled. Furthermore, even when two particles can send information to each other, there is a trade-off between the two particles and the gravitational field. We also investigate the behavior of the quantum superposition of the gravitational field using quantum discord. We find that quantum discord increases depending on the length scale of the particle superposition. Our results may help understand the relationship between the quantization of the gravitational field and the meaning of the quantum superposition of the gravitational field.
翻訳日:2024-08-21 03:47:26 公開日:2024-08-19
# Clue-Guided Path Exploration: 情報ブラックボックス問題に対処するための大規模言語モデルを用いた知識グラフ検索の最適化

Clue-Guided Path Exploration: Optimizing Knowledge Graph Retrieval with Large Language Models to Address the Information Black Box Challenge ( http://arxiv.org/abs/2401.13444v2 )

ライセンス: Link先を確認
Dehao Tao, Feng Huang, Congqi Wang, Yongfeng Huang, Minghu Jiang, (参考訳) 近年、大きな言語モデル(LLM)は目覚ましい機能を見せている。 しかし、知識の更新は課題を引き起こし、不慣れなクエリに直面すると不正確になる可能性がある。 この問題に対処するためには、知識グラフのような外部知識ベースと大きな言語モデルを統合することが実行可能なアプローチである。 鍵となる課題は、自然言語に基づく知識グラフから必要な知識を抽出し、高い意味論的理解を要求することである。 そのため、研究者はこれらのグラフからの知識検索に大規模言語モデルを直接活用することを検討している。 現在の取り組みは、通常、大きな言語モデルの包括的な問題解決能力に依存しています。 情報ブラックボックス(information black box)と呼ばれる問題は,このような手法の実用性に大きく影響すると考えられる。 さらに、このような手法は、質問が大きな言語モデルになじみのないシナリオでは効果が低い。 本稿では,大規模言語モデルに基づく知識検索を最適化するCGPE(Clue-Guided Path Exploration)フレームワークを提案する。 情報ブラックボックス」問題に対処し、複雑なタスクの代わりに単一タスクアプローチを採用することにより、知識グラフを取得するために大規模言語モデルを使用することの正確さと効率性を高めた。 オープンソースデータセットの実験では、CGPEは従来の手法よりも優れており、パラメータが少ないLCMに適用可能であることが明らかになった。 場合によっては、60億のパラメータを持つChatGLM3でさえ、GPT-4のパフォーマンスに匹敵する可能性がある。 さらに, LLMにおけるCGPEの呼び出し頻度は最小であり, 計算オーバーヘッドの低減が示唆された。 計算資源の制約に直面している組織や個人にとって、我々の研究は重要な実践的価値を提供する。

In recent times, large language models (LLMs) have showcased remarkable capabilities. However, updating their knowledge poses challenges, potentially leading to inaccuracies when confronted with unfamiliar queries. To address this issue, integrating external knowledge bases such as knowledge graphs with large language models is a viable approach. The key challenge lies in extracting the required knowledge from knowledge graphs based on natural language, demanding high semantic understanding. Therefore, researchers are considering leveraging large language models directly for knowledge retrieval from these graphs. Current efforts typically rely on the comprehensive problem-solving capabilities of large language models. We argue that a problem we term the 'information black box' can significantly impact the practical effectiveness of such methods. Moreover, this kind of methods is less effective for scenarios where the questions are unfamiliar to the large language models. In this paper, we propose a Clue-Guided Path Exploration (CGPE) framework to optimize knowledge retrieval based on large language models. By addressing the 'information black box' issue and employing single-task approaches instead of complex tasks, we have enhanced the accuracy and efficiency of using large language models for retrieving knowledge graphs. Experiments on open-source datasets reveal that CGPE outperforms previous methods and is highly applicable to LLMs with fewer parameters. In some instances, even ChatGLM3, with its 6 billion parameters, can rival the performance of GPT-4. Furthermore, the results indicate a minimal invocation frequency of CGPE on LLMs, suggesting reduced computational overhead. For organizations and individuals facing constraints in computational resources, our research offers significant practical value.
翻訳日:2024-08-21 03:47:26 公開日:2024-08-19
# 二重か無か: 量子力学における多時間(双)確率に対するコルモゴロフ拡張定理

Double or nothing: a Kolmogorov extension theorem for multitime (bi)probabilities in quantum mechanics ( http://arxiv.org/abs/2402.01218v3 )

ライセンス: Link先を確認
Davide Lonigro, Fattah Sakuldee, Łukasz Cywiński, Dariusz Chruściński, Piotr Szańkowski, (参考訳) 観測可能な観測値の測定によって繰り返し量子系を探索することによって得られる実時間確率分布は、一般的にコルモゴロフの整合性に反する。 したがって、1つの軌道のサンプリングの結果、そのような分布を解釈することはできない。 にもかかわらず、これらは1対の軌道のサンプリングの結果であることを示す。 この意味では、軌跡を諦めるのではなく、量子力学はそれらを二重化する必要がある。 この目的のために、複素数値双確率分布の族(つまり、元のサンプル空間の要素のペアで定義される)に適用可能なコルモゴロフ拡張定理の一般化を証明し、量子力学的シナリオでこの結果を利用する。 また、この結果と量子コム形式との関係についても論じる。

The multitime probability distributions obtained by repeatedly probing a quantum system via the measurement of an observable generally violate Kolmogorov's consistency property. Therefore, one cannot interpret such distributions as the result of the sampling of a single trajectory. We show that, nonetheless, they do result from the sampling of one pair of trajectories. In this sense, rather than give up on trajectories, quantum mechanics requires to double down on them. To this purpose, we prove a generalization of the Kolmogorov extension theorem that applies to families of complex-valued bi-probability distributions (that is, defined on pairs of elements of the original sample spaces), and we employ this result in the quantum mechanical scenario. We also discuss the relation of our results with the quantum comb formalism.
翻訳日:2024-08-21 03:47:26 公開日:2024-08-19
# 量子イマジナリー時間進化による連結非線形シュレーディンガー方程式の解法

Solving coupled Non-linear Schrödinger Equations via Quantum Imaginary Time Evolution ( http://arxiv.org/abs/2402.01623v3 )

ライセンス: Link先を確認
Yang Hong Li, Jim Al-Khalili, Paul Stevenson, (参考訳) 結合された非線形Schr\"{o}dinger方程式は多くの粒子系の力学を記述するのに不可欠である。 核ハートリー・フォック方程式の場合、そのような方程式の解として量子想像時間進化(ITE)アルゴリズムを提案する。 単純化されたスカイム相互作用モデルの下で、酸素-16核の基底状態エネルギーを計算し、その結果が古典的ITTアルゴリズムと一致することを示す。

Coupled non-linear Schr\"{o}dinger equations are crucial in describing dynamics of many particle systems. We present a quantum imaginary time evolution (ITE) algorithm as a solution to such equations in the case of nuclear Hartree-Fock equations. Under a simplified Skyrme interaction model, we calculate the ground state energy of an oxygen-16 nucleus and demonstrate that the result is in agreement with the classical ITE algorithm.
翻訳日:2024-08-21 03:47:26 公開日:2024-08-19
# UniMem: 長期の大規模言語モデルの統一ビューを目指して

UniMem: Towards a Unified View of Long-Context Large Language Models ( http://arxiv.org/abs/2402.03009v2 )

ライセンス: Link先を確認
Junjie Fang, Likai Tang, Hongzhe Bi, Yujia Qin, Si Sun, Zhenyu Li, Haolun Li, Yongjian Li, Xin Cong, Yankai Lin, Yukun Yan, Xiaodong Shi, Sen Song, Zhiyuan Liu, Maosong Sun, (参考訳) 長文処理は、大規模言語モデル(LLM)の適用性を制限する重要な能力である。 LLMの長文処理能力を高めるための様々な方法が存在するが、それらは独立した方法で開発され、その強度の体系的分析や統合が欠如しており、さらなる発展を妨げる。 本稿では,LLMのメモリ拡張の観点から,既存の長文メソッドを再構成するUniMemを紹介する。 メモリ管理、メモリ書き込み、メモリリード、メモリインジェクションの4つのコアディメンテーションによって区別されるUniMemは、研究者に長期コンテキストメソッドの体系的な探索を行う権限を与える。 我々は、UniMemに基づく16の既存手法を再フォーマットし、Transformer-XL、Memorizing Transformer、RTT、Longformerの4つの代表的な方法を分析する。 これらの分析に基づいて、これらのアルゴリズムの強みを統合する革新的なアプローチであるUniMixを提案する。 実験結果から、UniMixはベースラインよりも難易度が著しく低い長いコンテキストを扱う上で、優れた性能を発揮することが示された。

Long-context processing is a critical ability that constrains the applicability of large language models (LLMs). Although there exist various methods devoted to enhancing the long-context processing ability of LLMs, they are developed in an isolated manner and lack systematic analysis and integration of their strengths, hindering further developments. In this paper, we introduce UniMem, a Unified framework that reformulates existing long-context methods from the view of Memory augmentation of LLMs. Distinguished by its four core dimensions-Memory Management, Memory Writing, Memory Reading, and Memory Injection, UniMem empowers researchers to conduct systematic exploration of long-context methods. We re-formulate 16 existing methods based on UniMem and analyze four representative methods: Transformer-XL, Memorizing Transformer, RMT, and Longformer into equivalent UniMem forms to reveal their design principles and strengths. Based on these analyses, we propose UniMix, an innovative approach that integrates the strengths of these algorithms. Experimental results show that UniMix achieves superior performance in handling long contexts with significantly lower perplexity than baselines.
翻訳日:2024-08-21 03:47:26 公開日:2024-08-19
# CIC: 文化的イメージキャプションのためのフレームワーク

CIC: A framework for Culturally-aware Image Captioning ( http://arxiv.org/abs/2402.05374v3 )

ライセンス: Link先を確認
Youngsik Yun, Jihie Kim, (参考訳) Image Captioningは、BLIPのようなVLP(Vision-Language Pre-trained Model)を用いて画像から記述文を生成する。 しかし、現在の方法では、アジアの文化集団の人々が着用する伝統的な衣服など、画像に描かれている文化財の詳細な説明文が作成されていない。 本稿では,文化を表す画像の視覚的要素から抽出された文化的要素をキャプションとして記述する,CIC(Culturally-Aware Image Captioning)という新しい枠組みを提案する。 視覚的モダリティとLarge Language Models(LLMs)を適切なプロンプトで組み合わせた手法に着想を得て,(1)画像から文化的カテゴリに基づく質問,(2)視覚的質問回答(VQA)から文化的な視覚要素を抽出し,(3)LPMとプロンプトを併用して文化的に認識されたキャプションを生成する。 VLPをベースとした画像キャプティングベースラインと比較すると,文化の理解度が高い4つの文化グループから45人の被験者を対象に人的評価を行った結果,より文化的に記述的なキャプションが生成されることがわかった。 リソースはhttps://shane3606.github.io/cic.orgにある。 と。

Image Captioning generates descriptive sentences from images using Vision-Language Pre-trained models (VLPs) such as BLIP, which has improved greatly. However, current methods lack the generation of detailed descriptive captions for the cultural elements depicted in the images, such as the traditional clothing worn by people from Asian cultural groups. In this paper, we propose a new framework, Culturally-aware Image Captioning (CIC), that generates captions and describes cultural elements extracted from cultural visual elements in images representing cultures. Inspired by methods combining visual modality and Large Language Models (LLMs) through appropriate prompts, our framework (1) generates questions based on cultural categories from images, (2) extracts cultural visual elements from Visual Question Answering (VQA) using generated questions, and (3) generates culturally-aware captions using LLMs with the prompts. Our human evaluation conducted on 45 participants from 4 different cultural groups with a high understanding of the corresponding culture shows that our proposed framework generates more culturally descriptive captions when compared to the image captioning baseline based on VLPs. Resources can be found at https://shane3606.github.io/cic..
翻訳日:2024-08-21 03:47:26 公開日:2024-08-19
# CMA-ESを用いた脊椎手術ナビゲーションにおける剛体2D/3Dレジストレーションの最適化ベースライン

An Optimization-based Baseline for Rigid 2D/3D Registration Applied to Spine Surgical Navigation Using CMA-ES ( http://arxiv.org/abs/2402.05642v3 )

ライセンス: Link先を確認
Minheng Chen, Tonglong Li, Zhirun Zhang, Youyong Kong, (参考訳) 整形外科ロボットのナビゲーションシステムには,堅牢で効率的な2D/3D登録フレームワークが不可欠である。 外科用器具やインプラントの正確な位置情報を提供することができる。 近年、人工知能技術は急速に進歩しているが、従来の最適化に基づく登録手法は2D/3D登録の分野では不可欠であり、この手法の例外的な精度は、学習ベースの手法の処理後ステップと見なすことができるため、登録のための信頼性の高い保証を提供する。 本稿では,CMA-ESアルゴリズムに基づく粗粒度登録フレームワークを提案する。 脊椎の異なる部位のデータを用いて,本手法の集中的な試験を行った。 以上の結果から,本フレームワークが実際の整形外科手術データに及ぼす影響が示唆された。 この研究は、これまでの研究で使われている最適化に基づく手法を補完する追加の拡張と見なすことができる。

A robust and efficient optimization-based 2D/3D registration framework is crucial for the navigation system of orthopedic surgical robots. It can provide precise position information of surgical instruments and implants during surgery. While artificial intelligence technology has advanced rapidly in recent years, traditional optimization-based registration methods remain indispensable in the field of 2D/3D registration.he exceptional precision of this method enables it to be considered as a post-processing step of the learning-based methods, thereby offering a reliable assurance for registration. In this paper, we present a coarse-to-fine registration framework based on the CMA-ES algorithm. We conducted intensive testing of our method using data from different parts of the spine. The results shows the effectiveness of the proposed framework on real orthopedic spine surgery clinical data. This work can be viewed as an additional extension that complements the optimization-based methods employed in our previous studies.
翻訳日:2024-08-21 03:47:26 公開日:2024-08-19
# イオン四重項を持つ(1+1)D SU(2)格子ゲージ理論のディジタル量子シミュレーション

Digital quantum simulation of a (1+1)D SU(2) lattice gauge theory with ion qudits ( http://arxiv.org/abs/2402.07987v2 )

ライセンス: Link先を確認
Giuseppe Calajò, Giuseppe Magnifico, Claire Edmunds, Martin Ringbauer, Simone Montangero, Pietro Silvi, (参考訳) 本稿では,(1+1)D SU(2)非アーベル格子ゲージ理論と動的物質,ハードコアグルーオン・ハミルトニアン・ヤン・ミルズに対する量子シミュレーション手法を提案する。 ゲージ不変性を満たすクーデット、SU(2)ガウス法則を用いる。 一般化されたM\"olmer-S\"orensen ゲートのダイナミックスを効率的にシミュレートするための実験的実現可能性について論じる。 これらの資源を持つ浅い回路が、モデルのスケーラブルなデジタル量子シミュレーションを実現するのにいかに十分かを説明する。 また,このモデルでは,バリオン励起のような非アーベル場理論に特有の物理的関連性を動的に表すことが可能であることを示す。

We present a quantum simulation strategy for a (1+1)D SU(2) non-abelian lattice gauge theory with dynamical matter, a hardcore-gluon Hamiltonian Yang-Mills, tailored to a six-level trapped-ion qudit quantum processor, as recently experimentally realized. We employ a qudit encoding fulfilling gauge invariance, an SU(2) Gauss law. We discuss the experimental feasibility of generalized M\"olmer-S\"orensen gates used to efficiently simulate the dynamics. We illustrate how a shallow circuit with these resources is sufficient to implement scalable digital quantum simulation of the model. We also numerically show that this model, albeit simple, can dynamically manifest physically-relevant properties specific to non-abelian field theories, such as baryon excitations.
翻訳日:2024-08-21 03:47:26 公開日:2024-08-19
# 機械学習回帰タスクの校正統計の信頼性に対する重み付き不確実性と誤差分布の負の影響

Negative impact of heavy-tailed uncertainty and error distributions on the reliability of calibration statistics for machine learning regression tasks ( http://arxiv.org/abs/2402.10043v5 )

ライセンス: Link先を確認
Pascal Pernot, (参考訳) 1つは平均絶対誤差(MSE)と平均分散(MV)の差としてキャリブレーション誤差(CE)を推定することであり、もう1つは平均二乗zスコア(ZMS)と1である。 問題は、両方のアプローチが、最近の機械学習不確実性定量化(ML-UQ)文学からのデータセットのアンサンブルのために示されているように、異なる結論につながる可能性があることである。 ML-UQデータセットの頻繁な特徴である重み付き不確実性と誤り分布に対しては,MV,MSE,その信頼区間の推定が信頼性に欠けることが示されている。 対照的に、ZMS統計は感度が低く、この文脈でもっとも信頼性の高いアプローチを提供しており、重い尾のzスコア分布を持つデータセットは、非常に注意を払って検討されるべきであることを認めている。 残念なことに、同じ問題が、一般的なenceのような条件付きキャリブレーション統計や、同様の統計に基づくポストホックキャリブレーション手法にも影響することが期待されている。 概説された問題を回避するためのいくつかの解決策が提案されている。

Average calibration of the (variance-based) prediction uncertainties of machine learning regression tasks can be tested in two ways: one is to estimate the calibration error (CE) as the difference between the mean absolute error (MSE) and the mean variance (MV); the alternative is to compare the mean squared z-scores (ZMS) to 1. The problem is that both approaches might lead to different conclusions, as illustrated in this study for an ensemble of datasets from the recent machine learning uncertainty quantification (ML-UQ) literature. It is shown that the estimation of MV, MSE and their confidence intervals becomes unreliable for heavy-tailed uncertainty and error distributions, which seems to be a frequent feature of ML-UQ datasets. By contrast, the ZMS statistic is less sensitive and offers the most reliable approach in this context, still acknowledging that datasets with heavy-tailed z-scores distributions should be considered with great care. Unfortunately, the same problem is expected to affect also conditional calibrations statistics, such as the popular ENCE, and very likely post-hoc calibration methods based on similar statistics. Several solutions to circumvent the outlined problems are proposed.
翻訳日:2024-08-21 03:37:26 公開日:2024-08-19
# 自動車運転のための大規模言語モデルに基づくハイブリッド推論

Hybrid Reasoning Based on Large Language Models for Autonomous Car Driving ( http://arxiv.org/abs/2402.13602v4 )

ライセンス: Link先を確認
Mehdi Azarafza, Mojtaba Nayyeri, Charles Steinmetz, Steffen Staab, Achim Rettberg, (参考訳) 大規模言語モデル(LLM)は、テキストや画像を理解し、人間に似たテキストを生成し、複雑な推論タスクを実行する能力において、大きな注目を集めている。 しかし、この先進的な推論を動的状況における意思決定のための自然言語テキストの組み合わせで一般化するには、さらなる探索が必要である。 本研究では,LLMが算術的推論と常識的推論の組み合わせ,特に自律運転シナリオにおいてどの程度うまく適応できるかを考察する。 LLMのハイブリッド推論能力は、検出された物体やセンサデータを分析し、運転規則や物理法則を理解し、追加のコンテキストを提供することによって、自律運転を改善することができると仮定する。 これは、(気象条件による)視界の低い決定のような複雑なシナリオに対処する。 我々は,CARLA内の人間生成の真実と比較し,その精度に基づいてLarge Language Models(LLMs)を評価した。 その結果、LLMに画像(検出対象物)とセンサーデータを組み合わせると、様々な天候条件下での自動運転車のブレーキやスロットル制御の正確な情報が得られることがわかった。 この定式化と回答は自動操縦システムの意思決定に役立てることができる。

Large Language Models (LLMs) have garnered significant attention for their ability to understand text and images, generate human-like text, and perform complex reasoning tasks. However, their ability to generalize this advanced reasoning with a combination of natural language text for decision-making in dynamic situations requires further exploration. In this study, we investigate how well LLMs can adapt and apply a combination of arithmetic and common-sense reasoning, particularly in autonomous driving scenarios. We hypothesize that LLMs hybrid reasoning abilities can improve autonomous driving by enabling them to analyze detected object and sensor data, understand driving regulations and physical laws, and offer additional context. This addresses complex scenarios, like decisions in low visibility (due to weather conditions), where traditional methods might fall short. We evaluated Large Language Models (LLMs) based on accuracy by comparing their answers with human-generated ground truth inside CARLA. The results showed that when a combination of images (detected objects) and sensor data is fed into the LLM, it can offer precise information for brake and throttle control in autonomous vehicles across various weather conditions. This formulation and answers can assist in decision-making for auto-pilot systems.
翻訳日:2024-08-21 03:37:26 公開日:2024-08-19
# FedFDP: 差別化プライバシによる公正なフェデレーション学習

FedFDP: Fairness-Aware Federated Learning with Differential Privacy ( http://arxiv.org/abs/2402.16028v3 )

ライセンス: Link先を確認
Xinpeng Ling, Jie Fu, Kuncan Wang, Huifa Li, Tong Cheng, Zhili Chen, (参考訳) Federated Learning(FL)は、データサイロの課題を克服する新しい機械学習パラダイムであり、大きな注目を集めている。 しかし、フェデレートされた学習は公正さとデータのプライバシーの課題に直面している。 両課題を同時に解決するために,我々はまず,FedFairと呼ばれるフェアネス対応のフェデレーション学習アルゴリズムを提案する。 次に、FedFairに基づいて差分プライバシー保護を導入し、公正性、プライバシ保護、モデルパフォーマンスのトレードオフに対処するFedFDPアルゴリズムを構築します。 FedFDPでは、公平性と差分プライバシーの関係を識別するために、公平性を考慮した勾配クリッピング手法を設計した。 収束解析により,最適なモデル性能と公平性を同時に達成するための最適公平度調整パラメータを決定した。 さらに、付加的なアップロードされた損失値に対して、プライバシ予算の消費を最小限に抑える適応的なクリッピング手法を提案する。 実験結果から,FedFDPはモデル性能と公平性において,最先端のソリューションよりも優れていたことが示唆された。 コードとデータセットは受理後に公開される。

Federated learning (FL) is a new machine learning paradigm to overcome the challenge of data silos and has garnered significant attention. However, federated learning faces challenges in fairness and data privacy. To address both of the above challenges simultaneously, we first propose a fairness-aware federated learning algorithm, termed FedFair. Then based on FedFair, we introduce differential privacy protection to form the FedFDP algorithm to address the trade-offs among fairness, privacy protection, and model performance. In FedFDP, we designed an fairness-aware gradient clipping technique to identify the relationship between fairness and differential privacy. Through convergence analysis, we determined the optimal fairness adjustment parameters to simultaneously achieve the best model performance and fairness. Additionally, for the extra uploaded loss values, we present an adaptive clipping method to minimize privacy budget consumption. Extensive experimental results demonstrate that FedFDP significantly outperforms state-of-the-art solutions in terms of model performance and fairness. Codes and datasets will be made public after acceptance.
翻訳日:2024-08-21 03:37:26 公開日:2024-08-19
# 時間依存性誘電体構造の検出の高度化:レイリー限界と量子真空

Enhanced detection of time-dependent dielectric structure: Rayleigh's limit and quantum vacuum ( http://arxiv.org/abs/2402.18268v3 )

ライセンス: Link先を確認
Vanik E. Mkrtchian, Hakob S. Avetisyan, Armen E. Allahverdyan, (参考訳) 散乱光の検出は誘電体の感受性を決定することができる。 レイリー基準は通常、入射光の波長よりも細部が遠距離領域から決定できない。 誘電体を運動させる(あるいは時間変調する)ことは、その感受性を決定するのに有用であることを示す。 この逆量子光学問題は、2つの異なるバージョンで研究されている。 一 誘電体感受性が移動誘電体に類似した空間的かつ時間的に調節されたメタマテリアル。 (II) 定速誘電体移動は相対論的光学において検討した問題である。 光検出信号に対する真空寄与は負の周波数のためゼロではない。 したがって、誘電体上の入射場を照らすことなく、特定の感受性特性を決定できる。 この効果は遠距離領域に関係している。 (i)および近距離領域(おそらくは遠距離領域) (II)。 入射光を照らすと誘電率の判定が強化される。 (i) 遠体領域の古典的レイリー極限を超える。

Detection of scattered light can determine the susceptibility of dielectrics. Rayleigh criterion normally limits it: details finer than the wavelength of the incident light cannot be determined from the far-field domain. We show that putting the dielectric in motion (or time-modulating it) can be useful for determining its susceptibility. This inverse quantum optics problem is studied in two different versions: (i) A spatially and temporally modulated metamaterial, whose dielectric susceptibility is similar to moving dielectrics. (ii) A dielectric moving with a constant velocity, a problem we studied within relativistic optics. The vacuum contribution to the photodetection signal is non-zero due to the negative frequencies. Hence, certain susceptibility features can be determined without shining any incident field on the dielectric. This effect pertains to the far-field domain for (i), and to the near-field (but possibly long-range) domain for (ii). When the incident light is shined, the determination of dielectric susceptibility is enhanced for (i) and goes beyond the classical Rayleigh limit in the far-field domain.
翻訳日:2024-08-21 03:37:26 公開日:2024-08-19
# SAR画像における船舶検出のためのWilcoxonノンパラメトリックCFARスキーム

Wilcoxon Nonparametric CFAR Scheme for Ship Detection in SAR Image ( http://arxiv.org/abs/2402.18579v2 )

ライセンス: Link先を確認
Xiangwei Meng, (参考訳) ガウス分布,ガンマ分布,ワイブル分布,ログ正規分布,G0分布,アルファ安定分布など,様々な統計分布に基づくCFAR検出アルゴリズムは,現在,SAR画像における船舶目標の検出に最も広く利用されている。 しかし、SAR画像の粗い背景は複雑で可変である。 実際の散乱背景が推定された統計分布から逸脱すると、パラメトリックCFAR検出器の性能は低下する。 パラメトリックCFARスキームに加えて、既知のクラッタ分布を仮定することなく、目標検出に対する一定の誤警報率を維持することができる、別のタイプの非パラメトリックCFAR検出器が存在する。 本研究では,SAR画像における船体検出のためのWilcoxonノンパラメトリックCFARスキームを提案し解析し,判定閾値を決定するためにWilcoxonノンパラメトリック検出器の誤警報率の閉形式を示す。 Radarsat-2, ICEYE-X6, Gaofen-3 SAR画像上のいくつかの典型的なパラメトリックCFARスキームと比較して、ウィルコクソン非パラメトリック検出器の異なる検出背景における良好な誤報性能を維持するためのロバスト性を明らかにし、荒面における弱い船の検知性能をある程度改善した。 さらに、ウィルコクソン非パラメトリック検出器は、サイドローブから生じる誤報をある程度抑制でき、検出速度は速い。

The parametric constant false alarm rate (CFAR) detection algorithms which are based on various statistical distributions, such as Gaussian, Gamma, Weibull, log-normal, G0 distribution, alpha-stable distribution, etc, are most widely used to detect the ship targets in SAR image at present. However, the clutter background in SAR images is complicated and variable. When the actual clutter background deviates from the assumed statistical distribution, the performance of the parametric CFAR detector will deteriorate. In addition to the parametric CFAR schemes, there is another class of nonparametric CFAR detectors which can maintain a constant false alarm rate for the target detection without the assumption of a known clutter distribution. In this work, the Wilcoxon nonparametric CFAR scheme for ship detection in SAR image is proposed and analyzed, and a closed form of the false alarm rate for the Wilcoxon nonparametric detector to determine the decision threshold is presented. By comparison with several typical parametric CFAR schemes on Radarsat-2, ICEYE-X6 and Gaofen-3 SAR images, the robustness of the Wilcoxon nonparametric detector to maintain a good false alarm performance in different detection backgrounds is revealed, and its detection performance for the weak ship in rough sea surface is improved to some extent. Moreover, the Wilcoxon nonparametric detector can suppress the false alarms resulting from the sidelobes at some degree and its detection speed is fast.
翻訳日:2024-08-21 03:37:26 公開日:2024-08-19
# 非対称情報確率ゲームにおける一階信念を用いた客観的オンライン学習

Conjectural Online Learning with First-order Beliefs in Asymmetric Information Stochastic Games ( http://arxiv.org/abs/2402.18781v4 )

ライセンス: Link先を確認
Tao Li, Kim Hammar, Rolf Stadler, Quanyan Zhu, (参考訳) 非対称情報確率ゲーム(AISG)は、サイバー物理システムやITインフラなど、多くの複雑な社会技術システムで発生する。 AISGの既存の計算方法は主にオフラインであり、平衡偏差に適応できない。 さらに、現在の手法は、信念階層を避けるために、特定の情報構造に限られている。 このような制約を考慮して,AISGにおける汎用情報構造に基づくオンライン学習手法であるConjectural Online Learning (COL)を提案する。 COLは予測器・アクター・クリティカル(FAC)アーキテクチャを使用し、主観的な予測は外見上の地平線内で相手の戦略を推測し、ベイズ学習は予想を校正する。 情報フィードバックに基づいて非定常環境に戦略を適用するため、COLはコスト関数近似(アクター批判)を備えたオンラインロールアウトを使用する。 我々は、COLによって生成される予想が、緩和ベイズ整合性という意味での情報フィードバックと漸近的に一致していることを証明する。 また、COLによって誘導される経験的戦略プロファイルが、主観性の下で合理性を特徴づける解の概念であるBerk-Nash平衡に収束することを証明した。 侵入応答のユースケースによる実験結果は、非定常攻撃に対する最先端の強化学習法に対するCOLの「より速い収束」を示す。

Asymmetric information stochastic games (AISGs) arise in many complex socio-technical systems, such as cyber-physical systems and IT infrastructures. Existing computational methods for AISGs are primarily offline and can not adapt to equilibrium deviations. Further, current methods are limited to particular information structures to avoid belief hierarchies. Considering these limitations, we propose conjectural online learning (COL), an online learning method under generic information structures in AISGs. COL uses a forecaster-actor-critic (FAC) architecture, where subjective forecasts are used to conjecture the opponents' strategies within a lookahead horizon, and Bayesian learning is used to calibrate the conjectures. To adapt strategies to nonstationary environments based on information feedback, COL uses online rollout with cost function approximation (actor-critic). We prove that the conjectures produced by COL are asymptotically consistent with the information feedback in the sense of a relaxed Bayesian consistency. We also prove that the empirical strategy profile induced by COL converges to the Berk-Nash equilibrium, a solution concept characterizing rationality under subjectivity. Experimental results from an intrusion response use case demonstrate COL's {faster convergence} over state-of-the-art reinforcement learning methods against nonstationary attacks.
翻訳日:2024-08-21 03:37:26 公開日:2024-08-19
# 決定論的回路分解による量子回路の低深さ仮想蒸留

Low Depth Virtual Distillation of Quantum Circuits by Deterministic Circuit Decomposition ( http://arxiv.org/abs/2402.18874v2 )

ライセンス: Link先を確認
Akib Karim, Shaobo Zhang, Muhammad Usman, (参考訳) 仮想蒸留(VD)は近年,期待値のノイズ緩和手法として提案されている。 Bゲートとして知られる回路分解は、単一のキュービット期待値に対してのみ発見されるが、実際的な計算ではBゲートでは修正できない複数のキュービット期待値を必要とする。 我々は、複数の投影を組み合わせて正確な測定統計値や期待値を復元することで、マルチキュービット予測値に対する低深さ回路分解を発見する。 提案手法は, 量子ビット数を持つ線形エンタングルゲートを付加するが, 余分な測定を必要とする。 さらに、変分量子固有解法(VQE)アルゴリズムのような基底状態を見つけるためには、エネルギーが基底状態エネルギー以下にはならないという変動原理が必要である。 ノイズがVQEを不要にするマルチキュービットよりも1つの期待値に対して高い場合、変動原理が違反されることが判明した。 ここでは,Bゲートを用いて,全ての期待値に対して低深さ分解を用いて保存した場合に,これが起こることを示す。 実デバイス上で実演を行い,その分解により,2キュービットのテーパマップを持つH$2$分子,3キュービットを持つH$_3$,4キュービットを持つH$2$分子に対する実実験ノイズを緩和できることを示す。 この分解により, 回路上の仮想蒸留を, より低い深さで行うことができ, 任意の観測が可能となる。

Virtual distillation (VD) using measurements of multiple copies of a quantum circuit have recently been proposed as a method of noise mitigation of expectation values. Circuit decompositions known as B gates were found only for single qubit expectation values however practical calculations require multi-qubit expectation values which cannot be corrected with B gates. We discover low depth circuit decompositions for multi-qubit expectation values by combining multiple projections to recover the correct measurement statistics or expectation values. Our method adds linear entangling gates with number of qubits, but requires extra measurements. Furthermore, in applications to find ground states such as the variational quantum eigensolver (VQE) algorithm, the variational principle is required which states the energy cannot go below the ground state energy. We discover that the variational principle is violated if noise is higher on single expectation values than multi-qubit which renders VQE useless. We show this occurs when using B gates and is preserved if using our low depth decomposition on all expectation values. We perform demonstration on real devices and demonstrate our decomposition can mitigate real experimental noise in VQE for the H$_2$ molecule with a two qubit tapered mapping, H$_3$ with three qubits, and H$_2$ with four qubits. Our decomposition provides a way to perform duplicate circuit virtual distillation on real devices at significantly lower depth and for arbitrary observables.
翻訳日:2024-08-21 03:37:26 公開日:2024-08-19
# 量子ゲート誤差軽減のための逆回路ゼロノイズ外挿法

Inverted-circuit zero-noise extrapolation for quantum gate error mitigation ( http://arxiv.org/abs/2403.01608v2 )

ライセンス: Link先を確認
Kathrin F. Koenig, Finn Reinecke, Walter Hahn, Thomas Wellens, (参考訳) 現代の量子コンピューティングハードウェアにおけるゲートエラーを扱う一般的なアプローチは、ゼロノイズ外挿である。 エラーを人工的に増幅し、ゼロエラー(ゼロノイズ)限界に向けて異なるエラー強度で得られた期待値を外挿することにより、この技術はノイズの多い量子コンピューティングシステムにおけるエラーの修正を目的としている。 正確な外挿を行うためには、ノイズ増幅の正確な要因を知ることが不可欠である。 本稿では,量子回路で発生する誤差の強度を簡易に推定する手法を提案する。 逆回路を付加し、初期状態の確率を測定することにより、回路の誤差強度を決定する。 誤差強度の推定は任意の回路の実装が容易であり、ノイズ特性の以前の特徴付けを必要としない。 本手法を従来のゼロノイズ外挿法と比較し,新しい手法が期待値のより正確な計算につながることを示す。 提案手法は,現在のハードウェアにおいて特に有効であることが証明され,その短期量子コンピューティングアプリケーションへの適用性を示す。

A common approach to deal with gate errors in modern quantum-computing hardware is zero-noise extrapolation. By artificially amplifying errors and extrapolating the expectation values obtained with different error strengths towards the zero-error (zero-noise) limit, the technique aims at rectifying errors in noisy quantum computing systems. For an accurate extrapolation, it is essential to know the exact factors of the noise amplification. In this article, we propose a simple method for estimating the strength of errors occurring in a quantum circuit and demonstrate improved extrapolation results. The method determines the error strength for a circuit by appending to it the inverted circuit and measuring the probability of the initial state. The estimation of error strengths is easy to implement for arbitrary circuits and does not require a previous characterisation of noise properties. We compare this method with the conventional zero-noise extrapolation method and show that the novel method leads to a more accurate calculation of expectation values. Our method proves to be particularly effective on current hardware, showcasing its suitability for near-term quantum computing applications.
翻訳日:2024-08-21 03:27:41 公開日:2024-08-19
# ゼロコストベンチマークによる非同期多相最適化の高速ベンチマーク

Fast Benchmarking of Asynchronous Multi-Fidelity Optimization on Zero-Cost Benchmarks ( http://arxiv.org/abs/2403.01888v3 )

ライセンス: Link先を確認
Shuhei Watanabe, Neeratyoy Mallik, Edward Bergman, Frank Hutter, (参考訳) 深層学習は多くの成功を祝っているが、その結果はしばしばHP(Hyperparameters)の細心の注意を払っている。 しかし、ディープラーニングトレーニングの時間を要する性質により、HP最適化(HPO)はコストのかかる取り組みとなり、効率的なHPOツールの開発が遅くなる。 実際のトレーニングなしでパフォーマンスとランタイムを提供するゼロコストベンチマークは、非並列セットアップのソリューションを提供するが、各ワーカーがクエリされたランタイムを通信して正確な順序で評価を返す必要があるため、並列セットアップでは不足している。 この作業は、ゼロコストベンチマークによる効率的な並列HPOを容易にする、ユーザフレンドリなPythonパッケージを導入することで、この問題に対処する。 提案手法は,ファイルシステムに格納された情報に基づいて正確な返却順序を算出し,待ち時間の短縮とHPO評価の高速化を実現する。 6つのHPOライブラリによる実験は、多様なライブラリに適用可能であり、従来のアプローチと比較して1000倍以上のスピードアップを実現する能力を示している。 私たちのパッケージは pip install mfhpo-simulator でインストールできます。

While deep learning has celebrated many successes, its results often hinge on the meticulous selection of hyperparameters (HPs). However, the time-consuming nature of deep learning training makes HP optimization (HPO) a costly endeavor, slowing down the development of efficient HPO tools. While zero-cost benchmarks, which provide performance and runtime without actual training, offer a solution for non-parallel setups, they fall short in parallel setups as each worker must communicate its queried runtime to return its evaluation in the exact order. This work addresses this challenge by introducing a user-friendly Python package that facilitates efficient parallel HPO with zero-cost benchmarks. Our approach calculates the exact return order based on the information stored in file system, eliminating the need for long waiting times and enabling much faster HPO evaluations. We first verify the correctness of our approach through extensive testing and the experiments with 6 popular HPO libraries show its applicability to diverse libraries and its ability to achieve over 1000x speedup compared to a traditional approach. Our package can be installed via pip install mfhpo-simulator.
翻訳日:2024-08-21 03:27:41 公開日:2024-08-19
# インターロゲートLLM: LLM-Generated Answerにおけるゼロソース幻覚検出

InterrogateLLM: Zero-Resource Hallucination Detection in LLM-Generated Answers ( http://arxiv.org/abs/2403.02889v3 )

ライセンス: Link先を確認
Yakir Yehuda, Itzik Malkiel, Oren Barkan, Jonathan Weill, Royi Ronen, Noam Koenigstein, (参考訳) 大きな言語モデル(LLM)の多くの進歩と前例のない急激な進化にもかかわらず、その影響と日常生活のあらゆる側面への統合は、様々な理由で制限されている。 彼らの普及を妨げる重要な要因の1つは幻覚の発生であり、LLMは現実的に聞こえる答えを発明するが、現実の真実から遠ざかる。 本稿では,大規模言語モデルにおける幻覚を検出する新しい手法を提案する。 Llama-2 を含む複数のデータセットや LLM の広範な評価を通じて,近年の LLM の幻覚レベルについて検討し,その検出方法の有効性を実証した。 特に,Llama-2に対する87%の幻覚を特定の実験で観察し,そこでは外部知識に頼らずに81%のバランス精度を達成している。

Despite the many advances of Large Language Models (LLMs) and their unprecedented rapid evolution, their impact and integration into every facet of our daily lives is limited due to various reasons. One critical factor hindering their widespread adoption is the occurrence of hallucinations, where LLMs invent answers that sound realistic, yet drift away from factual truth. In this paper, we present a novel method for detecting hallucinations in large language models, which tackles a critical issue in the adoption of these models in various real-world scenarios. Through extensive evaluations across multiple datasets and LLMs, including Llama-2, we study the hallucination levels of various recent LLMs and demonstrate the effectiveness of our method to automatically detect them. Notably, we observe up to 87% hallucinations for Llama-2 in a specific experiment, where our method achieves a Balanced Accuracy of 81%, all without relying on external knowledge.
翻訳日:2024-08-21 03:27:41 公開日:2024-08-19
# 階層的カテゴリー変数における次元と粒度の減少

Reducing the dimensionality and granularity in hierarchical categorical variables ( http://arxiv.org/abs/2403.03613v2 )

ライセンス: Link先を確認
Paul Wilsens, Katrien Antonio, Gerda Claeskens, (参考訳) 階層的圏変数は、しばしば多くのレベル(高粒度)と各レベル(高次元性)の多くのクラスを示す。 これは、予測モデルにそのような共変量を含む場合、過剰適合と推定の問題を引き起こす可能性がある。 現在の文献では、階層的共変体はネストランダム効果によってしばしば組み込まれている。 しかし、これは応答変数に同じ影響を持つクラスの仮定を促進するものではない。 本稿では,階層的カテゴリー変数の縮小表現を求める手法を提案する。 エンティティの埋め込みが階層的な環境でどのように適用できるかを示す。 次に,埋め込みに符号化された情報を利用して,階層的分類変数の全体的粒度だけでなく,内部の次元性も低減するトップダウンクラスタリングアルゴリズムを提案する。 シミュレーション実験において,本手法は応答変数への影響の観点から階層的共変数の真の基盤構造を効果的に近似できることを示す。 我々は,本手法を実データセットに適用し,その階層構造が本来の階層構造よりも改善され,文献で提案される構造が低減されることを見出した。

Hierarchical categorical variables often exhibit many levels (high granularity) and many classes within each level (high dimensionality). This may cause overfitting and estimation issues when including such covariates in a predictive model. In current literature, a hierarchical covariate is often incorporated via nested random effects. However, this does not facilitate the assumption of classes having the same effect on the response variable. In this paper, we propose a methodology to obtain a reduced representation of a hierarchical categorical variable. We show how entity embedding can be applied in a hierarchical setting. Subsequently, we propose a top-down clustering algorithm which leverages the information encoded in the embeddings to reduce both the within-level dimensionality as well as the overall granularity of the hierarchical categorical variable. In simulation experiments, we show that our methodology can effectively approximate the true underlying structure of a hierarchical covariate in terms of the effect on a response variable, and find that incorporating the reduced hierarchy improves the balance between model fit and complexity. We apply our methodology on a real dataset and find that the reduced hierarchy is an improvement over the original hierarchical structure and reduced structures proposed in the literature.
翻訳日:2024-08-21 03:27:41 公開日:2024-08-19
# 情報源:医療画像におけるモデルロバスト性に対するソースデータセットの影響

Source Matters: Source Dataset Impact on Model Robustness in Medical Imaging ( http://arxiv.org/abs/2403.04484v2 )

ライセンス: Link先を確認
Dovile Juodelyte, Yucheng Lu, Amelia Jiménez-Sánchez, Sabrina Bottazzi, Enzo Ferrante, Veronika Cheplygina, (参考訳) 転送学習は医療画像分類アルゴリズムの重要な部分となり、しばしば画像ネットの重みを利用する。 自然画像から医用画像へのドメインシフトは、RadImageNetのような代替手段を誘発し、しばしば同等の分類性能を示している。 しかし, 伝達学習の性能向上が一般化やショートカット学習の改善によるものなのかは, いまだ不明である。 これを解決するために、私たちは、Medical Imaging Contextualized Confounder Taxonomy (MICCAT)を導入して、共同創設者を概念化する。 ImageNetとRadImageNetは同等の分類性能を達成していますが、ImageNetは共同設立者に過度に適合する傾向があります。 ImageNet-pretrained model を用いた研究者は、同様の実験を行うことで、モデルロバスト性を再検討することを推奨する。 私たちのコードと実験はhttps://github.com/DovileDo/source-matters.comで公開されています。

Transfer learning has become an essential part of medical imaging classification algorithms, often leveraging ImageNet weights. The domain shift from natural to medical images has prompted alternatives such as RadImageNet, often showing comparable classification performance. However, it remains unclear whether the performance gains from transfer learning stem from improved generalization or shortcut learning. To address this, we conceptualize confounders by introducing the Medical Imaging Contextualized Confounder Taxonomy (MICCAT) and investigate a range of confounders across it -- whether synthetic or sampled from the data -- using two public chest X-ray and CT datasets. We show that ImageNet and RadImageNet achieve comparable classification performance, yet ImageNet is much more prone to overfitting to confounders. We recommend that researchers using ImageNet-pretrained models reexamine their model robustness by conducting similar experiments. Our code and experiments are available at https://github.com/DovileDo/source-matters.
翻訳日:2024-08-21 03:27:41 公開日:2024-08-19
# 安全で信頼性の高いLDMのための検出器:実装、使用、限界

Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations ( http://arxiv.org/abs/2403.06009v3 )

ライセンス: Link先を確認
Swapnaja Achintalwar, Adriana Alvarado Garcia, Ateret Anaby-Tavor, Ioana Baldini, Sara E. Berger, Bishwaranjan Bhattacharjee, Djallel Bouneffouf, Subhajit Chaudhury, Pin-Yu Chen, Lamogha Chiazor, Elizabeth M. Daly, Kirushikesh DB, Rogério Abreu de Paula, Pierre Dognin, Eitan Farchi, Soumya Ghosh, Michael Hind, Raya Horesh, George Kour, Ja Young Lee, Nishtha Madaan, Sameep Mehta, Erik Miehling, Keerthiram Murugesan, Manish Nagireddy, Inkit Padhi, David Piorkowski, Ambrish Rawat, Orna Raz, Prasanna Sattigeri, Hendrik Strobelt, Sarathkrishna Swaminathan, Christoph Tillmann, Aashka Trivedi, Kush R. Varshney, Dennis Wei, Shalisha Witherspooon, Marcel Zalmanovici, (参考訳) 大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。 LLMを取り巻くいくつかの制限要因(トレーニングコスト、APIアクセス、データ可用性など)により、デプロイされたモデルに直接的な安全制約を課すことが常に可能であるとは限らない。 そのため、効率的で信頼性の高い代替手段が必要である。 この目的のために、我々は、さまざまな害のラベルを提供するコンパクトで容易に構築できる分類モデルである検知器のライブラリを作成し、展開するための継続的な取り組みを提示する。 検出器自体に加えて、ガードレールとして機能することから効果的なAIガバナンスの実現に至るまで、これらの検出モデルに対する幅広い用途について論じる。 我々はまた、その開発における固有の課題を深く掘り下げ、検出器をより信頼性を高め、その範囲を広げることを目的とした今後の取り組みについて論じる。

Large language models (LLMs) are susceptible to a variety of risks, from non-faithful output to biased and toxic generations. Due to several limiting factors surrounding LLMs (training cost, API access, data availability, etc.), it may not always be feasible to impose direct safety constraints on a deployed model. Therefore, an efficient and reliable alternative is required. To this end, we present our ongoing efforts to create and deploy a library of detectors: compact and easy-to-build classification models that provide labels for various harms. In addition to the detectors themselves, we discuss a wide range of uses for these detector models - from acting as guardrails to enabling effective AI governance. We also deep dive into inherent challenges in their development and discuss future work aimed at making the detectors more reliable and broadening their scope.
翻訳日:2024-08-21 03:27:41 公開日:2024-08-19
# 凍結視覚言語モデルを用いたテスト時間視覚認識のためのインコンテキスト・プロンプト学習

In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model ( http://arxiv.org/abs/2403.06126v2 )

ライセンス: Link先を確認
Junhui Yin, Xinyu Zhang, Lin Wu, Xiaojie Wang, (参考訳) 現在のCLIPのような事前訓練された視覚言語モデルは、様々な下流タスクにまたがる顕著なゼロショットの一般化機能を示している。 しかし、テスト入力が異なる分布を示すと、その性能は著しく低下する。 本稿では,テストサンプルのみを含む一段階の教師なし最適化により,CLIPモデルの下流タスクへの適応を容易にするテスト時プロンプトチューニング(TTPT)の概念について検討する。 In-Context Prompt Learning (InCPL) は,自然言語処理(NLP)におけるインコンテキスト学習にインスパイアされ,ダウンストリームタスクのコンテキスト情報としてラベル付き例を用いた事前学習された視覚言語モデルを実現する。 特に、InCPLは、少数のラベル付きサンプル(時には1つだけ)をコンテキスト情報として新しいテストサンプルを関連付け、テストサンプルの信頼性の高いラベル推定を可能にし、モデル適応を容易にする。 これを実現するために、InCPLは効率的な言語とビジョンのトランスレータを使用して、視覚的プロンプト学習のためのテキスト先行情報を探索する。 さらに、テストサンプルに適した視覚的プロンプトを最適化するために、コンテキスト対応の教師なし損失を導入する。 最後に、視覚的およびテキスト的プロンプトのための循環学習戦略を設計し、異なるモーダル間の相互シナジーを確保する。 これにより、トレーニング済みで凍結されたCLIPモデルは、学習した適応プロンプトを使用して任意のタスクに適応できる。 提案手法は,様々なダウンストリームデータセットにまたがって,優れた性能を示し,最先端の結果を得る。

Current pre-trained vision-language models, such as CLIP, have demonstrated remarkable zero-shot generalization capabilities across various downstream tasks. However, their performance significantly degrades when test inputs exhibit different distributions. In this paper, we explore the concept of test-time prompt tuning (TTPT), which facilitates the adaptation of the CLIP model to novel downstream tasks through a one-step unsupervised optimization that involves only test samples. Inspired by in-context learning in natural language processing (NLP), we propose In-Context Prompt Learning (InCPL) for test-time visual recognition tasks, which empowers a pre-trained vision-language model with labeled examples as context information on downstream task. Specifically, InCPL associates a new test sample with very few labeled examples (sometimes just one) as context information, enabling reliable label estimation for the test sample and facilitating model adaptation. To achieve this, InCPL employs an efficient language-to-vision translator to explore the textual prior information for visual prompt learning. Further, we introduce a context-aware unsupervised loss to optimize visual prompts tailored to test samples. Finally, we design a cyclic learning strategy for visual and textual prompts to ensure mutual synergy across different modalities. This enables a pre-trained, frozen CLIP model to adapt to any task using its learned adaptive prompt. Our method demonstrates superior performance and achieves state-of-the-art results across various downstream datasets.
翻訳日:2024-08-21 03:27:41 公開日:2024-08-19
# 可観測物の多重集合分割による量子計測の最適化

Optimizing quantum measurements by partitioning multisets of observables ( http://arxiv.org/abs/2403.07068v3 )

ライセンス: Link先を確認
Otto Veltheim, Esko Keski-Vakkuri, (参考訳) 量子トモグラフィーのアプローチは通常、測定したい一連の観測可能なものを検討し、それぞれの観測可能なものを測定し、必要に応じて何回も測定を繰り返す計測スキームを設計する。 観測可能量の単純な集合のみを考慮する代わりに、測定回数を最小限に抑えるために、必要な繰り返しを考慮して観測可能量の多重集合を考える必要がある。 これはグラフ理論の多色化問題につながる。 マルチセットトモグラフィーは2次的改善が期待できるが,実現可能である。 さらに、NPハードの最適色付け問題にもかかわらず、グリーディ色付けアルゴリズムによるマルチセットアプローチは、テストケースにおいて漸近的に2次的に改善されている。

Quantum tomography approaches typically consider a set of observables which we wish to measure, design a measurement scheme which measures each of the observables and then repeats the measurements as many times as necessary. We show that instead of considering only the simple set of observables, one should consider a multiset of the observables taking into account the required repetitions, to minimize the number of measurements. This leads to a graph theoretic multicolouring problem. We show that multiset tomography offers at most quadratic improvement but it is achievable. Furthermore, despite the NP-hard optimal colouring problem, the multiset approach with greedy colouring algorithms already offers asymptotically quadratic improvement in test cases.
翻訳日:2024-08-21 03:27:41 公開日:2024-08-19
# MergeOcc: 異なるLiDAR間のドメインギャップを橋渡しして,ロバストな実行予測を実現する

MergeOcc: Bridge the Domain Gap between Different LiDARs for Robust Occupancy Prediction ( http://arxiv.org/abs/2403.08512v2 )

ライセンス: Link先を確認
Zikun Xu, Jianqiang Wang, Shaobing Xu, (参考訳) LiDARベースの3D占有予測は、大規模なデータセットの出現とともに急速に進化した。 それでも、既存の多様なデータセットの可能性は、個別に起動する際には、未利用のままである。 特定のデータセットでトレーニングされたモデルは、現実のシナリオや異なるLiDARを含むデータセットにデプロイすると、かなりパフォーマンスが低下することが多い。 本稿では,MergeOccと呼ばれる汎用モデルを開発し,複数のデータセットを活用することで,異なるLiDARを同時に扱うことを目的とする。 LiDARデータセット間のギャップは、主に幾何学的相違と意味的不整合を示す。 このように、MergeOccは幾何再構成モジュールとセマンティックラベルマッピングモジュールを特徴とする新しいモデルを導入し、複数のデータセットのトレーニング(MDT)を可能にする。 MergeOccの有効性は、自動運転車のための2つの顕著なデータセット(OpenOccupancy-nuScenesとSemanticKITTI)の実験を通じて検証されている。 その結果, 両タイプのLiDARにおいて, 強靭性および顕著な性能を示し, 複数種類のSOTAマルチモーダリティ法より優れていた。 特に、同じモデルアーキテクチャとハイパーパラメータセットを使用しているにもかかわらず、MergeOccは、より多様なデータに曝されるため、ベースラインを大幅に上回ることができる。 MergeOccは、異種プラットフォーム間のシームレスなデプロイのためにドメインギャップを効果的に橋渡しする、最初のクロスデータセットな3D占有予測パイプラインだと考えられている。

LiDAR-based 3D occupancy prediction evolved rapidly alongside the emergence of large datasets. Nevertheless, the potential of existing diverse datasets remains underutilized as they kick in individually. Models trained on a specific dataset often suffer considerable performance degradation when deployed to real-world scenarios or datasets involving disparate LiDARs. This paper aims to develop a generalized model called MergeOcc, to simultaneously handle different LiDARs by leveraging multiple datasets. The gaps among LiDAR datasets primarily manifest in geometric disparities and semantic inconsistencies. Thus, MergeOcc incorporates a novel model featuring a geometric realignment module and a semantic label mapping module to enable multiple datasets training (MDT). The effectiveness of MergeOcc is validated through experiments on two prominent datasets for autonomous vehicles: OpenOccupancy-nuScenes and SemanticKITTI. The results demonstrate its enhanced robustness and remarkable performance across both types of LiDARs, outperforming several SOTA multi-modality methods. Notably, despite using an identical model architecture and hyper-parameter set, MergeOcc can significantly surpass the baseline due to its exposure to more diverse data. MergeOcc is considered the first cross-dataset 3D occupancy prediction pipeline that effectively bridges the domain gap for seamless deployment across heterogeneous platforms.
翻訳日:2024-08-21 03:27:41 公開日:2024-08-19
# TeaMs-RL:強化学習によるより良いインストラクションデータセット生成のためのLLM教育

TeaMs-RL: Teaching LLMs to Generate Better Instruction Datasets via Reinforcement Learning ( http://arxiv.org/abs/2403.08694v3 )

ライセンス: Link先を確認
Shangding Gu, Alois Knoll, Ming Jin, (参考訳) 大規模言語モデル(LLM)の開発は、ヒューマンフィードバック(RLHF)フレームワークによる強化学習において、人間アノテータに強く依存することや、自己インストラクトパラダイムに結びついた頻繁でコストのかかる外部クエリから生じる課題にしばしば直面する。 この作業では、強化学習(RL:Reinforcement Learning)へと方向転換します。 命令データトレーニング後にLLMを洗練させる典型的なRLHFから切り離し、RLを使用して基礎的な命令データセットを直接生成し、微調整だけで十分である。 筆者らのTeaMs-RLはテキスト操作とルールの集合を使い,トレーニングデータセットの多様化を優先する。 外部の高度なモデルに過度に依存することなく、高品質なデータ生成を容易にし、単一の微調整ステップへの道を歩み、その後のRLHFステージの必要性を否定する。 我々の発見は、人間の関与の必要性を減らし、モデルクエリを減らし(強力なベースライン全体の5.73セント)、強力なベースラインに比べて複雑な命令を作成・解釈するLLMの能力が強化され、モデルのプライバシ保護が大幅に改善された、という私たちのアプローチの重要な利点を浮き彫りにしている。 コードはリンクで入手できる。 https://github.com/SafeRL-Lab/TeaMs-RL

The development of Large Language Models (LLMs) often confronts challenges stemming from the heavy reliance on human annotators in the reinforcement learning with human feedback (RLHF) framework, or the frequent and costly external queries tied to the self-instruct paradigm. In this work, we pivot to Reinforcement Learning (RL) -- but with a twist. Diverging from the typical RLHF, which refines LLMs following instruction data training, we use RL to directly generate the foundational instruction dataset that alone suffices for fine-tuning. Our method, TeaMs-RL, uses a suite of textual operations and rules, prioritizing the diversification of training datasets. It facilitates the generation of high-quality data without excessive reliance on external advanced models, paving the way for a single fine-tuning step and negating the need for subsequent RLHF stages. Our findings highlight key advantages of our approach: reduced need for human involvement and fewer model queries (only $5.73\%$ of the strong baseline's total), along with enhanced capabilities of LLMs in crafting and comprehending complex instructions compared to strong baselines, and substantially improved model privacy protection. Code is available at the link: https://github.com/SafeRL-Lab/TeaMs-RL
翻訳日:2024-08-21 03:27:41 公開日:2024-08-19
# 戦略サイバー戦におけるサイバー詐欺作戦の共生ゲームと基礎モデル

Symbiotic Game and Foundation Models for Cyber Deception Operations in Strategic Cyber Warfare ( http://arxiv.org/abs/2403.10570v2 )

ライセンス: Link先を確認
Tao Li, Quanyan Zhu, (参考訳) 私たちは現在、戦術の急速な進化、知性の非対称性の向上、ハッキングツールのアクセシビリティ向上など、前例のないサイバー戦争に直面しています。 この状況では、サイバー詐欺は、ますます高度な攻撃に対する防衛戦略の重要な要素として現れます。 本章は、サイバー詐欺戦術の分析、設計、実施におけるゲーム理論モデルと基礎モデル(FM)の重要な役割を強調することを目的とする。 ゲームモデル(GM)は、多様な敵の相互作用をモデル化するための基礎的なフレームワークとして機能し、敵の知識とドメイン固有の洞察の両方をカプセル化する。 一方、FMは特定のアプリケーションに適した機械学習モデルを作成するためのビルディングブロックとして機能する。 GMとFMの相乗効果を利用することで、攻撃に対するネットワークの確保だけでなく、計画された運用に対するレジリエンスを高めることで、能動的かつ自動化されたサイバー防御メカニズムを前進させることができる。 本章では、戦術的、作戦的、戦略的な戦争のレベルにおけるゲームについて論じ、これらの方法論間の共生関係を掘り下げ、そのようなフレームワークがサイバーセキュリティに重大な影響を及ぼすような関連アプリケーションを探る。 本章では, 対戦行動の予測, 適応的防御的偽装戦術の設計, 操作レベル合成と適応のための知識の合成を可能にする多エージェント型神経象徴的客観学習(MANSCOL)の有望な方向性について論じる。 FMは、強化学習、知識同化、推測の形成、文脈表現など、MANSCOLの様々な機能にまたがる重要なツールとして機能する。 この章は、FMに関連する課題とそのサイバーセキュリティ分野への応用に関する議論から締めくくっている。

We are currently facing unprecedented cyber warfare with the rapid evolution of tactics, increasing asymmetry of intelligence, and the growing accessibility of hacking tools. In this landscape, cyber deception emerges as a critical component of our defense strategy against increasingly sophisticated attacks. This chapter aims to highlight the pivotal role of game-theoretic models and foundation models (FMs) in analyzing, designing, and implementing cyber deception tactics. Game models (GMs) serve as a foundational framework for modeling diverse adversarial interactions, allowing us to encapsulate both adversarial knowledge and domain-specific insights. Meanwhile, FMs serve as the building blocks for creating tailored machine learning models suited to given applications. By leveraging the synergy between GMs and FMs, we can advance proactive and automated cyber defense mechanisms by not only securing our networks against attacks but also enhancing their resilience against well-planned operations. This chapter discusses the games at the tactical, operational, and strategic levels of warfare, delves into the symbiotic relationship between these methodologies, and explores relevant applications where such a framework can make a substantial impact in cybersecurity. The chapter discusses the promising direction of the multi-agent neurosymbolic conjectural learning (MANSCOL), which allows the defender to predict adversarial behaviors, design adaptive defensive deception tactics, and synthesize knowledge for the operational level synthesis and adaptation. FMs serve as pivotal tools across various functions for MANSCOL, including reinforcement learning, knowledge assimilation, formation of conjectures, and contextual representation. This chapter concludes with a discussion of the challenges associated with FMs and their application in the domain of cybersecurity.
翻訳日:2024-08-21 03:27:41 公開日:2024-08-19
# ForzaETH Race Stack -- 市販オフザシェルハードウェア上での大規模自動ヘッド・ツー・ヘッドレース

ForzaETH Race Stack -- Scaled Autonomous Head-to-Head Racing on Fully Commercial off-the-Shelf Hardware ( http://arxiv.org/abs/2403.11784v2 )

ライセンス: Link先を確認
Nicolas Baumann, Edoardo Ghignone, Jonas Kühne, Niklas Bastuck, Jonathan Becker, Nadine Imholz, Tobias Kränzlin, Tian Yi Lim, Michael Lötscher, Luca Schwarzenbach, Luca Tognoni, Christian Vogt, Andrea Carron, Michele Magno, (参考訳) ロボット工学における自律的なレースは、信頼性とリアルタイムな意思決定の必要性と、高速なダイナミクスを組み合わせる。 このようなレースはソフトウェアとハードウェアを限界まで押し上げるが、既存のフルシステムソリューションの多くは複雑でカスタムなハードウェアとソフトウェアを必要とする。 これにより再現性が制限され、機械、電気、ロボティクスの分野における総合的な専門知識を持つ、よく調達された研究所で、進歩と複製が実現可能である。 自律性領域に関心がある研究者は、これらの分野の1つで部分的な経験しか持たないため、親しみと統合にかなりの時間を費やす必要がある。 ForzaETH Race Stackは、F1TENTHのために設計された自動運転レーシングソフトウェアプラットフォームを提供することで、このギャップに対処する。 このアプローチは、自律レースの競争的側面を強化し、この分野における研究開発のためのアクセス可能なプラットフォームを提供する。 ForzaETH Race Stackはモジュラリティと運用上の使いやすさを念頭に設計されており、トラックの摩擦やレイアウトといった様々な環境条件へのカスタマイズと適応性を実現している。 タイムトリアルレースとヘッド・ツー・ヘッドレースの両方を扱えるスタックは、公式のF1TENTH国際大会で複数回優勝し、その有効性、堅牢性、適応性を示した。

Autonomous racing in robotics combines high-speed dynamics with the necessity for reliability and real-time decision-making. While such racing pushes software and hardware to their limits, many existing full-system solutions necessitate complex, custom hardware and software, and usually focus on Time-Trials rather than full unrestricted Head-to-Head racing, due to financial and safety constraints. This limits their reproducibility, making advancements and replication feasible mostly for well-resourced laboratories with comprehensive expertise in mechanical, electrical, and robotics fields. Researchers interested in the autonomy domain but with only partial experience in one of these fields, need to spend significant time with familiarization and integration. The ForzaETH Race Stack addresses this gap by providing an autonomous racing software platform designed for F1TENTH, a 1:10 scaled Head-to-Head autonomous racing competition, which simplifies replication by using commercial off-the-shelf hardware. This approach enhances the competitive aspect of autonomous racing and provides an accessible platform for research and development in the field. The ForzaETH Race Stack is designed with modularity and operational ease of use in mind, allowing customization and adaptability to various environmental conditions, such as track friction and layout. Capable of handling both Time-Trials and Head-to-Head racing, the stack has demonstrated its effectiveness, robustness, and adaptability in the field by winning the official F1TENTH international competition multiple times.
翻訳日:2024-08-21 03:27:41 公開日:2024-08-19
# 難解なLLMセマンティックスからの本質的な学習による一般化ゼロショット学習の未確認領域への展開

Less but Better: Enabling Generalized Zero-shot Learning Towards Unseen Domains by Intrinsic Learning from Redundant LLM Semantics ( http://arxiv.org/abs/2403.14362v4 )

ライセンス: Link先を確認
Jiaqi Yue, Jiancheng Zhao, Chunhui Zhao, (参考訳) 一般化ゼロショット学習 (GZSL) は、目に見えないクラスと見えないクラスをドメインシフト問題 (DSP) に対して認識することに焦点を当てている。 しかし、既存のGZSLは依然として見るドメインに限られている。 現在の研究では、GZSLを未確認領域に向けるクロスドメインGZSL(CDGZSL)を開拓している。 意味のある未確認クラスの特徴を生成することでDSPを緩和する既存のGZSLメソッドとは異なり、CDGZSLはドメイン間で共通の特徴空間を構築し、ドメイン間で共有される固有の意味論を取得して、目に見えないドメインから未知のドメインへ転送する必要がある。 大規模言語モデル(LLM)に注釈付けされた冗長なクラスセマンティクスによる情報非対称性の問題を考慮して,メタドメインアライメント・セマンティック・リファインメント(MDASR)を提案する。 技術的には、MDASRは2つの部分から構成される: クラス間類似性アライメント(ISA)は、クラス間特徴関係の指導の下ですべてのドメイン間で共有されていない非内在的意味論を排除し、Unseen-class Meta Generation(UMG)は、特徴生成をシミュレートすることで、見かけたクラスと見えないクラス間の接続を維持するために内在的意味論を保存する。 MDASRは、冗長な意味空間と共通の特徴空間を効果的に整合させ、CDGZSLにおける情報の非対称性を緩和する。 MDASRの有効性はOffice-HomeとMini-DomainNetで実証され、これらのデータセットに対するLLMベースのセマンティクスをベンチマークとして共有した。

Generalized zero-shot learning (GZSL) focuses on recognizing seen and unseen classes against domain shift problem (DSP) where data of unseen classes may be misclassified as seen classes. However, existing GZSL is still limited to seen domains. In the current work, we pioneer cross-domain GZSL (CDGZSL) which addresses GZSL towards unseen domains. Different from existing GZSL methods which alleviate DSP by generating features of unseen classes with semantics, CDGZSL needs to construct a common feature space across domains and acquire the corresponding intrinsic semantics shared among domains to transfer from seen to unseen domains. Considering the information asymmetry problem caused by redundant class semantics annotated with large language models (LLMs), we present Meta Domain Alignment Semantic Refinement (MDASR). Technically, MDASR consists of two parts: Inter-class Similarity Alignment (ISA), which eliminates the non-intrinsic semantics not shared across all domains under the guidance of inter-class feature relationships, and Unseen-class Meta Generation (UMG), which preserves intrinsic semantics to maintain connectivity between seen and unseen classes by simulating feature generation. MDASR effectively aligns the redundant semantic space with the common feature space, mitigating the information asymmetry in CDGZSL. The effectiveness of MDASR is demonstrated on the Office-Home and Mini-DomainNet, and we have shared the LLM-based semantics for these datasets as the benchmark.
翻訳日:2024-08-21 03:17:53 公開日:2024-08-19
# 畳み込みモデルのテンソルネットワーク圧縮性

Tensor network compressibility of convolutional models ( http://arxiv.org/abs/2403.14379v2 )

ライセンス: Link先を確認
Sukhbinder Singh, Saeed S. Jahromi, Roman Orus, (参考訳) 畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンタスクにおける最先端のパフォーマンスを示す最も広く使われているニューラルネットワークアーキテクチャの1つである。 より大きなCNNは一般に高い精度を示すが、そのサイズは精度を維持しながら '拡張' によって効果的に縮小することができる。すなわち、畳み込みカーネルをタッカーやカノニカルポリアディック分解のようなコンパクトな分解や、行列積状態のような量子インスパイアされた分解に置き換え、分解の要因を直接訓練して、低階分解に向けて学習をバイアスさせる。 しかし、なぜテンソル化が精度に悪影響を及ぼさないのか? CNNの(拡張されていない)畳み込みカーネルが、その正確性にどのように影響するかを評価することで、これを調査する。 具体的には カーネルを切断し (i)バニラ4層CNN及び (II) CIFAR-10およびCIFAR-100データセットの画像分類のために事前訓練されたResNet-50。 カーネル(特に深い層内)は、しばしばいくつかのカットに沿って切り離され、カーネルノルムは著しく低下するが、分類精度は低下しない。 このような'correlation compression''(テンソル化の下で)は、密集したCNNで情報をエンコードする方法の本質的な特徴であることを示している。 また, 畳み込み層の内部相関を圧縮すると, モデルが最小限に抑えられなくなることが示唆された。 この結果はCNNモデルをより効果的にテンソル化・圧縮するために応用できる。

Convolutional neural networks (CNNs) are one of the most widely used neural network architectures, showcasing state-of-the-art performance in computer vision tasks. Although larger CNNs generally exhibit higher accuracy, their size can be effectively reduced by ``tensorization'' while maintaining accuracy, namely, replacing the convolution kernels with compact decompositions such as Tucker, Canonical Polyadic decompositions, or quantum-inspired decompositions such as matrix product states, and directly training the factors in the decompositions to bias the learning towards low-rank decompositions. But why doesn't tensorization seem to impact the accuracy adversely? We explore this by assessing how \textit{truncating} the convolution kernels of \textit{dense} (untensorized) CNNs impact their accuracy. Specifically, we truncated the kernels of (i) a vanilla four-layer CNN and (ii) ResNet-50 pre-trained for image classification on CIFAR-10 and CIFAR-100 datasets. We found that kernels (especially those inside deeper layers) could often be truncated along several cuts resulting in significant loss in kernel norm but not in classification accuracy. This suggests that such ``correlation compression'' (underlying tensorization) is an intrinsic feature of how information is encoded in dense CNNs. We also found that aggressively truncated models could often recover the pre-truncation accuracy after only a few epochs of re-training, suggesting that compressing the internal correlations of convolution layers does not often transport the model to a worse minimum. Our results can be applied to tensorize and compress CNN models more effectively.
翻訳日:2024-08-21 03:17:53 公開日:2024-08-19
# 局所SO(3)-等変スケール不変容器セグメンテーションのグローバル制御

Global Control for Local SO(3)-Equivariant Scale-Invariant Vessel Segmentation ( http://arxiv.org/abs/2403.15314v2 )

ライセンス: Link先を確認
Patryk Rygiel, Dieuwertje Alblas, Christoph Brune, Kak Khee Yeung, Jelmer M. Wolterink, (参考訳) パーソナライズされた3D血管モデルは、心臓血管疾患の管理に関連する様々な診断、予後、治療計画のタスクに役立つ。 ディープラーニングは、画像データからそのようなモデルを自動的に取得する手段を提供する。 理想的には、ユーザーは血管モデルに含まれる領域を制御すべきである。 さらに、モデルは水密で高精度でなければならない。 そこで本研究では,ボクセルマスクのセグメンテーションを利用した大域的制御器の組み合わせにより,興味のある容器の境界条件を局所的反復的容器セグメンテーションモデルに提示する。 局所分断モデルにおけるスケール対称性と回転対称性の保存を導入し、目に見えない大きさと向きの容器に一般化する。 グローバルコントローラと組み合わせることで、フレキシブルな3D血管モデル構築が可能になる。 腹部大動脈瘤 (AAA) を含むデータセットに対する本法の有用性について検討した。 本手法は,AAA,腸骨動脈,腎動脈の分節における最先端の分節モデルと同等に機能し,水密で滑らかな表面表現を提供する。 さらに,グローバルコントローラを適応させることで,3次元モデルの容器断面を容易に拡張できることが実証された。

Personalized 3D vascular models can aid in a range of diagnostic, prognostic, and treatment-planning tasks relevant to cardiovascular disease management. Deep learning provides a means to obtain such models automatically from image data. Ideally, a user should have control over the included region in the vascular model. Additionally, the model should be watertight and highly accurate. To this end, we propose a combination of a global controller leveraging voxel mask segmentations to provide boundary conditions for vessels of interest to a local, iterative vessel segmentation model. We introduce the preservation of scale- and rotational symmetries in the local segmentation model, leading to generalisation to vessels of unseen sizes and orientations. Combined with the global controller, this enables flexible 3D vascular model building, without additional retraining. We demonstrate the potential of our method on a dataset containing abdominal aortic aneurysms (AAAs). Our method performs on par with a state-of-the-art segmentation model in the segmentation of AAAs, iliac arteries, and renal arteries, while providing a watertight, smooth surface representation. Moreover, we demonstrate that by adapting the global controller, we can easily extend vessel sections in the 3D model.
翻訳日:2024-08-21 03:17:53 公開日:2024-08-19
# 不均一フェデレーション学習におけるサーバサイド事前学習発電機からクライアントへの知識伝達のための負荷効率向上手法

An Upload-Efficient Scheme for Transferring Knowledge From a Server-Side Pre-trained Generator to Clients in Heterogeneous Federated Learning ( http://arxiv.org/abs/2403.15760v2 )

ライセンス: Link先を確認
Jianqing Zhang, Yang Liu, Yang Hua, Jian Cao, (参考訳) 不均一フェデレートラーニング(HtFL)は、プライバシを維持しながら、異なるモデルアーキテクチャを持つクライアント間でタスク固有の知識共有を可能にする。 近年の研究の進展にもかかわらず、データとモデルの不均一性のため、HtFLでの知識の伝達は依然として困難である。 そこで本稿では,橋梁として事前学習型ジェネレータ(例えばStyleGANやStable Diffusion)を導入し,FedKTL(Federated Knowledge-Transfer-Loop)と呼ばれる新しいアップロード効率の高い知識伝達方式を提案する。 サーバ上のジェネレータの推論を通じて、タスク関連の原型イメージ-ベクターペアを生成することができる。 これらのペアによって、各クライアントは、教師付きローカルタスクを通じて、ジェネレータからローカルモデルに共通の知識を転送することができる。 CNNとVTを含む14の異種モデルを用いた2種類のデータ不均一性に基づく4つのデータセットの広範な実験を行った。 その結果,FedKTLは7つの最先端手法を最大7.31%超えた。 さらに、我々の知識伝達スキームは、一方のエッジクライアントしか持たないクラウド・エッジ・シナリオに適用できる。 コード:https://github.com/TsingZ0/FedKTL

Heterogeneous Federated Learning (HtFL) enables task-specific knowledge sharing among clients with different model architectures while preserving privacy. Despite recent research progress, transferring knowledge in HtFL is still difficult due to data and model heterogeneity. To tackle this, we introduce a public pre-trained generator (e.g., StyleGAN or Stable Diffusion) as the bridge and propose a new upload-efficient knowledge transfer scheme called Federated Knowledge-Transfer-Loop (FedKTL). It can produce task-related prototypical image-vector pairs via the generator's inference on the server. With these pairs, each client can transfer common knowledge from the generator to its local model through an additional supervised local task. We conduct extensive experiments on four datasets under two types of data heterogeneity with 14 heterogeneous models, including CNNs and ViTs. Results show that our FedKTL surpasses seven state-of-the-art methods by up to 7.31%. Moreover, our knowledge transfer scheme is applicable in cloud-edge scenarios with only one edge client. Code: https://github.com/TsingZ0/FedKTL
翻訳日:2024-08-21 03:17:53 公開日:2024-08-19
# 拡散生成画像検出のための遅延再構成誤差に基づくLaRE^2

LaRE^2: Latent Reconstruction Error Based Method for Diffusion-Generated Image Detection ( http://arxiv.org/abs/2403.17465v2 )

ライセンス: Link先を確認
Yunpeng Luo, Junlong Du, Ke Yan, Shouhong Ding, (参考訳) 拡散モデルの進化により、画像生成の品質が劇的に向上し、実際の画像と生成された画像の区別がますます困難になっている。 この開発は印象的ではあるが、プライバシーとセキュリティの懸念も大きく高まっている。 これに対応するために,拡散生成画像を検出するための新しい遅延再構成誤り誘導特徴再構成法 (LaRE^2) を提案する。 ラテント再構成誤差 (LaRE) は, 画像検出のための遅延空間における最初のリコンストラクションエラーに基づく特徴である。 LaREは、特徴抽出効率の観点から既存の手法を超越し、本物と偽物の区別に必要な重要な手がかりを保存する。 LaREを利用するために,LaREによって誘導される画像の特徴を洗練し,特徴の識別性を向上するError-Guided Feature Refinement Module (EGRE)を提案する。 我々のEGREはアライメント・then-refine機構を利用しており、空間的・チャネル的な視点から生成画像を検出するために画像特徴を効果的に洗練する。 大規模なGenImageベンチマークによる大規模な実験では、最も優れたSoTA法を最大11.9%/12.1%上回るLaRE^2が8つの画像生成装置にまたがって平均ACC/APを最大11.9%/12.1%上回っていることが示されている。 LaREはまた、機能抽出コストの観点から既存の方法を超え、8倍のスピード向上を実現している。

The evolution of Diffusion Models has dramatically improved image generation quality, making it increasingly difficult to differentiate between real and generated images. This development, while impressive, also raises significant privacy and security concerns. In response to this, we propose a novel Latent REconstruction error guided feature REfinement method (LaRE^2) for detecting the diffusion-generated images. We come up with the Latent Reconstruction Error (LaRE), the first reconstruction-error based feature in the latent space for generated image detection. LaRE surpasses existing methods in terms of feature extraction efficiency while preserving crucial cues required to differentiate between the real and the fake. To exploit LaRE, we propose an Error-Guided feature REfinement module (EGRE), which can refine the image feature guided by LaRE to enhance the discriminativeness of the feature. Our EGRE utilizes an align-then-refine mechanism, which effectively refines the image feature for generated-image detection from both spatial and channel perspectives. Extensive experiments on the large-scale GenImage benchmark demonstrate the superiority of our LaRE^2, which surpasses the best SoTA method by up to 11.9%/12.1% average ACC/AP across 8 different image generators. LaRE also surpasses existing methods in terms of feature extraction cost, delivering an impressive speed enhancement of 8 times.
翻訳日:2024-08-21 03:17:53 公開日:2024-08-19
# オープンデータセットを用いたマイクロモビリティのためのデータ駆動エネルギー消費モデル

Data-driven Energy Consumption Modelling for Electric Micromobility using an Open Dataset ( http://arxiv.org/abs/2403.17632v2 )

ライセンス: Link先を確認
Yue Ding, Sen Yan, Maqsood Hussain Shah, Hongyuan Fang, Ji Li, Mingming Liu, (参考訳) 交通渋滞と環境劣化のエスカレート課題は、都市空間におけるE-Mobilityソリューションの導入の重要性を浮き彫りにしている。 特に、E-scootersやE-bikesのようなマイクロE-Mobilityツールは、この移行において重要な役割を担い、都市通勤者にとって持続可能な代替手段を提供する。 しかし,これらのツールのエネルギー消費パターンは,実際のシナリオにおける有効性に影響を与える重要な側面であり,旅行計画や利用者の信頼性向上に不可欠である。 この効果のために、近年の研究では、特定の移動手段や条件のためにカスタマイズされた物理モデルを利用しているが、これらのモデルは、詳細なモデル評価と検証のためのオープンデータセットが欠如していることから、現実のシナリオにおける一般化と有効性に苦慮している。 このギャップを埋めるために、我々の研究はアイルランドのダブリンで収集されたオープンデータセットを示し、特にE-ScootersとE-Bikesに関するエネルギーモデリング研究のために設計されている。 さらに,一組の機械学習アルゴリズムを用いて,データセットに基づくエネルギー消費モデリングの包括的解析を行い,その性能を現代数学モデルと比較する。 本研究は,データ駆動モデルに対して,エネルギー消費量を推定する数学的モデルと比較して,顕著な優位性を示すものである。 具体的には、データ駆動モデルは、特定の仮定の下でデータセットの詳細な分析に基づいて、Eバイクで83.83%、Eスクーターで82.16%の精度で物理モデルを上回っている。

The escalating challenges of traffic congestion and environmental degradation underscore the critical importance of embracing E-Mobility solutions in urban spaces. In particular, micro E-Mobility tools such as E-scooters and E-bikes, play a pivotal role in this transition, offering sustainable alternatives for urban commuters. However, the energy consumption patterns for these tools are a critical aspect that impacts their effectiveness in real-world scenarios and is essential for trip planning and boosting user confidence in using these. To this effect, recent studies have utilised physical models customised for specific mobility tools and conditions, but these models struggle with generalization and effectiveness in real-world scenarios due to a notable absence of open datasets for thorough model evaluation and verification. To fill this gap, our work presents an open dataset, collected in Dublin, Ireland, specifically designed for energy modelling research related to E-Scooters and E-Bikes. Furthermore, we provide a comprehensive analysis of energy consumption modelling based on the dataset using a set of representative machine learning algorithms and compare their performance against the contemporary mathematical models as a baseline. Our results demonstrate a notable advantage for data-driven models in comparison to the corresponding mathematical models for estimating energy consumption. Specifically, data-driven models outperform physical models in accuracy by up to 83.83% for E-Bikes and 82.16% for E-Scooters based on an in-depth analysis of the dataset under certain assumptions.
翻訳日:2024-08-21 03:17:53 公開日:2024-08-19
# ハイブリッドアーキテクチャの力学設計とスケーリング

Mechanistic Design and Scaling of Hybrid Architectures ( http://arxiv.org/abs/2403.17844v2 )

ライセンス: Link先を確認
Michael Poli, Armin W Thomas, Eric Nguyen, Pragaash Ponnusamy, Björn Deiseroth, Kristian Kersting, Taiji Suzuki, Brian Hie, Stefano Ermon, Christopher Ré, Ce Zhang, Stefano Massaroli, (参考訳) ディープラーニングアーキテクチャの開発は、膨大な設計スペース、長いプロトタイピング時間、大規模モデルのトレーニングと評価に関連する高い計算コストのため、リソース要求のプロセスである。 我々は、これをエンドツーエンドのメカニスティックアーキテクチャ設計(MAD)パイプラインで基盤化し、スケール法則を予測できる小規模機能ユニットテストを含むことにより、このプロセスを単純化することにした。 様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し,テストする。 我々は,70Mから7Bパラメータの500以上の言語モデルをトレーニングし,計算最適化と新しい状態最適スケーリング法則解析によって得られたアーキテクチャを実験的に検証した。 驚くべきことに、MAD合成は計算最適パープレキシティと相関し、分離されたプロキシタスクによる新しいアーキテクチャの正確な評価を可能にする。 MADによって発見された新しいアーキテクチャは、ハイブリダイゼーションやスパーシリティといった単純なアイデアに基づいて、計算最適化予算と過度にトレーニングされたレシエーションの両方において、スケーリングにおいて、最先端のTransformer、畳み込み、反復アーキテクチャ(Transformer++、Hyena、Mamba)より優れています。 全体として、これらの結果は、計算済みの合成タスクの性能がスケーリング法則の予測可能であり、最適なアーキテクチャはハイブリッドトポロジーを介して特殊な層を利用するべきであることを示す。

The development of deep learning architectures is a resource-demanding process, due to a vast design space, long prototyping times, and high compute costs associated with at-scale model training and evaluation. We set out to simplify this process by grounding it in an end-to-end mechanistic architecture design (MAD) pipeline, encompassing small-scale capability unit tests predictive of scaling laws. Through a suite of synthetic token manipulation tasks such as compression and recall, designed to probe capabilities, we identify and test new hybrid architectures constructed from a variety of computational primitives. We experimentally validate the resulting architectures via an extensive compute-optimal and a new state-optimal scaling law analysis, training over 500 language models between 70M to 7B parameters. Surprisingly, we find MAD synthetics to correlate with compute-optimal perplexity, enabling accurate evaluation of new architectures via isolated proxy tasks. The new architectures found via MAD, based on simple ideas such as hybridization and sparsity, outperform state-of-the-art Transformer, convolutional, and recurrent architectures (Transformer++, Hyena, Mamba) in scaling, both at compute-optimal budgets and in overtrained regimes. Overall, these results provide evidence that performance on curated synthetic tasks can be predictive of scaling laws, and that an optimal architecture should leverage specialized layers via a hybrid topology.
翻訳日:2024-08-21 03:17:53 公開日:2024-08-19
# 連続観測による浮遊ナノ粒子の運動状態下におけるスクイーズ

Squeezing below the ground state of motion of a continuously monitored levitating nanoparticle ( http://arxiv.org/abs/2403.18790v3 )

ライセンス: Link先を確認
Qiongyuan Wu, Diana A. Chisholm, Rafael Muffato, Tiberius Georgescu, Jack Homans, Hendrik Ulbricht, Matteo Carlesso, Mauro Paternostro, (参考訳) Squeezingは、量子情報処理と量子センシングにとって重要なリソースである。 浮遊ナノメカニクスでは、質量粒子のトラップ周波数の時間的制御により、運動の収縮状態を生成することができる。 しかし、達成可能なスクイージングの量は、通常、有害な環境効果に悩まされる。 我々は、トラップ電位の注意深く時間制御を組み込んで、測定バックアクションを含む最も関連するノイズ源を十分に考慮することにより、機械的スクイーズを行う手法の性能を解析する。 我々の提案は、実験的な最先端に近いものであり、量子状態工学にとって貴重なツールである。

Squeezing is a crucial resource for quantum information processing and quantum sensing. In levitated nanomechanics, squeezed states of motion can be generated via temporal control of the trapping frequency of a massive particle. However, the amount of achievable squeezing typically suffers from detrimental environmental effects. We analyze the performance of a scheme that, by embedding careful time-control of trapping potentials and fully accounting for the most relevant sources of noise -- including measurement backaction -- achieves significant levels of mechanical squeezing. The feasibility of our proposal, which is close to experimental state-of-the-art, makes it a valuable tool for quantum state engineering.
翻訳日:2024-08-21 03:17:53 公開日:2024-08-19
# ReALM: 言語モデリングとしての参照解決

ReALM: Reference Resolution As Language Modeling ( http://arxiv.org/abs/2403.20329v2 )

ライセンス: Link先を確認
Joel Ruben Antony Moniz, Soundarya Krishnan, Melis Ozyildirim, Prathamesh Saraf, Halim Cagri Ates, Yuan Zhang, Hong Yu, (参考訳) 参照解決は重要な問題であり、異なる種類のコンテキストを理解し、うまく扱うことが不可欠である。 このコンテキストには、ユーザの画面上のエンティティやバックグラウンドで実行されるエンティティなど、非会話エンティティに関連する以前のターンとコンテキストの両方が含まれている。 LLMは様々なタスクで非常に強力であることが示されているが、参照分解能、特に非会話的なエンティティでの使用は未利用のままである。 本稿では,従来のテキストのみのモダリティに還元できない画面上のオブジェクトのようなエンティティの形式を伴っても,参照解決が言語モデリング問題にどのように変換されるかを示すことによって,様々なタイプの参照を解決するための極めて効率的なシステムを構築する方法を示す。 画面上の参照に対して5%以上の絶対的なゲインが得られる最小のモデルで、異なるタイプの参照にまたがって同様の機能を持つ既存システムに対する大幅な改善を実証します。 また,GPT-3.5 と GPT-4 をベンチマークし,GPT-4 に匹敵する性能を達成した最小モデルと,それを上回る性能を示した。

Reference resolution is an important problem, one that is essential to understand and successfully handle context of different kinds. This context includes both previous turns and context that pertains to non-conversational entities, such as entities on the user's screen or those running in the background. While LLMs have been shown to be extremely powerful for a variety of tasks, their use in reference resolution, particularly for non-conversational entities, remains underutilized. This paper demonstrates how LLMs can be used to create an extremely effective system to resolve references of various types, by showing how reference resolution can be converted into a language modeling problem, despite involving forms of entities like those on screen that are not traditionally conducive to being reduced to a text-only modality. We demonstrate large improvements over an existing system with similar functionality across different types of references, with our smallest model obtaining absolute gains of over 5% for on-screen references. We also benchmark against GPT-3.5 and GPT-4, with our smallest model achieving performance comparable to that of GPT-4, and our larger models substantially outperforming it.
翻訳日:2024-08-21 03:17:53 公開日:2024-08-19
# 相互作用するRydberg格子における量子ウォークと相関ダイナミクス

Quantum walks and correlated dynamics in an interacting synthetic Rydberg lattice ( http://arxiv.org/abs/2404.00740v2 )

ライセンス: Link先を確認
Tao Chen, Chenxi Huang, Bryce Gadway, Jacob P. Covey, (参考訳) 相互作用する量子粒子のコヒーレントダイナミクスは、強い相関を持つ量子物質の研究や量子情報プロセッサの追求において中心的な役割を果たす。 ここでは、相互作用するRydberg原子の状態空間を、コヒーレントで相関したダイナミクスを制御し観測する合成ランドスケープとして提示する。 9サイト合成格子中の2つの部位間の結合強度とエネルギーオフセットの完全な制御により、エッシャー型「連続階段」における量子ウォーク、ブロッホ振動、ダイナミクスを実現する。 相互作用状態において、相関量子ウォーク、ブロッホ振動、粒子対の閉じ込めを観察する。 さらに、格子を上下に同時に傾けて、コヒーレントなペア振動を実現する。 この研究は、いくつかの簡単なアップグレードと組み合わせることで、実空間の格子において実現が難しい特徴にアクセスできるプログラマブル量子多体ダイナミクスのための有望なプラットフォームとして、相互作用する原子配列の合成Rydberg格子を確立する。

Coherent dynamics of interacting quantum particles plays a central role in the study of strongly correlated quantum matter and the pursuit of quantum information processors. Here, we present the state-space of interacting Rydberg atoms as a synthetic landscape on which to control and observe coherent and correlated dynamics. With full control of the coupling strengths and energy offsets between the pairs of sites in a nine-site synthetic lattice, we realize quantum walks, Bloch oscillations, and dynamics in an Escher-type "continuous staircase". In the interacting regime, we observe correlated quantum walks, Bloch oscillations, and confinement of particle pairs. Additionally, we simultaneously tilt our lattice both up and down to achieve coherent pair oscillations. When combined with a few straightforward upgrades, this work establishes synthetic Rydberg lattices of interacting atom arrays as a promising platform for programmable quantum many-body dynamics with access to features that are difficult to realize in real-space lattices.
翻訳日:2024-08-21 03:08:08 公開日:2024-08-19
# LLMテキストのためのトピックベースの透かし

Topic-Based Watermarks for LLM-Generated Text ( http://arxiv.org/abs/2404.02138v3 )

ライセンス: Link先を確認
Alexander Nemecek, Yuzhou Jiang, Erman Ayday, (参考訳) ヒト生成テキストから大言語モデル(LLM)が生成するテキストの不明瞭さは大きな課題である。 ウォーターマーキングアルゴリズムは、LLM生成出力に検出可能なシグネチャを埋め込むことによって、潜在的な解決策である。 しかし、現在の透かし方式は、テキスト置換や操作のような様々な攻撃に対して堅牢性に欠けており、信頼性を損なう。 本稿では, LLMにおける透かしの堅牢性を高めるために, LLMのためのトピックベースの新しい透かしアルゴリズムを提案する。 提案手法は,透かし付きテキストの生成過程において,非透かし付きLPMの入力プロンプトや出力から抽出したトピックを利用する。 特定トピックのトークンリストを動的に活用し,それに応じてトークンサンプリング重量を調整する。 これらのトピック固有のトークンバイアスを使用することで、生成されたテキストにトピック依存の透かしを埋め込む。 トピックベースの透かしアルゴリズムの理論的枠組みを概説し、様々なシナリオにおける潜在的な利点について論じる。 さらに、離散的な変更、パラフレーズ化、トークン化を含む、ウォーターマーキングアルゴリズムに対する包括的攻撃について検討する。 提案手法は,LLM生成テキストの利点と損失のトレードオフを考慮しつつ,zスコアの堅牢性と潜在的な攻撃者によるテキスト劣化のモデル化の実現可能性の観点から,既存のアルゴリズムよりも99.99%の信頼度で様々な透かしテキストトピックを分類する。

The indistinguishability of text generated by large language models (LLMs) from human-generated text poses significant challenges. Watermarking algorithms are potential solutions by embedding detectable signatures within LLM-generated outputs. However, current watermarking schemes lack robustness to a range of attacks such as text substitution or manipulation, undermining their reliability. This paper proposes a novel topic-based watermarking algorithm for LLMs, designed to enhance the robustness of watermarking in LLMs. Our approach leverages the topics extracted from input prompts or outputs of non-watermarked LLMs in the generation process of watermarked text. We dynamically utilize token lists on identified topics and adjust token sampling weights accordingly. By using these topic-specific token biases, we embed a topic-sensitive watermarking into the generated text. We outline the theoretical framework of our topic-based watermarking algorithm and discuss its potential advantages in various scenarios. Additionally, we explore a comprehensive range of attacks against watermarking algorithms, including discrete alterations, paraphrasing, and tokenizations. We demonstrate that our proposed watermarking scheme classifies various watermarked text topics with 99.99% confidence and outperforms existing algorithms in terms of z-score robustness and the feasibility of modeling text degradation by potential attackers, while considering the trade-offs between the benefits and losses of watermarking LLM-generated text.
翻訳日:2024-08-21 03:08:08 公開日:2024-08-19
# 量子振動子の単一励起エネルギー固有状態に対する絡み合い境界

Entanglement bounds for single-excitation energy eigenstates of quantum oscillator systems ( http://arxiv.org/abs/2404.05527v2 )

ライセンス: Link先を確認
Houssam Abdul-Rahman, Robert Sims, Günter Stolz, (参考訳) 乱れ調和振動子の非ガウスエネルギー固有状態の絡み合いを推定する解析方法を提案する。 発振器系の固有状態の明示的な式を呼び出し、それらの$\epsilon$-R\'enyi 絡み合いエントロピー$\epsilon\in(0,1)$の有界性を確立する。 提案手法は,高調波発振器系の1つの励起に対応する固有状態の絡み合う領域法を対数的に補正する。

We provide an analytic method for estimating the entanglement of the non-gaussian energy eigenstates of disordered harmonic oscillator systems. We invoke the explicit formulas of the eigenstates of the oscillator systems to establish bounds for their $\epsilon$-R\'enyi entanglement entropy $\epsilon\in(0,1)$. Our methods result in a logarithmically corrected area law for the entanglement of eigenstates, corresponding to one excitation, of the disordered harmonic oscillator systems.
翻訳日:2024-08-21 03:08:08 公開日:2024-08-19
# Few-Shot Aspect-Based Sentiment Analysisに挑戦するGPTのためのヒューリスティック・エンハンスド候補選択戦略

Heuristic-enhanced Candidates Selection strategy for GPTs tackle Few-Shot Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2404.06063v2 )

ライセンス: Link先を確認
Baoxing Jiang, Yujie Wan, Shenggen Ju, (参考訳) Few-Shot Aspect-Based Sentiment Analysis (FSABSA) は自然言語処理において必要不可欠な課題である。 しかし,PLMは複数のサブタスクに対応するのに苦労しており,GPT(Generative Pre-trained Transformer)に基づく手法は性能が良くない。 上記の問題に対処するため,本論文では,Heristic-enhanced Candidates Selection (HCS) 戦略を設計し,それに基づくAll in One (AiO) モデルを提案する。 モデルは2段階で動作し、PLMの精度とGPTの一般化能力を同時に調整する。 特に、第1段階では、PLMに基づくバックボーンモデルが入力文に対して粗いヒューリスティックな候補を生成する。 第2段階では、AiOはLLMの文脈学習機能を活用して正確な予測を生成する。 本研究は5つのベンチマークデータセットの総合比較およびアブレーション実験を行った。 実験の結果,提案手法は複数のサブタスクに適応し,GPTを直接利用する手法よりも優れていた。

Few-Shot Aspect-Based Sentiment Analysis (FSABSA) is an indispensable and highly challenging task in natural language processing. However, methods based on Pre-trained Language Models (PLMs) struggle to accommodate multiple sub-tasks, and methods based on Generative Pre-trained Transformers (GPTs) perform poorly. To address the above issues, the paper designs a Heuristic-enhanced Candidates Selection (HCS) strategy and further proposes All in One (AiO) model based on it. The model works in a two-stage, which simultaneously accommodates the accuracy of PLMs and the generalization capability of GPTs. Specifically, in the first stage, a backbone model based on PLMs generates rough heuristic candidates for the input sentence. In the second stage, AiO leverages LLMs' contextual learning capabilities to generate precise predictions. The study conducted comprehensive comparative and ablation experiments on five benchmark datasets. The experimental results demonstrate that the proposed model can better adapt to multiple sub-tasks, and also outperforms the methods that directly utilize GPTs.
翻訳日:2024-08-21 03:08:08 公開日:2024-08-19
# QAOAにおけるオーバーラップギャップ特性制限リミットスワップ

The Overlap Gap Property limits limit swapping in QAOA ( http://arxiv.org/abs/2404.06087v3 )

ライセンス: Link先を確認
Mark Xin Hong Goh, (参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm、QAOA)は、組合せ最適化問題(COP)のために設計された量子アルゴリズムである。 基礎となる Erd\"os--R'enyi ハイパーグラフを持つ COP がオーバーラップギャップ特性 (OGP) を示す場合、ランダムな正規ハイパーグラフもそれを示す。 例えば、Erd\"os-R'enyiハイパーグラフ上のMax-$q$-XORSATがOGPを示すことが知られており、純$q$-spinモデルに対するQAOAのパフォーマンスは、大容量正規ハイパーグラフ上のMax-$q$-XORSATと漸近的に一致していることから、QAOAが純$q$-spinモデルに対して得られる平均ケース値は、q\ge 4$であっても、アルゴリズムが無期限に実行しても最適性から逸脱していることを示す。 このことは、QAOAにおける極限スワップの有効性に対する必要条件は、与えられた組合せ最適化問題における OGP の欠如であることを示している。 さらに, スピンガラス上でのQAOAの性能は, スピンガラスの平均解法における古典的アルゴリズムと同等であり, シェリントン-カークパトリックモデルに対して, 厳密な解を得るという予想が真であることを示す証拠が得られた。

The Quantum Approximate Optimization Algorithm (QAOA) is a quantum algorithm designed for Combinatorial Optimization Problem (COP). We show that if a COP with an underlying Erd\"os--R\'enyi hypergraph exhibits the Overlap Gap Property (OGP), then a random regular hypergraph exhibits it as well. Given that Max-$q$-XORSAT on an Erd\"os--R\'enyi hypergraph is known to exhibit the OGP, and since the performance of QAOA for the pure $q$-spin model matches asymptotically for Max-$q$-XORSAT on large-girth regular hypergraph, we show that the average-case value obtained by QAOA for the pure $q$-spin model for even $q\ge 4$ is bounded away from optimality even when the algorithm runs indefinitely. This suggests that a necessary condition for the validity of limit swapping in QAOA is the absence of OGP in a given combinatorial optimization problem. Furthermore, the results suggests that even when sub-optimised, the performance of QAOA on spin glass is equal in performance to classical algorithms in solving the mean field spin glass problem providing further evidence that the conjecture of getting the exact solution under limit swapping for the Sherrington--Kirkpatrick model to be true.
翻訳日:2024-08-21 03:08:08 公開日:2024-08-19
# 表情認識のための動的解像度誘導

Dynamic Resolution Guidance for Facial Expression Recognition ( http://arxiv.org/abs/2404.06365v2 )

ライセンス: Link先を確認
Songpan Wang, Xu Li, Tianxiang Jiang, Yuanlun Xie, (参考訳) 顔の表情認識(FER)は人間とコンピュータの相互作用や感情分析に不可欠であるが、低解像度画像における表情の認識は依然として困難である。 本稿では,表情認識のための動的解像度誘導法 (DRGFER) を提案する。 本フレームワークは,解像度認識ネットワーク(RRN)とMRAFER(Multi-Resolution Adaptation Facial Expression Recognition Network)の2つの主要コンポーネントから構成される。 RRNは画像解像度を決定し、バイナリベクトルを出力し、MRAFERは解像度に基づいて適切な表情認識ネットワークに画像を割り当てる。 DRGFERをRAFDBとFERPlusで評価し,提案手法が各解像度で最適なモデル性能を維持し,代替解法よりも優れていることを示した。 提案したフレームワークは、解像度の変動や表情に対する堅牢性を示し、現実世界のアプリケーションに有望なソリューションを提供する。

Facial expression recognition (FER) is vital for human-computer interaction and emotion analysis, yet recognizing expressions in low-resolution images remains challenging. This paper introduces a practical method called Dynamic Resolution Guidance for Facial Expression Recognition (DRGFER) to effectively recognize facial expressions in images with varying resolutions without compromising FER model accuracy. Our framework comprises two main components: the Resolution Recognition Network (RRN) and the Multi-Resolution Adaptation Facial Expression Recognition Network (MRAFER). The RRN determines image resolution, outputs a binary vector, and the MRAFER assigns images to suitable facial expression recognition networks based on resolution. We evaluated DRGFER on widely-used datasets RAFDB and FERPlus, demonstrating that our method retains optimal model performance at each resolution and outperforms alternative resolution approaches. The proposed framework exhibits robustness against resolution variations and facial expressions, offering a promising solution for real-world applications.
翻訳日:2024-08-21 03:08:08 公開日:2024-08-19
# 大きな動きを持つビデオフレーム補間のためのスパースグローバルマッチング

Sparse Global Matching for Video Frame Interpolation with Large Motion ( http://arxiv.org/abs/2404.06913v3 )

ライセンス: Link先を確認
Chunxu Liu, Guozhen Zhang, Rui Zhao, Limin Wang, (参考訳) 大きな動きはビデオフレーム補間(VFI)タスクにおいて重要な課題となる。 既存の手法は、しばしば制限された受容場によって制約されるため、大きな動きを持つシナリオを扱う際の準最適性能をもたらす。 本稿では,大動きに伴う問題を軽減するために,グローバルレベルの情報を効果的に統合するVFIの新しいパイプラインを提案する。 具体的には、まず、局所的な詳細を抽出する高分解能特徴写像を用いて、初期中間流の対を推定する。 そこで我々は,初期フローの欠陥を同定し,大域的受容場とのスパースフロー補償を生成するフロー推定を補うために,スパースグローバルマッチングブランチを組み込んだ。 最後に、初期フロー推定と大域フロー補償を適応的に組み合わせ、より正確な中間フローを得る。 提案手法の大規模動作処理における有効性を評価するため,一般的なベンチマークからより困難なサブセットを慎重にキュレートする。 提案手法は, 動作が大きいVFIサブセット上での最先端性能を示す。

Large motion poses a critical challenge in Video Frame Interpolation (VFI) task. Existing methods are often constrained by limited receptive fields, resulting in sub-optimal performance when handling scenarios with large motion. In this paper, we introduce a new pipeline for VFI, which can effectively integrate global-level information to alleviate issues associated with large motion. Specifically, we first estimate a pair of initial intermediate flows using a high-resolution feature map for extracting local details. Then, we incorporate a sparse global matching branch to compensate for flow estimation, which consists of identifying flaws in initial flows and generating sparse flow compensation with a global receptive field. Finally, we adaptively merge the initial flow estimation with global flow compensation, yielding a more accurate intermediate flow. To evaluate the effectiveness of our method in handling large motion, we carefully curate a more challenging subset from commonly used benchmarks. Our method demonstrates the state-of-the-art performance on these VFI subsets with large motion.
翻訳日:2024-08-21 03:08:08 公開日:2024-08-19
# HGRN2: 状態拡張を備えたGated Linear RNN

HGRN2: Gated Linear RNNs with State Expansion ( http://arxiv.org/abs/2404.07904v2 )

ライセンス: Link先を確認
Zhen Qin, Songlin Yang, Weixuan Sun, Xuyang Shen, Dong Li, Weigao Sun, Yiran Zhong, (参考訳) 階層化された線形RNN (HGRN, \citealt{HGRN}) は、効率的な推論を提供しながら、言語モデリングにおける競争的トレーニング速度と性能を実証している。 しかし、HGRNの繰り返し状態サイズは比較的小さく、表現性が制限されている。 この問題に対処するために、我々は、追加パラメータを導入することなく、再帰状態サイズを大幅に拡大する単純な外部製品ベースの状態拡張機構を導入する。 この拡張は、ハードウェア効率のトレーニングを可能にするHGRN2の線形アテンション解釈も提供する。 我々の広範な実験は、HGRNよりもHGRN2の利点を、異なる設定で一貫して検証し、他のリカレントモデルと競合する。

Hierarchically gated linear RNN (HGRN, \citealt{HGRN}) has demonstrated competitive training speed and performance in language modeling while offering efficient inference. However, the recurrent state size of HGRN remains relatively small, limiting its expressiveness. To address this issue, we introduce a simple outer product-based state expansion mechanism, which significantly enlarges the recurrent state size without introducing any additional parameters. This enhancement also provides a linear attention interpretation for HGRN2, enabling hardware-efficient training. Our extensive experiments verify the advantage of HGRN2 over HGRN consistently across different settings and competitive with other recurrent models.
翻訳日:2024-08-21 03:08:08 公開日:2024-08-19
# 圧縮はインテリジェンスをリニアに表現する

Compression Represents Intelligence Linearly ( http://arxiv.org/abs/2404.09937v2 )

ライセンス: Link先を確認
Yuzhen Huang, Jinghan Zhang, Zifei Shan, Junxian He, (参考訳) うまく圧縮する学習が知性につながるという信念がある。 近年、言語モデリングは圧縮と等価であることが示されており、これは大規模言語モデル(LLM)の成功に対する説得力のある根拠となっている。 このような魅力的な議論にもかかわらず、圧縮と知性の間の相互作用には実証的な証拠はほとんど存在しない。 本研究では, LLMをデータ圧縮機として扱うことで, LLMの文脈におけるそれらの関係を考察する。 インテリジェンス」という抽象的な概念を考えると、平均ダウンストリームベンチマークスコアは、知識や常識、コーディング、数学的推論に関連するインテリジェンスを特に対象とするサロゲートとして採用する。 12のベンチマークで、さまざまな組織から生まれた31のパブリックLLMをまとめました。 注目すべきは、平均ベンチマークスコアによって反映されるLCMのインテリジェンスが、外部テキストコーパスを圧縮する能力とほぼ線形に相関していることである。 これらの結果は、優れた圧縮はより大きな知性を示すという信念を裏付ける具体的な証拠を提供する。 さらに, 圧縮効率は, 原文コーパスから導出される教師なしの指標として, モデル能力に線形に関連付けられた信頼性評価指標として機能することが示唆された。 我々は、将来の研究者が圧縮を適切に評価できるように、圧縮データセットとデータ収集パイプラインをオープンソース化しました。

There is a belief that learning to compress well will lead to intelligence. Recently, language modeling has been shown to be equivalent to compression, which offers a compelling rationale for the success of large language models (LLMs): the development of more advanced language models is essentially enhancing compression which facilitates intelligence. Despite such appealing discussions, little empirical evidence is present for the interplay between compression and intelligence. In this work, we examine their relationship in the context of LLMs, treating LLMs as data compressors. Given the abstract concept of "intelligence", we adopt the average downstream benchmark scores as a surrogate, specifically targeting intelligence related to knowledge and commonsense, coding, and mathematical reasoning. Across 12 benchmarks, our study brings together 31 public LLMs that originate from diverse organizations. Remarkably, we find that LLMs' intelligence -- reflected by average benchmark scores -- almost linearly correlates with their ability to compress external text corpora. These results provide concrete evidence supporting the belief that superior compression indicates greater intelligence. Furthermore, our findings suggest that compression efficiency, as an unsupervised metric derived from raw text corpora, serves as a reliable evaluation measure that is linearly associated with the model capabilities. We open-source our compression datasets as well as our data collection pipelines to facilitate future researchers to assess compression properly.
翻訳日:2024-08-21 02:58:10 公開日:2024-08-19
# 信頼の連鎖:コモン・クレーテリア認定商品における参照の発見

Chain of trust: Unraveling references among Common Criteria certified products ( http://arxiv.org/abs/2404.14246v3 )

ライセンス: Link先を確認
Adam Janovsky, Łukasz Chmielewski, Petr Svenda, Jan Jancar, Vashek Matyas, (参考訳) IT製品とシステムのセキュリティ証明書5394により、Common Criteria for Information Technology Security Evaluation(情報技術セキュリティ評価共通基準)は、認定された製品とさまざまな種類の関係に絡み合ったエコシステムを育んでいる。 しかし、Common Criteria認定製品における依存性の頻度と性質はほとんど解明されていない。 本研究は,Common Criteria認定商品間の参照グラフの構築,教師付き機械学習アルゴリズムによる参照の異なるコンテキストの決定,および,認定商品間の実際の依存度を計測する新しい手法を提案する。 この研究は、結果の参照グラフの助けを借りて、エコシステム全体の少なくとも10%が依存している認証済みのコンポーネントをわずか10個特定する。 それらの妥協の影響が評価され、アーカイブ製品への潜在的に問題のある参照が議論される。

With 5394 security certificates of IT products and systems, the Common Criteria for Information Technology Security Evaluation have bred an ecosystem entangled with various kind of relations between the certified products. Yet, the prevalence and nature of dependencies among Common Criteria certified products remains largely unexplored. This study devises a novel method for building the graph of references among the Common Criteria certified products, determining the different contexts of references with a supervised machine-learning algorithm, and measuring how often the references constitute actual dependencies between the certified products. With the help of the resulting reference graph, this work identifies just a dozen of certified components that are relied on by at least 10% of the whole ecosystem -- making them a prime target for malicious actors. The impact of their compromise is assessed and potentially problematic references to archived products are discussed.
翻訳日:2024-08-21 02:58:10 公開日:2024-08-19
# ORBIT:オークリッジベースモデルによる地球システムの予測可能性

ORBIT: Oak Ridge Base Foundation Model for Earth System Predictability ( http://arxiv.org/abs/2404.14712v5 )

ライセンス: Link先を確認
Xiao Wang, Siyan Liu, Aristeidis Tsaris, Jong-Youl Choi, Ashwin Aji, Ming Fan, Wei Zhang, Junqi Yin, Moetasim Ashfaq, Dan Lu, Prasanna Balaprakash, (参考訳) 地球系の予測可能性には、環境力学の複雑さと、関連する変数の多さがある。 現在のAI基盤モデルは、大規模で異質なデータを活用することで進歩しているが、そのサイズとデータ統合によって制約されることが多く、地球系の予測問題に対処する上での有効性を制限している。 これらの制限を克服するために、新しいハイブリッドテンソルデータ直交並列化技術を用いて、最大130億のパラメータをスケールする先進的な視覚トランスフォーマーモデルであるOak Ridge Base Foundation Model for Earth System Predictability (ORBIT)を導入する。 この種の最大のモデルとして、ORBITは現在の気候AIファンデーションモデルサイズを1000倍に超えている。 Frontierスーパーコンピュータで実施された性能スケーリングテストでは、ORBITは684ペタFLOPSから1.6エキサFLOPSの持続スループットを実現し、49,152AMDGPUで41%から85%のスケーリング効率を維持した。 これらのブレークスルーは、AI駆動の気候モデリングの新たな進歩を確立し、地球系の予測可能性を大幅に改善する約束を実証する。

Earth system predictability is challenged by the complexity of environmental dynamics and the multitude of variables involved. Current AI foundation models, although advanced by leveraging large and heterogeneous data, are often constrained by their size and data integration, limiting their effectiveness in addressing the full range of Earth system prediction challenges. To overcome these limitations, we introduce the Oak Ridge Base Foundation Model for Earth System Predictability (ORBIT), an advanced vision transformer model that scales up to 113 billion parameters using a novel hybrid tensor-data orthogonal parallelism technique. As the largest model of its kind, ORBIT surpasses the current climate AI foundation model size by a thousandfold. Performance scaling tests conducted on the Frontier supercomputer have demonstrated that ORBIT achieves 684 petaFLOPS to 1.6 exaFLOPS sustained throughput, with scaling efficiency maintained at 41% to 85% across 49,152 AMD GPUs. These breakthroughs establish new advances in AI-driven climate modeling and demonstrate promise to significantly improve the Earth system predictability.
翻訳日:2024-08-21 02:58:10 公開日:2024-08-19
# 雑音ボソンサンプリングのためのパターン認識検証手法の拡張

Extension of a Pattern Recognition Validation Approach for Noisy Boson Sampling ( http://arxiv.org/abs/2404.15603v3 )

ライセンス: Link先を確認
Yang Ji, Yongzheng Wu, Shi Wang, Jie Hou, Meiling Chen, Ming Ni, (参考訳) ボソンサンプリングは、量子計算の利点を示す主要な量子計算モデルの一つである。 しかし、この目的は光子識別性と光子損失の2つの主要なノイズを考慮することは困難である。 この利点を示すには識別性が高すぎるかどうかを評価するためにベイズ検証に触発されたパターン認識検証は、識別可能性と損失の両方を考慮して、ボソンサンプリングのために拡張される。 K平均++法で構築されたクラスタに基づいて、パラメータを慎重に調整して拡張バリデーション性能を最適化する。 しかし、この規制は光子損失によって抑制される。 ソートされた出力の確率分布と平均2ノルム距離を計算することにより、出力イベントの本質的なデータ構造を解析する。 近似アルゴリズムは、ノイズを伴うデータ構造の変化を示すためにも用いられる。

Boson sampling is one of the main quantum computation models to demonstrate the quantum computational advantage. However, this aim may be hard to realize considering two main kinds of noises, which are photon distinguishability and photon loss. Inspired by the Bayesian validation extended to evaluate whether distinguishability is too high to demonstrate this advantage, the pattern recognition validation is extended for boson sampling, considering both distinguishability and loss. Based on clusters constructed with the K means++ method, where parameters are carefully adjusted to optimize the extended validation performances, the distribution of characteristic values is nearly monotonically changed with indistinguishability, especially when photons are close to be indistinguishable. However, this regulation may be suppressed by photon loss. The intrinsic data structure of output events is analyzed through calculating probability distributions and mean 2-norm distances of the sorted outputs. An approximation algorithm is also used to show the data structure changes with noises.
翻訳日:2024-08-21 02:58:10 公開日:2024-08-19
# 周波数可変フォック状態生成のための量子光のハイブリッド光源

A hybrid source of quantum light for generation of frequency tunable Fock states ( http://arxiv.org/abs/2404.15908v2 )

ライセンス: Link先を確認
Aleksa Krstić, Priyanshu Tiwari, Florian Höhe, Frank Setzpfandt, Ulf Peschel, Joachim Ankerhold, Sina Saravi, (参考訳) 本研究では,2レベル系にハイブリダイドされた非線形キャビティにおける量子光発生方式を提案し,一連の制御されたポンプパルスに励起されると,高い確率でフォック状態を生成することを理論的に示す。 例えば、1光子状態と2光子状態がほぼオンデマンドで生成でき、フォック状態は最大7ドルの光子を持ち、50\%以上の確率を持つ。 非線形キャビティの調整可能な性質により、固定された2レベルシステムであっても任意の周波数でフォック状態を生成することができ、量子技術のあらゆる領域において根本的に新しい機会を生み出すことができる。

We propose a scheme for quantum-light generation in a nonlinear cavity hybridized with a 2-level system and theoretically show that, when excited by a series of controlled pump pulses, the hybrid source generates Fock states with high probabilities. E.g., 1- and 2-photon states can be generated near-on-demand, and Fock states with up to $7$ photons with a probability above $50\%$. The tailorable nature of the nonlinear cavity allows for generating Fock states with arbitrary frequencies, even with a fixed 2-level system, creating fundamentally new opportunities in all areas of quantum technologies.
翻訳日:2024-08-21 02:58:10 公開日:2024-08-19
# オントロジー分類のためのファジィ損失

A fuzzy loss for ontology classification ( http://arxiv.org/abs/2405.02083v2 )

ライセンス: Link先を確認
Simon Flügel, Martin Glauer, Till Mossakowski, Fabian Neuhaus, (参考訳) ディープラーニングモデルは、適用されるタスクの固有の制約に気付かないことが多い。 しかし、多くの下流タスクは論理的一貫性を必要とする。 オントロジー分類タスクには、クラス間の仮定と不整合関係が含まれる。 深層学習モデルの整合性を高めるため,ラベルに基づく損失と,不随意・不随意・不一致の項を組み合わせたファジィ損失を提案する。 ChEBIオントロジーによる評価は,ファジィ損失は,分類性能を低下させることなく,数桁の一貫性違反数を減少させることができることを示している。 さらに、ファジィ損失を教師なし学習に用いる。 これにより、データの一貫性をさらに向上できることを示す。

Deep learning models are often unaware of the inherent constraints of the task they are applied to. However, many downstream tasks require logical consistency. For ontology classification tasks, such constraints include subsumption and disjointness relations between classes. In order to increase the consistency of deep learning models, we propose a fuzzy loss that combines label-based loss with terms penalising subsumption- or disjointness-violations. Our evaluation on the ChEBI ontology shows that the fuzzy loss is able to decrease the number of consistency violations by several orders of magnitude without decreasing the classification performance. In addition, we use the fuzzy loss for unsupervised learning. We show that this can further improve consistency on data from a
翻訳日:2024-08-21 02:48:22 公開日:2024-08-19
# Lory: 自己回帰型言語モデル事前学習のための完全微分可能なミックス・オブ・エクササイズ

Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training ( http://arxiv.org/abs/2405.03133v2 )

ライセンス: Link先を確認
Zexuan Zhong, Mengzhou Xia, Danqi Chen, Mike Lewis, (参考訳) Mixture-of-experts (MoE) モデルは効率的なスケーリングを容易にするが、ルータネットワークのトレーニングでは、微分不可能で離散的な目的を最適化するという課題が紹介されている。 近年,パラメータ空間のエキスパートをソフトにマージする完全微分可能なMOEアーキテクチャSMEAR(Muqeeth et al , 2023)が提案されている。 本稿では,このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介する。 Lory氏は,(1)言語モデルの自己回帰性を保ちながら,専門家のマージ作業において高い効率を達成する因果セグメントルーティング戦略,(2)類似性に基づくデータバッチ化手法,の2つを紹介した。 私たちは、最大32人のエキスパートと30B(アクティブ)パラメータを持つ150Bトークンで、一連のLoryモデルをスクラッチからトレーニングしました。 実験の結果、パラメータマッチングされた高密度モデル(+13.9%)と様々な下流タスク(+1.5%-11.1%)において、大きな性能向上を示した。 セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。 さらに、Larryの訓練を受けた専門家が、監督なしにドメインレベルの専門化を捉えていることを実証する。 我々の研究は、言語モデル事前学習のための完全微分可能なMoEアーキテクチャの可能性を強調し、この分野における将来の研究を提唱する。

Mixture-of-experts (MoE) models facilitate efficient scaling; however, training the router network introduces the challenge of optimizing a non-differentiable, discrete objective. Recently, a fully-differentiable MoE architecture, SMEAR, was proposed (Muqeeth et al., 2023), which softly merges experts in the parameter space; nevertheless, its effectiveness was only demonstrated in downstream fine-tuning on classification tasks. In this paper, we present Lory, the first approach that scales such architectures to autoregressive language model pre-training. Lory introduces two key techniques: (1) a causal segment routing strategy that achieves high efficiency for expert merging operations while preserving the autoregressive nature of language models; (2) a similarity-based data batching method that encourages expert specialization by grouping similar documents in training instances. We pre-train a series of Lory models on 150B tokens from scratch, with up to 32 experts and 30B (1.5B active) parameters. Experimental results show significant performance gains over parameter-matched dense models on both perplexity (+13.9%) and a variety of downstream tasks (+1.5%-11.1%). Despite segment-level routing, Lory models achieve competitive performance compared to state-of-the-art MoE models with token-level routing. We further demonstrate that the trained experts in Lory capture domain-level specialization without supervision. Our work highlights the potential of fully-differentiable MoE architectures for language model pre-training and advocates future research in this area.
翻訳日:2024-08-21 02:48:22 公開日:2024-08-19
# TED: 内部一般化によるモデルトレーニングの高速化

TED: Accelerate Model Training by Internal Generalization ( http://arxiv.org/abs/2405.03228v2 )

ライセンス: Link先を確認
Jinying Xiao, Ping Li, Jie Nie, (参考訳) 大規模言語モデルは近年,高いパフォーマンスを示しているが,トレーニングコストが高いため,データセットサイズを圧縮する効率的な方法の必要性が高まっている。 内部一般化(IG)と呼ばれる保持データに適合しながら、刈り取られたデータの性能を向上するモデルの能力を定量化することで、高い刈り取り率で過度に適合するという課題に対処するTEDプルーニングを提案する。 TEDでは、内部一般化距離(IGD)に基づく最適化目標を用いて、プルーニング前後のIGの変化を測定し、真の一般化性能と整合し、暗黙の正規化を実現する。 IGD最適化の目的は、モデルが一般化誤差の最小上限を達成するために検証された。 小型マスク変動がIGに与える影響をマスクとテイラー近似を用いて研究し、IGDの高速推定を可能にする。 連続訓練力学の解析において、IGDの事前効果が検証され、進行的刈り取り戦略が提案される。 画像分類、自然言語理解、大規模言語モデルの微調整実験により、TEDはデータの60~70倍のロスレス性能を達成した。 受け入れ次第、私たちのコードは公開されます。

Large language models have demonstrated strong performance in recent years, but the high cost of training drives the need for efficient methods to compress dataset sizes. We propose TED pruning, a method that addresses the challenge of overfitting under high pruning ratios by quantifying the model's ability to improve performance on pruned data while fitting retained data, known as Internal Generalization (IG). TED uses an optimization objective based on Internal Generalization Distance (IGD), measuring changes in IG before and after pruning to align with true generalization performance and achieve implicit regularization. The IGD optimization objective was verified to allow the model to achieve the smallest upper bound on generalization error. The impact of small mask fluctuations on IG is studied through masks and Taylor approximation, and fast estimation of IGD is enabled. In analyzing continuous training dynamics, the prior effect of IGD is validated, and a progressive pruning strategy is proposed. Experiments on image classification, natural language understanding, and large language model fine-tuning show TED achieves lossless performance with 60-70\% of the data. Upon acceptance, our code will be made publicly available.
翻訳日:2024-08-21 02:48:22 公開日:2024-08-19
# パウリサンプリングによる効率的な内部積推定

Efficient distributed inner product estimation via Pauli sampling ( http://arxiv.org/abs/2405.06544v2 )

ライセンス: Link先を確認
Marcel Hinsche, Marios Ioannou, Sofiene Jerbi, Lorenzo Leone, Jens Eisert, Jose Carrasco, (参考訳) クロスプラットフォーム検証は、ローカルな量子演算と古典的な通信のみを用いて、異なる物理プラットフォームによって生成された出力状態を比較するタスクである。 これまでプロトコルは提案されてきたが、その指数的なサンプルの複雑さは、中間スケールの量子システムでさえ実践的ではない。 本研究では,パウリ基底における量子状態の拡大において,その重みに応じて分布したパウリを生成するサブルーチンであるパウリサンプリングに基づく,このタスクのための新しいプロトコルを提案する。 パウリサンプリングとクロスプラットフォーム検証の両方のプロトコルは、魔法と絡み合いの低い量子状態(すなわち、$O(\log n)$)に対して効率的であることを示す。 逆に、$\omega(\log n)$ magic と tanglement を持つ状態に対する両方のタスクの複雑さに関する超多項式的な下界を示す。 興味深いことに、実際の振幅を持つ状態を考えると、クロスプラットフォーム検証のためのプロトコルの要件は大幅に低下する可能性がある。

Cross-platform verification is the task of comparing the output states produced by different physical platforms using solely local quantum operations and classical communication. While protocols have previously been suggested for this task, their exponential sample complexity renders them unpractical even for intermediate-scale quantum systems. In this work, we propose a novel protocol for this task based on Pauli sampling, a subroutine which generates Paulis distributed according to their weight in the expansion of a quantum state in the Pauli basis. We show that our protocols for both Pauli sampling and cross-platform verification are efficient for quantum states with low magic and entanglement (i.e., of the order $O(\log n)$). Conversely, we show super-polynomial lower bounds on the complexity of both tasks for states with $\omega(\log n)$ magic and entanglement. Interestingly, when considering states with real amplitudes the requirements of our protocol for cross-platform verification can be significantly weakened.
翻訳日:2024-08-21 02:48:22 公開日:2024-08-19
# 2次元ボース混合系の有限温度における量子滴

Quantum droplets in two-dimensional Bose mixtures at finite temperature ( http://arxiv.org/abs/2405.09368v2 )

ライセンス: Link先を確認
Gabriele Spada, Sebastiano Pilati, Stefano Giorgini, (参考訳) 本研究では,強い横高調波閉じ込めを受ける魅力的なボース混合物の有限温度における量子滴の形成について検討する。 正確な経路積分モンテカルロ法により、気体と液体の平衡密度、および等温曲線に沿った圧力対体積依存性を決定する。 準2次元形状における状態方程式と気液共存領域について, 厳密な2次元の計算と比較した結果, 良好な一致が得られた。 純2次元モデルでは, 量子スケール異常の関連性について検討し, 第一次ガスの液相転移発生における臨界相互作用強度について検討する。 さらに, 気体から液体状態への密度上昇にともなって, 超流動反応が突然発生することが判明した。

We investigate the formation of quantum droplets at finite temperature in attractive Bose mixtures subject to a strong transverse harmonic confinement. By means of exact path-integral Monte Carlo methods we determine the equilibrium density of the gas and the liquid as well as the pressure vs. volume dependence along isothermal curves. Results for the equation of state and for the gas-liquid coexistence region in quasi-2D configurations are compared with calculations in strictly two dimensions, finding excellent agreement. Within the pure 2D model we explore the relevance of the quantum scale anomaly and we determine the critical interaction strength for the occurrence of the first-order gas to liquid transition. Furthermore, we find that the superfluid response develops suddenly, following the density jump from the gas to the liquid state.
翻訳日:2024-08-21 02:48:22 公開日:2024-08-19
# アンサンブルN表現性領域における一粒子還元密度行列汎関数理論の変分最小化スキーム

Variational minimization scheme for the one-particle reduced density matrix functional theory in the ensemble N-representability domain ( http://arxiv.org/abs/2405.10593v2 )

ライセンス: Link先を確認
Matthieu Vladaj, Quentin Marécat, Bruno Senjean, Matthieu Saubanère, (参考訳) 1粒子還元密度行列 (1-RDM) 函数論は、電子密度を基本変数としてではなく1-RDMを用いる密度汎関数理論 (DFT) に代わる有望な理論である。 しかし、コーン=シャムスキームの欠如や純粋な$N$-representability条件の複雑さといった長年にわたる課題は、その野放な利用を妨げる。 幸いなことに、1-RDMのほとんど全ての関数が実際にはすべての相関系でうまく機能しない自然な軌道汎函数であるように、自然軌道基底から導かれるアンサンブル$N$-表現性条件は知られ、自明である。 本研究では、1-RDMの自然な軌道表現に制限されないアンサンブル$N$-representable領域における変分最小化スキームを提案する。 1-RDMの対角部と対角部と対角部に最小化を分割することで、軌道占有の汎函数の発達への道を開くことが示され、これは化学におけるサイト占有機能理論の一般化の課題である。 M\"uller"とT\"ows-Pastor関数を用いた一様ハバードモデルおよびM\"uller関数を用いた二水素分子を用いた実験を行った。

The one-particle reduced density-matrix (1-RDM) functional theory is a promising alternative to density-functional theory (DFT) that uses the 1-RDM rather than the electronic density as a basic variable. However, long-standing challenges such as the lack of Kohn--Sham scheme and the complexity of the pure $N$-representability conditions are still impeding its wild utilization. Fortunately, ensemble $N$-representability conditions derived in the natural orbital basis are known and trivial, such that almost every functionals of the 1-RDM are actually natural orbital functionals which do not perform well for all the correlation regimes. In this work, we propose a variational minimization scheme in the ensemble $N$-representable domain that is not restricted to the natural orbital representation of the 1-RDM. We show that splitting the minimization into the diagonal and off-diagonal part of the 1-RDM can open the way toward the development of functionals of the orbital occupations, which remains a challenge for the generalization of site-occupation functional theory in chemistry. Our approach is tested on the uniform Hubbard model using the M\"uller and the T\"ows--Pastor functionals, as well as on the dihydrogen molecule using the M\"uller functional.
翻訳日:2024-08-21 02:48:22 公開日:2024-08-19
# 点クラウドデータセットへの量子ニューラルネットワークの適用における正確な置換と回転対称性の強制

Enforcing exact permutation and rotational symmetries in the application of quantum neural network on point cloud datasets ( http://arxiv.org/abs/2405.11150v4 )

ライセンス: Link先を確認
Zhelun Li, Lento Nagano, Koji Terashi, (参考訳) 量子機械学習の分野での最近の進歩は、量子回路の構造に物理対称性を取り入れるというアイデアを推進してきた。 この領域における重要なマイルストーンは、入力オブジェクトの置換の下で同変である$S_{n}$-permutation等変量子ニューラルネットワーク(QNN)の実現である。 本稿では,ポイントクラウドデータセットの回転対称性をQNNに符号化することに焦点を当てる。 このアプローチのキーとなる洞察は、ベクトル入力を持つすべての回転不変関数は、ベクトル内部積の入力を持つ関数と等価であるということである。 プロトン-陽子衝突によって生じる高エネルギー粒子崩壊をSO(1,3)$ローレンツ対称性で数値的に証明し,その有効性を示す。

Recent developments in the field of quantum machine learning have promoted the idea of incorporating physical symmetries in the structure of quantum circuits. A crucial milestone in this area is the realization of $S_{n}$-permutation equivariant quantum neural networks (QNN) that are equivariant under permutations of input objects. In this work, we focus on encoding the rotational symmetry of point cloud datasets into the QNN. The key insight of the approach is that all rotationally invariant functions with vector inputs are equivalent to a function with inputs of vector inner products. We provide a novel structure of QNN that is exactly invariant to both rotations and permutations, with its efficacy demonstrated numerically in the problems of two-dimensional image classifications and identifying high-energy particle decays, produced by proton-proton collisions, with the $SO(1,3)$ Lorentz symmetry.
翻訳日:2024-08-21 02:48:22 公開日:2024-08-19
# EmbSum: コンテンツベースのレコメンデーションのための大規模言語モデルの要約機能を活用する

EmbSum: Leveraging the Summarization Capabilities of Large Language Models for Content-Based Recommendations ( http://arxiv.org/abs/2405.11441v2 )

ライセンス: Link先を確認
Chiyu Zhang, Yifei Sun, Minghao Wu, Jun Chen, Jie Lei, Muhammad Abdul-Mageed, Rong Jin, Angli Liu, Ji Zhu, Sem Park, Ning Yao, Bo Long, (参考訳) コンテンツベースのレコメンデーションシステムは、デジタル世界のユーザにパーソナライズされたコンテンツを届ける上で重要な役割を果たす。 本研究では,ユーザエンゲージメント履歴内のインタラクションをキャプチャしながら,ユーザと候補項目のオフライン事前計算を可能にする新しいフレームワークであるEmbSumを紹介する。 EmbSumは、事前訓練されたエンコーダデコーダモデルとポリアテンション層を利用して、ユーザポリエンベッドディング(UPE)とコンテンツポリエンベッドディング(CPE)を導出し、ユーザと候補アイテム間の関連スコアを算出する。 EmbSumは,大規模言語モデル(LLM)からユーザと関心の要約を生成することによって,長いユーザエンゲージメント履歴を積極的に学習する。 EmbSumの有効性は、異なるドメインの2つのデータセットで検証され、より正確で少ないパラメータで最先端(SoTA)メソッドを上回る。 さらに、モデルがユーザ興味の要約を生成する能力は価値ある副産物となり、パーソナライズされたコンテンツレコメンデーションに有用性を高める。

Content-based recommendation systems play a crucial role in delivering personalized content to users in the digital world. In this work, we introduce EmbSum, a novel framework that enables offline pre-computations of users and candidate items while capturing the interactions within the user engagement history. By utilizing the pretrained encoder-decoder model and poly-attention layers, EmbSum derives User Poly-Embedding (UPE) and Content Poly-Embedding (CPE) to calculate relevance scores between users and candidate items. EmbSum actively learns the long user engagement histories by generating user-interest summary with supervision from large language model (LLM). The effectiveness of EmbSum is validated on two datasets from different domains, surpassing state-of-the-art (SoTA) methods with higher accuracy and fewer parameters. Additionally, the model's ability to generate summaries of user interests serves as a valuable by-product, enhancing its usefulness for personalized content recommendations.
翻訳日:2024-08-21 02:38:38 公開日:2024-08-19
# 網膜イメージファウンデーションモデルRET-CLIPの臨床診断報告

RET-CLIP: A Retinal Image Foundation Model Pre-trained with Clinical Diagnostic Reports ( http://arxiv.org/abs/2405.14137v2 )

ライセンス: Link先を確認
Jiawei Du, Jia Guo, Weihang Zhang, Shengzhu Yang, Hanruo Liu, Huiqi Li, Ningli Wang, (参考訳) Vision-Language Foundationのモデルは、コンピュータビジョンと自然言語処理の分野でますます研究されているが、眼科や広範囲の医学的応用の探究は依然として限られている。 課題は、基礎モデルのトレーニングのためのラベル付きデータの欠如である。 この問題に対処するために,CLIP型網膜画像基盤モデルを開発した。 我々の基礎モデルであるRET-CLIPは、左目、右目、患者レベルに焦点をあてて実世界の臨床シナリオを反映し、カラーファンドス写真(CFP)の一般的な特徴を抽出するために、193,865人の患者のデータセットで特別に訓練されている。 RET-CLIPは糖尿病網膜症、緑内障、多発性疾患診断、多発性疾患の多ラベル分類という4つの重要な診断カテゴリにまたがる8つのデータセットで既存のベンチマークよりも優れており、基礎モデルの性能と汎用性を示している。 sourseコードと事前訓練されたモデルはhttps://github.com/sStonemason/RET-CLIPで入手できる。

The Vision-Language Foundation model is increasingly investigated in the fields of computer vision and natural language processing, yet its exploration in ophthalmology and broader medical applications remains limited. The challenge is the lack of labeled data for the training of foundation model. To handle this issue, a CLIP-style retinal image foundation model is developed in this paper. Our foundation model, RET-CLIP, is specifically trained on a dataset of 193,865 patients to extract general features of color fundus photographs (CFPs), employing a tripartite optimization strategy to focus on left eye, right eye, and patient level to reflect real-world clinical scenarios. Extensive experiments demonstrate that RET-CLIP outperforms existing benchmarks across eight diverse datasets spanning four critical diagnostic categories: diabetic retinopathy, glaucoma, multiple disease diagnosis, and multi-label classification of multiple diseases, which demonstrate the performance and generality of our foundation model. The sourse code and pre-trained model are available at https://github.com/sStonemason/RET-CLIP.
翻訳日:2024-08-21 02:38:38 公開日:2024-08-19
# 1次元単純高調波発振器(1d-SHO)による水素原子の摂動

The hydrogen atom perturbed by a 1-dimensional Simple Harmonic Oscillator (1d-SHO) potential ( http://arxiv.org/abs/2405.14417v3 )

ライセンス: Link先を確認
C. Santamarina Ríos, P. Rodríguez Cacheda, J. J. Saborido Silva, (参考訳) 定数1次元弱二次ポテンシャル$\lambda z^2$で摂動された水素原子は、全角運動量作用素の固有状態(結合基底)を用いて一階摂動理論で解かれる。 この結果の物理的応用は、例えば、微細構造効果よりも弱い二次ゼーマン効果の研究や、即時一般化されたファンデルワールス相互作用によって引き起こされる摂動の研究で見られる。

The hydrogen atom perturbed by a constant 1-dimensional weak quadratic potential $\lambda z^2$ is solved at first-order perturbation theory using the eigenstates of the total angular momentum operator - the coupled basis. Physical applications of this result could be found, for example, in the study of a quadratic Zeeman effect weaker than fine-structure effects, or in a perturbation caused by instantaneous generalised van der Waals interactions.
翻訳日:2024-08-21 02:38:38 公開日:2024-08-19
# 日々の電力価格を再考する: シンプルなモデルで数百万ドル節約

Revisiting Day-ahead Electricity Price: Simple Model Save Millions ( http://arxiv.org/abs/2405.14893v2 )

ライセンス: Link先を確認
Linian Wang, Jianghong Liu, Huibin Zhang, Leye Wang, (参考訳) 生活福祉には正確な日頭電気価格予測が不可欠であるが、現在の方法では予測精度が低い場合が多い。 一般的に使われている時系列モデルは、価格と需要供給の事前の相関を利用するのに苦労しており、信頼性の高い電力価格予測器に多大な貢献ができることがわかった。 そこで本研究では,予測可能な需要供給値から直接価格を導出することにより,予測精度を著しく向上する簡易な断片的線形モデルを提案する。 バングラデシュの山西省とISO New Englandの電力市場実験によると、こうした予測は既存の方法に比べて年間数百万ドル節約できる可能性がある。 本研究は, 電力価格予測精度を高めるため, 時系列モデルと経済的先行性を統合することの価値を裏付けるものである。

Accurate day-ahead electricity price forecasting is essential for residential welfare, yet current methods often fall short in forecast accuracy. We observe that commonly used time series models struggle to utilize the prior correlation between price and demand-supply, which, we found, can contribute a lot to a reliable electricity price forecaster. Leveraging this prior, we propose a simple piecewise linear model that significantly enhances forecast accuracy by directly deriving prices from readily forecastable demand-supply values. Experiments in the day-ahead electricity markets of Shanxi province and ISO New England reveal that such forecasts could potentially save residents millions of dollars a year compared to existing methods. Our findings underscore the value of suitably integrating time series modeling with economic prior for enhanced electricity price forecasting accuracy.
翻訳日:2024-08-21 02:38:38 公開日:2024-08-19
# MMミキシング:3次元理解のためのマルチモード混合アライメント

MM-Mixing: Multi-Modal Mixing Alignment for 3D Understanding ( http://arxiv.org/abs/2405.18523v2 )

ライセンス: Link先を確認
Jiaze Wang, Yi Wang, Ziyu Guo, Renrui Zhang, Donghao Zhou, Guangyong Chen, Anfeng Liu, Pheng-Ann Heng, (参考訳) MM-Mixingは3次元理解のためのマルチモーダルミキシングアライメントフレームワークである。 MM-Mixingは、マルチモーダルデータに混合法を適用し、多様性を高め、モダリティ間のアライメントを改善するとともに、クロスモーダル接続の保存と最適化を行う。 提案する2段階学習パイプラインは,特徴レベルと入力レベルを混合して3Dエンコーダを最適化する。 第1段階では、3D特徴を対応するモダリティと整合させるために、特徴レベルの混合と対照的な学習が採用されている。 第2段階では、特徴レベルと入力レベルを混合し、混合点クラウド入力を導入し、3D特徴表現をさらに洗練する。 MM-Mixingはモダリティ間の関係を強化し、一般化を促進し、多様な現実的なトレーニングサンプルを提供しながら特徴の一貫性を確保する。 MM-Mixingは, ゼロショット3次元分類, 線形探索3次元分類, クロスモーダル3次元形状検索など, 様々な学習シナリオにおけるベースライン性能を著しく向上させることを示した。 ScanObjectNNのゼロショット分類精度は51.3%から61.9%,Objaverse-LVISは46.8%から51.4%に向上した。 本研究は,3次元オブジェクト認識と理解を著しく向上させるマルチモーダルミキシングベースのアライメントの可能性を明らかにするとともに,既存のフレームワークの実装と統合を簡易に行うことを目的としている。

We introduce MM-Mixing, a multi-modal mixing alignment framework for 3D understanding. MM-Mixing applies mixing-based methods to multi-modal data, preserving and optimizing cross-modal connections while enhancing diversity and improving alignment across modalities. Our proposed two-stage training pipeline combines feature-level and input-level mixing to optimize the 3D encoder. The first stage employs feature-level mixing with contrastive learning to align 3D features with their corresponding modalities. The second stage incorporates both feature-level and input-level mixing, introducing mixed point cloud inputs to further refine 3D feature representations. MM-Mixing enhances intermodality relationships, promotes generalization, and ensures feature consistency while providing diverse and realistic training samples. We demonstrate that MM-Mixing significantly improves baseline performance across various learning scenarios, including zero-shot 3D classification, linear probing 3D classification, and cross-modal 3D shape retrieval. Notably, we improved the zero-shot classification accuracy on ScanObjectNN from 51.3% to 61.9%, and on Objaverse-LVIS from 46.8% to 51.4%. Our findings highlight the potential of multi-modal mixing-based alignment to significantly advance 3D object recognition and understanding while remaining straightforward to implement and integrate into existing frameworks.
翻訳日:2024-08-21 02:38:38 公開日:2024-08-19
# タブラルデータ合成のための条件密度推定のためのマスケ言語モデリング

Masked Language Modeling Becomes Conditional Density Estimation for Tabular Data Synthesis ( http://arxiv.org/abs/2405.20602v2 )

ライセンス: Link先を確認
Seunghwan An, Gyeongdong Woo, Jaesung Lim, ChangHyun Kim, Sungchul Hong, Jong-June Jeon, (参考訳) 本稿では,機械学習ユーティリティ(MLu)を用いた異種(混合型)表型データセットの合成データを生成することを目的とする。 MLuの性能は条件分布の正確な近似に依存するため,条件分布推定に基づく合成データ生成手法の開発に注力する。 Masked Language Modeling (MLM) の連続的多クラス分類タスクをヒストグラムに基づく非パラメトリック条件密度推定として再定義し,MaCoDEを提案する。 目的変数と条件変数の任意の組み合わせで条件密度を推定できる。 我々は,MLMと分布学習の理論的ギャップを,無秩序な多クラス分類損失の最小化が条件分布間の全変動距離の最小化に繋がることを示すことによって橋渡しする。 提案モデルの有効性を検証するため,10個の実世界のデータセットにまたがる合成データ生成の性能を評価し,データプライバシレベルを再学習することなく容易に調整できることを実証した。 さらに,MLMにおけるマスク付き入力トークンは,欠落データと類似しているため,欠落したエントリの複数命令を含む,欠落値によるトレーニングデータセットの処理の有効性をさらに評価する。

In this paper, our goal is to generate synthetic data for heterogeneous (mixed-type) tabular datasets with high machine learning utility (MLu). Since the MLu performance depends on accurately approximating the conditional distributions, we focus on devising a synthetic data generation method based on conditional distribution estimation. We introduce MaCoDE by redefining the consecutive multi-class classification task of Masked Language Modeling (MLM) as histogram-based non-parametric conditional density estimation. Our approach enables the estimation of conditional densities across arbitrary combinations of target and conditional variables. We bridge the theoretical gap between distributional learning and MLM by demonstrating that minimizing the orderless multi-class classification loss leads to minimizing the total variation distance between conditional distributions. To validate our proposed model, we evaluate its performance in synthetic data generation across 10 real-world datasets, demonstrating its ability to adjust data privacy levels easily without re-training. Additionally, since masked input tokens in MLM are analogous to missing data, we further assess its effectiveness in handling training datasets with missing values, including multiple imputations of the missing entries.
翻訳日:2024-08-21 02:38:38 公開日:2024-08-19
# 電子シュロディンガー方程式に対するフローベース解の効率的な正規化のための理論的枠組み

A Theoretical Framework for an Efficient Normalizing Flow-Based Solution to the Electronic Schrodinger Equation ( http://arxiv.org/abs/2406.00047v2 )

ライセンス: Link先を確認
Daniel Freedman, Eyal Rozenberg, Alex Bronstein, (参考訳) 量子力学における中心的な問題は、分子や物質に対する電子シュロディンガー方程式を解くことである。 この問題に対する変分モンテカルロのアプローチはサンプリングによって特定の変分対象を近似し、アンザッツとして知られるパラメータ化された波動関数の族よりもこの近似対象を最適化する。 近年、ニューラルネットワークがアンザッツとして使われ、成功している。 しかし、そのような波動関数からのサンプリングにはマルコフ・チェイン・モンテカルロのアプローチが必要であり、これは本質的に非効率である。 そこで本研究では,アンザッツによる解法を提案する。アンザッツは安価で,必要な量子力学的性質を満足する。 以下の2つの必須成分を用いた正規化フローが我々の要求を満たすことを証明している。 a) 決定的点過程から構築された基礎分布 b) 置換群の特定の部分群に同値なフロー層。 次に、必要等式を満たす連続正規化フローと離散正規化フローの両方を構築する方法を示す。 さらに、波動関数の非滑らかな性質(尖点)を捉える方法や、フレームワークが複数の分子をまたいだ誘導を提供するためにどのように一般化されるかを示す。 結果として生じる理論的枠組みは電子シュロディンガー方程式を解くための効率的なアプローチを必要とする。

A central problem in quantum mechanics involves solving the Electronic Schrodinger Equation for a molecule or material. The Variational Monte Carlo approach to this problem approximates a particular variational objective via sampling, and then optimizes this approximated objective over a chosen parameterized family of wavefunctions, known as the ansatz. Recently neural networks have been used as the ansatz, with accompanying success. However, sampling from such wavefunctions has required the use of a Markov Chain Monte Carlo approach, which is inherently inefficient. In this work, we propose a solution to this problem via an ansatz which is cheap to sample from, yet satisfies the requisite quantum mechanical properties. We prove that a normalizing flow using the following two essential ingredients satisfies our requirements: (a) a base distribution which is constructed from Determinantal Point Processes; (b) flow layers which are equivariant to a particular subgroup of the permutation group. We then show how to construct both continuous and discrete normalizing flows which satisfy the requisite equivariance. We further demonstrate the manner in which the non-smooth nature ("cusps") of the wavefunction may be captured, and how the framework may be generalized to provide induction across multiple molecules. The resulting theoretical framework entails an efficient approach to solving the Electronic Schrodinger Equation.
翻訳日:2024-08-21 02:38:38 公開日:2024-08-19
# オンライン被覆経路計画のための深層強化学習エージェントの同時移動

Sim-to-Real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning ( http://arxiv.org/abs/2406.04920v2 )

ライセンス: Link先を確認
Arvi Jonnarth, Ola Johansson, Michael Felsberg, (参考訳) シミュレーションでトレーニングされたモデルが現実世界にデプロイされるという、シミュレーションから現実への移行は難しい課題である。 2つの設定間の分布シフトは、ダイナミクスの偏りのある表現をもたらし、現実の環境における最適以下の予測をもたらす。 本研究では,Regressing Learning (RL) エージェントのカバレッジパス計画 (CPP) におけるシミュレート・トゥ・リアル移行の課題に取り組む。 CPPでは、ロボットが制限された領域のすべての点をカバーする経路を見つけることが課題である。 具体的には、環境が不明な場合について考察し、エージェントは環境をマッピングしながら、オンラインで経路を計画する必要がある。 シミュレーションされたセンサと障害物を利用して環境ランダム化と自動エピソードリセットを実現する。 本研究は,シミュレーションのみで訓練されたエージェントと比較して,現実的な設定に適応するためにどのレベルの微調整が必要なのかを考察する。 高い推測周波数は、一階マルコフのポリシーをシミュレーションから直接転送することを可能にし、高階のポリシーを微調整することで、sim-to-realのギャップをさらに減らすことができる。 さらに、低い周波数で操作できるため、計算要求を低減できる。 どちらの場合も、我々のアプローチはシミュレーションによる最先端の結果を実際のドメインに転送します。

Sim-to-real transfer presents a difficult challenge, where models trained in simulation are to be deployed in the real world. The distribution shift between the two settings leads to biased representations of the dynamics, and thus to suboptimal predictions in the real-world environment. In this work, we tackle the challenge of sim-to-real transfer of reinforcement learning (RL) agents for coverage path planning (CPP). In CPP, the task is for a robot to find a path that covers every point of a confined area. Specifically, we consider the case where the environment is unknown, and the agent needs to plan the path online while mapping the environment. We bridge the sim-to-real gap through a semi-virtual environment, including a real robot and real-time aspects, while utilizing a simulated sensor and obstacles to enable environment randomization and automated episode resetting. We investigate what level of fine-tuning is needed for adapting to a realistic setting, comparing to an agent trained solely in simulation. We find that a high inference frequency allows first-order Markovian policies to transfer directly from simulation, while higher-order policies can be fine-tuned to further reduce the sim-to-real gap. Moreover, they can operate at a lower frequency, thus reducing computational requirements. In both cases, our approaches transfer state-of-the-art results from simulation to the real domain, where direct learning would take in the order of weeks with manual interaction, that is, it would be completely infeasible.
翻訳日:2024-08-21 02:28:42 公開日:2024-08-19
# イジング・ハミルトニアンを用いた一次元フェルミオン系の量子シミュレーション

Quantum simulation of one-dimensional fermionic systems with Ising Hamiltonians ( http://arxiv.org/abs/2406.06378v2 )

ライセンス: Link先を確認
Matthias Werner, Artur García-Sáez, Marta P. Estarellas, (参考訳) 近年、アナログ量子シミュレータは量子ビット数とコヒーレンス時間の両方で前例のない品質に達している。 これらのシミュレータのほとんどは、効率的にシミュレートできるモデルのクラスを制限するIsing-type Hamiltonianをネイティブに実装している。 この制限を克服し、局所横断場を持つ単純なイジング型ハミルトニアンの1次元におけるスピンレスフェルミオン系の時間進化をシミュレートする手法を提案する。 本手法は,強強強強強強磁性結合を用いて実装された磁壁符号化に基づく。 強い$|J|$の極限において、ドメインの壁は1Dのスピンレスフェルミオンのように振る舞う。 イジング・ハミルトニアン(Ising Hamiltonian)は、最も近い隣り合う1次元鎖であり、任意に次の隣り合う相互作用を持つ。 概念実証として,ドメイン壁の進化を用いた各種1次元フェルミオン系の数値シミュレーションを行い,トポロジカルエッジ状態,アンダーソン局在化,量子カオス時間進化,フロケット工学による時間反転対称性の破れなどのシステムの特性を正確に再現する。 提案手法は,Ising型ハミルトニアンの逆場をネイティブに実装したアナログ量子ハードウェア上で,大規模なフェルミオン多体系のシミュレーションを可能にする。

In recent years, analog quantum simulators have reached unprecedented quality, both in qubit numbers and coherence times. Most of these simulators natively implement Ising-type Hamiltonians, which limits the class of models that can be simulated efficiently. We propose a method to overcome this limitation and simulate the time-evolution of a large class of spinless fermionic systems in 1D using simple Ising-type Hamiltonians with local transverse fields. Our method is based on domain wall encoding, which is implemented via strong (anti-)ferromagnetic couplings $|J|$. We show that in the limit of strong $|J|$, the domain walls behave like spinless fermions in 1D. The Ising Hamiltonians are one-dimensional chains with nearest-neighbor and, optionally, next-nearest-neighbor interactions. As a proof-of-concept, we perform numerical simulations of various 1D-fermionic systems using domain wall evolution and accurately reproduce the systems' properties, such as topological edge states, Anderson localization, quantum chaotic time evolution and time-reversal symmetry breaking via Floquet-engineering. Our approach makes the simulation of a large class of fermionic many-body systems feasible on analogue quantum hardware that natively implements Ising-type Hamiltonians with transverse fields.
翻訳日:2024-08-21 02:28:42 公開日:2024-08-19
# 医用画像分割のための空間周波数デュアルプログレッシブアテンションネットワーク

Spatial-Frequency Dual Progressive Attention Network For Medical Image Segmentation ( http://arxiv.org/abs/2406.07952v2 )

ライセンス: Link先を確認
Zhenhuan Zhou, Along He, Yanlin Wu, Rui Yao, Xueshuo Xie, Tao Li, (参考訳) 医用画像では、様々な種類の病変が、形状やテクスチャに顕著な違いを呈することが多い。 正確な医用画像セグメンテーションは、マルチスケールおよびバウンダリの特徴学習において堅牢な機能を持つディープラーニングモデルを必要とする。 しかし、以前のネットワークは上記の問題に対処する際の制限がある。 まず、従来のネットワークが同時にマルチレベル機能を融合させたり、より深い監視を施してマルチスケール学習を強化する。 しかし、これは特徴的冗長性と過剰な計算オーバーヘッドをもたらす可能性があり、これはネットワークトレーニングや臨床展開には影響しない。 第2に、医用画像分割ネットワークの大多数は、周波数領域における豊富なグローバル情報を無視して、空間領域の特徴のみを学習する。 この結果、低周波成分への偏りが生じ、重要な高周波情報を無視する。 これらの問題に対処するために、空間周波数デュアルドメインアテンションネットワークであるSF-UNetを導入する。 マルチスケールプログレッシブ・チャンネル・アテンション(MPCA)ブロックは、隣接するエンコーダ層にまたがるマルチスケールの特徴を徐々に抽出し、軽量な周波数空間アテンション(FSA)ブロックはわずか0.05Mパラメータで、空間領域と周波数領域の両方からテクスチャとバウンダリの同時学習を可能にする。 提案するSF-UNetの3つの公開データセットに対する有効性を検証する。 実験の結果,従来のSOTA (State-of-the-art Medical Image segmentation Network) と比較して,SF-UNetは最高の性能を示し,DSCとIOUでは最大9.4\%,10.78\%の改善が達成された。 コードはhttps://github.com/nkicsl/SF-UNet.comでリリースされる。

In medical images, various types of lesions often manifest significant differences in their shape and texture. Accurate medical image segmentation demands deep learning models with robust capabilities in multi-scale and boundary feature learning. However, previous networks still have limitations in addressing the above issues. Firstly, previous networks simultaneously fuse multi-level features or employ deep supervision to enhance multi-scale learning. However, this may lead to feature redundancy and excessive computational overhead, which is not conducive to network training and clinical deployment. Secondly, the majority of medical image segmentation networks exclusively learn features in the spatial domain, disregarding the abundant global information in the frequency domain. This results in a bias towards low-frequency components, neglecting crucial high-frequency information. To address these problems, we introduce SF-UNet, a spatial-frequency dual-domain attention network. It comprises two main components: the Multi-scale Progressive Channel Attention (MPCA) block, which progressively extract multi-scale features across adjacent encoder layers, and the lightweight Frequency-Spatial Attention (FSA) block, with only 0.05M parameters, enabling concurrent learning of texture and boundary features from both spatial and frequency domains. We validate the effectiveness of the proposed SF-UNet on three public datasets. Experimental results show that compared to previous state-of-the-art (SOTA) medical image segmentation networks, SF-UNet achieves the best performance, and achieves up to 9.4\% and 10.78\% improvement in DSC and IOU. Codes will be released at https://github.com/nkicsl/SF-UNet.
翻訳日:2024-08-21 02:28:42 公開日:2024-08-19
# 機械翻訳の品質評価によるLLMの文脈内学習の指導

Guiding In-Context Learning of LLMs through Quality Estimation for Machine Translation ( http://arxiv.org/abs/2406.07970v2 )

ライセンス: Link先を確認
Javad Pourmostafa Roshan Sharami, Dimitar Shterionov, Pieter Spronck, (参考訳) 大規模言語モデル(LLM)からの出力の質は、特に機械翻訳(MT)において、クエリと共に提供される文脈内例(ICE)の品質と密接に関連している。 これらのICEの有効性は、ソーステキストのドメイン、ICEが提示される順序、サンプルの数、使用するプロンプトテンプレートなど、さまざまな要因に影響される。 当然、最も影響力のあるICEを選択することは、結果の翻訳品質にどのように影響するかを理解することに依存します。 本稿では,ドメイン固有品質推定(QE)によって導かれる探索アルゴリズムに依存する,コンテキスト内学習(ICL)の新しい手法を提案する。 提案手法では,XGLMモデルを用いて翻訳基準を必要とせずに翻訳品質を推定し,翻訳品質を最大化するためにMTに有効なICEを選択する。 その結果,既存のICL法と翻訳性能は,事前学習言語モデル(PLM),特にmBART-50の微調整に比べて大幅に向上した。

The quality of output from large language models (LLMs), particularly in machine translation (MT), is closely tied to the quality of in-context examples (ICEs) provided along with the query, i.e., the text to translate. The effectiveness of these ICEs is influenced by various factors, such as the domain of the source text, the order in which the ICEs are presented, the number of these examples, and the prompt templates used. Naturally, selecting the most impactful ICEs depends on understanding how these affect the resulting translation quality, which ultimately relies on translation references or human judgment. This paper presents a novel methodology for in-context learning (ICL) that relies on a search algorithm guided by domain-specific quality estimation (QE). Leveraging the XGLM model, our methodology estimates the resulting translation quality without the need for translation references, selecting effective ICEs for MT to maximize translation quality. Our results demonstrate significant improvements over existing ICL methods and higher translation performance compared to fine-tuning a pre-trained language model (PLM), specifically mBART-50.
翻訳日:2024-08-21 02:28:42 公開日:2024-08-19
# 一般化可能なディープフェイク検出のためのデカップリングフォージェリセマンティクス

Decoupling Forgery Semantics for Generalizable Deepfake Detection ( http://arxiv.org/abs/2406.09739v2 )

ライセンス: Link先を確認
Wei Ye, Xinan He, Feng Ding, (参考訳) 本稿では,DeepFakeを検知する新しい手法を提案し,セマンティックデカップリングによる検出の一般化を強化する。 現在、複数のDeepFakeフォージェリ技術があり、ユニークなフォージェリセマンティクスを持つだけでなく、共通のフォージェリセマンティクスを共有することもできる。 独特な偽造意味論と無関係な内容意味論はディープフェイク検出器の過度な適合と一般化を促進する可能性がある。 提案手法では,デカップリング後,DeepFakesから共通フォージェリーセマンティクスを抽出し,その後,DeepFake検出器の汎用性向上に活用する。 また,適応型ハイパスモジュールと2段階のトレーニング戦略を設計し,分離されたセマンティクスの独立性を向上した。 FF++, Celeb-DF, DFD, DFDCデータセットの評価は, 本手法の優れた検出と一般化性能を示す。 コードは、https://github.com/leaffeall/DFS-GDD.comで入手できる。

In this paper, we propose a novel method for detecting DeepFakes, enhancing the generalization of detection through semantic decoupling. There are now multiple DeepFake forgery technologies that not only possess unique forgery semantics but may also share common forgery semantics. The unique forgery semantics and irrelevant content semantics may promote over-fitting and hamper generalization for DeepFake detectors. For our proposed method, after decoupling, the common forgery semantics could be extracted from DeepFakes, and subsequently be employed for developing the generalizability of DeepFake detectors. Also, to pursue additional generalizability, we designed an adaptive high-pass module and a two-stage training strategy to improve the independence of decoupled semantics. Evaluation on FF++, Celeb-DF, DFD, and DFDC datasets showcases our method's excellent detection and generalization performance. Code is available at: https://github.com/leaffeall/DFS-GDD.
翻訳日:2024-08-21 02:28:42 公開日:2024-08-19
# 長文用大言語モデルにおけるクエリ関連ニューロンの同定

Identifying Query-Relevant Neurons in Large Language Models for Long-Form Texts ( http://arxiv.org/abs/2406.10868v2 )

ライセンス: Link先を確認
Lihu Chen, Adam Dejl, Francesca Toni, (参考訳) 大規模言語モデル (LLM) はそのパラメータ内で膨大な量の知識を保有しており、この知識を探索し、編集する手法の研究を促す。 これまでの研究は、小さなモデルでエンティティ関連の事実(多くの場合、シングルトークン)を見つけることに重点を置いてきた。 1)LlamaやMistralのような現代自己回帰LDMにおいて、クエリ関連ニューロンを効果的に見つけるにはどうすればよいのか? (2)長文テキスト生成の課題にどう対処すればよいか? (3)LLMに局所的な知識領域はあるか? 本研究では,LLMにおけるクエリ関連ニューロンを識別できるアーキテクチャに依存しない新しいフレームワークであるQRNCA(Query-Relevant Neuron Cluster Attribution)を紹介する。 QRNCAは、多選択質問応答のプロキシタスクを利用することで、三重項事実を超えた長文回答の検証を可能にする。 検出されたニューロンの有効性を評価するため、様々なドメインや言語にまたがる2つの多色QAデータセットを構築した。 実験により,本手法がベースライン法を著しく上回ることを示す。 さらに、ニューロンの分布の解析により、特に異なる領域における可視的な局在領域の存在が明らかになる。 最後に,検出されたニューロンの知識編集およびニューロンによる予測への応用の可能性を示す。

Large Language Models (LLMs) possess vast amounts of knowledge within their parameters, prompting research into methods for locating and editing this knowledge. Previous work has largely focused on locating entity-related (often single-token) facts in smaller models. However, several key questions remain unanswered: (1) How can we effectively locate query-relevant neurons in contemporary autoregressive LLMs, such as Llama and Mistral? (2) How can we address the challenge of long-form text generation? (3) Are there localized knowledge regions in LLMs? In this study, we introduce Query-Relevant Neuron Cluster Attribution (QRNCA), a novel architecture-agnostic framework capable of identifying query-relevant neurons in LLMs. QRNCA allows for the examination of long-form answers beyond triplet facts by employing the proxy task of multi-choice question answering. To evaluate the effectiveness of our detected neurons, we build two multi-choice QA datasets spanning diverse domains and languages. Empirical evaluations demonstrate that our method outperforms baseline methods significantly. Further, analysis of neuron distributions reveals the presence of visible localized regions, particularly within different domains. Finally, we show potential applications of our detected neurons in knowledge editing and neuron-based prediction.
翻訳日:2024-08-21 02:28:42 公開日:2024-08-19
# マルチメタRAG:LLM抽出メタデータを用いたデータベースフィルタリングによるマルチホップクエリのRAG改善

Multi-Meta-RAG: Improving RAG for Multi-Hop Queries using Database Filtering with LLM-Extracted Metadata ( http://arxiv.org/abs/2406.13213v2 )

ライセンス: Link先を確認
Mykhailo Poliakov, Nadiya Shvai, (参考訳) 検索拡張生成(RAG)は、外部の知識ソースから関連する情報を検索し、未確認の文書コレクションに対する問い合わせに答える大きな言語モデル(LLM)を可能にする。 しかし,従来のRAGアプリケーションはマルチホップ質問に対する回答が不十分であり,証拠の複数の要素を検索・推論する必要があることが実証された。 LLM抽出メタデータを用いたデータベースフィルタリング手法であるMulti-Meta-RAGを提案する。 データベースフィルタリングは特定のドメインやフォーマットからの質問に特化しているが、Multi-Meta-RAGはMultiHop-RAGベンチマークの結果を大幅に改善することがわかった。 コードはhttps://github.com/mxpoliakov/Multi-Meta-RAGで公開されている。

The retrieval-augmented generation (RAG) enables retrieval of relevant information from an external knowledge source and allows large language models (LLMs) to answer queries over previously unseen document collections. However, it was demonstrated that traditional RAG applications perform poorly in answering multi-hop questions, which require retrieving and reasoning over multiple elements of supporting evidence. We introduce a new method called Multi-Meta-RAG, which uses database filtering with LLM-extracted metadata to improve the RAG selection of the relevant documents from various sources, relevant to the question. While database filtering is specific to a set of questions from a particular domain and format, we found out that Multi-Meta-RAG greatly improves the results on the MultiHop-RAG benchmark. The code is available at https://github.com/mxpoliakov/Multi-Meta-RAG.
翻訳日:2024-08-21 02:28:42 公開日:2024-08-19
# Timo: 言語モデルのための時間的推論の改善を目指して

Timo: Towards Better Temporal Reasoning for Language Models ( http://arxiv.org/abs/2406.14192v2 )

ライセンス: Link先を確認
Zhaochen Su, Jun Zhang, Tong Zhu, Xiaoye Qu, Juntao Li, Min Zhang, Yu Cheng, (参考訳) 時間に関する推論は、大言語モデル(LLM)が世界を理解するために不可欠である。 これまでの仕事は特定のタスク、主に時間に敏感な質問応答の解決に重点を置いていた。 これらの手法は有効であることが証明されているが、時間的推論タスクの幅広い範囲に一般化することはできない。 そこで我々は,様々な時間的推論タスクを扱う普遍的なフレームワークを構築することができるか,という重要な問いを提案する。 そこで我々は38の時間的推論タスクを体系的に研究した。 19のタスクが数学に直接関連しているという観測に基づいて、まず利用可能な数学的データセットを活用し、時間的推論の基盤を確立する。 しかし、詳細な研究は、数学の強化にのみ焦点を合わせることは、純粋な時間的推論タスクに対処するに足らないことを示唆している。 この制限を緩和するために、一般的なタスク能力を犠牲にすることなく、モデルの時間的推論能力を高めるための、単純で効果的な自己批判時間最適化手法を提案する。 最後に,時間的推論を 7B と 13B スケールで最適化するモデルである Timo を開発した。 ティモは平均精度スコアでLLMを10.0と7.6で上回り、SOTA(State-of-the-art)のパフォーマンスを同等のサイズで達成している。 大規模な実験により、多種多様な時間的タスクにおけるフレームワークの有効性と一般化がさらに検証される。 コードはhttps://github.com/zhaochen0110/Timoで公開されている。

Reasoning about time is essential for Large Language Models (LLMs) to understand the world. Previous works focus on solving specific tasks, primarily on time-sensitive question answering. While these methods have proven effective, they cannot generalize to a wider spectrum of temporal reasoning tasks. Therefore, we propose a crucial question: Can we build a universal framework to handle a variety of temporal reasoning tasks? To that end, we systematically study 38 temporal reasoning tasks. Based on the observation that 19 tasks are directly related to mathematics, we first leverage the available mathematical dataset to set a solid foundation for temporal reasoning. However, the in-depth study indicates that focusing solely on mathematical enhancement falls short of addressing pure temporal reasoning tasks. To mitigate this limitation, we propose a simple but effective self-critic temporal optimization method to enhance the model's temporal reasoning capabilities without sacrificing general task abilities. Finally, we develop Timo, a model designed to excel in temporal reasoning at the 7B and 13B scales. Notably, Timo outperforms the counterpart LLMs by 10.0 and 7.6 in average accuracy scores and achieves the new state-of-the-art (SOTA) performance of comparable size. Extensive experiments further validate our framework's effectiveness and its generalization across diverse temporal tasks. The code is available at https://github.com/zhaochen0110/Timo.
翻訳日:2024-08-21 02:28:42 公開日:2024-08-19
# 機械的相対論者におけるスピンの解釈

Une interpretation du spin en mecanique relativiste ( http://arxiv.org/abs/2406.15353v2 )

ライセンス: Link先を確認
Stefan Catheline, (参考訳) 本論文は、スピンを再び研究することを目的としている。 したがって、出発点は、量子力学のフレームにおいてのみコヒーレントな方法で記述できるシュテルンとゲルラッハの実験結果である。 代わりに、剛体回転に関する前回の記事に続いて、相対論的力学的な視点が提案されている。 実際、この相対論的剛体回転の地平線に関する慎重な研究は、スピン特性と完全に一致した任意の観測角度から不変であるように見える。

This paper aims at studying the spin once again. The departure point is thus the Stern and Gerlach experimental results that can be described in a coherent way in the frame of quantum mechanics only. Instead, the relativistic mechanics point of view is proposed here following the work presented in a previous article about rigid body rotation. Indeed, a careful study of the horizon of this relativistic rigid body rotation appears to be invariant from any observation angle in full agreement with the spin property.
翻訳日:2024-08-21 02:18:57 公開日:2024-08-19
# AlphaForge: フォーミュラ的なアルファファクタのマイニングと動的結合のためのフレームワーク

AlphaForge: A Framework to Mine and Dynamically Combine Formulaic Alpha Factors ( http://arxiv.org/abs/2406.18394v2 )

ライセンス: Link先を確認
Hao Shi, Weili Song, Xinting Zhang, Jiahe Shi, Cuicui Luo, Xiang Ao, Hamid Arian, Luis Seco, (参考訳) 金融データの複雑さは、その変動性と低信号-雑音比を特徴とし、性能と解釈性の両方を優先する量的投資の先進的な手法を必要としており、早期手動抽出から遺伝的プログラミングへの移行により、アルファファクターマイニング領域における最も先進的なアプローチは、現在、一連の組み合わせ因子を固定重量でマイニングするために強化学習を採用している。 しかし、結果として得られるアルファ因子のパフォーマンスは不整合を示し、固定因子重みの柔軟性は金融市場のダイナミックな性質に適応するには不十分である。 そこで本研究では,α因子マイニングと因子結合のための2段階式アルファ生成フレームワークAlphaForgeを提案する。 このフレームワークは、生成予測ニューラルネットワークを使用して要素を生成し、多様性を同時に保存しながら、ディープラーニングに固有の堅牢な空間探索能力を活用する。 フレームワーク内の組み合わせモデルは、選択のための要因の時間的性能を取り入れ、各成分のアルファ因子に割り当てられた重みを動的に調整する。 実世界のデータセットを用いて行った実験により,我々の提案したモデルは,定式的アルファファクターマイニングにおいて,同時代のベンチマークより優れていることが示された。 さらに,本モデルでは,量的投資とリアルマネー投資の領域内で,ポートフォリオリターンの顕著な向上を示す。

The complexity of financial data, characterized by its variability and low signal-to-noise ratio, necessitates advanced methods in quantitative investment that prioritize both performance and interpretability.Transitioning from early manual extraction to genetic programming, the most advanced approach in the alpha factor mining domain currently employs reinforcement learning to mine a set of combination factors with fixed weights. However, the performance of resultant alpha factors exhibits inconsistency, and the inflexibility of fixed factor weights proves insufficient in adapting to the dynamic nature of financial markets. To address this issue, this paper proposes a two-stage formulaic alpha generating framework AlphaForge, for alpha factor mining and factor combination. This framework employs a generative-predictive neural network to generate factors, leveraging the robust spatial exploration capabilities inherent in deep learning while concurrently preserving diversity. The combination model within the framework incorporates the temporal performance of factors for selection and dynamically adjusts the weights assigned to each component alpha factor. Experiments conducted on real-world datasets demonstrate that our proposed model outperforms contemporary benchmarks in formulaic alpha factor mining. Furthermore, our model exhibits a notable enhancement in portfolio returns within the realm of quantitative investment and real money investment.
翻訳日:2024-08-21 02:18:57 公開日:2024-08-19
# TTPベースのサイバーレジリエンス指数:サイバー攻撃に対する防御効果を測定するための確率論的定量的アプローチ

TTP-Based Cyber Resilience Index: A Probabilistic Quantitative Approach to Measure Defence Effectiveness Against Cyber Attacks ( http://arxiv.org/abs/2406.19374v3 )

ライセンス: Link先を確認
Lampis Alevizos, Vinh-Thong Ta, (参考訳) 動的サイバー脅威の状況では、堅牢な情報セキュリティを維持するためには、不確実性の下での効果的な意思決定が不可欠である。 本稿では,TTPに基づくサイバー攻撃に対する組織の防御効果を定量化するための確率論的アプローチであるサイバー抵抗指数(CRI)を紹介する。 Threat-Intelligence Based Security Assessment (TIBSA) の方法論に基づいて、複雑な脅威のインテリジェンスを、ストックマーケットインデックスに似た、実行可能な統一されたメトリクスに変換する数学的モデルを提示します。 提案手法は,実世界の不確実性や最新の脅威アクター戦術,テクニック,手順(TTP)を考慮した攻撃行動をシミュレーションするために,部分観測可能なマルコフ決定プロセス(POMDP)を利用する。 これにより、静的なコンプライアンスベースのアセスメントを超えて、組織のセキュリティ姿勢を動的にコンテキスト対応で評価することが可能になります。 その結果、意思決定者は、量的および質的な評価のギャップを埋め、データ駆動型のリソース割り当てと戦略的計画を可能にする、単一のサイバーレジリエンスの指標を備えている。 これは最終的に、より情報的な意思決定、内部または過渡状態の緩和、リソース割り当ての支援につながる可能性がある。

In the dynamic cyber threat landscape, effective decision-making under uncertainty is crucial for maintaining robust information security. This paper introduces the Cyber Resilience Index (CRI), a TTP-based probabilistic approach to quantifying an organisation's defence effectiveness against cyber-attacks (campaigns). Building upon the Threat-Intelligence Based Security Assessment (TIBSA) methodology, we present a mathematical model that translates complex threat intelligence into an actionable, unified metric similar to a stock market index, that executives can understand and interact with while teams can act upon. Our method leverages Partially Observable Markov Decision Processes (POMDPs) to simulate attacker behaviour considering real-world uncertainties and the latest threat actor tactics, techniques, and procedures (TTPs). This allows for dynamic, context-aware evaluation of an organization's security posture, moving beyond static compliance-based assessments. As a result, decision-makers are equipped with a single metric of cyber resilience that bridges the gap between quantitative and qualitative assessments, enabling data-driven resource allocation and strategic planning. This can ultimately lead to more informed decision-making, mitigate under or overspending, and assist in resource allocation.
翻訳日:2024-08-21 02:18:57 公開日:2024-08-19
# 普遍近似理論:変圧器に基づく大言語モデルの基本理論

Universal Approximation Theory: The Basic Theory for Transformer-based Large Language Models ( http://arxiv.org/abs/2407.00958v3 )

ライセンス: Link先を確認
Wei Wang, Qing Li, (参考訳) 言語モデルは、特にChatGPTのような画期的なイノベーションの導入によって、人工知能に重点を置く重要な領域として登場した。 大規模トランスフォーマーネットワークは、自然言語処理アルゴリズムの進歩において、急速に主要なアプローチとなっている。 Transformerアーキテクチャに基づいて構築されたこれらのモデルは、人間のコミュニケーションを忠実に模倣するインタラクションを可能にし、広範囲の知識を備え、人間のタスクを導くのにも役立てることができる。 目覚ましい能力と複雑さの増大にもかかわらず、大きな言語モデル(LLM)の理論的な基礎は依然として重要な疑問である。 Transformerが翻訳やコーディングといったインテリジェントな言語アプリケーションを動かすのになぜ効果的なのか? インコンテキストラーニング(ICL)におけるLLMの能力はどのようなものか? LoRA方式はLLMの微調整をいかに向上させるか? LLMの実用性を支えるものは何か? これらの重要な問題に対処し、LLM内の技術戦略を探求するために、ユニバーサル近似理論(UAT)を利用して理論的背景を提供し、これらの進歩を支えるメカニズムに光を当てる。

Language models have emerged as a critical area of focus in artificial intelligence, particularly with the introduction of groundbreaking innovations like ChatGPT. Large-scale Transformer networks have quickly become the leading approach for advancing natural language processing algorithms. Built on the Transformer architecture, these models enable interactions that closely mimic human communication and, equipped with extensive knowledge, can even assist in guiding human tasks. Despite their impressive capabilities and growing complexity, a key question remains-the theoretical foundations of large language models (LLMs). What makes Transformer so effective for powering intelligent language applications, such as translation and coding? What underlies LLMs' ability for In-Context Learning (ICL)? How does the LoRA scheme enhance the fine-tuning of LLMs? And what supports the practicality of pruning LLMs? To address these critical questions and explore the technological strategies within LLMs, we leverage the Universal Approximation Theory (UAT) to offer a theoretical backdrop, shedding light on the mechanisms that underpin these advancements.
翻訳日:2024-08-21 02:18:57 公開日:2024-08-19
# HERA: 要素置換による高効率マトリックス圧縮

HERA: High-efficiency Matrix Compression via Element Replacement ( http://arxiv.org/abs/2407.03637v2 )

ライセンス: Link先を確認
Yanshu Wang, Wang Li, Tong Yang, (参考訳) 行列量子化は、記憶要求を最小限に抑えるためにより空間効率のよい方法で行列要素を符号化する。 量子化エラー最小化(QEM)問題を、量子化前と後の違いを最小化しつつ、その量子化行列が同じメモリ量を占めることを保証するものとして定義する。 行列量子化は、Large Language Models (LLM) における重み量子化、ベクトルデータベース、KVキャッシュ量子化、グラフ圧縮、画像圧縮など、様々な分野において不可欠である。 GPT-4 や BERT のような LLM の大規模化は、パラメータの大きなサイズと行列として格納される KV キャッシュのため、行列圧縮の必要性を浮き彫りにしている。 QEM問題に対処するために,行列要素の局所順序を反復的に交換して局所順序行列を生成するアルゴリズムであるHETAを導入する。 この行列はその後、列によってグループ化され、定量化される。 HETAをさらに改善するために、平均二乗誤差(MSE)を低減するための残差の量子化と、アルゴリズムを高速化するためのマスキングとバッチ処理の2つの最適化を提案する。 実験の結果,HETA は MSE の12.3% を圧縮比で効果的に削減し,主要なベースラインアルゴリズムより優れていることがわかった。 我々の貢献は、QEM問題を形式化し、HETAアルゴリズムを開発し、精度と処理速度を両立させる2つの最適化を提案することである。

Matrix quantization involves encoding matrix elements in a more space-efficient manner to minimize storage requirements, with dequantization used to reconstruct the original matrix for practical use. We define the Quantization Error Minimization (QEM) problem as minimizing the difference between a matrix before and after quantization while ensuring that the quantized matrix occupies the same amount of memory. Matrix quantization is essential in various fields, including weight quantization in Large Language Models (LLMs), vector databases, KV cache quantization, graph compression, and image compression. The growing scale of LLMs, such as GPT-4 and BERT, underscores the need for matrix compression due to the large size of parameters and KV caches, which are stored as matrices. To address the QEM problem, we introduce HETA, an algorithm that leverages the local orderliness of matrix elements by iteratively swapping elements to create a locally ordered matrix. This matrix is then grouped and quantized by columns. To further improve HETA, we present two optimizations: additional quantization of residuals to reduce mean squared error (MSE) and the application of masking and batch processing to accelerate the algorithm. Our experiments show that HETA effectively reduces MSE to 12.3% of its original value at the same compression ratio, outperforming leading baseline algorithms. Our contributions include formalizing the QEM problem, developing the HETA algorithm, and proposing two optimizations to enhance both accuracy and processing speed.
翻訳日:2024-08-21 02:18:56 公開日:2024-08-19
# オンライン動的モード分割制御による産業データストリームの変化点検出

Change-Point Detection in Industrial Data Streams based on Online Dynamic Mode Decomposition with Control ( http://arxiv.org/abs/2407.05976v2 )

ライセンス: Link先を確認
Marek Wadinger, Michal Kvasnica, Yoshinobu Kawahara, (参考訳) 本稿では,オンライン動的モード分解制御(ODMDwC)に基づく新しい変化点検出手法を提案する。 制御効果を取り入れつつ非線形系の線形近似を検出・追跡するODMDwCの能力を活用し, 提案手法は, 経年変化や季節変化による変化に動的に適応する。 このアプローチは、空間的、時間的、およびスペクトルパターンの変化を検知し、スコアとシステムのダイナミクスの変化量との対応性を維持する堅牢なソリューションを提供する。 我々は、ODMDwCの切り抜きバージョンを定式化し、高次時間遅延埋め込みを用いて雑音を緩和し、広帯域特徴を抽出する。 本手法は,安全クリティカルなシステムが不均一なデータストリームを生成する産業環境において,利益と生活を守るために,タイムリーかつ正確な変更点検出を必要とする課題に対処する。 本手法は,Singular-Value-Decomposition法と比較して,直感的かつ優れた検出結果が得られることを示す。 合成および実世界のデータを用いて我々のアプローチを検証し、複雑なシステムのベンチマークデータセットに対する他のアプローチとの競合性を示す。 ハイパーパラメータ選択のためのガイドラインは,本手法の実用性を高める。

We propose a novel change-point detection method based on online Dynamic Mode Decomposition with control (ODMDwC). Leveraging ODMDwC's ability to find and track linear approximation of a non-linear system while incorporating control effects, the proposed method dynamically adapts to its changing behavior due to aging and seasonality. This approach enables the detection of changes in spatial, temporal, and spectral patterns, providing a robust solution that preserves correspondence between the score and the extent of change in the system dynamics. We formulate a truncated version of ODMDwC and utilize higher-order time-delay embeddings to mitigate noise and extract broad-band features. Our method addresses the challenges faced in industrial settings where safety-critical systems generate non-uniform data streams while requiring timely and accurate change-point detection to protect profit and life. Our results demonstrate that this method yields intuitive and improved detection results compared to the Singular-Value-Decomposition-based method. We validate our approach using synthetic and real-world data, showing its competitiveness to other approaches on complex systems' benchmark datasets. Provided guidelines for hyperparameters selection enhance our method's practical applicability.
翻訳日:2024-08-21 02:18:56 公開日:2024-08-19
# Token-Mol 1.0:大規模言語モデルによるTokenized Drug Design

Token-Mol 1.0: Tokenized drug design with large language model ( http://arxiv.org/abs/2407.07930v2 )

ライセンス: Link先を確認
Jike Wang, Rui Qin, Mingyang Wang, Meijing Fang, Yangyang Zhang, Yuchen Zhu, Qun Su, Qiaolin Gou, Chao Shen, Odin Zhang, Zhenxing Wu, Dejun Jiang, Xujun Zhang, Huifeng Zhao, Xiaozhe Wan, Zhourui Wu, Liwei Liu, Yu Kang, Chang-Yu Hsieh, Tingjun Hou, (参考訳) 近年、薬品設計にシーケンスベースの大規模言語モデル(LLM)を活用することに重要な関心が高まっている。 しかしながら、薬物発見におけるLLMの現在の応用のほとんどは三次元(3D)構造を理解する能力に欠けており、分子配座を明示的に含むタスクにおけるそれらの効果を制限している。 本研究ではトークンのみの3DドラッグデザインモデルであるToken-Molを紹介した。 このモデルは、2D構造や3D構造を含む全ての分子情報をトークンにエンコードし、薬物発見における分類および回帰タスクを確率論的予測問題に変換することにより、統一パラダイムによる学習を可能にする。 Token-Molはトランスフォーマーデコーダアーキテクチャ上に構築され、ランダム因果マスキング技術を用いて訓練されている。 さらに,回帰タスクの課題を克服するためのガウスクロスエントロピー(GCE)損失関数を提案し,連続数値の学習能力を大幅に向上させた。 微細チューニングと強化学習(RL)を組み合わせることで、ポケットベースの分子生成、コンフォメーション生成、分子特性予測など、さまざまな下流タスクで既存のタスク固有のメソッドに匹敵する、あるいは超越したパフォーマンスを実現する。 既存の分子前訓練モデルと比較して、東ケンモールは薬物設計に不可欠な幅広い下流タスクを扱う能力に優れていた。 特に,類似のトークンのみの手法と比較して,回帰タスクの精度を約30%向上させる。 Token-Molはトークンのみのモデルの精度の限界を克服し、ChatGPTのような一般的なモデルとシームレスに統合し、専門家による迅速かつ高品質なドラッグデザインを促進する汎用人工知能ドラッグデザインモデルを開発するための道を開く可能性がある。

Significant interests have recently risen in leveraging sequence-based large language models (LLMs) for drug design. However, most current applications of LLMs in drug discovery lack the ability to comprehend three-dimensional (3D) structures, thereby limiting their effectiveness in tasks that explicitly involve molecular conformations. In this study, we introduced Token-Mol, a token-only 3D drug design model. This model encodes all molecular information, including 2D and 3D structures, as well as molecular property data, into tokens, which transforms classification and regression tasks in drug discovery into probabilistic prediction problems, thereby enabling learning through a unified paradigm. Token-Mol is built on the transformer decoder architecture and trained using random causal masking techniques. Additionally, we proposed the Gaussian cross-entropy (GCE) loss function to overcome the challenges in regression tasks, significantly enhancing the capacity of LLMs to learn continuous numerical values. Through a combination of fine-tuning and reinforcement learning (RL), Token-Mol achieves performance comparable to or surpassing existing task-specific methods across various downstream tasks, including pocket-based molecular generation, conformation generation, and molecular property prediction. Compared to existing molecular pre-trained models, Token-Mol exhibits superior proficiency in handling a wider range of downstream tasks essential for drug design. Notably, our approach improves regression task accuracy by approximately 30% compared to similar token-only methods. Token-Mol overcomes the precision limitations of token-only models and has the potential to integrate seamlessly with general models such as ChatGPT, paving the way for the development of a universal artificial intelligence drug design model that facilitates rapid and high-quality drug design by experts.
翻訳日:2024-08-21 02:09:01 公開日:2024-08-19
# 医用画像セグメンテーションのためのニューラルネットワークによるSliceMamba

SliceMamba with Neural Architecture Search for Medical Image Segmentation ( http://arxiv.org/abs/2407.08481v2 )

ライセンス: Link先を確認
Chao Fan, Hongyuan Yu, Yan Huang, Liang Wang, Zhenghan Yang, Xibin Jia, (参考訳) マンバをベースとした医用画像セグメンテーションモデルの進歩にもかかわらず、一方向または多方向の特徴走査機構を用いた既存の手法は、隣接する位置間の依存関係を効果的に捉えるのに苦労し、局所特徴の識別的表現学習を制限する。 これらの局所的な特徴は、病変や臓器に関する重要な構造情報を提供するため、医用画像のセグメンテーションに不可欠である。 この制限に対処するために,SliceMambaを提案する。 SliceMambaは効率的な双方向スライススキャンモジュール(BSS)を備えており、双方向の特徴スライスを行い、異なる形状のスライスされた特徴に対して様々な走査機構を使用する。 この設計により、空間的に隣接した特徴が走査列に近接していることが保証され、セグメンテーション性能が向上する。 さらに, 病変や臓器の大きさや形状に合わせるために, さらに適応スライス探索法を導入し, 対象データの特徴に基づいて最適な特徴スライス法を自動決定する。 2つの皮膚病変データセット(ISIC2017とISIC2018)と2つのポリプセグメンテーションデータセット(KvasirとClinicalDB)、および1つの多臓器セグメンテーションデータセット(Synapse)の大規模な実験により、本手法の有効性が検証された。

Despite the progress made in Mamba-based medical image segmentation models, existing methods utilizing unidirectional or multi-directional feature scanning mechanisms struggle to effectively capture dependencies between neighboring positions, limiting the discriminant representation learning of local features. These local features are crucial for medical image segmentation as they provide critical structural information about lesions and organs. To address this limitation, we propose SliceMamba, a simple and effective locally sensitive Mamba-based medical image segmentation model. SliceMamba includes an efficient Bidirectional Slice Scan module (BSS), which performs bidirectional feature slicing and employs varied scanning mechanisms for sliced features with distinct shapes. This design ensures that spatially adjacent features remain close in the scanning sequence, thereby improving segmentation performance. Additionally, to fit the varying sizes and shapes of lesions and organs, we further introduce an Adaptive Slice Search method to automatically determine the optimal feature slice method based on the characteristics of the target data. Extensive experiments on two skin lesion datasets (ISIC2017 and ISIC2018), two polyp segmentation (Kvasir and ClinicDB) datasets, and one multi-organ segmentation dataset (Synapse) validate the effectiveness of our method.
翻訳日:2024-08-21 02:09:01 公開日:2024-08-19
# iNeMo:ロバストクラス増分学習のためのインクリメンタルニューラルネットワークモデル

iNeMo: Incremental Neural Mesh Models for Robust Class-Incremental Learning ( http://arxiv.org/abs/2407.09271v2 )

ライセンス: Link先を確認
Tom Fischer, Yaoyao Liu, Artur Jesslen, Noor Ahmed, Prakhar Kaushik, Angtian Wang, Alan Yuille, Adam Kortylewski, Eddy Ilg, (参考訳) 人間の性質と異なり、視覚タスクがディープラーニングモデルをトレーニングするのは、最初と固定データセットのみである。 最近、さまざまなアプローチが連続的なデータストリームの処理に対処している。 しかし、これらの手法をアウト・オブ・ディストリビューション(OOD)のシナリオに拡張することは、効果的に研究されていない。 一方、近年、非連続ニューラルネットワークモデルは、そのようなOODシナリオを一般化する上で、強い性能を示すことが示されている。 この決定的特性を連続的な学習環境で活用するために、時間とともに新しいメッシュで拡張可能なインクリメンタルニューラルネットワークモデルを提案する。 さらに,今後の未確認クラスの特徴空間を予め割り当てる潜在空間初期化戦略と,各潜在空間領域に各クラスの特徴を連続的に保持させる位置正規化項を提案する。 我々はPascal3DおよびObjectNet3Dデータセットの広範な実験により,本手法の有効性を実証し,本手法がドメイン内における分類基準を2~6 %,OOD環境では6~50 %で上回ることを示す。 我々の研究は、ポーズ推定のための最初の漸進的な学習手法も提示している。 私たちのコードとモデルはhttps://github.com/Fischer-Tom/iNeMo.orgで確認できます。

Different from human nature, it is still common practice today for vision tasks to train deep learning models only initially and on fixed datasets. A variety of approaches have recently addressed handling continual data streams. However, extending these methods to manage out-of-distribution (OOD) scenarios has not effectively been investigated. On the other hand, it has recently been shown that non-continual neural mesh models exhibit strong performance in generalizing to such OOD scenarios. To leverage this decisive property in a continual learning setting, we propose incremental neural mesh models that can be extended with new meshes over time. In addition, we present a latent space initialization strategy that enables us to allocate feature space for future unseen classes in advance and a positional regularization term that forces the features of the different classes to consistently stay in respective latent space regions. We demonstrate the effectiveness of our method through extensive experiments on the Pascal3D and ObjectNet3D datasets and show that our approach outperforms the baselines for classification by $2-6\%$ in the in-domain and by $6-50\%$ in the OOD setting. Our work also presents the first incremental learning approach for pose estimation. Our code and model can be found at https://github.com/Fischer-Tom/iNeMo.
翻訳日:2024-08-21 02:09:01 公開日:2024-08-19
# MaskMoE:Mixture-of-ExpertsにおけるタスクのルーティングによるToken-Level学習の促進

MaskMoE: Boosting Token-Level Learning via Routing Mask in Mixture-of-Experts ( http://arxiv.org/abs/2407.09816v3 )

ライセンス: Link先を確認
Zhenpeng Su, Zijia Lin, Xue Bai, Xing Wu, Yizhe Xiong, Haoran Lian, Guangyuan Ma, Hui Chen, Guiguang Ding, Wei Zhou, Songlin Hu, (参考訳) モデルのサイズを拡大すると、その能力は向上するが、計算の複雑さは大幅に増大する。 Mixture-of-Experts Model (MoE)は、トレーニングや推論コストを大幅に増加させることなく、モデルサイズをスケールアップ可能にすることで、この問題に対処する。 MoEにはルータと呼ばれる重要なモジュールがあり、各トークンを専門家に配布するために使用される。 現在、メインストリームのルーティング手法には動的ルーティングと固定ルーティングが含まれる。 期待された結果にもかかわらず、MoEモデルはいくつかの課題に直面している。 主に動的ルーティング手法では、トレーニングトークンが複数の専門家に分散しているため、特に希少なトークンでは不適合になる可能性がある。 さらに、固定ルーティングメソッドはその問題を緩和できるが、表現の多様性を損なう。 本稿では, トークンレベルの学習を円滑に行うために, \textbf{M}ixture-\textbf{o}f-\textbf{E}xpertsモデル内に, ルーティング型 \textbf{mask}ing 技術を用いることで, トークンレベルの学習を向上する手法である \textbf{MaskMoE} を提案する。 MaskMoEは、より包括的なトレーニングを行いながら、表現の多様性を維持することができる。 実験結果から,提案手法は従来のMixture-of-Expertsモデルよりもパープレキシティ(PPL)と下流タスク性能の両面で優れていることが示された。

Scaling the size of a model enhances its capabilities but significantly increases computation complexity. Mixture-of-Experts models (MoE) address the issue by allowing model size to scale up without substantially increasing training or inference costs. In MoE, there is an important module called the router, which is used to distribute each token to the experts. Currently, the mainstream routing methods include dynamic routing and fixed routing. Despite their promising results, MoE models encounter several challenges. Primarily, for dynamic routing methods, the dispersion of training tokens across multiple experts can lead to underfitting, particularly for infrequent tokens. Additionally, though fixed routing methods can mitigate that issue, they compromise on the diversity of representations. In this paper, we propose \textbf{MaskMoE}, a method designed to enhance token-level learning by employing a routing \textbf{mask}ing technique within the \textbf{M}ixture-\textbf{o}f-\textbf{E}xperts model. MaskMoE is capable of maintaining representation diversity while achieving more comprehensive training. Experimental results demonstrate that our method outperforms previous dominant Mixture-of-Experts models in terms of both perplexity (PPL) and downstream task performance.
翻訳日:2024-08-21 02:09:01 公開日:2024-08-19
# ジアイ、イタリアで地元のおばさんを支援

zIA: a GenAI-powered local auntie assists tourists in Italy ( http://arxiv.org/abs/2407.11830v3 )

ライセンス: Link先を確認
Alexio Cassani, Michele Ruberl, Antonio Salis, Giacomo Giannese, Gianluca Boanelli, (参考訳) ツーリズム・デスティネーション・マネジメント・オーガナイゼーション(DMO)産業は、新しい技術や旅行者の期待に適応するために急速に発展している。 生成人工知能(AI)は、パーソナライズされた対話的で魅力的な支援を提供することで、観光体験を強化する驚くべき革新的な機会を提供する。 本稿では,観光支援のための生成型AIベースのチャットボットを提案する。 このチャットボットは、現実的で創造的なテキストを生成するAI能力を活用し、よく知られたイタリアの全知の叔母のフレンドリーなペルソナを採用し、旅行者にパーソナライズされた情報、カスタマイズされた動的プレ、レコメンデーションと旅行計画、個人化された反復、テキストと音声コマンドの両方を使用し、さまざまな言語をサポートし、イタリアと外国の観光客の期待を満たす。 この研究は、イタリア経済成長大臣(MIMIT)が資金提供したMoise CTE研究プロジェクトで、クラウドやAIといった最高の新興技術を活用して、スマートシティ環境で最先端のソリューションを開発することを目的として進められている。

The Tourism and Destination Management Organization (DMO) industry is rapidly evolving to adapt to new technologies and traveler expectations. Generative Artificial Intelligence (AI) offers an astonishing and innovative opportunity to enhance the tourism experience by providing personalized, interactive and engaging assistance. In this article, we propose a generative AI-based chatbot for tourism assistance. The chatbot leverages AI ability to generate realistic and creative texts, adopting the friendly persona of the well-known Italian all-knowledgeable aunties, to provide tourists with personalized information, tailored and dynamic pre, during and post recommendations and trip plans and personalized itineraries, using both text and voice commands, and supporting different languages to satisfy Italian and foreign tourists expectations. This work is under development in the Molise CTE research project, funded by the Italian Minister of the Economic Growth (MIMIT), with the aim to leverage the best emerging technologies available, such as Cloud and AI to produce state of the art solutions in the Smart City environment.
翻訳日:2024-08-21 02:09:01 公開日:2024-08-19
# 高速大言語モデルデコードのための適応的ドラフト検証

Adaptive Draft-Verification for Efficient Large Language Model Decoding ( http://arxiv.org/abs/2407.12021v2 )

ライセンス: Link先を確認
Xukun Liu, Bowen Lei, Ruqi Zhang, Dongkuan Xu, (参考訳) 大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成し、各トークンはモデルが学習した確率を使って一度に1つずつ予測される。 典型的な自己回帰復号法では、各トークンが生成するモデルに対して、それぞれ別の前方通過が必要であり、計算的に非効率であり、遅延に敏感なシナリオにLSMをデプロイする上での課題を提起する。 現在の復号法の主な制限は、その非効率性とリソース要求に起因する。 既存のアプローチでは、リソース集約的な微調整された小さなモデルを必要とするか、あるいは次のトークンのドラフトを構築するための固定された検索スキームに依存するか、適応性に欠け、異なるモデルやコンテキストをまたいだ一般化に失敗する。 これらの問題に対処するため、我々はADEDと呼ばれる新しい手法を導入し、微調整を必要とせずにLCMデコーディングを高速化する。 私たちのアプローチは、効率を改善するために時間をかけて進化する適応的なドラフト検証プロセスです。 我々は, 3 グラム行列に基づく LLM 表現を用いて, LLM の出力分布を動的に近似し, 復号過程におけるトークン確率の変化に適応できることを示す。 さらに,我々は,LLMの真の出力分布に近い多種多様かつ多種多様であることを保証し,探索と利用を効果的に両立するドラフト構築機構を実装した。 この設計の重要性は、ドラフト分布を適応的に最適化できることにある。 様々なベンチマークデータセットやLLMアーキテクチャに関する広範な実験を通じて、ADEDは高い精度を維持しながらデコードプロセスを著しく加速し、広範囲の実用的なアプリケーションにデプロイするのに適していることを示した。

Large language model (LLM) decoding involves generating a sequence of tokens based on a given context, where each token is predicted one at a time using the model's learned probabilities. The typical autoregressive decoding method requires a separate forward pass through the model for each token generated, which is computationally inefficient and poses challenges for deploying LLMs in latency-sensitive scenarios. The main limitations of current decoding methods stem from their inefficiencies and resource demands. Existing approaches either necessitate fine-tuning smaller models, which is resource-intensive, or rely on fixed retrieval schemes to construct drafts for the next tokens, which lack adaptability and fail to generalize across different models and contexts. To address these issues, we introduce a novel methodology called ADED, which accelerates LLM decoding without requiring fine-tuning. Our approach involves an adaptive draft-verification process that evolves over time to improve efficiency. We utilize a tri-gram matrix-based LLM representation to dynamically approximate the output distribution of the LLM, allowing the model to adjust to changing token probabilities during the decoding process. Additionally, we implement a draft construction mechanism that effectively balances exploration and exploitation, ensuring that the drafts generated are both diverse and close to the true output distribution of the LLM. The importance of this design lies in its ability to optimize the draft distribution adaptively, leading to faster and more accurate decoding. Through extensive experiments on various benchmark datasets and LLM architectures, we demonstrate that ADED significantly accelerates the decoding process while maintaining high accuracy, making it suitable for deployment in a wide range of practical applications.
翻訳日:2024-08-21 02:09:01 公開日:2024-08-19
# 着飾った半導体量子ドットのフロケ干渉計

Floquet interferometry of a dressed semiconductor quantum dot ( http://arxiv.org/abs/2407.14241v2 )

ライセンス: Link先を確認
Felix-Ekkehard von Horstig, Lorenzo Peri, Sylvain Barraud, Sergey N. Shevchenko, Christopher J. B. Ford, M. Fernando Gonzalez-Zalba, (参考訳) 時間周期励起と相互作用する量子系は、系の光子数の増加と混合するハイブリッド固有状態のはしごを生成する。 この機構はドレッシング(英語版)と呼ばれ、原子、分子、固体量子ビットのように変化する系の光-物質相互作用の文脈で観察されている。 本研究では、電荷貯槽に結合した半導体量子ドットトンネルにおける状態ドレッシングを実証する。 多光子共振器の干渉端として現れる高周波数電気応答におけるフロッケ状態の出現を観測した。 本研究では, 貯水池温度, 電荷寿命, 励起振幅を変化させながら, 着飾った量子ドットについて検討し, フロケ・ラダーの量子力学に基づく理論を考案し, 理論の基本的な性質を明らかにする。 さらに,半導体量子ドットの精密静電特性化への応用について述べる。

A quantum system interacting with a time-periodic excitation creates a ladder of hybrid eigenstates in which the system is mixed with an increasing number of photons. This mechanism, referred to as dressing, has been observed in the context of light-matter interaction in systems as varied as atoms, molecules and solid-state qubits. In this work, we demonstrate state dressing in a semiconductor quantum dot tunnel-coupled to a charge reservoir. We observe the emergence of a Floquet ladder of states in the system's high-frequency electrical response, manifesting as interference fringes at the multiphoton resonances despite the system lacking an avoided crossing. We study the dressed quantum dot while changing reservoir temperature, charge lifetime, and excitation amplitude and reveal the fundamental nature of the mechanism by developing a theory based on the quantum dynamics of the Floquet ladder, which is in excellent agreement with the data. Furthermore, we show how the technique finds applications in the accurate electrostatic characterisation of semiconductor quantum dots.
翻訳日:2024-08-21 02:09:01 公開日:2024-08-19
# セマンティックプロトタイプ:ブラックボックスなしで透明性を高める

Semantic Prototypes: Enhancing Transparency Without Black Boxes ( http://arxiv.org/abs/2407.15871v3 )

ライセンス: Link先を確認
Orfeas Menis-Mastromichalakis, Giorgos Filandrianos, Jason Liartis, Edmund Dervakos, Giorgos Stamou, (参考訳) 機械学習(ML)モデルとデータセットが複雑化するにつれて、説明可能性と解釈可能性を高める手法の需要が最重要となる。 プロトタイプは、データに不可欠な特徴をカプセル化することによって、戦術的な意思決定を可能にし、透明性を高める洞察を提供する。 伝統的なプロトタイプの手法は、しばしば準記号的な生データと不透明な潜伏空間に依存し、説明可能性の低減と誤解釈のリスクの増大を図っている。 本稿では, 従来の手法の欠点を効果的に解決する上で, 意味記述を用いてプロトタイプを定義し, 明確な説明を提供する新しい枠組みを提案する。 提案手法では,概念に基づく記述をセマンティックレベルでのクラスタデータに活用することにより,プロトタイプが直感的に特性を表現するだけでなく,解釈も容易になる。 本手法は,解釈過程を単純化し,複雑なデータ構造と人間の認知過程のギャップを効果的に橋渡しし,透明性を高め,信頼を育む。 提案手法は,ユーザ調査で検証したように,人間の理解と情報提供を容易にするため,既存の広範に使用されているプロトタイプ手法よりも優れている。

As machine learning (ML) models and datasets increase in complexity, the demand for methods that enhance explainability and interpretability becomes paramount. Prototypes, by encapsulating essential characteristics within data, offer insights that enable tactical decision-making and enhance transparency. Traditional prototype methods often rely on sub-symbolic raw data and opaque latent spaces, reducing explainability and increasing the risk of misinterpretations. This paper presents a novel framework that utilizes semantic descriptions to define prototypes and provide clear explanations, effectively addressing the shortcomings of conventional methods. Our approach leverages concept-based descriptions to cluster data on the semantic level, ensuring that prototypes not only represent underlying properties intuitively but are also straightforward to interpret. Our method simplifies the interpretative process and effectively bridges the gap between complex data structures and human cognitive processes, thereby enhancing transparency and fostering trust. Our approach outperforms existing widely-used prototype methods in facilitating human understanding and informativeness, as validated through a user survey.
翻訳日:2024-08-21 01:59:09 公開日:2024-08-19
# ユニバーサル近似理論:ディープラーニングに基づくコンピュータビジョンモデルの基礎理論

Universal Approximation Theory: The Basic Theory for Deep Learning-Based Computer Vision Models ( http://arxiv.org/abs/2407.17480v3 )

ライセンス: Link先を確認
Wei Wang, Qing Li, (参考訳) コンピュータビジョン(CV)は人工知能において最も重要な分野の一つである。 近年,畳み込みニューラルネットワーク(CNN)とトランスフォーマーに基づく様々なディープラーニングモデルが,CVの多様な問題に対処するために設計されている。 これらのアルゴリズムはロボット工学や顔認識などの分野で実用化されている。 現在のCVモデルのパワーの増大にもかかわらず、いくつかの根本的な疑問は未解決のままである。 CNNの一般化能力はどうなるのか? なぜ残差ベースのネットワークはVGGのような完全な畳み込みネットワークを上回るのか? 残差ベースのCNNとTransformerベースのネットワークの根本的な違いは何ですか? なぜCNNはLoRAとプルーニング技術を利用するのか? これらの疑問の根本原因は、CVにおけるディープラーニングモデルのための堅牢な理論的基盤が欠如していることにある。 これらの重要な問題と技術に対処するため、CVにおける畳み込みモデルとトランスフォーマーモデルの理論基盤を提供するためにユニバーサル近似定理(UAT)を用いる。 そこで我々は,これらの疑問を理論的観点から解明することを目指す。

Computer vision (CV) is one of the most crucial fields in artificial intelligence. In recent years, a variety of deep learning models based on convolutional neural networks (CNNs) and Transformers have been designed to tackle diverse problems in CV. These algorithms have found practical applications in areas such as robotics and facial recognition. Despite the increasing power of current CV models, several fundamental questions remain unresolved: Why do CNNs require deep layers? What ensures the generalization ability of CNNs? Why do residual-based networks outperform fully convolutional networks like VGG? What is the fundamental difference between residual-based CNNs and Transformer-based networks? Why can CNNs utilize LoRA and pruning techniques? The root cause of these questions lies in the lack of a robust theoretical foundation for deep learning models in CV. To address these critical issues and techniques, we employ the Universal Approximation Theorem (UAT) to provide a theoretical basis for convolution- and Transformer-based models in CV. By doing so, we aim to elucidate these questions from a theoretical perspective.
翻訳日:2024-08-21 01:59:09 公開日:2024-08-19
# BLAZE:動的チャンキングとハードケースラーニングによるクロスランゲージとクロスプロジェクトバグローカライゼーション

BLAZE: Cross-Language and Cross-Project Bug Localization via Dynamic Chunking and Hard Example Learning ( http://arxiv.org/abs/2407.17631v2 )

ライセンス: Link先を確認
Partha Chakraborty, Mahmoud Alfadel, Meiyappan Nagappan, (参考訳) ソフトウェアバグは、開発者がそれを識別し、解決するために多大な努力をしなければなりません。 バグローカライゼーション(バグローカライゼーション)は、修正が必要な正確なソースコードファイルをピンポイントするプロセスであり、この作業の削減に不可欠である。 既存のバグローカライゼーションツールは、一般的にディープラーニング技術に依存しており、多言語環境におけるクロスプロジェクトの適用性と有効性に制限に直面している。 LLM(Large Language Models)による最近の進歩は、バグローカライゼーションのための詳細な表現を提供する。 しかし、コンテキストウィンドウやマッピングの精度が制限された問題に直面している。 これらの問題に対処するために,動的チャンキングとハードサンプル学習を用いたBLAZEを提案する。 まず、BLAZEはソースコードを動的に分割し、連続損失を最小限にする。 次に、BLAZEは、プロジェクト横断および言語横断のバグローカライゼーションを強化するために、困難なバグケースを使用してGPTベースのモデルを微調整する。 BLAZEの機能をサポートするために、BEETLEBOXデータセットを作成しました。これは、29の大規模で繁栄するオープンソースプロジェクト(Java、C++、Python、Go、JavaScript)から26,321のバグで構成されています。 BEETLEBOX, SWE-Bench, Ye et al の3つのベンチマークデータセットに対する BLAZE の評価は, 最先端の6つのベースラインと比較して著しく改善されている。 具体的には、BLAZEはトップ1の精度で120%、平均平均精度(MAP)で144%、平均相互ランク(MRR)で100%向上する。 大規模なアブレーション調査では、パイプラインコンポーネントの全体的なパフォーマンス向上への貢献を確認しています。

Software bugs require developers to exert significant effort to identify and resolve them, often consuming about one-third of their time. Bug localization, the process of pinpointing the exact source code files that need modification, is crucial in reducing this effort. Existing bug localization tools, typically reliant on deep learning techniques, face limitations in cross-project applicability and effectiveness in multi-language environments. Recent advancements with Large Language Models (LLMs) offer detailed representations for bug localization. However, they encounter challenges with limited context windows and mapping accuracy. To address these issues, we propose BLAZE, an approach that employs dynamic chunking and hard example learning. First, BLAZE dynamically segments source code to minimize continuity loss. Then, BLAZE fine-tunes a GPT-based model using challenging bug cases, in order to enhance cross-project and cross-language bug localization. To support the capability of BLAZE, we create the BEETLEBOX dataset, which comprises 26,321 bugs from 29 large and thriving open-source projects across five different programming languages (Java, C++, Python, Go, and JavaScript). Our evaluations of BLAZE on three benchmark datasets BEETLEBOX, SWE-Bench, and Ye et al. demonstrate substantial improvements compared to six state-of-the-art baselines. Specifically, BLAZE achieves up to an increase of 120% in Top 1 accuracy, 144% in Mean Average Precision (MAP), and 100% in Mean Reciprocal Rank (MRR). An extensive ablation study confirms the contributions of our pipeline components to the overall performance enhancement.
翻訳日:2024-08-21 01:59:09 公開日:2024-08-19
# モダリティ非依存デコーディングと近似に基づくモダリティアンサンブルによるロバストなマルチモーダル3次元物体検出

Robust Multimodal 3D Object Detection via Modality-Agnostic Decoding and Proximity-based Modality Ensemble ( http://arxiv.org/abs/2407.19156v2 )

ライセンス: Link先を確認
Juhan Cha, Minseok Joo, Jihwan Park, Sanghyeok Lee, Injae Kim, Hyunwoo J. Kim, (参考訳) 近年の3Dオブジェクト検出の進歩は、マルチビューカメラとLiDARセンサーからのマルチモーダル情報から恩恵を受けている。 しかし、モダリティ間の固有の相違は、重大な課題を引き起こす。 既存のマルチモーダル3Dオブジェクト検出法は,LiDARセンサに強く依存しており,カメラをセマンティックディテールを増強するための補助モダリティとして扱う。 これはしばしば、カメラデータの未使用化だけでなく、LiDARデータが利用できないシナリオでの大幅なパフォーマンス劣化につながる。 さらに, 既存の核融合法は, 環境変化によるセンサノイズの劣化が検出性能に与える影響を見落としている。 本稿では,LiDAR過信頼問題に対処するためのMEFormerを提案する。 具体的には、入力のモダリティに関わらず、共有トランスフォーマーデコーダで幾何学的および意味的な特徴を抽出し、単一のモダリティとマルチモダリティで有望な改善を提供するMOAD(Modality Agnostic Decoding)を導入する。 さらに,我々のPMEモジュールは,騒音センサの効果を緩和しながら,環境に応じて各モードの強度を適応的に活用する。 我々のMEFormerは73.9% NDSと71.5% mAPの最先端性能を実現している。 広範囲な分析により,MEFormerはセンサの故障や環境変化といった困難な状況に対して堅牢性を向上させることが確認された。 ソースコードはhttps://github.com/hanchaa/MEFormerで入手できる。

Recent advancements in 3D object detection have benefited from multi-modal information from the multi-view cameras and LiDAR sensors. However, the inherent disparities between the modalities pose substantial challenges. We observe that existing multi-modal 3D object detection methods heavily rely on the LiDAR sensor, treating the camera as an auxiliary modality for augmenting semantic details. This often leads to not only underutilization of camera data but also significant performance degradation in scenarios where LiDAR data is unavailable. Additionally, existing fusion methods overlook the detrimental impact of sensor noise induced by environmental changes, on detection performance. In this paper, we propose MEFormer to address the LiDAR over-reliance problem by harnessing critical information for 3D object detection from every available modality while concurrently safeguarding against corrupted signals during the fusion process. Specifically, we introduce Modality Agnostic Decoding (MOAD) that extracts geometric and semantic features with a shared transformer decoder regardless of input modalities and provides promising improvement with a single modality as well as multi-modality. Additionally, our Proximity-based Modality Ensemble (PME) module adaptively utilizes the strengths of each modality depending on the environment while mitigating the effects of a noisy sensor. Our MEFormer achieves state-of-the-art performance of 73.9% NDS and 71.5% mAP in the nuScenes validation set. Extensive analyses validate that our MEFormer improves robustness against challenging conditions such as sensor malfunctions or environmental changes. The source code is available at https://github.com/hanchaa/MEFormer
翻訳日:2024-08-21 01:59:09 公開日:2024-08-19
# 長期作業負荷予測のためのマルチスケール表現強化時流融合モデル

Multiscale Representation Enhanced Temporal Flow Fusion Model for Long-Term Workload Forecasting ( http://arxiv.org/abs/2407.19697v2 )

ライセンス: Link先を確認
Shiyu Wang, Zhixuan Chu, Yinbo Sun, Yu Liu, Yuliang Guo, Yang Chen, Huiyang Jian, Lintao Ma, Xingyu Lu, Jun Zhou, (参考訳) 正確なワークロード予測は、クラウドコンピューティングシステムにおける効率的なリソース管理に不可欠であり、効率的なスケジューリングと自動スケーリングを可能にする。 トランスフォーマーベースの予測モデルによる最近の進歩にもかかわらず、ワークロード時系列の非定常的、非線形特性と長期的依存関係による課題が残っている。 特に、長期履歴と短期予測の矛盾した性能は、長距離予測を妨げる。 本稿では,自己指導型マルチスケール表現学習を利用して,長期および短期のワークロードパターンを抽出する新しいフレームワークを提案する。 長期履歴はマルチスケール表現によって符号化され、短期観測は時流融合によってモデル化される。 これらの異なるスケールの表現は、注意機構を用いて融合され、時系列の非ガウス的/非線形分布を扱うための正規化フローが特徴である。 9つのベンチマークの大規模な実験は、既存の方法よりも優れていることを示している。

Accurate workload forecasting is critical for efficient resource management in cloud computing systems, enabling effective scheduling and autoscaling. Despite recent advances with transformer-based forecasting models, challenges remain due to the non-stationary, nonlinear characteristics of workload time series and the long-term dependencies. In particular, inconsistent performance between long-term history and near-term forecasts hinders long-range predictions. This paper proposes a novel framework leveraging self-supervised multiscale representation learning to capture both long-term and near-term workload patterns. The long-term history is encoded through multiscale representations while the near-term observations are modeled via temporal flow fusion. These representations of different scales are fused using an attention mechanism and characterized with normalizing flows to handle non-Gaussian/non-linear distributions of time series. Extensive experiments on 9 benchmarks demonstrate superiority over existing methods.
翻訳日:2024-08-21 01:49:20 公開日:2024-08-19
# 等価量子埋め込みとしての逆写像射影

Reverse Map Projections as Equivariant Quantum Embeddings ( http://arxiv.org/abs/2407.19906v2 )

ライセンス: Link先を確認
Max Arnott, Dimitri Papaioannou, Kieran McDowall, Phalgun Lolur, Bambordé Baldé, (参考訳) 古典データを量子状態に符号化するユニークな新しい方法を定義する逆写像射影埋め込みのクラス $(E_\alpha)_{\alpha \in [-\infty,1)} を導入する。 単位球面から接面へのよく知られた地図投影にインスパイアされたこれらの埋め込みは、振幅埋め込み法の共通の欠点に対処し、データポイントのスカラー多重を識別し、データのノルムに関する情報を失う。 逆写像射影を量子機械学習の同変埋め込みとして利用する方法を示す。 これらの手法を用いることで、古典的データセットの対称性を活用し、量子機械学習タスクの性能を大幅に向上させることができる。 最後に、簡単な分類タスクを実行するために$\alpha$の4つの値を選択し、$E_\alpha$を埋め込みとして、同変と非同変の両方のセットアップで実験する。 これらの結果と標準振幅埋め込みとの比較を行った。

We introduce the novel class $(E_\alpha)_{\alpha \in [-\infty,1)}$ of reverse map projection embeddings, each one defining a unique new method of encoding classical data into quantum states. Inspired by well-known map projections from the unit sphere onto its tangent planes, used in practice in cartography, these embeddings address the common drawback of the amplitude embedding method, wherein scalar multiples of data points are identified and information about the norm of data is lost. We show how reverse map projections can be utilised as equivariant embeddings for quantum machine learning. Using these methods, we can leverage symmetries in classical datasets to significantly strengthen performance on quantum machine learning tasks. Finally, we select four values of $\alpha$ with which to perform a simple classification task, taking $E_\alpha$ as the embedding and experimenting with both equivariant and non-equivariant setups. We compare their results alongside those of standard amplitude embedding.
翻訳日:2024-08-21 01:49:20 公開日:2024-08-19
# GPU推論による簡単な訓練可能な近距離機械翻訳

Simply Trainable Nearest Neighbour Machine Translation with GPU Inference ( http://arxiv.org/abs/2407.19965v2 )

ライセンス: Link先を確認
Hossam Amer, Abdelrahman Abouelenin, Mohamed Maher, Evram Narouz, Mohamed Afify, Hany Awadallah, (参考訳) 最も近い隣の機械翻訳は高速なドメイン適応のためのアプローチであり、事前訓練されたトランスフォーマーとドメイン固有のトークンレベルのk-nearest-neighbor(kNN)検索をリトレーニングせずに補間する。 kNN MTの成功にもかかわらず、大規模な参照コーパスの探索と、kNNと事前訓練されたモデル間の固定補間は、計算複雑性と翻訳品質の課題を引き起こした。 論文の中で、Daiらは少数の参照サンプルを動的に取得する方法を提案し、自由パラメータを含む方程式を用いた距離認識補間法を導入した。 本稿では、簡単に訓練可能な近接機械翻訳を提案し、GPU上で推論実験を行う。 Dai et al と同様、まず入力文ごとに小さなデータストアを適応的に構築する。 第2に、knnMTと事前学習結果との間の補間係数を1層ネットワークでトレーニングし、異なる領域で自動的に補間する。 異なる領域における実験結果から,提案手法は自動でダイなどの手法の翻訳品質を向上させるか,あるいは維持することが示された。 さらに、GPU推論の結果から、knnMTをGPUに組み込むことができ、速度の面では5%の低下しか見られないことが示されている。

Nearest neighbor machine translation is a successful approach for fast domain adaption, which interpolates the pre-trained transformers with domain-specific token-level k-nearest-neighbor (kNN) retrieval without retraining. Despite kNN MT's success, searching large reference corpus and fixed interpolation between the kNN and pre-trained model led to computational complexity and translation quality challenges. Among other papers, Dai et al. proposed methods to obtain a small number of reference samples dynamically for which they introduced a distance-aware interpolation method using an equation that includes free parameters. This paper proposes a simply trainable nearest neighbor machine translation and carry out inference experiments on GPU. Similar to Dai et al., we first adaptively construct a small datastore for each input sentence. Second, we train a single-layer network for the interpolation coefficient between the knnMT and pre-trained result to automatically interpolate in different domains. Experimental results on different domains show that our proposed method either improves or sometimes maintain the translation quality of methods in Dai et al. while being automatic. In addition, our GPU inference results demonstrate that knnMT can be integrated into GPUs with a drop of only 5% in terms of speed.
翻訳日:2024-08-21 01:49:20 公開日:2024-08-19
# LLMによる単体テストの文脈認識入力の可読性測定

An LLM-based Readability Measurement for Unit Tests' Context-aware Inputs ( http://arxiv.org/abs/2407.21369v2 )

ライセンス: Link先を確認
Zhichao Zhou, Yutian Tang, Yun Lin, Jingzhu He, (参考訳) 自動テスト技術は通常、手動テストよりも高いコードカバレッジで単体テストを生成する。 しかし、自動テストの可読性はコードの理解とメンテナンスに不可欠である。 単体テストの可読性は多くの側面を含む。 本稿では,テストインプットに焦点をあてる。 入力可読性に関する既存の研究の中心的な制限は、テスト済みのソースコードを考慮に入れずに、テストコードのみに焦点を当てることであり、異なるソースコードの異なる可読性要件を無視したり、読みやすい入力を書くために手作業を必要とする。 しかし、ソースコードは、テスト入力が満たさなければならないコンテキストを指定する。 このような観察に基づいて、大言語モデルを利用した可読性測定ツールである \underline{C}ontext \underline{C}onsistency \underline{C}onsistency \underline{C}riterion (a.a.a.C3) を導入し、ソースコードからプリミティブ型(文字列型を含む)パラメータの可読性コンテキストを抽出し、テスト入力がそれらのコンテキストと整合であるかどうかを確認する。 EvoSuiteC3も提案しました。 これはC3の抽出したコンテキストを活用して、EvoSuiteが読みやすいテストインプットを生成するのに役立つ。 我々は C3 のパフォーマンスを 409$ \java{} クラスで評価し,手動および自動テストの可読性を比較した。 結果は2倍になる。 まず、C3のマイニングされた可読性コンテキストの精度、リコール、F1スコアはそれぞれ \precision{} と \recall{} と \fone{} である。 第二に、C3の測定では、EvoSuiteC3、ChatUniTest(LLMベースのテスト生成ツール)、手動テスト、および2つの従来のツール(EvoSuiteとRandoop)の文字列型の入力可読性スコアは、90 %$、83\%$、68 %$、8 %$、そして8 %$である。

Automated test techniques usually generate unit tests with higher code coverage than manual tests. However, the readability of automated tests is crucial for code comprehension and maintenance. The readability of unit tests involves many aspects. In this paper, we focus on test inputs. The central limitation of existing studies on input readability is that they focus on test codes alone without taking the tested source codes into consideration, making them either ignore different source codes' different readability requirements or require manual efforts to write readable inputs. However, we observe that the source codes specify the contexts that test inputs must satisfy. Based on such observation, we introduce the \underline{C}ontext \underline{C}onsistency \underline{C}riterion (a.k.a, C3), which is a readability measurement tool that leverages Large Language Models to extract primitive-type (including string-type) parameters' readability contexts from the source codes and checks whether test inputs are consistent with those contexts. We have also proposed EvoSuiteC3. It leverages C3's extracted contexts to help EvoSuite generate readable test inputs. We have evaluated C3's performance on $409$ \java{} classes and compared manual and automated tests' readability under C3 measurement. The results are two-fold. First, The Precision, Recall, and F1-Score of C3's mined readability contexts are \precision{}, \recall{}, and \fone{}, respectively. Second, under C3's measurement, the string-type input readability scores of EvoSuiteC3, ChatUniTest (an LLM-based test generation tool), manual tests, and two traditional tools (EvoSuite and Randoop) are $90\%$, $83\%$, $68\%$, $8\%$, and $8\%$, showing the traditional tools' inability in generating readable string-type inputs.
翻訳日:2024-08-21 01:49:20 公開日:2024-08-19
# 境界認識型アテンション機構による部分的発声音像定位の実現

Enhancing Partially Spoofed Audio Localization with Boundary-aware Attention Mechanism ( http://arxiv.org/abs/2407.21611v2 )

ライセンス: Link先を確認
Jiafeng Zhong, Bin Li, Jiangyan Yi, (参考訳) 部分的にスプーフされた音像定位作業は,フレームレベルでの音像の正当性を正確に判定することを目的としている。 いくつかの研究は奨励的な成果を上げているが、単一のモデルにおける境界情報の利用は未調査の研究トピックのままである。 本研究では,BAM(Boundary-Aware Attention Mechanism)と呼ばれる新しい手法を提案する。 具体的には、境界拡張(Boundary Enhancement)と境界フレーム(Bundary Frame-wise Attention)の2つのコアモジュールで構成されている。 前者はフレーム内およびフレーム間情報を組み立て、その後境界位置検出および認証決定に使用される識別境界特徴を抽出し、後者は境界予測結果を利用してフレーム間の特徴相互作用を明示的に制御し、実フレームと偽フレームの効果的な識別を実現する。 partialSpoofデータベースの実験結果から,提案手法が最高の性能を実現することを示す。 コードはhttps://github.com/media-sec-lab/BAMで公開されている。

The task of partially spoofed audio localization aims to accurately determine audio authenticity at a frame level. Although some works have achieved encouraging results, utilizing boundary information within a single model remains an unexplored research topic. In this work, we propose a novel method called Boundary-aware Attention Mechanism (BAM). Specifically, it consists of two core modules: Boundary Enhancement and Boundary Frame-wise Attention. The former assembles the intra-frame and inter-frame information to extract discriminative boundary features that are subsequently used for boundary position detection and authenticity decision, while the latter leverages boundary prediction results to explicitly control the feature interaction between frames, which achieves effective discrimination between real and fake frames. Experimental results on PartialSpoof database demonstrate our proposed method achieves the best performance. The code is available at https://github.com/media-sec-lab/BAM.
翻訳日:2024-08-21 01:49:20 公開日:2024-08-19
# 普遍近似理論:ニューラルネットワークにおける並列性の基礎

Universal Approximation Theory: Foundations for Parallelism in Neural Networks ( http://arxiv.org/abs/2407.21670v4 )

ライセンス: Link先を確認
Wei Wang, Qing Li, (参考訳) ニューラルネットワークは、多くのタスクで優れたパフォーマンスを示す方法であるビッグデータによる大規模モデルのトレーニングに向けて、ますます進化している。 しかし、このアプローチには緊急の問題がある: 現在のディープラーニングモデルは、主にシリアルであり、ネットワーク層の数が増えるにつれて、トレーニングと推論時間も増加する。 ディープラーニングが今後も進むのであれば、これは受け入れがたいことだ。 そこで本研究では,UAT(Universal Approximation Theorem)に基づくディープラーニング並列化戦略を提案する。 そこで我々はPara-Formerという並列ネットワークを設計し,その理論を検証した。 従来のシリアルモデルとは異なり、Para-Formerの推論時間はレイヤ数で増加せず、多層ネットワークの推論速度が著しく向上する。 このネットワークの有効性を実験的に検証した。

Neural networks are increasingly evolving towards training large models with big data, a method that has demonstrated superior performance across many tasks. However, this approach introduces an urgent problem: current deep learning models are predominantly serial, meaning that as the number of network layers increases, so do the training and inference times. This is unacceptable if deep learning is to continue advancing. Therefore, this paper proposes a deep learning parallelization strategy based on the Universal Approximation Theorem (UAT). From this foundation, we designed a parallel network called Para-Former to test our theory. Unlike traditional serial models, the inference time of Para-Former does not increase with the number of layers, significantly accelerating the inference speed of multi-layer networks. Experimental results validate the effectiveness of this network.
翻訳日:2024-08-21 01:49:20 公開日:2024-08-19
# 小型ReLUネットワークを用いた付加ファインチューニングのためのメモリ化能力

Memorization Capacity for Additive Fine-Tuning with Small ReLU Networks ( http://arxiv.org/abs/2408.00359v2 )

ライセンス: Link先を確認
Jy-yong Sohn, Dohyun Kwon, Seoyeon An, Kangwook Lee, (参考訳) 微調整された大規模な事前学習モデルは、機械学習アプリケーションでは一般的なプラクティスであるが、その数学的解析はほとんど探索されていない。 本稿では,記憶能力のレンズによる微調整について検討する。 私たちの新しい測定基準であるFine-Tuning Capacity(FTC)は、ニューラルネットワークが微調整できるサンプルの最大数、または同等に、微調整プロセスで考慮されたサンプルのうち、N$のラベルを任意に変更するために必要なニューロンの最小数として定義される。 基本的にFTCは、記憶能力の概念を微調整シナリオにまで拡張している。 我々は、微調整ネットワークを凍結事前訓練ネットワーク$f$と、微調整用に設計されたニューラルネットワーク$g$($m$ニューロンを含む)の総和として定義する追加的な微調整シナリオについて、FTCの分析を行う。 g$ が 2 層か 3 層のいずれかの ReLU ネットワークである場合、FTC 上では、厳密な上層と下層の境界が得られます。我々は、$N$ サンプルを 2 層ネットワーク用の $m=\Theta(N)$ ニューロンと、$m=\Theta(\sqrt{N})$ ニューロンで微調整できることを示します。 その結果,特殊ケースとして$N = K$の場合に,既知の記憶能力が回復することがわかった。

Fine-tuning large pre-trained models is a common practice in machine learning applications, yet its mathematical analysis remains largely unexplored. In this paper, we study fine-tuning through the lens of memorization capacity. Our new measure, the Fine-Tuning Capacity (FTC), is defined as the maximum number of samples a neural network can fine-tune, or equivalently, as the minimum number of neurons ($m$) needed to arbitrarily change $N$ labels among $K$ samples considered in the fine-tuning process. In essence, FTC extends the memorization capacity concept to the fine-tuning scenario. We analyze FTC for the additive fine-tuning scenario where the fine-tuned network is defined as the summation of the frozen pre-trained network $f$ and a neural network $g$ (with $m$ neurons) designed for fine-tuning. When $g$ is a ReLU network with either 2 or 3 layers, we obtain tight upper and lower bounds on FTC; we show that $N$ samples can be fine-tuned with $m=\Theta(N)$ neurons for 2-layer networks, and with $m=\Theta(\sqrt{N})$ neurons for 3-layer networks, no matter how large $K$ is. Our results recover the known memorization capacity results when $N = K$ as a special case.
翻訳日:2024-08-21 01:49:20 公開日:2024-08-19
# 量子熱機械の時間分解確率ダイナミクス

Time-resolved Stochastic Dynamics of Quantum Thermal Machines ( http://arxiv.org/abs/2408.00694v2 )

ライセンス: Link先を確認
Abhaya S. Hegde, Patrick P. Potts, Gabriel T. Landi, (参考訳) 定常量子熱機械は典型的には異なる貯水池間の連続した熱の流れによって特徴づけられる。 しかし、離散確率的実現のレベルでは、熱流は一連の急激な量子ジャンプとして展開され、それぞれが環境との有限量子の交換を表す。 本研究では, 量子熱機械の力学を, エンジンライク, 冷却ライク, アイドルに分類されるサイクルに分解する枠組みを提案する。 それぞれのサイクルタイプとその期間の統計を調査し、熱力学的タスクに有用なサイクルの分数と、同じタイプのサイクル間の平均待ち時間の両方を決定できる。 この枠組みは, 量子ドットを用いたメソスコピック輸送などの近代的な実験に大きく関係している。

Steady-state quantum thermal machines are typically characterized by a continuous flow of heat between different reservoirs. However, at the level of discrete stochastic realizations, heat flow is unraveled as a series of abrupt quantum jumps, each representing an exchange of finite quanta with the environment. In this work, we present a framework that resolves the dynamics of quantum thermal machines into cycles that are classified as engine-like, cooling-like, or idle. We explore the statistics of each cycle type and its duration, enabling us to determine both the fraction of cycles useful for thermodynamic tasks and the average waiting time between cycles of the same type. Our framework presents a novel approach in characterizing thermal machines, with significant relevance to modern experiments such as mesoscopic transport using quantum dots.
翻訳日:2024-08-21 01:39:16 公開日:2024-08-19
# 幻覚の脅威:視覚・言語モデルにおけるプライバシー漏洩を解き明かす

The Phantom Menace: Unmasking Privacy Leakages in Vision-Language Models ( http://arxiv.org/abs/2408.01228v2 )

ライセンス: Link先を確認
Simone Caldarella, Massimiliano Mancini, Elisa Ricci, Rahaf Aljundi, (参考訳) VLM(Vision-Language Models)は、視覚的およびテキスト的理解を組み合わせることで、画像キャプションの生成や、さまざまな領域にわたる視覚的質問への回答など、さまざまなタスクに適している。 しかし、これらの機能は、Webからクロールされた大量の未処理データのトレーニングに基づいて構築されている。 後者には、VLMが記憶し、リークする可能性のある機密情報が含まれており、重要なプライバシー上の懸念を引き起こす可能性がある。 本稿では,これらの脆弱性が存在するかどうかを,ID漏洩に着目して評価する。 私たちの研究は3つの重要な発見につながります。 i)VLMは、視覚言語アライメント及び微調整用データの使用時であっても、識別情報を漏洩する。 (二)身元漏洩にはほとんど影響しない。 (三)曖昧化のようにシンプルで広く用いられる匿名化技術は、この問題に対処するには不十分である。 これらの知見は、VLMをデプロイする際の堅牢なプライバシ保護戦略の緊急の必要性を浮き彫りにした。 倫理的認識と責任ある開発プラクティスは、これらのリスクを軽減するために不可欠です。

Vision-Language Models (VLMs) combine visual and textual understanding, rendering them well-suited for diverse tasks like generating image captions and answering visual questions across various domains. However, these capabilities are built upon training on large amount of uncurated data crawled from the web. The latter may include sensitive information that VLMs could memorize and leak, raising significant privacy concerns. In this paper, we assess whether these vulnerabilities exist, focusing on identity leakage. Our study leads to three key findings: (i) VLMs leak identity information, even when the vision-language alignment and the fine-tuning use anonymized data; (ii) context has little influence on identity leakage; (iii) simple, widely used anonymization techniques, like blurring, are not sufficient to address the problem. These findings underscore the urgent need for robust privacy protection strategies when deploying VLMs. Ethical awareness and responsible development practices are essential to mitigate these risks.
翻訳日:2024-08-21 01:39:16 公開日:2024-08-19
# SceneMotion: エージェント中心の埋め込みからScene-Wide予測へ

SceneMotion: From Agent-Centric Embeddings to Scene-Wide Forecasts ( http://arxiv.org/abs/2408.01537v2 )

ライセンス: Link先を確認
Royden Wagner, Ömer Sahin Tas, Marlon Steiner, Fabian Konstantinidis, Hendrik Königshof, Marvin Klemp, Carlos Fernandez, Christoph Stiller, (参考訳) 自動運転車は、環境と効果的に対話し、安全な操作を計画するために、マルチモーダルな動き予測に依存している。 我々は、複数の交通機関のシーンワイド・モーション・モードを予測するアテンションベースモデルであるSceneMotionを紹介する。 我々のモデルは,局所エージェント中心の埋め込みを,新しい潜在コンテキストモジュールを用いてシーンワイドな予測に変換する。 このモジュールは複数のエージェント中心の埋め込みからシーン全体の潜在空間を学習し、共同予測と相互作用モデリングを可能にする。 Waymo Open Interaction Prediction Challengeの競合性能は、我々のアプローチの有効性を示している。 さらに、エージェント間の相互作用を定量化するために、時間と空間で将来のウェイポイントをクラスタ化する。 すべてのモードをマージし、各モードを独立して分析し、相互作用によってどのクラスタが解決されたかを決定します。 私たちの実装は、https://github.com/kit-mrt/future-motion.comで利用可能です。

Self-driving vehicles rely on multimodal motion forecasts to effectively interact with their environment and plan safe maneuvers. We introduce SceneMotion, an attention-based model for forecasting scene-wide motion modes of multiple traffic agents. Our model transforms local agent-centric embeddings into scene-wide forecasts using a novel latent context module. This module learns a scene-wide latent space from multiple agent-centric embeddings, enabling joint forecasting and interaction modeling. The competitive performance in the Waymo Open Interaction Prediction Challenge demonstrates the effectiveness of our approach. Moreover, we cluster future waypoints in time and space to quantify the interaction between agents. We merge all modes and analyze each mode independently to determine which clusters are resolved through interaction or result in conflict. Our implementation is available at: https://github.com/kit-mrt/future-motion
翻訳日:2024-08-21 01:39:16 公開日:2024-08-19
# 古典的機械学習: アルゴリズム学習の進化の70年

Classical Machine Learning: Seventy Years of Algorithmic Learning Evolution ( http://arxiv.org/abs/2408.01747v2 )

ライセンス: Link先を確認
Absalom E. Ezugwu, Yuh-Shan Ho, Ojonukpe S. Egwuche, Olufisayo S. Ekundayo, Annette Van Der Merwe, Apu K. Saha, Jayanta Pal, (参考訳) 機械学習(ML)は多くの分野を変えてきたが、その基礎研究を理解することは、その継続的な進歩に不可欠である。 本稿では,古典的MLアルゴリズムの概要を概説し,12年間にわたる最先端の出版物について,広範囲にわたる文献分析研究を通じて検討する。 我々は、著名なMLカンファレンスやジャーナルから引用された論文のデータセットを分析し、引用とキーワード分析を用いて批判的な洞察を明らかにした。 この研究は、最も影響力のある論文や著者を識別し、MLコミュニティ内で進化する協調ネットワークを明らかにし、研究テーマや新たな焦点分野の要点を明らかにしている。 さらに,高度に引用された出版物の地理的分布について検討し,ML研究の先進国を取り上げている。 本研究では,従来の学習アルゴリズムの進化とその影響について概観する。 グローバル・サウスに焦点をあて、今後の発展への挑戦と機会について論じている。 本稿では,MLの専門家と広い研究コミュニティに貴重な洞察を与え,この分野の軌跡の理解を深め,近年の学習アルゴリズムの進歩にその影響を及ぼした。

Machine learning (ML) has transformed numerous fields, but understanding its foundational research is crucial for its continued progress. This paper presents an overview of the significant classical ML algorithms and examines the state-of-the-art publications spanning twelve decades through an extensive bibliometric analysis study. We analyzed a dataset of highly cited papers from prominent ML conferences and journals, employing citation and keyword analyses to uncover critical insights. The study further identifies the most influential papers and authors, reveals the evolving collaborative networks within the ML community, and pinpoints prevailing research themes and emerging focus areas. Additionally, we examine the geographic distribution of highly cited publications, highlighting the leading countries in ML research. This study provides a comprehensive overview of the evolution of traditional learning algorithms and their impacts. It discusses challenges and opportunities for future development, focusing on the Global South. The findings from this paper offer valuable insights for both ML experts and the broader research community, enhancing understanding of the field's trajectory and its significant influence on recent advances in learning algorithms.
翻訳日:2024-08-21 01:39:16 公開日:2024-08-19
# 2つの結合した固体量子エミッタからの協調放出とその乱数生成への影響

Cooperative emission from two coupled solid-state quantum emitters and its effect on random number generation ( http://arxiv.org/abs/2408.01799v2 )

ライセンス: Link先を確認
Madhura Ghosh Dastidar, Aprameyan Desikan, Gniewomir Sarbicki, Vidya Praveen Bhallamudi, (参考訳) 励起ポンプの波長に近い寸法のナノピラーに閉じ込められた2つの窒素空孔(NV)中心系の発光光における協調効果の挙動を考察した。 我々は、結合エミッタ系に対して$g^{(2)}(0) > 0.5 \to 1$ を実験的に観察し、超放射能挙動を示す2エミッタ間の相互作用を示す $\approx 6$ の係数で一重項と三重項の寿命の劇的な減少を観察した。 我々は、リンドブラッド・マスター方程式の解法と2階相関関数の解析式を提供することにより、3つのケース(単一エミッタ、双極子結合のない2つのエミッタ)の有限温度におけるエミッタ系と励起光の相互作用の散逸ダイナミクスを理論的に研究する。 主方程式から、2つのエミッターの場合の集団とコヒーレンスが混在していることが観察される。 これにより、実験結果をサポートし、システムからの超輝度について論じる。 最後に、結合エミッタ系から、低ポンプパワーで、信頼性の高い量子乱数生成率$\sim 200$ kHzを発見した。

We discuss the behaviour of cooperative effects in the emitted light from a system of two nitrogen-vacancy (NV) centers confined in a nanopillar having dimensions close to the wavelength of the excitation pump. We experimentally observe a $g^{(2)}(0) > 0.5 \to 1$ for the coupled emitter system and a drastic decrease in the singlet and triplet lifetimes by a factor of $\approx 6$, indicating an interaction between the two emitters, which indicates superradiant behaviour. We theoretically study the dissipative dynamics of the interaction of the emitter system with the excitation light at a finite temperature for three cases (single emitter, two emitters with and without dipole-dipole coupling) by solving the Lindblad master equation and providing an analytical expression for the second-order correlation function. We observe that from the master equation, the populations and coherences mix for the two emitters' cases. Through this, we support our experimental results and discuss superradiance from our system. Finally, we discover a reliable quantum random number generation rate of $\sim 200$ kHz from the coupled emitter system, at low pump powers.
翻訳日:2024-08-21 01:39:16 公開日:2024-08-19
# 多言語音声対面アソシエーションのためのコントラスト学習に基づく連鎖クラスタ

Contrastive Learning-based Chaining-Cluster for Multilingual Voice-Face Association ( http://arxiv.org/abs/2408.02025v2 )

ライセンス: Link先を確認
Wuyang Chen, Yanjie Sun, Kele Xu, Yong Dou, (参考訳) 人の顔と声の自然的相関は、近年、特に多言語環境の文脈において、魅力的な研究領域として現れている。 本稿では,FAME (Face-Voice Association in Multilingual Environments, FAME) 2024の課題に対する新たな解決策を紹介する。 この課題は、聴覚と視覚のモダリティ間の生体的関係を構築し、データに存在する内在的および外在的変動に対処しながら、異なる言語間の韻律相互依存性をモデル化することである。 これらの難題に対処するため,多言語シナリオにおける音声と顔の堅牢な関連を確立するために,教師付きクロスコントラスト学習(SCC)を用いた。 これに続いて、我々はチェーンクラスタベースの後処理ステップを特別に設計し、野生データに制限されていない場合の異常値の影響を軽減するようにしました。 言語が対面音声の関連性に与える影響について検討した。 結果はFAMEの公開評価プラットフォームで評価され、2位となった。 その結果,提案手法の優れた性能を示し,提案手法の堅牢性と有効性を検証した。 コードはhttps://github.com/colaudiolab/FAME24_solution.comから入手できる。

The innate correlation between a person's face and voice has recently emerged as a compelling area of study, especially within the context of multilingual environments. This paper introduces our novel solution to the Face-Voice Association in Multilingual Environments (FAME) 2024 challenge, focusing on a contrastive learning-based chaining-cluster method to enhance face-voice association. This task involves the challenges of building biometric relations between auditory and visual modality cues and modelling the prosody interdependence between different languages while addressing both intrinsic and extrinsic variability present in the data. To handle these non-trivial challenges, our method employs supervised cross-contrastive (SCC) learning to establish robust associations between voices and faces in multi-language scenarios. Following this, we have specifically designed a chaining-cluster-based post-processing step to mitigate the impact of outliers often found in unconstrained in the wild data. We conducted extensive experiments to investigate the impact of language on face-voice association. The overall results were evaluated on the FAME public evaluation platform, where we achieved 2nd place. The results demonstrate the superior performance of our method, and we validate the robustness and effectiveness of our proposed approach. Code is available at https://github.com/colaudiolab/FAME24_solution.
翻訳日:2024-08-21 01:39:16 公開日:2024-08-19
# 初期の宇宙における熱状態のクリロフ複雑性

Krylov complexity of thermal state in early universe ( http://arxiv.org/abs/2408.03293v2 )

ライセンス: Link先を確認
Tao Li, Lei-Hua Liu, (参考訳) 本研究では、初期宇宙全体の熱状態のクリロフ複雑性を詳細に研究し、単体インフレーションであるインフレ、放射支配期間、物質支配期間を包含する。 我々は,この目的を達成するために,クローズドシステム方式とオープンシステム方式の両方を利用する。 クリロフの複雑性を正確に計算するために, 2つのモードを持つ純状態となる熱状態の浄化を行った。 両手法による分析は, クリロフの複雑性は, インフレの過程で増大するが, 放射線支配期および物質支配期において一定値で飽和し, 予熱による粒子の生成がこの進化をもたらすことを示している。 さらに, インフレは強い散逸系として振る舞うのに対し, 放射支配および物質支配の期間は弱い散逸系として振る舞うことが明らかとなった。 これらの時代のカオス的特徴は、クリロフの複雑さと同様の傾向を辿っている。 この研究は、宇宙論におけるクリロフ複雑性の探索に新たな洞察を与える可能性がある。

In our work, we perform a detailed study of the Krylov complexity of the thermal state across the entire early universe, encompassing the inflation, radiation-dominated period, and matter-dominated period, which is for the single field inflation. We utilize both the closed system's method and open system's method to achieve this goal. To accurately calculate the Krylov complexity, we purified the thermal state, resulting in a pure state with two modes. Our analysis with both methods indicates that the Krylov complexity will increase during inflation, but will saturate at constant values during the radiation-dominated and matter-dominated periods, where the generation of particles via preheating leads to this evolution. Furthermore, our findings reveal that inflation behaves as a strong dissipative system, while the radiation-dominated and matter-dominated periods act as weak dissipative systems. The chaotic feature during these periods follows a similar trend to the Krylov complexity. This research has the potential to provide new insights into the exploration of Krylov complexity in cosmology.
翻訳日:2024-08-20 23:45:42 公開日:2024-08-19
# KnowPO:Retrieval-Augmented Language Modelにおける制御可能な知識選択のための知識認識参照最適化

KnowPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models ( http://arxiv.org/abs/2408.03297v2 )

ライセンス: Link先を確認
Ruizhe Zhang, Yongxin Xu, Yuzhen Xiao, Runchuan Zhu, Xinke Jiang, Xu Chu, Junfeng Zhao, Yasha Wang, (参考訳) 外部知識を統合することで,大規模言語モデル(LLM)が知識集約タスクに対処する際の幻覚的問題を緩和するための効果的な戦略となっている。 しかし、外部の非パラメトリック支持証拠を内部のパラメトリック知識と統合する過程で、避けられない知識の衝突が生じ、モデルの反応が混乱する可能性がある。 様々な文脈におけるLLMの知識選択を強化するために,授業チューニングによる行動パターンの洗練に重点を置いてきた研究もある。 それにもかかわらず、明示的な負の信号や相対的な目的が存在しないため、この方法で微調整されたモデルは、文脈的無知や文脈的過剰包摂のような望ましくない振る舞いを示す可能性がある。 そこで本研究では,実際の検索シナリオにおける文脈関連性に基づいて,適応的な知識選択を実現することを目的とした,知識認識型推論最適化戦略であるKnowPOを提案する。 具体的には、様々なエラータイプを包括的にカバーし、優先最適化手法によってこれらの負信号の回避方法を学習する知識衝突データセットを構築するための一般的なパラダイムを提案する。 同時に、好みの不均衡に対処するための書き直し戦略とデータ比最適化戦略を提案した。 実験結果から,KnowPOは従来の知識衝突処理手法よりも375%以上優れており,また,様々なアウト・オブ・ディストリビューションデータセットに対する堅牢な一般化も示している。

By integrating external knowledge, Retrieval-Augmented Generation (RAG) has become an effective strategy for mitigating the hallucination problems that large language models (LLMs) encounter when dealing with knowledge-intensive tasks. However, in the process of integrating external non-parametric supporting evidence with internal parametric knowledge, inevitable knowledge conflicts may arise, leading to confusion in the model's responses. To enhance the knowledge selection of LLMs in various contexts, some research has focused on refining their behavior patterns through instruction-tuning. Nonetheless, due to the absence of explicit negative signals and comparative objectives, models fine-tuned in this manner may still exhibit undesirable behaviors such as contextual ignorance and contextual overinclusion. To this end, we propose a Knowledge-aware Preference Optimization strategy, dubbed KnowPO, aimed at achieving adaptive knowledge selection based on contextual relevance in real retrieval scenarios. Concretely, we proposed a general paradigm for constructing knowledge conflict datasets, which comprehensively cover various error types and learn how to avoid these negative signals through preference optimization methods. Simultaneously, we proposed a rewriting strategy and data ratio optimization strategy to address preference imbalances. Experimental results show that KnowPO outperforms previous methods for handling knowledge conflicts by over 37\%, while also exhibiting robust generalization across various out-of-distribution datasets.
翻訳日:2024-08-20 23:45:42 公開日:2024-08-19
# AI-Native Software Development Lifecycle:理論的かつ実践的な新しい方法論

The AI-Native Software Development Lifecycle: A Theoretical and Practical New Methodology ( http://arxiv.org/abs/2408.03416v2 )

ライセンス: Link先を確認
Cory Hymel, (参考訳) AIがソフトウェア開発ライフサイクル(SDLC)のすべてのフェーズに進化し、影響を与え続けるにつれ、ソフトウェア構築の新しい方法の必要性が生まれます。 SDLCの現況に影響を及ぼす要因と、AIによってどのように変化するかを分析することにより、新しい開発モデルを提案する。 白書では、計画からデプロイメントまで、AIが開発の各フェーズにシームレスに統合される、完全なAIネイティブなSDLCの出現を提案する。 本稿では,AIを終端から終端まで組み込んだ従来のV-モデルの適応であるV-バウンスモデルを紹介する。 V-BounceモデルはAIを活用して、実装フェーズに費やされた時間を劇的に削減し、要求収集、アーキテクチャ設計、継続的な検証に重点を置いている。 このモデルは、AIが実装エンジンとして機能するバリデータや検証者に至るまで、主要な実装者から人間の役割を再定義する。

As AI continues to advance and impact every phase of the software development lifecycle (SDLC), a need for a new way of building software will emerge. By analyzing the factors that influence the current state of the SDLC and how those will change with AI we propose a new model of development. This white paper proposes the emergence of a fully AI-native SDLC, where AI is integrated seamlessly into every phase of development, from planning to deployment. We introduce the V-Bounce model, an adaptation of the traditional V-model that incorporates AI from end to end. The V-Bounce model leverages AI to dramatically reduce time spent in implementation phases, shifting emphasis towards requirements gathering, architecture design, and continuous validation. This model redefines the role of humans from primary implementers to primarily validators and verifiers with AI acting as an implementation engine.
翻訳日:2024-08-20 23:45:42 公開日:2024-08-19
# オンライン強化学習のためのKolmogorov-Arnoldネットワーク

Kolmogorov-Arnold Network for Online Reinforcement Learning ( http://arxiv.org/abs/2408.04841v2 )

ライセンス: Link先を確認
Victor Augusto Kich, Jair Augusto Bottega, Raul Steinmetz, Ricardo Bedin Grando, Ayano Yorozu, Akihisa Ohya, (参考訳) Kolmogorov-Arnold Networks (KAN) は、ニューラルネットワークにおけるマルチ層パーセプトロン(MLP)の代替としての可能性を示し、パラメータの少ない普遍関数近似とメモリ使用量の削減を実現している。 本稿では,PPOアルゴリズムにおける関数近似器としてのkanの使用について検討する。 我々は、DeepMind Control Proprio Roboticsベンチマークを用いて、その性能を元のMPPベースのPPOと比較することで、このアプローチを評価した。 以上の結果から,KAをベースとした強化学習アルゴリズムは,MLPに匹敵する性能を達成できることが示唆された。 これらの結果から,kansは強化学習モデルに対して,より効率的な選択肢を提供する可能性が示唆された。

Kolmogorov-Arnold Networks (KANs) have shown potential as an alternative to Multi-Layer Perceptrons (MLPs) in neural networks, providing universal function approximation with fewer parameters and reduced memory usage. In this paper, we explore the use of KANs as function approximators within the Proximal Policy Optimization (PPO) algorithm. We evaluate this approach by comparing its performance to the original MLP-based PPO using the DeepMind Control Proprio Robotics benchmark. Our results indicate that the KAN-based reinforcement learning algorithm can achieve comparable performance to its MLP-based counterpart, often with fewer parameters. These findings suggest that KANs may offer a more efficient option for reinforcement learning models.
翻訳日:2024-08-20 23:45:42 公開日:2024-08-19
# Gemma Scope:Gemma 2であらゆる場所でオープンスパースオートエンコーダ

Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2 ( http://arxiv.org/abs/2408.05147v2 )

ライセンス: Link先を確認
Tom Lieberum, Senthooran Rajamanoharan, Arthur Conmy, Lewis Smith, Nicolas Sonnerat, Vikrant Varma, János Kramár, Anca Dragan, Rohin Shah, Neel Nanda, (参考訳) スパースオートエンコーダ(SAE)は、ニューラルネットワークの潜在表現のスパース分解を、一見解釈可能な特徴に学習するための教師なしの方法である。 彼らの可能性に対する近年の興奮にもかかわらず、業界外の研究応用は、SAEの総合的なスイートをトレーニングするコストによって制限されている。 本稿では,JumpReLU SAEのオープンスイートであるGemma Scopeを紹介し,Gemma 2 2Bおよび9BのサブレイヤおよびGemma 2 27Bベースモデルの選択レイヤをトレーニングした。 主に Gemma 2 の事前訓練モデルで SAE を訓練するが、さらに Gemma 2 9B で訓練された SAE を比較のためにリリースする。 各SAEの品質を標準メトリクスで評価し、その結果を公表する。 私たちは、これらのSAEウェイトをリリースすることによって、コミュニティにとってより野心的な安全性と解釈可能性の研究を容易にするのに役立つことを願っています。 重量とチュートリアルはhttps://huggingface.co/google/gemma-scopeで、インタラクティブなデモはhttps://www.neuronpedia.org/gemma-scopeで見ることができる。

Sparse autoencoders (SAEs) are an unsupervised method for learning a sparse decomposition of a neural network's latent representations into seemingly interpretable features. Despite recent excitement about their potential, research applications outside of industry are limited by the high cost of training a comprehensive suite of SAEs. In this work, we introduce Gemma Scope, an open suite of JumpReLU SAEs trained on all layers and sub-layers of Gemma 2 2B and 9B and select layers of Gemma 2 27B base models. We primarily train SAEs on the Gemma 2 pre-trained models, but additionally release SAEs trained on instruction-tuned Gemma 2 9B for comparison. We evaluate the quality of each SAE on standard metrics and release these results. We hope that by releasing these SAE weights, we can help make more ambitious safety and interpretability research easier for the community. Weights and a tutorial can be found at https://huggingface.co/google/gemma-scope and an interactive demo can be found at https://www.neuronpedia.org/gemma-scope
翻訳日:2024-08-20 23:45:42 公開日:2024-08-19
# SWIFT:ファインチューニングのためのスケーラブル軽量インフラストラクチャ

SWIFT:A Scalable lightWeight Infrastructure for Fine-Tuning ( http://arxiv.org/abs/2408.05517v3 )

ライセンス: Link先を確認
Yuze Zhao, Jintao Huang, Jinghan Hu, Xingjun Wang, Yunlin Mao, Daoze Zhang, Zeyinzi Jiang, Zhikai Wu, Baole Ai, Ang Wang, Wenmeng Zhou, Yingda Chen, (参考訳) 近年のLLM(Large Language Models)とMLLM(Multi-modal Large Language Models)は,アテンションベースのトランスフォーマーアーキテクチャを活用し,優れた性能と一般化を実現している。 それ以来、彼らは伝統的な学習タスクの幅広い領域をカバーしてきた。 例えば、テキスト分類やシーケンスラベリングといったテキストベースのタスクや、以前は異なるモデルを使用して対処されていたVisual Question Answering(VQA)やOCR(OCR)といったマルチモーダルタスクは、1つの基礎モデルに基づいて取り組めるようになった。 その結果,特に Transformer アーキテクチャに基づく LLM と MLLM の訓練と軽量な微調整が特に重要になっている。 これらの圧倒的なニーズを認識して、大型モデルのためのカスタマイズ可能なワンストップインフラストラクチャであるSWIFTを開発する。 300ドル以上のLLMと50ドル以上のMLLMをサポートするSWIFTは、大規模なモデルを微調整するための最も包括的なサポートを提供するオープンソースフレームワークである。 特に、MLLMの体系的なサポートを提供する最初のトレーニングフレームワークである。 微調整のコア機能に加えて、SWIFTは推論、評価、モデル量子化といったポストトレーニングプロセスを統合し、様々なアプリケーションシナリオにおける大規模モデルの迅速な採用を促進する。 様々なトレーニングテクニックを体系的に統合することにより、SWIFTは大規模モデルの異なるトレーニングテクニック間のベンチマーク比較のような有用なユーティリティを提供する。 エージェントフレームワークに特化した微調整モデルでは、ToolBenchリーダーボードの顕著な改善は、SWIFT上でカスタマイズされたデータセットでトレーニングすることで達成できることを示し、Act.EMでは、様々なベースラインモデルに対する5.2%-21.8%、幻覚の1.6%-14.1%、平均的なパフォーマンス改善は8%-17%である。

Recent development in Large Language Models (LLMs) and Multi-modal Large Language Models (MLLMs) have leverage Attention-based Transformer architectures and achieved superior performance and generalization capabilities. They have since covered extensive areas of traditional learning tasks. For instance, text-based tasks such as text-classification and sequence-labeling, as well as multi-modal tasks like Visual Question Answering (VQA) and Optical Character Recognition (OCR), which were previously addressed using different models, can now be tackled based on one foundation model. Consequently, the training and lightweight fine-tuning of LLMs and MLLMs, especially those based on Transformer architecture, has become particularly important. In recognition of these overwhelming needs, we develop SWIFT, a customizable one-stop infrastructure for large models. With support of over $300+$ LLMs and $50+$ MLLMs, SWIFT stands as the open-source framework that provide the most comprehensive support for fine-tuning large models. In particular, it is the first training framework that provides systematic support for MLLMs. In addition to the core functionalities of fine-tuning, SWIFT also integrates post-training processes such as inference, evaluation, and model quantization, to facilitate fast adoptions of large models in various application scenarios. With a systematic integration of various training techniques, SWIFT offers helpful utilities such as benchmark comparisons among different training techniques for large models. For fine-tuning models specialized in agent framework, we show that notable improvements on the ToolBench leader-board can be achieved by training with customized dataset on SWIFT, with an increase of 5.2%-21.8% in the Act.EM metric over various baseline models, a reduction in hallucination by 1.6%-14.1%, and an average performance improvement of 8%-17%.
翻訳日:2024-08-20 23:45:42 公開日:2024-08-19
# SSL: 生成画像の超高解像度化のための自己相似損失

SSL: A Self-similarity Loss for Improving Generative Image Super-resolution ( http://arxiv.org/abs/2408.05713v2 )

ライセンス: Link先を確認
Du Chen, Zhengqiang Zhang, Jie Liang, Lei Zhang, (参考訳) 生成逆数ネットワーク(GAN)と生成拡散モデル(DM)は、画像の知覚品質を高めるために現実世界の超解像(Real-ISR)で広く利用されている。 しかし、これらの生成モデルは視覚的アーティファクトや虚像構造を生成する傾向があり、不自然なリアルISRの結果をもたらす。 本研究は,自然画像が高自己相似性を示すこと,すなわち局所的なパッチが全体像に類似したパッチを多数持っていることを踏まえ,生成リアルISRモデルの性能向上のための簡易かつ効果的な自己相似性損失(SSL)を提案し,構造的およびテクスチャ的詳細性の幻覚性を高めつつ,不愉快な視覚的アーティファクトを低減させる。 具体的には、地上構造画像の自己相似性グラフ(SSG)を計算し、その近傍にReal-ISR出力のSSGを強制する。 トレーニングコストを削減し,エッジ領域に注力するため,地中画像からエッジマスクを生成し,マスク付き画素のみにSSGを演算する。 提案されたSSLは一般的なプラグアンドプレイペナルティとして機能し、既製のReal-ISRモデルにも容易に適用できる。 我々の実験は、SSLと組み合わせることで、GANやDMなど、最先端のReal-ISRモデルの性能を大幅に改善し、より知覚的にリアルな画像の詳細を再現し、多くの偽の再構築や視覚的アーティファクトを排除できることを示した。 コードと補足資料はhttps://github.com/ChrisDud0257/SSLで確認できる。

Generative adversarial networks (GAN) and generative diffusion models (DM) have been widely used in real-world image super-resolution (Real-ISR) to enhance the image perceptual quality. However, these generative models are prone to generating visual artifacts and false image structures, resulting in unnatural Real-ISR results. Based on the fact that natural images exhibit high self-similarities, i.e., a local patch can have many similar patches to it in the whole image, in this work we propose a simple yet effective self-similarity loss (SSL) to improve the performance of generative Real-ISR models, enhancing the hallucination of structural and textural details while reducing the unpleasant visual artifacts. Specifically, we compute a self-similarity graph (SSG) of the ground-truth image, and enforce the SSG of Real-ISR output to be close to it. To reduce the training cost and focus on edge areas, we generate an edge mask from the ground-truth image, and compute the SSG only on the masked pixels. The proposed SSL serves as a general plug-and-play penalty, which could be easily applied to the off-the-shelf Real-ISR models. Our experiments demonstrate that, by coupling with SSL, the performance of many state-of-the-art Real-ISR models, including those GAN and DM based ones, can be largely improved, reproducing more perceptually realistic image details and eliminating many false reconstructions and visual artifacts. Codes and supplementary material can be found at https://github.com/ChrisDud0257/SSL
翻訳日:2024-08-20 23:45:42 公開日:2024-08-19
# LipidBERT: METiS de novo Lipid Libraryで事前訓練された言語モデル

LipidBERT: A Lipid Language Model Pre-trained on METiS de novo Lipid Library ( http://arxiv.org/abs/2408.06150v2 )

ライセンス: Link先を確認
Tianhao Yu, Cai Yao, Zhuorui Sun, Feng Shi, Lin Zhang, Kangjie Lyu, Xuan Bai, Andong Liu, Xicheng Zhang, Jiali Zou, Wenshou Wang, Chris Lai, Kai Wang, (参考訳) 本研究では,METiSの内在型デノボ脂質生成アルゴリズムと脂質仮想スクリーニング技術を用いて,1000万個の仮想脂質のデータベースを作成し,維持する。 これらの仮想脂質は、プレトレーニング、脂質表現学習、下流タスク知識伝達のためのコーパスとして機能し、最先端のLNP特性予測性能を達成している。 本稿では,Masked Language Model (MLM) と各種二次タスクを事前学習した BERT ライクなモデルである LipidBERT を提案する。 さらに, 下流タスクにおけるGPT様脂質生成モデルであるLipidBERTとPhatGPTの埋め込み性能を比較した。 提案したバイリンガルリピッドバーストモデルは, イオン化可能な脂質事前学習言語, 室内の乾式脂質構造を用いた言語, 室内のLNPウェットラブデータを利用したLNP微調整言語という2つの言語で機能する。 このデュアル機能は、METiS de novoの脂質ライブラリの新バージョンや、さらに重要なのは、オーグランターゲットLNPのin vivoテストの候補を含む、将来のスクリーニングタスクのための重要なAIベースのフィルタとして、LipidBERTを位置づけている。 我々の知る限り、これは仮想脂質上で事前訓練された言語モデルの能力と、Web-labデータを用いた下流タスクにおける有効性を示す最初の成功例である。 この研究は、METiSのin-house de novoの脂質ライブラリの巧妙な利用と、ドライウェットラボの統合の力を示している。

In this study, we generate and maintain a database of 10 million virtual lipids through METiS's in-house de novo lipid generation algorithms and lipid virtual screening techniques. These virtual lipids serve as a corpus for pre-training, lipid representation learning, and downstream task knowledge transfer, culminating in state-of-the-art LNP property prediction performance. We propose LipidBERT, a BERT-like model pre-trained with the Masked Language Model (MLM) and various secondary tasks. Additionally, we compare the performance of embeddings generated by LipidBERT and PhatGPT, our GPT-like lipid generation model, on downstream tasks. The proposed bilingual LipidBERT model operates in two languages: the language of ionizable lipid pre-training, using in-house dry-lab lipid structures, and the language of LNP fine-tuning, utilizing in-house LNP wet-lab data. This dual capability positions LipidBERT as a key AI-based filter for future screening tasks, including new versions of METiS de novo lipid libraries and, more importantly, candidates for in vivo testing for orgran-targeting LNPs. To the best of our knowledge, this is the first successful demonstration of the capability of a pre-trained language model on virtual lipids and its effectiveness in downstream tasks using web-lab data. This work showcases the clever utilization of METiS's in-house de novo lipid library as well as the power of dry-wet lab integration.
翻訳日:2024-08-20 23:35:59 公開日:2024-08-19
# ダイナミックハイパーグラフによるシークエンシャル医療訪問の予測

Dynamic Hypergraph-Enhanced Prediction of Sequential Medical Visits ( http://arxiv.org/abs/2408.07084v2 )

ライセンス: Link先を確認
Wangying Yang, Zitao Zheng, Shi Bo, Zhizhong Wu, Bo Zhang, Yuanfang Yang, (参考訳) 本研究では,電子カルテから将来の診断を精度良く予測する動的ハイパーグラフネットワーク(DHCE)モデルを提案する。 DHCEモデルは、患者の訪問履歴の中で急性および慢性疾患を識別・識別し、疾患間の複雑な高次相互作用をキャプチャする動的なハイパーグラフを構築することで、革新する。 医療用言語モデルによるエンコーディングを通じて反映される臨床イベントデータを、堅牢な患者表現に効果的に統合することで、従来のリカレントニューラルネットワークやグラフニューラルネットワークを超えている。 2つのベンチマークデータセット(MIMIC-IIIとMIMIC-IV)の広範な実験により、DHCEモデルは優れた性能を示し、逐次診断予測の精度において確立されたベースラインモデルを大幅に上回っている。

This study introduces a pioneering Dynamic Hypergraph Networks (DHCE) model designed to predict future medical diagnoses from electronic health records with enhanced accuracy. The DHCE model innovates by identifying and differentiating acute and chronic diseases within a patient's visit history, constructing dynamic hypergraphs that capture the complex, high-order interactions between diseases. It surpasses traditional recurrent neural networks and graph neural networks by effectively integrating clinical event data, reflected through medical language model-assisted encoding, into a robust patient representation. Through extensive experiments on two benchmark datasets, MIMIC-III and MIMIC-IV, the DHCE model exhibits superior performance, significantly outpacing established baseline models in the precision of sequential diagnosis prediction.
翻訳日:2024-08-20 23:35:59 公開日:2024-08-19
# 生成言語モデルの性能向上のための精製パッケージングとシャッフル戦略

Refining Packing and Shuffling Strategies for Enhanced Performance in Generative Language Models ( http://arxiv.org/abs/2408.09621v1 )

ライセンス: Link先を確認
Yanbing Chen, Ruilin Wang, Zihao Yang, Lavender Yao Jiang, Eric Karl Oermann, (参考訳) トークンのパッケージングとシャッフルは、過度に適合し効率を向上させるために自動回帰言語モデル(LM)を訓練する一般的な方法である。 通常、文書は最大シーケンス長(MSL)のチャンクに連結され、シャッフルされる。 しかし、ランダムシャッフルを伴う各データチャンクの原子サイズをMSLに設定すると、異なる文書からのトークンが同じチャンクに詰め込まれているため、コンテキスト的不整合が発生する可能性がある。 別のアプローチとして、別の一般的なデータパッキング戦略であるパディングを利用することで、シャッフルチャンクに1つのドキュメントだけを含めることで、コンテキスト的不整合を回避することができる。 本研究は, 充填法と充填法の両方を最適化するため, シャッフルの最適原子径について検討し, その性能と効率を比較検討した。 その結果,MSLに適合する原子径は,パッキング法(連結法とパディング法)の性能を最適化し,パディングにより,より多くのトレーニングステップのコストと計算効率の低下により,結合よりも最終難易度(高い性能)が低下することが判明した。 このトレードオフは、トレーニング言語モデルにおけるパッキングメソッドの選択を通知する。

Packing and shuffling tokens is a common practice in training auto-regressive language models (LMs) to prevent overfitting and improve efficiency. Typically documents are concatenated to chunks of maximum sequence length (MSL) and then shuffled. However setting the atom size, the length for each data chunk accompanied by random shuffling, to MSL may lead to contextual incoherence due to tokens from different documents being packed into the same chunk. An alternative approach is to utilize padding, another common data packing strategy, to avoid contextual incoherence by only including one document in each shuffled chunk. To optimize both packing strategies (concatenation vs padding), we investigated the optimal atom size for shuffling and compared their performance and efficiency. We found that matching atom size to MSL optimizes performance for both packing methods (concatenation and padding), and padding yields lower final perplexity (higher performance) than concatenation at the cost of more training steps and lower compute efficiency. This trade-off informs the choice of packing methods in training language models.
翻訳日:2024-08-20 18:03:47 公開日:2024-08-19
# ルート監視を回避したグローバルBGP攻撃

Global BGP Attacks that Evade Route Monitoring ( http://arxiv.org/abs/2408.09622v1 )

ライセンス: Link先を確認
Henry Birge-Lee, Maria Apostolaki, Jennifer Rexford, (参考訳) 包括的BGP(Border Gateway Protocol)セキュリティ対策がまだ進行中であるため、BGP監視はルーティング攻撃からインターネットを保護する上で重要な役割を担っている。 基本的に、監視には不審な発表を検知し、防御措置を取るためにBGPフィードを観察することが含まれる。 しかし、BGPモニタリングは、そもそも悪意のあるBGPの発表を見ることに依存しています。 本稿では、インターネット全体に影響を及ぼすことなく、テストした最先端のBGP監視システムから身を隠すことができる新たな攻撃を開発する。 この攻撃では、RFCが指定したNO_EXPORTコミュニティでサブプレフィックスのハイジャックを起動し、悪意のあるルートをインストールしたネットワークがルートをBGP監視システムに送るのを防ぐ。 我々は4層1ネットワークにおける攻撃の生存可能性を調査し、調査したネットワークが攻撃に対して脆弱であることを発見した。 最後に、BGPモニタリングエコシステムのロバスト性を大幅に改善する緩和策を提案する。 本稿は,この問題に対する意識を高め,そのような攻撃から保護するためのガイダンスを提供することを目的としている。

As the deployment of comprehensive Border Gateway Protocol (BGP) security measures is still in progress, BGP monitoring continues to play a critical role in protecting the Internet from routing attacks. Fundamentally, monitoring involves observing BGP feeds to detect suspicious announcements and taking defensive action. However, BGP monitoring relies on seeing the malicious BGP announcement in the first place! In this paper, we develop a novel attack that can hide itself from all state-of-the-art BGP monitoring systems we tested while affecting the entire Internet. The attack involves launching a sub-prefix hijack with the RFC-specified NO_EXPORT community attached to prevent networks with the malicious route installed from sending the route to BGP monitoring systems. We study the viability of this attack at four tier-1 networks and find all networks we studied were vulnerable to the attack. Finally, we propose a mitigation that significantly improves the robustness of the BGP monitoring ecosystem. Our paper aims to raise awareness of this issue and offer guidance to providers to protect against such attacks.
翻訳日:2024-08-20 18:03:47 公開日:2024-08-19
# 注意は滑らかな立方体スプラインである

Attention is a smoothed cubic spline ( http://arxiv.org/abs/2408.09624v1 )

ライセンス: Link先を確認
Zehua Lai, Lek-Heng Lim, Yucong Liu, (参考訳) トランスのアテンションモジュールはスムーズな立方体スプラインです。 このように見れば、この変圧器の神秘的かつ批判的な構成要素は、古典近似理論に深く根ざした古い概念の自然な展開となる。 より正確には、ReLUアクティベーション、注意、マスクされた注意、エンコーダ・デコーダの注意は全て立方体のスプラインであることを示す。 トランスのすべてのコンポーネントは、様々な注目モジュール(=立方体スプライン)とフィードフォワードニューラルネットワーク(=線形スプライン)で構成されているため、エンコーダ、デコーダ、エンコーダデコーダブロック、多層エンコーダおよびデコーダ、トランス自体が立方体または上位スプラインである。 ピアース・ビルホフ予想を仮定すると、逆もまた成り立つ、すなわち、すべてのスプラインは ReLU-活性化エンコーダである。 スプラインは通常$C^2$であるので、滑らかな$C^\infty$-versionを得るためには、ReLUをスムーズなアクティベーションに置き換えることであり、このアクティベーションがSoftMaxに選択されている場合、Vaswaniらによって提案されたように、元のトランスフォーマーを復元する。

We highlight a perhaps important but hitherto unobserved insight: The attention module in a transformer is a smoothed cubic spline. Viewed in this manner, this mysterious but critical component of a transformer becomes a natural development of an old notion deeply entrenched in classical approximation theory. More precisely, we show that with ReLU-activation, attention, masked attention, encoder-decoder attention are all cubic splines. As every component in a transformer is constructed out of compositions of various attention modules (= cubic splines) and feed forward neural networks (= linear splines), all its components -- encoder, decoder, and encoder-decoder blocks; multilayered encoders and decoders; the transformer itself -- are cubic or higher-order splines. If we assume the Pierce-Birkhoff conjecture, then the converse also holds, i.e., every spline is a ReLU-activated encoder. Since a spline is generally just $C^2$, one way to obtain a smoothed $C^\infty$-version is by replacing ReLU with a smooth activation; and if this activation is chosen to be SoftMax, we recover the original transformer as proposed by Vaswani et al. This insight sheds light on the nature of the transformer by casting it entirely in terms of splines, one of the best known and thoroughly understood objects in applied mathematics.
翻訳日:2024-08-20 18:03:47 公開日:2024-08-19
# ハイブリッドMKNF知識ベースのための競合駆動問題解決の基礎について

On the Foundations of Conflict-Driven Solving for Hybrid MKNF Knowledge Bases ( http://arxiv.org/abs/2408.09626v1 )

ライセンス: Link先を確認
Riley Kinahan, Spencer Killen, Kevin Wan, Jia-Huai You, (参考訳) ハイブリッドMKNF知識ベース(HMKNF-KBs)は、クローズドワールドルールとオープンワールドオントロジーに対する厳密な統合推論のためのフォーマリズムである。 このアプローチは、しばしば分類的および規範的推論の両方に依存する実世界のシステムの正確なモデリングを可能にする。 競合駆動型解法は、MKNFがルーツとなるSAT(SAT)やASP(ASP)といった、計算的に難しい問題に対する主要なアプローチである。 本稿では,HMKNF-KBの競合駆動型解法に必要な理論的基盤について検討する。 このアプローチは、MKNFモデルを満足度で特徴づける、完了式とループ公式のセットを定義する。 これは一組のノーグッドの基底を形成し、結果としてコンフリクト駆動のソルバのバックボーンとして使用できる。

Hybrid MKNF Knowledge Bases (HMKNF-KBs) constitute a formalism for tightly integrated reasoning over closed-world rules and open-world ontologies. This approach allows for accurate modeling of real-world systems, which often rely on both categorical and normative reasoning. Conflict-driven solving is the leading approach for computationally hard problems, such as satisfiability (SAT) and answer set programming (ASP), in which MKNF is rooted. This paper investigates the theoretical underpinnings required for a conflict-driven solver of HMKNF-KBs. The approach defines a set of completion and loop formulas, whose satisfaction characterizes MKNF models. This forms the basis for a set of nogoods, which in turn can be used as the backbone for a conflict-driven solver.
翻訳日:2024-08-20 18:03:47 公開日:2024-08-19
# 1stGen 変換器とオープン LLM を併用したテキストの自動分類手法

A Strategy to Combine 1stGen Transformers and Open LLMs for Automatic Text Classification ( http://arxiv.org/abs/2408.09629v1 )

ライセンス: Link先を確認
Claudio M. V. de Andrade, Washington Cunha, Davi Reis, Adriana Silvina Pagano, Leonardo Rocha, Marcos André Gonçalves, (参考訳) トランスフォーマーモデルは、いくつかのNLPタスクにおいて最先端と見なされる第1世代トランスフォーマー (1stTR) の進化であるLarge Language Models (LLMs) を用いて、最先端の結果を得た。 しかしながら、LLMが全てのNLPタスクで1stTRを一貫して上回っているという結論はまだ得られていない。 本研究では,11の感情分析データセットを対象とした3つの1stTR(BERT,RoBERTa,BART)と2つのオープンLLM(Llama 2,Bloom)を比較した。 その結果、オープンLLMは11のデータセットのうち8の1stTRよりも適度に優れているか、一致している可能性があるが、微調整された場合に限られることがわかった。 ある程度の利益しか得られないこのかなりのコストを考えると、これらのモデルがコストに敏感なシナリオで実際に適用可能であることは疑わしい。 この文脈では、予測確実性に基づいて1stTRとオープンLLMをシームレスに統合する信頼性ベースの戦略が提案されている。 高信頼度文書はよりコスト効率のよい1stTRによって分類されるが、不確実なケースはゼロショットモードや少数ショットモードのLCMによって処理され、微調整バージョンよりもはるかに低コストである。 感情分析実験により、我々の解は1stTR, 0-shot, few-shot LLMよりも優れるだけでなく、微調整LDMとわずかなコストで密接に競合することを示した。

Transformer models have achieved state-of-the-art results, with Large Language Models (LLMs), an evolution of first-generation transformers (1stTR), being considered the cutting edge in several NLP tasks. However, the literature has yet to conclusively demonstrate that LLMs consistently outperform 1stTRs across all NLP tasks. This study compares three 1stTRs (BERT, RoBERTa, and BART) with two open LLMs (Llama 2 and Bloom) across 11 sentiment analysis datasets. The results indicate that open LLMs may moderately outperform or match 1stTRs in 8 out of 11 datasets but only when fine-tuned. Given this substantial cost for only moderate gains, the practical applicability of these models in cost-sensitive scenarios is questionable. In this context, a confidence-based strategy that seamlessly integrates 1stTRs with open LLMs based on prediction certainty is proposed. High-confidence documents are classified by the more cost-effective 1stTRs, while uncertain cases are handled by LLMs in zero-shot or few-shot modes, at a much lower cost than fine-tuned versions. Experiments in sentiment analysis demonstrate that our solution not only outperforms 1stTRs, zero-shot, and few-shot LLMs but also competes closely with fine-tuned LLMs at a fraction of the cost.
翻訳日:2024-08-20 18:03:47 公開日:2024-08-19
# 2次モーメント量子ゆらぎと量子等価原理

Second-Order Moment Quantum Fluctuations and Quantum Equivalence Principle ( http://arxiv.org/abs/2408.09630v1 )

ライセンス: Link先を確認
M. J. Luo, (参考訳) 2階のモーメント量子ゆらぎや不確実性は質量依存であり、量子不確実性原理と等価性原理の非互換性は2階のモーメント(偏差)レベルであるが、1階のモーメント(平均)レベルである。 2階モーメント量子ゆらぎは, 動的部分と幾何学的部分の2つの部分に分けられる。 動的部分は確かに質量依存的であり、非ゼロハミルトニアンによって非一般共変慣性フレームで支配され、幾何学的部分は質量独立であり、粗格子や幾何学的効果から生じる。 動的部分は座標依存であり、座標変換によって取り消すことができ、したがってハミルトニアンが自動的に消滅する一般的な共変理論では、その役割は果たさない。 しかし、幾何学的部分は一般座標に対して有効であり、座標変換では排除できない。 それとは対照的に、量子時空の2階モーメントゆらぎの幾何学的な部分は座標変換異常をもたらし、アインシュタインの重力理論を誘発する。 幾何学的部分は質量独立で普遍的であるため、この部分は時空の普遍的な二階モーメント量子ゆらぎを測るだけであり、力学的部分は一般の共変記述において何の役割も果たさない。 この観測は古典的同値原理を量子レベルに一般化する。 この原理によれば、幾何学的な部分量子ゆらぎのみを持つ一般共変理論、すなわち非線形シグマモデルが、物質量子参照フレーム系の理論として提案されている。 物質量子参照系における普遍的な2次モーメント量子ゆらぎの影響と、有効重力理論へのその影響についても論じる。

The second-order moment quantum fluctuations or uncertainties are mass-dependent, the incompatibility between the quantum uncertainty principle and the equivalence principle is at the second-order moment (variation) level, but the first-order moment (mean) level. To reconcile the two fundamental principles, we find that the second-order moment quantum fluctuations are actually distinguished into two parts: a dynamic part and a geometric part. The dynamic part is indeed mass-dependent and governed by a non-zero Hamiltonian in a non-general-covariant inertial frame, and the geometric part is mass-independent and comes from coarse-graining and/or geometric effects. The dynamic part is coordinate dependent, it can be canceled away by a coordinate transformation, and hence it plays no role in general covariant theories whose Hamiltonian automatically vanishes. However, the geometric part is valid for general coordinate, and it can not be eliminated by a coordinate transformation. On the contrary, the geometric part of second-order moment fluctuation of quantum spacetime leads to coordinate transformation anomaly, which induces an effective Einstein's gravity theory. The geometric part is mass-independent and universal, so it is only this part measures the universal second-order moment quantum fluctuation of the spacetime, while the dynamic part plays no role in the general covariant description. The observation generalizes the classical equivalence principle to the quantum level. And according to the principle, a general covariant theory with only geometric part quantum fluctuation, i.e. a non-linear sigma model, is proposed as a theory of a material quantum reference frame system. The effects of the universal second-order moment quantum fluctuations in the material quantum reference system and its implications to an effective gravity theory are also discussed.
翻訳日:2024-08-20 17:53:49 公開日:2024-08-19
# MoDeGPT: 大規模言語モデル圧縮のためのモジュール分解

MoDeGPT: Modular Decomposition for Large Language Model Compression ( http://arxiv.org/abs/2408.09632v1 )

ライセンス: Link先を確認
Chi-Heng Lin, Shangqian Gao, James Seale Smith, Abhishek Patel, Shikhar Tuli, Yilin Shen, Hongxia Jin, Yen-Chang Hsu, (参考訳) 大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すことによって、人工知能の景観を再構築した。 しかし、かなりの計算量の要求は、限られたリソースを持つデバイスへの展開を困難にしている。 近年,低ランク行列を用いた圧縮手法が期待されているが,精度が低下したり,パラメータや推論遅延の大幅なオーバーヘッドが発生することがしばしばある。 本稿では, 上記の欠点を解消しつつ, 復元微調整を必要としない新しい構造化圧縮フレームワークである \textbf{Mo}dular \textbf{De}composition (MoDeGPT) を紹介する。 MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、モジュールレベルの出力を再構築することで隠れた次元を縮小する。 MoDeGPTは、3つの確立された行列分解アルゴリズム(Nystr\"om approximation, CR decomposition, SVD)を利用する理論的枠組みに基づいて開発され、再定義されたトランスモジュールに適用する。 総合的な実験により, 後方伝播のないMoDeGPTは, 勾配情報に依存した従来の構造化圧縮手法と一致し, 計算コストの98%を節約できることがわかった。 textsc{Llama}-2/3およびOPTモデルでは、MoDeGPTは圧縮率25-30%で90-95%のゼロショット性能を維持している。 さらに、圧縮は1つのGPU上で数時間以内に行うことができ、推論スループットを最大46%向上させることができる。

Large Language Models (LLMs) have reshaped the landscape of artificial intelligence by demonstrating exceptional performance across various tasks. However, substantial computational requirements make their deployment challenging on devices with limited resources. Recently, compression methods using low-rank matrix techniques have shown promise, yet these often lead to degraded accuracy or introduce significant overhead in parameters and inference latency. This paper introduces \textbf{Mo}dular \textbf{De}composition (MoDeGPT), a novel structured compression framework that does not need recovery fine-tuning while resolving the above drawbacks. MoDeGPT partitions the Transformer block into modules comprised of matrix pairs and reduces the hidden dimensions via reconstructing the module-level outputs. MoDeGPT is developed based on a theoretical framework that utilizes three well-established matrix decomposition algorithms -- Nystr\"om approximation, CR decomposition, and SVD -- and applies them to our redefined transformer modules. Our comprehensive experiments show MoDeGPT, without backward propagation, matches or surpasses previous structured compression methods that rely on gradient information, and saves 98% of compute costs on compressing a 13B model. On \textsc{Llama}-2/3 and OPT models, MoDeGPT maintains 90-95% zero-shot performance with 25-30% compression rates. Moreover, the compression can be done on a single GPU within a few hours and increases the inference throughput by up to 46%.
翻訳日:2024-08-20 17:53:49 公開日:2024-08-19
# 不確かさモデルにおける回帰係数の安定性を評価する分岐と境界

Branch and Bound to Assess Stability of Regression Coefficients in Uncertain Models ( http://arxiv.org/abs/2408.09634v1 )

ライセンス: Link先を確認
Brian Knaeble, R. Mitchell Hughes, George Rudolph, Mark A. Abramson, Daniel Razo, (参考訳) 不確実モデルの係数を解釈することは困難である。 回帰モデルの傾斜係数は、共変量の追加やモデルからの除去によって変化することがある。 高次元データのコンテキストでは、チェックするモデル拡張が多すぎる。 しかし、ここで示すように、正規化回帰モデルの離散空間上の調整された傾斜係数の最大値と最小値に対して、分岐および有界アルゴリズムを用いて効率的に探索することが可能である。 本稿では,高次元データを要約し,不確実なモデルにおける回帰係数の安定性を評価するために,数学的結果のサポート,サンプルアプリケーション,コンピュータコードへのリンクを紹介する。

It can be difficult to interpret a coefficient of an uncertain model. A slope coefficient of a regression model may change as covariates are added or removed from the model. In the context of high-dimensional data, there are too many model extensions to check. However, as we show here, it is possible to efficiently search, with a branch and bound algorithm, for maximum and minimum values of that adjusted slope coefficient over a discrete space of regularized regression models. Here we introduce our algorithm, along with supporting mathematical results, an example application, and a link to our computer code, to help researchers summarize high-dimensional data and assess the stability of regression coefficients in uncertain models.
翻訳日:2024-08-20 17:53:49 公開日:2024-08-19
# 肺癌検診における遺伝子発現プロファイルのメタラーニング

Meta-Learning on Augmented Gene Expression Profiles for Enhanced Lung Cancer Detection ( http://arxiv.org/abs/2408.09635v1 )

ライセンス: Link先を確認
Arya Hadizadeh Moghaddam, Mohsen Nayebi Kerdabadi, Cuncong Zhong, Zijun Yao, (参考訳) DNAマイクロアレイで得られた遺伝子発現プロファイルは、がん検出分類器に重要な情報を提供するのに成功している。 しかし、これらのデータセットの限られた数のサンプルは、高度な分析のためにディープニューラルネットワークのような複雑な方法論を採用することを困難にしている。 この"小さなデータ"ジレンマに対処するため、Meta-Learningは、類似したデータセットを利用することで、機械学習モデルの最適化を強化するソリューションとして導入され、十分なサンプルを必要とせずに、ターゲットデータセットへの迅速な適応が容易になった。 本研究では,遺伝子プロファイルから肺がんを予測するメタラーニングに基づくアプローチを提案する。 このフレームワークを確立されたディープラーニング手法に適用し、メタ学習タスクに4つの異なるデータセットを使用します。 提案手法は,従来の学習手法と深層学習法の両方に対して評価され,その結果,単一のデータセットでトレーニングしたベースラインと比較して,拡張ソースデータ上でのメタラーニングの優れた性能を示した。 さらに,メタラーニング手法とトランスファーラーニング手法の比較分析を行い,限られたサンプルサイズにかかわる課題に対処する上で,提案手法の効率性を強調した。 最後に,メタラーニングによる決定の特異性を説明するために,説明可能性研究を取り入れた。

Gene expression profiles obtained through DNA microarray have proven successful in providing critical information for cancer detection classifiers. However, the limited number of samples in these datasets poses a challenge to employ complex methodologies such as deep neural networks for sophisticated analysis. To address this "small data" dilemma, Meta-Learning has been introduced as a solution to enhance the optimization of machine learning models by utilizing similar datasets, thereby facilitating a quicker adaptation to target datasets without the requirement of sufficient samples. In this study, we present a meta-learning-based approach for predicting lung cancer from gene expression profiles. We apply this framework to well-established deep learning methodologies and employ four distinct datasets for the meta-learning tasks, where one as the target dataset and the rest as source datasets. Our approach is evaluated against both traditional and deep learning methodologies, and the results show the superior performance of meta-learning on augmented source data compared to the baselines trained on single datasets. Moreover, we conduct the comparative analysis between meta-learning and transfer learning methodologies to highlight the efficiency of the proposed approach in addressing the challenges associated with limited sample sizes. Finally, we incorporate the explainability study to illustrate the distinctiveness of decisions made by meta-learning.
翻訳日:2024-08-20 17:53:49 公開日:2024-08-19
# フェルミオン作用素の排他的閉形式ユニタリ変換

Exact closed-form unitary transformations of fermionic operators ( http://arxiv.org/abs/2408.09636v1 )

ライセンス: Link先を確認
Francesco A. Evangelista, Ilias Magoulas, (参考訳) ユニタリ変換は多体物理学において基本的な役割を果たすが、特別な場合を除いては閉形式では表現できない。 エルミートおよび反エルミート生成器の1つのフェルミオン作用素によって生成されるユニタリ変換に対する閉形式表現について述べる。 ブロック対角化とハイゼンベルク力学を含むユニタリ変換の形式解析におけるこれらの式の有用性を示す。 本研究は、単体変換の新しい解析的処理方法とフェルミオンの数値的多体法である。

Unitary transformations play a fundamental role in many-body physics, and except for special cases, they are not expressible in closed form. We present closed-form expressions for unitary transformations generated by a single fermionic operator for Hermitian and anti-Hermitian generators. We demonstrate the usefulness of these expressions in formal analyses of unitary transformations and numerical applications involving block-diagonalization and Heisenberg dynamics. This work paves the way for new analytical treatments of unitary transformations and numerical many-body methods for fermions.
翻訳日:2024-08-20 17:53:49 公開日:2024-08-19
# 非マルコフ量子制御ダイナミクスについて

On the non-Markovian quantum control dynamics ( http://arxiv.org/abs/2408.09637v1 )

ライセンス: Link先を確認
Haijin Ding, Nina H. Amini, John E. Gough, Guofeng Zhang, (参考訳) 本稿では,非マルコフ量子力学の開ループ制御と閉ループ計測フィードバック制御の両方について,量子システムと環境との相互作用から検討する。 我々は、原子が振動子の集合体からなる環境と相互作用するキャビティ量子電気力学(キャビティ-QED)システムを例に挙げる。 このシナリオでは、原子と環境の間の確率的相互作用は、オープン量子系で観測される従来のマルコフ力学とは異なる、非マルコフ的特性を量子状態の進化に導入することができる。 その結果、環境への原子の崩壊速度は時間によって変化し、非線形方程式で説明できる。 これらの非線形方程式の解は非線形制御系の安定性の観点から解析することができる。 その結果、量子状態振幅の進化は、非マルコフ量子過渡過程の結果として線形時間変化方程式に従う。 さらに, キャビティ出力のホモダイン検出による測定フィードバックを用いることで, 非マルコフ過程における定常原子状態とフォトニック状態の変調が可能となる。 複数の共役空洞-QED系が関与する場合、測定に基づくフィードバック制御は高次元量子状態のダイナミクスや、結果として安定で不安定な部分空間に影響を及ぼす。

In this paper, we study both open-loop control and closed-loop measurement feedback control of non-Markovian quantum dynamics resulting from the interaction between a quantum system and its environment. We use the widely studied cavity quantum electrodynamics (cavity-QED) system as an example, where an atom interacts with the environment composed of a collection of oscillators. In this scenario, the stochastic interactions between the atom and the environment can introduce non-Markovian characteristics into the evolution of quantum states, differing from the conventional Markovian dynamics observed in open quantum systems. As a result, the atom's decay rate to the environment varies with time and can be described by nonlinear equations. The solutions to these nonlinear equations can be analyzed in terms of the stability of a nonlinear control system. Consequently, the evolution of quantum state amplitudes follows linear time-varying equations as a result of the non-Markovian quantum transient process. Additionally, by using measurement feedback through homodyne detection of the cavity output, we can modulate the steady atomic and photonic states in the non-Markovian process. When multiple coupled cavity-QED systems are involved, measurement-based feedback control can influence the dynamics of high-dimensional quantum states, as well as the resulting stable and unstable subspaces.
翻訳日:2024-08-20 17:53:49 公開日:2024-08-19
# LLMの文法的知識を活用したアクセシビリティ判断手法

How to Make the Most of LLMs' Grammatical Knowledge for Acceptability Judgments ( http://arxiv.org/abs/2408.09639v1 )

ライセンス: Link先を確認
Yusuke Ide, Yuto Nishida, Miyu Oba, Yusuke Sakai, Justin Vasselli, Hidetaka Kamigaito, Taro Watanabe, (参考訳) 言語モデル(LM)の文法的知識は、言語的最小対のベンチマークを用いてしばしば測定される。 しかし、既存の支配的アプローチは、LMを用いてペア化された文の確率をネーティブに計算し、比較する。 さらに、この分野ではまだ大きな言語モデル(LLM)が十分に検討されていない。 そこで本研究では,LLMの文法的知識を活用して総合的に評価する方法について検討する。 英語と中国語の9つの判定法を広範囲に実験した結果,従来の手法を超越して,確率可読化手法である in-template LP とプロンプトベース手法である Yes/No が特に高い性能を達成できることが実証された。 確率計算はトークン長バイアスに対して頑健であり,LLMの文法的知識の異なる側面を利用する可能性が示唆された。 その結果, LLMを総合的に評価するために, 多様な判定手法を用いることを推奨した。

The grammatical knowledge of language models (LMs) is often measured using a benchmark of linguistic minimal pairs, where LMs are presented with a pair of acceptable and unacceptable sentences and required to judge which is acceptable. The existing dominant approach, however, naively calculates and compares the probabilities of paired sentences using LMs. Additionally, large language models (LLMs) have yet to be thoroughly examined in this field. We thus investigate how to make the most of LLMs' grammatical knowledge to comprehensively evaluate it. Through extensive experiments of nine judgment methods in English and Chinese, we demonstrate that a probability readout method, in-template LP, and a prompting-based method, Yes/No probability computing, achieve particularly high performance, surpassing the conventional approach. Our analysis reveals their different strengths, e.g., Yes/No probability computing is robust against token-length bias, suggesting that they harness different aspects of LLMs' grammatical knowledge. Consequently, we recommend using diverse judgment methods to evaluate LLMs comprehensively.
翻訳日:2024-08-20 17:53:49 公開日:2024-08-19
# 大規模・小言語モデルによる双方向性獲得

Acquiring Bidirectionality via Large and Small Language Models ( http://arxiv.org/abs/2408.09640v1 )

ライセンス: Link先を確認
Takumi Goto, Hiroyoshi Nagao, Yuta Koreeda, (参考訳) BERTのような双方向言語モデル(LM)からのトークン表現は、トークン分類タスクにおいて広く使われているアプローチである。 Llama-2のようなより大きな一方向LMが存在するが、双方向LMのトークン表現を置き換えるために使われることは滅多にない。 この研究では、双方向性の欠如がそれらを後押ししていると仮定する。 そこで本研究では,下流タスクのために,小さな後方LMを新たにトレーニングし,既存のLMと組み合わせて表現することを提案する。 名前付きエンティティ認識の実験を通じて、後方モデルの導入によってベンチマークのパフォーマンスが10ポイント以上向上することが実証された。 さらに,本手法は,レアドメインや数ショットの学習環境において特に有効であることを示す。

Using token representation from bidirectional language models (LMs) such as BERT is still a widely used approach for token-classification tasks. Even though there exist much larger unidirectional LMs such as Llama-2, they are rarely used to replace the token representation of bidirectional LMs. In this work, we hypothesize that their lack of bidirectionality is keeping them behind. To that end, we propose to newly train a small backward LM and concatenate its representations to those of existing LM for downstream tasks. Through experiments in named entity recognition, we demonstrate that introducing backward model improves the benchmark performance more than 10 points. Furthermore, we show that the proposed method is especially effective for rare domains and in few-shot learning settings.
翻訳日:2024-08-20 17:53:49 公開日:2024-08-19
# キャラクタ複雑性:量子回路解析の新しい尺度

Character Complexity: A Novel Measure for Quantum Circuit Analysis ( http://arxiv.org/abs/2408.09641v1 )

ライセンス: Link先を確認
Daksh Shami, (参考訳) 量子コンピューティングの分野では、量子化回路の複雑さは依然として重要な課題である。 本稿では,グループ理論の概念を実用的な量子コンピューティングの課題にブリッジする新しい尺度である「textit{character complexity}」を紹介する。 表現理論からツールを活用することで、キャラクタの複雑さのいくつかの重要な性質を証明し、量子回路の古典的シミュラビリティへの驚くべき接続を確立する。 この新たな尺度は、量子アルゴリズムの複雑さの展望を新たに提供し、量子古典計算境界の理解を再構築する可能性がある。 本稿では、量子回路の構造に関する直感的な洞察を提供する、文字複雑性の革新的な可視化手法を提案する。 実験の結果、量子ビットとゲート数に関して興味深いスケーリング挙動を示し、量子アルゴリズムの設計と最適化のための新たな道を開く。 この研究は、量子複雑性の理論的な基礎に貢献するだけでなく、量子コンピューティングコミュニティに実用的なツールを提供する。 量子ハードウェアが進歩し続ければ、より効率的な量子アルゴリズムの開発や量子計算の基本的な限界の探索において、文字の複雑さが重要な役割を果たす可能性がある。

In the rapidly evolving field of quantum computing, quantifying circuit complexity remains a critical challenge. This paper introduces \textit{character complexity}, a novel measure that bridges group-theoretic concepts with practical quantum computing concerns. By leveraging tools from representation theory, I prove several key properties of character complexity and establish a surprising connection to the classical simulability of quantum circuits. This new measure offers a fresh perspective on the complexity landscape of quantum algorithms, potentially reshaping our understanding of quantum-classical computational boundaries. I present innovative visualization methods for character complexity, providing intuitive insights into the structure of quantum circuits. The empirical results reveal intriguing scaling behaviors with respect to qubit and gate counts, opening new avenues for quantum algorithm design and optimization. This work not only contributes to the theoretical foundations of quantum complexity but also offers practical tools for the quantum computing community. As quantum hardware continues to advance, character complexity could play a crucial role in developing more efficient quantum algorithms and in exploring the fundamental limits of quantum computation.
翻訳日:2024-08-20 17:53:49 公開日:2024-08-19
# 深層学習に基づく機械条件診断のためのウェーブレット変換の探索

Exploring Wavelet Transformations for Deep Learning-based Machine Condition Diagnosis ( http://arxiv.org/abs/2408.09644v1 )

ライセンス: Link先を確認
Eduardo Jr Piedad, Christian Ainsley Del Rosario, Eduardo Prieto-Araujo, Oriol Gomis-Bellmunt, (参考訳) 深層学習(DL)戦略は、モータ位相電流信号を単純に分析することでモータ故障の診断に利用され、より安価で非侵襲的な振動センサの代替手段を提供する。 本研究では、これらの時系列電流信号をウェーブレット変換(WT)を介して時間周波数2D表現に変換する。 モータ電流信号のデータセットは、5つのカテゴリにまたがる3,750のデータポイントを含み、1つは正常な状態を表し、4つは人工的に誘発された断層を表し、それぞれ0、25、50、75、100%の5つの異なる負荷条件の下で表現される。 この研究はWT-Amor、WT-Bump、WT-Morse、WSST-Amor、WSST-Bumpの5つの技術を用いている。 その後、従来の畳み込みニューラルネットワーク(CNN)アーキテクチャを採用した5つのDLモデルを開発し、各手法から変換された2Dプロットを用いて検証した。 WT-Amor、WT-Bump、WT-MorseのDLモデルは、それぞれ90.93、89.20、93.73%のピークモデル精度で顕著な効果を示した。 特にWT-Morseのアプローチは、これまでで最も高いML手法をわずかに上回り、93.20%の精度を達成した。 しかし,同期シーズ技術を利用した2つのWSST法は,モータ故障を正確に分類することが困難であった。 Waveletベースのディープラーニング手法のパフォーマンスは、マシン条件監視の魅力的な代替手段を提供する。

Deep learning (DL) strategies have recently been utilized to diagnose motor faults by simply analyzing motor phase current signals, offering a less costly and non-intrusive alternative to vibration sensors. This research transforms these time-series current signals into time-frequency 2D representations via Wavelet Transform (WT). The dataset for motor current signals includes 3,750 data points across five categories: one representing normal conditions and four representing artificially induced faults, each under five different load conditions: 0, 25, 50, 75, and 100%. The study employs five WT-based techniques: WT-Amor, WT-Bump, WT-Morse, WSST-Amor, and WSST-Bump. Subsequently, five DL models adopting prior Convolutional Neural Network (CNN) architecture were developed and tested using the transformed 2D plots from each method. The DL models for WT-Amor, WT-Bump, and WT-Morse showed remarkable effectiveness with peak model accuracy of 90.93, 89.20, and 93.73%, respectively, surpassing previous 2D-image-based methods that recorded accuracy of 80.25, 74.80, and 82.80% respectively using the identical dataset and validation protocol. Notably, the WT-Morse approach slightly exceeded the formerly highest ML technique, achieving a 93.20% accuracy. However, the two WSST methods that utilized synchrosqueezing techniques faced difficulty accurately classifying motor faults. The performance of Wavelet-based deep learning methods offers a compelling alternative for machine condition monitoring.
翻訳日:2024-08-20 17:53:49 公開日:2024-08-19
# Recommender システムにおける重複バイアスの緩和のためのデバイアス付きコントラスト表現学習

Debiased Contrastive Representation Learning for Mitigating Dual Biases in Recommender Systems ( http://arxiv.org/abs/2408.09646v1 )

ライセンス: Link先を確認
Zhirong Huang, Shichao Zhang, Debo Cheng, Jiuyong Li, Lin Liu, Guixian Zhang, (参考訳) 推薦システムでは、人気度と適合度バイアスが人気項目を不均等に選好することで推薦者の効果を損なうため、レコメンデーションリストに過度に表現され、ユーザー・イテムの歴史的データの不均衡な分布を引き起こす。 両バイアスに対処する因果グラフを構築し,抽象データ生成機構を記述する。 そこで本論文では,DCLMDBと呼ばれる2元バイアスを緩和する新しいDebiased Contrastive Learningフレームワークを開発するためのガイドとして,これを用いる。 DCLMDBでは、人気バイアスと適合バイアスの両方を、コントラスト学習によってモデルトレーニングプロセスで処理し、ユーザの選択や推奨項目が適合性や人気の影響を受けないようにする。 Movielens-10MとNetflixの2つの実世界のデータセットに対する大規模な実験は、DCLMDBが二重バイアスを効果的に低減し、レコメンデーションの正確性と多様性を大幅に向上させることができることを示している。

In recommender systems, popularity and conformity biases undermine recommender effectiveness by disproportionately favouring popular items, leading to their over-representation in recommendation lists and causing an unbalanced distribution of user-item historical data. We construct a causal graph to address both biases and describe the abstract data generation mechanism. Then, we use it as a guide to develop a novel Debiased Contrastive Learning framework for Mitigating Dual Biases, called DCLMDB. In DCLMDB, both popularity bias and conformity bias are handled in the model training process by contrastive learning to ensure that user choices and recommended items are not unduly influenced by conformity and popularity. Extensive experiments on two real-world datasets, Movielens-10M and Netflix, show that DCLMDB can effectively reduce the dual biases, as well as significantly enhance the accuracy and diversity of recommendations.
翻訳日:2024-08-20 17:53:49 公開日:2024-08-19
# C2P-CLIP:CLIPのカテゴリー共通プロンプト注入によるディープフェイク検出の一般化

C2P-CLIP: Injecting Category Common Prompt in CLIP to Enhance Generalization in Deepfake Detection ( http://arxiv.org/abs/2408.09647v1 )

ライセンス: Link先を確認
Chuangchuang Tan, Renshuai Tao, Huan Liu, Guanghua Gu, Baoyuan Wu, Yao Zhao, Yunchao Wei, (参考訳) この研究はAIGC検出に焦点を当て、様々な種類の偽画像を識別できるユニバーサル検出器を開発する。 近年の研究では、CLIPのような大規模事前学習モデルが、線形分類器とともに一般化可能なディープフェイク検出に有効であることが報告されている。 しかし、2つの重大な問題は未解決のままである。 1) 線形分類器による深度検出にCLIPが有効である理由の理解 2)CLIPの検出の可能性を探る。 本研究では,検出機能をテキストに復号し,単語頻度分析を行うことにより,CLIPの検出能力の基盤となるメカニズムを探索する。 以上の結果から,CLIPは類似した概念を認識することでディープフェイクを検出することが示唆された(図)。 \ref{fig:fig1} A)。 この知見に基づいて、カテゴリ共通プロンプトCLIP(C2P-CLIP)を導入し、カテゴリ共通プロンプトをテキストエンコーダに統合し、カテゴリ関連概念を画像エンコーダに注入し、検出性能を向上させる(図)。 \ref{fig:fig1} b)。 提案手法は,テスト中に追加パラメータを導入することなく,元のCLIPと比較して検出精度を12.41倍に向上させる。 20世代モデルを含む2つの広く利用されているデータセットで実施された総合実験により,提案手法の有効性が検証され,最先端の性能が実証された。 コードは \url{https://github.com/chuangchuangtan/C2P-CLIP-DeepfakeDetection} で公開されている。

This work focuses on AIGC detection to develop universal detectors capable of identifying various types of forgery images. Recent studies have found large pre-trained models, such as CLIP, are effective for generalizable deepfake detection along with linear classifiers. However, two critical issues remain unresolved: 1) understanding why CLIP features are effective on deepfake detection through a linear classifier; and 2) exploring the detection potential of CLIP. In this study, we delve into the underlying mechanisms of CLIP's detection capabilities by decoding its detection features into text and performing word frequency analysis. Our finding indicates that CLIP detects deepfakes by recognizing similar concepts (Fig. \ref{fig:fig1} a). Building on this insight, we introduce Category Common Prompt CLIP, called C2P-CLIP, which integrates the category common prompt into the text encoder to inject category-related concepts into the image encoder, thereby enhancing detection performance (Fig. \ref{fig:fig1} b). Our method achieves a 12.41\% improvement in detection accuracy compared to the original CLIP, without introducing additional parameters during testing. Comprehensive experiments conducted on two widely-used datasets, encompassing 20 generation models, validate the efficacy of the proposed method, demonstrating state-of-the-art performance. The code is available at \url{https://github.com/chuangchuangtan/C2P-CLIP-DeepfakeDetection}
翻訳日:2024-08-20 17:53:49 公開日:2024-08-19
# 短時間フーリエ変換変数を用いたディープラーニングに基づく機械条件診断

Deep Learning-based Machine Condition Diagnosis using Short-time Fourier Transformation Variants ( http://arxiv.org/abs/2408.09649v1 )

ライセンス: Link先を確認
Eduardo Jr Piedad, Zherish Galvin Mayordo, Eduardo Prieto-Araujo, Oriol Gomis-Bellmunt, (参考訳) 運動条件診断において、電流シグネチャは、より高価で侵襲的な方法である振動に基づくセンサデータに代わる特徴として機能する。 機械学習(ML)技術は、モータ位相電流信号のみを用いた運動条件の診断において出現している。 本研究では,短時間フーリエ変換(STFT)法を用いた時系列モータ電流信号を時間周波数2Dプロットに変換する。 モータ電流信号データセットは、3750個のサンプルポイントと5つのクラス – 1つの健康状態と4つの合成適用モーター故障条件,および5つの負荷条件 – 0, 25, 50, 75, 75, 100% – から構成されている。 データセットには、非オーバーラップ、重複STFT、非オーバーラップ、重複STFT、同期STFTの5つの変換方法が使用されている。 次に、従来の畳み込みニューラルネットワーク(CNN)アーキテクチャに基づくディープラーニング(DL)モデルを訓練し、各手法の生成されたプロットから検証する。 重複STFT、重複R-STFT、非オーバーラップSTFT、非オーバーラップR-STFT、シンクロスキーズSTFTのDLモデルは、それぞれ97.65、96.03、96.08、96.32、88.27%の平均精度で例外的に実行された。 4つの手法が93.20%の精度で過去の最高のML手法を上回り、5つの手法は、それぞれ80.25、74.80、82.80%の精度で、同じデータセット、同じDLアーキテクチャ、検証ステップを使用して以前の2Dプロットベースの手法を上回りました。

In motor condition diagnosis, electrical current signature serves as an alternative feature to vibration-based sensor data, which is a more expensive and invasive method. Machine learning (ML) techniques have been emerging in diagnosing motor conditions using only motor phase current signals. This study converts time-series motor current signals to time-frequency 2D plots using Short-time Fourier Transform (STFT) methods. The motor current signal dataset consists of 3,750 sample points with five classes - one healthy and four synthetically-applied motor fault conditions, and with five loading conditions: 0, 25, 50, 75, and 100%. Five transformation methods are used on the dataset: non-overlap and overlap STFTs, non-overlap and overlap realigned STFTs, and synchrosqueezed STFT. Then, deep learning (DL) models based on the previous Convolutional Neural Network (CNN) architecture are trained and validated from generated plots of each method. The DL models of overlap-STFT, overlap R-STFT, non-overlap STFT, non-overlap R-STFT, and synchrosqueezed-STFT performed exceptionally with an average accuracy of 97.65, 96.03, 96.08, 96.32, and 88.27%, respectively. Four methods outperformed the previous best ML method with 93.20% accuracy, while all five outperformed previous 2D-plot-based methods with accuracy of 80.25, 74.80, and 82.80%, respectively, using the same dataset, same DL architecture, and validation steps.
翻訳日:2024-08-20 17:53:49 公開日:2024-08-19
# ExpoMamba: 効率よく効果的な画像強調のための周波数SSMブロックの爆発

ExpoMamba: Exploiting Frequency SSM Blocks for Efficient and Effective Image Enhancement ( http://arxiv.org/abs/2408.09650v1 )

ライセンス: Link先を確認
Eashan Adhikarla, Kai Zhang, John Nicholson, Brian D. Davison, (参考訳) 低照度画像の強調はコンピュータビジョンでは依然として困難な課題であり、既存の最先端モデルはハードウェアの制約や計算の非効率、特に高解像度画像の処理によって制限されることが多い。 変圧器や拡散モデルのような最近の基礎モデルは、様々な領域で有効であるにもかかわらず、計算複雑性と速度の遅い推論時間のためにエッジデバイスでの使用に制限されている。 改良されたU-Net内に周波数状態空間のコンポーネントを統合する新しいアーキテクチャであるExpoMambaを導入し、効率と有効性をブレンドする。 このモデルは、低照度画像強調における一般的な問題である混合露光問題に対処し、計算効率を確保するために特別に最適化されている。 実験の結果,ExpoMambaは36.6msの従来のモデルよりも2~3倍高速で低照度画像を向上し,PSNRを約15~20%向上し,リアルタイム画像処理に非常に適していることがわかった。

Low-light image enhancement remains a challenging task in computer vision, with existing state-of-the-art models often limited by hardware constraints and computational inefficiencies, particularly in handling high-resolution images. Recent foundation models, such as transformers and diffusion models, despite their efficacy in various domains, are limited in use on edge devices due to their computational complexity and slow inference times. We introduce ExpoMamba, a novel architecture that integrates components of the frequency state space within a modified U-Net, offering a blend of efficiency and effectiveness. This model is specifically optimized to address mixed exposure challenges, a common issue in low-light image enhancement, while ensuring computational efficiency. Our experiments demonstrate that ExpoMamba enhances low-light images up to 2-3x faster than traditional models with an inference time of 36.6 ms and achieves a PSNR improvement of approximately 15-20% over competing models, making it highly suitable for real-time image processing applications.
翻訳日:2024-08-20 17:53:49 公開日:2024-08-19
# データ駆動型レコメンダシステムのためのコンディショナルインスツルメンタリ変数

Data-driven Conditional Instrumental Variables for Debiasing Recommender Systems ( http://arxiv.org/abs/2408.09651v1 )

ライセンス: Link先を確認
Zhirong Huang, Shichao Zhang, Debo Cheng, Jiuyong Li, Lin Liu, Guangquan Lu, (参考訳) レコメンデーションシステムでは、潜伏変数はユーザとイテムのインタラクションデータを真のユーザの好みから逸脱させる可能性がある。 このバイアス付きデータは、レコメンデーションモデルをトレーニングし、バイアスをさらに増幅し、最終的にレコメンデーション精度とユーザの満足度の両方を妥協するために使用される。 インスツルメンタル変数(IV)法は、潜伏変数によって導入された共起バイアスに対処するための効果的なツールであるが、有効なIVを特定することはしばしば困難である。 そこで本研究では,CIV4Recと呼ばれるレコメンダシステムに対して,データ駆動型条件付きIV(CIV)デバイアス法を提案する。 CIV4Recは、相互作用データから直接有効なCIVと対応する条件セットを自動生成し、IV選択の複雑さを著しく低減し、レコメンダシステムにおける潜伏変数による共起バイアスを効果的に緩和する。 具体的には、CIV4Recは可変オートエンコーダ(VAE)を利用して、対話データからCIVとその条件セットの表現を生成し、次いで最小二乗を用いてクリック予測のための因果表現を導出する。 実世界の2つのデータセットであるMovielens-10MとDouban-Movieの大規模な実験は、我々のCIV4Recが有効なCIVを特定し、バイアスを効果的に低減し、結果として推奨精度を向上することを示した。

In recommender systems, latent variables can cause user-item interaction data to deviate from true user preferences. This biased data is then used to train recommendation models, further amplifying the bias and ultimately compromising both recommendation accuracy and user satisfaction. Instrumental Variable (IV) methods are effective tools for addressing the confounding bias introduced by latent variables; however, identifying a valid IV is often challenging. To overcome this issue, we propose a novel data-driven conditional IV (CIV) debiasing method for recommender systems, called CIV4Rec. CIV4Rec automatically generates valid CIVs and their corresponding conditioning sets directly from interaction data, significantly reducing the complexity of IV selection while effectively mitigating the confounding bias caused by latent variables in recommender systems. Specifically, CIV4Rec leverages a variational autoencoder (VAE) to generate the representations of the CIV and its conditional set from interaction data, followed by the application of least squares to derive causal representations for click prediction. Extensive experiments on two real-world datasets, Movielens-10M and Douban-Movie, demonstrate that our CIV4Rec successfully identifies valid CIVs, effectively reduces bias, and consequently improves recommendation accuracy.
翻訳日:2024-08-20 17:53:49 公開日:2024-08-19
# 非有界な文脈分布に対する文脈帯域

Contextual Bandits for Unbounded Context Distributions ( http://arxiv.org/abs/2408.09655v1 )

ライセンス: Link先を確認
Puning Zhao, Jiafei Wu, Zhe Liu, Huiwen Wu, (参考訳) 非パラメトリックな文脈的包帯は、シーケンシャルな意思決定問題の重要なモデルである。 既存の研究は、$\alpha$-Tsybakovマージン条件の下で、有界サポートに対する$\tilde{O}\left(T^{1-\frac{\alpha+1}{d+2}}\right)の後悔境界を確立している。 しかし、境界のない文脈での最適後悔は分析されていない。 非有界な支援を伴う文脈的帯域幅問題の解決の課題は、探索-探索トレードオフとバイアス-分散トレードオフを同時に達成することである。 本稿では,非パラメトリックな文脈的包帯問題を非有界な文脈で解く。 UCB探査と近接する2つの手法を提案する。 最初のメソッドは固定の$k$を使用する。 本手法は,弱利得条件と比較的軽微な文脈分布の下で,最小限の後悔を達成できることを示す。 第2の方法は、アダプティブ$k$を使用する。 k$の適切なデータ駆動選択により、このメソッドは、$\tilde{O}\left(T^{1-\frac{(\alpha+1)\beta}{\alpha+(d+2)\beta}}+T^{1-\beta}\right)$の期待された後悔を達成する。 この境界は対数因子までのミニマックス下限と一致し、第2の手法がほぼ最適であることを示す。

Nonparametric contextual bandit is an important model of sequential decision making problems. Under $\alpha$-Tsybakov margin condition, existing research has established a regret bound of $\tilde{O}\left(T^{1-\frac{\alpha+1}{d+2}}\right)$ for bounded supports. However, the optimal regret with unbounded contexts has not been analyzed. The challenge of solving contextual bandit problems with unbounded support is to achieve both exploration-exploitation tradeoff and bias-variance tradeoff simultaneously. In this paper, we solve the nonparametric contextual bandit problem with unbounded contexts. We propose two nearest neighbor methods combined with UCB exploration. The first method uses a fixed $k$. Our analysis shows that this method achieves minimax optimal regret under a weak margin condition and relatively light-tailed context distributions. The second method uses adaptive $k$. By a proper data-driven selection of $k$, this method achieves an expected regret of $\tilde{O}\left(T^{1-\frac{(\alpha+1)\beta}{\alpha+(d+2)\beta}}+T^{1-\beta}\right)$, in which $\beta$ is a parameter describing the tail strength. This bound matches the minimax lower bound up to logarithm factors, indicating that the second method is approximately optimal.
翻訳日:2024-08-20 17:44:03 公開日:2024-08-19
# 乱数生成課題における大規模言語モデルと人的性能の比較

A Comparison of Large Language Model and Human Performance on Random Number Generation Tasks ( http://arxiv.org/abs/2408.09656v1 )

ライセンス: Link先を確認
Rachel M. Harrison, (参考訳) ランダム数生成タスク(RNGT)は、人間が予測可能なパターンを欠くシーケンスをどのように生成するかを調べる心理学で用いられる。 既存の人間のRNGTをLLM互換環境に適用することにより、人間の生成したテキストに基づいて訓練された大きな言語モデルであるChatGPT-3.5が、ランダムな数列を生成する際に人間に似た認知バイアスを示すかどうかを予備研究により検証する。 初期の知見から、ChatGPT-3.5は人間に比べて繰り返しパターンやシーケンシャルパターンを効果的に回避し、特に頻度が低く、数頻度が隣接していることが示唆された。 異なるモデル、パラメータ、およびプロンプトの方法論に関する継続的な研究は、LLMが人間のランダムな生成行動をより密に模倣する方法の理解を深めるとともに、認知科学や行動科学の研究におけるそれらの応用を広げる。

Random Number Generation Tasks (RNGTs) are used in psychology for examining how humans generate sequences devoid of predictable patterns. By adapting an existing human RNGT for an LLM-compatible environment, this preliminary study tests whether ChatGPT-3.5, a large language model (LLM) trained on human-generated text, exhibits human-like cognitive biases when generating random number sequences. Initial findings indicate that ChatGPT-3.5 more effectively avoids repetitive and sequential patterns compared to humans, with notably lower repeat frequencies and adjacent number frequencies. Continued research into different models, parameters, and prompting methodologies will deepen our understanding of how LLMs can more closely mimic human random generation behaviors, while also broadening their applications in cognitive and behavioral science research.
翻訳日:2024-08-20 17:44:03 公開日:2024-08-19
# 符号の大規模言語モデルが断層定位に及ぼす影響

Impact of Large Language Models of Code on Fault Localization ( http://arxiv.org/abs/2408.09657v1 )

ライセンス: Link先を確認
Suhwan Ji, Sanghwa Lee, Changsup Lee, Hyeonseung Im, Yo-Sub Han, (参考訳) エラー点の特定は、ソフトウェアのデバッグにおいて必須である。 従来のフォールトローカライゼーション(FL)技術は、プログラムを実行し、テストケースの結果と一致してコードカバレッジマトリックスを使用して、各関数や行に対する疑わしいスコアを計算する。 近年,学習ベースのFL技術は,コードカバレッジマトリックスから意味のある特徴を抽出し,FL性能を向上させるために機械学習モデルを活用している。 しかし、これらのテクニックはコンパイル可能なソースコード、既存のテストケース、および各プログラミング言語のコードカバレッジマトリックスを生成するための特別なツールを必要とする。 本稿では,FLタスクのための大規模言語モデル(LLMC)を微調整する,単純かつ効果的なシーケンス生成手法を提案する。 LLMCは最近、様々なソフトウェア工学の問題に多くの注目を集めている。 これに合わせて、LLMCが大規模なコードコーパスの事前トレーニングを通じて取得した、コード固有の理解を活用します。 具体的には、FLタスク用の代表エンコーダ、エンコーダデコーダ、デコーダベースの13のLLMCを微調整する。 従来のアプローチとは異なり、LLMCはコンパイルされた入力に依存しないため、構文上のエラーがあってもコードシーケンスを解析できる。 それでも、入力データの長さに制限がある。 そこで,既存のFL手法と公正に比較するために,プロジェクトレベルのベンチマークであるDefects4Jからエラーのあるメソッドを抽出し,それらをラインレベルで解析する。 実験結果から, LLMCは50.6\%, 64.2\%, 72.3\%の誤り点位置を推定し, 最大1.35倍, 1.12倍, 1.08倍の精度で, 最高の学習ベース最先端技術より優れていた。 本研究は, LLMCを用いたFLと自動プログラム修復作業における有望な研究方向性を示唆するものである。

Identifying the point of error is imperative in software debugging. Traditional fault localization (FL) techniques rely on executing the program and using the code coverage matrix in tandem with test case results to calculate a suspiciousness score for each function or line. Recently, learning-based FL techniques have harnessed machine learning models to extract meaningful features from the code coverage matrix and improve FL performance. These techniques, however, require compilable source code, existing test cases, and specialized tools for generating the code coverage matrix for each programming language of interest. In this paper, we propose, for the first time, a simple but effective sequence generation approach for fine-tuning large language models of code (LLMCs) for FL tasks. LLMCs have recently received much attention for various software engineering problems. In line with these, we leverage the innate understanding of code that LLMCs have acquired through pre-training on large code corpora. Specifically, we fine-tune representative encoder, encoder-decoder, and decoder-based 13 LLMCs for FL tasks. Unlike previous approaches, LLMCs can analyze code sequences even with syntactic errors, since they do not rely on compiled input. Still, they have a limitation on the length of the input data. Therefore, for a fair comparison with existing FL techniques, we extract methods with errors from the project-level benchmark, Defects4J, and analyze them at the line level. Experimental results show that LLMCs fine-tuned with our approach successfully pinpoint error positions in 50.6\%, 64.2\%, and 72.3\% of 1,291 methods in Defects4J for Top-1/3/5 prediction, outperforming the best learning-based state-of-the-art technique by up to 1.35, 1.12, and 1.08 times, respectively. Our findings suggest promising research directions for FL and automated program repair tasks using LLMCs.
翻訳日:2024-08-20 17:44:03 公開日:2024-08-19
# CHASE:ガウススプラッティングとコントラスト学習によるスパース入力による3次元持続型ヒトアバター

CHASE: 3D-Consistent Human Avatars with Sparse Inputs via Gaussian Splatting and Contrastive Learning ( http://arxiv.org/abs/2408.09663v1 )

ライセンス: Link先を確認
Haoyu Zhao, Hao Wang, Chen Yang, Wei Shen, (参考訳) 近年のヒトアバター合成の進歩は、光実在性アニマタブルヒトアバターの再構成に放射場を利用した。 しかし、NeRFsと3DGSをベースとした手法はどちらも3次元の一貫性を維持し、特にスパース入力で最適な細部再構成を示すのに苦労している。 この課題に対処するために,ポーズ間の本質的な3次元一貫性と3次元幾何学的コントラスト学習の監督を導入し,スパース入力に匹敵する性能をフルインプットで実現するCHASEを提案する。 前回の研究の後、まず骨格駆動の剛性変形と非剛性布の動的変形を統合し、アニメーション中の個々のガウスの動きを調整し、粗い3次元整合性を持つ基本アバターを再構成した。 スパース入力下での3D整合性を改善するために、データセットから選択した類似のポーズ/イメージに基づいて変形したガウスを調整するための動的アバター調整(DAA)を設計する。 調整されたガウス像と類似したポーズ画像との差を最小化することは、アバターの監視の付加形態となる。 さらに,生成されたアバターの3次元大域的一貫性を維持するための3次元幾何学的コントラスト学習戦略を提案する。 CHASEはスパース入力用に設計されているが、ZJU-MoCapおよびH36Mデータセット上で、現在のSOTAメソッドであるtextbf{inを驚くほど上回っており、我々のCHASEがアバターの3D一貫性をうまく維持し、レンダリング品質を向上させることを実証している。

Recent advancements in human avatar synthesis have utilized radiance fields to reconstruct photo-realistic animatable human avatars. However, both NeRFs-based and 3DGS-based methods struggle with maintaining 3D consistency and exhibit suboptimal detail reconstruction, especially with sparse inputs. To address this challenge, we propose CHASE, which introduces supervision from intrinsic 3D consistency across poses and 3D geometry contrastive learning, achieving performance comparable with sparse inputs to that with full inputs. Following previous work, we first integrate a skeleton-driven rigid deformation and a non-rigid cloth dynamics deformation to coordinate the movements of individual Gaussians during animation, reconstructing basic avatar with coarse 3D consistency. To improve 3D consistency under sparse inputs, we design Dynamic Avatar Adjustment(DAA) to adjust deformed Gaussians based on a selected similar pose/image from the dataset. Minimizing the difference between the image rendered by adjusted Gaussians and the image with the similar pose serves as an additional form of supervision for avatar. Furthermore, we propose a 3D geometry contrastive learning strategy to maintain the 3D global consistency of generated avatars. Though CHASE is designed for sparse inputs, it surprisingly outperforms current SOTA methods \textbf{in both full and sparse settings} on the ZJU-MoCap and H36M datasets, demonstrating that our CHASE successfully maintains avatar's 3D consistency, hence improving rendering quality.
翻訳日:2024-08-20 17:44:03 公開日:2024-08-19
# SG-GS:感性誘導型ガウススプラッティングによる光リアルアニマタブルヒトアバター

SG-GS: Photo-realistic Animatable Human Avatars with Semantically-Guided Gaussian Splatting ( http://arxiv.org/abs/2408.09665v1 )

ライセンス: Link先を確認
Haoyu Zhao, Chen Yang, Hao Wang, Xingyue Zhao, Wei Shen, (参考訳) モノクラービデオからフォトリアリスティックなアニマタブルな人間のアバターを再構築することは、コンピュータビジョンとグラフィックスにおいて依然として困難である。 近年,人体を表現するために3Dガウス法が登場し,より高速な最適化とリアルタイムレンダリングが可能となった。 しかし、本質的な構造と人体内のつながりを表す人体意味情報の重要な役割を無視するため、動的な人体アバターの微細な再構築には至らなかった。 この問題に対処するために,SG-GSを提案する。SG-GSは3次元ガウスアン,骨格駆動型剛性変形,および非剛性布の動的変形を用いて,モノクロビデオからフォトリアリスティックアニマタブルな人間のアバターを生成する。 次に,SMPLのセマンティック・アノテータを用いたセマンティック・ヒューマン・ボディ・アノテータ(SHA)を設計し,効率的なボディ部分のセマンティック・ラベリングを行う。 生成されたラベルはガウス意味属性の最適化を導くために使用される。 局所特徴量に対する点レベルMLPの受容領域の制限に対処するために,人間のアバター変形に対する幾何学的および意味的関連性を統合する3Dネットワークを提案する。 さらに、3次元ガウスのセマンティックな精度とレンダリング品質を高めるための3つの重要な戦略を実装した:2次元正規化を伴うセマンティックプロジェクション、セマンティック誘導密度正規化、および近隣の一貫性を伴うセマンティック認識正規化。 大規模な実験により,SG-GSは最先端の幾何学と外観復元性能を達成することが示された。

Reconstructing photo-realistic animatable human avatars from monocular videos remains challenging in computer vision and graphics. Recently, methods using 3D Gaussians to represent the human body have emerged, offering faster optimization and real-time rendering. However, due to ignoring the crucial role of human body semantic information which represents the intrinsic structure and connections within the human body, they fail to achieve fine-detail reconstruction of dynamic human avatars. To address this issue, we propose SG-GS, which uses semantics-embedded 3D Gaussians, skeleton-driven rigid deformation, and non-rigid cloth dynamics deformation to create photo-realistic animatable human avatars from monocular videos. We then design a Semantic Human-Body Annotator (SHA) which utilizes SMPL's semantic prior for efficient body part semantic labeling. The generated labels are used to guide the optimization of Gaussian semantic attributes. To address the limited receptive field of point-level MLPs for local features, we also propose a 3D network that integrates geometric and semantic associations for human avatar deformation. We further implement three key strategies to enhance the semantic accuracy of 3D Gaussians and rendering quality: semantic projection with 2D regularization, semantic-guided density regularization and semantic-aware regularization with neighborhood consistency. Extensive experiments demonstrate that SG-GS achieves state-of-the-art geometry and appearance reconstruction performance.
翻訳日:2024-08-20 17:44:03 公開日:2024-08-19
# BLADE: データ駆動科学のためのベンチマーク言語モデルエージェント

BLADE: Benchmarking Language Model Agents for Data-Driven Science ( http://arxiv.org/abs/2408.09667v1 )

ライセンス: Link先を確認
Ken Gu, Ruoxi Shang, Ruien Jiang, Keying Kuang, Richard-John Lin, Donghe Lyu, Yue Mao, Youran Pan, Teng Wu, Jiaqian Yu, Yikun Zhang, Tianmai M. Zhang, Lanyi Zhu, Mike A. Merrill, Jeffrey Heer, Tim Althoff, (参考訳) データ駆動型科学的発見は、科学領域の知識の反復的な統合、統計学の専門知識、データセマンティクスの理解を必要とする。 プランニング、メモリ、コード実行機能を備えたLMベースのエージェントは、データ駆動科学をサポートする可能性がある。 しかし、このようなオープンエンドタスクにおけるエージェントの評価は、複数の有効なアプローチ、部分的に正しいステップ、同じ決定を表現するための異なる方法によって困難である。 これらの課題に対処するために,エージェントの多面的アプローチを自動的に評価するベンチマークBLADEを提案する。 BLADEは、既存の科学文献から抽出された12のデータセットと研究質問で構成されており、専門家データ科学者と研究者による独立した分析から、基礎的な真実が収集されている。 エージェント応答を自動的に評価するために,解析の異なる表現をこの基底真理と一致させる計算手法を開発した。 言語モデルには世界的知識がかなりあるが,その評価は基本的分析に限られることが多いことを示している。 しかし、基礎となるデータと対話できるエージェントは、分析的な意思決定において改善されているが、まだ最適ではない多様性を示している。 我々の研究は、データ駆動科学におけるエージェントの評価を可能にし、エージェントの分析アプローチに関する研究者の深い洞察を提供する。

Data-driven scientific discovery requires the iterative integration of scientific domain knowledge, statistical expertise, and an understanding of data semantics to make nuanced analytical decisions, e.g., about which variables, transformations, and statistical models to consider. LM-based agents equipped with planning, memory, and code execution capabilities have the potential to support data-driven science. However, evaluating agents on such open-ended tasks is challenging due to multiple valid approaches, partially correct steps, and different ways to express the same decisions. To address these challenges, we present BLADE, a benchmark to automatically evaluate agents' multifaceted approaches to open-ended research questions. BLADE consists of 12 datasets and research questions drawn from existing scientific literature, with ground truth collected from independent analyses by expert data scientists and researchers. To automatically evaluate agent responses, we developed corresponding computational methods to match different representations of analyses to this ground truth. Though language models possess considerable world knowledge, our evaluation shows that they are often limited to basic analyses. However, agents capable of interacting with the underlying data demonstrate improved, but still non-optimal, diversity in their analytical decision making. Our work enables the evaluation of agents for data-driven science and provides researchers deeper insights into agents' analysis approaches.
翻訳日:2024-08-20 17:44:03 公開日:2024-08-19
# 逆ロバスト学習のための正規化

Regularization for Adversarial Robust Learning ( http://arxiv.org/abs/2408.09672v1 )

ライセンス: Link先を確認
Jie Wang, Rui Gao, Yao Xie, (参考訳) 現実世界のアプリケーションで人工知能が普及しているにもかかわらず、敵攻撃に対するその脆弱性は依然として重大な懸念であり、機械学習モデルの堅牢性について調査する動機となっている。 様々なヒューリスティックスは$\infty$-Wassersteinメートル法を用いて分布的にロバストなリスクを最適化することを目的としているが、ロバスト性の概念はしばしば計算の難易度に遭遇する。 計算課題に対処するために,$\phi$-divergence正規化を分散ロバストなリスク関数に組み込む,新たな対角訓練手法を開発した。 この正規化は、元の定式化と比較して計算の顕著な改善をもたらす。 本研究では, この問題を効率的に解くために, 偏りを持つ確率勾配法を開発し, ほぼ最適サンプル複雑性を実現する。 さらに、正則化効果を確立し、正則化パラメータ$\eta$およびロバストネスレベル$\rho$の様々なスケーリング機構を考慮することにより、正則化経験的リスク最小化(ERM)フレームワークと漸近同値であることを示す。 これらの規則は、勾配ノルム正則化、分散正則化、あるいはこれらの極端の間を補間する滑らかな勾配ノルム正則化をもたらす。 我々は,教師付き学習,強化学習,文脈学習における提案手法を数値的に検証し,様々な敵攻撃に対する最先端の性能を示す。

Despite the growing prevalence of artificial neural networks in real-world applications, their vulnerability to adversarial attacks remains to be a significant concern, which motivates us to investigate the robustness of machine learning models. While various heuristics aim to optimize the distributionally robust risk using the $\infty$-Wasserstein metric, such a notion of robustness frequently encounters computation intractability. To tackle the computational challenge, we develop a novel approach to adversarial training that integrates $\phi$-divergence regularization into the distributionally robust risk function. This regularization brings a notable improvement in computation compared with the original formulation. We develop stochastic gradient methods with biased oracles to solve this problem efficiently, achieving the near-optimal sample complexity. Moreover, we establish its regularization effects and demonstrate it is asymptotic equivalence to a regularized empirical risk minimization (ERM) framework, by considering various scaling regimes of the regularization parameter $\eta$ and robustness level $\rho$. These regimes yield gradient norm regularization, variance regularization, or a smoothed gradient norm regularization that interpolates between these extremes. We numerically validate our proposed method in supervised learning, reinforcement learning, and contextual learning and showcase its state-of-the-art performance against various adversarial attacks.
翻訳日:2024-08-20 17:44:03 公開日:2024-08-19
# マルチスケール画像超解像のためのインプシットグリッド畳み込み

Implicit Grid Convolution for Multi-Scale Image Super-Resolution ( http://arxiv.org/abs/2408.09674v1 )

ライセンス: Link先を確認
Dongheon Lee, Seokju Yun, Youngmin Ro, (参考訳) 近年,ニューラルネットワークを用いた超解像(SR)の性能向上が目覚ましい。 ほとんどのSR手法は、通常、目標とするスケールごとに単一のモデルをトレーニングし、ターゲットとするスケールの数に比例して、トレーニングとデプロイメントの冗長性を高める。 本稿では,従来の固定スケールアプローチに挑戦する。 予備分析の結果、異なるスケールで訓練されたエンコーダが画像から類似した特徴を抽出していることが判明した。 さらに,SPConv (Sub-Pixel Convolution, Sub-Pixel Convolution) では, スケール間の相関が顕著である。 これらの観測に基づいて,1つのモデルで複数の整数スケールを同時に学習するためのフレームワークを提案する。 我々は単一エンコーダを使用して特徴を抽出し、新しいアップサンプルであるImplicit Grid Convolution~(IGConv)を導入します。 大規模な実験では、単一のモデルで複数のスケールのトレーニングを行うことで、トレーニング予算と格納パラメータを3分の1削減し、等価な推論レイテンシと同等のパフォーマンスを実現しています。 さらに、IGConv$^{+}$を提案し、これはスペクトルバイアスと入出力独立なアップサンプリングに対処し、アンサンブル予測を用いて性能を向上させる。 その結果、SRFormer-IGConv$^{+}$は、Urban100$\times$4のPSNRにおいて、既存のSRFormerと比較してトレーニング予算、格納パラメータ、推論コストを削減しながら、注目すべき0.25dBの改善を実現した。

Recently, Super-Resolution (SR) achieved significant performance improvement by employing neural networks. Most SR methods conventionally train a single model for each targeted scale, which increases redundancy in training and deployment in proportion to the number of scales targeted. This paper challenges this conventional fixed-scale approach. Our preliminary analysis reveals that, surprisingly, encoders trained at different scales extract similar features from images. Furthermore, the commonly used scale-specific upsampler, Sub-Pixel Convolution (SPConv), exhibits significant inter-scale correlations. Based on these observations, we propose a framework for training multiple integer scales simultaneously with a single model. We use a single encoder to extract features and introduce a novel upsampler, Implicit Grid Convolution~(IGConv), which integrates SPConv at all scales within a single module to predict multiple scales. Our extensive experiments demonstrate that training multiple scales with a single model reduces the training budget and stored parameters by one-third while achieving equivalent inference latency and comparable performance. Furthermore, we propose IGConv$^{+}$, which addresses spectral bias and input-independent upsampling and uses ensemble prediction to improve performance. As a result, SRFormer-IGConv$^{+}$ achieves a remarkable 0.25dB improvement in PSNR at Urban100$\times$4 while reducing the training budget, stored parameters, and inference cost compared to the existing SRFormer.
翻訳日:2024-08-20 17:44:03 公開日:2024-08-19
# 自律運転のためのマルチエージェント強化学習:サーベイ

Multi-Agent Reinforcement Learning for Autonomous Driving: A Survey ( http://arxiv.org/abs/2408.09675v1 )

ライセンス: Link先を確認
Ruiqi Zhang, Jing Hou, Florian Walter, Shangding Gu, Jiayi Guan, Florian Röhrbein, Yali Du, Panpan Cai, Guang Chen, Alois Knoll, (参考訳) 強化学習(Reinforcement Learning, RL)は、シーケンシャルな意思決定のための強力なツールであり、現実の課題の多くにおいて、人間の能力を上回るパフォーマンスを達成した。 マルチエージェントシステム領域におけるRLの拡張として、マルチエージェントRL(MARL)は制御ポリシーを学ぶだけでなく、環境内の他のすべてのエージェントとの相互作用、異なるシステムコンポーネント間の相互影響、計算資源の分配についても考慮する必要がある。 これにより、アルゴリズム設計の複雑さが増大し、計算資源に対する高い要求が生じる。 同時にシミュレーターは、RLの基本である現実的なデータを得るのに不可欠である。 本稿では,まずシミュレータの一連の指標を提案し,既存のベンチマークの特徴を要約する。 第2に,MARL関連自動運転とインテリジェント交通システムに関する最近の先進的な研究を要約し,基礎知識を思い出す。 具体的には, 環境モデル, 状態表現, 知覚単位, アルゴリズム設計について検討する。 包括的に、オープンな課題と、将来と機会について議論する。 この論文は、研究者がMARL技術を統合し、インテリジェントで自律的な運転にもっと洞察力のあるアイデアをトリガーするのに役立つことを期待している。

Reinforcement Learning (RL) is a potent tool for sequential decision-making and has achieved performance surpassing human capabilities across many challenging real-world tasks. As the extension of RL in the multi-agent system domain, multi-agent RL (MARL) not only need to learn the control policy but also requires consideration regarding interactions with all other agents in the environment, mutual influences among different system components, and the distribution of computational resources. This augments the complexity of algorithmic design and poses higher requirements on computational resources. Simultaneously, simulators are crucial to obtain realistic data, which is the fundamentals of RL. In this paper, we first propose a series of metrics of simulators and summarize the features of existing benchmarks. Second, to ease comprehension, we recall the foundational knowledge and then synthesize the recently advanced studies of MARL-related autonomous driving and intelligent transportation systems. Specifically, we examine their environmental modeling, state representation, perception units, and algorithm design. Conclusively, we discuss open challenges as well as prospects and opportunities. We hope this paper can help the researchers integrate MARL technologies and trigger more insightful ideas toward the intelligent and autonomous driving.
翻訳日:2024-08-20 17:44:03 公開日:2024-08-19
# エネルギー指向型自己監督学習による画像ベースフリーフォーム手書き認証

Image-based Freeform Handwriting Authentication with Energy-oriented Self-Supervised Learning ( http://arxiv.org/abs/2408.09676v1 )

ライセンス: Link先を確認
Jingyao Wang, Luntian Mou, Changwen Zheng, Wen Gao, (参考訳) フリーフォーム手書き認証は、乱雑な手書きデータにおいて、書き方や習慣から人物の身元を確認する。 近年, 詐欺防止, 文化遺産保護など, 様々な分野の貴重な道具として注目されている。 しかし、3つの理由から、現実には依然として挑戦的な課題である。 (一)甚大な損害。 (ii)複素高次元特徴、及び (三)監督の欠如。 これらの問題に対処するため,エネルギー指向の2分岐型自己教師型学習フレームワークであるSherlockNetを提案する。 4つのステージから構成される。 一 前処理 新規なプラグアンドプレイエネルギー指向演算子を用いて原稿をエネルギー分布に変換して騒音の影響を除去すること。 (ii)一般化事前学習:2分岐運動量に基づく適応的コントラスト学習をエネルギー分布で学習し、手書きの高次元的特徴と空間的依存性を扱う。 三 パーソナライズされた微調整:下流タスクから少量のラベル付きデータを用いて学習知識を校正すること。 (四 実用応用:スクランブル、紛失、偽造データから個人手書きを効率よく、便利に識別すること。 この実用性を考慮すると、EN-HAは、データ偽造と実際のアプリケーションにおける重大な損傷をシミュレートする新しいデータセットである。 最後に、EN-HAを含む6つのベンチマークデータセットに対して広範な実験を行い、その結果、SherlockNetの堅牢性と効率が証明された。

Freeform handwriting authentication verifies a person's identity from their writing style and habits in messy handwriting data. This technique has gained widespread attention in recent years as a valuable tool for various fields, e.g., fraud prevention and cultural heritage protection. However, it still remains a challenging task in reality due to three reasons: (i) severe damage, (ii) complex high-dimensional features, and (iii) lack of supervision. To address these issues, we propose SherlockNet, an energy-oriented two-branch contrastive self-supervised learning framework for robust and fast freeform handwriting authentication. It consists of four stages: (i) pre-processing: converting manuscripts into energy distributions using a novel plug-and-play energy-oriented operator to eliminate the influence of noise; (ii) generalized pre-training: learning general representation through two-branch momentum-based adaptive contrastive learning with the energy distributions, which handles the high-dimensional features and spatial dependencies of handwriting; (iii) personalized fine-tuning: calibrating the learned knowledge using a small amount of labeled data from downstream tasks; and (iv) practical application: identifying individual handwriting from scrambled, missing, or forged data efficiently and conveniently. Considering the practicality, we construct EN-HA, a novel dataset that simulates data forgery and severe damage in real applications. Finally, we conduct extensive experiments on six benchmark datasets including our EN-HA, and the results prove the robustness and efficiency of SherlockNet.
翻訳日:2024-08-20 17:44:03 公開日:2024-08-19
# 責任あるコンピューティング研究を育成するための会議の提出とレビュー

Conference Submission and Review Policies to Foster Responsible Computing Research ( http://arxiv.org/abs/2408.09678v1 )

ライセンス: Link先を確認
Lorrie Cranor, Kim Hazelwood, Daniel Lopresti, Amanda Stent, (参考訳) CRA Working Group on Socially Responsible Computingの報告は、コンピューティング会議における倫理的および責任ある研究実践に関するガイドラインを概説している。 主な分野は、害の回避、責任のある脆弱性の開示、倫理委員会レビュー、同意獲得、正確な報告、利害の金銭的衝突の管理、生成的AIの使用である。 報告書は、会議主催者が、責任あるコンピューティング研究と出版を保証するための明確なポリシーを採用する必要性を強調し、これらのガイドラインの進化する性質を、現場における理解と実践として強調している。

This report by the CRA Working Group on Socially Responsible Computing outlines guidelines for ethical and responsible research practices in computing conferences. Key areas include avoiding harm, responsible vulnerability disclosure, ethics board review, obtaining consent, accurate reporting, managing financial conflicts of interest, and the use of generative AI. The report emphasizes the need for conference organizers to adopt clear policies to ensure responsible computing research and publication, highlighting the evolving nature of these guidelines as understanding and practices in the field advance.
翻訳日:2024-08-20 17:44:03 公開日:2024-08-19
# MambaLoc: ステートスペースモデルによる効率的なカメラローカライゼーション

MambaLoc: Efficient Camera Localisation via State Space Model ( http://arxiv.org/abs/2408.09680v1 )

ライセンス: Link先を確認
Jialu Wang, Kaichen Zhou, Andrew Markham, Niki Trigoni, (参考訳) 位置情報は、端末デバイスと自動運転車や拡張現実のようなエッジクラウドIoTシステムの自動化とインテリジェンスにとって重要なものだ。 しかし、トレーニングコストと密集したデータの必要性のため、多様なIoTアプリケーション間で信頼性の高い位置決めを実現することは依然として困難である。 これらの問題に対処するため,我々は選択状態空間(SSM)モデルを視覚的ローカライゼーションに適用し,MambaLocという新しいモデルを導入した。 提案モデルでは, 特徴抽出, 高速計算, メモリ最適化におけるSSMモデルの強みを活かし, パラメータの疎さによる疎データ環境の堅牢性を確保することにより, 例外的な訓練効率を示す。 さらに、選択SSMを利用して非局所ニューラルネットワークの効率的なグローバル特徴抽出能力を暗黙的に実現するGlobal Information Selector (GIS)を提案する。 この設計は、SSMモデルの計算効率と非局所ニューラルネットワークのキャパシティを併用して、最小層で長距離依存関係をキャプチャする。 これにより、GISは、収束を著しく加速しつつ、効果的なグローバル情報取得を可能にする。 公共の屋内および屋外のデータセットを用いた大規模な実験的検証は、まずモデルの有効性を実証し、続いて既存の様々なローカライゼーションモデルによるその汎用性を示す。

Location information is pivotal for the automation and intelligence of terminal devices and edge-cloud IoT systems, such as autonomous vehicles and augmented reality. However, achieving reliable positioning across diverse IoT applications remains challenging due to significant training costs and the necessity of densely collected data. To tackle these issues, we have innovatively applied the selective state space (SSM) model to visual localization, introducing a new model named MambaLoc. The proposed model demonstrates exceptional training efficiency by capitalizing on the SSM model's strengths in efficient feature extraction, rapid computation, and memory optimization, and it further ensures robustness in sparse data environments due to its parameter sparsity. Additionally, we propose the Global Information Selector (GIS), which leverages selective SSM to implicitly achieve the efficient global feature extraction capabilities of Non-local Neural Networks. This design leverages the computational efficiency of the SSM model alongside the Non-local Neural Networks' capacity to capture long-range dependencies with minimal layers. Consequently, the GIS enables effective global information capture while significantly accelerating convergence. Our extensive experimental validation using public indoor and outdoor datasets first demonstrates our model's effectiveness, followed by evidence of its versatility with various existing localization models.
翻訳日:2024-08-20 17:44:03 公開日:2024-08-19
# Rydberg-atom受信機を用いた低周波通信

Low frequency communication based on Rydberg-atom receiver ( http://arxiv.org/abs/2408.09681v1 )

ライセンス: Link先を確認
Yipeng Xie, Mingwei Lei, Meng Shi, (参考訳) 低周波通信は、衛星検出、地雷、災害救助の分野で幅広い応用がある。 近年、ライドバーグ原子センサーが急速に発展し、キャリブレーションのないSIトレーサビリティ、大きな偏光性、遷移双極子モーメントを生かしている。 ライドバーグ原子センサは、直流からTHzまでの電界信号を感度的に検出することができる。 本研究では,Rydberg原子を用いた2つの平行電極板を内包した蒸気セルにおける低周波通信を実証する。 BPSK、OOK、および2FSKの3つの変調は、100kHz付近のRydberg原子受信機による通信に使用される。 我々は、Rydberg原子から受信される変調低周波信号のSNRを様々な放電電圧で測定した。 一方,デモデーション信号のIQコンステレーション図,EVMおよびアイ図を異なるシンボルレートで実証した。 EVMはシンボルレートが2Kbpsで8.8%、シンボルレートが4Kbpsで9.4%、シンボルレートが8Kbpsで13.7%と測定される。 高忠実度デジタルカラー画像伝送により、ピーク信号対雑音比は70dBとなった。 この研究は、Rydberg-atom受信機が低周波通信において微細に機能できることを証明している。

Low frequency communication has a wide range of applications in the fields of satellite detection, underground mining, disaster relief. Rydberg atom sensor has rapidly developed in recent years, capitalizing on its calibration-free SI-traceability, large polarizabilities and transition dipole moments. A Rydberg atom sensor is capable of sensitively detecting electric field signals from DC to THz. In this work, we demonstrate low frequency communication using Rydberg atoms in a vapor cell with two parallel electrode plates inside. Three modulations, BPSK, OOK, and 2FSK, are used for the communication by Rydberg atom receiver near 100kHz. We have measured the SNR of the modulated low frequency signal received by Rydberg atoms at various emission voltages. Meanwhile, we have demonstrated IQ constellation diagram, EVM and eye diagram of the demodulated signal at different symbol rate. The EVM is measured to be 8.8% when the symbol rate is 2Kbps, 9.4% when the symbol rate is 4Kbps, and 13.7% when the symbol rate is 8Kbps. The high-fidelity digital color image transmission resulted in a peak signal-to-noise ratio of 70dB. This study proves that Rydberg-atom receiver can finely work in low frequency communication.
翻訳日:2024-08-20 17:44:03 公開日:2024-08-19
# 大規模言語モデルによるフィールド実験のシミュレーション

Simulating Field Experiments with Large Language Models ( http://arxiv.org/abs/2408.09682v1 )

ライセンス: Link先を確認
Yaoyu Chen, Yuheng Hu, Yingda Lu, (参考訳) 一般的な大規模言語モデル(LLM)は、前例のないコンテンツ生成と推論能力を通じて人間の反応シミュレーションを行うことができる。 しかし、LLMをフィールド実験のシミュレートに利用するか、どのように利用するかは明らかになっていない。 本稿では,主結論の直接予測を可能にするオブザーバモードと,参加者からの応答の分布をシミュレートする参加者モードの2つのプロンプト戦略を提案し,評価する。 提案手法を用いて,INFORMS と MISQ に掲載されている15の文献を精査し,シミュレーション実験結果と実結果との整合性を確認した。 さらに、ジェンダー差や社会規範関連研究など、LLMの業績が低いトピックを同定する。 さらに,本論文で提案する自動標準化ワークフローにより,フィールド実験による論文の大規模スクリーニングが可能となる。 本稿では,フィールド実験をシミュレーションするための大規模言語モデル(LLM)の利用の先駆者であり,実験室環境にのみ焦点をあてた以前の研究の大幅な拡張を示す。 観測者モードと参加者モードという2つの新しいプロンプト戦略を導入することで、複雑なフィールド設定において、結果の予測と参加者応答の再現の両方を行うLLMの能力を実証する。 以上の結果から,特定のシナリオにおいて実際の実験結果と良好な一致を示し,観察モードでは66%の刺激精度が得られた。 本研究は,LLMの潜在的な応用範囲を広げ,高価なフィールド実験に携わる前に研究者を支援する上での有用性を示す。 さらに、フィールド実験を模擬する際、LLMの境界線に光を当て、LLMを実験ツールキットに統合することを検討する研究者にとって注意点となる。

Prevailing large language models (LLMs) are capable of human responses simulation through its unprecedented content generation and reasoning abilities. However, it is not clear whether and how to leverage LLMs to simulate field experiments. In this paper, we propose and evaluate two prompting strategies: the observer mode that allows a direct prediction on main conclusions and the participant mode that simulates distributions of responses from participants. Using this approach, we examine fifteen well cited field experimental papers published in INFORMS and MISQ, finding encouraging alignments between simulated experimental results and the actual results in certain scenarios. We further identify topics of which LLMs underperform, including gender difference and social norms related research. Additionally, the automatic and standardized workflow proposed in this paper enables the possibility of a large-scale screening of more papers with field experiments. This paper pioneers the utilization of large language models (LLMs) for simulating field experiments, presenting a significant extension to previous work which focused solely on lab environments. By introducing two novel prompting strategies, observer and participant modes, we demonstrate the ability of LLMs to both predict outcomes and replicate participant responses within complex field settings. Our findings indicate a promising alignment with actual experimental results in certain scenarios, achieving a stimulation accuracy of 66% in observer mode. This study expands the scope of potential applications for LLMs and illustrates their utility in assisting researchers prior to engaging in expensive field experiments. Moreover, it sheds light on the boundaries of LLMs when used in simulating field experiments, serving as a cautionary note for researchers considering the integration of LLMs into their experimental toolkit.
翻訳日:2024-08-20 17:44:03 公開日:2024-08-19
# 自由パラフェルミオン解法のためのグラフ理論フレームワーク

A Graph-Theoretic Framework for Free-Parafermion Solvability ( http://arxiv.org/abs/2408.09684v1 )

ライセンス: Link先を確認
Ryan L. Mann, Samuel J. Elman, David R. Wood, Adrian Chapman, (参考訳) 量子スピン系が、フラストレーショングラフが向き付けられた差分グラフである場合、正確に自由パラフェミオン解を持つことを示す。 さらに, モデルのフラストレーショングラフをスイッチング操作によってディパス指向にすることができるならば, モデルの可積分性は, 可換な独立な設定電荷の族が存在するという意味で示される。 さらに,これが可能であるかどうかを判断するための効率的なアルゴリズムを確立する。 我々の性格化は自由フェルミオン可解性に対して与えられるものを拡張します。 最後に、この結果を用いて3つのクディットスピンモデルを解く。

We show that a quantum spin system has an exact free-parafermion solution if its frustration graph is an oriented indifference graph. Further, we show that if the frustration graph of a model can be dipath oriented via switching operations, then the model is integrable in the sense that there is a family of commuting independent set charges. Additionally, we establish an efficient algorithm for deciding whether this is possible. Our characterisation extends that given for free-fermion solvability. Finally, we apply our results to solve three qudit spin models.
翻訳日:2024-08-20 17:44:03 公開日:2024-08-19
# 三角法と自己双対法

Triorthogonal Codes and Self-dual Codes ( http://arxiv.org/abs/2408.09685v1 )

ライセンス: Link先を確認
Minjia Shi, Haodong Lu, Jon-Lark Kim, Patrick Sole, (参考訳) 三角行列は量子情報理論において、魔法状態の蒸留に関連して導入された(Bravyi and Haah (2012))。 二進自己双対符号から二進直交行列を構成するアルゴリズムを与える。 さらに、この設定を、短縮および拡張の古典的な符号化技法として一般化する。 単純な伝搬ルールも提供します。

Triorthogonal matrices were introduced in Quantum Information Theory in connection with distillation of magic states (Bravyi and Haah (2012)). We give an algorithm to construct binary triorthogonal matrices from binary self-dual codes. Further, we generalize to this setting the classical coding techniques of shortening and extending. We also give some simple propagation rules.
翻訳日:2024-08-20 17:34:18 公開日:2024-08-19
# TESL-Net: 正確な皮膚病変分割のためのトランスフォーマー強化CNN

TESL-Net: A Transformer-Enhanced CNN for Accurate Skin Lesion Segmentation ( http://arxiv.org/abs/2408.09687v1 )

ライセンス: Link先を確認
Shahzaib Iqbal, Muhammad Zeeshan, Mehwish Mehmood, Tariq M. Khan, Imran Razzak, (参考訳) 皮膚癌の早期発見は皮膚病変の皮膚内視鏡像の正確な分画に依存している。 しかし, この課題は, 病変の異常な形状, 鋭い境界の欠如, マーカー色や毛包などの人工物の存在などにより困難である。 メラノーマセグメンテーションの最近の手法はU-Netと完全接続ネットワーク(FCN)である。 これらのニューラルネットワークモデルの深さが増加するにつれて、消滅する勾配問題やパラメータの冗長性といった問題に直面し、セグメンテーションモデルのJaccardインデックスが低下する可能性がある。 本研究では,皮膚病変のセグメンテーションのためのTESL-Netというネットワークを導入した。 提案するTESL-Netは、CNNエンコーダデコーダアーキテクチャの局所的特徴と、双方向畳み込み長短メモリ(Bi-ConvLSTM)ネットワークとSwinトランスフォーマーを用いて、長距離および時間的依存関係を結合したハイブリッドネットワークを含む。 これにより、モデルが時間とともにセグメンテーションの不確実性を考慮し、データ内のコンテキストチャネル関係をキャプチャすることが可能になる。 皮膚病変の分画に対するTESL-Net(ISIC 2016, ISIC 2017, ISIC 2018)の有用性を検討した。 TESL-Netは,経験的結果によって示されるJaccard指数が著しく高められたことにより,最先端の性能を達成する。

Early detection of skin cancer relies on precise segmentation of dermoscopic images of skin lesions. However, this task is challenging due to the irregular shape of the lesion, the lack of sharp borders, and the presence of artefacts such as marker colours and hair follicles. Recent methods for melanoma segmentation are U-Nets and fully connected networks (FCNs). As the depth of these neural network models increases, they can face issues like the vanishing gradient problem and parameter redundancy, potentially leading to a decrease in the Jaccard index of the segmentation model. In this study, we introduced a novel network named TESL-Net for the segmentation of skin lesions. The proposed TESL-Net involves a hybrid network that combines the local features of a CNN encoder-decoder architecture with long-range and temporal dependencies using bi-convolutional long-short-term memory (Bi-ConvLSTM) networks and a Swin transformer. This enables the model to account for the uncertainty of segmentation over time and capture contextual channel relationships in the data. We evaluated the efficacy of TESL-Net in three commonly used datasets (ISIC 2016, ISIC 2017, and ISIC 2018) for the segmentation of skin lesions. The proposed TESL-Net achieves state-of-the-art performance, as evidenced by a significantly elevated Jaccard index demonstrated by empirical results.
翻訳日:2024-08-20 17:34:18 公開日:2024-08-19
# 耳に響かない眼の録音:ASR文字の文脈的音声から文字への変換

Recording for Eyes, Not Echoing to Ears: Contextualized Spoken-to-Written Conversion of ASR Transcripts ( http://arxiv.org/abs/2408.09688v1 )

ライセンス: Link先を確認
Jiaqing Liu, Chong Deng, Qinglin Zhang, Qian Chen, Hai Yu, Wen Wang, (参考訳) 自動音声認識(ASR)文字起こしは、認識誤りや不一致、非文法文、不完全文などの様々な言語現象を呈し、読みやすさの低下に悩まされている。 可読性を向上させるため,ASRと文法の誤りに対処し,文脈や補助情報を利用してテキストを形式形式に変換するコンテキスト対応型音声変換(CoS2W)タスクを提案する。 このタスクは、Large Language Models(LLM)のコンテキスト内学習機能と自然に一致します。 各種LLMの総合的な比較を容易にするため,文書レベルでの ASR Transcripts Benchmark (SWAB) データセットのSpoken-to-Written変換を構築した。 SWABを用いて,異なる粒度レベルがCoS2Wの性能に与える影響を調べた。 実験結果から,LLMはCoS2Wタスク,特に文法性や形式性において優れる可能性が示唆された。 さらに,LLMを評価対象として用いることの有効性について検討し,信頼性と形式性の評価において人間評価と強い相関性を示し,その信頼性をCoS2Wタスクで検証する。

Automatic Speech Recognition (ASR) transcripts exhibit recognition errors and various spoken language phenomena such as disfluencies, ungrammatical sentences, and incomplete sentences, hence suffering from poor readability. To improve readability, we propose a Contextualized Spoken-to-Written conversion (CoS2W) task to address ASR and grammar errors and also transfer the informal text into the formal style with content preserved, utilizing contexts and auxiliary information. This task naturally matches the in-context learning capabilities of Large Language Models (LLMs). To facilitate comprehensive comparisons of various LLMs, we construct a document-level Spoken-to-Written conversion of ASR Transcripts Benchmark (SWAB) dataset. Using SWAB, we study the impact of different granularity levels on the CoS2W performance, and propose methods to exploit contexts and auxiliary information to enhance the outputs. Experimental results reveal that LLMs have the potential to excel in the CoS2W task, particularly in grammaticality and formality, our methods achieve effective understanding of contexts and auxiliary information by LLMs. We further investigate the effectiveness of using LLMs as evaluators and find that LLM evaluators show strong correlations with human evaluations on rankings of faithfulness and formality, which validates the reliability of LLM evaluators for the CoS2W task.
翻訳日:2024-08-20 17:34:18 公開日:2024-08-19
# LightWeather: 効率的でスケーラブルなグローバル気象予報のための絶対位置エンコーディング

LightWeather: Harnessing Absolute Positional Encoding to Efficient and Scalable Global Weather Forecasting ( http://arxiv.org/abs/2408.09695v1 )

ライセンス: Link先を確認
Yisong Fu, Fei Wang, Zezhi Shao, Chengqing Yu, Yujie Li, Zhao Chen, Zhulin An, Yongjun Xu, (参考訳) 近年,トランスフォーマーは長期の空間的時間的相関を捉えた気象予報の分野で注目を集めている。 しかし、それらの複雑なアーキテクチャは、パラメータ数が大きくなり、訓練時間が延長され、実践的な応用とスケーラビリティがグローバルスケールの予測に制限される。 本稿では,正確な天気予報の鍵となる要素を探究し,より効率的なソリューションを設計することを目的とする。 興味深いことに、我々の経験的発見は、絶対的な位置符号化がトランスフォーマーベースの天気予報モデルで実際に機能していることを示し、注意機構のない時空間相関を明示的にモデル化することができる。 理論的には、その効果は地理的座標と実世界の時間的特徴の統合に起因しており、これは本質的に気象の力学と関係している。 そこで本研究では,測候衛星を用いた地球規模の天気予報のための軽量かつ効果的なモデルLightWeatherを提案する。 我々は、Transformerの他のコンポーネントの代わりに、絶対位置符号化と単純なMPPを用いる。 30k以下のパラメータと1時間未満のトレーニング時間で、LightWeatherは、他の高度なDLメソッドと比較して、グローバル気象データセットの最先端のパフォーマンスを達成する。 その結果、複雑なアーキテクチャよりも空間的時間的知識の統合が優れていることが示され、天気予報におけるDLの新たな洞察がもたらされた。

Recently, Transformers have gained traction in weather forecasting for their capability to capture long-term spatial-temporal correlations. However, their complex architectures result in large parameter counts and extended training times, limiting their practical application and scalability to global-scale forecasting. This paper aims to explore the key factor for accurate weather forecasting and design more efficient solutions. Interestingly, our empirical findings reveal that absolute positional encoding is what really works in Transformer-based weather forecasting models, which can explicitly model the spatial-temporal correlations even without attention mechanisms. We theoretically prove that its effectiveness stems from the integration of geographical coordinates and real-world time features, which are intrinsically related to the dynamics of weather. Based on this, we propose LightWeather, a lightweight and effective model for station-based global weather forecasting. We employ absolute positional encoding and a simple MLP in place of other components of Transformer. With under 30k parameters and less than one hour of training time, LightWeather achieves state-of-the-art performance on global weather datasets compared to other advanced DL methods. The results underscore the superiority of integrating spatial-temporal knowledge over complex architectures, providing novel insights for DL in weather forecasting.
翻訳日:2024-08-20 17:34:18 公開日:2024-08-19
# マルチモーダルシーケンスレコメンデーションのためのマルチモーダル大言語モデルのハーネス化

Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation ( http://arxiv.org/abs/2408.09698v1 )

ライセンス: Link先を確認
Yuyang Ye, Zhi Zheng, Yishan Shen, Tianshu Wang, Hengruo Zhang, Peijun Zhu, Runlong Yu, Kai Zhang, Hui Xiong, (参考訳) 近年のLarge Language Models (LLMs) の進歩はレコメンデーションシステム (RSs) の分野で大きな可能性を示している。 既存の研究の多くは、ユーザの行動ログをテキストプロンプトに変換し、レコメンデーションタスクにLLMを有効にするためのプロンプトチューニングのようなテクニックを活用することに重点を置いている。 一方、近年、画像、テキスト、その他のソースからのデータをモダリティ融合技術を用いて統合するマルチモーダルレコメンデーションシステムにおいて、研究の関心が高まっている。 これは、テキストモダリティ情報のみに依存する既存のLLMベースのレコメンデーションパラダイムに、新たな課題をもたらす。 さらに、マルチモーダル入力を処理できるマルチモーダル大言語モデル(MLLM)が登場しているが、マルチモーダルレコメンデーション機能を備えたMLLMの装備方法はまだ明らかになっていない。 本稿では,Multimodal Large Language Model-enhanced Sequential Multimodal Recommendation (MLLM-MSR)モデルを提案する。 動的ユーザの嗜好を捉えるために,2段階のユーザ選好要約法を設計する。 具体的には、まずMLLMをベースとしたアイテムサマリザを用いて、与えられた画像の特徴を抽出し、画像からテキストに変換する。 次に,LLMに基づくユーザ・サマリエーザに基づいて,ユーザの嗜好の動的変化を捉えるために,繰り返しユーザ・プライオリティ・サマリゼーション・ジェネレーション・パラダイムを用いる。 最後に,マルチモーダルレコメンデーションタスクにおけるMLLMを有効にするために,Supervised Fine-Tuning(SFT)技術を用いてMLLMベースのレコメンデータを微調整することを提案する。 MLLM-MSRの有効性を検証し、ユーザの好みの進化するダイナミクスを捉え、適応する優れた能力を示す。

Recent advances in Large Language Models (LLMs) have demonstrated significant potential in the field of Recommendation Systems (RSs). Most existing studies have focused on converting user behavior logs into textual prompts and leveraging techniques such as prompt tuning to enable LLMs for recommendation tasks. Meanwhile, research interest has recently grown in multimodal recommendation systems that integrate data from images, text, and other sources using modality fusion techniques. This introduces new challenges to the existing LLM-based recommendation paradigm which relies solely on text modality information. Moreover, although Multimodal Large Language Models (MLLMs) capable of processing multi-modal inputs have emerged, how to equip MLLMs with multi-modal recommendation capabilities remains largely unexplored. To this end, in this paper, we propose the Multimodal Large Language Model-enhanced Sequential Multimodal Recommendation (MLLM-MSR) model. To capture the dynamic user preference, we design a two-stage user preference summarization method. Specifically, we first utilize an MLLM-based item-summarizer to extract image feature given an item and convert the image into text. Then, we employ a recurrent user preference summarization generation paradigm to capture the dynamic changes in user preferences based on an LLM-based user-summarizer. Finally, to enable the MLLM for multi-modal recommendation task, we propose to fine-tune a MLLM-based recommender using Supervised Fine-Tuning (SFT) techniques. Extensive evaluations across various datasets validate the effectiveness of MLLM-MSR, showcasing its superior ability to capture and adapt to the evolving dynamics of user preferences.
翻訳日:2024-08-20 17:34:18 公開日:2024-08-19
# 言語ギャップのブリッジ:ゼロショットクロスリンガル転送によるLLMにおける多言語プロンプトベースコード生成の強化

Bridging the Language Gap: Enhancing Multilingual Prompt-Based Code Generation in LLMs via Zero-Shot Cross-Lingual Transfer ( http://arxiv.org/abs/2408.09701v1 )

ライセンス: Link先を確認
Mingda Li, Abhijit Mishra, Utkarsh Mujumdar, (参考訳) プログラムコード生成におけるLarge Language Models (LLMs)の使用は注目されているが、非英語によるバイアスや制限は、世界的な傾きに挑戦している。 本稿では,多言語プロンプトベースのコード生成の複雑さについて検討する。 CodeLLaMa や CodeGemma など LLM の評価では,非英語のプロンプトに対するコード品質の相違が顕著である。 そこで我々は, RAER artetxe2019のような多言語エンコーダを多言語埋め込みをLLMのトークン空間にマッピングするために, ニューラルプロジェクション技術を用いてゼロショットのクロスランガルアプローチを提案する。 この方法は、英語のデータのみをトレーニングし、他の言語に効果的にスケールする必要がある。 翻訳および品質チェックされたMBPPデータセットの結果は、コード品質を大幅に改善したことを示している。 本研究は,LLMを多言語機能で活用し,プログラミングにおける多様な言語スペクトルをサポートすることによって,より包括的なコード生成の展望を促進する。

The use of Large Language Models (LLMs) for program code generation has gained substantial attention, but their biases and limitations with non-English prompts challenge global inclusivity. This paper investigates the complexities of multilingual prompt-based code generation. Our evaluations of LLMs, including CodeLLaMa and CodeGemma, reveal significant disparities in code quality for non-English prompts; we also demonstrate the inadequacy of simple approaches like prompt translation, bootstrapped data augmentation, and fine-tuning. To address this, we propose a zero-shot cross-lingual approach using a neural projection technique, integrating a cross-lingual encoder like LASER artetxe2019massively to map multilingual embeddings from it into the LLM's token space. This method requires training only on English data and scales effectively to other languages. Results on a translated and quality-checked MBPP dataset show substantial improvements in code quality. This research promotes a more inclusive code generation landscape by empowering LLMs with multilingual capabilities to support the diverse linguistic spectrum in programming.
翻訳日:2024-08-20 17:34:18 公開日:2024-08-19
# 拡散誘導逆レンダリングによるフォトリアリスティック物体挿入

Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering ( http://arxiv.org/abs/2408.09702v1 )

ライセンス: Link先を確認
Ruofan Liang, Zan Gojcic, Merlin Nimier-David, David Acuna, Nandita Vijaykumar, Sanja Fidler, Zian Wang, (参考訳) 現実世界のシーンの画像に仮想オブジェクトを正しく挿入するには、シーンの照明、幾何学、材料、および画像形成プロセスの深い理解が必要である。 近年の大規模拡散モデルでは、強い生成性や塗装能力が示されているが、現在のモデルでは、合成物体の同一性や詳細を保ちながら一貫した照明効果(陰影、明るい反射など)を生成するのに十分な「理解」が得られていない。 本稿では,物理ベースの逆レンダリングプロセスへのガイダンスとして,パーソナライズされた大規模拡散モデルを提案する。 本手法は,シーンライティングとトーンマッピングパラメータを復元し,任意の仮想オブジェクトの光リアルな構成を室内や屋外のシーンの単一フレームやビデオで実現する。 物理的なパイプラインにより、自動材料とトーンマッピングの洗練が可能になる。

The correct insertion of virtual objects in images of real-world scenes requires a deep understanding of the scene's lighting, geometry and materials, as well as the image formation process. While recent large-scale diffusion models have shown strong generative and inpainting capabilities, we find that current models do not sufficiently "understand" the scene shown in a single picture to generate consistent lighting effects (shadows, bright reflections, etc.) while preserving the identity and details of the composited object. We propose using a personalized large diffusion model as guidance to a physically based inverse rendering process. Our method recovers scene lighting and tone-mapping parameters, allowing the photorealistic composition of arbitrary virtual objects in single frames or videos of indoor or outdoor scenes. Our physically based pipeline further enables automatic materials and tone-mapping refinement.
翻訳日:2024-08-20 17:34:18 公開日:2024-08-19
# 予測のための部分多変量モデル

Partial-Multivariate Model for Forecasting ( http://arxiv.org/abs/2408.09703v1 )

ライセンス: Link先を確認
Jaehoon Lee, Hankook Lee, Sungik Choi, Sungjun Cho, Moontae Lee, (参考訳) 複数の時系列特徴を含む予測問題を解く際、既存のアプローチは、特徴間の情報を利用するかどうかによって、しばしば2つの極端なカテゴリに分類される:単変量モデルと完全多変量モデル。 情報を無視した単変数の場合とは異なり、完全多変数モデルは完全な特徴セット間の関係を計算する。 しかし、付加的な情報を活用する潜在的な利点にもかかわらず、完全多変量モデルは時に単変量モデルに劣る。 そこで本研究では,ニューラルネットワークがすべての特徴のサブセット内の部分的関係,すなわち部分的関係のみをキャプチャする部分的多変量モデル(partial-Multivariate model)と呼ばれるモデルを導入することによって,この2つの中間領域を探索することを目的とする。 そこで本研究では,トランスフォーマーを用いた部分多変量モデルPMformerとそのトレーニングアルゴリズムを提案する。 我々はPMformerが様々な単変量モデルと完全多変量モデルより優れており、その優越性に対する理論的理論的根拠と経験的分析を提供することを示した。 また、PMformerの推論手法を提案することにより、予測精度をさらに向上する。 最後に、PMformerの他の利点として、機能不足による効率性と堅牢性を強調します。

When solving forecasting problems including multiple time-series features, existing approaches often fall into two extreme categories, depending on whether to utilize inter-feature information: univariate and complete-multivariate models. Unlike univariate cases which ignore the information, complete-multivariate models compute relationships among a complete set of features. However, despite the potential advantage of leveraging the additional information, complete-multivariate models sometimes underperform univariate ones. Therefore, our research aims to explore a middle ground between these two by introducing what we term Partial-Multivariate models where a neural network captures only partial relationships, that is, dependencies within subsets of all features. To this end, we propose PMformer, a Transformer-based partial-multivariate model, with its training algorithm. We demonstrate that PMformer outperforms various univariate and complete-multivariate models, providing a theoretical rationale and empirical analysis for its superiority. Additionally, by proposing an inference technique for PMformer, the forecasting accuracy is further enhanced. Finally, we highlight other advantages of PMformer: efficiency and robustness under missing features.
翻訳日:2024-08-20 17:34:18 公開日:2024-08-19
# コミュニティ中心グラフの学習

Community-Centric Graph Unlearning ( http://arxiv.org/abs/2408.09705v1 )

ライセンス: Link先を確認
Yi Li, Shichao Zhang, Guixian Zhang, Debo Cheng, (参考訳) グラフアンラーニング技術は、‘忘れられる権利’の出現と、人工知能のプライバシとセキュリティに対する懸念の高まりから、ますます重要になっている。 グラフアンラーニングは、グラフニューラルネットワーク(GNN)における特定のデータの影響を迅速に排除することを目的としている。 しかし、既存の決定論的グラフアンラーニングフレームワークのほとんどは、バランスの取れた分割・サブモデルトレーニング・アグリゲーションパラダイムに従っており、結果としてサブグラフ近傍と冗長な未学習パラメータ計算の間の構造情報が欠如している。 この問題に対処するために、新しいグラフ構造マッピングアンラーニングパラダイム(GSMU)と、コミュニティ中心グラフ消去(CGE)という新しい手法を提案する。 CGEは、コミュニティのサブグラフをノードにマッピングすることで、少ないマップ付きグラフ内でノードレベルの未学習操作の再構築を可能にする。 CGEは、トレーニングデータの量と未学習パラメータの数の両方を指数関数的に削減する。 5つの実世界のデータセットと3つの広く使われているGNNバックボーンで実施された大規模な実験は、我々のCGE法の性能と効率を検証し、グラフアンラーニングの分野におけるその可能性を強調した。

Graph unlearning technology has become increasingly important since the advent of the `right to be forgotten' and the growing concerns about the privacy and security of artificial intelligence. Graph unlearning aims to quickly eliminate the effects of specific data on graph neural networks (GNNs). However, most existing deterministic graph unlearning frameworks follow a balanced partition-submodel training-aggregation paradigm, resulting in a lack of structural information between subgraph neighborhoods and redundant unlearning parameter calculations. To address this issue, we propose a novel Graph Structure Mapping Unlearning paradigm (GSMU) and a novel method based on it named Community-centric Graph Eraser (CGE). CGE maps community subgraphs to nodes, thereby enabling the reconstruction of a node-level unlearning operation within a reduced mapped graph. CGE makes the exponential reduction of both the amount of training data and the number of unlearning parameters. Extensive experiments conducted on five real-world datasets and three widely used GNN backbones have verified the high performance and efficiency of our CGE method, highlighting its potential in the field of graph unlearning.
翻訳日:2024-08-20 17:34:18 公開日:2024-08-19
# MePT:視覚言語モデルのためのマルチ表現ガイド型プロンプトチューニング

MePT: Multi-Representation Guided Prompt Tuning for Vision-Language Model ( http://arxiv.org/abs/2408.09706v1 )

ライセンス: Link先を確認
Xinyang Wang, Yi Yang, Minfeng Zhu, Kecheng Zheng, Shi Liu, Wei Chen, (参考訳) 近年のVLM(Pre-trained Vision-Language Models)の進歩は、これらのモデルを広範囲の下流タスクに適用するための迅速なチューニングの可能性を強調している。 しかしながら、既存のプロンプトチューニング手法は、通常、イメージを単一の表現にマッピングする。 この制限に対処するために、モデルの一般化能力に対する視覚的プロンプトの影響を調査し、Multi-Representation Guided Prompt Tuning (MePT)と呼ばれる新しい手法を導入する。 特に、MePTは、多種多様な有能な領域に焦点を当てた3分岐フレームワークを採用し、堅牢な一般化に欠かせない画像内の固有の知識を明らかにする。 さらに、これらの多目的画像表現を統合するために効率的な自己アンサンブル技術を用いて、MePTが全ての条件、限界、きめ細かな分布を効果的に学習できるようにする。 我々は,MePTの有効性を広範囲な実験により検証し,ベース・ツー・ノーベル・クラス予測とドメイン一般化タスクの両方において有意な改善が示された。

Recent advancements in pre-trained Vision-Language Models (VLMs) have highlighted the significant potential of prompt tuning for adapting these models to a wide range of downstream tasks. However, existing prompt tuning methods typically map an image to a single representation, limiting the model's ability to capture the diverse ways an image can be described. To address this limitation, we investigate the impact of visual prompts on the model's generalization capability and introduce a novel method termed Multi-Representation Guided Prompt Tuning (MePT). Specifically, MePT employs a three-branch framework that focuses on diverse salient regions, uncovering the inherent knowledge within images which is crucial for robust generalization. Further, we employ efficient self-ensemble techniques to integrate these versatile image representations, allowing MePT to learn all conditional, marginal, and fine-grained distributions effectively. We validate the effectiveness of MePT through extensive experiments, demonstrating significant improvements on both base-to-novel class prediction and domain generalization tasks.
翻訳日:2024-08-20 17:34:18 公開日:2024-08-19
# 病理組織像分類のためのデータセット蒸留法

Dataset Distillation for Histopathology Image Classification ( http://arxiv.org/abs/2408.09709v1 )

ライセンス: Link先を確認
Cong Cong, Shiyu Xuan, Sidong Liu, Maurice Pagnucco, Shiliang Zhang, Yang Song, (参考訳) ディープニューラルネットワーク(DNN)は、病理組織像解析の分野で顕著な成功を収めている。 一方、大規模なモデルと広範囲なデータセットを採用する現代の傾向は、大規模なデータセットを凝縮した合成サンプル集合に圧縮することによるデータセット蒸留の重要性を強調し、トレーニング効率の向上と下流アプリケーションの合理化に明確な利点をもたらす。 本研究では,組織像データセット(Histo-DD)に適した新しいデータセット蒸留アルゴリズムを提案する。 このような統合は、しばしば高色の不均一性によって特徴づけられる病理像との互換性を著しく向上させることができる。 提案アルゴリズムの有効性を総合的に評価し, パッチレベルとスライドレベルの両方の分類タスクにおいて, 組織学的サンプルを生成する。 実験結果は、Camelyon16, TCGA-IDH, UniToPathを含む3つのWSIデータセット上で実施され、提案したHisto-DDは、以前のコアセット選択やパッチサンプリング方法よりも、より有益な合成パッチを生成することができることを示した。 さらに、これらの合成サンプルは、識別情報を保存し、トレーニングを著しく削減し、アーキテクチャに依存しない特性を示すことができる。 これらの利点は、合成サンプルが大規模データセットの代替となることを示唆している。

Deep neural networks (DNNs) have exhibited remarkable success in the field of histopathology image analysis. On the other hand, the contemporary trend of employing large models and extensive datasets has underscored the significance of dataset distillation, which involves compressing large-scale datasets into a condensed set of synthetic samples, offering distinct advantages in improving training efficiency and streamlining downstream applications. In this work, we introduce a novel dataset distillation algorithm tailored for histopathology image datasets (Histo-DD), which integrates stain normalisation and model augmentation into the distillation progress. Such integration can substantially enhance the compatibility with histopathology images that are often characterised by high colour heterogeneity. We conduct a comprehensive evaluation of the effectiveness of the proposed algorithm and the generated histopathology samples in both patch-level and slide-level classification tasks. The experimental results, carried out on three publicly available WSI datasets, including Camelyon16, TCGA-IDH, and UniToPath, demonstrate that the proposed Histo-DD can generate more informative synthetic patches than previous coreset selection and patch sampling methods. Moreover, the synthetic samples can preserve discriminative information, substantially reduce training efforts, and exhibit architecture-agnostic properties. These advantages indicate that synthetic samples can serve as an alternative to large-scale datasets.
翻訳日:2024-08-20 17:34:18 公開日:2024-08-19
# ハイデン:医療画像の高ボリック密度表現と報告

HYDEN: Hyperbolic Density Representations for Medical Images and Reports ( http://arxiv.org/abs/2408.09715v1 )

ライセンス: Link先を確認
Zhi Qiao, Linbin Han, Xiantong Zhen, Jia-Hong Gao, Zhen Qian, (参考訳) 画像とテキストの係り受け関係から、双曲点ベクトル埋め込みは双曲空間の階層的モデリングの利点を生かし、視覚意味表現学習に利用されてきた。 しかし、ポイントベクトル埋め込みアプローチは、画像が複数の解釈を持つ可能性があるセマンティック不確実性の問題に対処できず、テキストは異なる画像を参照することができる。 そこで我々は, 特定の医療領域データに適した, ハイパーボリック密度埋め込みに基づく画像テキスト表現学習手法である \textbf{HYDEN} を提案する。 本手法は,ハイパーボリックな擬ガウス分布を用いて,画像のグローバルな特徴,画像のテキスト特徴と双曲空間の密度特徴とをマッピングする。 カプセル化損失関数を用いて画像-テキスト密度分布間の部分順序関係をモデル化する。 実験により, ゼロショットタスクと異なるデータセット間のベースライン手法と比較して, 提案手法の解釈可能性, 性能に優れることを示した。

In light of the inherent entailment relations between images and text, hyperbolic point vector embeddings, leveraging the hierarchical modeling advantages of hyperbolic space, have been utilized for visual semantic representation learning. However, point vector embedding approaches fail to address the issue of semantic uncertainty, where an image may have multiple interpretations, and text may refer to different images, a phenomenon particularly prevalent in the medical domain. Therefor, we propose \textbf{HYDEN}, a novel hyperbolic density embedding based image-text representation learning approach tailored for specific medical domain data. This method integrates text-aware local features alongside global features from images, mapping image-text features to density features in hyperbolic space via using hyperbolic pseudo-Gaussian distributions. An encapsulation loss function is employed to model the partial order relations between image-text density distributions. Experimental results demonstrate the interpretability of our approach and its superior performance compared to the baseline methods across various zero-shot tasks and different datasets.
翻訳日:2024-08-20 17:34:18 公開日:2024-08-19
# RENAS: 識別子の共改名オプションの優先順位付け

RENAS: Prioritizing Co-Renaming Opportunities of Identifiers ( http://arxiv.org/abs/2408.09716v1 )

ライセンス: Link先を確認
Naoki Doi, Yuki Osumi, Shinpei Hayashi, (参考訳) ソースコード内の識別子をリネームすることは、ソフトウェア開発において一般的なリファクタリングタスクである。 識別子をリネームする場合、リネームに関連する同じ命名意図を持つ単語を含む他の識別子を同時にリネームする必要がある。 しかし、これらの関連する識別子を特定することは困難である。 この手法はJavaアプリケーションで同時に名前を変えなければならない関連する識別子を特定し、推奨するものである。 RENASは、識別子間の関係と類似性に基づいて、候補を改名するための優先度スコアを決定する。 ソースコードに類似した語彙や関係を持つ識別子は、しばしば一緒に改名されるため、これらの因子に基づいて優先度スコアが決定される。 優先度の高い識別器は、一緒に改名することが推奨される。 変更履歴から抽出され手動で検証された実リネームインスタンスの評価を通じて、RENASは既存のリネーム推奨手法と比較してF1尺度を0.11以上改善した。

Renaming identifiers in source code is a common refactoring task in software development. When renaming an identifier, other identifiers containing words with the same naming intention related to the renaming should be renamed simultaneously. However, identifying these related identifiers can be challenging. This study introduces a technique called RENAS, which identifies and recommends related identifiers that should be renamed simultaneously in Java applications. RENAS determines priority scores for renaming candidates based on the relationships and similarities among identifiers. Since identifiers that have a relationship and/or have similar vocabulary in the source code are often renamed together, their priority scores are determined based on these factors. Identifiers with higher priority are recommended to be renamed together. Through an evaluation involving real renaming instances extracted from change histories and validated manually, RENAS demonstrated an improvement in the F1-measure by more than 0.11 compared with existing renaming recommendation approaches.
翻訳日:2024-08-20 17:34:18 公開日:2024-08-19
# SEMDR:法規追跡による法定判断予測のための意味認識デュアルエンコーダモデル

SEMDR: A Semantic-Aware Dual Encoder Model for Legal Judgment Prediction with Legal Clue Tracing ( http://arxiv.org/abs/2408.09717v1 )

ライセンス: Link先を確認
Pengjie Liu, Wang Zhang, Yulong Ding, Xuefeng Zhang, Shuang-Hua Yang, (参考訳) 法的判断予測(LJP)は、刑事事実の説明に基づいて法的判断を形成することを目的としている。 しかし、研究者は強盗や盗難などの紛らわしい事件を分類するのに苦労し、類似犯罪間のニュアンスを識別するためにLJPモデルが必要である。 既存の手法は通常、より正確な法的判断予測を行うために必要な意味的な法的手がかりを拾うために手作りの特徴を設計する。 本稿では,犯罪事実と楽器間の微妙な意味的推論を行うための,新たな法的な手がかり追跡機構を設計するセマンティック・アウェア・デュアルエンコーダ・モデルを提案する。 我々の法的な手がかり追跡メカニズムは3つの理由から成り立っている。 1)犯罪記述から犯罪事実を抽出することを目的としたレキシコントレーシング 2) 混乱した犯罪事実をよりよく表現するために、言語モデルを対照的に訓練する文言表現学習 3)マルチファクト推論(Multi-Fact Reasoning,Multi-Fact Reasoning)は,事実ノード間の意味的手がかりを伝達し,犯罪事実間の微妙な違いを捉える理由グラフを構築する。 我々の法的な手がかり追跡メカニズムは、SEMDRがCAIL2018データセットの最先端を達成し、いくつかのシナリオでその進歩を示すのに役立ちます。 実験の結果,SEMDRは犯罪事実のより均一で優れた表現を学習する能力を持つことが明らかとなった。 すべてのコードはGitHubからリリースされる。

Legal Judgment Prediction (LJP) aims to form legal judgments based on the criminal fact description. However, researchers struggle to classify confusing criminal cases, such as robbery and theft, which requires LJP models to distinguish the nuances between similar crimes. Existing methods usually design handcrafted features to pick up necessary semantic legal clues to make more accurate legal judgment predictions. In this paper, we propose a Semantic-Aware Dual Encoder Model (SEMDR), which designs a novel legal clue tracing mechanism to conduct fine-grained semantic reasoning between criminal facts and instruments. Our legal clue tracing mechanism is built from three reasoning levels: 1) Lexicon-Tracing, which aims to extract criminal facts from criminal descriptions; 2) Sentence Representation Learning, which contrastively trains language models to better represent confusing criminal facts; 3) Multi-Fact Reasoning, which builds a reasons graph to propagate semantic clues among fact nodes to capture the subtle difference among criminal facts. Our legal clue tracing mechanism helps SEMDR achieve state-of-the-art on the CAIL2018 dataset and shows its advance in few-shot scenarios. Our experiments show that SEMDR has a strong ability to learn more uniform and distinguished representations for criminal facts, which helps to make more accurate predictions on confusing criminal cases and reduces the model uncertainty during making judgments. All codes will be released via GitHub.
翻訳日:2024-08-20 17:34:18 公開日:2024-08-19
# ガウス混合モデルにおける確認バイアス

Confirmation Bias in Gaussian Mixture Models ( http://arxiv.org/abs/2408.09718v1 )

ライセンス: Link先を確認
Amnon Balanov, Tamir Bendory, Wasim Huleihel, (参考訳) 確認バイアス(英: confirmation bias)とは、自分の先入観と一致する方法で情報を解釈する傾向であり、科学的研究に大きな影響を及ぼし、観測データがそれらをサポートしない場合でも、研究者の仮説を反映する結論となる。 この問題は、低温電子顕微鏡のような非常にノイズの多い観測を含む科学分野において特に重要である。 本研究ではガウス混合モデルにおける確認バイアスについて検討する。 ある科学者チームは、ガウスの混合モデルから得られたデータを、既知の信号(仮説)をセントロイドとして分析していると仮定しています。 しかし、実際には、観測は情報構造を持たないノイズで成っている。 研究者たちは、K平均または期待最大化アルゴリズムの1つのイテレーション、すなわち2つの一般的なアルゴリズムを使って、セントロイドを推定する。 純粋なノイズであるにもかかわらず、これらのアルゴリズムは初期仮説に類似した偏りのある推定値を示し、平均的なノイズ観測が0に収束するという偏りのない予想に反している。 すなわち、アルゴリズムは仮定(ガウス混合の推定遠心点)は観測では明らかでないが、仮定されたモデルを反映する推定を生成する。 具体的には,アルゴリズムが生成した推定値とそれに対応する仮説との正の相関を証明した。 また、有限かつ無限の仮説に対する推定値の明示的な閉形式式も導出する。 本研究は,低信号・雑音環境における確証バイアスのリスクを浮き彫りにし,科学的手法における潜在的な落とし穴についての洞察を提供し,思慮深いデータ解釈の重要性を強調した。

Confirmation bias, the tendency to interpret information in a way that aligns with one's preconceptions, can profoundly impact scientific research, leading to conclusions that reflect the researcher's hypotheses even when the observational data do not support them. This issue is especially critical in scientific fields involving highly noisy observations, such as cryo-electron microscopy. This study investigates confirmation bias in Gaussian mixture models. We consider the following experiment: A team of scientists assumes they are analyzing data drawn from a Gaussian mixture model with known signals (hypotheses) as centroids. However, in reality, the observations consist entirely of noise without any informative structure. The researchers use a single iteration of the K-means or expectation-maximization algorithms, two popular algorithms to estimate the centroids. Despite the observations being pure noise, we show that these algorithms yield biased estimates that resemble the initial hypotheses, contradicting the unbiased expectation that averaging these noise observations would converge to zero. Namely, the algorithms generate estimates that mirror the postulated model, although the hypotheses (the presumed centroids of the Gaussian mixture) are not evident in the observations. Specifically, among other results, we prove a positive correlation between the estimates produced by the algorithms and the corresponding hypotheses. We also derive explicit closed-form expressions of the estimates for a finite and infinite number of hypotheses. This study underscores the risks of confirmation bias in low signal-to-noise environments, provides insights into potential pitfalls in scientific methodologies, and highlights the importance of prudent data interpretation.
翻訳日:2024-08-20 17:34:18 公開日:2024-08-19
# Pedestrian Attribute Recognition: 新しいベンチマークデータセットと大規模言語モデル拡張フレームワーク

Pedestrian Attribute Recognition: A New Benchmark Dataset and A Large Language Model Augmented Framework ( http://arxiv.org/abs/2408.09720v1 )

ライセンス: Link先を確認
Jiandong Jin, Xiao Wang, Qian Zhu, Haiyang Wang, Chenglong Li, (参考訳) 歩行者属性認識(Pedestrian Attribute Recognition、PAR)は、人間中心の研究において欠かせない課題の一つである。 しかし、既存のデータセットは異なるドメイン(環境、時間、人口、データソースなど)を無視し、単純なランダムな分割のみを実行し、これらのデータセットのパフォーマンスはすでに飽和状態に近づいている。 過去5年間で、大規模なデータセットは公開されていない。 そこで本研究では,MSP60Kと呼ばれるデータギャップを埋めるための,大規模でクロスドメインな歩行者属性認識データセットを提案する。 8つのシナリオにまたがる60,122のイメージと57の属性アノテーションで構成されている。 また、データセットと現実の課題シナリオの間のギャップをさらに狭めるために、合成劣化を行う。 より厳密なベンチマークを確立するため、データセット上でランダムおよびクロスドメインの分割プロトコルの下で17の代表的なPARモデルを評価した。 さらに,LLM-PAR(Large Language Model, LLM)拡張PARフレームワークを提案する。 このフレームワークは、視覚変換器(ViT)のバックボーンを介して歩行者画像を処理して特徴を抽出し、属性分類のための部分認識機能を学ぶためのマルチ埋め込みクエリ変換器を導入する。 重要なこととして、私たちはこのフレームワークをLLMで強化し、アンサンブル学習と視覚的特徴増強を実現した。 複数のPARベンチマークデータセットに対する総合的な実験は、提案フレームワークの有効性を徹底的に検証した。 この論文に付随するデータセットとソースコードは、 \url{https://github.com/Event-AHU/OpenPAR}で公開されます。

Pedestrian Attribute Recognition (PAR) is one of the indispensable tasks in human-centered research. However, existing datasets neglect different domains (e.g., environments, times, populations, and data sources), only conducting simple random splits, and the performance of these datasets has already approached saturation. In the past five years, no large-scale dataset has been opened to the public. To address this issue, this paper proposes a new large-scale, cross-domain pedestrian attribute recognition dataset to fill the data gap, termed MSP60K. It consists of 60,122 images and 57 attribute annotations across eight scenarios. Synthetic degradation is also conducted to further narrow the gap between the dataset and real-world challenging scenarios. To establish a more rigorous benchmark, we evaluate 17 representative PAR models under both random and cross-domain split protocols on our dataset. Additionally, we propose an innovative Large Language Model (LLM) augmented PAR framework, named LLM-PAR. This framework processes pedestrian images through a Vision Transformer (ViT) backbone to extract features and introduces a multi-embedding query Transformer to learn partial-aware features for attribute classification. Significantly, we enhance this framework with LLM for ensemble learning and visual feature augmentation. Comprehensive experiments across multiple PAR benchmark datasets have thoroughly validated the efficacy of our proposed framework. The dataset and source code accompanying this paper will be made publicly available at \url{https://github.com/Event-AHU/OpenPAR}.
翻訳日:2024-08-20 17:24:20 公開日:2024-08-19
# オープンワールドでのFew-Shot学習に向けて: レビューとその先

Towards Few-Shot Learning in the Open World: A Review and Beyond ( http://arxiv.org/abs/2408.09722v1 )

ライセンス: Link先を確認
Hui Xue, Yuexuan An, Yongchun Qin, Wenqian Li, Yixin Wu, Yongjuan Che, Pengfei Fang, Minling Zhang, (参考訳) 人間の知性は、私たちの周りの世界の知識を吸収し、応用する能力によって特徴づけられる。 FSL(Few-shot Learning)は、この能力を大いに一般化し、伝達可能性を高めることを目的としている。 しかし、従来のFSLフレームワークはクリーンで完全で静的なデータという前提に頼っていることが多い。 このような仮定は、開世界の本質的に不確かで不完全で、動的文脈において不確実である。 本稿では,FSLをオープンワールド環境に適用するための最近の進歩について概説する。 既存の手法は,3つの異なるタイプのオープンワールド・マイクロショット・ラーニングに分類する。 各カテゴリは、その特定の課題と方法、およびその強さと弱点の観点から議論される。 シナリオ間で実験的な設定とメトリクスベンチマークを標準化し、様々な手法の性能の比較分析を行う。 結論として、この発展途上分野の今後の研究方向性について概説する。 このレビューがこれらの複雑な課題に対する効果的な解決策をさらに発展させ、人工知能の分野を前進させることを願っている。

Human intelligence is characterized by our ability to absorb and apply knowledge from the world around us, especially in rapidly acquiring new concepts from minimal examples, underpinned by prior knowledge. Few-shot learning (FSL) aims to mimic this capacity by enabling significant generalizations and transferability. However, traditional FSL frameworks often rely on assumptions of clean, complete, and static data, conditions that are seldom met in real-world environments. Such assumptions falter in the inherently uncertain, incomplete, and dynamic contexts of the open world. This paper presents a comprehensive review of recent advancements designed to adapt FSL for use in open-world settings. We categorize existing methods into three distinct types of open-world few-shot learning: those involving varying instances, varying classes, and varying distributions. Each category is discussed in terms of its specific challenges and methods, as well as its strengths and weaknesses. We standardize experimental settings and metric benchmarks across scenarios, and provide a comparative analysis of the performance of various methods. In conclusion, we outline potential future research directions for this evolving field. It is our hope that this review will catalyze further development of effective solutions to these complex challenges, thereby advancing the field of artificial intelligence.
翻訳日:2024-08-20 17:24:19 公開日:2024-08-19
# sTransformer:時系列・時間情報抽出による時系列予測手法

sTransformer: A Modular Approach for Extracting Inter-Sequential and Temporal Information for Time-Series Forecasting ( http://arxiv.org/abs/2408.09723v1 )

ライセンス: Link先を確認
Jiaheng Yin, Zhengxin Shi, Jianshen Zhang, Xiaomin Lin, Yulin Huang, Yongzhi Qi, Wei Qi, (参考訳) 近年,多くのTransformerベースのモデルが長期時系列予測(LTSF)タスクに適用されている。 しかし、最近の線形モデルによる研究は、その効果を疑問視し、単純な線形層が洗練されたトランスフォーマーモデルより優れていることを示した。 本研究では,既存のトランスフォーマーモデルについて,(1)モデル構造の変更,(2)入力データの変更の2つのタイプに分類する。 前者はスケーラビリティを提供するが、シーケンス間の情報の取得に不足し、後者は時系列データを前処理するが、スケーラブルなモジュールとしての使用は困難である。 本稿では、シーケンシャル情報と時間情報の両方をフルにキャプチャするシークエンス・テンポラル・コンボリューショナル・ネットワーク(STCN)を導入する。 さらに、グローバルな特徴情報をキャプチャするシークエンス誘導マスクアテンション機構を導入する。 当社のアプローチは,モジュールのスケーラビリティを維持しながら,シーケンス間の情報の取得を保証する。 我々は,線形モデルと既存予測モデルとを長期的時系列予測モデルと比較し,新たな成果を得た。 また,他の時系列タスクについても実験を行い,高い性能を実現した。 これらの結果から,Transformerベースの構造は依然として有効であり,我々のモデルは時系列タスクの実行可能なベースラインとして機能することを示す。

In recent years, numerous Transformer-based models have been applied to long-term time-series forecasting (LTSF) tasks. However, recent studies with linear models have questioned their effectiveness, demonstrating that simple linear layers can outperform sophisticated Transformer-based models. In this work, we review and categorize existing Transformer-based models into two main types: (1) modifications to the model structure and (2) modifications to the input data. The former offers scalability but falls short in capturing inter-sequential information, while the latter preprocesses time-series data but is challenging to use as a scalable module. We propose $\textbf{sTransformer}$, which introduces the Sequence and Temporal Convolutional Network (STCN) to fully capture both sequential and temporal information. Additionally, we introduce a Sequence-guided Mask Attention mechanism to capture global feature information. Our approach ensures the capture of inter-sequential information while maintaining module scalability. We compare our model with linear models and existing forecasting models on long-term time-series forecasting, achieving new state-of-the-art results. We also conducted experiments on other time-series tasks, achieving strong performance. These demonstrate that Transformer-based structures remain effective and our model can serve as a viable baseline for time-series tasks.
翻訳日:2024-08-20 17:24:19 公開日:2024-08-19
# デジタル時代の国家監視 : 市民の信託登記に対する態度にかかわる要因

State surveillance in the digital age: Factors associated with citizens' attitudes towards trust registers ( http://arxiv.org/abs/2408.09725v1 )

ライセンス: Link先を確認
Katja Turha, Simon Vrhovec, Igor Bernik, (参考訳) 本稿では、西欧における信頼レジスタ(例えば、中国社会信用システム(SCS))の受容に関連する要因について検討する。 負の意味を避けるために、まず、米国におけるFICOなどの中国以外の環境における監視システムを包含するトラストレジスタの概念を定義した。 次に,技術受容とプライバシに関する理論に依拠する信頼レジスタに対する人々の態度に関連する要因について検討する。 スロベニアのFacebookとInstagramユーザー(N=147)の横断的な調査を行った。 共分散に基づく構造方程式モデリング (CB-SEM) を用いて, 研究された構成物間の仮説的関連を検証した。 その結果,信頼レジスタに対する態度は,信頼レジスタの一般的な有用性に直接関連していることがわかった。 さらに、一般的な有用性は、国家の安全と戦う犯罪、使用の容易さ、データ収集に関するプライバシーに関する懸念を保証するためのトラストレジスタの有用性に関連付けられている。 西欧における信頼帳に対する態度を調査する最初の研究の1つとして、このような帳簿が西洋の文脈で実施される場合に関係する可能性のある要因に関する先駆的な洞察を提供し、そのようなシステムの実践者に対するメッセージに関する実践的な意味を提供する。

This paper investigates factors related to the acceptance of trust registers (e.g., the Chinese Social Credit System - SCS) in Western settings. To avoid a negative connotation, we first define the concept of trust register which encompasses surveillance systems in other settings beyond China, such as FICO in the US. Then, we explore which factors are associated with people's attitude towards trust registers leaning on the technology acceptance and privacy concern theories. A cross-sectional survey among Slovenian Facebook and Instagram users (N=147) was conducted. Covariance-based structural equation modeling (CB-SEM) was used to test the hypothesized associations between the studied constructs. Results indicate that attitude towards trust register is directly associated with perceived general usefulness of the trust register. Additionally, perceived general usefulness is associated with perceived usefulness of the trust register for ensuring national security and fighting crime, its ease of use, and privacy concern regarding data collection. As one of the first studies investigating attitude towards trust registers in a Western country, it provides pioneering insights into factors that may be relevant in case such registers would be implemented in a Western context, and provides some practical implications regarding messaging for would-be implementers of such systems.
翻訳日:2024-08-20 17:24:19 公開日:2024-08-19
# Diff2CT:バイプラナーX線からの脊椎CT再構成のための拡散学習

Diff2CT: Diffusion Learning to Reconstruct Spine CT from Biplanar X-Rays ( http://arxiv.org/abs/2408.09731v1 )

ライセンス: Link先を確認
Zhi Qiao, Xuhui Liu, Xiaopeng Wang, Runkun Liu, Xiantong Zhen, Pei Dong, Zhen Qian, (参考訳) 術中CT画像は外科的指導に欠かせない資料であるが、必ずしも手軽に利用でき、実装も容易ではない。 CTイメージングがオプションではないシナリオでは、X線からCTスキャンを再構成することは、実行可能な代替手段となる。 本稿では,バイプレナーX線を用いた3次元CT再構成手法を提案する。 従来の画像生成技術に依拠する従来の研究とは対照的に,提案手法は条件付き拡散プロセスを利用して再構成作業に取り組む。 より正確には、直交双平面X線に基づいて3次元CT画像を生成するために訓練された拡散に基づく確率モデルを用いる。 再構成画像の構造的整合性を改善するため,新しい投影損失関数を組み込んだ。 実験の結果,提案手法は画像品質と複数の評価指標の両面で,既存の最先端ベンチマークを上回っていることがわかった。 具体的には, 構造類似度指数 (SSIM) が 0.83 %, 相対的に 10 %, Fr\'echet Inception Distance (FID) が 83.43 % となり, 相対的に 25 % の低下を示す。

Intraoperative CT imaging serves as a crucial resource for surgical guidance; however, it may not always be readily accessible or practical to implement. In scenarios where CT imaging is not an option, reconstructing CT scans from X-rays can offer a viable alternative. In this paper, we introduce an innovative method for 3D CT reconstruction utilizing biplanar X-rays. Distinct from previous research that relies on conventional image generation techniques, our approach leverages a conditional diffusion process to tackle the task of reconstruction. More precisely, we employ a diffusion-based probabilistic model trained to produce 3D CT images based on orthogonal biplanar X-rays. To improve the structural integrity of the reconstructed images, we incorporate a novel projection loss function. Experimental results validate that our proposed method surpasses existing state-of-the-art benchmarks in both visual image quality and multiple evaluative metrics. Specifically, our technique achieves a higher Structural Similarity Index (SSIM) of 0.83, a relative increase of 10\%, and a lower Fr\'echet Inception Distance (FID) of 83.43, which represents a relative decrease of 25\%.
翻訳日:2024-08-20 17:24:19 公開日:2024-08-19
# Few-Shot Object Countingのための相互認識型特徴学習

Mutually-Aware Feature Learning for Few-Shot Object Counting ( http://arxiv.org/abs/2408.09734v1 )

ライセンス: Link先を確認
Yerim Jeon, Subeen Lee, Jihwan Kim, Jae-Pil Heo, (参考訳) 追加のトレーニングを必要とせずに、与えられた例に基づいてクエリイメージに対象オブジェクトをカウントすることを目的としている。 しかし、一般的な抽出・マッチング手法には欠点がある:クエリと例える特徴は、互いに意識せず、その後類似性に基づいて相関して抽出されるため、特徴抽出時の相互作用を欠いている。 これにより、抽出された特徴のターゲット認識が不十分になり、複数のクラスオブジェクトが共存する際の実際のターゲットを正確に識別するターゲット混乱が発生する可能性がある。 この制限に対処するため,クエリと特徴を相互に認識するMAFEA(Mutually-Aware FEAture Learning)を提案する。 パイプライン全体を通してクエリと典型的な機能間のインタラクションを促進することで、マルチカテゴリシナリオに対して堅牢なターゲット認識機能を得ることができます。 さらに、クエリのターゲット領域を例示と効果的に関連付け、そのバックグラウンド領域をそれらから切り離すバックグラウンドトークンを導入する。 本研究では,FSCD-LVIS と FSC-147 の2つのベンチマークにおいて,本モデルが新たな最先端性能に達することを実証した。

Few-shot object counting has garnered significant attention for its practicality as it aims to count target objects in a query image based on given exemplars without the need for additional training. However, there is a shortcoming in the prevailing extract-and-match approach: query and exemplar features lack interaction during feature extraction since they are extracted unaware of each other and later correlated based on similarity. This can lead to insufficient target awareness of the extracted features, resulting in target confusion in precisely identifying the actual target when multiple class objects coexist. To address this limitation, we propose a novel framework, Mutually-Aware FEAture learning(MAFEA), which encodes query and exemplar features mutually aware of each other from the outset. By encouraging interaction between query and exemplar features throughout the entire pipeline, we can obtain target-aware features that are robust to a multi-category scenario. Furthermore, we introduce a background token to effectively associate the target region of query with exemplars and decouple its background region from them. Our extensive experiments demonstrate that our model reaches a new state-of-the-art performance on the two challenging benchmarks, FSCD-LVIS and FSC-147, with a remarkably reduced degree of the target confusion problem.
翻訳日:2024-08-20 17:24:19 公開日:2024-08-19
# Ericsson氏の講演“Icing on the Cake: Automatic Code Summarization”

Icing on the Cake: Automatic Code Summarization at Ericsson ( http://arxiv.org/abs/2408.09735v1 )

ライセンス: Link先を確認
Giriprasad Sridhara, Sujoy Roychowdhury, Sumit Soman, Ranjani H G, Ricardo Britto, (参考訳) 本稿では,グローバル通信会社エリクソンにおけるJavaメソッドの自動要約について述べる。 我々は,Large Language Model (LLM) を用いて,Javaメソッドに対する主要な要約コメントを生成する,ASAP (Automatic Semantic Augmentation of Prompts) という手法の性能を評価する。 ASAPは、静的プログラム解析と情報検索技術を統合して、開発者記述のJavadocと類似した類似のメソッドを識別することで、$LLMの$プロンプトコンテキストを強化し、本研究のベースラインとして機能する。 対照的に、静的プログラム解析、情報検索、ASAP法のような例の存在を必要としない4つの単純なアプローチの性能を探索し比較する。 私たちのメソッドは入力としてJavaメソッド本体のみに依存しており、商用ソフトウェア開発環境での迅速なデプロイに軽量でより適しています。 我々はEricssonのソフトウェアプロジェクトで実験を行い、2つの広く使われているオープンソースのJavaプロジェクト、GuavaとElasticsearchを使って研究を再現し、その結果の信頼性を確保しました。 パフォーマンスは8つの指標で測定され、類似性のさまざまな側面を捉えた。 特に、私たちのシンプルなアプローチの1つは、Ericssonプロジェクトとオープンソースプロジェクトの両方でASAPメソッドよりもうまく実行されました。 さらに,提案する4つの手法とASAP法におけるJavadoc要約生成に対するメソッド名の影響について,アブレーション調査を行った。 提案手法は,メソッド名をマスキングし,生成したサマリーを観察することにより,ベースラインと比較して,メソッド名の欠如による統計的影響が著しく小さいことがわかった。 このことから,本手法はメソッド名の変化に対して頑健であり,ASAPアプローチよりもメソッド本体から要約を包括的に導き出す可能性が示唆された。

This paper presents our findings on the automatic summarization of Java methods within Ericsson, a global telecommunications company. We evaluate the performance of an approach called Automatic Semantic Augmentation of Prompts (ASAP), which uses a Large Language Model (LLM) to generate leading summary comments for Java methods. ASAP enhances the $LLM's$ prompt context by integrating static program analysis and information retrieval techniques to identify similar exemplar methods along with their developer-written Javadocs, and serves as the baseline in our study. In contrast, we explore and compare the performance of four simpler approaches that do not require static program analysis, information retrieval, or the presence of exemplars as in the ASAP method. Our methods rely solely on the Java method body as input, making them lightweight and more suitable for rapid deployment in commercial software development environments. We conducted experiments on an Ericsson software project and replicated the study using two widely-used open-source Java projects, Guava and Elasticsearch, to ensure the reliability of our results. Performance was measured across eight metrics that capture various aspects of similarity. Notably, one of our simpler approaches performed as well as or better than the ASAP method on both the Ericsson project and the open-source projects. Additionally, we performed an ablation study to examine the impact of method names on Javadoc summary generation across our four proposed approaches and the ASAP method. By masking the method names and observing the generated summaries, we found that our approaches were statistically significantly less influenced by the absence of method names compared to the baseline. This suggests that our methods are more robust to variations in method names and may derive summaries more comprehensively from the method body than the ASAP approach.
翻訳日:2024-08-20 17:24:19 公開日:2024-08-19
# 双平面X線からのCT再構成のための粗視野アライメントに基づくGAN

Coarse-Fine View Attention Alignment-Based GAN for CT Reconstruction from Biplanar X-Rays ( http://arxiv.org/abs/2408.09736v1 )

ライセンス: Link先を確認
Zhi Qiao, Hanqiang Ouyang, Dongheng Chu, Huishu Yuan, Xiantong Zhen, Pei Dong, Zhen Qian, (参考訳) 手術計画や術中CTでは,X線画像を用いたCT再構成が,CT画像が利用できない場合や,実現不可能な場合には,重要な代替手段となる可能性がある。 本稿では,2次元CT画像の再構成に2次元X線を用いることを目的としている。 本研究は,2つのX線ビューが相互視データを融合する際に無関心に扱われた従来の研究と異なり,直交双平面ビューから抽出した特徴を組み合わせるために,新しい注意インフォームド粗視融合法を提案する。 この方法は、ビューアライメントサブモジュールと、ビューごとにユニークな情報や補完的な情報をハイライトするために協調して動作するように設計された微細蒸留サブモジュールから構成される。 提案手法がSOTA法よりも優れていることを示す実験を行った。

For surgical planning and intra-operation imaging, CT reconstruction using X-ray images can potentially be an important alternative when CT imaging is not available or not feasible. In this paper, we aim to use biplanar X-rays to reconstruct a 3D CT image, because biplanar X-rays convey richer information than single-view X-rays and are more commonly used by surgeons. Different from previous studies in which the two X-ray views were treated indifferently when fusing the cross-view data, we propose a novel attention-informed coarse-to-fine cross-view fusion method to combine the features extracted from the orthogonal biplanar views. This method consists of a view attention alignment sub-module and a fine-distillation sub-module that are designed to work together to highlight the unique or complementary information from each of the views. Experiments have demonstrated the superiority of our proposed method over the SOTA methods.
翻訳日:2024-08-20 17:24:19 公開日:2024-08-19
# TraDiffusion: 軌道に基づく訓練不要の画像生成

TraDiffusion: Trajectory-Based Training-Free Image Generation ( http://arxiv.org/abs/2408.09739v1 )

ライセンス: Link先を確認
Mingrui Wu, Oucheng Huang, Jiayi Ji, Jiale Li, Xinyue Cai, Huafeng Kuang, Jianzhuang Liu, Xiaoshuai Sun, Rongrong Ji, (参考訳) そこで本研究では,TraDiffusion(トラディフュージョン)と呼ばれる,訓練のないトラジェクトリベースの制御可能なT2Iアプローチを提案する。 この手法により、マウスの軌跡を通した画像生成を無駄にガイドすることができる。 精度の高い制御を実現するため、我々は遅延変数を効果的に誘導する距離認識エネルギー関数を設計し、生成の焦点が軌道で定義された領域内にあることを保証する。 エネルギー関数は、所定の軌道に近づいた生成を描画する制御関数と、軌道から離れた領域の活性を減少させる運動関数とを含む。 大規模な実験とCOCOデータセットの定性評価により、TraDiffusionはよりシンプルで自然な画像制御を促進することが明らかとなった。 さらに、任意のまたは拡張された軌跡に基づく視覚的入力とともに、生成された画像内の健全な領域、属性、関係を操作できることも示す。

In this work, we propose a training-free, trajectory-based controllable T2I approach, termed TraDiffusion. This novel method allows users to effortlessly guide image generation via mouse trajectories. To achieve precise control, we design a distance awareness energy function to effectively guide latent variables, ensuring that the focus of generation is within the areas defined by the trajectory. The energy function encompasses a control function to draw the generation closer to the specified trajectory and a movement function to diminish activity in areas distant from the trajectory. Through extensive experiments and qualitative assessments on the COCO dataset, the results reveal that TraDiffusion facilitates simpler, more natural image control. Moreover, it showcases the ability to manipulate salient regions, attributes, and relationships within the generated images, alongside visual input based on arbitrary or enhanced trajectories.
翻訳日:2024-08-20 17:24:19 公開日:2024-08-19
# Paired Completion: LLMによるスケールでの課題フレーミングのフレキシブル定量化

Paired Completion: Flexible Quantification of Issue-framing at Scale with LLMs ( http://arxiv.org/abs/2408.09742v1 )

ライセンス: Link先を確認
Simon D Angus, Lachlan O'Neill, (参考訳) テキスト会話における問題フレーミングの検出と定量化 - あるトピック(例えば、気候科学対デニシズム、ミソジニー対ジェンダー平等)に対する視点 - は、社会科学者や政治科学者から、評価者や政策アナリストのプログラムに至るまで、エンドユーザーにとって非常に価値のあるものである。 しかし、概念的フレーミングは、自然言語処理(NLP)の手法ではよく知られており、この問題の「サイド」または「サイド」で使われる単語やフレーズは、しばしば共通して扱われる。 そこで本研究では,大規模テキストデータセット内の問題フレーミングと物語分析のための新しい検出手法を開発し,厳密に評価する。 生成型大規模言語モデル(LLM)から派生した次世代のログ確率の新たな応用を導入することにより,問題フレーミングが大規模コーパスで確実にかつ効率的に検出できることを示す。 3つの新しい合成データセットを用いた192個の独立実験を行い、従来のNLPと最近のLLMの文脈埋め込みを用いて、プロンプトベースのLLM法とラベル付き手法とのペア補完を評価した。 また、実運用レベルのスケールで実行可能なパフォーマンス手法のセットとモデルバイアス分析を行う。 私たちの研究は、大規模コーパスにおいて、スケーラブルで正確で低バイアスなイシューフレーミングへの実現可能なパスを示します。

Detecting and quantifying issue framing in textual discourse - the perspective one takes to a given topic (e.g. climate science vs. denialism, misogyny vs. gender equality) - is highly valuable to a range of end-users from social and political scientists to program evaluators and policy analysts. However, conceptual framing is notoriously challenging for automated natural language processing (NLP) methods since the words and phrases used by either `side' of an issue are often held in common, with only subtle stylistic flourishes separating their use. Here we develop and rigorously evaluate new detection methods for issue framing and narrative analysis within large text datasets. By introducing a novel application of next-token log probabilities derived from generative large language models (LLMs) we show that issue framing can be reliably and efficiently detected in large corpora with only a few examples of either perspective on a given issue, a method we call `paired completion'. Through 192 independent experiments over three novel, synthetic datasets, we evaluate paired completion against prompt-based LLM methods and labelled methods using traditional NLP and recent LLM contextual embeddings. We additionally conduct a cost-based analysis to mark out the feasible set of performant methods at production-level scales, and a model bias analysis. Together, our work demonstrates a feasible path to scalable, accurate and low-bias issue-framing in large corpora.
翻訳日:2024-08-20 17:24:19 公開日:2024-08-19
# R2GenCSR:大規模言語モデルに基づくX線医療レポート生成のためのコンテキストサンプルの検索

R2GenCSR: Retrieving Context Samples for Large Language Model based X-ray Medical Report Generation ( http://arxiv.org/abs/2408.09743v1 )

ライセンス: Link先を確認
Xiao Wang, Yuehang Li, Fuling Wang, Shiao Wang, Chuanfu Li, Bo Jiang, (参考訳) LLM(Large Language Models)の成功に触発されて、既存のX線医療レポート生成手法は、大きなモデルを活用してより良いパフォーマンスを実現しようとしている。 彼らは通常、あるX線画像の視覚的特徴を抽出するためにトランスフォーマーを採用し、テキスト生成のためにLSMに供給する。 LLMが最終的な結果を改善するために、より効果的な情報を抽出する方法は、解決すべき緊急の問題である。 さらに、ビジュアルトランスフォーマーモデルの使用は、高い計算複雑性をもたらす。 これらの課題に対処するために,新しい文脈誘導型効率的なX線医療報告作成フレームワークを提案する。 具体的には、線形複雑度を持つ視覚バックボーンとしてMambaを導入し、得られた性能は強力なTransformerモデルに匹敵する。 さらに、トレーニング期間中に、各ミニバッチ内のサンプルに対するトレーニングセットからコンテキスト検索を行い、肯定的および否定的の両方のサンプルを用いて特徴表現と識別学習を強化する。 その後、視覚トークン、文脈情報を与え、高品質な医療報告を生成するためにLSMを呼び出すよう指示する。 3つのX線レポート生成データセット(IU-Xray、MIMIC-CXR、CheXpert Plus)の大規模な実験により、提案モデルの有効性が完全に検証された。 この作業のソースコードは \url{https://github.com/Event-AHU/Medical_Image_Analysis} で公開される。

Inspired by the tremendous success of Large Language Models (LLMs), existing X-ray medical report generation methods attempt to leverage large models to achieve better performance. They usually adopt a Transformer to extract the visual features of a given X-ray image, and then, feed them into the LLM for text generation. How to extract more effective information for the LLMs to help them improve final results is an urgent problem that needs to be solved. Additionally, the use of visual Transformer models also brings high computational complexity. To address these issues, this paper proposes a novel context-guided efficient X-ray medical report generation framework. Specifically, we introduce the Mamba as the vision backbone with linear complexity, and the performance obtained is comparable to that of the strong Transformer model. More importantly, we perform context retrieval from the training set for samples within each mini-batch during the training phase, utilizing both positively and negatively related samples to enhance feature representation and discriminative learning. Subsequently, we feed the vision tokens, context information, and prompt statements to invoke the LLM for generating high-quality medical reports. Extensive experiments on three X-ray report generation datasets (i.e., IU-Xray, MIMIC-CXR, CheXpert Plus) fully validated the effectiveness of our proposed model. The source code of this work will be released on \url{https://github.com/Event-AHU/Medical_Image_Analysis}.
翻訳日:2024-08-20 17:24:19 公開日:2024-08-19
# RealCustom++: リアルタイムカスタマイズのためのリアルタイムワードとしてのイメージ表現

RealCustom++: Representing Images as Real-Word for Real-Time Customization ( http://arxiv.org/abs/2408.09744v1 )

ライセンス: Link先を確認
Zhendong Mao, Mengqi Huang, Fei Ding, Mingcong Liu, Qian He, Xiaojun Chang, Yongdong Zhang, (参考訳) テキスト・ツー・イメージのカスタマイズは、与えられた対象を入力として描写するテキストやイメージを取り込み、テキストの意味論と主題の外観の両方に合わせた新しいイメージを合成することを目的としている。 このタスクは、テキストだけでは捉えられない詳細を正確に制御し、様々な現実世界のアプリケーションに基礎を置いており、学術や産業からかなりの関心を集めている。 既存の作品は擬似語パラダイムに従っており、擬似語として対象を表現し、それらを与えられたテキストと組み合わせて生成を導く。 しかし、擬似単語とテキスト間の固有の衝突と絡み合いは、主題の類似性とテキストの制御性が同時に最適化できない二重最適パラドックスをもたらす。 提案するRealCustom++は,主語を非難解な実語として表現し,テキストの可制御性から主語間の類似性を排除し,両語を同時に最適化する。 トレーニング中、RealCustom++は、視覚条件とテキスト中のすべての実単語の整合を学び、オープンドメインで高い主観的類似性の生成を保証する。 これは、被写体の特徴を頑健かつきめ細かな抽出を行うクロススケールプロジェクタと、生成された被写体を多様なポーズや大きさに適応させるカリキュラムトレーニングレシピによって達成される。 2) 学習した一般的なアライメントを生かした推論において, 適応型マスクガイダンスは, 対象語の生成のみをカスタマイズし, 対象非関連領域を非汚染に保ち, リアルタイムに高いテキスト制御性を確保する。

Text-to-image customization, which takes given texts and images depicting given subjects as inputs, aims to synthesize new images that align with both text semantics and subject appearance. This task provides precise control over details that text alone cannot capture and is fundamental for various real-world applications, garnering significant interest from academia and industry. Existing works follow the pseudo-word paradigm, which involves representing given subjects as pseudo-words and combining them with given texts to collectively guide the generation. However, the inherent conflict and entanglement between the pseudo-words and texts result in a dual-optimum paradox, where subject similarity and text controllability cannot be optimal simultaneously. We propose a novel real-words paradigm termed RealCustom++ that instead represents subjects as non-conflict real words, thereby disentangling subject similarity from text controllability and allowing both to be optimized simultaneously. Specifically, RealCustom++ introduces a novel "train-inference" decoupled framework: (1) During training, RealCustom++ learns the alignment between vision conditions and all real words in the text, ensuring high subject-similarity generation in open domains. This is achieved by the cross-layer cross-scale projector to robustly and finely extract subject features, and a curriculum training recipe that adapts the generated subject to diverse poses and sizes. (2) During inference, leveraging the learned general alignment, an adaptive mask guidance is proposed to only customize the generation of the specific target real word, keeping other subject-irrelevant regions uncontaminated to ensure high text-controllability in real-time.
翻訳日:2024-08-20 17:24:19 公開日:2024-08-19
# リコールフィードバック適応損失と事前知識に基づく特徴抽出を利用したmp-MRIにおけるカスケード前立腺癌分類法の改善

Enhanced Cascade Prostate Cancer Classifier in mp-MRI Utilizing Recall Feedback Adaptive Loss and Prior Knowledge-Based Feature Extraction ( http://arxiv.org/abs/2408.09746v1 )

ライセンス: Link先を確認
Kun Luo, Bowen Zheng, Shidong Lv, Jie Tao, Qiang Wei, (参考訳) 前立腺癌は世界で2番目に多いがんであり、mpMRIは一般的に診断に用いられる。 しかし、mpMRIの解釈は困難であり、放射線技師の専門知識を必要とする。 これはmpMRIにおける自動グレーティングの緊急性を強調している。 既存の研究では臨床事前情報の統合が欠如しており、有病率による不均一なトレーニングサンプル分布に悩まされている。 そこで我々は,先行知識を取り入れ,不均一な医用サンプル分布の問題に対処し,mpMRIにおける高い解釈可能性を維持するソリューションを提案する。 まず,前立腺癌に対するPI-RADS基準をモデルトレーニングの診断情報として数学的にモデル化する,事前知識に基づく特徴抽出手法を提案する。 次に、極めて不均衡なデータ問題に対処するため、適応的リコールフィードバック損失を提案する。 本手法は, 検査セットの精度とリコールに基づいて動的にトレーニングを調整し, 高い精度と同時リコールを実現し, 前立腺癌を解釈可能な方法で異なるレベルに分類する拡張カスケード前立腺癌分類器を設計し, 分類結果を洗練し, 臨床介入を支援する。 本手法はPI-CAIデータセットの実験により検証され,精度とリコール率の両面でバランスよく他の手法よりも優れている。

Prostate cancer is the second most common cancer in males worldwide, and mpMRI is commonly used for diagnosis. However, interpreting mpMRI is challenging and requires expertise from radiologists. This highlights the urgent need for automated grading in mpMRI. Existing studies lack integration of clinical prior information and suffer from uneven training sample distribution due to prevalence. Therefore, we propose a solution that incorporates prior knowledge, addresses the issue of uneven medical sample distribution, and maintains high interpretability in mpMRI. Firstly, we introduce Prior Knowledge-Based Feature Extraction, which mathematically models the PI-RADS criteria for prostate cancer as diagnostic information into model training. Secondly, we propose Adaptive Recall Feedback Loss to address the extremely imbalanced data problem. This method adjusts the training dynamically based on accuracy and recall in the validation set, resulting in high accuracy and recall simultaneously in the testing set.Thirdly, we design an Enhanced Cascade Prostate Cancer Classifier that classifies prostate cancer into different levels in an interpretable way, which refines the classification results and helps with clinical intervention. Our method is validated through experiments on the PI-CAI dataset and outperforms other methods with a more balanced result in both accuracy and recall rate.
翻訳日:2024-08-20 17:24:19 公開日:2024-08-19
# 相互レコメンダシステムの再検討:メトリクス、定式化、方法

Revisiting Reciprocal Recommender Systems: Metrics, Formulation, and Method ( http://arxiv.org/abs/2408.09748v1 )

ライセンス: Link先を確認
Chen Yang, Sunhao Dai, Yupeng Hou, Wayne Xin Zhao, Jun Xu, Yang Song, Hengshu Zhu, (参考訳) 相互レコメンデーションシステム~(RRS)は、両者の双方のレコメンデーションを行うもので、マッチング効率の向上に注目が集まっている。 しかし、文献における既存の手法の大部分は、従来のランク付け基準を再利用してレコメンデーションプロセスの各側面のパフォーマンスを別々に評価している。 これらの手法は、両者のランキング結果がRSSの有効性に一括して影響を及ぼし、より包括的評価と有能な体系解の必要性を無視しているという事実を見落としている。 本稿では,新たなメトリクス,定式化,方法を導入することで,相互レコメンデーションの課題を体系的に再考する。 まず,3つの異なる視点からRSSの性能を総合的かつ正確に評価する5つの新しい評価指標を提案する。 これらのメトリクスは、システムの有効性をより包括的に理解し、包括的な評価を可能にする。 さらに、因果的観点からRSを定式化し、二元的介入として勧告を定式化し、潜在的影響因子の疎結合効果をより良くモデル化する。 潜在的な結果の枠組みを利用することで,提案手法の因果効果を考慮したモデルに依存しない因果関係のレコメンデーション手法をさらに発展させる。 また,提案手法では,結果の一致を最大化するための評価戦略を提案する。 採用シナリオとデートシナリオから得られた2つの実世界のデータセットに対する大規模な実験は、提案したメトリクスとアプローチの有効性を実証する。 コードとデータセットは、https://github.com/RUCAIBox/CRRS.comで公開されている。

Reciprocal recommender systems~(RRS), conducting bilateral recommendations between two involved parties, have gained increasing attention for enhancing matching efficiency. However, the majority of existing methods in the literature still reuse conventional ranking metrics to separately assess the performance on each side of the recommendation process. These methods overlook the fact that the ranking outcomes of both sides collectively influence the effectiveness of the RRS, neglecting the necessity of a more holistic evaluation and a capable systemic solution. In this paper, we systemically revisit the task of reciprocal recommendation, by introducing the new metrics, formulation, and method. Firstly, we propose five new evaluation metrics that comprehensively and accurately assess the performance of RRS from three distinct perspectives: overall coverage, bilateral stability, and balanced ranking. These metrics provide a more holistic understanding of the system's effectiveness and enable a comprehensive evaluation. Furthermore, we formulate the RRS from a causal perspective, formulating recommendations as bilateral interventions, which can better model the decoupled effects of potential influencing factors. By utilizing the potential outcome framework, we further develop a model-agnostic causal reciprocal recommendation method that considers the causal effects of recommendations. Additionally, we introduce a reranking strategy to maximize matching outcomes, as measured by the proposed metrics. Extensive experiments on two real-world datasets from recruitment and dating scenarios demonstrate the effectiveness of our proposed metrics and approach. The code and dataset are available at: https://github.com/RUCAIBox/CRRS.
翻訳日:2024-08-20 17:24:19 公開日:2024-08-19
# Iris アンチスプーフィングのための統一フレームワーク: Iris General データセットの導入と Masked-MoE 法

A Unified Framework for Iris Anti-Spoofing: Introducing IrisGeneral Dataset and Masked-MoE Method ( http://arxiv.org/abs/2408.09752v1 )

ライセンス: Link先を確認
Hang Zou, Chenxi Du, Ajian Liu, Yuan Zhang, Jing Liu, Mingchuan Yang, Jun Wan, Hui Zhang, (参考訳) アイリス認識は、その安定性と特異性のために、高いセキュリティシナリオで広く使用されている。 しかし、虹彩画像の取得は通常、近赤外線照明と近赤外線帯域フィルタを必要とするため、デバイス間での撮像において顕著で一貫した違いが生じる。 このことは、アイリスアンチスプーフィング法におけるクロスドメイン機能開発の重要性を浮き彫りにする。 このようなニーズにもかかわらず、アイリスアンチスプーフィングタスクの一般化能力を包括的に評価するデータセットは存在しない。 このギャップに対処するために、IrisGeneralデータセットを提案する。IrisGeneralデータセットは、7つのデータベースに属する10のサブセットを含み、4つの機関が発行し、6種類のデバイスで収集する。 Iris Generalは、平均性能、断面積一般化、アイリスアンチスプーフィングモデルのクロスデバイス一般化の3つのプロトコルで設計されている。 IrisGeneralに複数のサブデータセットを統合するという課題に対処するために、我々は様々なサブセットから学習するために複数のパラメーターセットを使用します。 具体的には、Mixture of Experts (MoE)を用いて、複数のサブニューラルネットワークを用いて複雑なデータ分布を適合させる。 一般化機能をさらに強化するため,Masked-MoE (MMoE) という新しい手法を導入する。 ランダムに一部の専門家のトークンの一部を隠蔽し、そのアウトプットは未成熟の専門家に似ており、一般化能力を改善し、MoEが生み出す過度な問題を効果的に軽減する。 我々は、代表モデルとしてResNet50、VIT-B/16、CLIP、FLIPを選択し、それらをIrisGeneralデータセットでベンチマークした。 実験の結果,CLIPを用いたMMoEはIrisGeneral上で最高の性能を示した。

Iris recognition is widely used in high-security scenarios due to its stability and distinctiveness. However, the acquisition of iris images typically requires near-infrared illumination and near-infrared band filters, leading to significant and consistent differences in imaging across devices. This underscores the importance of developing cross-domain capabilities in iris anti-spoofing methods. Despite this need, there is no dataset available that comprehensively evaluates the generalization ability of the iris anti-spoofing task. To address this gap, we propose the IrisGeneral dataset, which includes 10 subsets, belonging to 7 databases, published by 4 institutions, collected with 6 types of devices. IrisGeneral is designed with three protocols, aimed at evaluating average performance, cross-racial generalization, and cross-device generalization of iris anti-spoofing models. To tackle the challenge of integrating multiple sub-datasets in IrisGeneral, we employ multiple parameter sets to learn from the various subsets. Specifically, we utilize the Mixture of Experts (MoE) to fit complex data distributions using multiple sub-neural networks. To further enhance the generalization capabilities, we introduce a novel method Masked-MoE (MMoE). It randomly masks a portion of tokens for some experts and requires their outputs to be similar to the unmasked experts, which improves the generalization ability and effectively mitigates the overfitting issue produced by MoE. We selected ResNet50, VIT-B/16, CLIP, and FLIP as representative models and benchmarked them on the IrisGeneral dataset. Experimental results demonstrate that our proposed MMoE with CLIP achieves the best performance on IrisGeneral.
翻訳日:2024-08-20 17:24:19 公開日:2024-08-19
# Covariate-dependent Stackingによるアンサンブル予測

Ensemble Prediction via Covariate-dependent Stacking ( http://arxiv.org/abs/2408.09755v1 )

ライセンス: Link先を確認
Tomoya Wakayama, Shonosuke Sugasawa, (参考訳) 本稿では,CDST (Covariate-dependent Stacking) と呼ばれるアンサンブル予測手法を提案する。 従来の積み重ね方式とは異なり、CDSTはモデルウェイトを共変量の関数として柔軟に変化させ、複雑なシナリオにおける予測性能を向上させる。 基本関数の組み合わせによって共変量に依存した重みを定式化し、クロスバリデーションを最適化してそれらを推定し、予測最大化アルゴリズムを開発し、計算効率の確保を図る。 理論的性質を解析するために,モデル重み推定のために最小化すべき損失に関するオラクルの不等式を確立する。 総合的なシミュレーション研究と大規模土地価格予測への応用を通じて,CDSTが従来のモデル平均化手法,特にいくつかのモデルが基盤となる複雑さを捉えないデータセットにおいて一貫して性能を向上することが実証された。 以上の結果から,CDSTは時空間予測の問題に特に有用であるが,時間空間予測の問題に限らず,データ分析の分野における研究者や実践者にとって強力なツールであると考えられた。

This paper presents a novel approach to ensemble prediction called "Covariate-dependent Stacking" (CDST). Unlike traditional stacking methods, CDST allows model weights to vary flexibly as a function of covariates, thereby enhancing predictive performance in complex scenarios. We formulate the covariate-dependent weights through combinations of basis functions, estimate them by optimizing cross-validation, and develop an Expectation-Maximization algorithm, ensuring computational efficiency. To analyze the theoretical properties, we establish an oracle inequality regarding the expected loss to be minimized for estimating model weights. Through comprehensive simulation studies and an application to large-scale land price prediction, we demonstrate that CDST consistently outperforms conventional model averaging methods, particularly on datasets where some models fail to capture the underlying complexity. Our findings suggest that CDST is especially valuable for, but not limited to, spatio-temporal prediction problems, offering a powerful tool for researchers and practitioners in various fields of data analysis.
翻訳日:2024-08-20 17:14:27 公開日:2024-08-19
# ランダム射影ニューラルネットを用いた並列時間解法

Parallel-in-Time Solutions with Random Projection Neural Networks ( http://arxiv.org/abs/2408.09756v1 )

ライセンス: Link先を確認
Marta M. Betcke, Lisa Maria Kreusser, Davide Murari, (参考訳) 本稿では、常微分方程式の解法であるパラレアルの基本並列時間法の一つを考察し、ニューラルネットワークを粗いプロパゲータとして採用することにより拡張する。 提案アルゴリズムの収束特性を理論的に解析し,ローレンツ方程式やバーガースの方程式を含むいくつかの例に対して有効性を示す。 数値シミュレーションでは、第1層重みを最適化するのではなくランダムに描画する2層ニューラルネットワークである乱射影ニューラルネットワーク(RPNN)に、基盤となるニューラルネットワークをさらに専門化する。 この制限は、SIRシステムの例に示すように、標準フィードフォワードネットワークと比較してRPNNの重み付け効率を大幅に向上させる。

This paper considers one of the fundamental parallel-in-time methods for the solution of ordinary differential equations, Parareal, and extends it by adopting a neural network as a coarse propagator. We provide a theoretical analysis of the convergence properties of the proposed algorithm and show its effectiveness for several examples, including Lorenz and Burgers' equations. In our numerical simulations, we further specialize the underpinning neural architecture to Random Projection Neural Networks (RPNNs), a 2-layer neural network where the first layer weights are drawn at random rather than optimized. This restriction substantially increases the efficiency of fitting RPNN's weights in comparison to a standard feedforward network without negatively impacting the accuracy, as demonstrated in the SIR system example.
翻訳日:2024-08-20 17:14:27 公開日:2024-08-19
# LLMインテクスト学習における公平性向上のための戦略実証選択

Strategic Demonstration Selection for Improved Fairness in LLM In-Context Learning ( http://arxiv.org/abs/2408.09757v1 )

ライセンス: Link先を確認
Jingyu Hu, Weiru Liu, Mengnan Du, (参考訳) 近年の研究では,テキスト内学習(ICL)を用いて表形式データ処理において大規模言語モデル(LLM)を操ることの有効性が注目されている。 性能の進歩にもかかわらず、これらの手法の公平さは理解されていない。 本研究は,ILC内の様々な実演がLLMの公平性にどのように影響するかを考察する。 その結果,少数群のサンプルを意図的に含むと,予測精度を犠牲にすることなく,公平性が著しく向上することが明らかとなった。 さらなる実験により、デモにおける少数派と多数派のサンプルの割合は、公正性と予測精度のトレードオフに影響を及ぼすことが示された。 これらの知見に基づいて,クラスタリングと進化戦略を用いて,トレーニングデータから多種多様な代表的なサンプルをキュレートする緩和手法を導入する。 このアプローチは、ICLアプリケーションの予測性能と公平性の両方を向上させることを目的としている。 実験により,提案手法は実世界のシナリオにおける有効性を示すとともに,様々な指標の公平性を劇的に向上させることを確認した。

Recent studies highlight the effectiveness of using in-context learning (ICL) to steer large language models (LLMs) in processing tabular data, a challenging task given the structured nature of such data. Despite advancements in performance, the fairness implications of these methods are less understood. This study investigates how varying demonstrations within ICL prompts influence the fairness outcomes of LLMs. Our findings reveal that deliberately including minority group samples in prompts significantly boosts fairness without sacrificing predictive accuracy. Further experiments demonstrate that the proportion of minority to majority samples in demonstrations affects the trade-off between fairness and prediction accuracy. Based on these insights, we introduce a mitigation technique that employs clustering and evolutionary strategies to curate a diverse and representative sample set from the training data. This approach aims to enhance both predictive performance and fairness in ICL applications. Experimental results validate that our proposed method dramatically improves fairness across various metrics, showing its efficacy in real-world scenarios.
翻訳日:2024-08-20 17:14:27 公開日:2024-08-19
# 球関数上の大集団サイズに対する$(μ/μ_I, λ)$-ESの変異強度適応

Mutation Strength Adaptation of the $(μ/μ_I, λ)$-ES for Large Population Sizes on the Sphere Function ( http://arxiv.org/abs/2408.09761v1 )

ライセンス: Link先を確認
Amir Omeradzic, Hans-Georg Beyer, (参考訳) 多組換え$(\mu/\mu_I, \lambda)$-ESの突然変異強度適応特性について検討した。 この目的のために、累積ステップサイズ適応(CSA)と可変自己適応(\sigma$SA)の標準実装を、探索空間次元(N$)に関して大きな集団サイズ(\mu$)を仮定することにより、実験的に理論的に検討した。 この適応は、球面上のスケール不変変異強度と、正の進行に対する最大達成可能な値とで特徴づけられる。 % 異なる $\sigma$-adaptation 変種が $\mu$ と $N$ の振る舞いを示す。 標準 CSA 変種は、球面上の適応特性と進行速度が顕著に異なり、$\mu$ または $N$ が変化するにつれて遅くなるかより速くなる。 これは累積および減衰パラメータの一般的な選択を調査することによって示される。 標準$\sigma$SA-variants(デフォルトの学習パラメータ設定を持つ)は、CSAよりも高速な適応と進捗率を達成することができる。 しかし,自己適応が進行率に悪影響を及ぼすことを示す。 さらに、対数正規および正規突然変異サンプリングによる$\sigma$SAの適応と安定性の相違について詳述した。

The mutation strength adaptation properties of a multi-recombinative $(\mu/\mu_I, \lambda)$-ES are studied for isotropic mutations. To this end, standard implementations of cumulative step-size adaptation (CSA) and mutative self-adaptation ($\sigma$SA) are investigated experimentally and theoretically by assuming large population sizes ($\mu$) in relation to the search space dimensionality ($N$). The adaptation is characterized in terms of the scale-invariant mutation strength on the sphere in relation to its maximum achievable value for positive progress. %The results show how the different $\sigma$-adaptation variants behave as $\mu$ and $N$ are varied. Standard CSA-variants show notably different adaptation properties and progress rates on the sphere, becoming slower or faster as $\mu$ or $N$ are varied. This is shown by investigating common choices for the cumulation and damping parameters. Standard $\sigma$SA-variants (with default learning parameter settings) can achieve faster adaptation and larger progress rates compared to the CSA. However, it is shown how self-adaptation affects the progress rate levels negatively. Furthermore, differences regarding the adaptation and stability of $\sigma$SA with log-normal and normal mutation sampling are elaborated.
翻訳日:2024-08-20 17:14:27 公開日:2024-08-19
# 非IIDデータセットに基づく階層型アーキテクチャにおける逐次フェデレーション学習

Sequential Federated Learning in Hierarchical Architecture on Non-IID Datasets ( http://arxiv.org/abs/2408.09762v1 )

ライセンス: Link先を確認
Xingrun Yan, Shiyuan Zuo, Rongfei Fan, Han Hu, Li Shen, Puning Zhao, Yong Luo, (参考訳) 実連合学習(FL)システムでは、クライアントとパラメータサーバ(PS)の間でモデルパラメータを渡す通信オーバーヘッドがボトルネックとなることが多い。 クライアントとPSの間に複数のエッジサーバ(ES)を配置する階層的連合学習(HFL)は、通信圧力を部分的に軽減するが、PSにおける複数のESからモデルパラメータを集約する必要がある。 通信オーバヘッドをさらに低減するため,HFLにシーケンシャルFL(SFL)を初めて導入し,中央PSを除去し,各イテレーション毎に隣接する2つのES間でグローバルモデルを渡すことでのみモデルトレーニングを完了し,Fed-CHSと呼ばれるこのような組み合わせフレームワークに適応した新しいアルゴリズムを提案する。 収束結果は、HFLやSFLのアルゴリズムに匹敵する収束性能を示す様々なデータ不均一性設定の下で、強凸および非凸損失関数に対して導出される。 実験により,ベースライン法よりも通信オーバーヘッドの低減とテスト精度の両面において,提案したFed-CHSが優れていることを示す。

In a real federated learning (FL) system, communication overhead for passing model parameters between the clients and the parameter server (PS) is often a bottleneck. Hierarchical federated learning (HFL) that poses multiple edge servers (ESs) between clients and the PS can partially alleviate communication pressure but still needs the aggregation of model parameters from multiple ESs at the PS. To further reduce communication overhead, we bring sequential FL (SFL) into HFL for the first time, which removes the central PS and enables the model training to be completed only through passing the global model between two adjacent ESs for each iteration, and propose a novel algorithm adaptive to such a combinational framework, referred to as Fed-CHS. Convergence results are derived for strongly convex and non-convex loss functions under various data heterogeneity setups, which show comparable convergence performance with the algorithms for HFL or SFL solely. Experimental results provide evidence of the superiority of our proposed Fed-CHS on both communication overhead saving and test accuracy over baseline methods.
翻訳日:2024-08-20 17:14:27 公開日:2024-08-19
# イベントストリームに基づくヒューマンアクション認識:高精細ベンチマークデータセットとアルゴリズム

Event Stream based Human Action Recognition: A High-Definition Benchmark Dataset and Algorithms ( http://arxiv.org/abs/2408.09764v1 )

ライセンス: Link先を確認
Xiao Wang, Shiao Wang, Pengpeng Shao, Bo Jiang, Lin Zhu, Yonghong Tian, (参考訳) HAR(Human Action Recognition)は、コンピュータビジョンと人工知能の両方において重要な研究領域であり、RGBカメラがこの分野における調査と革新のツールとして好まれている。 しかし、現実世界のアプリケーションでは、RGBカメラは光条件、高速モーション、プライバシーの懸念など、多くの課題に直面している。 その結果,バイオインスパイアされたイベントカメラは,低消費電力,高ダイナミックレンジなどの利点により注目度が高まっている。 それでも、既存のイベントベースのHARデータセットのほとんどは、低解像度(346 \times 260$)である。 本稿では,CeleX-Vイベントカメラ(CeleX-HAR)をベースとした大規模かつ高解像度(1280 \times 800$)の人行動認識データセットを提案する。 150のアクションカテゴリを含み、合計124,625の動画シーケンスで構成されている。 これらのデータを記録する際には、マルチビュー、照明、動作速度、閉塞などの様々な要因が考慮される。 より包括的なベンチマークデータセットを構築するために、今後比較する作業のために、20以上の主流なHARモデルを報告します。 さらに、イベントストリームに基づくHARのための新しいMambaビジョンバックボーンネットワーク、EVMambaを提案し、空間平面多方向走査と新しいボクセル時間走査機構を備える。 イベントストリームの時空間情報をエンコードしてマイニングすることで、EVMambaは複数のデータセットにまたがって良好な結果を得ました。 データセットとソースコードは \url{https://github.com/Event-AHU/CeleX-HAR} でリリースされる。

Human Action Recognition (HAR) stands as a pivotal research domain in both computer vision and artificial intelligence, with RGB cameras dominating as the preferred tool for investigation and innovation in this field. However, in real-world applications, RGB cameras encounter numerous challenges, including light conditions, fast motion, and privacy concerns. Consequently, bio-inspired event cameras have garnered increasing attention due to their advantages of low energy consumption, high dynamic range, etc. Nevertheless, most existing event-based HAR datasets are low resolution ($346 \times 260$). In this paper, we propose a large-scale, high-definition ($1280 \times 800$) human action recognition dataset based on the CeleX-V event camera, termed CeleX-HAR. It encompasses 150 commonly occurring action categories, comprising a total of 124,625 video sequences. Various factors such as multi-view, illumination, action speed, and occlusion are considered when recording these data. To build a more comprehensive benchmark dataset, we report over 20 mainstream HAR models for future works to compare. In addition, we also propose a novel Mamba vision backbone network for event stream based HAR, termed EVMamba, which equips the spatial plane multi-directional scanning and novel voxel temporal scanning mechanism. By encoding and mining the spatio-temporal information of event streams, our EVMamba has achieved favorable results across multiple datasets. Both the dataset and source code will be released on \url{https://github.com/Event-AHU/CeleX-HAR}
翻訳日:2024-08-20 17:14:27 公開日:2024-08-19
# Baby Bear:スカラアノテーションの正しい評価尺度を探る

Baby Bear: Seeking a Just Right Rating Scale for Scalar Annotations ( http://arxiv.org/abs/2408.09765v1 )

ライセンス: Link先を確認
Xu Han, Felix Yu, Joao Sedoc, Benjamin Van Durme, (参考訳) 私たちのゴールは、大きな要素セットのそれぞれにスカラー評価を効率的に割り当てるメカニズムです。 例えば、“この製品レビューは肯定的か否定的か? サンプルサイズが小さい場合には、BWS(Best Worst Scaling)のような手法は直接順序付けアノテーションよりも堅牢である("Likert scales")。 ここでは、まずIBWSを紹介し、Best-Worst Scalingを通じてアノテーションを反復的に収集する。 有効ではあるが、IBWSは大規模タスクには高すぎる。 IBWSの結果を最も望まれる結果として、コスト効率と大規模BWSアノテーション戦略との関連性の両方を判断するために、様々な直接評価手法を評価する。 最後に、対話と感情の領域において、これらのアノテーションがどのように堅牢な学習-ランクモデルをサポートするかを説明します。

Our goal is a mechanism for efficiently assigning scalar ratings to each of a large set of elements. For example, "what percent positive or negative is this product review?" When sample sizes are small, prior work has advocated for methods such as Best Worst Scaling (BWS) as being more robust than direct ordinal annotation ("Likert scales"). Here we first introduce IBWS, which iteratively collects annotations through Best-Worst Scaling, resulting in robustly ranked crowd-sourced data. While effective, IBWS is too expensive for large-scale tasks. Using the results of IBWS as a best-desired outcome, we evaluate various direct assessment methods to determine what is both cost-efficient and best correlating to a large scale BWS annotation strategy. Finally, we illustrate in the domains of dialogue and sentiment how these annotations can support robust learning-to-rank models.
翻訳日:2024-08-20 17:14:27 公開日:2024-08-19
# DSLアシスタントによる自然言語から形式言語へ

From a Natural to a Formal Language with DSL Assistant ( http://arxiv.org/abs/2408.09766v1 )

ライセンス: Link先を確認
My M. Mosthaf, Andrzej Wąsowski, (参考訳) ドメイン固有言語(DSL)の開発は、自然に生成的人工知能の使用に傾倒しているように見える、退屈で反復的なプロセスである。 DSL の開発を支援するために生成言語モデルを統合するツールである DSL Assistant の設計と試作を行う。 DSL Assistantは、OpenAIのアシスタントAPIとGPT-4oを使用して、DSL文法とサンプルインスタンスを生成する。 現実世界の使用を反映するため、DSL AssistantはDSL設計を進化させるための様々なインタラクションモードをサポートし、自動エラー修正を含む。 我々の実験によると、DSL AssistantはユーザーがDSLを作成し、修正するのに役立つ。 しかし、生成されたDSLの品質は、特定のドメインとそれに続く相互作用パターンに依存します。

The development of domain-specific languages (DSLs) is a laborious and iterative process that seems to naturally lean to the use of generative artificial intelligence. We design and prototype DSL Assistant, a tool that integrates generative language models to support the development of DSLs. DSL Assistant uses OpenAI's assistant API with GPT-4o to generate DSL grammars and example instances. To reflect real-world use, DSL Assistant supports several different interaction modes for evolving a DSL design, and includes automatic error repair. Our experiments show that DSL Assistant helps users to create and modify DSLs. However, the quality of the generated DSLs depends on the specific domain and the followed interaction patterns.
翻訳日:2024-08-20 17:14:27 公開日:2024-08-19
# 学習速度モデル生成変圧器ネットワークによる浅部から深部への事前伝搬

Propagating the prior from shallow to deep with a pre-trained velocity-model Generative Transformer network ( http://arxiv.org/abs/2408.09767v1 )

ライセンス: Link先を確認
Randy Harsuko, Shijun Cheng, Tariq Alkhalifah, (参考訳) 地下速度モデルの構築は、地球探査や探査、モニタリングに地震データを活用する上で、我々の目標に不可欠である。 機械学習の夜明けとともに、これらの速度モデル(またはより正確には、それらの分布)は、生成モデルに正確かつ効率的に格納できる。 これらの保存された速度モデル分布は、完全な波形反転のような逆問題における不確かさを正規化または定量化するために利用することができる。 しかしながら、ほとんどのジェネレータは、フローの正規化や拡散モデルのようなイメージ(速度モデル)を均一に扱い、観測位置に関する空間依存や解像度の変化を無視している。 この弱点に対処するために,トランスフォーマーデコーダを用いた新しい実装であるVelocityGPTを導入する。 地震データはしばしば地球表面で記録されるため、トップダウンジェネレータは浅瀬の逆情報を利用して深部を発生させる。 実装を容易にするため、速度モデルを圧縮するために追加のネットワークを使用する。 また、ベロシティモデルを生成するために、井戸や構造(マイグレーション画像で表現される)といった事前情報を注入する。 合成データを用いて, 地震波速度モデル構築のための生成モデル構築におけるVelocityGPTの有効性を実証する。

Building subsurface velocity models is essential to our goals in utilizing seismic data for Earth discovery and exploration, as well as monitoring. With the dawn of machine learning, these velocity models (or, more precisely, their distribution) can be stored accurately and efficiently in a generative model. These stored velocity model distributions can be utilized to regularize or quantify uncertainties in inverse problems, like full waveform inversion. However, most generators, like normalizing flows or diffusion models, treat the image (velocity model) uniformly, disregarding spatial dependencies and resolution changes with respect to the observation locations. To address this weakness, we introduce VelocityGPT, a novel implementation that utilizes Transformer decoders trained autoregressively to generate a velocity model from shallow subsurface to deep. Owing to the fact that seismic data are often recorded on the Earth's surface, a top-down generator can utilize the inverted information in the shallow as guidance (prior) to generating the deep. To facilitate the implementation, we use an additional network to compress the velocity model. We also inject prior information, like well or structure (represented by a migration image) to generate the velocity model. Using synthetic data, we demonstrate the effectiveness of VelocityGPT as a promising approach in generative model applications for seismic velocity model building.
翻訳日:2024-08-20 17:14:27 公開日:2024-08-19
# MalLight: 交通信号故障に対する影響を考慮した協調信号制御

MalLight: Influence-Aware Coordinated Traffic Signal Control for Traffic Signal Malfunctions ( http://arxiv.org/abs/2408.09768v1 )

ライセンス: Link先を確認
Qinchen Yang, Zejun Xie, Hua Wei, Desheng Zhang, Yu Yang, (参考訳) 都市交通は、信号化された交差点で待ち時間と安全上の問題を引き起こす混乱に直面している。 多くの研究は、様々な障害の文脈でインテリジェントな交通システムの問題に対処してきたが、交通信号の故障は、大きな反響を伴う一般的な現実現象であり、比較的注目されている。 本研究の主な目的は, 交通渋滞や衝突などの交通信号障害の悪影響を軽減することであり, 隣り合う機能信号の制御を最適化することである。 この目的を達成するために,影響認識状態集約モジュール(ISAM)と影響認識リワード集約モジュール(IRAM)を活用し,周囲の交通信号の協調制御を実現する新しい交通信号制御フレームワーク(MalLight)を提案する。 本研究は,交通信号の故障による課題に対処する強化学習(RL)に基づくアプローチの先駆者となる。 実世界のデータセットで実施した実証研究は,信号障害の存在下での従来の学習法や深層学習法よりも優れた性能を実証し,スループットの低下を最大48.6$\%で緩和した。

Urban traffic is subject to disruptions that cause extended waiting time and safety issues at signalized intersections. While numerous studies have addressed the issue of intelligent traffic systems in the context of various disturbances, traffic signal malfunction, a common real-world occurrence with significant repercussions, has received comparatively limited attention. The primary objective of this research is to mitigate the adverse effects of traffic signal malfunction, such as traffic congestion and collision, by optimizing the control of neighboring functioning signals. To achieve this goal, this paper presents a novel traffic signal control framework (MalLight), which leverages an Influence-aware State Aggregation Module (ISAM) and an Influence-aware Reward Aggregation Module (IRAM) to achieve coordinated control of surrounding traffic signals. To the best of our knowledge, this study pioneers the application of a Reinforcement Learning(RL)-based approach to address the challenges posed by traffic signal malfunction. Empirical investigations conducted on real-world datasets substantiate the superior performance of our proposed methodology over conventional and deep learning-based alternatives in the presence of signal malfunction, with reduction of throughput alleviated by as much as 48.6$\%$.
翻訳日:2024-08-20 17:14:27 公開日:2024-08-19
# 原子非古典性:反ジャイネス・カミングス相互作用の研究

Atomic non-classicality: A study of the anti-Jaynes-Cummings interaction ( http://arxiv.org/abs/2408.09772v1 )

ライセンス: Link先を確認
Christopher Mayero, (参考訳) Wigner-Yanaseスキュー情報を,最初の原子基底状態にある2レベル原子が圧縮されたコヒーレント光の単一モードに結合する場合に,反ジャイネス・カミングス(AJC)ハミルトニアンによって生成される力学における原子非古典性の量子情報量化器として応用する。 Wigner-Yanaseスキュー情報の力学に及ぼす圧縮パラメータ, フィールド強度, 結合強度パラメータの変動の影響について検討した。 We observed that time-evolution of the Wigner-Yanase skew information records mixed state value for all variation of squeeze parameter, field intensity and coupling strength parameter, congruent with squeezing effects。

We apply the Wigner-Yanase skew information, as a quantum information quantifier of atomic non-classicality in the dynamics generated by the anti-Jaynes-Cummings (AJC) Hamiltonian when a two-level atom in an initial atomic ground state, couples to a single mode of squeezed coherent light. We investigate the effect of variation of squeeze parameter, field intensity, and coupling strength parameter, on the dynamics of the Wigner-Yanase skew information. We observe that time-evolution of the Wigner-Yanase skew information records mixed state values for all variations of squeeze parameter, field intensity and coupling strength parameter, congruent with squeezing effects.
翻訳日:2024-08-20 17:14:27 公開日:2024-08-19
# 大規模言語モデルは確率的あるいは言語化された信頼においてより誠実か?

Are Large Language Models More Honest in Their Probabilistic or Verbalized Confidence? ( http://arxiv.org/abs/2408.09773v1 )

ライセンス: Link先を確認
Shiyu Ni, Keping Bi, Lulu Yu, Jiafeng Guo, (参考訳) 大きな言語モデル (LLM) は、質問が内部知識境界を超えると幻覚を引き起こす。 信頼できるモデルは、その知識の境界を明確に認識し、その範囲内で正しい答えを提供し、知識の欠如に答えることを拒否しなければならない。 LLMの知識境界に対する認識に関する既存の研究は、通常、生成されたトークンの確率またはモデルの応答に対する信頼度として言語化された信頼のいずれかを使用する。 しかし、これらの研究は両者の違いと関係を見落としている。 本稿では,LLMの確率的知覚と事実的知識境界の言語的知覚を包括的に分析し,比較する。 まず、これらの2つの知覚の長所と短所について検討する。 次に,周波数の異なる疑問の下でどのように変化するかを検討する。 最後に,LLMの確率的信頼度と言語的信頼度との相関を計測した。 実験の結果 1) LLMの確率的知覚は, 言語的知覚よりも一般的に正確であるが, 信頼閾値を調整するためには, ドメイン内検証セットが必要である。 2) 頻度の低い質問では, 両者の知覚が良好である。 3) LLM が自然言語に対する内的信頼を正確に表現することは困難である。

Large language models (LLMs) have been found to produce hallucinations when the question exceeds their internal knowledge boundaries. A reliable model should have a clear perception of its knowledge boundaries, providing correct answers within its scope and refusing to answer when it lacks knowledge. Existing research on LLMs' perception of their knowledge boundaries typically uses either the probability of the generated tokens or the verbalized confidence as the model's confidence in its response. However, these studies overlook the differences and connections between the two. In this paper, we conduct a comprehensive analysis and comparison of LLMs' probabilistic perception and verbalized perception of their factual knowledge boundaries. First, we investigate the pros and cons of these two perceptions. Then, we study how they change under questions of varying frequencies. Finally, we measure the correlation between LLMs' probabilistic confidence and verbalized confidence. Experimental results show that 1) LLMs' probabilistic perception is generally more accurate than verbalized perception but requires an in-domain validation set to adjust the confidence threshold. 2) Both perceptions perform better on less frequent questions. 3) It is challenging for LLMs to accurately express their internal confidence in natural language.
翻訳日:2024-08-20 17:14:27 公開日:2024-08-19
# 適応型分散学習アルゴリズムの高速化

Faster Adaptive Decentralized Learning Algorithms ( http://arxiv.org/abs/2408.09775v1 )

ライセンス: Link先を確認
Feihu Huang, Jianyu Zhao, (参考訳) 分散学習は最近、実装の単純さとシステムの堅牢性、データのプライバシといった利点により、機械学習に注目が集まっている。 一方、適応勾配法は、ニューラルネットワークのトレーニングなど、多くの機械学習タスクにおいて優れた性能を示す。 適応学習率を用いた分散最適化アルゴリズムの研究に焦点をあてる研究もあるが、これらの適応分散アルゴリズムは依然として高いサンプル複雑さに悩まされている。 これらのギャップを埋めるために、分散非凸確率および有限サム最適化のための高速適応分散アルゴリズム(AdaMDOSとAdaMDOF)のクラスを提案する。 さらに,本手法のコンバージェンス解析フレームワークも提供する。 特に、我々のAdaMDOSは、非凸確率最適化の$\epsilon$-定常解を見つけるために、$\tilde{O}(\epsilon^{-3})$のほぼ最適サンプル複雑性が得られることを証明している。 一方、我々のAdaMDOFは、非凸有限サム最適化の$\epsilon$-stationary解を見つけるために、$O(\sqrt{n}\epsilon^{-2})$のほぼ最適サンプル複雑性を得る。 我々の知る限り、AdaMDOFアルゴリズムは非凸有限サム最適化のための最初の適応分散アルゴリズムである。 いくつかの実験結果から,アルゴリズムの有効性が示された。

Decentralized learning recently has received increasing attention in machine learning due to its advantages in implementation simplicity and system robustness, data privacy. Meanwhile, the adaptive gradient methods show superior performances in many machine learning tasks such as training neural networks. Although some works focus on studying decentralized optimization algorithms with adaptive learning rates, these adaptive decentralized algorithms still suffer from high sample complexity. To fill these gaps, we propose a class of faster adaptive decentralized algorithms (i.e., AdaMDOS and AdaMDOF) for distributed nonconvex stochastic and finite-sum optimization, respectively. Moreover, we provide a solid convergence analysis framework for our methods. In particular, we prove that our AdaMDOS obtains a near-optimal sample complexity of $\tilde{O}(\epsilon^{-3})$ for finding an $\epsilon$-stationary solution of nonconvex stochastic optimization. Meanwhile, our AdaMDOF obtains a near-optimal sample complexity of $O(\sqrt{n}\epsilon^{-2})$ for finding an $\epsilon$-stationary solution of nonconvex finite-sum optimization, where $n$ denotes the sample size. To the best of our knowledge, our AdaMDOF algorithm is the first adaptive decentralized algorithm for nonconvex finite-sum optimization. Some experimental results demonstrate efficiency of our algorithms.
翻訳日:2024-08-20 17:14:27 公開日:2024-08-19
# 多段階パイプラインによる長期規制文書の要約

Summarizing long regulatory documents with a multi-step pipeline ( http://arxiv.org/abs/2408.09777v1 )

ライセンス: Link先を確認
Mika Sie, Ruby Beek, Michiel Bots, Sjaak Brinkkemper, Albert Gatt, (参考訳) その長さと複雑さのため、長い規制文書を要約することは困難である。 これを解決するために, 長期規制文書をより効果的に扱うために, 多段階抽出・拡張アーキテクチャを提案する。 本稿では,長い規則文を要約するための2段階アーキテクチャの有効性が,使用するモデルによって大きく異なることを示す。 具体的には、2段階アーキテクチャによりデコーダのみの性能が向上する。 コンテクスト長の短い抽象エンコーダ・デコーダモデルでは抽出ステップの有効性が異なるが、長文エンコーダ・デコーダモデルでは抽出ステップが性能を悪化させる。 この研究は、人や自動評価と異なる結果によって証明されるように、生成されたテキストを評価することの課題も強調する。 とりわけ人間による評価では、法的テキストで事前訓練された言語モデルが好まれ、自動化されたメトリクスは汎用言語モデルよりも上位にランクされた。 その結果、モデルアーキテクチャとコンテキスト長に基づいて、適切な要約戦略を選択することの重要性が浮き彫りになった。

Due to their length and complexity, long regulatory texts are challenging to summarize. To address this, a multi-step extractive-abstractive architecture is proposed to handle lengthy regulatory documents more effectively. In this paper, we show that the effectiveness of a two-step architecture for summarizing long regulatory texts varies significantly depending on the model used. Specifically, the two-step architecture improves the performance of decoder-only models. For abstractive encoder-decoder models with short context lengths, the effectiveness of an extractive step varies, whereas for long-context encoder-decoder models, the extractive step worsens their performance. This research also highlights the challenges of evaluating generated texts, as evidenced by the differing results from human and automated evaluations. Most notably, human evaluations favoured language models pretrained on legal text, while automated metrics rank general-purpose language models higher. The results underscore the importance of selecting the appropriate summarization strategy based on model architecture and context length.
翻訳日:2024-08-20 17:14:27 公開日:2024-08-19
# 量子相転移のプローブとしての量子気象能力

Quantum metrological capability as a probe for quantum phase transition ( http://arxiv.org/abs/2408.09783v1 )

ライセンス: Link先を確認
Xiangbei Li, Yaoming Chu, Shaoliang Zhang, Jianming Cai, (参考訳) 量子相転移(QPT)の理解は、多体物理学の分野における重要な基盤であると考えられている。 したがって、QPTを効果的に識別し、理解するプロトコルを開発することは、現在の量子シミュレーション実験において重要な課題である。 そこで本研究では,QPTハミルトニアンを単体干渉計の入力として用い,その進化状態を利用するゼロ温度QPTを探索する動的クエンチ・インターフェロメトリの枠組みを構築した。 量子フィッシャー情報によって定量化された量子論的能力は、量子臨界点付近でユニークなピークを示し、システムをその基底状態に冷却することなくQPTを探索することができる。 本研究では, 干渉計発生器の量子揺らぎを抽出し, 干渉計位相のパラメータ推定の不確かさを抽出し, 位相図の境界を同定することにより, 探索を実現できることを示す。 本研究は,QPTと量子力学の重要な関連性を確立し,現在の量子シミュレータにおける非平衡多体物理学研究のツールボックスを充実させるものである。

The comprehension of quantum phase transitions (QPTs) is considered as a critical foothold in the field of many-body physics. Developing protocols to effectively identify and understand QPTs thus represents a key but challenging task for present quantum simulation experiments. Here, we establish a dynamical quench-interferometric framework to probe a zero-temperature QPT, which utilizes the evolved state by quenching the QPT Hamiltonian as input of a unitary interferometer. The metrological capability quantified by the quantum Fisher information captivatingly shows an unique peak in the vicinity of the quantum critical point, allowing us to probe the QPT without cooling the system to its ground state. We show that the probing can be implemented by extracting quantum fluctuations of the interferometric generator as well as parameter estimation uncertainty of the interferometric phase, and subsequently allows identifying the boundary of the phase diagram. Our results establish an important link between QPTs and quantum metrology, and enrich the toolbox of studying non-equilibrium many-body physics in current quantum simulators.
翻訳日:2024-08-20 17:14:27 公開日:2024-08-19
# GoNoGo: 効率的なLCMベースのマルチエージェントシステム

GoNoGo: An Efficient LLM-based Multi-Agent System for Streamlining Automotive Software Release Decision-Making ( http://arxiv.org/abs/2408.09785v1 )

ライセンス: Link先を確認
Arsham Gholamzadeh Khoee, Yinan Yu, Robert Feldt, Andris Freimanis, Patrick Andersson, Dhasarathy Parthasarathy, (参考訳) 自動車業界におけるソフトウェアデプロイメントの決定を行う従来の手法は、通常、表形式のソフトウェアテストデータの手動分析に頼っている。 これらの手法は、労働集約性のために、ソフトウェアリリースサイクルのコストと遅延を高くすることが多い。 大規模言語モデル(LLM)はこれらの課題に対して有望な解決策を提供する。 しかし、そのアプリケーションは一般的に、人間主導のプロンプトエンジニアリングのラウンドを複数回必要としており、特に信頼性と効率的な結果を必要とする産業のエンドユーザーに対して、その実践的な展開を制限している。 本稿では,機能要件と実用的産業制約の両方を満たしつつ,自動車ソフトウェアデプロイメントを効率化するLLMエージェントシステムであるGoNoGoを提案する。 従来のシステムとは異なり、GoNoGoはドメイン固有でリスクに敏感なシステムに特化している。 我々は,産業実践から得たゼロショットと少数ショットの例を用いて,GoNoGoの性能を,異なる課題にまたがって評価した。 以上の結果から,GoNoGoは3ショットの例ではレベル2の難易度までのタスクを100%成功率で達成し,さらに複雑なタスクにおいても高いパフォーマンスを維持していることがわかった。 GoNoGoは、より簡単なタスクのための意思決定を効果的に自動化し、手作業による介入の必要性を大幅に低減します。 要約すると、GoNoGoは、我々の産業パートナーの会社で現在採用されている効率的でユーザフレンドリなLCMベースのソリューションであり、ソフトウェアのリリース決定を支援し、リスクに敏感な車両システムのリリースプロセスにおいて、より情報とタイムリーな決定をサポートします。

Traditional methods for making software deployment decisions in the automotive industry typically rely on manual analysis of tabular software test data. These methods often lead to higher costs and delays in the software release cycle due to their labor-intensive nature. Large Language Models (LLMs) present a promising solution to these challenges. However, their application generally demands multiple rounds of human-driven prompt engineering, which limits their practical deployment, particularly for industrial end-users who need reliable and efficient results. In this paper, we propose GoNoGo, an LLM agent system designed to streamline automotive software deployment while meeting both functional requirements and practical industrial constraints. Unlike previous systems, GoNoGo is specifically tailored to address domain-specific and risk-sensitive systems. We evaluate GoNoGo's performance across different task difficulties using zero-shot and few-shot examples taken from industrial practice. Our results show that GoNoGo achieves a 100% success rate for tasks up to Level 2 difficulty with 3-shot examples, and maintains high performance even for more complex tasks. We find that GoNoGo effectively automates decision-making for simpler tasks, significantly reducing the need for manual intervention. In summary, GoNoGo represents an efficient and user-friendly LLM-based solution currently employed in our industrial partner's company to assist with software release decision-making, supporting more informed and timely decisions in the release process for risk-sensitive vehicle systems.
翻訳日:2024-08-20 17:04:37 公開日:2024-08-19
# 合成ゼロショット学習のためのクロスコンポジション特徴分散

Cross-composition Feature Disentanglement for Compositional Zero-shot Learning ( http://arxiv.org/abs/2408.09786v1 )

ライセンス: Link先を確認
Yuxia Geng, Runkai Zhu, Jiaoyan Chen, Jintai Chen, Zhuo Chen, Xiang Chen, Can Xu, Yuxiang Wang, Xiaoliang Xu, (参考訳) プリミティブ(属性やオブジェクト)の視覚的特徴の分散は、コンポジションゼロショット学習(CZSL)において例外的な結果を示している。 しかし、属性(resp.オブジェクト)と異なるオブジェクト(resp.属性)を組み合わせると、属性(resp.オブジェクト)の特徴がばらばらになるため、異なるコンポジションにまたがる一般的でないプリミティブな特徴を学習することは困難である。 そこで本論文では,複数のプリミティブ共有合成を入力として取り込んで,これらの合成に対して一般化される不整合プリミティブ特徴を制約するクロスコンポジション特徴分散の解を提案する。 より具体的には、コンポジショングラフを利用して、コンポジション間の全体的な原始的共有関係を定義し、CLIPのフリーズテキストとイメージエンコーダに2つのクロスコンポジション・ディエンタングリングアダプタ(L-Adapter と V-Adapter と呼ばれる)を挿入して、最近成功している大規模視覚言語モデル(VLM)のCLIP上にタスク固有のアーキテクチャを構築する。 CZSLベンチマークの3つの評価結果から,提案手法はCZSLの性能を著しく改善することが示された。

Disentanglement of visual features of primitives (i.e., attributes and objects) has shown exceptional results in Compositional Zero-shot Learning (CZSL). However, due to the feature divergence of an attribute (resp. object) when combined with different objects (resp. attributes), it is challenging to learn disentangled primitive features that are general across different compositions. To this end, we propose the solution of cross-composition feature disentanglement, which takes multiple primitive-sharing compositions as inputs and constrains the disentangled primitive features to be general across these compositions. More specifically, we leverage a compositional graph to define the overall primitive-sharing relationships between compositions, and build a task-specific architecture upon the recently successful large pre-trained vision-language model (VLM) CLIP, with dual cross-composition disentangling adapters (called L-Adapter and V-Adapter) inserted into CLIP's frozen text and image encoders, respectively. Evaluation on three popular CZSL benchmarks shows that our proposed solution significantly improves the performance of CZSL, and its components have been verified by solid ablation studies.
翻訳日:2024-08-20 17:04:37 公開日:2024-08-19
# Anim-Director:制御可能なアニメーション映像生成のための大規模マルチモーダルモデル駆動エージェント

Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation ( http://arxiv.org/abs/2408.09787v1 )

ライセンス: Link先を確認
Yunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, Min Zhang, (参考訳) 従来のアニメーション生成方法は、人間のラベル付きデータによる生成モデルのトレーニングに依存しており、かなりの人的努力を必要とし、高いトレーニングコストを発生させる洗練された多段階パイプラインを必要とする。 限定的なプロンプト計画のため、これらの手法は通常、簡潔で情報量が少ない、コンテキスト非一貫性なアニメーションを生成する。 これらの制限を克服し、アニメーションプロセスを自動化するために、Anim-Directorという自律的なアニメーション作成エージェントを構築するためのコアプロセッサとして、大規模なマルチモーダルモデル(LMM)を導入した。 このエージェントは、LMMと生成AIツールの高度な理解と推論能力を利用して、簡潔な物語や簡単な指示からアニメーションビデオを作成する。 第一に、Anim-Directorはユーザー入力からコヒーレントなストーリーラインを生成し、続いて、キャラクタープロファイルとインテリア/エクステリア記述の設定を含む詳細なディレクターのスクリプト、出現するキャラクター、インテリアまたはインテリア、シーンイベントを含むコンテキストコヒーレントなシーン記述を生成する。 第2に、設定やシーンの視覚画像を生成するために、画像生成ツールを用いたLMMを用いる。 これらの画像は、シーン記述と出現するキャラクタと設定のイメージを組み合わせた視覚言語プロンプト手法を用いて、異なるシーン間での視覚的一貫性を維持するように設計されている。 第3に、シーンイメージはアニメーションビデオを作成する基盤として機能し、LMMがこのプロセスを導くプロンプトを生成する。 LMMは生成ツールとシームレスに相互作用し、プロンプトを生成し、視覚的品質を評価し、最終的なアウトプットを最適化するのに最適なものを選択する。

Traditional animation generation methods depend on training generative models with human-labelled data, entailing a sophisticated multi-stage pipeline that demands substantial human effort and incurs high training costs. Due to limited prompting plans, these methods typically produce brief, information-poor, and context-incoherent animations. To overcome these limitations and automate the animation process, we pioneer the introduction of large multimodal models (LMMs) as the core processor to build an autonomous animation-making agent, named Anim-Director. This agent mainly harnesses the advanced understanding and reasoning capabilities of LMMs and generative AI tools to create animated videos from concise narratives or simple instructions. Specifically, it operates in three main stages: Firstly, the Anim-Director generates a coherent storyline from user inputs, followed by a detailed director's script that encompasses settings of character profiles and interior/exterior descriptions, and context-coherent scene descriptions that include appearing characters, interiors or exteriors, and scene events. Secondly, we employ LMMs with the image generation tool to produce visual images of settings and scenes. These images are designed to maintain visual consistency across different scenes using a visual-language prompting method that combines scene descriptions and images of the appearing character and setting. Thirdly, scene images serve as the foundation for producing animated videos, with LMMs generating prompts to guide this process. The whole process is notably autonomous without manual intervention, as the LMMs interact seamlessly with generative tools to generate prompts, evaluate visual quality, and select the best one to optimize the final output.
翻訳日:2024-08-20 17:04:37 公開日:2024-08-19
# ネットワーク侵入プロファイリングにおける単純錯体

Simplicial complexes in network intrusion profiling ( http://arxiv.org/abs/2408.09788v1 )

ライセンス: Link先を確認
Mandala von Westenholz, Martin Atzmueller, Tim Römer, (参考訳) 我々は、各IPアドレスを介してグラフ内の頂点が関連付けられているような、それらのデータポイントに関連するネットワークを構築し、攻撃されたデータポイントがネットワーク構造の一部であるキープロパティを構築します。 より正確には、simplicial Complex を用いて、所望のネットワークと各侵入をsimplicial attribute の観点からモデル化し、従来のグラフベースのアプローチを一般化する新しいアプローチを提案する。 単体錯体に関連する適応型ネットワーク集中度尺度は、頂点に関連するいわゆるパターンを生じさせ、それら自身は一連の特徴を含む。 これらは、それぞれ攻撃されたか攻撃した頂点を記述するために使用される。 この新たな戦略を古典的概念と比較すると、侵入を検知・特徴づけするための単純な特徴を用いた提案手法の利点が示される。

For studying intrusion detection data we consider data points referring to individual IP addresses and their connections: We build networks associated with those data points, such that vertices in a graph are associated via the respective IP addresses, with the key property that attacked data points are part of the structure of the network. More precisely, we propose a novel approach using simplicial complexes to model the desired network and the respective intrusions in terms of simplicial attributes thus generalizing previous graph-based approaches. Adapted network centrality measures related to simplicial complexes yield so-called patterns associated to vertices, which themselves contain a set of features. These are then used to describe the attacked or the attacker vertices, respectively. Comparing this new strategy with classical concepts demonstrates the advantages of the presented approach using simplicial features for detecting and characterizing intrusions.
翻訳日:2024-08-20 17:04:37 公開日:2024-08-19
# グラフクラスタリングのための構造強化コントラスト学習

Structure-enhanced Contrastive Learning for Graph Clustering ( http://arxiv.org/abs/2408.09790v1 )

ライセンス: Link先を確認
Xunlian Wu, Jingqi Hu, Anqi Zhang, Yining Quan, Qiguang Miao, Peng Gang Sun, (参考訳) グラフクラスタリングは、広範囲にわたるアプリケーションによるネットワーク分析において重要なタスクであり、グループ間接続よりもグループ間接続が強い異なるグループにノードを分割することに焦点を当てている。 近年,グラフクラスタリングにおいて,コントラスト学習は大きな進歩を遂げている。 しかし、ほとんどの手法は以下の問題に悩まされる。 1) 厳密に設計されたデータ拡張戦略への過度な信頼は、対照的な学習の可能性を損なう可能性がある。 2) クラスタ指向構造情報,特にネットワークのメソスコピッククラスタ構造情報を明らかにする高次クラスタ(コミュニティ)構造情報を見渡す。 本研究では,ネットワーク構造を利用した構造強化コントラスト学習(SECL)を提案する。 SECLはクロスビューのコントラスト学習機構を利用して、精巧なデータ拡張なしにノード埋め込みを強化し、構造的一貫性を保証する構造的コントラスト学習モジュールと、クラスタリング指向の情報を活用するモジュール性最大化戦略を利用する。 この包括的なアプローチは、クラスタリング性能を大幅に向上させる堅牢なノード表現をもたらす。 6つのデータセットに対する大規模な実験により、SECLが現在の最先端手法よりも優れていることが確認され、グラフクラスタリングの領域が大幅に改善された。

Graph clustering is a crucial task in network analysis with widespread applications, focusing on partitioning nodes into distinct groups with stronger intra-group connections than inter-group ones. Recently, contrastive learning has achieved significant progress in graph clustering. However, most methods suffer from the following issues: 1) an over-reliance on meticulously designed data augmentation strategies, which can undermine the potential of contrastive learning. 2) overlooking cluster-oriented structural information, particularly the higher-order cluster(community) structure information, which could unveil the mesoscopic cluster structure information of the network. In this study, Structure-enhanced Contrastive Learning (SECL) is introduced to addresses these issues by leveraging inherent network structures. SECL utilizes a cross-view contrastive learning mechanism to enhance node embeddings without elaborate data augmentations, a structural contrastive learning module for ensuring structural consistency, and a modularity maximization strategy for harnessing clustering-oriented information. This comprehensive approach results in robust node representations that greatly enhance clustering performance. Extensive experiments on six datasets confirm SECL's superiority over current state-of-the-art methods, indicating a substantial improvement in the domain of graph clustering.
翻訳日:2024-08-20 17:04:37 公開日:2024-08-19
# ALTBI:inlier-memorization効果の最適化による改善された外乱検出モデルの構築

ALTBI: Constructing Improved Outlier Detection Models via Optimization of Inlier-Memorization Effect ( http://arxiv.org/abs/2408.09791v1 )

ライセンス: Link先を確認
Seoyoung Cho, Jaesung Hwang, Kwan-Young Bak, Dongha Kim, (参考訳) 外乱検出(英: Outlier detection, OD)とは、異常な観測(または外乱)を、通常の観測(または外乱)のユニークなパターンを学習することによって、与えられたデータから特定するタスクである。 近年の研究では、非教師なしOD(UOD)ソルバを導入し、Irlier-memorization(IM)エフェクトと呼ばれる、深層生成モデルの新たな観測を行った。 本研究では, IM 効果を最大限に活用して, UOD 課題に対処する理論的原理的手法を開発することを目的とする。 まず,トレーニングデータに外れ値が少ない場合に,IM効果をより明確に観察することから始める。 この結果は、損失関数を設計する際、ミニバッチからアウトリーチを効果的に排除できる場合、UOD体制におけるIM効果を高める可能性を示している。 この目的のために、我々は2つの主要なテクニックを紹介します。 1)モデルトレーニングが進むにつれてミニバッチサイズが大きくなる。 2) 適応しきい値を用いて乱れた損失関数を計算する。 理論的には、これらの2つの手法は、停止した損失関数から外れ値を効果的にフィルタリングし、IM効果を最大限活用できることが示される。 追加のアンサンブル戦略と組み合わさって,Aaptive Loss Truncation with Batch Increment (ALTBI) と呼ぶ手法を提案する。 ALTBIは,計算コストを著しく低減しつつも,最近の手法と比較して,外れ値の同定において最先端の性能を達成できることを実証するために,広範な実験結果を提供する。 さらに,プライバシ保存アルゴリズムと組み合わせることで,ロバストな性能が得られることを示す。

Outlier detection (OD) is the task of identifying unusual observations (or outliers) from a given or upcoming data by learning unique patterns of normal observations (or inliers). Recently, a study introduced a powerful unsupervised OD (UOD) solver based on a new observation of deep generative models, called inlier-memorization (IM) effect, which suggests that generative models memorize inliers before outliers in early learning stages. In this study, we aim to develop a theoretically principled method to address UOD tasks by maximally utilizing the IM effect. We begin by observing that the IM effect is observed more clearly when the given training data contain fewer outliers. This finding indicates a potential for enhancing the IM effect in UOD regimes if we can effectively exclude outliers from mini-batches when designing the loss function. To this end, we introduce two main techniques: 1) increasing the mini-batch size as the model training proceeds and 2) using an adaptive threshold to calculate the truncated loss function. We theoretically show that these two techniques effectively filter out outliers from the truncated loss function, allowing us to utilize the IM effect to the fullest. Coupled with an additional ensemble strategy, we propose our method and term it Adaptive Loss Truncation with Batch Increment (ALTBI). We provide extensive experimental results to demonstrate that ALTBI achieves state-of-the-art performance in identifying outliers compared to other recent methods, even with significantly lower computation costs. Additionally, we show that our method yields robust performances when combined with privacy-preserving algorithms.
翻訳日:2024-08-20 17:04:37 公開日:2024-08-19
# 音声のための教師なし構成可能表現

Unsupervised Composable Representations for Audio ( http://arxiv.org/abs/2408.09792v1 )

ライセンス: Link先を確認
Giovanni Bindi, Philippe Esling, (参考訳) 現在の生成モデルは高品質な人工物を生成することができるが、単純な要素から複雑な構造を生成する能力として定義できる構成的推論に苦戦することが示されている。 本稿では,音楽データに対する合成表現学習の課題,特に教師なし設定を対象とする問題に焦点をあてる。 本稿では,現在最先端の生成モデルのいずれかを活用可能な,フレキシブルな自動符号化目標によって定義された,明示的な構成帰納バイアスを活用する,シンプルで拡張可能なフレームワークを提案する。 拡散モデルを用いた我々のフレームワークは、教師なし音源分離の課題に自然に対処し、高品質な分離を行うことができることを示す。 その結果,提案手法は,他のブラインド音源分離手法と同等あるいは優れた性能を示し,さらに,信号対干渉比の計測値に対する現状管理ベースラインを超越していることが明らかとなった。 さらに,コンポーザブル表現の空間において,非教師なし音源分離,無条件生成,変分生成をシームレスに行うことができるシステムを実現する。 最後に、我々の提案は、トレーニング済みのニューラルオーディオコーデックの潜在領域で動作するため、他のニューラルベースラインに対する計算コストも低くなります。

Current generative models are able to generate high-quality artefacts but have been shown to struggle with compositional reasoning, which can be defined as the ability to generate complex structures from simpler elements. In this paper, we focus on the problem of compositional representation learning for music data, specifically targeting the fully-unsupervised setting. We propose a simple and extensible framework that leverages an explicit compositional inductive bias, defined by a flexible auto-encoding objective that can leverage any of the current state-of-art generative models. We demonstrate that our framework, used with diffusion models, naturally addresses the task of unsupervised audio source separation, showing that our model is able to perform high-quality separation. Our findings reveal that our proposal achieves comparable or superior performance with respect to other blind source separation methods and, furthermore, it even surpasses current state-of-art supervised baselines on signal-to-interference ratio metrics. Additionally, by learning an a-posteriori masking diffusion model in the space of composable representations, we achieve a system capable of seamlessly performing unsupervised source separation, unconditional generation, and variation generation. Finally, as our proposal works in the latent space of pre-trained neural audio codecs, it also provides a lower computational cost with respect to other neural baselines.
翻訳日:2024-08-20 17:04:37 公開日:2024-08-19
# 自動ML誘導によるエンティティとLLMに基づく表現の融合

AutoML-guided Fusion of Entity and LLM-based representations ( http://arxiv.org/abs/2408.09794v1 )

ライセンス: Link先を確認
Boshko Koloski, Senja Pollak, Roberto Navigli, Blaž Škrlj, (参考訳) 大規模な意味的知識基盤は、事実的知識に根ざしている。 しかし、近年の高密度テキスト表現(埋め込み)へのアプローチは、これらの資源を効果的に活用していない。 ダウンストリーム分類と検索タスクを効果的に解決するためには,文書の高密度かつ堅牢な表現が不可欠である。 本研究は, 知識ベースから埋め込み情報を注入することで, テキスト分類作業において, 現代言語モデル(LLM)に基づく表現の性能を向上できることを実証する。 さらに、融合表現空間を持つ自動機械学習(AutoML)を考慮し、効率的な行列分解により得られた元の表現空間の低次元投影を用いても分類精度を向上させることができることを示した。 この結果は、6つの異なる実生活データセット上で5つの強力なLCMベースラインを用いて示されるように、予測性能の損失を最小限に抑えて、はるかに高速な分類器を実現できることを示している。

Large semantic knowledge bases are grounded in factual knowledge. However, recent approaches to dense text representations (embeddings) do not efficiently exploit these resources. Dense and robust representations of documents are essential for effectively solving downstream classification and retrieval tasks. This work demonstrates that injecting embedded information from knowledge bases can augment the performance of contemporary Large Language Model (LLM)-based representations for the task of text classification. Further, by considering automated machine learning (AutoML) with the fused representation space, we demonstrate it is possible to improve classification accuracy even if we use low-dimensional projections of the original representation space obtained via efficient matrix factorization. This result shows that significantly faster classifiers can be achieved with minimal or no loss in predictive performance, as demonstrated using five strong LLM baselines on six diverse real-life datasets.
翻訳日:2024-08-20 17:04:37 公開日:2024-08-19
# テキスト中心型マルチモーダルアライメントにおける逆数プロンプトによるモダリティロバスト性向上

Enhance Modality Robustness in Text-Centric Multimodal Alignment with Adversarial Prompting ( http://arxiv.org/abs/2408.09798v1 )

ライセンス: Link先を確認
Yun-Da Tsai, Ting-Yu Yen, Keng-Te Liao, Shou-De Lin, (参考訳) 様々なモダリティを一般化されたテキストに変換し、大きな言語モデル(LLM)の入力プロンプトとして機能する。 テキスト中心アライメント法は、テキストのユニークな性質をモダリティ空間として活用し、多様な入力を統一されたテキスト表現に変換することにより、下流モデルで様々なモーダル入力を効果的に解釈することができる。 本研究は, 雑音不完全, 動的入力順序順順, モダリティの欠如に面したマルチモーダル表現の品質とロバスト性を評価し, 現行のテキスト中心アライメント手法が下流のロバスト性を損なうことを示した。 そこで本研究では,従来の頑健なトレーニング手法や事前学習型マルチモーダル基礎モデルと比較して,頑健性を大幅に向上させる,テキスト中心の対角訓練手法を提案する。 本研究は,マルチモーダル表現の堅牢性と適応性を向上させるためのこのアプローチの可能性を明らかにし,動的および実世界のアプリケーションに対して有望なソリューションを提供する。

Converting different modalities into generalized text, which then serves as input prompts for large language models (LLMs), is a common approach for aligning multimodal models, particularly when pairwise data is limited. Text-centric alignment method leverages the unique properties of text as a modality space, transforming diverse inputs into a unified textual representation, thereby enabling downstream models to effectively interpret various modal inputs. This study evaluates the quality and robustness of multimodal representations in the face of noise imperfections, dynamic input order permutations, and missing modalities, revealing that current text-centric alignment methods can compromise downstream robustness. To address this issue, we propose a new text-centric adversarial training approach that significantly enhances robustness compared to traditional robust training methods and pre-trained multimodal foundation models. Our findings underscore the potential of this approach to improve the robustness and adaptability of multimodal representations, offering a promising solution for dynamic and real-world applications.
翻訳日:2024-08-20 17:04:37 公開日:2024-08-19
# ガイド付き文書表生成のための潜時拡散

Latent Diffusion for Guided Document Table Generation ( http://arxiv.org/abs/2408.09800v1 )

ライセンス: Link先を確認
Syed Jawwad Haider Hamdani, Saifullah Saifullah, Stefan Agne, Andreas Dengel, Sheraz Ahmed, (参考訳) 複雑なテーブルに対する注釈付きテーブル構造データを取得することは、現実世界のドキュメントレイアウトに固有の多様性と複雑さのため、難しい作業である。 複雑なテーブル構造のための包括的なアノテーションを備えた公開データセットの不足は、そのようなシナリオ用に設計されたモデルの開発と評価を妨げる。 本研究では,列と列の条件付きマスク画像を利用して,テーブル構造のための注釈付き画像を生成する手法を提案する。 提案手法は,物体検出モデルの訓練に使用される合成データの質を高めることを目的としている。 具体的には、複雑な文書表画像の生成を誘導する条件付け機構を用いて、テーブルレイアウトの現実的な表現を保証する。 生成したデータの有効性を評価するために、一般的なYOLOv5オブジェクト検出モデルを用いてトレーニングを行う。 生成されたテーブルイメージは貴重なトレーニングサンプルとして機能し、さまざまなテーブル構造を持つデータセットを充実させる。 このモデルはその後、複雑なドキュメントレイアウトにおけるテーブル構造認識のベンチマークである、挑戦的なpubtables-1mテストセットでテストされる。 実験結果から, 提案手法により学習用合成データの品質が大幅に向上し, 性能が向上したYOLOv5モデルが得られた。 pubtables-1mテストセットで得られた平均平均精度(mAP)値は、最先端の手法と密接に一致した結果を示す。 さらに、合成データから得られた低FID結果により、テーブル構造に対する注釈付き画像の生成における提案手法の有効性がさらに検証された。

Obtaining annotated table structure data for complex tables is a challenging task due to the inherent diversity and complexity of real-world document layouts. The scarcity of publicly available datasets with comprehensive annotations for intricate table structures hinders the development and evaluation of models designed for such scenarios. This research paper introduces a novel approach for generating annotated images for table structure by leveraging conditioned mask images of rows and columns through the application of latent diffusion models. The proposed method aims to enhance the quality of synthetic data used for training object detection models. Specifically, the study employs a conditioning mechanism to guide the generation of complex document table images, ensuring a realistic representation of table layouts. To evaluate the effectiveness of the generated data, we employ the popular YOLOv5 object detection model for training. The generated table images serve as valuable training samples, enriching the dataset with diverse table structures. The model is subsequently tested on the challenging pubtables-1m testset, a benchmark for table structure recognition in complex document layouts. Experimental results demonstrate that the introduced approach significantly improves the quality of synthetic data for training, leading to YOLOv5 models with enhanced performance. The mean Average Precision (mAP) values obtained on the pubtables-1m testset showcase results closely aligned with state-of-the-art methods. Furthermore, low FID results obtained on the synthetic data further validate the efficacy of the proposed methodology in generating annotated images for table structure.
翻訳日:2024-08-20 17:04:37 公開日:2024-08-19
# 減圧環境下における三部晶系における絡み合い分布の持続可能性

Sustainability of distribution of entanglement in tripartite systems under dephasing environment ( http://arxiv.org/abs/2408.09801v1 )

ライセンス: Link先を確認
Sovik Roy, Chandrashekar Radhakrishnan, Abhijit Mandal, Md. Manirul Ali, (参考訳) デコヒーレンス中のマルチパーティの絡み合いを保存することは、量子情報処理において重要な課題となる。 また, 脱コヒーレンス中の混合状態における多粒子の絡み合いの測定は, 重大な課題となる。 貯水池メモリを利用することで、マルチパーティイトの絡み合いに影響を及ぼすデコヒーレンスダイナミクスを緩和し、その劣化を遅くする手段を提供する。 本研究では, マルコフ力学と非マルコフ力学の両面において, 有限温度における構造劣化環境下での純および混合状態における三部構造系の絡み合いの分布について検討する。 ここでは,3つの量子ビットが共通貯水池にある状況と,各量子ビットが局所ボソニック貯水池にある状況について考察する。 また, 量子系の脱コヒーレンスに対する堅牢性は, 絡み合いの分布と浴槽の異なる構成との相互作用に依存することを示した。 各キュービットが独自のローカル環境を持つ場合、システムは3つのキュービットが共通の環境を共有する場合と比較して異なるダイナミクスを示す。 さらに, 貯水池メモリの存在下では, 劣化力学下での三部晶系における絡み合い分布の持続性が著しく向上する。

Preserving multipartite entanglement amidst decoherence poses a pivotal challenge in quantum information processing. Also the measurement of multipartite entanglement in mixed states amid decoherence presents a formidable task. Employing reservoir memory offers a means to attenuate the decoherence dynamics impacting multipartite entanglement, slowing its degradation. In this work, we investigate the distribution of entanglement in tripartite systems for both pure and mixed states under a structured dephasing environment at finite temperature under both Markovian and Non-Markovian dynamics. Here, we consider situation where the three qubits in a common reservoir and also the situation where each qubit is in a local bosonic reservoir. We have also shown that the robustness of a quantum system to decoherence depends on the distribution of entanglement and its interaction with the different configurations of the bath. When each qubit has its own local environment, the system exhibits different dynamics compared to when all three qubits share a common environment. Furthermore, in the presence of the reservoir memory, the sustainability of distribution of entanglement in a tripartite system under dephasing dynamics is significantly enhanced.
翻訳日:2024-08-20 17:04:37 公開日:2024-08-19
# 顔を聴く:F0推定による顔に基づく音声変換

Hear Your Face: Face-based voice conversion with F0 estimation ( http://arxiv.org/abs/2408.09802v1 )

ライセンス: Link先を確認
Jaejun Lee, Yoori Oh, Injune Hwang, Kyogu Lee, (参考訳) 本論文は、顔の特徴と声質との関係を生かして、顔に基づく音声変換の新たな分野を掘り下げるものである。 本稿では,ターゲット話者の平均基本周波数を顔画像のみから導出した,顔に基づく音声変換フレームワークを提案する。 広範に分析することで,対象話者の基本周波数の追跡を含む,顔の特徴と音声特徴とを一致させることのできる,優れた音声生成品質を示す。

This paper delves into the emerging field of face-based voice conversion, leveraging the unique relationship between an individual's facial features and their vocal characteristics. We present a novel face-based voice conversion framework that particularly utilizes the average fundamental frequency of the target speaker, derived solely from their facial images. Through extensive analysis, our framework demonstrates superior speech generation quality and the ability to align facial features with voice characteristics, including tracking of the target speaker's fundamental frequency.
翻訳日:2024-08-20 17:04:37 公開日:2024-08-19
# 強化学習における世界モデルによる自律性向上

World Models Increase Autonomy in Reinforcement Learning ( http://arxiv.org/abs/2408.09807v1 )

ライセンス: Link先を確認
Zhao Yang, Thomas M. Moerland, Mike Preuss, Edward S. Hu, (参考訳) 強化学習(Reinforcement Learning, RL)は、知的エージェントを訓練するための魅力的なパラダイムであり、エージェント自身が自律的に獲得した経験からポリシーの取得を可能にする。 しかし、RLのトレーニングプロセスは自動的ではなく、エージェントと環境をリセットするために広範囲の人的努力を必要とする。 この課題に対処するために、まずモデルベース(MB)RL手法の優位性を示す。 次に、この直接拡張に固有の制限を特定し、モデルベースリセットフリー(MoReFree)エージェントと呼ばれるソリューションを提案し、パフォーマンスをさらに向上させる。 MoReFreeは2つの重要なメカニズム、探索とポリシー学習を適用し、タスク関連状態を優先順位付けすることでリセット不要なタスクを処理する。 環境報酬やデモンストレーションにアクセスできることなく、様々なリセットのないタスクに対して優れたデータ効率を示し、監督を必要とする特権ベースラインを大幅に上回っている。 以上より,RLにおける人的労力を減らすためのモデルベース手法が有望であることが示唆された。 Webサイト: https://sites.google.com/view/morefree

Reinforcement learning (RL) is an appealing paradigm for training intelligent agents, enabling policy acquisition from the agent's own autonomously acquired experience. However, the training process of RL is far from automatic, requiring extensive human effort to reset the agent and environments. To tackle the challenging reset-free setting, we first demonstrate the superiority of model-based (MB) RL methods in such setting, showing that a straightforward adaptation of MBRL can outperform all the prior state-of-the-art methods while requiring less supervision. We then identify limitations inherent to this direct extension and propose a solution called model-based reset-free (MoReFree) agent, which further enhances the performance. MoReFree adapts two key mechanisms, exploration and policy learning, to handle reset-free tasks by prioritizing task-relevant states. It exhibits superior data-efficiency across various reset-free tasks without access to environmental reward or demonstrations while significantly outperforming privileged baselines that require supervision. Our findings suggest model-based methods hold significant promise for reducing human effort in RL. Website: https://sites.google.com/view/morefree
翻訳日:2024-08-20 17:04:37 公開日:2024-08-19
# デバイス上でのユーザインテント予測に事前学習したLMを適応するための集団間個別チューニングフレームワーク

A Population-to-individual Tuning Framework for Adapting Pretrained LM to On-device User Intent Prediction ( http://arxiv.org/abs/2408.09815v1 )

ライセンス: Link先を確認
Jiahui Gong, Jingtao Ding, Fanjin Meng, Guilong Chen, Hong Chen, Shen Zhao, Haisheng Lu, Yong Li, (参考訳) モバイルデバイス、特にスマートフォンは、リッチな機能をサポートし、日常生活において欠かせないツールへと発展してきた。 生成AIサービスの台頭により、スマートフォンはパーソナライズされたアシスタントに変身し、ユーザーのニーズを予測し、サービスのスケジューリングを行う可能性がある。 スマートフォン上でのユーザの意図を予測し、過去のインタラクションとコンテキストに基づいた期待されたアクティビティを反映することは、このビジョンに向けた重要なステップである。 既存の研究は主に特定のドメインに焦点を当てており、動的コンテキストにまたがる多様なイベントシーケンスをモデル化するという課題を無視している。 プレトレーニング言語モデル(PLM)の活用は、有望な道のりを提供するが、デバイス上のユーザ意図の予測にPLMを適用することは大きな課題である。 これらの課題に対処するため,我々はPITuning(Population-to-Individual Tuning)フレームワークを提案する。 PITuningは動的イベント・ツー・インテント・トランジション・モデリングを通じて共通パターン抽出を強化し、適応的アンラーニング戦略を通じて長い好みに対処する。 実世界のデータセットに対する実験結果は、PITuningの優れた意図予測性能を示し、長い尾の好みを捉える能力とデバイス上の予測シナリオの実用性を強調している。

Mobile devices, especially smartphones, can support rich functions and have developed into indispensable tools in daily life. With the rise of generative AI services, smartphones can potentially transform into personalized assistants, anticipating user needs and scheduling services accordingly. Predicting user intents on smartphones, and reflecting anticipated activities based on past interactions and context, remains a pivotal step towards this vision. Existing research predominantly focuses on specific domains, neglecting the challenge of modeling diverse event sequences across dynamic contexts. Leveraging pre-trained language models (PLMs) offers a promising avenue, yet adapting PLMs to on-device user intent prediction presents significant challenges. To address these challenges, we propose PITuning, a Population-to-Individual Tuning framework. PITuning enhances common pattern extraction through dynamic event-to-intent transition modeling and addresses long-tailed preferences via adaptive unlearning strategies. Experimental results on real-world datasets demonstrate PITuning's superior intent prediction performance, highlighting its ability to capture long-tailed preferences and its practicality for on-device prediction scenarios.
翻訳日:2024-08-20 17:04:37 公開日:2024-08-19
# 非偏見学習をランク付けするためのリストワイド蒸留を用いた文脈二元学習アルゴリズム

Contextual Dual Learning Algorithm with Listwise Distillation for Unbiased Learning to Rank ( http://arxiv.org/abs/2408.09817v1 )

ライセンス: Link先を確認
Lulu Yu, Keping Bi, Shiyu Ni, Jiafeng Guo, (参考訳) Unbiased Learning to Rank (ULTR)は、バイアスのないユーザのフィードバック(例えばクリック)を活用して、バイアスのないランキングモデルを最適化することを目的としている。 既存のULTR法の有効性は、主に合成データセット上で検証されている。 しかし、実際のクリックデータのパフォーマンスは未だに不明である。 最近Baiduは、彼らのWeb検索ログの大規模な公開データセットをリリースした。 その後、NTCIR-17 ULTRE-2タスクは、そこから抽出されたサブセットデータセットをリリースした。 このサブセット上で, 一般的に用いられているULTR法や有効なULTR法を用いて, 有効性を維持するかどうかを判定する実験を行った。 本稿では、位置バイアスと文脈バイアスを同時に扱うために、リストワイズ蒸留(CDLA-LD)を用いた文脈二重学習アルゴリズムを提案する。 我々は、リストワイズ・インプット・ランキングモデルを用いて、局所的な文脈情報を取り入れた再構成された特徴ベクトルを求め、DLA法を用いて、このランキングモデルと確率モデルとを併用して、位置バイアスに対処する。 このランキングモデルは、トレーニングセットの文書リスト内の相互作用情報を学習し、ランキングモデルの一般化能力を高めるため、リストワイズインプットランキングモデルの関連判断能力をリストワイズに学習するために、ポイントワイズインプットランキングモデルをトレーニングする。 大規模な実験と分析により,本手法の有効性が確認された。

Unbiased Learning to Rank (ULTR) aims to leverage biased implicit user feedback (e.g., click) to optimize an unbiased ranking model. The effectiveness of the existing ULTR methods has primarily been validated on synthetic datasets. However, their performance on real-world click data remains unclear. Recently, Baidu released a large publicly available dataset of their web search logs. Subsequently, the NTCIR-17 ULTRE-2 task released a subset dataset extracted from it. We conduct experiments on commonly used or effective ULTR methods on this subset to determine whether they maintain their effectiveness. In this paper, we propose a Contextual Dual Learning Algorithm with Listwise Distillation (CDLA-LD) to simultaneously address both position bias and contextual bias. We utilize a listwise-input ranking model to obtain reconstructed feature vectors incorporating local contextual information and employ the Dual Learning Algorithm (DLA) method to jointly train this ranking model and a propensity model to address position bias. As this ranking model learns the interaction information within the documents list of the training set, to enhance the ranking model's generalization ability, we additionally train a pointwise-input ranking model to learn the listwise-input ranking model's capability for relevance judgment in a listwise manner. Extensive experiments and analysis confirm the effectiveness of our approach.
翻訳日:2024-08-20 17:04:37 公開日:2024-08-19
# 高速GPUシミュレーションのための液体フーリエ潜時ダイナミクスネットワーク

Liquid Fourier Latent Dynamics Networks for fast GPU-based numerical simulations in computational cardiology ( http://arxiv.org/abs/2408.09818v1 )

ライセンス: Link先を確認
Matteo Salvador, Alison L. Marsden, (参考訳) 科学機械学習(ML)は多くの工学的応用において、物理学に基づく数値解法に代わる費用対効果として勢いを増している。 実際、科学MLは現在、高忠実度数値シミュレーションから始まる正確で効率的な代理モデルの構築、正規微分方程式(ODE)の根底にあるパラメータ化された時間的ダイナミクス、あるいは内部微分方程式(PDE)の根底にある時空間的挙動を適切に設計されたニューラルネットワークに効果的にエンコードするために使われています。 複素測地上での高非線形微分方程式の多スケールおよび多物理集合に対するパラメータ化時空間サロゲートモデルを作成するために、LDNet(Liquid Fourier LDNets)の拡張を提案する。 LFLDNetは、時間的ダイナミクスのために神経学的にインスパイアされたスパースな液体ニューラルネットワークを使用し、時間的進歩のための数値ソルバの要求を緩和し、フィードフォワード完全連結ニューラルネットワークに基づくニューラルネットワークに関して、調整可能なパラメータ、正確性、効率、学習された軌跡の点で優れたパフォーマンスをもたらす。 さらに, LFLDNetsの実装では, 空間座標を直接入力として使用するよりも, 周波数関数をより高速に学習するために, チューナブルカーネルをリコンストラクションネットワークに組み込んだフーリエを用いた。 計算心臓学の枠組みとしてLFLDNetに挑戦し,多スケール心電気生理学的および心血管血行動態から生じる2次元テストケースでそれらの能力を評価した。 本稿では,単一または複数のGPU上で,人工知能に基づく数値シミュレーションを数分で実行できることを示し,物理インフォームドデジタルツインの開発において大きな前進を示す。

Scientific Machine Learning (ML) is gaining momentum as a cost-effective alternative to physics-based numerical solvers in many engineering applications. In fact, scientific ML is currently being used to build accurate and efficient surrogate models starting from high-fidelity numerical simulations, effectively encoding the parameterized temporal dynamics underlying Ordinary Differential Equations (ODEs), or even the spatio-temporal behavior underlying Partial Differential Equations (PDEs), in appropriately designed neural networks. We propose an extension of Latent Dynamics Networks (LDNets), namely Liquid Fourier LDNets (LFLDNets), to create parameterized space-time surrogate models for multiscale and multiphysics sets of highly nonlinear differential equations on complex geometries. LFLDNets employ a neurologically-inspired, sparse, liquid neural network for temporal dynamics, relaxing the requirement of a numerical solver for time advancement and leading to superior performance in terms of tunable parameters, accuracy, efficiency and learned trajectories with respect to neural ODEs based on feedforward fully-connected neural networks. Furthermore, in our implementation of LFLDNets, we use a Fourier embedding with a tunable kernel in the reconstruction network to learn high-frequency functions better and faster than using space coordinates directly as input. We challenge LFLDNets in the framework of computational cardiology and evaluate their capabilities on two 3-dimensional test cases arising from multiscale cardiac electrophysiology and cardiovascular hemodynamics. This paper illustrates the capability to run Artificial Intelligence-based numerical simulations on single or multiple GPUs in a matter of minutes and represents a significant step forward in the development of physics-informed digital twins.
翻訳日:2024-08-20 16:54:42 公開日:2024-08-19
# CMoralEval:中国の大規模言語モデルのモラル評価ベンチマーク

CMoralEval: A Moral Evaluation Benchmark for Chinese Large Language Models ( http://arxiv.org/abs/2408.09819v1 )

ライセンス: Link先を確認
Linhao Yu, Yongqi Leng, Yufei Huang, Shang Wu, Haixin Liu, Xinmeng Ji, Jiahui Zhao, Jinwang Song, Tingting Cui, Xiaoqing Cheng, Tao Liu, Deyi Xiong, (参考訳) 倫理的に関連する文脈で、どんな大きな言語モデル(LLM)が反応するのか? 本稿では,中国のLLMの道徳評価のための大規模なベンチマークCMoralEvalをキュレートする。 CMoralEvalのデータソースは2倍です。 1)中国の道徳規範と社会の物語を議論する中国のテレビ番組 2)道徳に関する諸新聞・学術論文の漢文の抄録。 これらの資料を用いて,多様性と信頼性を特徴とする道徳評価データセットの構築を目指す。 我々は、伝統的な中国文化に根ざしただけでなく、現代の社会規範と整合した道徳的分類学と基本的な道徳原理のセットを開発する。 CMoralEvalにおけるインスタンスの効率的な構築とアノテーションを容易にするため,アノテーションプロセスの合理化を目的としたAI支援インスタンス生成プラットフォームを構築した。 これらは、明示的なモラルシナリオ(14,964インスタンス)とモラルジレンマシナリオ(15,424インスタンス)の両方を含むCMoralEvalを、それぞれ異なるデータソースのインスタンスでキュレートするのに役立ちます。 我々は, CMoralEval を用いて, 様々な中国の LLM について広範な実験を行った。 CMoralEvalは中国のLLMにとって難しいベンチマークであることを示す実験結果が得られた。 データセットは \url{https://github.com/tjunlp-lab/CMoralEval} で公開されている。

What a large language model (LLM) would respond in ethically relevant context? In this paper, we curate a large benchmark CMoralEval for morality evaluation of Chinese LLMs. The data sources of CMoralEval are two-fold: 1) a Chinese TV program discussing Chinese moral norms with stories from the society and 2) a collection of Chinese moral anomies from various newspapers and academic papers on morality. With these sources, we aim to create a moral evaluation dataset characterized by diversity and authenticity. We develop a morality taxonomy and a set of fundamental moral principles that are not only rooted in traditional Chinese culture but also consistent with contemporary societal norms. To facilitate efficient construction and annotation of instances in CMoralEval, we establish a platform with AI-assisted instance generation to streamline the annotation process. These help us curate CMoralEval that encompasses both explicit moral scenarios (14,964 instances) and moral dilemma scenarios (15,424 instances), each with instances from different data sources. We conduct extensive experiments with CMoralEval to examine a variety of Chinese LLMs. Experiment results demonstrate that CMoralEval is a challenging benchmark for Chinese LLMs. The dataset is publicly available at \url{https://github.com/tjunlp-lab/CMoralEval}.
翻訳日:2024-08-20 16:54:42 公開日:2024-08-19
# 量子チャネル、複素スティーフェル多様体および最適化

Quantum channels, complex Stiefel manifolds, and optimization ( http://arxiv.org/abs/2408.09820v1 )

ライセンス: Link先を確認
Ivan Russkikh, Boris Volkov, Alexander Pechen, (参考訳) 開量子系のほとんどの一般力学は、完全に正のトレース保存写像(CPTPまたはクラウス写像)である量子チャネルによって表される。 よく知られているのは、Choi行列とKraus operator-sum表現(OSR)による量子チャネルの表現である。 前述したように、クラウスOSRを用いて、ある複素スティーフェル多様体のユニタリ群の作用の下で、適切な商の点によって量子チャネルをパラメータ化することができる。 本研究では、量子チャネルの位相空間と複素スティーフェル多様体の商の間の連続性関係(同型)を確立する。 すると、スティーフェル多様体上のリーマン計量によって誘導される量子チャネルの集合上の計量が定義される。 確立された関係は、様々な量子最適化問題に適用できる。 例えば、複素シュティーフェル多様体上で定義される多種多様な量子制御対象関数に対して、平均値、量子ゲートの生成、エントロピーを含む熱力学量などのエクストリーム点の解析に適用する。

Most general dynamics of an open quantum system is commonly represented by a quantum channel, which is a completely positive trace-preserving map (CPTP or Kraus map). Well-known are the representations of quantum channels by Choi matrices and by Kraus operator-sum representation (OSR). As was shown before, one can use Kraus OSR to parameterize quantum channels by points of a suitable quotient under the action of the unitary group of some complex Stiefel manifold. In this work, we establish a continuity relation (homeomorphism) between the topological space of quantum channels and the quotient of the complex Stiefel manifold. Then the metric on the set of quantum channels induced by the Riemannian metric on the Stiefel manifold is defined. The established relation can be applied to various quantum optimization problems. As an example, we apply it to the analysis of extrema points for a wide variety of quantum control objective functionals defined on the complex Stiefel manifolds, including mean value, generation of quantum gates, thermodynamic quantities involving entropy, etc.
翻訳日:2024-08-20 16:54:42 公開日:2024-08-19
# 力学系に基づくシンプレクティックニューラルネットワーク

Symplectic Neural Networks Based on Dynamical Systems ( http://arxiv.org/abs/2408.09821v1 )

ライセンス: Link先を確認
Benjamin K Tapley, (参考訳) ハミルトン微分方程式の幾何積分器に基づくシンプレクティックニューラルネットワーク(SympNets)を設計するためのフレームワークを提案し,解析する。 SympNets はハミルトン微分同相空間の普遍近似であり、解釈可能であり、非消滅勾配特性を持つ。 線形系に対する表現論も与え、つまり、提案されたP-SympNetsは二次ハミルトニアンに対応するシンプレクティック写像を正確にパラメータ化することができる。 大規模な数値テストでは、既存のアーキテクチャよりもトレーニングコストの削減のために、表現性と正確性(多くの場合、桁違いに優れている)が向上している。 最後に,逆誤差解析を用いた多項式系に対するシンプネットを用いたシンボリックハミルトン回帰法について述べる。

We present and analyze a framework for designing symplectic neural networks (SympNets) based on geometric integrators for Hamiltonian differential equations. The SympNets are universal approximators in the space of Hamiltonian diffeomorphisms, interpretable and have a non-vanishing gradient property. We also give a representation theory for linear systems, meaning the proposed P-SympNets can exactly parameterize any symplectic map corresponding to quadratic Hamiltonians. Extensive numerical tests demonstrate increased expressiveness and accuracy -- often several orders of magnitude better -- for lower training cost over existing architectures. Lastly, we show how to perform symbolic Hamiltonian regression with SympNets for polynomial systems using backward error analysis.
翻訳日:2024-08-20 16:54:42 公開日:2024-08-19
# SurgicaL-CD:連続拡散モデルを用いた画像翻訳による手術画像の生成

SurgicaL-CD: Generating Surgical Images via Unpaired Image Translation with Latent Consistency Diffusion Models ( http://arxiv.org/abs/2408.09822v1 )

ライセンス: Link先を確認
Danush Kumar Venkatesh, Dominik Rivoir, Micha Pfeiffer, Stefanie Speidel, (参考訳) コンピュータ補助手術システム(CAS)は、手術中の外科医を補助し、合併症を軽減し、患者のケアを強化するように設計されている。 これらのシステムのために機械学習モデルをトレーニングするには、大量の注釈付きデータセットが必要である。 従来の手法では, シミュレーションからリアルな手術画像を作成するために, 生成モデルを用いて画像翻訳を行う方法が検討されている。 しかし、これらのアプローチは高品質で多様な外科画像を作成するのに苦労している。 そこで本研究では, ペアデータのないサンプル画像のみを用いて, リアルな画像を生成するために, 整合拡散法である \emph{SurgicaL-CD} を提案する。 3つのデータセットに対する我々のアプローチを評価し、下流トレーニングデータセットとして品質と有用性の観点から生成された画像を評価する。 以上の結果から,本手法はGANや拡散に基づく手法よりも優れていることが示された。 私たちのコードは \url{https://gitlab.com/nct_tso_public/gan2diffusion} で利用可能です。

Computer-assisted surgery (CAS) systems are designed to assist surgeons during procedures, thereby reducing complications and enhancing patient care. Training machine learning models for these systems requires a large corpus of annotated datasets, which is challenging to obtain in the surgical domain due to patient privacy concerns and the significant labeling effort required from doctors. Previous methods have explored unpaired image translation using generative models to create realistic surgical images from simulations. However, these approaches have struggled to produce high-quality, diverse surgical images. In this work, we introduce \emph{SurgicaL-CD}, a consistency-distilled diffusion method to generate realistic surgical images with only a few sampling steps without paired data. We evaluate our approach on three datasets, assessing the generated images in terms of quality and utility as downstream training datasets. Our results demonstrate that our method outperforms GANs and diffusion-based approaches. Our code is available at \url{https://gitlab.com/nct_tso_public/gan2diffusion}.
翻訳日:2024-08-20 16:54:42 公開日:2024-08-19
# TDNetGen: トポロジとダイナミクスの生成による複雑なネットワークレジリエンス予測の強化

TDNetGen: Empowering Complex Network Resilience Prediction with Generative Augmentation of Topology and Dynamics ( http://arxiv.org/abs/2408.09825v1 )

ライセンス: Link先を確認
Chang Liu, Jingtao Ding, Yiwen Song, Yong Li, (参考訳) 複雑なネットワークのレジリエンスを予測することは、外部の摂動や内部の障害の中で基本的な機能を維持できる能力であり、現実世界の複雑なシステムを理解し改善する上で重要な役割を果たす。 非線形力学系に基づく従来の理論的アプローチは、ネットワーク力学の事前知識に依存している。 一方、データ駆動アプローチは、実世界のシナリオでよく見られる、ラベル付きデータ不足の課題にしばしば遭遇する。 本稿では,ネットワークトポロジとダイナミックスの生成的データ拡張を通じてこの問題に対処する,複雑なネットワークのための新しいレジリエンス予測フレームワークを提案する。 中心となる考え方は、ラベルのないネットワークデータに存在する固有結合分布の戦略的利用であり、ネットワークトポロジとダイナミクスの関係を照らすことにより、レジリエンス予測器の学習プロセスを容易にする。 3つのネットワークデータセットの実験結果から,提案するフレームワークであるTDNetGenは,最大85%~95%の精度で高い予測精度を達成可能であることが示された。 さらに、このフレームワークは、極端に低データ状態における顕著な拡張能力を示しており、ネットワークレジリエンスの予測を強化するための実用性と堅牢性を強調している。 コードについては、https://github.com/tsinghua-fib-lab/TDNetGenというリンクで公開しています。

Predicting the resilience of complex networks, which represents the ability to retain fundamental functionality amidst external perturbations or internal failures, plays a critical role in understanding and improving real-world complex systems. Traditional theoretical approaches grounded in nonlinear dynamical systems rely on prior knowledge of network dynamics. On the other hand, data-driven approaches frequently encounter the challenge of insufficient labeled data, a predicament commonly observed in real-world scenarios. In this paper, we introduce a novel resilience prediction framework for complex networks, designed to tackle this issue through generative data augmentation of network topology and dynamics. The core idea is the strategic utilization of the inherent joint distribution present in unlabeled network data, facilitating the learning process of the resilience predictor by illuminating the relationship between network topology and dynamics. Experiment results on three network datasets demonstrate that our proposed framework TDNetGen can achieve high prediction accuracy up to 85%-95%. Furthermore, the framework still demonstrates a pronounced augmentation capability in extreme low-data regimes, thereby underscoring its utility and robustness in enhancing the prediction of network resilience. We have open-sourced our code in the following link, https://github.com/tsinghua-fib-lab/TDNetGen.
翻訳日:2024-08-20 16:54:42 公開日:2024-08-19
# 非エルミート皮膚効果に基づく非伝統的および頑健な光-物質相互作用

Unconventional and robust light-matter interactions based on the non-Hermitian skin effect ( http://arxiv.org/abs/2408.09826v1 )

ライセンス: Link先を確認
Lei Du, Anton Frisk Kockum, (参考訳) 非エルミート皮膚効果を特徴とする格子モデルは、複素エネルギースペクトルに付随する非自明なトポロジーによって急速に関心が高まりつつある。 このような非エルミート格子は、内在的キラリティと非伝統的(非ブロッホ)バンド理論の恩恵を受けるエキゾチックな光-物質相互作用の工学的パラダイムである。 ここでは、量子エミッタと原型ハタノ・ネルソンモデルと、ボソニック・キタエフ連鎖と呼ばれる拡張格子モデルとの間の一連の非伝統的な光-物質相互作用について検討する。 我々は、様々な不完全性に対する力学の堅牢性に注目し、基礎となるメカニズムを解明する。 単一地点で格子と相互作用する小型エミッタと,複数の地点で結合する巨大エミッタの両方を考える。 後者は排他的増幅機構を示し, システムに余剰散逸が存在する場合でもデコヒーレンスフリーのダイナミクスを可能にする。 散逸からの保護は、非ハーモニティと自己干渉効果の協調から生じ、したがって小さな放出体には不足している。 これらの結果は、非ハーモニティ性や様々な干渉効果の相互作用に関する深い洞察を与えるだけでなく、工学的エキゾチックスピンハミルトニアンや量子ネットワークにも応用できる可能性がある。

Lattice models featuring the non-Hermitian skin effect have attracted rapidly growing interest due to the nontrivial topology associated with their complex energy spectra. Such non-Hermitian lattices are promising paradigms for engineering exotic light-matter interactions which benefit from the intrinsic chirality and unconventional (non-Bloch) band theory. Here we study a series of unconventional light-matter interactions between quantum emitters and the prototypical Hatano--Nelson model as well as an extended lattice model dubbed the bosonic Kitaev chain. We focus on the robustness of the dynamics to various imperfections and elucidate the underlying mechanisms. We consider both small emitters, which interact with the lattice at single sites, and giant emitters coupling at multiple sites. The latter exhibit an exclusive amplification mechanism, which we find enables decoherence-free dynamics even in the presence of extra dissipation in the system. The protection from dissipation arises from a cooperation of the non-Hermiticity and the self-interference effect, and is therefore lacking for small emitters. These results not only provides a deeper insight into the interplay of non-Hermiticity and various interference effects, but also have potential applications in engineering exotic spin Hamiltonians and quantum networks.
翻訳日:2024-08-20 16:54:42 公開日:2024-08-19
# 少人数のDPOは、トレーニングの堅牢性を高めるために罰則を拒絶する

Minor DPO reject penalty to increase training robustness ( http://arxiv.org/abs/2408.09834v1 )

ライセンス: Link先を確認
Shiming Xie, Hong Chen, Fred Yu, Zeye Sun, Xiuyu Wu, Yingfan Hu, (参考訳) 人間の嗜好からの学習は、ダウンストリームタスクにおいて、事前学習されたLLMを人間の嗜好に合わせるために、大規模言語モデル(LLM)の微調整ステップで使用されるパラダイムである。 過去には、人間のフィードバック(RLHF)アルゴリズムからの強化学習を使用して、LLMポリシーを最適化し、これらの嗜好に適合させ、元のモデルから遠ざからないようにしている。 近年,簡易なRLフリー手法でアライメント問題を解決するために,DPO(Direct Preference Optimization)が提案されている。 選択されたデータと拒否データの選好ペアを用いて、DPOは相対ログ確率を暗黙の報奨関数としてモデル化し、単純なバイナリクロスエントロピーの目的を使ってLCMポリシーを最適化する。 DPOは非常にまっすぐで理解しやすいです。 ほとんどの場合、効率よく、よく機能する。 本稿では、DPOにおける$\beta$の動作メカニズムを分析し、RLアルゴリズムとDPOの構文差を明らかにし、DPOの単純化による潜在的な不足について理解する。 これらの知見により、元のRLアルゴリズムに整合したMinorDPOを提案し、好みの最適化プロセスの安定性を向上させる。

Learning from human preference is a paradigm used in large-scale language model (LLM) fine-tuning step to better align pretrained LLM to human preference for downstream task. In the past it uses reinforcement learning from human feedback (RLHF) algorithm to optimize the LLM policy to align with these preferences and not to draft too far from the original model. Recently, Direct Preference Optimization (DPO) has been proposed to solve the alignment problem with a simplified RL-free method. Using preference pairs of chosen and reject data, DPO models the relative log probability as implicit reward function and optimize LLM policy using a simple binary cross entropy objective directly. DPO is quite straight forward and easy to be understood. It perform efficiently and well in most cases. In this article, we analyze the working mechanism of $\beta$ in DPO, disclose its syntax difference between RL algorithm and DPO, and understand the potential shortage brought by the DPO simplification. With these insights, we propose MinorDPO, which is better aligned to the original RL algorithm, and increase the stability of preference optimization process.
翻訳日:2024-08-20 16:54:42 公開日:2024-08-19
# プログラム駆動連続DQN拡張による適応列車スケジューリングにおける安定性-塑性ジレンマの緩和

Mitigating the Stability-Plasticity Dilemma in Adaptive Train Scheduling with Curriculum-Driven Continual DQN Expansion ( http://arxiv.org/abs/2408.09838v1 )

ライセンス: Link先を確認
Achref Jaziri, Etienne Künzel, Visvanathan Ramesh, (参考訳) 継続学習エージェントは、以前取得した知識を保存しながら、非定常的および動的環境に適応することで、より複雑な振る舞いを開発するために、以前の経験に基づいて構築される。 しかし、これらのシステムをスケールすることは、特に以前のポリシーの保存と現在の環境への新しいポリシーの適応のバランスの点で大きな課題を呈している。 このバランスは安定性・塑性ジレンマ(英語版)と呼ばれ、特に列車スケジューリング問題(英語版)のような複雑なマルチエージェント領域において、環境やエージェントの挙動が常に変化しており、探索空間は広い。 本研究では,カリキュラム学習を用いた列車スケジューリング問題において,これらの課題に対処することを提案する。 一般化性能を向上させるために,隣り合うスキルを持つカリキュラムを設計する。 異なるタスクによるカリキュラムの導入は非定常性を導入し、新しいアルゴリズムである連続的深層Qネットワーク(CDE)を提案する。 提案手法は,環境変化やタスク要求に対処するためのQ関数部分空間を動的に生成・調整する。 CDEは適応的合理的活性化関数を用いて高い可塑性を確保しつつ、EWCを介して破滅的な忘れを緩和する。 実験の結果,RLベースラインや他の適応学習法と比較して,学習効率と適応性に大きな改善が見られ,適応列車スケジューリング設定における安定性・塑性ジレンマ管理における本手法の可能性を強調した。

A continual learning agent builds on previous experiences to develop increasingly complex behaviors by adapting to non-stationary and dynamic environments while preserving previously acquired knowledge. However, scaling these systems presents significant challenges, particularly in balancing the preservation of previous policies with the adaptation of new ones to current environments. This balance, known as the stability-plasticity dilemma, is especially pronounced in complex multi-agent domains such as the train scheduling problem, where environmental and agent behaviors are constantly changing, and the search space is vast. In this work, we propose addressing these challenges in the train scheduling problem using curriculum learning. We design a curriculum with adjacent skills that build on each other to improve generalization performance. Introducing a curriculum with distinct tasks introduces non-stationarity, which we address by proposing a new algorithm: Continual Deep Q-Network (DQN) Expansion (CDE). Our approach dynamically generates and adjusts Q-function subspaces to handle environmental changes and task requirements. CDE mitigates catastrophic forgetting through EWC while ensuring high plasticity using adaptive rational activation functions. Experimental results demonstrate significant improvements in learning efficiency and adaptability compared to RL baselines and other adapted methods for continual learning, highlighting the potential of our method in managing the stability-plasticity dilemma in the adaptive train scheduling setting.
翻訳日:2024-08-20 16:54:42 公開日:2024-08-19
# 自律走行におけるゼロショットロバスト性を実現するセグメント音響モデル

Segment-Anything Models Achieve Zero-shot Robustness in Autonomous Driving ( http://arxiv.org/abs/2408.09839v1 )

ライセンス: Link先を確認
Jun Yan, Pengyu Wang, Danni Wang, Weiquan Huang, Daniel Watzenig, Huilin Yin, (参考訳) セマンティックセグメンテーションは自律運転において重要な認識課題である。 それは敵の例のリスクに悩まされる。 過去数年間、ディープラーニングは、比較的少数のパラメータを持つ畳み込みニューラルネットワーク(CNN)モデルから、膨大な数のパラメータを持つ基礎モデルへと徐々に移行してきた。 segment-anything Model (SAM) は、様々な種類の画像を扱うことができ、特定のオブジェクトを訓練することなく、画像内の任意のオブジェクトを認識し、セグメント化することができる一般化されたイメージセグメンテーションフレームワークである。 セマンティックセグメンテーション、オブジェクト検出、トラッキングなど、さまざまな下流タスクを処理できる統一モデルである。 自律運転におけるセマンティックセグメンテーションの課題として,SAMのゼロショット対逆ロバスト性を検討することが重要である。 そこで本研究では,SAMのロバスト性に関する系統的研究を行った。 実験結果から,ブラックボックスの破損やホワイトボックスの攻撃によるSAMのゼロショット対逆ロバスト性は,追加訓練を必要とせずとも許容できることがわかった。 この研究の発見は、巨大なモデルパラメータと大量のトレーニングデータが出現する現象を招き、敵対的堅牢性の保証を築き上げているという洞察に富んでいる。 SAMはビジョンファウンデーションモデルであり、人工知能(AGI)パイプラインの初期のプロトタイプと見なすことができる。 このようなパイプラインでは、統一モデルは多様なタスクを処理できる。 そこで本研究では,視覚基礎モデルが安全な自動運転に与える影響だけでなく,信頼性の高いAGIの開発にも展望を与えている。 コードは、https://github.com/momo1986/robust_sam_iv.comで入手できる。

Semantic segmentation is a significant perception task in autonomous driving. It suffers from the risks of adversarial examples. In the past few years, deep learning has gradually transitioned from convolutional neural network (CNN) models with a relatively small number of parameters to foundation models with a huge number of parameters. The segment-anything model (SAM) is a generalized image segmentation framework that is capable of handling various types of images and is able to recognize and segment arbitrary objects in an image without the need to train on a specific object. It is a unified model that can handle diverse downstream tasks, including semantic segmentation, object detection, and tracking. In the task of semantic segmentation for autonomous driving, it is significant to study the zero-shot adversarial robustness of SAM. Therefore, we deliver a systematic empirical study on the robustness of SAM without additional training. Based on the experimental results, the zero-shot adversarial robustness of the SAM under the black-box corruptions and white-box adversarial attacks is acceptable, even without the need for additional training. The finding of this study is insightful in that the gigantic model parameters and huge amounts of training data lead to the phenomenon of emergence, which builds a guarantee of adversarial robustness. SAM is a vision foundation model that can be regarded as an early prototype of an artificial general intelligence (AGI) pipeline. In such a pipeline, a unified model can handle diverse tasks. Therefore, this research not only inspects the impact of vision foundation models on safe autonomous driving but also provides a perspective on developing trustworthy AGI. The code is available at: https://github.com/momo1986/robust_sam_iv.
翻訳日:2024-08-20 16:54:42 公開日:2024-08-19
# 予測のための物理知識を用いた機械学習:サーベイ

Machine Learning with Physics Knowledge for Prediction: A Survey ( http://arxiv.org/abs/2408.09840v1 )

ライセンス: Link先を確認
Joe Watson, Chen Song, Oliver Weeger, Theo Gruner, An T. Le, Kay Hansel, Ahmed Hendawy, Oleg Arenz, Will Trojak, Miles Cranmer, Carlo D'Eramo, Fabian Bülow, Tanmay Goyal, Jan Peters, Martin W. Hoffman, (参考訳) 本研究は、偏微分方程式に着目し、機械学習と物理知識を組み合わせた予測と予測のための幅広い手法とモデルについて検討する。 これらの手法は、小規模または大規模データセットによる予測モデルと有用な帰納的バイアスを持つ表現的予測モデルを改善することによって、科学的研究と産業の実践に潜在的に影響を及ぼす可能性から、大きな関心を集めている。 調査には2つの部分がある。 第一に、客観的関数、構造化予測モデル、データ拡張を通じて、アーキテクチャレベルでの物理知識を取り入れることを検討する。 第二に、データを物理知識とみなし、マルチタスク、メタ、コンテキスト学習を、データ駆動方式で物理知識を組み込む代替アプローチとして考える。 最後に、これらの手法の適用に関する産業的視点と、物理インフォームド機械学習のためのオープンソースのエコシステムに関する調査も提供する。

This survey examines the broad suite of methods and models for combining machine learning with physics knowledge for prediction and forecast, with a focus on partial differential equations. These methods have attracted significant interest due to their potential impact on advancing scientific research and industrial practices by improving predictive models with small- or large-scale datasets and expressive predictive models with useful inductive biases. The survey has two parts. The first considers incorporating physics knowledge on an architectural level through objective functions, structured predictive models, and data augmentation. The second considers data as physics knowledge, which motivates looking at multi-task, meta, and contextual learning as an alternative approach to incorporating physics knowledge in a data-driven fashion. Finally, we also provide an industrial perspective on the application of these methods and a survey of the open-source ecosystem for physics-informed machine learning.
翻訳日:2024-08-20 16:54:42 公開日:2024-08-19
# 説明可能なAIによる生産スケジューリングにおける強化学習

Demystifying Reinforcement Learning in Production Scheduling via Explainable AI ( http://arxiv.org/abs/2408.09841v1 )

ライセンス: Link先を確認
Daniel Fischer, Hannah M. Hüsener, Felix Grumbach, Lukas Vollenkemper, Arthur Müller, Pascal Reusch, (参考訳) 深層強化学習(Dep Reinforcement Learning, DRL)はスケジューリング問題の解法としてよく用いられる手法である。 DRLエージェントは、短い計算時間で実行可能な結果を提供するのが得意だが、その推論はいまだに不透明である。 我々は、フロー生産における特殊なDRLエージェントのスケジューリング決定の背後にある理由を説明するために、2つの説明可能なAI(xAI)フレームワーク、すなわちSHAP(DeepSHAP)とCaptum(Input x Gradient)を体系的に適用するケーススタディを行う。 我々は,xAI文献の手法にはファリシフィビリティや一貫した用語が欠如しており,ドメイン知識や対象のオーディエンス,現実のシナリオを十分に考慮しておらず,典型的には因果解釈よりも単純なインプット・アウトプットの説明を提供する。 この問題を解決するために,仮説に基づくワークフローを導入する。 このアプローチにより、説明がドメイン知識と一致しているかを検証し、エージェントの報酬仮説に合致する。 さらに,これらの知見を第三者に伝達する上で,対象者に対する仮説を調整し,検証後のエージェントの行動の解釈として機能させることが課題である。 提案するワークフローでは,説明の繰り返しの検証が強調され,DRLに基づくスケジューリングのユースケースにも適用可能である。

Deep Reinforcement Learning (DRL) is a frequently employed technique to solve scheduling problems. Although DRL agents ace at delivering viable results in short computing times, their reasoning remains opaque. We conduct a case study where we systematically apply two explainable AI (xAI) frameworks, namely SHAP (DeepSHAP) and Captum (Input x Gradient), to describe the reasoning behind scheduling decisions of a specialized DRL agent in a flow production. We find that methods in the xAI literature lack falsifiability and consistent terminology, do not adequately consider domain-knowledge, the target audience or real-world scenarios, and typically provide simple input-output explanations rather than causal interpretations. To resolve this issue, we introduce a hypotheses-based workflow. This approach enables us to inspect whether explanations align with domain knowledge and match the reward hypotheses of the agent. We furthermore tackle the challenge of communicating these insights to third parties by tailoring hypotheses to the target audience, which can serve as interpretations of the agent's behavior after verification. Our proposed workflow emphasizes the repeated verification of explanations and may be applicable to various DRL-based scheduling use cases.
翻訳日:2024-08-20 16:54:42 公開日:2024-08-19
# Reason-of-Select蒸留による対話状態の連続追跡

Continual Dialogue State Tracking via Reason-of-Select Distillation ( http://arxiv.org/abs/2408.09846v1 )

ライセンス: Link先を確認
Yujie Feng, Bo Liu, Xiaoyu Dong, Zexin Lu, Li-Ming Zhan, Xiao-Ming Wu, Albert Y. S. Lam, (参考訳) 理想的な対話システムは、事前知識を維持しながら、継続的なスキル獲得と新しいタスクへの適応を必要とする。 これらのシステムにおいて不可欠な対話状態追跡(DST)は、しばしば「価値選択基準」(Value Selection Quandary)と呼ばれる重要な能力損失とともに、新しいサービスを学び、破滅的な忘れに直面する。 これらの課題に対処するために,我々は,新しい「メタ・レゾニング」機能を持つ小型モデルの強化により,Riason-of-Select(RoS)蒸留法を導入する。 メタ推論は、継続学習中のドメイン固有の対話からメタ知識の断片を組み合わせることで、拡張されたマルチドメインの視点を採用する。 これは伝統的な単一観念的推論を超越する。 ドメインブートストラッププロセスは、複数の可能な値から複雑な対話を識別するモデルの能力を高める。 そのドメインに依存しない性質は、異なるドメインにまたがるデータの分散を調整し、事実上忘れを軽減します。 さらに、DST固有の選択連鎖を生成し、教師の推論における幻覚を緩和し、効果的で信頼性の高い知識伝達を確実にすることで、RoSを著しく向上させる「マルチバリュー解決」戦略とセマンティックコントラスト推論選択法(Semantic Contrastive Reasoning Selection method)が導入された。 大規模な実験により,本手法の優れた性能と堅牢な一般化能力が検証された。 ソースコードは再現性のために提供される。

An ideal dialogue system requires continuous skill acquisition and adaptation to new tasks while retaining prior knowledge. Dialogue State Tracking (DST), vital in these systems, often involves learning new services and confronting catastrophic forgetting, along with a critical capability loss termed the "Value Selection Quandary." To address these challenges, we introduce the Reason-of-Select (RoS) distillation method by enhancing smaller models with a novel 'meta-reasoning' capability. Meta-reasoning employs an enhanced multi-domain perspective, combining fragments of meta-knowledge from domain-specific dialogues during continual learning. This transcends traditional single-perspective reasoning. The domain bootstrapping process enhances the model's ability to dissect intricate dialogues from multiple possible values. Its domain-agnostic property aligns data distribution across different domains, effectively mitigating forgetting. Additionally, two novel improvements, "multi-value resolution" strategy and Semantic Contrastive Reasoning Selection method, significantly enhance RoS by generating DST-specific selection chains and mitigating hallucinations in teachers' reasoning, ensuring effective and reliable knowledge transfer. Extensive experiments validate the exceptional performance and robust generalization capabilities of our method. The source code is provided for reproducibility.
翻訳日:2024-08-20 16:54:42 公開日:2024-08-19
# 重要度重み付けは、大規模言語モデルの自己改善に役立つ

Importance Weighting Can Help Large Language Models Self-Improve ( http://arxiv.org/abs/2408.09849v1 )

ライセンス: Link先を確認
Chunyang Jiang, Chi-min Chan, Wei Xue, Qifeng Liu, Yike Guo, (参考訳) 大規模言語モデル(LLM)は多くのタスクやアプリケーションで顕著な能力を示している。 しかし、外部監視下での高品質データセットを用いた微調整 LLM は、違法に高価である。 これに対し、近年LSM自己改善アプローチが活発に開発されている。 LLM自己改善の典型的なパラダイムは、自己生成データに対してLSMを訓練することであり、その一部は有害であり、不安定なデータ品質のためにフィルタリングされるべきである。 本稿では,解答正当性に基づくフィルタリング手法を主に用いているが,本論文では,高分散シフト範囲 (DSE) のサンプルをフィルタリングすることで,自己改善の恩恵を受けることができることを示す。 サンプルの実際の分布が一般には到達できないことを考慮し,DSEを近似するDS重みと呼ばれる新しい指標を提案する。 その結果、DS重みと自己整合性を統合し、自己生成サンプルを包括的にフィルタリングし、言語モデルを微調整する。 実験の結果,DS重みを計算できる最小の有効セット(トレーニングセットの最大5倍程度)しか持たないため,従来のLCM自己改善手法の推論能力の向上が期待できることがわかった。 結果として得られるパフォーマンスは、事前訓練された報酬モデルから外部の監視に依存するメソッドと同等である。

Large language models (LLMs) have shown remarkable capability in numerous tasks and applications. However, fine-tuning LLMs using high-quality datasets under external supervision remains prohibitively expensive. In response, LLM self-improvement approaches have been vibrantly developed recently. The typical paradigm of LLM self-improvement involves training LLM on self-generated data, part of which may be detrimental and should be filtered out due to the unstable data quality. While current works primarily employs filtering strategies based on answer correctness, in this paper, we demonstrate that filtering out correct but with high distribution shift extent (DSE) samples could also benefit the results of self-improvement. Given that the actual sample distribution is usually inaccessible, we propose a new metric called DS weight to approximate DSE, inspired by the Importance Weighting methods. Consequently, we integrate DS weight with self-consistency to comprehensively filter the self-generated samples and fine-tune the language model. Experiments show that with only a tiny valid set (up to 5\% size of the training set) to compute DS weight, our approach can notably promote the reasoning ability of current LLM self-improvement methods. The resulting performance is on par with methods that rely on external supervision from pre-trained reward models.
翻訳日:2024-08-20 16:54:42 公開日:2024-08-19
# 圧縮貯留層工学による量子位相同期の強化

Enhancing quantum phase synchronization through squeezed-reservoir engineering ( http://arxiv.org/abs/2408.09850v1 )

ライセンス: Link先を確認
Xing Xiao, Tian-Xiang Lu, Wo-Jun Zhong, Yan-Ling Li, (参考訳) 本研究では,2レベルシステム(TLS)における量子位相同期の強化について検討した。 本研究は, 圧縮された貯留層がTLSの安定な極限サイクルを誘導し, 量子位相同期を向上することを明らかにする。 我々はHusimi $Q$-functionを用いて、駆動TLSの位相像と$S$-functionを記述し、信号強度と位相同期に対する変形の影響を定量的に説明する。 顕著なことに, 圧縮された貯留層はTLSにスキューズ特性を付与し, より局所化され, 顕著に同期することを示した。 さらに,同期領域におけるアーノルド舌の典型的特徴を観察した。 回路QEDシステムでは, 循環型貯留層工学が量子位相同期の実現に有効な手法であることが示唆された。

We investigate the enhancement of quantum phase synchronization in a two-level system (TLS) coupled to a squeezed reservoir. Our study reveals that the squeezed reservoir induces a stable limit cycle in the TLS, enhancing the quantum phase synchronization. We utilize the Husimi $Q$-function to describe the phase portrait of the driven TLS, and the $S$-function to quantitatively illustrate the effects of signal strength and detuning on phase synchronization. Remarkably, we demonstrate that the squeezed reservoir imparts its squeezing characteristics to the TLS, leading to a more localized and pronounced synchronization. Additionally, we observe typical features of the Arnold tongue in the synchronization regions. The experimental feasibility of our findings is discussed in the context of a circuit QED system, suggesting that squeezed-reservoir engineering is an effective approach for achieving quantum phase synchronization.
翻訳日:2024-08-20 16:54:42 公開日:2024-08-19
# 大規模言語モデルに対する自己指向型チューリングテスト

Self-Directed Turing Test for Large Language Models ( http://arxiv.org/abs/2408.09853v1 )

ライセンス: Link先を確認
Weiqi Wu, Hongqiu Wu, Hai Zhao, (参考訳) チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。 従来のチューリングテストは厳格な対話形式を採用しており、各参加者は毎回1つのメッセージしか送信せず、テスト対象とのインタラクション全体を指示するために人間による継続的な関与を必要としている。 これは自然な会話スタイルを反映せず、複雑で長い対話においてLLM(Large Language Models)の評価を妨げる。 本稿では,バーストダイアログ形式で元のテストを拡張し,複数メッセージによるよりダイナミックな交換を可能にするセルフディレクテッドチューリングテストを提案する。 さらに、LLMがテストプロセスの大部分を自己指揮し、人間との相互作用をシミュレートする対話を反復的に生成することで、人間の作業量を効率的に削減する。 擬似対話履歴を用いて、モデルは人間と短い対話を行い、同じトピックで人間と人間の会話と組み合わせて、アンケートを用いて判断する。 X-Turn Pass-Rate 測定法を導入し,LLM の人間的類似度を様々な期間にわたって評価する。 GPT-4のようなLCMは3ターンと10ターンの対話で51.9%と38.9%のパスレートを達成したが、対話が進行するにつれて性能が低下し、長期的な一貫性維持の難しさが浮き彫りになった。

The Turing test examines whether AIs can exhibit human-like behaviour in natural language conversations. Traditional Turing tests adopt a rigid dialogue format where each participant sends only one message each time and require continuous human involvement to direct the entire interaction with the test subject. This fails to reflect a natural conversational style and hinders the evaluation of Large Language Models (LLMs) in complex and prolonged dialogues. This paper proposes the Self-Directed Turing Test, which extends the original test with a burst dialogue format, allowing more dynamic exchanges by multiple consecutive messages. It further efficiently reduces human workload by having the LLM self-direct the majority of the test process, iteratively generating dialogues that simulate its interaction with humans. With the pseudo-dialogue history, the model then engages in a shorter dialogue with a human, which is paired with a human-human conversation on the same topic to be judged using questionnaires. We introduce the X-Turn Pass-Rate metric to assess the human likeness of LLMs across varying durations. While LLMs like GPT-4 initially perform well, achieving pass rates of 51.9% and 38.9% during 3 turns and 10 turns of dialogues respectively, their performance drops as the dialogue progresses, which underscores the difficulty in maintaining consistency in the long term.
翻訳日:2024-08-20 16:44:56 公開日:2024-08-19
# TeamLoRA: エキスパートコラボレーションとコンペティションによる低ランク適応の強化

TeamLoRA: Boosting Low-Rank Adaptation with Expert Collaboration and Competition ( http://arxiv.org/abs/2408.09856v1 )

ライセンス: Link先を確認
Tianwei Lin, Jiang Liu, Wenqiao Zhang, Zhaocheng Li, Yang Dai, Haoyuan Li, Zhelun Yu, Wanggui He, Juncheng Li, Hao Jiang, Siliang Tang, Yueting Zhuang, (参考訳) LoRAのようなパラメータ効率の良い微細チューニング(PEFT)手法は、微調整中にGPUメモリの制約に効果的に対処しているが、特に多次元タスクシナリオでは性能が低下することが多い。 この問題に対処するためには、タスク固有のLoRAモジュールをドメインエキスパートとして導入し、複数の専門家の能力のモデリングを活用し、マルチタスク学習の一般的な能力を向上する、という簡単な解決策がある。 有望であるにもかかわらず、これらの追加コンポーネントはしばしばトレーニングと推論プロセスに複雑さを増し、PEFTの効率的な特性を阻害する。 これを踏まえ、専門家のためのコラボレーション・コンペティション・モジュールからなる革新的なPEFT手法であるTeamLoRAを導入し、有効性と効率の適切なバランスを実現する。 二 協調のために、マトリックス操作の規模を適切に減らし、トレーニングと推論速度を向上する新しい知識共有・組織機構を考案する。 (II) 競争においては,専門家にゲーム理論的インタラクション機構を活用することを提案し,様々な下流課題に直面しながら,専門家にドメイン固有の知識の伝達を奨励し,パフォーマンスの向上を図る。 そうすることで、TeamLoRAは専門家を“チーム”として内部のコラボレーションや競争と結び付け、マルチタスク学習のためのより高速で正確なPEFTパラダイムを可能にします。 TeamLoRAの優位性を検証するため,総合的なマルチタスク評価(CME)ベンチマークを作成し,マルチタスク学習の能力を徹底的に評価する。 CMEや他のベンチマークで行った実験は、TeamLoRAの有効性と効率を示している。 私たちのプロジェクトはhttps://github.com/Lin-Tianwei/TeamLoRA.comで利用可能です。

While Parameter-Efficient Fine-Tuning (PEFT) methods like LoRA have effectively addressed GPU memory constraints during fine-tuning, their performance often falls short, especially in multidimensional task scenarios. To address this issue, one straightforward solution is to introduce task-specific LoRA modules as domain experts, leveraging the modeling of multiple experts' capabilities and thus enhancing the general capability of multi-task learning. Despite promising, these additional components often add complexity to the training and inference process, contravening the efficient characterization of PEFT designed for. Considering this, we introduce an innovative PEFT method, TeamLoRA, consisting of a collaboration and competition module for experts, and thus achieving the right balance of effectiveness and efficiency: (i) For collaboration, a novel knowledge-sharing and -organizing mechanism is devised to appropriately reduce the scale of matrix operations, thereby boosting the training and inference speed. (ii) For competition, we propose leveraging a game-theoretic interaction mechanism for experts, encouraging experts to transfer their domain-specific knowledge while facing diverse downstream tasks, and thus enhancing the performance. By doing so, TeamLoRA elegantly connects the experts as a "Team" with internal collaboration and competition, enabling a faster and more accurate PEFT paradigm for multi-task learning. To validate the superiority of TeamLoRA, we curate a comprehensive multi-task evaluation(CME) benchmark to thoroughly assess the capability of multi-task learning. Experiments conducted on our CME and other benchmarks indicate the effectiveness and efficiency of TeamLoRA. Our project is available at https://github.com/Lin-Tianwei/TeamLoRA.
翻訳日:2024-08-20 16:44:56 公開日:2024-08-19
# TaSL:タスクスキルのローカライゼーションと統合による連続的な対話状態追跡

TaSL: Continual Dialog State Tracking via Task Skill Localization and Consolidation ( http://arxiv.org/abs/2408.09857v1 )

ライセンス: Link先を確認
Yujie Feng, Xu Chu, Yongxin Xu, Guangyuan Shi, Bo Liu, Xiao-Ming Wu, (参考訳) 実践的な対話システムでは、事前の知識を維持しながら、継続的なスキル獲得と新しいタスクへの適応性を必要としている。 しかし、対話システムの重要な機能である継続対話状態追跡(DST)の現在の手法は、タスク間の知識伝達と破滅的な忘れの問題に悩まされている。 メモリ再生に頼ることなく効果的な知識伝達を可能にするタスクスキルのローカライゼーションと統合のための新しいフレームワークであるTaSLを提案する。 TaSLは、タスク特化領域とタスク共有領域をピンポイントする、新しいグループワイド技術を使用している。 さらに、細粒度のスキル統合戦略は、双方向の知識伝達のための共有知識を更新しながら、タスク固有の知識が忘れられないようにする。 結果として、TaSLは以前の知識の保存と新しいタスクの達成のバランスをとることになる。 様々なバックボーンに関する総合的な実験は、既存の最先端手法よりもTaSLの大幅な性能向上を強調している。 ソースコードは再現性のために提供される。

A practical dialogue system requires the capacity for ongoing skill acquisition and adaptability to new tasks while preserving prior knowledge. However, current methods for Continual Dialogue State Tracking (DST), a crucial function of dialogue systems, struggle with the catastrophic forgetting issue and knowledge transfer between tasks. We present TaSL, a novel framework for task skill localization and consolidation that enables effective knowledge transfer without relying on memory replay. TaSL uses a novel group-wise technique to pinpoint task-specific and task-shared areas. Additionally, a fine-grained skill consolidation strategy protects task-specific knowledge from being forgotten while updating shared knowledge for bi-directional knowledge transfer. As a result, TaSL strikes a balance between preserving previous knowledge and excelling at new tasks. Comprehensive experiments on various backbones highlight the significant performance improvements of TaSL over existing state-of-the-art methods. The source code is provided for reproducibility.
翻訳日:2024-08-20 16:44:56 公開日:2024-08-19
# ShortCircuit: AlphaZero駆動回路設計

ShortCircuit: AlphaZero-Driven Circuit Design ( http://arxiv.org/abs/2408.09858v1 )

ライセンス: Link先を確認
Dimitrios Tsaras, Antoine Grosnit, Lei Chen, Zhiyao Xie, Haitham Bou-Ammar, Mingxuan Yuan, (参考訳) チップ設計は、真理表のような関数記述から AND-Inverter Graphs (AIG) のようなブール回路を生成することに大きく依存している。 近年のディープラーニングの進歩は回路設計を加速することを目的としているが、これらの取り組みは合成以外のタスクに重点を置いており、従来のヒューリスティックな手法が停滞している。 本稿では,AIGの構造特性を活用し,効率的な宇宙探査を行う新しいトランスフォーマーアーキテクチャであるShortCircuitを紹介する。 ShortCircuitは、ディープネットワークを用いたエンド・ツー・エンドの論理回路の生成を試みる以前のアプローチとは対照的に、強化学習と教師付き学習を組み合わせた2相プロセスを用いて、見えない真理表への一般化を強化する。 また、指数関数的に大きい2つの状態空間と報酬の間隔を扱うためのAlphaZero変種を提案し、ほぼ最適設計の発見を可能にした。 トレーニングしたモデルの生成性能を評価するため,20個の実世界の回路のベンチマークセットから500個の真理表を抽出する。 ShortCircuitは8入力テストの真理表の84.6%のAIGを生成し、回路サイズで最先端の論理合成ツールABCを14.61%上回った。

Chip design relies heavily on generating Boolean circuits, such as AND-Inverter Graphs (AIGs), from functional descriptions like truth tables. While recent advances in deep learning have aimed to accelerate circuit design, these efforts have mostly focused on tasks other than synthesis, and traditional heuristic methods have plateaued. In this paper, we introduce ShortCircuit, a novel transformer-based architecture that leverages the structural properties of AIGs and performs efficient space exploration. Contrary to prior approaches attempting end-to-end generation of logic circuits using deep networks, ShortCircuit employs a two-phase process combining supervised with reinforcement learning to enhance generalization to unseen truth tables. We also propose an AlphaZero variant to handle the double exponentially large state space and the sparsity of the rewards, enabling the discovery of near-optimal designs. To evaluate the generative performance of our trained model , we extract 500 truth tables from a benchmark set of 20 real-world circuits. ShortCircuit successfully generates AIGs for 84.6% of the 8-input test truth tables, and outperforms the state-of-the-art logic synthesis tool, ABC, by 14.61% in terms of circuits size.
翻訳日:2024-08-20 16:44:56 公開日:2024-08-19
# OccMamba: ステートスペースモデルによるセマンティック運用予測

OccMamba: Semantic Occupancy Prediction with State Space Models ( http://arxiv.org/abs/2408.09859v1 )

ライセンス: Link先を確認
Heng Li, Yuenan Hou, Xiaohan Xing, Xiao Sun, Yanyong Zhang, (参考訳) 意味的占有予測のためのディープラーニングモデルのトレーニングは、多数の占有細胞、重篤な閉塞、限られた視覚的手がかり、複雑な運転シナリオなどの要因のために難しい。 近年の手法は、入力条件付き重みと長距離関係の学習において強力な能力を持つトランスフォーマーアーキテクチャを採用することが多い。 しかし、トランスフォーマーベースのネットワークは2次計算の複雑さで有名であり、セマンティック占有率予測の有効性と展開を著しく損なう。 マンバアーキテクチャのグローバルなモデリングと線形計算の複雑さに触発されて,OccMambaと呼ばれるセマンティック占有予測のための最初のMambaベースのネットワークを提示する。 しかし,Mambaアーキテクチャを占有予測タスクに直接適用すると,言語領域と3Dドメインの間に固有の領域ギャップがあるため,不満足な性能が得られる。 この問題を解消するために,高優先度2Dヒルベルト展開という,シンプルで効果的な3D-to-1Dリオーダー操作を提案する。 点雲の空間構造を最大に保ち、またマンバブロックの処理を容易にすることができる。 我々のOccMambaは、OpenOccupancy、SemanticKITTI、SemanticPOSSを含む3つの一般的な占有率予測ベンチマークで最先端のパフォーマンスを実現しています。 とくにOpenOccupancyでは、OccMambaが前回のCo-Occを3.1%IoUと3.2%mIoUで上回っている。 コードは出版時に公開される。

Training deep learning models for semantic occupancy prediction is challenging due to factors such as a large number of occupancy cells, severe occlusion, limited visual cues, complicated driving scenarios, etc. Recent methods often adopt transformer-based architectures given their strong capability in learning input-conditioned weights and long-range relationships. However, transformer-based networks are notorious for their quadratic computation complexity, seriously undermining their efficacy and deployment in semantic occupancy prediction. Inspired by the global modeling and linear computation complexity of the Mamba architecture, we present the first Mamba-based network for semantic occupancy prediction, termed OccMamba. However, directly applying the Mamba architecture to the occupancy prediction task yields unsatisfactory performance due to the inherent domain gap between the linguistic and 3D domains. To relieve this problem, we present a simple yet effective 3D-to-1D reordering operation, i.e., height-prioritized 2D Hilbert expansion. It can maximally retain the spatial structure of point clouds as well as facilitate the processing of Mamba blocks. Our OccMamba achieves state-of-the-art performance on three prevalent occupancy prediction benchmarks, including OpenOccupancy, SemanticKITTI and SemanticPOSS. Notably, on OpenOccupancy, our OccMamba outperforms the previous state-of-the-art Co-Occ by 3.1% IoU and 3.2% mIoU, respectively. Codes will be released upon publication.
翻訳日:2024-08-20 16:44:56 公開日:2024-08-19
# エゴセントリックビデオにおける3次元インスタンスのセグメンテーションと追跡

3D-Aware Instance Segmentation and Tracking in Egocentric Videos ( http://arxiv.org/abs/2408.09860v1 )

ライセンス: Link先を確認
Yash Bhalgat, Vadim Tschernezki, Iro Laina, João F. Henriques, Andrea Vedaldi, Andrew Zisserman, (参考訳) エゴセントリックビデオは、迅速なカメラの動き、頻繁な物体の閉塞、限られた物体の視認性による3Dシーン理解の難しさを示す。 本稿では,これらの障害を克服するために3次元認識を活用する,一対一のビデオにおけるインスタンスセグメンテーションとトラッキングの新たなアプローチを提案する。 本手法は,シーン幾何学,3次元オブジェクト・セントロイド・トラッキング,インスタンス・セグメンテーションを統合し,ダイナミックなエゴセントリックなシーンを解析するためのロバストなフレームワークを構築する。 空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。 EPIC Fieldsデータセットの大規模な評価は、トラッキングとセグメンテーション整合性メトリクスの範囲で大幅に改善されている。 具体的には、アソシエーション精度(AssA)が7ドル、ID1スコアが4.5ドル、IDスイッチ数が7,3\%から80\%に削減された。 追跡されたインスタンスセグメンテーションを活用して、これらのエゴセントリックな設定で3Dオブジェクト再構成とアモーダルビデオオブジェクトセグメンテーションでダウンストリームアプリケーションを示す。

Egocentric videos present unique challenges for 3D scene understanding due to rapid camera motion, frequent object occlusions, and limited object visibility. This paper introduces a novel approach to instance segmentation and tracking in first-person video that leverages 3D awareness to overcome these obstacles. Our method integrates scene geometry, 3D object centroid tracking, and instance segmentation to create a robust framework for analyzing dynamic egocentric scenes. By incorporating spatial and temporal cues, we achieve superior performance compared to state-of-the-art 2D approaches. Extensive evaluations on the challenging EPIC Fields dataset demonstrate significant improvements across a range of tracking and segmentation consistency metrics. Specifically, our method outperforms the next best performing approach by $7$ points in Association Accuracy (AssA) and $4.5$ points in IDF1 score, while reducing the number of ID switches by $73\%$ to $80\%$ across various object categories. Leveraging our tracked instance segmentations, we showcase downstream applications in 3D object reconstruction and amodal video object segmentation in these egocentric settings.
翻訳日:2024-08-20 16:44:56 公開日:2024-08-19
# MAPLE: 説明可能なレコメンデーションにおけるマルチアスペクトプロンプトラーニングによるレビュー生成の強化

MAPLE: Enhancing Review Generation with Multi-Aspect Prompt LEarning in Explainable Recommendation ( http://arxiv.org/abs/2408.09865v1 )

ライセンス: Link先を確認
Ching-Wen Yang, Che Wei Chen, Kun-da Wu, Hao Xu, Jui-Feng Yao, Hung-Yu Kao, (参考訳) 説明可能な勧告タスクは、ユーザとアイテムのペアを受け取り、なぜアイテムがユーザに推奨されるのかを正当化するための説明を出力するように設計されている。 多くのモデルは、レビュージェネレーションを説明可能なレコメンデーションのプロキシとして扱う。 流動的で文法的な文を生成することができるが、一般性や幻覚の問題に悩まされる。 本稿では,多アスペクトプロンプト・ラーナー (MAPLE) と呼ばれるアスペクト制御モデルを提案する。 レストランドメインにおける2つの実世界レビューデータセットの実験では、MAPLEはテキストや特徴の多様性の観点からベースラインレビュー生成モデルよりも優れており、一貫性と事実的妥当性は良好である。 さらに,MAPLEをレトリバー・リーダー・フレームワークのレトリバー・コンポーネントとして扱い,Large-Language Model (LLM) をリーダとして使用し,PLMの理解能力とともにMAPLEの説明が豊かでパーソナライズされた説明につながることを示す。 受け入れ次第、このhttpでコードとデータを公開します。

Explainable Recommendation task is designed to receive a pair of user and item and output explanations to justify why an item is recommended to a user. Many models treat review-generation as a proxy of explainable recommendation. Although they are able to generate fluent and grammatical sentences, they suffer from generality and hallucination issues. We propose a personalized, aspect-controlled model called Multi-Aspect Prompt LEarner (MAPLE), in which it integrates aspect category as another input dimension to facilitate the memorization of fine-grained aspect terms. Experiments on two real-world review datasets in restaurant domain show that MAPLE outperforms the baseline review-generation models in terms of text and feature diversity while maintaining excellent coherence and factual relevance. We further treat MAPLE as a retriever component in the retriever-reader framework and employ a Large-Language Model (LLM) as the reader, showing that MAPLE's explanation along with the LLM's comprehension ability leads to enriched and personalized explanation as a result. We will release the code and data in this http upon acceptance.
翻訳日:2024-08-20 16:44:56 公開日:2024-08-19
# ドッキング技術報告

Docling Technical Report ( http://arxiv.org/abs/2408.09869v1 )

ライセンス: Link先を確認
Christoph Auer, Maksym Lysak, Ahmed Nassar, Michele Dolfi, Nikolaos Livathinos, Panos Vagenas, Cesar Berrospi Ramis, Matteo Omenetti, Fabian Lindlbauer, Kasper Dinkla, Valery Weber, Lucas Morin, Ingmar Meijer, Viktor Kuropiatnyk, Peter W. J. Staar, (参考訳) この技術レポートではDoclingを紹介します。Doclingは簡単に使える、自己完結型の、MITライセンスのPDFドキュメント変換用オープンソースパッケージです。 レイアウト分析(DocLayNet)とテーブル構造認識(TableFormer)のための最先端の専門的なAIモデルを活用し、小さなリソース予算でコモディティハードウェア上で効率的に動作する。 コードインターフェースにより、簡単に拡張でき、新しい機能やモデルの追加が可能になる。

This technical report introduces Docling, an easy to use, self-contained, MIT-licensed open-source package for PDF document conversion. It is powered by state-of-the-art specialized AI models for layout analysis (DocLayNet) and table structure recognition (TableFormer), and runs efficiently on commodity hardware in a small resource budget. The code interface allows for easy extensibility and addition of new features and models.
翻訳日:2024-08-20 16:44:56 公開日:2024-08-19
# 動的に制約された離散時間量子力学における時空相関

Space-time correlations in monitored kinetically constrained discrete-time quantum dynamics ( http://arxiv.org/abs/2408.09872v1 )

ライセンス: Link先を確認
Marcel Cech, María Cea, Mari Carmen Bañuls, Igor Lesanovsky, Federico Carollo, (参考訳) 最先端の量子シミュレータは、相互作用と中間回路の読み出しの局所的な時間的制御を可能にする。 これらの能力は、興味深い非平衡現象の探索への道を開く。 我々は、このことを、Rydberg量子シミュレータに自然に実装された、運動的に制約された多体量子システムで説明する。 進化は離散的に進行し、各段階の後に監視されリセットされる補助的な環境によってシステムを何度も絡み合わせることによって生成される。 非相関な無限温度平均定常状態を特徴とするが、力学は系状態の確率的実現において、高速かつ遅い時空領域の共存を示す。 環境における測定結果の時間-記録は、そのような動的不均一性の自然なプローブとして機能し、大きな偏差理論の道具を用いて特徴付ける。 我々の研究は、量子プロセッサやシミュレータにおける複雑な力学や集合現象を特徴づける手段として、離散時間オープン量子多体システムのための大規模な偏差フレームワークを確立する。

State-of-the-art quantum simulators permit local temporal control of interactions and midcircuit readout. These capabilities open the way towards the exploration of intriguing nonequilibrium phenomena. We illustrate this with a kinetically constrained many-body quantum system that has a natural implementation on Rydberg quantum simulators. The evolution proceeds in discrete time and is generated by repeatedly entangling the system with an auxiliary environment that is monitored and reset after each time-step. Despite featuring an uncorrelated infinite-temperature average stationary state, the dynamics displays coexistence of fast and slow space-time regions in stochastic realizations of the system state. The time-record of measurement outcomes on the environment serves as natural probe for such dynamical heterogeneity, which we characterize using tools from large deviation theory. Our work establishes the large deviation framework for discrete-time open quantum many-body systems as a means to characterize complex dynamics and collective phenomena in quantum processors and simulators.
翻訳日:2024-08-20 16:44:56 公開日:2024-08-19
# 集中治療における敗血症・死亡のための新しいスペクトルイメージングバイオマーカー

New spectral imaging biomarkers for sepsis and mortality in intensive care ( http://arxiv.org/abs/2408.09873v1 )

ライセンス: Link先を確認
Silvia Seidlitz, Katharina Hölzl, Ayca von Garrel, Jan Sellner, Stephan Katzenschlager, Tobias Hölle, Dania Fischer, Maik von der Forst, Felix C. F. Schmitt, Markus A. Weigand, Lena Maier-Hein, Maximilian Dietrich, (参考訳) 敗血症が主要な死因であり、敗血症患者と死亡リスクの高い患者を早期に同定することは、社会経済的重要性の高い課題である。 本研究の駆動仮説は, 微小循環変動をモニターする可能性から, HSI(Hyperspectral Imaging)が敗血症診断および治療管理に新しいバイオマーカーを提供する可能性があるというものであった。 集中治療室(ICU)入院当日480名以上の患者の手のひらと指のHSIデータを総合的に調査した。 その結果, 受信機動作特性曲線 (AUROC) が 0.80 (95% % 信頼区間 (CI) [0.76; 0.84]) で, AUROC が 0.72 (95 % CI [0.65; 0.79]) で死亡すると推定できることがわかった。 この予測性能は、追加の臨床データが組み込まれると大幅に改善され、AUROCは敗血症では0.94 (95 % CI [0.92; 0.96])、死亡時には0.84 (95 % CI [0.78; 0.89])となる。 以上の結果から,HSIは急速かつ非侵襲的な敗血症・死亡予測のための新しい画像バイオマーカーを提示し,診断・治療の指針となる可能性が示唆された。

With sepsis remaining a leading cause of mortality, early identification of septic patients and those at high risk of death is a challenge of high socioeconomic importance. The driving hypothesis of this study was that hyperspectral imaging (HSI) could provide novel biomarkers for sepsis diagnosis and treatment management due to its potential to monitor microcirculatory alterations. We conducted a comprehensive study involving HSI data of the palm and fingers from more than 480 patients on the day of their intensive care unit (ICU) admission. The findings demonstrate that HSI measurements can predict sepsis with an area under the receiver operating characteristic curve (AUROC) of 0.80 (95 % confidence interval (CI) [0.76; 0.84]) and mortality with an AUROC of 0.72 (95 % CI [0.65; 0.79]). The predictive performance improves substantially when additional clinical data is incorporated, leading to an AUROC of up to 0.94 (95 % CI [0.92; 0.96]) for sepsis and 0.84 (95 % CI [0.78; 0.89]) for mortality. We conclude that HSI presents novel imaging biomarkers for the rapid, non-invasive prediction of sepsis and mortality, suggesting its potential as an important modality for guiding diagnosis and treatment.
翻訳日:2024-08-20 16:44:56 公開日:2024-08-19
# 知識蒸留による大規模言語モデル間のバックドアの転送

Transferring Backdoors between Large Language Models by Knowledge Distillation ( http://arxiv.org/abs/2408.09878v1 )

ライセンス: Link先を確認
Pengzhou Cheng, Zongru Wu, Tianjie Ju, Wei Du, Zhuosheng Zhang Gongshen Liu, (参考訳) バックドア攻撃は、Large Language Models (LLMs) に対する深刻な脆弱性である。 しかし、従来の手法では、特定のモデルでのみそのようなリスクを明らかにしたり、事前訓練されたフェーズを攻撃した後のタスク転送可能性を示すだけであった。 では、バックドア攻撃のモデル転送容易性はどの程度危険か? 本稿では,既存のミニLLMが,知識蒸留(KD)を通じて,有毒な教師によるバックドア知識で無意識に指導されるかどうかに焦点をあてる。 具体的には、適応的なトランスファー可能なバックドアアタックであるATBAを提案し、クリーンチューニングのみを行う場合、教師LLMのバックドアを小さなモデルに効果的に蒸留することができる。 まず、コサイン類似度分布に基づいて、トークンリストから指示的トリガー候補のセットをフィルタリングするTarget Trigger Generation (TTG) モジュールを提案する。 そこで,我々はシャドーモデルを用いて蒸留工程を模倣し,最適トリガーを探索するための勾配に基づくグリージーフィードバックを実現するための適応トリガー最適化(ATO)モジュールを導入する。 大規模な実験により、ATBAは学生モデルに対する肯定的なガイダンスを生成するだけでなく、暗黙的にバックドアの知識を伝達することが示された。 私たちの攻撃は堅牢でステルス性があり、80%以上のバックドア転送能力があり、セキュリティの注目を集めることを望んでいる。

Backdoor Attacks have been a serious vulnerability against Large Language Models (LLMs). However, previous methods only reveal such risk in specific models, or present tasks transferability after attacking the pre-trained phase. So, how risky is the model transferability of a backdoor attack? In this paper, we focus on whether existing mini-LLMs may be unconsciously instructed in backdoor knowledge by poisoned teacher LLMs through knowledge distillation (KD). Specifically, we propose ATBA, an adaptive transferable backdoor attack, which can effectively distill the backdoor of teacher LLMs into small models when only executing clean-tuning. We first propose the Target Trigger Generation (TTG) module that filters out a set of indicative trigger candidates from the token list based on cosine similarity distribution. Then, we exploit a shadow model to imitate the distilling process and introduce an Adaptive Trigger Optimization (ATO) module to realize a gradient-based greedy feedback to search optimal triggers. Extensive experiments show that ATBA generates not only positive guidance for student models but also implicitly transfers backdoor knowledge. Our attack is robust and stealthy, with over 80% backdoor transferability, and hopes the attention of security.
翻訳日:2024-08-20 16:44:56 公開日:2024-08-19
# 量子ワッサーシュタイン距離に関する量子ビット状態空間の異方性

Isometries of the qubit state space with respect to quantum Wasserstein distances ( http://arxiv.org/abs/2408.09879v1 )

ライセンス: Link先を確認
Richárd Simon, Dániel Virosztek, (参考訳) 本稿では、量子ビット状態空間上の量子ワッサーシュタイン距離と発散の等距離について研究する。 対称量子ワッサーシュタイン発散$d_{sym}$は、全てのパウリ行列によって誘導される発散である。 また、1つのパウリ行列 $\sigma_z$ に対応する量子ワッサーシュタイン距離である$D_z$ に関して、等距離の完全な特徴づけを与える。

In this paper we study isometries of quantum Wasserstein distances and divergences on the quantum bit state space. We describe isometries with respect to the symmetric quantum Wasserstein divergence $d_{sym}$, the divergence induced by all of the Pauli matrices. We also give a complete characterization of isometries with respect to $D_z$, the quantum Wasserstein distance corresponding to the single Pauli matrix $\sigma_z$.
翻訳日:2024-08-20 16:44:56 公開日:2024-08-19
# 等角予測を用いた事前学習・微調整サロゲートモデルの不確かさ定量化

Uncertainty Quantification of Pre-Trained and Fine-Tuned Surrogate Models using Conformal Prediction ( http://arxiv.org/abs/2408.09881v1 )

ライセンス: Link先を確認
Vignesh Gopakumar, Ander Gray, Joel Oskarsson, Lorenzo Zanisi, Stanislas Pamela, Daniel Giles, Matt Kusner, Marc Peter Deisenroth, (参考訳) データ駆動サロゲートモデルは、複雑な数値および実験的なモデリングタスクに対する迅速で安価な近似として、大きな可能性を示してきた。 しかしながら、物理系を特徴づけるほとんどの代理モデルは、その不確実性を定量化せず、予測を信頼できないものにし、さらなる検証を必要としている。 ベイズ近似はこれらのモデルに付随する誤差を推定するのに多少の欠点を与えるが、それらは保証を提供することはできず、それらの推論の品質は、複雑な問題に対する事前の情報と後方への良好な近似の可用性に依存する。 これは特に多変数あるいは時空間問題に関係している。 本研究は,ほぼゼロの計算コストを要するモデル非依存の方法で時空間予測の限界範囲を満足する共形予測フレームワークを構築し,定式化する。 本論文は,サロゲートモデルの動作領域全体にわたる保証されたカバレッジを提供する有効なエラーバーを確認するためのフレームワークの適用について,広範囲にわたる実証的研究を行った。 我々の研究の適用範囲は、偏微分方程式の解法から天気予報まで、幅広い時空間モデルにまたがる。 そこで本論文では,決定論的モデルに対する統計的に有効なエラーバーの提供と,確率論的モデルのエラーバーに対する保証の実現について検討する。 本論文は,モデルアーキテクチャやトレーニング体制によらず,サロゲートモデルのカバレッジを保証し,次元性の呪いを伴わない,実行可能なコンフォーマルな予測形式で締めくくっている。

Data-driven surrogate models have shown immense potential as quick, inexpensive approximations to complex numerical and experimental modelling tasks. However, most surrogate models characterising physical systems do not quantify their uncertainty, rendering their predictions unreliable, and needing further validation. Though Bayesian approximations offer some solace in estimating the error associated with these models, they cannot provide they cannot provide guarantees, and the quality of their inferences depends on the availability of prior information and good approximations to posteriors for complex problems. This is particularly pertinent to multi-variable or spatio-temporal problems. Our work constructs and formalises a conformal prediction framework that satisfies marginal coverage for spatio-temporal predictions in a model-agnostic manner, requiring near-zero computational costs. The paper provides an extensive empirical study of the application of the framework to ascertain valid error bars that provide guaranteed coverage across the surrogate model's domain of operation. The application scope of our work extends across a large range of spatio-temporal models, ranging from solving partial differential equations to weather forecasting. Through the applications, the paper looks at providing statistically valid error bars for deterministic models, as well as crafting guarantees to the error bars of probabilistic models. The paper concludes with a viable conformal prediction formalisation that provides guaranteed coverage of the surrogate model, regardless of model architecture, and its training regime and is unbothered by the curse of dimensionality.
翻訳日:2024-08-20 16:44:56 公開日:2024-08-19
# GINO-Q: レストレスマルチアームバンドにおける漸近的最適指標政策の学習

GINO-Q: Learning an Asymptotically Optimal Index Policy for Restless Multi-armed Bandits ( http://arxiv.org/abs/2408.09882v1 )

ライセンス: Link先を確認
Gongpu Chen, Soung Chang Liew, Deniz Gunduz, (参考訳) restless multi-armed bandit (RMAB) フレームワークは、様々な分野にまたがる一般的なモデルである。 しかし、その解法は(腕の数に関して)指数関数的に増大する状態空間と組合せ作用空間によって妨げられ、大規模インスタンスでは従来の強化学習法が実現不可能となる。 本稿では,RMABの漸近的最適指標法を学習するための3段階確率近似アルゴリズムであるGINO-Qを提案する。 GINO-QはRMABを1本の腕と同じ寸法の一連のサブプロブレムに分解することで次元の呪いを緩和し、腕の数とともに複雑さが線形に増加することを保証している。 最近開発されたWhittle-Indexベースのアルゴリズムとは異なり、GINO-QはRMABをインデックス化する必要がなく、柔軟性と適用性を高めている。 GINO-Q は,Whittle-index-based アルゴリズムが性能が悪く,既存のベースラインよりもはるかに高速に収束する非インデクサブル RMAB に対しても,常に準最適ポリシーを学習していることを示す。

The restless multi-armed bandit (RMAB) framework is a popular model with applications across a wide variety of fields. However, its solution is hindered by the exponentially growing state space (with respect to the number of arms) and the combinatorial action space, making traditional reinforcement learning methods infeasible for large-scale instances. In this paper, we propose GINO-Q, a three-timescale stochastic approximation algorithm designed to learn an asymptotically optimal index policy for RMABs. GINO-Q mitigates the curse of dimensionality by decomposing the RMAB into a series of subproblems, each with the same dimension as a single arm, ensuring that complexity increases linearly with the number of arms. Unlike recently developed Whittle-index-based algorithms, GINO-Q does not require RMABs to be indexable, enhancing its flexibility and applicability. Our experimental results demonstrate that GINO-Q consistently learns near-optimal policies, even for non-indexable RMABs where Whittle-index-based algorithms perform poorly, and it converges significantly faster than existing baselines.
翻訳日:2024-08-20 16:44:56 公開日:2024-08-19
# SAM-UNet:ユニバーサル医療画像におけるSAMのゼロショットセグメンテーションの促進

SAM-UNet:Enhancing Zero-Shot Segmentation of SAM for Universal Medical Images ( http://arxiv.org/abs/2408.09886v1 )

ライセンス: Link先を確認
Sihan Yang, Haixia Bi, Hai Zhang, Jian Sun, (参考訳) Segment Anything Model (SAM) は、様々な自然画像のセグメンテーションタスクにおいて印象的な性能を示した。 しかし, 自然画像と医用画像の相違により, 直接医療領域に適用した場合, その性能は著しく低下する。 一部の研究者は、SAMを大規模医療データセットでトレーニングしようと試みている。 しかし, 実験結果からゼロショット性能は低かった。 医用画像セグメンテーションにおけるU-Netライクなモデルの性能に着想を得て,U-Netを元のSAMに組み込んだ新たな基盤モデルSAMUNetを提案し,畳み込みの強力なコンテキストモデリング能力をフル活用する。 具体的には、画像エンコーダの畳み込み分岐を並列化し、視覚トランスフォーマー分岐をフリーズして独立に訓練する。 さらに,マスクデコーダのマルチスケール融合を利用して,異なるスケールのオブジェクトの正確なセグメンテーションを容易にする。 我々は,SA-Med2D-16MでSAM-UNetをトレーニングした。 SA-Med2D-16Mデータセット上で, サイス類似度係数の0.883のスコアで, モデルの性能評価実験を行った。 具体的には、ゼロショットセグメンテーション実験において、我々のモデルは、すべてのモダリティで以前の大きなSAMモデルよりも大幅に優れるだけでなく、目に見えないモダリティで見られるパフォーマンス劣化を著しく軽減する。 SAM-UNetは効率的で拡張可能な基盤モデルであり、医療コミュニティの他の下流のタスクをさらに微調整することができる点を強調しておく必要がある。 コードはhttps://github.com/Hhankyangg/sam-unet.comで公開されている。

Segment Anything Model (SAM) has demonstrated impressive performance on a wide range of natural image segmentation tasks. However, its performance significantly deteriorates when directly applied to medical domain, due to the remarkable differences between natural images and medical images. Some researchers have attempted to train SAM on large scale medical datasets. However, poor zero-shot performance is observed from the experimental results. In this context, inspired by the superior performance of U-Net-like models in medical image segmentation, we propose SAMUNet, a new foundation model which incorporates U-Net to the original SAM, to fully leverage the powerful contextual modeling ability of convolutions. To be specific, we parallel a convolutional branch in the image encoder, which is trained independently with the vision Transformer branch frozen. Additionally, we employ multi-scale fusion in the mask decoder, to facilitate accurate segmentation of objects with different scales. We train SAM-UNet on SA-Med2D-16M, the largest 2-dimensional medical image segmentation dataset to date, yielding a universal pretrained model for medical images. Extensive experiments are conducted to evaluate the performance of the model, and state-of-the-art result is achieved, with a dice similarity coefficient score of 0.883 on SA-Med2D-16M dataset. Specifically, in zero-shot segmentation experiments, our model not only significantly outperforms previous large medical SAM models across all modalities, but also substantially mitigates the performance degradation seen on unseen modalities. It should be highlighted that SAM-UNet is an efficient and extensible foundation model, which can be further fine-tuned for other downstream tasks in medical community. The code is available at https://github.com/Hhankyangg/sam-unet.
翻訳日:2024-08-20 16:44:56 公開日:2024-08-19
# アラート駆動アタックグラフによるアタックアクションの予測

Forecasting Attacker Actions using Alert-driven Attack Graphs ( http://arxiv.org/abs/2408.09888v1 )

ライセンス: Link先を確認
Ion Băbălău, Azqa Nadeem, (参考訳) 侵入検知システムはサイバー攻撃に対する最初の防御線を形成するが、それらはしばしば圧倒的な数の警告を発生させ、セキュリティ運用センター(SOC)アナリストの間で警告疲労を引き起こす。 アラート駆動型攻撃グラフ(AG)は、侵入警報における攻撃経路を自動的に発見することにより、警告疲労を軽減するために開発された。 しかし、オフライン設定でしか動作せず、重要な攻撃経路を優先順位付けできない。 本稿では,既存の警告駆動型AGフレームワーク上にアクション予測機能を構築し,観測された一連のアクションから次の攻撃行為を予測することにより,アナリストが非自明な攻撃経路を優先順位付けできるようにする。 また、新しいアラートがトリガーされるので、フレームワークをリアルタイムでAGを構築するように変更します。 このようにして、私たちは警告駆動のAGを早期警告システムに変換し、アナリストが進行中の攻撃を回避し、サイバー殺人連鎖を破ることができるようにします。 本稿では,逆接尾辞に基づく確率的決定論的有限オートマトン (rSPDFA) における将来の行動を予測するための予測最大化手法を提案する。 3つの実世界の侵入とエンドポイント警告データセットを利用することで、最高のパフォーマンスの rSPDFA が平均最高3の精度67.27%を達成し、平均3つのベースラインに対して57.17%の改善を反映していることを実証的に実証した。 また、進化しているAGを2つのシナリオで使用するために、6人のSOCアナリストを招待します。 彼らの反応は、行動予測が重要なインシデントを優先順位付けするのに役立つことを示唆し、進化中のAGはリアルタイムで対策を選択することができることを示唆している。

While intrusion detection systems form the first line-of-defense against cyberattacks, they often generate an overwhelming volume of alerts, leading to alert fatigue among security operations center (SOC) analysts. Alert-driven attack graphs (AGs) have been developed to reduce alert fatigue by automatically discovering attack paths in intrusion alerts. However, they only work in offline settings and cannot prioritize critical attack paths. This paper builds an action forecasting capability on top of the existing alert-driven AG framework for predicting the next likely attacker action given a sequence of observed actions, thus enabling analysts to prioritize non-trivial attack paths. We also modify the framework to build AGs in real time, as new alerts are triggered. This way, we convert alert-driven AGs into an early warning system that enables analysts to circumvent ongoing attacks and break the cyber killchain. We propose an expectation maximization approach to forecast future actions in a reversed suffix-based probabilistic deterministic finite automaton (rSPDFA). By utilizing three real-world intrusion and endpoint alert datasets, we empirically demonstrate that the best performing rSPDFA achieves an average top-3 accuracy of 67.27%, which reflects a 57.17% improvement over three baselines, on average. We also invite six SOC analysts to use the evolving AGs in two scenarios. Their responses suggest that the action forecasts help them prioritize critical incidents, while the evolving AGs enable them to choose countermeasures in real-time.
翻訳日:2024-08-20 16:35:11 公開日:2024-08-19
# 重み付きデータを用いた微分的私的確率最適化:最適速度を目指して

Differential Private Stochastic Optimization with Heavy-tailed Data: Towards Optimal Rates ( http://arxiv.org/abs/2408.09891v1 )

ライセンス: Link先を確認
Puning Zhao, Jiafei Wu, Zhe Liu, Chong Wang, Rongfei Fan, Qingming Li, (参考訳) 差分プライバシー(DP)下での凸最適化問題について検討する。 重み付き勾配では、既存の作業は最適以下の速度を達成する。 主な障害は、既存の勾配推定器が準最適尾部特性を持ち、結果としてユニオン境界における超流動係数が$d$となることである。 本稿では,重み付き勾配を用いたDP最適化のアルゴリズムについて検討する。 最初の方法は単純なクリッピングアプローチです。 勾配の有界な$p$-次モーメントの下で、$n$サンプルを持ち、$\tilde{O}(\sqrt{d/n}+\sqrt{d}(\sqrt{d}/n\epsilon)^{1-1/p})$ 人口リスク$$\epsilon\leq 1/\sqrt{d}$を達成する。 次に、より複雑な反復更新法を提案するが、これはすべての$\epsilon\leq 1$に対してこの率を達成する。 その結果、既存の手法よりも大幅に改善された。 このような改善は勾配推定器のテール挙動を慎重に扱うことに依存している。 この結果は, DP下での確率凸最適化の理論的限界が達成可能であることを示す。

We study convex optimization problems under differential privacy (DP). With heavy-tailed gradients, existing works achieve suboptimal rates. The main obstacle is that existing gradient estimators have suboptimal tail properties, resulting in a superfluous factor of $d$ in the union bound. In this paper, we explore algorithms achieving optimal rates of DP optimization with heavy-tailed gradients. Our first method is a simple clipping approach. Under bounded $p$-th order moments of gradients, with $n$ samples, it achieves $\tilde{O}(\sqrt{d/n}+\sqrt{d}(\sqrt{d}/n\epsilon)^{1-1/p})$ population risk with $\epsilon\leq 1/\sqrt{d}$. We then propose an iterative updating method, which is more complex but achieves this rate for all $\epsilon\leq 1$. The results significantly improve over existing methods. Such improvement relies on a careful treatment of the tail behavior of gradient estimators. Our results match the minimax lower bound in \cite{kamath2022improved}, indicating that the theoretical limit of stochastic convex optimization under DP is achievable.
翻訳日:2024-08-20 16:35:11 公開日:2024-08-19
# Convolutional Block Attention Module-Integrated Neural Network を用いた肩部X線写真からの術前回転子断裂予測

Preoperative Rotator Cuff Tear Prediction from Shoulder Radiographs using a Convolutional Block Attention Module-Integrated Neural Network ( http://arxiv.org/abs/2408.09894v1 )

ライセンス: Link先を確認
Chris Hyunchul Jo, Jiwoong Yang, Byunghwan Jeon, Hackjoon Shim, Ikbeom Jang, (参考訳) 研究課題: 肩部X線写真と深達度学習法を併用して, 肩腱板断裂患者をMRIで診断する方法について検討した。 結果: 深部ニューラルネットワークに畳み込みブロック注意モジュールを組み込むことで, 腱板断裂症例の検出精度が向上し, 平均AUCは0.889, 精度0.831となった。 意義:本研究では,X線写真からの回転カフ断裂を正確に検出するためのディープラーニングモデルの有効性を検証する。

Research question: We test whether a plane shoulder radiograph can be used together with deep learning methods to identify patients with rotator cuff tears as opposed to using an MRI in standard of care. Findings: By integrating convolutional block attention modules into a deep neural network, our model demonstrates high accuracy in detecting patients with rotator cuff tears, achieving an average AUC of 0.889 and an accuracy of 0.831. Meaning: This study validates the efficacy of our deep learning model to accurately detect rotation cuff tears from radiographs, offering a viable pre-assessment or alternative to more expensive imaging techniques such as MRI.
翻訳日:2024-08-20 16:35:11 公開日:2024-08-19
# 大規模言語モデルの性能法則

Performance Law of Large Language Models ( http://arxiv.org/abs/2408.09895v1 )

ライセンス: Link先を確認
Chuhan Wu, Ruiming Tang, (参考訳) 大規模言語モデル(LLM)は,近年,大規模言語モデル(LLM)が目覚ましい業績をあげている。 しかし、スケーリング法則は、モデルアーキテクチャ、データ分散、トークン化器、計算精度といった様々な要因の影響を受け、損失の質的な推定のみを与える。 したがって、損失ではなく、異なるトレーニング設定でLLMの実際の性能を推定することは、実用的開発において非常に有用である。 本稿では, LLMのMMLUスコアを直接予測する「性能法則」という経験方程式を提案する。 LLMアーキテクチャの重要なハイパーパラメータとトレーニングデータのサイズに基づいて,異なる組織で異なるサイズとアーキテクチャが開発されている様々なLLMのMMLU予測を精度良く行う。 性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。

Guided by the belief of the scaling law, large language models (LLMs) have achieved impressive performance in recent years. However, scaling law only gives a qualitative estimation of loss, which is influenced by various factors such as model architectures, data distributions, tokenizers, and computation precision. Thus, estimating the real performance of LLMs with different training settings rather than loss may be quite useful in practical development. In this article, we present an empirical equation named "Performance Law" to directly predict the MMLU score of an LLM, which is a widely used metric to indicate the general capability of LLMs in real-world conversations and applications. Based on only a few key hyperparameters of the LLM architecture and the size of training data, we obtain a quite accurate MMLU prediction of various LLMs with diverse sizes and architectures developed by different organizations in different years. Performance law can be used to guide the choice of LLM architecture and the effective allocation of computational resources without extensive experiments.
翻訳日:2024-08-20 16:35:11 公開日:2024-08-19
# 統一テキストグラフ拡散モデルを用いた命令型分子グラフ生成

Instruction-Based Molecular Graph Generation with Unified Text-Graph Diffusion Model ( http://arxiv.org/abs/2408.09896v1 )

ライセンス: Link先を確認
Yuran Xiang, Haiteng Zhao, Chang Ma, Zhi-Hong Deng, (参考訳) 計算化学の最近の進歩は、テキストの指示に基づいて分子を合成することに集中している。 グラフ生成をこれらの命令と統合することは複雑であり、既存のほとんどの手法では、事前訓練された大きな言語モデルで分子配列を使用することができる。 この課題に対応するために、離散グラフ拡散に言語モデルを用いて命令から分子グラフを生成する、$\textbf{UTGDiff (Unified Text-Graph Diffusion Model)$という新しいフレームワークを提案する。 UTGDiffは、事前訓練された言語モデルから派生し、注意バイアスを通じてグラフデータを処理するために最小限に修正された、統一されたテキストグラフ変換器をデノナイジングネットワークとして特徴付けている。 実験の結果,UTGDiffは命令ベースの分子生成および編集に関わるタスクにおいて,シーケンスベースベースラインを一貫して上回り,同等の事前学習コーパスを与えられたパラメータが少なくて優れた性能を発揮することがわかった。 私たちのコードはhttps://github.com/ran1812/UTGDiff.comで利用可能です。

Recent advancements in computational chemistry have increasingly focused on synthesizing molecules based on textual instructions. Integrating graph generation with these instructions is complex, leading most current methods to use molecular sequences with pre-trained large language models. In response to this challenge, we propose a novel framework, named $\textbf{UTGDiff (Unified Text-Graph Diffusion Model)}$, which utilizes language models for discrete graph diffusion to generate molecular graphs from instructions. UTGDiff features a unified text-graph transformer as the denoising network, derived from pre-trained language models and minimally modified to process graph data through attention bias. Our experimental results demonstrate that UTGDiff consistently outperforms sequence-based baselines in tasks involving instruction-based molecule generation and editing, achieving superior performance with fewer parameters given an equivalent level of pretraining corpus. Our code is availble at https://github.com/ran1812/UTGDiff.
翻訳日:2024-08-20 16:35:11 公開日:2024-08-19
# LCE:概念発見に基づく超音波画像のためのDNNの説明可能性のためのフレームワーク

LCE: A Framework for Explainability of DNNs for Ultrasound Image Based on Concept Discovery ( http://arxiv.org/abs/2408.09899v1 )

ライセンス: Link先を確認
Weiji Kong, Xun Gong, Juan Wang, (参考訳) 医用画像に対するディープニューラルネットワーク(DNN)の決定を説明することがますます重要になっている。 既存の属性法はピクセルの意味を説明するのが難しいが、既存の概念に基づく手法は、超音波画像に適用することが難しい追加アノテーションや特定のモデル構造によって制限されている。 本稿では,帰納的手法と概念に基づく手法を組み合わせたLesion Concept Explainer (LCE) フレームワークを提案する。 超音波画像DNNの有意義な説明を可能にするため,多数の医用画像に微調整したSegment Anything Model (SAM)を導入している。 提案するフレームワークは,忠実度と可理解性の両方の観点から評価する。 本稿では,信頼度評価指標の欠陥を指摘し,新しい評価指標を提案する。 一般用および民間用乳房超音波データセット(BUSI, FG-US-B)を評価した結果, LCEは一般的に用いられている説明可能性法と比較して高い性能を示した。 また, 乳房超音波検査において, LCEがより精細な診断タスクに対して, 確実な説明を連続的に提供できることを検証した。

Explaining the decisions of Deep Neural Networks (DNNs) for medical images has become increasingly important. Existing attribution methods have difficulty explaining the meaning of pixels while existing concept-based methods are limited by additional annotations or specific model structures that are difficult to apply to ultrasound images. In this paper, we propose the Lesion Concept Explainer (LCE) framework, which combines attribution methods with concept-based methods. We introduce the Segment Anything Model (SAM), fine-tuned on a large number of medical images, for concept discovery to enable a meaningful explanation of ultrasound image DNNs. The proposed framework is evaluated in terms of both faithfulness and understandability. We point out deficiencies in the popular faithfulness evaluation metrics and propose a new evaluation metric. Our evaluation of public and private breast ultrasound datasets (BUSI and FG-US-B) shows that LCE performs well compared to commonly-used explainability methods. Finally, we also validate that LCE can consistently provide reliable explanations for more meaningful fine-grained diagnostic tasks in breast ultrasound.
翻訳日:2024-08-20 16:35:11 公開日:2024-08-19
# $p$SVM:$p$-norm Hinge Lossを備えたSoft-margin SVM

$p$SVM: Soft-margin SVMs with $p$-norm Hinge Loss ( http://arxiv.org/abs/2408.09908v1 )

ライセンス: Link先を確認
Haoxiang Sun, (参考訳) ヒンジ損失に基づくサポートベクトルマシン(SVM)は、様々なバイナリ分類タスクに広く議論され、適用されてきた。 これらのSVMは、マージンの最大化と、外れ値によるスラックの最小化のバランスを達成する。 ヒンジ損失を伴うSVMの性能向上に多くの努力が注がれているが、$p$SVM、$p$-normヒンジ損失を持つソフトマージンSVMの研究は比較的少ないままである。 本稿では,$p$SVMの特性,性能,トレーニングアルゴリズムについて検討する。 まず、$p$SVMの一般化境界を導出し、それから従来の手法と比較して双対最適化問題を定式化する。 さらに、$p$SVMモデルをトレーニングするために、Sequential Minimal Optimization (SMO)アルゴリズムの一般化版である$p$SMOについて論じる。 バイナリおよびマルチクラス分類タスクを含む各種データセットの比較実験は、$p$SVMモデルと$p$SMOメソッドの有効性と利点を実証する。

Support Vector Machines (SVMs) based on hinge loss have been extensively discussed and applied to various binary classification tasks. These SVMs achieve a balance between margin maximization and the minimization of slack due to outliers. Although many efforts have been dedicated to enhancing the performance of SVMs with hinge loss, studies on $p$SVMs, soft-margin SVMs with $p$-norm hinge loss, remain relatively scarce. In this paper, we explore the properties, performance, and training algorithms of $p$SVMs. We first derive the generalization bound of $p$SVMs, then formulate the dual optimization problem, comparing it with the traditional approach. Furthermore, we discuss a generalized version of the Sequential Minimal Optimization (SMO) algorithm, $p$SMO, to train our $p$SVM model. Comparative experiments on various datasets, including binary and multi-class classification tasks, demonstrate the effectiveness and advantages of our $p$SVM model and the $p$SMO method.
翻訳日:2024-08-20 16:35:11 公開日:2024-08-19
# イベント計算と解集合プログラミングによる高レベルのシステム要件の早期検証

Early Validation of High-level System Requirements with Event Calculus and Answer Set Programming ( http://arxiv.org/abs/2408.09909v1 )

ライセンス: Link先を確認
Ondřej Vašíček, Joaquin Arias, Jan Fiedor, Gopal Gupta, Brendan Hall, Bohuslav Křena, Brian Larson, Sarat Chandra Varanasi, Tomáš Vojnar, (参考訳) 本稿では,サイバー物理システムに対する高レベル要件を早期に検証するための新しい手法を提案する。 本稿では,医療機器の実際の要件仕様である$-$a PCA pump$-$into an Event Calculus modelを,応答セットプログラミングとs(CASP)システムを用いて評価する。 s(CASP)による評価により,PCAポンプの特定の機能について,実装や設計依存の影響を最小限に抑えながら,導出的および導出的推論が可能となり,臨界安全性特性の完全自動検出が可能となった。 さらに,評価において直面するスケーラビリティと非終端課題について論じ,それを解決するための技術について論じる。 最後に、s(CASP)を改善し、継続する評価の限界を克服し、表現性を高めるためのアイデアを示す。

This paper proposes a new methodology for early validation of high-level requirements on cyber-physical systems with the aim of improving their quality and, thus, lowering chances of specification errors propagating into later stages of development where it is much more expensive to fix them. The paper presents a transformation of a real-world requirements specification of a medical device$-$a PCA pump$-$into an Event Calculus model that is then evaluated using answer set programming and the s(CASP) system. The evaluation under s(CASP) allowed deductive as well as abductive reasoning about the specified functionality of the PCA pump on the conceptual level with minimal implementation or design dependent influences, and led to fully-automatically detected nuanced violations of critical safety properties. Further, the paper discusses scalability and non-termination challenges that had to be faced in the evaluation and techniques proposed to (partially) solve them. Finally, ideas for improving s(CASP) to overcome its evaluation limitations that still persist as well as to increase its expressiveness are presented.
翻訳日:2024-08-20 16:35:11 公開日:2024-08-19
# 水中画像復元のためのマルチレゾリューションとマルチスケールアテンション

Harnessing Multi-resolution and Multi-scale Attention for Underwater Image Restoration ( http://arxiv.org/abs/2408.09912v1 )

ライセンス: Link先を確認
Alik Pramanick, Arijit Sur, V. Vijaya Saradhi, (参考訳) 水中画像は、色歪みや低コントラストなどの要因によってしばしば損なわれ、ハイレベルな視覚タスクの課題を提起する。 近年の水中画像復元法 (UIR) では、入力画像を全解像度で解析し、空間的豊かさと文脈的弱さを生じるか、高解像度から低解像度に段階的に改善し、信頼性の高いセマンティック情報を得るが、空間的精度は低下する。 本稿では,Lit-Netと呼ばれる軽量なマルチステージネットワークを提案し,第1段の解像度を維持しつつ,第2段の解像度を維持しつつ,最終段の解像度に焦点をあてたマルチ解像度・マルチスケール画像解析を行う。 我々の新しいエンコーダブロックは、並列な$1\times1$の畳み込みレイヤを使用して、ローカル情報をキャプチャし、操作を高速化する。 さらに、色と詳細情報を復元するために、色チャンネル固有の$l_1$ loss(cl_1$)関数を修正した。 一般公開されたデータセットに対する大規模な実験は、我々のモデルが最近の最先端の手法よりも優れていることを示唆しており、EUVPデータセットにおける29.477$dB PSNR(1.92.%)や0.851$SSIM(2.87.%)といった質的かつ定量的な尺度が大幅に改善されている。 Lit-Netの貢献により、水中画像の強化と超高解像度化に対するより堅牢なアプローチが提供される。 コードは、https://github.com/Alik033/Lit-Net.comで入手できる。

Underwater imagery is often compromised by factors such as color distortion and low contrast, posing challenges for high-level vision tasks. Recent underwater image restoration (UIR) methods either analyze the input image at full resolution, resulting in spatial richness but contextual weakness, or progressively from high to low resolution, yielding reliable semantic information but reduced spatial accuracy. Here, we propose a lightweight multi-stage network called Lit-Net that focuses on multi-resolution and multi-scale image analysis for restoring underwater images while retaining original resolution during the first stage, refining features in the second, and focusing on reconstruction in the final stage. Our novel encoder block utilizes parallel $1\times1$ convolution layers to capture local information and speed up operations. Further, we incorporate a modified weighted color channel-specific $l_1$ loss ($cl_1$) function to recover color and detail information. Extensive experimentations on publicly available datasets suggest our model's superiority over recent state-of-the-art methods, with significant improvement in qualitative and quantitative measures, such as $29.477$ dB PSNR ($1.92\%$ improvement) and $0.851$ SSIM ($2.87\%$ improvement) on the EUVP dataset. The contributions of Lit-Net offer a more robust approach to underwater image enhancement and super-resolution, which is of considerable importance for underwater autonomous vehicles and surveillance. The code is available at: https://github.com/Alik033/Lit-Net.
翻訳日:2024-08-20 16:35:11 公開日:2024-08-19
# 災害関連つぶやきを識別するためのアクティブラーニング:キーワードフィルタリングとジェネリックファインチューニングとの比較

Active Learning for Identifying Disaster-Related Tweets: A Comparison with Keyword Filtering and Generic Fine-Tuning ( http://arxiv.org/abs/2408.09914v1 )

ライセンス: Link先を確認
David Hanny, Sebastian Schmidt, Bernd Resch, (参考訳) ソーシャルメディアからの情報は、ほぼリアルタイムで自然災害時の緊急対応に不可欠な情報を提供することができる。 しかし, 大量の非構造データのうち, 災害関連ポストを特定することは困難である。 従来の手法では、キーワードフィルタリングやトピックモデリング、分類に基づく手法を使って投稿を識別することが多い。 Active Learning (AL)は、ソーシャルメディアコンテンツのテキスト分類の分野ではあまり使われていない機械学習(ML)の有望なサブフィールドを提示する。 そこで本研究では,災害関連つぶやきを識別するALの可能性について検討した。 本稿では,キーワードフィルタリング手法,CrisisLexの汎用データを用いたRoBERTaモデル,ALで訓練したRoBERTaモデル,ALで訓練したRoBERTaモデルを比較した。 テストでは、CrisisLexのデータと、ドイツの2021年の洪水と2023年のチリの森林火災のデータを手動でラベル付けした。 その結果,ALの10ラウンドと組み合わせた汎用微調整は,他のアプローチよりも優れていた。 その結果、災害に関連するつぶやきを識別するための広範囲に適用可能なモデルが、ラベル付けをほとんど行わずに訓練することが可能となった。 このモデルは、この研究以外のユースケースに適用することができ、ソーシャルメディア分析のさらなる研究に役立つツールを提供する。

Information from social media can provide essential information for emergency response during natural disasters in near real-time. However, it is difficult to identify the disaster-related posts among the large amounts of unstructured data available. Previous methods often use keyword filtering, topic modelling or classification-based techniques to identify such posts. Active Learning (AL) presents a promising sub-field of Machine Learning (ML) that has not been used much in the field of text classification of social media content. This study therefore investigates the potential of AL for identifying disaster-related Tweets. We compare a keyword filtering approach, a RoBERTa model fine-tuned with generic data from CrisisLex, a base RoBERTa model trained with AL and a fine-tuned RoBERTa model trained with AL regarding classification performance. For testing, data from CrisisLex and manually labelled data from the 2021 flood in Germany and the 2023 Chile forest fires were considered. The results show that generic fine-tuning combined with 10 rounds of AL outperformed all other approaches. Consequently, a broadly applicable model for the identification of disaster-related Tweets could be trained with very little labelling effort. The model can be applied to use cases beyond this study and provides a useful tool for further research in social media analysis.
翻訳日:2024-08-20 16:35:10 公開日:2024-08-19
# Attribution Analysis with Model Editing:Advanced Knowledge Correction in Vision Language Models with VisEdit

Attribution Analysis Meets Model Editing: Advancing Knowledge Correction in Vision Language Models with VisEdit ( http://arxiv.org/abs/2408.09916v1 )

ライセンス: Link先を確認
Qizhou Chen, Taolin Zhang, Chengyu Wang, Xiaofeng He, Dakan Wang, Tingting Liu, (参考訳) モデル編集は、コストのかかる再トレーニングなしに、大規模なモデルにおける時代遅れまたは誤った知識を修正することを目的としている。 近年の研究では,プロンプトにおける最終トークンの中間層表現が事実予測に強い影響を与えていることが判明し,この観測に基づいて大規模言語モデル(LLM)編集技術を開発した。 しかし、Vision-LLMs (VLLMs) では、デコーダのみの言語モデルからの予測に視覚的表現がどのように影響するかは明らかにされていない。 我々の知る限り、VLLMのモデル編集は文献で広く研究されていない。 本研究では,トークン予測における視覚表現の寄与を測定するために,コントリビューションアロケーションとノイズ摂動手法を用いる。 帰属分析により,このプロンプトに非常に関係のある中後期層における視覚的表現が予測に大きく寄与していることが示唆された。 これらの知見に基づき,VLLM のための新しいモデルエディタである VisEdit を提案し,編集プロンプトに重要な領域の中間的な視覚表現を編集することで,知識を効果的に修正する。 複数のVLLMバックボーンと公開VLLM編集ベンチマークデータセットを用いてVisEditを評価した。 その結果,既存のLLMの最先端エディタに適応した強力なベースラインよりも,VisEditの方が優れていることがわかった。

Model editing aims to correct outdated or erroneous knowledge in large models without costly retraining. Recent research discovered that the mid-layer representation of the subject's final token in a prompt has a strong influence on factual predictions, and developed Large Language Model (LLM) editing techniques based on this observation. However, for Vision-LLMs (VLLMs), how visual representations impact the predictions from a decoder-only language model remains largely unexplored. To the best of our knowledge, model editing for VLLMs has not been extensively studied in the literature. In this work, we employ the contribution allocation and noise perturbation methods to measure the contributions of visual representations for token predictions. Our attribution analysis shows that visual representations in mid-to-later layers that are highly relevant to the prompt contribute significantly to predictions. Based on these insights, we propose VisEdit, a novel model editor for VLLMs that effectively corrects knowledge by editing intermediate visual representations in regions important to the edit prompt. We evaluated VisEdit using multiple VLLM backbones and public VLLM editing benchmark datasets. The results show the superiority of VisEdit over the strong baselines adapted from existing state-of-the-art editors for LLMs.
翻訳日:2024-08-20 16:35:10 公開日:2024-08-19
# 時間的メッセージパッシングの表現力

Expressive Power of Temporal Message Passing ( http://arxiv.org/abs/2408.09918v1 )

ライセンス: Link先を確認
Przemysław Andrzej Wałęga, Michael Rawson, (参考訳) グラフニューラルネットワーク(GNN)は最近、時間的設定に適応しており、しばしばGNNから知られているメッセージパッシング機構の時間的バージョンを使用している。 我々は、時間的メッセージパッシング機構を、グローバルとローカルの2つの主要なタイプに分割し、Weisfeiler-Lemanの特徴付けを確立する。 これにより、時間的メッセージパッシングモデルの表現力を分析することができる。 本稿では,グローバルかつ局所的な時間的メッセージパッシング機構が任意の時間的グラフに適用した場合に比較不可能な表現力を持つことを示す。 しかしながら、局所的なメカニズムは、すべての時間点においてノード色が最初は同じである色の持続時間グラフに適用する場合、大域的なメカニズムよりも厳密に表現できる。 我々の理論的な知見は、我々の分析の実際的な意味を裏付ける実験的な証拠によって裏付けられている。

Graph neural networks (GNNs) have recently been adapted to temporal settings, often employing temporal versions of the message-passing mechanism known from GNNs. We divide temporal message passing mechanisms from literature into two main types: global and local, and establish Weisfeiler-Leman characterisations for both. This allows us to formally analyse expressive power of temporal message-passing models. We show that global and local temporal message-passing mechanisms have incomparable expressive power when applied to arbitrary temporal graphs. However, the local mechanism is strictly more expressive than the global mechanism when applied to colour-persistent temporal graphs, whose node colours are initially the same in all time points. Our theoretical findings are supported by experimental evidence, underlining practical implications of our analysis.
翻訳日:2024-08-20 16:35:10 公開日:2024-08-19
# Group-wise Temporal Logit Adjustment を用いた長期的時間的行動分割

Long-Tail Temporal Action Segmentation with Group-wise Temporal Logit Adjustment ( http://arxiv.org/abs/2408.09919v1 )

ライセンス: Link先を確認
Zhanzhong Pang, Fadime Sener, Shrinivas Ramasubramanian, Angela Yao, (参考訳) プロシージャのアクティビティビデオは、アクション頻度と持続時間が異なるため、長い尾のアクション分布を示すことが多い。 しかし、最先端の時間的アクションセグメンテーション手法は、長い尾を見落とし、尾のアクションを認識するのに失敗する。 既存のロングテールメソッドは、時間的セグメンテーションフレームワークに適用した場合、クラスに依存しない仮定とテールクラスを特定するのに苦労する。 本研究はグループワイドの時間的ロジット調整(G-TLA)フレームワークを提案する。 提案フレームワークは,ヘッドアクションの性能低下を伴わずにセグメンテーションテールアクションを大幅に改善する。

Procedural activity videos often exhibit a long-tailed action distribution due to varying action frequencies and durations. However, state-of-the-art temporal action segmentation methods overlook the long tail and fail to recognize tail actions. Existing long-tail methods make class-independent assumptions and struggle to identify tail classes when applied to temporal segmentation frameworks. This work proposes a novel group-wise temporal logit adjustment~(G-TLA) framework that combines a group-wise softmax formulation while leveraging activity information and action ordering for logit adjustment. The proposed framework significantly improves in segmenting tail actions without any performance loss on head actions.
翻訳日:2024-08-20 16:35:10 公開日:2024-08-19
# Sliced Maximal Information Coefficient: 画像品質評価向上のためのトレーニング不要アプローチ

Sliced Maximal Information Coefficient: A Training-Free Approach for Image Quality Assessment Enhancement ( http://arxiv.org/abs/2408.09920v1 )

ライセンス: Link先を確認
Kang Xiao, Xu Wang, Yulin He, Baoliang Chen, Xuelin Shen, (参考訳) フルリファレンス画像品質評価(FR-IQA)モデルは、一般的に、劣化した画像とその参照の間の視覚的差異を測定することによって機能する。 しかし、従来のFR-IQAモデル(例えば、PSNRとSSIM)と深層学習に基づく尺度(例えば、LPIPSとdisTS)は、人間の視覚システム(HVS)の完全な知覚特性を捉えるのに限界がある。 本稿では、新しいFR-IQA尺度を設計する代わりに、人間の品質評価のプロセスを模倣し、既存のIQAモデルを強化するために、一般化された人間の視覚的注意度推定戦略を検討することを目的とする。 特に、劣化画像と参照画像の統計的依存性を測定することによって、人間の注意生成をモデル化する。 この依存関係は,提案したスライスされた最大情報係数によって学習不要な方法で捕捉され,IQAの異なる尺度で驚くほどの一般化を示す。 既存のIQAモデルのアテンションモジュールを組み込んだ場合、既存のIQAモデルの性能を一貫して改善できることを示す実験結果が得られた。 ソースコードはhttps://github.com/KANGX99/SMICで入手できる。

Full-reference image quality assessment (FR-IQA) models generally operate by measuring the visual differences between a degraded image and its reference. However, existing FR-IQA models including both the classical ones (eg, PSNR and SSIM) and deep-learning based measures (eg, LPIPS and DISTS) still exhibit limitations in capturing the full perception characteristics of the human visual system (HVS). In this paper, instead of designing a new FR-IQA measure, we aim to explore a generalized human visual attention estimation strategy to mimic the process of human quality rating and enhance existing IQA models. In particular, we model human attention generation by measuring the statistical dependency between the degraded image and the reference image. The dependency is captured in a training-free manner by our proposed sliced maximal information coefficient and exhibits surprising generalization in different IQA measures. Experimental results verify the performance of existing IQA models can be consistently improved when our attention module is incorporated. The source code is available at https://github.com/KANGX99/SMIC.
翻訳日:2024-08-20 16:35:10 公開日:2024-08-19
# 光学格子時計におけるランダウ・ツェナー・ラビ振動の実現

Realization of Landau-Zener Rabi Oscillations on optical lattice clock ( http://arxiv.org/abs/2408.09922v1 )

ライセンス: Link先を確認
Wei Tan, Wei-Xin Liu, Ying-Xin Chen, Chi-Hua Zhou, Guo-Dong Zhao, Hong Chang, Tao Wang, (参考訳) 量子状態を操作することは、量子情報処理と量子気象学の中心にある。 LZRO(Landau-Zener Rabi oscillation)は、量子状態を操作するために、時間領域において避けられた交差点を繰り返す量子2レベル系から生じる。 コールド原子は量子コンピューティングと精密測定のための最も顕著なプラットフォームの一つである。 しかし、LZROはその厳密な要求のため、冷たい原子では観測されていない。 クロックレーザの線形ドリフトを補正し,実験パラメータを最適化することにより,高速かつ低速な通過限界下でのストロンチウム原子光時計プラットフォーム上でのLZROの測定に成功した。 他のプラットフォームと比較して、光学格子時計の台地の持続時間は10^4$である。 また、実験データから、破壊的なランダウ・ツェナー干渉は光学格子時計の劣化効果を効果的に抑制し、低温原子系における様々な環境効果に対する量子状態の操作を可能にすることが示唆された。

Manipulating quantum states is at the heart of quantum information processing and quantum metrology. Landau-Zener Rabi oscillation (LZRO), which arises from a quantum two-level system swept repeatedly across the avoided crossing point in the time domain, has been suggested for widespread use in manipulating quantum states. Cold atom is one of the most prominent platforms for quantum computing and precision measurement. However, LZRO has never been observed in cold atoms due to its stringent requirements. By compensating for the linear drift of the clock laser and optimizing experimental parameters, we successfully measured LZRO on the strontium atomic optical clock platform under both fast and slow passage limits within $4$ to $6$ driving periods. Compared to previous results on other platforms, the duration of the plateau is $10^4$ times longer in the optical lattice clock. The experimental data also suggest that destructive Landau-Zener interference can effectively suppress dephasing effects in the optical lattice clock, paving the way for manipulating quantum states against various environmental effects in cold atomic systems.
翻訳日:2024-08-20 16:35:10 公開日:2024-08-19
# DiscoNeRF:3Dオブジェクト発見のためのクラス非依存オブジェクトフィールド

DiscoNeRF: Class-Agnostic Object Field for 3D Object Discovery ( http://arxiv.org/abs/2408.09928v1 )

ライセンス: Link先を確認
Corentin Dumery, Aoxiang Fan, Ren Li, Nicolas Talabot, Pascal Fua, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、複数の画像から3Dシーンをモデリングするための強力なツールとなっている。 しかし、NeRFは意味的に意味のある領域に分割することが困難である。 以前のNeRFの3Dセグメンテーションへのアプローチは、単一のオブジェクトを分離するためにユーザーインタラクションを必要とするか、あるいは監督のために限られた数のクラスを持つ2Dセマンティックマスクに依存している。 その結果、実際のシーンで自動生成されるクラス非依存のマスクに悪影響を及ぼす。 これは、ゼロショットのセグメンテーションから生じる曖昧さに起因し、ビューにまたがる一貫性のないマスクをもたらす。 対照的に、一貫性のないセグメンテーションに頑健な手法を提案し、シーンを任意のクラスのオブジェクトの集合に分解することに成功した。 マスクがマッチする限られた数の競合オブジェクトスロットを導入することで、意味のあるオブジェクト表現が登場し、2Dの監督を最もよく説明し、追加の正規化項を最小化する。 実験では,複雑な場面で3Dパノプティクスのセグメンテーションを生成し,仮想3D環境において使用可能なNeRFから高品質な3Dアセットを抽出する手法を実証した。

Neural Radiance Fields (NeRFs) have become a powerful tool for modeling 3D scenes from multiple images. However, NeRFs remain difficult to segment into semantically meaningful regions. Previous approaches to 3D segmentation of NeRFs either require user interaction to isolate a single object, or they rely on 2D semantic masks with a limited number of classes for supervision. As a consequence, they generalize poorly to class-agnostic masks automatically generated in real scenes. This is attributable to the ambiguity arising from zero-shot segmentation, yielding inconsistent masks across views. In contrast, we propose a method that is robust to inconsistent segmentations and successfully decomposes the scene into a set of objects of any class. By introducing a limited number of competing object slots against which masks are matched, a meaningful object representation emerges that best explains the 2D supervision and minimizes an additional regularization term. Our experiments demonstrate the ability of our method to generate 3D panoptic segmentations on complex scenes, and extract high-quality 3D assets from NeRFs that can then be used in virtual 3D environments.
翻訳日:2024-08-20 16:24:38 公開日:2024-08-19
# コントラスト学習のデータの増大はポジティブ・インセンティブノイズを推定する

Data Augmentation of Contrastive Learning is Estimating Positive-incentive Noise ( http://arxiv.org/abs/2408.09929v1 )

ライセンス: Link先を確認
Hongyuan Zhang, Yanchen Xu, Sida Huang, Xuelong Li, (参考訳) タスクに有益なノイズを学習することを目的としたポジティブ・インセンティブノイズ(Pi-Noise または $\pi$-Noise )の概念に触発され,コントラスト学習と $\pi$-noise の関係を科学的に研究する。 コントラッシブ・ロスを補助ガウス分布に変換して,情報理論の枠組みの下で特定のコントラストモデルの難易度を定量的に測定することにより,コントラスト学習の中核概念であるタスク・エントロピーを適切に定義する。 さらに、標準コントラスト学習パラダイムにおける事前定義されたデータ拡張は、$\pi$-noiseの点推定の一種と見なすことができる。 理論的研究から着想を得て,コントラストデータ拡張として有益雑音(推定の代わりに)を学習するための$\pi$-noiseジェネレータを開発するフレームワークを提案する。 設計されたフレームワークは多様な種類のデータに適用でき、既存のコントラストモデルと完全に互換性がある。 可視化から,提案手法が効果的な拡張学習に成功していることがわかった。

Inspired by the idea of Positive-incentive Noise (Pi-Noise or $\pi$-Noise) that aims at learning the reliable noise beneficial to tasks, we scientifically investigate the connection between contrastive learning and $\pi$-noise in this paper. By converting the contrastive loss to an auxiliary Gaussian distribution to quantitatively measure the difficulty of the specific contrastive model under the information theory framework, we properly define the task entropy, the core concept of $\pi$-noise, of contrastive learning. It is further proved that the predefined data augmentation in the standard contrastive learning paradigm can be regarded as a kind of point estimation of $\pi$-noise. Inspired by the theoretical study, a framework that develops a $\pi$-noise generator to learn the beneficial noise (instead of estimation) as data augmentations for contrast is proposed. The designed framework can be applied to diverse types of data and is also completely compatible with the existing contrastive models. From the visualization, we surprisingly find that the proposed method successfully learns effective augmentations.
翻訳日:2024-08-20 16:24:38 公開日:2024-08-19
# 量子鍵分布をコモディティにする:全シリコンアプローチ

Making Quantum Key Distribution a Commodity: The All-Silicon Approach ( http://arxiv.org/abs/2408.09930v1 )

ライセンス: Link先を確認
Bernhard Schrenk, (参考訳) 量子時代の夜明けは、我々のグローバル通信インフラにとって量子鍵分布(QKD)が不可欠である。 シリコン集積プラットフォームに固有の光源によって供給される全シリコンQKD送信機の実現は、新しいアプリケーションにおけるQKDの広範導入に向けた破壊的なステップと見なされている。

The dawning of the quantum age makes quantum key distribution (QKD) an indispensable necessity for our global communication infrastructure. The realization of an all-silicon QKD transmitter supplied by a light source that is native to silicon integration platforms is seen as a disruptive step towards the pervasive introduction of QKD in new applications, which up to now have not been explored due to the missing credentials of quantum optics as a cost-effective and highly miniaturized technology.
翻訳日:2024-08-20 16:24:38 公開日:2024-08-19
# Pose-GuideNet: Pose 推定による胎児頭部超音波の自動走査誘導

Pose-GuideNet: Automatic Scanning Guidance for Fetal Head Ultrasound from Pose Estimation ( http://arxiv.org/abs/2408.09931v1 )

ライセンス: Link先を確認
Qianhui Men, Xiaoqing Guo, Aris T. Papageorghiou, J. Alison Noble, (参考訳) 2次元断面ビューからの3Dポーズ推定により、医療専門家は3次元空間をナビゲートすることができ、多くの画像誘導放射線学応用において自動ガイダンスを開始することができる。 本研究では,フリーハンド2次元超音波による胎児の3次元ポーズ推定がソノグラフィーを誘導し,頭部標準平面の位置を推定する方法について検討する。 Pose-GuideNetは、フリーハンド2D超音波を3D超音波を取得せずに3D解剖学的アトラスに整列させる新しい2D/3D登録手法である。 2次元から3次元の断面投影を容易にするために,アトラスにおける事前の知識を活用し,標準平面フレームをフリーハンドスキャンで整列させる。 さらに, 解剖学的類似性に基づいて, 標準平面から外れたフレームを整列させる, 意味認識型コントラストベースアプローチが提案されている。 実験では、推定されたポーズの標準面への変換と、3次元解剖学における実際の視点変化を反映したプローブ運動を比較することで、既存の手動画像の局所化の評価を強化する。 Pose-GuideNetはポーズを正確に予測するだけでなく、胎児の頭部の方向も予測する。 プローブ動作による評価は, センサレス環境における自由手動超音波支援ナビゲーションにおいて, Pose-GuideNet が適用可能であることを示す。

3D pose estimation from a 2D cross-sectional view enables healthcare professionals to navigate through the 3D space, and such techniques initiate automatic guidance in many image-guided radiology applications. In this work, we investigate how estimating 3D fetal pose from freehand 2D ultrasound scanning can guide a sonographer to locate a head standard plane. Fetal head pose is estimated by the proposed Pose-GuideNet, a novel 2D/3D registration approach to align freehand 2D ultrasound to a 3D anatomical atlas without the acquisition of 3D ultrasound. To facilitate the 2D to 3D cross-dimensional projection, we exploit the prior knowledge in the atlas to align the standard plane frame in a freehand scan. A semantic-aware contrastive-based approach is further proposed to align the frames that are off standard planes based on their anatomical similarity. In the experiment, we enhance the existing assessment of freehand image localization by comparing the transformation of its estimated pose towards standard plane with the corresponding probe motion, which reflects the actual view change in 3D anatomy. Extensive results on two clinical head biometry tasks show that Pose-GuideNet not only accurately predicts pose but also successfully predicts the direction of the fetal head. Evaluations with probe motions further demonstrate the feasibility of adopting Pose-GuideNet for freehand ultrasound-assisted navigation in a sensor-free environment.
翻訳日:2024-08-20 16:24:38 公開日:2024-08-19
# ASVスプーフ5挑戦のためのSZU-AFS防汚システム

SZU-AFS Antispoofing System for the ASVspoof 5 Challenge ( http://arxiv.org/abs/2408.09933v1 )

ライセンス: Link先を確認
Yuxiong Xu, Jiafeng Zhong, Sengui Zheng, Zefeng Liu, Bin Li, (参考訳) 本稿では,オープン条件下でのASVspoof 5 Challengeのトラック1用に設計されたSZU-AFSアンチスプーフィングシステムについて述べる。 このシステムは、ベースラインモデルの選択、微調整のための効果的なデータ拡張(DA)手法の探索、二次微調整のための勾配ノルム認識最小化(GAM)に基づくコエンハンスメント戦略の適用、2つの最高の微調整モデルのロジットスコアの融合という4つの段階で構成されている。 このシステムは、Wav2Vec2フロントエンド特徴抽出器とAASISTバックエンド分類器をベースラインモデルとして利用する。 モデル微調整中、単一DA、ランダムDA、カスケードDAの3つの異なるDAポリシーが研究されている。 さらに、データとオプティマイザレベルの両方で拡張モデルを微調整するために設計されたGAMベースのコエンハンスメント戦略は、Adamオプティマイザがフラットなミニマを見つけるのに役立つため、モデル一般化が促進される。 全体として、最終融合システムは、評価セットで0.115のminDCFと4.04%のEERを達成する。

This paper presents the SZU-AFS anti-spoofing system, designed for Track 1 of the ASVspoof 5 Challenge under open conditions. The system is built with four stages: selecting a baseline model, exploring effective data augmentation (DA) methods for fine-tuning, applying a co-enhancement strategy based on gradient norm aware minimization (GAM) for secondary fine-tuning, and fusing logits scores from the two best-performing fine-tuned models. The system utilizes the Wav2Vec2 front-end feature extractor and the AASIST back-end classifier as the baseline model. During model fine-tuning, three distinct DA policies have been investigated: single-DA, random-DA, and cascade-DA. Moreover, the employed GAM-based co-enhancement strategy, designed to fine-tune the augmented model at both data and optimizer levels, helps the Adam optimizer find flatter minima, thereby boosting model generalization. Overall, the final fusion system achieves a minDCF of 0.115 and an EER of 4.04% on the evaluation set.
翻訳日:2024-08-20 16:24:38 公開日:2024-08-19
# 金融インテリジェンスのためのプライバシ技術

Privacy Technologies for Financial Intelligence ( http://arxiv.org/abs/2408.09935v1 )

ライセンス: Link先を確認
Yang Li, Thilina Ranbaduge, Kee Siong Ng, (参考訳) テロ資金の調達やマネーロンダリングといった金融犯罪は、公共資金の濫用や不正管理、麻薬密売や違法賭博などの社会問題の増加、テロ活動における無実の生活の喪失など、社会に深刻な影響を及ぼす可能性がある。 複雑な金融犯罪は、主にパズルのさまざまな部分に関連するデータが、通常金融機関、規制当局、法執行機関のネットワークに分散し、プライバシーの制約により簡単には共有できないため、検出が難しい。 プライバシ保護データマッチングと機械学習の最近の進歩は、規制当局と金融業界が協力して、テクノロジによるリスク発見問題を解決する機会を提供する。 本稿では,金融インテリジェンスの現状と,金融犯罪検出の最先端化に向けたプライバシ技術の可能性について調査する。

Financial crimes like terrorism financing and money laundering can have real impacts on society, including the abuse and mismanagement of public funds, increase in societal problems such as drug trafficking and illicit gambling with attendant economic costs, and loss of innocent lives in the case of terrorism activities. Complex financial crimes can be hard to detect primarily because data related to different pieces of the overall puzzle is usually distributed across a network of financial institutions, regulators, and law-enforcement agencies and they cannot be easily shared due to privacy constraints. Recent advances in Privacy-Preserving Data Matching and Machine Learning provide an opportunity for regulators and the financial industry to come together to solve the risk-discovery problem with technology. This paper provides a survey of the financial intelligence landscape and where opportunities lie for privacy technologies to improve the state-of-the-art in financial-crime detection.
翻訳日:2024-08-20 16:24:38 公開日:2024-08-19
# 移動学習からの電子核断面積

Electron-nucleus cross sections from transfer learning ( http://arxiv.org/abs/2408.09936v1 )

ライセンス: Link先を確認
Krzysztof M. Graczyk, Beata E. Kowal, Artur M. Ankowski, Rwik Dharmapal Banerjee, Jose Luis Bonilla, Hemant Prasad, Jan T. Sobczyk, (参考訳) トランスファーラーニング(TL)は、あるタイプのデータに基づいてトレーニングされたディープニューラルネットワーク(DNN)を、限られた情報を持つ新しい問題に適応させることを可能にする。 本稿では,TL法を物理学に応用することを提案する。 DNNは1つのプロセスの物理を学習し、微調整の後、関連するプロセスの予測を行う。 我々は、包括的電子-炭素散乱データに基づいて訓練されたDNNを考察し、微調整後、リチウムから鉄までの核標的との電子相互作用の断面積を正確に予測することを示した。 この方法は、DNNが小さなデータセットで微調整された場合でも機能する。

Transfer learning (TL) allows a deep neural network (DNN) trained on one type of data to be adapted for new problems with limited information. We propose to use the TL technique in physics. The DNN learns the physics of one process, and after fine-tuning, it makes predictions for related processes. We consider the DNNs, trained on inclusive electron-carbon scattering data, and show that after fine-tuning, they accurately predict cross sections for electron interactions with nuclear targets ranging from lithium to iron. The method works even when the DNN is fine-tuned on a small dataset.
翻訳日:2024-08-20 16:24:38 公開日:2024-08-19
# ランダム量子データの呪い

The curse of random quantum data ( http://arxiv.org/abs/2408.09937v1 )

ライセンス: Link先を確認
Kaining Zhang, Junyu Liu, Liu Liu, Liang Jiang, Min-Hsiu Hsieh, Dacheng Tao, (参考訳) 量子デバイス上で機械学習アルゴリズムを実行する量子機械学習は、これらのデバイスにとって最も重要なフラッグシップアプリケーションのひとつかもしれない。 従来のものとは異なり、量子機械学習におけるデータの役割は完全には理解されていない。 本研究では,量子データのランドスケープにおける量子機械学習の性能を定量化する。 量子データの符号化が十分にランダムであることを示すと、量子機械学習におけるトレーニング効率と一般化能力は「ランダムな量子データの呪い」と呼ばれる量子ビット数の増加とともに指数関数的に抑制される。 この結果は量子カーネル法と量子ニューラルネットワークの広帯域限界の両方に適用できる。 逆に、量子データセットの厳密な設計により、これらの呪いを回避し、効率的な収束と堅牢な一般化を実現することができる。 我々の結論は広範な数値シミュレーションによって裏付けられている。

Quantum machine learning, which involves running machine learning algorithms on quantum devices, may be one of the most significant flagship applications for these devices. Unlike its classical counterparts, the role of data in quantum machine learning has not been fully understood. In this work, we quantify the performances of quantum machine learning in the landscape of quantum data. Provided that the encoding of quantum data is sufficiently random, the performance, we find that the training efficiency and generalization capabilities in quantum machine learning will be exponentially suppressed with the increase in the number of qubits, which we call "the curse of random quantum data". Our findings apply to both the quantum kernel method and the large-width limit of quantum neural networks. Conversely, we highlight that through meticulous design of quantum datasets, it is possible to avoid these curses, thereby achieving efficient convergence and robust generalization. Our conclusions are corroborated by extensive numerical simulations.
翻訳日:2024-08-20 16:24:38 公開日:2024-08-19
# 「画像、あなたの話を聞かせて!」視覚的誤報の本来のメタコンテキストを予言する

"Image, Tell me your story!" Predicting the original meta-context of visual misinformation ( http://arxiv.org/abs/2408.09939v1 )

ライセンス: Link先を確認
Jonathan Tonglet, Marie-Francine Moens, Iryna Gurevych, (参考訳) 人間のファクトチェックを支援するために、研究者たちは視覚的誤情報検出のための自動アプローチを開発した。 これらの方法は、画像とキャプションの矛盾を識別したり、画像中の偽物を検出することによって、精度スコアを割り当てる。 しかし、人間のファクトチェックプロセスの重要な点は無視され、画像の本来のメタコンテキストが特定される。 画像について実際に何が真実であるかを説明することで、ファクトチェッカーは誤情報を検知し、価値のあるビジュアルコンテンツに集中し、誤情報が広まる前にカウンターメッセージに取り組み、説明をより説得力のあるものにすることができる。 ここでは、自動画像文脈化のタスクを導入することで、このギャップを埋める。 この5Pilsは、1,676枚のファクトチェックされた画像のデータセットで、元のメタコンテキストに関する質問と回答のペアを作ります。 アノテーションは5 Pillarsのファクトチェックフレームワークに基づいている。 オープンウェブから検索した画像の内容とテキストによる証拠を用いて,画像を元のメタコンテキストに基盤とする第1のベースラインを実装した。 実験では,検索と推論におけるいくつかのオープンな課題を強調しながら,有望な結果を示した。 コードとデータを公開しています。

To assist human fact-checkers, researchers have developed automated approaches for visual misinformation detection. These methods assign veracity scores by identifying inconsistencies between the image and its caption, or by detecting forgeries in the image. However, they neglect a crucial point of the human fact-checking process: identifying the original meta-context of the image. By explaining what is actually true about the image, fact-checkers can better detect misinformation, focus their efforts on check-worthy visual content, engage in counter-messaging before misinformation spreads widely, and make their explanation more convincing. Here, we fill this gap by introducing the task of automated image contextualization. We create 5Pils, a dataset of 1,676 fact-checked images with question-answer pairs about their original meta-context. Annotations are based on the 5 Pillars fact-checking framework. We implement a first baseline that grounds the image in its original meta-context using the content of the image and textual evidence retrieved from the open web. Our experiments show promising results while highlighting several open challenges in retrieval and reasoning. We make our code and data publicly available.
翻訳日:2024-08-20 16:24:38 公開日:2024-08-19
# ML-CrAIST:超解像変換器を用いたマルチスケール低周波情報に基づくクロスブラックアテンション

ML-CrAIST: Multi-scale Low-high Frequency Information-based Cross black Attention with Image Super-resolving Transformer ( http://arxiv.org/abs/2408.09940v1 )

ライセンス: Link先を確認
Alik Pramanick, Utsav Bheda, Arijit Sur, (参考訳) 近年、トランスフォーマーはシングルイメージ超解像タスクの領域において大きな関心を集めており、性能が著しく向上している。 現在のモデルは、ネットワーク内のマルチスケール画像の詳細と中間情報の有効利用を見越しながら、画像から高レベルのセマンティック詳細を抽出するネットワークの広範な能力に大きく依存している。 さらに, 画像中の高周波領域は低周波領域に比べて高分解能領域において著しく複雑であることがわかった。 本研究は,マルチスケールで低周波情報を活用することで,このギャップに対処する,ML-CrAISTと呼ばれるトランスフォーマーベースの超解像アーキテクチャを提案する。 従来の作業(空間的あるいはチャネル的)とは異なり、空間的およびチャネル的自己アテンション(英語版)を運用し、空間的およびチャネル的両方の次元から画素間相互作用を同時にモデル化し、空間的およびチャネル軸間の固有の相関を利用する。 さらに,低周波情報と高周波情報との相関関係を探索する超解像のためのクロスアテンションブロックを考案する。 定量的および定性的な評価は,ML-CrAISTが最先端の超解像法(例:0.15dB get @Manga109 $\times$4)を超越していることを示している。 コードは、https://github.com/Alik033/ML-CrAISTで入手できる。

Recently, transformers have captured significant interest in the area of single-image super-resolution tasks, demonstrating substantial gains in performance. Current models heavily depend on the network's extensive ability to extract high-level semantic details from images while overlooking the effective utilization of multi-scale image details and intermediate information within the network. Furthermore, it has been observed that high-frequency areas in images present significant complexity for super-resolution compared to low-frequency areas. This work proposes a transformer-based super-resolution architecture called ML-CrAIST that addresses this gap by utilizing low-high frequency information in multiple scales. Unlike most of the previous work (either spatial or channel), we operate spatial and channel self-attention, which concurrently model pixel interaction from both spatial and channel dimensions, exploiting the inherent correlations across spatial and channel axis. Further, we devise a cross-attention block for super-resolution, which explores the correlations between low and high-frequency information. Quantitative and qualitative assessments indicate that our proposed ML-CrAIST surpasses state-of-the-art super-resolution methods (e.g., 0.15 dB gain @Manga109 $\times$4). Code is available on: https://github.com/Alik033/ML-CrAIST.
翻訳日:2024-08-20 16:24:38 公開日:2024-08-19
# ディープラーニングによる経路依存過程の予測

Predicting path-dependent processes by deep learning ( http://arxiv.org/abs/2408.09941v1 )

ライセンス: Link先を確認
Xudong Zheng, Yuecai Han, (参考訳) 本稿では,個別に観測された歴史情報に基づく経路依存プロセスの深層学習手法について検討する。 本手法は、予測を非パラメトリック回帰として考慮し、シミュレーションサンプルとディープニューラルネットワークを用いて回帰関数を得る。 分数的なブラウン運動とそれによって導かれる確率微分方程式の解にこの方法を適用すると、$L_2$誤差が0に収束することを理論的に証明し、さらにその方法のスコープを議論した。 離散的な観測の頻度は無限大になる傾向にあり、離散的な観測に基づく予測は連続的な観測に基づく予測に収束する。 分数的なブラウン運動と分数的なオルンシュタイン-ウレンベック過程にこの方法を適用する。 その結果を理論的最適予測と比較し、平均二乗誤差を指標として数値シミュレーションを行い、精度の高い結果が得られることを示した。 また,予測期間やハースト指数などの要因が精度に与える影響も分析した。

In this paper, we investigate a deep learning method for predicting path-dependent processes based on discretely observed historical information. This method is implemented by considering the prediction as a nonparametric regression and obtaining the regression function through simulated samples and deep neural networks. When applying this method to fractional Brownian motion and the solutions of some stochastic differential equations driven by it, we theoretically proved that the $L_2$ errors converge to 0, and we further discussed the scope of the method. With the frequency of discrete observations tending to infinity, the predictions based on discrete observations converge to the predictions based on continuous observations, which implies that we can make approximations by the method. We apply the method to the fractional Brownian motion and the fractional Ornstein-Uhlenbeck process as examples. Comparing the results with the theoretical optimal predictions and taking the mean square error as a measure, the numerical simulations demonstrate that the method can generate accurate results. We also analyze the impact of factors such as prediction period, Hurst index, etc. on the accuracy.
翻訳日:2024-08-20 16:24:38 公開日:2024-08-19
# サブサンプリング機構におけるグループプライバシの校正ノイズ

Calibrating Noise for Group Privacy in Subsampled Mechanisms ( http://arxiv.org/abs/2408.09943v1 )

ライセンス: Link先を確認
Yangfan Jiang, Xinjian Luo, Yin Yang, Xiaokui Xiao, (参考訳) グループサイズmと機密データセットDとが与えられた場合、グループプライバシ(GP)は、基本データがDであるか、またはmレコードによってDと異なる隣接データセットD'であるかを高い信頼で推測できないことを保証して、Dに関する情報を公開する。 GPは個人のプライバシーを保護するために確立された差分プライバシー(DP)の概念を一般化する。 DPと比較して、GPは最大m人までの集団のセンシティブアグリゲーション情報(例えばヨットクラブの会員の平均年収)を保護することができる。 研究論文や将来性のある応用において長年存在するにもかかわらず、GPは後から考えるものとして扱われることが多く、ほとんどのアプローチはまずDP機構を開発し、次に汎用変換を用いてGPに適応し、DP溶液をブラックボックスとして扱う。 本稿で指摘されているように、この手法は、ディープラーニングモデルの訓練のための古典的なDP-SGD法において、基礎となるDPソリューションがサブサンプリングを含む場合、準最適である。 この場合、DP-to-GP変換はその解析において過度に悲観的であり、GPの下での公開結果の実用性は低くなる。 そこで本研究では,サブサンプリングGP機構に対する厳密なプライバシ会計を提供する新しい分析フレームワークを提案する。 提案手法は,ブラックボックスDP機構をGPに変換する代わりに,サブサンプリング機構の固有ランダム性を慎重に分析し,利用することにより,GPに対するプライバシ損失を大幅に改善する。 提案手法は, サブサンプリングを用いた多種多様な基礎機構に適用できる。 実データを用いた大規模な実験により,ニューラルネットワークの深層学習を含むいくつかの実践的な設定において,ベースライン変換-ブラックボックス-DPアプローチと比較して,GP機構が1桁以上のノイズ低減を実現することが示された。

Given a group size m and a sensitive dataset D, group privacy (GP) releases information about D with the guarantee that the adversary cannot infer with high confidence whether the underlying data is D or a neighboring dataset D' that differs from D by m records. GP generalizes the well-established notion of differential privacy (DP) for protecting individuals' privacy; in particular, when m=1, GP reduces to DP. Compared to DP, GP is capable of protecting the sensitive aggregate information of a group of up to m individuals, e.g., the average annual income among members of a yacht club. Despite its longstanding presence in the research literature and its promising applications, GP is often treated as an afterthought, with most approaches first developing a DP mechanism and then using a generic conversion to adapt it for GP, treating the DP solution as a black box. As we point out in the paper, this methodology is suboptimal when the underlying DP solution involves subsampling, e.g., in the classic DP-SGD method for training deep learning models. In this case, the DP-to-GP conversion is overly pessimistic in its analysis, leading to low utility in the published results under GP. Motivated by this, we propose a novel analysis framework that provides tight privacy accounting for subsampled GP mechanisms. Instead of converting a black-box DP mechanism to GP, our solution carefully analyzes and utilizes the inherent randomness in subsampled mechanisms, leading to a substantially improved bound on the privacy loss with respect to GP. The proposed solution applies to a wide variety of foundational mechanisms with subsampling. Extensive experiments with real datasets demonstrate that compared to the baseline convert-from-blackbox-DP approach, our GP mechanisms achieve noise reductions of over an order of magnitude in several practical settings, including deep neural network training.
翻訳日:2024-08-20 16:24:38 公開日:2024-08-19
# 古典漢詩翻訳のためのLLMのベンチマーク:妥当性・頻度・エレガンスの評価

Benchmarking LLMs for Translating Classical Chinese Poetry:Evaluating Adequacy, Fluency, and Elegance ( http://arxiv.org/abs/2408.09945v1 )

ライセンス: Link先を確認
Andong Chen, Lianzhang Lou, Kehai Chen, Xuefeng Bai, Yang Xiang, Muyun Yang, Tiejun Zhao, Min Zhang, (参考訳) 大きな言語モデル(LLM)は、一般的な翻訳タスクにおいて顕著な性能を示している。 しかし、良質な翻訳の需要が増大し、適当であるばかりでなく、流麗でエレガントなものも求められている。 そこで本研究では,従来の漢詩を英語に翻訳するための適切なベンチマークを提案する。 この課題は、文化的、歴史的に重要な内容の翻訳に適当であるだけでなく、言語的な優雅さや詩的な優雅さへの厳格な固執も必要である。 我々の研究は、既存のLLMがこのタスクに欠落していることを明らかにした。 これらの問題に対処するために、古典詩に関する知識を取り入れた翻訳プロセスを強化するために、 RAT を提案する。 さらに, GPT-4に基づく自動評価尺度を提案し, 従来の指標の限界を克服し, 翻訳品質を精度よく評価する。 データセットとコードは利用可能になります。

Large language models (LLMs) have shown remarkable performance in general translation tasks. However, the increasing demand for high-quality translations that are not only adequate but also fluent and elegant. To assess the extent to which current LLMs can meet these demands, we introduce a suitable benchmark for translating classical Chinese poetry into English. This task requires not only adequacy in translating culturally and historically significant content but also a strict adherence to linguistic fluency and poetic elegance. Our study reveals that existing LLMs fall short of this task. To address these issues, we propose RAT, a \textbf{R}etrieval-\textbf{A}ugmented machine \textbf{T}ranslation method that enhances the translation process by incorporating knowledge related to classical poetry. Additionally, we propose an automatic evaluation metric based on GPT-4, which better assesses translation quality in terms of adequacy, fluency, and elegance, overcoming the limitations of traditional metrics. Our dataset and code will be made available.
翻訳日:2024-08-20 16:24:38 公開日:2024-08-19
# ソーシャル・ドダクションゲームによるLLMプレーヤーの微視的解析

Microscopic Analysis on LLM players via Social Deduction Game ( http://arxiv.org/abs/2408.09946v1 )

ライセンス: Link先を確認
Byungjun Kim, Dayeon Seo, Bugeun Kim, (参考訳) 近年,大規模言語モデル(LLM)を用いたソーシャル推論ゲームのための自律型ゲームプレーヤーの開発が始まっている。 LLMプレーヤーを構築する場合、ゲームプレイ能力の弱点に対処するためには、きめ細かい評価が不可欠である。 しかし、既存の研究はしばしばそのような評価を見落としている。 具体的には,2つの評価手法の問題点を指摘した。 第1に、ゲームプレイング能力は通常、特定のイベントレベルのスキルよりもゲームレベルの成果を通じて評価されてきた。 これらの問題に対処するため,SpyGameと呼ばれるSpyFallゲームの変種を利用したアプローチを提案する。 我々は,SpyGameのゲームプレイ動作を定量的かつ質的に解析する4つのLLMを用いて実験を行った。 定量的分析では、最初の問題を解決するために8つの指標を導入し、これらの指標が、意図の識別とカモフラージュという2つの重要なスキルを評価する上で、既存の指標よりも効果的であることを明らかにした。 質的な分析では,第2の課題を解決するために,テーマ分析を行った。 本分析は,LLMのゲームプレイに影響を与える4つの主要なカテゴリを同定する。 さらに,これらのカテゴリーが定量的分析の結果をどのように補完し,支持するかを示す。

Recent studies have begun developing autonomous game players for social deduction games using large language models (LLMs). When building LLM players, fine-grained evaluations are crucial for addressing weaknesses in game-playing abilities. However, existing studies have often overlooked such assessments. Specifically, we point out two issues with the evaluation methods employed. First, game-playing abilities have typically been assessed through game-level outcomes rather than specific event-level skills; Second, error analyses have lacked structured methodologies. To address these issues, we propose an approach utilizing a variant of the SpyFall game, named SpyGame. We conducted an experiment with four LLMs, analyzing their gameplay behavior in SpyGame both quantitatively and qualitatively. For the quantitative analysis, we introduced eight metrics to resolve the first issue, revealing that these metrics are more effective than existing ones for evaluating the two critical skills: intent identification and camouflage. In the qualitative analysis, we performed thematic analysis to resolve the second issue. This analysis identifies four major categories that affect gameplay of LLMs. Additionally, we demonstrate how these categories complement and support the findings from the quantitative analysis.
翻訳日:2024-08-20 16:24:38 公開日:2024-08-19
# GPT-PINNニューラルネットを用いたパラメータ入力を用いたファイバ伝送モデル

Fiber Transmission Model with Parameterized Inputs based on GPT-PINN Neural Network ( http://arxiv.org/abs/2408.09947v1 )

ライセンス: Link先を確認
Yubin Zang, Boyu Hua, Zhipeng Lin, Fangzheng Zhang, Simin Li, Zuxing Zhang, Hongwei Chen, (参考訳) 本稿では,パラメータ化入力を用いた短距離伝送のための新規な原理駆動ファイバ伝送モデルを提案する。 従来提案されていた基本展開法とパラメータ化入力を非線形シュロディンガー方程式のパラメータ化係数に変換することで,各ビットレートに応じた入力に対する普遍解が,モデル全体を再学習することなく得られる。 このモデルは一旦採用され、計算効率と物理的背景の両方において顕著な優位性を持つ。 さらに、このモデルは、事前に収集された送信信号の必要なしに、効果的に訓練することができる。 2Gbpsから50Gbpsまでのビットレートを持つオンオフ鍵信号のタスクをモデルの有効性を示すために採用する。

In this manuscript, a novelty principle driven fiber transmission model for short-distance transmission with parameterized inputs is put forward. By taking into the account of the previously proposed principle driven fiber model, the reduced basis expansion method and transforming the parameterized inputs into parameterized coefficients of the Nonlinear Schrodinger Equations, universal solutions with respect to inputs corresponding to different bit rates can all be obtained without the need of re-training the whole model. This model, once adopted, can have prominent advantages in both computation efficiency and physical background. Besides, this model can still be effectively trained without the needs of transmitted signals collected in advance. Tasks of on-off keying signals with bit rates ranging from 2Gbps to 50Gbps are adopted to demonstrate the fidelity of the model.
翻訳日:2024-08-20 16:24:38 公開日:2024-08-19
# キャプション駆動探索:人間に触発された視覚を通して画像とテキストの埋め込みを調整する

Caption-Driven Explorations: Aligning Image and Text Embeddings through Human-Inspired Foveated Vision ( http://arxiv.org/abs/2408.09948v1 )

ライセンス: Link先を確認
Dario Zanca, Andrea Zugarini, Simon Dietz, Thomas R. Altstidl, Mark A. Turban Ndjeuha, Leo Schwinn, Bjoern Eskofier, (参考訳) 人間の注意を理解することは、視覚科学とAIにとって不可欠である。 フリービューのために多くのモデルが存在するが、タスク駆動画像探索についてはあまり知られていない。 そこで本研究では,キャプションタスク中の人間の注意力を調べるために,キャプションとクリックコンセント画像探索を備えたデータセットであるCapMIT1003を紹介する。 また、NevaClipは、CLIPモデルとNeVAアルゴリズムを組み合わせることで、視覚スキャンパスを予測するゼロショット方式である。 NevaClipは、フレーバー化された視覚刺激とキャプションの表現を整列させるために固定を生成する。 シミュレーションされたスキャンパスは、キャプションや自由視聴タスクの妥当性において、既存の人間の注意モデルよりも優れています。 本研究は,人間の注意力の理解を高め,スキャンパス予測モデルを進化させる。

Understanding human attention is crucial for vision science and AI. While many models exist for free-viewing, less is known about task-driven image exploration. To address this, we introduce CapMIT1003, a dataset with captions and click-contingent image explorations, to study human attention during the captioning task. We also present NevaClip, a zero-shot method for predicting visual scanpaths by combining CLIP models with NeVA algorithms. NevaClip generates fixations to align the representations of foveated visual stimuli and captions. The simulated scanpaths outperform existing human attention models in plausibility for captioning and free-viewing tasks. This research enhances the understanding of human attention and advances scanpath prediction models.
翻訳日:2024-08-20 16:13:49 公開日:2024-08-19
# C${^2}$RL:グロスフリー手話翻訳と検索のための内容と文脈表現学習

C${^2}$RL: Content and Context Representation Learning for Gloss-free Sign Language Translation and Retrieval ( http://arxiv.org/abs/2408.09949v1 )

ライセンス: Link先を確認
Zhigang Chen, Benjia Zhou, Yiqing Huang, Jun Wan, Yibo Hu, Hailin Shi, Yanyan Liang, Zhen Lei, Du Zhang, (参考訳) 手話表現学習(SLRL)は手話翻訳(SLT)や手話検索(SLRet)といった手話関連下流タスクに不可欠である。 近年,多くの光沢性および光沢性のないSLRL法が提案され,有望な性能を示している。 その中で、グロスフリーなアプローチは、グロスアノテーションに頼ることなく、強力なスケーラビリティを約束することを示している。 しかし,非モノトニックなビデオテキストアライメント戦略を用いて,手話ビデオの複雑な,文脈に敏感な特徴を符号化することの難しさから,現在,サブ最適化の課題に直面している。 そこで本稿では,Gloss-free SLRL のための革新的な事前学習パラダイム C${^2}$RL を紹介する。 具体的には、ビデオとテキストの非単調なセマンティックアライメントを言語指向の手話の特徴を学習するために組み込むのではなく、SLRLの2つの重要な側面であるインプリシットコンテンツラーニング(ICL)とエクスプリシットコンテキストラーニング(ECL)を強調した。 ICLはコミュニケーションの内容を理解し、ニュアンス、強調、タイミング、リズムを捉えます。 対照的に、ECLは記号の文脈的意味を理解し、それらを等価な文に変換することに重点を置いている。 その単純さにもかかわらず、ICLとECLの合同最適化により、グロスフリーのSLTおよびSLRetタスクにおいて、堅牢な手話表現と顕著なパフォーマンス向上が得られることが、広範な実験で確認されている。 特に、C${^2}$RLは、P14Tで+5.3、CSLで+10.6、OpenASLで+6.2、How2Signで+1.3改善している。 また、P14Tでは+8.3、CSLでは+14.4、How2Signでは+5.9でR@1スコアが上昇した。 さらに,SLRetタスクにおいて,OpenASLデータセットの新たなベースラインを設定した。

Sign Language Representation Learning (SLRL) is crucial for a range of sign language-related downstream tasks such as Sign Language Translation (SLT) and Sign Language Retrieval (SLRet). Recently, many gloss-based and gloss-free SLRL methods have been proposed, showing promising performance. Among them, the gloss-free approach shows promise for strong scalability without relying on gloss annotations. However, it currently faces suboptimal solutions due to challenges in encoding the intricate, context-sensitive characteristics of sign language videos, mainly struggling to discern essential sign features using a non-monotonic video-text alignment strategy. Therefore, we introduce an innovative pretraining paradigm for gloss-free SLRL, called C${^2}$RL, in this paper. Specifically, rather than merely incorporating a non-monotonic semantic alignment of video and text to learn language-oriented sign features, we emphasize two pivotal aspects of SLRL: Implicit Content Learning (ICL) and Explicit Context Learning (ECL). ICL delves into the content of communication, capturing the nuances, emphasis, timing, and rhythm of the signs. In contrast, ECL focuses on understanding the contextual meaning of signs and converting them into equivalent sentences. Despite its simplicity, extensive experiments confirm that the joint optimization of ICL and ECL results in robust sign language representation and significant performance gains in gloss-free SLT and SLRet tasks. Notably, C${^2}$RL improves the BLEU-4 score by +5.3 on P14T, +10.6 on CSL-daily, +6.2 on OpenASL, and +1.3 on How2Sign. It also boosts the R@1 score by +8.3 on P14T, +14.4 on CSL-daily, and +5.9 on How2Sign. Additionally, we set a new baseline for the OpenASL dataset in the SLRet task.
翻訳日:2024-08-20 16:13:49 公開日:2024-08-19
# GPT-PINNニューラルネットワークに基づく原理駆動パラメタライズドファイバーモデル

Principle Driven Parameterized Fiber Model based on GPT-PINN Neural Network ( http://arxiv.org/abs/2408.09951v1 )

ライセンス: Link先を確認
Yubin Zang, Boyu Hua, Zhenzhou Tang, Zhipeng Lin, Fangzheng Zhang, Simin Li, Zuxing Zhang, Hongwei Chen, (参考訳) Beyond 5G通信の必要性を補うために、従来の分割ステップフーリエ法と比較してはるかに高速にファイバー伝送のパルス進化を予測する人工知能の回帰能力を活用するために、大量のデータ駆動人工知能ベースファイバモデルが提案されている。 物理補間性を高めるため、非線形ショーディンガー方程式を損失関数に挿入する原理駆動ファイバーモデルが提案されている。 しかし、原則駆動モデルやデータ駆動モデルによらず、異なる伝送条件下でモデル全体を再訓練する必要がある。 残念ながら、ファイバー通信最適化作業を行う場合、この状況は避けられない。 異なる伝送条件のスケールが大きければ、モデル全体を比較的大きなパラメータで大量の時間で再訓練し、より高い時間コストを消費する必要がある。 計算効率も低下するでしょう。 この問題に対処するため,本論文では,原理駆動型パラメタライズドファイバモデルを提案する。 このモデルは, 予測されたNLSE解を1組の伝送条件に対して分解し, 還元基底法により各事前学習した原理駆動ファイバーモデルにより出力された複数の固有解の線形結合に分解する。 したがって、伝送条件を変更する際には線形結合係数のみを見つける必要があるため、再学習の重荷を大幅に軽減することができる。 強い物理的解釈可能性を持つだけでなく、より高い計算効率を得ることができる。 実演では、モデルの計算複雑性は分割ステップフーリエ法の0.0113%、従来提案されていた原理駆動ファイバーモデルの1%である。

In cater the need of Beyond 5G communications, large numbers of data driven artificial intelligence based fiber models has been put forward as to utilize artificial intelligence's regression ability to predict pulse evolution in fiber transmission at a much faster speed compared with the traditional split step Fourier method. In order to increase the physical interpretabiliy, principle driven fiber models have been proposed which inserts the Nonlinear Schodinger Equation into their loss functions. However, regardless of either principle driven or data driven models, they need to be re-trained the whole model under different transmission conditions. Unfortunately, this situation can be unavoidable when conducting the fiber communication optimization work. If the scale of different transmission conditions is large, then the whole model needs to be retrained large numbers of time with relatively large scale of parameters which may consume higher time costs. Computing efficiency will be dragged down as well. In order to address this problem, we propose the principle driven parameterized fiber model in this manuscript. This model breaks down the predicted NLSE solution with respect to one set of transmission condition into the linear combination of several eigen solutions which were outputted by each pre-trained principle driven fiber model via the reduced basis method. Therefore, the model can greatly alleviate the heavy burden of re-training since only the linear combination coefficients need to be found when changing the transmission condition. Not only strong physical interpretability can the model posses, but also higher computing efficiency can be obtained. Under the demonstration, the model's computational complexity is 0.0113% of split step Fourier method and 1% of the previously proposed principle driven fiber model.
翻訳日:2024-08-20 16:13:49 公開日:2024-08-19
# 顔のしわ検出のための弱教師付きプレトレーニングとマルチアノテータによるファインタニング

Weakly Supervised Pretraining and Multi-Annotator Supervised Finetuning for Facial Wrinkle Detection ( http://arxiv.org/abs/2408.09952v1 )

ライセンス: Link先を確認
Ik Jun Moon, Junho Moon, Ikbeom Jang, (参考訳) 研究課題:皮膚疾患や皮膚美学への関心が高まり、顔のしわを予測する能力がますます重要になっている。 本研究の目的は,畳み込みニューラルネットワーク(CNN)という計算モデルを用いて,顔のひび割れの自動セグメンテーションを訓練できるかどうかを評価することである。 研究は,複数のアノテータからのデータを統合するための効果的な手法を示し,移動学習が性能を向上させることを示し,顔のしわのセグメンテーションを行う。 3. 意味: このアプローチは、深層学習フレームワークを用いて、輪郭分析の複雑で時間を要するタスクを自動化する。 皮膚の治療や診断を容易にするために使用できる。

1. Research question: With the growing interest in skin diseases and skin aesthetics, the ability to predict facial wrinkles is becoming increasingly important. This study aims to evaluate whether a computational model, convolutional neural networks (CNN), can be trained for automated facial wrinkle segmentation. 2. Findings: Our study presents an effective technique for integrating data from multiple annotators and illustrates that transfer learning can enhance performance, resulting in dependable segmentation of facial wrinkles. 3. Meaning: This approach automates intricate and time-consuming tasks of wrinkle analysis with a deep learning framework. It could be used to facilitate skin treatments and diagnostics.
翻訳日:2024-08-20 16:13:49 公開日:2024-08-19
# Pythonにおけるコンテキストの重要性とユーティリティ - py-ciuパッケージによる新機能と洞察

Contextual Importance and Utility in Python: New Functionality and Insights with the py-ciu Package ( http://arxiv.org/abs/2408.09957v1 )

ライセンス: Link先を確認
Kary Främling, (参考訳) 容易で信頼性の高いソフトウェア実装の提供は、学術や産業の研究者がeXplainable AI(XAI)メソッドをテスト、評価、利用できるようにする上で重要である。 本稿では,CIU(Contextual Importance and Utility)モデルに依存しない,ポストホックな説明手法の<texttt{py-ciu} Python実装について述べる。

The availability of easy-to-use and reliable software implementations is important for allowing researchers in academia and industry to test, assess and take into use eXplainable AI (XAI) methods. This paper describes the \texttt{py-ciu} Python implementation of the Contextual Importance and Utility (CIU) model-agnostic, post-hoc explanation method and illustrates capabilities of CIU that go beyond the current state-of-the-art that could be useful for XAI practitioners in general.
翻訳日:2024-08-20 16:13:49 公開日:2024-08-19
# AdaResNet: 動的重み調整によるResidual Networksの強化と機能統合の改善

AdaResNet: Enhancing Residual Networks with Dynamic Weight Adjustment for Improved Feature Integration ( http://arxiv.org/abs/2408.09958v1 )

ライセンス: Link先を確認
Hong Su, (参考訳) 非常に深いニューラルネットワークでは、バックプロパゲーション中に勾配が非常に小さくなり、初期のレイヤのトレーニングが困難になる。 ResNet(Residual Network)は、接続をスキップすることでネットワークに直接勾配を流すことによってこの問題に対処し、より深いネットワークのトレーニングを容易にする。 しかし、これらのスキップ接続では、入力ipdは変換されたデータ tfd に直接付加され、異なるシナリオに適応することなく、ipd と tfd を等しく扱う。 本稿では、トレーニングデータに基づいてipdとtfdの比率を自動的に調整するAdaResNet(Auto-Adapting Residual Network)を提案する。 この比を表すために、変数, weight}_{tfd}^{ipdを導入する。 この変数はバックプロパゲーション中に動的に調整され、固定されたままではなくトレーニングデータに適応する。 AdaResNetは従来のResNetに比べて最大精度が50%以上向上していることを示す実験結果が得られた。

In very deep neural networks, gradients can become extremely small during backpropagation, making it challenging to train the early layers. ResNet (Residual Network) addresses this issue by enabling gradients to flow directly through the network via skip connections, facilitating the training of much deeper networks. However, in these skip connections, the input ipd is directly added to the transformed data tfd, treating ipd and tfd equally, without adapting to different scenarios. In this paper, we propose AdaResNet (Auto-Adapting Residual Network), which automatically adjusts the ratio between ipd and tfd based on the training data. We introduce a variable, weight}_{tfd}^{ipd, to represent this ratio. This variable is dynamically adjusted during backpropagation, allowing it to adapt to the training data rather than remaining fixed. Experimental results demonstrate that AdaResNet achieves a maximum accuracy improvement of over 50\% compared to traditional ResNet.
翻訳日:2024-08-20 16:13:49 公開日:2024-08-19
# 確認法に基づくクロスチェーンスマートコントラクトの結果の検証

Validation of the Results of Cross-chain Smart Contract Based on Confirmation Method ( http://arxiv.org/abs/2408.09962v1 )

ライセンス: Link先を確認
Hong Su, (参考訳) スマートコントラクトは、ひとつのブロックチェーン(プロデューサブロックチェーン)から別のブロックチェーン(コンシューマブロックチェーン)に結果が送信される、クロスチェーンインタラクションで広く使用されている。 残念ながら、コンシューマブロックチェーンは、検証のためのスマートコントラクトを実行せずにこれらの結果を受け入れることが多く、潜在的なセキュリティリスクを生じさせる。 そこで本研究では,クロスチェーンスマートコントラクトの結果を検証する手法を提案する。 当社のアプローチでは,プロデューサブロックチェーンのクロスチェーンスマートコントラクトの実行に重点を置いている。 さらに、ブロックのチェーンと関連するクロスチェーンのスマートコントラクトデータを、プロデューサブロックチェーンからコンシューマブロックチェーンにエビデンス(あるいはエビデンス)として組み込んで、クロスチェーンのスマートコントラクト結果の統一的かつセキュアな視点を確立することを含む、証明方法による確認を導入する。 我々の検証結果は、スマートコントラクトレベルでのクロスチェーン検証の実現可能性を強調します。

Smart contracts are widely utilized in cross-chain interactions, where their results are transmitted from one blockchain (the producer blockchain) to another (the consumer blockchain). Unfortunately, the consumer blockchain often accepts these results without executing the smart contracts for validation, posing potential security risks. To address this, we propose a method for validating cross-chain smart contract results. Our approach emphasizes consumer blockchain execution of cross-chain smart contracts of producer blockchain, allowing comparison of results with the transmitted ones to detect potential discrepancies and ensure data integrity during cross-chain data dissemination. Additionally, we introduce the confirmation with proof method, which involves incorporating the chain of blocks and relevant cross-chain smart contract data from the producer blockchain into the consumer blockchain as evidence (or proof), establishing a unified and secure perspective of cross-chain smart contract results. Our verification results highlight the feasibility of cross-chain validation at the smart contract level.
翻訳日:2024-08-20 16:13:49 公開日:2024-08-19
# 一般化ワンボディボルツマン状態への緩和

Relaxing towards generalized one-body Boltzmann states ( http://arxiv.org/abs/2408.09965v1 )

ライセンス: Link先を確認
Sheng-Wen Li, Ning Wu, (参考訳) 孤立量子系は可逆的ユニタリ進化を辿り、局所状態と可観測物の力学に焦点をあてると、それらは可逆的緩和挙動を示す。 ここでは,3レベル系からなる鎖の局所緩和過程について検討する。 全身状態のエントロピーは一定であるが、この系全体の相関はほぼ単調に増加する挙動を示す。 さらに、変分解析により、各部位が一般の1体ボルツマン状態に留まっているとき、全相関エントロピーが理論的な最大値を達成することが示され、これはエネルギーによってのみ決定されるだけでなく、各オンサイトレベルのスピン値にも依存する。 このような理論的相関の最大値は、正確な時間依存進化の結果と非常に一致している。 この意味で、全相関エントロピーは、この孤立系における非平衡緩和の動的不可逆性の指標となる。

Isolated quantum systems follow the reversible unitary evolution; if we focus on the dynamics of local states and observables, they exhibit the irreversible relaxation behaviors. Here we study the local relaxation process in an isolated chain consisting of \emph{N} three level systems. Though the entropy of the full many body state keeps a constant, it turns out the total correlation of this system approximately exhibits a monotonically increasing behavior. More importantly, a variation analysis shows that, the total correlation entropy would achieve its theoretical maximum when each site stays in a generalized one-body Boltzmann state, which is not solely determined by the energy but also depends on the spin value of each onsite level. It turns out such a theoretical correlation maximum is highly coincident with the result obtained from the exact time dependent evolution. In this sense, the total correlation entropy well serves as an indicator for the dynamical irreversibility of the nonequilibrium relaxation in this isolated system.
翻訳日:2024-08-20 16:13:49 公開日:2024-08-19
# 鏡のマスク:暗黙のスパシフィケーション

Mask in the Mirror: Implicit Sparsification ( http://arxiv.org/abs/2408.09966v1 )

ライセンス: Link先を確認
Tom Jacobs, Rebekka Burkholz, (参考訳) 深層ニューラルネットワークの分散化による推論コストの低減はNPハード問題であり、離散的かつ連続的な性質が混在しているため最適化が困難である。 しかし、我々が証明したように、連続スパシフィケーションは、緩和マスク変数の共通射影を必要としないような空間性に対する暗黙の偏見を持つ。 明示的な正規化よりも暗黙的な正規化は利益をもたらすが、特定のターゲット空間しか得られないので、実際には十分な柔軟性を提供しない。 連続的なスパシフィケーションの可能性を生かして、暗黙バイアスの強度を制御する方法を提案する。 ミラーフローの枠組みに基づいて,線形回帰の過小評価の文脈において,結果の収束と最適性の保証を導出し,より一般的なニューラルネットワークスペーサー化実験における洞察の有用性を実証し,特に高スパーシビリティ・レシエーションにおいて顕著な性能向上を実現した。 私たちの理論的な貢献は、リッチな体制に入る方法を強調し、暗黙の偏見が時間依存のブレグマンポテンシャルによって制御可能であることを示すため、独立した関心を持つかもしれない。

Sparsifying deep neural networks to reduce their inference cost is an NP-hard problem and difficult to optimize due to its mixed discrete and continuous nature. Yet, as we prove, continuous sparsification has already an implicit bias towards sparsity that would not require common projections of relaxed mask variables. While implicit rather than explicit regularization induces benefits, it usually does not provide enough flexibility in practice, as only a specific target sparsity is obtainable. To exploit its potential for continuous sparsification, we propose a way to control the strength of the implicit bias. Based on the mirror flow framework, we derive resulting convergence and optimality guarantees in the context of underdetermined linear regression and demonstrate the utility of our insights in more general neural network sparsification experiments, achieving significant performance gains, particularly in the high-sparsity regime. Our theoretical contribution might be of independent interest, as we highlight a way to enter the rich regime and show that implicit bias is controllable by a time-dependent Bregman potential.
翻訳日:2024-08-20 16:13:49 公開日:2024-08-19
# 損失関数における線形プログラミングの統合による教師なし機械学習ハイブリッドアプローチ:ロバスト最適化手法

Unsupervised Machine Learning Hybrid Approach Integrating Linear Programming in Loss Function: A Robust Optimization Technique ( http://arxiv.org/abs/2408.09967v1 )

ライセンス: Link先を確認
Andrew Kiruluta, Andreas Lemos, (参考訳) 本稿では、教師なし機械学習モデルの損失関数に線形プログラミング(LP)を統合する新しいハイブリッド手法を提案する。 最適化手法と機械学習の両方の長所を活用することにより、従来の手法が不足する複雑な最適化問題を解くための堅牢なフレームワークを導入する。 提案手法は、線形プログラミング問題の制約と目的を直接損失関数にカプセル化し、学習プロセスがこれらの制約に従うように誘導し、所望の結果を最適化する。 この技術は線形プログラミングの解釈可能性を保持するだけでなく、機械学習の柔軟性と適応性から恩恵を受け、教師なしまたは半教師なしの学習シナリオに特に適している。

This paper presents a novel hybrid approach that integrates linear programming (LP) within the loss function of an unsupervised machine learning model. By leveraging the strengths of both optimization techniques and machine learning, this method introduces a robust framework for solving complex optimization problems where traditional methods may fall short. The proposed approach encapsulates the constraints and objectives of a linear programming problem directly into the loss function, guiding the learning process to adhere to these constraints while optimizing the desired outcomes. This technique not only preserves the interpretability of linear programming but also benefits from the flexibility and adaptability of machine learning, making it particularly well-suited for unsupervised or semi-supervised learning scenarios.
翻訳日:2024-08-20 16:13:49 公開日:2024-08-19
# 大規模言語モデルを用いた自動運転のためのエッジクラウド協調動作計画

Edge-Cloud Collaborative Motion Planning for Autonomous Driving with Large Language Models ( http://arxiv.org/abs/2408.09972v1 )

ライセンス: Link先を確認
Jiao Chen, Suyan Dai, Fangfang Chen, Zuohong Lv, Jianhua Tang, (参考訳) 大規模言語モデル(LLM)を自律運転に統合することで、オープンワールドシナリオにおけるパーソナライゼーションと適応性が向上する。 しかし、従来のエッジコンピューティングモデルは、特にリアルタイムのパフォーマンスとシステム効率に関して、複雑な駆動データを処理する上で大きな課題に直面している。 これらの課題に対処するために,データドリフト検出機能を備えたエッジクラウド共同運転システムであるEC-Driveを紹介した。 EC-Driveはドリフト検出アルゴリズムを使用して、新しい障害やトラフィックパターンの変更を含む重要なデータをクラウドにアップロードし、GPT-4で処理する。 このアプローチは推論遅延を低減するだけでなく、通信リソースの使用を最適化することでシステム効率を向上させる。 実験的な検証により、実世界の運転条件におけるシステムの堅牢な処理能力と実用性を確認し、このエッジクラウドコラボレーションフレームワークの有効性を実証する。 データとシステムのデモはhttps://sites.google.com/view/ec-drive.comで公開されます。

Integrating large language models (LLMs) into autonomous driving enhances personalization and adaptability in open-world scenarios. However, traditional edge computing models still face significant challenges in processing complex driving data, particularly regarding real-time performance and system efficiency. To address these challenges, this study introduces EC-Drive, a novel edge-cloud collaborative autonomous driving system with data drift detection capabilities. EC-Drive utilizes drift detection algorithms to selectively upload critical data, including new obstacles and traffic pattern changes, to the cloud for processing by GPT-4, while routine data is efficiently managed by smaller LLMs on edge devices. This approach not only reduces inference latency but also improves system efficiency by optimizing communication resource use. Experimental validation confirms the system's robust processing capabilities and practical applicability in real-world driving conditions, demonstrating the effectiveness of this edge-cloud collaboration framework. Our data and system demonstration will be released at https://sites.google.com/view/ec-drive.
翻訳日:2024-08-20 16:13:49 公開日:2024-08-19
# 探究-膨張ジレンマ再考:エントロピーの視点から

The Exploration-Exploitation Dilemma Revisited: An Entropy Perspective ( http://arxiv.org/abs/2408.09974v1 )

ライセンス: Link先を確認
Renye Yan, Yaozhong Gan, You Wu, Ling Liang, Junliang Xing, Yimao Cai, Ru Huang, (参考訳) 探究と搾取の不均衡は、長い間強化学習において重要な課題であった。 政策最適化において、探索への過度な依存は学習効率を低下させる一方、搾取への過度な依存は、局地的最適化においてエージェントを罠にする可能性がある。 本稿では,エントロピーと探査・利用の動的適応過程との関係を明らかにすることにより,エントロピーの観点からの探索-探索ジレンマを再考する。 この理論的な洞察に基づいて、我々はAdaZeroと呼ばれるエンドツーエンド適応フレームワークを構築し、探索するか、活用するか、そしてその強度のバランスを自動で決定する。 実験によると、AdaZeroは、AtariとMuJoCoのさまざまな環境におけるベースラインモデルを、単一の設定で大幅に上回っている。 特にモンテズマの挑戦的な環境では、アダゼロは最終リターンを最大15倍押し上げる。 さらに, エージェントの性能と適応過程に関して, エントロピーがどのように振舞い, 変化するかを実証し, 自己適応機構のダイナミクスを明らかにするために, 一連の可視化分析を行った。

The imbalance of exploration and exploitation has long been a significant challenge in reinforcement learning. In policy optimization, excessive reliance on exploration reduces learning efficiency, while over-dependence on exploitation might trap agents in local optima. This paper revisits the exploration-exploitation dilemma from the perspective of entropy by revealing the relationship between entropy and the dynamic adaptive process of exploration and exploitation. Based on this theoretical insight, we establish an end-to-end adaptive framework called AdaZero, which automatically determines whether to explore or to exploit as well as their balance of strength. Experiments show that AdaZero significantly outperforms baseline models across various Atari and MuJoCo environments with only a single setting. Especially in the challenging environment of Montezuma, AdaZero boosts the final returns by up to fifteen times. Moreover, we conduct a series of visualization analyses to reveal the dynamics of our self-adaptive mechanism, demonstrating how entropy reflects and changes with respect to the agent's performance and adaptive process.
翻訳日:2024-08-20 16:13:49 公開日:2024-08-19
# 優先最適化によるブラックボックス最適化のためのパレートセット学習

Preference-Optimized Pareto Set Learning for Blackbox Optimization ( http://arxiv.org/abs/2408.09976v1 )

ライセンス: Link先を確認
Zhang Haishan, Diptesh Das, Koji Tsuda, (参考訳) マルチオブジェクト最適化(MOO)は現実世界のアプリケーションにおいて重要な問題である。 しかし、非自明な問題に対して、全ての目的を同時に最適化できる単一の解決策は存在しない。 典型的なMOO問題では、目的間の好みを交換する最適解(パレート集合)を見つけることが目的である。 MOOのスカラー化はパレート集合全体の有限集合近似を求めるための確立された方法である。 しかし、実世界の実験的な設計シナリオでは、設計空間の柔軟な探索のためにPS全体を取得することは有益である。 近年,PS全体を近似するためにPSL(Pareto set learning)が導入されている。 PSL は多目的最適化問題のパレート正面を表す多様体を作成する。 ナイーブなアプローチは、ランダムに生成された選好ベクトルを通してパレートフロント上の離散点を見つけ、回帰によってそれらを接続することを含む。 しかし、このアプローチは計算に高価であり、PS近似に乏しい。 パレートフロント上で均等に配布される選好点を最適化することを提案する。 我々の定式化は、例えば微分可能なクロスエントロピー法によって解決できる二段階最適化問題につながる。 実世界および実世界のベンチマークデータを用いて,複雑なブラックボックスMOO問題に対する本手法の有効性を実証した。

Multi-Objective Optimization (MOO) is an important problem in real-world applications. However, for a non-trivial problem, no single solution exists that can optimize all the objectives simultaneously. In a typical MOO problem, the goal is to find a set of optimum solutions (Pareto set) that trades off the preferences among objectives. Scalarization in MOO is a well-established method for finding a finite set approximation of the whole Pareto set (PS). However, in real-world experimental design scenarios, it's beneficial to obtain the whole PS for flexible exploration of the design space. Recently Pareto set learning (PSL) has been introduced to approximate the whole PS. PSL involves creating a manifold representing the Pareto front of a multi-objective optimization problem. A naive approach includes finding discrete points on the Pareto front through randomly generated preference vectors and connecting them by regression. However, this approach is computationally expensive and leads to a poor PS approximation. We propose to optimize the preference points to be distributed evenly on the Pareto front. Our formulation leads to a bilevel optimization problem that can be solved by e.g. differentiable cross-entropy methods. We demonstrated the efficacy of our method for complex and difficult black-box MOO problems using both synthetic and real-world benchmark data.
翻訳日:2024-08-20 16:13:49 公開日:2024-08-19
# 量子モンテカルロと安定化状態

Quantum Monte Carlo and Stabilizer States ( http://arxiv.org/abs/2408.09978v1 )

ライセンス: Link先を確認
Bhilahari Jeevanesan, (参考訳) 確率級数展開(SSE)として知られる量子-モンテカルロ法は、SSEサンプリングは計算ベースで行われ、非分岐仮定は、演算子を適用した時に基底状態の重ね合わせが現れないことを保証する。 この証明がなければ、複雑な振幅の数は量子ビットの数とともに指数関数的に増加し、最終的には古典的なコンピュータのメモリと処理能力に圧倒されることになる。 しかし、安定状態に対するクリフォード群要素の作用は振幅記述に頼らずに非常に効率的に記述できる。 安定状態がSSE手法の拡張を可能にする方法について検討し、この方法で研究できる玩具モデルの例を示す。

The Quantum-Monte-Carlo technique known as the Stochastic Series Expansion (SSE) relies on a crucial no-branching condition: the SSE sampling is carried out in the computational basis, and the no-branching assumption ensures that superpositions of basis-states do not appear when operators are applied. Without this proviso, the number of complex amplitudes would grow exponentially with the number of qubits and would eventually overwhelm the memory and processing power of a classical computer. However, the action of Clifford group elements on stabilizer states can be very efficiently described without resorting to an amplitude description. We explore how stabilizer states allow an extension of the SSE technique, and we give an example of a toy model that can be studied in this way.
翻訳日:2024-08-20 16:13:49 公開日:2024-08-19
# Parseval Convolution Operatorとニューラルネットワーク

Parseval Convolution Operators and Neural Networks ( http://arxiv.org/abs/2408.09981v1 )

ライセンス: Link先を確認
Michael Unser, Stanislas Ducotterd, (参考訳) まず、離散多成分信号に作用するすべての線形シフト不変(LSI)演算子を特徴付けるカーネル定理を確立する。 この結果は自然にParseval畳み込み演算子をエネルギー保存フィルタバンクのクラスとして識別する。 次に, 直交行列や1-tightフレームによってパラメータ化される基本Parsevalモジュールの連鎖によるフィルタバンクの設計・特定のための構成的アプローチを提案する。 我々の分析は、畳み込みニューラルネットワーク(CNN)のすべてのコンポーネントのリプシッツ定数の明示的な公式を補完する。 最後に,生体医用画像の反復的再構成のためのCNNアルゴリズムの設計により,これらのツールの使用例を示す。 我々のアルゴリズムは逆問題解決のためのプラグ・アンド・プレイ・フレームワークに該当する。 圧縮されたセンシングで使用されるスパーシティーベースの方法よりも高品質な結果が得られる一方で、基本的に同じ収束と堅牢性を保証する。

We first establish a kernel theorem that characterizes all linear shift-invariant (LSI) operators acting on discrete multicomponent signals. This result naturally leads to the identification of the Parseval convolution operators as the class of energy-preserving filterbanks. We then present a constructive approach for the design/specification of such filterbanks via the chaining of elementary Parseval modules, each of which being parameterized by an orthogonal matrix or a 1-tight frame. Our analysis is complemented with explicit formulas for the Lipschitz constant of all the components of a convolutional neural network (CNN), which gives us a handle on their stability. Finally, we demonstrate the usage of those tools with the design of a CNN-based algorithm for the iterative reconstruction of biomedical images. Our algorithm falls within the plug-and-play framework for the resolution of inverse problems. It yields better-quality results than the sparsity-based methods used in compressed sensing, while offering essentially the same convergence and robustness guarantees.
翻訳日:2024-08-20 16:13:49 公開日:2024-08-19
# 大規模言語モデルの自動質問生成への応用:全国教師認定試験におけるChatGLMの構造的質問を事例として

Application of Large Language Models in Automated Question Generation: A Case Study on ChatGLM's Structured Questions for National Teacher Certification Exams ( http://arxiv.org/abs/2408.09982v1 )

ライセンス: Link先を確認
Yanxin Chen, Ling He, (参考訳) 本研究では,全国教師認定試験(NTCE)における構造化質問の自動生成において,大規模言語モデル(LLM)ChatGLMの適用可能性について検討する。 念入りに設計した急進的なエンジニアリングを通じて,ChatGLMを指導し,一連の模擬質問を生成するとともに,過去の調査から得られた質問を総合的に比較した。 評価の客観性と専門性を確保するため,これらの質問と評価基準を評価するため,教育分野の専門家を招待した。 研究結果は,ChatGLMが生成した質問は,ほとんどの評価基準において,実際の試験質問と同様の合理性,科学的性,実践性を示し,モデルの精度と質問生成の信頼性を示す。 それにもかかわらず、この研究は、質問を生成する際の様々な評価基準について、モデルが考慮すべき限界を明らかにし、さらなる最適化と調整の必要性を示唆している。 本研究は、ChatGLMの教育評価分野への適用可能性を検証するだけでなく、将来より効率的でインテリジェントな教育自動生成システムを開発する上で、重要な実証的支援を提供する。

This study delves into the application potential of the large language models (LLMs) ChatGLM in the automatic generation of structured questions for National Teacher Certification Exams (NTCE). Through meticulously designed prompt engineering, we guided ChatGLM to generate a series of simulated questions and conducted a comprehensive comparison with questions recollected from past examinees. To ensure the objectivity and professionalism of the evaluation, we invited experts in the field of education to assess these questions and their scoring criteria. The research results indicate that the questions generated by ChatGLM exhibit a high level of rationality, scientificity, and practicality similar to those of the real exam questions across most evaluation criteria, demonstrating the model's accuracy and reliability in question generation. Nevertheless, the study also reveals limitations in the model's consideration of various rating criteria when generating questions, suggesting the need for further optimization and adjustment. This research not only validates the application potential of ChatGLM in the field of educational assessment but also provides crucial empirical support for the development of more efficient and intelligent educational automated generation systems in the future.
翻訳日:2024-08-20 16:03:38 公開日:2024-08-19
# ドメイン内カテゴリ認識型を活用したオープンドメイン連続学習の促進

Boosting Open-Domain Continual Learning via Leveraging Intra-domain Category-aware Prototype ( http://arxiv.org/abs/2408.09984v1 )

ライセンス: Link先を確認
Yadong Lu, Shitian Zhao, Boxiang Yun, Dongsheng Jiang, Yin Li, Qingli Li, Yan Wang, (参考訳) 近年のビジョンランゲージモデル(VLM)におけるオープンドメイン継続学習(ODCL)の有効性向上の進展にもかかわらず,(1)テストイメージのタスクIDを正しく識別できないこと,(2)タスクIDに対応するカテゴリセットのみを使用すること,そして(2)各ドメインに関する知識を維持しながら,ODCLの2つの主要な課題に対処できないこと,(2)古い知識を忘れること,ゼロショット能力を維持すること,およびドメイン間のカテゴリ関連性に起因する混乱について述べる。 本稿では,CLIP(DPeCLIP)におけるODCLのドメイン内カテゴリ認識プロトタイプを活用する,シンプルな,効果的な手法を提案する。 具体的には,プロトタイプをタスクID識別のための分類器として利用することにより,トレーニング不要なタスクID識別手法を提案する。 さらに、各ドメインに対応する知識を維持するために、ドメイン事前プロンプトとしてドメイン内カテゴリ対応プロトタイプをトレーニングプロセスに組み込む。 11種類のデータセットで実施した大規模な実験では, それぞれ2.37%, 1.14%, クラス増分とタスク増分を平均的に改善した。

Despite recent progress in enhancing the efficacy of Open-Domain Continual Learning (ODCL) in Vision-Language Models (VLM), failing to (1) correctly identify the Task-ID of a test image and (2) use only the category set corresponding to the Task-ID, while preserving the knowledge related to each domain, cannot address the two primary challenges of ODCL: forgetting old knowledge and maintaining zero-shot capabilities, as well as the confusions caused by category-relatedness between domains. In this paper, we propose a simple yet effective solution: leveraging intra-domain category-aware prototypes for ODCL in CLIP (DPeCLIP), where the prototype is the key to bridging the above two processes. Concretely, we propose a training-free Task-ID discriminator method, by utilizing prototypes as classifiers for identifying Task-IDs. Furthermore, to maintain the knowledge corresponding to each domain, we incorporate intra-domain category-aware prototypes as domain prior prompts into the training process. Extensive experiments conducted on 11 different datasets demonstrate the effectiveness of our approach, achieving 2.37% and 1.14% average improvement in class-incremental and task-incremental settings, respectively.
翻訳日:2024-08-20 16:03:38 公開日:2024-08-19
# マクロコヒーレンスにおける光量子メモリ

Optical quantum memory on macroscopic coherence ( http://arxiv.org/abs/2408.09991v1 )

ライセンス: Link先を確認
S. A. Moiseev, K. I. Gerasimov, M. M. Minnegaliev, E. S. Moiseev, (参考訳) 本稿では、長寿命のマクロスケール量子コヒーレンスに基づく量子メモリを提案する。 提案手法は,信号光場を検索し,量子メモリの基本パラメータを改良するための物理特性と手法を提供する。 本研究では, 量子雑音の少ない量子記憶, プログラム可能, 自然な不均一な拡張を伴う原子アンサンブル中の信号場のオンデマンド検索を実現する方法を示す。 この提案を希土類イオンをドープした様々な結晶やラマン遷移を持つ原子ガスに実装することは、光量子メモリの新たな開発方法であることを示している。

We propose a quantum memory based on the pre-created long-lived macroscopic quantum coherence. It is shown that the proposed approach provides new physical properties and methods for retrieval of the signal light fields and improvement of the basic parameters of quantum memory. We demonstrate how the pre-created coherence can enable quantum storage with low quantum noise, programmable and on demand retrieval of signal light fields in atomic ensembles with natural inhomogeneous broadening. The feasibility of implementing this proposal in various crystals doped with rare earth ions, as well as in atomic gases with a Raman transition indicates a new way for the development of optical quantum memory.
翻訳日:2024-08-20 16:03:38 公開日:2024-08-19
# 事象列モデルに対するコントラスト学習と生成学習の融合

Uniting contrastive and generative learning for event sequences models ( http://arxiv.org/abs/2408.09995v1 )

ライセンス: Link先を確認
Aleksandr Yugay, Alexey Zaytsev, (参考訳) トランザクションシーケンスの高品質な表現は、リスク管理、チャーン予測、パーソナライズされた顧客のオファーを含む、現代の銀行アプリケーションにとって不可欠である。 ローカルタスクはクライアントの現在の状態をキャプチャすることで恩恵を受け、グローバルタスクは一般的な振る舞いパターンに依存します。 これまでの研究では、様々な自己監督的アプローチが、グローバルな品質とローカルな品質をよりよく捉えた表現を生み出していることが示されている。 本研究では,2つの自己指導型学習手法 – 例えば,コントラスト学習と,潜在空間におけるマスクイベントの復元に基づく生成的アプローチ – の統合について検討する。 組み合わせたアプローチは、ローカルおよびグローバルなトランザクションデータ特性のバランスをとる表現を生成する。 いくつかの公開データセットで行った実験は、シーケンス分類と次点型予測に焦点を合わせ、統合された手法は個々のアプローチと比較して優れた性能を示し、相乗効果を示す。 これらの結果から,提案手法は,金融セクターにおけるイベントシーケンス表現学習を推進するための堅牢な枠組みを提供する可能性が示唆された。

High-quality representation of transactional sequences is vital for modern banking applications, including risk management, churn prediction, and personalized customer offers. Different tasks require distinct representation properties: local tasks benefit from capturing the client's current state, while global tasks rely on general behavioral patterns. Previous research has demonstrated that various self-supervised approaches yield representations that better capture either global or local qualities. This study investigates the integration of two self-supervised learning techniques - instance-wise contrastive learning and a generative approach based on restoring masked events in latent space. The combined approach creates representations that balance local and global transactional data characteristics. Experiments conducted on several public datasets, focusing on sequence classification and next-event type prediction, show that the integrated method achieves superior performance compared to individual approaches and demonstrates synergistic effects. These findings suggest that the proposed approach offers a robust framework for advancing event sequences representation learning in the financial sector.
翻訳日:2024-08-20 16:03:38 公開日:2024-08-19
# Coprime Bivariate Bicycle Codesとその特性

Coprime Bivariate Bicycle Codes and their Properties ( http://arxiv.org/abs/2408.10001v1 )

ライセンス: Link先を確認
Ming Wang, Frank Mueller, (参考訳) 本研究は, BB符号の探索過程を高速化する新しい数値アルゴリズムを提案し, 2) 量子誤り訂正に適したBB符号の変種を定義する。 提案した加速度探索アルゴリズムは,検索空間から等価なコードを取り除き,早期に悪いコードをドロップするしきい値を設定することにより,検索空間を縮小する。 このアルゴリズムで発見された多くの新しいBB符号が報告されている。 提案されたBB符号の変種は、制約のないコンストラクタを持つ標準的なBB符号を使用するのではなく、BB符号の基礎として多項式を介してグループを構成するためにココリムを使用する。 符号発見に先立ってパラメータが不明なバニラBB符号とは対照的に,数値探索アルゴリズムの入力として係数多項式を指定することにより,提案符号の速度を事前に決定することができる。 このコリメBB構造を用いて、これまで知られていなかった驚くほど短小から中短の符号を発見した。

This work (1) proposes a novel numerical algorithm to accelerate the search process for good Bivariate Bicycle (BB) codes and (2) defines a new variant of BB codes suitable for quantum error correction. The proposed acceleration search algorithm reduces the search space by excluding some equivalent codes from the search space, as well as setting thresholds to drop bad codes at an early stage. A number of new BB codes found by this algorithm are reported. The proposed variant of BB codes employs coprimes to construct groups via polynomials as the basis for the BB code, rather than using the standard BB codes with unconstrained constructors. In contrast to vanilla BB codes, where parameters remain unknown prior to code discovery, the rate of the proposed code can be determined beforehand by specifying a factor polynomial as an input to the numerical search algorithm. Using this coprime BB construction, we found a number of surprisingly short to medium-length codes that were previously unknown.
翻訳日:2024-08-20 16:03:38 公開日:2024-08-19
# クラスタリングにおける公正-品質トレードオフ

The Fairness-Quality Trade-off in Clustering ( http://arxiv.org/abs/2408.10002v1 )

ライセンス: Link先を確認
Rashida Hakim, Ana-Andreea Stoica, Christos H. Papadimitriou, Mihalis Yannakakis, (参考訳) クラスタリングの公平性は過去にも広く考慮されてきたが、この2つの目標のトレードオフ — 例えば、クラスタリングの品質をわずかに犠牲にして、公正性を著しく向上させることができるのか、あるいはその逆なのか? 対策はめったに行われていない。 我々は、クラスタリング問題における品質と公平性、すなわち、他のクラスタリングによって両目的に支配されない全てのクラスタリングの計算の間に、完全なトレードオフ曲線(Paretofront)をトレースする新しいアルゴリズムを導入する。 品質と公平性に関する特定の目的を取り扱う以前の研究とは異なり、我々は、以前の研究で対処された特別な事例のほとんどを含む2つの一般的なクラスにおいて、公正性と品質に関するすべての目的を扱う。 私たちのアルゴリズムは、パレートフロント自体が指数関数となるため、最悪の場合指数関数的な時間を要する。 パレートフロントが多項式である場合でも、我々のアルゴリズムは指数関数的な時間を要し、P = NP でない限りこれは避けられないことを証明している。 しかし、クラスタセンターが固定されたときにパレートフロント全体を計算するための新しい多項式時間アルゴリズムや、おそらく最も自然なフェアネスの目的として、各クラスタ内の2つのグループ間の不均衡の和を最小化することを提案する。

Fairness in clustering has been considered extensively in the past; however, the trade-off between the two objectives -- e.g., can we sacrifice just a little in the quality of the clustering to significantly increase fairness, or vice-versa? -- has rarely been addressed. We introduce novel algorithms for tracing the complete trade-off curve, or Pareto front, between quality and fairness in clustering problems; that is, computing all clusterings that are not dominated in both objectives by other clusterings. Unlike previous work that deals with specific objectives for quality and fairness, we deal with all objectives for fairness and quality in two general classes encompassing most of the special cases addressed in previous work. Our algorithm must take exponential time in the worst case as the Pareto front itself can be exponential. Even when the Pareto front is polynomial, our algorithm may take exponential time, and we prove that this is inevitable unless P = NP. However, we also present a new polynomial-time algorithm for computing the entire Pareto front when the cluster centers are fixed, and for perhaps the most natural fairness objective: minimizing the sum, over all clusters, of the imbalance between the two groups in each cluster.
翻訳日:2024-08-20 16:03:38 公開日:2024-08-19
# 応用数学におけるモデルとアルゴリズムの知識グラフを目指して

Towards a Knowledge Graph for Models and Algorithms in Applied Mathematics ( http://arxiv.org/abs/2408.10003v1 )

ライセンス: Link先を確認
Björn Schembera, Frank Wübbeling, Hendrik Kleikamp, Burkhard Schmidt, Aurela Shehu, Marco Reidelbach, Christine Biedinger, Jochen Fiedler, Thomas Koprucki, Dorothea Iglezakis, Dominik Göddeke, (参考訳) 数学的モデルとアルゴリズムは、数値データを認識的に基礎づけているため、数学的研究データの不可欠な部分である。 モデルとアルゴリズムとそれらの関係を意味的に表現し、この研究データFAIRを作成するために、2つの従来とは異なるオントロジーをマージして拡張し、生きた知識グラフとなった。 2つのオントロジ間のリンクは、アルゴリズム的なタスクに対応するモデリングで発生する計算タスクを導入することによって確立される。 また, 制御語彙が組み込まれ, 特定の使用事例量と基本量を区別する新たなクラスが導入された。 また、モデルとアルゴリズムの両方にメタデータが加わった。 ここでは、行列の対称性や数学的モデルの線型性など、主題固有のメタデータが特に関係している。 これは具体的なモデルとアルゴリズムで特定のワークフローを表現する唯一の方法であり、実現可能な解アルゴリズムはモデルの数学的性質が知られている場合にのみ決定できる。 応用数学の応用分野の異なる2つの例を用いてこれを実証する。 また、すでに250以上の研究資産を応用数学から知識グラフに統合しています。

Mathematical models and algorithms are an essential part of mathematical research data, as they are epistemically grounding numerical data. In order to represent models and algorithms as well as their relationship semantically to make this research data FAIR, two previously distinct ontologies were merged and extended, becoming a living knowledge graph. The link between the two ontologies is established by introducing computational tasks, as they occur in modeling, corresponding to algorithmic tasks. Moreover, controlled vocabularies are incorporated and a new class, distinguishing base quantities from specific use case quantities, was introduced. Also, both models and algorithms can now be enriched with metadata. Subject-specific metadata is particularly relevant here, such as the symmetry of a matrix or the linearity of a mathematical model. This is the only way to express specific workflows with concrete models and algorithms, as the feasible solution algorithm can only be determined if the mathematical properties of a model are known. We demonstrate this using two examples from different application areas of applied mathematics. In addition, we have already integrated over 250 research assets from applied mathematics into our knowledge graph.
翻訳日:2024-08-20 16:03:38 公開日:2024-08-19
# 長期連続予測のためのLSTMのパワーアンロック

Unlocking the Power of LSTM for Long Term Time Series Forecasting ( http://arxiv.org/abs/2408.10006v1 )

ライセンス: Link先を確認
Yaxuan Kong, Zepu Wang, Yuqi Nie, Tian Zhou, Stefan Zohren, Yuxuan Liang, Peng Sun, Qingsong Wen, (参考訳) 長期記憶ニューラルネットワーク(LSTM)のような従来のリカレントニューラルネットワークアーキテクチャは、時系列予測(TSF)タスクにおいて歴史的に重要な役割を果たしてきた。 最近導入されたSLSTM for Natural Language Processing (NLP)は、長期連続学習に有用な指数的ゲーティングとメモリ混合を導入しているが、その潜在的な短期記憶問題は、TSFに直接sLSTMを適用するための障壁である。 そこで本稿では,パッチやチャネル独立性を組み込んだsLSTM上に構築した,P-sLSTMという単純なアルゴリズムを提案する。 これらの改良により、TSFにおけるsLSTMの性能が大幅に向上し、最先端の結果が得られた。 さらに, 設計の理論的正当性を提供し, モデルの有効性と優れた性能を十分に検証するために, 広範囲な比較および解析実験を行う。

Traditional recurrent neural network architectures, such as long short-term memory neural networks (LSTM), have historically held a prominent role in time series forecasting (TSF) tasks. While the recently introduced sLSTM for Natural Language Processing (NLP) introduces exponential gating and memory mixing that are beneficial for long term sequential learning, its potential short memory issue is a barrier to applying sLSTM directly in TSF. To address this, we propose a simple yet efficient algorithm named P-sLSTM, which is built upon sLSTM by incorporating patching and channel independence. These modifications substantially enhance sLSTM's performance in TSF, achieving state-of-the-art results. Furthermore, we provide theoretical justifications for our design, and conduct extensive comparative and analytical experiments to fully validate the efficiency and superior performance of our model.
翻訳日:2024-08-20 16:03:38 公開日:2024-08-19
# P3P: Pseudo-3Dによる3次元マスクオートエンコーダの事前学習

P3P: Pseudo-3D Pre-training for Scaling 3D Masked Autoencoders ( http://arxiv.org/abs/2408.10007v1 )

ライセンス: Link先を確認
Xuechao Chen, Ying Chen, Jialin Li, Qiang Nie, Yong Liu, Qixing Huang, Yang Li, (参考訳) 3D事前学習は3D知覚タスクに不可欠である。 しかし、クリーンな3Dデータ収集の難しさにより、3D事前トレーニングは一貫してデータスケーリングの課題に直面した。 本研究では,限定ラベル付きデータと大量のラベル付きデータを活用した半教師付き学習に触発され,実データと画像から持ち上げられた擬似3Dデータを利用した自己教師付き事前学習フレームワークを提案する。 もうひとつの課題は効率性です。 Point-BERT(英語版)やPoint-MAE(英語版)のような以前の手法では、3Dトークンを埋め込むのに近接する k 個の隣人を雇っている。 このような大量のデータを効率的に事前学習するために,線形時間・複雑トークン埋め込み戦略と,訓練効率のよい2次元再構成ターゲットを提案する。 提案手法は,3次元分類および少数ショット学習における最先端性能を高い事前学習と下流微調整効率を維持しながら達成する。

3D pre-training is crucial to 3D perception tasks. However, limited by the difficulties in collecting clean 3D data, 3D pre-training consistently faced data scaling challenges. Inspired by semi-supervised learning leveraging limited labeled data and a large amount of unlabeled data, in this work, we propose a novel self-supervised pre-training framework utilizing the real 3D data and the pseudo-3D data lifted from images by a large depth estimation model. Another challenge lies in the efficiency. Previous methods such as Point-BERT and Point-MAE, employ k nearest neighbors to embed 3D tokens, requiring quadratic time complexity. To efficiently pre-train on such a large amount of data, we propose a linear-time-complexity token embedding strategy and a training-efficient 2D reconstruction target. Our method achieves state-of-the-art performance in 3D classification and few-shot learning while maintaining high pre-training and downstream fine-tuning efficiency.
翻訳日:2024-08-20 16:03:38 公開日:2024-08-19
# PinnDE:微分方程式を解く物理インフォームドニューラルネットワーク

PinnDE: Physics-Informed Neural Networks for Solving Differential Equations ( http://arxiv.org/abs/2408.10011v1 )

ライセンス: Link先を確認
Jason Matthews, Alex Bihlo, (参考訳) 近年,微分方程式の解法に関する深層学習の研究が盛んに行われている。 物理インフォームドニューラルネットワーク(PINN)とディープオペレータネットワーク(DeepONets)の使用は、機械学習を用いた微分方程式解の近似において最も有用な2つのアプローチとして現れている。 本稿では、PINNとDeepONetsの両方で微分方程式を解くためのオープンソースのピソンライブラリであるPinnDEを提案する。 我々は、PINNとDeepONetsの両方について簡単なレビューを行い、パッケージの構造と使用法とともにPinnDEを紹介し、PinnDEがPINNとDeepONetsの両方でソリューションを近似するのに有効であることを示す。

In recent years the study of deep learning for solving differential equations has grown substantially. The use of physics-informed neural networks (PINNs) and deep operator networks (DeepONets) have emerged as two of the most useful approaches in approximating differential equation solutions using machine learning. Here, we propose PinnDE, an open-source python library for solving differential equations with both PINNs and DeepONets. We give a brief review of both PINNs and DeepONets, introduce PinnDE along with the structure and usage of the package, and present worked examples to show PinnDE's effectiveness in approximating solutions with both PINNs and DeepONets.
翻訳日:2024-08-20 16:03:38 公開日:2024-08-19
# CLIPCleaner: CLIPによるノイズラベルのクリーン化

CLIPCleaner: Cleaning Noisy Labels with CLIP ( http://arxiv.org/abs/2408.10012v1 )

ライセンス: Link先を確認
Chen Feng, Georgios Tzimiropoulos, Ioannis Patras, (参考訳) Noisy labels(LNL)による学習は、機械学習コミュニティにとって大きな課題となる。 モデル自体(トレーニング中のモデル)が高い信頼性を持つクリーンなサンプルとして選択する最も広く使用されるアプローチのいくつかは、いわゆる‘自己確認’バイアスに悩まされる可能性がある。 このバイアスは、トレーニング中のモデルが少なくとも部分的にノイズラベルで訓練されているために生じる。 さらに分類の場合、ラベルノイズのいくつかは視覚的に非常に類似したクラス(`hard noise')の間にあるため、さらなる課題が生じる。 本稿では,効率的なオフライン,クリーンなサンプル選択のためのゼロショット分類器を構築するための強力なVision-Language (VL)モデルであるCLIPを利用する手法(\textit{CLIPCleaner})を提案することにより,これらの課題に対処する。 これは、サンプル選択がトレーニング中のモデルから切り離され、サンプル選択がCLIPのトレーニング方法によるクラス間の意味的および視覚的類似性を認識しているという利点がある。 従来の事前学習モデルと比較して,LNLに対するCLIPの利点を示す理論的正当性および実証的証拠を提供する。 反復的なサンプル選択と様々なテクニックを組み合わせる現在の方法と比較して、 \textit{CLIPCleaner} は、ベンチマークデータセット上での競合や優れたパフォーマンスを達成するための、単純で単一ステップのアプローチを提供する。 我々の知る限りでは、VLモデルがサンプル選択に使われ、LNL(Learning with Noisy Labels)の問題に対処し、ドメインにおけるVLの可能性を強調するのはこれが初めてである。

Learning with Noisy labels (LNL) poses a significant challenge for the Machine Learning community. Some of the most widely used approaches that select as clean samples for which the model itself (the in-training model) has high confidence, e.g., `small loss', can suffer from the so called `self-confirmation' bias. This bias arises because the in-training model, is at least partially trained on the noisy labels. Furthermore, in the classification case, an additional challenge arises because some of the label noise is between classes that are visually very similar (`hard noise'). This paper addresses these challenges by proposing a method (\textit{CLIPCleaner}) that leverages CLIP, a powerful Vision-Language (VL) model for constructing a zero-shot classifier for efficient, offline, clean sample selection. This has the advantage that the sample selection is decoupled from the in-training model and that the sample selection is aware of the semantic and visual similarities between the classes due to the way that CLIP is trained. We provide theoretical justifications and empirical evidence to demonstrate the advantages of CLIP for LNL compared to conventional pre-trained models. Compared to current methods that combine iterative sample selection with various techniques, \textit{CLIPCleaner} offers a simple, single-step approach that achieves competitive or superior performance on benchmark datasets. To the best of our knowledge, this is the first time a VL model has been used for sample selection to address the problem of Learning with Noisy Labels (LNL), highlighting their potential in the domain.
翻訳日:2024-08-20 16:03:38 公開日:2024-08-19
# TBA:SSDベースのアクティベーションオフロードによる大規模言語モデルの高速化

TBA: Faster Large Language Model Training Using SSD-Based Activation Offloading ( http://arxiv.org/abs/2408.10013v1 )

ライセンス: Link先を確認
Kun Wu, Jeongmin Brian Park, Xiaofan Zhang, Mert Hidayetoğlu, Vikram Sharma Mailthody, Sitao Huang, Steven Sam Lumetta, Wen-mei Hwu, (参考訳) GPUメモリ容量の成長速度は、大きな言語モデル(LLM)のサイズに沿うことができず、モデルのトレーニングプロセスを妨げている。 特に、前方伝播中に生成され、後方伝播で再利用される中間テンソルであるアクティベーションが、GPUメモリの使用を支配している。 この課題に対処するため,高容量NVMe SSDの活性化を効率よくオフロードするTBAを提案する。 このアプローチは、データ転送と計算を適応的にオーバーラップすることで、パフォーマンスに影響を与えることなく、GPUメモリの使用を減らす。 TBAは、PyTorch、Megatron、DeepSpeedといった一般的なディープラーニングフレームワークと互換性があり、テンソルの重複、フォワード、適応オフロードといったテクニックを使用して効率をさらに向上する。 GPT,BERT,T5について広範な実験を行った。 その結果,TBAはアクティベーションピークメモリ使用量の47%を効果的に削減できることがわかった。 同時に、TBAは計算とI/Oを完全にオーバーラップし、無視できるパフォーマンスのオーバーヘッドを発生させる。 本稿では,TBAオフロードと他の2つのテンソル配置戦略を比較し,メモリ上のアクティベーションと層単位でのフル再計算を行うために,再計算-オフロード-キープ(ROK)曲線を導入する。 TBAは、メモリにアクティベーションを保持する性能を維持しながら、階層的に完全な再計算よりも優れたメモリ節約を実現する。

The growth rate of the GPU memory capacity has not been able to keep up with that of the size of large language models (LLMs), hindering the model training process. In particular, activations -- the intermediate tensors produced during forward propagation and reused in backward propagation -- dominate the GPU memory use. To address this challenge, we propose TBA to efficiently offload activations to high-capacity NVMe SSDs. This approach reduces GPU memory usage without impacting performance by adaptively overlapping data transfers with computation. TBA is compatible with popular deep learning frameworks like PyTorch, Megatron, and DeepSpeed, and it employs techniques such as tensor deduplication, forwarding, and adaptive offloading to further enhance efficiency. We conduct extensive experiments on GPT, BERT, and T5. Results demonstrate that TBA effectively reduces 47% of the activation peak memory usage. At the same time, TBA perfectly overlaps the I/O with the computation and incurs negligible performance overhead. We introduce the recompute-offload-keep (ROK) curve to compare the TBA offloading with other two tensor placement strategies, keeping activations in memory and layerwise full recomputation. We find that TBA achieves better memory savings than layerwise full recomputation while retaining the performance of keeping the activations in memory.
翻訳日:2024-08-20 16:03:38 公開日:2024-08-19
# 連続空間制約型MDPに対する決定論的ポリシー勾配法

Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs ( http://arxiv.org/abs/2408.10015v1 )

ライセンス: Link先を確認
Sergio Rozada, Dongsheng Ding, Antonio G. Marques, Alejandro Ribeiro, (参考訳) 本稿では,制約付きマルコフ決定過程(MDP)に対する決定論的最適ポリシーを,制約付き力学系で広く見られる連続状態と行動空間を用いて計算する問題について検討する。 連続状態および行動空間における決定論的政策勾配法の設計は、エネルブル状態-作用ペアの欠如と決定論的政策の導入により、既存の政策勾配法を制約されたMDPに適用することを妨げるため、特に困難である。 この目的のために、非漸近収束を伴う最適決定主義政策を求めるための決定論的政策勾配原始双対法を開発した。 具体的には,制約付きMDPのラグランジアンを正規化して,2次正規化勾配上昇ステップと2次正規化勾配降下ステップによって決定論的ポリシーを更新するD-PGPDアルゴリズムを提案する。 D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。 関数近似を用いて D-PGPD をインスタンス化し、D-PGPD の原始-双対反復が、関数近似誤差まで、最適に正則化された原始-双対に収束することを証明した。 さらに,ロボットナビゲーションと流体制御の2つの連続制御問題において,本手法の有効性を示す。 我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。

We study the problem of computing deterministic optimal policies for constrained Markov decision processes (MDPs) with continuous state and action spaces, which are widely encountered in constrained dynamical systems. Designing deterministic policy gradient methods in continuous state and action spaces is particularly challenging due to the lack of enumerable state-action pairs and the adoption of deterministic policies, hindering the application of existing policy gradient methods for constrained MDPs. To this end, we develop a deterministic policy gradient primal-dual method to find an optimal deterministic policy with non-asymptotic convergence. Specifically, we leverage regularization of the Lagrangian of the constrained MDP to propose a deterministic policy gradient primal-dual (D-PGPD) algorithm that updates the deterministic policy via a quadratic-regularized gradient ascent step and the dual variable via a quadratic-regularized gradient descent step. We prove that the primal-dual iterates of D-PGPD converge at a sub-linear rate to an optimal regularized primal-dual pair. We instantiate D-PGPD with function approximation and prove that the primal-dual iterates of D-PGPD converge at a sub-linear rate to an optimal regularized primal-dual pair, up to a function approximation error. Furthermore, we demonstrate the effectiveness of our method in two continuous control problems: robot navigation and fluid control. To the best of our knowledge, this appears to be the first work that proposes a deterministic policy search method for continuous-space constrained MDPs.
翻訳日:2024-08-20 16:03:38 公開日:2024-08-19
# 不確実性推定によるセマンティックセグメンテーションの敵攻撃検出:ディープ解析

Detecting Adversarial Attacks in Semantic Segmentation via Uncertainty Estimation: A Deep Analysis ( http://arxiv.org/abs/2408.10021v1 )

ライセンス: Link先を確認
Kira Maag, Roman Resner, Asja Fischer, (参考訳) ディープニューラルネットワークは、セマンティックセグメンテーションのような幅広いタスクで顕著な効果を示している。 それでもこれらのネットワークは、入力画像に知覚不能な摂動を付加する敵攻撃に弱いため、誤った予測がもたらされる。 この脆弱性は、特に自動化運転のような安全クリティカルなアプリケーションでは危険である。 画像分類の文脈では、敵対的な例や防衛戦略がよく研究されているが、セマンティックセグメンテーションに焦点を当てた研究は比較的少ない。 近年,セマンティックセグメンテーションのためのニューラルネットワークに対する敵攻撃を検出する不確実性に基づく手法を提案する。 出力分布のエントロピーによって測定された不確実性は、清浄な画像と不適切な摂動画像とで異なる挙動を示し、この特性を利用して両者を区別する。 この拡張バージョンでは、多様な敵攻撃や様々な最先端のニューラルネットワークを含む、不確実性に基づく敵攻撃の検出を詳細に分析する。 提案手法の有効性を示す数値実験を行い,提案手法の有効性について検討した。

Deep neural networks have demonstrated remarkable effectiveness across a wide range of tasks such as semantic segmentation. Nevertheless, these networks are vulnerable to adversarial attacks that add imperceptible perturbations to the input image, leading to false predictions. This vulnerability is particularly dangerous in safety-critical applications like automated driving. While adversarial examples and defense strategies are well-researched in the context of image classification, there is comparatively less research focused on semantic segmentation. Recently, we have proposed an uncertainty-based method for detecting adversarial attacks on neural networks for semantic segmentation. We observed that uncertainty, as measured by the entropy of the output distribution, behaves differently on clean versus adversely perturbed images, and we utilize this property to differentiate between the two. In this extended version of our work, we conduct a detailed analysis of uncertainty-based detection of adversarial attacks including a diverse set of adversarial attacks and various state-of-the-art neural networks. Our numerical experiments show the effectiveness of the proposed uncertainty-based detection method, which is lightweight and operates as a post-processing step, i.e., no model modifications or knowledge of the adversarial example generation process are required.
翻訳日:2024-08-20 16:03:38 公開日:2024-08-19
# ロバストフェデレーション画像分類に向けて:製造における重量選択戦略の実証的研究

Towards Robust Federated Image Classification: An Empirical Study of Weight Selection Strategies in Manufacturing ( http://arxiv.org/abs/2408.10024v1 )

ライセンス: Link先を確認
Vinit Hegiste, Tatjana Legler, Martin Ruskowski, (参考訳) フェデレートラーニング(FL)の領域では、特に製造分野において、サーバアグリゲーションのためのクライアントウェイトを選択する戦略が、モデルのパフォーマンスにおいて重要である。 本研究は, 最終エポックウェイト選択 (FEWS) と最適エポックウェイト選択 (OEWS) の2つの方法の比較効果について検討した。 コラボレーションには通常、限られた数のパートナー(2~4人のクライアント)が関与する製造コンテキスト向けに設計されており、当社の研究は、フェデレートされた画像分類タスクに焦点を当てている。 EfficientNet、ResNet、VGGなど、さまざまなニューラルネットワークアーキテクチャを使用して、これらの重み選択戦略がモデル収束性と堅牢性に与える影響を評価する。 本研究の目的は, 通信ラウンド(CR)間でのグローバルFLモデルの性能向上を, FEWS と OEWS で確認することである。 実験分析と厳密な実験を通じて、製造におけるFL実装の最適化に価値ある洞察を提供し、協力的な取り組みが限られた数のクライアントで最も効果的で信頼性の高いモデルを生み出すことを保証する。 本研究から得られた知見は、FLの実践を製造において著しく洗練し、この重要な分野における協調機械学習の効率性と性能を向上させることが期待されている。

In the realm of Federated Learning (FL), particularly within the manufacturing sector, the strategy for selecting client weights for server aggregation is pivotal for model performance. This study investigates the comparative effectiveness of two weight selection strategies: Final Epoch Weight Selection (FEWS) and Optimal Epoch Weight Selection (OEWS). Designed for manufacturing contexts where collaboration typically involves a limited number of partners (two to four clients), our research focuses on federated image classification tasks. We employ various neural network architectures, including EfficientNet, ResNet, and VGG, to assess the impact of these weight selection strategies on model convergence and robustness. Our research aims to determine whether FEWS or OEWS enhances the global FL model's performance across communication rounds (CRs). Through empirical analysis and rigorous experimentation, we seek to provide valuable insights for optimizing FL implementations in manufacturing, ensuring that collaborative efforts yield the most effective and reliable models with a limited number of participating clients. The findings from this study are expected to refine FL practices significantly in manufacturing, thereby enhancing the efficiency and performance of collaborative machine learning endeavors in this vital sector.
翻訳日:2024-08-20 16:03:38 公開日:2024-08-19
# オープンソースのAIディベートにおける防衛優先事項 - 予備的評価

Defense Priorities in the Open-Source AI Debate: A Preliminary Assessment ( http://arxiv.org/abs/2408.10026v1 )

ライセンス: Link先を確認
Masao Dahlgren, (参考訳) 基盤となるアーキテクチャとパラメータが公開され、エンドユーザによる検査、修正、実行が可能な人工知能モデル。 オープンファンデーションモデルのリリースに関する提案された制限は、防衛産業に大きな影響を及ぼす可能性がある。 モデルトレーニングが防衛生産の一形態であるなら、これらの影響はさらなる精査に値する。 予備的な証拠は、オープンファンデーションモデルエコシステムが国防総省のサプライヤーの多様性、持続性、サイバーセキュリティ、イノベーションの優先順位に恩恵をもたらすことを示唆している。 フォローオン分析は、買収コストとサプライチェーンのセキュリティへの影響を定量化するべきである。

A spirited debate is taking place over the regulation of open foundation models: artificial intelligence models whose underlying architectures and parameters are made public and can be inspected, modified, and run by end users. Proposed limits on releasing open foundation models may have significant defense industrial impacts. If model training is a form of defense production, these impacts deserve further scrutiny. Preliminary evidence suggests that an open foundation model ecosystem could benefit the U.S. Department of Defense's supplier diversity, sustainment, cybersecurity, and innovation priorities. Follow-on analyses should quantify impacts on acquisition cost and supply chain security.
翻訳日:2024-08-20 15:52:57 公開日:2024-08-19
# 不均衡な産業欠陥分割のための動的ラベル注入

Dynamic Label Injection for Imbalanced Industrial Defect Segmentation ( http://arxiv.org/abs/2408.10031v1 )

ライセンス: Link先を確認
Emanuele Caruso, Francesco Pelosin, Alessandro Simoni, Marco Boschetti, (参考訳) 本研究では,ディープラーニングシステムにおける不均衡な多クラスセマンティックセマンティックセグメンテーションの問題に対処するための,シンプルかつ効果的な手法を提案する。 優れたトレーニングセットの重要な特性の1つは、クラス間のバランスです。 入力分布がインスタンス数で非常に不均衡な場合、学習プロセスは妨げられるか、実行が困難になる可能性がある。 そこで本稿では,動的ラベルインジェクション(DLI)アルゴリズムを提案する。 提案アルゴリズムは,ポアソンをベースとしたシームレスな画像クローニングとカット・ペースト技術を組み合わせることで,現在のバッチ欠陥分布を計算し,欠陥を転送することで再バランスする。 Magnetic Tilesデータセットの徹底的な実験セクションでは、脆弱な教師付きセットアップにおいても、他のバランシング損失アプローチと比較して、DLIのより良い結果が示されている。 コードはhttps://github.com/covisionlab/dynamic-label-injection.gitで公開されている。

In this work, we propose a simple yet effective method to tackle the problem of imbalanced multi-class semantic segmentation in deep learning systems. One of the key properties for a good training set is the balancing among the classes. When the input distribution is heavily imbalanced in the number of instances, the learning process could be hindered or difficult to carry on. To this end, we propose a Dynamic Label Injection (DLI) algorithm to impose a uniform distribution in the input batch. Our algorithm computes the current batch defect distribution and re-balances it by transferring defects using a combination of Poisson-based seamless image cloning and cut-paste techniques. A thorough experimental section on the Magnetic Tiles dataset shows better results of DLI compared to other balancing loss approaches also in the challenging weakly-supervised setup. The code is available at https://github.com/covisionlab/dynamic-label-injection.git
翻訳日:2024-08-20 15:52:57 公開日:2024-08-19
# SHARP: Egocentric 3D Hand Poseの推定と行動認識のための擬似深度を用いた手腕分割

SHARP: Segmentation of Hands and Arms by Range using Pseudo-Depth for Enhanced Egocentric 3D Hand Pose Estimation and Action Recognition ( http://arxiv.org/abs/2408.10037v1 )

ライセンス: Link先を確認
Wiktor Mucha, Michael Wray, Martin Kampel, (参考訳) ハンドポーズは、ユーザがオブジェクトと対話するエゴセントリックな視点において、アクション認識のための重要な情報を表す。 擬似深度画像のみを用いてRGBフレームに基づく自家中心の3次元ポーズ推定を改善することを提案する。 最先端の単一RGB画像深度推定技術を導入し、フレームの擬似深度表現を生成し、シーンの無関係な部分を分割するために距離知識を利用する。 得られた深度マップはRGBフレームのセグメンテーションマスクとして使用される。 H2Oデータセットを用いた実験結果から,動作認識タスクにおいて提案手法を用いて推定されたポーズの高精度性を確認した。 3Dハンドポーズは、オブジェクト検出の情報とともに、トランスフォーマーベースのアクション認識ネットワークによって処理され、91.73%の精度で、最先端の手法よりも優れている。 3Dハンドポーズの推定は,28.66mmの平均ポーズ誤差を持つ既存手法と競合する性能をもたらす。 本手法は, 深度センサに頼らずに, エゴセントリックな3次元手ポーズ推定における距離情報を活用する新たな可能性を開く。

Hand pose represents key information for action recognition in the egocentric perspective, where the user is interacting with objects. We propose to improve egocentric 3D hand pose estimation based on RGB frames only by using pseudo-depth images. Incorporating state-of-the-art single RGB image depth estimation techniques, we generate pseudo-depth representations of the frames and use distance knowledge to segment irrelevant parts of the scene. The resulting depth maps are then used as segmentation masks for the RGB frames. Experimental results on H2O Dataset confirm the high accuracy of the estimated pose with our method in an action recognition task. The 3D hand pose, together with information from object detection, is processed by a transformer-based action recognition network, resulting in an accuracy of 91.73%, outperforming all state-of-the-art methods. Estimations of 3D hand pose result in competitive performance with existing methods with a mean pose error of 28.66 mm. This method opens up new possibilities for employing distance information in egocentric 3D hand pose estimation without relying on depth sensors.
翻訳日:2024-08-20 15:52:57 公開日:2024-08-19
# MSDiagnosis : EMRを用いた多段階診断用データセット

MSDiagnosis: An EMR-based Dataset for Clinical Multi-Step Diagnosis ( http://arxiv.org/abs/2408.10039v1 )

ライセンス: Link先を確認
Ruihui Hou, Shencheng Chen, Yongqi Fan, Lifeng Zhu, Jing Sun, Jingping Liu, Tong Ruan, (参考訳) 臨床診断は医療実践において重要であり、通常、一次診断、鑑別診断、最終診断を含む継続的かつ進化的なプロセスを必要とする。 しかし、既存の臨床診断タスクのほとんどは1段階のプロセスであり、実際の臨床現場で見られる複雑な多段階の診断手順とは一致しない。 本稿では,多段階診断タスクを提案し,臨床診断データセット(MSDiagnosis)に注釈を付ける。 本データセットは、一次診断、鑑別診断、最終診断質問を含む。 さらに,新規かつ効果的な枠組みを提案する。 このフレームワークは、前方推論、後方推論、反射、改善を組み合わせ、LSMが診断結果を自己評価し、調整することができる。 提案手法の有効性を評価するため,我々は広範囲な実験を設計・実施する。 実験の結果,提案手法の有効性が示された。 また、包括的実験分析を行い、今後の研究の方向性を提案する。

Clinical diagnosis is critical in medical practice, typically requiring a continuous and evolving process that includes primary diagnosis, differential diagnosis, and final diagnosis. However, most existing clinical diagnostic tasks are single-step processes, which does not align with the complex multi-step diagnostic procedures found in real-world clinical settings. In this paper, we propose a multi-step diagnostic task and annotate a clinical diagnostic dataset (MSDiagnosis). This dataset includes primary diagnosis, differential diagnosis, and final diagnosis questions. Additionally, we propose a novel and effective framework. This framework combines forward inference, backward inference, reflection, and refinement, enabling the LLM to self-evaluate and adjust its diagnostic results. To assess the effectiveness of our proposed method, we design and conduct extensive experiments. The experimental results demonstrate the effectiveness of the proposed method. We also provide a comprehensive experimental analysis and suggest future research directions for this task.
翻訳日:2024-08-20 15:52:57 公開日:2024-08-19
# 生産スケジューリングのための最適最適化アルゴリズム:スケールと性能のブレークスルーにつながるパラダイムシフト

The Practimum-Optimum Algorithm for Manufacturing Scheduling: A Paradigm Shift Leading to Breakthroughs in Scale and Performance ( http://arxiv.org/abs/2408.10040v1 )

ライセンス: Link先を確認
Moshe BenBassat, (参考訳) Practimum-Optimum (P-O) アルゴリズムは、大規模製造スケジューリングのような複雑な実生活ビジネス問題に対して、自動最適化製品を開発する際のパラダイムシフトを表す。 深いビジネスドメインの専門知識を活用して、高品質なスケジュールを作成する方法について、さまざまな“考え方の流派”を持つ仮想人間専門家(VHE)エージェントのグループを作成する。 それらをアルゴリズムにコンピュータ化することにより、P-Oは人間のスケジューラよりもはるかに高速で多くの有効なスケジュールを生成する。 当初は、これらのスケジュールは、高品質なスケジュールから遠く離れた局所的な最適ピークでもある。 これらのスケジュールを強化機械学習アルゴリズム(RL)に送信することにより、P-Oは各VHEスケジュールの弱点と強みを学習し、それによって、スケジュールの現在の状態につながる前回のイテレーションで受信されたジョブの相対的な優先度とリソース割り当てを変更するデマンドセットの報酬と罰則の変更を導出する。 これらの結果、VHEアルゴリズムのコアロジックは、その後の反復でスケジュール宇宙のかなり異なる部分を探索し、より高品質なスケジュールを見つける可能性がある。 ヒルクライミングのアナロジーを用いて、これは大きなジャンプと見なされ、ある局所的なピークから、将来のイテレーションの要求セットに埋め込まれた知識を備えた、遠い将来有望なスタートポイントへとシフトする。 これは、訪れた局所的なピークの近傍に制限された局所的なマイクロステップにかなりの時間を費やす、現代のほとんどのアルゴリズムと根本的な違いである。 この違いは、複雑な組織における完全な自動製造スケジューリングのための規模と性能のブレークスルーを可能にする。 P-OアルゴリズムはPlatene Schedulerの中心であり、1クリックで3万~5万のタスクを実生活の複雑な製造作業にスケジュールする。

The Practimum-Optimum (P-O) algorithm represents a paradigm shift in developing automatic optimization products for complex real-life business problems such as large-scale manufacturing scheduling. It leverages deep business domain expertise to create a group of virtual human expert (VHE) agents with different "schools of thought" on how to create high-quality schedules. By computerizing them into algorithms, P-O generates many valid schedules at far higher speeds than human schedulers are capable of. Initially, these schedules can also be local optimum peaks far away from high-quality schedules. By submitting these schedules to a reinforced machine learning algorithm (RL), P-O learns the weaknesses and strengths of each VHE schedule, and accordingly derives reward and punishment changes in the Demand Set that will modify the relative priorities for time and resource allocation that jobs received in the prior iteration that led to the current state of the schedule. These cause the core logic of the VHE algorithms to explore, in the subsequent iteration, substantially different parts of the schedules universe and potentially find higher-quality schedules. Using the hill climbing analogy, this may be viewed as a big jump, shifting from a given local peak to a faraway promising start point equipped with knowledge embedded in the demand set for future iterations. This is a fundamental difference from most contemporary algorithms, which spend considerable time on local micro-steps restricted to the neighbourhoods of local peaks they visit. This difference enables a breakthrough in scale and performance for fully automatic manufacturing scheduling in complex organizations. The P-O algorithm is at the heart of Plataine Scheduler that, in one click, routinely schedules 30,000-50,000 tasks for real-life complex manufacturing operations.
翻訳日:2024-08-20 15:52:57 公開日:2024-08-19
# 効率的なマルチレベルトリプレーン表現による暗黙的ガウススプラッティング

Implicit Gaussian Splatting with Efficient Multi-Level Tri-Plane Representation ( http://arxiv.org/abs/2408.10041v1 )

ライセンス: Link先を確認
Minye Wu, Tinne Tuytelaars, (参考訳) フォトリアリスティックな新規ビュー合成の最近の進歩はガウススプラッティング(3DGS)によって著しく推進されている。 それでも、3DGSデータの明示的な性質にはかなりのストレージ要件が伴い、より効率的なデータ表現の必要性が強調されている。 これを解決するために,多層三面体アーキテクチャによる暗黙的特徴埋め込みと明示的な点雲を統合する革新的なハイブリッドモデルであるImplicit Gaussian Splatting (IGS)を提案する。 このアーキテクチャは、様々なレベルで異なる解像度の2次元特徴格子を特徴とし、連続的な空間領域表現を容易にし、ガウス原始体間の空間相関を強化する。 この基盤を基盤として,空間正規化を明示するレベルベースプログレッシブ・トレーニング・スキームを導入する。 本手法は,IGS表現のレンダリング品質とコンパクトさを両立させるため,空間的相関に重きを置いている。 さらに,異なるレベルのエントロピー変動を考慮して,点雲と2次元特徴格子の両方に適した新しい圧縮パイプラインを提案する。 大規模実験により,本アルゴリズムは,数MBで高画質なレンダリングを実現し,ストレージ効率とレンダリング精度を効果的にバランスさせ,最先端技術と競合する結果を得られることを示した。

Recent advancements in photo-realistic novel view synthesis have been significantly driven by Gaussian Splatting (3DGS). Nevertheless, the explicit nature of 3DGS data entails considerable storage requirements, highlighting a pressing need for more efficient data representations. To address this, we present Implicit Gaussian Splatting (IGS), an innovative hybrid model that integrates explicit point clouds with implicit feature embeddings through a multi-level tri-plane architecture. This architecture features 2D feature grids at various resolutions across different levels, facilitating continuous spatial domain representation and enhancing spatial correlations among Gaussian primitives. Building upon this foundation, we introduce a level-based progressive training scheme, which incorporates explicit spatial regularization. This method capitalizes on spatial correlations to enhance both the rendering quality and the compactness of the IGS representation. Furthermore, we propose a novel compression pipeline tailored for both point clouds and 2D feature grids, considering the entropy variations across different levels. Extensive experimental evaluations demonstrate that our algorithm can deliver high-quality rendering using only a few MBs, effectively balancing storage efficiency and rendering fidelity, and yielding results that are competitive with the state-of-the-art.
翻訳日:2024-08-20 15:52:57 公開日:2024-08-19
# ナノグラフェン系反強磁性スピン-1/2ハイゼンベルク鎖におけるギャップレススピン励起

Gapless spin excitations in nanographene-based antiferromagnetic spin-1/2 Heisenberg chains ( http://arxiv.org/abs/2408.10045v1 )

ライセンス: Link先を確認
Chenxiao Zhao, Lin Yang, João C. G. Henriques, Mar Ferri-Cortés, Gonçalo Catarina, Carlo A. Pignedoli, Ji Ma, Xinliang Feng, Pascal Ruffieux, Joaquín Fernández-Rossier, Roman Fasel, (参考訳) ハルダンの研究は、反強磁性ハイゼンベルク量子スピン鎖に対する2つの基本的に異なる励起スペクトルを確立した: 整数スピン鎖におけるギャップ付き励起と半整数スピン鎖におけるギャップレス励起である。 有限長半整数スピン鎖では、量子化は励起スペクトルのギャップを誘導し、上界はリーブ=シュルツ=マティス(LSM)の定理によって与えられる。 そこで本研究では,スピン-1/2-インターン1次元鎖を担持するオリンピセン-オリンピック環形ナノグラフェンを共有結合して得られるスピン-1/2ハイゼンベルク鎖の長依存性励起について検討する。 これらのナノグラフェンにおけるオリンピセンと無視可能な磁気異方性の間の大きな交換相互作用(J~38 mV)は、非弾性電子トンネル分光法を用いて直接測定する量子スピン励起の研究に理想的な基盤となる。 我々は,LSM境界下にある鎖長Lの最低励起エネルギーの負の崩壊を観測した。 L = 50の長い鎖では、ほぼV字型の励起連続体が観測され、熱力学的極限における系の隙間のない性質を補強する。 最後に、低バイアス電流写像を用いて、奇数鎖に閉じ込められた単一のスピノンの定常波を可視化する。 この結果は、ギャップレススピン液体の一次元アナログの実現に説得力のある証拠を与える。

Haldane's seminal work established two fundamentally different types of excitation spectra for antiferromagnetic Heisenberg quantum spin chains: gapped excitations in integer-spin chains and gapless excitations in half-integer-spin chains. In finite-length half-integer spin chains, quantization, however, induces a gap in the excitation spectrum, with the upper bound given by the Lieb-Schulz-Mattis (LSM) theorem. Here, we investigate the length-dependent excitations in spin-1/2 Heisenberg chains obtained by covalently linking olympicenes--Olympic rings shaped nanographenes carrying spin-1/2--into one-dimensional chains. The large exchange interaction (J~38 mV) between olympicenes and the negligible magnetic anisotropy in these nanographenes make them an ideal platform for studying quantum spin excitations, which we directly measure using inelastic electron tunneling spectroscopy. We observe a power-law decay of the lowest excitation energy with increasing chain length L, remaining below the LSM boundary. In a long chain with L = 50, a nearly V-shaped excitation continuum is observed, reinforcing the system's gapless nature in the thermodynamic limit. Finally, we visualize the standing wave of a single spinon confined in odd-numbered chains using low-bias current maps. Our results provide compelling evidence for the realization of a one-dimensional analog of a gapless spin liquid.
翻訳日:2024-08-20 15:52:57 公開日:2024-08-19
# 教師なし授業増進学習のための微粒化原型分布の探索

Exploiting Fine-Grained Prototype Distribution for Boosting Unsupervised Class Incremental Learning ( http://arxiv.org/abs/2408.10046v1 )

ライセンス: Link先を確認
Jiaming Liu, Hongyuan Liu, Zhili Qin, Wei Han, Yulu Fan, Qinli Yang, Junming Shao, (参考訳) オープンワールドシナリオの動的な性質は、クラスインクリメンタルラーニング(CIL)により多くの注目を集めている。 しかし、既存のCIL手法では、訓練過程を通して完全に基幹のラベルが利用できることを前提としており、この仮定は実践的な応用ではまれである。 そこで本研究では,教師なしクラスインクリメンタルラーニング(UCIL)の課題について検討する。 この問題に対処することの本質は、包括的特徴表現を効果的に捉え、未知の新しいクラスを発見することである。 これを実現するために、我々はまず、きめ細かいプロトタイプを利用してクラス分布の知識をモデル化する。 その後、教師なしのクラス発見を強化するため、粒度アライメント技術が導入される。 さらに,新しいクラスと既存クラスの重複を最小限に抑え,歴史的知識を保存し,破滅的な忘れの現象を緩和する戦略を提案した。 5つのデータセットに対する大規模な実験により,提案手法の有効性が示され,現在の最先端手法を著しく上回っていることが示された。

The dynamic nature of open-world scenarios has attracted more attention to class incremental learning (CIL). However, existing CIL methods typically presume the availability of complete ground-truth labels throughout the training process, an assumption rarely met in practical applications. Consequently, this paper explores a more challenging problem of unsupervised class incremental learning (UCIL). The essence of addressing this problem lies in effectively capturing comprehensive feature representations and discovering unknown novel classes. To achieve this, we first model the knowledge of class distribution by exploiting fine-grained prototypes. Subsequently, a granularity alignment technique is introduced to enhance the unsupervised class discovery. Additionally, we proposed a strategy to minimize overlap between novel and existing classes, thereby preserving historical knowledge and mitigating the phenomenon of catastrophic forgetting. Extensive experiments on the five datasets demonstrate that our approach significantly outperforms current state-of-the-art methods, indicating the effectiveness of the proposed method.
翻訳日:2024-08-20 15:52:57 公開日:2024-08-19
# プライバシーチェックリスト:コンテキスト整合性理論に基づくプライバシー違反検出

Privacy Checklist: Privacy Violation Detection Grounding on Contextual Integrity Theory ( http://arxiv.org/abs/2408.10053v1 )

ライセンス: Link先を確認
Haoran Li, Wei Fan, Yulin Chen, Jiayang Cheng, Tianshu Chu, Xuebing Zhou, Peizhao Hu, Yangqiu Song, (参考訳) プライバシー調査は、個人がスマートデバイス、ソーシャルプラットフォーム、AIアプリケーションとのインタラクション中にプライベートデータが簡単に漏洩することを心配する中で、広く注目を集めている。 一方、コンピュータサイエンスの研究者たちは、プライバシー攻撃やセグメンテッドフィールドの防御を通じて、一般的にプライバシー問題を研究している。 プライバシ研究は、コンピュータビジョン(CV)、自然言語処理(NLP)、コンピュータネットワークなど、様々なサブフィールドで行われている。 各分野において、プライバシには独自の定式化がある。 攻撃や防衛に関する先駆的な研究は、機密性の高いプライバシー問題を明らかにしているが、それらは狭く閉じ込められており、人々の実際のプライバシーの懸念を完全にカバーすることはできない。 その結果、一般および人間中心のプライバシー研究の研究は、いまだに未解明のままである。 本稿では,プライバシ問題を単純なパターンマッチングではなく,推論問題として定式化する。 我々は,人々のプライバシに対する認識が,それに対応する社会的文脈と高い相関関係があることを示唆する文脈整合性(CI)理論を基礎とする。 このような仮定に基づいて、社会的アイデンティティ、私的属性、および既存のプライバシー規制を網羅する最初の包括的チェックリストを開発する。 専門家のアノテート規範や不完全な社会的文脈をカバーしているCIに関する以前の研究とは異なり、提案されたプライバシチェックリストでは、1996年健康保険ポータビリティ・アンド・アカウンタビリティ法(HIPAA)全体を例として使用して、大規模な言語モデル(LLM)を活用して、HIPAAAの規制を完全にカバーできることを示しています。 さらに、チェックリストは複数のオントロジーにまたがって専門家のアノテーションを収集し、個人識別可能な情報(PII)を含むプライベート情報を決定する。 我々は、HIPAAの予備的な結果を使って、将来のコンテキスト中心のプライバシー研究を光を当て、よりプライバシー規制、社会的規範、標準をカバーします。

Privacy research has attracted wide attention as individuals worry that their private data can be easily leaked during interactions with smart devices, social platforms, and AI applications. Computer science researchers, on the other hand, commonly study privacy issues through privacy attacks and defenses on segmented fields. Privacy research is conducted on various sub-fields, including Computer Vision (CV), Natural Language Processing (NLP), and Computer Networks. Within each field, privacy has its own formulation. Though pioneering works on attacks and defenses reveal sensitive privacy issues, they are narrowly trapped and cannot fully cover people's actual privacy concerns. Consequently, the research on general and human-centric privacy research remains rather unexplored. In this paper, we formulate the privacy issue as a reasoning problem rather than simple pattern matching. We ground on the Contextual Integrity (CI) theory which posits that people's perceptions of privacy are highly correlated with the corresponding social context. Based on such an assumption, we develop the first comprehensive checklist that covers social identities, private attributes, and existing privacy regulations. Unlike prior works on CI that either cover limited expert annotated norms or model incomplete social context, our proposed privacy checklist uses the whole Health Insurance Portability and Accountability Act of 1996 (HIPAA) as an example, to show that we can resort to large language models (LLMs) to completely cover the HIPAA's regulations. Additionally, our checklist also gathers expert annotations across multiple ontologies to determine private information including but not limited to personally identifiable information (PII). We use our preliminary results on the HIPAA to shed light on future context-centric privacy research to cover more privacy regulations, social norms and standards.
翻訳日:2024-08-20 15:52:57 公開日:2024-08-19
# 量子レジスタマシン:量子再帰プログラムの効率的な実装

Quantum Register Machine: Efficient Implementation of Quantum Recursive Programs ( http://arxiv.org/abs/2408.10054v1 )

ライセンス: Link先を確認
Zhicheng Zhang, Mingsheng Ying, (参考訳) 量子再帰プログラミングは、高度で複雑な量子アルゴリズムをコンパクトでエレガントな方法で記述するために最近導入された。 しかし、量子再帰の実装には、量子制御フローと再帰的手続き呼び出しの間の複雑な相互作用が含まれる。 本稿では,この根本的な課題を解決し,量子再帰プログラムを効率的に実装するための一連の手法を開発することを目的とする。 1) 量子制御フローと再帰的手続き呼び出しを同時にサポートする最初の純粋量子アーキテクチャ(命令セットを含む)である量子レジスタマシン(quantum register machine)の概念を提案する。 2) 量子レジスタマシンをベースとして, コンピレーション, 量子制御フローの部分評価, 量子レジスタマシン上での実行を含む, 量子再帰プログラムの包括的な実装プロセスについて述べる。 3. 量子再帰プログラムの効率的な実装は、量子アルゴリズムの自動並列化も提供する。 広く使われている量子多重化器のような特定の量子アルゴリズムのサブルーチンを実装するために、この自動並列化から指数的並列スピードアップ(簡単な実装による)を得ることもできる。 このことは、量子再帰的プログラミングがプログラムのモジュラリティと実装の効率の両方に勝利できることを示している。

Quantum recursive programming has been recently introduced for describing sophisticated and complicated quantum algorithms in a compact and elegant way. However, implementation of quantum recursion involves intricate interplay between quantum control flows and recursive procedure calls. In this paper, we aim at resolving this fundamental challenge and develop a series of techniques to efficiently implement quantum recursive programs. Our main contributions include: 1. We propose a notion of quantum register machine, the first purely quantum architecture (including an instruction set) that supports quantum control flows and recursive procedure calls at the same time. 2. Based on quantum register machine, we describe the first comprehensive implementation process of quantum recursive programs, including the compilation, the partial evaluation of quantum control flows, and the execution on the quantum register machine. 3. As a bonus, our efficient implementation of quantum recursive programs also offers automatic parallelisation of quantum algorithms. For implementing certain quantum algorithmic subroutine, like the widely used quantum multiplexor, we can even obtain exponential parallel speed-up (over the straightforward implementation) from this automatic parallelisation. This demonstrates that quantum recursive programming can be win-win for both modularity of programs and efficiency of their implementation.
翻訳日:2024-08-20 15:52:57 公開日:2024-08-19
# 深層強化学習における効率的な探索:新しいベイズ的アクター批判アルゴリズム

Efficient Exploration in Deep Reinforcement Learning: A Novel Bayesian Actor-Critic Algorithm ( http://arxiv.org/abs/2408.10055v1 )

ライセンス: Link先を確認
Nikolai Rozanov, (参考訳) 強化学習(RL)と深層強化学習(DRL)は、特に、破壊する可能性があり、我々が世界と対話する方法を既に変えている。 適用可能性の重要な指標の1つは、大規模な問題である現実世界のシナリオでスケールして機能する能力である。 このスケールは、要素の組み合わせ、大量のデータと計算資源を利用するアルゴリズムの能力、そして実行可能なソリューション(すなわちポリシー)のための環境の効率的な探索によって達成できる。 本研究は, 深層強化学習の理論的基礎を考察し, 動機づけるものである。 まず、厳密な動的プログラミングから始まり、現代の強化学習の理論的基礎を形成するモデルのないシナリオに対する確率的近似と確率的近似に取り組みます。 本稿では、近似動的プログラミングの観点から、この非常に多様かつ急速に変化する分野の概要を述べる。 次に, 深層強化学習における基礎的アプローチ(DQN, DDQN, A2C)の探索について, 問題点に焦点を当てた。 理論面では、我々の主な貢献は、新しいベイズアクター批判アルゴリズムの提案である。 実証的な側面では、ベイズ探索と標準ベンチマークにおけるアクター批判アルゴリズム、および最先端評価スイートを評価し、現在の最先端RL法よりもこれらのアプローチの利点を示す。 すべての実装をリリースし、インストールが容易で、願わくば強化学習コミュニティに有意義な形で提供し、将来の作業のための強力な基盤を提供する、完全なピソンライブラリを提供します。

Reinforcement learning (RL) and Deep Reinforcement Learning (DRL), in particular, have the potential to disrupt and are already changing the way we interact with the world. One of the key indicators of their applicability is their ability to scale and work in real-world scenarios, that is in large-scale problems. This scale can be achieved via a combination of factors, the algorithm's ability to make use of large amounts of data and computational resources and the efficient exploration of the environment for viable solutions (i.e. policies). In this work, we investigate and motivate some theoretical foundations for deep reinforcement learning. We start with exact dynamic programming and work our way up to stochastic approximations and stochastic approximations for a model-free scenario, which forms the theoretical basis of modern reinforcement learning. We present an overview of this highly varied and rapidly changing field from the perspective of Approximate Dynamic Programming. We then focus our study on the short-comings with respect to exploration of the cornerstone approaches (i.e. DQN, DDQN, A2C) in deep reinforcement learning. On the theory side, our main contribution is the proposal of a novel Bayesian actor-critic algorithm. On the empirical side, we evaluate Bayesian exploration as well as actor-critic algorithms on standard benchmarks as well as state-of-the-art evaluation suites and show the benefits of both of these approaches over current state-of-the-art deep RL methods. We release all the implementations and provide a full python library that is easy to install and hopefully will serve the reinforcement learning community in a meaningful way, and provide a strong foundation for future work.
翻訳日:2024-08-20 15:52:57 公開日:2024-08-19
# 化粧品皮膚症に対する顔面神経根切開術 : テクスチャーマップに基づく弱視による前向きトレーニング

Facial Wrinkle Segmentation for Cosmetic Dermatology: Pretraining with Texture Map-Based Weak Supervision ( http://arxiv.org/abs/2408.10060v1 )

ライセンス: Link先を確認
Junho Moon, Haejun Chung, Ikbeom Jang, (参考訳) 顔のしわ検出は美容皮膚学において重要な役割を担っている。 顔のしわの精密な手作業分割は困難で時間を要するが,本質的な主観性は小学生の間に矛盾する結果をもたらす。 この問題に対処するため、我々は2つの解決策を提案する。 まず、NVIDIA FFHQデータセットの拡張である、最初の公開顔クリンクルデータセットである‘FFHQ-Wrinkle’を構築し、リリースします。 このデータセットには、人間のラベルを持つ1,000の画像と、自動的に生成された弱いラベルを持つ50,000の画像が含まれている。 このデータセットは研究コミュニティを育成し、高度なしわ検出アルゴリズムを開発する。 第2に,顔のしわを自動的に検出するU-Netライクなエンコーダデコーダモデルのトレーニング戦略を導入する。 本手法では, テクスチャマップの事前学習と, 人間のラベル付きデータによる微調整という2段階の学習手法を用いている。 当初は、弱いラベル(N=50k)を持つ大規模データセットや、人間の介入なしにコンピュータビジョン技術によって生成されたマスク付きテクスチャマップ上でモデルを事前訓練した。 その後、手動でラベル付けされた輪郭マスクからなる人間ラベル付きデータ(N=1k)を用いてモデルを微調整する。 微調整中、ネットワークは4つのチャンネルからなるRGBとマスクされたテクスチャマップの組み合わせを入力します。 手動ラベリングにおいて、複数のアノテータのラベルを効果的に組み合わせ、主観性を最小化する。 本手法は,既存の事前訓練法と比較して,顔のひび割れのセグメンテーションにおけるセグメンテーション性能を定量的および視覚的に向上させるものである。

Facial wrinkle detection plays a crucial role in cosmetic dermatology. Precise manual segmentation of facial wrinkles is challenging and time-consuming, with inherent subjectivity leading to inconsistent results among graders. To address this issue, we propose two solutions. First, we build and release the first public facial wrinkle dataset, `FFHQ-Wrinkle', an extension of the NVIDIA FFHQ dataset. This dataset includes 1,000 images with human labels and 50,000 images with automatically generated weak labels. This dataset can foster the research community to develop advanced wrinkle detection algorithms. Second, we introduce a training strategy for U-Net-like encoder-decoder models to detect wrinkles across the face automatically. Our method employs a two-stage training strategy: texture map pretraining and finetuning on human-labeled data. Initially, we pretrain models on a large dataset with weak labels (N=50k) or masked texture maps generated through computer vision techniques, without human intervention. Subsequently, we finetune the models using human-labeled data (N=1k), which consists of manually labeled wrinkle masks. During finetuning, the network inputs a combination of RGB and masked texture maps, comprising four channels. We effectively combine labels from multiple annotators to minimize subjectivity in manual labeling. Our strategies demonstrate improved segmentation performance in facial wrinkle segmentation both quantitatively and visually compared to existing pretraining methods.
翻訳日:2024-08-20 15:52:57 公開日:2024-08-19
# 直腸超音波画像における大腸癌切除の基準化に向けて:データセットとモデル開発

Towards a Benchmark for Colorectal Cancer Segmentation in Endorectal Ultrasound Videos: Dataset and Model Development ( http://arxiv.org/abs/2408.10067v1 )

ライセンス: Link先を確認
Yuncheng Jiang, Yiwen Hu, Zixun Zhang, Jun Wei, Chun-Mei Feng, Xuemei Tang, Xiang Wan, Yong Liu, Shuguang Cui, Zhen Li, (参考訳) 直腸超音波(ERUS)は大腸癌の浸潤深度と境界の診断に高い信頼性を提供する重要な画像モダリティである。 しかし、高品質なアノテーションを備えた大規模なERUSデータセットが欠如しているため、自動超音波診断の開発が妨げられる。 本稿では,大腸癌の分節,検出,浸潤深度ステージングなど,さまざまなERUSシナリオをカバーする最初のベンチマークデータセットを収集し,注釈した。 ERUS-10Kデータセットは77の動画と10,000の高解像度アノテートフレームで構成されています。 このデータセットに基づいて,Adaptive Sparse-context TRansformer (ASTR) という大腸癌セグメンテーションのベンチマークモデルを導入する。 ASTRはスキャンモードの相違、時間情報、計算複雑性の3つの考慮に基づいて設計されている。 異なる走査モードに一般化するために、原セクター画像と線形走査モードを変換する適応走査モード拡張を提案する。 時間情報のマイニングには、フレーム間の局所的特徴とグローバル的特徴を統合するためにスパースコンテキスト変換器が組み込まれている。 計算複雑性を低減するため、スパースコンテキストブロックを導入し、補助フレームからコンテキスト特徴を抽出する。 最終的に、ベンチマークデータセット上で、提案されたASTRモデルは、直腸がんセグメンテーションにおける77.6%のDiceスコアを達成し、従来の最先端の手法よりも大幅に向上した。

Endorectal ultrasound (ERUS) is an important imaging modality that provides high reliability for diagnosing the depth and boundary of invasion in colorectal cancer. However, the lack of a large-scale ERUS dataset with high-quality annotations hinders the development of automatic ultrasound diagnostics. In this paper, we collected and annotated the first benchmark dataset that covers diverse ERUS scenarios, i.e. colorectal cancer segmentation, detection, and infiltration depth staging. Our ERUS-10K dataset comprises 77 videos and 10,000 high-resolution annotated frames. Based on this dataset, we further introduce a benchmark model for colorectal cancer segmentation, named the Adaptive Sparse-context TRansformer (ASTR). ASTR is designed based on three considerations: scanning mode discrepancy, temporal information, and low computational complexity. For generalizing to different scanning modes, the adaptive scanning-mode augmentation is proposed to convert between raw sector images and linear scan ones. For mining temporal information, the sparse-context transformer is incorporated to integrate inter-frame local and global features. For reducing computational complexity, the sparse-context block is introduced to extract contextual features from auxiliary frames. Finally, on the benchmark dataset, the proposed ASTR model achieves a 77.6% Dice score in rectal cancer segmentation, largely outperforming previous state-of-the-art methods.
翻訳日:2024-08-20 15:52:57 公開日:2024-08-19
# LNQ 2023 課題:縦隔リンパ節定量化のための弱制御手法のベンチマーク

LNQ 2023 challenge: Benchmark of weakly-supervised techniques for mediastinal lymph node quantification ( http://arxiv.org/abs/2408.10069v1 )

ライセンス: Link先を確認
Reuben Dorent, Roya Khajavi, Tagwa Idris, Erik Ziegler, Bhanusupriya Somarouthu, Heather Jacene, Ann LaCasce, Jonathan Deissler, Jan Ehrhardt, Sofija Engelson, Stefan M. Fischer, Yun Gu, Heinz Handels, Satoshi Kasai, Satoshi Kondo, Klaus Maier-Hein, Julia A. Schnabel, Guotai Wang, Litingyu Wang, Tassilo Wald, Guang-Zhong Yang, Hanxiao Zhang, Minghui Zhang, Steve Pieper, Gordon Harris, Ron Kikinis, Tina Kapur, (参考訳) 3次元CTスキャンにおけるリンパ節の大きさの正確な評価は、がんのステージング、治療管理、治療のモニタリングに不可欠である。 医療画像における既存の最先端セグメンテーションフレームワークは、しばしば完全に注釈付けされたデータセットに依存している。 しかし、リンパ節のセグメンテーションでは、これらのデータセットは3D CTスキャンで多数のリンパ節に注釈をつけるのに必要な時間と専門知識のために、通常は小さい。 不完全またはノイズの多いアノテーションを利用する弱教師付き学習は、最近、潜在的な解決策として医療画像コミュニティに関心を寄せている。 様々な弱い教師付き技術が提案されているが、そのほとんどはプライベートデータセットや小さな公開データセットでのみ検証されている。 この制限に対処するため、第26回医療画像コンピューティングおよびコンピュータ支援干渉に関する国際会議(MICCAI 2023)と共同で、縦隔リンパ節定量化(LNQ)チャレンジが実施された。 この課題は、新しい部分的に注釈付けされたデータセットと堅牢な評価フレームワークを提供することで、弱教師付きセグメンテーション手法を推進することを目的としていた。 5か国16チームが検証リーダーボードに予測を提出し、3か国6チームが評価フェーズに参加した。 結果は、弱教師付きアプローチのポテンシャルと現在の限界の両方を強調した。 一方、弱教師付きアプローチは、中央値のDiceスコアが61.0\%$の比較的良い性能を得た。 一方、Diceスコアの中央値が70\%を超えるトップランクのチームは、小さいが完全に注釈付けされたデータセットを活用して、弱い監視と完全な監視を組み合わせることで、パフォーマンスを向上した。 これは、弱い教師付きメソッドの約束と、より高いセグメンテーション性能を達成するための高品質で完全な注釈付きデータの必要性の両方を強調している。

Accurate assessment of lymph node size in 3D CT scans is crucial for cancer staging, therapeutic management, and monitoring treatment response. Existing state-of-the-art segmentation frameworks in medical imaging often rely on fully annotated datasets. However, for lymph node segmentation, these datasets are typically small due to the extensive time and expertise required to annotate the numerous lymph nodes in 3D CT scans. Weakly-supervised learning, which leverages incomplete or noisy annotations, has recently gained interest in the medical imaging community as a potential solution. Despite the variety of weakly-supervised techniques proposed, most have been validated only on private datasets or small publicly available datasets. To address this limitation, the Mediastinal Lymph Node Quantification (LNQ) challenge was organized in conjunction with the 26th International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI 2023). This challenge aimed to advance weakly-supervised segmentation methods by providing a new, partially annotated dataset and a robust evaluation framework. A total of 16 teams from 5 countries submitted predictions to the validation leaderboard, and 6 teams from 3 countries participated in the evaluation phase. The results highlighted both the potential and the current limitations of weakly-supervised approaches. On one hand, weakly-supervised approaches obtained relatively good performance with a median Dice score of $61.0\%$. On the other hand, top-ranked teams, with a median Dice score exceeding $70\%$, boosted their performance by leveraging smaller but fully annotated datasets to combine weak supervision and full supervision. This highlights both the promise of weakly-supervised methods and the ongoing need for high-quality, fully annotated data to achieve higher segmentation performance.
翻訳日:2024-08-20 15:52:57 公開日:2024-08-19
# FFAA:マルチモーダル大言語モデルに基づく説明可能なオープンワールド顔偽造分析アシスタント

FFAA: Multimodal Large Language Model based Explainable Open-World Face Forgery Analysis Assistant ( http://arxiv.org/abs/2408.10072v1 )

ライセンス: Link先を確認
Zhengchao Huang, Bin Xia, Zicheng Lin, Zhun Mou, Wenming Yang, (参考訳) ディープフェイク技術の急速な進歩は、特に顔の偽造が公共情報セキュリティに深刻な脅威をもたらすため、大衆の関心を喚起している。 しかし、顔の偽造技術、多様な顔の特徴、複雑な環境要因は、顔の偽造分析に重大な課題をもたらす。 既存のデータセットにはこれらの側面の記述がないため、様々な要因の中で視覚情報のみを使用して、モデルが実際の顔と偽顔を区別することは困難である。 さらに,既存手法ではユーザフレンドリで説明可能な結果が得られず,モデルの意思決定プロセスの理解が複雑になる。 これらの課題に対処するために、新しいOpen-World Face Forgery Analysis VQA(OW-FFA-VQA)タスクと対応するベンチマークを導入する。 この課題に対処するために,我々はまず,本質的な記述と信頼性の高い偽造推論を備えた顔画像の多種多様なコレクションを特徴とするデータセットを構築した。 本データセットをベースとしたFFAA: Face Forgery Analysis Assistantは,微調整型マルチモーダル大言語モデル(MLLM)とMIDS(Multi-Awer Intelligent Decision System)から構成される。 仮説的プロンプトをMIDSと統合することにより、ファジィ分類境界の影響を効果的に緩和し、モデルの堅牢性を高める。 大規模な実験により,本手法はユーザフレンドリな説明可能な結果を提供するだけでなく,従来の手法に比べて精度と堅牢性を大幅に向上させることが示された。

The rapid advancement of deepfake technologies has sparked widespread public concern, particularly as face forgery poses a serious threat to public information security. However, the unknown and diverse forgery techniques, varied facial features and complex environmental factors pose significant challenges for face forgery analysis. Existing datasets lack descriptions of these aspects, making it difficult for models to distinguish between real and forged faces using only visual information amid various confounding factors. In addition, existing methods do not yield user-friendly and explainable results, complicating the understanding of the model's decision-making process. To address these challenges, we introduce a novel Open-World Face Forgery Analysis VQA (OW-FFA-VQA) task and the corresponding benchmark. To tackle this task, we first establish a dataset featuring a diverse collection of real and forged face images with essential descriptions and reliable forgery reasoning. Base on this dataset, we introduce FFAA: Face Forgery Analysis Assistant, consisting of a fine-tuned Multimodal Large Language Model (MLLM) and Multi-answer Intelligent Decision System (MIDS). By integrating hypothetical prompts with MIDS, the impact of fuzzy classification boundaries is effectively mitigated, enhancing the model's robustness. Extensive experiments demonstrate that our method not only provides user-friendly explainable results but also significantly boosts accuracy and robustness compared to previous methods.
翻訳日:2024-08-20 15:52:57 公開日:2024-08-19
# 手話評価のための人間の動き分布のモデル化

Modelling the Distribution of Human Motion for Sign Language Assessment ( http://arxiv.org/abs/2408.10073v1 )

ライセンス: Link先を確認
Oliver Cory, Ozge Mercanoglu Sincan, Matthew Vowels, Alessia Battisti, Franz Holzknecht, Katja Tissi, Sandra Sidler-Miserez, Tobias Haug, Sarah Ebling, Richard Bowden, (参考訳) 記号言語アセスメント(SLA)ツールは、言語学習を支援するのに役立ち、未開発である。 従来の研究は、手話(SL)を評価するために、孤立したサインや単一の参照ビデオとの比較に重点を置いてきた。 本稿では,人間の動作の自然な分布をモデル化し,SLの理解度を評価するための新しいSLAツールを提案する。 我々は、ネイティブシグナからのデータに基づいてパイプラインをトレーニングし、SL学習者を用いて評価する。 実験結果とレーティングの結果を比較し,評価結果とツールとの間に強い相関関係が認められた。 SL学習と評価を支援するために,時空間で異常な結果を検出するツールを視覚的に示す。

Sign Language Assessment (SLA) tools are useful to aid in language learning and are underdeveloped. Previous work has focused on isolated signs or comparison against a single reference video to assess Sign Languages (SL). This paper introduces a novel SLA tool designed to evaluate the comprehensibility of SL by modelling the natural distribution of human motion. We train our pipeline on data from native signers and evaluate it using SL learners. We compare our results to ratings from a human raters study and find strong correlation between human ratings and our tool. We visually demonstrate our tools ability to detect anomalous results spatio-temporally, providing actionable feedback to aid in SL learning and assessment.
翻訳日:2024-08-20 15:43:09 公開日:2024-08-19
# マルチエージェント平衡設計のためのリワードマシンの合成(フルバージョン)

Synthesis of Reward Machines for Multi-Agent Equilibrium Design (Full Version) ( http://arxiv.org/abs/2408.10074v1 )

ライセンス: Link先を確認
Muhammad Najib, Giuseppe Perelli, (参考訳) メカニズムデザインは、望まれる結果を達成するためのゲーム設計のための、十分に確立されたゲーム理論パラダイムである。 本稿では、密接に関連するが、異なる概念である平衡設計について論じる。 メカニズム設計とは異なり、デザイナーの均衡設計の権威はより制約され、ゲーム内のインセンティブ構造を変更して、スクラッチからゲームを作成する能力のない特定の結果を達成することができる。 報酬機として知られる動的インセンティブ構造を用いた平衡設計の問題点を考察する。 我々はゲームモデルに重み付けされたゲーム構造を使用し、ゴール(プレイヤーとデザイナ)を平均ペイオフ目標と定義した。 設計者の目標を最適化する方法で報酬を割り当てる動的インセンティブを表現するために、報酬マシンをどのように利用できるかを示す。 また、当社のフレームワークの主な決定問題であるペイオフ改善問題も導入しています。 この問題は基本的に、与えられた閾値以上の値でデザイナの支払を改善する動的インセンティブ(報酬機によって表現される)が存在するかどうかを問うものである。 我々はその問題の2つの変種を提示する: 強いと弱い。 NPオラクルを備えたチューリングマシンを用いて多項式時間で解けることを示す。 さらに、これらの変種は NP-hard あるいは coNP-hard であることを示す。 最後に、それが存在する場合、対応する報酬機を合成する方法を示す。

Mechanism design is a well-established game-theoretic paradigm for designing games to achieve desired outcomes. This paper addresses a closely related but distinct concept, equilibrium design. Unlike mechanism design, the designer's authority in equilibrium design is more constrained; she can only modify the incentive structures in a given game to achieve certain outcomes without the ability to create the game from scratch. We study the problem of equilibrium design using dynamic incentive structures, known as reward machines. We use weighted concurrent game structures for the game model, with goals (for the players and the designer) defined as mean-payoff objectives. We show how reward machines can be used to represent dynamic incentives that allocate rewards in a manner that optimises the designer's goal. We also introduce the main decision problem within our framework, the payoff improvement problem. This problem essentially asks whether there exists a dynamic incentive (represented by some reward machine) that can improve the designer's payoff by more than a given threshold value. We present two variants of the problem: strong and weak. We demonstrate that both can be solved in polynomial time using a Turing machine equipped with an NP oracle. Furthermore, we also establish that these variants are either NP-hard or coNP-hard. Finally, we show how to synthesise the corresponding reward machine if it exists.
翻訳日:2024-08-20 15:43:09 公開日:2024-08-19
# 変分選好学習による人間フィードバックからの強化学習のパーソナライズ

Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning ( http://arxiv.org/abs/2408.10075v1 )

ライセンス: Link先を確認
Sriyash Poddar, Yanming Wan, Hamish Ivison, Abhishek Gupta, Natasha Jaques, (参考訳) ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、基礎モデルを人間の価値観や嗜好に合わせるための強力なパラダイムである。 しかし、現在のRLHF技術は、多様な個体群にまたがる個人の嗜好の自然に生じる相違を説明できない。 これらの違いが生じると、従来のRLHFフレームワークは単にそれらを平均化し、不正確な報酬と個々のサブグループのパフォーマンスが低下する。 多重性アライメントの必要性に対処するため,マルチモーダルRLHF手法のクラスを開発する。 提案手法は,潜在変数の定式化に基づくもので,新規なユーザ固有潜時モデルと学習報酬モデルと,追加のユーザ固有データなしで条件付きポリシを推定する。 概念的には単純であるが、実際には、この報酬モデリングにはモデルアーキテクチャと報酬スケーリングに関する慎重にアルゴリズム的な考慮が必要である。 提案手法を実証的に検証するために、まず、シミュレーションされた制御問題において、ユーザ固有の報酬関数を推論し、最適化することにより、不特定性に対処する方法を提供する。 次に、多様なユーザの好みを表す多言語データセットの実験を行い、報酬関数の精度の向上を示す。 さらに、不確実性を測定し、ユーザの好みを積極的に学習するという点で、この確率的フレームワークの利点を示す。 この研究は、ロボット学習から基礎モデルアライメントまで、自然に発生する重要な課題である、異なる好みを持つユーザの多様な集団からの学習を可能にする。

Reinforcement Learning from Human Feedback (RLHF) is a powerful paradigm for aligning foundation models to human values and preferences. However, current RLHF techniques cannot account for the naturally occurring differences in individual human preferences across a diverse population. When these differences arise, traditional RLHF frameworks simply average over them, leading to inaccurate rewards and poor performance for individual subgroups. To address the need for pluralistic alignment, we develop a class of multimodal RLHF methods. Our proposed techniques are based on a latent variable formulation - inferring a novel user-specific latent and learning reward models and policies conditioned on this latent without additional user-specific data. While conceptually simple, we show that in practice, this reward modeling requires careful algorithmic considerations around model architecture and reward scaling. To empirically validate our proposed technique, we first show that it can provide a way to combat underspecification in simulated control problems, inferring and optimizing user-specific reward functions. Next, we conduct experiments on pluralistic language datasets representing diverse user preferences and demonstrate improved reward function accuracy. We additionally show the benefits of this probabilistic framework in terms of measuring uncertainty, and actively learning user preferences. This work enables learning from diverse populations of users with divergent preferences, an important challenge that naturally occurs in problems from robot learning to foundation model alignment.
翻訳日:2024-08-20 15:43:09 公開日:2024-08-19
# 複数オブジェクトのスクリーニングが効率的でない

No Screening is More Efficient with Multiple Objects ( http://arxiv.org/abs/2408.10077v1 )

ライセンス: Link先を確認
Shunya Noda, Genta Okada, (参考訳) 複数の異種物体を割当てる効率的な機構設計について検討する。 我々は,残余剰の最大化,割当から発生する合計値を,エージェントの値のスクリーニングコストを抑えることを目的としている。 商品の多様性が増大するにつれて,非スクリーニング機構,例えば外因性優先順序のシリアルディクテータが向上する傾向がみられた。 我々は,スタイリングされた環境における効率的なメカニズムを特徴付けることによって,その基礎となる要因を分析した。 また,効率的なメカニズムを数値的に導出し,一般的な環境におけるトレンドを検証するための自動メカニズム設計手法を適用した。 本研究は,感染予防接種を効果的にスケジューリングするシステムとして,RIB(Register-invite-book System)を提案する。

We study efficient mechanism design for allocating multiple heterogeneous objects. We aim to maximize the residual surplus, the total value generated from an allocation minus the costs for screening agents' values. We discover a robust trend indicating that no-screening mechanisms such as serial dictatorship with exogenous priority order tend to perform better as the variety of goods increases. We analyze the underlying reasons by characterizing efficient mechanisms in a stylized environment. We also apply an automated mechanism design approach to numerically derive efficient mechanisms and validate the trend in general environments. Building on this implication, we propose the register-invite-book system (RIB) as an efficient system for scheduling vaccination against pandemic diseases.
翻訳日:2024-08-20 15:43:09 公開日:2024-08-19
# 超伝導量子ビット上の${\bf Z}_2$格子ゲージ理論のフロケット前熱化

Floquet prethermalization of ${\bf Z}_2$ lattice gauge theory on superconducting qubits ( http://arxiv.org/abs/2408.10079v1 )

ライセンス: Link先を確認
Tomoya Hayata, Kazuhiro Seki, Arata Yamamoto, (参考訳) 量子多体系の非平衡力学をシミュレーションすることは量子コンピューティングの有望な応用の1つである。 我々は、IBMの超伝導156量子ビットデバイスibm\_fez上の1次元${\bf Z}2$格子ゲージ理論の時間発展をシミュレートする。 ハミルトン進化のトロッター分解によるフロケ回路を考察し,その熱化に向けてのダイナミクスに着目する。 エラー軽減の助けを借りた量子シミュレーションは、最良ケースでは18ドルと16ドルのキュービットからなるFloquet回路を最大10ドルで動作させることに成功した。 これは予熱の初期段階に達するのに十分である。 私たちの研究は、高エネルギー物理問題に対する量子コンピューティングの潜在的なパワーのベンチマークとなるでしょう。

Simulating nonequilibirum dynamics of a quantum many-body system is one of the promising applications of quantum computing. We simulate the time evolution of one-dimensional ${\bf Z}_2$ lattice gauge theory on IBM's superconducting 156-qubit device ibm\_fez. We consider the Floquet circuit made of the Trotter decomposition of Hamiltonian evolution and focus on its dynamics toward thermalization. Quantum simulation with the help of error mitigation is successful in running the Floquet circuit made of $38$ and $116$ qubits up to $10$ Trotter steps in the best case. This is enough to reach the early stage of prethermalization. Our work would be a benchmark for the potential power of quantum computing for high-energy physics problems.
翻訳日:2024-08-20 15:43:09 公開日:2024-08-19
# TANGO: 通常性を考慮した非局所モード探索とグラフカット最適化によるクラスタリング

TANGO: Clustering with Typicality-Aware Nonlocal Mode-Seeking and Graph-Cut Optimization ( http://arxiv.org/abs/2408.10084v1 )

ライセンス: Link先を確認
Haowen Ma, Zhiguo Long, Hua Meng, (参考訳) モード探索による密度に基づくクラスタリング手法は, 局所密度推定を用いて, 低密度点から高次近傍への局所的依存関係などの構造情報をマイニングすることで, クラスタリングを実現するのが普通である。 しかし、それらはしばしば \emph{local} 構造に強く依存し、 \emph{global} 特性を無視する。 依存関係を修正するハイパーパラメータの導入はこの問題を軽減する上で有効だが、実際のデータセットでは調整が困難で不可能である。 本稿では,点のグローバルビュー \emph{typeality} を利用して局所的依存関係を確立するアルゴリズム(TANGO)を提案する。 TANGOは、調整された依存関係の助けを借りてサブクラスタを取得し、パスベースの接続を組み込むことで、サブクラスタ間の類似性を特徴付ける。 サブクラスタにグラフカットを使用することで、最終的なクラスタリングを実現しているため、クラスタセンターの選択が困難なことを回避することができる。 さらに,本論文は,定性計算のための理論的解析と効率的な方法を提供する。 いくつかの合成データセットと16ドルの実世界のデータセットの実験結果は、TANGOの有効性と優位性を示している。

Density-based clustering methods by mode-seeking usually achieve clustering by using local density estimation to mine structural information, such as local dependencies from lower density points to higher neighbors. However, they often rely too heavily on \emph{local} structures and neglect \emph{global} characteristics, which can lead to significant errors in peak selection and dependency establishment. Although introducing more hyperparameters that revise dependencies can help mitigate this issue, tuning them is challenging and even impossible on real-world datasets. In this paper, we propose a new algorithm (TANGO) to establish local dependencies by exploiting a global-view \emph{typicality} of points, which is obtained by mining further the density distributions and initial dependencies. TANGO then obtains sub-clusters with the help of the adjusted dependencies, and characterizes the similarity between sub-clusters by incorporating path-based connectivity. It achieves final clustering by employing graph-cut on sub-clusters, thus avoiding the challenging selection of cluster centers. Moreover, this paper provides theoretical analysis and an efficient method for the calculation of typicality. Experimental results on several synthetic and $16$ real-world datasets demonstrate the effectiveness and superiority of TANGO.
翻訳日:2024-08-20 15:43:09 公開日:2024-08-19
# MASALA: 局所性適応によるモデル非依存的サロゲート説明

MASALA: Model-Agnostic Surrogate Explanations by Locality Adaptation ( http://arxiv.org/abs/2408.10085v1 )

ライセンス: Link先を確認
Saif Anwar, Nathan Griffiths, Abhir Bhalerao, Thomas Popham, (参考訳) LIMEのような既存のローカルな説明可能なAI(XAI)手法は、与えられた入力インスタンスの近傍にある入力空間の領域を選択し、より単純で解釈可能なサロゲートモデルを用いてモデルの振る舞いを近似する。 この領域のサイズは、しばしばユーザーが定義した局所性ハイパーパラメータによって制御される。 本稿では,影響のあるモデル振る舞いを捉えるために適切な局所性サイズを定義することに関わる問題点と,すべての予測を説明するために単一局所性サイズを使用することの不適切さを示す。 そこで本研究では,各インスタンスごとの衝突モデル行動の適切な局所領域を自動決定する手法であるMASALAを提案する。 MASALAは、複素モデルで用いられる局所的挙動を近似し、線形代理モデルを同様のモデル挙動を経験する点の集合に適合させて予測する。 これらの点は、入力空間をモデルによって示される線形な挙動傾向の領域にクラスタリングすることによって得られる。 提案手法で生成した説明の忠実度と一貫性を,既存の局所XAI法,すなわち LIME と CHILLI と比較した。 PHM08およびMIDASデータセットを用いた実験により,本手法は感度局所性ハイパーパラメータを定義することなく,既存の手法よりも忠実で一貫した説明が得られた。

Existing local Explainable AI (XAI) methods, such as LIME, select a region of the input space in the vicinity of a given input instance, for which they approximate the behaviour of a model using a simpler and more interpretable surrogate model. The size of this region is often controlled by a user-defined locality hyperparameter. In this paper, we demonstrate the difficulties associated with defining a suitable locality size to capture impactful model behaviour, as well as the inadequacy of using a single locality size to explain all predictions. We propose a novel method, MASALA, for generating explanations, which automatically determines the appropriate local region of impactful model behaviour for each individual instance being explained. MASALA approximates the local behaviour used by a complex model to make a prediction by fitting a linear surrogate model to a set of points which experience similar model behaviour. These points are found by clustering the input space into regions of linear behavioural trends exhibited by the model. We compare the fidelity and consistency of explanations generated by our method with existing local XAI methods, namely LIME and CHILLI. Experiments on the PHM08 and MIDAS datasets show that our method produces more faithful and consistent explanations than existing methods, without the need to define any sensitive locality hyperparameters.
翻訳日:2024-08-20 15:43:09 公開日:2024-08-19
# ARMADA: 属性ベースのマルチモーダルデータ拡張

ARMADA: Attribute-Based Multimodal Data Augmentation ( http://arxiv.org/abs/2408.10086v1 )

ライセンス: Link先を確認
Xiaomeng Jin, Jeonghwan Kim, Yu Zhou, Kuan-Hao Huang, Te-Lin Wu, Nanyun Peng, Heng Ji, (参考訳) マルチモーダル言語モデル(MLM)では、微調整とアライメントのための高品質な画像テキストペアデータを手作業でアノテートするコストが非常に高い。 既存のマルチモーダルデータ拡張フレームワークは、画像とテキストのペアを拡大する方法を提案するが、それらはテキストと画像間のセマンティックな不整合に悩まされるか、非現実的な画像を生成し、現実世界の例と知識のギャップを生じさせる。 これらの課題に対処するために,提案するエンティティの視覚的属性の知識誘導操作による新しいマルチモーダルデータ拡張手法であるAttribute-based Multimodal Data Augmentation (ARMADA)を提案する。 具体的には、元のテキストデータからエンティティとそれらの視覚属性を抽出し、知識ベース(KB)と大規模言語モデル(LLM)の指導のもと、視覚属性の代替値を求める。 次に、画像編集モデルを用いて、抽出した属性で画像を編集する。 ARMADAは、以下の新しいマルチモーダルデータ生成フレームワークである。 i) 意味的に一貫性はあるが特徴のある画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。 (II)KB階層内の隣り合うエンティティを用いて、異なるカテゴリの視覚的に類似した画像を生成し、 (iii) LLMのコモンセンス知識を用いて、背景などの補助的な視覚特性を調整し、元のエンティティをより堅牢に表現する。 4つの下流タスクに対する実験結果から,高品質なデータ生成とモデル性能向上のためのフレームワークの有効性が示された。 これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。

In Multimodal Language Models (MLMs), the cost of manually annotating high-quality image-text pair data for fine-tuning and alignment is extremely high. While existing multimodal data augmentation frameworks propose ways to augment image-text pairs, they either suffer from semantic inconsistency between texts and images, or generate unrealistic images, causing knowledge gap with real world examples. To address these issues, we propose Attribute-based Multimodal Data Augmentation (ARMADA), a novel multimodal data augmentation method via knowledge-guided manipulation of visual attributes of the mentioned entities. Specifically, we extract entities and their visual attributes from the original text data, then search for alternative values for the visual attributes under the guidance of knowledge bases (KBs) and large language models (LLMs). We then utilize an image-editing model to edit the images with the extracted attributes. ARMADA is a novel multimodal data generation framework that: (i) extracts knowledge-grounded attributes from symbolic KBs for semantically consistent yet distinctive image-text pair generation, (ii) generates visually similar images of disparate categories using neighboring entities in the KB hierarchy, and (iii) uses the commonsense knowledge of LLMs to modulate auxiliary visual attributes such as backgrounds for more robust representation of original entities. Our empirical results over four downstream tasks demonstrate the efficacy of our framework to produce high-quality data and enhance the model performance. This also highlights the need to leverage external knowledge proxies for enhanced interpretability and real-world grounding.
翻訳日:2024-08-20 15:43:09 公開日:2024-08-19
# Federated Frank-Wolfe アルゴリズム

Federated Frank-Wolfe Algorithm ( http://arxiv.org/abs/2408.10090v1 )

ライセンス: Link先を確認
Ali Dadras, Sourasekhar Banerjee, Karthik Prakhya, Alp Yurtsever, (参考訳) フェデレートラーニング(FL)は近年,プライバシ保護型協調学習システムの構築において注目を集めている。 しかし、制約付き機械学習問題に対するFLアルゴリズムは、特にプロジェクションステップが高価である場合、依然として制限されている。 そこで我々はFedFW(Federated Frank-Wolfe Algorithm)を提案する。 FedFWはデータのプライバシ、イテレーションあたりのコストの低減、スパース信号の通信機能を備えている。 決定論的設定では、FedFWは滑らかで凸な目的に対して$O(\varepsilon^{-2})$イテレーション、滑らかだが凸でない目的に対して$O(\varepsilon^{-3})$イテレーションを達成する。 さらに、FedFWの確率的変種を示し、凸設定における$O(\varepsilon^{-3})$反復の解を求める。 いくつかの機械学習タスクにおいて、FedFWの実証的な性能を示す。

Federated learning (FL) has gained a lot of attention in recent years for building privacy-preserving collaborative learning systems. However, FL algorithms for constrained machine learning problems are still limited, particularly when the projection step is costly. To this end, we propose a Federated Frank-Wolfe Algorithm (FedFW). FedFW features data privacy, low per-iteration cost, and communication of sparse signals. In the deterministic setting, FedFW achieves an $\varepsilon$-suboptimal solution within $O(\varepsilon^{-2})$ iterations for smooth and convex objectives, and $O(\varepsilon^{-3})$ iterations for smooth but non-convex objectives. Furthermore, we present a stochastic variant of FedFW and show that it finds a solution within $O(\varepsilon^{-3})$ iterations in the convex setting. We demonstrate the empirical performance of FedFW on several machine learning tasks.
翻訳日:2024-08-20 15:43:09 公開日:2024-08-19
# 中間測定によるIQP計算

IQP computations with intermediate measurements ( http://arxiv.org/abs/2408.10093v1 )

ライセンス: Link先を確認
Richard Jozsa, Soumik Ghosh, Sergii Strelchuk, (参考訳) IQP回路の計算モデル(全ての計算ステップがX基底対角ゲートである)を中間X基底またはZ基底測定で補足する。 非適応的あるいは適応的なX基底測定を許すか、あるいは非適応的なZ基底測定を許すと、計算力は元のIQPモデルと同じであり、適応的なZ基底測定では量子普遍となる。 さらに、CZゲートのみの回路を持つ計算モデルと適応X基底の測定値を持つ入力状態が、集合 |+>, |->, |0>+i|1> と |0>+ e^{i pi/4}|1> から 1-量子状態のテンソル積であることを示す。

We consider the computational model of IQP circuits (in which all computational steps are X-basis diagonal gates), supplemented by intermediate X- or Z-basis measurements. We show that if we allow non-adaptive or adaptive X-basis measurements, or allow non-adaptive Z-basis measurements, then the computational power remains the same as that of the original IQP model; and with adaptive Z-basis measurements the model becomes quantum universal. Furthermore we show that the computational model having circuits of only CZ gates and adaptive X-basis measurements, with input states that are tensor products of 1-qubit states from the set |+>, |->, |0>+i|1> and |0>+ e^{i pi/4}|1> (each normalised), is quantum universal.
翻訳日:2024-08-20 15:43:09 公開日:2024-08-19
# Convert and Speak:ミニマルスーパービジョンによるゼロショットアクセント変換

Convert and Speak: Zero-shot Accent Conversion with Minimum Supervision ( http://arxiv.org/abs/2408.10096v1 )

ライセンス: Link先を確認
Zhijun Jia, Huaying Xue, Xiulian Peng, Yan Lu, (参考訳) 並列データの低リソースはアクセント変換(AC)問題の鍵となる課題であり、発音単位と韻律パターンの両方を変換する必要がある。 本稿では,変換を意味的トークンレベルでのみ操作し,ターゲットアクセント領域における音声生成モデルを用いて変換された意味的トークン上で音声を条件付けする2段階生成フレームワーク"Convert-and-speak"を提案する。 分離設計により、「話者」モジュールは大量のターゲットアクセント音声を使用でき、「変換」モジュールに必要な並列データを緩和することができる。 セマンティックトークンのブリッジとの変換は、テキストの書き起こしによるデータの要求を緩和し、言語事前学習技術の使用を解放し、パラレルアクセント音声データの必要性をさらに効果的に削減する。 の複雑さとレイテンシを低減するため、単一ステージのAR生成モデルは、高い品質と低い計算コストを達成するように設計されている。 インド英語からアメリカ英語への変換実験では, アクセントの類似性, 音声品質, 話者のメンテナンスにおいて, 同一話者に拘束されない15分間の弱い並列データしか持たない状態で, 最先端の性能を実現することが示されている。 多様なアクセント型による大規模な実験は、このフレームワークが高い適応性を持っていることを示唆し、低リソースデータで他のアクセントに適応しやすくする。 オーディオサンプルはhttps://www.microsoft.com/en-us/research/project/convert-and-speak-zero-shot-accent-conversion-with- minimumsupervision/で入手できる。

Low resource of parallel data is the key challenge of accent conversion(AC) problem in which both the pronunciation units and prosody pattern need to be converted. We propose a two-stage generative framework "convert-and-speak" in which the conversion is only operated on the semantic token level and the speech is synthesized conditioned on the converted semantic token with a speech generative model in target accent domain. The decoupling design enables the "speaking" module to use massive amount of target accent speech and relieves the parallel data required for the "conversion" module. Conversion with the bridge of semantic token also relieves the requirement for the data with text transcriptions and unlocks the usage of language pre-training technology to further efficiently reduce the need of parallel accent speech data. To reduce the complexity and latency of "speaking", a single-stage AR generative model is designed to achieve good quality as well as lower computation cost. Experiments on Indian-English to general American-English conversion show that the proposed framework achieves state-of-the-art performance in accent similarity, speech quality, and speaker maintenance with only 15 minutes of weakly parallel data which is not constrained to the same speaker. Extensive experimentation with diverse accent types suggests that this framework possesses a high degree of adaptability, making it readily scalable to accommodate other accents with low-resource data. Audio samples are available at https://www.microsoft.com/en-us/research/project/convert-and-speak-zero-shot-accent-conversion-with- minimumsupervision/.
翻訳日:2024-08-20 15:43:09 公開日:2024-08-19
# 任意次移動行列例外点とファンホーブ特異点

Arbitrary order transfer matrix exceptional points and van Hove singularities ( http://arxiv.org/abs/2408.10103v1 )

ライセンス: Link先を確認
Madhumita Saha, Bijay Kumar Agarwalla, Manas Kulkarni, Archak Purkayastha, (参考訳) 二次有限範囲エルミートハミルトニアンを持つ格子モデルでは、本質的に非エルミート移動行列(TM)がバンド分散を制御している。 ファン・ホーヴ特異点(VHSs)は、状態(DOS)の密度が分岐する帯域分散の特別な点である。 有限範囲$n$のホッピングを持つ格子鎖を考えると、VHSとTMの例外点(EP)の間には、どちらも任意の順序で直結する。 特に、VHSは同じ順序のTMのEPであることが示され、これにより2種類の臨界点が広く異なる物理分野において研究される。 その結果、バンド分散とVHSのいくつかの特性は、TMのスペクトル特性の観点から分析することができる。 さらに、TMの任意の順序EPとそれに対応するVHSを生成するための一般的な処方薬を提供する。 所与の$n$に対して、我々の分析はTMのEPの許容順序に制限を与える。 最後に、$n=3$の場合のすべての結果を例示します。

In lattice models with quadratic finite-range Hermitian Hamiltonians, the inherently non-Hermitian transfer matrix (TM) governs the band dispersion. The van Hove singularities (VHSs) are special points in the band dispersion where the density of states (DOS) diverge. Considering a lattice chain with hopping of a finite range $n$, we find a direct fundamental connection between VHSs and exceptional points (EPs) of TM, both of arbitrary order. In particular, we show that VHSs are EPs of TM of the same order, thereby connecting two different types of critical points usually studied in widely different branches of physics. Consequently, several properties of band dispersion and VHSs can be analyzed in terms of spectral properties of TM. We further provide a general prescription to generate any order EP of the TM and therefore corresponding VHS. For a given range of hopping $n$, our analysis provides restrictions on allowed orders of EPs of TM. Finally, we exemplify all our results for the case $n=3$.
翻訳日:2024-08-20 15:43:09 公開日:2024-08-19
# 制約されたアクセス環境における分布外サンプル検出のためのパーターブ・アンド・コンパレントアプローチ

Perturb-and-Compare Approach for Detecting Out-of-Distribution Samples in Constrained Access Environments ( http://arxiv.org/abs/2408.10107v1 )

ライセンス: Link先を確認
Heeyoung Lee, Hoyoon Byun, Changdae Oh, JinYeong Bak, Kyungwoo Song, (参考訳) リモートAPIを通じて機械学習モデルにアクセスすることは、最近のパフォーマンス向上のためにモデルパラメータをスケールアップするトレンドに続き、人気が高まっている。 これらのモデルには顕著な能力があるものの、アウト・オブ・ディストリビューション(OOD)サンプルを検出することはエンドユーザーにとって重要な安全上の問題であり、これらのサンプルはモデルから信頼できない出力を誘導する可能性がある。 本研究では,モデルのパラメータやアクティベーションがエンドユーザにアクセスできない場合でも適用可能なOOD検出フレームワークであるMixDiffを提案する。 アクセス制限を回避するため、MixDiffは与えられたターゲットサンプルと類似のIDサンプルに同一の入力レベル摂動を適用し、これらの2つのサンプルのモデル出力の相対差を比較する。 MixDiffはモデルに依存しず、既存の出力ベースのOOD検出手法と互換性がある。 モデルから過信出力を誘導し、MixDiffが視覚領域やテキスト領域の様々なデータセット上でのOOD検出性能を一貫して向上することを示すOODサンプルの識別におけるMixDiffの有効性を理論的に示す。

Accessing machine learning models through remote APIs has been gaining prevalence following the recent trend of scaling up model parameters for increased performance. Even though these models exhibit remarkable ability, detecting out-of-distribution (OOD) samples remains a crucial safety concern for end users as these samples may induce unreliable outputs from the model. In this work, we propose an OOD detection framework, MixDiff, that is applicable even when the model's parameters or its activations are not accessible to the end user. To bypass the access restriction, MixDiff applies an identical input-level perturbation to a given target sample and a similar in-distribution (ID) sample, then compares the relative difference in the model outputs of these two samples. MixDiff is model-agnostic and compatible with existing output-based OOD detection methods. We provide theoretical analysis to illustrate MixDiff's effectiveness in discerning OOD samples that induce overconfident outputs from the model and empirically demonstrate that MixDiff consistently enhances the OOD detection performance on various datasets in vision and text domains.
翻訳日:2024-08-20 15:43:09 公開日:2024-08-19
# パーソナライズド癌ケアにおけるAIの可能性と課題

Envisioning Possibilities and Challenges of AI for Personalized Cancer Care ( http://arxiv.org/abs/2408.10108v1 )

ライセンス: Link先を確認
Elaine Kong, Kuo-Ting, Huang, Aakash Gautam, (参考訳) がん患者のケアを含む医療における人工知能(AI)の使用は、大きな関心を集めている。 しかし、このようなAIシステムがいかにケアを提供するか、特にケア格差に直面し続けている民族や人種の少数派に対して、私たちの理解にギャップは残っています。 6人のがん患者へのインタビューを通じて、パーソナライズされたケアの欠如や、文化的・言語的な宿泊施設の不足など、現在の医療システムにおける重要なギャップを特定する。 AIは、ケアに適用されると、リアルタイム、文化的に整合し、言語的に適切な相互作用を可能にすることで、これらの問題に対処する方法と見なされた。 また、データプライバシ、介護におけるヒューマンタッチの喪失、多様な情報への露出を制限するエコーチャンバーのリスクなど、AI駆動のパーソナライゼーションがもたらす影響に関する懸念も明らかにしました。 我々は、AIに強化されたパーソナライゼーションと、技術的ソリューションを超えた医療の構造的変化の必要性のトレードオフを議論することで、"なぜパーソナライゼーションを行うのか?

The use of Artificial Intelligence (AI) in healthcare, including in caring for cancer survivors, has gained significant interest. However, gaps remain in our understanding of how such AI systems can provide care, especially for ethnic and racial minority groups who continue to face care disparities. Through interviews with six cancer survivors, we identify critical gaps in current healthcare systems such as a lack of personalized care and insufficient cultural and linguistic accommodation. AI, when applied to care, was seen as a way to address these issues by enabling real-time, culturally aligned, and linguistically appropriate interactions. We also uncovered concerns about the implications of AI-driven personalization, such as data privacy, loss of human touch in caregiving, and the risk of echo chambers that limit exposure to diverse information. We conclude by discussing the trade-offs between AI-enhanced personalization and the need for structural changes in healthcare that go beyond technological solutions, leading us to argue that we should begin by asking, ``Why personalization?''
翻訳日:2024-08-20 15:43:09 公開日:2024-08-19
# PLUTUS:十分に訓練された大型統一トランスフォーマー

PLUTUS: A Well Pre-trained Large Unified Transformer can Unveil Financial Time Series Regularities ( http://arxiv.org/abs/2408.10111v1 )

ライセンス: Link先を確認
Yuanjian Xu, Anxian Liu, Jianing Hao, Zhenzhuo Li, Shichang Meng, Guang Zhang, (参考訳) 金融時系列モデリングは市場行動の理解と予測には不可欠であるが、非線形性、非定常性、高騒音レベルといった課題に直面している。 従来のモデルでは、計算資源の制限とモデル容量が混在するこれらの問題のために複雑なパターンを捉えるのに苦労している。 NLPにおける大きな言語モデルの成功に触発されて、金融時間における正規性を付与する \textbf{P}re-trained \textbf{L}arge \textbf{U}nified \textbf{T}ransformer-based modelを紹介した。 PLUTUSは、対照的な学習とオートエンコーダ技術を備えた可逆的な埋め込みモジュールを使用して、生データとパッチの埋め込みの間の近似1対1マッピングを作成する。 注意に基づくアーキテクチャであるTimeFormerはPLUTUSのコアを形成し、高ノイズの時系列を効果的にモデル化する。 可変次元と時間次元の両方にまたがる特徴を捉えるために,新しい注意機構を組み込んだ。 PLUTUSは前例のない1000億の観測データに基づいて事前訓練されている。 我々の知る限り、PLUTUSは10億以上のパラメータを持つ最初のオープンソース、大規模、事前訓練された金融時系列モデルである。 様々なタスクにおける最先端のパフォーマンスを達成し、強力な転送可能性を示し、ファイナンスのための堅牢な基盤モデルを確立する。 本研究は、金融時系列データの事前学習のための技術的ガイダンスを提供し、この分野における新しい基準を設定している。

Financial time series modeling is crucial for understanding and predicting market behaviors but faces challenges such as non-linearity, non-stationarity, and high noise levels. Traditional models struggle to capture complex patterns due to these issues, compounded by limitations in computational resources and model capacity. Inspired by the success of large language models in NLP, we introduce \textbf{PLUTUS}, a \textbf{P}re-trained \textbf{L}arge \textbf{U}nified \textbf{T}ransformer-based model that \textbf{U}nveils regularities in financial time \textbf{S}eries. PLUTUS uses an invertible embedding module with contrastive learning and autoencoder techniques to create an approximate one-to-one mapping between raw data and patch embeddings. TimeFormer, an attention based architecture, forms the core of PLUTUS, effectively modeling high-noise time series. We incorporate a novel attention mechanisms to capture features across both variable and temporal dimensions. PLUTUS is pre-trained on an unprecedented dataset of 100 billion observations, designed to thrive in noisy financial environments. To our knowledge, PLUTUS is the first open-source, large-scale, pre-trained financial time series model with over one billion parameters. It achieves state-of-the-art performance in various tasks, demonstrating strong transferability and establishing a robust foundational model for finance. Our research provides technical guidance for pre-training financial time series data, setting a new standard in the field.
翻訳日:2024-08-20 15:43:09 公開日:2024-08-19
# ガイド検索による強化学習の強化

Enhancing Reinforcement Learning Through Guided Search ( http://arxiv.org/abs/2408.10113v1 )

ライセンス: Link先を確認
Jérôme Arjonilla, Abdallah Saffidine, Tristan Cazenave, (参考訳) オフライン強化学習(RL)におけるマルコフ決定問題(マルコフ決定問題)のパフォーマンス向上を目的として, オフライン強化学習(RL)で行われていることのインスピレーションを取り入れることを提案する。 オフラインRLでは、不確実性を緩和し、潜在的なポリシーエラーを減らし、パフォーマンスを向上させるために、基準ポリシーに近づき続ける政策学習において一般的なプラクティスである。 我々は、異なる状況下において、同様の概念がパフォーマンス向上に応用できるかどうか、パフォーマンス改善に寄与できる指針ポリシーを見つけることができるのか、どのようにRLエージェントに組み込むのか、という疑問を提起する。 我々の関心はモンテカルロ木探索(MCTS)に基づくアルゴリズムに特に焦点を絞っている。MCTSは、様々な領域にわたる最先端の能力で知られており、シングルプレイヤーと2プレイヤーの文脈で平衡に収束する能力によって、我々の関心を引いている。 MCTSのパワーをRLエージェントのガイドとして活用することにより,各手法を独立に利用することで達成した成果を克服し,大幅な性能向上を実現した。 実験はAtari 100kベンチマークで行った。

With the aim of improving performance in Markov Decision Problem in an Off-Policy setting, we suggest taking inspiration from what is done in Offline Reinforcement Learning (RL). In Offline RL, it is a common practice during policy learning to maintain proximity to a reference policy to mitigate uncertainty, reduce potential policy errors, and help improve performance. We find ourselves in a different setting, yet it raises questions about whether a similar concept can be applied to enhance performance ie, whether it is possible to find a guiding policy capable of contributing to performance improvement, and how to incorporate it into our RL agent. Our attention is particularly focused on algorithms based on Monte Carlo Tree Search (MCTS) as a guide.MCTS renowned for its state-of-the-art capabilities across various domains, catches our interest due to its ability to converge to equilibrium in single-player and two-player contexts. By harnessing the power of MCTS as a guide for our RL agent, we observed a significant performance improvement, surpassing the outcomes achieved by utilizing each method in isolation. Our experiments were carried out on the Atari 100k benchmark.
翻訳日:2024-08-20 15:33:14 公開日:2024-08-19
# 同期ゲーム, 代数グラフ Identities, 量子NP硬度低減の話題

Topics in Algebra of Synchronous Games, Algebraic Graph Identities and Quantum NP-hardness Reductions ( http://arxiv.org/abs/2408.10114v1 )

ライセンス: Link先を確認
Entong He, (参考訳) 同期ゲームとその関連ゲーム代数の対応性について検討する。 我々は代数的および局所的な可換グラフの恒等性に関する結果を提案することで、Helton et al [HMPS17] の研究を少し発展させる。 非可換Nullstellens\"atze [BWHK23]に関する理論的研究に基づいて、Gr\"obnerベースメソッドと半定値プログラミングを含む計算ツールを構築し、特定のモデルによる完璧な戦略の存在を確認する。 我々は[HMPS17]で提案された遺伝モデルと$C$-starモデルの等価性を証明した。 また、Ji の減算 $\texttt{3-SAT}\text{-star} \leq_p \texttt{3-Coloring}\text{-star}$ [Ji13] を拡張し、量子変換 NP-hardness reduction $\texttt{3-SAT}\text{-star} \leq_p \texttt{Clique}\text{-star}$ の別の例を示す。

We review the correspondence between a synchronous game and its associated game algebra. We slightly develop the work of Helton et al.[HMPS17] by proposing results on algebraic and locally commuting graph identities. Based on the theoretical works on noncommutative Nullstellens\"atze [BWHK23], we build computational tools involving Gr\"obner basis methods and semidefinite programming to check the existence of perfect strategies with specific models. We prove the equivalence between the hereditary and $C$-star models proposed in [HMPS17]. We also extend Ji's reduction $\texttt{3-SAT}\text{-star} \leq_p \texttt{3-Coloring}\text{-star}$ [Ji13] and exhibit another instance of quantum-version NP-hardness reduction $\texttt{3-SAT}\text{-star} \leq_p \texttt{Clique}\text{-star}$.
翻訳日:2024-08-20 15:33:14 公開日:2024-08-19
# GLIMMER:教師なし多文書要約におけるグラフと語彙の特徴の取り込み

GLIMMER: Incorporating Graph and Lexical Features in Unsupervised Multi-Document Summarization ( http://arxiv.org/abs/2408.10115v1 )

ライセンス: Link先を確認
Ran Liu, Ming Liu, Min Yu, Jianguo Jiang, Gang Li, Dan Zhang, Jingyuan Li, Xiang Meng, Weiqing Huang, (参考訳) 事前訓練された言語モデルは、多文書要約タスクでますます使われている。 しかし、これらのモデルは事前学習のために大規模なコーパスを必要とし、ドメインに依存している。 その他の非神経的な教師なし要約アプローチは、主に鍵文抽出に依存しており、情報損失につながる可能性がある。 これらの課題に対処するために、GLIMMERと呼ばれる軽量で効果的な非教師付きアプローチを提案する。 まず、ソース文書から文グラフを構築し、次に、原文から低レベルの特徴を抽出して意味クラスタを自動的に識別し、クラスタ内相関と生成された文の流布率を改善する。 最後に、クラスタを自然な文にまとめる。 また,Multi-News,Multi-XScience,DUC-2004で行った実験により,既存の教師なしアプローチよりも優れた性能を示した。 さらに、ROUGEスコアのゼロショット設定では、最先端の訓練済みマルチドキュメント要約モデル(例えば PEGASUS や PRIMERA)を超えている。 また,GLIMMERが生成した要約は,高い可読性と情報度スコアが得られることを示す。 私たちのコードはhttps://github.com/Oswald1997/GLIMMER.comで公開されています。

Pre-trained language models are increasingly being used in multi-document summarization tasks. However, these models need large-scale corpora for pre-training and are domain-dependent. Other non-neural unsupervised summarization approaches mostly rely on key sentence extraction, which can lead to information loss. To address these challenges, we propose a lightweight yet effective unsupervised approach called GLIMMER: a Graph and LexIcal features based unsupervised Multi-docuMEnt summaRization approach. It first constructs a sentence graph from the source documents, then automatically identifies semantic clusters by mining low-level features from raw texts, thereby improving intra-cluster correlation and the fluency of generated sentences. Finally, it summarizes clusters into natural sentences. Experiments conducted on Multi-News, Multi-XScience and DUC-2004 demonstrate that our approach outperforms existing unsupervised approaches. Furthermore, it surpasses state-of-the-art pre-trained multi-document summarization models (e.g. PEGASUS and PRIMERA) under zero-shot settings in terms of ROUGE scores. Additionally, human evaluations indicate that summaries generated by GLIMMER achieve high readability and informativeness scores. Our code is available at https://github.com/Oswald1997/GLIMMER.
翻訳日:2024-08-20 15:33:14 公開日:2024-08-19
# Vulseye: Stateful Directed Graybox Fuzzingによるスマートコントラクト脆弱性の検出

Vulseye: Detect Smart Contract Vulnerabilities via Stateful Directed Graybox Fuzzing ( http://arxiv.org/abs/2408.10116v1 )

ライセンス: Link先を確認
Ruichao Liang, Jing Chen, Cong Wu, Kun He, Yueming Wu, Ruochen Cao, Ruiying Du, Yang Liu, Ziming Zhao, (参考訳) 分散化されたアプリケーションの基盤であるスマートコントラクトは、デジタルランドスケープに革命を起こす上で、ますます顕著になっています。 しかし、スマートコントラクトの脆弱性は、ユーザ資産に大きなリスクをもたらし、分散システムに対する全体的な信頼を損なう。 しかし、現在のスマートコントラクトファザは2つの主な理由から、テストの効率性に対する期待を欠いている。 第一に、スマートコントラクトはステートフルなプログラムであり、既存のアプローチ、主にカバレッジガイダンスは、契約状態からの効果的なフィードバックを欠いています。 結果として、彼らは契約状態空間を効果的に探索するのに苦労する。 第二に、包括的プログラムカバレッジを目的としたカバレッジ誘導ファザは、良質なコード領域におけるテストリソースの浪費につながる可能性がある。 コードと状態空間の混在によって包括的なテストがさらに複雑になるため、スマートコントラクトテストではこの無駄が悪化する。 これらの課題に対処するために、脆弱性によってガイドされるスマートコントラクトのためのステートフル指向のグレーボックスファザであるVulseyeを提案する。 以前の作業とは異なり、Vulseyeはテストリソースをコード領域に優先順位付けすることでステートフルな指向ファズリングを実現している。 我々は、Vulseyeのテストターゲットとして、Code TargetsとState Targetsをファジリングループに導入する。 我々は静的解析とパターンマッチングを用いてコードターゲットをピンポイントし、ステートターゲットを指定するスケーラブルな後方解析アルゴリズムを提案する。 我々は、契約コード空間と状態空間の両方からのフィードバックを活用して、ファジィングをこれらの目標に向けて誘導する、新しい適合度指標を設計する。 コードとステートターゲットのガイダンスによって、Vulseyeは、良質なコード領域におけるテストリソースの浪費を軽減し、効果的なステートフルなファズリングを実現する。 最先端のファッツェと比較して、ヴァルゼーは優れた効果と効率を示した。

Smart contracts, the cornerstone of decentralized applications, have become increasingly prominent in revolutionizing the digital landscape. However, vulnerabilities in smart contracts pose great risks to user assets and undermine overall trust in decentralized systems. But current smart contract fuzzers fall short of expectations in testing efficiency for two primary reasons. Firstly, smart contracts are stateful programs, and existing approaches, primarily coverage-guided, lack effective feedback from the contract state. Consequently, they struggle to effectively explore the contract state space. Secondly, coverage-guided fuzzers, aiming for comprehensive program coverage, may lead to a wastage of testing resources on benign code areas. This wastage worsens in smart contract testing, as the mix of code and state spaces further complicates comprehensive testing. To address these challenges, we propose Vulseye, a stateful directed graybox fuzzer for smart contracts guided by vulnerabilities. Different from prior works, Vulseye achieves stateful directed fuzzing by prioritizing testing resources to code areas and contract states that are more prone to vulnerabilities. We introduce Code Targets and State Targets into fuzzing loops as the testing targets of Vulseye. We use static analysis and pattern matching to pinpoint Code Targets, and propose a scalable backward analysis algorithm to specify State Targets. We design a novel fitness metric that leverages feedback from both the contract code space and state space, directing fuzzing toward these targets. With the guidance of code and state targets, Vulseye alleviates the wastage of testing resources on benign code areas and achieves effective stateful fuzzing. In comparison with state-of-the-art fuzzers, Vulseye demonstrated superior effectiveness and efficiency.
翻訳日:2024-08-20 15:33:14 公開日:2024-08-19
# Factorized-Dreamer: 限られた低品質データによる高品質ビデオジェネレータの訓練

Factorized-Dreamer: Training A High-Quality Video Generator with Limited and Low-Quality Data ( http://arxiv.org/abs/2408.10119v1 )

ライセンス: Link先を確認
Tao Yang, Yangming Shi, Yunwen Huang, Feng Chen, Yin Zheng, Lei Zhang, (参考訳) テキスト・ツー・ビデオ(T2V)生成は、ビデオ生成、編集、拡張、翻訳に広く応用されているため、注目されている。 しかし、多種多様な複雑な動きが現実世界に存在するため、高品質な(本社)ビデオ合成は非常に難しい。 既存の作業の多くは、コミュニティにアクセスできない大規模なHQビデオを集めることで、この問題に対処するのに苦労しています。 本研究では,リキャプションや微調整を伴わずにHQビデオジェネレータをトレーニングするには,LQ(限定的かつ低品質なデータ)が十分であることを示す。 我々は、T2V生成過程全体を、高度に記述されたキャプションに条件付けされた画像を生成し、生成された画像に条件付けされた映像と、より簡潔な動作詳細のキャプションを合成する2つのステップに分類する。 具体的には、テキストと画像の埋め込みを結合するアダプタ、画素レベルの画像情報をキャプチャする画素対応のクロスアテンションモジュール、動作記述をよりよく理解するT5テキストエンコーダ、光フローを監督するPredictNetなど、T2V生成のための重要な設計を持つ因子化された時空間フレームワークである \emph{Factorized-Dreamer} を紹介する。 さらに、映像生成の品質と安定性を確保する上で重要な役割を果たすノイズスケジュールを提示する。 我々のモデルは、詳細なキャプションや本社ビデオの要件を低くし、WebVid-10Mのようなノイズや短いキャプションで限られたLQデータセットを直接トレーニングすることで、大規模なHQビデオテキストペアの収集コストを軽減します。 様々なT2Vおよび画像-映像生成タスクにおける広範囲な実験により,提案手法の有効性が示された。 ソースコードは \url{https://github.com/yangxy/Factorized-Dreamer/} で公開しています。

Text-to-video (T2V) generation has gained significant attention due to its wide applications to video generation, editing, enhancement and translation, \etc. However, high-quality (HQ) video synthesis is extremely challenging because of the diverse and complex motions existed in real world. Most existing works struggle to address this problem by collecting large-scale HQ videos, which are inaccessible to the community. In this work, we show that publicly available limited and low-quality (LQ) data are sufficient to train a HQ video generator without recaptioning or finetuning. We factorize the whole T2V generation process into two steps: generating an image conditioned on a highly descriptive caption, and synthesizing the video conditioned on the generated image and a concise caption of motion details. Specifically, we present \emph{Factorized-Dreamer}, a factorized spatiotemporal framework with several critical designs for T2V generation, including an adapter to combine text and image embeddings, a pixel-aware cross attention module to capture pixel-level image information, a T5 text encoder to better understand motion description, and a PredictNet to supervise optical flows. We further present a noise schedule, which plays a key role in ensuring the quality and stability of video generation. Our model lowers the requirements in detailed captions and HQ videos, and can be directly trained on limited LQ datasets with noisy and brief captions such as WebVid-10M, largely alleviating the cost to collect large-scale HQ video-text pairs. Extensive experiments in a variety of T2V and image-to-video generation tasks demonstrate the effectiveness of our proposed Factorized-Dreamer. Our source codes are available at \url{https://github.com/yangxy/Factorized-Dreamer/}.
翻訳日:2024-08-20 15:33:14 公開日:2024-08-19
# 幾何学インフォームドによる言語モデル生成のための分子のトークン化

Geometry Informed Tokenization of Molecules for Language Model Generation ( http://arxiv.org/abs/2408.10120v1 )

ライセンス: Link先を確認
Xiner Li, Limei Wang, Youzhi Luo, Carl Edwards, Shurui Gui, Yuchao Lin, Heng Ji, Shuiwang Ji, (参考訳) 言語モデル(LM)を用いて3次元空間における分子生成を考察する。 分子グラフのトークン化は存在するが、3次元幾何学では、ほとんど探索されていない。 ここでは、分子幾何学を$SE(3)$-invariant 1D離散配列に変換するGeo2Seqを提案することによって、このギャップを埋めようとしている。 Geo2Seqは標準ラベリングと不変球面表現ステップで構成されており、このステップは共にLMに類似した形式で幾何学的および原子的忠実性を維持する。 実験の結果,Geo2Seqと組み合わせることで,分子幾何生成,特に制御された生成タスクにおいて,様々なLMが優れていることがわかった。

We consider molecule generation in 3D space using language models (LMs), which requires discrete tokenization of 3D molecular geometries. Although tokenization of molecular graphs exists, that for 3D geometries is largely unexplored. Here, we attempt to bridge this gap by proposing the Geo2Seq, which converts molecular geometries into $SE(3)$-invariant 1D discrete sequences. Geo2Seq consists of canonical labeling and invariant spherical representation steps, which together maintain geometric and atomic fidelity in a format conducive to LMs. Our experiments show that, when coupled with Geo2Seq, various LMs excel in molecular geometry generation, especially in controlled generation tasks.
翻訳日:2024-08-20 15:33:14 公開日:2024-08-19
# ラマン共役キャビティにおける超低温原子アンサンブルの自然偏極相転移と対称性破壊

Spontaneous polarized phase transitions and symmetry breaking of an ultracold atomic ensemble in a Raman-assisted cavity ( http://arxiv.org/abs/2408.10121v1 )

ライセンス: Link先を確認
Jinling Lian, Ran Huang, Chao Gao, Lixian Yu, Qi-Feng Liang, Wu-Ming Liu, (参考訳) 単一キャビティモードと外部レーザー場に結合した光学キャビティ内において,N$4レベル原子からなるアンサンブルの基底状態特性と量子相転移について検討した。 この系は拡張不均衡ディックモデルによって説明され、共回転結合項と反回転結合項は異なる結合強度を持つことが許される。 キャビティ場と原子スピン励起とラマンレーザーの位相差を特徴とする新しい偏極相が解析的に発見された。 一方、全相図や量子相転移も明らかにされている。 最後に,本システムにおける固有対称性の破壊や復元について述べる。 連続的な$U(1)$と離散的な$\mathbb{Z}_2$対称性に加えて、このシステムはパラメータ空間における2つの反射対称性$\sigma_v$s、抽象的な位置モメンタム表現における中心対称性$C_2$、離散反射パリティ時間$\mathcal{PT}$)対称性$\mathcal{T}_\mathrm{ex}$も示している。 これらの追加対称性は2つのコクセター群によって支配される。

We investigate the ground-state properties and quantum phase transitions of an ensemble consisting of $N$ four-level atoms within an optical cavity coupled to the single cavity mode and external laser fields. The system is described by an extended imbalanced Dicke model, in which the co- and counterrotating coupling terms are allowed to have different coupling strengths. Some novel polarized phases characterized by the phase differences between the cavity field or the atomic spin excitation and the Raman laser are found analytically. Meanwhile, the full phase diagram and quantum phase transitions are also revealed. Finally, the breaking or restoration of the intrinsic symmetry in this system is addressed. It is found that besides the continuous $U(1)$ and discrete $\mathbb{Z}_2$ symmetries, the system also exhibits two reflection symmetries $\sigma_v$s, a central symmetry $C_2$ in the abstract position-momentum representation, and a discrete reflection parity-time ($\mathcal{PT}$) symmetry, a parameter exchange symmetry $\mathcal{T}_\mathrm{ex}$ in the parameters space. These additional symmetries are governed by two Coxeter groups.
翻訳日:2024-08-20 15:33:14 公開日:2024-08-19
# ロボットマニピュレーションのためのエゴセントリックビデオからの精度向上学習

Learning Precise Affordances from Egocentric Videos for Robotic Manipulation ( http://arxiv.org/abs/2408.10123v1 )

ライセンス: Link先を確認
Gen Li, Nikolaos Tsagkas, Jifei Song, Ruaridh Mon-Williams, Sethu Vijayakumar, Kun Shao, Laura Sevilla-Lara, (参考訳) Affordanceは、オブジェクトが提供する潜在的なアクションとして定義され、ロボット操作タスクに不可欠である。 余裕の深い理解は、よりインテリジェントなAIシステムにつながる可能性がある。 例えば、そのような知識は、エージェントに刃を切るためのハンドルと刃でナイフをつかむように指示する。 本稿では,データ収集,効果的なモデルトレーニング,ロボットの展開などを含む,合理化学習システムを提案する。 まず,エゴセントリックビデオからのトレーニングデータを自動で収集する。 対象の把握可能な価格のみに着目して粗いヒートマップとして表現する従来の方法とは異なり、把握可能な(例えば、オブジェクトハンドル)と機能的な(例えば、ナイフ刃、ハンマーヘッド)の両方をカバーし、正確なセグメンテーションマスクでデータを抽出する。 次に,GKT(Geometry-Guided Affordance Transformer)と呼ばれる有効モデルを提案する。 GKTは革新的な深度特徴インジェクタ(DFI)を統合して3次元形状と幾何学的先入観を取り入れ、モデルの可利用性に対する理解を深める。 さらに,GKTとグリップ生成モデルを組み合わせたフレームワークであるAff-Graspを導入する。 総合的な評価のために,画素単位のアノテーションを用いたアベイランス評価データセットを作成し,ロボット実験のための実世界のタスクを設計する。 その結果、GKTはmIoUで15.9%、Aff-Graspは95.5%の成功率、77.1%の成功率を達成した。

Affordance, defined as the potential actions that an object offers, is crucial for robotic manipulation tasks. A deep understanding of affordance can lead to more intelligent AI systems. For example, such knowledge directs an agent to grasp a knife by the handle for cutting and by the blade when passing it to someone. In this paper, we present a streamlined affordance learning system that encompasses data collection, effective model training, and robot deployment. First, we collect training data from egocentric videos in an automatic manner. Different from previous methods that focus only on the object graspable affordance and represent it as coarse heatmaps, we cover both graspable (e.g., object handles) and functional affordances (e.g., knife blades, hammer heads) and extract data with precise segmentation masks. We then propose an effective model, termed Geometry-guided Affordance Transformer (GKT), to train on the collected data. GKT integrates an innovative Depth Feature Injector (DFI) to incorporate 3D shape and geometric priors, enhancing the model's understanding of affordances. To enable affordance-oriented manipulation, we further introduce Aff-Grasp, a framework that combines GKT with a grasp generation model. For comprehensive evaluation, we create an affordance evaluation dataset with pixel-wise annotations, and design real-world tasks for robot experiments. The results show that GKT surpasses the state-of-the-art by 15.9% in mIoU, and Aff-Grasp achieves high success rates of 95.5% in affordance prediction and 77.1% in successful grasping among 179 trials, including evaluations with seen, unseen objects, and cluttered scenes.
翻訳日:2024-08-20 15:33:14 公開日:2024-08-19
# 大規模言語モデルとドメイン固有小モデルを統合する分子グラフ表現学習

Molecular Graph Representation Learning Integrating Large Language Models with Domain-specific Small Models ( http://arxiv.org/abs/2408.10124v1 )

ライセンス: Link先を確認
Tianyu Zhang, Yuxiang Ren, Chengbin Hou, Hairong Lv, Xuegong Zhang, (参考訳) 分子特性予測は、薬物発見の重要な基盤である。 近年,この課題に対して,事前学習型ディープラーニングモデルが広く適用されている。 事前トレーニングフレームワークに事前の生物学的ドメイン知識を取り入れたいくつかのアプローチは、印象的な成果を上げている。 しかし、これらの手法は生化学の専門家に大きく依存しており、膨大な量のドメイン知識文献の検索と要約には時間と費用がかかる。 LLM(Large Language Models)は、一般的な知識の理解と効率的な提供において、優れた性能を発揮している。 それにもかかわらず、彼らは時折幻覚を示し、ドメイン固有の知識を生み出す精度を欠いている。 逆に、ドメイン固有小モデル(DSM)は豊富なドメイン知識を持ち、分子ドメイン関連メトリクスを正確に計算することができる。 しかし、モデルのサイズや特異な機能に制限があるため、包括的な表現学習に必要な知識が不足している。 分子特性予測における両方のアプローチの利点を活用するために,大規模言語モデルとドメイン固有小モデル(MolGraph-LarDo)を統合した新しい分子グラフ表現学習フレームワークを提案する。 技術的には、DSMを導入してLLMの知識を校正し、ドメイン固有情報の精度を高め、分子サンプルのより正確なテキスト記述を生成するための2段階のプロンプト戦略を設計する。 その後,分子グラフとそれに対応する記述文を含む多モードアライメント法を用いて,分子表現の事前学習を指導する。 大規模実験により提案手法の有効性が示された。

Molecular property prediction is a crucial foundation for drug discovery. In recent years, pre-trained deep learning models have been widely applied to this task. Some approaches that incorporate prior biological domain knowledge into the pre-training framework have achieved impressive results. However, these methods heavily rely on biochemical experts, and retrieving and summarizing vast amounts of domain knowledge literature is both time-consuming and expensive. Large Language Models (LLMs) have demonstrated remarkable performance in understanding and efficiently providing general knowledge. Nevertheless, they occasionally exhibit hallucinations and lack precision in generating domain-specific knowledge. Conversely, Domain-specific Small Models (DSMs) possess rich domain knowledge and can accurately calculate molecular domain-related metrics. However, due to their limited model size and singular functionality, they lack the breadth of knowledge necessary for comprehensive representation learning. To leverage the advantages of both approaches in molecular property prediction, we propose a novel Molecular Graph representation learning framework that integrates Large language models and Domain-specific small models (MolGraph-LarDo). Technically, we design a two-stage prompt strategy where DSMs are introduced to calibrate the knowledge provided by LLMs, enhancing the accuracy of domain-specific information and thus enabling LLMs to generate more precise textual descriptions for molecular samples. Subsequently, we employ a multi-modal alignment method to coordinate various modalities, including molecular graphs and their corresponding descriptive texts, to guide the pre-training of molecular representations. Extensive experiments demonstrate the effectiveness of the proposed method.
翻訳日:2024-08-20 15:33:14 公開日:2024-08-19
# SAM 2によるビデオオブジェクトのセグメンテーション: LSVOS Challenge VOS Trackの4番目のソリューション

Video Object Segmentation via SAM 2: The 4th Solution for LSVOS Challenge VOS Track ( http://arxiv.org/abs/2408.10125v1 )

ライセンス: Link先を確認
Feiyu Pan, Hao Fang, Runmin Cong, Wei Zhang, Xiankai Lu, (参考訳) Video Object Segmentation (VOS)タスクは、第1フレームのオブジェクトマスクのみを与えられたビデオシーケンス全体を通して、特定のオブジェクトインスタンスをセグメンテーションすることを目的としている。 近年,画像やビデオにおける迅速な視覚的セグメンテーションの解決に向けた基礎モデルとしてセグメンテーション・アロイング・モデル2(SAM2)が提案されている。 SAM 2は、ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集している。 SAM 2はストリーミングメモリを備えたシンプルなトランスフォーマーアーキテクチャで、リアルタイムなビデオ処理を実現する。 本研究では,より難易度の高いVOSデータセットMOSEとLVOSを用いてSAM2のゼロショット性能を評価する。 訓練セットを微調整することなく、SAM 2はテストセットで75.79 J&Fを獲得し、第6回LSVOSチャレンジVOSトラックでは4位となった。

Video Object Segmentation (VOS) task aims to segmenting a particular object instance throughout the entire video sequence given only the object mask of the first frame. Recently, Segment Anything Model 2 (SAM 2) is proposed, which is a foundation model towards solving promptable visual segmentation in images and videos. SAM 2 builds a data engine, which improves model and data via user interaction, to collect the largest video segmentation dataset to date. SAM 2 is a simple transformer architecture with streaming memory for real-time video processing, which trained on the date provides strong performance across a wide range of tasks. In this work, we evaluate the zero-shot performance of SAM 2 on the more challenging VOS datasets MOSE and LVOS. Without fine-tuning on the training set, SAM 2 achieved 75.79 J&F on the test set and ranked 4th place for 6th LSVOS Challenge VOS Track.
翻訳日:2024-08-20 15:33:14 公開日:2024-08-19
# ASP.NET 経由で Brave Assumption-based Argumentation Frameworks を学ぶ

Learning Brave Assumption-Based Argumentation Frameworks via ASP ( http://arxiv.org/abs/2408.10126v1 )

ライセンス: Link先を確認
Emanuele De Angelis, Maurizio Proietti, Francesca Toni, (参考訳) ABA(Assumption-based Argumentation)は、論理プログラミングを含む様々な形の非単調推論のための統一形式主義として提唱されている。 議論の対象となりうる知識をつかむことができる。 既存の多くの作業において、ABAフレームワークは事前に提供されていますが、本稿では、バックグラウンド知識と肯定的/否定的な例から学習を自動化する問題に焦点を当てます。 従来の作業とは異なり、我々はABAの安定な拡張の下で、勇敢な推論という観点で問題を新たに定めている。 本稿では,変換規則に基づく新しいアルゴリズム(ロートラーニング,フォールディング,アクセプション導入,Fact Subsumptionなど)とその実装について述べる。 最後に,本手法を,非実用的知識を学習する最先端のICPシステムと比較する。

Assumption-based Argumentation (ABA) is advocated as a unifying formalism for various forms of non-monotonic reasoning, including logic programming. It allows capturing defeasible knowledge, subject to argumentative debate. While, in much existing work, ABA frameworks are given up-front, in this paper we focus on the problem of automating their learning from background knowledge and positive/negative examples. Unlike prior work, we newly frame the problem in terms of brave reasoning under stable extensions for ABA. We present a novel algorithm based on transformation rules (such as Rote Learning, Folding, Assumption Introduction and Fact Subsumption) and an implementation thereof that makes use of Answer Set Programming. Finally, we compare our technique to state-of-the-art ILP systems that learn defeasible knowledge.
翻訳日:2024-08-20 15:33:14 公開日:2024-08-19
# ネパール語における音声のクローン化の促進:低リソース言語における転送学習の活用

Advancing Voice Cloning for Nepali: Leveraging Transfer Learning in a Low-Resource Language ( http://arxiv.org/abs/2408.10128v1 )

ライセンス: Link先を確認
Manjil Karki, Pratik Shakya, Sandesh Acharya, Ravi Pandit, Dinesh Gothe, (参考訳) 音声のクローン化は、パーソナライズされた音声インタフェースにおいて顕著な特徴である。 ニューラル・ボーカル・クローンシステムは、ほんの少しのオーディオサンプルを使って誰かの声を模倣することができる。 話者符号化と話者適応は、音声クローニングの分野での研究のトピックである。 話者適応は、話者符号化に使用される新しい話者埋め込みを推論するために、個別のモデルを訓練する多話者生成モデルを微調整することに依存する。 どちらの手法も、音声の自然さと元の話者との類似性の観点から、少数のクローン音声であっても、優れた性能を達成することができる。 話者エンコーディングアプローチは、メモリを著しく少なくし、話者適応よりも高速なクローニング時間を持つため、低リソースデプロイメントに適している。 主な目標は、ネパール語のアクセントやネパール語の発音で音声を出力する音声クローニングシステムを作ることだ。 TTSのさらなる進歩のために、トランスファーラーニングというアイデアは、低音質やデータ不足など、このシステムの開発で遭遇したいくつかの問題に効果的に対処するために用いられた。

Voice cloning is a prominent feature in personalized speech interfaces. A neural vocal cloning system can mimic someone's voice using just a few audio samples. Both speaker encoding and speaker adaptation are topics of research in the field of voice cloning. Speaker adaptation relies on fine-tuning a multi-speaker generative model, which involves training a separate model to infer a new speaker embedding used for speaker encoding. Both methods can achieve excellent performance, even with a small number of cloning audios, in terms of the speech's naturalness and similarity to the original speaker. Speaker encoding approaches are more appropriate for low-resource deployment since they require significantly less memory and have a faster cloning time than speaker adaption, which can offer slightly greater naturalness and similarity. The main goal is to create a vocal cloning system that produces audio output with a Nepali accent or that sounds like Nepali. For the further advancement of TTS, the idea of transfer learning was effectively used to address several issues that were encountered in the development of this system, including the poor audio quality and the lack of available data.
翻訳日:2024-08-20 15:33:14 公開日:2024-08-19
# UNINEXT-Cutie: LSVOS Challenge RVOS Trackの最初のソリューション

UNINEXT-Cutie: The 1st Solution for LSVOS Challenge RVOS Track ( http://arxiv.org/abs/2408.10129v1 )

ライセンス: Link先を確認
Hao Fang, Feiyu Pan, Xiankai Lu, Wei Zhang, Runmin Cong, (参考訳) ビデオオブジェクトセグメンテーション(RVOS)の参照は、ビデオ内の対象オブジェクトをセグメントする自然言語表現に依存する。 この年、LSVOS Challenge RVOS TrackはオリジナルのYouTube-RVOSベンチマークをMeViSに置き換えた。 MeViSは、静的属性の代わりに動画内のターゲットオブジェクトを参照することに重点を置いており、RVOSタスクにより大きな課題がある。 この作業では、主要なRVOSとVOSモデルの強みを統合して、RVOSのためのシンプルで効果的なパイプラインを構築します。 まず、最先端のRVOSモデルを微調整し、言語記述と相関するマスクシーケンスを得る。 第二に、信頼性が高く高品質なキーフレームに基づいて、VOSモデルを活用し、マスク結果の品質と時間的一貫性を向上させる。 最後に、半教師付き学習を用いてRVOSモデルの性能をさらに向上する。 我々のソリューションは MeViS テストセットで62.57 J&F を達成し,第6回 LSVOS Challenge RVOS Track で1位となった。

Referring video object segmentation (RVOS) relies on natural language expressions to segment target objects in video. In this year, LSVOS Challenge RVOS Track replaced the origin YouTube-RVOS benchmark with MeViS. MeViS focuses on referring the target object in a video through its motion descriptions instead of static attributes, posing a greater challenge to RVOS task. In this work, we integrate strengths of that leading RVOS and VOS models to build up a simple and effective pipeline for RVOS. Firstly, We finetune the state-of-the-art RVOS model to obtain mask sequences that are correlated with language descriptions. Secondly, based on a reliable and high-quality key frames, we leverage VOS model to enhance the quality and temporal consistency of the mask results. Finally, we further improve the performance of the RVOS model using semi-supervised learning. Our solution achieved 62.57 J&F on the MeViS test set and ranked 1st place for 6th LSVOS Challenge RVOS Track.
翻訳日:2024-08-20 15:33:14 公開日:2024-08-19
# GPTに基づく韻律認識中国語歌詞生成装置

Rhyme-aware Chinese lyric generator based on GPT ( http://arxiv.org/abs/2408.10130v1 )

ライセンス: Link先を確認
Yixiao Yuan, Yangchen Huang, Yu Ma, Xinjin Li, Zhenglin Li, Yiming Shi, Huapeng Zhou, (参考訳) 大規模コーパスで事前訓練されたGPTのようなニューラル言語表現モデルは、プレーンテキストからリッチなセマンティックパターンを効果的にキャプチャし、自然言語生成性能を一貫して改善するために微調整することができる。 しかし、歌詞を生成するために使われている既存の事前学習言語モデルは、歌詞にとって重要な韻律情報を考えることは滅多にない。 事前訓練されたモデルを使用することで、パフォーマンスが低下する。 生成した歌詞の韻律品質を向上させるため,モデルに統合された韻律情報を組み込むことにより,歌詞生成性能を向上させる。

Neural language representation models such as GPT, pre-trained on large-scale corpora, can effectively capture rich semantic patterns from plain text and be fine-tuned to consistently improve natural language generation performance. However, existing pre-trained language models used to generate lyrics rarely consider rhyme information, which is crucial in lyrics. Using a pre-trained model directly results in poor performance. To enhance the rhyming quality of generated lyrics, we incorporate integrated rhyme information into our model, thereby improving lyric generation performance.
翻訳日:2024-08-20 15:33:14 公開日:2024-08-19
# 立体視全方位画像の知覚深度品質評価

Perceptual Depth Quality Assessment of Stereoscopic Omnidirectional Images ( http://arxiv.org/abs/2408.10134v1 )

ライセンス: Link先を確認
Wei Zhou, Zhou Wang, (参考訳) 没入型バーチャルリアリティ(VR)視覚環境において、奥行き知覚は視聴者体験において重要な役割を果たす。 しかし、3D/立体画像の奥行き品質に関するこれまでの研究では、特に360度全方位の3次元視認には、かなり制限がある。 本研究では,立体視全方位画像の高能率非参照(NR)深度品質評価のための,DQI(Deep Quality Index)と呼ばれる客観的品質評価モデルの開発を試みている。 人間の視覚システム(HVS)の知覚特性に触発されたDQIは,多色チャネル,適応型ビューポート選択,眼間不一致の特徴を基盤として構築されている。 実験結果から,本手法は,単視点および全方向の立体画像データベースを用いてテストした場合の知覚深度品質の予測において,最先端画像品質評価 (IQA) と深度品質評価 (DQA) のアプローチより優れていることが示された。 さらに,提案した深度品質モデルと既存のIQA手法を組み合わせることで,全方位画像の全体的な品質を予測する性能が著しく向上することが実証された。

Depth perception plays an essential role in the viewer experience for immersive virtual reality (VR) visual environments. However, previous research investigations in the depth quality of 3D/stereoscopic images are rather limited, and in particular, are largely lacking for 3D viewing of 360-degree omnidirectional content. In this work, we make one of the first attempts to develop an objective quality assessment model named depth quality index (DQI) for efficient no-reference (NR) depth quality assessment of stereoscopic omnidirectional images. Motivated by the perceptual characteristics of the human visual system (HVS), the proposed DQI is built upon multi-color-channel, adaptive viewport selection, and interocular discrepancy features. Experimental results demonstrate that the proposed method outperforms state-of-the-art image quality assessment (IQA) and depth quality assessment (DQA) approaches in predicting the perceptual depth quality when tested using both single-viewport and omnidirectional stereoscopic image databases. Furthermore, we demonstrate that combining the proposed depth quality model with existing IQA methods significantly boosts the performance in predicting the overall quality of 3D omnidirectional images.
翻訳日:2024-08-20 15:33:14 公開日:2024-08-19
# R^2$-Mesh: 幾何学と外観再構成による強化学習パワーメッシュ再構築

$R^2$-Mesh: Reinforcement Learning Powered Mesh Reconstruction via Geometry and Appearance Refinement ( http://arxiv.org/abs/2408.10135v1 )

ライセンス: Link先を確認
Haoyang Wang, Liming Liu, Quanlu Jia, Jiangkai Wu, Haodan Zhang, Peiheng Wang, Xinggong Zhang, (参考訳) Neural Radiance Fields (NeRF) に基づくメッシュ再構成は、複雑な幾何学構造を扱う効率とリアルタイムレンダリングを容易にするため、コンピュータグラフィックス、仮想現実、医療画像などの様々なアプリケーションで人気がある。 しかし、既存の作品は正確な幾何学的詳細を捉えることができず、レンダリング品質の最適化に苦慮することが多い。 これらの課題に対処するために,マルチビュー画像からメッシュを段階的に生成し,最適化する新しいアルゴリズムを提案する。 提案手法は,初期手動距離場 (Signed Distance Field, SDF) とビュー依存外見場 (View-dependent appearance field) を確立するため,NeRFモデルのトレーニングによって開始される。 その後,メッシュ抽出法を用いてSDFを反復的に洗練し,メッシュの識別可能なラスタ化の損失に基づいて頂点位置と接続性の両方を連続的に更新し,外観表現を最適化する。 そこで我々は,NeRFモデルで作成した画像をトレーニングデータセットに適応的に組み込むことで視点を向上する,上信頼境界(UCB)に基づくオンライン学習戦略を提案する。 広範にわたる実験により,メッシュレンダリングの品質と幾何学的品質の両面で,高い競争力とロバスト性を実現する方法が実証された。

Mesh reconstruction based on Neural Radiance Fields (NeRF) is popular in a variety of applications such as computer graphics, virtual reality, and medical imaging due to its efficiency in handling complex geometric structures and facilitating real-time rendering. However, existing works often fail to capture fine geometric details accurately and struggle with optimizing rendering quality. To address these challenges, we propose a novel algorithm that progressively generates and optimizes meshes from multi-view images. Our approach initiates with the training of a NeRF model to establish an initial Signed Distance Field (SDF) and a view-dependent appearance field. Subsequently, we iteratively refine the SDF through a differentiable mesh extraction method, continuously updating both the vertex positions and their connectivity based on the loss from mesh differentiable rasterization, while also optimizing the appearance representation. To further leverage high-fidelity and detail-rich representations from NeRF, we propose an online-learning strategy based on Upper Confidence Bound (UCB) to enhance viewpoints by adaptively incorporating images rendered by the initial NeRF model into the training dataset. Through extensive experiments, we demonstrate that our method delivers highly competitive and robust performance in both mesh rendering quality and geometric quality.
翻訳日:2024-08-20 15:23:23 公開日:2024-08-19
# ランク統計を用いたロバストスペクトルクラスタリング

Robust spectral clustering with rank statistics ( http://arxiv.org/abs/2408.10136v1 )

ライセンス: Link先を確認
Joshua Cape, Xianshi Yu, Jonquil Z. Liao, (参考訳) 本稿では、雑音データ行列における遅延構造回復のためのロバストスペクトルクラスタリング法の統計的性能を解析する。 固有ベクトルに基づくクラスタリングは、原データ行列からエントリーワイドに導出される非パラメトリックランク統計の行列に適用される。 この手法は、従来のスペクトルクラスタリング法とは異なり、観測されたデータ行列が重み付きエントリを含み、不均一な分散プロファイルを持つ場合でも、確実に人口レベルの潜在ブロック構造を復元できるという意味で堅牢である。 我々の主な理論的貢献は3倍であり、柔軟なデータ生成条件の下で保持される。 まず,グラフ内のノードの集合と見なされる頑健なスペクトルクラスタリングにより,データ行列が大きい場合,消失するノードを除くすべてのノードの未観測コミュニティメンバシップが,高い確率で復元可能であることを確認した。 第二に、前者の結果を精査し、ある条件下では、特定の興味のある特定のノードのコミュニティメンバーシップが、大きなデータ制限の確率で漸近的に正確に回復できることを確立する。 第3に,古典的非パラメトリック理論といわゆる単純線形ランク統計を併用して,現代的エントリーワイド行列摂動解析を合成することにより,エントリーがランク統計である行列の切り離された固有構造に付随する漸近正規性結果を確立する。 これらの結果は,次元減少のためのスペクトル技術と組み合わせることで,ランクに基づくデータ変換の統計的有用性を示すものである。 さらに, 人間のコネクトームのデータセットでは, 擬似次元の減少と, 地中神経解剖学的クラスター構造の回復が期待できる。

This paper analyzes the statistical performance of a robust spectral clustering method for latent structure recovery in noisy data matrices. We consider eigenvector-based clustering applied to a matrix of nonparametric rank statistics that is derived entrywise from the raw, original data matrix. This approach is robust in the sense that, unlike traditional spectral clustering procedures, it can provably recover population-level latent block structure even when the observed data matrix includes heavy-tailed entries and has a heterogeneous variance profile. Our main theoretical contributions are threefold and hold under flexible data generating conditions. First, we establish that robust spectral clustering with rank statistics can consistently recover latent block structure, viewed as communities of nodes in a graph, in the sense that unobserved community memberships for all but a vanishing fraction of nodes are correctly recovered with high probability when the data matrix is large. Second, we refine the former result and further establish that, under certain conditions, the community membership of any individual, specified node of interest can be asymptotically exactly recovered with probability tending to one in the large-data limit. Third, we establish asymptotic normality results associated with the truncated eigenstructure of matrices whose entries are rank statistics, made possible by synthesizing contemporary entrywise matrix perturbation analysis with the classical nonparametric theory of so-called simple linear rank statistics. Collectively, these results demonstrate the statistical utility of rank-based data transformations when paired with spectral techniques for dimensionality reduction. Additionally, for a dataset of human connectomes, our approach yields parsimonious dimensionality reduction and improved recovery of ground-truth neuroanatomical cluster structure.
翻訳日:2024-08-20 15:23:23 公開日:2024-08-19
# 量子およびニューロインスパイアコンピューティングのための極薄埋没酸化物のアングストロームスケールイオンビーム工学

Angstrom-scale ion-beam engineering of ultrathin buried oxides for quantum and neuro-inspired computing ( http://arxiv.org/abs/2408.10138v1 )

ライセンス: Link先を確認
N. Smirnov, E. Krivko, D. Moskaleva, D. Moskalev, A. Solovieva, V. Echeistov, E. Zikiy, N. Korshakov, A. Ivanov, E. Malevannaya, A. Matanin, V. Polozov, M. Teleganov, N. Zhitkov, R. Romashkin, I. Korobenko, A. Yanilkin, A. Lebedev, I. Ryzhikov, A. Andriyash, I. Rodionov, (参考訳) 埋没した超薄型トンネル酸化物、2D材料、固体電解質を含む多層ナノスケールシステムは、次世代論理、メモリ、量子およびニューロインスパイアされた計算に不可欠である。 それでも、アングストロームスケールでの超薄層制御は、最先端のアプリケーションでは困難である。 ここでは, イオンビームアニールを用いた拡張性アプローチを, アングストロームスケールの厚さ制御による埋没酸化膜工学に応用する。 Al/a-AlOx/Al構造上におけるNe+照射の分子動力学シミュレーションにより,イオン生成結晶欠陥の重要な役割が確認された。 25x25mmチップにおける標準偏差0.86%の抵抗範囲2~37%のジョセフソン接合タンピングの性能を実験的に実証した。 さらに,500usまでのコヒーレンス時間で超伝導トランスモン量子ビットを超伝導するための+-17MHz帯の周波数制御(+-0.172Aトンネルバリア厚)を紹介した。 この研究により、深さ制御された結晶欠陥の生成による極大スケールの超薄多層ナノシステム工学が保証される。

Multilayer nanoscale systems incorporating buried ultrathin tunnel oxides, 2D materials, and solid electrolytes are crucial for next-generation logics, memory, quantum and neuro-inspired computing. Still, an ultrathin layer control at angstrom scale is challenging for cutting-edge applications. Here we introduce a scalable approach utilizing focused ion-beam annealing for buried ultrathin oxides engineering with angstrom-scale thickness control. Our molecular dynamics simulations of Ne+ irradiation on Al/a-AlOx/Al structure confirms the pivotal role of ion generated crystal defects. We experimentally demonstrate its performance on Josephson junction tunning in the resistance range of 2 to 37% with a standard deviation of 0.86% across 25x25 mm chip. Moreover, we showcase +-17 MHz frequency control (+-0.172 A tunnel barrier thickness) for superconducting transmon qubits with coherence times up to 500 us, which is promising for useful fault-tolerant quantum computing. This work ensures ultrathin multilayer nanosystems engineering at the ultimate scale by depth-controlled crystal defects generation.
翻訳日:2024-08-20 15:23:23 公開日:2024-08-19
# 可逆CCZゲートを用いた良二元量子符号

Good binary quantum codes with transversal CCZ gate ( http://arxiv.org/abs/2408.10140v1 )

ライセンス: Link先を確認
Quynh T. Nguyen, (参考訳) 量子CSS符号のシンプレクティックなファミリを,全論理量子ビット上の並列論理CCZは,物理量子ビット上の(サブセットの)並列物理CCZによって実行される。 我々の構成は、乗算特性を満たす任意の古典的コードは、超逆(量子)CCZを持つ量子CSSコードを構築するのに使用できるという観察に基づいている。 定数レートと線形距離の族を得るために、この構造を古典的な代数幾何学符号の古典的なファミリーで、非バイナリだが定数サイズのアルファベットでインスタンス化する。 次に、算術秘密共有文献の技法を用いて、アルファベットを二進数に減らした。 コーパスファミリでは, 一定の過度なマジック状態蒸留方式が提案されている。

We give an asymptotically good family of quantum CSS codes on qubits with a transversal CCZ gate, meaning that the parallel logical CCZ on all logical qubits is performed by parallel physical CCZs on (a subset of) physical qubits. Our construction is based on the observation that any classical code satisfying a multiplication property can be used to construct a quantum CSS code with transversal (qudit) CCZ. To obtain a constant-rate and linear-distance family, we instantiate this construction with a classical good family of algebraic-geometry codes on a non-binary, but constant-sized, alphabet. We then use a technique from the arithmetic secret sharing literature to reduce the alphabet to binary. As a corollary, our code family provides a constant-overhead magic state distillation scheme.
翻訳日:2024-08-20 15:23:23 公開日:2024-08-19
# 経験的AI研究によるリーダーボード生成のインストラクションファインタニング

Instruction Finetuning for Leaderboard Generation from Empirical AI Research ( http://arxiv.org/abs/2408.10141v1 )

ライセンス: Link先を確認
Salomon Kabongo, Jennifer D'Souza, (参考訳) 本研究では,事前学習された大規模言語モデル(LLM)の命令微調整をAI研究リーダーボードの自動生成に適用し,記事からタスク,データセット,メトリック,スコア)を抽出する。 従来の手動のコミュニティキュレーションや、それ以外は分類に制約のある自然言語推論(NLI)モデルから、自動化されたジェネレーティブなLLMベースのアプローチに移行することで、AI研究の進歩の広めを合理化することを目的としている。 本研究では,FLAN-T5モデルを用いてLLMの適応性と情報抽出の信頼性を高め,構造化知識表現の新しい手法を提案する。

This study demonstrates the application of instruction finetuning of pretrained Large Language Models (LLMs) to automate the generation of AI research leaderboards, extracting (Task, Dataset, Metric, Score) quadruples from articles. It aims to streamline the dissemination of advancements in AI research by transitioning from traditional, manual community curation, or otherwise taxonomy-constrained natural language inference (NLI) models, to an automated, generative LLM-based approach. Utilizing the FLAN-T5 model, this research enhances LLMs' adaptability and reliability in information extraction, offering a novel method for structured knowledge representation.
翻訳日:2024-08-20 15:23:23 公開日:2024-08-19
# 状態空間モデルを用いた画像復元のためのマルチスケール表現学習

Multi-Scale Representation Learning for Image Restoration with State-Space Model ( http://arxiv.org/abs/2408.10145v1 )

ライセンス: Link先を確認
Yuhong He, Long Peng, Qiaosi Yi, Chen Wu, Lu Wang, (参考訳) 画像復元は、写真や様々なコンピュータビジョンシステムにおいて重要なプロセスである劣化した画像から、高品質で詳細に富んだ画像を再構築する試みである。 現実のシナリオでは、さまざまな種類の劣化が、様々なスケールで画像の詳細が失われ、画像コントラストが劣化する可能性がある。 既存の手法は主にCNNとTransformerを使ってマルチスケールの表現をキャプチャする。 しかし、これらの手法は、トランスフォーマーの計算量が多いことと、CNNの制約された受容場によって制限され、画像復元における優れた性能と効率を損なうことがしばしばある。 これらの課題に対処するため,提案するグローバルおよび地域SSMモジュールによるマルチスケール表現学習の能力を高める,効率的な画像復元のための新しいマルチスケール状態空間モデル(MS-Mamba)を提案する。 さらに, 適応勾配ブロック (AGB) と残留フーリエブロック (RFB) を提案し, 様々な方向の勾配を捕捉し, 周波数領域での学習の詳細化を促進することにより, ネットワークの細部抽出能力を向上させる。 従来の画像復元作業,デハニング,デハージング,低照度化といった4つの課題を対象とした9つの公開ベンチマーク実験により,提案手法は,低複雑性を維持しつつ,新しい最先端性能を実現することを実証した。 ソースコードは公開されます。

Image restoration endeavors to reconstruct a high-quality, detail-rich image from a degraded counterpart, which is a pivotal process in photography and various computer vision systems. In real-world scenarios, different types of degradation can cause the loss of image details at various scales and degrade image contrast. Existing methods predominantly rely on CNN and Transformer to capture multi-scale representations. However, these methods are often limited by the high computational complexity of Transformers and the constrained receptive field of CNN, which hinder them from achieving superior performance and efficiency in image restoration. To address these challenges, we propose a novel Multi-Scale State-Space Model-based (MS-Mamba) for efficient image restoration that enhances the capacity for multi-scale representation learning through our proposed global and regional SSM modules. Additionally, an Adaptive Gradient Block (AGB) and a Residual Fourier Block (RFB) are proposed to improve the network's detail extraction capabilities by capturing gradients in various directions and facilitating learning details in the frequency domain. Extensive experiments on nine public benchmarks across four classic image restoration tasks, image deraining, dehazing, denoising, and low-light enhancement, demonstrate that our proposed method achieves new state-of-the-art performance while maintaining low computational complexity. The source code will be publicly available.
翻訳日:2024-08-20 15:23:23 公開日:2024-08-19
# 表現を用いたインテクスト学習:訓練された変圧器の文脈一般化

In-Context Learning with Representations: Contextual Generalization of Trained Transformers ( http://arxiv.org/abs/2408.10147v1 )

ライセンス: Link先を確認
Tong Yang, Yu Huang, Yingbin Liang, Yuejie Chi, (参考訳) In-context Learning (ICL) は、事前訓練された大規模言語モデルの顕著な能力を指し、推論のいくつかの例から新しいタスクを学習することができる。 しかし、ICLの理論的理解は、特にトランスフォーマーがプロンプト内の見知らぬ例に一般化するように訓練できるかどうかがほとんど未解明であり、このモデルが一般化のためのプロンプトの文脈的知識を取得する必要がある。 本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。 ここでの文脈一般化は、すべてのテンプレート関数が$m$基底関数を持つ線型空間にある各タスクのコンテキスト内でテンプレート関数を学ぶことによって達成できる。 本研究では,一層型マルチヘッドトランスのトレーニングダイナミクスを解析し,部分的にラベル付けされたプロンプトが与えられたラベル付き入力をテキストで予測し,ガウス雑音を含むラベルと各プロンプトの例数でテンプレートを決定するのに十分ではないことを示す。 軽微な仮定では, 1層マルチヘッドトランスのトレーニング損失は, 大域的最小値に線形に収束する。 さらに、変換器は、基底関数よりもリッジ回帰を効果的に行うことを学習する。 我々の知る限り、この研究はトランスフォーマーが文脈情報(テンプレート)を学習し、プロンプトが少数の問合せ-問合せペアのみを含む場合に、見知らぬ例とタスクの両方に一般化できる最初の証明可能な実証である。

In-context learning (ICL) refers to a remarkable capability of pretrained large language models, which can learn a new task given a few examples during inference. However, theoretical understanding of ICL is largely under-explored, particularly whether transformers can be trained to generalize to unseen examples in a prompt, which will require the model to acquire contextual knowledge of the prompt for generalization. This paper investigates the training dynamics of transformers by gradient descent through the lens of non-linear regression tasks. The contextual generalization here can be attained via learning the template function for each task in-context, where all template functions lie in a linear space with $m$ basis functions. We analyze the training dynamics of one-layer multi-head transformers to in-contextly predict unlabeled inputs given partially labeled prompts, where the labels contain Gaussian noise and the number of examples in each prompt are not sufficient to determine the template. Under mild assumptions, we show that the training loss for a one-layer multi-head transformer converges linearly to a global minimum. Moreover, the transformer effectively learns to perform ridge regression over the basis functions. To our knowledge, this study is the first provable demonstration that transformers can learn contextual (i.e., template) information to generalize to both unseen examples and tasks when prompts contain only a small number of query-answer pairs.
翻訳日:2024-08-20 15:23:23 公開日:2024-08-19
# ヘイスタックにおける多言語針:多言語大言語モデルの長期的挙動の検討

Multilingual Needle in a Haystack: Investigating Long-Context Behavior of Multilingual Large Language Models ( http://arxiv.org/abs/2408.10151v1 )

ライセンス: Link先を確認
Amey Hengle, Prasoon Bajpai, Soham Dan, Tanmoy Chakraborty, (参考訳) 最近の大規模言語モデル(LLM)は、様々な言語のクエリに応答する際、顕著な能力を示しているが、長い多言語コンテキストを扱う能力は探索されていない。 したがって、多言語設定におけるLLMの長期コンテキスト能力の体系的評価は、特に情報検索の文脈において重要である。 このギャップに対処するため,マルチリンガル・ニードル・イン・ア・ヘイスタック(MLNeedle)テストを導入する。 このテストは多言語質問応答タスクの拡張として機能し、モノリンガル検索とクロスリンガル検索の両方を包含する。 MLNeedle 上での4つの最先端 LLM の評価を行った。 以上の結果から,言語や針の位置によってモデルの性能が著しく変化することが明らかとなった。 具体的には、針が最低のとき、モデルの性能が低いことを観察する。 (一)英語以外の言語で、及び (ii)入力コンテキストの中央に位置する。 さらに、コンテキストサイズが8k$トークン以上であると主張するモデルもあるが、コンテキスト長が増加するにつれて、言語間検索性能が満足できるものはない。 本分析は,多言語環境におけるLLMの長期コンテキスト行動に関する重要な知見を提供し,今後の評価プロトコルを導出する。 我々の知る限り、LLMの多言語長文行動を研究する最初の研究である。

While recent large language models (LLMs) demonstrate remarkable abilities in responding to queries in diverse languages, their ability to handle long multilingual contexts is unexplored. As such, a systematic evaluation of the long-context capabilities of LLMs in multilingual settings is crucial, specifically in the context of information retrieval. To address this gap, we introduce the MultiLingual Needle-in-a-Haystack (MLNeedle) test, designed to assess a model's ability to retrieve relevant information (the needle) from a collection of multilingual distractor texts (the haystack). This test serves as an extension of the multilingual question-answering task, encompassing both monolingual and cross-lingual retrieval. We evaluate four state-of-the-art LLMs on MLNeedle. Our findings reveal that model performance can vary significantly with language and needle position. Specifically, we observe that model performance is the lowest when the needle is (i) in a language outside the English language family and (ii) located in the middle of the input context. Furthermore, although some models claim a context size of $8k$ tokens or greater, none demonstrate satisfactory cross-lingual retrieval performance as the context length increases. Our analysis provides key insights into the long-context behavior of LLMs in multilingual settings to guide future evaluation protocols. To our knowledge, this is the first study to investigate the multilingual long-context behavior of LLMs.
翻訳日:2024-08-20 15:23:23 公開日:2024-08-19
# 内視鏡画像における深度推定のための構造保存画像変換

Structure-preserving Image Translation for Depth Estimation in Colonoscopy Video ( http://arxiv.org/abs/2408.10153v1 )

ライセンス: Link先を確認
Shuxian Wang, Akshay Paruchuri, Zhaoxi Zhang, Sarah McGill, Roni Sengupta, (参考訳) 大腸内視鏡画像における単眼深度推定は, 大腸内視鏡環境の異常な照明特性を克服することを目的としている。 この領域における大きな課題の1つは、注釈付きだが非現実的な合成データと、注釈付きだが現実的な臨床データとのドメインギャップである。 このドメインギャップをブリッジしようとする以前の試みは、深さ推定タスク自体を直接ターゲットとしていた。 構造保存型合成現実画像変換(入力画像の修正版を生成する)の一般的なパイプラインを提案する。 これにより、臨床領域への一般化を改良した教師付き深度推定のために、大量のリアルな合成画像を生成することができる。 また,画像翻訳のプロセスを改善するために,臨床大腸内視鏡からの手書き配列のデータセットも提案する。 各種データセット上での下流深度推定の性能を通して,翻訳画像の同時現実性と深度マップの保存を実証する。

Monocular depth estimation in colonoscopy video aims to overcome the unusual lighting properties of the colonoscopic environment. One of the major challenges in this area is the domain gap between annotated but unrealistic synthetic data and unannotated but realistic clinical data. Previous attempts to bridge this domain gap directly target the depth estimation task itself. We propose a general pipeline of structure-preserving synthetic-to-real (sim2real) image translation (producing a modified version of the input image) to retain depth geometry through the translation process. This allows us to generate large quantities of realistic-looking synthetic images for supervised depth estimation with improved generalization to the clinical domain. We also propose a dataset of hand-picked sequences from clinical colonoscopies to improve the image translation process. We demonstrate the simultaneous realism of the translated images and preservation of depth maps via the performance of downstream depth estimation on various datasets.
翻訳日:2024-08-20 15:23:23 公開日:2024-08-19
# LoopSplat: 3Dガウスプレートの登録によるループ閉鎖

LoopSplat: Loop Closure by Registering 3D Gaussian Splats ( http://arxiv.org/abs/2408.10154v1 )

ライセンス: Link先を確認
Liyuan Zhu, Yue Li, Erik Sandström, Konrad Schindler, Iro Armeni, (参考訳) 3次元ガウススプレート(3DGS)に基づく同時局所化マッピング(SLAM)は,最近より正確で高密度な3Dシーンマップの実現を約束している。 しかし、既存の3DGSベースの手法ではループ閉鎖やグローバルバンドル調整によってシーンのグローバルな整合性に対処できない。 この目的のために,RGB-D画像を入力として取り出し,3DGSサブマップとフレーム・ツー・モデル追跡を用いた高密度マッピングを行うLoopSplatを提案する。 LoopSplatはループの閉鎖をオンラインでトリガーし、3DGSの登録を通じてサブマップ間の相対ループエッジの制約を直接計算することで、従来のグローバルからローカルのポイントクラウドの登録よりも効率と精度が向上する。 堅牢なポーズグラフ最適化の定式化を使用し、グローバルな一貫性を達成するためにサブマップを厳格に整列する。 合成Replicaおよび実世界のTUM-RGBD、ScanNet、ScanNet++データセットの評価は、RGB-D SLAMの既存の方法と比較して、競合的あるいは優れた追跡、マッピング、レンダリングを示している。 コードは \href{https://loopsplat.github.io/}{loopsplat.github.io} で公開されている。

Simultaneous Localization and Mapping (SLAM) based on 3D Gaussian Splats (3DGS) has recently shown promise towards more accurate, dense 3D scene maps. However, existing 3DGS-based methods fail to address the global consistency of the scene via loop closure and/or global bundle adjustment. To this end, we propose LoopSplat, which takes RGB-D images as input and performs dense mapping with 3DGS submaps and frame-to-model tracking. LoopSplat triggers loop closure online and computes relative loop edge constraints between submaps directly via 3DGS registration, leading to improvements in efficiency and accuracy over traditional global-to-local point cloud registration. It uses a robust pose graph optimization formulation and rigidly aligns the submaps to achieve global consistency. Evaluation on the synthetic Replica and real-world TUM-RGBD, ScanNet, and ScanNet++ datasets demonstrates competitive or superior tracking, mapping, and rendering compared to existing methods for dense RGB-D SLAM. Code is available at \href{https://loopsplat.github.io/}{loopsplat.github.io}.
翻訳日:2024-08-20 15:23:23 公開日:2024-08-19
# シークエンシャルレコメンデーションのためのインスタンスワイズ LoRA を用いた言語モデルのカスタマイズ

Customizing Language Models with Instance-wise LoRA for Sequential Recommendation ( http://arxiv.org/abs/2408.10159v1 )

ライセンス: Link先を確認
Xiaoyu Kong, Jiancan Wu, An Zhang, Leheng Sheng, Hui Lin, Xiang Wang, Xiangnan He, (参考訳) 時系列レコメンデーションシステムは、過去のインタラクションを分析し、個別の好みに合わせてレコメンデーションを調整することで、ユーザの次の関心項目を予測する。 知識理解と推論におけるLLM(Large Language Models)の強みを生かして、近年のアプローチでは、LLMを言語生成パラダイムを通じてシーケンシャルなレコメンデーションに応用している。 これらの手法は,Low-Rank Adaptation (LoRA) モジュールを用いて,ユーザ動作シーケンスをLLM微調整のプロンプトに変換する。 しかし、多様なユーザの行動にまたがるLoRAの均一な適用は、個々の変動を捉えるのに失敗することがある。 これらの課題に対処するため、我々は、LoRAとMixture of Experts (MoE)フレームワークを統合するインスタンスワイドLoRA(iLoRA)を提案する。 iLoRAはさまざまな専門家の配列を生成し、それぞれがユーザの好みの特定の側面をキャプチャし、シーケンス表現ガイドゲート関数を導入している。 このゲート関数は歴史的相互作用シーケンスを処理してリッチな表現を生成し、ゲーティングネットワークにカスタマイズされた専門家参加重みを出力させる。 この調整されたアプローチは、ネガティブな伝達を軽減し、多様な行動パターンに動的に適応する。 3つのベンチマークデータセットに対する大規模な実験は、iLoRAの有効性を示し、ユーザ固有の好みをキャプチャし、レコメンデーションの精度を向上させる既存の方法と比較して、その優れたパフォーマンスを強調している。

Sequential recommendation systems predict a user's next item of interest by analyzing past interactions, aligning recommendations with individual preferences. Leveraging the strengths of Large Language Models (LLMs) in knowledge comprehension and reasoning, recent approaches have applied LLMs to sequential recommendation through language generation paradigms. These methods convert user behavior sequences into prompts for LLM fine-tuning, utilizing Low-Rank Adaptation (LoRA) modules to refine recommendations. However, the uniform application of LoRA across diverse user behaviors sometimes fails to capture individual variability, leading to suboptimal performance and negative transfer between disparate sequences. To address these challenges, we propose Instance-wise LoRA (iLoRA), integrating LoRA with the Mixture of Experts (MoE) framework. iLoRA creates a diverse array of experts, each capturing specific aspects of user preferences, and introduces a sequence representation guided gate function. This gate function processes historical interaction sequences to generate enriched representations, guiding the gating network to output customized expert participation weights. This tailored approach mitigates negative transfer and dynamically adjusts to diverse behavior patterns. Extensive experiments on three benchmark datasets demonstrate the effectiveness of iLoRA, highlighting its superior performance compared to existing methods in capturing user-specific preferences and improving recommendation accuracy.
翻訳日:2024-08-20 15:23:23 公開日:2024-08-19
# NeuFlow v2:エッジデバイス上での高効率光フロー推定

NeuFlow v2: High-Efficiency Optical Flow Estimation on Edge Devices ( http://arxiv.org/abs/2408.10161v1 )

ライセンス: Link先を確認
Zhiyong Zhang, Aniket Gupta, Huaizu Jiang, Hanumant Singh, (参考訳) リアルタイムの高精度光フロー推定は,様々な実世界の応用に不可欠である。 最近の学習ベース光学フロー法は精度が高いが、計算コストがかなり高い場合が多い。 本稿では,高い精度と計算負荷の低減を両立させる高効率光流法を提案する。 NeuFlow v1に基づいて、より軽量なバックボーンと高速リファインメントモジュールを含む新しいコンポーネントを導入します。 これらのモジュールはどちらも、最先端の精度に近づきながら、計算要求を軽く保つのに役立つ。 他の最先端手法と比較して、我々のモデルは合成データと実世界のデータに匹敵する性能を維持しながら10x-70xの高速化を実現している。 これはJetson Orin Nanoで512x384解像度の画像を20FPS以上で実行することができる。 完全なトレーニングと評価のコードはhttps://github.com/neufieldrobotics/NeuFlow_v2で公開されている。

Real-time high-accuracy optical flow estimation is crucial for various real-world applications. While recent learning-based optical flow methods have achieved high accuracy, they often come with significant computational costs. In this paper, we propose a highly efficient optical flow method that balances high accuracy with reduced computational demands. Building upon NeuFlow v1, we introduce new components including a much more light-weight backbone and a fast refinement module. Both these modules help in keeping the computational demands light while providing close to state of the art accuracy. Compares to other state of the art methods, our model achieves a 10x-70x speedup while maintaining comparable performance on both synthetic and real-world data. It is capable of running at over 20 FPS on 512x384 resolution images on a Jetson Orin Nano. The full training and evaluation code is available at https://github.com/neufieldrobotics/NeuFlow_v2.
翻訳日:2024-08-20 15:23:23 公開日:2024-08-19
# 深層強化学習を用いた物理認識型コンビネーション・アセンブリ・プランニング

Physics-Aware Combinatorial Assembly Planning using Deep Reinforcement Learning ( http://arxiv.org/abs/2408.10162v1 )

ライセンス: Link先を確認
Ruixuan Liu, Alan Chen, Weiye Zhao, Changliu Liu, (参考訳) Combinatorのアセンブリは、標準化されたユニットプリミティブを使用して、ユーザ仕様を満たすオブジェクトを構築する。 レゴは組み合わさった組み立て用プラットフォームとして広く使われており、レゴブロックのようなユニットプリミティブを使って高度にカスタマイズ可能な3Dオブジェクトを作ることができる。 本稿では,レゴを用いた物理組立のシーケンス計画について検討する。 望ましいオブジェクトの形状を考えると、ターゲットオブジェクトを構築するためにレゴブロックを配置するための一連のアクションを見つけたいと思っています。 特に、計画されたアセンブリシーケンスが物理的に実行可能であることを保証することを目的としている。 しかし、コンビネータアセンブリのためのアセンブリシーケンス計画(ASP)は、そのコンビネータの性質上、膨大な数のコンビネータと複雑な制約のため、特に困難である。 これらの課題に対処するため,我々は,所望のオブジェクトを構築するために,ユニットプリミティブを逐次配置するための建設方針を学ぶために,深層強化学習を採用している。 具体的には、不正行為を効率的にフィルタリングし、政策学習を指導するオンライン物理対応アクションマスクを設計する。 最終的に,提案手法は,異なるレゴ構造を構築するために,物理的に有効な組立シーケンスの計画に成功していることを示す。 生成された建設計画は実際に実行できる。

Combinatorial assembly uses standardized unit primitives to build objects that satisfy user specifications. Lego is a widely used platform for combinatorial assembly, in which people use unit primitives (ie Lego bricks) to build highly customizable 3D objects. This paper studies sequence planning for physical combinatorial assembly using Lego. Given the shape of the desired object, we want to find a sequence of actions for placing Lego bricks to build the target object. In particular, we aim to ensure the planned assembly sequence is physically executable. However, assembly sequence planning (ASP) for combinatorial assembly is particularly challenging due to its combinatorial nature, ie the vast number of possible combinations and complex constraints. To address the challenges, we employ deep reinforcement learning to learn a construction policy for placing unit primitives sequentially to build the desired object. Specifically, we design an online physics-aware action mask that efficiently filters out invalid actions and guides policy learning. In the end, we demonstrate that the proposed method successfully plans physically valid assembly sequences for constructing different Lego structures. The generated construction plan can be executed in real.
翻訳日:2024-08-20 15:23:23 公開日:2024-08-19
# SMILE: プレトレーニング基礎モデルによる低ランクエキスパートのゼロショットスパース混合

SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models ( http://arxiv.org/abs/2408.10174v1 )

ライセンス: Link先を確認
Anke Tang, Li Shen, Yong Luo, Shuai Xie, Han Hu, Lefei Zhang, Bo Du, Dacheng Tao, (参考訳) 広範囲なデータセットの深層モデルトレーニングはコストを抑えつつあり、既存のモデルから知識を活用するための深層モデル融合技術が広く採用されている。 単純なウェイト平均化からAdaMergingのようなより洗練されたメソッドまで、モデル融合はモデルの性能を効果的に改善し、新しいモデルの開発を加速します。 しかし、個々のモデルのパラメータ間の潜在的な干渉と融合進行における解釈可能性の欠如は重要な課題である。 既存の手法は、しばしばパラメータ干渉の問題を、その大きさや符号などのパラメータの属性を評価したり、パラメータのプルーニングによって解決しようとする。 本研究では,線形層をサブスペース解析のレンズで微調整し,パラメータ干渉をこの問題に光を当てるための最適化問題として明確に定義することから始める。 その後,ゼロショット・スパース・ミクチャー・オブ・ローランクエキスパート(SMILE)構築と呼ばれるモデル融合の革新的アプローチを導入し,余分なデータやトレーニングを伴わずに,ソースモデルをMoEモデルにアップスケーリングできるようにする。 私たちのアプローチは、微調整が主にトレーニング前の重要な部分を維持することに依存していますが、新しいタスクに適応するためには、重要または未使用の領域があまり使われません。 また、元のパラメータ空間で本質的に抽出可能なパラメータ干渉の問題は、次元を拡大することで管理できる。 画像分類やテキスト一般化タスク,フル微調整,LoRA微調整など,さまざまなシナリオを対象とした広範な実験を行い,SMILEの適応性と拡張性を強調した大規模言語モデル(CLIPモデル,Flan-T5モデル,Mistral-7Bモデル)に適用する。 コードはhttps://github.com/tanganke/fusion_benchで入手できる。

Deep model training on extensive datasets is increasingly becoming cost-prohibitive, prompting the widespread adoption of deep model fusion techniques to leverage knowledge from pre-existing models. From simple weight averaging to more sophisticated methods like AdaMerging, model fusion effectively improves model performance and accelerates the development of new models. However, potential interference between parameters of individual models and the lack of interpretability in the fusion progress remain significant challenges. Existing methods often try to resolve the parameter interference issue by evaluating attributes of parameters, such as their magnitude or sign, or by parameter pruning. In this study, we begin by examining the fine-tuning of linear layers through the lens of subspace analysis and explicitly define parameter interference as an optimization problem to shed light on this subject. Subsequently, we introduce an innovative approach to model fusion called zero-shot Sparse MIxture of Low-rank Experts (SMILE) construction, which allows for the upscaling of source models into an MoE model without extra data or further training. Our approach relies on the observation that fine-tuning mostly keeps the important parts from the pre-training, but it uses less significant or unused areas to adapt to new tasks. Also, the issue of parameter interference, which is intrinsically intractable in the original parameter space, can be managed by expanding the dimensions. We conduct extensive experiments across diverse scenarios, such as image classification and text generalization tasks, using full fine-tuning and LoRA fine-tuning, and we apply our method to large language models (CLIP models, Flan-T5 models, and Mistral-7B models), highlighting the adaptability and scalability of SMILE. Code is available at https://github.com/tanganke/fusion_bench
翻訳日:2024-08-20 15:23:23 公開日:2024-08-19
# 被カバーの公正性:顔認識における咬合の影響評価

Fairness Under Cover: Evaluating the Impact of Occlusions on Demographic Bias in Facial Recognition ( http://arxiv.org/abs/2408.10175v1 )

ライセンス: Link先を確認
Rafael M. Mamede, Pedro C. Neto, Ana F. Sequeira, (参考訳) 本研究では,オクルージョンが顔認識システムの公平性に及ぼす影響について検討し,特に人口統計学的偏見に着目した。 The Racial Faces in the Wild (RFW) データセットを用いて, BUPT-Balanced および BUPT-GlobalFace データセットで訓練した顔認識モデルの性能評価を行った。 等価オッド, デモグラフィパリティ, 精度のSTD, 公正不一致率に応じて, FMR, FNMR, 精度の分散が増大し, 公正度も低下する。 さらに、モデル予測におけるオクルージョンの重要性を理解するために画素属性法を用いて、オクルージョンがモデル性能に影響を与える範囲を定量化する新しい指標であるFace Occlusion Impact Ratio(FOIR)を提案する。 その結果,オクルージョンが既存の人口バイアスを悪化させ,オクルージョンに重きを置くモデルが不平等な方法で,特にアフリカ人個人に深刻な影響を及ぼすことが示唆された。

This study investigates the effects of occlusions on the fairness of face recognition systems, particularly focusing on demographic biases. Using the Racial Faces in the Wild (RFW) dataset and synthetically added realistic occlusions, we evaluate their effect on the performance of face recognition models trained on the BUPT-Balanced and BUPT-GlobalFace datasets. We note increases in the dispersion of FMR, FNMR, and accuracy alongside decreases in fairness according to Equilized Odds, Demographic Parity, STD of Accuracy, and Fairness Discrepancy Rate. Additionally, we utilize a pixel attribution method to understand the importance of occlusions in model predictions, proposing a new metric, Face Occlusion Impact Ratio (FOIR), that quantifies the extent to which occlusions affect model performance across different demographic groups. Our results indicate that occlusions exacerbate existing demographic biases, with models placing higher importance on occlusions in an unequal fashion, particularly affecting African individuals more severely.
翻訳日:2024-08-20 15:23:23 公開日:2024-08-19
# NeuRodin: 高忠実性ニューラルサーフェス再構築のための2段階フレームワーク

NeuRodin: A Two-stage Framework for High-Fidelity Neural Surface Reconstruction ( http://arxiv.org/abs/2408.10178v1 )

ライセンス: Link先を確認
Yifan Wang, Di Huang, Weicai Ye, Guofeng Zhang, Wanli Ouyang, Tong He, (参考訳) サイン付き距離関数 (SDF) を用いたボリュームレンダリングは, 表面再構成において有意な機能を示した。 有望ではあるが、SDFベースの手法は、しばしば詳細な幾何学的構造を捉えず、目に見える欠陥をもたらす。 SDFベースボリュームレンダリングと密度ベースボリュームレンダリングを比較することにより,SDFベースアプローチにおける表面品質を劣化させる2つの主要な要因,すなわちSDF-to-density表現と幾何正規化を同定する。 これらの要因は、SDFフィールドの最適化を妨げる課題をもたらす。 これらの問題に対処するため,ニューロディンは,高忠実度表面再構成を実現するだけでなく,密度ベース手法のフレキシブルな最適化特性も維持する,新しい2段階のニューロディン(NeuRodin)を導入している。 NeuRodinは任意のトポロジの変換を促進し、密度バイアスに関連するアーティファクトを減らす革新的な戦略を取り入れている。 タンクとテンプルとScanNet++データセットの大規模な評価は、NeuRodinの優位性を示し、RGBキャプチャのみを使用した屋内環境と屋外環境の両方で強力な再構築能力を示している。 プロジェクトウェブサイト: https://open3dvlab.github.io/NeuRodin/

Signed Distance Function (SDF)-based volume rendering has demonstrated significant capabilities in surface reconstruction. Although promising, SDF-based methods often fail to capture detailed geometric structures, resulting in visible defects. By comparing SDF-based volume rendering to density-based volume rendering, we identify two main factors within the SDF-based approach that degrade surface quality: SDF-to-density representation and geometric regularization. These factors introduce challenges that hinder the optimization of the SDF field. To address these issues, we introduce NeuRodin, a novel two-stage neural surface reconstruction framework that not only achieves high-fidelity surface reconstruction but also retains the flexible optimization characteristics of density-based methods. NeuRodin incorporates innovative strategies that facilitate transformation of arbitrary topologies and reduce artifacts associated with density bias. Extensive evaluations on the Tanks and Temples and ScanNet++ datasets demonstrate the superiority of NeuRodin, showing strong reconstruction capabilities for both indoor and outdoor environments using solely posed RGB captures. Project website: https://open3dvlab.github.io/NeuRodin/
翻訳日:2024-08-20 15:13:19 公開日:2024-08-19
# 改良された特徴ピラミッドネットワークを用いた不均衡を考慮したCulvert-Swer欠陥分割

Imbalance-Aware Culvert-Sewer Defect Segmentation Using an Enhanced Feature Pyramid Network ( http://arxiv.org/abs/2408.10181v1 )

ライセンス: Link先を確認
Rasha Alshawi, Md Meftahul Ferdaus, Mahdi Abdelguerfi, Kendall Niles, Ken Pathak, Steve Sloan, (参考訳) 不均衡データセットは、現実世界のシナリオにおいて重要な課題である。 これらは、インフラ検査において重要な問題である、表現不足のクラスで過小評価されるモデルに導かれる。 本稿では,不均衡なデータセット内でのインバータと下水道管のセマンティックセグメンテーションのためのディープラーニングモデルである拡張特徴ピラミッドネットワーク(E-FPN)を紹介する。 E-FPNは、疎結合なブロックや奥行きの分離可能な畳み込みのようなアーキテクチャの革新を取り入れ、特徴抽出を改善し、オブジェクトのバリエーションを処理する。 データセットの不均衡に対処するため、モデルはクラス分解やデータ拡張のような戦略を採用している。 E-FPNは最先端の手法よりも優れており、平均的なIoU(Intersection over Union)の改善は13.8%と27.2%である。 さらに、クラス分解とデータ拡張が組み合わさって、モデルの性能を約6.9%向上させる。 提案したE-FPNは、課題の多いマルチクラスの実世界のデータセットにおいて、オブジェクトセグメンテーションを強化するための有望なソリューションを提供する。

Imbalanced datasets are a significant challenge in real-world scenarios. They lead to models that underperform on underrepresented classes, which is a critical issue in infrastructure inspection. This paper introduces the Enhanced Feature Pyramid Network (E-FPN), a deep learning model for the semantic segmentation of culverts and sewer pipes within imbalanced datasets. The E-FPN incorporates architectural innovations like sparsely connected blocks and depth-wise separable convolutions to improve feature extraction and handle object variations. To address dataset imbalance, the model employs strategies like class decomposition and data augmentation. Experimental results on the culvert-sewer defects dataset and a benchmark aerial semantic segmentation drone dataset show that the E-FPN outperforms state-of-the-art methods, achieving an average Intersection over Union (IoU) improvement of 13.8% and 27.2%, respectively. Additionally, class decomposition and data augmentation together boost the model's performance by approximately 6.9% IoU. The proposed E-FPN presents a promising solution for enhancing object segmentation in challenging, multi-class real-world datasets, with potential applications extending beyond culvert-sewer defect detection.
翻訳日:2024-08-20 15:13:19 公開日:2024-08-19
# 浮き沈み物検出のための分光法の評価

Assessment of Spectral based Solutions for the Detection of Floating Marine Debris ( http://arxiv.org/abs/2408.10187v1 )

ライセンス: Link先を確認
Muhammad Alì, Francesca Razzano, Sergio Vitale, Giampaolo Ferraioli, Vito Pascazio, Gilda Schirinzi, Silvia Ullo, (参考訳) 通常、海洋の破片の検出は、巨大な人的努力と限られた空間範囲によって特徴づけられる、その場でのキャンペーンに依存している。 近年, 浮遊プラスチックの迅速検出法の必要性から, リモートセンシングデータに基づく手法が提案されている。 主な制限は、パフォーマンスを評価するための一般的な参照がないことである。 近年,MARIDA (Marine Debris Archive) が,マリンプラスチックデブリ検出のための機械学習(ML)アルゴリズムの開発と評価のための標準データセットとしてリリースされた。 MARIDAデータセットは, 海洋環境保全分野の研究を刺激する目的で, 検出ソリューションの比較を簡略化するために作成されている。 そこで本研究では,MARIDAデータセットの性能評価により,スペクトルベースソリューションの評価を提案する。 その結果、公正な評価のための正確な基準の必要性が浮き彫りになった。

Typically, the detection of marine debris relies on in-situ campaigns that are characterized by huge human effort and limited spatial coverage. Following the need of a rapid solution for the detection of floating plastic, methods based on remote sensing data have been proposed recently. Their main limitation is represented by the lack of a general reference for evaluating performance. Recently, the Marine Debris Archive (MARIDA) has been released as a standard dataset to develop and evaluate Machine Learning (ML) algorithms for detection of Marine Plastic Debris. The MARIDA dataset has been created for simplifying the comparison between detection solutions with the aim of stimulating the research in the field of marine environment preservation. In this work, an assessment of spectral based solutions is proposed by evaluating performance on MARIDA dataset. The outcome highlights the need of precise reference for fair evaluation.
翻訳日:2024-08-20 15:13:19 公開日:2024-08-19
# LongVILA:ロングビデオのためのロングコンテキストビジュアル言語モデルのスケーリング

LongVILA: Scaling Long-Context Visual Language Models for Long Videos ( http://arxiv.org/abs/2408.10188v1 )

ライセンス: Link先を確認
Fuzhao Xue, Yukang Chen, Dacheng Li, Qinghao Hu, Ligeng Zhu, Xiuyu Li, Yunhao Fang, Haotian Tang, Shang Yang, Zhijian Liu, Ethan He, Hongxu Yin, Pavlo Molchanov, Jan Kautz, Linxi Fan, Yuke Zhu, Yao Lu, Song Han, (参考訳) マルチモーダル基礎モデルの長文化は重要である。 私たちはLongVILAを紹介します。LongVILAは、システム、モデルトレーニング、データセット開発を含む、長期コンテキストの視覚言語モデルのためのフルスタックソリューションです。 システム側では、256GPU上での2Mコンテキスト長トレーニングを実現するために、長いコンテキストトレーニングと推論を可能にする最初のマルチモーダルシーケンス並列システム(MM-SP)を導入する。 MM-SPはRing-Style Sequence Parallelismより2.1x - 5.7倍、Megatron-LMより1.4倍高速である。 さらに、Hugging Face Transformersとシームレスに統合される。 モデルトレーニングでは,アライメント,事前学習,コンテキスト拡張,ロングショートジョイントの微調整を含む5段階のパイプラインを提案する。 データセットに関しては、大規模ビジュアル言語事前学習データセットと長時間のビデオ命令追従データセットを慎重に構築し、マルチステージトレーニングプロセスをサポートする。 フルスタックソリューションは、VILAの実行可能なフレーム数を128(8フレームから1024フレーム)に拡張し、長いビデオキャプションスコアを2.00から3.26(1.6x)に改善し、1400コマのビデオ針(274kコンテキスト長)の精度を99.5%向上させる。 LongVILA-8Bはまた、ビデオフレームが増加するにつれて、ビデオMMEベンチマーク内での長いビデオのパフォーマンスが一貫した改善を示す。

Long-context capability is critical for multi-modal foundation models. We introduce LongVILA, a full-stack solution for long-context vision-language models, including system, model training, and dataset development. On the system side, we introduce the first Multi-Modal Sequence Parallelism (MM-SP) system that enables long-context training and inference, enabling 2M context length training on 256 GPUs. MM-SP is also efficient, being 2.1x - 5.7x faster than Ring-Style Sequence Parallelism and 1.1x - 1.4x faster than Megatron-LM in text-only settings. Moreover, it seamlessly integrates with Hugging Face Transformers. For model training, we propose a five-stage pipeline comprising alignment, pre-training, context extension, and long-short joint supervised fine-tuning. Regarding datasets, we meticulously construct large-scale visual language pre-training datasets and long video instruction-following datasets to support our multi-stage training process. The full-stack solution extends the feasible frame number of VILA by a factor of 128 (from 8 to 1024 frames) and improves long video captioning score from 2.00 to 3.26 (1.6x), achieving 99.5% accuracy in 1400-frames video (274k context length) needle in a haystack. LongVILA-8B also demonstrates a consistent improvement in performance on long videos within the VideoMME benchmark as the video frames increase.
翻訳日:2024-08-20 15:13:19 公開日:2024-08-19
# SSMへの変換:二次的知識を二次的モデルに蒸留する

Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models ( http://arxiv.org/abs/2408.10189v1 )

ライセンス: Link先を確認
Aviv Bick, Kevin Y. Li, Eric P. Xing, J. Zico Kolter, Albert Gu, (参考訳) トランスフォーマーアーキテクチャは言語モデリングのようなドメインにおいて支配的なパラダイムとなっているが、二次的な時間的自己認識のために多くの推論設定に悩まされている。 最近提案されたサブクワッドラティックアーキテクチャ(例えば、Mamba)は有望であるが、最強のTransformerモデルよりも計算資源が大幅に少ない状態で事前訓練されている。 本研究では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。 このアプローチの鍵となる考え方は、TransformerとSSMの両方を、トークンシーケンスに異なる形式の混合行列を適用するものとして見ることができるということです。 そこで我々は,まず混合行列自体をマッチングし,次に各ブロックに隠された単位を列挙し,最後にエンドツーエンドの予測を行うことによって,トランスフォーマーアーキテクチャを段階的に蒸留することができる。 提案手法はMOHAWKと呼ばれ、3Bトークンのみを用いてPhi-1.5アーキテクチャ(Phi-Mamba)と5Bトークンを用いてハイブリッドバージョン(Hybrid Phi-Mamba)を蒸留することができる。 Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。 MOHAWKは、SSMのようなモデルがTransformerベースのアーキテクチャのトレーニングに費やした計算資源を活用することを可能にする。

Transformer architectures have become a dominant paradigm for domains like language modeling but suffer in many inference settings due to their quadratic-time self-attention. Recently proposed subquadratic architectures, such as Mamba, have shown promise, but have been pretrained with substantially less computational resources than the strongest Transformer models. In this work, we present a method that is able to distill a pretrained Transformer architecture into alternative architectures such as state space models (SSMs). The key idea to our approach is that we can view both Transformers and SSMs as applying different forms of mixing matrices over the token sequences. We can thus progressively distill the Transformer architecture by matching different degrees of granularity in the SSM: first matching the mixing matrices themselves, then the hidden units at each block, and finally the end-to-end predictions. Our method, called MOHAWK, is able to distill a Mamba-2 variant based on the Phi-1.5 architecture (Phi-Mamba) using only 3B tokens and a hybrid version (Hybrid Phi-Mamba) using 5B tokens. Despite using less than 1% of the training data typically used to train models from scratch, Phi-Mamba boasts substantially stronger performance compared to all past open-source non-Transformer models. MOHAWK allows models like SSMs to leverage computational resources invested in training Transformer-based architectures, highlighting a new avenue for building such models.
翻訳日:2024-08-20 15:13:19 公開日:2024-08-19
# グラフに基づく人間の活動認識へのアプローチ

A Graph-based Approach to Human Activity Recognition ( http://arxiv.org/abs/2408.10191v1 )

ライセンス: Link先を確認
Thomas Peroutka, Ilir Murturi, Praveen Kumar Donta, Schahram Dustdar, (参考訳) 高度なウェアラブルセンサーデバイスは、身体活動に関する大量の動きデータを記録できる。 このデータは、身体活動が身体の健康と全体の生活の質にどのように貢献するかを理解するための貴重な洞察を提供する。 その結果、これらの急速に拡大するリアルタイムデータセットから重要な洞察を抽出する効率的な方法の必要性が高まっている。 本稿では,これらの拡張データセットから,プロスポーツに焦点を絞って重要な洞察を効果的に抽出する手法を提案する。 Inertial Measurement Units (IMU) と Global Navigation Satellite Systems (GNSS) の受信機からのデータを利用することで、複雑な動きの知識を符号化するために、有向グラフを用いて運動性能を解析することができる。 本手法は、バイアスロンデータに基づいて、興味のある特定の点や複雑な動きのシーケンスを検知し、人体性能の比較と解析を容易にする。

Advanced wearable sensor devices have enabled the recording of vast amounts of movement data from individuals regarding their physical activities. This data offers valuable insights that enhance our understanding of how physical activities contribute to improved physical health and overall quality of life. Consequently, there is a growing need for efficient methods to extract significant insights from these rapidly expanding real-time datasets. This paper presents a methodology to efficiently extract substantial insights from these expanding datasets, focusing on professional sports but applicable to various human activities. By utilizing data from Inertial Measurement Units (IMU) and Global Navigation Satellite Systems (GNSS) receivers, athletic performance can be analyzed using directed graphs to encode knowledge of complex movements. Our approach is demonstrated on biathlon data and detects specific points of interest and complex movement sequences, facilitating the comparison and analysis of human physical performance.
翻訳日:2024-08-20 15:13:19 公開日:2024-08-19
# ROC曲線下の領域は、二項分類における最も一貫性のある評価を有する

Area under the ROC Curve has the Most Consistent Evaluation for Binary Classification ( http://arxiv.org/abs/2408.10193v1 )

ライセンス: Link先を確認
Jing Li, (参考訳) 評価メトリクスは、二分分類タスクにおけるモデル評価とモデル選択にとって重要な問題である。 本研究では、異なるデータシナリオ下で異なるモデルを評価する上で、一貫性のあるメトリクスがどのように存在するかを検討する。 150以上のデータシナリオと18以上のモデル評価指標を統計シミュレーションを用いて分析したところ、バイナリ分類タスクでは、有病率の影響を受けない評価指標が、モデルの集合の一貫性のあるランキングを提供することがわかった。 特に、ROC曲線の下のエリア(AUC)は、異なるモデルのランキングにおいて最小のばらつきを持つ。 モデル性能のより厳密な尺度としてのマシューの相関係数は、2番目に小さな分散を持つ。 これらのパターンは、豊富なデータシナリオと、一般的な5つの機械学習モデルと、単純でランダムな推測モデルにまたがる。 その結果、2進分類タスクにおけるモデル評価とモデル選択に大きな影響を及ぼす。

Evaluation Metrics is an important question for model evaluation and model selection in binary classification tasks. This study investigates how consistent metrics are at evaluating different models under different data scenarios. Analyzing over 150 data scenarios and 18 model evaluation metrics using statistical simulation, I find that for binary classification tasks, evaluation metrics that are less influenced by prevalence offer more consistent ranking of a set of different models. In particular, Area Under the ROC Curve (AUC) has smallest variance in ranking of different models. Matthew's correlation coefficient as a more strict measure of model performance has the second smallest variance. These patterns holds across a rich set of data scenarios and five commonly used machine learning models as well as a naive random guess model. The results have significant implications for model evaluation and model selection in binary classification tasks.
翻訳日:2024-08-20 15:13:19 公開日:2024-08-19
# カオスのプローブとしてのクリロフ複雑性

Krylov Complexity as a Probe for Chaos ( http://arxiv.org/abs/2408.10194v1 )

ライセンス: Link先を確認
Mohsen Alishahiha, Souvik Banerjee, Mohammad Javad Vasli, (参考訳) 本研究では,Krylov複雑性の時間進化について詳細に検討する。 解析計算により、有限多体系において、ランプとプラトーはクリロフ複雑性の2つの一般的な特徴であるが、複雑性の飽和がシステムのカオス性を明らかにする方法を示す。 特に、飽和に対する力学がカオス系と可積分系を正確に区別していることが示される。 カオスモデルでは、複雑性の飽和値は有限飽和時間で無限の時間平均に達する。 この場合、初期状態によっては、飽和前にピークを示すこともある。 対照的に、積分可能なモデルでは、複雑性はより長い時間スケールで下から無限の時間平均値にアプローチする。 我々は、特定のスピンモデルに対する数値的な結果を用いて、この区別を確かめる。

In this work, we explore in detail, the time evolution of Krylov complexity. We demonstrate, through analytical computations, that in finite many-body systems, while ramp and plateau are two generic features of Krylov complexity, the manner in which complexity saturates reveals the chaotic nature of the system. In particular, we show that the dynamics towards saturation precisely distinguish between chaotic and integrable systems. For chaotic models, the saturation value of complexity reaches its infinite time average at a finite saturation time. In this case, depending on the initial state, it may also exhibit a peak before saturation. In contrast, in integrable models, complexity approaches the infinite time average value from below at a much longer timescale. We confirm this distinction using numerical results for specific spin models.
翻訳日:2024-08-20 15:13:19 公開日:2024-08-19
# SpaRP: スパースビューからの高速3次元オブジェクト再構成とポース推定

SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views ( http://arxiv.org/abs/2408.10195v1 )

ライセンス: Link先を確認
Chao Xu, Ang Li, Linghao Chen, Yulin Liu, Ruoxi Shi, Hao Su, Minghua Liu, (参考訳) オープンワールドの3D世代は、最近かなりの注目を集めている。 多くの単一画像から3Dの手法は視覚的に魅力的な結果をもたらすが、十分な制御性がなく、ユーザの期待に合わない幻覚領域を生成する傾向がある。 本稿では,1つのオブジェクトの1つまたは数つの未提示2次元画像からなり,ほとんどあるいは全く重複しない重要なシナリオについて考察する。 本稿では,3次元テクスチャメッシュを再構成し,これらのスパースビュー画像に対する相対カメラのポーズを推定する新しい手法であるスパRPを提案する。 SpaRPは2次元拡散モデルから知識を抽出し、それらを微調整し、スパースビュー間の3次元空間関係を暗黙的に推論する。 拡散モデルは、カメラポーズの代理表現と、既知のポーズの下でのオブジェクトのマルチビューイメージを協調的に予測し、入力されたスパースビューから全ての情報を統合するように訓練される。 これらの予測を3D再構成とポーズ推定に利用し、再構成された3Dモデルを用いて、入力ビューのカメラポーズをさらに洗練することができる。 3つのデータセットに対する広範囲な実験を通して,本手法は3次元再構成品質においてベースライン法を著しく上回り,予測精度が向上するだけでなく,高い効率性を示すことを示した。 テクスチャ化されたメッシュを生成するのに、わずか20秒しかかからず、カメラは入力ビューにポーズする。 プロジェクトページ: https://chaoxu.xyz/sparp.com

Open-world 3D generation has recently attracted considerable attention. While many single-image-to-3D methods have yielded visually appealing outcomes, they often lack sufficient controllability and tend to produce hallucinated regions that may not align with users' expectations. In this paper, we explore an important scenario in which the input consists of one or a few unposed 2D images of a single object, with little or no overlap. We propose a novel method, SpaRP, to reconstruct a 3D textured mesh and estimate the relative camera poses for these sparse-view images. SpaRP distills knowledge from 2D diffusion models and finetunes them to implicitly deduce the 3D spatial relationships between the sparse views. The diffusion model is trained to jointly predict surrogate representations for camera poses and multi-view images of the object under known poses, integrating all information from the input sparse views. These predictions are then leveraged to accomplish 3D reconstruction and pose estimation, and the reconstructed 3D model can be used to further refine the camera poses of input views. Through extensive experiments on three datasets, we demonstrate that our method not only significantly outperforms baseline methods in terms of 3D reconstruction quality and pose prediction accuracy but also exhibits strong efficiency. It requires only about 20 seconds to produce a textured mesh and camera poses for the input views. Project page: https://chaoxu.xyz/sparp.
翻訳日:2024-08-20 15:13:19 公開日:2024-08-19
# 分散型変圧器モデルにおける通信特性の最小化

Demystifying the Communication Characteristics for Distributed Transformer Models ( http://arxiv.org/abs/2408.10197v1 )

ライセンス: Link先を確認
Quentin Anthony, Benjamin Michalowicz, Jacob Hatef, Lang Xu, Mustafa Abduljabbar, Aamir Shafi, Hari Subramoni, Dhabaleswar Panda, (参考訳) トランスフォーマーアーキテクチャに基づくディープラーニング(DL)モデルは、大きな言語モデル(LLM)、ビジョントランスフォーマー、オーディオ生成、時系列予測など、多くのDLアプリケーションに革命をもたらした。 こうした進歩の多くは、分散トレーニングによって支えられてきましたが、分散コミュニケーションは、トレーニングの進捗に重大なボトルネックとして残っています。 本稿では, マルチノード/マルチGPU DL訓練において, トランスモデルの通信挙動, すなわち, マルチノード/マルチGPU DL訓練で使用される異なる並列化方式が, トランスの文脈でいかにデータ通信を行うかを検討する。 我々はGPTに基づく言語モデルをトランスフォーマーアーキテクチャの汎用性によるケーススタディとして用いている。 分析モデルを用いて,通信ログから得られた経験的結果を検証する。 高いレベルでは、より小さなメッセージポイント・ツー・ポイント通信の最適化、シーケンス長、GPU毎のスループット、モデルサイズ、最適化の相関、フレームワークとHPCミドルウェア設計と最適化におけるさらなる最適化の導出の必要性が明らかになっている。

Deep learning (DL) models based on the transformer architecture have revolutionized many DL applications such as large language models (LLMs), vision transformers, audio generation, and time series prediction. Much of this progress has been fueled by distributed training, yet distributed communication remains a substantial bottleneck to training progress. This paper examines the communication behavior of transformer models - that is, how different parallelism schemes used in multi-node/multi-GPU DL Training communicate data in the context of transformers. We use GPT-based language models as a case study of the transformer architecture due to their ubiquity. We validate the empirical results obtained from our communication logs using analytical models. At a high level, our analysis reveals a need to optimize small message point-to-point communication further, correlations between sequence length, per-GPU throughput, model size, and optimizations used, and where to potentially guide further optimizations in framework and HPC middleware design and optimization.
翻訳日:2024-08-20 15:13:19 公開日:2024-08-19
# MeshFormer: 3次元ガイド再構成モデルによる高品質メッシュ生成

MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model ( http://arxiv.org/abs/2408.10198v1 )

ライセンス: Link先を確認
Minghua Liu, Chong Zeng, Xinyue Wei, Ruoxi Shi, Linghao Chen, Chao Xu, Mengqi Zhang, Zhaoning Wang, Xiaoshuai Zhang, Isabella Liu, Hongzhi Wu, Hao Su, (参考訳) オープンワールドの3D再構築モデルは近年大きな注目を集めている。 しかし、十分な3Dインダクティブバイアスがなければ、既存の手法は通常、高価なトレーニングコストと高品質な3Dメッシュの抽出に苦労する。 本稿では,3次元ネイティブ構造,入力ガイダンス,トレーニング監督を明示的に活用したスパースビュー再構成モデルであるMeshFormerを紹介する。 具体的には、3次元の平面表現の代わりに、3次元のスパースボクセルに特徴を格納し、3次元の畳み込みと変換器を組み合わせて、明示的な3次元構造と射影バイアスを利用する。 スパースビューRGB入力に加えて,ネットワークが入力を受け取り,対応する正規地図を生成する必要がある。 入力された正規写像は2次元拡散モデルによって予測され、幾何学の学習の指導と洗練に大きく貢献する。 さらに,SDF(Signed Distance Function)の監視と表面レンダリングを組み合わせることで,複雑なマルチステージトレーニングプロセスを必要とせずに,高品質なメッシュを生成することを直接学習する。 これらの明示的な3Dバイアスを取り入れることで、MeshFormerを効率的にトレーニングし、きめ細かい幾何学的詳細を持った高品質なテクスチャメッシュを提供することができる。 また、2D拡散モデルと統合して、高速な単一像から3Dおよびテキストから3Dのタスクを可能にすることもできる。 プロジェクトページ: https://meshformer3d.github.io

Open-world 3D reconstruction models have recently garnered significant attention. However, without sufficient 3D inductive bias, existing methods typically entail expensive training costs and struggle to extract high-quality 3D meshes. In this work, we introduce MeshFormer, a sparse-view reconstruction model that explicitly leverages 3D native structure, input guidance, and training supervision. Specifically, instead of using a triplane representation, we store features in 3D sparse voxels and combine transformers with 3D convolutions to leverage an explicit 3D structure and projective bias. In addition to sparse-view RGB input, we require the network to take input and generate corresponding normal maps. The input normal maps can be predicted by 2D diffusion models, significantly aiding in the guidance and refinement of the geometry's learning. Moreover, by combining Signed Distance Function (SDF) supervision with surface rendering, we directly learn to generate high-quality meshes without the need for complex multi-stage training processes. By incorporating these explicit 3D biases, MeshFormer can be trained efficiently and deliver high-quality textured meshes with fine-grained geometric details. It can also be integrated with 2D diffusion models to enable fast single-image-to-3D and text-to-3D tasks. Project page: https://meshformer3d.github.io
翻訳日:2024-08-20 15:13:19 公開日:2024-08-19
# SoK: 実行時統合性

SoK: Runtime Integrity ( http://arxiv.org/abs/2408.10200v1 )

ライセンス: Link先を確認
Mahmoud Ammar, Adam Caulfield, Ivan De Oliveira Nunes, (参考訳) 本稿では,制御フローの整合性 (CFI) や制御フローの整合性 (CFA) などの実行時整合性機構を体系的に検討する。 目標、仮定、特徴、デザイン空間に関する重要な問題に対処しながら、彼らの違いと関係を調べます。 同一プラットフォーム上でのCFIとCFAの共存の可能性についても検討する。 本稿では,既存の防衛の総合的な見直しを通じて,CFIとCFAをランタイム防衛の広い視野に位置づけ,その強み,限界,トレードオフを批判的に評価する。 この発見は、CFIとCFAのギャップを埋めることの重要性を強調し、ランタイム防衛の分野を前進させた。

This paper provides a systematic exploration of runtime integrity mechanisms, such as Control Flow Integrity (CFI) and Control Flow Attestation (CFA). It examines their differences and relationships while addressing crucial questions about the goals, assumptions, features, and design spaces. It includes examining a potential coexistence of CFI and CFA on the same platform. Through a comprehensive review of existing defenses, this paper positions CFI and CFA within the broader landscape of runtime defenses, critically evaluating their strengths, limitations, and trade-offs. The findings emphasize the importance of further research to bridge the gaps between CFI and CFA, advancing the field of runtime defenses.
翻訳日:2024-08-20 15:13:19 公開日:2024-08-19
# SANER:CLIPを悪用するための注釈のない社会貢献ニュートラル化剤

SANER: Annotation-free Societal Attribute Neutralizer for Debiasing CLIP ( http://arxiv.org/abs/2408.10202v1 )

ライセンス: Link先を確認
Yusuke Hirota, Min-Hung Chen, Chien-Yi Wang, Yuta Nakashima, Yu-Chiang Frank Wang, Ryo Hachiuma, (参考訳) CLIPのような大規模視覚言語モデルは、保護された属性(例えば、性別、年齢)に関する有害な社会的バイアスを含むことが知られている。 本稿では,CLIPにおける社会的バイアスの問題に対処することを目的とする。 従来の研究では、対向学習やテストタイム・プロジェクションを通じて社会的バイアスを逸脱させることが提案されているが、これらの研究の包括的な研究は2つの重要な限界を識別している。 1)入力で明示的に開示された場合の属性情報の喪失 2) Debiasingプロセスにおける属性アノテーションの使用。 CLIPにおける社会的バイアスを緩和し、これらの制限を同時に克服するために、属性中立記述のみによるCLIPテキストの特徴情報から属性情報を除去する、SANER(societal attribute neutralizer)と呼ばれる単純なyet- Effective debiasing法を導入する。 実験の結果,属性アノテーションを必要とせず,属性固有の記述のために元の情報を保存しているSANERは,既存の手法よりも優れた劣化能力を示すことがわかった。

Large-scale vision-language models, such as CLIP, are known to contain harmful societal bias regarding protected attributes (e.g., gender and age). In this paper, we aim to address the problems of societal bias in CLIP. Although previous studies have proposed to debias societal bias through adversarial learning or test-time projecting, our comprehensive study of these works identifies two critical limitations: 1) loss of attribute information when it is explicitly disclosed in the input and 2) use of the attribute annotations during debiasing process. To mitigate societal bias in CLIP and overcome these limitations simultaneously, we introduce a simple-yet-effective debiasing method called SANER (societal attribute neutralizer) that eliminates attribute information from CLIP text features only of attribute-neutral descriptions. Experimental results show that SANER, which does not require attribute annotations and preserves original information for attribute-specific descriptions, demonstrates superior debiasing ability than the existing methods.
翻訳日:2024-08-20 15:13:19 公開日:2024-08-19
# パラメータ効率による性能向上のためのCLAT(Critity Leveraged Adversarial Training)

Criticality Leveraged Adversarial Training (CLAT) for Boosted Performance via Parameter Efficiency ( http://arxiv.org/abs/2408.10204v1 )

ライセンス: Link先を確認
Bhavna Gopal, Huanrui Yang, Jingyang Zhang, Mark Horton, Yiran Chen, (参考訳) 敵対的トレーニングはニューラルネットワークの堅牢性を高めるが、過度に適合する傾向にあり、クリーンデータに対する一般化エラーが増大する。 CLATは、パラメータ効率を学習プロセスに導入することで、敵のオーバーフィッティングを軽減し、クリーンな精度と敵のロバスト性の両方を改善した革新的なアプローチである。 CLATは、モデル全体をチューニングする代わりに、ロバストでない特徴を主に学習するような、ロバスト性クリティカルな層を特定し、その一方で、残りのモデルを凍結してロバスト性を高める。 動的臨界層選択を使用して、微調整プロセス全体を通して層臨界度の変化に適応する。 実験的に、CLATは既存の対向訓練法の上に適用でき、トレーニング可能なパラメータの数を約95%削減し、ベースライン法と比較して対向的ロバスト性は2%以上向上する。

Adversarial training enhances neural network robustness but suffers from a tendency to overfit and increased generalization errors on clean data. This work introduces CLAT, an innovative approach that mitigates adversarial overfitting by introducing parameter efficiency into the adversarial training process, improving both clean accuracy and adversarial robustness. Instead of tuning the entire model, CLAT identifies and fine-tunes robustness-critical layers - those predominantly learning non-robust features - while freezing the remaining model to enhance robustness. It employs dynamic critical layer selection to adapt to changes in layer criticality throughout the fine-tuning process. Empirically, CLAT can be applied on top of existing adversarial training methods, significantly reduces the number of trainable parameters by approximately 95%, and achieves more than a 2% improvement in adversarial robustness compared to baseline methods.
翻訳日:2024-08-20 15:13:19 公開日:2024-08-19
# Kan 2.0: Kolmogorov-Arnold Networks Meet Science

KAN 2.0: Kolmogorov-Arnold Networks Meet Science ( http://arxiv.org/abs/2408.10205v1 )

ライセンス: Link先を確認
Ziming Liu, Pingchuan Ma, Yixuan Wang, Wojciech Matusik, Max Tegmark, (参考訳) 今日のAIは主にコネクショナリズムに基づいており、科学はシンボリズムに依存している。 両世界を橋渡しするために,KAN(Kolmogorov-Arnold Networks)と科学をシームレスにシナジする枠組みを提案する。 このフレームワークは、科学的な発見の3つの側面、すなわち関連する特徴の特定、モジュール構造を明らかにすること、象徴的な公式の発見について、カンズが用いていることを強調している。 科学からカンへの(科学的な)科学、科学への(科学的な)科学への(科学的な洞察をカンから抽出する)という二方向のシナジーである。 1)MultKAN:kans with multiplication node。 2)kanpiler: シンボル式をkans.(3) tree converterにコンパイルするkanコンパイラ:kans(または任意のニューラルネットワーク)をtree graphに変換する。 これらのツールを用いて,保存量,ラグランジアン,対称性,構成法則など,様々な物理法則を発見できるカンの能力を実証する。

A major challenge of AI + Science lies in their inherent incompatibility: today's AI is primarily based on connectionism, while science depends on symbolism. To bridge the two worlds, we propose a framework to seamlessly synergize Kolmogorov-Arnold Networks (KANs) and science. The framework highlights KANs' usage for three aspects of scientific discovery: identifying relevant features, revealing modular structures, and discovering symbolic formulas. The synergy is bidirectional: science to KAN (incorporating scientific knowledge into KANs), and KAN to science (extracting scientific insights from KANs). We highlight major new functionalities in the pykan package: (1) MultKAN: KANs with multiplication nodes. (2) kanpiler: a KAN compiler that compiles symbolic formulas into KANs. (3) tree converter: convert KANs (or any neural networks) to tree graphs. Based on these tools, we demonstrate KANs' capability to discover various types of physical laws, including conserved quantities, Lagrangians, symmetries, and constitutive laws.
翻訳日:2024-08-20 15:13:19 公開日:2024-08-19
# 最適輸送による協調的マルチソースドメイン適応

Collaborative Multi-source Domain Adaptation Through Optimal Transport ( http://arxiv.org/abs/2404.06599v3 )

ライセンス: Link先を確認
Omar Ghannou, Younès Bennani, (参考訳) マルチソースドメイン適応(MDA)は、複数のラベル付きソースドメインのデータに基づいてトレーニングされたモデルを適用し、ソースデータへのアクセスを前提として、ラベルなしのターゲットドメインデータに対して効果的に実行する。 モデル適応とデータプライバシの課題に対処するために,2つの重要なフェーズからなる新しいフレームワークであるCMDA-OT(Collaborative MDA Through Optimal Transport)を導入する。 第1フェーズでは、各ソースドメインは最適なトランスポートメソッドを使用して、ターゲットドメインに独立して適合する。 第2フェーズでは、集中的な協調学習アーキテクチャが採用され、NソースからのNモデルをデータにアクセスせずに集約することで、プライバシを保護する。 このプロセスの間、サーバはターゲットの検証サブセットとして知られるターゲットドメインからの擬似ラベル付きサンプルの小さなセットを利用して、適応を洗練し、ガイドする。 この二重フェーズアプローチは、ターゲットドメインのモデルパフォーマンスを改善するだけでなく、ドメイン適応に固有の重要なプライバシー問題にも対処する。

Multi-source Domain Adaptation (MDA) seeks to adapt models trained on data from multiple labeled source domains to perform effectively on an unlabeled target domain data, assuming access to sources data. To address the challenges of model adaptation and data privacy, we introduce Collaborative MDA Through Optimal Transport (CMDA-OT), a novel framework consisting of two key phases. In the first phase, each source domain is independently adapted to the target domain using optimal transport methods. In the second phase, a centralized collaborative learning architecture is employed, which aggregates the N models from the N sources without accessing their data, thereby safeguarding privacy. During this process, the server leverages a small set of pseudo-labeled samples from the target domain, known as the target validation subset, to refine and guide the adaptation. This dual-phase approach not only improves model performance on the target domain but also addresses vital privacy challenges inherent in domain adaptation.
翻訳日:2024-08-20 13:17:05 公開日:2024-08-19
# EUvsDisinfo:ニュース記事におけるプロクレムリン情報の多言語検出用データセット

EUvsDisinfo: a Dataset for Multilingual Detection of Pro-Kremlin Disinformation in News Articles ( http://arxiv.org/abs/2406.12614v3 )

ライセンス: Link先を確認
João A. Leite, Olesya Razuvayevskaya, Kalina Bontcheva, Carolina Scarton, (参考訳) この研究は、EUvsDisinfoという、親クレムリンのアウトレットから派生した偽情報の多言語データセットを紹介し、信頼できる/バイアスの少ない情報源からの信頼できる記事を紹介している。 EUvsDisinfoプロジェクトのリーダーである専門家によって書かれたデバンク記事から直接引用されている。 我々のデータセットは、記事の総数と異なる言語に関して、これまでで最大のリソースです。 また、最大の話題や時間的報道も提供している。 本データセットを用いて,異なる言語にまたがるプロクレムリン情報の拡散について検討し,特定の非情報トピックを対象とする言語固有のパターンを明らかにする。 さらに、2022年のウクライナ侵攻以前には、偽情報の内容が顕著に急増していたことを指摘し、8年間の話題分布の進化を分析した。 最後に、トレーニングモデルにおけるデータセットの適用性を示し、多言語設定における偽情報と信頼できるコンテンツを効果的に区別する。

This work introduces EUvsDisinfo, a multilingual dataset of disinformation articles originating from pro-Kremlin outlets, along with trustworthy articles from credible / less biased sources. It is sourced directly from the debunk articles written by experts leading the EUvsDisinfo project. Our dataset is the largest to-date resource in terms of the overall number of articles and distinct languages. It also provides the largest topical and temporal coverage. Using this dataset, we investigate the dissemination of pro-Kremlin disinformation across different languages, uncovering language-specific patterns targeting certain disinformation topics. We further analyse the evolution of topic distribution over an eight-year period, noting a significant surge in disinformation content before the full-scale invasion of Ukraine in 2022. Lastly, we demonstrate the dataset's applicability in training models to effectively distinguish between disinformation and trustworthy content in multilingual settings.
翻訳日:2024-08-20 13:17:05 公開日:2024-08-19
# オーディオ・ビジュアル・ディープフェイク検出のための一級学習を用いたマルチストリーム融合手法

A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection ( http://arxiv.org/abs/2406.14176v3 )

ライセンス: Link先を確認
Kyungbok Lee, You Zhang, Zhiyao Duan, (参考訳) 本稿では,ロバストな音声・視覚深度検出モデルを開発する上での課題について述べる。 実用的なユースケースでは、新しい世代アルゴリズムが絶えず出現し、検出方法の開発中にこれらのアルゴリズムは遭遇しない。 これにより、メソッドの一般化能力が要求される。 さらに,検出手法の信頼性を確保するため,ビデオからの手がかりが偽であることを示すかをモデルで解釈することが有用である。 そこで我々は,表現レベルの正規化手法として,一級学習を用いたマルチストリーム融合手法を提案する。 本研究では、既存のFakeAVCelebデータセットを拡張して再分割することで、新しいベンチマークを作成することで、オーディオ・ビジュアル・ディープフェイク検出の一般化問題について検討する。 このベンチマークには、フェイクビデオの4つのカテゴリが含まれている(Real Audio-Fake Visual、Fake Audio-Fake Visual、Fake Audio-Real Visual、Unsynchronized Video)。 実験の結果,提案手法は従来のモデルよりも大きなマージンで優れていることが示された。 さらに,本提案フレームワークは解釈可能性を提供し,モデルがどのモダリティを偽である可能性が高いかを示す。 ソースコードはhttps://github.com/bok-bok/MSOCで公開されている。

This paper addresses the challenge of developing a robust audio-visual deepfake detection model. In practical use cases, new generation algorithms are continually emerging, and these algorithms are not encountered during the development of detection methods. This calls for the generalization ability of the method. Additionally, to ensure the credibility of detection methods, it is beneficial for the model to interpret which cues from the video indicate it is fake. Motivated by these considerations, we then propose a multi-stream fusion approach with one-class learning as a representation-level regularization technique. We study the generalization problem of audio-visual deepfake detection by creating a new benchmark by extending and re-splitting the existing FakeAVCeleb dataset. The benchmark contains four categories of fake videos (Real Audio-Fake Visual, Fake Audio-Fake Visual, Fake Audio-Real Visual, and Unsynchronized videos). The experimental results demonstrate that our approach surpasses the previous models by a large margin. Furthermore, our proposed framework offers interpretability, indicating which modality the model identifies as more likely to be fake. The source code is released at https://github.com/bok-bok/MSOC.
翻訳日:2024-08-20 13:17:05 公開日:2024-08-19
# 高次ボロノイ図を用いた外周部を有するPCAの最適境界

Optimal Bound for PCA with Outliers using Higher-Degree Voronoi Diagrams ( http://arxiv.org/abs/2408.06867v2 )

ライセンス: Link先を確認
Sajjad Hashemian, Mohammad Saeed Arvenaghi, Ebrahim Ardeshir-Larijani, (参考訳) 本稿では,主成分分析(PCA)のためのアルゴリズムについて紹介する。 計算幾何学,特に高次ボロノイ図を用いた手法を用いて,外接点が存在する場合でも,PCAの最適部分空間にナビゲートする。 このアプローチは、$n^{d+\mathcal{O}(1)}\text{poly}(n,d)$の時間複雑性を持つ最適解を得る。 さらに,2.^{\mathcal{O}(r(d-r))} \times \text{poly}(n,d)$の複雑性を持つランダム化アルゴリズムを提案する。 このアルゴリズムはグラスマン多様体の項で特徴づけられる部分空間をサンプリングする。 このようなサンプリング手法を用いることで、最適部分空間を捕捉する確率が高く、成功確率は 1 - \delta)^T$ となる。 ここで、$\delta$ は標本化された部分空間が最適解を含まない確率を表し、$T$ は標本化された部分空間の個数であり、これは $2^{r(d-r)}$ に比例する。 我々の高次ボロノイ図とグラスマン型サンプリングの使用は、特に大規模データセットや高次元設定を扱う際に、より明確な概念的経路と実用的な利点をもたらす。

In this paper, we introduce new algorithms for Principal Component Analysis (PCA) with outliers. Utilizing techniques from computational geometry, specifically higher-degree Voronoi diagrams, we navigate to the optimal subspace for PCA even in the presence of outliers. This approach achieves an optimal solution with a time complexity of $n^{d+\mathcal{O}(1)}\text{poly}(n,d)$. Additionally, we present a randomized algorithm with a complexity of $2^{\mathcal{O}(r(d-r))} \times \text{poly}(n, d)$. This algorithm samples subspaces characterized in terms of a Grassmannian manifold. By employing such sampling method, we ensure a high likelihood of capturing the optimal subspace, with the success probability $(1 - \delta)^T$. Where $\delta$ represents the probability that a sampled subspace does not contain the optimal solution, and $T$ is the number of subspaces sampled, proportional to $2^{r(d-r)}$. Our use of higher-degree Voronoi diagrams and Grassmannian based sampling offers a clearer conceptual pathway and practical advantages, particularly in handling large datasets or higher-dimensional settings.
翻訳日:2024-08-20 13:17:05 公開日:2024-08-19
# Kolmogorov-Arnold Networks (KAN) による時系列分類とロバスト解析

Kolmogorov-Arnold Networks (KAN) for Time Series Classification and Robust Analysis ( http://arxiv.org/abs/2408.07314v2 )

ライセンス: Link先を確認
Chang Dong, Liangwei Zheng, Weitong Chen, Wei Emma Zhang, (参考訳) Kolmogorov-Arnold Networks (KAN)は、MLP(Multi-Layer Perceptrons)に代わる有望な代替品として、最近大きな注目を集めている。 理論上は魅力的だが、Kaninは大規模なベンチマークデータセットの検証を必要とする。 近年ますます普及している時系列データ,特に単変量時系列は,カンの検証に自然に適している。 そこで我々はkan, MLP, 混合構造の比較を行った。 結果から,kanは128の時系列データセットにまたがるMPPに匹敵する,あるいはやや優れた性能を達成できることが示唆された。 また,Kanに対するアブレーション実験を行い,b-スプライン関数の代わりに基成分によって出力が決定されることを明らかにした。 さらに, これらのモデルのロバスト性を評価した結果, カンとハイブリッド構造 MLP\_KAN はリプシッツ定数が低いため, 高いロバスト性を持つことがわかった。 これは、カン層とカン層がロバストモデルである可能性や、他のモデルの対角的ロバスト性を改善する可能性を持っていることを示唆している。

Kolmogorov-Arnold Networks (KAN) has recently attracted significant attention as a promising alternative to traditional Multi-Layer Perceptrons (MLP). Despite their theoretical appeal, KAN require validation on large-scale benchmark datasets. Time series data, which has become increasingly prevalent in recent years, especially univariate time series are naturally suited for validating KAN. Therefore, we conducted a fair comparison among KAN, MLP, and mixed structures. The results indicate that KAN can achieve performance comparable to, or even slightly better than, MLP across 128 time series datasets. We also performed an ablation study on KAN, revealing that the output is primarily determined by the base component instead of b-spline function. Furthermore, we assessed the robustness of these models and found that KAN and the hybrid structure MLP\_KAN exhibit significant robustness advantages, attributed to their lower Lipschitz constants. This suggests that KAN and KAN layers hold strong potential to be robust models or to improve the adversarial robustness of other models.
翻訳日:2024-08-20 13:17:05 公開日:2024-08-19
# MagicFace: トレーニング不要のユニバーサルスタイルの人体画像カスタマイズ合成

MagicFace: Training-free Universal-Style Human Image Customized Synthesis ( http://arxiv.org/abs/2408.07433v3 )

ライセンス: Link先を確認
Yibin Wang, Weizhong Zhang, Cheng Jin, (参考訳) 人間の画像にカスタマイズされた合成のための最先端の手法は、通常、大規模なデータセットで面倒な訓練を必要とする。 このような場合、見知らぬスタイルの個人を人格化するのに過度に適合し、苦労する傾向にある。 さらに、これらの手法は、単一概念の人間の画像合成に重点を置いており、複数の概念を持つ個人をカスタマイズするために必要な柔軟性が欠如しているため、より広範な実践的応用を妨げている。 そこで本研究では,マルチコンセプトのカスタマイズを実現し,参照概念的特徴を画素レベルの潜在生成領域に正確に統合することで,汎用的な画像パーソナライズ合成のための新たなトレーニングフリー手法であるMagicFaceを提案する。 具体的には、MagicFaceは、セマンティックなレイアウト構築とコンセプト機能インジェクションという、2つのシーケンシャルステージを含む粗大な生成パイプラインを導入している。 これは、参照認識自己注意(RSA)と地域グループブレンド注意(RBA)機構によって達成される。 第1段階では、RSAにより、潜在画像がすべての参照概念から特徴を同時にクエリすることができ、全体的な意味理解を抽出して、初期意味的レイアウトの設定を容易にする。 第2段階では、各ステップですべての概念の潜在生成領域を特定するために、注意に基づくセマンティックセマンティックセマンティックセマンティクス法を用いる。 その後、RAAは潜像のピクセルをセマンティックグループに分割し、各グループが対応する参照概念から細かな特徴をクエリし、正確な属性アライメントと特徴注入を保証する。 生成プロセスを通じて、モデルが参照概念をより重視するように、重み付けマスク戦略が採用されている。 広汎な実験は、人間中心の被写体画像合成とマルチコンセプトの人間の画像カスタマイズの両方において、MagicFaceの優位性を実証している。

Current state-of-the-art methods for human image customized synthesis typically require tedious training on large-scale datasets. In such cases, they are prone to overfitting and struggle to personalize individuals of unseen styles. Moreover, these methods extensively focus on single-concept human image synthesis and lack the flexibility needed for customizing individuals with multiple given concepts, thereby impeding their broader practical application. To this end, we propose MagicFace, a novel training-free method for universal-style human image personalized synthesis, enabling multi-concept customization by accurately integrating reference concept features into their latent generated region at the pixel level. Specifically, MagicFace introduces a coarse-to-fine generation pipeline, involving two sequential stages: semantic layout construction and concept feature injection. This is achieved by our Reference-aware Self-Attention (RSA) and Region-grouped Blend Attention (RBA) mechanisms. In the first stage, RSA enables the latent image to query features from all reference concepts simultaneously, extracting the overall semantic understanding to facilitate the initial semantic layout establishment. In the second stage, we employ an attention-based semantic segmentation method to pinpoint the latent generated regions of all concepts at each step. Following this, RBA divides the pixels of the latent image into semantic groups, with each group querying fine-grained features from the corresponding reference concept, which ensures precise attribute alignment and feature injection. Throughout the generation process, a weighted mask strategy is employed to ensure the model focuses more on the reference concepts. Extensive experiments demonstrate the superiority of MagicFace in both human-centric subject-to-image synthesis and multi-concept human image customization.
翻訳日:2024-08-20 13:17:05 公開日:2024-08-19
# 精製ロジットによる知識蒸留

Knowledge Distillation with Refined Logits ( http://arxiv.org/abs/2408.07703v2 )

ライセンス: Link先を確認
Wujie Sun, Defang Chen, Siwei Lyu, Genlang Chen, Chun Chen, Can Wang, (参考訳) 知識蒸留に関する最近の研究は, モデル圧縮における簡便さ, 有効性, 汎用性から, ロジット蒸留に注目が集まっている。 本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。 提案手法は, 高性能教師モデルでも誤った予測が可能であり, 標準蒸留損失とクロスエントロピー損失との矛盾を生じさせる。 この対立は、学生モデルの学習目標の整合性を損なう可能性がある。 教師の予測を経験的に正すためにラベルを使用する以前の試みは、クラス相関を損なう可能性がある。 対照的に、我々のRTDは、教師のロジットを動的に洗練するためにラベリング情報を使用している。 このようにして、本手法は、重要なクラス相関を保ちながら、教師からの誤解を招く情報を効果的に排除し、蒸留知識の価値と効率を高めることができる。 CIFAR-100とImageNetの実験結果は、既存の手法よりも優れていることを示している。 コードは、text{https://github.com/zju-SWJ/RLD}で提供される。

Recent research on knowledge distillation has increasingly focused on logit distillation because of its simplicity, effectiveness, and versatility in model compression. In this paper, we introduce Refined Logit Distillation (RLD) to address the limitations of current logit distillation methods. Our approach is motivated by the observation that even high-performing teacher models can make incorrect predictions, creating a conflict between the standard distillation loss and the cross-entropy loss. This conflict can undermine the consistency of the student model's learning objectives. Previous attempts to use labels to empirically correct teacher predictions may undermine the class correlation. In contrast, our RLD employs labeling information to dynamically refine teacher logits. In this way, our method can effectively eliminate misleading information from the teacher while preserving crucial class correlations, thus enhancing the value and efficiency of distilled knowledge. Experimental results on CIFAR-100 and ImageNet demonstrate its superiority over existing methods. The code is provided at \text{https://github.com/zju-SWJ/RLD}.
翻訳日:2024-08-20 13:08:14 公開日:2024-08-19
# FlashGS: 大規模かつ高解像度レンダリングのための効率的な3Dガウススプレイティング

FlashGS: Efficient 3D Gaussian Splatting for Large-scale and High-resolution Rendering ( http://arxiv.org/abs/2408.07967v2 )

ライセンス: Link先を確認
Guofeng Feng, Siyan Chen, Rong Fu, Zimu Liao, Yi Wang, Tao Liu, Zhilin Pei, Hengjie Li, Xingcheng Zhang, Bo Dai, (参考訳) この研究は、アルゴリズムとカーネルレベルの最適化を通じて、3D Gaussian Splattingの効率的な微分可能ラスタ化を容易にするために設計されたオープンソースのCUDA PythonライブラリであるFlashGSを紹介する。 FlashGSは、レンダリングプロセスの包括的な解析に基づいて開発され、計算効率を向上し、広く採用されている。 本論文は, 冗長性除去, 効率的なパイプライニング, 洗練された制御とスケジューリング機構, メモリアクセス最適化を含む一連の最適化手法を含む。 FlashGSの性能の広範な評価は、様々な画像解像度を含む様々な合成および実世界の大規模シーンで行われている。 実証的な結果は、FlashGSが一貫して、メモリ消費の削減とともに、モバイルの消費者向けGPUよりも平均4倍の加速を実現していることを示している。 これらの結果は、FlashGSの優れたパフォーマンスとリソース最適化能力を強調し、それを3Dレンダリングの領域における恐ろしいツールとして位置づけている。

This work introduces FlashGS, an open-source CUDA Python library, designed to facilitate the efficient differentiable rasterization of 3D Gaussian Splatting through algorithmic and kernel-level optimizations. FlashGS is developed based on the observations from a comprehensive analysis of the rendering process to enhance computational efficiency and bring the technique to wide adoption. The paper includes a suite of optimization strategies, encompassing redundancy elimination, efficient pipelining, refined control and scheduling mechanisms, and memory access optimizations, all of which are meticulously integrated to amplify the performance of the rasterization process. An extensive evaluation of FlashGS' performance has been conducted across a diverse spectrum of synthetic and real-world large-scale scenes, encompassing a variety of image resolutions. The empirical findings demonstrate that FlashGS consistently achieves an average 4x acceleration over mobile consumer GPUs, coupled with reduced memory consumption. These results underscore the superior performance and resource optimization capabilities of FlashGS, positioning it as a formidable tool in the domain of 3D rendering.
翻訳日:2024-08-20 13:08:14 公開日:2024-08-19
# 通信のない結合と引き数不変な投機的復号化

Coupling without Communication and Drafter-Invariant Speculative Decoding ( http://arxiv.org/abs/2408.07978v2 )

ライセンス: Link先を確認
Majid Daliri, Christopher Musco, Ananda Theertha Suresh, (参考訳) アリスが分布$P$を持ち、ボブが分布$Q$を持っていると仮定する。 Alice はサンプル $a\sim P$ と Bob のサンプル $b \sim Q$ を生成したいので、$a = b$ は可能な限り高い確率を持つ。 分布間の最適結合からサンプリングすることで、アリスとボブは$Pr[a = b] = 1 - D_{TV}(P,Q)$を得ることができ、$D_{TV}(P,Q)$は全変動距離である。 もしAliceとBobがコミュニケーションなしで同じ問題を解決しなければならないとしたら? おそらく、公開ランダム性にアクセスしても、$Pr[a=b] \geq \frac{1-D_{TV}(P,Q)}{1+D_{TV}(P,Q) \geq 1-2D_{TV}(P,Q)$を達成することができる。 実際、この境界はWeighted MinHashアルゴリズムに基づいた単純なプロトコルで得ることができる。 本研究では,コミュニケーション自由結合問題をより深く検討する。 まず、Gumbelサンプリングに基づく等しく単純なプロトコルは、Weighted MinHashアプローチの最悪のケース保証と一致するが、実際のパフォーマンスは向上する傾向にあることを示す。 通信のないプロトコルでは、最悪の場合、$Pr[a=b]>\frac{1-D_{TV}(P,Q)}{1+D_{TV}(P,Q)$を達成できない。 最後に、$n$以上の分布に対して、$O(\log(n/\epsilon))$ bits of communication を用いて$Pr[a = b] = 1 - D_{TV}(P,Q) - \epsilon$,すなわち、本質的に最適結合に一致するようなスキームが存在することを証明する。 提案手法は, 自動回帰型大言語モデル (Leviathan, Kalman, Matias, ICML 2023) を高速化する手法である。 通信不要なプロトコルは、投機的復号法(Drafter-Invariant Speculative Decoding, Drafter-Invariant Speculative Decoding)と呼ばれる、投機的復号法の一種であることを示す。

Suppose Alice has a distribution $P$ and Bob has a distribution $Q$. Alice wants to generate a sample $a\sim P$ and Bob a sample $b \sim Q$ such that $a = b$ with has as high of probability as possible. It is well-known that, by sampling from an optimal coupling between the distributions, Alice and Bob can achieve $Pr[a = b] = 1 - D_{TV}(P,Q)$, where $D_{TV}(P,Q)$ is the total variation distance. What if Alice and Bob must solve this same problem without communicating at all? Perhaps surprisingly, with access to public randomness, they can still achieve $Pr[a=b] \geq \frac{1-D_{TV}(P,Q)}{1+D_{TV}(P,Q)} \geq 1-2D_{TV}(P,Q)$. In fact, this bound can be obtained using a simple protocol based on the Weighted MinHash algorithm. In this work, we explore the communication-free coupling problem in greater depth. First, we show that an equally simple protocol based on Gumbel sampling matches the worst-case guarantees of the Weighted MinHash approach, but tends to perform better in practice. Conversely, we prove that both approaches are actually sharp: no communication-free protocol can achieve $Pr[a=b]>\frac{1-D_{TV}(P,Q)}{1+D_{TV}(P,Q)}$ in the worst-case. Finally, we prove that, for distributions over $n$ items, there exists a scheme that uses just $O(\log(n/\epsilon))$ bits of communication to achieve $Pr[a = b] = 1 - D_{TV}(P,Q) - \epsilon$, i.e. to essentially match optimal coupling. Beyond our theoretical results, we demonstrate an application of communication-free coupling to speculative decoding, a recent method for accelerating autoregressive large language models [Leviathan, Kalman, Matias, ICML 2023]. We show that communication-free protocols yield a variant of speculative decoding that we call Drafter-Invariant Speculative Decoding, which has the desirable property that the output of the method is fixed given a fixed random seed, regardless of what drafter is used for speculation.
翻訳日:2024-08-20 13:08:14 公開日:2024-08-19
# フルラベルを超えて:赤外線小ターゲットラベル生成のためのシングルポイントプロンプト

Beyond Full Label: Single-Point Prompt for Infrared Small Target Label Generation ( http://arxiv.org/abs/2408.08191v3 )

ライセンス: Link先を確認
Shuai Yuan, Hanlin Qin, Renke Kou, Xiang Yan, Zechuan Li, Chenxu Peng, Abd-Krim Seghouane, (参考訳) 本研究では、赤外線小ターゲットラベル生成(IRSTLG)のための学習に基づく単一点アノテーションパラダイムを構築するための最初の試みを行う。 IRSTLGは、目標位置ヒントを持つ赤外線小目標検出(IRSTD)タスクとみなすことができる。 この知見に基づき,エネルギー二重誘導単点プロンプト(EDGSP)フレームワークを導入し,ターゲット検出ネットワークを改良されたラベル生成手法に適応的に変換する。 具体的には,提案されているEDGSPには以下のものがある。 1)擬似ラベルの十分な形状形成のための基礎的概要を作成するための目標エネルギー初期化(TEI)。 2ダブルプロンプト埋め込み(DPE)は、興味のある領域の迅速な局在とラベルの付着を避けるための個人差の強化を目的としている。 3) ボックスベースマッチング(BBM)による誤報の排除。 実験結果から,SIRST,NUDT-SIRST,IRSTD-1kデータセットにおいて,EDGSPを用いた3つのベースラインが生成する擬似ラベルが100%のオブジェクトレベル検出確率(Pd)と0%の偽アラームレート(Fa)を達成できた。 下流IRSTDの実践的応用において、EDGSPはフルラベルを超える単一点生成仮面を初めて認識する。 粗い単一ポイントアノテーションであっても、完全なラベル付けのパフォーマンスは99.5%である。

In this work, we make the first attempt to construct a learning-based single-point annotation paradigm for infrared small target label generation (IRSTLG). Our intuition is that label generation requires just one more point prompt than target detection: IRSTLG can be regarded as an infrared small target detection (IRSTD) task with the target location hint. Based on this insight, we introduce an energy double guided single-point prompt (EDGSP) framework, which adeptly transforms the target detection network into a refined label generation method. Specifically, the proposed EDGSP includes: 1) target energy initialization (TEI) to create a foundational outline for sufficient shape evolution of pseudo label, 2) double prompt embedding (DPE) for rapid localization of interested regions and reinforcement of individual differences to avoid label adhesion, and 3) bounding box-based matching (BBM) to eliminate false alarms. Experimental results show that pseudo labels generated by three baselines equipped with EDGSP achieve 100% object-level probability of detection (Pd) and 0% false-alarm rate (Fa) on SIRST, NUDT-SIRST, and IRSTD-1k datasets, with a pixel-level intersection over union (IoU) improvement of 13.28% over state-of-the-art (SOTA) label generation methods. In the practical application of downstream IRSTD, EDGSP realizes, for the first time, a single-point generated pseudo mask beyond the full label. Even with coarse single-point annotations, it still achieves 99.5% performance of full labeling.
翻訳日:2024-08-20 13:08:14 公開日:2024-08-19
# 生体物理モデルフリー深部MRIによるヒト脳組織の高周波励起応答のデコード

Decoding the human brain tissue response to radiofrequency excitation using a biophysical-model-free deep MRI on a chip framework ( http://arxiv.org/abs/2408.08376v2 )

ライセンス: Link先を確認
Dinor Nagar, Moritz Zaiss, Or Perlman, (参考訳) MRIはプロトンスピンの高周波励起に依存している。 臨床診断には、複数のMRIコントラストを介して生体データを包括的に照合する必要がある。 そこで我々は、時空間磁気信号の進化を捉え、RF励起による脳組織応答をデコードし、チップ上のMRIを構成する視覚トランスフォーマーベースのフレームワークを開発した。 物体ごとの急速校正スキャン(28.2秒)の後、完全に定量的な分子、水緩和、磁場マップを含む様々な画像コントラストを自動生成できる。 この手法は、健常者と2つの異なる画像部位のがん患者で検証され、代替プロトコルよりも94%高速であることが判明した。 チップ(DeepMonC)フレームワーク上のディープMRIは、ヒトの脳組織の分子組成を幅広い病理組織で明らかにし、臨床的に魅力的なスキャンタイムを提供する。

Magnetic resonance imaging (MRI) relies on radiofrequency (RF) excitation of proton spin. Clinical diagnosis requires a comprehensive collation of biophysical data via multiple MRI contrasts, acquired using a series of RF sequences that lead to lengthy examinations. Here, we developed a vision transformer-based framework that captures the spatiotemporal magnetic signal evolution and decodes the brain tissue response to RF excitation, constituting an MRI on a chip. Following a per-subject rapid calibration scan (28.2 s), a wide variety of image contrasts including fully quantitative molecular, water relaxation, and magnetic field maps can be generated automatically. The method was validated across healthy subjects and a cancer patient in two different imaging sites, and proved to be 94% faster than alternative protocols. The deep MRI on a chip (DeepMonC) framework may reveal the molecular composition of the human brain tissue in a wide range of pathologies, while offering clinically attractive scan times.
翻訳日:2024-08-20 13:08:14 公開日:2024-08-19
# 熱媒質中の電場混合-量子マスター方程式のアプローチ

Field mixing in a thermal medium: A quantum master equation approach ( http://arxiv.org/abs/2408.08460v2 )

ライセンス: Link先を確認
Shuyang Cao, (参考訳) 本研究では,2つの(擬似)スカラー場を媒体内の共通減衰チャネルに結合させることによって誘導される間接混合の非平衡ダイナミクスについて検討した。 二つの場の還元密度行列に対する実効的な非マルコフ量子マスター方程式(QME)は、2つの場の媒体とのカップリングの先頭順序に導かれるが、媒体内の自由度間のカップリングの全ての順序に導かれる。 QMEの自己エネルギーおよびノイズカーネルは、変動散逸関係を満たす。 この解は、あるフィールドの初期期待値(凝縮値)が間接混合により他のフィールドの凝縮を誘導し、2つのフィールドの集団とコヒーレンスが熱化し、漸近的に非消滅値に近づくことを示す。 ほぼ退縮する磁場質量と結合強度は共鳴的に量子ビートと漸近コヒーレンスを高め、カップリングのスイッチオン後に真空の顕著なダイナミクスを誘導する。 我々は、漸近的極限における平衡状態の計算と一致する結果を得るために、真空の変化による粒子の時間依存的な定義を導入する必要があると論じる。 結合強度階層は、ほぼ縮退した場合の共振強度の増大を分解するが、観測可能な大きさの結合強度と進化の時間スケールの異なるパワーカウントにつながり、実際的な実験期間で準備された短寿命粒子を用いて超長寿命粒子を検出する可能性が示唆された。

We studied the nonequilibrium dynamics of the indirect mixing of two (pseudo-)scalar fields induced by their couplings to common decay channels in a medium. The effective non-Markovian quantum master equation (QME) for the two fields' reduced density matrix is derived to leading order in the couplings of the two fields with the medium, but to all orders of the couplings among degrees of freedom in the medium. The self-energy and noise-kernel in the QME satisfy a fluctuation-dissipation relation. The solutions show that an initial expectation value (condensate) of one field induces a condensate of the other field through the indirect mixing and that the populations and coherence of the two fields thermalize and approach to non-vanishing values asymptotically. The nearly-degenerate field masses and coupling strengths resonantly enhance the quantum beats and asymptotic coherence, and induce a prominent dynamics of the vacuum after the switch-on of the couplings. We argue that a time-dependent definitions of particles due to the changing vacuum must be introduced so as to obtain results consistent with the calculations of equilibrium states in the asymptotic limit. A coupling strength hierarchy breaks down the resonant enhancement in the nearly-degenerate case but leads to different power countings of the coupling strengths in the magnitudes of the observables and time-scales in the evolution, suggesting the possibility of detecting extremely long-lived particles using prepared short-lived particles within a practical experimental period.
翻訳日:2024-08-20 13:08:14 公開日:2024-08-19
# モデルが重要: ローカルおよび中央の差別化プライバシに対する正確なプライバシ期待の設定

Models Matter: Setting Accurate Privacy Expectations for Local and Central Differential Privacy ( http://arxiv.org/abs/2408.08475v2 )

ライセンス: Link先を確認
Mary Anne Smart, Priyanka Nanayakkara, Rachel Cummings, Gabriel Kaptchuk, Elissa Redmiles, (参考訳) 差別化プライバシーは、業界と政府機関の両方に展開されている一般的なプライバシー強化技術である。 残念ながら、差分プライバシに関する既存の説明では、デプロイメントモデルの選択に依存するデータ対象に対する正確なプライバシの期待を定めていない。 ローカルモデルと中央モデルの差分プライバシーに関する新たな説明を設計し、評価し、他のプライバシー強化技術を説明する先行研究からインスピレーションを得た。 その結果、プライバシー保護ラベルのスタイルに焦点を絞った説明が、差分プライバシーの影響を浮き彫りにしていることが、正確なプライバシー期待を設定する上で有望なアプローチであることに気付きました。 さらに、プロセスに焦点を当てた説明は、正確なプライバシー期待を設定するには不十分であるが、結果に焦点を当てた説明と、差分プライバシーがどのように機能するかの簡単な説明を組み合わせることで、より信頼性を高めることができる。

Differential privacy is a popular privacy-enhancing technology that has been deployed both in industry and government agencies. Unfortunately, existing explanations of differential privacy fail to set accurate privacy expectations for data subjects, which depend on the choice of deployment model. We design and evaluate new explanations of differential privacy for the local and central models, drawing inspiration from prior work explaining other privacy-enhancing technologies. We find that consequences-focused explanations in the style of privacy nutrition labels that lay out the implications of differential privacy are a promising approach for setting accurate privacy expectations. Further, we find that while process-focused explanations are not enough to set accurate privacy expectations, combining consequences-focused explanations with a brief description of how differential privacy works leads to greater trust.
翻訳日:2024-08-20 13:08:14 公開日:2024-08-19
# ベイジアン・オペレーショナル・モーダル分析の新展開

A new perspective on Bayesian Operational Modal Analysis ( http://arxiv.org/abs/2408.08664v2 )

ライセンス: Link先を確認
Brandon J. O'Connell, Max D. Champneys, Timothy J. Rogers, (参考訳) オペレーショナル・モーダル・アナリティクス(OMA)の分野では、取得したモーダル情報は、航空宇宙、機械、オフショア、土木構造物の現在の状態を評価するために頻繁に使用される。 しかし、運用システムの確率性と強制情報の欠如は、一貫性のない結果をもたらす可能性がある。 したがって、OMAによる復元されたモーダルパラメータの不確かさの定量化は重要な意味を持つ。 本稿では,ベイズ確率部分空間同定法(SSI)を提案する。 ベイジアンOMAに対する既存のアプローチとは違い、階層的確率モデルが共分散駆動SSIのコアに埋め込まれている。 標準相関解析をベイズ同値に置換することにより、モーダル特性上の後部分布が得られる。 提案されたベイズ式に対して、マルコフ・チェイン・モンテカルロと変分ベイズという2つの推論スキームが提示される。 次に2つのケーススタディが検討される。 1つ目は、シミュレーションされた多自由度線形システムのデータを用いたベンチマーク研究である。 ベイズ平均値と従来のSSI値との間には良好な一致がみられたが, ベイズ平均値と従来のSSI値とは一致しない。 第2の研究では、サービス内構造から得られたデータに変分形式を適用した。 本研究の結果は1つのモデル順序で示され、安定化図を用いて示される。 回復後の不確実性を示し、古典的なSSI結果と比較する。 自然周波数と一致する平均値の後方分布は, 自然周波数から離れた値よりも低い分散を示すことが観察された。

In the field of operational modal analysis (OMA), obtained modal information is frequently used to assess the current state of aerospace, mechanical, offshore and civil structures. However, the stochasticity of operational systems and the lack of forcing information can lead to inconsistent results. Quantifying the uncertainty of the recovered modal parameters through OMA is therefore of significant value. In this article, a new perspective on Bayesian OMA is proposed: a Bayesian stochastic subspace identification (SSI) algorithm. Distinct from existing approaches to Bayesian OMA, a hierarchical probabilistic model is embedded at the core of covariance-driven SSI. Through substitution of canonical correlation analysis with a Bayesian equivalent, posterior distributions over the modal properties are obtained. Two inference schemes are presented for the proposed Bayesian formulation: Markov Chain Monte Carlo and variational Bayes. Two case studies are then explored. The first is benchmark study using data from a simulated, multi degree-of-freedom, linear system. Following application of Bayesian SSI, it is shown that the same posterior is targeted and recovered by both inference schemes, with good agreement between the posterior mean and the conventional SSI result. The second study applies the variational form to data obtained from an in-service structure: The Z24 bridge. The results of this study are presented at single model orders, and then using a stabilisation diagram. The recovered posterior uncertainty is presented and compared to the classic SSI result. It is observed that the posterior distributions with mean values coinciding with the natural frequencies exhibit lower variance than values situated away from the natural frequencies.
翻訳日:2024-08-20 13:08:14 公開日:2024-08-19
# MAT-SED:マスケリコンストラクタを用いた音響イベント検出のための事前学習型マスケリコンストラクタ

MAT-SED: A Masked Audio Transformer with Masked-Reconstruction Based Pre-training for Sound Event Detection ( http://arxiv.org/abs/2408.08673v2 )

ライセンス: Link先を確認
Pengfei Cai, Yan Song, Kang Li, Haoyu Song, Ian McLoughlin, (参考訳) 大規模なトレーニング済みトランスフォーマーエンコーダネットワークを利用する音響イベント検出(SED)手法は,最近のDCASE課題において有望な性能を示した。 しかし、主にラベル付きデータの不足のために、時間的依存をモデル化するためにRNNベースのコンテキストネットワークに依存している。 本研究では,マスク付き再構成に基づく事前学習モデルであるMAT-SEDを提案する。 具体的には、まず、相対的な位置エンコーディングを持つトランスフォーマーをコンテキストネットワークとして設計する。 エンコーダとコンテキストネットワークは、共に半教師付きで微調整される。 さらに,ローカライゼーション能力を高めるため,グローバルな特徴融合戦略を提案する。 DCASE2023 Task4におけるMAT-SEDの評価は最先端性能を超え,それぞれ0.587/0.896 PSDS1/PSDS2を達成した。

Sound event detection (SED) methods that leverage a large pre-trained Transformer encoder network have shown promising performance in recent DCASE challenges. However, they still rely on an RNN-based context network to model temporal dependencies, largely due to the scarcity of labeled data. In this work, we propose a pure Transformer-based SED model with masked-reconstruction based pre-training, termed MAT-SED. Specifically, a Transformer with relative positional encoding is first designed as the context network, pre-trained by the masked-reconstruction task on all available target data in a self-supervised way. Both the encoder and the context network are jointly fine-tuned in a semi-supervised manner. Furthermore, a global-local feature fusion strategy is proposed to enhance the localization capability. Evaluation of MAT-SED on DCASE2023 task4 surpasses state-of-the-art performance, achieving 0.587/0.896 PSDS1/PSDS2 respectively.
翻訳日:2024-08-20 13:08:14 公開日:2024-08-19
# SC-Rec:シークエンシャルレコメンデーションのための自己整合性レコメンデーションによるジェネレーティブレコメンデーションの強化

SC-Rec: Enhancing Generative Retrieval with Self-Consistent Reranking for Sequential Recommendation ( http://arxiv.org/abs/2408.08686v2 )

ライセンス: Link先を確認
Tongyoung Kim, Soojin Yoon, Seongku Kang, Jinyoung Yeo, Dongha Lee, (参考訳) 言語モデル(LM)は、高度な言語理解と生成能力のためにレコメンデーションシステムにますます採用されている。 生成検索に基づく最近のレコメンデータシステムは、LMの推論能力を利用して、ユーザのインタラクション履歴内のアイテムシーケンスに基づいて、次の項目のインデックストークンを直接生成している。 これまでの研究は主に、文章の意味や協調的な情報のみに基づく項目指標に重点を置いてきた。 しかし、これらの側面のスタンドアロンの有効性は実証されているものの、この情報の統合は未解明のままである。 詳細な分析の結果,異種項目の指標と多様な入力プロンプトから得られた知識に有意な差がみられ,相補性が高い可能性が示唆された。 本稿では,2つの異なる項目指標と複数のプロンプトテンプレートから多様な嗜好知識を学習する統合レコメンデーションシステムであるSC-Recを提案する。 さらに、SC-Recは、モデルの自己整合性を達成するために、異なる指標とプロンプトに基づいて推測される一連のランキング結果を集約する、新しいランク付け戦略を採用する。 実世界の3つのデータセットに対する実証的な評価は、SC-Recがシーケンシャルレコメンデーションのために最先端の手法をかなり上回り、モデルの様々な出力から補完的知識を効果的に組み込むことを示した。

Language Models (LMs) are increasingly employed in recommendation systems due to their advanced language understanding and generation capabilities. Recent recommender systems based on generative retrieval have leveraged the inferential abilities of LMs to directly generate the index tokens of the next item, based on item sequences within the user's interaction history. Previous studies have mostly focused on item indices based solely on textual semantic or collaborative information. However, although the standalone effectiveness of these aspects has been demonstrated, the integration of this information has remained unexplored. Our in-depth analysis finds that there is a significant difference in the knowledge captured by the model from heterogeneous item indices and diverse input prompts, which can have a high potential for complementarity. In this paper, we propose SC-Rec, a unified recommender system that learns diverse preference knowledge from two distinct item indices and multiple prompt templates. Furthermore, SC-Rec adopts a novel reranking strategy that aggregates a set of ranking results, inferred based on different indices and prompts, to achieve the self-consistency of the model. Our empirical evaluation on three real-world datasets demonstrates that SC-Rec considerably outperforms the state-of-the-art methods for sequential recommendation, effectively incorporating complementary knowledge from varied outputs of the model.
翻訳日:2024-08-20 13:08:14 公開日:2024-08-19
# LLM-as-a-judgeのためのドメイン特化評価セットの構築

Constructing Domain-Specific Evaluation Sets for LLM-as-a-judge ( http://arxiv.org/abs/2408.08808v2 )

ライセンス: Link先を確認
Ravi Raju, Swayambhoo Jain, Bo Li, Jonathan Li, Urmish Thakkar, (参考訳) 大規模言語モデル(LLM)は機械学習のランドスケープに革命をもたらしたが、現在のベンチマークは現実世界のアプリケーションでこれらのモデルの多様な振る舞いを捉えるのに不足していることが多い。 ベンチマークの有用性は、様々な能力(分離性)のモデルを明確に区別し、人間の好みと密接に一致させることによって決定される。 Alpaca-Eval 2.0 LC \cite{dubois2024length controlledalpacaevalsimpleway} や Arena-Hard v0.1 \cite{li2024crowdsourced} のような既存のフレームワークは、汎用的なクエリと法、医学、多言語コンテキストといったドメイン間の多様性の欠如によって制限されている。 本稿では,LLM-as-a-Judgeフレームワークに適した多種多様なドメイン固有の評価セットをキュレートする新しいデータパイプラインを導入することで,これらの制約に対処する。 提案手法では,手動キュレーション,半教師付き学習,クラスタ生成,階層化サンプリングを組み合わせることで,幅広いドメインや言語にまたがるバランスの取れた表現を確保する。 その結果、14のカテゴリにまたがる1573のサンプルを含む評価セットは、10の上位モデルに対して高い分離性 (84 %) を示し、Chatbot Arena と (0.915) スピアマン相関との一致 (84 %) を示す。 合意値は、AlpacaEval 2.0 LCより9倍、AlpacaEval 2.0 LCより20倍、Spearman係数は次のベストベンチマークより0.7倍、ベンチマークの有用性が大幅に向上したことを示している。 さらに、ユーザ定義カテゴリ間のモデルパフォーマンスのきめ細かい分析を可能にするオープンソースの評価ツールを提供し、実践者にとって貴重な洞察を提供する。 本研究は, LLM評価手法の透明性, 多様性, 有効性の向上に寄与する。

Large Language Models (LLMs) have revolutionized the landscape of machine learning, yet current benchmarks often fall short in capturing the diverse behavior of these models in real-world applications. A benchmark's usefulness is determined by its ability to clearly differentiate between models of varying capabilities (separability) and closely align with human preferences. Existing frameworks like Alpaca-Eval 2.0 LC \cite{dubois2024lengthcontrolledalpacaevalsimpleway} and Arena-Hard v0.1 \cite{li2024crowdsourced} are limited by their focus on general-purpose queries and lack of diversity across domains such as law, medicine, and multilingual contexts. In this paper, we address these limitations by introducing a novel data pipeline that curates diverse, domain-specific evaluation sets tailored for LLM-as-a-Judge frameworks. Our approach leverages a combination of manual curation, semi-supervised learning to generate clusters, and stratified sampling to ensure balanced representation across a wide range of domains and languages. The resulting evaluation set, which includes 1573 samples across 14 categories, demonstrates high separability (84\%) across ten top-ranked models, and agreement (84\%) with Chatbot Arena and (0.915) Spearman correlation. The agreement values are 9\% better than Arena Hard and 20\% better than AlpacaEval 2.0 LC, while the Spearman coefficient is 0.7 more than the next best benchmark, showcasing a significant improvement in the usefulness of the benchmark. We further provide an open-source evaluation tool that enables fine-grained analysis of model performance across user-defined categories, offering valuable insights for practitioners. This work contributes to the ongoing effort to enhance the transparency, diversity, and effectiveness of LLM evaluation methodologies.
翻訳日:2024-08-20 13:08:14 公開日:2024-08-19
# 信頼がゼロの時 - 疫病対策への自動化の脅威

When Trust is Zero Sum: Automation Threat to Epistemic Agency ( http://arxiv.org/abs/2408.08846v2 )

ライセンス: Link先を確認
Emmie Malone, Saleh Afroogh, Jason DCruz, Kush R Varshney, (参考訳) AI研究者や倫理学者は、自動化が人間の尊厳、自律性、そして仕事と結びつく個人的価値の感覚にもたらす脅威を長い間心配してきた。 通常、この問題に対する解決策は、自動化によって生じる失業数を減らす方法、失業した失業者を再訓練する方法、失業者の社会的影響を緩和する方法に焦点が当てられている。 しかし、労働者が仕事を維持している場合であっても、その内部の代理店は格段に格下げされる可能性がある。 例えば、人間の従業員はAIと一緒に働くかもしれませんが、意思決定は許されませんし、AIとの相談や合意なしに意思決定は許されません。 これは一種のてんかんの害(アイデンティティの偏見に基づいて配布されている場合の不正である可能性がある)である。 人事機関を減らし(人々が独立して行動する能力を制限する)、労働者の疫学機関を資格のある専門家として認識することができない。 この場合、労働者は自分に与えられる信頼を与えられません。 これは、誰もが仕事を続ける場合でも、人間の尊厳の問題が残ることを意味する。 さらに、人間の従業員と一緒に働くアルゴリズムを設計するなど、仕事の維持にフォーカスしたソリューションは、これらの害を和らげるだけである。 ここでは、従来のオートメーションの維持問題に対処する対人コラボレーションという代替設計ソリューションを提案し、また、職場でのAIと人間間の信頼の分配やてんかん害の大きな問題にも対処する。

AI researchers and ethicists have long worried about the threat that automation poses to human dignity, autonomy, and to the sense of personal value that is tied to work. Typically, proposed solutions to this problem focus on ways in which we can reduce the number of job losses which result from automation, ways to retrain those that lose their jobs, or ways to mitigate the social consequences of those job losses. However, even in cases where workers keep their jobs, their agency within them might be severely downgraded. For instance, human employees might work alongside AI but not be allowed to make decisions or not be allowed to make decisions without consulting with or coming to agreement with the AI. This is a kind of epistemic harm (which could be an injustice if it is distributed on the basis of identity prejudice). It diminishes human agency (in constraining people's ability to act independently), and it fails to recognize the workers' epistemic agency as qualified experts. Workers, in this case, aren't given the trust they are entitled to. This means that issues of human dignity remain even in cases where everyone keeps their job. Further, job retention focused solutions, such as designing an algorithm to work alongside the human employee, may only enable these harms. Here, we propose an alternative design solution, adversarial collaboration, which addresses the traditional retention problem of automation, but also addresses the larger underlying problem of epistemic harms and the distribution of trust between AI and humans in the workplace.
翻訳日:2024-08-20 13:08:14 公開日:2024-08-19
# PEDAL: 異なる例を用いた大規模言語モデルによるグレディデコーディングの強化

PEDAL: Enhancing Greedy Decoding with Large Language Models using Diverse Exemplars ( http://arxiv.org/abs/2408.08869v2 )

ライセンス: Link先を確認
Sumanth Prabhu, (参考訳) 自己整合性のような多様な推論経路を持つ自己認識技術は、大規模言語モデル(LLM)を用いたテキスト生成において顕著な性能向上を示した。 しかし、そのような手法は、複数の出力にまたがる正確な解答抽出プロセスの可用性に依存している。 さらに、比較的多くの出力トークンを生成するため、Greedy Decodingと比較して高い推論コストを取得する。 研究によると、自己整合性から得られる自由形式のテキスト出力は、LSMを用いて確実に集約し、最終的な出力を生成することができる。 さらに、近年のLSM推論の進歩により、プロンプトにおける多様な例の使用がLSM出力の多様性を誘導する能力を持っていることが示されている。 このような証明された技術は、テキスト生成において強化された結果を達成するために、自己組織化に基づくアプローチに容易に拡張できる。 本稿では,多種多様な模範的プロンプトの強みとLLMに基づくアグリゲーションを組み合わせたハイブリッドな自己認識手法であるPEDAL(Exemplar Diversity Aggregated using LLMs)を提案する。 一般公開されたSVAMPとARCデータセットから,PEDALは,自己整合性に基づくアプローチに比べて推論コストの低いGreedy Decodingベースの戦略よりも精度がよいことを示した。

Self-ensembling techniques with diverse reasoning paths such as Self-Consistency have demonstrated remarkable performance gains in text generation with Large Language Models (LLMs). However, such techniques depend on the availability of an accurate answer extraction process to aggregate across multiple outputs. Moreover, they acquire higher inference cost, in comparison to Greedy Decoding, due to generation of relatively higher number of output tokens. Research has shown that the free form text outputs from Self-Consistency can be aggregated reliably using LLMs to produce the final output. Additionally, recent advancements in LLM inference have demonstrated that usage of diverse exemplars in prompts have the ability to induce diversity in the LLM outputs. Such proven techniques can be easily extended to self-ensembling based approaches to achieve enhanced results in text generation. In this paper, we introduce PEDAL (Prompts based on Exemplar Diversity Aggregated using LLMs), a hybrid self-ensembling approach, that combines the strengths of diverse exemplar based prompts and LLM based aggregation to achieve improvement in overall performance. On the publicly available SVAMP and ARC datasets, our experiments reveal that PEDAL can achieve better accuracy than Greedy Decoding based strategies with lower inference cost compared to Self Consistency based approaches.
翻訳日:2024-08-20 13:08:14 公開日:2024-08-19